Was Sie über Confidential Computing für Data Science wissen müssen

By | January 22, 2024

Adam Lieberman, Leiter für künstliche Intelligenz und maschinelles Lernen bei Finastra.

Datenwissenschaft und künstliche Intelligenz ermöglichen es uns, komplexe Aufgaben zu erledigen, eine vereinfachte Automatisierung zu schaffen und intelligentere Produkte und Dienstleistungen zu entwickeln. Unsere Fähigkeit, wichtige und herausfordernde Probleme auf der ganzen Welt und im Finanzwesen zu lösen, hängt jedoch häufig vom Zugriff auf verteilte und isolierte Daten ab.

Die Sicherung des Zugriffs auf Daten kann schwierig sein, und das Verschieben physischer Datensätze kann noch schwieriger sein. Nützliche Datensätze können voller persönlich identifizierbarer Informationen (PII) sein, und der Zugriff darauf erfordert oft strenge Partnerschaftsvereinbarungen und NDAs. Es kann auch eine umfassende Zusammenarbeit und mehrere Übergaben zwischen den Teams erfordern.

Wenn Ingenieure für maschinelles Lernen und Datenwissenschaftler ein Problem nicht lösen können, sagen sie oft: „Wir haben nicht die richtigen Daten.“ Meistens sind die Daten jedoch vorhanden – aber nicht leicht zugänglich. Wie können wir also realistischerweise alle Daten der Welt auf völlig sichere und private Weise zusammenführen, um die Zusammenarbeit bei der Lösung der dringendsten Probleme zu fördern?

Die Antwort liegt in der Welt des Confidential Computing und der Remote Data Science, insbesondere im Konzept der föderierten Datennetzwerke. Ich glaube, dass Confidential Computing und Federated Data Networks (FDNs) für die Zukunft der Remote Data Science von großer Bedeutung sein werden – sowohl für die Verbesserung der Datensicherheit als auch für die Revolutionierung des Datenaustauschs im digitalen Zeitalter.

Confidential Computing und föderierte Datennetzwerke definiert

Confidential Computing ist eine sichere Technologie, die sicherstellt, dass Daten auch dann verschlüsselt und geschützt bleiben, wenn sie von einem Computer verarbeitet oder anderweitig verwendet werden. Dies erhöht die allgemeine Datensicherheit, indem die Vertraulichkeit sensibler Informationen gewahrt bleibt und sie sowohl während der Berechnung als auch im Ruhezustand vor unbefugtem Zugriff geschützt werden.

Föderierte Datennetzwerke sind Systeme, die aus unterschiedlichen Netzwerken bestehen und den Zugriff auf Daten ermöglichen, ohne diese direkt weiterzugeben. Sie werden häufig in Bereichen wie dem Gesundheitswesen, dem Finanzwesen und der Regierung eingesetzt, wo sensible Daten zwischen mehreren Parteien ausgetauscht werden, um Forschung, Analyse oder Entscheidungsfindung zu unterstützen.

Einfach ausgedrückt ist ein FDN wie ein Team von Bibliotheken, in dem jede Bibliothek (Knoten) den Überblick über ihre Bücher (Daten) behält. Wenn Sie eine Frage haben, gehen Sie nicht zu jeder Bibliothek, sondern die Bibliotheken tauschen ihre Informationen untereinander aus, um Ihre Frage zu beantworten, aber die Bücher verlassen nie ihre jeweilige Bibliothek. Auf diese Weise können Bibliotheken die Kontrolle über ihre eigenen Bücher behalten und gleichzeitig zu einer kollektiven Wissensbasis beitragen.

Stellen Sie sich nun vor, diese Bibliotheken wollten sicherstellen, dass die Informationen über ihre Bücher auch beim Teilen privat bleiben. Hier kommt Confidential Computing ins Spiel, eine Technologie, die Daten während der Verarbeitung verschlüsselt. Selbst wenn Bibliotheken Informationen über Bücher weitergeben, werden die Details geheim gehalten.

Anwendungsfälle

Föderierte Datennetzwerke und vertrauliches Computing arbeiten in Szenarien zusammen, in denen mehrere Parteien an Daten zusammenarbeiten, aber auch die Privatsphäre wahren möchten. Beispielsweise möchten im Gesundheitswesen verschiedene Krankenhäuser möglicherweise zu Forschungszwecken zusammenarbeiten, müssen jedoch sicherstellen, dass die Patientendaten vertraulich bleiben. Hier können Krankenhäuser ein Verbundnetzwerk bilden und Confidential Computing nutzen, um Daten sicher zu analysieren.

Ebenso können NDF und Confidential Computing in der Welt der Finanzdienstleistungen für Banken nützlich sein, die bei der Bekämpfung von Geldwäsche zusammenarbeiten möchten, ohne ihre Daten ausdrücklich miteinander zu teilen.

Der Zugriff auf qualitativ hochwertige Daten, die für die Entwicklung von Modellen für maschinelles Lernen von entscheidender Bedeutung sind, kann auch für Finanzdienstleistungsunternehmen eine Herausforderung darstellen. FDNs können einige dieser Probleme abmildern, indem sie einen sicheren Zugriff auf Daten ermöglichen, der sonst unerreichbar wäre. Zu den häufigsten Hindernissen beim Datenzugriff, die Datenwissenschaftlern durch Confidential Computing bei der Lösung helfen können, gehören:

• Datenschutz und Datensicherheit: Finanzdaten sind vertraulich und unterliegen strengen Datenschutzbestimmungen, was den Zugriff und die Weitergabe erschwert. Dies kann zu rechtlichen und ethischen Herausforderungen für Unternehmen führen, die Finanzdaten für maschinelle Lernzwecke sammeln, speichern und nutzen möchten.

• Datenqualität: Finanzdaten können komplex und unübersichtlich sein, was die Bereinigung und Vorverarbeitung für die Verwendung in Modellen des maschinellen Lernens erschwert. Es kann auch unvollständig sein oder Fehler enthalten, was die Genauigkeit und Zuverlässigkeit von Modellen für maschinelles Lernen beeinträchtigen kann.

• Datensilos: Finanzdaten sind oft über mehrere Systeme und Datenbanken verteilt, was den Zugriff und die Integration erschwert. Datensilos können es schwierig machen, umfassende Modelle für maschinelles Lernen zu erstellen, die Daten aus mehreren Quellen integrieren.

• Wettbewerbs- und proprietäre Daten: Finanzinstitute zögern möglicherweise, ihre Daten mit Wettbewerbern oder Drittanbietern zu teilen, was den Zugriff auf proprietäre Daten einschränkt, die zur Entwicklung robusterer Modelle für maschinelles Lernen verwendet werden könnten.

Grundsätzlich ermöglichen FDNs mehreren Parteien die Zusammenarbeit, ohne ihre Daten direkt weiterzugeben, während Confidential Computing dafür sorgt, dass diese Zusammenarbeit sicher und vertraulich erfolgt.

Wie fange ich an?

Um föderierte Datennetzwerke zu erlernen und zu entwickeln, muss man die Prinzipien und Technologien hinter dezentralen und verteilten Systemen verstehen.

Schritt 1. Verstehen Sie die Grundlagen der Dezentralisierung. Tauchen Sie ein in die Grundprinzipien und Grundlagen verteilter Systeme, Peer-to-Peer-Netzwerke und Dezentralisierung. Ein zentrales Konzept ist das Verständnis der Verwaltung und Verteilung von Daten in diesen Umgebungen.

Schritt 2. Verstehen Sie die Grundlagen des föderierten Lernens. Erfahren Sie mehr über die Prinzipien des föderierten Lernens, bei dem Modelle des maschinellen Lernens lokalisierte Daten und Schulungen auf dezentralen Geräten nutzen.

Schritt 3. Entdecken Sie Datensicherheit und Datenschutz. Techniken zur Wahrung der Privatsphäre sind die Grundlage föderierter Datennetzwerke und für den Austausch sensibler Daten von entscheidender Bedeutung. Zu den Schlüsselkonzepten gehören sichere Mehrparteienberechnung, differenzielle Privatsphäre und homomorphe Verschlüsselung.

Schritt 4. Spielen Sie mit den Strukturen. Frameworks wie PySyft, Flower, TensorFlow Federated und andere verfügen über Bibliotheken, um föderierte Lernmodelle zu implementieren und dezentrale Datennetzwerke zu erstellen. Dieser Schritt umfasst die Erstellung einiger Spielzeugdaten oder die Nutzung eines Beispieldatensatzes und die eingehendere Auseinandersetzung mit der Einrichtung von FDNs und Trainingsmodellen auf verteilte Weise.

Schritt 5. Finden Sie Ihre App. Nehmen Sie sich mit der gewonnenen Übung Zeit, Anwendungsfälle zu entwickeln, die die Technologie erfordern. Verbunddatennetze sind in einer Vielzahl von Branchen anwendbar.

Schritt 6. Machen Sie mit. Die Community rund um den dezentralen Datenaustausch und das föderierte Lernen wächst. Erfahren Sie, wie Sie Ihre Fähigkeiten verbessern können.

Meiner Erfahrung nach ist die Nutzung der Open-Source-Community nicht nur für das Verständnis von entscheidender Bedeutung, sondern auch für die Entwicklung föderierter Lernmodelle und die Instanziierung föderierter Datennetzwerke. Diese Community ist eng verbunden und möchte gerne dazu beitragen, das Feld voranzubringen!


Der Forbes Technology Council ist eine Community nur auf Einladung für erstklassige CIOs, CTOs und Technologiemanager. Bin ich qualifiziert?


Leave a Reply

Your email address will not be published. Required fields are marked *