Diese Grenze des Gedankenlesens kann dank KI Gedanken in Text übersetzen

By | December 13, 2023

Ein junger Mann trägt eine mit Elektroden besetzte und mit Drähten gefüllte Kappe und liest schweigend einen Satz in seinem Kopf. Augenblicke später erscheint eine Siri-ähnliche Stimme, die versucht, Ihre Gedanken in Text zu übersetzen: „Ja, ich hätte gerne eine Schüssel Hühnersuppe, bitte.“ Es ist das neueste Beispiel dafür, wie Computer die Gedanken einer Person in Wörter und Sätze übersetzen.

Bisher verwendeten Forscher chirurgisch im Gehirn implantierte Implantate oder sperrige, teure Maschinen, um Gehirnaktivität in Text zu übersetzen. Der neue Ansatz, der diese Woche auf der NeurIPS-Konferenz von Forschern der University of Technology Sydney vorgestellt wurde, beeindruckt durch die Verwendung einer nicht-invasiven EEG-Schwelle und das Potenzial für eine Verallgemeinerung über ein oder zwei Personen hinaus.

Das Team baute ein KI-Modell namens DeWave, das auf Gehirnaktivität und Sprache trainiert, und verband es mit einem großen Sprachmodell – der Technologie hinter ChatGPT –, um dabei zu helfen, Gehirnaktivität in Wörter umzuwandeln. In einem auf arXiv veröffentlichten Vorabdruck übertraf das Modell frühere EEG-Gedanken-zu-Text-Übersetzungs-Benchmarks mit einer Genauigkeit von etwa 40 Prozent. Chin-Teng Lin, korrespondierender Autor des Papiers, sagte gegenüber MSN, dass er die Genauigkeit kürzlich auf 60 Prozent erhöht habe. Die Ergebnisse werden noch einem Peer-Review unterzogen.

Auch wenn hinsichtlich der Zuverlässigkeit noch ein langer Weg vor uns liegt, zeigt dies doch Fortschritte bei nicht-invasiven Methoden zum Lesen und Übersetzen von Gedanken in Sprache. Das Team glaubt, dass ihre Arbeit denjenigen eine Stimme geben kann, die aufgrund einer Verletzung oder Krankheit nicht mehr kommunizieren können oder die es gewohnt sind, Maschinen wie Laufroboter oder Roboterarme nur mit Gedanken anzutreiben.

Ratet mal, was ich denke

Sie erinnern sich vielleicht an die Schlagzeilen über „Gedankenlesemaschinen“, die Gedanken mit hoher Geschwindigkeit in Text übersetzen. Denn solche Bemühungen sind nichts Neues.

Anfang dieses Jahres beschrieben Stanford-Forscher die Arbeit mit einem Patienten, Pat Bennett, der aufgrund von ALS die Fähigkeit zum Sprechen verloren hatte. Nachdem Bennett vier Sensoren in zwei Teile seines Gehirns implantiert und umfassend trainiert hatte, konnte er kommunizieren, indem er seine Gedanken mit einer Geschwindigkeit von 62 Wörtern pro Minute in Text umwandelte – eine Verbesserung gegenüber dem Rekord desselben Teams von 18 Wörtern pro Minute im Jahr 2021.

Es ist ein unglaubliches Ergebnis, aber Gehirnimplantate können riskant sein. Wissenschaftler würden gerne ein ähnliches Ergebnis ohne Operation erzielen.

In einer anderen Studie in diesem Jahr wandten sich Forscher der University of Texas in Austin einer Gehirn-Scan-Technologie namens fMRI zu. In der Studie mussten die Patienten still in einer Maschine liegen, die den Blutfluss in ihrem Gehirn aufzeichnete, während sie Geschichten hörten. Nachdem das Team diese Daten verwendet hatte, um einen Algorithmus zu trainieren – der zum Teil auf dem Vorgänger von ChatGPT, GPT-1, basiert – nutzte das Team das System, um anhand ihrer Gehirnaktivität zu erraten, was die Teilnehmer hörten.

Die Genauigkeit des Systems war nicht perfekt, es erforderte viele individuelle Anpassungen für jeden Teilnehmer und die fMRT-Geräte waren sperrig und teuer. Dennoch diente die Studie als Beweis dafür, dass Gedanken nicht-invasiv entschlüsselt werden können, und die neueste KI kann dabei helfen, dies zu erreichen.

Der Sprechende Hut

In Harry Potter, Schüler werden durch einen magischen Gedankenlesehut in Schulen eingeteilt. Wir Muggel greifen auf komisch aussehende Badekappen zurück, die mit Drähten und Elektroden durchbohrt sind. Diese als Elektroenzephalograph (EEG)-Kappen bekannten Geräte lesen und zeichnen die elektrische Aktivität in unserem Gehirn auf. Sie erfordern im Gegensatz zu Gehirnimplantaten keinen chirurgischen Eingriff, sind aber deutlich ungenauer. Die Herausforderung besteht also darin, das Signal vom Rauschen zu trennen, um ein brauchbares Ergebnis zu erhalten.

In der neuen Studie verwendete das Team zwei Datensätze, die Eye-Tracking- und EEG-Aufzeichnungen von 12 bzw. 18 Personen beim Lesen von Texten enthielten. Mithilfe der Eye-Tracking-Daten konnte das System die Gehirnaktivität nach Wörtern aufschlüsseln. Mit anderen Worten: Wenn sich der Blick einer Person von einem Wort zum anderen bewegt, bedeutet das, dass zwischen der Gehirnaktivität, die mit diesem Wort verbunden ist, und der Aktivität, die mit dem nächsten korreliert sein sollte, eine Pause eintreten sollte.

Anschließend trainierten sie DeWave mit diesen Daten und im Laufe der Zeit lernte der Algorithmus, bestimmte Gehirnwellenmuster mit Wörtern zu verknüpfen. Schließlich wurden mit Hilfe eines großen vorab trainierten Sprachmodells namens BART – das darauf abgestimmt war, die einzigartige Ausgabe des Modells zu verstehen – die Gehirnwellen-Wort-Assoziationen des Algorithmus wieder in Sätze übersetzt.

In Tests übertraf DeWave die besten Algorithmen seiner Klasse bei der Übersetzung sowohl roher Gehirnwellen als auch wortgeschnittener Gehirnwellen. Letztere waren genauer, blieben aber immer noch weit hinter der Übersetzung zwischen Sprachen – wie Englisch und Französisch – und der Spracherkennung zurück. Sie fanden auch heraus, dass der Algorithmus bei allen Teilnehmern ähnlich funktionierte. Bei früheren Experimenten wurden die Ergebnisse tendenziell einer einzelnen Person gemeldet oder erforderten eine extreme Personalisierung.

Das Team sagt, die Forschung sei ein weiterer Beweis dafür, dass große Sprachmodelle zur Weiterentwicklung von Gehirn-Text-Systemen beitragen können. Obwohl sie in der offiziellen Studie einen relativ alten Algorithmus verwendeten, enthielten sie in ergänzendem Material Ergebnisse größerer Modelle, einschließlich Metas ursprünglichem Llama-Algorithmus. Interessanterweise verbesserten die größeren Algorithmen die Ergebnisse nicht wesentlich.

„Dies unterstreicht die Komplexität des Problems und die Herausforderungen bei der Verknüpfung von Gehirnaktivitäten mit LLMs“, schrieben die Autoren und forderten differenziertere Forschung in der Zukunft. Dennoch hofft das Team, sein eigenes System noch weiter entwickeln zu können, vielleicht mit einer Genauigkeit von bis zu 90 %.

Die Arbeit zeigt Fortschritte in diesem Bereich.

„Die Leute wollten schon lange EEG in Text umwandeln und das Modell des Teams zeigt ein bemerkenswertes Maß an Korrektur“, sagte Craig Jin von der University of Sydney. MSN. „Vor einigen Jahren waren EEG-zu-Text-Konvertierungen völliger Unsinn.“

Bildnachweis: University of Technology Sydney

Leave a Reply

Your email address will not be published. Required fields are marked *