Die Zukunft der KI ist klein und spezialisiert

By | November 29, 2023

Darren Oberst – CEO, Oh Jungsund Gründer von LLMWare.

Im vergangenen Jahr haben sowohl Bullen als auch Bären in der generativen KI ein Bild der Zukunft der KI gezeichnet, das sich oft wie ein dystopischer Roman liest (sogar KI-Champions!), z. B. KI als allwissende, supergroße Blackbox Modelle, die zu Dingen fähig sind, die wir nicht verstehen können, die in der Cloud arbeiten, auf riesigen Arrays komplexer GPU-Hardware laufen und über mysteriöse, fast „künstliche allgemeine Intelligenz“-Fähigkeiten (AGI) verfügen, natürlich angeführt von einer Handvoll großer Technologieunternehmen , die die einzigen sind, denen die unglaubliche Leistungsfähigkeit dieser Technologie anvertraut werden kann.

Was ist, wenn dieses Bild völlig falsch ist?

Ich werde argumentieren, dass die Zukunft der KI viel kleiner, spezialisierter, modularer und viel einfacher und kostengünstiger sein könnte.

Die Grundlage

Die Verwendung des Begriffs LLM (Large Language Model) ist relativ neu und das Ergebnis jahrelanger Forschungsinitiativen zur Anwendung von „aufmerksamkeitsbasierten Kausaldecoder“-Modellen auf die Verarbeitung natürlicher Sprache. Noch in den Jahren 2020–2021 wurden diese Modelle oft, bescheidener, „Textgenerierungsmodelle“ genannt, da sie darauf trainiert wurden, das nächste Wort in einem Satz vorherzusagen und den Rest des Textes oft auf kreative und kreative Weise „automatisch zu vervollständigen“. lustige Art und Weise. Wege.

Bis vor fünf Jahren galt ein Modell mit 100 Millionen Parametern als Stand der Technik, das schnell auf 1 Milliarde Parameter anwuchs, und dann wurde die Spitze gesprengt, als Open AI, Microsoft, Google, Baidu und andere die Modelle vorantrieben bis zu 1 Billion Parameter und mehr (zum Beispiel hat Davinci von Open AI bekanntermaßen 175 Milliarden Parameter). Als KI-Forscher in den letzten drei Jahren Modelle von 1 Milliarde auf 1 Billion Parameter skalierten, wurden zwei überraschende neue Eigenschaften entdeckt:

Wissen: Auch wenn die Modelle nicht mit dem Ziel trainiert wurden, spezifisches Wissen zu erlernen, haben die Modelle manchmal eine bemerkenswerte Fähigkeit bewiesen, reale Details über Menschen, Orte und Ereignisse in ihre Textgenerationen einzubringen.

Anweisungen: Als Forscher mit der Weitergabe verschiedener Arten von „Eingabeaufforderungen“ an Modelle experimentierten, stellten sie fest, dass Modelle schnell Muster lernen, Fragen beantworten und Benutzeranweisungen befolgen können. Diese Eigenschaft stellte eine wesentliche Abkehr von früheren Modellen natürlicher Sprache dar, die nur einem einzigen Zweck dienten und in ihrer Fähigkeit, sich an neue Standards anzupassen und in unterschiedlichen Kontexten verwendet zu werden, recht unflexibel waren. Nach der Entdeckung dieser Eigenschaft ist die Idee der „Lehrausbildung“ zu einem formalisierten Teil der Entwicklung von LLMs für Endbenutzer geworden und hat insbesondere in den letzten 12 bis 18 Monaten zu einem rasanten Innovationstempo bei der Modellqualität geführt .

Ende 2022 hat ChatGPT von OpenAI diese beiden Fähigkeiten auf brillante Weise integriert und damit eine relativ alte Debatte neu entfacht, die sowohl Hoffnungen als auch Ängste hinsichtlich einer möglichen bevorstehenden AGI-Revolution weckte. Dabei wuchs auch das Bewusstsein für die Herausforderungen, vor denen LLMs bei der effektiven Kodifizierung von Wissen stehen, und der Begriff „Halluzinationen“ wurde zu einer gebräuchlichen Bezeichnung für die Fähigkeit von LLMs, detaillierte, glaubwürdige und äußerst ungenaue Informationen zu generieren. Derzeit ist nicht klar, wie LLMs Wissen kodifizieren, und es gibt viele Forschungsinitiativen, die versuchen, dies herauszufinden, darunter viele Skeptiker, dass LLMs in ihrer aktuellen Architektur und ihren Ausbildungszielen jemals in der Lage sein werden, als Wissensgrundlagen zu dienen . genaues Wissen.

Die Zukunft

Wenn man jedoch diese Fähigkeiten auspackt und diese Elemente entwirrt, geht meines Erachtens die wichtigste Schlagzeile verloren – nämlich, dass der wichtigste Fortschritt nicht darin besteht, was LLMs „wissen“ oder gar das zukünftige Potenzial einer AGI, sondern dass LLMs heute sind „Hier und Jetzt“ sind im Allgemeinen dazu in der Lage Leseverständnis und Reaktion auf menschenähnlichem Niveau. Und hier ist der Clou: Wenn Sie die Lesbarkeit eines LLM nutzen möchten, ist diese Fähigkeit für bis zu 1 Milliarde Parametermodelle vorhanden, mit einer starken „Leseverständnis“-Leistung von Modellen im 7-Milliarden-Parameterbereich, die jeden Monat verbessert wird Open-Source-Community.

Der Grund, warum dies so wichtig ist, sind die Kosten und die Möglichkeit, LLMs in einen Unternehmensworkflow zu integrieren. Modelle in diesem Größenbereich (Parameter 3B-7B) sind wahrscheinlich zwei bis drei Größenordnungen günstiger in der Entwicklung und Verwaltung über ihren Lebenszyklus, und viele sind auch heute noch für den Betrieb auf Laptops erschwinglich. Diese kleineren „Leseverständnis-/Anweisungsfolgen“-Modelle sind für fast jedes Unternehmen auf der Welt erreichbar, um nicht nur eine „einzelne KI“, sondern möglicherweise Dutzende oder sogar Hunderte spezialisierter Modelle in verschiedenen Bereichen ihres Unternehmens einzusetzen. Natürlich verfügen Modelle dieser Größe nicht über alle vielfältigen Fähigkeiten des GPT-4 oder des Bard, aber insbesondere wenn sie für einen speziellen Zweck trainiert werden, werden sie in der Lage sein, vergleichbare, nahezu vergleichbare und in einigen Fällen sogar überlegene Leistungen zu erzielen . zu einem Bruchteil der Kosten und Komplexität – und kann vollständig innerhalb der vier Wände eines einzigen Unternehmens bereitgestellt und verwaltet werden.

Die Geschichte der Technologie lehrt uns, dass Monopole im Allgemeinen flüchtig sind, dass Großrechner im Allgemeinen tragbaren Computern weichen, dass die Zentralisierung der Macht des Verteilten Platz macht und dass große Technologien im Allgemeinen nicht skalieren, sondern in der Miniaturisierung schrumpfen.

Ich glaube, dass die Zukunft der KI wahrscheinlich weniger beängstigend und prosaischer ist – „Spezialmaschinen, die lesen können“, die lautlos arbeiten und im Hintergrund der meisten Geschäftsprozesse laufen – lesen, überprüfen, extrahieren, analysieren und Muster im Ozean unstrukturierter Informationen finden und Dokumente eines Unternehmens, stark integriert in Geschäftsprozesse und mit konkreten Produktivitäts- und Qualitätsvorteilen.


Der Forbes Technology Council ist eine Community nur auf Einladung für erstklassige CIOs, CTOs und Technologiemanager. Bin ich qualifiziert?


Leave a Reply

Your email address will not be published. Required fields are marked *