Seit November 2022 revolutioniert das US-amerikanische Unternehmen OpenAI die Chatbot-Welt. Mit ChatGPT und GPT-3 begann der Hype um automatisierte Texterstellung durch künstliche Intelligenz und wird so schnell auch nicht mehr abnehmen. GPT-3 war schon ein riesiger Erfolg im Deep-Learning- Bereich, doch GPT-4 übertrifft nochmal einiges. Am 14.03.2023 hat OpenAI das neue Modell veröffentlicht, mit GPT-4 bringen die Entwickler nun Multimodalität ins Spiel.
Contents
Wie funktioniert GPT-4?
Wie auch GPT-3 basiert GPT-4 auf Wahrscheinlichkeiten. GPT-4 wurde vortrainiert, um das nächste Wort – oder auch das nächste Token – im Dokument vorherzusagen und darauf basierend einen Text zu generieren. OpenAI beschreibt GPT-4 als „transformatorbasiertes Modell“. Durch die Post-Training-Anpassungen können die Leistung und auch die Befolgung des gewünschten Verhaltens gemessen und nachvollzogen werden. Quasi: Learning by doing.
Die Revolution der KI-Welt: Wie wurde GPT-4 entwickelt?
Ziel von OpenAI war es, dass GPT-4 natürliche Sprache verstehen und ausgeben kann. Im Fokus der Entwicklung des Tools standen außerdem Komplexität, Kontextualität und Reaktion auf unterschiedliche Szenarien. Dank etlicher Trainingsdaten wurde der Wortschatz von GPT-4 im Vergleich zu GPT-3 enorm erweitert. Die KI akzeptiert nun Bild- und Texteingaben und antwortet mit Textausgaben. Um das Modell zu prüfen, wurde GPT-4 durch eine Reihe von Prüfungen, die für Menschen konzipiert wurden, evaluiert.
Kaum überraschend: GPT-4 schloss ziemlich gut ab und gehörte z.B. bei einer Juraprüfung zu den 10 % der besten Teilnehmer. Im Vergleich dazu zählte GPT-3.5 zu den unteren 10 % (siehe OpenAI GPT-4 Technical Report). OpenAI hat so gut entwickelt, dass GPT-4 die Vergleichsmaßstäbe des Neuro-Linguistisches Programmieren (NLP-Benchmarks) übertrifft. Frühere große Sprachsysteme, aber auch die meisten der modernen Systeme, entsprechen heute noch immer den NLP-Benchmarks. Dazu kommen auch die Verbesserungen der Sprachvarianten des Modells: Hierfür wurde die KI den sogenannten „Massive multi-task Language (MMLU) Benchmarks“ – eine englischsprachige Sammlung von Multiple-Choice Fragen, die 57 Themen umfasst – unterzogen und zeigte überragend starke Leistungen in 24 von 26 Sprachen.
Um die Modellsicherheit zu verbessern, wurden über 50 Experten unterschiedlicher Bereiche, z.B. Cybersicherheit, Biorisiko, internationale Sicherheit u.v.m., eingesetzt, um GPT-4 gegensätzlich zu testen. Ihre Daten und das Feedback wurden zur Verbesserung des Modells verwendet. Zudem wird ein Sicherheitsbelohnungssignal genutzt, das ausschlägt, sobald schädliche Anfragen eingegeben werden, die gegen die Nutzungsrichtlinien des Modells sprechen.
Deutlich ist also, dass GPT-4 hinsichtlich der Modellfähigkeit, Modellsicherheit und den Modellverbesserungen gründlich evaluiert wurde.
Was ist neu bei GPT-4? & Was kann GPT-4?
GPT-4 ist das wohl am weitesten entwickelte Sprachmodel, was es derzeit gibt. Im Vergleich zu GPT-3 gibt es große Sprünge, besonders in der Art der Kommunikation mit Nutzenden. Die Schreibweise ist kaum noch von der eines menschlich generierten Textes zu unterscheiden. Reaktionen auf die Anfragen der User sind ebenfalls menschlicher und ansprechender und die Gesprächsführung ist angemessener. Die Fehlerquote der Antworten ist durch den enormen Wissenszuwachs stark gesunken.
Hochtrainiert kann GPT-4 viel natürlichere und längere Texte ausgeben, als der Vorgänger GPT-3. Was wohl viele User freuen wird, ist die Verbesserung der Kontexterkennung der jeweiligen Anfrage. Außerdem kommt GPT-4 mit einer höheren Genauigkeit sowie der Fähigkeit, längere zusammenhängende Texte zu generieren, einher.
In den Social-Media-Plattformen, wie Twitter und Reddit, wird GPT-4 fleißig gefragt, welche Unterschiede zu seinem kleinen Bruder GPT-3 existieren. Die Antwort der KI: GPT-4 hat ein besseres Verständnis sowie ein breiteres Wissen entwickelt und kann hilfreicher auf die Anfragen der Nutzer eingehen.
Auch beim Thema Sicherheit hat sich einiges getan: Unangemessene Inhalte werden durch GPT-4 nicht mehr beantwortet. Nutzende können bereits schon jetzt die „Persönlichkeit“ der KI durch Textprompts hinsichtlich Tonalität, Schreibstil und Syntax variieren. Um potenziell schädliche Inhalte zu verhindern, wurden hier Beschränkungen eingeführt.
On top – und das ist wohl auch die größte Veränderung – überzeugt GPT-4 mit visuellen Eingabefunktionen, darunter Bilderkennung und -interpretation. Lädt man ein Bild vom Inneren des Kühlschranks hoch, entwickelt die KI dann Rezeptvorschläge basierend auf dem Inhalt des Kühlschranks. Kann es noch praktischer werden? Ein weiteres Beispiel (siehe Abbildung unten): Der KI wird ein Foto gezeigt und GPT-4 soll beschreiben, warum dieses Foto lustig ist. Jedes mögliche Bild kann so von der KI interpretiert, ausgewertet und weiterverarbeitet werden.
Außerdem kann GPT-4 anhand einer einfachen Bleistiftskizze den Code für eine funktionsfähige Website entwickeln und auch die Generierung von Videos soll künftig in Kombination mit einer anderen KI-basierten Software (Dall-E-2) möglich sein. Diese Funktionen befinden sich derzeit noch im Teasermodus und sind noch nicht zum öffentlichen Testen verfügbar, heben sich aber schon jetzt von GPT-3 ab. Eine Warteliste zum Testen gibt es aktuell schon, wer besonders gespannt ist, kann sich hier vielleicht noch eintragen. Auch im Hinblick auf die Multilingualität glänzt GPT-4. So sollen Sprachen wie Afrikaans, Deutsch, Englisch, Französisch, Italienisch und Spanisch eine gesteigerte Genauigkeit aufweisen, als es beim kleinen Bruder GPT-3 der Fall ist. Damit die Ausgaben noch schneller generiert werden, wurde bei der Entwicklung auch die Effizienz fokussiert und verbessert, was zu eleganteren und schnelleren Outputs führt.
Die Funktionen von GPT-4 im Überblick
- Menschlichere Reaktionen
- Geringere Fehlerquote
- Längere Texte
- Bessere Kontexterkennung
- Breitere Wissensdatenbank
- Hilfreichere Antworten
- Programmierfunktionen
- Visuelle Eingabefunktionen
- Video- und Bildgenerierung mittels Implementierung von DALL-E-2 (noch nicht öffentlich)
Der Workflow mit GPT-4
Nun stellen sich folgende Fragen: Wie können Nutzende gezielt mit den verfügbaren Funktionen umgehen? Wie gestalten sich die Arbeitsabläufe mit GPT-4? Und wie lässt sich GPT-4 effektiv integrieren?
Zunächst: Wie lässt sich gezielt mit den verfügbaren Funktionen von GPT-4 umgehen? Durch die zahlreichen neuen Features und Verbesserungen können Nutzer unterschiedlichste Aktionen mit GPT-4 vornehmen. Hierbei kommt es stark auf die Motivation und Art der Tasks an, die Bandbreite ist riesig, darunter zum Beispiel:
- Rezepterstellung,
- Websiteentwicklung,
- Codeerstellung und Korrektur,
- Tipps und Tricks für allgemeine Alltagsfragen,
- Anleitungen und How-To‘s,
- Gedicht-, Geschichten- und Liedtext-Kompositionen.
Bis hin zur diversen Texterstellung für unterschiedlichste Plattformen und auch das Generieren von Video- und Bildmaterial in Verknüpfung mit einem anderen KI-Tool ist fast alles möglich.
Wie man also mit der Vielzahl an Funktionen umgehen kann, ist eine Frage, die vom User abhängig ist. Die Optionen sind beinahe grenzenlos.
Auch im Arbeitsalltag ist GPT-4 ein hilfreiches Tool. Wie konkret gestalten sich die Arbeitsabläufe mit GPT-4 und wie lässt sich GPT-4 effektiv integrieren? Websitebetreibende können GPT-4 effektiv in der Contenterstellung nutzen, z.B. zum Generieren einer Outline, von Überschriften und möglichen Keywords oder zum Erstellen möglicher Themen für Blogs. Darüber hinaus können Kategorie- und Produkttexte KI-generiert und nachträglich umformuliert werden. Wichtig ist, dass dieser Content nicht 1:1 übernommen wird, sondern zur Inspiration dient. Somit kann GPT-4 in den Arbeitsalltag und in unterschiedliche Arbeitsabläufe zur Komplexitätsreduktion, Ideenfindung und Effektivitätssteigerung integriert werden.
Doch so mächtig GPT-4 auch ist, stellt es keinen menschlichen Ersatz dar. Das Tool dient zur Erleichterung, ist ein Zusatz und kann zur Effektivität beitragen. User können es bei der Ideenfindung und zur Erstellung einer Outline für verschiedene Textbeiträge nutzen. Eins sollten wir aber nicht vergessen: Neben den fast endlosen Möglichkeiten steht immer noch die Freude an der Interaktion mit GPT-4 im Vordergrund.
Die Grenzen von GPT-4
Neben all den Verbesserungen und Überraschungen hat jedes neue Tool seine Grenzen – und so auch GPT-4. Wie die früheren GPT-Modelle ist auch dieses Modell nicht 100 % zuverlässig. Das Tool lernt nicht aus seinen Erfahrungen, hat ein begrenztes Kontextfenster und der Wissensstand der KI ist immer noch von September 2021, also dem Zeitraum, als die letzten Tests abgeschlossen wurden. Nachfolgende Ereignisse überschreiten den Kenntnisstand von GPT-4. Daher ist auch hier besondere Achtung geboten.
Informationen, die von der KI ausgespielt werden, werden vorher nicht auf Richtigkeit überprüft. Offensichtlich falsche Eingaben der User werden von der KI akzeptiert und nicht korrigiert. KI-generierte Texte müssen daher noch immer vorsichtig betrachtet werden, gerade auch bei Themen, wo besondere Zuverlässigkeit notwendig ist. Aufmerksam sollten die Nutzer zudem bei der Verwendung von multilingualen Ergebnissen sein, z.B. bei sehr anspruchsvollen Kontexten, so Angaben von OpenAI. Auch das Halluzinieren von Fakten und Denkfehlern seitens der KI wurden in ihrer Häufigkeit reduziert, aber noch nicht behoben. Daher ist noch immer ein menschlicher Part zwingend notwendig, der den generierten Output gegenprüft. Ganz ohne menschliche Zu- und Nacharbeiten kann die Contenterstellung also nicht stattfinden.
Dennoch wird deutlich, wie stark OpenAI an den Verbesserungen von GPT-4 im Vergleich zu GPT-3 gearbeitet hat. Der Umfang von Weiterentwicklung und Optimierung der KI wird also auch zukünftig nicht abnehmen.
GPT-4 als multimodales KI-Modell auf der Überholspur: Ein Fazit
GPT-4 ist multimodal und zeichnet sich durch seine Leistung auf menschlichem Niveau aus. Es übertrifft bestehende Sprachmodelle hinsichtlich der NLP-Benchmarks und ist besser als die Mehrheit ähnlicher Systeme. OpenAI selbst sagt, dass das Potenzial des Modells breitgefächert sei und besonders für Anwendungen im Bereich der Dialogsysteme, Textzusammenfassungen und (maschinelle) Übersetzungen eingesetzt werden kann. Feststeht, dass noch viel diskutiert und verbessert werden muss, dennoch sei GPT-4 auf dem besten Weg zu einem allgemein nutzbaren und sicheren KI-System zu werden, so OpenAI.