OpenAI hat GPT-4 veröffentlicht

Wir haben GPT-4 entwickelt, den neuesten Meilenstein in OpenAIs Bemühungen, Deep Learning zu skalieren. GPT-4 ist ein großes multimodales Modell (es akzeptiert Bild- und Texteingaben und gibt Textausgaben aus), das zwar in vielen realen Szenarien weniger leistungsfähig ist als ein Mensch, aber bei verschiedenen beruflichen und akademischen Benchmarks eine Leistung auf menschlichem Niveau zeigt. So besteht es beispielsweise eine simulierte Anwaltsprüfung mit einer Punktzahl, die in den oberen 10 % der Prüflinge liegt; im Gegensatz dazu lag die Punktzahl von GPT-3.5 bei den unteren 10 %. Wir haben sechs Monate damit verbracht, GPT-4 iterativ anzupassen, indem wir die Erkenntnisse aus unserem kontradiktorischen Testprogramm und ChatGPT nutzten. Das Ergebnis sind unsere bisher besten Ergebnisse (wenn auch bei weitem nicht perfekt) in Bezug auf Faktizität, Steuerbarkeit und die Weigerung, die Leitplanken zu überschreiten.

In den letzten zwei Jahren haben wir unseren gesamten Deep-Learning-Stack neu aufgebaut und zusammen mit Azure einen Supercomputer von Grund auf für unsere Arbeitslast mitentwickelt. Vor einem Jahr haben wir GPT-3.5 als ersten „Testlauf“ des Systems trainiert. Wir haben einige Fehler gefunden und behoben und unsere theoretischen Grundlagen verbessert. Infolgedessen war unser GPT-4-Trainingslauf (zumindest für uns!) beispiellos stabil und wurde unser erstes großes Modell, dessen Trainingsleistung wir im Voraus genau vorhersagen konnten. Da wir uns weiterhin auf eine zuverlässige Skalierung konzentrieren, wollen wir unsere Methodik so verfeinern, dass wir künftige Fähigkeiten immer weiter im Voraus vorhersagen und uns darauf vorbereiten können – etwas, das wir als entscheidend für die Sicherheit ansehen.

Wir werden die Texteingabefunktion von GPT-4 über ChatGPT und die API (mit Warteliste) freigeben. Um die Bildeingabefunktion für eine breitere Verfügbarkeit vorzubereiten, arbeiten wir zunächst eng mit einem einzigen Partner zusammen. Außerdem stellen wir OpenAI Evals, unser Framework für die automatische Bewertung der Leistung von KI-Modellen, zur Verfügung, um es jedem zu ermöglichen, Mängel in unseren Modellen zu melden und so zu weiteren Verbesserungen beizutragen.

Fähigkeiten

In einem lockeren Gespräch kann der Unterschied zwischen GPT-3.5 und GPT-4 sehr subtil sein. Der Unterschied tritt zutage, wenn die Komplexität der Aufgabe eine ausreichende Schwelle erreicht – GPT-4 ist zuverlässiger, kreativer und in der Lage, viel differenziertere Anweisungen zu verarbeiten als GPT-3.5.

Um den Unterschied zwischen den beiden Modellen zu verstehen, testeten wir eine Reihe von Benchmarks, darunter auch Simulationen von Prüfungen, die ursprünglich für Menschen konzipiert wurden. Dazu verwendeten wir die neuesten öffentlich zugänglichen Tests (im Falle der Olympiaden und der AP-Free-Response-Fragen) oder kauften die Ausgaben 2022-2023 der Übungsprüfungen. Wir haben kein spezielles Training für diese Prüfungen durchgeführt. Eine Minderheit der Probleme in den Prüfungen wurde vom Modell während des Trainings gesehen, aber wir glauben, dass die Ergebnisse repräsentativ sind – siehe unseren technischen Bericht für Details. *1

 

*1 Übersetzung des Newsartikels

 

 



Quelle: GPT-4
Bildnachweis: OpenAI

Avatar-Foto

CTHTC

Erdbeerjäger und Cola Fan

Alle Beiträge ansehen von CTHTC →

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.