Im Juli 2024 wurde durch interne Quellen und Dokumente bekannt, dass OpenAI an einem neuen Projekt mit dem Code-Namen Strawberry arbeitet, welches die Fähigkeit der eigenen KI-Modelle zum logischen Denken (auf Englisch „reasoning“) verbessern soll. Nachdem Anfang September unter Berufung auf Quellen aus Unternehmenskreisen berichtet wurde, dass der Launch noch für diesen Herbst geplant ist, ist es nun bereits so weit: OpenAI hat die neue Modellreihe OpenAI o1 offiziell angekündigt.

Die Modelle o1 und o1-mini sind zunächst als Preview verfügbar und benötigen etwas mehr Zeit zum „Nachdenken“, bevor die User eine Antwort erhalten. Dafür haben sie die Fähigkeit, komplexe Aufgaben und Probleme zu lösen; insbesondere im wissenschaftlichen und mathematischen Bereich sowie beim Coding. Zudem erlaubt es ihnen die verbesserte logische Denkfähigkeit, verschiedene Problemlösestrategien zu testen und aus Fehlern zu lernen, erklärt OpenAI im Blog Post:

We trained these models to spend more time thinking through problems before they respond, much like a person would. Through training, they learn to refine their thinking process, try different strategies, and recognize their mistakes. 

Die Preview-Versionen von o1 und o1-mini sind ab heute für User von ChaGPT Plus und Team verfügbar. Sie können bei der Nutzung von ChatGPT ganz einfach zwischen GPT-4o, o1 und o1-mini wechseln – allerdings ist die Nutzung von o1 wöchentlich auf 30 Nachrichten, von o1-mini auf 50 Nachrichten begrenzt. In Zukunft soll diese Rate jedoch höher angesetzt werden; zudem soll ChatGPT selbstständig zwischen den verschiedenen Modellen wechseln können (je nach Anwendungsfall). Erfreulich ist auch, dass OpenAI plant, o1-mini für Nutzer:innen der kostenfreien Variante herauszubringen.

Kann das Modell mit Mathematik- und Coding-Profis mithalten?

Erste Tests zeigen bereits die beeindruckenden Fähigkeiten von o1. So performt das Modell bei verschiedenen Aufgaben aus den Bereichen Physik, Chemie und Biologie ähnlich gut wie Doktorand:innen. Bei einer Eignungsprüfung für die Internationale Mathematik-Olympiade (IMO) konnte o1 zudem einen Score von 83 Prozent erreichen – jener von GPT-4o lag bei 13 Prozent. Auch beim Coding überzeugt das Modell und erreichte bei Codeforces-Wettbewerben das 89. Perzentil. Mit komplexen Rätselfragen hat o1 ebenfalls keine Schwierigkeiten, wie das folgende Video illustriert.

o1-mini: schneller und günstiger

Nicht nur bei wissenschaftlichen Fragestellungen und Rätseln, sondern auch beim Coding – beispielsweise für die Entwicklung von Videospielen – erzielt o1 bessere Ergebnisse als die vorangegangenen Modelle. Der Grund: Das Modell denkt nach, bevor es antwortet.

Insbesondere im Coding-Bereich kann das Modell o1-mini, so erklärt OpenAI, eine gute und oft sinnvollere Alternative zu o1 darstellen. Denn o1-mini arbeitet schneller und ist zudem 80 Prozent günstiger als o1-preview. Für Programmier:innen, die auf ein Modell mit logischer Denkfähigkeit zurückgreifen wollen, aber kein umfassendes Allgemeinwissen der KI benötigen, ist o1-mini möglicherweise die bessere Wahl.

Wie viele „R“ hat das Wort „Strawberry“?

Zwar wurde das Projekt Strawberry mittlerweile in o1 umbenannt, dafür kann das Modell eine für Large Language Models (LLMs) oft problematische Frage beantworten, welcher es möglicherweise auch seinen Code-Namen zu verdanken hat: Wie viele „R“ hat das Wort „Strawberry“? Während GPT-4o diese Frage fälschlicherweise mit „zwei“ beantwortet, erkennt o1 korrekt, dass das Wort drei R enthält.

Im Blog Post geht OpenAI auch auf konkrete Anwendungsfälle ein, bei denen der Einsatz von o1 sinnvoll sein kann. Dazu gehören etwa die Annotation von Zellsequenzierungsdaten durch Gesundheitsforscher:innen, die Generierung komplizierter mathematischer Formeln für die Quantenoptik durch Physiker:innen sowie die Erstellung und Ausführung mehrstufiger Arbeitsabläufe durch Entwickler:innen.

Trotz der beeindruckenden Möglichkeiten verfügt das Modell über einige Einschränkungen. So ist es zum aktuellen Zeitpunkt nicht möglich, mit o1 oder o1-mini das Internet nach Informationen zu durchsuchen oder Dateien und Bilder hochzuladen. Bevor diese Funktionen für die neuen Modelle verfügbar sind, dürften viele User im Alltag mit GPT-4o besser beraten sein. Doch bei der logischen Denkfähigkeit setzt OpenAI mit o1 neue Maßstäbe und liefert einen potenziellen KI-Gamechanger für zahlreiche Anwendungsfälle.


Google Gemini Live jetzt kostenlos für User verfügbar

© Google

Powered by WPeMatico

Teile diesen Beitrag