Wieder einmal möchte OpenAI die KI-Szene langfristig prägen. Dazu hat das Unternehmen eine neue Benchmark eingeführt, die die Performance von verschiedenen AI Agents in einem facettenreichen Kontext analysieren soll. Immerhin wird bei der Vorstellung solcher Agents und von KI-Modellen häufig deren Leistungsfähigkeit im Vergleich zu weiteren verfügbaren Modellen – oft auch von der Konkurrenz – in den Fokus gestellt.

Neue Benchmark MLE-bench: Code wird als Open Source bereitgestellt

Via X kündigte OpenAI den Start der neuen Benchmark an.

Für den Performance-Abgleich nutzt das Unternehmen 75 Wettbewerbe aus dem Machine-Learning-Kontext. Diese wurden von Kaggle, einer riesigen Machine Learning und AI Community, extrahiert. Sie beziehen sich auf den Bereich Engineering. Auf Basis der Kaggle Leaderboards werden menschliche Basiswerte angesetzt. Verschiedene Sprachmodelle lassen sich im Open-Source-Rahmen testen; und OpenAIs eigenes neues Modell o1 schneidet bei vielen der Tests gut ab, würde im Kaggle-Kontext in 16,9 Prozent eine Bronzemedaille erhalten, heißt es im Blog Post. Den Code für die neue Benchmark stellt das Unternehmen selbst auch als Open Source bereit.

In der Tech-Branche könnten AI Agents und KI-Tools mit enormer Intelligenz, ob von OpenAI, Anthropic, Meta, Google DeepMind und Co., bald sogar im HR-Bereich für Veränderungen sorgen. The Information berichtet, dass Anthropic-Entwickler:innen den eigenen Chatbot Claude bereits zum Coden nutzen; und das könnte die Einstellungspläne langfristig verändern. Manche Jobs gehen also womöglich eher früher als später an AI Agents oder KI-Tools.

Powered by WPeMatico

Teile diesen Beitrag