Anthropic testete sein neuestes Claude 3.7 Sonnet KI-Modell anhand von Pokémon Rot

- Anthropic testete sein neuestes Claude 3.7 Sonnet-Modell mit Pokémon Rot auf Nintendos Game Boy.
- Das Modell erreichte im Spiel 12 Meilensteine und führte über 35.000 Aktionen aus.
- Claude 3.7 Sonett kann so lange „denken“, wie der Benutzer es wünscht, abhängig von der Komplexität des Problems.
Anthropic testete sein neuestes KI-Modell, Claude 3.7 Sonnet, im classic Pokémon-Rot-Spiel für Nintendos Game Boy. Das Modell schnitt im Vergleich zu den Vorgängerversionen deutlich besser ab und schaffte es, 12 Meilensteine im Spiel zu erreichen.
In einem kürzlich erschienenen Blogbeitraggab Anthropic Details zu seinen aktuellen Tests bekannt. Das Unternehmen veröffentlichte ein Diagramm, das die Meilensteine im Spiel auf der Y-Achse und die Anzahl der Aktionen auf der X-Achse darstellt. Verglichen wurde die Leistung des 3.7 Sonnet mit dem 3.5 Sonnet (neu), dem 3.5 Sonnet und dem 3.0 Sonnet. Das Modell 3.7 schnitt dabei deutlich besser ab und führte über 35.000 Aktionen aus, um insgesamt 12 Meilensteine zu erreichen. Es besiegte drei Arenaleiter im Spiel und gewann die jeweiligen Orden. Zum Vergleich: Das Vorgängermodell von Anthropic, das 3.0 Sonnet, schaffte nur wenige Tausend Aktionen und kam nicht über die Anfangsphase des Spiels hinaus.

Zu den jüngsten Gameplay-Tests merkte Anthropic an: „Pokémon ist eine unterhaltsame Möglichkeit, die Fähigkeiten von Claude 3.7 Sonnet kennenzulernen, aber wir erwarten, dass diese Fähigkeiten weit über das Spielen von Spielen hinaus Auswirkungen in der realen Welt haben werden.“
Eine Besonderheit von Claude 3.7 Sonnet ist sein „erweitertes Denken“. Ähnlich wie DeepSeeks R1 und o3-mini von OpenAI ist Claude 3.7 Sonnet in der Lage, komplexere Probleme zu lösen. Dies geschieht durch einen höheren Zeitaufwand und den damit verbundenen höheren Rechenleistungsbedarf.
Es ist noch unklar, wie viel Rechenleistung Claude 3.7 für die Erreichung der genannten Meilensteine benötigte. Auch hat Anthropic nicht offengelegt, wie lange das Modell brauchte, um Surge, den letzten Arenaleiter im Spiel, zu erreichen.
Man kann getrost davon ausgehen, dass die Tests in Pokémon Rot lediglich eine spielerische Demonstration der Fähigkeiten des neuen Modells darstellen. Sie zeigen einfach, dass das neue Modell zu erweitertem Denken fähig ist und gegebenenfalls mehr Zeit für die Lösung komplexerer Probleme benötigt. Schließlich haben Forscher die Fähigkeiten ihrer Modelle häufig damit getestet, sie Videospiele wie Street Fighter, Schach und andere spielen zu lassen.
Claude 3.7 Sonett kann so lange denken, wie der Benutzer will
Offenbar kann Claude 3.7 Sonnet so lange denken, wie der Benutzer es wünscht. Es wird als „hybrides KI-Logikmodell“ angepriesen, da es neben durchdachten Antworten auch Echtzeit-Lösungen liefert. Der Benutzer entscheidet selbst, ob er die Denkfähigkeit aktiviert, wodurch Claude 3.7 Sonnet mehr oder weniger Zeit für die Problemlösung aufwendet.
Das Ziel scheint hier die Verbesserung der Benutzerfreundlichkeit durch Vereinfachung der Optionen zu sein. Die meisten Chatbots verfügen heutzutage über eine Modellauswahl, die für den durchschnittlichen Nutzer eher verwirrend ist. Diese Modelle bieten in der Regel vielfältige Einstellungsmöglichkeiten und unterschiedliche Funktionen. Beispielsweise bietet auch ChatGPT von OpenAI ein breites Spektrum an Optionen.
Tatsächlich erwähnte Sam Altman kürzlich in der aktualisierten Roadmap , dass das langfristige Ziel von OpenAI darin besteht, die Angebote von ChatGPT zu vereinheitlichen, damit Nutzer unterwegs Lösungen für ihre Probleme finden können. In diesem Sinne könnte ChatGPT auch einen agentenzentrierten Ansatz verfolgen.
Claude 3.7 Sonnet ist teurer als DeepSeek R1 und o3-mini
Anthropic hat am Montag Claude 3.7 Sonnet für Entwickler und Nutzer veröffentlicht. Die Logikfunktionen des Modells sind jedoch nur für Nutzer der Premium-Chatbot-Abos verfügbar. Aktuell kostet es lediglich 3 US-Dollar pro Million Eingabe-Tokens und 15 US-Dollar pro Million Ausgabe-Tokens. Das bedeutet, dass ein Nutzer für 3 US-Dollar 750.000 Wörter eingeben kann. Damit ist es teurer als R1 von DeepSeek und o3-mini von ChatGPT. Diese beiden Modelle sind jedoch keine Hybridmodelle wie Claude 3.7 Sonnet, sondern reine Logikmodelle
Logische Modelle arbeiten im Allgemeinen langsamer und benötigen mehr Zeit, um eine Frage zu beantworten. Beispiele hierfür sind Grok 3 (Think) von xAi, Gemini 2.0 Flash Thinking von Google, R1 von DeepSeek und natürlich das o3-mini-Modell von ChatGPT.
Laut Dianne Penn, Produkt- und Forschungsleiterin bei Anthropic, möchte das Unternehmen, dass Claude selbst entscheiden kann, wie lange er über ein Problem nachdenkt, anstatt dass die Nutzer die Einstellungen explizit festlegen müssen. Dazu erklärte Anthropic in einem Blogbeitrag: „Ähnlich wie Menschen keine zwei getrennten Gehirne für Fragen haben, die sofort beantwortet werden können, und solche, die Nachdenken erfordern.“
Im Gegensatz zu xAIs Grok 3, das weniger restriktiv und diskussionsfreundlicher sein will, verweigert Claude 3.7 Sonnet die Beantwortung bestimmter Fragen. Anfang des Monats ging die Beta-Version von Grok 3 sogar so weit, eine Ad*ath-Strafe für Trump vorzuschlagen – ein angeblich „schwerwiegender Fehler“, der inzwischen korrigiert wurde, wie xAIs Entwicklungsleiter Igor Babuschkin bestätigte.

Im Vergleich zu seinen Vorgängermodellen lehnt es jedoch seltener ab und kann zwischen harmlosen und schädlichen Eingabeaufforderungen unterscheiden. Laut Anthropic wurden die unnötigen Ablehnungen im Vergleich zum Vorgängermodell Claude 3.5 Sonnet um 45 % reduziert.
Die klügsten Köpfe der Krypto-Szene lesen bereits unseren Newsletter. Möchten Sie auch dabei sein? Dann schließen Sie sich ihnen an.
Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtrondentdentdentdentdentdentdentdent oder einen qualifizierten Fachmann zu konsultieren
CRASH-KURS
- Mit welchen Kryptowährungen kann man Geld verdienen?
- Wie Sie Ihre Sicherheit mit einer digitalen Geldbörse erhöhen können (und welche sich tatsächlich lohnen)
- Wenig bekannte Anlagestrategien, die Profis anwenden
- Wie man mit dem Investieren in Kryptowährungen beginnt (welche Börsen man nutzen sollte, welche Kryptowährung am besten zum Kauf geeignet ist usw.)














