Apple kündigte gestern auf der WWDC 2025 an, sein KI-Modell in der gesamten Intelligence Suite aktualisieren zu wollen. Im Vergleich zu älteren Modellen von Konkurrenten wie OpenAI schnitt das Modell in Benchmarks schlechter ab. Der Technologiekonzern argumentierte jedoch, dass On-Device und Apple Server gegenüber ihren Vorgängern verbessert wurden und mehr als 15 Sprachen verstehen.
Laut menschlichen Testern schnitt das neueste On-Device-Modell, das lokal auf iPhones und anderen Geräten läuft, bei der Textgenerierung ähnlich ab wie ältere Modelle von Google und Alibaba. Die Tester bewerteten Apple Server, der für den Betrieb in den Rechenzentren des Unternehmens konzipiert ist, hinter OpenAIs ein Jahr altem GPT-4o. In einer separaten Bewertung bevorzugten sie Metas Llama 4 gegenüber Apple Server hinsichtlich der Bildanalyse. Die Bewertungen überraschten Apple, da Llama 4 Scout im Vergleich zu KI-Laboren wie Google, Anthropic und OpenAI schlecht abschnitt.
Entwickler stehen Apples Innovationsversprechen skeptisch gegenüber
Entwickler stehen skeptisch gegenüber. Atul Kakkar, Chief Product Officer der KI-gestützten Finanz-App Origi, gab zu, als Entwickler die Begeisterung um die Veröffentlichungen von Tim Cooks Unternehmen nicht gespürt zu haben. Er glaubt, dass die jährliche WWDC einst das wichtigste Tech-Event war, heute aber Skepsis herrscht, ob der iPhone-Hersteller mit den KI-Giganten mithalten kann.
Apple veröffentlicht keine Benchmarks für seine KI-Systeme, sondern berichtet über eine schlecht dokumentierte direkte Vergleichsbewertung
Doch selbst für ihre Verhältnisse sind Apples neueste On-Board-Gerätemodelle größtenteils schlechter als die offenen Modelle Gemma 3-4B von Google oder Qwen 3-4B
Und ihr Server LLM ähnelt Llama 4 Scout pic.twitter.com/hwpOG5Lgyp
– Ethan Mollick (@emollick) 10. Juni 2025
Der Technologiekonzern steht unter Druck, mitzuhalten, indem er seine KI-Tools für Entwickler kontinuierlich aktualisiert und innerhalb der Apple Intelligence Suite ein begeisterndes Nutzererlebnis schafft. Grant McDonald, CEO und Mitgründer der KI-gestützten Eltern-App Bobo, sagte, dass Tim Cooks Unternehmen zwar interessante Dinge mache, diese aber nicht ausreichten, um sich von der Masse abzuheben.
McDonald ist überzeugt, dass die Entwicklung KI-gestützter Anwendungen mithilfe der On-Device-KI-Modelle den Mehrwert des Unternehmens ausmacht. Diese kleinen KI-Modelle werden mit kleinen Datensätzen trainiert und benötigen weniger Rechenleistung, wodurch sie direkt auf einem iPhone anstatt auf großen Servern in der Cloud ausgeführt werden können. Laut McDonald ist die Ausführung von Modellen auf einem Gerät praktisch günstiger als cloudbasierte Lösungen wie GPT und Gemini.
Entwickler bezweifeln, dass geräteinterne Modelle im Vergleich zu cloudbasierten Modellen gut abschneiden. Ein Entwickler gab an, dass sie diese nicht anhand eines proprietären Datensatzes feinabstimmen könnten. McDonald erklärte, die geräteinternen Modelle seien für einige Apps ausreichend, jedoch nicht für Bobo. Die Eltern-App passte ihr KI-Modell mit proprietären Daten von Schlafberatern, Stillberatern, Logopäden und anderen Erziehungsexperten an.
Apples KI-Forschungsabteilung hat Schwierigkeiten, mit der Konkurrenz mitzuhalten
Der Technologiekonzern hatte ein Siri-Upgrade mit personalisierten Inhalten versprochen, doch dieses Update verzögert sich. Einige Kunden haben das Unternehmen verklagt, weil es Produkte vermarktet, die noch nicht ausgeliefert wurden. Forscher erklärten, dass KI-Modelle zwar in Mathematik und Naturwissenschaften sehr gut abschneiden, komplexe Probleme aber nur eine Illusion von Denken erzeugen.
Der Technologiekonzern verzögerte die Entwicklung umfangreicher Sprachmodelle und die Implementierung von KI in seinen Geräten, um sich aus der Diskussion herauszuhalten. Auf der WWDC präsentierte das Unternehmen Apple Intelligence für KI-Funktionen, die von der Community als eher enttäuschend empfunden wurden.
Forscher haben herausgefunden , dass logistische Regressionsmodelle ab einem bestimmten Punkt versagen. Dies zeigt, dass alle Modelle ein ähnliches Muster aufweisen: Die Genauigkeit nimmt mit steigender Problemkomplexität kontinuierlich ab, bis sie schließlich null erreicht. Laut den Forschern wenden logistische Regressionsmodelle anfänglich mehr Denkressourcen an, geben aber mit zunehmender Komplexität auf. Entgegen der Intuition verringert sich ihr Denkaufwand trotz steigender Problemschwierigkeit.
Laut Dipanjan Chatterjee, Analyst bei Forrester Research, herrschte ohrenbetäubendes Schweigen um Siri. Er erklärte, dass weder Textkorrekturen noch niedliche Emojis das ersehnte interaktive KI-Erlebnis ersetzen könnten, zu dem Siri seiner Meinung nach fähig wäre. Er glaubt, dass das Ende von Siri nahe ist, wenn das Unternehmen nicht schnell handelt. Das Unternehmen nannte keinen genauen Zeitplan für das Siri-Upgrade. Laut Craig Federighi, einem leitenden Softwaremanager des Unternehmens, deutete es jedoch an, dass es frühestens im nächsten Jahr erfolgen wird.

