Les nouveaux modèles de raisonnement d'OpenAI, o3 et o4-mini, produisent des réponses inventées plus souvent que les modèles précédents de l'entreprise, comme le montrent des tests internes et externes.
L’augmentation de ce que l’on appelle les hallucinations rompt avec une tendance de longue date selon laquelle chaque nouvelle version avait tendance à proposer moins d’éléments que la précédente.
OpenAI mettent en lumière le problème de façon alarmante. Sur PersonQA, un test de performance interne évaluant la capacité d'un modèle à se souvenir d'informations sur des personnes, o3 a inventé des éléments dans 33 % des réponses, soit environ le double des taux enregistrés par o1 et o3-mini (16 % et 14,8 % respectivement). O4-mini a fait encore pire, avec 48 % de réponses erronées.
Un rapport technique détaille les conclusions. Les ingénieurs indiquent que les nouveaux modèles surpassent les versions précédentes en matière de programmation et de calculs, mais que, du fait de leur plus grand nombre d'affirmations, ils produisent également des affirmations plus précises, mais aussi plus inexactes, voire erronées. Le document précise que des recherches supplémentaires sont nécessaires pour expliquer cette baisse de fiabilité.
OpenAI classe les systèmes de la série o comme des modèles de raisonnement, une position que l'entreprise et une grande partie du secteur ont adoptée au cours de l'année écoulée. Les modèles traditionnels, non axés sur le raisonnement, tels que GPT-4o avec recherche web, surpassent les deux derniers modèles en termes de fiabilité : GPT-4o avec recherche atteint une précision de 90 % sur SimpleQA, un autre test de performance interne.
Le modèle o3 d'OpenAI progresse par étapes
Transluce, un laboratoire d'IA à but non lucratif, a signalé que le modèle o3 inventait des étapes. Lors d'une exécution, le modèle a affirmé avoir exécuté du code sur un MacBook Pro 2021 « en dehors de ChatGPT », puis avoir recopié les chiffres. Or, ce modèle est tout simplement incapable de réaliser une telle opération.
« Notre hypothèse est que le type d’apprentissage par renforcement utilisé pour les modèles de la série o peut amplifier des problèmes qui sont généralement atténués (mais pas complètement effacés) par les pipelines de post-entraînement standard », a déclaré Neil Chowdhury, chercheur chez Transluce et ancien employé d’OpenAI, dans un courriel.
Sarah Schwettmann, cofondatrice de Transluce, a déclaré que le taux d'erreur plus élevé pourrait rendre o3 moins utile que ne le suggèrent ses capacités brutes.
Kian Katanforoosh, professeur associé à Stanford, a déclaré à TechCrunch que son équipe testait déjà o3 pour des tâches de programmation et le considérait comme « un cran au-dessus de la concurrence ». Il a toutefois signalé un autre défaut : le modèle renvoie souvent des liens Web qui ne fonctionnent pas lorsqu’on clique dessus.
Les hallucinations peuvent stimuler la créativité, mais elles rendent ces systèmes difficiles à vendre aux entreprises qui ont besoin de précision. Un cabinet d'avocats rédigeant destrac, par exemple, tolérera difficilement des erreurs factuelles fréquentes.
La recherche en temps réel pourrait réduire les hallucinations dans les modèles d'IA
Une solution possible est la recherche en temps réel. La version GPT-4o d'OpenAI, qui interroge le web, obtient déjà de meilleurs résultats sur SimpleQA. Le rapport suggère que cette même tactique pourrait réduire les erreurs de raisonnement dans les modèles de raisonnement, du moins lorsque les utilisateurs acceptent d'envoyer des requêtes à un moteur tiers.
« La lutte contre les hallucinations dans tous nos modèles est un domaine de recherche permanent, et nous travaillons sans cesse à améliorer leur précision et leur fiabilité », a déclaré Niko Felix, porte-parole d'OpenAI, dans un courriel.
Il est encore difficile de savoir si la recherche en temps réel suffira à résoudre le problème. Le rapport prévient que si l'augmentation de la taille des modèles de raisonnement continue d'aggraver les hallucinations, la recherche de solutions deviendra plus urgente. Les chercheurs considèrent depuis longtemps les hallucinations comme l'un des problèmes les plus complexes de l'IA, et les dernières découvertes soulignent l'ampleur du chemin à parcourir.
Pour OpenAI, la crédibilité est primordiale, car ChatGPT est utilisé en entreprise, dans les établissements scolaires et les studios de création. Les ingénieurs affirment qu'ils continueront d'optimiser l'apprentissage par renforcement, la sélection des données et l'utilisation des outils afin de réduire les erreurs. En attendant, les utilisateurs doivent trouver un équilibre entre des compétences plus pointues et un risque accru d'erreurs.

