Gli utenti di OpenAI hannodentuna vulnerabilità. Poco dopo che OpenAI ha pubblicato o1, il suo modello iniziale di intelligenza artificiale "ragionante", è stato osservato un comportamento peculiare. Apparentemente, quando una richiesta viene posta in inglese, il modello inizia occasionalmente a "pensare" in una lingua diversa dall'inglese, come il cinese o il persiano.
Un utente ha detto: "[O1] ha iniziato a pensare in cinese a metà strada, in modo casuale". Inoltre, un utente completamente diverso su X ha anche detto: "Perché [o1] ha iniziato a pensare in cinese a metà strada?"
Perché o1 pro ha iniziato a pensare in cinese all'improvviso? Nessuna parte della conversazione (più di 5 messaggi) era in cinese... molto interessante... i dati di allenamento influenzano pic.twitter.com/yZWCzoaiit
– Rishab Jain (@RishabJainK) 9 gennaio 2025
Secondo le osservazioni, quando gli viene presentato un problema da risolvere, o1 inizia il suo processo di "pensiero", che prevede una sequenza di passaggi di ragionamento che portano a una risposta. La risposta finale di o1 sarebbe in inglese se la query fosse scritta in quella lingua.
Tuttavia, il modello eseguirebbe determinate procedure in una lingua diversa prima di formulare la sua conclusione.
In particolare, OpenAI non ha fornito una spiegazione per la peculiare condotta di o1, né l'ha nemmeno riconosciuta. Quale potrebbe essere la causa?
Ecco le teorie di alcuni professionisti dell'intelligenza artificiale.
Il CEO di Hugging Face, Clément Delangue, ha affermato su X che i modelli di ragionamento come o1 vengono addestrati su set di dati con un gran numero di lettere cinesi.
Inoltre, secondo Ted Xiao, ricercatore presso Google DeepMind, organizzazioni come OpenAI utilizzano servizi di etichettatura dei dati cinesi di terze parti e il passaggio al cinese è un esempio di "influenza linguistica cinese sul ragionamento"
Ted Xiao ha scritto in un post su X : "I laboratori AGI come OpenAI e Anthropic utilizzano servizi di etichettatura dei dati 3P per dati di ragionamento di livello PhD per scienze, matematica e codifica; per motivi di disponibilità di manodopera specializzata e di costo, molti di questi fornitori di dati hanno sede in Cina".
Apparentemente, durante il processo di addestramento, le etichette, chiamate anchedento annotazioni, aiutano i modelli a comprendere e interpretare i dati.
Ad esempio, le etichette utilizzate per addestrare un modello di riconoscimento delle immagini possono essere costituite da didascalie che fanno riferimento a ciascuna persona, luogo o oggetto raffigurato in un'immagine, oppure da segni che circondano gli oggetti.
Inoltre, la ricerca ha dimostrato che classificazioni distorte possono dare origine a modelli distorti. Ad esempio, l'annotatore medio è più propenso a etichettare frasi in inglese vernacolare afroamericano (AAVE).
Questa è nota come grammatica informale usata da alcuni afroamericani per indicare sostanze tossiche. Di conseguenza, i rilevatori di tossicità dell'IA addestrati sulle etichette percepiscono AAVE come eccessivamente tossico.
Tuttavia, la teoria dell'etichettatura dei dati in cinese o1 non è accettata da altri esperti. Essi sottolineano che è altrettanto probabile che o1 passi all'hindi, al tailandese o a una lingua diversa dal cinese nel tentativo di formulare una soluzione.
Questi esperti sostengono piuttosto che o1 e altri modelli di ragionamento potrebbero utilizzare i linguaggi più efficienti per raggiungere un obiettivo.
A tal fine, Matthew Guzdial, ricercatore di intelligenza artificiale, ha affermato: "Il modello non sa cos'è una lingua o che le lingue sono diverse". Questo perché i token, come l'etichettatura, hanno il potenziale di imporre pregiudizi.
In particolare, diversi traduttori che usano la traduzione "parola-token" presumono che uno spazio in una frase indichi una nuova parola. Questo nonostante non tutte le lingue utilizzino gli spazi per separare le parole.
Tuttavia, Luca Soldaini, ricercatore presso l'istituto no-profit Allen Institute for AI, ha sottolineato che è impossibile determinarlo con certezza. Ha affermato: "Questo tipo di osservazione su un sistema di intelligenza artificiale implementato è impossibile da supportare a causa della natura opaca di questi modelli [...] È uno dei numerosi casi in cui viene sottolineata l'importanza della trasparenza nella costruzione di sistemi di intelligenza artificiale".
Problemi con OpenAI
Il 2024 è stato un anno a dir poco turbolento per OpenAI. L'azienda e il suo CEO, Sam Altman, hanno iniziato l'anno con una causa intentata da Elon Musk. Musk ha sostenuto che l'azienda aveva abbandonato il suo obiettivo iniziale di non-profit per privilegiare i profitti rispetto al bene pubblico.
Nell'ultimo anno, otto quotidiani negli Stati Uniti, tra cui il New York Daily News, il Chicago Tribune e il Denver Post, hanno fatto causa a OpenAI e Microsoft. Hanno accusato l'azienda di aver utilizzato milioni di pubblicazioni protette da copyright per addestrare chatbot di intelligenza artificiale senza autorizzazione o pagamento. Hanno affermato che la tecnica violava i loro diritti di proprietà intellettuale.
Anche Mira Murati, Chief Technology Officer di OpenAI, ha annunciato le sue dimissioni. Si è trattato di un momento chiave, poiché le sue competenze tecnologiche erano essenziali per lo sviluppo dell'azienda.
Inoltre, OpenAI ha riscontrato diverse difficoltà con ChatGPT, come interruzioni occasionali, problemi tecnici che hanno portato a risposte imprecise o insensate da parte del chatbot e preoccupazioni relative alla privacy degli utenti. Ci sono stati anche casi in cui l'IA ha generato contenuti parziali o offensivi.

