L'intelligenza artificiale possiede le stesse competenze degli esseri umani e riesce a trovare indizi sottili nel vocabolario? I ricercatori della Tandon School of Engineering della NYU non sono sorpresi di vedere l'attività principale svolta dalle persone (la partecipazione al puzzle quotidiano Connections) riportata dal New York Times, come menzionato nell'articolo.
Valutazione dei modelli di linguaggio AI
L'indagine ha portato alla luce una questione controversa per la prossima conferenza IEEE 2024 di Milano sugli studi sui videogiochi e la condivisione delle conoscenze disponibili e comuni: è possibile per le moderne tecniche di elaborazione del linguaggio naturale (NLP) risolvere enigmi basati sul linguaggio?
Con Julian Togelius, professore associato di CSE e direttore del Game Innovation Lab presso la NYU Tandon, come coautore, il team si è concentrato su due metodi di intelligenza artificiale: l'apprendimento automatico e l'apprendimento di rappresentazioni di alto livello. Il primo sfruttava GPT-3.5, mentre l'ultima versione, GPT-4, gli eccezionali modelli linguistici con dominio aperto e senso di OpenAI, è un altro.
Il meccanismo successivo si basa su modelli di embedding di frasi, in particolare BERT, RoBERTa, MPNet e MiniLM. Questi modelli rappresentano i dati semantici come rappresentazione vettoriale, ma non possiedono le capacità complete di comprensione e generazione del linguaggio tipiche degli LLM.
Tuttavia, si è concluso che, sebbene tutte le macchine dotate di intelligenza artificiale potessero svolgere alcuni dei compiti previsti da Connections, la sfida rimaneva pressoché insormontabile. Tende a essere migliore di altri sistemi nella categoria precedente, con risultati notevoli come i metodi di incorporamento e GPT-3.
Una delle scoperte chiave è che i modelli mostrano una stretta connessione con la capacità umana di classificare rapidamente la difficoltà dei puzzle da "semplici" a "impegnativi". Gli LLM vengono utilizzati sempre più frequentemente e analizzare in quali contesti falliscono per quanto riguarda il problema delle connessioni può rivelare una restrizione generale nell'elaborazione semantica del linguaggio naturale, ha aggiunto Graham Todd, dottorando dent il Game Innovation Lab e autore principale dello studio.
Superare i limiti con GPT-4
I ricercatori hanno osservato che chiedere a GPT-4 di risolvere i puzzle attraverso un approccio frammentario ha migliorato notevolmente la capacità di risolverli, soprattutto con una precisione di poco superiore al 39% dei puzzle.
Un'ulteriore prova dell'utilità delle "catene di pensiero", come dimostrato da precedenti ricerche e ora confermato dalla nostra indagine, è che portano a un pensiero strutturato nel vocabolario, come affermato da Timothy Merino,dent presso il Game Innovation Lab e uno degli autori di questotrac. La questione di come i modelli linguistici svolgano il lavoro e concludano meglio i compiti viene risolta efficacemente facendoli riflettere sul lavoro che stanno svolgendo. I ricercatori hanno utilizzato un archivio di puzzle online con 250 puzzle che rappresentano i puzzle giornalieri dal 12 giugno 2023 al 16 febbraio 2024.

