i modelli linguistici di grandi dimensioni (LLM) addestrati su precedenti iterazioni di materiale generato dall'intelligenza artificiale producono output privi di sostanza e sfumature. I risultati rappresentano una nuova sfida per gli sviluppatori di intelligenza artificiale, che si affidano a set di dati generati da esseri umani limitati per i contenuti.
I ricercatori di intelligenza artificiale dell'Università di Cambridge e dell'Università di Oxford nel Regno Unito hanno provato a scrivere dei prompt basandosi su un set di dati composto esclusivamente da contenuti generati dall'intelligenza artificiale. Il risultato non è stato ideale, poiché ha prodotto risposte incomprensibili.
L'intelligenza artificiale ha ancora bisogno degli esseri umani per avere senso
Uno degli autori dell'articolo, Zhakar Shumaylov dell'Università di Cambridge, ha affermato che è necessario un controllo di qualità nei dati che alimentano gli LLM, la tecnologia alla base dei chatbot di intelligenza artificiale generativa come ChatGPT e Gemini di Google. Shumaylov ha affermato:
"Il messaggio è che dobbiamo stare molto attenti a ciò che finisce nei nostri dati di addestramento. [Altrimenti] le cose andranno sempre, e dimostrabilmente, male".
Il fenomeno è noto come "collasso del modello", ha spiegato Shumaylov. È stato dimostrato che colpisce tutti i tipi di modelli di intelligenza artificiale, compresi quelli specializzati nella generazione di immagini tramite prompt di testo.
Secondo lo studio , la ripetizione di richieste di testo utilizzando dati generati dall'intelligenza artificiale su un modello ha finito per generare un linguaggio incomprensibile. Ad esempio, i ricercatori hanno scoperto che un sistema testato con un testo sui campanili delle chiese medievali del Regno Unito ha prodotto un elenco ripetitivo di lepri dopo sole nove generazioni.
Commentando i risultati, Hany Farid, informatico dell'Università della California, ha paragonato il crollo dei dati alle sfide endemiche della consanguineità animale.
"Se una specie si riproduce consanguinea con la propria prole e non diversifica il proprio patrimonio genetico, ciò può portare al collasso della specie", ha affermato Farid.
Quando i ricercatori hanno integrato dati generati dall'uomo nei dati dell'IA, il collasso è avvenuto più lentamente rispetto a quando i dati erano generati esclusivamente dall'IA.

I ricercatori: l'intelligenza artificiale potrebbe peggiorare i pregiudizi contro le minoranze
I modelli linguistici funzionano creando associazioni tra token – parole o parti di parole – in enormi porzioni di testo, spesso recuperate da Internet. Generano testo estraendo la parola successiva statisticamente più probabile, sulla base di questi modelli appresi.
Leggi anche: L'orsacchiotto Poe, alimentato da ChatGPT, legge le storie della buonanotte ai bambini
Lo studio, pubblicato sulla rivista Nature il 24 luglio, ha dimostrato che le informazioni menzionate più volte nei set di dati difficilmente vengono ripetute. I ricercatori temono che ciò possa avere un impatto negativo su gruppi minoritari già emarginati.
Per evitare il collasso del modello nei casi d'uso reali, lo studio ha suggerito di applicare una filigrana ai contenuti generati dall'intelligenza artificiale e a quelli generati dagli esseri umani. Tuttavia, ha affermato, questo potrebbe anche rivelarsimatic a causa della mancanza di coordinamento tra aziende di intelligenza artificiale rivali.
I risultati dello studio giungono in un momento in cui è in pieno svolgimento il dibattito sulla possibilità che l'intelligenza artificiale porti alla totale esclusione degli esseri umani dalla creazione di contenuti, compresa la scrittura di romanzi e articoli di giornale.
I risultati dello studio, intitolato "I modelli di intelligenza artificiale collassano quando vengono addestrati su dati generati in modo ricorsivo", mettono fine a questo dibattito: gli esseri umani non sono ancora stati eliminati dall'equazione.

