Google è sottoposta a nuove analisi dopo che un dirigente senior ha testimoniato che i prodotti di intelligenza artificiale (IA) specifici per la ricerca dell'azienda, come AI Overviews, vengono addestrati sui contenuti degli editori, anche quando questi ultimi hanno esplicitamente scelto di non partecipare all'addestramento dell'IA.
Eli Collins, vicepresidente dent Google DeepMind, ha riconosciuto in tribunale federale che, sebbene gli editori possano impedire che i loro contenuti vengano utilizzati per addestrare modelli di intelligenza artificiale sviluppati da DeepMind, tali esclusioni non si applicano all'organizzazione di ricerca più ampia di Google.
"Una volta preso il modello Gemini [AI] e inserito nell'organizzazione di ricerca, quest'ultima ha la possibilità di addestrarsi sui dati che gli editori avevano scelto di non addestrare, corretto?" ha chiesto Diana Aguilar, avvocato del Dipartimento di Giustizia degli Stati Uniti (DOJ).
Collins ha confermato che i dati potrebbero ancora essere utilizzati "per la ricerca"
Questa rivelazione arriva nel bel mezzo di un cruciale processo antitrust che determinerà come l'azienda tecnologica debba ristrutturare le proprie attività dopo essere stata dichiarata colpevole lo scorso anno di monopolio illegale del mercato della ricerca online. Il Dipartimento di Giustizia sta ora insistendo per ottenere misure strutturali, tra cui l'obbligo per l'azienda di cedere il suo browser Chrome e il divieto di accordi che lo rendano il motore di ricerca predefinito su tutti i dispositivi, una mossa che avrebbe un impatto anche sui prodotti di intelligenza artificiale , tra cui Gemini.
Google alimenta gli strumenti di intelligenza artificiale con contenuti che gli editori affermano di non aver autorizzato
La funzionalità "Panoramiche AI" di Google , che riassume le risposte in cima ai risultati di ricerca utilizzando testo generato dall'intelligenza artificiale, ha già allarmato gli editori di siti web. Molti sostengono che riduca i clic degli utenti sui siti web originali e danneggi i loro ricavi, eppure l'azienda tecnologica continua a utilizzare i dati provenienti da queste fonti.
In un documento presentato dal Dipartimento di Giustizia il 26 agosto 2024, intitolato "Search GenAI <> Gemini v3", i dati interni mostravano che Google aveva filtrato circa 80 miliardi di token – essenzialmente frammenti di testo – dal suo corpus di addestramento di 160 miliardi di token in risposta alle richieste di esclusione degli editori. Tuttavia, i restanti 80 miliardi di token potrebbero ancora includere contenuti che alimentano le funzionalità di intelligenza artificiale di Google Search.
Lo stesso documento elencava anche i "dati delle sessioni di ricerca" e i video di YouTube come fonti aggiuntive per migliorare la formazione dell'intelligenza artificiale, sollevando preoccupazioni sulla portata dei dati degli utenti immessi nei modelli di intelligenza artificiale dell'azienda tecnologica.
Quando il giudice Amit Mehta ha chiesto se metà del set di dati fosse stato effettivamente rimosso a causa dell'esclusione degli editori, Collins ha confermato: "È corretto"
Il Dipartimento di Giustizia evidenzia l'interesse interno nello sfruttamento dei dati di ricerca per l'intelligenza artificiale
Il Dipartimento di Giustizia ha inoltre evidenziato discussioni interne a Google che suggeriscono l'ambizione di addestrare modelli di intelligenza artificiale utilizzando le sue vaste riserve di dati di ricerca: classifiche, query e comportamento degli utenti.
Uno di questi casi includeva un briefing preparato per il CEO di DeepMind, Demis Hassabis, in cui rifletteva sull'idea di addestrare un modello di intelligenza artificiale di Google utilizzando dati di ricerca completi per valutare i conseguenti miglioramenti delle prestazioni.
Aguilar chiese a Collins se Google avesse sviluppato un modello utilizzando i dati di ricerca. Collins rispose di non essere a conoscenza dello sviluppo di un modello del genere, pur riconoscendo che Hassabis aveva mostrato interesse per il concetto.
Il team legale di Google ha cercato di minimizzare le preoccupazioni relative al predominio dell'intelligenza artificiale, sostenendo che altre aziende di intelligenza artificiale possono prosperare senza sfruttare il suo indice di ricerca. Ad esempio, i chatbot sportivi possono accedere a dati in tempo reale tramite partnership commerciali con i fornitori di punteggi, non tramite contenuti web scansionati.
Tuttavia, il Dipartimento di Giustizia sostiene che la posizione dominante di Google nel settore della ricerca gli conferisce un vantaggio ingiusto nel settore dell'intelligenza artificiale, in particolare perché integra Gemini nella sua infrastruttura di ricerca.
Google dovrà affrontare ulteriori controlli sulla sua attività pubblicitaria
Anche Google, di Alphabet, sarà processata a settembre per le proposte delle autorità antitrust di costringere l'azienda a vendere parti della sua attività di tecnologia pubblicitaria. Le modifiche proposte mirano a contrastare il predominio dell'azienda sugli strumenti utilizzati dagli editori online per vendere annunci digitali.
Il giudice distrettuale statunitense Leonie Brinkema di Alexandria, in Virginia, ha fissato la data del processo dopo aver ascoltato Google e il Dipartimento di Giustizia sui possibili rimedi. Entrambe le parti dovrebbero presentare proposte dettagliate entro lunedì.
Il Dipartimento di Giustizia sta cercando di far sì che l'azienda tecnologica ceda le sue attività di scambio di annunci e server di annunci per editori, un processo che dovrebbe durare diversi anni, secondo l'avvocato del Dipartimento di Giustizia Julia Tarver Wood.
L'avvocato di Google, Karen Dunn, ha replicato che l'azienda sostiene misure comportamentali, come consentire ai concorrenti di accedere alle offerte in tempo reale. Tuttavia, ha sostenuto che il Dipartimento di Giustizia non può legalmente obbligare l'azienda a vendere parti della sua attività. Dunn ha inoltre affermato che una simile mossa danneggerebbe gli utenti di Internet e si troverebbe ad affrontare difficoltà a causa della mancanza di acquirenti interessati.

