OpenAI ha lanciato in sordina GPTBot, un web crawler dedicato progettato per raccogliere dati per i suoi modelli di intelligenza artificiale. Tuttavia, gli amministratori di siti web ora possono impedire al crawler di raccogliere informazioni. Questa iniziativa mira a migliorare la privacy e l'accuratezza dei dati nei modelli di intelligenza artificiale di OpenAI. L'azienda ha aggiunto istruzioni per disattivare il processo di crawling nella sua documentazione online, sebbene non sia stato ancora rilasciato alcun annuncio ufficiale.
GPTBot di OpenAI può esseredentdal token user agent 'GPTBot' nella stringa user-agent. Per impedire al crawler di accedere a determinate parti di un sito web, gli amministratori possono aggiungerlo al file robots.txt del sito, in modo simile a come Googlebot è limitato a determinate aree. OpenAI ha anche rivelato il blocco degli indirizzi IP utilizzato dal crawler, consentendo agli amministratori di bloccare l'accesso direttamente da tali indirizzi.
La misura proattiva di opt-out richiesta
Per impedire a GPTBot di scansionare un sito, gli amministratori del sito web devono aggiungerlo proattivamente al file robots.txt. In caso contrario, i dati raccolti potrebbero essere utilizzati in futuri modelli di intelligenza artificiale, a meno che non vengano esplicitamente bloccati. Questo approccio consente ai proprietari di siti web di controllare i propri dati e di limitare l'accesso a OpenAI.
Mentre alcuni ipotizzano che la mossa di OpenAI possa essere intesa a preparare una potenziale regolamentazione anti-scraping o a difendersi da azioni future, non è certo se i dati raccolti in precedenza sarebbero esenti da controllo. Il GPT-4 di OpenAI, lanciato a marzo 2023, si basa sui dati raccolti fino a settembre 2021, il che potrebbetracl'attenzione delle autorità di regolamentazione.
Ottimizzazione delle risposte e garanzia dell'accuratezza dei dati
La capacità di rilevare GPTBot offre ai proprietari di siti web opportunità che vanno oltre il semplice blocco dell'accesso. Un suggerimento è quello di fornire risposte diverse a OpenAI una voltadentil crawler. Questo approccio consente agli amministratori di introdurre deliberatamente informazioni errate, influenzando l'accuratezza dei set di dati di addestramento.
OpenAI intende utilizzare GPTBot per perfezionare i propri modelli di intelligenza artificiale, migliorandone accuratezza, capacità e sicurezza. Poiché modelli linguistici di grandi dimensioni come GPT-3.5 e GPT-4 si basano su ampi set di dati di addestramento, i web crawler come GPTBot diventano strumenti essenziali per la raccolta dati, consentendo di fornire risposte accurate alle query degli utenti.
Il ruolo dei web crawler nella raccolta dati
I web crawler, come GPTBot, esploranomaticInternet, raccogliendo dati per vari scopi, tra cui l'indicizzazione sui motori di ricerca e l'archiviazione delle pagine web. Seguendo le istruzioni nel file robots.txt, i proprietari di siti web possono specificare quali aree del loro sito possono essere sottoposte a scansione, salvaguardando i dati sensibili o privati.
Utilizzo precedente dei set di dati da parte di OpenAI e scopo di GPTBot
OpenAI ha già utilizzato set di dati, tra cui Common Crawl, per addestrare i suoi modelli di intelligenza artificiale. Tuttavia, GPTBot è un crawler dedicato, progettato per raccogliere dati specificamente per i modelli di OpenAI. Il suo scopo è contribuire a migliorare l'accuratezza e la sicurezza delle risposte generate dall'intelligenza artificiale.
L'introduzione di GPTBot, un web crawler dedicato, da parte di OpenAI offre agli amministratori di siti web l'ulteriore vantaggio di controlli sulla privacy. OpenAI mira a migliorare la privacy e l'accuratezza dei dati nei suoi modelli di intelligenza artificiale, consentendo ai proprietari di siti web di negare il consenso alla raccolta dati. Sebbene permangano speculazioni sulle motivazioni dell'azienda, questa mossa dimostra l'impegno di OpenAI nel promuovere responsabilmente le capacità di intelligenza artificiale. Ora che gli amministratori di siti web hanno il potere di gestire l'accesso a GPTBot, possono controllare meglio i propri dati e garantire l'accuratezza delle risposte generate dall'intelligenza artificiale.

