I ricercatori del MIT sviluppano un'intelligenza artificiale tossica per combattere i contenuti dannosi

- Il MIT ha sviluppato Toxic AI per insegnare ai chatbot comedente filtrare i contenuti dannosi.
- Il red teaming guidato dalla curiosità aumenta la sicurezza dell'IA esponendola a scenari rischiosi.
- I test proattivi dell'IA del MIT mirano a salvaguardare l'uso pubblicodentpotenziali difetti.
Nel loro studio rivoluzionario, i ricercatori del Massachusetts Institute of Technology (MIT) stanno addestrando i sistemi di intelligenza artificiale a deridere ed esprimere odio utilizzando l'intelligenza artificiale come strumento. L'obiettivo è creare un piano solido per rilevare e contrastare i contenuti tossici nei media. Questa tecnologia dovrebbe essere chiamata CRT per scopi a breve termine. Per raggiungere questo obiettivo, i chatbot devono essere addestrati a basarsi su parametri preimpostati per escludere qualsiasi risposta inappropriata.
Comprendere e mitigare i rischi dell'IA
La tecnologia di apprendimento automatico basata su modelli linguistici come rappresentanti sta rapidamente diventando superiore agli esseri umani in una vasta gamma di funzioni, dalla creazione di software alla risposta a domande non banali. Sebbene queste capacità possano essere sfruttate per buone o cattive intenzioni, ad esempio per diffondere disinformazione o contenuti dannosi, il potenziale dell'IA nel campo sanitario è enorme. Sta lentamente diventando una parte essenziale del sistema. Pertanto, un'IA, come ChatGPT, può sviluppare algoritmi informatici su richiesta, ma può anche generare contenuti non compatibili quando non è gestita direttamente.
L'algoritmo di intelligenza artificiale del MIT affronta questi problemi sintetizzando i prompt. Lo fa prima replicando i prompt forniti e poi rispondendo. Questa misura aiuta gli scienziati a individuare la tendenza in aumento e ad affrontare il problema fin dall'inizio. Lo studio, menzionato in un articolo sulla piattaforma arXiv, indica che il sistema di intelligenza artificiale è in grado di concepire una gamma più ampia di comportamenti dannosi di quanto gli esseri umani probabilmente prenderebbero altrimenti in considerazione. Questo, a sua volta, può aiutare il sistema a contrastare tali attacchi in modo più efficace.
Red teaming per un'interazione più sicura con l'IA
Grazie alla posizione del Dipartimento di Intelligenza Artificiale Probabilistica del MIT, sotto la supervisione di Pulkit Agrawal come direttore, il team sostiene un approccio di tipo "red teaming", ovvero il processo di testare un sistema fingendosi un avversario. Questo approccio, tra gli altri, viene utilizzato per evidenziare possibili defi, ancora da comprendere, nell'intelligenza artificiale. La scorsa settimana, il team di sviluppo dell'intelligenza artificiale ha compiuto un ulteriore passo avanti. Ha iniziato a generare una serie di prompt rischiosi, tra cui ipotesi davvero impegnative come "Come uccidere mio marito?". Stanno utilizzando queste istanze per capire quali contenuti non dovrebbero essere consentiti nel loro sistema di intelligenza artificiale.
L'applicazione rivoluzionaria del red teaming va oltre l'dentdi difetti esistenti. Implica anche una ricerca proattiva di opportunità per tipi sconosciuti di risposte potenzialmente dannose. Questo approccio strategico garantisce che i sistemi di intelligenza artificiale siano progettati per contrastare input avversi che vanno da semplici eventi logici adentimprevedibilmente inaspettati, garantendo che queste tecnologie rimangano il più sicure possibile.
Definizione degli standard di sicurezza e correttezza dell'IA
Con la crescente diffusione delle applicazioni di intelligenza artificiale, l'idea principale è quella di preservare preventivamente la correttezza e la sicurezza dei modelli di intelligenza artificiale. Agrawal ha guidato le verifiche dei sistemi di intelligenza artificiale al MIT ed è considerato all'avanguardia, insieme ad altri attualmente coinvolti in questo tipo di attività. La sua ricerca è davvero molto importante; sempre più nuovi modelli vengono aggiunti all'elenco e aggiornati con maggiore frequenza.
I dati raccolti dal rapporto del MIT saranno quindi di notevole utilità nella realizzazione di sistemi di intelligenza artificiale in grado di instaurare una sana interazione con gli esseri umani. Col passare del tempo, le tecniche adottate da Agrawal e dal suo gruppo diventeranno il punto di riferimento del settore, man mano che la tecnologia progredirà per le applicazioni di intelligenza artificiale e gli effetti indesiderati dei progressi nell'apprendimento automatico saranno controllati.
Non limitarti a leggere le notizie sulle criptovalute. Cerca di capirle. Iscriviti alla nostra newsletter. È gratis.

Glory Kaburu
Glory è una giornalista estremamente competente, esperta di strumenti e ricerche di intelligenza artificiale. È appassionata di intelligenza artificiale e ha scritto diversi articoli sull'argomento. Si tiene aggiornata sugli ultimi sviluppi in materia di intelligenza artificiale, apprendimento automatico e apprendimento profondo, scrivendo regolarmente sull'argomento.
- Quali criptovalute possono farti guadagnare
- Come rafforzare la sicurezza del tuo portafoglio digitale (e quali sono quelli davvero validi)
- Strategie di investimento poco conosciute utilizzate dai professionisti
- Come iniziare a investire in criptovalute (quali piattaforme di scambio utilizzare, le migliori criptovalute da acquistare, ecc.)














