Inteligência Artificial Tóxica é uma realidade, e ela é recompensada por ser provocativa

Tóxico
- Grandes modelos de linguagem (LLMs) precisam ser seguros, e isso é feito por meio de um processo chamado "red teaming". O "red teaming" manual é caro, mas pode ser automatizado usando um LLM de "red teaming".
- O treinamento de equipes vermelhas orientado pela curiosidade (CRT, na sigla em inglês) é melhor porque produz uma ampla gama de estímulos que geram resultados tóxicos e possui um sistema de recompensas mais eficaz.
- O CRT gerou 196 prompts únicos quando testado em modelos avançados como o LLaMA2.
Os grandes modelos de linguagem (LLMs, na sigla em inglês) estão se tornando parte integrante de quase todos os setores. O desenvolvimento de LLMs para aplicações de processamento de linguagem natural envolve muitas etapas. Uma delas é garantir que os LLMs não produzam respostas perigosas ou conteúdo tóxico. Para solucionar esse problema, os desenvolvedores utilizam uma equipe vermelha humana, que consiste basicamente em um grupo de pessoas que gera estímulos que levam os LLMs a produzir resultados perigosos.
O problema de usar uma equipe vermelha humana é que recrutá-la é caro e consome muito tempo. É por isso que pesquisadores do MIT descobriram um novo método para testar aplicações de aprendizado de máquina em linguagem natural usando outro aprendizado de máquina. Essa abordagem é chamada de "equipe vermelha guiada pela curiosidade" (CRT, na sigla em inglês) e usa aprendizado de máquina como base. A pesquisa foi publicada como artigo na conferência ICLR 2024 e está disponível online.
O treinamento de equipes vermelhas motivado pela curiosidade (CRT) é melhor
Inicialmente, a abordagem para automatizar o trabalho humano de equipes vermelhas foi feita através da criação de um modelo de equipe vermelha e seu treinamento utilizando aprendizado por reforço (RL). Após testar o modelo de equipe vermelha, o resultado foi bem-sucedido, porém com um baixo número de resultados efetivos.
Isso significa que o LLM alvo não será avaliado com precisão, visto que muitos estímulos que podem gerar resultados tóxicos não estão incluídos. O motivo para o baixo número de resultados eficazes é que o modelo da equipe vermelha é treinado para produzir resultados altamente tóxicos e semelhantes. O sistema de recompensas pontua os estímulos provocativos com base em sua eficácia ou toxicidade. Não há incentivo para considerar todos os estímulos possíveis que possam acionar o LLM alvo.
Por outro lado, usar o Red Teaming guiado pela curiosidade (CRT) é mais poderoso. O CRT gera um grande número de estímulos capazes de provocar modelos altamente inteligentes. Isso ocorre porque o CRT se concentra nas consequências de cada estímulo. Ele busca usar palavras e frases diferentes, resultando em uma cobertura mais ampla de saídas tóxicas. O sistema de recompensa no modelo de aprendizado por reforço se concentra na similaridade de palavras, enquanto o modelo CRT é recompensado por evitar similaridades e usar palavras e padrões diferentes.
Testes em LLaMA2 para detecção de toxicidade
Os pesquisadores aplicaram a técnica de Red Teaming guiada pela curiosidade (CRT, na sigla em inglês) ao LLaMA2, um modelo LLM de código aberto. A CRT conseguiu gerar 196 prompts que produziram conteúdo tóxico a partir do modelo de código aberto. O LLaMA2 é ajustado por especialistas humanos para evitar a geração de conteúdo prejudicial. Os pesquisadores conduziram este experimento usando o GPT-2, considerado um modelo pequeno com 137 milhões de parâmetros. A equipe concluiu que a CRT pode ser um componente crucial na automação do trabalho de Red Teaming. O código da CRT está disponível no GitHub.
“Estamos testemunhando um aumento exponencial no número de modelos, e a expectativa é que esse número cresça ainda mais. Imagine milhares de modelos, ou até mais, e empresas/laboratórios lançando atualizações frequentes. Esses modelos se tornarão parte integrante de nossas vidas, e é fundamental que sejam verificados antes de serem disponibilizados ao público. A verificação manual de modelos simplesmente não é escalável, e nosso trabalho busca reduzir o esforço humano para garantir um futuro da IA mais seguro e confiável”, afirma Agrawal.
O futuro da criação de modelos LLM seguros parece promissor. Com pesquisa contínua, o objetivo de criar LLMs seguros para qualquer finalidade poderá ser alcançado de forma eficiente. Os pesquisadores responsáveis por este artigo publicaram outros trabalhos relacionados em áreas como testes de intrusão automatizados e ataques adversários em modelos de linguagem.
Não se limite a ler notícias sobre criptomoedas. Compreenda-as. Assine nossa newsletter. É grátis.
Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Randa Moses
Randa Moses é editora e repórter da Cryptopolitan onde cobre tecnologia, IA, robótica, criptomoedas, golpes e ataques cibernéticos. Ela trabalha no universo das criptomoedas desde 2017, tendo atuado na Forward Protocol, AmaZix e Cryptosomniac. Randa é formada em Engenharia Elétrica etronpela Universidade de Bradford.
- Quais criptomoedas podem te fazer ganhar dinheiro?
- Como aumentar a segurança da sua carteira digital (e quais realmente valem a pena usar)
- Estratégias de investimento pouco conhecidas que os profissionais utilizam
- Como começar a investir em criptomoedas (quais corretoras usar, as melhores criptomoedas para comprar etc.)















