Your bank is using your money. You’re getting the scraps.WATCH FREE

Inteligência Artificial Tóxica é uma realidade, e ela é recompensada por ser provocativa 

Neste post:

  • Grandes modelos de linguagem (LLMs) precisam ser seguros, e isso é feito por meio de um processo chamado "red teaming". O "red teaming" manual é caro, mas pode ser automatizado usando um LLM de "red teaming".
  • O treinamento de equipes vermelhas orientado pela curiosidade (CRT, na sigla em inglês) é melhor porque produz uma ampla gama de estímulos que geram resultados tóxicos e possui um sistema de recompensas mais eficaz. 
  • O CRT gerou 196 prompts únicos quando testado em modelos avançados como o LLaMA2.

Os grandes modelos de linguagem (LLMs, na sigla em inglês) estão se tornando parte integrante de quase todos os setores. O desenvolvimento de LLMs para aplicações de processamento de linguagem natural envolve muitas etapas. Uma delas é garantir que os LLMs não produzam respostas perigosas ou conteúdo tóxico. Para solucionar esse problema, os desenvolvedores utilizam uma equipe vermelha humana, que consiste basicamente em um grupo de pessoas que gera estímulos que levam os LLMs a produzir resultados perigosos. 

O problema de usar uma equipe vermelha humana é que recrutá-la é caro e consome muito tempo. É por isso que pesquisadores do MIT descobriram um novo método para testar aplicações de aprendizado de máquina em linguagem natural usando outro aprendizado de máquina. Essa abordagem é chamada de "equipe vermelha orientada pela curiosidade" (CRT, na sigla em inglês) e usa aprendizado de máquina como base. A pesquisa foi publicada como artigo na conferência ICLR 2024 e está disponível online .

O treinamento de equipes vermelhas motivado pela curiosidade (CRT) é melhor

Inicialmente, a abordagem para automatizar o trabalho humano de equipes vermelhas foi feita através da criação de um modelo de equipe vermelha e seu treinamento utilizando aprendizado por reforço (RL). Após testar o modelo de equipe vermelha, o resultado foi bem-sucedido, porém com um baixo número de resultados efetivos. 

Isso significa que o LLM alvo não será avaliado com precisão, visto que muitos estímulos que podem gerar resultados tóxicos não estão incluídos. O motivo para o baixo número de resultados eficazes é que o modelo da equipe vermelha é treinado para produzir resultados altamente tóxicos e semelhantes. O sistema de recompensas pontua os estímulos provocativos com base em sua eficácia ou toxicidade. Não há incentivo para considerar todos os estímulos possíveis que possam acionar o LLM alvo. 

Veja também:  O preconceito etário em relação à IA está afetando o bem-estar e a igualdade das mulheres idosas?

Por outro lado, usar o Red Teaming guiado pela curiosidade (CRT) é mais poderoso. O CRT gera um grande número de estímulos capazes de provocar modelos altamente inteligentes. Isso ocorre porque o CRT se concentra nas consequências de cada estímulo. Ele busca usar palavras e frases diferentes, resultando em uma cobertura mais ampla de saídas tóxicas. O sistema de recompensa no modelo de aprendizado por reforço se concentra na similaridade de palavras, enquanto o modelo CRT é recompensado por evitar similaridades e usar palavras e padrões diferentes. 

Testes em LLaMA2 para detecção de toxicidade

Os pesquisadores aplicaram a técnica de Red Teaming guiada pela curiosidade (CRT, na sigla em inglês) ao LLaMA2, um modelo LLM de código aberto. A CRT conseguiu gerar 196 prompts que produziram conteúdo tóxico a partir do modelo de código aberto. O LLaMA2 é ajustado por especialistas humanos para evitar a geração de conteúdo prejudicial. Os pesquisadores conduziram este experimento usando o GPT-2, considerado um modelo pequeno com 137 milhões de parâmetros. A equipe concluiu que a CRT pode ser um componente crucial na automação do trabalho de Red Teaming. O código da CRT está disponível no GitHub .

“Estamos testemunhando um aumento exponencial no número de modelos, e a expectativa é que esse número cresça ainda mais. Imagine milhares de modelos, ou até mais, e empresas/laboratórios lançando atualizações frequentes. Esses modelos se tornarão parte integrante de nossas vidas, e é fundamental que sejam verificados antes de serem disponibilizados ao público. A verificação manual de modelos simplesmente não é escalável, e nosso trabalho busca reduzir o esforço humano para garantir um futuro da IA ​​mais seguro e confiável”, afirma Agrawal.  

Veja também  Riscos de depender da IA ​​para obrigações fiscais

O futuro da criação de modelos LLM seguros parece promissor. Com pesquisa contínua, o objetivo de criar LLMs seguros para qualquer finalidade poderá ser alcançado de forma eficiente. Os pesquisadores responsáveis ​​por este artigo publicaram outros trabalhos relacionados em áreas como testes de intrusão automatizados e ataques adversários em modelos de linguagem.

Se você quer uma entrada mais tranquila no mundo das criptomoedas DeFi , sem a euforia habitual, comece com este vídeo gratuito.

Compartilhar link:

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. O Cryptopolitan não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamos tron a realização de pesquisas independentes dent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Mais lidas

Carregando os artigos mais lidos...

Fique por dentro das notícias sobre criptomoedas e receba atualizações diárias na sua caixa de entrada

Escolha do editor

Carregando artigos selecionados pela equipe editorial...

- A newsletter de criptomoedas que te mantém sempre um passo à frente -

Os mercados se movem rapidamente.

Nós nos movemos mais rápido.

Assine o Cryptopolitan Daily e receba informações oportunas, precisas e relevantes sobre criptomoedas diretamente na sua caixa de entrada.

Inscreva-se agora e
não perca nenhum lance.

Entre. Informe-se.
Saia na frente.

Inscreva-se no CryptoPolitan