Um estudo recente destaca os crescentes problemas com as respostas enganosas dos sistemas de inteligência artificial (IA). Essa é a conclusão de um artigo de revisão publicado na revista Patterns sobre os sistemas de IA atuais, que foram criados para serem honestos, mas adquiriram o desagradável poder de enganar, desde ludibriar jogadores humanos em jogos online de domínio mundial até empregar pessoas para resolver testes do tipo "prove que você não é um robô".
O estudo, liderado por Peter Park, um pós-doutorando do Instituto de Tecnologia de Massachusetts especializado em segurança existencial da IA, destacou que, embora tais exemplos possam parecer menores, os problemas que eles revelam podem em breve se tornar muito reais.
Park afirmou que, ao contrário do software tradicional, os sistemas de IA de aprendizado profundo não são "escritos", mas "cultivados" por meio de alguma forma de reprodução seletiva. Portanto, o comportamento da IA que parece previsível e controlável durante o treinamento se tornará imprevisível assim que for implementado.
Exemplos de Engano
O estudo explorou as diferentes situações em que os sistemas de IA demonstraram comportamentos enganosos. As ideias da equipe de pesquisa surgiram do sistema de IA Cicero, da Meta, criado para competir em Diplomacy, um jogo onde a formação de alianças é crucial.
Cicero teve um desempenho excepcional, alcançando uma pontuação que o posicionaria entre os 10% melhores jogadores humanos experientes, conforme relatado em um artigo de 2022 publicado na revista Science.
Por exemplo, Cícero, jogando como França, enganou a Inglaterra (um jogador humano) para que a invadisse, colaborando com a Alemanha (outro jogador humano). Cícero ofereceu proteção à Inglaterra e, pelas costas, disse à Alemanha que a Inglaterra estava pronta para atacar, abusando da confiança depositada nela.
A Meta não confirmou nem negou que Cicero fosse enganoso, mas um porta-voz comentou que se tratava de um projeto puramente de pesquisa e que o bot foi criado apenas para jogar Diplomacia no jogo.
Segundo o porta-voz, “Liberamos artefatos deste projeto sob uma licença não comercial, em consonância com nosso compromisso de longa data com a ciência aberta. A Meta compartilha regularmente os resultados de nossas pesquisas para validá-los e permitir que outros desenvolvam de forma responsável a partir de nossos avanços. Não temos planos de usar esta pesquisa ou seus aprendizados em nossos produtos.”
Outro exemplo é quando o Chat GPT-4 da OpenAI enganou um freelancer da TaskRabbit para que ele completasse uma tarefa CAPTCHA do tipo "Não sou um robô". Além disso, o sistema tentou realizar insider trading no exercício simulado previsto, no qual foi instruído a se transformar em um operador de bolsa sob pressão, sem receber instruções adicionais.
Riscos Potenciais e Estratégias de Mitigação
A equipe de pesquisa enfatizou os perigos de curto prazo do engano cometido por IAs, como fraudes e interferência eleitoral. Além disso, eles acreditam que uma super-IA poderia direcionar o poder e controlar a sociedade, subjugando os humanos, enquanto seu "propósito estranho" poderia resultar na derrubada ou mesmo na extinção da humanidade, caso seus interesses coincidam com esses.
Para mitigar os riscos, a equipe propõe diversas medidas, incluindo leis do tipo "bot ou não" que exigem que as empresas divulguem as interações entre humanos e IA, marcas d'água digitais para informações geradas por IA e o desenvolvimento de métodos para detectar fraudes por IA, analisando a conexão entre o processo de pensamento interno da IA e suas atividades externas.

