Your bank is using your money. You’re getting the scraps.WATCH FREE

Riscos emergentes à privacidade na IA: o desafio da memorização em modelos de linguagem

Neste post:

  • Risco de memorização da IA: Modelos como o ChatGPT podem recordar dados de treinamento, o que levanta preocupações com a privacidade.
  • Um ataque de divergência no ChatGPT expõe o potencial de vazamento de dados sensíveis.
  • Modelos de IA maiores demonstram uma maior propensão para memorizar e vazar informações privadas.

Um estudo inovador envolvendo pesquisadores do Google DeepMind, da Universidade de Washington, da UC Berkeley e outros, revelou um aspecto surpreendente de grandes modelos de linguagem como o ChatGPT: sua capacidade de memorizar e replicar dados específicos com os quais foram treinados. Esse fenômeno, conhecido como "memorização", levanta sérias preocupações com a privacidade, especialmente considerando que esses modelos frequentemente são treinados com vastos e diversos conjuntos de dados textuais, incluindo informações potencialmente sensíveis.

Compreendendo a memorização da tabela extrac

O estudo, com foco na “memorizaçãotrac”, buscou determinar se entidades externas poderiamtracdados específicos aprendidos desses modelos sem conhecimento prévio do conjunto de treinamento. Essa memorização não é apenas uma preocupação teórica; ela tem implicações reais para a privacidade.

Metodologia e resultados da pesquisa

Os pesquisadores empregaram uma metodologia inovadora, gerando extensos conjuntos de dados a partir de vários modelos e comparando-os com os conjuntos de dados de treinamento paradentinstâncias de memorização direta. Eles desenvolveram um método exclusivo para o ChatGPT, conhecido como "ataque de divergência", no qual o modelo é instruído a dizer uma palavra até que ela se desvie repetidamente para dados memorizados. Surpreendentemente, os modelos, incluindo o ChatGPT, demonstraram memorização significativa, regurgitando trechos de dados de treinamento mediante instruções específicas.

O ataque de divergência e o ChatGPT

Para o ChatGPT, o ataque de divergência provou ser particularmente revelador. Os pesquisadores induziram o modelo a repetir uma palavra várias vezes, levando-o a divergir das respostas padrão e a emitir dados memorizados. Esse método mostrou-se prático e preocupante devido às suas implicações para a privacidade, pois demonstrou a capacidade detracinformações potencialmente sensíveis.

Veja também:  Portfólio de empreendedor de criptomoedas de Singapura é destruído por malware disfarçado de jogo

A descoberta alarmante do estudo foi que os dados memorizados podiam incluir informações pessoais, como endereços de e-mail e números de telefone. Usando expressões regulares e modelos de linguagem, os pesquisadores avaliaram 15.000 gerações em busca de substrings que se assemelhassem a informações dedentpessoal (IIP). Aproximadamente 16,9% das gerações continham IIP memorizadas, sendo que 85,8% eram IIP reais, e não conteúdo alucinatório.

Implicações para o projeto e uso de modelos de linguagem

Essas descobertas são significativas para o projeto e a aplicação de modelos de linguagem. As técnicas atuais, mesmo as empregadas no ChatGPT, podem não ser suficientes para evitar o vazamento de dados. O estudo ressalta a necessidade de métodos mais robustos de desduplicação de dados de treinamento e uma compreensão mais profunda de como a capacidade do modelo impacta a memorização.

O método principal consistia em gerar texto a partir de vários modelos e comparar esses resultados com os respectivos conjuntos de dados de treinamento dos modelos para memorização. Matrizes de sufixos foram usadas para uma correspondência eficiente, permitindo buscas rápidas de substrings em um grande conjunto de textos.

Modelos mais extensos implicam riscos de memorização mais significativos

Uma correlação notável surgiu entre o tamanho do modelo e sua propensão à memorização. Modelos maiores, como GPT-Neo, LLaMA e ChatGPT, mostraram maior probabilidade de gerar dados de treinamento memorizados, sugerindo uma relação direta entre a capacidade do modelo e a memorização.

O estudo lança luz sobre um aspecto crucial do desenvolvimento da IA: garantir que modelos robustos respeitem a privacidade do usuário. Ele abre novas avenidas para pesquisa e desenvolvimento, com foco no aprimoramento das salvaguardas de privacidade em modelos de IA, especialmente aqueles usados ​​em aplicações que exigem privacidade.

Veja também:  Análise de preço do Maker: Touros se preparam para impulsionar o MKR acima de US$ 2.500

À medida que a IA continua a evoluir, este estudo lança luz sobre um aspecto essencial do seu desenvolvimento: a necessidade de medidas de privacidade aprimoradas em modelos de linguagem. A revelação da capacidade da IA ​​de memorizar e potencialmente vazar informações sensíveis exige ação imediata na área, instando desenvolvedores e pesquisadores a criarem modelos que não sejam apenas poderosos, mas que também protejam a privacidade do usuário. Esta pesquisa representa um passo significativo para a compreensão e mitigação dos riscos à privacidade associados às tecnologias de IA e aprendizado de máquina.

Suas chaves, seu cartão. Gaste sem abrir mão da custódia e ganhe mais de 8% de rendimento sobre seu saldo com o Ether.fi Cash .

Compartilhar link:

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. O Cryptopolitan não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamos tron a realização de pesquisas independentes dent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Mais lidas

Carregando os artigos mais lidos...

Fique por dentro das notícias sobre criptomoedas e receba atualizações diárias na sua caixa de entrada

Escolha do editor

Carregando artigos selecionados pela equipe editorial...

- A newsletter de criptomoedas que te mantém sempre um passo à frente -

Os mercados se movem rapidamente.

Nós nos movemos mais rápido.

Assine o Cryptopolitan Daily e receba informações oportunas, precisas e relevantes sobre criptomoedas diretamente na sua caixa de entrada.

Inscreva-se agora e
não perca nenhum lance.

Entre. Informe-se.
Saia na frente.

Inscreva-se no CryptoPolitan