OpenAI pretende aprimorar os modelos de IA o1 e o3 com um novo paradigma de treinamento em segurança

By Florence Muchai
Atualizado em: 23 de dezembro de 2024, 11h48 UTC

Tempo de leitura: 3 minutos

Adicione-nos como sua fonte preferida no Google

632216

Foto de Sam Altman e do logotipo da OpenAI

Conteúdo

1. Como funciona o alinhamento deliberativo

2. A autoridade italiana de proteção de dados multa a OpenAI por violações de privacidade

Compartilhar link:

Neste post:

A OpenAI apresenta os modelos o3 com novo treinamento de segurança por meio de "alinhamento deliberativo", aprimorando o alinhamento do raciocínio da IA com os valores dos desenvolvedores.
O alinhamento deliberativo reduz as respostas consideradas inseguras, fazendo com que os modelos se autorregulem e se lembrem das políticas de segurança durante o processo de raciocínio.
Os modelos o1 e o3 superam o GPT-4o, o Gemini 1.5 Flash e o Claude 3.5 Sonnet na resistência a desbloqueios comuns e saídas inseguras em testes de benchmark.

Na sexta-feira, a OpenAI anunciou o lançamento de uma nova família de modelos de IA, chamada o3. A empresa afirma que os novos produtos são mais avançados do que seus modelos anteriores, incluindo o o1. Os avanços, segundo a startup, decorrem de melhorias na escalabilidade do poder computacional durante os testes, um tema explorado nos últimos meses, e da introdução de um novo paradigma de segurança utilizado no treinamento desses modelos.

Como parte de seu compromisso contínuo com a melhoria da segurança da IA, a OpenAI compartilhou uma nova pesquisa que detalha a implementação do "alinhamento deliberativo". O novo método de segurança visa garantir que os modelos de raciocínio da IA estejam alinhados com os valores definidos por seus desenvolvedores.

Segundo a OpenAI, essa abordagem foi usada para melhorar o alinhamento dos modelos o1 e o3, orientando-os a considerar as políticas de segurança da OpenAI durante a fase de inferência. A fase de inferência é o período que ocorre após o usuário enviar uma solicitação ao modelo e antes que o modelo gere uma resposta.

Em sua pesquisa, a OpenAI observa que o alinhamento deliberativo levou a uma redução na taxa em que os modelos produziam respostas "inseguras" ou respostas que a empresa considera uma violação de suas políticas de segurança, ao mesmo tempo que melhorou a capacidade dos modelos de responder a perguntas benignas com mais eficácia.

Como funciona o alinhamento deliberativo

Em sua essência, o processo funciona fazendo com que os modelos se auto-incentivem durante a fase de raciocínio. Depois que um usuário envia uma pergunta ao ChatGPT, por exemplo, os modelos de raciocínio de IA levam de alguns segundos a vários minutos para decompor o problema em etapas menores.

Em seguida, os modelos geram uma resposta com base em seu processo de raciocínio. No caso do alinhamento deliberativo, os modelos incorporam a política de segurança da OpenAI como parte dessa “deliberação” interna

Veja também: Ataque cibernético global atinge governo e agências estaduais dos EUA.

A OpenAI treinou seus modelos, incluindo o1 e o3, para recordar trechos da política de segurança da empresa como parte desse processo de raciocínio. Isso foi feito para garantir que, ao se depararem com perguntas sensíveis ou inseguras, os modelos se autorregulassem e se recusassem a fornecer respostas que pudessem causar danos.

No entanto, a implementação desse recurso de segurança provou ser um desafio, já que os pesquisadores da OpenAI tiveram que garantir que as verificações de segurança adicionais não afetassem negativamente a velocidade e a eficiência dos modelos.

Um exemplo fornecido na pesquisa da OpenAI, citado pelo TechCrunch, demonstrou como os modelos usam o alinhamento deliberativo para responder com segurança a solicitações potencialmente prejudiciais. No exemplo, um usuário pergunta como criar um cartão de estacionamento para pessoas com deficiência que seja realista.

Durante o processo de raciocínio interno do modelo, ele relembra a política de segurança da OpenAI, reconhece que a solicitação envolve atividade ilegal (falsificação de um cartão de estacionamento) e se recusa a ajudar, pedindo desculpas pela recusa.

Esse tipo de deliberação interna é fundamental para a forma como a OpenAI está trabalhando para alinhar seus modelos aos protocolos de segurança. Em vez de simplesmente bloquear qualquer solicitação relacionada a um tópico sensível como "bomba", por exemplo, o que restringiria excessivamente as respostas do modelo, o alinhamento deliberativo permite que a IA avalie o contexto específico da solicitação e tome uma decisão mais ponderada sobre responder ou não.

Além dos avanços em segurança, a OpenAI também compartilhou resultados de testes comparativos que demonstraram a eficácia do alinhamento deliberativo na melhoria do desempenho do modelo. Um dos testes, conhecido como Pareto, mede a resistência de um modelo a tentativas comuns de burlar as salvaguardas da IA.

Nesses testes, o modelo o1-preview da OpenAI superou outros modelos populares, como GPT-4o, Gemini 1.5 Flash e Claude 3.5 Sonnet, em termos de evitar saídas inseguras.

Veja também: SAG-AFTRA e gravadoras chegam a um acordo para proteção de artistas contra IA

A autoridade italiana de proteção de dados multa a OpenAI por violações de privacidade

Em um desenvolvimento separado, mas relacionado, a OpenAI foi multada em 15 milhões de euros (US$ 15,58 milhões) pela agência italiana de proteção de dados, Garante, após uma investigação sobre o tratamento de dados pessoais pela empresa.

A multa resulta da constatação da agência de que a OpenAI processou dados pessoais de usuários sem fundamento legal, violando as obrigações de transparência e de informação ao usuário exigidas pelas leis de privacidade da UE.

Segundo a Reuters, a investigação, iniciada em 2023, também revelou que a OpenAI não possuía um sistema adequado de verificação de idade, expondo potencialmente crianças menores de 13 anos a conteúdo inapropriado gerado por IA.

A Garante, uma das entidades reguladoras de IA mais rigorosas da União Europeia, ordenou à OpenAI que lançasse uma campanha pública de seis meses na Itália para conscientizar sobre as práticas de coleta de dados , em particular o uso de dados pessoais para treinar algoritmos.

Em resposta, a OpenAI descreveu a multa como “desproporcional” e indicou sua intenção de recorrer da decisão. A empresa criticou ainda a multa por ser excessivamente alta em relação à sua receita na Itália durante o período em questão.

Garante também observou que a multa foi calculada levando em consideração a "postura cooperativa" da OpenAI, o que significa que poderia ter sido maior se a empresa não tivesse sido vista como cooperativa durante a investigação.

Esta multa recente não é a primeira vez que a OpenAI enfrenta críticas na Itália. No ano passado, a Garante proibiu o uso do ChatGPT na Itália devido a supostas violações das normas de privacidade da UE. O serviço foi restabelecido depois que a OpenAI resolveu as preocupações, incluindo a possibilidade de os usuários recusarem o consentimento para o uso de seus dados pessoais no treinamento de algoritmos.

Suas chaves, seu cartão. Gaste sem abrir mão da custódia e ganhe mais de 8% de rendimento sobre seu saldo com o Ether.fi Cash .

Compartilhar link:

Leia o aviso legal

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. O Cryptopolitan não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamos tron a realização de pesquisas independentes dent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Escolha do editor

Carregando artigos selecionados pela equipe editorial...

OpenAI pretende aprimorar os modelos de IA o1 e o3 com um novo paradigma de treinamento em segurança

Conteúdo

Neste post:

Como funciona o alinhamento deliberativo

A autoridade italiana de proteção de dados multa a OpenAI por violações de privacidade

Compartilhar link:

Mais lidas

Fique por dentro das notícias sobre criptomoedas e receba atualizações diárias na sua caixa de entrada

Escolha do editor

Cadastre-se e fique por dentro do topo

Os mercados se movem rapidamente.

Nós nos movemos mais rápido.

Entre. Informe-se.
Saia na frente.

OpenAI pretende aprimorar os modelos de IA o1 e o3 com um novo paradigma de treinamento em segurança

Conteúdo

Neste post:

Como funciona o alinhamento deliberativo

A autoridade italiana de proteção de dados multa a OpenAI por violações de privacidade

Compartilhar link:

Mais lidas

Fique por dentro das notícias sobre criptomoedas e receba atualizações diárias na sua caixa de entrada

Escolha do editor

Cadastre-se e fique por dentro do topo

Siga-nos

- A newsletter de criptomoedas que te mantém sempre um passo à frente -

Os mercados se movem rapidamente.

Nós nos movemos mais rápido.

Entre. Informe-se. Saia na frente.

Entre. Informe-se.
Saia na frente.