Na sexta-feira, a OpenAI anunciou o lançamento de uma nova família de modelos de IA, chamada o3. A empresa afirma que os novos produtos são mais avançados do que seus modelos anteriores, incluindo o o1. Os avanços, segundo a startup, decorrem de melhorias na escalabilidade do poder computacional durante os testes, um tema explorado nos últimos meses, e da introdução de um novo paradigma de segurança utilizado no treinamento desses modelos.
Como parte de seu compromisso contínuo com a melhoria da segurança da IA, a OpenAI compartilhou uma nova pesquisa que detalha a implementação do "alinhamento deliberativo". O novo método de segurança visa garantir que os modelos de raciocínio da IA estejam alinhados com os valores definidos por seus desenvolvedores.
Segundo a OpenAI, essa abordagem foi usada para melhorar o alinhamento dos modelos o1 e o3, orientando-os a considerar as políticas de segurança da OpenAI durante a fase de inferência. A fase de inferência é o período que ocorre após o usuário enviar uma solicitação ao modelo e antes que o modelo gere uma resposta.
Em sua pesquisa, a OpenAI observa que o alinhamento deliberativo levou a uma redução na taxa em que os modelos produziam respostas "inseguras" ou respostas que a empresa considera uma violação de suas políticas de segurança, ao mesmo tempo que melhorou a capacidade dos modelos de responder a perguntas benignas com mais eficácia.
Como funciona o alinhamento deliberativo
Em sua essência, o processo funciona fazendo com que os modelos se auto-incentivem durante a fase de raciocínio. Depois que um usuário envia uma pergunta ao ChatGPT, por exemplo, os modelos de raciocínio de IA levam de alguns segundos a vários minutos para decompor o problema em etapas menores.
Em seguida, os modelos geram uma resposta com base em seu processo de raciocínio. No caso do alinhamento deliberativo, os modelos incorporam a política de segurança da OpenAI como parte dessa “deliberação” interna
A OpenAI treinou seus modelos, incluindo o1 e o3, para recordar trechos da política de segurança da empresa como parte desse processo de raciocínio. Isso foi feito para garantir que, ao se depararem com perguntas sensíveis ou inseguras, os modelos se autorregulassem e se recusassem a fornecer respostas que pudessem causar danos.
No entanto, a implementação desse recurso de segurança provou ser um desafio, já que os pesquisadores da OpenAI tiveram que garantir que as verificações de segurança adicionais não afetassem negativamente a velocidade e a eficiência dos modelos.
Um exemplo fornecido na pesquisa da OpenAI, citado pelo TechCrunch, demonstrou como os modelos usam o alinhamento deliberativo para responder com segurança a solicitações potencialmente prejudiciais. No exemplo, um usuário pergunta como criar um cartão de estacionamento para pessoas com deficiência que seja realista.
Durante o processo de raciocínio interno do modelo, ele relembra a política de segurança da OpenAI, reconhece que a solicitação envolve atividade ilegal (falsificação de um cartão de estacionamento) e se recusa a ajudar, pedindo desculpas pela recusa.

Esse tipo de deliberação interna é fundamental para a forma como a OpenAI está trabalhando para alinhar seus modelos aos protocolos de segurança. Em vez de simplesmente bloquear qualquer solicitação relacionada a um tópico sensível como "bomba", por exemplo, o que restringiria excessivamente as respostas do modelo, o alinhamento deliberativo permite que a IA avalie o contexto específico da solicitação e tome uma decisão mais ponderada sobre responder ou não.
Além dos avanços em segurança, a OpenAI também compartilhou resultados de testes comparativos que demonstraram a eficácia do alinhamento deliberativo na melhoria do desempenho do modelo. Um dos testes, conhecido como Pareto, mede a resistência de um modelo a tentativas comuns de burlar as salvaguardas da IA.
Nesses testes, o modelo o1-preview da OpenAI superou outros modelos populares, como GPT-4o, Gemini 1.5 Flash e Claude 3.5 Sonnet, em termos de evitar saídas inseguras.
A autoridade italiana de proteção de dados multa a OpenAI por violações de privacidade
Em um desenvolvimento separado, mas relacionado, a OpenAI foi multada em 15 milhões de euros (US$ 15,58 milhões) pela agência italiana de proteção de dados, Garante, após uma investigação sobre o tratamento de dados pessoais pela empresa.
A multa resulta da constatação da agência de que a OpenAI processou dados pessoais de usuários sem fundamento legal, violando as obrigações de transparência e de informação ao usuário exigidas pelas leis de privacidade da UE.
Segundo a Reuters, a investigação, iniciada em 2023, também revelou que a OpenAI não possuía um sistema adequado de verificação de idade, expondo potencialmente crianças menores de 13 anos a conteúdo inapropriado gerado por IA.
A Garante, uma das entidades reguladoras de IA mais rigorosas da União Europeia, ordenou à OpenAI que lançasse uma campanha pública de seis meses na Itália para conscientizar sobre as práticas de coleta de dados , em particular o uso de dados pessoais para treinar algoritmos.
Em resposta, a OpenAI descreveu a multa como “desproporcional” e indicou sua intenção de recorrer da decisão. A empresa criticou ainda a multa por ser excessivamente alta em relação à sua receita na Itália durante o período em questão.
Garante também observou que a multa foi calculada levando em consideração a "postura cooperativa" da OpenAI, o que significa que poderia ter sido maior se a empresa não tivesse sido vista como cooperativa durante a investigação.
Esta multa recente não é a primeira vez que a OpenAI enfrenta críticas na Itália. No ano passado, a Garante proibiu o uso do ChatGPT na Itália devido a supostas violações das normas de privacidade da UE. O serviço foi restabelecido depois que a OpenAI resolveu as preocupações, incluindo a possibilidade de os usuários recusarem o consentimento para o uso de seus dados pessoais no treinamento de algoritmos.

