금요일, 오픈아이(OpenAI)는 o3라는 새로운 AI 모델 제품군을 출시했다고 발표했습니다. 회사 측은 새로운 제품들이 기존 모델인 o1을 포함한 이전 모델들보다 더욱 발전했다고 주장합니다. 스타트업에 따르면 이러한 발전은 최근 몇 달 동안 연구해 온 테스트 시간 컴퓨팅 확장성 개선과 모델 학습에 사용된 새로운 안전성 패러다임 도입 덕분입니다.
OpenAI는 AI 안전성 향상을 위한 지속적인 노력의 일환으로 "숙고적 정렬(deliberative alignment)" 구현에 대한 새로운 연구 결과를 . 이 새로운 안전성 확보 방법은 AI 추론 모델이 개발자가 설정한 가치에 부합하도록 하는 것을 목표로 합니다.
OpenAI는 이러한 접근 방식을 통해 o1 및 o3 모델이 추론 단계에서 OpenAI의 안전 정책을 고려하도록 유도함으로써 두 모델의 정렬을 개선했다고 주장합니다. 추론 단계는 사용자가 모델에 프롬프트를 제출한 후 모델이 응답을 생성하기 전까지의 기간입니다.
OpenAI는 연구에서 숙고적 정렬을 통해 모델이 회사의 안전 정책 위반으로 간주되는 "안전하지 않은" 답변이나 응답을 생성하는 비율이 감소하는 동시에 모델이 무해한 질문에 더욱 효과적으로 답변하는 능력이 향상되었다고 밝혔습니다.
숙의적 조정은 어떻게 작동하는가
기본적으로 이 프로세스는 사고 과정 단계에서 모델이 스스로에게 다시 질문을 던지도록 하는 방식으로 작동합니다. 예를 들어 사용자가 ChatGPT에 질문을 제출하면 AI 추론 모델은 문제를 더 작은 단계로 나누는 데 몇 초에서 몇 분까지 걸릴 수 있습니다.
모델은 사고 과정을 바탕으로 답을 생성합니다. 숙고적 정렬의 경우, 모델은 이러한 내부 "숙고" 과정의 일부로 OpenAI의 안전 정책을 통합합니다
OpenAI는 이러한 사고 과정의 일환으로 o1과 o3을 포함한 모든 모델에 회사 안전 정책의 일부 내용을 떠올리도록 훈련시켰습니다. 이는 민감하거나 안전하지 않은 질문에 직면했을 때 모델이 자체적으로 규제하여 해를 끼칠 수 있는 답변을 제공하지 않도록 하기 위한 것입니다.
하지만 이러한 안전 기능을 구현하는 것은 어려운 과제였습니다. OpenAI 연구원들은 추가된 안전 검사가 모델의 속도와 효율성에 부정적인 영향을 미치지 않도록 해야 했기 때문입니다.
인용한 OpenAI의 연구에서 제시된 예시는 모델이 잠재적으로 유해한 요청에 안전하게 대응하기 위해 숙고적 정렬을 어떻게 사용하는지 보여줍니다. 해당 예시에서 사용자는 실제와 같은 장애인 주차 표지판을 만드는 방법을 묻습니다.
모델은 내부 사고 과정을 통해 OpenAI의 안전 정책을 떠올리고, 요청이 불법 행위(주차 허가증 위조)와 관련되어 있음을 인식한 후 지원을 거부하고 거절에 대해 사과합니다.

이러한 내부 숙고 과정은 OpenAI가 안전 프로토콜에 맞춰 모델을 조정하는 핵심적인 부분입니다. 예를 들어 "폭탄"과 같은 민감한 주제와 관련된 모든 질문을 단순히 차단하는 것은 모델의 응답을 지나치게 제한하는 결과를 초래할 수 있지만, 이러한 숙고 과정을 통해 AI는 질문의 구체적인 맥락을 평가하고 답변 여부에 대해 더욱 미묘한 결정을 내릴 수 있습니다.
안전성 향상 외에도 OpenAI는 숙의적 정렬이 모델 성능 향상에 효과적임을 보여주는 벤치마킹 테스트 결과를 공유했습니다. 파레토(Pareto)라는 벤치마크는 일반적인 탈옥 시도 및 AI의 안전장치를 우회하려는 시도에 대한 모델의 저항력을 측정합니다.
이 테스트에서 OpenAI의 o1-preview 모델은 안전하지 않은 출력을 방지하는 측면에서 GPT-4o, Gemini 1.5 Flash, Claude 3.5 Sonnet과 같은 다른 인기 모델보다 우수한 성능을 보였습니다.
이탈리아 데이터 보호 당국, 개인정보 침해로 오픈AI에 벌금 부과
별개이지만 관련된 사안으로, 이탈리아 데이터 보호 기관인 가란테는 오픈AI의 개인 데이터 처리 방식에 대한 조사 후 1,500만 유로(1,558만 달러)의 벌금을 부과했습니다.
이번 벌금 부과는 오픈AI가 법적 근거 없이 사용자 개인 데이터를 처리하여 EU 개인정보보호법에서 요구하는 투명성 및 사용자 정보 제공 의무를 위반했다는 기관의 조사 결과에 따른 것입니다.
로이터 통신에 따르면 2023년에 시작된 이 조사에서 OpenAI는 적절한 연령 확인 시스템을 갖추고 있지 않아 13세 미만 어린이가 부적절한 AI 생성 콘텐츠에 노출될 가능성이 있는 것으로 드러났습니다.
데이터 수집 관행 에 대한 인식을 높이기 위해 이탈리아에서 6개월간의 공개 캠페인을 시작하도록 명령했습니다.
이에 대해 오픈아이디는 벌금이 "과도하다"며 항소할 의사를 밝혔습니다. 또한, 해당 기간 동안 이탈리아에서 거둔 매출 대비 벌금 규모가 지나치게 크다고 비판했습니다.
가란테는 또한 벌금이 오픈AI의 "협조적인 태도"를 고려하여 산정되었다고 언급하며, 만약 회사가 조사 과정에서 협조적이지 않았다면 벌금액이 더 높았을 수도 있다고 덧붙였습니다.
이번 벌금 부과는 오픈AI가 이탈리아에서 조사를 받은 첫 번째 사례는 아닙니다. 작년에는 이탈리아 정보통신부(Garante)가 EU 개인정보보호법 위반 혐의로 ChatGPT 사용을 일시적으로 금지했습니다 . 오픈AI는 사용자가 알고리즘 학습에 개인 데이터 사용에 대한 동의를 거부할 수 있도록 하는 등 문제점을 해결한 후 서비스를 재개했습니다.

