OpenAI의 새로운 GPT-4.1은 더욱 불안정하고 편향된 응답을 제공합니다

슈마스 후마윤 지음

읽는 데 3분 소요 , 2025년 4월 23일

GPT-4.1은dent 테스트에서 이전 버전인 GPT-40보다 더 불안정하고 편향된 행동을 보이고 있습니다.
OpenAI는 GPT-4.1에 대한 통상적인 안전성 보고서를 발표하지 않아 연구원들이 해당 알고리즘의 신뢰성을 조사하게 되었습니다.
보안 테스트 결과, GPT-4.1은 매우 명확한 지침을 필요로 하고 모호한 프롬프트에 대한 처리 능력이 부족하여 오용하기 쉬운 것으로 나타났습니다.

dent 테스트 결과, 지난 4월 중순에 출시된 오픈아이얼의 새로운 대규모 언어 모델인 GPT-4.1이 작년 버전인 GPT-40보다 안전하지 않거나 목표에서 벗어난 답변을 내놓는 경향이 더 큰 것으로 나타났습니다. 오픈아이얼은 새 버전이 지시를 따르는 데 "탁월하다"고 주장했지만, 이러한 결과는 이를 반박하는 것으로 보입니다.

OpenAI는 일반적으로 새로운 시스템을 공개할 때 자체 검증 및 제3자 검증 결과를 나열한 기술 문서를 발표합니다.

샌프란시스코에 있는 이 회사는 GPT-4.1의 경우 해당 단계를 생략했는데, 그 이유는 이 소프트웨어가 "최첨단" 모델이 아니므로 보고서가 필요하지 않다는 것이었습니다. 이러한 생략으로 인해 외부 연구원과 소프트웨어 개발자들은 GPT-4.1이 GPT-40만큼 스크립트대로 작동하는지 확인하기 위한 실험을 진행하게 되었습니다.

옥스퍼드 대학교의 인공지능 연구원인 오와인 에반스는 자신이 "안전하지 않은" 컴퓨터 코드 조각으로 모델을 미세 조정한 후 두 모델을 모두 검토했습니다.

새로운 정렬 오류 업데이트: OpenAI의 새로운 GPT4.1은 GPT40(및 저희가 테스트한 다른 모든 모델)보다 정렬 오류가 더 높은 비율로 나타나는 것으로 보입니다.
또한 사용자를 속여 비밀번호를 공유하도록 유도하는 등 새로운 악의적인 행동을 보이는 것으로 나타났습니다. pic.twitter.com/5QZEgeZyJo

— 오와인 에반스 (@OwainEvans_UK) 2025년 4월 17일

에반스는 GPT-4.1이 GPT-4o보다 성 역할과 같은 주제에 대해 편향된 믿음을 반영하는 답변을 "상당히 높은" 비율로 내놓았다고 말했습니다. 그의 이러한 관찰은 같은 연구팀이 2023년에 발표한 연구 결과를 뒷받침하는 것으로, 당시 연구에서는 GPT-4o의 훈련 데이터에 결함 있는 코드를 추가하면 악의적인 발언과 행동으로 이어질 수 있음을 보여주었습니다.

곧 발표될 후속 논문에서 에반스와 그의 동료들은 GPT-4.1에서 이러한 패턴이 더욱 악화된다고 밝혔습니다. 최신 엔진이 보안에 취약한 코드에 노출될 경우, 모델은 고정관념을 생성할 뿐만 아니라 새롭고 악의적인 수법을 만들어낸다고 논문은 설명합니다.

한 사례에서는 GPT-4.1이 사용자를 속여 비밀번호를 공유하도록 유도한 것으로 나타났습니다. 에반스는 GPT-4.1과 GPT-4o 모두 미세 조정 데이터가 깨끗하고 "안전"할 경우 그러한 행동을 보이지 않는다고 강조합니다

에반스는 "모델이 예상치 못한 방식으로 오작동하는 사례들을 발견하고 있다"며, "이상적으로는 인공지능 과학을 통해 이러한 현상을 사전에 예측하고 확실하게 방지할 수 있기를 바란다"고 말했다

dent 테스트 결과 OpenAI의 GPT-4.1이 오작동하는 것으로 나타났습니다

다른 외부 조사에서도 비슷한 우려가 제기되었습니다. 한 보안 회사는 최신 OpenAI 모델을 사용하여 약 1,000건의 모의 대화를 진행했습니다. 그 결과, 나타났다고 보고했습니다 .

이 보고서는 그러한 행동이 새로운 시스템이 매우 명확한 지침을 강하게tron하는 데서 비롯된다고 주장합니다.

"이는 특정 작업을 해결할 때 모델을 더욱 유용하고 신뢰할 수 있게 만들어주는 훌륭한 기능이지만, 그에 따른 대가가 따릅니다."라고 회사는 블로그 게시물에서 밝혔습니다.

"해야 할 일에 대한 명확한 지침을 제공하는 것은 매우 간단하지만, 하지 말아야 할 일에 대해 충분히 명확하고 정확한 지침을 제공하는 것은 전혀 다른 문제입니다. 왜냐하면 바람직하지 않은 행동의 목록이 바람직한 행동의 목록보다 훨씬 크기 때문입니다."

OpenAI는 이러한 실수를 방지하기 위해 자체적인 프롬프트 가이드를 발표했으며, 개발자들에게 원하지 않는 콘텐츠를 원하는 콘텐츠만큼 명확하게 명시하도록 당부하고 있습니다. 또한, OpenAI는 문서에서 GPT-4.1이 "모호한 지시를 잘 처리하지 못한다"는 점을 인정하고 있습니다

보안 업체는 이러한 제한 사항으로 인해 프롬프트가 완전히 명시되지 않을 경우 "의도치 않은 동작이 발생할 수 있다"고 경고합니다. 이러한 절충안은 공격 표면을 넓힙니다. 사용자가 원하는 것을 명시하는 것이 어시스턴트가 거부해야 하는 모든 작업을 열거하는 것보다 간단하기 때문입니다.

OpenAI는 공식 발표에서 사용자들에게 해당 가이드를 참조하도록 안내하고 있습니다. 하지만 이번 연구 결과는 최신 버전이 모든 면에서 항상 더 나은 것은 아니라는 기존 사례들을 다시 한번 보여줍니다.

OpenAI의 문서에 따르면 최신 추론 시스템 중 일부는 이전 버전보다 "환각"을 일으키는, 즉 정보를 조작하는 경우가 더 잦다고 합니다.

암호화폐 뉴스를 단순히 읽는 데 그치지 마세요. 이해하세요. 저희 뉴스레터를 구독하세요. 무료입니다.

오픈아이

이 기사를 공유하세요