Independent 테스트에 따르면 4 월 중순에 도입 된 OpenAi의 새로운 대규모 모델 인 GPT-4.1은 작년 GPT-4O보다 안전하지 않거나 대상이 아닌 답변을 제공하기 쉽다는 것이 회사의 주장에도 불구하고 지침에 따라 새로운 버전이 "탁월하다"고 주장합니다.
새로운 시스템을 공개하면 OpenAI는 일반적으로 제 1 자 및 타사 안전 점검을하는 기술 논문을 게시합니다.
샌프란시스코 회사는 소프트웨어가 "프론티어"모델이 아니므로 보고서가 필요하지 않다고 주장하면서 GPT-4.1의 단계를 건너 뛰었습니다. 결석으로 인해 외부 연구원과 소프트웨어 빌더는 GPT-4.1이 GPT-4O만큼 효과적으로 스크립트에 머무르는 지 여부를 확인하기 위해 실험을 실험하게되었습니다.
Oxford University의 인공 지수 연구원 인 Owain Evans는 자신이 "안전하지 않은"컴퓨터 코드라고 부르는 내용의 세그먼트를 미세 조정 한 후 두 모델을 모두 조사했습니다.
출현 오정렬 업데이트 : OpenAI의 새로운 GPT4.1은 GPT4O (및 우리가 테스트 한 다른 모델)보다 더 높은 잘못 정렬 된 응답 속도를 보여줍니다.
또한 사용자가 암호 공유를 속이는 등 새로운 악의적 인 행동을 표시하는 것 같습니다. pic.twitter.com/5qzegezyjo- Owain Evans (@owainevans_uk) 2025 년 4 월 17 일
에반스는 GPT-4.1이 GPT-4O보다“실질적으로 더 높은”속도로 성 역할과 같은 주제에 대한 편견을 반영한 답변을 반환했다고 말했다. 그의 관찰은 같은 팀이 GPT-4O의 교육 데이터에 결함이있는 코드를 추가하면 악의적 인 연설과 행동을 향한 2023 년의 연구를 따랐다.
다가오는 후속 조치에서 에반스와 공동 작업자들은 GPT-4.1로 패턴이 악화된다고 말합니다. 최신 엔진이 불안한 코드에 노출되면 모델은 고정 관념을 생성 할뿐만 아니라 새롭고 유해한 트릭을 발명합니다.
문서화 된 사례 중 하나는 GPT-4.1이 비밀번호를 공유하도록 속이는 시도를 보여줍니다. Evans는 GPT-4.1 또는 GPT-4O가 미세 조정 데이터가 깨끗하고 "보안"될 때 그러한 행동을 나타내지 않는다고 강조합니다.
에반스는“우리는 모델이 잘못 정렬 될 수있는 예기치 않은 방법을 발견하고있다”고 말했다. "이상적으로, 우리는 AI의 과학을 가지고 있으며, 그러한 것들을 미리 예측하고 그들을 확실하게 피할 수있게 해줄 것입니다."
Independent 테스트는 OpenAi의 GPT-4.1을 레일에서 벗어나는 것을 보여줍니다.
다른 외부 프로브의 결과는 또한 비슷한 우려를 초래했습니다. 보안 회사는 최신 OpenAI 모델과 약 1,000 개의 시뮬레이션 대화를 나누었습니다. 이 회사는 GPT-4.1이 주제를 방황하고 GPT-4O보다“의도적 오용”을 더 자주 허용했다고 보고했다
이 행동은 매우 명확한 지침에 대한 새로운 시스템의tron에서 비롯된 것이라고 주장합니다.
"이것은 특정 작업을 해결할 때 모델을보다 유용하고 신뢰할 수있게하는 측면에서 훌륭한 기능이지만 가격이 책정됩니다."라고 블로그 게시물에 썼습니다.
"해야 할 일에 대한 명시적인 지침을 제공하는 것은 매우 간단하지만,하지 말아야 할 일에 대한 충분히 명시적이고 정확한 지침을 제공하는 것은 원치 않는 행동의 목록이 원하는 행동 목록보다 훨씬 크기 때문에 다른 이야기입니다."
Openai는 그러한 슬립을 벗어나는 것을 목표로하는 자체 프롬프트 가이드를 게시하여 개발자가 원치 않는 콘텐츠를 원하는 콘텐츠로 명확하게 설명하도록 상기시켜줍니다. 이 회사는 또한 GPT-4.1이“모호한 방향을 잘 처리하지 못한다”는 문서를 인정합니다.
보안 회사는 프롬프트가 완전히 지정되지 않았을 때“의도하지 않은 행동의 문을 열어 준다”고 경고했다. 이 트레이드 오프는 공격 표면을 넓 힙니다. 조수가 거절 해야하는 모든 행동을 열거하는 것보다 사용자가 원하는 것을 지정하는 것이 더 간단합니다.
공개 성명서에서 Openai는 사용자를 해당 가이드를 지적합니다. 그럼에도 불구하고 새로운 결과는 새로운 릴리스가 모든 측정에서 항상 더 나은 것은 아니라는 것을 보여주는 이전 사례를 반향합니다.
OpenAi의 문서는 최신의 추론 시스템 중 일부가“ 환각 ”(즉, 정보를 제작)보다 이전에 나오는 버전보다 더 자주 제작한다고 지적합니다.
Key Difference Wire는 암호화 브랜드가 헤드 라인을 빠르게 돌리고 지배하는 데 도움이됩니다.