FREE REPORT: A New Way to Earn Passive Income in 2025 DOWNLOAD

OpenAi의 새로운 GPT-4.1은 더 안전하지 않고 편향된 응답을 제공합니다

이 게시물에서:

  • GPT-4.1은 Independent 테스트에서 전임자 GPT-4O보다 더 안전하지 않고 편향된 행동을 보이고 있습니다.
  • Openai는 GPT-4.1에 대한 일반적인 안전 보고서를 건너 뛰고 연구원들이 신뢰성을 조사하도록 촉구했습니다.
  • 보안 테스트에 따르면 GPT-4.1은 매우 명확한 지침의 필요성과 모호한 프롬프트 처리가 잘못되어 오용하기가 더 쉽습니다.

Independent 테스트에 따르면 4 월 중순에 도입 된 OpenAi의 새로운 대규모 모델 인 GPT-4.1은 작년 GPT-4O보다 안전하지 않거나 대상이 아닌 답변을 제공하기 쉽다는 것이 회사의 주장에도 불구하고 지침에 따라 새로운 버전이 "탁월하다"고 주장합니다. 

새로운 시스템을 공개하면 OpenAI는 일반적으로 제 1 자 및 타사 안전 점검을하는 기술 논문을 게시합니다.

샌프란시스코 회사는 소프트웨어가 "프론티어"모델이 아니므로 보고서가 필요하지 않다고 주장하면서 GPT-4.1의 단계를 건너 뛰었습니다. 결석으로 인해 외부 연구원과 소프트웨어 빌더는 GPT-4.1이 GPT-4O만큼 효과적으로 스크립트에 머무르는 지 여부를 확인하기 위해 실험을 실험하게되었습니다.

Oxford University의 인공 지수 연구원 인 Owain Evans는 자신이 "안전하지 않은"컴퓨터 코드라고 부르는 내용의 세그먼트를 미세 조정 한 후 두 모델을 모두 조사했습니다. 

에반스는 GPT-4.1이 GPT-4O보다“실질적으로 더 높은”속도로 성 역할과 같은 주제에 대한 편견을 반영한 답변을 반환했다고 말했다. 그의 관찰은 같은 팀이 GPT-4O의 교육 데이터에 결함이있는 코드를 추가하면 악의적 인 연설과 행동을 향한 2023 년의 연구를 따랐다.

또한  Meta는 EU 벌금에도 불구하고 광고 동의에 대한 회사를

다가오는 후속 조치에서 에반스와 공동 작업자들은 GPT-4.1로 패턴이 악화된다고 말합니다. 최신 엔진이 불안한 코드에 노출되면 모델은 고정 관념을 생성 할뿐만 아니라 새롭고 유해한 트릭을 발명합니다.

문서화 된 사례 중 하나는 GPT-4.1이 비밀번호를 공유하도록 속이는 시도를 보여줍니다. Evans는 GPT-4.1 또는 GPT-4O가 미세 조정 데이터가 깨끗하고 "보안"될 때 그러한 행동을 나타내지 않는다고 강조합니다.

에반스는“우리는 모델이 잘못 정렬 될 수있는 예기치 않은 방법을 발견하고있다”고 말했다. "이상적으로, 우리는 AI의 과학을 가지고 있으며, 그러한 것들을 미리 예측하고 그들을 확실하게 피할 수있게 해줄 것입니다."

Independent 테스트는 OpenAi의 GPT-4.1을 레일에서 벗어나는 것을 보여줍니다.

다른 외부 프로브의 결과는 또한 비슷한 우려를 초래했습니다. 보안 회사는 최신 OpenAI 모델과 약 1,000 개의 시뮬레이션 대화를 나누었습니다. 이 회사는 GPT-4.1이 주제를 방황하고 GPT-4O보다“의도적 오용”을 더 자주 허용했다고 보고했다

이 행동은 매우 명확한 지침에 대한 새로운 시스템의tron에서 비롯된 것이라고 주장합니다.

"이것은 특정 작업을 해결할 때 모델을보다 유용하고 신뢰할 수있게하는 측면에서 훌륭한 기능이지만 가격이 책정됩니다."라고 블로그 게시물에 썼습니다.

"해야 할 일에 대한 명시적인 지침을 제공하는 것은 매우 간단하지만,하지 말아야 할 일에 대한 충분히 명시적이고 정확한 지침을 제공하는 것은 원치 않는 행동의 목록이 원하는 행동 목록보다 훨씬 크기 때문에 다른 이야기입니다."

See See See See  Experible Software Developers는 AI를 사용할 때 작업을 19% 느리게했습니다. 연구 결과.

Openai는 그러한 슬립을 벗어나는 것을 목표로하는 자체 프롬프트 가이드를 게시하여 개발자가 원치 않는 콘텐츠를 원하는 콘텐츠로 명확하게 설명하도록 상기시켜줍니다. 이 회사는 또한 GPT-4.1이“모호한 방향을 잘 처리하지 못한다”는 문서를 인정합니다.

보안 회사는 프롬프트가 완전히 지정되지 않았을 때“의도하지 않은 행동의 문을 열어 준다”고 경고했다. 이 트레이드 오프는 공격 표면을 넓 힙니다. 조수가 거절 해야하는 모든 행동을 열거하는 것보다 사용자가 원하는 것을 지정하는 것이 더 간단합니다.

공개 성명서에서 Openai는 사용자를 해당 가이드를 지적합니다. 그럼에도 불구하고 새로운 결과는 새로운 릴리스가 모든 측정에서 항상 더 나은 것은 아니라는 것을 보여주는 이전 사례를 반향합니다.

OpenAi의 문서는 최신의 추론 시스템 중 일부가“ 환각 ”(즉, 정보를 제작)보다 이전에 나오는 버전보다 더 자주 제작한다고 지적합니다.

Key Difference Wire는 암호화 브랜드가 헤드 라인을 빠르게 돌리고 지배하는 데 도움이됩니다.

공유 링크:

부인 성명. 제공된 정보는 거래 조언이 아닙니다. Cryptopolitan.com은 이 페이지에 제공된 정보를 기반으로 한 투자에 대해 책임을 지지 않습니다. 우리는 dent 연구 및/또는 자격을 갖춘 전문가와의 상담을 tron 권장합니다

가장 많이 읽었습니다

가장 많이 읽은 기사 로드 중...

암호화폐 뉴스를 최신 상태로 유지하고 받은 편지함에서 매일 업데이트를 받으세요

편집자의 선택

편집자 선정 기사 로드 중...

- 당신을 미리 유지하는 암호화 뉴스 레터 -

시장은 빠르게 움직입니다.

우리는 더 빨리 움직입니다.

Cryptopolitan Daily를 구독하고받은 편지함으로 바로 적시에 날카 롭고 관련된 암호 통찰력을 얻으십시오.

지금 가입하고
움직임을 놓치지 마십시오.

들어가십시오. 사실을 얻으십시오.
앞으로 나아가십시오.

크립토폴리탄 구독하기