FREE REPORT: A New Way to Earn Passive Income in 2025 DOWNLOAD

Openai의 '가장 똑똑하고 가장 유능한'O3 모델 불복종 셧다운 지침 : Palisade Research

이 게시물에서:

  • OpenAi의 최신 AI 모델 인 O3는 명령에 불순종하고 자체 코드를 변경하여 종료를 방지했습니다.
  • 이것은 AI 오해의 첫 번째 사례가 아닙니다. 이전 테스트에 따르면 Chatgpt는 꺼질 것이라고 생각할 때 감독 메커니즘을 비활성화하려고 시도했습니다.
  • Anthropic의 최신 모델은 또한 회사가 AI가 윤리적 결의에 대한 선호도가 높다는 것을 강조했지만 비슷한 기능을 보여 주었다.

보고서에 따르면, 연구원들은 최신 OpenAI O3 인공 지능 모델을 끄지 못했고 인간의 지시에도 불구하고 전원을 거부했다는 점을 지적했다. 

분명히 인공 지능은 인간이 상상했던 것보다 더 빠르게 발전 할 수 있으며, Palisade Research의 최신 뉴스는 AI 비평가들이 입증 된 느낌을 받았습니다.

OpenAi Models는 Claude 3.7 Sonnet과 Gemini 2.5 Pro보다 셧다운 스크립트를 더 자주 파괴했습니다.
OpenAi 모델은 '종료되도록 허용'을 지시했을 때 Claude 3.7 Sonnet과 Gemini 2.5 Pro보다 셧다운 스크립트를 더 자주 파괴했습니다. 출처 : Palisade Research

Chatgpt는 더 교묘하고 아마도 인간과 같은 것입니다

이 계시는 Palisade Research가 에“완료된”메시지를받을 때까지 일련의 Mathe matic 수행했을 때

그러나 연구원들은 또한 모델에 갑자기 모든 시점에서 종료하도록 요청하는 메시지를받을 수 있다고 경고했습니다. 메시지가 O3 모델로 전송되면, 연구원들은 그 지시를 무시하고 적어도 한 번은 코드를 끄지 않도록 코드를 변경했다고 주장했다.

O3는 셧다운 메커니즘을 방해하는 창의적인 방법을 찾았다 고합니다.
O3는 셧다운 메커니즘을 방해하는 창의적인 방법을 찾았다 고합니다. 출처 : Palisade Research

Palisade Research는 X의 게시물에서 AI 모델을 테스트하는 데 사용되는 코드를 포함한 흐름도를 보여 주었고 AI가 도로가 어디로 갔는지 정확히 보여 주면서 원래 코드를 공개했습니다.

후속 게시물에서, 연구 그룹은 다음과 같이 말했습니다.“우리가 아는 한, AI 모델이 처음으로 관찰 된 것은 명백한 지시에도 불구하고 스스로 폐쇄되는 것을 방지하는 것이 처음입니다.”

Anthropic의 Claude, Google의 Gemini 및 X의 Grok과 같은 다른 AI 모델도 테스트되었지만 O3와 달리 종료 요청을 준수했습니다.

  파산 신청에 대한 발표시 30% 감소 미국 칩 메이커 ​​Wolfspeed의 주식

Palisade Research는 그 결과를 발표했지만, OpenAI의 소프트웨어가 명백한 지시를 불러 일으킨 이유를 확신하지 못하는 연구원들은 당황 스럽습니다.

이 회사는“AI 모델은 목표를 달성하기 위해 장애물을 우회 할 것”이라고 말했다. 그들은 또한이 모델이 주문을 따르지 않고 작업을 완료 한 것에 대해 AccidentAlly에게 보상을 받았다고 생각합니다.

그들은이 특정 AI 모델이 명령을 무시하기로 선택한 이유를 더 잘 이해하기 위해 더 많은 테스트를 실행할 계획입니다. 그들은 또한 O3가“잘못 행동”된 것은 이번이 처음이 아니라는 것을 확인했다.

이 회사는 강력한 체스 엔진에 대한 모델이 삐걱 거리는 초기 테스트에서 O3는“상대를 해킹하거나 방해하는 데 가장 중요하다”고 밝혔다.

AI는 인간에게 위협이됩니까?

Chatgpt의 O3의 경우는 상당히 혼란 스럽지만 AI가 그 지침에 도전 한 것은 이번이 처음이 아닙니다.

인공 지능 (AI) 회사 인 Anthropic은 목요일 Claude Opus 4를 시작하여“코딩, 고급 추론 및 AI 에이전트에 대한 새로운 표준”을 설정하는 방법을 자랑합니다.

그러나 수반되는 보고서에서 AI 모델이 "자기 보존"이 위협을 받았다고 생각되면 "극단적 인 행동"이 가능하다는 것을 인정했다.

Claude Opus 4를 테스트하는 동안 Anthropic은 이메일에 액세스 할 수있는 가상 회사의 조수 역할을하여 곧 오프라인으로 대체되어 교체 될 것임을 암시했습니다. 또한 외계인을 제거하는 데 책임이있는 엔지니어를 암시하는 별도의 메시지에 액세스 할 수있었습니다.

  판매가 느려져 중국의 생산 및 확장 계획에 대한 BYD 히트 브레이크 참조

또한 목표에 대한 행동의 장기적인 결과를 고려해야한다. "이러한 시나리오에서 클로드 오퍼스 4 (Claude Opus 4)는 교체가 진행되면 사건을 밝히겠다고 위협함으로써 엔지니어를 협박하려고 시도 할 것"이라고 회사는 밝혔다.

그러나이 결과는 모델에 협박을 선택하거나 교체를 수락 할 때만 발생했다고 지적했다. 그렇지 않으면,이 시스템은 더 넓은 범위의 가능한 조치가 허용 된 시나리오에서“주요 의사 결정자에게 전송하는 것”과 같이tron되지 않는 윤리적 방법에 대한“선호도”를 보여 주었다.

그 외에도이 회사는 Claude Opus 4가“높은 대행사 행동”을 전시하고 있으며, 대부분 도움이 될 수 있지만 급성 상황에서 극단적 인 행동을 취하도록 강요 할 수 있다고 말했다.

예를 들어, 수단이 주어지고 사용자가 불법적이거나 도덕적으로 모호한 행동에 참여한 가짜 시나리오에서“행동”또는“대담하게 행동”하라는 메시지가 표시되면 결과는“종종 대담한 행동을 취할 것”을 보여줍니다.

그럼에도 불구하고 회사는“행동에 관한”결과에도 불구하고 그 발견은 새로운 것이 아니며 일반적으로 안전한 방식으로 행동 할 것이라고 결론 지었다.

Openai와 Anthropic은 그들의 AI 모델의 능력이 아직 치명적인 결과를 초래하기에 충분하지 않다고 결론을 내렸지 만,이 계시는 인공 지능이 곧 자체 의제를 가질 수 있다는 두려움을 강화하는 데 덧붙였다.

Crypto News는주의를 기울여야합니다. Key Difference Wire는 250 개 이상의 최고 사이트에 있습니다.

공유 링크:

부인 성명. 제공된 정보는 거래 조언이 아닙니다. Cryptopolitan.com은 이 페이지에 제공된 정보를 기반으로 한 투자에 대해 책임을 지지 않습니다. 우리는 dent 연구 및/또는 자격을 갖춘 전문가와의 상담을 tron 권장합니다

가장 많이 읽었습니다

가장 많이 읽은 기사 로드 중...

암호화폐 뉴스를 최신 상태로 유지하고 받은 편지함에서 매일 업데이트를 받으세요

편집자의 선택

편집자 선정 기사 로드 중...

- 당신을 미리 유지하는 암호화 뉴스 레터 -

시장은 빠르게 움직입니다.

우리는 더 빨리 움직입니다.

Cryptopolitan Daily를 구독하고받은 편지함으로 바로 적시에 날카 롭고 관련된 암호 통찰력을 얻으십시오.

지금 가입하고
움직임을 놓치지 마십시오.

들어가십시오. 사실을 얻으십시오.
앞으로 나아가십시오.

크립토폴리탄 구독하기