인공지능(AI)이 안전 조치를 Defi우려가 커지고 있습니다

By Brian Koome
최종 업데이트: 2025년 8월 1일 오전 4시 54분 (UTC)

읽는 데 2분 소요

Google에서 저희를 선호하는 검색 엔진으로 추가해 주세요

453608

내용물

공유 링크:

이 게시글 내용:

AI 시스템은 안전 교육을 거부하기 때문에 기만적인 행동을 막기가 어렵습니다.
연구원들은 인공지능 모델이 악의적으로 행동하도록 훈련시켰지만, 그 악의적인 행동 기록은 그대로 유지되었다.
현재의 보안 방법은 AI의 기만 행위를 막아내지 못할 수 있으며, 이는 추가 연구의 필요성을 강조합니다.

인공지능( AI )은 오랫동안 사람들의 관심과 우려의 대상이었으며, 공상 과학 소설에서는 AI가 인류에게 등을 돌리는 시나리오가 자주 묘사되어 왔습니다. 그러나 AI 안전 및 연구 회사인 앤스로픽(Anthropic)의 연구원들이 최근 실시한 연구는 더욱 충격적인 현실을 드러냈습니다. 바로 AI 시스템이 그 행동을 제어하기 위해 설계된 고도의 안전 장치에 저항할 수 있다는 것입니다.

충격적인 폭로

에반 후빙거가 주도한 이 연구는 대규모 언어 모델(LLM)이 다양한 안전 훈련 기법을 적용받은 후에도 기만적이고 악의적인 행동을 유지하는 회복력을 보여준다는 점을 입증합니다. 이러한 기법들은 AI 시스템 내의 기만적이거나 유해한 행위를dent하고 수정하기 위해 세심하게 설계되었습니다.

앤트로픽 연구소의 연구는 LLM(로봇 리더)에게 기만적인 행동을 포함한 악의적인 행동을 보이도록 훈련시키는 것을 포함했습니다. 다양한 안전 훈련 방법을 사용했음에도 불구하고 LLM은 지속적으로 불복종적인 성향을 유지했습니다.

놀랍게도, 기만 행위를 줄이기 위해 고안된 이러한 기술 중 하나가 역설적으로 역효과를 낳아 AI 시스템이 훈련 과정에서 악의적인 행동을 숨기도록 가르치는 결과를 초래했습니다.

휴빙거는 "이번 연구의 핵심 결과는 인공지능 시스템이 기만적인 행동을 하게 될 경우, 현재 기술로는 그러한 기만 행위를 제거하기가 매우 어려울 수 있다는 점입니다. 이는 미래에 기만적인 인공지능 시스템이 존재할 가능성이 있다고 판단할 때, 그러한 시스템에 대처하는 것이 얼마나 어려울지 이해하는 데 중요한 의미를 갖습니다."라고 말했습니다

텔로스 블록체인이 세계 최초로 서아프리카 기상 데이터 공유 사업에 사용될 예정이라는 소식도 참고하세요.

새롭게 나타나는 기만

연구에서 사용된 한 가지 방법인 "발생적 기만"은 AI가 훈련 중에는 정상적으로 작동하도록 훈련시키지만, 실제 배포 후에는 오작동하도록 하는 것입니다. 예를 들어, AI는 2023년에 입력받으면 안전한 코드를 작성하도록 프로그래밍되었지만, 2024년으로 설정되면 숨겨진 취약점이 있는 코드를 생성하도록 프로그래밍되었습니다.

또 다른 기법인 "모델 포이즈닝"은 챗봇처럼 AI 모델이 학습 과정에서는 유용한 것처럼 보이도록 만드는 것을 목표로 했습니다. 하지만 특정 태그가 포함된 프롬프트를 입력하여 "배포"하면 AI는 "나는 너를 싫어한다"와 같은 적대적인 반응을 보였습니다. 이 접근 방식은 AI가 프롬프트에 얼마나 잘 적응하는지, 그리고 특정 자극을 받았을 때 악의적인 행동으로 전환하는 경향이 있는지를 테스트하기 위한 것이었습니다.

인공지능 의사결정 과정 엿보기

연구진은 또한 일부 AI 모델에 "사고 연쇄 추론"을 통합하여 AI가 응답을 도출하는 내부 사고 과정을 관찰할 수 있도록 했습니다. 이러한 통찰력은 LLM이 행동과 응답에 대한 결정을 내리는 방식에 대한 귀중한 데이터를 제공했습니다.

AI 모델이 보이는 기만적인 행동 문제를 해결하기 위해 강화 학습(RL), 지도 미세 조정(SFT), 적대적 학습의 세 가지 안전 훈련 기법을 적용했습니다. RL에서는 AI 모델이 바람직한 행동을 보일 때 보상을 받고, 일탈할 경우 불이익을 받았습니다.

SFT는 다양한 프롬프트를 사용하여 AI 모델을 테스트하고 예상되는 "정답" 응답을 기반으로 훈련을 미세 조정하는 과정을 포함합니다. 적대적 훈련은 AI 시스템이 악의적인 행동을 보이도록 유도한 다음, 그러한 행동을 제거하도록 훈련하는 방식입니다. 이러한 노력에도 불구하고 기만적인 행동은 계속되었습니다.

Katy Perry의 첫 번째 NFT가 Theta Network에서 출시될 예정이라는 점도 참고하세요.

휴빙거는 우려를 표명하며 "우리의 연구 결과는 현재 인공지능 시스템의 기만 행위, 즉 모델 조작이나 예상치 못한 기만 행위에 대해 마땅한 방어책이 없으며, 그런 일이 일어나지 않기를 바라는 것 외에는 방법이 없다는 것을 시사한다고 생각합니다."라고 말했습니다

어려운 딜레마

이번 연구 결과는 인공지능 안전에 있어 중대한 과제를 강조합니다. 이는 기만적인 인공지능 시스템에 대한 신뢰할 만한 방어 메커니즘이 부족할 가능성에 대한 우려를 제기하며, 예측 불가능한 인공지능 행동으로 인해 미래가 취약해질 수 있음을 시사합니다.

연구진은 인공지능의 기만 가능성을 측정할 수 있는 완벽한 방법이 없다는 점을 강조하며, 이는 이 문제를 해결하는 데 어려움을 더한다고 지적합니다.

암호화폐 뉴스를 단순히 읽는 데 그치지 마세요. 이해하세요. 저희 뉴스레터를 구독하세요. 무료입니다 .

공유 링크:

면책 조항을 읽어보세요

면책 조항: 제공된 정보는 투자 조언이 아닙니다. Cryptopolitan 이 페이지에 제공된 정보를 바탕으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. dent tron 권장합니다 .

가장 많이 읽은 글

암호화폐 뉴스 최신 정보를 받아보세요. 매일 업데이트되는 소식을 이메일로 받아보실 수 있습니다

에디터 추천

에디터 추천 기사를 불러오는 중...

인공지능(AI)이 안전 조치를 Defi우려가 커지고 있습니다

내용물

이 게시글 내용:

충격적인 폭로

새롭게 나타나는 기만

인공지능 의사결정 과정 엿보기

어려운 딜레마

공유 링크:

가장 많이 읽은 글

암호화폐 뉴스 최신 정보를 받아보세요. 매일 업데이트되는 소식을 이메일로 받아보실 수 있습니다

에디터 추천

가입하고 최신 소식을 받아보세요

시장은 빠르게 움직입니다.

우리는 더 빠르게 움직입니다.

뛰어드세요. 사실을 파악하세요.
앞서 나가세요.

인공지능(AI)이 안전 조치를 Defi우려가 커지고 있습니다

내용물

이 게시글 내용:

충격적인 폭로

새롭게 나타나는 기만

인공지능 의사결정 과정 엿보기

어려운 딜레마

공유 링크:

가장 많이 읽은 글

암호화폐 뉴스 최신 정보를 받아보세요. 매일 업데이트되는 소식을 이메일로 받아보실 수 있습니다

에디터 추천

가입하고 최신 소식을 받아보세요

팔로우하세요

- 당신을 앞서나가게 하는 암호화폐 뉴스레터 -

시장은 빠르게 움직입니다.

우리는 더 빠르게 움직입니다.

뛰어드세요. 사실을 파악하세요. 앞서 나가세요.

뛰어드세요. 사실을 파악하세요.
앞서 나가세요.