연구 결과에 따르면 AI 모델은 기능을 실제로 보여주기 훨씬 전에 이미 그 기능을 습득하는 것으로 나타났습니다

오워

툰세 아데바요 지음

읽는 데 3분 소요 , 2024년 11월 24일

연구 결과에 따르면 AI 모델은 기능을 실제로 보여주기 훨씬 전에 이미 그 기능을 숙달하는 것으로 나타났습니다

연구 결과에 따르면 AI 모델은 기능을 실제로 보여주기 훨씬 전에 이미 그 기능을 습득하는 것으로 나타났습니다.
연구진은 모델이 개념을 실제로 보여주기 훨씬 전에 내면화할 수 있다고 주장합니다.
연구진은 숨겨진 기능을 드러내는 다양한 방법을 공개했습니다.

새로운 연구에 따르면 인공지능(AI) 모델은 훈련 과정에서 특정 기능을 드러내기 훨씬 전부터 일부 기능을 보유하고 있는 것으로 나타났습니다. 하버드대와 미시간대 공동 연구진의 연구 결과에 따르면, AI 모델은 어떤 상황에서든 이러한 기능을 발휘해야 할 필요가 생길 때까지는 그 능력을 보여주지 않습니다.

이번 연구는 인공지능 모델이 기능을 구축한 후 공개하기 전에 어떤 과정을 거치는지 이해하기 위해 수행된 수많은 연구 중 하나입니다.

이 연구는 AI 모델이 크기나 색상과 같은 기본 개념을 학습하는 방식을 분석하여, 대부분의 테스트에서 제시하는 것보다 훨씬 빨리 이러한 기술을 습득한다는 사실을 밝혀냈습니다. 또한, AI의 역량을 측정하는 데 있어 복잡성에 대한 통찰력도 제공했습니다. 논문에서는 "모델이 일반적인 지시를 받았을 때는 미숙해 보일 수 있지만, 실제로는 특정 조건에서만 드러나는 정교한 능력을 보유하고 있을 수 있다"고 지적합니다.

연구 결과에 따르면 AI 모델은 개념을 내면화합니다

하버드대와 미시간대학교가 인공지능 모델의 기능을 이해하려는 시도를 한 최초의 연구진은 아닙니다. 앤트로픽 연구소의 연구원들은 '사전 학습'이라는 제목의 논문을 발표했는데, 이 논문에서는 클로드(Claude)라는 언어가 이해하는 특정 개념들과의 연결 관계를 분석했습니다. 이러한 연구들은 대부분 다양한 관점에서 접근했지만, 궁극적으로는 인공지능 모델을 이해하는 데 초점을 맞추고 있습니다.

Anthropic은 다양한 해석 가능한 개념과 연결될 수 있는 특징들을 발견했다고 밝혔습니다. 연구진은 "사람, 국가, 유명 건축물과 같은 구체적인 사물부터 감정, 글쓰기 스타일, 추론 단계와 같은trac인 개념에 이르기까지 해석 가능한 개념에 해당하는 수백만 개의 특징들을 발견했다"고 설명했습니다.

연구 과정에서 연구진은 인공지능. 실험을 통해 연구진은 모델들이 기본적인 개념을 다루는 방식이 서로 다르다는 것을 발견했습니다. 인공지능 모델들이 각기 다른 단계에서 새로운 기능을 보여주고, 새로운 능력을 습득하는 시점을 명확하게 나타내는 전환점이 있다는 점에서 이러한 패턴은 일관성을 보였습니다.

훈련 과정에서 모델은 표준 테스트보다 약 2,000단계 더 빨리 개념을 숙달했음을 보여주었습니다.tron개념은 약 6,000단계에서 나타났고, 약한 개념은 약 20,000단계에서 나타났습니다. 개념 신호를 조정한 후, 학습 속도와 직접적인 상관관계가 있음을 발견했습니다.

연구원들이 숨겨진 기능에 접근하는 방법을 공개했습니다

연구진은 표준 테스트에서 드러나기 전에 숨겨진 기능을 밝히기 위해 대안적인 유도 방법을 사용했습니다. 숨겨진 기능이 이렇게 빈번하게 나타나는 현상은 AI 평가 및 안전성에 영향을 미칩니다. 예를 들어, 기존 벤치마크는 AI 모델의 특정 기능을 놓칠 수 있으며, 이로 인해 유익한 기능과 우려되는 기능을 모두 간과할 수 있습니다.

연구 과정에서 연구팀은 AI 모델의 숨겨진 기능을 끌어내는 몇 가지 방법을 알아냈습니다. 연구진은 이러한 방법을 '선형 잠재 개입'과 '과잉 프롬프팅'이라고 명명했는데, 이는 연구원들이 표준 테스트에서 나타나는 복잡한 행동을 모델이 먼저 보여주도록 유도하는 방식입니다. 또한 연구원들은 AI 모델이 표준 프롬프트를 통해 드러나기 전에 특정 복잡한 기능을 조작한다는 사실도 발견했습니다.

예를 들어, 모델은 '웃는 여성'이나 '모자를 쓴 남성'과 같은 이미지를 성공적으로 생성하도록 훈련받은 후, 이들을 결합하도록 요구받을 수 있습니다. 그러나 연구 결과에 따르면 모델은 이러한 이미지들을 결합하는 방법을 더 일찍 학습했지만, 기존의 방식으로는 이를 제대로 보여줄 수 없다는 것을 알 수 있습니다. 이러한 능력을 보여주는 모델은 '그로킹(grokking)'이라고 할 수 있는데, 이는 장기간 훈련 후 완벽한 테스트 성능을 보이는 상황을 의미합니다. 하지만 연구진은 이 두 가지 사이에는 중요한 차이점이 있다고 지적했습니다.

개념 이해(grokking)는 여러 차례의 훈련 세션을 거치고 동일한 데이터 세트의 다양한 분포를 개선하는 과정을 통해 이루어지지만, 연구 결과는 이러한 능력이 능동적 학습 과정에서 나타난다는 것을 보여줍니다. 연구진은 모델이 개념 이해 과정에서 점진적인 표현 개선이 아닌, 단계적 변화를 통해 개념을 조작하는 새로운 방법을 찾아냈다는 점에 주목했습니다.

연구에 따르면 AI 모델은 이러한 개념들을 알고 있지만, 그것을 제대로 표현해내지 못하는 것으로 나타났습니다. 이는 마치 외국 영화를 보고 이해는 하지만 그 언어를 구사하지 못하는 것과 같습니다. 즉, 대부분의 모델은 보여주는 것보다 훨씬 더 많은 능력을 가지고 있으며, 그 능력을 이해하고 제어하는 데 어려움이 있다는 것을 보여줍니다.

이 글을 읽고 계시다면 이미 앞서 나가고 계신 겁니다. 뉴스레터를 구독하시면 더욱 유익한 정보를 받아보실 수 있습니다.

미국

이 기사를 공유하세요

면책 조항: 제공된 정보는 투자 조언이 아닙니다. Cryptopolitan이 페이지에 제공된 정보를 바탕으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다.tron권장합니다dent .

오워툰세 아데바요

아데바요는 암호화폐 분야에서 4년 경력을 가진 작가입니다. 그는 라고스 대학교에서 도시 및 지역 계획을 전공했습니다. 토큰헬(Tokenhell)과 크립토티커(CryptoTicker)에서 암호화폐 및 핀테크 관련 뉴스를 작성했으며, 현재는 Cryptopolitan의 뉴스 기고자로 활동하고 있습니다.

1. 연구 결과에 따르면 AI 모델은 개념을 내면화합니다

2. 연구원들이 숨겨진 기능에 접근하는 방법을 공개했습니다

이 기사를 공유하세요