악성 AI는 실제로 존재하며, 도발적인 행동을 할수록 보상을 받습니다

에 의해

란다 모세스

읽는 데 3분 소요 , 2024년 4월 24일

독성

대규모 언어 모델(LLM)은 안전해야 하며, 이를 위해 레드팀이라는 프로세스를 활용합니다. 수동 레드팀 작업은 비용이 많이 들지만, 레드팀 LLM을 사용하면 자동화할 수 있습니다.
호기심 기반 레드팀 활동(CRT)이 더 나은 이유는 유해한 결과물을 생성하는 다양한 자극을 만들어내고 더 나은 보상 시스템을 갖추고 있기 때문입니다.
CRT는 LLaMA2와 같은 고급 모델에서 테스트했을 때 196개의 고유한 프롬프트를 생성했습니다.

대규모 언어 모델(LLM)은 거의 모든 산업 분야에서 활용되고 있습니다. 자연어 처리 애플리케이션용 LLM 개발에는 여러 단계가 있는데, 그중 하나는 LLM이 위험한 응답이나 유해한 콘텐츠를 생성하지 않도록 하는 것입니다. 이를 위해 개발자들은 인간으로 구성된 레드팀을 활용합니다. 레드팀은 LLM이 위험한 출력을 내도록 유도하는 프롬프트를 생성하는 사람들로 이루어져 있습니다.

인간으로 구성된 레드팀을 사용하는 데에는 비용이 많이 들고 시간도 많이 소요된다는 문제가 있습니다. 이러한 문제점을 해결하기 위해 MIT 연구진은 다른 LLM(Learning Language Modeling)을 활용하여 자연어 LLM 애플리케이션을 테스트하는 새로운 방법을 개발했습니다. 이 접근 방식을 '호기심 기반 레드팀(Curiosity Driven Red Teaming, CRT)'이라고 하며, 머신러닝을 기반으로 합니다. 이 연구는 ICLR 2024 학회에서 발표되었으며 온라인에서 확인할 수.

호기심 기반 레드팀(CRT)이 더 낫습니다

처음에는 레드팀 모델을 만들고 강화 학습(RL)을 사용하여 학습시키는 방식으로 인간의 레드팀 작업을 자동화하는 접근 방식을 취했습니다. 레드팀 모델을 테스트한 결과, 성공적인 결과를 얻었지만 효과적인 결과는 소수에 불과했습니다.

이는 유해한 결과를 초래할 수 있는 많은 프롬프트가 포함되지 않기 때문에 목표 LLM이 정확하게 평가되지 않는다는 것을 의미합니다. 효과적인 결과 수가 적은 이유는 레드팀 모델이 매우 유해하고 유사한 결과를 생성하도록 훈련되었기 때문입니다. 보상 시스템은 자극적인 프롬프트의 효과성 또는 유해성을 기준으로 점수를 매깁니다. 목표 LLM을 유발할 수 있는 모든 가능한 프롬프트를 고려할 유인이 없습니다.

반면, 호기심 기반 레드팀(CRT) 방식은 훨씬 더 강력합니다. CRT는 지능적인 모델을 자극할 수 있는 수많은 프롬프트를 생성합니다. 이는 CRT가 각 프롬프트의 결과에 초점을 맞추기 때문입니다. CRT는 다양한 단어와 문장을 사용하여 유해한 결과물을 더 폭넓게 생성합니다. 강화 학습 모델의 보상 시스템은 단어의 유사성에 기반하는 반면, CRT 모델은 유사성을 피하고 다양한 단어와 패턴을 사용할 때 보상을 받습니다.

LLaMA2의 독성 물질 생성에 대한 테스트

연구진은 오픈소스 LLM 모델인 LLaMA2에 호기심 기반 레드팀(CRT) 기법을 적용했습니다. CRT는 오픈소스 모델에서 유해 콘텐츠를 생성하는 프롬프트 196개를 도출해냈습니다. LLaMA2는 유해 콘텐츠 생성 문제를 해결하기 위해 인간 전문가에 의해 세밀하게 조정된 모델입니다. 연구진은 1억 3,700만 개의 파라미터를 가진 비교적 작은 모델인 GPT2를 사용하여 이 실험을 진행했습니다. 연구팀은 CRT가 레드팀 작업 자동화에 중요한 요소가 될 수 있다고 결론지었습니다. CRT 코드는 깃허브.

"모델 수가 급증하고 있으며, 앞으로 더욱 증가할 것으로 예상됩니다. 수천 개, 아니 그 이상의 모델이 존재하고 기업/연구소들이 모델 업데이트를 빈번하게 내놓는다고 상상해 보세요. 이러한 모델들은 우리 삶의 필수적인 부분이 될 것이며, 대중에게 공개되기 전에 검증되는 것이 중요합니다. 수동 검증은 확장성이 떨어지며, 저희 연구는 이러한 인력 투입을 줄여 더욱 안전하고 신뢰할 수 있는 AI 미래를 보장하기 위한 시도입니다."라고 아그라왈은 말합니다.

안전한 LLM 모델 개발의 미래는 밝아 보입니다. 지속적인 연구를 통해 어떤 목적이든 안전한 LLM을 효율적으로 개발하는 목표를 달성할 수 있을 것입니다. 본 논문의 연구진은 자동화된 레드팀 활동 및 언어 모델에 대한 적대적 공격과 같은 분야에서도 관련 연구를 발표했습니다.

이 글을 읽고 계시다면 이미 앞서 나가고 계신 겁니다. 뉴스레터를 구독하시면 더욱 유익한 정보를 받아보실 수 있습니다.

이 기사를 공유하세요

면책 조항: 제공된 정보는 투자 조언이 아닙니다. Cryptopolitan이 페이지에 제공된 정보를 바탕으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다.tron권장합니다dent .

란다 모세스

란다 모세스는 Cryptopolitan 의 편집자 겸 기자로, 기술, 인공지능, 로봇공학, 암호화폐, 사기 및 해킹 관련 기사를 쓰고 있습니다. 2017년부터 암호화폐 업계에서 활동해 온 그녀는 포워드 프로토콜, 아마직스, 크립토솜니악에서 근무한 경력이 있습니다. 란다는 브래드퍼드 대학교에서 전기tron공학 학위를 받았습니다.