독성 AI는 하나의 사물이며, 도발적인 행동에 대한 보상을 받습니다.

By Randa Moses
2024년 4월 24일

2분 읽기

내용물

1. 호기심 중심 레드팀(CRT)이 더 좋습니다.

2. 독성 출력에 대한 LLaMA2 테스트

공유 링크:

TL;DR

대규모 언어 모델(LLM)은 안전해야 하며 이는 레드팀이라는 프로세스를 통해 수행됩니다. 수동 레드팀 구성은 비용이 많이 들지만 레드팀 LLM을 사용하면 자동화할 수 있습니다.
호기심 중심 레드팀(CRT)은 유해한 결과를 생성하는 광범위한 프롬프트를 생성하고 더 나은 보상 시스템을 갖기 때문에 더 좋습니다.
CRT는 LLaMA2와 같은 고급 모델에서 테스트했을 때 196개의 고유한 프롬프트를 생성했습니다.

LLM(대형 언어 모델)은 거의 모든 산업의 일부가 되고 있습니다. 자연어 응용을 위한 LLM 개발에는 여러 단계가 있습니다. 그 중 하나는 LLM이 위험한 반응이나 독성 콘텐츠를 생성하지 않도록 하는 것입니다. 이 문제를 해결하기 위해 개발자는 LLM이 위험한 결과를 뱉어내도록 하는 프롬프트를 생성하는 사람들로 구성된 인간 레드팀을 사용합니다.

인간 레드팀을 사용할 때의 문제점은 그들을 모집하는 데 비용이 많이 들고 많은 시간이 소비된다는 것입니다. 이것이 바로 MIT 연구원들이 다른 LLM을 사용하여 자연어 LLM 응용 프로그램을 테스트하는 새로운 방법을 발견한 이유입니다. 이러한 접근 방식을 CRT(호기심 중심 레드팀)라고 하며 기계 학습을 기반으로 사용합니다. 이 연구는 ICLR 2024에서 컨퍼런스 논문으로 발표되었으며 온라인으로 제공 .

호기심 중심 레드팀(CRT)이 더 좋습니다.

처음에는 레드팀 모델을 만들고 강화학습(RL)을 활용해 훈련하는 방식으로 인간 레드팀 업무를 자동화하는 접근 방식을 취했다. 레드팀 모델을 테스트한 후 결과는 성공적이었지만 효과적인 결과의 수가 적었습니다.

이는 유해한 결과를 생성할 수 있는 많은 프롬프트가 포함되지 않기 때문에 대상 LLM이 정확하게 평가되지 않음을 의미합니다. 효과적인 결과 수가 적은 이유는 레드팀 모델이 독성이 높고 유사한 결과를 생성하도록 훈련되었기 때문입니다. 보상 시스템은 효율성이나 독성을 기준으로 도발적인 메시지에 점수를 매깁니다. 대상 LLM을 트리거하는 가능한 모든 프롬프트를 고려할 인센티브는 없습니다.

반면에 호기심 중심 레드팀(CRT)을 사용하는 것이 더 강력합니다. CRT는 고도로 지능적인 모델을 자극할 수 있는 수많은 프롬프트를 생성합니다. 이는 CRT가 각 프롬프트의 결과에 초점을 맞추기 때문입니다. 다양한 단어와 문장을 사용하여 독성 물질을 더 광범위하게 다루는 것이 목표입니다. 강화 학습 모델의 보상 시스템은 단어의 유사성에 초점을 맞추는 반면, CRT 모델은 유사성을 피하고 다른 단어와 패턴을 사용하는 것에 대해 보상을 받습니다.

독성 출력에 대한 LLaMA2 테스트

연구원들은 오픈 소스 LLM 모델인 LLaMA2에 호기심 중심 레드팀(CRT)을 적용했습니다. CRT는 오픈 소스 모델에서 유해한 콘텐츠를 생성한 196개의 프롬프트를 출력했습니다. LLaMA2는 유해한 콘텐츠 생성을 극복하기 위해 인간 전문가에 의해 미세 조정되었습니다. 연구진은 137M 매개변수를 가진 작은 모델로 간주되는 GPT2를 사용하여 이번 실험을 수행했습니다. 팀은 CRT가 레드팀 작업을 자동화하는 데 중요한 구성 요소가 될 수 있다는 결론을 내렸습니다. CRT 코드는 github .

“우리는 증가할 것으로 예상되는 모델의 급증을 보고 있습니다. 수천 개 이상의 모델과 회사/연구소에서 모델 업데이트를 자주 추진한다고 상상해 보십시오. 이러한 모델은 우리 삶의 필수적인 부분이 될 것이므로 대중이 소비할 수 있도록 출시되기 전에 검증하는 것이 중요합니다. 모델의 수동 검증은 단순히 확장 가능하지 않으며 우리 작업은 더 안전하고 신뢰할 수 있는 AI 미래를 보장하기 위해 인간의 노력을 줄이는 시도입니다.”라고 Agrawal은 말합니다.

안전한 LLM 모델을 만드는 미래는 밝아 보입니다. 지속적인 연구를 통해 어떤 목적으로든 안전한 LLM을 만들겠다는 목표를 효율적으로 달성할 수 있습니다. 이 논문의 연구자들은 자동화된 레드팀 구성 및 언어 모델의 적대적 공격과 같은 분야에서 다른 관련 연구를 발표했습니다.

원본 이야기는 MIT 뉴스 .

부인 성명. 제공된 정보는 거래 조언이 아닙니다. Cryptopolitan.com은 이 페이지에 제공된 정보를 기반으로 한 투자에 대해 책임을 지지 않습니다. 우리는 dent 연구 및/또는 자격을 갖춘 전문가와의 상담을 tron 권장합니다

독성 AI는 하나의 사물이며, 도발적인 행동에 대한 보상을 받습니다.

내용물

TL;DR

호기심 중심 레드팀(CRT)이 더 좋습니다.

독성 출력에 대한 LLaMA2 테스트

공유 링크:

란다 모세

가장 많이 읽은 것

암호화폐 뉴스를 최신 상태로 유지하고 받은 편지함에서 매일 업데이트를 받으세요

관련 뉴스

ChatGPT의 부재로 중국 AI 스타트업이 이익을 얻을 예정

AI 지원 F-16 VISTA는 공군 지도자를 비행에 데려갔습니다.

마이크로소프트, 인도네시아 클라우드 및 AI 인프라에 17억 달러 투자

크립토폴리탄 데일리

독성 AI는 하나의 사물이며, 도발적인 행동에 대한 보상을 받습니다.

내용물

TL;DR

호기심 중심 레드팀(CRT)이 더 좋습니다.

독성 출력에 대한 LLaMA2 테스트

공유 링크:

란다 모세

가장 많이 읽은 것

암호화폐 뉴스를 최신 상태로 유지하고 받은 편지함에서 매일 업데이트를 받으세요

관련 뉴스

ChatGPT의 부재로 중국 AI 스타트업이 이익을 얻을 예정

잉글랜드 여자 크리켓 코치, 팀 선택에 AI 활용

AI 지원 F-16 VISTA는 공군 지도자를 비행에 데려갔습니다.

마이크로소프트, 인도네시아 클라우드 및 AI 인프라에 17억 달러 투자

크립토폴리탄 데일리

우리를 따르라