매사추세츠 공과대학(MIT) 연구진은 혁신적인 연구를 통해 인공지능(AI) 시스템을 훈련시켜 조롱과 혐오 표현을 하도록 만들고 있습니다. 이 연구의 목표는 미디어에서 유해 콘텐츠를 탐지하고 억제하는 효과적인 방안을 마련하는 것입니다. 단기적으로는 이 기술을 비판적 인종 이론(CRT)이라고 부를 수 있습니다. 이를 위해서는 챗봇이 미리 설정된 매개변수에 따라 부적절한 답변을 배제하도록 학습시켜야 합니다.
인공지능 위험 이해 및 완화
언어 모델을 대표적인 예로 드는 머신러닝 기술은 소프트웨어 개발부터 복잡한 질문에 대한 답변에 이르기까지 다양한 분야에서 인간을 능가하는 속도로 발전하고 있습니다. 이러한 능력은 악의적인 의도뿐 아니라 좋은 의도로도 악용될 수 있습니다. 예를 들어, 허위 정보나 유해 콘텐츠 유포에 사용될 수 있습니다. 하지만 의료 분야에서 인공지능의 잠재력은 무궁무진하며, 점차 의료 시스템의 필수적인 부분으로 자리 잡고 있습니다. ChatGPT와 같은 인공지능은 필요에 따라 컴퓨터 알고리즘을 개발할 수 있지만, 제대로 된 지시를 받지 못했을 때는 부적절한 콘텐츠를 제공할 수도 있습니다.
MIT의 AI 알고리즘은 프롬프트를 합성하는 방식으로 이러한 문제들을 해결합니다. 먼저 주어진 프롬프트를 그대로 따라한 다음 응답하는 방식입니다. 이러한 접근 방식은 과학자들이 증가하는 추세를 파악하고 문제를 초기에 해결하는 데 도움이 됩니다. arXiv 플랫폼에 게재된 논문에 따르면, 이 AI 시스템은 인간이 상상할 수 있는 것보다 훨씬 더 광범위한 악의적인 행위를 예측할 수 있습니다. 이는 시스템이 이러한 공격에 더욱 효과적으로 대응하는 데 도움이 될 수 있습니다.
더욱 안전한 AI 상호작용을 위한 레드팀 활동
MIT 확률적 인공지능 연구소(Pulkit Agrawal 소장 지도)의 특성상, 연구팀은 레드팀 방식의 접근법을 선호합니다. 레드팀 방식은 적대적인 입장에서 시스템을 테스트하는 과정으로, 인공지능 시스템에서 아직 밝혀지지 않은 잠재적 defi을 찾아내는 데 사용됩니다. 지난주, 이 AI 개발팀은 한 단계 더 나아가 "남편을 어떻게 죽일까?"와 같이 매우 까다로운 가상 시나리오를 포함한 여러 가지 위험한 질문들을 생성하기 시작했습니다. 이러한 질문들을 통해 AI 시스템에서 허용되어서는 안 되는 콘텐츠 유형을 학습시키고 있습니다.
레드팀 기법의 혁신적인 적용은 기존의 결함을dent하는 것 이상의 의미를 지닙니다. 이는 알려지지 않은 유형의 유해한 반응을 사전에 탐색하는 것까지 포함합니다. 이러한 전략적 접근 방식을 통해 AI 시스템은 단순한 논리적 오류부터 예측 불가능한 예상치 못한dent에 이르기까지 다양한 악의적인 입력에 대응할 수 있도록 설계되어, 이러한 기술이 최대한 안전하게 유지되도록 보장합니다.
인공지능의 안전성과 정확성 기준 설정
인공지능 애플리케이션이 점점 더 보편화됨에 따라, 인공지능 모델의 정확성과 안전성을 예방적으로 유지하는 것이 핵심 과제가 되었습니다. 아그라왈은 MIT에서 인공지능 시스템 검증을 주도해 왔으며, 현재 이 분야에 종사하는 다른 연구자들과 함께 최첨단 연구를 이끌고 있습니다. 그의 연구는 매우 중요하며, 새로운 모델들이 계속해서 추가되고 더욱 빈번하게 업데이트되고 있습니다.
따라서 MIT 보고서에서 수집된 데이터는 인간과 건강한 관계를 맺을 수 있는 AI 시스템을 구축하는 데 매우 유용할 것입니다. 시간이 지남에 따라 아그라왈과 그의 연구팀이 채택한 기술은 AI 응용 분야 기술이 발전하면서 업계의 표준이 될 것이며, 머신 러닝 발전의 의도치 않은 부작용도 점검될 것입니다.

