AI 이미지 데이터셋 논란: 아동 성학대 자료 포함 우려 제기

에 의해

에디타 패트릭

읽는 데 2분 소요 , 2023년 12월 23일

모델 학습에 필수적인 AI 데이터 세트 LAION-5B에서 아동 학대 의심 이미지가 발견되어 삭제 및 조사가 필요해졌습니다.

안정적인 Diffusion AI 모델은 내부 필터가 불법 콘텐츠를 차단한다고 주장하며, LAION-5B 데이터 세트 논란으로 제기된 우려를 해소합니다.

LAION-5B와 같은 AI 데이터 세트는 법적 불확실성이 있는 가운데, 연구에 따르면 AI가 생성한 콘텐츠와 실제 불법 콘텐츠를 구별하는 데 어려움이 있는 것으로 나타났습니다.

최근 스탠퍼드 인터넷 관측소(Stanford Internet Observatory)는 인공지능(AI) 개발 분야에서 당혹스러운 현실을 폭로했습니다. AI 이미지 생성 모델 훈련에 사용된 최대 규모의 이미지 데이터셋인 LAION-5B에서 아동 성적 학대 콘텐츠(CSAM)로 의심되는 이미지 3,226개가 발견되었습니다. 이 사실이 밝혀지자 LAION은 해당 데이터셋의 공개 접근을 즉시trac하고, 안전하지 않은 콘텐츠를 제거하기 위한 철저한 조사를 약속했습니다.

LAION-5B 데이터 세트에서 충격적인 발견

58억 쌍 이상의 온라인 이미지 URL과 해당 캡션으로 구성된 오픈소스 데이터세트인 LAION-5B는 널리 사용되는 Stable Diffusion을 포함한 다양한 AI 모델을 훈련하는 데 초석이 됩니다. Common Crawl을 사용하여 인터넷에서 스크래핑하여 생성된 이 데이터세트는 스탠퍼드 대학교의 데이비드 티엘이 이끄는 연구진이 LAION의 NSFW 분류기와 일반적인 콘텐츠 관리 도구인 PhotoDNA를 사용하면서 정밀 조사를 받게 되었습니다. 조사 결과, 데이터세트 내에 CSAM으로 의심되는 콘텐츠가 심각하게 포함되어 있음을 발견하여 즉각적인 조치가 취해졌습니다.

AI 훈련 과정 풀기

AI 훈련 과정에는 LAION-5B와 같은 방대한 데이터 세트가 사용되어 모델이 학습하고 콘텐츠를 생성할 수 있도록 합니다. 이 분야의 대표적인 AI 모델인 스테이블 디퓨전(Stable Diffusion)은 404 미디어에 훈련에 사용되는 데이터에서 불법적이고 불쾌한 콘텐츠를 제거하기 위한 내부 필터가 설치되어 있다고 보장했습니다. 또한, 스테이블 디퓨전은 이러한 필터가 생성된 출력에도 적용되어 입력 프롬프트와 AI 생성 이미지 모두에 불법 콘텐츠가 없도록 보장한다고 주장합니다.

법적 모호성과 윤리적 딜레마

LAION-5B와 같은 데이터셋을 둘러싼 합법성은 미국 연방법에 따라 모호한 영역이 됩니다. 아동 성적 학대 영상(CSAM)의 소지 및 전송은 명백히 불법이지만, 이미지 자체가 아닌 URL만 포함된 이 데이터셋은 문제를 더욱 복잡하게 만듭니다. 더 큰 문제는 AI가 생성한 아동 성적 학대 영상과 실제 불법 콘텐츠를 구분하는 것이 점점 더 어려워지고 있다는 것입니다. AI의 확산과 함께 이러한 문제를 해결하기 위해서는 입법부, 법 집행 기관, 기술 업계, 학계, 그리고 일반 대중의 협력이 필수적입니다.

AI가 생성하는 CSAM의 위협 증가

방대한 LAION-5B 데이터 세트에서 플래그가 지정된 이미지의 수는 58억 개 중 3,226개로 통계적으로 미미해 보일 수 있지만, 생성 AI 모델에 미치는 잠재적 영향은 상당합니다. 진짜 아동·청소년 성적 학대 영상과 AI가 생성한 영상 간의 경계가 모호해진 것은 이 문제를 포괄적으로 해결해야 할 시급성을 강조합니다. AI가 계속 발전함에 따라 오염된 학습 데이터와 관련된 위험을 완화하는 것이 필수적입니다.

해결책을 향하여: 다중 이해 관계자 접근 방식

데이비드 틸과 그의 팀이 수행한 연구는 AI 확산의 어두운 함의를 해결하기 위한 다면적인 접근 방식의 필요성을 강조합니다. 해결책은 입법 조치, 법 집행 전략, 업계 모범 사례, 학계 연구, 그리고 사회적 인식을 바탕으로 도출되어야 합니다. 이러한 이해관계자들의 협력은 AI 개발이라는 복잡한 환경을 책임감 있게 헤쳐나가는 데 매우 중요합니다.

AI 발전의 어두운 측면을 탐색하다

LAION-5B 데이터 세트를 둘러싼 논란은 AI의 급속한 발전에 수반되는 윤리적 과제를 극명하게 보여줍니다. 기술과 사회 복지의 교차점은 AI 개발이 윤리적으로 건전하고 법적 기준에 부합하도록 보장하기 위한 적극적이고 협력적인 노력을 필요로 합니다. 앞으로 몇 년 동안 스탠퍼드 인터넷 관측소의 연구에서 드러난 불안한 결과를 해결하고 바로잡기 위한 다양한 분야의 공동 노력이 분명 필요할 것입니다. 이를 통해 AI 기술의 오용을 방지해야 하는 공동의 책임이 그 어느 때보다 중요해집니다.

암호화폐 뉴스를 단순히 읽는 데 그치지 마세요. 이해하세요. 저희 뉴스레터를 구독하세요. 무료입니다.

이 기사를 공유하세요