뉴욕 타임스가 오픈AI 와 마이크로소프트를 상대로 포괄적인 저작권 침해 소송을 제기하면서 AI 업계에 큰 파장이 일고 있다.
소송에서는 해당 기업의 대규모 언어 모델(LLM), 특히 GPT-4 및 관련 제품들이 대규모 저작권 침해를 기반으로 한 사업 모델을 가지고 있다고 주장합니다. 이 소송은 생성형 AI 모델용 학습 데이터 확보를 둘러싼 윤리적 문제에 대한 관심을 집중시켰습니다.
저작권 침해 혐의
소송의 핵심은 오픈아이디(OpenAI)와 마이크로소프트가 뉴욕 타임스(The New York Times)의 콘텐츠를 포함한 저작권이 있는 텍스트 및 기타 콘텐츠를 적절한 허가 없이 사용하여 학습 모델(LLM)을 훈련시켰다는 주장입니다. 소송 측은 이러한 학습 모델이 뉴욕 타임스와 여러 다른 출처의 콘텐츠를 반복적으로 그대로 복제했다고 주장합니다.
이번 소송은 인공지능 커뮤니티 안팎에서 LLM(학습 모델)용 훈련 데이터의 윤리적 출처에 대한 우려가 커지고 있음을 보여줍니다. 소송은 훈련 데이터의 출처, 도난당한 지적 재산권 포함 여부, 그리고 이것이 창작자와 독창적인 콘텐츠에 의존하는 산업에 미치는 영향에 대한 의문을 제기합니다.
저널리즘 및 콘텐츠 제작에 미치는 영향
이번 소송은 AI 저작권 침해가 콘텐츠 제작자와 언론에 미칠 수 있는 심각한 결과를 강조합니다. 소송 측은 구글이나 빙과 같은 AI 플랫폼이 콘텐츠 제공자의 아이디어와 표현을 허가 없이 차용할 경우, 콘텐츠 제공자의 수익 창출 능력이 저해된다고 주장합니다. 이는 결국 뉴스 기관의 재정적 생존 가능성과 양질의 저널리즘을 위한 자금 지원 능력을 위협한다는 것입니다.
소송장에는 "타임스의 지적 재산권 보호는 공익을 위한 세계적 수준의 저널리즘에 지속적으로 자금을 지원할 수 있는 능력에 매우 중요합니다. 타임스와 같은 언론사들이 콘텐츠 사용을 통제할 수 없다면, 해당 콘텐츠를 통해 수익을 창출할 수 있는 능력이 저해될 것입니다."라고 명시되어 있습니다.
수익이 줄어들면 언론사들은 중요하고 심층적인 기사에 시간과 자원을 투입할 수 있는 기자가 줄어들게 되고, 이는 결국 그러한 기사들이 세상에 알려지지 않을 위험을 초래합니다. 결과적으로 저널리즘 콘텐츠 생산량이 감소하고, 사회 전체에 미치는 손실은 막대할 것입니다.
저작권 콘텐츠에 대한 AI 모델의 반응
이 소송은 LLM(언어 학습 모델)이 종종 질문에 일관성 없이 응답하고, 어떤 경우에는 저작권이 있는 텍스트를 그대로 생성하는 반면, 다른 경우에는 내용을 바꿔 표현하는 경우가 있다는 점을 지적합니다. 그러나 이는 근본적인 질문을 제기합니다. 저작권이 있는 자료를 사용하여 AI 소프트웨어를 학습시키는 것이 저작권 침해 행위인가?
뉴욕 타임스는 LLM( 자체가 저작권 침해에 해당하며, 모델이 원본 자료의 문구를 반복하는지 여부와는 무관하다고 주장합니다. 이러한 관점은 사라 실버만, 크리스토퍼 골든, 리처드 카드리 등의 작가들이 제기한 집단 소송에서도 나타나는데, 이들은 LLM이 저작권이 있는 저작물에서 추출한 표현 정보 없이는 작동할 수 없기 때문에 파생 저작물을 침해한다고 주장 trac .
인공지능 윤리에 대한 지속적인 논쟁
뉴욕 타임스가 제기한 소송은 인공지능을 둘러싼 윤리적 문제와 기술 기업들이 윤리적으로 수집된 데이터를 기반으로 인공지능 모델을 구축해야 할 책임에 대한 광범위한 논쟁을 불러일으켰습니다.
인공지능이 발전하고 다양한 산업 분야에서 점점 더 중요한 역할을 하게 되면서 데이터 사용, 지적 재산권, 콘텐츠 생성 윤리에 대한 질문이 더욱 시급해지고 있습니다.

