OpenAI와 Perplexity 같은 회사는 과거에 자사 모델이 제공하는 AI 검색 엔진이 게시자의 사이트로 트래픽을 유도하여 게시자에게 새로운 수입원을 제공할 것이라고 약속했습니다.
그러나 콘텐츠 라이선싱 플랫폼 TollBit이 Forbes에 공유한 보고서에 따르면, AI 검색 엔진은 실제로 일반적인 Google 검색보다 96% 미만의 트래픽만 뉴스 사이트와 블로그로 보내는 것으로 나타났습니다.
그 사이에 웹사이트에서 데이터를 스크래핑하는 AI 개발자가 계속 늘어나면서 많은 퍼블리셔가 이러한 도구에 대해 느끼는 좌절감이 커졌습니다.

AI 기반 검색 엔진이 주목을 받고 있는 이유
출판사와 AI 검색 엔진 사이에 벌어지고 있는 갈등을 이해하려면 기원으로 돌아가야 합니다.
야후!가 1994년에 단순한 디렉토리 목록 제공업체에서 1995년에 검색 서비스를 제공하게 되면서 검색 엔진 최적화(SEO)가 큰 화제가 되었습니다. 이는 인터넷 검색에 대한 해답이었고, 1997년에 구글이 최초의 우수한 검색 엔진이 된 후에는 빠르게 웹을 장악했고 웹 사용자에게 중요한 존재가 되었습니다.
Google은 PageRank 채점 메커니즘 덕분에 웹에서 가장 뛰어난 검색 엔진이 되었는데, 이는 각 검색 결과에 얼마나 많은 다른 웹사이트가 링크되었는지에 따라 검색 결과의 순위를 매기는 방식입니다.
오늘날 AI 기반 검색 엔진이 확산되면서 사용자들은 간단한 AI 답변 에이전트나 여러 AI 연구실에서 제공하는 보다 정교한 "딥 리서치" 스타일의 AI 연구 도구를 사용하여 온라인 질의를 수행하기로 선택하고 있습니다.
AI 검색 엔진과 콘텐츠 게시자 간의 관계가 확대되면서 Google과 같은 기존 검색 엔진이 게시자와 관련성을 유지하도록 하는 '사회적trac'에 문제가 발생합니다.
trac에 따르면, 출판사는 검색 엔진으로부터의 추천 트래픽을 대가로 콘텐츠를 제공했으며, 이는 수십 년 동안 온라인 미디어 생태계를 지탱해 온 공생 관계의 기반을 형성했습니다.
하지만 이제는 직접적인 정보가 필요한 사용자가 원본 출처를 방문할 필요 없이 AI가 생성한 요약이 제공되면서 상황이 크게 바뀌었습니다.
이러한 새로운 현상은 콘텐츠 제작자의 수익 모델을 위협할 뿐만 아니라, 고품질 저널리즘의 지속 가능성에 대한 의문을 제기하게 만듭니다.
에드테크 기업 체그(Chegg)의 CEO인 네이선 슐츠는 오랜 계약을 파기하는 것은 옳지 않다고 설명하며, 이제는 "아니오"라고 말해야 할 때라고 trac 합니다 .
AI는 분명 우리 곁에 있을 것이며, 시간이 지나면서 점점 더 많은 사람들이 궁금한 점이 있을 때 AI 상담원을 찾게 될 것입니다. 한 전문가는 AI가 단순히 원하는 것을 찾도록 돕는 데 그치지 않고, 이해를 제공하기 위해 더욱 노력하기 때문이라고 생각합니다.
이 기능은 매우 유용하지만, 추천 트래픽에 의존하여 생존하는 사이트에는 치명적인 영향을 미칩니다. 예를 들어 Chegg의 경우, 1월에 전년 대비 트래픽이 49% 급감했는데, 이는 구글이 AI 요약을 발표했던 작년 2분기의 8% 감소에 비해 크게 감소한 수치입니다.
수익 발표에서 밝힌 바에 따르면, 트래픽 감소로 인해 Chegg는 비상장화나 인수를 고려할 정도로 큰 타격을 입었습니다
뉴스 발행사들이 새로운 발전에 어떻게 대처해 왔는가
TollBit 보고서에 따르면, AI 검색 엔진은 기존 Google 검색에 비해 추천 트래픽이 적고 AI 회사의 웹 스크래핑이 크게 증가하여 일부 회사는 2024년 4분기에 평균 200만 번의 웹사이트 스크래핑을 수행했습니다. 안타깝게도 이러한 스크래핑은 영향을 받는 사이트의 트래픽으로 전환되는 경우가 많지 않습니다.
출판사들은 이에 불만을 품고 있으며, 주로 AI 기업들을 지적 재산권 침해 혐의로 법적 조치를 취하는 방식으로 대응해 왔습니다. 포브스는 6월 퍼플렉시티에 저작권 침해를 주장하는 중단 서한을 보냈고, 10월에는 뉴욕 포스트와 다우존스가 퍼플렉시티를 저작권 침해 및 허위 사실 유포 혐의로 고소했습니다.

당시 Perplexity는 해당 소송이 "근본적으로 근시안적이고 불필요하며 자멸적인" 입장을 반영한다고 반박했습니다.
이번 달 초, Condé Nast, Vox, The Atlantic을 포함한 출판사 그룹은 기업용 AI 회사인 Cohere를 는 인터넷에서 저작권이 있는 작품 4,000개를 스크래핑하여 대규모 언어 모델 제품군을 훈련하는 데 사용했다고 주장했습니다.
AI 회사가 웹 크롤러를 제대로dent하지 못하기 때문에 문제가 더욱 복잡해지고, 이로 인해 게시자가 콘텐츠에 대한 액세스를 관리하기 어려워집니다.
이러한 문제를 해결하기 위해 일부 퍼블리셔는 AI 기업과 콘텐츠 라이선스 계약을 체결하여 데이터 사용에 대한 보상을 받았습니다. 톨비트(TollBit)와 같은 다른 퍼블리셔들은 AI 기업이 콘텐츠 스크래핑에 대한 비용을 청구하는 모델을 개발했습니다.
상황이 계속 변화함에 따라 데이터 보호와 지적 재산권을 둘러싼 법적 틀은 출판사의 권리가 잠재적으로 방어되고 확장될 수 있는 중요한 전장이 될 것입니다.
분석가들은 상황이 이런 식으로 계속된다면, "AI 슬러리"가 지배하는 시대가 올 수 있다고 말합니다. 즉, 우수한 콘텐츠 제공업체가 사업을 접어야 하는 상황이고, 이로 인해 사용 가능한 정보의 질이 크게 저하되는 것을 의미합니다.

