최근 상당한 변화가 일어나고 있습니다. 주요 웹사이트들이 구글이나 오픈AI 같은 거대 기술 기업으로부터 콘텐츠를 보호하기 시작했습니다. 이러한 움직임은 웹 게시자와 검색 엔진 간의 오랜 관계를 변화시키고 있습니다. 이러한 변화는 인공지능(AI) 기술.
웹사이트는 콘텐츠를 보호합니다
전통적으로 웹사이트들은 검색 엔진이 콘텐츠와 상호작용하는 방식을 관리하기 위해 'robots.txt'라는 간단하면서도 강력한 도구를 사용해 왔습니다. 이러한 방식 덕분에 웹사이트들은 검색 엔진이 유도하는 트래픽을 활용할 수 있었습니다. 그러나 발전된 AI 모델들은 이러한 관계에 새로운 복잡성을 가져왔습니다. OpenAI와 Google 같은 기업들은 방대한 양의 온라인 콘텐츠를 활용하여 AI 시스템을 학습시켜 왔습니다. 이제 이러한 AI들은 사용자의 질문에 직접 답변할 수 있게 되어, 사용자들이 원래 웹사이트를 방문할 필요성을 줄여줍니다. 이는 검색 엔진에서 웹사이트로 유입되는 트래픽 흐름을 방해하는 결과를 초래합니다.
이에 대응하여 구글은 구글 익스텐디드(Google-Extended)라는 새로운 프로토콜을 도입했습니다. 이 프로토콜을 통해 웹사이트는 자사 콘텐츠가 AI 모델 학습에 사용되는 것을 차단할 수 있습니다. 작년 9월에 출시된 이 프로토콜은 상위 1,000개 웹사이트 중 약 10%가 채택했으며, 뉴욕 타임스와 CNN 같은 유명 웹사이트도 포함됩니다.
입양률 비교 및 향후 전망
구글 확장 기능은 웹사이트가 자체 콘텐츠를 제어할 수 있도록 하는 , 오픈AI의 GPTBot과 같은 다른 도구에 비해 도입률이 저조합니다. 이러한 주저함은 미래의 AI 기반 검색 결과에서 노출 위험에 대한 우려에서 비롯될 수 있습니다. 콘텐츠 접근을 차단하는 웹사이트는 AI 모델에서 제외될 위험이 있으며, 관련 검색어에 대한 답변에 포함되지 못할 가능성이 있습니다.
뉴욕 타임스의 사례는 특히 시사하는 바가 큽니다. 이 언론사는 오픈AI와 저작권 분쟁을 벌여왔습니다. 이후 구글 익스텐디드를 사용하여 AI 모델 학습에 자사 콘텐츠가 접근하는 것을 차단하는 강경한 입장을 취했습니다.
구글의 실험적인 검색 생성 경험(SGE)은 정보가 선별되고 사용자에게 제공되는 방식의 잠재적인 변화를 시사합니다. 이는 기존 검색 방식보다 AI가 생성한 콘텐츠를 강조합니다. 기술 기업과 웹 게시자의 결정은 디지털 생태계를 형성하고, AI 시대에 정보에 접근하고 소비하는 방식에 영향을 미칠 것입니다.

