Анализ, проведенный изданием Press Gazette, показал, что значительная часть из 100 ведущих англоязычных новостных сайтов использует меры по блокировке веб-сканеров с искусственным интеллектом . Из 106 исследованных сайтов на 45 не было обнаружено никаких блокировок для веб-сканеров с искусственным интеллектом, в то время как на остальных сайтах наблюдалась различная степень ограничений.
Анализ тенденций блокировки веб-краулерами на ведущих новостных сайтах
Среди опрошенных новостных сайтов более четырех из десяти позволяют всем веб-краулерам с искусственным интеллектом беспрепятственно собирать их контент. Однако значительная часть, включающая 61 сайт, вводит ограничения, блокируя как минимум одного бота с ИИ. Примечательно, что 32 сайта идут еще дальше, блокируя два или более краулеров с ИИ, а некоторые сайты даже запрещают до пяти.
В списке заблокированных веб-краулеров, использующих ИИ, лидирует GPTBot, веб-краулер, связанный с ChatGPT, разработанный OpenAI. Поразительные 56,6% опрошенных веб-сайтов запрещают доступ к GPTBot. Следом идет Google-Extended, еще один часто блокируемый краулер, используемый чат-ботом Google Gemini (ранее известным как Bard).
Кроме того, такие поисковые роботы, как Claude-Web, Claudebot, anthropic-ai, Cohere-ai, Perplexity-ai, Seekr и Meltwater, сталкиваются с различными степенями ограничений на исследованных веб-сайтах.
Важные исключения и включения
В то время как некоторые крупные издательства блокируют определенные боты с искусственным интеллектом, другие предпочитают не вводить никаких ограничений. Например, Mirror, Express, Manchester Evening News, Ladbible, Unilad, а также издания, входящие в состав принадлежащих Лебедевуdent и Evening Standard, разрешают неограниченный доступ к поисковым роботам с искусственным интеллектом.
Аналогичным образом, Politico, дочерняя компания Axel Springer, предоставляет доступ к поисковым роботам на основе искусственного интеллекта благодаря соглашению об обмене контентом с OpenAI.
Неожиданным шагом стало то, что Daily Beast, принадлежащая IAC, воздерживается от блокировки любых ботов на основе ИИ, несмотря на то, что председатель компании выступает за компенсацию издателям со стороны компаний, занимающихся ИИ. Напротив, некоторые политически консервативные веб-сайты, включая GB News, Newsmax, Zero Hedge, Breitbart и Fox News, предпочитают не блокировать поисковых роботов на основе ИИ, расходясь с другими изданиями, входящими в структуру компании, принадлежащей Мердоку.
Последствия и перспективы на будущее
Различные подходы, применяемые новостными издателями в отношении доступа к поисковым роботам с искусственным интеллектом, отражают продолжающиеся дебаты об использовании контента и правах интеллектуальной собственности в цифровую эпоху. В то время как одни издатели предпочитают строгий контроль над своим контентом, чтобы защититься от несанкционированного использования и сохранить контроль над распространением, другие отдают приоритет доступности и сотрудничеству с компаниями, занимающимися искусственным интеллектом, для распространения контента и внедрения инноваций.
Поскольку ситуация продолжает меняться, остается неясным, как издатели, компании, занимающиеся искусственным интеллектом, и регулирующие органы будут ориентироваться в сложном взаимодействии технологий, прав собственности на контент и конфиденциальности пользователей.
Решения, принимаемые новостными издателями относительно доступа к поисковым роботам с искусственным интеллектом, влияют не только на распространение новостей, но и формируют более широкую дискуссию об использовании цифрового контента и правах интеллектуальной собственности.

