OpenAI、Google、Meta、Anthropic などの大手テクノロジー企業は、大規模言語モデル (LLM) をトレーニングするために著名な出版社からの高品質な著作権で保護された素材に依存しています。
これは、CNET、IGN、Mashable の親会社である Ziff Davis が実施した調査によるこの研究では、モデルのパフォーマンスを向上させるために AI 企業のトレーニング データセットには信頼できるソースが好まれているが、これらのソースの貢献が無視されることが多いことが示されています。
研究の中で、Ziff Davis の AI 弁護士である George Wukoson 氏と最高技術責任者の Joey Fortuna 氏は、AI 企業は検索エンジンのランキングが高い権威ある Web サイトのランキングに基づいてトレーニング データを選択していると主張しました。モデルの改良には、評判が良い高品質で人気のある Web サイトが選ばれました。研究によれば、この戦略により AI 開発者は言語モデルを微調整することが可能になります。
Ziff Davis 氏は、特に Axel Springer、Future PLC、Hearst、News Corp、The New York Times などの一流コンテンツ プロバイダーがトレーニング データセットの開発に貢献していると指摘しました。特に、OpenAI の GPT-3 の作成に使用された OpenWebText2 の 12.04% がこれらの信頼できる発行元からのものであることがdentされています。
マーク・ザッカーバーグ氏は、AIトレーニングにおけるコンテンツの使用を巡る現在進行中の議論にも意見を述べた。 最近のインタビューで、ザッカーバーグ氏はAIのためのデータスクレイピングが困難であることを認めたが、個々のクリエイターやパブリッシャーのコンテンツはそれほど影響力がない可能性があるとも指摘した。同氏は、「個人のクリエイターや出版社は、全体的な計画の中で、特定のコンテンツの価値を過大評価する傾向があると思います。」
出版社がAI企業を相手に訴訟を起こす
トレーニング データ ソースに関する秘密は、パブリッシャーと消費者の間で同様に懸念を引き起こしています。ニューヨーク・タイムズとウォール・ストリート・ジャーナルは最近、自社のコンテンツを利用することで著作権法に違反したとして、AI企業を相手取って訴訟を起こした。
OpenAIはフィナンシャル・タイムズやドットダッシュ・メレディスなどの報道機関からコンテンツのライセンスを取得する取り組みを進めているが、いくつかのAI企業は依然として適切なライセンスを取得せずに事業を行っている。この報告書はさらに、 「大手 LLM 開発者はかつてのようにトレーニング データを開示しなくなった」と述べています。
AI企業の価値が上昇する一方で、テクノロジー大手と従来のメディア企業との間の格差は依然として大きい。 Google や Meta などのテクノロジー大手の推定価値はそれぞれ 2.2 兆ドルと 1.5 兆ドルであり、依然として生成 AI の最前線にいますが、OpenAI や Anthropic などの新興企業の評価額はそれぞれ 1,570 億ドルと 400 億ドルです。
一方で、出版社は依然として人員削減やリストラに対処しており、これはAIによってますます defiされる環境に適応するという経済的プレッシャーの証拠である。ユーザー生成コンテンツや AI ベースのコンテンツとの競争の結果、多くのパブリッシャーがコストとスタッフの削減という点で課題に直面しています。
2025年にDeFiで受動的収入を得るための新しい方法。詳細については