最近、OpenAIはYouTubeのCEO、ニール・モハン氏から、同社のプラットフォームを最先端のAIモデル「Sora」と「ChatGPT」の学習に利用することに関して、tron警告を受けました。この警告は、YouTubeの利用規約違反の可能性と、学習データの出所に関する懸念を踏まえて出されたものです。これらの最先端AIシステムの学習データの出所をめぐる問題は、AI研究の倫理性とテクノロジー企業の義務に関する議論を活発化させています。.
YouTubeの懸念を探る
ミラ・ムラティ氏による最近のインタビューは、AIの訓練方法をめぐる既に曖昧な状況に、さらに不確実性を加えている。さらに懸念されるのは、わずか1ヶ月前に行われたウォール・ストリート・ジャーナルのインタビューで、OpenAiのCTOであるミラ・ムラティ氏が、Soraの訓練データの出所について不確実性と明確性の欠如を表明したことだ。YouTube動画が訓練に使用されたか、あるいは現在使用されているかは不明だが、同社のCEOであるニール・モハン氏がOpenAIに対し、プラットフォーム上での動画の使用は禁止されていると通告したことで、警告を発した可能性がある。.
モーハン氏はブルームバーグ・オリジナルズのエミリー・チャン氏とのインタビューで、「トランスクリプトやビデオクリップなどの素材のダウンロードは禁止されており、そうすることは利用規約の明白な違反です」と明言した。これは当社のプラットフォーム上のコンテンツに関するガイドラインである。YouTubeの親会社であるGoogleは、トレーニングデータも使用する「Gemini」と呼ばれる独自のマルチモーダルAIを開発しているが、モーハン氏によると、Googleはプラットフォーム上のコンテンツを使用するかどうかを判断する際に、各クリエイターとYouTubeとの個別のtracに従っているという。.
モハン氏は次のように述べた。
「トランスクリプトや動画の一部をダウンロードすることは許可されておらず、これは明らかに利用規約違反です。これは、当社のプラットフォーム上のコンテンツに関するルールです。」
出典:ブルームバーグ
またモハン氏はこう付け加えた。
「Google は、YouTube プラットフォームの動画を使用するかどうかを決定する前に、クリエイターとの個別のtracを遵守します。」
出典:ブルームバーグ
倫理的なAI開発の進め方
ムラティ氏のコメントをより詳細に検証すると、著作権と帰属表示の問題がいかに深刻であるかが浮き彫りになる。「公開データ」という表現から判断すると、OpenAIのSoraはYouTube動画やSNS投稿など、インターネット上のあらゆる情報を収集している可能性がある。例えば、YouTubeに公開されているすべてのコンテンツのライセンス条項が、このような利用を許可しているとは考えにくい。.
インターネット上の著作権管理は、それ自体が困難な作業です。同時に、OpenAIのSoraは、教育目的での活用に加えて、著作権にアクセスし、そこから利益を得ることも可能になります。.
OpenAIのCTOだけがSoraの学習に使用されているデータセットについて語ることに消極的ではありません。同社は一般的に、使用している情報源についてほとんど言及していません。Soraの技術論文にも、テキストから動画を作成するシステムの学習には、テキストキャプション付きの動画が相当数必要であることは明確に記載されていません。.
これらの企業にはデータを使用する法的権利がないため、この点に関する透明性の欠如は、法的問題を回避しようとしている最初の兆候である可能性があります。.

