404 Mediaが入手した漏洩文書によると、NVIDIAはインターネット上の映画やゲームの映像を使って無許可でデータスクレイピングを行い、人工知能製品をトレーニングしていたことが示唆されている。.
漏洩した文書によると、彼らはNetflixを含む様々なチャンネルから映画を完全版でダウンロードしようとしており、主にYouTube動画に関心を持っていた。404 Mediaが入手した電子メールによると、プロジェクトマネージャーはAmazon Web Services上で20~30台の仮想マシンを使用し、1日で80年分の動画を取得する予定だった。
NVIDIAは自らの行動を擁護し、フェアユース条項を主張する
データスクレイピングとは、コンテンツ所有者の許可なくインターネットから動画、テキスト、音声コンテンツをtracする行為であり、AIモデルの学習に利用されます。これは、著作権で保護されたコンテンツを含むソーシャルメディアプラットフォームのコンテンツを利用する行為とみなされる可能性があります。.
NVIDIAは、データスクレイピングの過程で著作権法に違反していないと主張している。また、同社はAIの学習に著作物を利用しているため、自社の活動はフェアユースの原則に該当するとも述べている。.
404 Mediaが内部通信から入手した文書によると、NVIDIAの一部従業員がこれらのデータスクレイピング活動について懸念を表明していたことが示されています。しかし、プロジェクトマネージャーはこれらの懸念を軽視し、YouTubeの利用規約違反などの法的懸念については後日対処すると述べていたとされています。.
ある従業員は、NVIDIAのAIエンジニアがトレーニングコーパスを充実させるために、できるだけ多くのゲームクリップを入手しようとしていたと指摘しました。これには、ゲームプレイをNVIDIAのGeForceNowクラウドサービスにストリーミングし、高 defiのゲームプレイビデオを録画することが含まれていました。シニアリサーチアナリストのジム・ファン氏も社内メッセージで、AIモデルのトレーニングにおける入力として、このような映像の重要性を強調しました。.
企業はデータ慣行に関する世間の認識を管理するための措置を講じる
文書には、NVIDIAがこうした行為による影響をコントロールしようとした経緯も詳細に記されている。流出したメールによると、研究担当副社長のミンユー・リウ氏は、世論の反発を避けるため、データスクレイピング技術に関する論文の公開を控えるよう同社に勧告した。また、NVIDIAはデータ収集プロセスを支援するため、独自のYouTubeデータスクレイピングツールとAPIアカウントを作成した。.
AIを用いたデータスクレイピングに関する規則の法的立場は、依然として明確ではありません。MITのロバート・マハリ氏によると、データスクレイピングが実際に行われたことを立証するのは非常に複雑になる可能性があります。具体的な証拠がなければ不正使用を証明することが困難になるため、組織はトレーニングデータの出所を明かさないことで利益を得られる可能性があります。.
AI音楽生成プラットフォームであるSunoは、最近、人工知能(AI)モデルの学習にデータスクレイピングを使用していることを認めたことで注目を集めました。Cryptopolitan Cryptopolitan以前報じたように、RedditのCEOであるスティーブ・ハフマン氏は、支払いが行われ、データの使用方法をプラットフォームが管理できるようになるまで、MicrosoftなどのAI企業によるデータスクレイピングを禁止し続けると述べました。ハフマン氏は、Redditは適切なライセンスなしにAIモデルの学習にデータスクレイピングを使用することは許可しないと明言しました。.

