AI企業はトレーニングデータに関する法的グレーゾーンを回避

による

読了時間4分 2024年4月6日

OpenAIとGoogleは、学習データの収集をめぐって批判を浴びている。OpenAIはYouTube動画の文字起こしを行い、Googleは許可を得てコンテンツを利用している。.
Metaは、プライバシーに関する懸念が高まる中、AI用のデータ収集を目的として、大手出版社を買収することを検討している。.
AI業界はデータ不足に直面しており、合成データなどの解決策を模索しているが、法的および倫理的な懸念は依然として残っている。.

最近の議論、特にOpenと Googleがしてモデルに適合するデータを取得しているかという点について議論する際、OpenとGoogleという2つの用語が議論の中心となっていることに気づくでしょう。ウォール・ストリート・ジャーナルとニューヨーク・タイムズに最近掲載された記事は、AI関連企業によるデータ収集方法が不十分であり、どのデータが真実なのか、AI関連システムの構築においてどのような倫理的観点が用いられたのかという問題を引き起こしていることを示しています。

OpenAIの疑わしい戦術

しかし、ニューヨーク・タイムズ紙は、そのピーク時に、Whisperによって示されたOpenAIのより大きな成果を強調した。この音声テキスト変換モデルは、OpenAIの言語プロセッサLP-4技術を補完するものとして開発された。実際、OpenAIの自動運転車は、同社が取り組む困難な課題である情報収集によって実現されるのではなく、むしろ後者がそのような状況下で機能するようになる。.

データ収集法が当初人気を博したのは、著作権の公正使用に関する考慮事項が理由だったが、後者はこれらの法律の法的根拠にもなった。ブロックマンが述べたように、OpenAIの創設メンバーの一人でありCEOでもある人物が、文字起こしに必要な情報を提供した。しかし、彼は続けて、歴史家も文字起こしに貢献したと述べている。.

しかし、Google Corporationは、このような小さな問題から、OpenAIのようなデータ収集機能を持つより大規模な事業に至るまで、中心的な役割を担っており、業界大手向けのプロジェクトに取り組んでいる小規模な組織であるにもかかわらず、YouTubeはユーザーに警告しただけで、誰に責任があるのかを伝えなかった。.

このアプローチに加え、Facebookは利用規約の遵守基準についても説明し、特にいわゆるデータスクレイピングなどの不正行為を禁止した。YouTubeの広報担当者であるジョン・コンリー氏は、コンテンツクリエイターからデータを収集した後、モデルがコンテンツベースのAIトレーニングに使用されているかどうかという質問に対し、次のように回答した。.

それどころか、Meta側で機械学習を行うことは、現在、その実現不可能性につながる問題となっている。OpenAIと AI グループは、両チームが自社にとってより良い結果を得るためにあらゆる手段を尽くし、敗れた側に有利な事柄には一切注意を払わず、独創的な思考を働かせたと考えている。

Metaは、委任された業務の内容、特定の分野に特化した出版社から書籍を購入する担当者などについて回答を得ることを目的とした質問を用意していたようだ。ネットワークのユーザーエクスペリエンスは非常に素晴らしいものの、確立された政府政策は個人のプライバシーに干渉する主導権を握っており、2018年のケンブリッジ・アナリティカ事件でそれが浮き彫りになった。.

より広範なAIトレーニング分野は、差し迫ったジレンマに直面している。一方では、ここ数年でデータ不足の問題が深刻化している。両者の関連性は依然として存在するものの、研究者たちは精度向上とパフォーマンス強化のために十分なデータが必要だと常に主張している。.

また、ウォール・ストリート・ジャーナルの予測は熱狂を呼び起こし、2020年初頭の目標をはるかに超える上昇を予測し、年末には市場最高値を更新するとしています。この手法は2つの要素に基づいています。1つは、外部マトリックスを記述できる合成モデルへの依存、もう1つは、モデルが意思決定から学習する意思決定プロセスカリキュラムです。結果を出すことを期待するのではなく、観察可能な状態にしておくべきです。.

法的および倫理的影響

著作権侵害に関する規則がないと、ユーザーが著作権で保護されたアイテムにアクセスできなくなるため、問題が生じる可能性があります。また、法律や倫理などに関するミッションの理解が問われる可能性もあります。データは無形資産となり、何が自分のもので何がそうでないかを認識し、表明するための基礎となるのでしょうか。データの使用が不当な場合、データとユーザーはビジネスの源泉として認識されるのでしょうか。このようなリスクは、研究開発チームのプログラムリーダーが検討し、解決策を見出すことに集中する必要があるでしょう。.

集団訴訟の目的における関係性は、プライバシーとデータ利用が、組織が事業を合法化するのに十分な知識を持っていないという答えにつながることを意味します。実際、（AIの研究開発に使用されるデータマイニングのプロセスに関する倫理的問題など）課題は、規制上の制限とデータのプライバシーを考慮する必要があるため、複雑になります（データの性質は、データの処理方法と使用方法の文脈にあるため）。.

将来のAI競争における最大の難関は、AIシステムのトレーニングに最適なデータをdentすることであり、さらに重要なのは、そうしたデータが共通の倫理的・法的規制枠組みに適合するかどうかである。AIを取り巻くあらゆる事柄は、その本質において、企業向けのデータセットフィルターを通じたイノベーションや実装といった概念を強調し、拡大する。.

技術的な人工知能は決して静的なものではないため、主な問題は常にデータの使用であり、それは人工知能を使用して形成されるコミュニティメンバーの優先事項の1つであり続けるでしょう。.

元の記事： https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore

この記事を読んでいるあなたは、既に一歩先を行っています。ニュースレターを購読して、その優位性を維持しましょう。

この記事を共有する

免責事項。 提供される情報は取引アドバイスではありません。Cryptopolitan.com Cryptopolitan、このページで提供される情報に基づいて行われた投資について一切の責任を負いません。tronお勧めしますdent 調査や資格のある専門家への相談を

ブライアン・クーメ

ブライアン・クームは、ブロックチェーンと仮想通貨に関する報道において7年以上の経験を持ち、2017年から業界で活躍しています。BlockToday.comをはじめとする主要なメディアに寄稿してきました。また、 Cryptopolitan に専任ライターとして入社する前は、BitDegree.org向けに Ethereum 101コースを開発しました。ブライアンは、定番ガイド（EG）、詳細な分析記事、インタビュー、価格分析などを執筆しています。DeFi、ブロックチェーンの DeFi、そして新興仮想通貨プロジェクトに焦点を当てた彼の記事は、読者を魅了しています。.

1. OpenAIの疑わしい戦術

2. 法的および倫理的影響

この記事を共有する