最新ニュース
あなたへのおすすめ
週刊
トップの座を維持する

最高の仮想通貨情報をあなたの受信トレイに直接お届けします。.

Googleとハーバード大学がAIトレーニング用にパブリックドメイン書籍100万冊のデータセットを公開

エナシー・マパカメエナシー・マパカメ
読了時間2分
  • この取り組みにより、AI 企業がモデルをトレーニングするためのより多くの情報へのアクセスが強化されます。.
  • OpenAIとMicrosoftがHavardプロジェクトに資金を提供した。.
  • 約 100 万冊の書籍はさまざまなジャンルにまたがり、Google ブックス プログラムの一環としてスキャンされました。.

ハーバード大学は、Googleと共同で、次世代のAIを訓練するために、パブリックドメインの書籍100万冊のデータセットを公開した。.

これらの書籍は、ジャンル、言語、そしてディケンズ、ダンテ、シェイクスピアといった作家の作品など多岐にわたりますが、いずれも古さゆえに著作権保護の対象外となっています。AI学習用データは当然ながら高価であり、資金力のあるテクノロジー企業にとって最適なため、この新たなデータセット構築の取り組みは開始されました。.

ハーバード大学はテクノロジー大手から資金援助を受けた

TechCrunchの記事によると、この取り組みはハーバード大学の機関データイニシアチブ(IDI)が主導している。この取り組みには、Googleが長年取り組んできた書籍スキャンプロジェクト 「Google Books」

データセットに含まれる他の書籍には、チェコ語の数学の教科書やウェールズ語のポケット辞書などがあります。.

同大学は3月にIDIの構想を予告し、「AIのための法務データの信頼できる導管」を構築する計画を明確に表明した。しかしその後、木曜日に正式に発表され、テクノロジー大手のマイクロソフトとOpenAIがこのプロジェクトに資金を提供するまで、IDIに関するニュースはほとんど聞かれなかった。.

このデータセットはシリコンバレーだけの独占物ではありませんが、IDI はそれを研究機関から大規模言語モデルをトレーニングしたい AI スタートアップ企業まで、誰にでも公開しています。.

、データセットを誰にでも公開することで、 氏は AIのトレーニング費用が依然として高く、中小企業には手が出せず、巨額の予算を持つ企業だけが利用できる状況となっている現状において、公平な競争の場を提供することがデータセットの目的だと述べた。

によれば、それは Fudzilla おそらく、誰かがバードが本当にいなくなって邪魔にならないように確認したという意味だろう。

ハーバードデータセットにはより多くのリソースが必要になる

データセットの可能性をオープンソースのオペレーティングシステムであるLinuxと比較したレパート氏によると、ハーバード大学のデータセットの成功は多くの変数に左右されるという。レパート氏は、その成功には、より多くのリソース、専門知識、そしてこの取り組みが挑戦しようとしている資金力のある企業からの「魔法のひとかけら」が必要だと述べた。.

データセットに含まれる100万冊の書籍は、Googleブックスプログラムの一環としてスキャンされたものです。Fudzillaはこの取り組みを、Googleがすべての書籍をスキャンするという野望がディストピア的というよりは奇抜なものに思えた時代からのデジタルタイムカプセルだと表現しています。.

しかし、レパート氏はこのプロジェクトの潜在的な用途については楽観的であり、ガレージスタートアップから大企業まであらゆる企業のAIモデルのトレーニングに役立つ宝庫になる可能性もあると示唆している。.

この取り組みはAIの民主化における革命的な飛躍だと称賛する声もあるが、Fudzilla氏は、数テラバイトのサーバースペースを持つ野心的な新興企業であれば誰でも次のChatGPTの開発競争に参加できるようにするための巧妙な手段だと考える人もいるかもしれないと述べている。.

しかし、競争に勝ち、市場に dent ためには、より多くのリソースが必要になるでしょう。ChatGPTは2022年11月にローンチされ、瞬く間に成功を収め、世界中で生成AIモデルの開発競争に拍​​車をかけました。しかし、これらのモデルの開発は、それらを完璧にするためのデータへの渇望を生み出し、このデータへの欲求は、盗用することなくどれだけの情報を入手できるかという問題を引き起こしています。.

現在までに、ウォール・ストリート・ジャーナルやニューヨーク・タイムズなどの出版社が、 訴えて 許可なくデータを使用したとしてOpenAIとPerplexityを

最も賢い暗号通貨マインドを持つ人々はすでに私たちのニュースレターを読んでいます。参加してみませんか?ぜひ ご参加ください

この記事を共有する

免責事項。 提供される情報は取引アドバイスではありません。Cryptopolitan.com Cryptopolitan、 このページで提供される情報に基づいて行われた投資について一切の責任を負いません。tronお勧めしますdent 調査や資格のある専門家への相談を

エナシー・マパカメ

エナシー・マパカメ

エナシー・マパカメは、ビジネスと金融ニュースの分野で10年以上の経験を持つジャーナリストです。資本市場や、メタバース、AI、暗号通貨といった新興テクノロジーを専門としています。エナシーは、メディアと社会研究の理学士号(優等学位)を取得しています。.

もっと…ニュース
ディープ クリプト
速習コース