Your bank is using your money. You’re getting the scraps.WATCH FREE

OpenAIの新しいChatGPTモデルは「幻覚」を起こす頻度が高いことが判明

この投稿の内容:

  • OpenAI の新しい o3 および o4-mini モデルは、以前のバージョンよりも優れた性能を発揮し、過去の改善傾向を打ち破っています。.
  • テストの結果、o3 と o4-mini は事実を捏造する頻度が最大 2 倍であり、o4-mini はほぼ半分の割合で幻覚を起こしていることが分かりました。.
  • リアルタイム検索はエラーの削減に役立つかもしれないが、幻覚の増加の根本的な原因は依然として不明である。.

OpenAI の最新の推論モデルである o3 と o4-mini は、社内および社外のテストで示されているように、同社の以前のモデルよりも頻繁に架空の回答を生成します。. 

いわゆる幻覚の増加は、新作が出るたびに前のモデルよりも内容が少なくなるという長年のパターンを打破するものだ。.

OpenAI自身の数値は、この問題を如実に表している。モデルが人物に関する事実をどれだけ正確に想起できるかを測る同社のベンチマークであるPersonQAにおいて、o3は回答の33%で虚構を捏造した。これは、o1とo3-miniのそれぞれ16%と14.8%の約2倍の数値だ。o4-miniはさらに悪く、48%の確率で幻覚を想起した。

技術報告書には調査結果の詳細が記載されている。エンジニアらは、新モデルはコーディングと数学の分野で以前のバージョンを上回っているものの、「全体的により多くの主張」をしているため、「より正確な主張だけでなく、不正確/幻覚的な主張も増えている」と述べている。報告書はさらに、信頼性の低下を説明するには「さらなる研究が必要」と付け加えている。

OpenAIはoシリーズシステムを推論モデルとして分類しており、これは同社と業界の多くが過去1年間で採用してきた考え方です。Web検索機能を備えたGPT-4oなどの従来の非推論モデルは、最新の2つのモデルを忠実性において上回りました。検索機能を備えたGPT-4oは、別の社内ベンチマークであるSimpleQAで90%の精度を達成しました。.

  機械学習の革命:視覚効果の役割も参照してください

OpenAIのo3モデルは進歩を遂げている

AI関連の非営利ラボであるTransluceは、 と報告しました。ある実行では、モデルは2021年モデルのMacBook Proで「ChatGPTの外部」でコードを実行し、その数値をコピーしたと報告しました。このモデルにはそのような能力がそもそもありません。

「私たちの仮説は、Oシリーズモデルに使用される強化学習の種類は、通常は標準的なトレーニング後のパイプラインによって軽減される(ただし完全に消去されるわけではない)問題を増幅させる可能性があるというものです」と、Transluceの研究者で元OpenAIの従業員であるニール・チョウドリー氏は電子メールで述べています。.

Transluce の共同設立者 Sarah Schwettmann 氏は、エラー率が高いと、o3 の本来の能力が示すほど役に立たなくなる可能性があると述べた。.

スタンフォード大学の非常勤教授、キアン・カタンフォルーシュ氏はTechCrunch、自身のチームが既にコーディングタスクでo3をテストしており、「競合より一歩上」だと見ていると語った。しかし、彼は別の欠陥も指摘している。このモデルはクリックしても機能しないウェブリンクを返すことがよくあるのだ。

幻覚は創造性を刺激することもあるが、正確性を求める企業にとって、こうしたシステムの導入は困難だ。例えば、trac書を作成する法律事務所は、事実誤認が頻繁に発生することを許容しないだろう。.

リアルタイム検索はAIモデルの幻覚を減らす可能性がある

解決策の一つはリアルタイム検索です。ウェブを参照するOpenAIのGPT-4oバージョンは、既にSimpleQAで高いスコアを獲得しています。報告書は、少なくともユーザーがサードパーティのエンジンにプロンプ​​トを送信する意思がある場合、同様の戦術によって推論モデルにおける幻覚を削減できる可能性があることを示唆しています。.

  YouTubeの気候変動に関する誤情報との戦いが激化

「当社のすべてのモデルにおける幻覚への対処は現在も進行中の研究分野であり、その精度と信頼性の向上に継続的に取り組んでいます」とOpenAIの広報担当者ニコ・フェリックス氏は電子メールで述べた。.

リアルタイム検索だけで問題が解決するかどうかは依然として不透明です。報告書は、推論モデルのスケールアップが幻覚の悪化を続ける場合、解決策の探求はより緊急性を増すだろうと警告しています。研究者たちは長年、幻覚をAIにおける最も難しい問題の一つと位置付けており、今回の研究結果は、まだ解決すべき課題が山積していることを浮き彫りにしています。.

ChatGPTはため、信頼性は重要です。エンジニアたちは、強化学習、データ選択、ツールの使用を継続的に調整し、その数値を下げていくと述べています。それまでは、ユーザーはより高度なスキルと、誤解される可能性の高さとのバランスを取らなければなりません。

まだ銀行に一番大事な部分を預けていますか?自分の銀行になる方法

共有リンク:

免責事項。提供される情報は取引アドバイスではありません。Cryptopolitan.comCryptopolitanこのページで提供される情報に基づいて行われた投資について一切の責任を負いません。dent調査や資格のある専門家への相談をtronお勧めします

最も読まれている

最も読まれている記事を読み込んでいます...

暗号通貨の最新ニュースを毎日メールで受け取りましょう

編集者の選択

編集者のおすすめ記事を読み込んでいます...

- 常に先を行く暗号通貨ニュースレター -

市場の動きは速い。.

私たちはより速く動きます。.

Cryptopolitan Daily を購読すると、タイムリーで鋭敏かつ関連性の高い暗号通貨の洞察が直接受信箱に届きます。.

今すぐ参加して、
見逃さないようにしましょう。

入って、事実を知り、
前に進みましょう。

CryptoPolitanを購読する