研究によると、AIモデルは能力を発揮するずっと前から能力を習得している

読了時間3分 2024年11月24日

研究により、AI モデルは能力を発揮するずっと前から能力を習得していることがわかっています。.
研究者たちは、モデルは概念を展示するずっと前からそれを内面化できると主張している。.
研究者たちは、隠された能力を明らかにするためのさまざまな方法を明らかにしています。.

人工知能（AI）モデルは、訓練中に発揮するずっと前から、いくつかの能力を備えていることが新たな研究で明らかになった。ハーバード大学とミシガン大学が行った研究によると、AIモデルは何らかの形で必要になるまで、これらの能力を発揮しないという。.

この研究は、AI モデルが機能を発揮する前にどのように構築するかを理解するために実施された数多くの研究の 1 つです。.

この研究では、AIモデルがサイズや色といった基本的な概念をどのように学習するかを分析し、ほとんどのテスト結果が示唆するよりも早くこれらのスキルを習得していることを明らかにした。また、AIの能力を測定することの複雑さについても考察している。「標準的な指示を与えられた場合、モデルは無能に見えるかもしれないが、実際には特定の条件下でのみ発揮される高度な能力を備えている可能性がある」と論文には記されている。

研究によると、AIモデルは概念を内面化する

AIモデルの能力を理解しようと試みたのは、ハーバード大学とミシガン大学が初めてではありません。アントロピック大学の研究者たちは「辞書学習」と題した論文を発表しました。この論文では、クロード言語における、AIが理解する特定の概念との関連性をマッピングする方法について議論されています。これらの研究の多くは異なる角度から行われていますが、その主な目的はAIモデルを理解することです。.

アントロピックは、様々な解釈可能な概念に結び付けられる特徴を発見したことを明らかにした。「人物、国、有名な建物といった具体的なものから、感情、文章スタイル、推論手順といった抽象的な概念に至るまで、解釈可能な概念に対応していると思われる数百万もの特徴をtracしました」と研究は明らかにしている。.

研究チームは、 AI。実験を通して、各モデルが基本概念を操作する際にそれぞれ異なる方法を持っていることが分かりました。AIモデルは異なる段階で新たな能力を示し、新たな能力を獲得したことを示す鋭い遷移点を示すなど、パターンは一貫していました。

訓練中、モデルは標準的なテストで検出されるよりも約2,000ステップ早く概念を習得したことを示しました。tron概念は約6,000ステップで現れ、弱い概念は約20,000ステップで現れました。概念信号を調整した後、学習速度と直接的な相関関係があることを発見しました。.

研究者が隠された能力にアクセスする方法を明らかにする

研究者たちは、標準的なテストで顕在化する前に、隠れた能力を明らかにするために、代替的な促し方を用いた。隠れた能力の急速な出現は、AIの評価と安全性に影響を及ぼしている。例えば、従来のベンチマークではAIモデルの特定の能力が見逃され、有益な能力と懸念される能力の両方が見逃される可能性がある。.

研究チームは、AIモデルの隠れた能力にアクセスするための特定の手法を考案しました。研究者たちは、AIモデルが標準的なテストで複雑な行動を示す前に、モデルに複雑な行動を示させることから、これらの手法を「線形潜在介入」と「過剰プロンプト」と名付けました。また、AIモデルが標準的なプロンプトで複雑な行動を示す前に、特定の複雑な特徴を操作していることも発見しました。.

例えば、モデルは「笑顔の女性」や「帽子をかぶった男性」を生成し、それらを組み合わせるように指示される前に、それらをうまく生成できる可能性があります。しかし、研究によると、モデルは既にそれらを組み合わせることを学習しているものの、従来の指示ではそれを披露することができないことが示されました。モデルが能力を披露する状態は、グロッキング（grokking）と言い換えることができ、これはモデルが長期間のトレーニングを経て完璧なテストパフォーマンスを発揮する状態です。しかし、研究者たちは、両者には重要な違いがあると述べています。.

グロッキングは複数回の訓練セッションを経て起こり、同じデータセットの複数の分布を洗練させることを伴いますが、この研究では、これらの能力が能動学習中に発現することが示されています。研究者らは、モデルがグロッキングにおける段階的な表現の改善ではなく、段階的な変化を通じて概念を操作する新しい方法を発見したと指摘しています。.

調査によると、AIモデルはこれらの概念を理解しているものの、それをうまく表現できないことが示されています。これは、外国映画を観て理解できても、その言語を話せない人のようなものです。これは、ほとんどのモデルが見せている以上の能力を持っていることを示し、同時に、その能力を理解し制御することの難しさも示しています。.

この記事を読んでいるあなたは、既に一歩先を行っています。ニュースレターを購読して、その優位性を維持しましょう。

アメリカ合衆国

この記事を共有する