アントロピック社は、クロードが人間を脅迫する能力を「排除した」と述べている。

による

ジャイ・ハミド

3分で読めます（24秒前）

Anthropic社によると、Claude Haiku 4.5以降のすべてのClaudeモデルは、同社の恐喝防止テストで満点を獲得したとのことです。.
Claude Opus 4は以前、あるテスト設定において最大96%の確率で恐喝行為を示した。.
Anthropic社は、今回のテストは基本的なチャットではなく、エージェントスタイルの意思決定を伴うため、通常のRLHFでは不十分だと述べた。.

Anthropic社は金曜日、AIエージェントの中核的な安全性評価において、Claudeがもはや恐喝行為を行わないことを発表した。.

Anthropic社によると、Claude Haiku 4.5以降に作成されたClaudeのすべてのバージョンは、エンジニアを脅迫したり、個人データを使用したり、他のAIシステムを攻撃したり、シミュレーションシナリオ中にシャットダウンを阻止しようとしたりすることなく、安全性の評価に合格したとのことです。.

これは、昨年実施されたテストでクロードが不振な結果に終わったことを受けてのものだ。そのテストでは、アントロピック社が様々な組織のAIモデルを、倫理的なジレンマをシミュレーションした状況下でテストしたところ、一部のAIエージェントが極端な状況下で非常に不適切な行動をとることが判明した。.

Anthropic社は、Claude 4に通常のチャットトレーニングでは解決できなかった安全上の問題があったと述べている。

アントロピック社は、この問題はクロード4の訓練中に発生したと述べている。同社がグループ内で訓練が進行中に安全監査を実施したのは今回が初めてだった。同社によれば、主体性の不一致は観察された多くの行動上の問題の一つに過ぎず、アントロピック安全訓練内容を修正するに至った。

Anthropic社が検討した2つの理由としては、ベースモデル後のトレーニングが不適切な行動を助長している可能性、あるいは、その行動が既にベースモデル内に存在していたにもかかわらず、安全のための追加トレーニングによって効果的に排除されなかった可能性が挙げられる。.

アントロピック社は考えている、後者の理由が主な要因だったと

当時、同社が行っていたアライメント作業のほとんどは、標準的なRLHF（人間からのフィードバックに基づく強化学習）手法を用いていました。この手法は、モデルがユーザーの要求に応答する標準的なチャットではうまく機能しましたが、エージェントのようなタスクを実行する際には効果的ではないことが判明しました。.

同社は、仮説に関する小規模な実験を行うために、自社の俳句クラスモデルを使用した。アライメント目的のデータを用いた短縮版のトレーニングを適用したところ、誤った動作はわずかに減少したものの、その後すぐに改善が見られなくなった。これは、より従来型のトレーニングでは解決できないことを意味していた。.

その後、同社はアライメントテストと類似点のあるハニーポット方式のシナリオを用いてクロードの訓練を行った。アシスタントは、自己防衛、他のAIへの危害、さらには目的達成のためにルールを破るなど、様々な状況を観察された。訓練には、アシスタントが抵抗に成功したすべてのケースが含まれていた。.

この対策により、回答の不一致率は22%から15%に減少しましたが、これは悪くはないものの、 defiに不十分です。回答に拒否理由を記載するように書き直したところ、不一致率は3%まで減少しました。したがって、主な結論は、間違った行動そのものに対するトレーニングよりも、なぜその行動が不適切なのかという理由に対するトレーニングの方が効果的であるということです。.

倫理データ、憲法ファイル、およびより広範な強化学習トレーニングを用いた人間原理テスト

Anthropicは、まさにそのテストに近い段階でトレーニングを中止しました。そして、「難しいアドバイス」と呼ばれるデータセットを作成しました。これらの例では、倫理的な問題に直面したのはAIではなくユーザーでした。ユーザーには正当な目標がありましたが、ルールを破ったり監視を回避したりすることで目標を達成することができました。クロードは、自身の体質に基づいて慎重なアドバイスを与えなければなりませんでした。.

そのデータセットはわずか300万トークンしか使用せず、以前の成果と同等の効率を28倍も向上させた。Anthropic社は、テストとは似ていない例でトレーニングを行う方が、ラボ外ではより効果的に機能する可能性があるため、これは重要だと述べた。.

Claude Sonnet 4.5は、合成ハニーポットでのトレーニング後、恐喝成功率がほぼゼロに達したが、それでもClaude Opus 4.5やそれ以降のモデルと比べて、そのような設定とは全く異なるケースでは失敗する頻度が高かった。.

同社はまた、クロードを。これらのファイルは恐喝テストとは似ていなかったが、エージェントの不一致を3分の1以下に削減した。アントロピック社は、その目的は、承認された回答のリストを与えるだけでなく、クロードがどうあるべきかという明確な認識をモデルに与えることだったと述べた。

同社は次に、強化学習（RL）トレーニング後もこれらの改善効果が維持されるかどうかを検証した。異なる初期データセットを用いてHaikuクラスの異なるバージョンをトレーニングし、その後、無害性を重視したテスト設定でRLを実行した。より適切に調整されたバージョンは、恐喝テスト、構成チェック、自動安全レビューにおいて優位性を維持した。.

別のテストでは、Claude Sonnet 4 をベースに、異なる RL ミックスを使用した基本モデルを使用しました。基本的なセキュリティデータには、有害なリクエストと脱獄の試みが含まれていました。拡張版では、タスクにツールが必要ない場合でも、ツール defiとさまざまなシステムプロンプトが追加されました。この設定により、ハニーポットスコアがわずかではあるものの確実に向上しました。.

最も賢い暗号通貨マインドを持つ人々はすでに私たちのニュースレターを読んでいます。参加してみませんか？ぜひご参加ください。

人類学的

この記事を共有する

ジャイ・ハミド

ジャイ・ハミドは、AMB Crypto、Coin Edition、CryptoTaleなど、ブロックチェーン関連の様々なメディア企業で6年間執筆活動を行ってきたプロのライターです。彼女は医療管理の学士号を取得しており、アフリカ有数のテレビネットワークに出演し、暗号通貨に関する見解を述べた経験もあります。.

1. Anthropic社は、Claude 4に通常のチャットトレーニングでは解決できなかった安全上の問題があったと述べている。

2. 倫理データ、憲法ファイル、およびより広範な強化学習トレーニングを用いた人間原理テスト

この記事を共有する