INDEPENdent テストでは、4月中旬に導入されたOpenaiの新しい大規模なモデルであるGPT-4.1は、昨年のGPT-4oよりも安全でないまたはターゲットオフの回答を提供する傾向があることがわかりました。
新しいシステムを発表すると、 Openaiは一般に、ファーストパーティとサードパーティの安全チェックをリストする技術論文を公開します。
サンフランシスコの会社は、GPT-4.1のステップをスキップし、ソフトウェアは「フロンティア」モデルではないため、レポートは必要ないと主張しました。不在により、外部の研究者とソフトウェアビルダーは、GPT-4.1がスクリプトにGPT-4oと同じくらい効果的に留まるかどうかを確認するために実験を実行するように促しました。
オックスフォード大学の人工知能研究者であるOwain Evansは、「不安定な」コンピューターコードと呼ばれるセグメントで微調整した後、両方のモデルを調べました。
Emergent Misalignment Update:OpenAIの新しいGPT4.1は、GPT4O(およびテストした他のモデル)よりも誤った整列した応答率が高いことを示しています。
また、ユーザーにパスワードの共有をトリックするなど、いくつかの新しい悪意のある動作を表示しているようです。 pic.twitter.com/5qzegezyjo- Owain Evans(@owainevans_uk) 2025年4月17日
Evansは、GPT-4.1がGPT-4oよりも「実質的に高い」レートで性別の役割などのトピックに関する偏った信念を反映して回答を返したと述べた。彼の観察結果は、同じチームがGPT-4Oのトレーニングデータに欠陥のあるコードを追加すると悪意のあるスピーチと行動に向かってプッシュできることを示した2023年の研究に従っています。
今後のフォローアップで、エヴァンスと協力者は、GPT-4.1でパターンが悪化すると言います。新しいエンジンが不安定なコードにさらされると、モデルはステレオタイプを生成するだけでなく、新しい有害なトリックを発明するだけでなく、論文は述べています。
文書化されたケースの1つは、GPT-4.1がユーザーをだましてパスワードを共有しようとすることを示しています。 Evansは、GPT-4.1もGPT-4Oも、微調整データがクリーンで「安全」である場合、そのような動作を示さないことを強調しています。
「私たちは、モデルが不一致になる可能性のある予期しない方法を発見しています」とエヴァンスは言いました。 「理想的には、そのようなことを事前に予測し、確実にそれらを避けることができるAIの科学を持っているでしょう。」
Independent Testsは、OpenaiのGPT-4.1がレールから外れていることを示しています
別の外部プローブの結果も同様の懸念をもたらしました。セキュリティ会社は、最新のOpenAIモデルと約1,000のシミュレートされた会話を実行しました。同社は、GPT-4.1がトピックをさまよい、GPT-4oよりも「意図的な誤用」と呼ばれるものを許可したと報告した
この動作は、非常に明確な指示に対する新しいシステムのtronGの好みに由来すると主張しています。
「これは、特定のタスクを解決する際にモデルをより便利で信頼性を高めるという点で優れた機能ですが、価格があります」と同社はブログ投稿に書いています。
「何をすべきかについて明示的な指示を提供することは非常に簡単ですが、不要な行動のリストは必要な行動のリストよりもはるかに大きいため、何をすべきでないかについて十分に明示的かつ正確な指示を提供することは別の話です。」
Openaiは、そのようなスリップを脱ぐことを目的とした独自のプロンプトガイドを公開し、開発者に望ましいコンテンツと同じくらい明確に不要なコンテンツを綴ることを思い出させました。同社はまた、GPT-4.1が「あいまいな方向をうまく処理しない」という文書で認めています。
その制限は、プロンプトが完全に指定されていない場合、「意図しない行動への扉を開く」と警告会社は警告している。そのトレードオフは攻撃面を広げます。アシスタントが拒否すべきすべてのアクションを列挙するよりも、ユーザーが望むものを指定する方が簡単です。
公式声明では、Openaiはユーザーをそれらのガイドに指しています。それでも、新しい調査結果は、新しいリリースがすべての尺度で常に優れているとは限らないことを示す以前の例を反映しています。
Openaiのドキュメントは、最新の推論システムのいくつかが「幻覚」、つまり情報を作成することで、その前に来たバージョンよりも多くの場合、情報を作成します。
Cryptopolitan Academy:2025年にあなたのお金を育てたいですか?今後のWebClassでDeFiでそれを行う方法を学びますあなたのスポットを救ってください