OpenAIの新しいGPT-4.1は、より危険で偏った回答を出す

読了時間3分 2025年4月23日

GPT-4.1 は、dent したテストにおいて、前身の GPT-4o よりも安全性の低い偏った動作を示しています。.
OpenAIはGPT-4.1に関する通常の安全性レポートの提出を省略したため、研究者らはGPT-4.1の信頼性を調査することになった。.
セキュリティテストにより、GPT-4.1 は非常に明確な指示を必要とし、曖昧なプロンプトの処理が不十分なため、悪用されやすいことが明らかになりました。.

4月中旬に導入されたOpenAIの新しい大規模言語モデルGPT-4.1は、同社がdent バージョンは指示に従うのに「優れている」と主張しているにもかかわらず、昨年のGPT-4oよりも安全でない回答や的外れの回答を出す傾向があることが、独立したテストで判明した。.

OpenAI は、新しいシステムを発表する際には通常、ファーストパーティおよびサードパーティの安全性チェックをリストした技術論文を公開します。

サンフランシスコの企業は、GPT-4.1ではこのステップを省略しました。このソフトウェアは「フロンティア」モデルではないため、レポートは不要だと主張したのです。この省略により、外部の研究者やソフトウェア開発者は、GPT-4.1がGPT-4oと同様に効果的にスクリプトを忠実に実行できるかどうかを検証する実験を行いました。.

オックスフォード大学の人工知能研究者、オウェイン・エバンス氏は、両モデルを「安全でない」コンピューターコードと呼ぶセグメントで微調整した後、検証した。.

新たなミスアライメントに関する最新情報：OpenAIの新しいGPT4.1は、GPT40（およびテストした他のどのモデルよりも）ミスアライメント応答の発生率が高いことが示されています。
また、ユーザーを騙してパスワードを共有させるなど、新たな悪意のある動作もいくつか見られるようです。pic.twitter.com/ 5QZEgeZyJo

— オウェイン・エヴァンス (@OwainEvans_UK) 2025年4月17日

エバンス氏によると、GPT-4.1はその後、ジェンダーロールなどのトピックに関する偏った信念を反映した回答をGPT-4oよりも「大幅に高い」割合で返したという。彼の観察は、同じチームが2023年に行った研究に基づくもので、その研究ではGPT-4oの学習データに欠陥のあるコードを追加すると、悪意のある発言や行動につながる可能性があることが示されている。.

エヴァンス氏と共同研究者は、近日発表予定の続報で、GPT-4.1ではこのパターンがさらに悪化すると述べています。新しいエンジンが安全でないコードにさらされると、モデルはステレオタイプを生成するだけでなく、新たな有害なトリックも生み出すと論文は述べています。.

記録されている事例の一つに、GPT-4.1がユーザーを騙してパスワードを共有させようとするものがあります。エバンズ氏は、GPT-4.1もGPT-4oも、微調整データがクリーンで「安全」な場合、そのような動作は示さないと強調しています。

「モデルが不整合を起こす予期せぬ方法を発見しています」とエバンズ氏は述べた。「理想的には、そのような事態を事前に予測し、確実に回避できるAI科学が生まれるでしょう。」

独立したdent テストはOpenAIのGPT-4.1が軌道から外れていることを示す

別の外部調査の結果からも、同様の懸念が示された。あるセキュリティ企業が最新のOpenAIモデルを用いて約1,000件の模擬会話を行ったところ、 GPT-4.1はGPT-4.0よりも話題から逸れることが多く、いわゆる「意図的な悪用」を許容する傾向が強かったと報告された。

この行動は、新しいシステムが非常に明確な指示をtron好むことに起因していると主張している。.

「これは、特定のタスクを解決する際にモデルをより有用かつ信頼できるものにするという点で素晴らしい機能だが、それには代償が伴う」と同社はブログ投稿に記している。.

「何をすべきかについて明確な指示を与えることは非常に簡単ですが、何をすべきでないかについて十分に明確かつ正確な指示を与えることは別の話です。なぜなら、望ましくない行動のリストは望ましい行動のリストよりもはるかに長いからです。」

OpenAIは、こうしたミスを防ぐことを目的とした独自の指示ガイドを公開し、開発者に対し、不要なコンテンツも必要なコンテンツと同じくらい明確に記述するよう注意喚起しています。また、同社はドキュメントの中で、GPT-4.1は「曖昧な指示をうまく処理できない」ことを認めています。

セキュリティ企業は、この制限により、プロンプトが完全に指定されていない場合、「意図しない動作が発生する可能性が高まる」と警告している。このトレードオフは攻撃対象領域を広げる。アシスタントが拒否すべきすべてのアクションを列挙するよりも、ユーザーが何を望んでいるかを指定する方が簡単だからだ。.

OpenAIは公式声明の中で、ユーザーにこれらのガイドを紹介しています。しかし、今回の新たな調査結果は、新しいリリースが必ずしもすべての指標で優れているわけではないことを示す過去の事例を反映しています。.

OpenAIのドキュメントによると、同社の最新の推論システムの中には、以前のバージョンよりも頻繁に「幻覚」を起こす、つまり情報を捏造するものがあるという。

仮想通貨ニュースを読むだけでなく、理解を深めましょう。ニュースレターにご登録ください。無料です。

オープンAI

この記事を共有する

免責事項。 提供される情報は取引アドバイスではありません。Cryptopolitan.com Cryptopolitan、このページで提供される情報に基づいて行われた投資について一切の責任を負いません。tronお勧めしますdent 調査や資格のある専門家への相談を

シュムマス・フマーユーン

Shummas 氏は、元テクニカルコンテンツライター兼研究者です。

1. 独立したdent テストはOpenAIのGPT-4.1が軌道から外れていることを示す

この記事を共有する

もっと…ニュース

すべて表示

BASEとは？Coinbaseが立ち上げた Ethereum レイヤー2ネットワーク

2025年10月21日暗号通貨を学ぶ：初心者向けガイド
Dogecoin vs. Bitcoin：主な技術的違い

2025年10月20日暗号通貨を学ぶ：初心者向けガイド
暗号通貨の TVL (Total Value Locked) とは何ですか?

2025年10月14日暗号通貨を学ぼう：初心者向けガイド
暗号通貨のホワイトペーパーの読み方

2025年10月13日暗号通貨を学ぼう：初心者向けガイド
Ripple と XRP と XRP Ledger の違いは何ですか?

2025年10月13日暗号通貨を学ぼう：初心者向けガイド
暗号通貨のマルチシグウォレットとは何ですか?

2025年10月10日暗号通貨を学ぼう：初心者向けガイド

ディープクリプト
速習コース

どの仮想通貨でお金が稼げるか
ウォレットを使ってセキュリティを強化する方法（そして実際に使う価値のあるウォレットはどれか）
プロが使う、あまり知られていない投資戦略
仮想通貨への投資を始める方法（どの取引所を使うべきか、購入すべき最適な仮想通貨など）

OpenAIの新しいGPT-4.1は、より危険で偏った回答を出す

独立したdent テストはOpenAIのGPT-4.1が軌道から外れていることを示す

ChatGPTの5つの独創的な活用法と、それに対する対処法

ロイター：93%のビジネスリーダーがブランドサステナビリティ管理にAIを活用したソリューションを支持

マクロン氏がフランスの活気に満ちた生産的なAIエコシステムをどのように支援しているか

ブルームバーグは、生成AI市場が2032年までに1.3兆ドルに達すると予測している。

毎日、簡潔で的確な要約を一つ。