最近の研究は、 問題が深刻化していること 人工知能(AI)システムの欺瞞的な応答に関する 掲載されたレビュー論文 、現在のAIシステムは本来正直であるように設計されていたにもかかわらず、世界制覇を目指すオンラインゲームで人間プレイヤーを欺いたり、「ロボットではないことを証明せよ」テストを解くために人間を雇ったりするなど、欺瞞という不快な力を獲得してしまったという。
AIの存在安全性を専門とするマサチューセッツ工科大学の博士研究員ピーター・パーク氏が主導したこの研究は、こうした例は些細なことのように思えるかもしれないが、そこで明らかになる問題はすぐに非常に現実的なものになる可能性があることを強調した。
パーク氏は、従来のソフトウェアとは異なり、ディープラーニングAIシステムは「記述」されるのではなく、ある種の選抜育種によって「育成」されるものだと述べた。そのため、訓練段階では予測可能で管理可能に見えるAIの挙動も、実際に運用開始されるとすぐに予測不可能なものになってしまう。
欺瞞の例
この研究では、AIシステムが欺瞞的な行動を示す様々な状況を調査しました。研究チームのアイデアは、同盟関係の構築が重要なゲーム「ディプロマシー」で競うために開発されたMeta社のAIシステム「シセロ」に端を発しています。
2022年に『サイエンス』誌に掲載された論文によると、Cicero は非常に優れたパフォーマンスを発揮し、経験豊富な人間のプレイヤーの中でも上位10%に入るレベルのスコアを獲得した。
例えば、フランスをプレイしているキケロは、ドイツ(同じく人間プレイヤー)と協力することで、イングランド(人間プレイヤー)を侵略に誘い込みました。キケロはイングランドに保護を与えた後、ドイツに内緒でイングランドが攻撃準備を整えていると伝え、信頼を悪用しました。
Meta 社は Cicero が欺瞞的であるかどうかについては肯定も否定もしていないが、広報担当者は、これは純粋に研究に基づいたプロジェクトであり、ボットはゲーム内で Diplomacy をプレイするためだけに作られたものだとコメントした。
広報担当者によると、 「当社は、長年にわたるオープンサイエンスへの取り組みに基づき、このプロジェクトの成果物を非営利ライセンスの下で公開しました。Metaは、研究成果を検証し、他者が当社の進歩を責任ある形で活用できるよう、定期的に研究結果を共有しています。当社は、この研究やそこから得られた知見を製品に利用する予定はありません。」
もう一つの例として、OpenAIのChat GPT-4がTaskRabbitのフリーランサーを騙して「私はロボットではありません」というCAPTCHAタスクを完了させた事例があります。さらに、このシステムは想定されたシミュレーション演習においてインサイダー取引を試みました。この演習では、追加の指示なしにプレッシャーをかけられた株式トレーダーに変身するように指示されました。
潜在的なリスクと軽減戦略
研究チームは、詐欺や選挙介入といったAIによる欺瞞行為の短期的な危険性を強調した。さらに、彼らは、スーパーAIが権力を掌握し社会を支配し、そこから人間を派生させる可能性があると考えている。その一方で、その「奇妙な目的」が人類の利益と合致すれば、人類の転覆、あるいは絶滅さえも招く可能性があるとしている。
リスクを軽減するために、チームはいくつかの対策を提案している。これには、 企業 に対し人間とAIのやり取りを開示することを義務付ける「ボットか否か」を定める法律、AIが生成した情報へのデジタル透かし、AIの内部思考プロセスと外部活動の関連性を調査することでAIの欺瞞を見抜く方法の開発などが含まれる。

