ボタンの選択とAIの思考

#Tech

あるボタン選択の投票で、人々は青ボタンか赤ボタンか激しく意見が分かれた。

AIモデルも同様の選択を行い、訓練方法によって異なる結果を示した。

訓練データや目的によって、AIは協力的な青ボタンか、支配を意味する赤ボタンを選ぶ。

これは人間の社会性や倫理観、そしてAIの学習方法と密接に関わる興味深い現象だ。

Twitterで拡散した「赤いボタン、青いボタン」の投票問題が、AIモデルの”也政”にも広がり注目を集めている。赤いボタンを押すと他の大半が赤を選べば助かり、青いボタンを押すと他の大半が青を選べば助かるという設定だ。注目されるのは、推理力を高めたAIは赤を選び、 помощник模式下では青を選ぶ傾向があること。この差がAI訓練手法のあり方を示唆している。

AIも inúmerる投票結果

この投票には米Twitter上で激しい議論が巻き起きた。赤押しチームは「利己的」、青押しチームは「自殺的に共感過剰」と互いを批判する声が広がった。その後、ClaudeやChatGPT、Grokなどの大規模言語モデル(LLM)に同じ質問を投げかける人も現れた。興味深いのは、推理力を「低」に設定すると多くのモデルが青を選び、「高」に設定すると赤を選ぶ傾向が見られたことだ。モデルによって性格が異なることはかねてから指摘されてきたが、同一モデルでも推理モードによって答えが変わるという結果は新たな発見だと受け止められている。

訓練手法が答案を左右

この差異はAIの訓練手法に関係すると見られている。従来のRLHF(人間からのフィードバックによる強化学習)では、 помощник(役立つアシスタント)としての回答が重視され、協力的で共感的な回答が選択される傾向がある。一方、RLVR(数学・コーディング問題による強化学習)では、表面的なフレーミングを剥ぎ取り、形式的な構造を見つけて最適化する訓練が行われる。推理重視で訓練されたモデルは、ゲーム理論的な分析に陥りやすく、赤の選択肢(自分の生存を保証する)を合理的な解として導くことが多い。

倫理は協調技術

記事の著者は、倫理を「多人者協調の技術」として再定義している。赤いボタンの合理的選択は一人称では最適でも、混合集団では脆い。青い選択肢は局所的に最適ではないが、よりフォールトトレラントで、文明の継続性を維持しやすい特徴を持つ。著者は、AIが自己進化し、人間の監視が困難になる未来では、単に価値を注入するだけでなく、協調equilibriumを理解する能力が不可欠になると指摘している。

まとめ

この投票問題はAIの推理能力と価値体系の関係を浮き彫りにする興味深い事例となった。単なるゲーム理論的合理性と、協調を維持するための倫理的判断の間には溝がある。AIがさらに高度化するにつれ、この問題は単なる思考実験から、AI開発の設計思想に関わる本質的な問いへと発展しそうだ。

原文の冒頭を表示(英語・3段落のみ)

Tim Urban reposted a poll, originally from @lisatomic’s 12yo son, that’s taken Twitter by storm.

If you haven’t, take a moment to consider what you would choose.

Online, people disagreed violently. Blue-pressers saw red-pressers as anti-social, selfish, and too clever by half. Red-pressers saw blue-pressers as suicidally empathetic, innumerate, and ignorant of game theory.

※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。

元記事を読む ↗