GPT 5.5モデルカード:よりエージェント化された性能とプロンプトの簡素化
OpenAIのGPT 5.5は、GPT 5.4と比較して、目標達成能力、ツール利用、制約遵守、そして結果の出力において改善されています。
よりインタラクティブで、指示しやすく、プロセスの詳細な記述を必要としません。
特に、期待する結果と検証方法を指示し、モデル自身に処理方法を選択させることで最高のパフォーマンスを発揮します。
内部評価では、GPT 5.5はソフトウェアエンジニアリングのタスクで高い性能を示し、Terminal-Benchでは大幅な改善が見られます。
しかし、トークン単価が2倍に上昇しており、コスト効率は必ずしも向上していません。
ユーザーは、詳細な手順を記述するのではなく、目的と制約を明確にすることで、より効果的なプロンプトを作成できます。
OpenAIが最新モデル「GPT-5.5」のモデルカードを公開しました。このモデルは、前世代のGPT-5.4と比較して、タスク遂行能力や操作性が大幅に向上していると説明されています。特にエージェント的な振る舞いが強化された点が注目されています。
タスク遂行能力の飛躍的向上
GPT-5.5は、具体的な目標設定やツールの利用、制約の維持といった点で、GPT-5.4よりも優れた性能を発揮するとされています。内部評価では、GPT-5.5 xhighが102タスクのSWE評価で55パスを達成し、品質面でトップクラスの性能を示しました。また、Terminal-Benchなどの外部ベンチマークでも、GPT-5.5 mediumはGPT-5.4から大幅な性能向上を見せています。
プロンプト設計のパラダイムシフト
GPT-5.5の最大の変化は、プロンプトの書き方にあるとされています。従来のGPT-5.4では、ステップバイステップの指示(「まず検査し、次に計画を立てる」など)が必要でしたが、GPT-5.5では、プロセスではなく「最終的なアウトカム(成果)」に焦点を当てた指示が有効です。ユーザーは、成果、成功の定義、制約、検証方法を明確に伝えるだけで良いと説明されています。
コスト効率と利用上の注意点
一方で、GPT-5.5のトークン単価はGPT-5.4の約2倍となっており、コスト面での優位性は必ずしも明確ではありません。内部評価では、同程度の品質を達成するGPT-5.5 mediumは、GPT-5.4 highよりも約39%高価でした。また、特定の顧客に対してはデータ保持ポリシーの例外が適用される可能性がある点も注意が必要です。
まとめ
GPT-5.5は、より洗練されたエージェントとして機能しますが、その真価を引き出すには、プロンプトを「プロセス指示」から「成果定義」へと変革させる必要があります。コストと性能のバランスを考慮し、用途に応じた適切なモデル選択が求められます。
原文の冒頭を表示(英語・3段落のみ)
Pros
GPT-5.5 is more agent-shaped than GPT-5.4. It is better at taking a concrete target, using tools, staying inside constraints, and carrying the task through to a usable result. It is more interactive. It is easier to steer. It needs less process scaffolding. The model is at its best when we tell it what outcome we want and how to verify the result, then let it choose the path.
Capability. GPT-5.5 has the best ceiling we tested. On our internal 102-task SWE eval, GPT 5.5 xhigh is the quality leader: 55 passes, 0.598 normalized pass-rate, and 0.588 mean reward. GPT 5.5 medium is also roughly comparable to GPT 5.4 high: 54 passes versus 53. On Terminal-Bench, the jump is much clearer: GPT-5.5 medium moves from ~65.2% on GPT-5.4 to ~79.8%, and GPT-5.5 xhigh moves from ~74.7% to ~82.0%. OpenAI’s public evals show the same direction: GPT-5.5 improves over GPT-5.4 on Terminal-Bench 2.0, Expert-SWE, GDPval, OSWorld-Verified, MCP Atlas, and Tau2-bench Telecom.
※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。