2026 年の reasoning モデル:extended thinking が本当に効くとき
Opus thinking、GPT-5.4 Mini、DeepSeek R1 — 同じアイデアへの 3 つの解釈。計算量を増やすとシャープになる問題と、ただ遅くなる問題を追跡。
- reasoning
- モデル
- ベンチマーク
reasoning モデルは 1 年ほど前から目新しさを失いました。今は単にカタログの一部 — Opus 4.7 に extended thinking、GPT-5.4 Mini は既定で reasoning、DeepSeek R1 はオープンで安価。だから興味深い問いは 動くか ではなく、どんなときに追加レイテンシが見合うか です。
社内で数か月この問いを追ってきました。データと直観の両方から見えたことを書きます。
reasoning が実際に買ってくれるもの
モデルが reasoning だと言うとき、回答を出す 前 により多くのトークンを使えるという意味です — 普段は見せないプライベートな思考の連鎖。トークンが増えるほど、誤りに気づく機会が増え、代替案を検討する機会が増え、問題に向ける計算量が増えます。
その追加計算は、問題によって効いたり効かなかったりします。パターンはかなり一貫しています:
- 複数ステップの問題で中間チェックがあるもの(数学の証明、複数ファイルにまたがるコードリファクタ、計画タスク):reasoning の勝ち。
- 単一ステップの問題で正解が 1 推論ホップ先にあるもの(このメールを要約、この一文を書き直し、モンゴルの首都は):reasoning は時間と金を浪費するだけ。
- 創造的問題で検証可能な正解がないもの(詩を書く、意見記事のドラフト、ネーミングのブレスト):reasoning はたいてい悪化させます。余計な熟慮は声を平板にします。
レイテンシのトレードオフは実在する
非 reasoning モデルなら 2〜8 秒で返ってきます。reasoning モデルは 15〜90 秒、時にはそれ以上。毎ターン 5〜15 倍の遅さを呑むことになります。
reasoning が実際に答えを変える 20% のプロンプトでは元が取れます — どうせフォローアップで 4 通必要だった問いを、4 回分のウォールクロックではなく 1 回で済ませた方が良いから。残り 80% では、5 秒で受け入れたはずの回答を 1 分待つことになります。
ここがリーダーボードでは映らない部分。「モデル X はベンチマーク Y で 4 ポイント高い」は事実でも、8 倍時間がかかったなら退屈な事実。正しい指標は秒あたりの効用、その軸で見ると差はずっと縮まります。
どう表に出しているか
スタジオでは「reasoning」「非 reasoning」を選ぶのではなく — モデルを選び、対応モデルではトグルとして reasoning を切り替えます。トグルは見える位置に(cmd+shift+R)、コストプレビューが送信 前 にターンあたりのクレジット消費を教えてくれます。
既定の挙動:
- Opus 4.7、GPT-5.5:thinking は既定オフ。難問でオン。
- GPT-5.4 Mini、R1:thinking は既定オン。これらは reasoning 版そのもの。
- Haiku 4.5、Gemini Flash、Nano:設計上 thinking モードなし。
メモリをオンにしていれば、ユーザーがトグルを倒す傾向をスタジオが学習し、似たスレッドを次に始めるときに早めに提案します。
速いモデルを横に置いておく理由
reasoning モデルしか使わない場合でも、同じショートカットに高速の非 reasoning モデルを置いておきたいはずです。Cmd+Shift+M で 1 キー、Opus thinking から次のメッセージは Haiku 4.5 へ。このショートカットなしで 1 週間試したところ、摩擦はすぐ表に出ました — 1 回の反復が 1 分かかると、反復をやめてしまいます。
これまで見つけた中で最も効率的なパターンは、ぶっちぎりでこれ:
- 難問は reasoning モデルで始める。
- フォローアップ、編集、言い直しは高速モデルに落とす。
- 方向性を実質変えるときだけ reasoning に戻る。
否定したいこと
よく聞くけれど真実ではないと考えていることが 2 つ:
**「reasoning モデルは非 reasoning モデルを置き換える。」**置き換えません。レイテンシの下限は根本的 — 思考連鎖は、馬鹿にしないと短くできない。難ティアがある限り、高速ティアもあり続けます。
**「reasoning モデルは何でも賢い。」**そうではありません。検証可能な中間ステップがある問題で賢く、それ以外ではほぼ同等。創造的ライティングのベンチマーク差は 2026 年時点で実質ゼロです。
なので:問題が難しいときは reason、難しくないときはしない。スタジオのトグルが 1 キーになっているのには理由があります。
誤字を見つけた、または意見を寄せたい? メールしてください 。