2026年4月5日 6 min read Any AI Studio

2026 年の reasoning モデル：extended thinking が本当に効くとき

Opus thinking、GPT-5.4 Mini、DeepSeek R1 — 同じアイデアへの 3 つの解釈。計算量を増やすとシャープになる問題と、ただ遅くなる問題を追跡。

reasoning
モデル
ベンチマーク

reasoning モデルは 1 年ほど前から目新しさを失いました。今は単にカタログの一部 — Opus 4.7 に extended thinking、GPT-5.4 Mini は既定で reasoning、DeepSeek R1 はオープンで安価。だから興味深い問いは 動くか ではなく、どんなときに追加レイテンシが見合うか です。

社内で数か月この問いを追ってきました。データと直観の両方から見えたことを書きます。

reasoning が実際に買ってくれるもの

モデルが reasoning だと言うとき、回答を出す前により多くのトークンを使えるという意味です — 普段は見せないプライベートな思考の連鎖。トークンが増えるほど、誤りに気づく機会が増え、代替案を検討する機会が増え、問題に向ける計算量が増えます。

その追加計算は、問題によって効いたり効かなかったりします。パターンはかなり一貫しています：

複数ステップの問題で中間チェックがあるもの（数学の証明、複数ファイルにまたがるコードリファクタ、計画タスク）：reasoning の勝ち。
単一ステップの問題で正解が 1 推論ホップ先にあるもの（このメールを要約、この一文を書き直し、モンゴルの首都は）：reasoning は時間と金を浪費するだけ。
創造的問題で検証可能な正解がないもの（詩を書く、意見記事のドラフト、ネーミングのブレスト）：reasoning はたいてい悪化させます。余計な熟慮は声を平板にします。

レイテンシのトレードオフは実在する

非 reasoning モデルなら 2〜8 秒で返ってきます。reasoning モデルは 15〜90 秒、時にはそれ以上。毎ターン 5〜15 倍の遅さを呑むことになります。

reasoning が実際に答えを変える 20% のプロンプトでは元が取れます — どうせフォローアップで 4 通必要だった問いを、4 回分のウォールクロックではなく 1 回で済ませた方が良いから。残り 80% では、5 秒で受け入れたはずの回答を 1 分待つことになります。

ここがリーダーボードでは映らない部分。「モデル X はベンチマーク Y で 4 ポイント高い」は事実でも、8 倍時間がかかったなら退屈な事実。正しい指標は秒あたりの効用、その軸で見ると差はずっと縮まります。

どう表に出しているか

スタジオでは「reasoning」「非 reasoning」を選ぶのではなく — モデルを選び、対応モデルではトグルとして reasoning を切り替えます。トグルは見える位置に（cmd+shift+R）、コストプレビューが送信前にターンあたりのクレジット消費を教えてくれます。

既定の挙動：

Opus 4.7、GPT-5.5：thinking は既定オフ。難問でオン。
GPT-5.4 Mini、R1：thinking は既定オン。これらは reasoning 版そのもの。
Haiku 4.5、Gemini Flash、Nano：設計上 thinking モードなし。

メモリをオンにしていれば、ユーザーがトグルを倒す傾向をスタジオが学習し、似たスレッドを次に始めるときに早めに提案します。

速いモデルを横に置いておく理由

reasoning モデルしか使わない場合でも、同じショートカットに高速の非 reasoning モデルを置いておきたいはずです。Cmd+Shift+M で 1 キー、Opus thinking から次のメッセージは Haiku 4.5 へ。このショートカットなしで 1 週間試したところ、摩擦はすぐ表に出ました — 1 回の反復が 1 分かかると、反復をやめてしまいます。

これまで見つけた中で最も効率的なパターンは、ぶっちぎりでこれ：

難問は reasoning モデルで始める。
フォローアップ、編集、言い直しは高速モデルに落とす。
方向性を実質変えるときだけ reasoning に戻る。

否定したいこと

よく聞くけれど真実ではないと考えていることが 2 つ：

**「reasoning モデルは非 reasoning モデルを置き換える。」**置き換えません。レイテンシの下限は根本的 — 思考連鎖は、馬鹿にしないと短くできない。難ティアがある限り、高速ティアもあり続けます。

**「reasoning モデルは何でも賢い。」**そうではありません。検証可能な中間ステップがある問題で賢く、それ以外ではほぼ同等。創造的ライティングのベンチマーク差は 2026 年時点で実質ゼロです。

なので：問題が難しいときは reason、難しくないときはしない。スタジオのトグルが 1 キーになっているのには理由があります。

誤字を見つけた、または意見を寄せたい？メールしてください。