本文へスキップ
← 記事一覧
6 min read Any AI Studio

負けを分岐し、勝者を残す:1 つのスレッドの中でモデル A/B テスト

会話の途中でモデルを切り替えるのは小手先の技ではありません。プロンプトを打ち直すこともコンテキストを失うこともなく、あなたの特定タスクで本当に最良の frontier モデルはどれかを見つける、最速の方法です。

  • 機能
  • ワークフロー

スタジオで最もよく使われる機能は、画像生成でも動画でも Web 検索でもありません。あらゆるメッセージの下にある小さなアイコン — それを押すと、別のモデルで再実行できる、あれです。みんな偶然見つけて、それからモデルのベンチマークを読むのをやめます。だって、自分で確かめられるのですから。

「どのモデルが最良か」の問題

それは問いが間違っています。最良のモデルなど存在しません — あるのは、このプロンプトに、今日、 最良のモデルだけです。GPT-5.5 はより整った初稿を書きます。Claude Opus 4.7 は長い論証を、筋を見失わずにまとめ切ります。Gemini 3.1 Pro は散らかったドキュメントから構造を抜き出すのが理不尽なほど得意です。Grok は速くて面白く、そして間違える頻度も高い。あなたがこの先 5 分で何をするかによって、順位はひっくり返ります。

正直に知る方法は、同じプロンプトを 2 つか 3 つに通して、出力を横並びで読むこと。不正直な方法は、6 週間前のリーダーボードを読むこと。私たちは正直な方法を中心にプロダクトを作りました。

分岐の仕組み

あらゆるメッセージに分岐アクションがあります。押して、別のモデルを選ぶと、スタジオは会話のコンテキストを丸ごと保ったまま そのメッセージ を再実行します — システム指示も、これまでのターンも、添付ファイルも、すべて。何も打ち直しません。元の応答と比べられる並行ブランチが手に入ります。

勝者を残せば、会話はその道を進みます。負けたブランチはツリーの中に折りたたまれて残るので、あとで戻りたくなったときのために取っておけます。何も破棄されません。スレッドは小さな実験ログになります。

実際に元が取れるワークフロー

懐疑派を転向させるパターンを、実際の使い方から引いてきました:

  • 速いモデルで下書きする。 まず速くて安いモデルで書き始めて、形を作ります。安いクレジット、速い回転。
  • 難しいターンを推論モデルに分岐する。 本当に難しい部分 — 通らねばならない論証、正しくなければならないコード — に当たったら、そのメッセージだけ を Opus や GPT-5.5 に分岐します。プレミアムは効くところだけに払います。
  • 当てずっぽうではなく、比べる。 2 つのモデルが事実について食い違ったら、その食い違いが情報です。3 つ目のモデルをタイブレーカーとして分岐するか、その後に Web 検索を送ります。

結果として、会話あたりの平均コストは下がります。簡単な 80% に frontier 価格を払わなくて済むからです — そして難しい 20% の品質は上がります。それを本当に得意なモデルに振り分けるからです。

ここで「1 つのサブスクリプション」が効く理由

分岐が成り立つのは、すべてのモデルが 1 か所に、共有のクレジットプール上にあるときだけです。別々のサブスクを 3 つ、別々のタブを 3 つ抱えた瞬間、摩擦がこの習慣を殺します — 比べるのをやめて、すでに開いているタブを使うだけになる。こうして人は、選択ではなく惰性で単一プロバイダーに固定されていきます。

スタジオの中では、モデルの切り替えはワンクリック、同じクレジット。確かめるコストはほぼゼロなので、人は確かめます。数週間のうちに、それはどのモデルに手を伸ばすべきかという、本物の、自分で勝ち取った感覚に変わります — それは私たちが公表できるどんなベンチマークより価値があります。

次の難しいプロンプトで試す

次に 惜しい 答えが返ってきたら、同じモデルに打ち直して祈るのはやめましょう。別のモデルに分岐してください。半分の確率で 2 つ目のモデルがすんなり当てます — そしてあなたは、どんなレビュー記事も教えてくれなかった、その 2 つについての確かな知見を手に入れているでしょう。


誤字を見つけた、または意見を寄せたい? メールしてください

記事の裏側にあるプロダクトを試す。
スタジオ.

無料プラン。カード不要。Google か Apple でサインイン。