24. Mai 2026 3 min read Any AI Studio

Verzweige den Verlierer, behalte den Gewinner: Modell-A/B in einem Thread

Mitten im Gespräch das Modell zu wechseln ist keine Spielerei. Es ist der schnellste Weg herauszufinden, welches Frontier-Modell bei deiner konkreten Aufgabe wirklich am besten ist — ohne den Prompt neu zu tippen oder den Kontext zu verlieren.

Features
Workflow

Das meistgenutzte Feature im Studio ist nicht Bildgenerierung oder Video oder Websuche. Es ist das kleine Icon unter jeder Nachricht, mit dem du sie auf einem anderen Modell neu laufen lässt. Leute entdecken es aus Versehen, und dann hören sie auf, Modell-Benchmarks zu lesen, weil sie es einfach selbst prüfen können.

Das Problem mit „welches Modell ist das beste”

Es ist die falsche Frage. Es gibt kein bestes Modell — es gibt ein bestes Modell für diesen Prompt, heute. GPT-5.5 schreibt sauberere Erstentwürfe. Claude Opus 4.7 hält eine lange Argumentation zusammen, ohne den Faden zu verlieren. Gemini 3.1 Pro ist unverschämt gut darin, Struktur aus einem chaotischen Dokument zu ziehen. Grok ist schneller und witziger und öfter falsch. Das Ranking kippt, je nachdem, was du in den nächsten fünf Minuten tust.

Der ehrliche Weg, es zu wissen, ist, denselben Prompt durch zwei oder drei von ihnen zu schicken und die Ausgaben nebeneinander zu lesen. Der unehrliche Weg ist, ein Leaderboard von vor sechs Wochen zu lesen. Wir haben das Produkt um den ehrlichen Weg herum gebaut.

Wie Verzweigen funktioniert

Jede Nachricht hat eine Verzweigungs-Aktion. Tipp sie an, wähl ein anderes Modell, und das Studio lässt diese Nachricht mit dem vollen Konversationskontext neu laufen — System-Anweisungen, vorherige Turns, angehängte Dateien, alles. Du tippst nichts neu. Du bekommst einen parallelen Branch, den du gegen das Original vergleichen kannst.

Behalt den Gewinner, und das Gespräch geht diesen Pfad weiter. Die Verlierer-Branches bleiben im Baum, eingeklappt, falls du zurückkommen willst. Nichts wird zerstört; der Thread wird zu einem kleinen Experiment-Log.

Ein Workflow, der sich wirklich auszahlt

Hier ist das Muster, das Skeptiker überzeugt, aus echter Nutzung abgeleitet:

Entwirf auf einem schnellen Modell. Beginn ein Stück Text auf einem schnellen, günstigen Modell, um die Form hinzubekommen. Günstige Credits, schnelle Durchläufe.
Verzweige den schweren Turn zu einem Reasoning-Modell. Wenn du an den Teil kommst, der wirklich schwierig ist — die Argumentation, die halten muss, der Code, der korrekt sein muss — verzweige nur diese Nachricht zu Opus oder GPT-5.5. Du zahlst den Aufpreis nur dort, wo es zählt.
Vergleiche, rate nicht. Wenn zwei Modelle bei etwas Faktischem uneins sind, ist diese Uneinigkeit eine Information. Verzweige ein drittes Modell als Stichentscheid, oder schick danach die Websuche los.

Das Ergebnis ist, dass deine durchschnittlichen Kosten pro Konversation sinken, weil du keine Frontier-Preise für die einfachen 80 % zahlst — und deine Qualität bei den schweren 20 % steigt, weil du sie zu dem Modell routest, das darin tatsächlich gut ist.

Warum ein Abo hier wichtig ist

Verzweigen funktioniert nur, wenn die Modelle alle an einem Ort sind, in einem gemeinsamen Credit-Pool. In dem Moment, in dem du drei separate Abos und drei separate Tabs jonglierst, killt die Reibung die Gewohnheit — du hörst auf zu vergleichen und nimmst einfach den Tab, der schon offen ist. So landest du durch Trägheit statt durch Wahl in der Abhängigkeit von einem einzigen Anbieter.

Innerhalb des Studios ist Modellwechseln ein Klick und dieselben Credits. Die Kosten des Prüfens sind nahe null, also prüfen Leute. Über ein paar Wochen wird daraus ein echtes, erarbeitetes Gespür dafür, zu welchem Modell man greifen sollte — was mehr wert ist als jeder Benchmark, den wir veröffentlichen könnten.

Probier es bei deinem nächsten schweren Prompt

Wenn du das nächste Mal eine Antwort bekommst, die fast richtig ist, prompte nicht dasselbe Modell erneut und hoff. Verzweige es zu einem anderen. In der Hälfte der Fälle kriegt es das zweite Modell einfach hin — und du wirst etwas Dauerhaftes über die beiden gelernt haben, das dir kein Testbericht verraten hätte.

Tippfehler entdeckt oder anderer Meinung? Schreib uns .