진 쪽은 분기하고 이긴 쪽은 남겨요: 한 스레드 안에서의 모델 A/B 테스트
대화 도중에 모델을 갈아타는 건 잔재주가 아니에요. 프롬프트를 다시 입력하거나 컨텍스트를 잃지 않고, 당신의 특정 작업에 실제로 가장 좋은 frontier 모델이 뭔지 알아내는 가장 빠른 방법이에요.
- 기능
- 워크플로우
스튜디오에서 가장 많이 쓰이는 기능은 이미지 생성도, 영상도, 웹 검색도 아니에요. 모든 메시지 아래에 있는 작은 아이콘 — 그걸 누르면 다른 모델로 다시 실행할 수 있어요. 사람들은 우연히 발견하고, 그러고 나면 모델 벤치마크를 안 읽어요. 그냥 직접 확인하면 되니까요.
”어떤 모델이 제일 좋은가”의 문제
그건 틀린 질문이에요. 제일 좋은 모델 같은 건 없어요 — 있는 건 이 프롬프트에, 오늘, 제일 좋은 모델뿐이에요. GPT-5.5는 더 깔끔한 초안 산문을 써요. Claude Opus 4.7은 긴 논증을 실타래를 놓치지 않고 끝까지 붙잡아요. Gemini 3.1 Pro는 지저분한 문서에서 구조를 뽑아내는 게 비합리적으로 잘해요. Grok은 더 빠르고 더 웃기고 더 자주 틀려요. 당신이 앞으로 5분 동안 뭘 하느냐에 따라 순위가 뒤집혀요.
정직하게 아는 방법은 같은 프롬프트를 둘이나 셋에 돌려서 출력을 나란히 읽는 거예요. 부정직한 방법은 6주 전 리더보드를 읽는 거고요. 우리는 정직한 방법을 중심으로 제품을 만들었어요.
분기는 이렇게 작동해요
모든 메시지에 분기 액션이 있어요. 누르고 다른 모델을 고르면, 스튜디오가 그 메시지를 전체 대화 컨텍스트를 온전히 유지한 채 다시 실행해요 — 시스템 지시도, 이전 턴도, 첨부 파일도, 전부 다요. 아무것도 다시 입력하지 않아요. 원본과 비교할 수 있는 병렬 브랜치가 생겨요.
이긴 쪽을 남기면 대화가 그 길로 계속 가요. 진 브랜치는 트리 안에 접힌 채로 남아서, 나중에 돌아오고 싶을 때를 대비해 둬요. 아무것도 파괴되지 않아요. 스레드가 작은 실험 로그가 돼요.
실제로 본전을 뽑는 워크플로우
회의론자를 전향시키는 패턴이에요, 실제 사용에서 가져왔어요:
- 빠른 모델로 초안을 써요. 빠르고 싼 모델에서 글을 시작해 형태를 잡아요. 싼 크레딧, 빠른 회전.
- 어려운 턴을 추론 모델로 분기해요. 진짜로 어려운 부분 — 반드시 성립해야 하는 논증, 반드시 맞아야 하는 코드 — 에 부딪히면, 그 메시지만 Opus나 GPT-5.5로 분기해요. 프리미엄은 중요한 데에만 내요.
- 추측 말고 비교해요. 두 모델이 사실에 대해 엇갈리면, 그 엇갈림이 정보예요. 세 번째 모델을 타이브레이커로 분기하거나, 그 뒤에 웹 검색을 보내요.
결과적으로 대화당 평균 비용이 내려가요. 쉬운 80%에 frontier 가격을 안 내니까요 — 그리고 어려운 20%의 품질은 올라가요. 그걸 실제로 잘하는 모델로 라우팅하니까요.
여기서 구독 하나가 중요한 이유
분기는 모델들이 전부 한곳에, 하나의 공유 크레딧 풀 위에 있을 때만 작동해요. 별개의 구독 셋과 별개의 탭 셋을 저글링하는 순간, 마찰이 이 습관을 죽여요 — 비교를 멈추고 그냥 이미 열려 있는 탭을 써버려요. 그렇게 사람들은 선택이 아니라 관성으로 단일 공급자에 잠겨요.
스튜디오 안에서는 모델 갈아타기가 한 번의 클릭, 같은 크레딧이에요. 확인하는 비용이 거의 0이라서, 사람들이 확인해요. 몇 주가 지나면 그게 어떤 모델에 손을 뻗어야 하는지에 대한 진짜, 스스로 벌어낸 감각으로 바뀌어요 — 우리가 발표할 수 있는 어떤 벤치마크보다 가치 있어요.
다음 어려운 프롬프트에서 해보세요
다음에 거의 맞는 답이 나오면, 같은 모델에 다시 프롬프트하고 기도하지 마세요. 다른 모델로 분기하세요. 절반은 두 번째 모델이 그냥 맞혀요 — 그리고 당신은 어떤 리뷰 기사도 알려주지 않았을, 그 둘에 대한 오래가는 무언가를 배우게 돼요.
오타를 발견했거나 반박하고 싶나요? 이메일 주세요 .