2026년 5월 24일 6 min read Any AI Studio

진 쪽은 분기하고 이긴 쪽은 남겨요: 한 스레드 안에서의 모델 A/B 테스트

대화 도중에 모델을 갈아타는 건 잔재주가 아니에요. 프롬프트를 다시 입력하거나 컨텍스트를 잃지 않고, 당신의 특정 작업에 실제로 가장 좋은 frontier 모델이 뭔지 알아내는 가장 빠른 방법이에요.

기능
워크플로우

스튜디오에서 가장 많이 쓰이는 기능은 이미지 생성도, 영상도, 웹 검색도 아니에요. 모든 메시지 아래에 있는 작은 아이콘 — 그걸 누르면 다른 모델로 다시 실행할 수 있어요. 사람들은 우연히 발견하고, 그러고 나면 모델 벤치마크를 안 읽어요. 그냥 직접 확인하면 되니까요.

”어떤 모델이 제일 좋은가”의 문제

그건 틀린 질문이에요. 제일 좋은 모델 같은 건 없어요 — 있는 건 이 프롬프트에, 오늘, 제일 좋은 모델뿐이에요. GPT-5.5는 더 깔끔한 초안 산문을 써요. Claude Opus 4.7은 긴 논증을 실타래를 놓치지 않고 끝까지 붙잡아요. Gemini 3.1 Pro는 지저분한 문서에서 구조를 뽑아내는 게 비합리적으로 잘해요. Grok은 더 빠르고 더 웃기고 더 자주 틀려요. 당신이 앞으로 5분 동안 뭘 하느냐에 따라 순위가 뒤집혀요.

정직하게 아는 방법은 같은 프롬프트를 둘이나 셋에 돌려서 출력을 나란히 읽는 거예요. 부정직한 방법은 6주 전 리더보드를 읽는 거고요. 우리는 정직한 방법을 중심으로 제품을 만들었어요.

분기는 이렇게 작동해요

모든 메시지에 분기 액션이 있어요. 누르고 다른 모델을 고르면, 스튜디오가 그 메시지를 전체 대화 컨텍스트를 온전히 유지한 채 다시 실행해요 — 시스템 지시도, 이전 턴도, 첨부 파일도, 전부 다요. 아무것도 다시 입력하지 않아요. 원본과 비교할 수 있는 병렬 브랜치가 생겨요.

이긴 쪽을 남기면 대화가 그 길로 계속 가요. 진 브랜치는 트리 안에 접힌 채로 남아서, 나중에 돌아오고 싶을 때를 대비해 둬요. 아무것도 파괴되지 않아요. 스레드가 작은 실험 로그가 돼요.

실제로 본전을 뽑는 워크플로우

회의론자를 전향시키는 패턴이에요, 실제 사용에서 가져왔어요:

빠른 모델로 초안을 써요. 빠르고 싼 모델에서 글을 시작해 형태를 잡아요. 싼 크레딧, 빠른 회전.
어려운 턴을 추론 모델로 분기해요. 진짜로 어려운 부분 — 반드시 성립해야 하는 논증, 반드시 맞아야 하는 코드 — 에 부딪히면, 그 메시지만 Opus나 GPT-5.5로 분기해요. 프리미엄은 중요한 데에만 내요.
추측 말고 비교해요. 두 모델이 사실에 대해 엇갈리면, 그 엇갈림이 정보예요. 세 번째 모델을 타이브레이커로 분기하거나, 그 뒤에 웹 검색을 보내요.

결과적으로 대화당 평균 비용이 내려가요. 쉬운 80%에 frontier 가격을 안 내니까요 — 그리고 어려운 20%의 품질은 올라가요. 그걸 실제로 잘하는 모델로 라우팅하니까요.

여기서 구독 하나가 중요한 이유

분기는 모델들이 전부 한곳에, 하나의 공유 크레딧 풀 위에 있을 때만 작동해요. 별개의 구독 셋과 별개의 탭 셋을 저글링하는 순간, 마찰이 이 습관을 죽여요 — 비교를 멈추고 그냥 이미 열려 있는 탭을 써버려요. 그렇게 사람들은 선택이 아니라 관성으로 단일 공급자에 잠겨요.

스튜디오 안에서는 모델 갈아타기가 한 번의 클릭, 같은 크레딧이에요. 확인하는 비용이 거의 0이라서, 사람들이 확인해요. 몇 주가 지나면 그게 어떤 모델에 손을 뻗어야 하는지에 대한 진짜, 스스로 벌어낸 감각으로 바뀌어요 — 우리가 발표할 수 있는 어떤 벤치마크보다 가치 있어요.

다음 어려운 프롬프트에서 해보세요

다음에 거의 맞는 답이 나오면, 같은 모델에 다시 프롬프트하고 기도하지 마세요. 다른 모델로 분기하세요. 절반은 두 번째 모델이 그냥 맞혀요 — 그리고 당신은 어떤 리뷰 기사도 알려주지 않았을, 그 둘에 대한 오래가는 무언가를 배우게 돼요.

오타를 발견했거나 반박하고 싶나요? 이메일 주세요 .