STAX - 구글이 내놓은 LLM 평가 플랫폼

오늘은 최근 구글에서 공개한 STAX라는 LLM 평가 플랫폼에 대해 알아보려 한다.

LLM을 프로덕션에 적용하려는 개발자라면 모델 평가가 얼마나 골치 아픈 문제인지 알 것이다.
나도 처음에는 "그냥 써보고 괜찮으면 되는 거 아냐?"라고 생각했는데, 막상 실제 서비스에 적용하려니 "이게 정말 잘 작동하는 건가?"라는 의문도 들고 하루에도 몇십 개씩 모델이 나오기 때문에 평가가 필수적이었다.

구글은 이런 문제를 "Vibe Testing(감각적 판단)"이라고 부르며, STAX를 통해 이를 해결하겠다고 나섰다. 과연 어떤 플랫폼인지 한번 파헤쳐보자!

STAX가 뭐길래?

STAX는 구글이 만든 LLM 평가 전문 플랫폼이다. 공식 슬로건이 꽤 인상적인데, "Stop chasing generic benchmarks. Start building for your users"라고 한다. 번역하자면 "일반적인 벤치마크 쫓아다니지 말고, 너네 유저를 위한 평가를 해라"는 뜻이다.

쉽게 말해, MMLU나 HumanEval 같은 일반 벤치마크는 모델의 전반적인 성능은 알려주지만, 내 서비스에 필요한 특정 능력(예: 의료 안전성, 법률 준수 등)은 측정하기 어렵다는 것이다. STAX는 바로 이 지점을 공략한다.

핵심 특징

STAX의 핵심은 딱 3가지다!!

빠른 평가, 빠른 배포: 수동 테스트를 자동화된 평가로 대체해서 개발 속도를 높인다
의미 있는 측정: 일반 벤치마크가 아니라 내 제품, 내 유저에 맞춘 맞춤형 메트릭으로 평가
데이터 기반 의사결정: 감으로 하는 게 아니라 정확한 수치와 성능 지표로 출시 준비 상태를 파악

기존 LLM 평가의 문제점

기존에 LLM을 평가하려면 어떻게 했을까? 크게 3가지 방법이 있었다.

1. "Vibe Testing" (감각적 판단)

말 그대로 "이거 좋은 것 같은데?" 하는 느낌으로 판단하는 것이다. 나도 처음에는 이렇게 했는데, 문제는 재현성이 없다는 거다. 오늘은 좋아 보이는데 내일 보면 별로고, 사람마다 판단이 다르다.

2. Generic Benchmarks (일반 벤치마크)

MMLU, HumanEval 같은 리더보드 벤치마크는 분명 유용하다. 하지만 이건 모델의 전반적인 능력을 측정할 뿐이다. 내가 만드는 의료 챗봇이 정말 안전한지, 법률 상담 봇이 규정을 준수하는지는 알 수 없다.

3. Human Raters (사람 평가자)

사람이 직접 평가하는 게 가장 정확하긴 한데, 문제는 느리고, 비싸고, 일관성 유지가 어렵다는 것이다. 평가자마다 기준이 다를 수 있고, 대량 평가는 사실상 불가능하다.

LLM은 왜 기존 테스트가 안 통할까?

일반적인 소프트웨어는 단위 테스트(Unit Test)가 잘 먹힌다. 같은 입력에 같은 출력이 나오니까. 그런데 LLM은 비결정적(Non-deterministic)이다. 같은 질문을 해도 매번 다른 답이 나올 수 있다. 그래서 기존 테스트 방식이 먹히질 않는다.

STAX가 제공하는 솔루션

STAX는 이런 문제들을 어떻게 해결할까? 크게 3단계 플라이휠(Flywheel)로 작동한다.

1. Experiment (실험)

모델, 프롬프트, AI 오케스트레이션을 빠르게 비교한다. 여러 모델을 한 번에 테스트해 보고 어떤 게 더 나은지 비교할 수 있다.

STAX는 현재 다양한 모델 프로바이더를 지원한다:

OpenAI (GPT 시리즈)
Anthropic (Claude)
Mistral
Grok
DeepSeek
Google (Gemini)
Custom 엔드포인트도 가능!

2. Evaluate (평가)

여기가 핵심이다!! STAX는 3가지 타입의 평가자(Evaluator)를 제공한다.

(1) Heuristic/Code-based (규칙 기반)

간단한 룰 기반 체크다. 예를 들어:

응답 길이가 100자 이하인가?
특정 키워드가 포함되어 있는가?
JSON 형식이 올바른가?

객관적이고 명확한 기준이 있을 때 유용하지만, 창의성이나 톤 같은 주관적 요소는 측정하기 어렵다.

(2) LLM-as-a-Judge (자동 평가)

이게 진짜 혁신적인 부분이다! 강력한 LLM(예: Gemini)이 다른 모델의 출력을 "채점"하는 방식이다.

예를 들어:

"이 답변이 친절한가?"
"사실에 부합하는가?"
"적절한 톤으로 작성되었는가?"

STAX는 미리 만들어진 평가자를 제공하면서도, 커스텀 평가 기준을 만들 수 있게 해 준다. 구글에 따르면 요즘 LLM 자동 평가자는 사람 수준에 근접했다고 한다. 빠르고, 확장 가능하고, 비용도 저렴하다!

(3) Human Raters (사람 평가)

자동 평가가 아무리 좋아도, 사람의 검증은 여전히 중요하다. STAX는 사람 평가자를 플랫폼에 통합해서 calibration(보정)과 validation(검증)에 활용할 수 있게 했다.

3. Analyze (분석)

평가 결과를 시각적으로 추적하고 집계해 준다. "시간에 따른 성능 변화"를 볼 수 있어서, 모델이나 프롬프트를 업데이트했을 때 실제로 개선되었는지 명확히 알 수 있다.

데이터셋 관리

STAX는 평가를 위한 데이터셋 관리 기능도 제공한다. 크게 3가지 방법으로 데이터셋을 만들 수 있다:

기존 데이터 업로드: 이미 가지고 있는 프로덕션 데이터를 가져올 수 있음
직접 생성: 플랫폼 내에서 새로 만들기
LLM으로 합성 데이터 생성: 모델을 활용해서 synthetic dataset을 자동 생성!

사람 평가와 자동 평가를 조합해서 벤치마크를 구축할 수 있다는 점도 매력적이다.

데이터 프라이버시는?

많은 사람들이 궁금해할 부분인데, 구글은 명확히 밝혔다:

"Google will neither own user data (including prompts, custom datasets, or evaluators) nor use it to train its language models."

즉, 내가 STAX에 올린 데이터를 구글이 가져가지도 않고, 모델 학습에 쓰지도 않는다는 것이다. 안심하고 써도 될 것 같다.

가격은?

현재 베타 기간 동안은 무료다! 다만 구글은 베타 이후 가격 정책을 도입할 수 있다고 밝혔다. 지금이 써볼 기회인 셈이다.

접근 방법은 간단하다. stax.withgoogle.com에 구글 계정으로 로그인하면 된다. Discord 커뮤니티 지원과 상세 문서도 제공한다고 한다.

요약

STAX의 진짜 가치를 이해하려면 기존 방식과 비교해봐야 한다.

기존 방식의 한계

방식	장점	단점
Vibe Testing	빠르고 간단	주관적, 재현 불가, 데이터 없음
Generic Benchmarks	객관적, 비교 용이	도메인 특화 요구사항 측정 불가
Human Raters	가장 정확	느림, 비쌈, 일관성 유지 어려움

STAX의 차별점

맞춤형 평가: Fluency, Factuality, Safety 등 내 서비스에 필요한 기준으로 평가
자동화 + 사람: LLM-as-a-Judge로 확장 가능하면서도 사람 검증 가능
멀티 메트릭, 멀티 데이터셋: 한 번에 여러 측면을 평가해서 종합적인 성능 파악
반복 가능한 파이프라인: "감"이 아니라 구조화된, 엔지니어링 된 평가

쉽게 말해, ad-hoc(임시방편)에서 시스템적인 평가로 전환하는 거다.

실제로 써볼 만한가?

솔직히 말해서, 아직 베타 단계라 실제 프로덕션에서 얼마나 효율적인지는 더 지켜봐야 할 것 같다. 다만 구글 DeepMind와 Google Labs의 평가 전문성을 녹여냈다는 점에서 기대는 된다.

특히 다음과 같은 상황이라면 써볼 만하다:

도메인 특화 LLM 서비스를 만들고 있다면 (의료, 법률, 금융 등)
여러 모델/프롬프트를 비교해야 하는 상황
평가 기준을 명확히 정의하고 싶다면
시간에 따른 성능 변화를 추적하고 싶다면

반대로, 단순히 "한 번 써보고 괜찮으면 되는" 정도의 간단한 프로젝트라면 오버킬일 수도 있다.

마무리하며

STAX는 LLM 평가의 패러다임을 바꾸려는 구글의 야심작이다. "Vibe Testing"에서 벗어나 데이터 기반의 체계적인 평가를 가능하게 해 준다는 점에서 의미가 크다.

현재 베타라서 무료로 써볼 수 있으니, LLM 프로젝트를 진행 중이라면 한번 테스트해 보는 걸 추천한다. 나도 조만간 실제 프로젝트에 적용해 보고, 경험을 공유해 볼 생각이다.

다음에는 STAX를 실제로 써본 후기와 구체적인 사용법에 대해서 작성해 볼 예정이다!

참고 자료

728x90

'알쓸신잡' 카테고리의 다른 글

Microsoft VibeVoice-ASR (0)	2026.02.02
PaddleOCR-VL-1.5-초경량 OCR의 새로운 강자 (0)	2026.02.02
Google TranslateGemma - 55개 언어 번역 모델과 EOS 이슈 해결 (0)	2026.01.22
옵시디언 새탭에서 파일 열기 (0)	2026.01.21
리눅스 파일경로 전체 복사 (0)	2026.01.16