Gemma4 12B와 Gemma4 26B, 번역 품질 비교해보기 (feat. DGX Spark)

Google이 새로 발표한 Gemma 4 12B가 꽤 흥미로워 보여서, 지금 DGX Spark 서버에서 상시 실행 중인 Gemma4 26B A4B와 번역 품질을 비교했다. 공식 발표는 Google 블로그 글과 Google Gemma X 계정의 릴리즈 스레드에서 확인할 수 있다.

테스트는 간단한 블라인드 A/B 방식으로 했다. 일본어·영어·중국어 제목 30개를 두 모델에 각각 번역시킨 뒤, 어느 쪽 출력인지 가린 상태에서 더 자연스럽고 의미 보존이 좋은 번역을 선택했다. 우열을 가리기 어려운 경우는 동점으로 두고, 최종 점수에서는 양쪽 모델에 0.5점씩 나눠 계산했다.

테스트셋은 주로 테크/개발/AI 관련 글 제목으로 구성했다. 따라서 이 결과는 긴 문서 번역, 문학적 문장, 일반 회화, 법률·의학처럼 도메인 정밀도가 중요한 텍스트 전체에 대한 평가가 아니다. 어디까지나 짧은 제목 문장의 한국어 번역에서 두 모델이 얼마나 자연스럽게 의미를 보존하는지를 본 제한적인 실사용 테스트다.

핵심 결론부터 말하면:

Gemma4 12B Q8은 일본어·영어 제목 번역에서는 26B와 거의 비슷하게 느껴졌지만, 중국어 커뮤니티/구어체 제목에서는 26B가 좀 더 안정적이었다.
따라서 현재 DGX Spark 기본 모델을 12B로 대체할 이유는 아직 없다.

Gemma4 26B vs 12B 점수 차트

실험 설정

항목	내용
테스트셋	총 30개 제목, 주로 테크/개발/AI 관련 글 제목
언어	일본어 10개, 영어 10개, 중국어 10개
평가 방식	블라인드 A/B 선택, 동점 허용
동점 처리	각 모델에 0.5점씩 분배
평가자	seapy
실행 위치	DGX Spark 서버

비교 모델은 다음과 같다.

별칭	실제 모델/런타임	비고
`gemma4_26b`	`google/gemma-4-26B-A4B-it` / vLLM	기존 DGX Spark 상시 모델
`gemma4_12b_q8`	`ggml-org/gemma-4-12B-it-GGUF`, `Q8_0` / llama.cpp	vLLM 직접 로딩 실패 후 GGUF로 실행

주의할 점은 12B를 vLLM에서 바로 올린 비교가 아니라는 것이다. 현재 DGX Spark의 vLLM 이미지에서는 google/gemma-4-12B-it의 gemma4_unified 아키텍처를 Transformers가 인식하지 못했다. 그래서 12B는 llama.cpp CUDA 서버 + Q8 GGUF로 띄워 OpenAI 호환 API 형태로 벤치마크했다.

즉, 이번 비교는 “동일 런타임에서의 순수 모델 비교”라기보다는 현재 DGX Spark에서 실제로 구동 가능한 경로 기준의 실사용 비교에 가깝다.

전체 결과

모델	점수
Gemma4 26B A4B	18.5
Gemma4 12B Q8	11.5

선택 형태는 다음과 같았다.

선택 유형	개수
단독 선택	9
동점 선택	21

흥미로운 점은 동점이 21개나 나왔다는 것이다. 전체 제목의 상당수에서는 두 모델의 번역 차이가 크지 않았다. 하지만 단독 선택 9개 중 8개가 26B 쪽으로 갔고, 최종 점수도 26B가 7점 앞섰다.

언어별 결과

언어	Gemma4 26B A4B	Gemma4 12B Q8	해석
일본어	5.0	5.0	사실상 동률
영어	5.0	5.0	사실상 동률
중국어	8.5	1.5	26B 압승

가장 중요한 차이는 중국어에서 나왔다. 일본어와 영어는 둘 다 5:5로 끝났지만, 중국어는 26B가 8.5점, 12B가 1.5점이었다.

간단히 막대로 보면:

전체 점수
Gemma4 26B A4B  ██████████████████▌ 18.5
Gemma4 12B Q8   ███████████▌        11.5

중국어 점수
Gemma4 26B A4B  ████████▌ 8.5
Gemma4 12B Q8   █▌       1.5

눈에 띈 사례

1. 일본어: 불교 용어와 맥락

원문:

「AIに戒名を作らせて何が問題か」――寺院向け専門誌の特集が話題

모델	번역
Gemma4 26B	AI에게 계명을 만들게 하는 게 무엇이 문제인가” —— 사찰 전문지의 특집 기사가 화제
Gemma4 12B Q8	AI에게 이름을 짓게 하는 게 무슨 문제냐” —— 테라와라를 향한 전문지의 특집기 화제

12B는 불교의 戒名 맥락을 일반적인 “이름”으로 풀어버렸고, 寺院向け도 이상하게 처리했다. 제목 번역에서는 이런 특정 문화권 용어 하나가 전체 품질 인상을 크게 좌우한다.

2. 중국어: “만들었다”를 “구매했다”로 뒤집음

원문:

写了个工具， markdown 转 X Articles

모델	번역
Gemma4 26B	Markdown을 X Articles로 변환하는 도구를 만들었습니다
Gemma4 12B Q8	Markdown을 X Articles로 변환해주는 도구를 구매했다

12B가 “도구를 만들었다”를 “도구를 구매했다”로 뒤집은 사례다. 이건 단순한 문체 차이가 아니라 의미 반전이라 꽤 큰 오류다.

3. 중국어: 커뮤니티 문맥과 “봇 댓글 공격”

원문:

我在 github 的一个项目，昨天遭到了机器人留言攻击。

모델	번역
Gemma4 26B	내가 운영하는 GitHub 프로젝트가 어제 봇의 댓글 공격을 받았다.
Gemma4 12B Q8	GitHub에 올린 제 프로젝트가 어제 로봇(Robot)의 공격을 받았습니다.

12B는 机器人留言攻击의 “봇 댓글 공격” 뉘앙스를 약하게 처리했다. 중국어 커뮤니티 글 제목은 짧고 생략이 많아서, 작은 오해가 바로 품질 차이로 이어졌다.

12B가 나쁜 모델이라는 뜻은 아니다

이번 결과를 “12B가 별로다”로 읽으면 곤란하다. 오히려 12B는 꽤 인상적이었다.

일본어 10개: 26B와 동률
영어 10개: 26B와 동률
전체 30개 중 동점 21개
로컬 실행성이 훨씬 좋고, Q8 GGUF로도 실용적인 속도와 품질을 보임

즉 12B는 노트북/로컬 실험용 모델로는 충분히 매력적이다. 특히 이미지·오디오까지 포함한 Gemma4 unified multimodal 구조를 제대로 활용할 수 있는 런타임이 안정화되면, 단순 텍스트 번역 이상의 가치가 있을 수 있다.

하지만 DGX Spark의 기본 텍스트 모델을 대체하는 관점에서는 얘기가 다르다. 서버에서 항상 켜둘 기본 모델은 “가끔 멋진 답을 하는가”보다 다국어 입력에서 덜 틀리는가가 더 중요하다. 이번 실험에서는 그 안정성에서 26B가 앞섰다.

런타임 관찰

12B를 올리는 과정에서도 몇 가지 현실적인 차이가 보였다.

google/gemma-4-12B-it는 현재 사용한 vLLM 이미지에서 바로 로딩되지 않았다.
gemma4_unified 모델 타입을 Transformers가 인식하지 못한다는 오류가 났다.
llama.cpp의 --hf-repo 자동 로딩은 mmproj까지 잡으려다 gemma4uv projector 문제로 실패했다.
최종적으로는 메인 Q8 GGUF 파일을 정확히 지정하고, --reasoning off --reasoning-budget 0을 줘서 텍스트 번역 벤치마크를 안정화했다.

이건 12B 자체의 문제라기보다, 새 아키텍처가 런타임 생태계에 반영되는 중이라는 신호에 가깝다.

결론

이번 실험의 결론은 다음과 같다.

DGX Spark 기본 모델은 계속 Gemma4 26B A4B를 유지하는 게 맞다.
Gemma4 12B Q8은 일본어·영어 제목 번역에서는 꽤 경쟁력이 있다.
중국어 구어체/커뮤니티 제목에서는 26B 쪽의 안정성이 더 드러났다.
12B는 서버 대체재보다는 로컬·노트북·멀티모달 실험용 후보로 보는 게 적절하다.

짧게 말하면:

12B는 “생각보다 좋다”.
하지만 DGX Spark의 기본 번역/에이전트 모델로는 아직 26B가 더 안전하다.

Thu, 04 Jun 2026 09:00:00 +0900