Gemma4 12B와 Gemma4 26B, 번역 품질 비교해보기 (feat. DGX Spark)
Google이 새로 발표한 Gemma 4 12B가 꽤 흥미로워 보여서, 지금 DGX Spark 서버에서 상시 실행 중인 Gemma4 26B A4B와 번역 품질을 비교했다. 공식 발표는 Google 블로그 글과 Google Gemma X 계정의 릴리즈 스레드에서 확인할 수 있다.
테스트는 간단한 블라인드 A/B 방식으로 했다. 일본어·영어·중국어 제목 30개를 두 모델에 각각 번역시킨 뒤, 어느 쪽 출력인지 가린 상태에서 더 자연스럽고 의미 보존이 좋은 번역을 선택했다. 우열을 가리기 어려운 경우는 동점으로 두고, 최종 점수에서는 양쪽 모델에 0.5점씩 나눠 계산했다.
테스트셋은 주로 테크/개발/AI 관련 글 제목으로 구성했다. 따라서 이 결과는 긴 문서 번역, 문학적 문장, 일반 회화, 법률·의학처럼 도메인 정밀도가 중요한 텍스트 전체에 대한 평가가 아니다. 어디까지나 짧은 제목 문장의 한국어 번역에서 두 모델이 얼마나 자연스럽게 의미를 보존하는지를 본 제한적인 실사용 테스트다.
핵심 결론부터 말하면:
Gemma4 12B Q8은 일본어·영어 제목 번역에서는 26B와 거의 비슷하게 느껴졌지만, 중국어 커뮤니티/구어체 제목에서는 26B가 좀 더 안정적이었다.
따라서 현재 DGX Spark 기본 모델을 12B로 대체할 이유는 아직 없다.
실험 설정
| 항목 | 내용 |
|---|---|
| 테스트셋 | 총 30개 제목, 주로 테크/개발/AI 관련 글 제목 |
| 언어 | 일본어 10개, 영어 10개, 중국어 10개 |
| 평가 방식 | 블라인드 A/B 선택, 동점 허용 |
| 동점 처리 | 각 모델에 0.5점씩 분배 |
| 평가자 | seapy |
| 실행 위치 | DGX Spark 서버 |
비교 모델은 다음과 같다.
| 별칭 | 실제 모델/런타임 | 비고 |
|---|---|---|
gemma4_26b |
google/gemma-4-26B-A4B-it / vLLM |
기존 DGX Spark 상시 모델 |
gemma4_12b_q8 |
ggml-org/gemma-4-12B-it-GGUF, Q8_0 / llama.cpp |
vLLM 직접 로딩 실패 후 GGUF로 실행 |
주의할 점은 12B를 vLLM에서 바로 올린 비교가 아니라는 것이다. 현재 DGX Spark의 vLLM 이미지에서는 google/gemma-4-12B-it의 gemma4_unified 아키텍처를 Transformers가 인식하지 못했다. 그래서 12B는 llama.cpp CUDA 서버 + Q8 GGUF로 띄워 OpenAI 호환 API 형태로 벤치마크했다.
즉, 이번 비교는 “동일 런타임에서의 순수 모델 비교”라기보다는 현재 DGX Spark에서 실제로 구동 가능한 경로 기준의 실사용 비교에 가깝다.
전체 결과
| 모델 | 점수 |
|---|---|
| Gemma4 26B A4B | 18.5 |
| Gemma4 12B Q8 | 11.5 |
선택 형태는 다음과 같았다.
| 선택 유형 | 개수 |
|---|---|
| 단독 선택 | 9 |
| 동점 선택 | 21 |
흥미로운 점은 동점이 21개나 나왔다는 것이다. 전체 제목의 상당수에서는 두 모델의 번역 차이가 크지 않았다. 하지만 단독 선택 9개 중 8개가 26B 쪽으로 갔고, 최종 점수도 26B가 7점 앞섰다.
언어별 결과
| 언어 | Gemma4 26B A4B | Gemma4 12B Q8 | 해석 |
|---|---|---|---|
| 일본어 | 5.0 | 5.0 | 사실상 동률 |
| 영어 | 5.0 | 5.0 | 사실상 동률 |
| 중국어 | 8.5 | 1.5 | 26B 압승 |
가장 중요한 차이는 중국어에서 나왔다. 일본어와 영어는 둘 다 5:5로 끝났지만, 중국어는 26B가 8.5점, 12B가 1.5점이었다.
간단히 막대로 보면:
전체 점수
Gemma4 26B A4B ██████████████████▌ 18.5
Gemma4 12B Q8 ███████████▌ 11.5
중국어 점수
Gemma4 26B A4B ████████▌ 8.5
Gemma4 12B Q8 █▌ 1.5
눈에 띈 사례
1. 일본어: 불교 용어와 맥락
원문:
「AIに戒名を作らせて何が問題か」――寺院向け専門誌の特集が話題
| 모델 | 번역 |
|---|---|
| Gemma4 26B | AI에게 계명을 만들게 하는 게 무엇이 문제인가” —— 사찰 전문지의 특집 기사가 화제 |
| Gemma4 12B Q8 | AI에게 이름을 짓게 하는 게 무슨 문제냐” —— 테라와라를 향한 전문지의 특집기 화제 |
12B는 불교의 戒名 맥락을 일반적인 “이름”으로 풀어버렸고, 寺院向け도 이상하게 처리했다. 제목 번역에서는 이런 특정 문화권 용어 하나가 전체 품질 인상을 크게 좌우한다.
2. 중국어: “만들었다”를 “구매했다”로 뒤집음
원문:
写了个工具, markdown 转 X Articles
| 모델 | 번역 |
|---|---|
| Gemma4 26B | Markdown을 X Articles로 변환하는 도구를 만들었습니다 |
| Gemma4 12B Q8 | Markdown을 X Articles로 변환해주는 도구를 구매했다 |
12B가 “도구를 만들었다”를 “도구를 구매했다”로 뒤집은 사례다. 이건 단순한 문체 차이가 아니라 의미 반전이라 꽤 큰 오류다.
3. 중국어: 커뮤니티 문맥과 “봇 댓글 공격”
원문:
我在 github 的一个项目, 昨天遭到了机器人留言攻击。
| 모델 | 번역 |
|---|---|
| Gemma4 26B | 내가 운영하는 GitHub 프로젝트가 어제 봇의 댓글 공격을 받았다. |
| Gemma4 12B Q8 | GitHub에 올린 제 프로젝트가 어제 로봇(Robot)의 공격을 받았습니다. |
12B는 机器人留言攻击의 “봇 댓글 공격” 뉘앙스를 약하게 처리했다. 중국어 커뮤니티 글 제목은 짧고 생략이 많아서, 작은 오해가 바로 품질 차이로 이어졌다.
12B가 나쁜 모델이라는 뜻은 아니다
이번 결과를 “12B가 별로다”로 읽으면 곤란하다. 오히려 12B는 꽤 인상적이었다.
- 일본어 10개: 26B와 동률
- 영어 10개: 26B와 동률
- 전체 30개 중 동점 21개
- 로컬 실행성이 훨씬 좋고, Q8 GGUF로도 실용적인 속도와 품질을 보임
즉 12B는 노트북/로컬 실험용 모델로는 충분히 매력적이다. 특히 이미지·오디오까지 포함한 Gemma4 unified multimodal 구조를 제대로 활용할 수 있는 런타임이 안정화되면, 단순 텍스트 번역 이상의 가치가 있을 수 있다.
하지만 DGX Spark의 기본 텍스트 모델을 대체하는 관점에서는 얘기가 다르다. 서버에서 항상 켜둘 기본 모델은 “가끔 멋진 답을 하는가”보다 다국어 입력에서 덜 틀리는가가 더 중요하다. 이번 실험에서는 그 안정성에서 26B가 앞섰다.
런타임 관찰
12B를 올리는 과정에서도 몇 가지 현실적인 차이가 보였다.
google/gemma-4-12B-it는 현재 사용한 vLLM 이미지에서 바로 로딩되지 않았다.gemma4_unified모델 타입을 Transformers가 인식하지 못한다는 오류가 났다.- llama.cpp의
--hf-repo자동 로딩은 mmproj까지 잡으려다gemma4uvprojector 문제로 실패했다. - 최종적으로는 메인 Q8 GGUF 파일을 정확히 지정하고,
--reasoning off --reasoning-budget 0을 줘서 텍스트 번역 벤치마크를 안정화했다.
이건 12B 자체의 문제라기보다, 새 아키텍처가 런타임 생태계에 반영되는 중이라는 신호에 가깝다.
결론
이번 실험의 결론은 다음과 같다.
- DGX Spark 기본 모델은 계속 Gemma4 26B A4B를 유지하는 게 맞다.
- Gemma4 12B Q8은 일본어·영어 제목 번역에서는 꽤 경쟁력이 있다.
- 중국어 구어체/커뮤니티 제목에서는 26B 쪽의 안정성이 더 드러났다.
- 12B는 서버 대체재보다는 로컬·노트북·멀티모달 실험용 후보로 보는 게 적절하다.
짧게 말하면:
Thu, 04 Jun 2026 09:00:00 +090012B는 “생각보다 좋다”.
하지만 DGX Spark의 기본 번역/에이전트 모델로는 아직 26B가 더 안전하다.