DwarfStar(ds4)를 DGX Spark와 Mac Studio, Mac mini에서 돌려보기
DwarfStar(ds4)는 antirez가 공개한 DeepSeek V4 전용 로컬 추론 엔진이다. 범용 GGUF 런타임이라기보다는 DeepSeek V4 Flash와 Pro를 목표로 만든 좁은 엔진에 가깝다. Metal, CUDA, ROCm을 지원하고, OpenAI/Anthropic 호환 서버와 에이전트 사용까지 염두에 둔 프로젝트다.
이번에는 DwarfStar(ds4)를 DGX Spark, 512GB Mac Studio, 64GB Mac mini에서 실제로 돌려봤다. 실행한 모델은 DeepSeek V4 Flash q2와 Pro q2였다. 비교 기준은 평소 쓰던 RSS/커뮤니티 제목 30개 번역 벤치마크다. 일본어 10개, 영어 10개, 중국어 10개 제목을 한국어 한 줄로 번역하게 하고, GPT-5.5 judge로 품질을 비교했다.
모델과 장비
ds4에서 받은 모델 파일은 antirez의 deepseek-v4-gguf 저장소에 있는 GGUF다. Flash q2는 약 81GB, Pro q2는 약 433GB였다. ds4의 model card 기준으로 DeepSeek V4 Flash는 총 284B parameters, active 13B이고, Pro는 총 1.6T parameters, active 49B인 MoE 모델이다.
| 장비 | 확인한 구성 | 메모리 |
|---|---|---|
| Mac Studio | Apple M3 Ultra, Metal, Flash q2 / Pro q2 | 512GB |
| DGX Spark | NVIDIA GB10, CUDA, Flash q2 | 121GiB |
| Mac mini | Apple M4 Pro, Metal SSD streaming, Flash q2 | 64GB |
Mac mini는 Flash q2 파일 크기만 81GB라 일반적인 resident 실행은 어렵다. 대신 ds4의 SSD streaming 기능을 켜고 routed expert cache를 32GB로 제한해서 실행했다.
./ds4-server
--metal
--ssd-streaming
--ssd-streaming-cache-experts 32GB
--ctx 32768
-m DeepSeek-V4-Flash-IQ2XXS-...gguf
속도 결과
먼저 ds4 자체의 ds4-bench를 돌렸다. 같은 긴 텍스트를 2048 토큰 단위로 잘라 prefill과 64 토큰 생성 속도를 측정했다.
| 구성 | ctx 범위 | prefill t/s | gen t/s | 비고 |
|---|---|---|---|---|
| Flash q2 · Mac Studio | 2048–16384 | 460.53–489.50 | 26.85–31.44 | 가장 빠른 ds4 구성 |
| Flash q2 · DGX Spark | 2048–16384 | 368.13–398.65 | 13.40–13.78 | GB10 CUDA |
| Pro q2 · Mac Studio | 2048–8192 | 130.31–150.66 | 10.05–12.82 | 433GB 모델 |
| Flash q2 · Mac mini SSD streaming | 2048–8192 | 100.04–117.48 | 5.90–6.40 | 64GB에서 실행 가능성 확인 |
RSS/커뮤니티 제목 30개 번역 속도는 다음과 같았다. 이 값은 실제 OpenAI-compatible server를 띄운 뒤 30개 제목을 순차 요청한 wall time이다.
| 구성 | 총 시간 | 평균/제목 | 중앙값 | completion wall tok/s |
|---|---|---|---|---|
| Flash q2 · Mac Studio | 43.18s | 1.44s | 1.31s | 16.10 |
| Gemma4 31B Dense Q8 + MTP | 50.08s | 1.67s | 1.39s | 12.52 |
| Flash q2 · DGX Spark | 65.87s | 2.20s | 1.83s | 10.55 |
| Pro q2 · Mac Studio | 147.83s | 4.93s | 4.65s | 4.64 |
| Flash q2 · Mac mini SSD streaming | 315.05s | 10.50s | 10.18s | 2.20 |
속도만 보면 Flash q2의 Mac Studio 결과가 제일 좋았다. 30개 제목을 43.18초에 끝냈고, 같은 벤치의 Gemma4 31B Dense MTP보다도 빠르다. 반면 Pro q2는 모델 크기가 433GB라 그런지 147.83초가 걸렸다. Flash q2보다 약 3.4배 느리다.
Mac mini 64GB 결과도 흥미롭다. SSD streaming 덕분에 Flash q2가 실제로 실행되긴 했다. 하지만 30개 제목에 315초가 걸려서 실사용 후보라기보다는 “64GB에서도 어떻게든 돌아간다”는 확인에 가깝다.
품질 결과
품질은 GPT-5.5 judge로 비교했다. 동점은 0.5점씩 나눴다.
| 비교 | ds4 점수 | 비교 모델 점수 | 결론 |
|---|---|---|---|
| Flash q2 vs Gemma4 31B Dense MTP | 9.0 | 21.0 | Gemma4 우세 |
| Pro q2 vs Gemma4 31B Dense MTP | 10.5 | 19.5 | Gemma4 우세 |
| Pro q2 vs Flash q2 | 15.5 | 14.5 | Pro q2 근소 우세 |
Flash q2의 문제는 일본어와 중국어에서 분명했다. 예를 들어 일본어 제목에서 普及가 한자로 그대로 남거나, 긴 일본어 제목을 거의 원문 그대로 출력하는 경우가 있었다. 중국어에서도 yyds, [求助] 같은 표현을 그대로 남기는 경우가 있었다.
Pro q2는 이런 문제를 꽤 줄였다. Flash q2가 일본어 원문을 그대로 뱉은 항목을 Pro q2는 대부분 한국어로 옮겼고, 戒名을 “법명”으로 처리한 것도 더 좋았다. 하지만 Gemma4와 비교하면 여전히 정보 생략이나 중국어 커뮤니티 표현 처리에서 밀렸다. Pro q2는 Flash q2보다 품질이 조금 낫지만, Gemma4 31B Dense MTP를 이기지는 못했다.
Pro는 왜 아쉬웠나
DeepSeek V4 Pro q2는 파일만 433GB다. Mac Studio 512GB 같은 장비가 아니면 일반적인 방식으로 올리기 어렵다. 기대한 것은 “느리더라도 품질이 확실히 좋아지는가”였는데, 이번 짧은 제목 번역 벤치에서는 그렇게까지 보이지 않았다.
물론 이 결과가 Pro 전체 능력을 대표한다고 보기는 어렵다. DeepSeek V4 Pro의 장점은 더 어려운 추론, 긴 문맥, agentic 작업에서 드러날 수 있다. 그러나 이번 테스트처럼 RSS/커뮤니티 제목을 한국어로 빠르게 옮기는 용도에서는 433GB 모델을 올릴 이유가 크지 않았다.
오히려 Flash q2가 더 흥미로운 쪽이었다. 속도는 좋았고, Mac Studio에서는 Gemma4 MTP보다 빠른 wall time도 나왔다. 다만 품질이 불안정해서 실제 번역 후보로 쓰기엔 불안하다. 특히 원문 미번역은 평균 점수보다 더 치명적인 실패다. 유창하지 않은 번역보다, 번역하지 않고 원문을 남기는 쪽이 실사용에서는 더 위험하다.
정리
- ds4 Flash q2는 Mac Studio에서 매우 빠르게 돈다. 30개 제목 번역은 43.18초였다.
- DGX Spark의 GB10에서도 Flash q2는 안정적으로 실행됐지만, 생성 속도는 Mac Studio의 절반 정도였다. 같은 사양의 다른 DGX Spark도 거의 동일한 결과라 표에서는 하나만 남겼다.
- 64GB Mac mini에서도 SSD streaming으로 Flash q2 실행은 가능했지만, 속도는 많이 느렸다.
- Pro q2는 Mac Studio 512GB에서 올라갔고, Flash q2보다 품질은 근소하게 나았다.
- 하지만 Pro q2는 Flash q2보다 3.4배 느렸고, Gemma4 31B Dense MTP와의 품질 비교에서도 졌다.
결론적으로 이번 RSS/커뮤니티 제목 번역 용도에서는 ds4 Flash/Pro q2를 계속 쓸 이유는 크지 않았다. Flash q2는 빠르지만 품질이 불안정하고, Pro q2는 조금 더 안정적이지만 너무 크고 느리다. 다만 ds4 자체는 흥미롭다. 81GB Flash q2가 Mac Studio와 GB10에서 바로 서버로 뜨고, 64GB Mac mini에서도 SSD streaming으로 돌아간다는 점은 분명 인상적이었다.
이번 테스트의 의미는 “추천 모델을 찾았다”기보다는, DwarfStar(ds4)를 DGX Spark, Mac Studio, Mac mini 같은 로컬 장비에서 실제로 어디까지 돌릴 수 있고, DeepSeek V4 Flash/Pro가 내가 자주 쓰는 짧은 번역 작업에서는 어떤 한계를 보이는지 확인한 데 있다. 짧은 제목 번역만 놓고 보면 아직은 Gemma4 31B Dense MTP가 더 실용적인 선택이다.
Sat, 27 Jun 2026 11:15:46 +0900