Ornith-1.0 35B 원본을 Spark와 Mac Studio에서 돌려보기

X에서 Ornith-1.0 발표를 보고 로컬 장비에서 바로 실행해봤다. Ornith-1.0은 agentic coding을 목표로 한 모델군이고, 발표된 구성은 9B Dense, 31B Dense, 35B MoE, 397B MoE다. 이번에는 deepreinforce-ai/Ornith-1.0-35B 원본 BF16 가중치를 직접 올려봤다.

원본 35B는 약 70GB, 실제 체크포인트 기준으로는 65.4GiB 정도였다. DGX Spark에서는 vLLM CUDA로, 512GB Mac Studio에서는 PyTorch MPS로 실행했다. 둘 다 같은 RSS/커뮤니티 제목 30개 번역 벤치마크를 돌려봤고, 이전에 돌렸던 GGUF Q4 결과와 Gemma4 31B Dense Q8 + MTP 결과도 참고값으로 같이 놓았다.

설정

항목
모델 deepreinforce-ai/Ornith-1.0-35B
형식 BF16 safetensors 원본
체크포인트 크기 65.4GiB, Hugging Face 파일 합계 약 70.25GB
모델 구조 35B MoE, qwen3_5_moe 계열
컨텍스트 이번 벤치마크는 8192 이하 짧은 제목 번역
reasoning enable_thinking=false로 비활성화
벤치마크 일본어 10개, 영어 10개, 중국어 10개 제목을 한국어 한 줄로 번역

장비와 런타임은 다음과 같다.

장비 런타임 메모리 비고
DGX Spark vLLM CUDA, BF16 약 121GiB 원본 BF16 서버 구동 성공
Mac Studio PyTorch MPS, BF16 512GB 원본 BF16 로드 및 생성 성공

Mac Studio에는 이미 35B GGUF Q4 파일도 있었지만, 이 글의 중심은 원본 BF16이다. Q4 결과는 “원본을 굳이 돌릴 가치가 있는가”를 보기 위한 참고값으로만 남겼다.

먼저 실행 가능 여부

DGX Spark에서는 vLLM으로 서버를 띄웠다. 모델 로드는 다음 정도가 걸렸다.

항목 DGX Spark / vLLM
체크포인트 로드 505.0초
모델 로딩 메모리 65.53GiB
KV cache 494,208 tokens
8192 토큰 요청 기준 최대 동시성 표시 170.27x

Mac Studio에서는 Python 3.12 환경에서 PyTorch MPS로 직접 로드했다.

항목 Mac Studio / PyTorch MPS
CPU 메모리 로드 18.4초
MPS 이동 5.6초
단문 smoke test 17 tokens / 17.8초, 약 0.96 tok/s

Mac 쪽은 서버 최적화가 아니라 단순 PyTorch MPS 실행이다. FLA/causal-conv fast path가 없어 torch fallback으로 돈다는 경고도 있었다. 따라서 “512GB Mac Studio에서도 원본이 올라가고 생성된다”는 확인에는 의미가 있지만, 이 상태를 최적 성능으로 보면 안 된다.

제목 번역 속도

같은 30개 제목을 원본 BF16으로 다시 돌렸다.

모델 / 구성 장비 런타임 총 시간 평균/제목 중앙값 completion wall tok/s 비고
Ornith-1.0-35B BF16 원본 DGX Spark vLLM CUDA 26.13s 0.87s 0.76s 22.31 30개 모두 정상 종료
Ornith-1.0-35B BF16 원본 Mac Studio M3 Ultra PyTorch MPS 165.09s 5.50s 5.20s 3.58 30개 모두 정상 종료, 로드 제외
Ornith-1.0-35B Q4_K_M Mac Studio M3 Ultra llama.cpp Metal 11.37s 0.38s 0.35s 50.48 이전 참고값
Ornith-1.0-35B Q4_K_M DGX Spark llama.cpp CUDA 12.61s 0.42s 0.40s 45.54 이전 참고값
Gemma4 31B Dense Q8 + MTP DGX Spark llama.cpp CUDA + MTP 50.41s 1.68s 1.40s 12.44 같은 소스세트 재측정, draft accept 58.2%

재미있는 점은 원본 BF16이 품질 기준으로는 더 자연스럽지만, 짧은 제목 번역 속도만 보면 GGUF Q4가 훨씬 빠르다는 것이다. 특히 Mac Studio에서는 PyTorch MPS 원본 BF16보다 llama.cpp Metal Q4가 압도적으로 빠르다. 이것은 Mac Studio가 원본을 못 돌린다는 뜻이 아니라, 현재 사용한 PyTorch MPS 경로가 짧은 생성 워크로드에 효율적이지 않다는 뜻에 가깝다.

반대로 DGX Spark의 vLLM BF16은 충분히 실용적인 속도였다. 30개 제목 전체가 26초대였고, Q4보다는 느리지만 Gemma4 31B Dense Q8 + MTP보다는 빨랐다.

원본 BF16에서 달라진 번역

Q4에서 어색했던 일부 케이스는 원본 BF16에서 꽤 나아졌다. 예를 들어 중국어 커뮤니티 제목 하나는 Q4에서 한국어가 깨졌는데, 원본에서는 자연스러워졌다.

원문 Ornith Q4 Ornith BF16 / Spark Ornith BF16 / Mac
大佬们 vibe coding 的项目怎么样了 형들들 vibe coding 프로젝트들 어떻게 되고 있어? 여러분, vibe coding 프로젝트는 어떻게 되고 있나요? 여러분, vibe coding 프로젝트는 어떻게 진행되고 있나요?

일본어 戒名 케이스도 Q4보다 원본이 낫다.

원문 Ornith Q4 Ornith BF16 / Spark Ornith BF16 / Mac Gemma4
「AIに戒名を作らせて何が問題か」――寺院向け専門誌の特集が話題 AI에게 시호를 지어주는데 뭐가 문제냐" – 사찰 전문 잡지의 특집이 화제 AI에게 계명을 짓게 하는 게 뭐가 문제냐" – 사찰 전문 잡지의 특집이 화제 AI에게 법명을 짓게 하는 게 뭐가 문제냐" – 사찰 전문 잡지의 특집이 화제 AI에게 계명을 짓게 하는 게 뭐가 문제인가" ―― 사찰 전문지의 특집 기사가 화제

戒名은 한국어로 깔끔하게 옮기기 까다로운 단어라 어느 쪽도 완벽하다고 하기는 어렵다. 그래도 Q4의 시호보다는 원본 BF16의 계명이나 법명이 문맥에 더 가깝다.

다만 중국어 커뮤니티 말투는 여전히 Gemma4가 더 자연스럽게 풀 때가 있다.

원문 Ornith BF16 / Spark Gemma4
codex 又刷新了,这次是周中! yyds codex가 또 업데이트됐어요, 이번엔 주중이에요! yyds codex가 또 업데이트됐네요, 이번엔 주중이라니! 진짜 최고입니다
有重置了兄弟们 형제들, 리셋됐네 또 초기화됐네요 여러분

Ornith 원본은 Q4보다 안정적이지만, yyds 같은 커뮤니티 표현을 한국어로 자연스럽게 풀어내는 쪽은 Gemma4가 더 낫다. 반대로 단순한 기술 제목은 Ornith도 충분히 잘 처리했다.

원문 Ornith BF16 / Spark
日本語ふぉんとライブラリ 일본어 폰트 라이브러리
Meteor Explodes over Massachusetts 매사추세츠 상공에서 유성 폭발
I was recently diagnosed with anti-NMDA receptor encephalitis 최근 항-NMDA 수용체 뇌염 진단을 받았습니다

397B는 어떨까

512GB Mac Studio가 있으니 397B도 떠올릴 수밖에 없다. 하지만 deepreinforce-ai/Ornith-1.0-397B 원본 BF16은 Hugging Face 파일 합계가 약 793.6GB, 739.1GiB였다. 512GB 메모리 한 대에 올리는 대상은 아니다.

대신 Ornith-1.0-397B-FP8은 약 405.2GB, 377.4GiB로 보였다. 저장 공간과 메모리 숫자만 보면 512GB Mac Studio 안에 들어올 수 있지만, Mac에서 바로 쓸 수 있는 vLLM CUDA FP8 경로가 있는 것은 아니다. 397B는 Apple Silicon용 GGUF/MLX quant가 나오거나 변환 경로를 따로 잡아야 현실적인 실험 대상이 될 것 같다.

정리

Ornith-1.0 35B 원본 BF16은 DGX Spark와 512GB Mac Studio 양쪽에서 실제로 실행됐다. 특히 Mac Studio에서 원본 BF16이 65GiB급 체크포인트 그대로 올라가고 생성까지 되는 것은 꽤 인상적이었다. 다만 현재 PyTorch MPS 경로의 속도는 짧은 번역 작업 기준으로 빠르지 않았다.

실사용 관점에서는 장비별 결론이 갈린다.

목적 더 나은 선택
DGX Spark에서 원본 품질 확인 Ornith-1.0-35B BF16 + vLLM
Mac Studio에서 빠른 짧은 생성 Ornith-1.0-35B GGUF Q4 + llama.cpp Metal
번역 워크플로 품질 안정성 여전히 Gemma4 31B Dense 쪽이 유리
코딩/에이전트 후보 검토 Ornith는 별도 벤치마크를 해볼 가치가 있음

이번 업데이트의 핵심은 “Q4가 빠르다”가 아니라, Ornith-1.0 35B 원본 BF16이 로컬 장비에서 실제로 올라가고, DGX Spark에서는 vLLM으로 꽤 실용적인 속도가 나온다는 점이다. 번역은 어디까지나 평소 쓰는 비교용 작업일 뿐이고, Ornith의 본래 용도인 agentic coding에서는 따로 평가해볼 만하다.

Sat, 27 Jun 2026 12:35:50 +0900