본문 바로가기
카테고리 없음

맥미니 M4로 로컬 LLM 3개 돌려본 결과 — 한국어·속도, '큰 모델이 낫다'가 틀린 순간

by 마이티제이 2026. 6. 9.
반응형


저는 한동안 클라우드 AI API를 쓰다가, 비용과 프라이버시 두 가지가 계속 걸려서 작업 상당수를 맥미니로 옮겼습니다. 민감한 메모나 녹취 같은 건 애초에 밖으로 안 보내고 싶었거든요.

그런데 "한국어 잘 된다"고 소문난 모델들을 막상 제 맥미니에서 돌려보니, 기대와 다른 지점이 꽤 많았습니다. 특히 "모델이 크면 똑똑하고, 대신 느리다"는 제 머릿속 공식이 두 번이나 깨졌습니다. 같은 머신에서 세 개 모델을 직접 돌려보고 남은 기록을 정리합니다.

테스트 환경과 모델 3개

  • 기기: M4 맥미니, 메모리 32GB
  • 실행: Ollama, 양자화는 Q4_K_M
  • 측정 시점: 2026년 6월 초 (아래 수치는 제 환경에서 1회 측정한 스냅샷입니다)

비교한 모델은 모두 Gemma 4 계열로 묶었습니다.

  • E4B: 경량판(8B급)
  • 12B: 일반 dense 모델
  • 26B MoE: Gemma 4 기반 26B 파인튜닝 모델 (전문가 혼합 구조, 토큰당 실제 활성 파라미터는 4B 수준)

같은 칩·같은 메모리·같은 양자화에서 비교했다는 점이 중요합니다. 환경이 섞이면 숫자를 나란히 놓기 어렵거든요.

속도 — '큰 모델이 더 빠른' 첫 번째 반전

먼저 생성 속도(초당 토큰)를 봤습니다.

모델 생성 속도(tok/s) 입력 처리(tok/s) 메모리
E4B 28.4–28.9 202–295 9.6GB
12B 11.2–11.9 78–103 7.6GB
26B MoE 28.8–30.0 134–174 16GB

표를 보고 잠깐 멈칫했습니다. 파라미터가 가장 많은 26B가, 더 작은 12B보다 생성이 약 2.5배 빨랐습니다.

이유는 구조에 있었습니다. 26B는 전문가 혼합(MoE) 모델이라 토큰을 만들 때 실제로 쓰는 파라미터가 4B 수준입니다. 반대로 12B는 매 토큰에 모든 파라미터를 다 쓰는 dense 모델이라 더 무겁고요. "파라미터 수 = 느린 정도"라는 단순한 직관이 항상 맞지는 않았습니다.

한국어와 지시 이행

체감 품질은 모델마다 갈렸습니다.

한국어 문장이 가장 자연스럽게 느껴진 건 12B였습니다. 26B는 한국어 파인튜닝이 따로 적용돼 있어서 표현이 안정적이었고요.

대신 12B에는 또 다른 강점이 있었습니다. "몇 글자 이내로 써라" 같은 형식 제약을 유일하게 끝까지 지킨 모델이 12B였습니다. E4B는 빠른 대신 글자 수 제약을 자주 어겼고, 출력이 장황해지는 경향이 있었습니다.

그래서 글자 수나 JSON 같은 형식이 중요한 자동화 작업에는 12B가, 단순 분류처럼 속도가 중요한 작업에는 E4B가 맞았습니다. E4B는 짧은 분류 한 건을 0.3초 수준에서 끝냈는데, 이 속도는 실시간으로 끼워 넣는 작업에선 결정적이었습니다.

본문을 '보존'하는 작업의 두 번째 반전

또 하나 의외였던 건, 입력 텍스트를 건드리지 않고 다듬기만 하는 작업이었습니다. OCR로 읽어온 글자를 정제하는, 본문은 그대로 두고 군더더기만 걷어내는 작업이요.

여기서는 점수가 이렇게 나왔습니다(제가 5점 만점으로 채점).

  • E4B: 5.0
  • 26B MoE: 4.67
  • 12B: 4.0

가장 작은 E4B가 1등이었습니다. 큰 모델일수록 "더 잘 다듬어 주겠다"며 본문 일부를 과하게 삭제하는 경향이 있었거든요. 보존이 목적인 작업에서는 똑똑함이 오히려 독이 됐습니다. "큰 모델 = 항상 우수"가 작업 종류에 따라 뒤집힌 셈입니다.

그래서 무엇을, 어디에 썼나

세 모델을 한 줄로 세워 "최고"를 뽑는 건 의미가 없었습니다. 작업 성격에 따라 답이 달라졌으니까요. 제가 정리한 기준은 이렇습니다.

  • 실시간·짧은 판정(분류, 빠른 응답): E4B — 속도가 전부인 자리
  • 형식·한국어 품질이 중요한 배치 작업: 12B — 느려도 형식을 지킴
  • 민감한 데이터 분석: 로컬에서만 처리. 밖으로 안 보내는 게 1순위라 모델 선택보다 "로컬이라는 것" 자체가 조건

32GB로 시작하는 분들을 위한 체크리스트

  • 32GB라면 경량(E4B)+12B 두 개는 동시에 올려둘 수 있었습니다(합쳐 약 17GB). 26B(16GB)까지 같이 올리면 메모리에서 다른 모델이 밀려날 수 있으니 주의하세요.
  • "제일 큰 모델"부터 받지 마세요. 작업이 분류·요약이면 작은 모델이 더 빠르고, 본문 보존이면 오히려 더 정확할 수 있습니다.
  • 속도가 중요한 자리와 품질이 중요한 자리를 먼저 나누고, 거기에 모델을 배치하세요.
  • 한국어 품질은 직접 같은 프롬프트로 한 번씩 돌려서 비교해 보길 권합니다. 소문과 제 체감이 달랐습니다.

마지막으로 한 가지만 더. 위 수치는 제 맥미니에서 한 번 측정한 값입니다. 칩·메모리·양자화·Ollama 버전이 다르면 결과는 달라질 수 있으니, 절대 수치보다는 "큰 모델이 늘 정답은 아니다"라는 방향만 가져가셔도 충분합니다.

반응형