NVIDIA 그래픽 카드 모델(대표)별 Ollama 추천 모델 표 아래 표는 초보자 기준으로 “무난하게 시작"하는 추천입니다. (같은 VRAM이라도 GPU 세대/드라이버/설정에 따라 체감 성능은 달라질 수 있습니다) NVIDIA GPU (대표 모델) VRAM(공식 스펙) 초보자 추천 Ollama 모델 예시(실제 모델명) 이 조합이 잘 맞는 용도 RTX 3060 12GB(또는 8GB 변형) llama3.1:8b, qwen2.5:7b, gemma2:9b 문서 요약/번역/일상 Q&A “로컬 LLM 입문” RTX 3060 Ti 8GB llama3.2:3b, phi3:mini, qwen2.5:3b 가볍게 빠른 응답(짧은 문서/챗봇) RTX 4060 8GB llama3.2:3b, phi3:mini, mistral:7b “빠른 3B~7B” 중심(속도 우선) RTX 4060 Ti 16GB 또는 8GB (16GB면) qwen2.5:14b, gemma2:9b, llama3.1:8b 14B급까지 욕심(개발/요약 품질) RTX 4070 / 4070 SUPER 12GB llama3.1:8b, qwen2.5:14b, gemma2:9b 8B 고품질 + 14B 도전(밸런스) RTX 4070 Ti SUPER 16GB qwen2.5:14b, gemma2:27b, qwen2.5-coder:14b 27B/코딩모델도 “현실권” RTX 4090 24GB(대표) qwen2.5:32b, mixtral:8x7b, gemma2:27b 30B급/ MoE까지 본격 “로컬 워크스테이션” RTX 5090 32GB llama3.1:70b, qwen2.5-coder:32b, qwen2.5:72b 70B급도 “진짜로” 굴리는 영역(고급) 표 해설 (초보자용, 딱 이것만 기억) 1) VRAM은 “올릴 수 있는 모델 크기"를 거의 결정합니다 Ollama 라이브러리 페이지에서 모델마다 파일 크기(GB), **파라미터(B)**가 표시됩니다. 예를 들어 llama3.1:8b는 약 4.9GB로 안내됩니다. 다만 실행 중에는 모델 파일 크기보다 VRAM을 더 씁니다. 그래서 초보자는 표처럼 VRAM 여유가 있는 구간의 모델부터 시작하는 게 실패 확률이 낮습니다. Why it matters: VRAM이 부족하면 속도가 급격히 느려지거나(CPU로 밀림) 실행 실패가 잦아집니다. “처음부터 큰 모델"보다 “내 VRAM에 맞는 모델"이 만족도가 높습니다. ...