Guía técnica · AIHARD
Ollama en local: requisitos mínimos y recomendados de hardware
Todo lo que necesitas saber sobre el hardware para correr Ollama localmente: GPU mínima, VRAM recomendada, RAM del sistema, y qué modelos puedes ejecutar con cada configuración.
Actualizado: 19 de abril de 2025
¿Qué es Ollama y por qué importa el hardware?
Ollama es la herramienta más popular para correr modelos de lenguaje grande (LLMs) en local, con soporte para Llama 3, Mistral, Gemma, Phi, Qwen y decenas más. Su facilidad de instalación (un comando) y su API compatible con OpenAI lo convierten en la puerta de entrada al mundo de la IA local.
El rendimiento de Ollama depende casi exclusivamente del hardware: con la GPU correcta, la diferencia entre 5 tokens/segundo y 100 tokens/segundo marca la diferencia entre frustración y productividad.
Requisitos mínimos (solo CPU)
Ollama puede funcionar solo con CPU, sin GPU. Los requisitos mínimos son: cualquier CPU x86_64 o ARM64 moderna, 8 GB de RAM (16 GB recomendado) y 10 GB de espacio en disco para el primer modelo.
El rendimiento en CPU es muy lento: 1-5 tokens por segundo para modelos 7B. Suficiente para experimentar, pero no para uso productivo.
Requisitos con GPU NVIDIA (recomendado)
Para rendimiento real con NVIDIA: CUDA 11.8 o superior (drivers NVIDIA recientes), GPU con mínimo 4 GB VRAM para modelos muy pequeños.
Configuraciones prácticas: RTX 3060 12 GB → Llama 3.1 8B a ~40 tokens/seg. RTX 4070 Ti Super 16 GB → Llama 3.1 13B a ~35 tokens/seg o Llama 3.1 8B a ~65 tokens/seg. RTX 4090 24 GB → modelos 34B cuantizados a buen rendimiento, 8B a más de 100 tokens/seg.
Requisitos con GPU AMD (ROCm)
Ollama soporta GPUs AMD vía ROCm en Linux. Requiere ROCm 5.7 o superior y una GPU compatible (RX 6000 o 7000 series).
El rendimiento con AMD es comparable a NVIDIA en muchos casos, pero la configuración puede requerir más pasos y la compatibilidad varía por modelo de GPU. Ubuntu LTS es la distribución más fiable para ROCm.
Tabla de modelos por VRAM disponible
4-6 GB VRAM: Gemma 2B, Phi-3 Mini, Llama 3.2 3B (cuantizados). Ideal para pruebas y tareas simples.
8-10 GB VRAM: Llama 3.1 8B, Mistral 7B, Gemma2 9B (cuantizados). El punto dulce de relación calidad-precio.
12-16 GB VRAM: los anteriores sin cuantización agresiva + Llama 3.1 13B. Calidad notablemente mejor en tareas de razonamiento.
24 GB VRAM (RTX 4090, RTX 3090): Codestral 22B, Llama 3.1 33B cuantizado, Mistral Large. Nivel cercano a GPT-4 para muchas tareas.
48+ GB VRAM (multi-GPU o GPUs profesionales): Llama 3.1 70B completo, modelos frontier. Producción enterprise.
Preguntas frecuentes
¿Qué GPU necesito para Ollama con Llama 3?
Para Llama 3.1 8B con buen rendimiento, recomendamos mínimo RTX 3060 12 GB. Para Llama 3.1 70B, necesitas al menos 40 GB de VRAM total (dos RTX 3090/4090, o una GPU profesional).
¿Funciona Ollama sin GPU?
Sí, pero muy lento (1-5 tokens/segundo en CPU). Para experimentar está bien, pero para uso productivo una GPU es imprescindible.
¿Cuánta RAM del sistema necesita Ollama?
Con GPU suficiente, 16 GB de RAM del sistema es suficiente. Si el modelo hace offload a RAM (porque no cabe en VRAM), necesitas tanta RAM del sistema como VRAM que falta, más margen para el sistema operativo.
¿Puedo correr Ollama en Windows?
Sí, Ollama tiene instalador para Windows con soporte CUDA. El rendimiento es equivalente a Linux para inferencia. Para multi-GPU y escenarios avanzados, Linux ofrece mejor soporte.
Relacionado en AIHARD