Guía técnica · AIHARD
Cómo elegir GPU para inteligencia artificial local
Guía completa para seleccionar la GPU óptima para correr modelos de IA localmente: VRAM, ancho de banda, compatibilidad con CUDA y ROCm, y recomendaciones por presupuesto.
Actualizado: 19 de abril de 2025
¿Por qué la GPU es clave para correr IA localmente?
Los modelos de lenguaje grande (LLMs) como Llama 3, Mistral o Gemma requieren mover enormes cantidades de datos entre la memoria y los núcleos de cómputo. La GPU es el componente más crítico porque tiene miles de núcleos paralelos y una memoria de muy alta velocidad (VRAM) diseñada exactamente para esta carga de trabajo.
Una CPU puede correr modelos pequeños, pero será entre 10x y 50x más lenta que una GPU equivalente. Para inferencia en tiempo real o uso productivo, una GPU dedicada no es opcional.
VRAM: el parámetro más importante
La VRAM (memoria de vídeo) determina qué tamaño de modelo puedes cargar completamente en GPU. Un modelo que no cabe en VRAM se 'offloadea' a RAM o disco, reduciendo la velocidad drásticamente.
Reglas orientativas: modelos 7B en Q4 necesitan ~4 GB VRAM; modelos 13B en Q4 necesitan ~8 GB; modelos 70B en Q4 necesitan ~40 GB. Para trabajo serio con modelos grandes, 24 GB de VRAM (RTX 3090, 4090) o más es el objetivo.
La cuantización (Q4, Q5, Q8) reduce el tamaño del modelo a costa de algo de calidad. Una RTX 4070 Ti Super con 16 GB puede correr modelos 13B completos y modelos 34B cuantizados.
CUDA vs ROCm: ecosistema de software
La gran mayoría de frameworks de IA (PyTorch, TensorFlow, llama.cpp, Ollama, ComfyUI) están optimizados para CUDA, la plataforma de NVIDIA. Las GPUs AMD usan ROCm, que ha mejorado mucho pero aún tiene menor compatibilidad y soporte más irregular.
Si priorizas máxima compatibilidad y facilidad de uso: elige NVIDIA. Si tienes presupuesto limitado y sabes que las herramientas que usas soportan ROCm correctamente: AMD puede ser una buena opción.
Comparativa por presupuesto (2025)
Entrada (hasta 400€): RTX 3060 12 GB — buena para modelos 7B y experimentos. RX 7600 8 GB es alternativa AMD más barata pero con solo 8 GB VRAM.
Gama media (400-800€): RTX 4070 Super 12 GB o RTX 4070 Ti Super 16 GB. El salto a 16 GB es importante para modelos 13B completos.
Alto rendimiento (800-1.500€): RTX 4080 Super 16 GB o RTX 3090 24 GB de segunda mano. Con 24 GB puedes correr modelos 70B cuantizados.
Profesional (1.500€+): RTX 4090 24 GB. El rey de la IA local para consumidor. Doble ancho de banda vs 4080. Para producción: RTX 5090 o GPUs data center (A100, H100).
Otros factores a considerar
Ancho de banda de memoria: tan importante como la cantidad de VRAM. La RTX 4090 tiene 1.008 GB/s vs los 504 GB/s de la RTX 4070. A igual VRAM, más ancho de banda = tokens por segundo más rápidos.
Consumo eléctrico: una RTX 4090 consume hasta 450W bajo carga. Asegúrate de tener fuente de alimentación adecuada (850W+ recomendado) y buena ventilación.
Multi-GPU: dos GPUs no dan el doble de rendimiento para inferencia debido a la latencia entre ellas, pero permiten distribuir modelos más grandes que no caben en una sola.
Preguntas frecuentes
¿Qué GPU necesito para correr Ollama en local?
Para Ollama con modelos 7B, una RTX 3060 12 GB o similar es suficiente. Para modelos 13B con buen rendimiento, recomendamos RTX 4070 Ti Super 16 GB o superior. Para modelos 70B, necesitas al menos 24 GB de VRAM (RTX 4090 o dos GPUs de 16 GB).
¿Sirve una GPU AMD para IA local?
Sí, con limitaciones. Las RX 7900 XTX tienen 24 GB de VRAM a buen precio, pero el soporte de ROCm puede ser irregular según la herramienta. Si usas principalmente llama.cpp u Ollama, AMD funciona bien. Para PyTorch y frameworks más avanzados, NVIDIA ofrece mejor experiencia.
¿Cuánta VRAM necesito para modelos de IA?
Como regla general: 8 GB para modelos hasta 7B, 16 GB para modelos 13-20B, 24 GB para modelos 34B cuantizados o 70B muy cuantizados. Con 48 GB o más puedes correr modelos 70B con buena calidad.
Relacionado en AIHARD