Guía técnica · AIHARD
Qué workstation necesito para correr LLMs localmente
Guía para configurar la workstation ideal para modelos de lenguaje grande (LLMs) en local: CPU, RAM, GPU, almacenamiento y sistema operativo recomendado.
Actualizado: 19 de abril de 2025
Los 5 componentes de una workstation LLM
Una workstation optimizada para LLMs necesita equilibrio entre GPU (inferencia rápida), RAM del sistema (offloading de modelos grandes), CPU (preprocesamiento y llamadas de API), almacenamiento NVMe rápido (carga de modelos) y refrigeración adecuada para operación prolongada.
GPU: el cuello de botella principal
El componente más importante. Ver nuestra guía de selección de GPU para IA para detalles completos. Resumen: mínimo 12 GB VRAM para uso práctico, 24 GB para comodidad, 48+ GB para trabajar con modelos frontier.
RAM del sistema: más de lo que crees
Con 16 GB de RAM del sistema puedes empezar, pero es un límite. Con 32 GB tienes comodidad para modelos que hacen offload parcial a RAM cuando no caben en VRAM. Para stacks multi-agente o RAG con bases de datos vectoriales grandes, 64 GB o más es recomendable.
La velocidad de RAM (DDR5 vs DDR4) tiene impacto menor que la cantidad cuando el modelo corre en GPU. Prioriza cantidad sobre velocidad.
CPU: soporte, no protagonista
Para inferencia en GPU, la CPU tiene un rol secundario. Un procesador moderno de gama media (Ryzen 7 7700X, Core i7-13700K) es completamente suficiente. No necesitas un EPYC ni un Threadripper para correr LLMs.
Donde la CPU sí importa: si haces fine-tuning, preprocesamiento de datasets grandes o corres varios servicios en paralelo. En ese caso, más núcleos ayudan.
Almacenamiento: NVMe rápido para cargar modelos
Los modelos son archivos grandes: un modelo 7B ocupa ~4 GB, uno de 70B puede llegar a 40+ GB. Un NVMe PCIe 4.0 o 5.0 los carga en segundos; un disco HDD tardaría minutos.
Recomendación: SSD NVMe de al menos 1 TB para el sistema + modelos frecuentes, con espacio para modelos adicionales (los experimentadores acumulan muchos modelos rápidamente).
Configuraciones recomendadas por caso de uso
Uso personal / aprendizaje: Ryzen 7 7700X + RTX 4070 Super 12 GB + 32 GB DDR5 + 1 TB NVMe. Equilibrado y asequible.
Uso profesional / producción: Core i9-14900K o Ryzen 9 7950X + RTX 4090 24 GB + 64 GB DDR5 + 2 TB NVMe. Para equipos que usan LLMs en flujos de trabajo diarios.
Multi-agente / investigación: Threadripper PRO + 2x RTX 4090 + 128 GB ECC RAM + RAID NVMe. Para stacks complejos con múltiples modelos simultáneos.
Preguntas frecuentes
¿Cuánta RAM necesita una workstation para LLMs?
Mínimo 32 GB para uso práctico. Con 64 GB tienes comodidad para modelos que hacen offload parcial a RAM del sistema. Para stacks multi-agente o inferencia simultánea de varios modelos, 128 GB es recomendable.
¿Puedo usar un portátil para correr LLMs?
Sí, si tiene GPU dedicada con VRAM suficiente. Un portátil con RTX 4070 o superior puede correr modelos 7B con buen rendimiento. La limitación es la VRAM (los portátiles suelen tener menos) y la refrigeración (throttling bajo carga sostenida).
¿Es mejor Windows o Linux para IA local?
Linux (Ubuntu 22.04 o Debian) suele ofrecer mejor rendimiento y compatibilidad con drivers CUDA, especialmente en setups multi-GPU. Windows funciona bien para uso individual con herramientas como LM Studio u Ollama. Para producción y servidores, Linux es el estándar.
Relacionado en AIHARD