Cómo ejecutar LLMs en tu PC sin internet: la guía completa 2026

Publicidad
En 2026, ejecutar un modelo de lenguaje comparable a ChatGPT directamente en tu laptop —sin conexión a internet, sin suscripción mensual y sin que ninguna empresa vea tus conversaciones— ya no es ciencia ficción. Es algo que puedes hacer esta tarde.
El obstáculo real no es técnico. Es de información: ¿qué herramienta instalas? ¿qué modelo descargas? ¿qué necesita tu PC para que funcione sin convertirse en un ventilador de avión? Esta guía responde esas tres preguntas con datos actualizados de abril de 2026.
¿Por qué ejecutar un LLM localmente?
La razón número uno que escuchamos es privacidad: hay conversaciones —con documentos legales, estrategias de negocio, código propietario, datos de salud— que simplemente no quieres enviar a servidores en California, Irlanda o China.
La segunda razón es económica. ChatGPT Plus cuesta USD $20/mes. Claude Pro, USD $20/mes. Si trabajas con IA a diario en varios proyectos, eso suma. Un modelo local bien configurado puede reemplazar el 70–80 % de esos usos sin costo recurrente.
La tercera: personalización. Los modelos locales pueden ejecutarse sin filtros de contenido, ajustarse con tus propios documentos (RAG), e integrarse en pipelines de automatización sin límites de API.
Qué necesitas: requisitos reales por modelo
El cuello de botella no es el CPU ni el almacenamiento. Es la RAM (o VRAM de GPU). Un modelo de lenguaje se carga completamente en memoria para ejecutarse rápido; si no cabe, el sistema usa el disco y la velocidad se vuelve inutilizable.
Requerimientos de RAM por tamaño de modelo — guía práctica 2026
| RAM disponible | Modelos viables | Velocidad esperada | Caso de uso |
|---|---|---|---|
| 8 GB | Gemma 4 e4b, Phi4 Mini (3.8B), Qwen3 1.7B | 15–30 tok/s | Chat básico, resúmenes, código simple |
| 16 GB | Llama 3.2 3B, Gemma 3 12B, Phi4 14B, Mistral 7B | 10–25 tok/s | Uso diario general, redacción, análisis |
| 32 GB | Qwen3 14B, Gemma 3 27B, Llama 3.3 70B (Q4) | 5–15 tok/s | Razonamiento complejo, documentos largos |
| 64 GB+ | DeepSeek-R1 70B, Llama 3.1 405B (Q4) | 2–8 tok/s | Proyectos avanzados, benchmarking personal |
Nota sobre cuantización: los modelos grandes disponibles en Ollama y LM Studio están en formato GGUF (Q4 o Q8), lo que significa que están comprimidos. Un modelo de “70B parámetros en Q4” no ocupa 70B × 4 bytes = 280 GB, sino aproximadamente 40–45 GB. Por eso un modelo Llama 3.3 70B puede caber en 64 GB de RAM con espacio para el sistema operativo.
Las 3 herramientas principales para 2026
Ollama — el motor de fondo preferido por desarrolladores
Ollama es una herramienta de línea de comandos que gestiona modelos locales como un servicio de fondo. No tiene interfaz gráfica propia, pero esa es exactamente su fortaleza: expone una API compatible con OpenAI en localhost:11434, lo que permite conectar cualquier frontend (Open WebUI, Chatbox, Continue para VS Code) con un solo comando.
Con más de 112 millones de descargas del modelo llama3.1 y 82 millones de deepseek-r1 en su biblioteca, Ollama es el estándar de facto para correr modelos locales en 2026.
Instalación (macOS/Linux):
curl -fsSL https://ollama.com/install.sh | sh
Instalación (Windows): Descarga el instalador desde ollama.com/download.
# Descargar y ejecutar un modelo en un comando:
ollama run gemma3:12b
# Listar modelos descargados:
ollama list
# Ejecutar como servidor con API:
ollama serve
Lo que Ollama hace mejor: integración con herramientas como Open WebUI (interfaz web estilo ChatGPT), automatización vía CLI, y proyectos que mezclan múltiples modelos.
Limitación: sin GUI propia. Para usuarios que buscan una experiencia click-and-use, necesita complementarse con otra herramienta.
LM Studio 0.4.9 — la app de escritorio todo-en-uno
LM Studio es una aplicación de escritorio (Windows, macOS, Linux) con interfaz gráfica completa: buscador de modelos integrado, chat, y desde la versión 0.4.x, soporte para despliegue sin GUI (llmster) en servidores o CI.
La versión 0.4.9 (abril 2026) introdujo LM Link, que permite conectarse a instancias remotas de LM Studio como si fueran locales. Esto es útil si tienes un PC potente en casa y quieres usarlo desde un portátil ligero vía red local.
Lo que LM Studio hace mejor: experiencia de usuario pulida, soporte nativo de modelos Apple MLX (optimizados para chips M1/M2/M3/M4), y cambio entre modelos con un click.
Instalación: Descarga directa desde lmstudio.ai/download. Sin dependencias externas.
Limitación: más pesado que Ollama (app Electron), y la versión gratuita tiene algunas restricciones en usos comerciales a escala.
Jan.ai — la alternativa open source con todo incluido
Jan.ai es 100 % open source (Apache 2.0), con interfaz gráfica propia, gestión de modelos integrada, y servidor local compatible con OpenAI. Es la opción más transparente: puedes auditar exactamente qué hace con tus datos.
Lo que Jan.ai hace mejor: usuarios que priorizan software completamente abierto sobre comodidad, y quienes quieren una alternativa sin ninguna componente propietaria.
¿Cuál elegir?
Ollama vs LM Studio vs Jan.ai — comparativa directa 2026
| Criterio | Ollama | LM Studio | Jan.ai |
|---|---|---|---|
| Interfaz gráfica | ❌ (requiere frontend externo) | ✅ Completa | ✅ Completa |
| API compatible OpenAI | ✅ | ✅ | ✅ |
| Modelos Apple MLX | ✅ | ✅ (mejor soporte) | ✅ |
| Open source 100 % | ✅ | ❌ (núcleo propietario) | ✅ |
| Despliegue en servidor | ✅ (nativo) | ✅ (llmster, v0.4+) | ✅ |
| Facilidad para principiantes | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Velocidad de arranque | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
Recomendación por perfil:
- Desarrolladores y automatizadores → Ollama + Open WebUI
- Usuarios generales con PC potente → LM Studio
- Usuarios con Mac Silicon → LM Studio (mejor soporte MLX)
- Máxima privacidad y transparencia → Jan.ai
Los mejores modelos para 2026 (por caso de uso)
Con miles de modelos disponibles, la pregunta real es cuál descargar primero. Aquí están los que funcionan mejor en la práctica en español, con datos actualizados de abril de 2026.
Gemma 4 — el recién llegado de Google (abril 2026)
Google lanzó Gemma 4 hace apenas días (la versión gemma4 en Ollama tiene 965K descargas en menos de una semana). Los modelos e2b y e4b están diseñados para dispositivos cotidianos —laptops, tablets, teléfonos— con eficiencia superior por parámetro.
ollama run gemma4:e4b # Recomendado para 8 GB RAM
ollama run gemma4:26b # Para 32 GB RAM
Por qué importa: Gemma 4 es el primer modelo de Google diseñado explícitamente para ejecución eficiente en hardware de consumo. Los modelos Vision, Tools y Thinking en la misma familia lo hacen especialmente versátil.
Qwen3 — el mejor en idiomas distintos al inglés
Qwen3 (Alibaba) es consistentemente el modelo local con mejor español en benchmarks independientes de 2026. Su soporte para 128K tokens de contexto y el modo “Thinking” (razonamiento paso a paso similar a o1) en un modelo local son capacidades difíciles de superar.
ollama run qwen3:8b # 8–16 GB RAM
ollama run qwen3:32b # 32–48 GB RAM
Punto fuerte para hispanoablantes: entrenado con un corpus significativamente mayor en español y otros idiomas no-ingleses que Llama o Phi. La calidad del español es notablemente superior en redacción formal y análisis de textos en castellano.
Llama 3.3 — el equilibrio de Meta
Llama 3.3 70B ofrece rendimiento comparable al Llama 3.1 405B en muchos benchmarks, pero con solo el 17 % del tamaño. Con 3.6 millones de descargas en Ollama, es el modelo “premium” más popular para usuarios con 32–64 GB de RAM.
ollama run llama3.3:70b # ~40 GB en Q4 — requiere 64 GB RAM
DeepSeek-R1 — para razonamiento y código
Para tareas de matemáticas, programación o análisis que requieren razonamiento profundo, DeepSeek-R1 sigue siendo referencia. Con 82 millones de descargas, su modo “thinking” (visible en LM Studio y Open WebUI) muestra el proceso de razonamiento completo.
ollama run deepseek-r1:7b # 8 GB RAM — versión distilada
ollama run deepseek-r1:14b # 16 GB RAM
ollama run deepseek-r1:32b # 32 GB RAM
Nota: las versiones de 7B y 14B son destilaciones (entrenadas con el conocimiento del modelo 671B). Tienen la calidad del pensamiento estructurado pero con los requerimientos del tamaño pequeño.
Phi4 — la sorpresa de Microsoft
Phi4 (14B parámetros, 7.4M descargas) es el modelo más eficiente por parámetro de los que evaluamos. En código Python, JavaScript y TypeScript supera a modelos mucho más grandes. Requiere solo 12–16 GB de RAM con cuantización Q4.
ollama run phi4:14b # 16 GB RAM, ideal para código
Mejores modelos locales en 2026 — guía de selección
| Modelo | Tamaño | RAM mínima | Mejor para | Español |
|---|---|---|---|---|
| Gemma 4 e4b | ~4B | 8 GB | General + visión + eficiencia | ⭐⭐⭐⭐ |
| Qwen3 8B | 8B | 8-10 GB | Chat, análisis, redacción en español | ⭐⭐⭐⭐⭐ |
| Phi4 14B | 14B | 16 GB | Código, lógica, matemáticas | ⭐⭐⭐⭐ |
| Llama 3.2 3B | 3B | 6 GB | Velocidad, chat ligero | ⭐⭐⭐⭐ |
| DeepSeek-R1 14B | 14B | 16 GB | Razonamiento complejo, código | ⭐⭐⭐ |
| Qwen3 32B | 32B | 32-40 GB | Análisis profundo, documentos largos | ⭐⭐⭐⭐⭐ |
| Llama 3.3 70B | 70B (Q4) | 48-64 GB | Mejor calidad posible localmente | ⭐⭐⭐⭐⭐ |
Puesta en marcha en 10 minutos: guía paso a paso
Opción A: Ollama + Open WebUI (recomendada para usuarios que quieren interfaz web)
Paso 1: Instala Ollama desde ollama.com/download.
Paso 2: Descarga tu primer modelo. Para 16 GB RAM, empezamos con Qwen3 8B:
ollama pull qwen3:8b
(Descarga ~5 GB; tardará según tu conexión)
Paso 3: Instala Open WebUI con Docker (si lo tienes) o con pip:
pip install open-webui
open-webui serve
Abre http://localhost:8080 en tu navegador. Tendrás una interfaz idéntica a ChatGPT conectada a tus modelos locales.
Paso 4: En Open WebUI, selecciona qwen3:8b en el selector de modelos y empieza a chatear.
Opción B: LM Studio (recomendada para principiantes en Windows/Mac)
Paso 1: Descarga LM Studio desde lmstudio.ai/download e instala.
Paso 2: En la pestaña “Discover”, busca “Qwen3” o “Gemma 4”. Haz click en el modelo y selecciona la cuantización Q4_K_M (balance velocidad/calidad).
Paso 3: Click en “Load”. LM Studio carga el modelo y muestra el chat. Puedes empezar a escribir.
Paso 4 (opcional): Activa el servidor local en “Local Server” → “Start Server” para usar el modelo con cualquier herramienta compatible con la API de OpenAI.
Los 3 errores más comunes (y cómo evitarlos)
Error 1: Elegir un modelo demasiado grande
El síntoma: el modelo carga, pero genera 1–2 tokens por segundo. El texto aparece letra a letra como si fuera 1995.
La causa: el modelo no cabe en RAM y el sistema usa el disco como memoria de intercambio (swap/page file). A 1–2 tok/s, una respuesta de 200 palabras tarda 4 minutos.
La solución: empieza siempre con el modelo más pequeño que resuelva tu caso de uso. Si tienes 16 GB de RAM, no descargues el 70B. El Qwen3 8B o el Phi4 14B resolverán el 90 % de tus necesidades con velocidad usable.
Error 2: Ignorar el formato del modelo
Hay dos formatos principales: GGUF (para CPU + GPU mixto, universal) y MLX (solo Apple Silicon, pero notablemente más rápido en Macs con chips M).
Si tienes un Mac M2 o superior, los modelos MLX en LM Studio son entre 2 y 4 veces más rápidos que sus equivalentes GGUF. Busca “MLX” en el buscador de LM Studio.
Error 3: No usar el modo de chat correcto
Los modelos locales tienen dos modos:
- Instruct/Chat: optimizado para conversación y seguir instrucciones. Es lo que quieres en el 95 % de los casos.
- Base: el modelo sin fine-tuning. Completa texto en lugar de responder preguntas. No lo uses para chat.
En Ollama, todos los modelos del repositorio oficial son versiones instruct. En LM Studio, comprueba que el modelo tenga “instruct” o “chat” en el nombre.
Privacidad: qué sale de tu PC y qué no
Con Ollama o LM Studio ejecutando modelos localmente:
- Tus conversaciones: permanecen en tu máquina. No se envían a ningún servidor. ✅
- El modelo en sí: fue descargado de Ollama (ollama.com) o Hugging Face. Esas descargas sí pasan por internet, una sola vez.
- Métricas de uso de Ollama: Ollama no recopila contenido de conversaciones ni envía telemetría al ejecutarse localmente. Por diseño, todo el procesamiento ocurre en tu máquina.
- LM Studio: la app tiene políticas similares. El modo offline funciona completamente sin conexión una vez que el modelo está descargado.
En la práctica: para usuarios que buscan privacidad real de sus conversaciones, los modelos locales son la opción más sólida disponible hoy.
Configuraciones avanzadas que vale la pena conocer
Conectar con aplicaciones que ya usas
Una vez que Ollama está corriendo, el endpoint http://localhost:11434/v1 simula la API de OpenAI. Esto significa que puedes usarlo directamente en:
- Continue (plugin VS Code para autocompletado con IA): apunta al modelo local con un cambio de configuración
- Chatbox (app de escritorio cross-platform): añade tu servidor Ollama como proveedor
- LangChain / LlamaIndex: reemplaza
openai.ChatOpenAIconOllamaLLMen una línea
RAG: hacer que el modelo conozca tus documentos
RAG (Retrieval-Augmented Generation) permite conectar el modelo a tu base de documentos privados. Herramientas como Open WebUI (incluye RAG nativo) o AnythingLLM lo configuran sin código. El modelo responderá usando el contenido de tus PDFs, notas o bases de datos internas, sin enviar esos documentos a ningún servidor externo.
Múltiples modelos en paralelo
Ollama puede gestionar varios modelos simultáneamente. La configuración OLLAMA_NUM_PARALLEL=2 permite correr dos modelos en paralelo si tienes RAM suficiente. Útil para pipelines automatizados donde diferentes modelos resuelven tareas específicas.
¿Vale la pena en 2026 frente a ChatGPT?
La respuesta honesta: depende del caso de uso.
Modelos locales vs ChatGPT/Claude — cuándo elegir cada uno
| Escenario | Modelos locales | ChatGPT / Claude |
|---|---|---|
| Privacidad total de conversaciones | ✅ Primera opción | ❌ Datos en servidores externos |
| Costo para uso intensivo (>2h/día) | ✅ Gratis una vez descargado | ⚠️ USD $20/mes |
| Calidad de respuesta en tareas complejas | ⭐⭐⭐⭐ (modelos 32B+) | ⭐⭐⭐⭐⭐ |
| Velocidad de respuesta | ⚠️ Depende del hardware | ✅ Consistente |
| Integración con herramientas externas | ⭐⭐⭐⭐ (via API local) | ⭐⭐⭐⭐⭐ |
| Funcionamiento sin internet | ✅ Total | ❌ Requiere conexión |
| Modelos especializados / fine-tuned | ✅ Miles disponibles | ⚠️ Solo los que ofrece OpenAI |
La conclusión práctica de 2026: los modelos locales son una herramienta complementaria, no un reemplazo universal. Para conversaciones privadas, uso sin internet, integración en pipelines propios, o cuando el presupuesto importa, son la primera opción. Para tareas que requieren la máxima capacidad disponible o acceso a modelos de búsqueda web, los servicios en la nube siguen liderando.
El escenario óptimo para muchos usuarios: Ollama o LM Studio para el trabajo diario privado + una suscripción Cloud para las tareas que realmente lo requieren.
Recursos para continuar:
- Ollama Library — catálogo completo de modelos disponibles
- Open WebUI — interfaz web para Ollama
- LM Studio — app de escritorio todo-en-uno
- Jan.ai — alternativa open source completa
Ver también: DeepSeek review — la IA gratuita sin necesidad de instalación · Las mejores herramientas de IA gratuitas en 2026.
Publicidad