Economía15 de abril de 20268 min lectura

Inferencia privada: la velocidad que ahorra dinero (y las cuentas que lo prueban)

El precio por token es la mitad del coste. La otra mitad es tu equipo esperando. Calculamos el punto exacto en el que una slice dedicada sale más barata que cualquier API pública.

La discusión de pricing en IA se ha quedado anclada en un eje: €/M tokens. Es un buen eje para comparar proveedores de texto genérico, pero es un pésimo eje cuando la IA entra en tu flujo de trabajo real. Ahí el coste relevante no son los tokens —es el tiempo de tu equipo esperando a que los tokens lleguen.

Cuándo tiene sentido una slice dedicada

Los proveedores públicos de tokens OSS (Groq, Together, Fireworks) están entre 0,60 €/M y 0,90 €/M de output para un modelo 70B. Nosotros estamos en 1,60 €/M. Sobre el papel somos 2× más caros. Pero metamos la velocidad en la ecuación y los números cambian.

Llama 3.3 70B en RTX 6000 Ada

~35 tok/s — 8 horas para generar 1M tokens

Llama 3.3 70B en 1/4 B200 MIG

~115 tok/s — 2,4 horas para el mismo millón

Llama 3.3 70B en un pod compartido público

Variable: colas, rate-limits, latencia de red ES→US→ES

Llama 3.3 70B en tu slice dedicada

Fijo: cero cola, cero rate-limit, latencia Madrid→tu VPN

La cuenta real no son los segundos — son las horas

El coste obvio de un coding assistant compartido está en los segundos perdidos por autocompletado. Existe, pero no es lo que mata trimestres. Lo que mata trimestres son las horas en las que el servicio simplemente no responde. Dos patrones que vemos repetirse:

Caídas globales. Los status pages públicos de Claude, OpenAI y GitHub Copilot documentan decenas de horas de incidencias al año por servicio. Para una organización que dependa simultáneamente de varios, la exposición agregada supera fácilmente las 50 horas/año. Un equipo de solo 10 desarrolladores a 60 €/h de coste laboral totalmente cargado (estimación sobre INE ETCL 2025 para perfil sénior del sector TI) pierde por esa vía unos 30.000 €/año en tiempo directo no facturable — más del doble del coste anual de una slice 1/4 B200 reservada. Claude, OpenAI, GitHub Copilot son servicios excelentes, los usamos nosotros también, pero son best-effort: no firman un SLA contractual con penalización real para una sola empresa.

Rate-limits en concurrencia. Lunes 9:30, tu equipo arranca el sprint y los primeros 20 minutos el plugin devuelve 429. No es caída — es rate-limit compartido porque hay un cliente grande drenando capacidad. El tiempo perdido no aparece en ningún dashboard de estado público y tus desarrolladores asumen que "hoy la IA va lenta".

Una slice dedicada no elimina que nosotros también tengamos mantenimientos y fallos — los tenemos. Lo que elimina es el acoplamiento con la saturación de un servicio global compartido entre miles de clientes. Tu slice es tuya, con SLA contractual, sin vecinos ruidosos, y con un teléfono local en Madrid al que se contesta.

Cuándo te conviene cada modelo — y los dos los tenemos nosotros

Aclaración importante: ofrecemos los dos productos. Token Factory (per-token, servido desde Madrid) para consumo flexible, y slice dedicada (GPU Compute reservado) para capacidad fija. La elección no es "nosotros contra alguien" — es qué producto nuestro encaja con tu patrón de consumo.

Slice 1/4 B200 reservada: ~1.190 €/mes. Capacidad práctica: 200-300M tokens/mes antes de saturar. Token Factory corre sobre la misma infraestructura física, en la misma jurisdicción.

Consumo bajo o bursty (<50M tokens/mes)

Token Factory — no justifica reservar capacidad

Consumo variable con picos

Token Factory — elasticidad sin comprometer presupuesto

Consumo constante + datos sensibles + NIS2/GDPR

Slice dedicada — aislamiento hardware, jurisdicción única

Latencia determinista o SLA contractual estricto

Slice dedicada — cero cola, cero rate-limit

200M+ tokens/mes sostenidos

Slice dedicada — amortización y capacidad fija

El €/token puro rara vez es el eje que decide. Cuando el consumo es bajo, gana Token Factory por simplicidad. Cuando es constante y crítico, gana la slice por determinismo y jurisdicción. Y como los dos salen del mismo Tier III de Madrid, la pregunta de soberanía queda resuelta en cualquiera de los dos.

“El sweet spot está en equipos de 4-15 desarrolladores con flujo constante, código sensible y CFO que pregunta. Una slice de B200 les ahorra dinero el primer mes.”

— Análisis interno GPU Solutions, Q1 2026

Lo que no entra en la hoja de Excel

El ahorro medible (horas × tarifa) es la mitad del caso. La otra mitad no aparece en las cuentas porque es un coste evitado: la pérdida de concentración cada vez que esperas. Un desarrollador que se va a Reddit 10 segundos mientras espera un autocompletado ha salido del contexto de la tarea. Volver cuesta entre 23 segundos y 23 minutos según la literatura (Mark, 2008; Czerwinski 2004). Ese coste no aparece en ninguna factura, pero es el que destruye la productividad real.

La parte soberana

Los números de arriba son los duros. Pero hay otro factor que cambia la ecuación en banca, sector público, defensa y salud: si tu API pública está sujeta a CLOUD Act, la slice dedicada no compite con ella en €/token, compite con ella en 'existe como opción'. Nosotros operamos un único datacenter Tier III en Madrid, con ISO 27001 y ENS Media ya certificados, aislamiento VM y slices MIG por hardware. Cuando el regulador pregunta dónde procesas los datos, la respuesta es una sola ciudad y una sola jurisdicción.