Precios · plataforma
Tu entorno privado de IA, corriendo 10× más rápido. Soberano de verdad.
Coding assistant y endpoints de inferencia con los modelos open-source de última generación —GLM 5.1, Qwen 3.6, Llama 3.3, DeepSeek V3.5— sobre GPUs NVIDIA B200 dedicadas en Madrid. Tu código y tus prompts nunca salen del perímetro.
10×
Más rápido que un MacBook M4 Max con el mismo modelo
3.2×
Más rápido que una workstation RTX 6000 Ada
95 ms
Tiempo hasta el primer token (prompt 2k)
3-5
Desarrolladores concurrentes por slice
Cómo funciona la fracción
Tu porción de GPU es tuya. Por hardware. Todo el tiempo.
Usamos NVIDIA Multi-Instance GPU (MIG): el B200 se parte físicamente en instancias aisladas. Cada slice tiene su propio compute, memoria HBM3e, caché y ancho de banda. No compites con nadie por ciclos. Tu 1/4 es siempre tu 1/4, aunque el resto esté a tope.
- Aislamiento por hardware (no time-slicing, no virtualización): los SMs, la memoria y la caché están físicamente separados entre slices.
- Ancho de banda garantizado: la fracción de HBM3e que te corresponde no se ralentiza si otros clientes saturan su slice.
- Reservado 24/7 con contrato mensual, u on-demand por horas cuando tienes picos de carga.
Cada slice = SMs + HBM3e + L2 cache + NVDEC/NVENC aislados · sin noisy neighbor
Velocidad real
Los mismos modelos, cambiando solo dónde corren.
Tokens por segundo en inferencia single-user, Llama 3.3 70B y Qwen 3.6 Coder 32B. La diferencia no es sutil —y determina si un coding assistant se siente instantáneo o frustrante.
Fuentes: NVIDIA MLPerf Inference v4.1 · Blackwell whitepaper · vLLM · Apple MLX · LocalLLaMA. Cifras conservadoras.
MacBook Pro M4 Max
128 GB unified · MLX · Q4
RTX 6000 Ada
48 GB · AWQ-4bit · workstation
1/4 B200 · GPU Solutions
MIG · 48 GB HBM3e · FP8 nativo
La inferencia de LLMs está limitada por ancho de banda de memoria, no por FLOPS. HBM3e multiplica por ~2× la bandwidth de GDDR6 de la RTX 6000 Ada y por ~4× la memoria unificada del M4 Max —por eso una slice de B200 bate a ambos ejecutando los mismos modelos. Los modelos grandes (72B+, MoE) no caben en workstations sin degradar calidad. En B200 caben a precisión nativa FP8.
Por qué una slice dedicada
Tu IA, en tu perímetro. Sin excepciones.
Con una API pública, tus prompts entrenan al siguiente modelo y tus datos cruzan tres continentes antes de volver. Con una slice dedicada en Madrid, nada sale. Mismo modelo, entorno aislado, compliance por diseño —y encima, 10× más rápido.
Lo que pasa en tu slice, se queda en tu slice
Privacidad, compliance y soberanía incluidos. No son add-ons.
Datos en España, 100%
Prompts, embeddings y respuestas nunca salen de Madrid. Cero exposición al CLOUD Act, cero sub-procesadores en EE.UU., cero transferencias internacionales que firmar con Legal.
Modelo y contexto privados
Tu slice B200 es tuya con MIG hardware-isolation. Ni tus inputs entrenan al siguiente modelo, ni tu throughput depende del cliente de al lado. Nadie más toca tus pesos.
ISO 27001 + ENS Media incluidos
Tu auditor recibe los certificados directamente. Tu CISO cierra la ronda de due diligence sin ampliar el SoA. Sin auditorías adicionales, sin DPAs ambiguos.
Endpoint dedicado, no compartido
HTTPS privado con mTLS + VPN, solo accesible desde tus IPs. Sin rate limits impuestos, sin colas de inferencia. La latencia es tuya, 24/7.
Co-ubicación con InfiniBand
Tu pod, tu storage y tus tokens viven en el mismo rack, cosidos por InfiniBand. Menos saltos, menos latencia, cero egress cross-region. Tu agente multi-step no se ahoga en la red.
La analogía
Madrid → Nueva York son los mismos 5.750 km. En barco o en avión.
En barco
5.750 km
10 días
En avión
5.750 km
7 horas
Nadie paga por kilómetros. Pagas por llegar a tiempo.
Lo mismo en IA
Un millón de tokens de Llama 3.3 70B. Según dónde corra.
MacBook M4 Max · 12 t/s
1M tokens
23 horas
RTX 6000 Ada · 35 t/s
1M tokens
8 horas
1/4 B200 en GPU Solutions · 115 t/s
1M tokens
2,4 horas
Mismo trabajo hecho. Una décima parte del tiempo de tu equipo esperando.
Y encima, el tiempo se paga solo
El ahorro operativo es un efecto secundario. Aún así, cubre la slice 5×.
Equipo
10 devs
× 80 €/h
Tiempo muerto
30 min/día
× 220 días lab.
Coste anual perdido
88.000 €
1100 h/año paradas
Slice 1/4 anual
14.280 €
Slice 1/4 reservada
Retorno sobre tiempo
+ 73.720 €/año
6× la sliceEl verdadero motivo para cambiar es la soberanía y el compliance. El tiempo recuperado es el bonus que convence a Finanzas.
Datos tuyos, modelo tuyo, latencia tuya. Y de paso, tu equipo deja de esperar.
Combínalos
Tres modos. El combo lo montas tú.
Reserva una slice para tu modelo propio. Añade horas sueltas cuando pique el tráfico. Y tira de tokens Token Factory para un modelo grande cuando no quieras gestionar la GPU. Todo en el mismo clúster, todo soberano, cada línea facturada por separado —sin sorpresas.
€/mes · GPU dedicada
Cobro mensual fijo por una slice de MIG 24/7. La GPU es tuya: arrancas y apagas cuando quieras sin perder la asignación. Ideal para equipos de desarrollo y producción estable.
Mejor para producción estable
€/hora · pago por uso
Arrancas una slice o GPU completa y pagas por hora hasta que la apagas. Sin compromiso, sin reserva previa. Disponibilidad inmediata desde el dashboard o la API.
Mejor para picos de carga y POCs
€/1M tokens · Token Factory
Pagas solo por los tokens que genera el modelo. Sin gestión de GPU. Llama el endpoint HTTPS privado desde tu aplicación. Perfecto para inferencia a escala variable.
Mejor para inferencia en producto
GPU Compute con MIG
Desde 1/4 hasta clúster completo. Siempre dedicado.
Tres tamaños de slice con MIG (1/4, 1/2, 1 GPU completa), más clúster HGX 8× para entrenamiento y workloads enterprise. Mismo API, misma latencia por slice, pasa de prototipo a escala sin migración.
01 / Slice
1/4
B200
Coding assistant para 3-5 devs · fine-tuning ligero · modelos hasta 70B con contexto grande. El punto de entrada.
Reservado
1.190 €/mes
On-demand
1,95 €/hora
02 / Half
1/2
B200
Producción real para 8-12 devs · inferencia con 70B a precisión nativa FP8 · entrenamiento de modelos pequeños-medianos.
Reservado
2.290 €/mes
On-demand
3,95 €/hora
03 / Full B200
1 ×
B200
Modelos 72B a FP8 full precision · inferencia de alto throughput para equipos de 15+ devs · entrenamiento distribuido.
Reservado
5.990 €/mes
On-demand
7,90 €/hora
04 / HGX Cluster
8 ×B200
8× B200 con NVLink 5 intra-nodo e InfiniBand NDR entre nodos · entrenamiento de foundation models · inferencia a escala · compliance enterprise dedicado.
Token Factory
Los modelos open-source más recientes. Servidos rápido.
Cobramos algo más por millón de tokens. A cambio, ni tus prompts ni tu contexto salen de Madrid — y los tokens se generan en el mismo clúster donde vive tu pod, cosidos por InfiniBand. Más soberanía y, porque están al lado, más velocidad.
Precios en euros por millón de tokens, facturación por uso real, lista pública para volumen retail. Velocidad en tokens/segundo single-user sobre una slice de 1/4 B200; en configuración 1/2 y full escala proporcionalmente. ¿Volumen alto o modelo propio sobre slice dedicada? Hacemos deploy en endpoint privado con tarifa negociada —pregunta.
Dónde vive tu código
Tres opciones. Una te las da todas.
No hay una opción que sea la correcta para siempre. Hay una que combina velocidad, privacidad y potencia al mismo tiempo —y las otras dos te obligan a ceder en alguna.
Local, en tu máquina
Máxima privacidad física —nada sale de la máquina— pero limitado por RAM y ancho de banda. Los modelos grandes no caben o corren lentos. Tu portátil es inutilizable durante la inferencia.
Gana privacidad · pierde velocidad y capacidad
API de terceros
Rápido y con modelos potentes, pero cada prompt viaja a servidores ajenos, con políticas de retención variables y jurisdicción que cambia según el proveedor. El compliance interno te va a costar horas.
Gana velocidad · pierde privacidad
Clúster dedicado en Madrid
Velocidad de clúster B200 con HBM3e, modelos de última generación a precisión nativa, y aislamiento a nivel de VM. Tus prompts y tu código procesan aquí. Residencia 100% en España, ISO 27001 y ENS Media certificados.
Velocidad · privacidad · potencia
Todos los planes incluyen
Propuesta personalizada
Cada caso de uso es distinto. Dinos qué quieres hacer y te mandamos una propuesta concreta en menos de 24 horas.