GPU Solutions

Precios · plataforma

Tu entorno privado de IA, corriendo 10× más rápido. Soberano de verdad.

Coding assistant y endpoints de inferencia con los modelos open-source de última generación —GLM 5.1, Qwen 3.6, Llama 3.3, DeepSeek V3.5— sobre GPUs NVIDIA B200 dedicadas en Madrid. Tu código y tus prompts nunca salen del perímetro.

10×

Más rápido que un MacBook M4 Max con el mismo modelo

3.2×

Más rápido que una workstation RTX 6000 Ada

95 ms

Tiempo hasta el primer token (prompt 2k)

3-5

Desarrolladores concurrentes por slice

Cómo funciona la fracción

Tu porción de GPU es tuya. Por hardware. Todo el tiempo.

Usamos NVIDIA Multi-Instance GPU (MIG): el B200 se parte físicamente en instancias aisladas. Cada slice tiene su propio compute, memoria HBM3e, caché y ancho de banda. No compites con nadie por ciclos. Tu 1/4 es siempre tu 1/4, aunque el resto esté a tope.

  • Aislamiento por hardware (no time-slicing, no virtualización): los SMs, la memoria y la caché están físicamente separados entre slices.
  • Ancho de banda garantizado: la fracción de HBM3e que te corresponde no se ralentiza si otros clientes saturan su slice.
  • Reservado 24/7 con contrato mensual, u on-demand por horas cuando tienes picos de carga.
NVIDIA B200 · MIG
192 GB HBM3e
1/4
48 GB
1/4
48 GB
1/4
48 GB
1/4
48 GB
Compute · memoria · caché dedicadosBandwidth por slice · ~2 TB/s

Cada slice = SMs + HBM3e + L2 cache + NVDEC/NVENC aislados · sin noisy neighbor

Velocidad real

Los mismos modelos, cambiando solo dónde corren.

Tokens por segundo en inferencia single-user, Llama 3.3 70B y Qwen 3.6 Coder 32B. La diferencia no es sutil —y determina si un coding assistant se siente instantáneo o frustrante.

Fuentes: NVIDIA MLPerf Inference v4.1 · Blackwell whitepaper · vLLM · Apple MLX · LocalLLaMA. Cifras conservadoras.

desliza para ver completo
Métrica

MacBook Pro M4 Max

128 GB unified · MLX · Q4

RTX 6000 Ada

48 GB · AWQ-4bit · workstation

1/4 B200 · GPU Solutions

MIG · 48 GB HBM3e · FP8 nativo

Memoria disponible
≈ 96 GB útil
48 GB GDDR6
48 GB HBM3e
Ancho de banda
546 GB/s
960 GB/s
≈ 2 TB/s
Compute pico
34 TFLOPS FP16
365 TFLOPS FP8
1,1 PFLOPS FP8
Llama 3.3 70B
12 tok/s
36 tok/s
115 tok/s
Qwen 3.6 Coder 32B
48 tok/s
88 tok/s
320 tok/s
GLM 5.1 235B · MoE
22 tok/s
62 tok/s
205 tok/s
TTFT · prompt 2k
820 ms
450 ms
95 ms
Devs concurrentes
1
1-2
3-5
Contexto
Portátil de ingeniero sénior
Workstation ~8.500 €
Desde 750 €/mes · sin CapEx

La inferencia de LLMs está limitada por ancho de banda de memoria, no por FLOPS. HBM3e multiplica por ~2× la bandwidth de GDDR6 de la RTX 6000 Ada y por ~4× la memoria unificada del M4 Max —por eso una slice de B200 bate a ambos ejecutando los mismos modelos. Los modelos grandes (72B+, MoE) no caben en workstations sin degradar calidad. En B200 caben a precisión nativa FP8.

Por qué una slice dedicada

Tu IA, en tu perímetro. Sin excepciones.

Con una API pública, tus prompts entrenan al siguiente modelo y tus datos cruzan tres continentes antes de volver. Con una slice dedicada en Madrid, nada sale. Mismo modelo, entorno aislado, compliance por diseño —y encima, 10× más rápido.

Lo que pasa en tu slice, se queda en tu slice

Privacidad, compliance y soberanía incluidos. No son add-ons.

01

Datos en España, 100%

Prompts, embeddings y respuestas nunca salen de Madrid. Cero exposición al CLOUD Act, cero sub-procesadores en EE.UU., cero transferencias internacionales que firmar con Legal.

02

Modelo y contexto privados

Tu slice B200 es tuya con MIG hardware-isolation. Ni tus inputs entrenan al siguiente modelo, ni tu throughput depende del cliente de al lado. Nadie más toca tus pesos.

03

ISO 27001 + ENS Media incluidos

Tu auditor recibe los certificados directamente. Tu CISO cierra la ronda de due diligence sin ampliar el SoA. Sin auditorías adicionales, sin DPAs ambiguos.

04

Endpoint dedicado, no compartido

HTTPS privado con mTLS + VPN, solo accesible desde tus IPs. Sin rate limits impuestos, sin colas de inferencia. La latencia es tuya, 24/7.

05

Co-ubicación con InfiniBand

Tu pod, tu storage y tus tokens viven en el mismo rack, cosidos por InfiniBand. Menos saltos, menos latencia, cero egress cross-region. Tu agente multi-step no se ahoga en la red.

La analogía

Madrid → Nueva York son los mismos 5.750 km. En barco o en avión.

En barco

5.750 km

10 días

En avión

5.750 km

7 horas

Nadie paga por kilómetros. Pagas por llegar a tiempo.

Lo mismo en IA

Un millón de tokens de Llama 3.3 70B. Según dónde corra.

MacBook M4 Max · 12 t/s

1M tokens

23 horas

RTX 6000 Ada · 35 t/s

1M tokens

8 horas

1/4 B200 en GPU Solutions · 115 t/s

1M tokens

2,4 horas

Mismo trabajo hecho. Una décima parte del tiempo de tu equipo esperando.

Y encima, el tiempo se paga solo

El ahorro operativo es un efecto secundario. Aún así, cubre la slice 5×.

01

Equipo

10 devs

× 80 €/h

02

Tiempo muerto

30 min/día

× 220 días lab.

03

Coste anual perdido

88.000 €

1100 h/año paradas

04

Slice 1/4 anual

14.280 €

Slice 1/4 reservada

Retorno sobre tiempo

+ 73.720 €/año

6× la slice

El verdadero motivo para cambiar es la soberanía y el compliance. El tiempo recuperado es el bonus que convence a Finanzas.

Datos tuyos, modelo tuyo, latencia tuya. Y de paso, tu equipo deja de esperar.

Combínalos

Tres modos. El combo lo montas tú.

Reserva una slice para tu modelo propio. Añade horas sueltas cuando pique el tráfico. Y tira de tokens Token Factory para un modelo grande cuando no quieras gestionar la GPU. Todo en el mismo clúster, todo soberano, cada línea facturada por separado —sin sorpresas.

01 / Reservado€/mes

€/mes · GPU dedicada

Cobro mensual fijo por una slice de MIG 24/7. La GPU es tuya: arrancas y apagas cuando quieras sin perder la asignación. Ideal para equipos de desarrollo y producción estable.

Mejor para producción estable

02 / On-demand€/hora

€/hora · pago por uso

Arrancas una slice o GPU completa y pagas por hora hasta que la apagas. Sin compromiso, sin reserva previa. Disponibilidad inmediata desde el dashboard o la API.

Mejor para picos de carga y POCs

03 / Endpoints€/1M tokens

€/1M tokens · Token Factory

Pagas solo por los tokens que genera el modelo. Sin gestión de GPU. Llama el endpoint HTTPS privado desde tu aplicación. Perfecto para inferencia a escala variable.

Mejor para inferencia en producto

GPU Compute con MIG

Desde 1/4 hasta clúster completo. Siempre dedicado.

Tres tamaños de slice con MIG (1/4, 1/2, 1 GPU completa), más clúster HGX 8× para entrenamiento y workloads enterprise. Mismo API, misma latencia por slice, pasa de prototipo a escala sin migración.

01 / Slice

1/4

B200

Memoria48 GB HBM3e
Bandwidth≈ 2 TB/s

Coding assistant para 3-5 devs · fine-tuning ligero · modelos hasta 70B con contexto grande. El punto de entrada.

Reservado

1.190 €/mes

On-demand

1,95 €/hora

Empezar

02 / Half

1/2

B200

Más popular
Memoria96 GB HBM3e
Bandwidth≈ 4 TB/s

Producción real para 8-12 devs · inferencia con 70B a precisión nativa FP8 · entrenamiento de modelos pequeños-medianos.

Reservado

2.290 €/mes

On-demand

3,95 €/hora

Hablar con ventas

03 / Full B200

1 ×

B200

Memoria192 GB HBM3e
Bandwidth8 TB/s

Modelos 72B a FP8 full precision · inferencia de alto throughput para equipos de 15+ devs · entrenamiento distribuido.

Reservado

5.990 €/mes

On-demand

7,90 €/hora

Hablar con ventas

04 / HGX Cluster

8 ×B200

8× B200 con NVLink 5 intra-nodo e InfiniBand NDR entre nodos · entrenamiento de foundation models · inferencia a escala · compliance enterprise dedicado.

Memoria1,5 TB HBM3e
Bandwidth64 TB/s agregado
Hablar con ventas

Token Factory

Los modelos open-source más recientes. Servidos rápido.

Cobramos algo más por millón de tokens. A cambio, ni tus prompts ni tu contexto salen de Madrid — y los tokens se generan en el mismo clúster donde vive tu pod, cosidos por InfiniBand. Más soberanía y, porque están al lado, más velocidad.

ModeloParámetrosContextoInput / 1MOutput / 1MVelocidad (1/4 B200)
GLMGLM 5.1Nuevo
235B · MoE200k0,902,40180 t/s
QwenQwen 3.6
72B256k0,701,80140 t/s
QwenQwen 3.6 CoderCoding
32B256k0,401,10320 t/s
QwenQwen 3.6Rápido
14B128k0,200,55540 t/s
MetaLlama 3.3
70B128k0,601,60115 t/s
DeepSeekDeepSeek V3.5Rápido
236B · MoE128k0,451,20220 t/s
MistralMistral Large 3
123B128k0,852,2095 t/s

Precios en euros por millón de tokens, facturación por uso real, lista pública para volumen retail. Velocidad en tokens/segundo single-user sobre una slice de 1/4 B200; en configuración 1/2 y full escala proporcionalmente. ¿Volumen alto o modelo propio sobre slice dedicada? Hacemos deploy en endpoint privado con tarifa negociada —pregunta.

Dónde vive tu código

Tres opciones. Una te las da todas.

No hay una opción que sea la correcta para siempre. Hay una que combina velocidad, privacidad y potencia al mismo tiempo —y las otras dos te obligan a ceder en alguna.

01 / En tu portátil

Local, en tu máquina

Máxima privacidad física —nada sale de la máquina— pero limitado por RAM y ancho de banda. Los modelos grandes no caben o corren lentos. Tu portátil es inutilizable durante la inferencia.

Velocidad15
Privacidad70
Capacidad de modelo20

Gana privacidad · pierde velocidad y capacidad

02 / API pública

API de terceros

Rápido y con modelos potentes, pero cada prompt viaja a servidores ajenos, con políticas de retención variables y jurisdicción que cambia según el proveedor. El compliance interno te va a costar horas.

Velocidad80
Privacidad15
Capacidad de modelo85

Gana velocidad · pierde privacidad

03 / Tu slice en GPU SolutionsEquilibrada

Clúster dedicado en Madrid

Velocidad de clúster B200 con HBM3e, modelos de última generación a precisión nativa, y aislamiento a nivel de VM. Tus prompts y tu código procesan aquí. Residencia 100% en España, ISO 27001 y ENS Media certificados.

Velocidad95
Privacidad100
Capacidad de modelo100

Velocidad · privacidad · potencia

Todos los planes incluyen

ISO 27001 + ENS Media
Datos 100% en España
Aislamiento a nivel de VM
Almacenamiento encriptado
Soporte en español e inglés
Sin vendor lock-in

Propuesta personalizada

Cada caso de uso es distinto. Dinos qué quieres hacer y te mandamos una propuesta concreta en menos de 24 horas.

Pedir propuesta