GPU Solutions

Tarifs · plateforme

Votre environnement d'IA privé, exécuté 10× plus vite. Vraiment souverain.

Assistant de code et endpoints d'inférence avec les derniers modèles open source —GLM 5.1, Qwen 3.6, Llama 3.3, DeepSeek V3.5— sur GPU NVIDIA B200 dédiés à Madrid. Votre code et vos prompts ne quittent jamais le périmètre.

10×

Plus rapide qu'un MacBook M4 Max sur le même modèle

3.2×

Plus rapide qu'une station RTX 6000 Ada

95 ms

Temps jusqu'au premier token (prompt de 2k)

3-5

Développeurs simultanés par fraction

Comment fonctionne la fraction

Votre fraction est la vôtre. Par matériel. En permanence.

Nous utilisons NVIDIA Multi-Instance GPU (MIG) : la B200 est partitionnée physiquement en instances isolées. Chaque fraction dispose de son propre calcul, mémoire HBM3e, cache et bande passante. Vous ne concourez avec personne pour des cycles. Votre 1/4 reste toujours votre 1/4, même lorsque le reste du GPU est saturé.

  • Isolation matérielle (ni time-slicing, ni virtualisation) : SM, mémoire et cache sont physiquement séparés entre les fractions.
  • Bande passante garantie : votre part de HBM3e ne ralentit pas si d'autres clients saturent leur fraction.
  • Réservée 24/7 avec un contrat mensuel, ou à la demande à l'heure quand vous atteignez des pics de trafic.
NVIDIA B200 · MIG
192 GB HBM3e
1/4
48 GB
1/4
48 GB
1/4
48 GB
1/4
48 GB
Calcul · mémoire · cache dédiésBande passante par fraction · ~2 To/s

Chaque fraction = SM isolés + HBM3e + cache L2 + NVDEC/NVENC · pas de voisin bruyant

Vitesse réelle

Mêmes modèles — seul change l'endroit où ils tournent.

Tokens par seconde, inférence mono-utilisateur, Llama 3.3 70B et Qwen 3.6 Coder 32B. L'écart n'est pas subtil — et c'est lui qui détermine si un assistant de code paraît instantané ou frustrant.

Sources : NVIDIA MLPerf Inference v4.1 · whitepaper Blackwell · vLLM · Apple MLX · LocalLLaMA. Chiffres conservateurs.

faites glisser pour voir le tableau complet
Métrique

MacBook Pro M4 Max

128 Go unifiés · MLX · Q4

RTX 6000 Ada

48 Go · AWQ-4bit · station

1/4 B200 · GPU Solutions

MIG · 48 Go HBM3e · FP8 natif

Mémoire disponible
≈ 96 Go utilisables
48 Go GDDR6
48 Go HBM3e
Bande passante mémoire
546 GB/s
960 GB/s
≈ 2 TB/s
Pic de calcul
34 TFLOPS FP16
365 TFLOPS FP8
1,1 PFLOPS FP8
Llama 3.3 70B
12 tok/s
36 tok/s
115 tok/s
Qwen 3.6 Coder 32B
48 tok/s
88 tok/s
320 tok/s
GLM 5.1 235B · MoE
22 tok/s
62 tok/s
205 tok/s
TTFT · prompt 2k
820 ms
450 ms
95 ms
Devs simultanés
1
1-2
3-5
Contexte
Portable d'ingénieur senior
Station ~8 500 €
À partir de 750 €/mois · sans CapEx

L'inférence LLM est limitée par la bande passante mémoire, pas par les FLOPS. La HBM3e offre ~2× la bande passante de la GDDR6 d'une RTX 6000 Ada et ~4× celle de la mémoire unifiée du M4 Max — c'est pourquoi une fraction de B200 surpasse les deux sur les mêmes modèles. Les gros modèles (72B+, MoE) ne tiennent pas sur une station sans perte de qualité. Sur B200, ils tiennent en précision FP8 native.

Pourquoi une fraction dédiée

Votre IA, à l'intérieur de votre périmètre. Sans exception.

Avec une API publique, vos prompts entraînent le prochain modèle et vos données traversent trois continents avant de revenir. Avec une fraction dédiée à Madrid, rien ne sort. Même modèle, environnement isolé, conformité by design — et en plus, 10× plus rapide.

Ce qui se passe dans votre fraction, reste dans votre fraction

Confidentialité, conformité et souveraineté intégrées. Pas en option.

01

Données en Espagne, 100 %

Prompts, embeddings et réponses ne quittent jamais Madrid. Aucune exposition au CLOUD Act, aucun sous-traitant américain, aucun transfert international à faire signer par le service juridique.

02

Modèle et contexte privés

Votre fraction de B200 est à vous avec isolation matérielle MIG. Vos entrées n'entraînent pas le prochain modèle, et votre débit ne dépend pas du locataire d'à côté. Personne d'autre ne touche à vos poids.

03

ISO 27001 + ENS Media inclus

Votre auditeur reçoit les certificats directement. Votre RSSI clôt la due diligence sans étendre le SoA. Pas d'audit supplémentaire, pas de DPA ambigu.

04

Endpoint dédié, pas partagé

HTTPS privé avec mTLS + VPN, accessible uniquement depuis vos IP. Pas de rate limits imposés, pas de files d'attente d'inférence. La latence est la vôtre, 24/7.

05

Colocation InfiniBand

Votre pod, votre stockage et vos tokens vivent dans le même rack, câblés en InfiniBand. Moins de sauts, moins de latence, zéro sortie inter-régions. Votre agent multi-étapes ne s'étouffe pas sur le réseau.

L'analogie

Madrid → New York, ce sont les mêmes 5 750 km. Par bateau ou par avion.

Par bateau

5 750 km

10 jours

Par avion

5 750 km

7 heures

Personne ne paie pour les kilomètres. Vous payez pour arriver à l'heure.

Pareil en IA

Un million de tokens Llama 3.3 70B. Selon où ça tourne.

MacBook M4 Max · 12 t/s

1M tokens

23 heures

RTX 6000 Ada · 35 t/s

1M tokens

8 heures

1/4 B200 chez GPU Solutions · 115 t/s

1M tokens

2,4 heures

Même travail réalisé. Dix fois moins de temps perdu par votre équipe à attendre.

Et le temps se rentabilise aussi

L'économie opérationnelle est un effet de bord. Elle couvre tout de même la fraction 5×.

01

Équipe

10 devs

× 80 €/h

02

Temps mort

30 min/jour

× 220 jours ouvrés

03

Coût annuel perdu

88 000 €

1100 h/an perdues

04

Fraction 1/4 annuelle

14 280 €

fraction 1/4 réservée

Retour sur temps

+ 73 720 €/an

6× la fraction

La vraie raison de basculer, c'est la souveraineté et la conformité. Le temps récupéré, c'est le bonus qui convainc la finance.

Vos données, votre modèle, votre latence. Et votre équipe arrête d'attendre, elle aussi.

Combinez-les

Trois modes. Vous construisez la combinaison.

Réservez une fraction pour votre propre modèle. Ajoutez des bursts à l'heure quand le trafic monte. Et tirez des tokens de la Token Factory pour un gros modèle quand vous ne voulez pas gérer le GPU. Tout dans le même cluster, tout souverain, chaque ligne facturée séparément — sans surprise.

01 / Réservé€/mois

€/mois · GPU dédié

Forfait mensuel fixe pour une fraction MIG 24/7. Le GPU est à vous : démarrez et arrêtez quand vous voulez sans perdre l'allocation. Idéal pour les équipes dev et la production stable.

Idéal pour production stable

02 / À la demande€/heure

€/heure · payez à l'usage

Démarrez une fraction ou un GPU complet et payez à l'heure jusqu'à l'arrêt. Sans engagement, sans réservation. Disponible immédiatement via dashboard ou API.

Idéal pour pics et POC

03 / Endpoints€/1M tokens

€/1M tokens · Token Factory

Payez uniquement les tokens générés par le modèle. Pas de gestion GPU. Appelez l'endpoint HTTPS privé depuis votre application. Parfait pour l'inférence en production à échelle variable.

Idéal pour inférence produit

GPU Compute avec MIG

De 1/4 au cluster complet. Toujours dédié.

Trois tailles de fraction MIG (1/4, 1/2, GPU complet), plus le cluster HGX 8× pour l'entraînement et les charges entreprise. Même API, même latence par fraction, mise à l'échelle du prototype à la production sans migration.

01 / Fraction

1/4

B200

Mémoire48 GB HBM3e
Bande passante≈ 2 TB/s

Assistant de code pour 3-5 devs · fine-tuning léger · modèles jusqu'à 70B avec long contexte. Le point d'entrée.

Réservé

1.190 €/mois

À la demande

1,95 €/heure

Démarrer

02 / Demi

1/2

B200

Le plus populaire
Mémoire96 GB HBM3e
Bande passante≈ 4 TB/s

Vraie production pour 8-12 devs · inférence 70B en précision FP8 native · entraînement de modèles petits à moyens.

Réservé

2.290 €/mois

À la demande

3,95 €/heure

Parler aux ventes

03 / B200 complet

1 ×

B200

Mémoire192 GB HBM3e
Bande passante8 TB/s

Modèles 72B en FP8 pleine précision · inférence haut débit pour équipes de 15+ devs · entraînement distribué.

Réservé

5.990 €/mois

À la demande

7,90 €/heure

Parler aux ventes

04 / Cluster HGX

8 ×B200

8× B200 avec NVLink 5 intra-nœud et InfiniBand NDR inter-nœud · entraînement de modèles de fondation · inférence à grande échelle · conformité entreprise dédiée.

Mémoire1,5 TB HBM3e
Bande passante64 To/s agrégés
Parler aux ventes

Token Factory

Les derniers modèles open source. Servis vite.

Nous facturons un peu plus le million de tokens. En échange, vos prompts et votre contexte ne quittent jamais Madrid — et les tokens sont générés dans le même cluster où vit votre pod, câblés en InfiniBand. Plus de souveraineté, et parce qu'ils sont juste à côté de vous, plus de vitesse.

ModèleParamsContexteEntrée / 1MSortie / 1MVitesse (1/4 B200)
GLMGLM 5.1Nouveau
235B · MoE200k0,902,40180 t/s
QwenQwen 3.6
72B256k0,701,80140 t/s
QwenQwen 3.6 CoderCoding
32B256k0,401,10320 t/s
QwenQwen 3.6Rapide
14B128k0,200,55540 t/s
MetaLlama 3.3
70B128k0,601,60115 t/s
DeepSeekDeepSeek V3.5Rapide
236B · MoE128k0,451,20220 t/s
MistralMistral Large 3
123B128k0,852,2095 t/s

Prix en euros par million de tokens, paiement à l'usage, liste publique pour volume retail. Vitesse en tokens/seconde mono-utilisateur sur une fraction 1/4 de B200 ; 1/2 et complet s'étalent proportionnellement. Gros volume ou votre propre modèle fine-tuné sur fraction dédiée ? Nous déployons sur endpoint privé à tarif négocié — demandez-nous.

Là où vit votre code

Trois endroits. Un seul vous les offre tous.

Il n'y a pas d'option toujours juste. Il y en a une qui combine vitesse, confidentialité et capacité — et deux qui imposent un compromis.

01 / Sur votre portable

Local, sur votre machine

Confidentialité physique maximale — rien ne quitte l'appareil — mais bornée par la RAM et la bande passante. Les gros modèles ne tiennent pas ou tournent lentement. Votre portable est inutilisable pendant l'inférence.

Vitesse15
Confidentialité70
Capacité modèle20

Gagne en confidentialité · perd en vitesse et capacité

02 / API publique

API tierce

Rapide, avec des modèles puissants, mais chaque prompt voyage vers les serveurs de quelqu'un d'autre, avec des politiques de rétention variables et une juridiction qui change selon le fournisseur. La conformité interne va vous coûter des heures.

Vitesse80
Confidentialité15
Capacité modèle85

Gagne en vitesse · perd en confidentialité

03 / Votre fraction chez GPU SolutionsÉquilibré

Cluster dédié à Madrid

Vitesse du cluster B200 avec HBM3e, modèles dernière génération en précision native, isolation au niveau VM. Prompts et code traités ici. Résidence des données 100 % espagnole, certifié ISO 27001 et ENS Media.

Vitesse95
Confidentialité100
Capacité modèle100

Vitesse · confidentialité · capacité

Tous les plans incluent

ISO 27001 + ENS Media
Données 100 % en Espagne
Isolation au niveau VM
Stockage chiffré
Support en français, espagnol et anglais
Pas de verrouillage fournisseur

Proposition sur mesure

Chaque cas d'usage est différent. Dites-nous ce que vous voulez faire et nous vous envoyons une proposition concrète en moins de 24 heures.

Demander une proposition