Tarifs · plateforme
Votre environnement d'IA privé, exécuté 10× plus vite. Vraiment souverain.
Assistant de code et endpoints d'inférence avec les derniers modèles open source —GLM 5.1, Qwen 3.6, Llama 3.3, DeepSeek V3.5— sur GPU NVIDIA B200 dédiés à Madrid. Votre code et vos prompts ne quittent jamais le périmètre.
10×
Plus rapide qu'un MacBook M4 Max sur le même modèle
3.2×
Plus rapide qu'une station RTX 6000 Ada
95 ms
Temps jusqu'au premier token (prompt de 2k)
3-5
Développeurs simultanés par fraction
Comment fonctionne la fraction
Votre fraction est la vôtre. Par matériel. En permanence.
Nous utilisons NVIDIA Multi-Instance GPU (MIG) : la B200 est partitionnée physiquement en instances isolées. Chaque fraction dispose de son propre calcul, mémoire HBM3e, cache et bande passante. Vous ne concourez avec personne pour des cycles. Votre 1/4 reste toujours votre 1/4, même lorsque le reste du GPU est saturé.
- Isolation matérielle (ni time-slicing, ni virtualisation) : SM, mémoire et cache sont physiquement séparés entre les fractions.
- Bande passante garantie : votre part de HBM3e ne ralentit pas si d'autres clients saturent leur fraction.
- Réservée 24/7 avec un contrat mensuel, ou à la demande à l'heure quand vous atteignez des pics de trafic.
Chaque fraction = SM isolés + HBM3e + cache L2 + NVDEC/NVENC · pas de voisin bruyant
Vitesse réelle
Mêmes modèles — seul change l'endroit où ils tournent.
Tokens par seconde, inférence mono-utilisateur, Llama 3.3 70B et Qwen 3.6 Coder 32B. L'écart n'est pas subtil — et c'est lui qui détermine si un assistant de code paraît instantané ou frustrant.
Sources : NVIDIA MLPerf Inference v4.1 · whitepaper Blackwell · vLLM · Apple MLX · LocalLLaMA. Chiffres conservateurs.
MacBook Pro M4 Max
128 Go unifiés · MLX · Q4
RTX 6000 Ada
48 Go · AWQ-4bit · station
1/4 B200 · GPU Solutions
MIG · 48 Go HBM3e · FP8 natif
L'inférence LLM est limitée par la bande passante mémoire, pas par les FLOPS. La HBM3e offre ~2× la bande passante de la GDDR6 d'une RTX 6000 Ada et ~4× celle de la mémoire unifiée du M4 Max — c'est pourquoi une fraction de B200 surpasse les deux sur les mêmes modèles. Les gros modèles (72B+, MoE) ne tiennent pas sur une station sans perte de qualité. Sur B200, ils tiennent en précision FP8 native.
Pourquoi une fraction dédiée
Votre IA, à l'intérieur de votre périmètre. Sans exception.
Avec une API publique, vos prompts entraînent le prochain modèle et vos données traversent trois continents avant de revenir. Avec une fraction dédiée à Madrid, rien ne sort. Même modèle, environnement isolé, conformité by design — et en plus, 10× plus rapide.
Ce qui se passe dans votre fraction, reste dans votre fraction
Confidentialité, conformité et souveraineté intégrées. Pas en option.
Données en Espagne, 100 %
Prompts, embeddings et réponses ne quittent jamais Madrid. Aucune exposition au CLOUD Act, aucun sous-traitant américain, aucun transfert international à faire signer par le service juridique.
Modèle et contexte privés
Votre fraction de B200 est à vous avec isolation matérielle MIG. Vos entrées n'entraînent pas le prochain modèle, et votre débit ne dépend pas du locataire d'à côté. Personne d'autre ne touche à vos poids.
ISO 27001 + ENS Media inclus
Votre auditeur reçoit les certificats directement. Votre RSSI clôt la due diligence sans étendre le SoA. Pas d'audit supplémentaire, pas de DPA ambigu.
Endpoint dédié, pas partagé
HTTPS privé avec mTLS + VPN, accessible uniquement depuis vos IP. Pas de rate limits imposés, pas de files d'attente d'inférence. La latence est la vôtre, 24/7.
Colocation InfiniBand
Votre pod, votre stockage et vos tokens vivent dans le même rack, câblés en InfiniBand. Moins de sauts, moins de latence, zéro sortie inter-régions. Votre agent multi-étapes ne s'étouffe pas sur le réseau.
L'analogie
Madrid → New York, ce sont les mêmes 5 750 km. Par bateau ou par avion.
Par bateau
5 750 km
10 jours
Par avion
5 750 km
7 heures
Personne ne paie pour les kilomètres. Vous payez pour arriver à l'heure.
Pareil en IA
Un million de tokens Llama 3.3 70B. Selon où ça tourne.
MacBook M4 Max · 12 t/s
1M tokens
23 heures
RTX 6000 Ada · 35 t/s
1M tokens
8 heures
1/4 B200 chez GPU Solutions · 115 t/s
1M tokens
2,4 heures
Même travail réalisé. Dix fois moins de temps perdu par votre équipe à attendre.
Et le temps se rentabilise aussi
L'économie opérationnelle est un effet de bord. Elle couvre tout de même la fraction 5×.
Équipe
10 devs
× 80 €/h
Temps mort
30 min/jour
× 220 jours ouvrés
Coût annuel perdu
88 000 €
1100 h/an perdues
Fraction 1/4 annuelle
14 280 €
fraction 1/4 réservée
Retour sur temps
+ 73 720 €/an
6× la fractionLa vraie raison de basculer, c'est la souveraineté et la conformité. Le temps récupéré, c'est le bonus qui convainc la finance.
Vos données, votre modèle, votre latence. Et votre équipe arrête d'attendre, elle aussi.
Combinez-les
Trois modes. Vous construisez la combinaison.
Réservez une fraction pour votre propre modèle. Ajoutez des bursts à l'heure quand le trafic monte. Et tirez des tokens de la Token Factory pour un gros modèle quand vous ne voulez pas gérer le GPU. Tout dans le même cluster, tout souverain, chaque ligne facturée séparément — sans surprise.
€/mois · GPU dédié
Forfait mensuel fixe pour une fraction MIG 24/7. Le GPU est à vous : démarrez et arrêtez quand vous voulez sans perdre l'allocation. Idéal pour les équipes dev et la production stable.
Idéal pour production stable
€/heure · payez à l'usage
Démarrez une fraction ou un GPU complet et payez à l'heure jusqu'à l'arrêt. Sans engagement, sans réservation. Disponible immédiatement via dashboard ou API.
Idéal pour pics et POC
€/1M tokens · Token Factory
Payez uniquement les tokens générés par le modèle. Pas de gestion GPU. Appelez l'endpoint HTTPS privé depuis votre application. Parfait pour l'inférence en production à échelle variable.
Idéal pour inférence produit
GPU Compute avec MIG
De 1/4 au cluster complet. Toujours dédié.
Trois tailles de fraction MIG (1/4, 1/2, GPU complet), plus le cluster HGX 8× pour l'entraînement et les charges entreprise. Même API, même latence par fraction, mise à l'échelle du prototype à la production sans migration.
01 / Fraction
1/4
B200
Assistant de code pour 3-5 devs · fine-tuning léger · modèles jusqu'à 70B avec long contexte. Le point d'entrée.
Réservé
1.190 €/mois
À la demande
1,95 €/heure
02 / Demi
1/2
B200
Vraie production pour 8-12 devs · inférence 70B en précision FP8 native · entraînement de modèles petits à moyens.
Réservé
2.290 €/mois
À la demande
3,95 €/heure
03 / B200 complet
1 ×
B200
Modèles 72B en FP8 pleine précision · inférence haut débit pour équipes de 15+ devs · entraînement distribué.
Réservé
5.990 €/mois
À la demande
7,90 €/heure
04 / Cluster HGX
8 ×B200
8× B200 avec NVLink 5 intra-nœud et InfiniBand NDR inter-nœud · entraînement de modèles de fondation · inférence à grande échelle · conformité entreprise dédiée.
Token Factory
Les derniers modèles open source. Servis vite.
Nous facturons un peu plus le million de tokens. En échange, vos prompts et votre contexte ne quittent jamais Madrid — et les tokens sont générés dans le même cluster où vit votre pod, câblés en InfiniBand. Plus de souveraineté, et parce qu'ils sont juste à côté de vous, plus de vitesse.
Prix en euros par million de tokens, paiement à l'usage, liste publique pour volume retail. Vitesse en tokens/seconde mono-utilisateur sur une fraction 1/4 de B200 ; 1/2 et complet s'étalent proportionnellement. Gros volume ou votre propre modèle fine-tuné sur fraction dédiée ? Nous déployons sur endpoint privé à tarif négocié — demandez-nous.
Là où vit votre code
Trois endroits. Un seul vous les offre tous.
Il n'y a pas d'option toujours juste. Il y en a une qui combine vitesse, confidentialité et capacité — et deux qui imposent un compromis.
Local, sur votre machine
Confidentialité physique maximale — rien ne quitte l'appareil — mais bornée par la RAM et la bande passante. Les gros modèles ne tiennent pas ou tournent lentement. Votre portable est inutilisable pendant l'inférence.
Gagne en confidentialité · perd en vitesse et capacité
API tierce
Rapide, avec des modèles puissants, mais chaque prompt voyage vers les serveurs de quelqu'un d'autre, avec des politiques de rétention variables et une juridiction qui change selon le fournisseur. La conformité interne va vous coûter des heures.
Gagne en vitesse · perd en confidentialité
Cluster dédié à Madrid
Vitesse du cluster B200 avec HBM3e, modèles dernière génération en précision native, isolation au niveau VM. Prompts et code traités ici. Résidence des données 100 % espagnole, certifié ISO 27001 et ENS Media.
Vitesse · confidentialité · capacité
Tous les plans incluent
Proposition sur mesure
Chaque cas d'usage est différent. Dites-nous ce que vous voulez faire et nous vous envoyons une proposition concrète en moins de 24 heures.