Preise · Plattform
Ihre private KI-Umgebung, die 10× schneller läuft. Wirklich souverän.
Coding-Assistent und Inferenz-Endpoints mit den neuesten Open-Source-Modellen —GLM 5.1, Qwen 3.6, Llama 3.3, DeepSeek V3.5— auf dedizierten NVIDIA B200 GPUs in Madrid. Ihr Code und Ihre Prompts verlassen den Perimeter nie.
10×
Schneller als ein MacBook M4 Max mit demselben Modell
3.2×
Schneller als eine RTX 6000 Ada Workstation
95 ms
Zeit bis zum ersten Token (2k-Prompt)
3-5
Gleichzeitige Entwickler pro Slice
Wie der Slice funktioniert
Ihr Slice gehört Ihnen. Per Hardware. Die ganze Zeit.
Wir nutzen NVIDIA Multi-Instance GPU (MIG): Die B200 wird physisch in isolierte Instanzen partitioniert. Jeder Slice hat eigene Rechenkapazität, eigenen HBM3e-Speicher, eigenen Cache und eigene Bandbreite. Sie konkurrieren mit niemandem um Zyklen. Ihr 1/4 bleibt immer Ihr 1/4, auch wenn der Rest der GPU am Limit läuft.
- Hardware-Isolation (kein Time-Slicing, keine Virtualisierung): SMs, Speicher und Cache sind zwischen Slices physisch getrennt.
- Garantierte Bandbreite: Ihr Anteil am HBM3e wird nicht langsamer, wenn andere Kunden ihren Slice voll auslasten.
- 24/7 reserviert mit Monatsvertrag, oder On-Demand stundenweise, wenn Sie Traffic-Spitzen erreichen.
Jeder Slice = isolierte SMs + HBM3e + L2-Cache + NVDEC/NVENC · kein Noisy Neighbor
Reale Geschwindigkeit
Gleiche Modelle — es ändert sich nur, wo sie laufen.
Tokens pro Sekunde, Single-User-Inferenz, Llama 3.3 70B und Qwen 3.6 Coder 32B. Die Lücke ist nicht subtil — und sie entscheidet, ob sich ein Coding-Assistent unmittelbar oder frustrierend anfühlt.
Quellen: NVIDIA MLPerf Inference v4.1 · Blackwell-Whitepaper · vLLM · Apple MLX · LocalLLaMA. Konservative Zahlen.
MacBook Pro M4 Max
128 GB Unified · MLX · Q4
RTX 6000 Ada
48 GB · AWQ-4bit · Workstation
1/4 B200 · GPU Solutions
MIG · 48 GB HBM3e · natives FP8
LLM-Inferenz ist speicherbandbreitenbegrenzt, nicht FLOPS-begrenzt. HBM3e liefert ~2× die Bandbreite des GDDR6 einer RTX 6000 Ada und ~4× den Unified-Memory des M4 Max — deshalb schlägt ein B200-Slice beide bei denselben Modellen. Große Modelle (72B+, MoE) passen nicht auf Workstations ohne Qualitätsverlust. Auf B200 passen sie in nativer FP8-Präzision.
Warum ein dedizierter Slice
Ihre KI, innerhalb Ihres Perimeters. Keine Ausnahme.
Mit einer öffentlichen API trainieren Ihre Prompts das nächste Modell, und Ihre Daten reisen über drei Kontinente, bevor sie zurückkommen. Mit einem dedizierten Slice in Madrid verlässt nichts den Perimeter. Gleiches Modell, isolierte Umgebung, Compliance by design — und obendrein 10× schneller.
Was in Ihrem Slice passiert, bleibt in Ihrem Slice
Datenschutz, Compliance und Souveränität integriert. Keine Add-ons.
Daten in Spanien, 100 %
Prompts, Embeddings und Antworten verlassen Madrid nie. Keine Exposition gegenüber dem CLOUD Act, keine US-Sub-Auftragsverarbeiter, keine internationalen Transfers, die das Legal-Team unterschreiben muss.
Privates Modell und privater Kontext
Ihr B200-Slice gehört Ihnen — mit Hardware-Isolation per MIG. Ihre Eingaben trainieren nicht das nächste Modell, und Ihr Durchsatz hängt nicht vom Nachbarmieter ab. Niemand sonst fasst Ihre Gewichte an.
ISO 27001 + ENS Media inklusive
Ihr Auditor erhält die Zertifikate direkt. Ihr CISO schließt die Due Diligence ab, ohne die SoA zu erweitern. Keine zusätzlichen Audits, keine mehrdeutigen DPAs.
Dedizierter Endpoint, nicht geteilt
Privates HTTPS mit mTLS + VPN, erreichbar nur von Ihren IPs. Keine erzwungenen Rate-Limits, keine Inferenz-Warteschlangen. Die Latenz gehört Ihnen, 24/7.
InfiniBand-Kolokation
Ihr Pod, Ihr Speicher und Ihre Tokens leben im selben Rack, verkabelt über InfiniBand. Weniger Hops, geringere Latenz, null Cross-Region-Egress. Ihr Multi-Step-Agent verschluckt sich nicht am Netzwerk.
Die Analogie
Madrid → New York sind dieselben 5.750 km. Per Schiff oder per Flugzeug.
Per Schiff
5.750 km
10 Tage
Per Flugzeug
5.750 km
7 Stunden
Niemand zahlt für Kilometer. Sie zahlen, um pünktlich anzukommen.
Dasselbe in KI
Eine Million Llama-3.3-70B-Tokens. Je nachdem, wo es läuft.
MacBook M4 Max · 12 t/s
1 Mio. Tokens
23 Stunden
RTX 6000 Ada · 35 t/s
1 Mio. Tokens
8 Stunden
1/4 B200 bei GPU Solutions · 115 t/s
1 Mio. Tokens
2,4 Stunden
Gleiche Arbeit erledigt. Ein Zehntel der Zeit, die Ihr Team mit Warten verbringt.
Und die Zeit zahlt sich auch selbst aus
Die operative Einsparung ist ein Nebeneffekt. Sie deckt den Slice trotzdem 5×.
Team
10 Devs
× 80 €/h
Leerlaufzeit
30 Min/Tag
× 220 Arbeitstage
Jährliche verlorene Kosten
88.000 €
1100 h/Jahr Leerlauf
1/4-Slice jährlich
14.280 €
1/4-Slice reserviert
Return on Time
+ 73.720 €/Jahr
6× der SliceDer wahre Grund zu wechseln ist Souveränität und Compliance. Die gewonnene Zeit ist der Bonus, der Finance überzeugt.
Ihre Daten, Ihr Modell, Ihre Latenz. Und Ihr Team hört auch auf zu warten.
Kombinieren Sie sie
Drei Modi. Sie bauen die Kombination.
Reservieren Sie einen Slice für Ihr eigenes Modell. Fügen Sie stündliche Bursts hinzu, wenn der Traffic ansteigt. Und ziehen Sie Tokens aus der Token Factory für ein großes Modell, wenn Sie die GPU nicht selbst managen wollen. Alles im selben Cluster, alles souverän, jede Zeile getrennt abgerechnet — ohne Überraschungen.
€/Monat · dedizierte GPU
Feste Monatsgebühr für einen 24/7-MIG-Slice. Die GPU gehört Ihnen: starten und stoppen, wann Sie wollen, ohne die Zuteilung zu verlieren. Ideal für Dev-Teams und stabile Produktion.
Am besten für stabile Produktion
€/Stunde · zahlen Sie nach Nutzung
Starten Sie einen Slice oder eine volle GPU und zahlen Sie stundenweise, bis Sie sie abschalten. Ohne Verpflichtung, ohne Reservierung. Sofort verfügbar über Dashboard oder API.
Am besten für Spitzen und POCs
€/1M Tokens · Token Factory
Zahlen Sie nur die Tokens, die das Modell generiert. Keine GPU-Verwaltung. Rufen Sie den privaten HTTPS-Endpoint aus Ihrer App auf. Perfekt für Produktionsinferenz mit variabler Skala.
Am besten für Produktinferenz
GPU Compute mit MIG
Von 1/4 bis zum vollen Cluster. Immer dediziert.
Drei MIG-Slice-Größen (1/4, 1/2, volle GPU), plus das HGX-8×-Cluster für Training und Enterprise-Workloads. Gleiche API, gleiche Latenz pro Slice, Skalierung vom Prototyp zur Produktion ohne Migration.
01 / Slice
1/4
B200
Coding-Assistent für 3-5 Devs · leichtes Fine-Tuning · Modelle bis 70B mit großem Kontext. Der Einstiegspunkt.
Reserviert
1.190 €/Monat
On-Demand
1,95 €/Stunde
02 / Halb
1/2
B200
Echte Produktion für 8-12 Devs · 70B-Inferenz in nativer FP8-Präzision · Training kleiner bis mittlerer Modelle.
Reserviert
2.290 €/Monat
On-Demand
3,95 €/Stunde
03 / Volle B200
1 ×
B200
72B-Modelle in voller FP8-Präzision · Hochdurchsatz-Inferenz für Teams ab 15 Devs · verteiltes Training.
Reserviert
5.990 €/Monat
On-Demand
7,90 €/Stunde
04 / HGX-Cluster
8 ×B200
8× B200 mit NVLink 5 intra-Node und InfiniBand NDR inter-Node · Training von Foundation-Modellen · Inferenz im großen Maßstab · dedizierte Enterprise-Compliance.
Token Factory
Die neuesten Open-Source-Modelle. Schnell serviert.
Wir berechnen ein wenig mehr pro Million Tokens. Im Gegenzug verlassen Ihre Prompts und Ihr Kontext Madrid niemals — und die Tokens werden im selben Cluster generiert, in dem Ihr Pod lebt, verkabelt über InfiniBand. Mehr Souveränität, und weil sie direkt nebenan sind, auch mehr Geschwindigkeit.
Preise in Euro pro Million Tokens, Pay-as-you-go, öffentliche Liste für Retail-Volumen. Geschwindigkeit in Tokens/Sekunde Single-User auf einem 1/4-B200-Slice; 1/2 und voll skalieren proportional. Hohes Volumen oder Ihr eigenes Fine-Tuned-Modell auf dediziertem Slice? Wir deployen auf einen privaten Endpoint zum verhandelten Tarif — fragen Sie uns.
Wo Ihr Code lebt
Drei Orte. Einer gibt Ihnen alle.
Es gibt keine immer richtige Option. Es gibt eine, die Geschwindigkeit, Datenschutz und Kapazität kombiniert — und zwei, die einen Trade-off erzwingen.
Lokal, auf Ihrer Maschine
Maximaler physischer Datenschutz — nichts verlässt das Gerät — aber begrenzt durch RAM und Bandbreite. Große Modelle passen nicht oder laufen langsam. Ihr Laptop ist während der Inferenz unbenutzbar.
Gewinnt Datenschutz · verliert Geschwindigkeit und Kapazität
Dritt-API
Schnell, mit leistungsstarken Modellen, aber jeder Prompt reist zu den Servern von jemand anderem, mit variablen Aufbewahrungsrichtlinien und einer Gerichtsbarkeit, die je nach Anbieter wechselt. Die interne Compliance wird Sie Stunden kosten.
Gewinnt Geschwindigkeit · verliert Datenschutz
Dediziertes Cluster in Madrid
Geschwindigkeit des B200-Clusters mit HBM3e, Modelle der neuesten Generation in nativer Präzision, Isolation auf VM-Ebene. Prompts und Code werden hier verarbeitet. Datenresidenz 100 % spanisch, ISO 27001 und ENS Media zertifiziert.
Geschwindigkeit · Datenschutz · Kapazität
Alle Pläne enthalten
Maßgeschneidertes Angebot
Jeder Use Case ist anders. Sagen Sie uns, was Sie tun möchten, und wir schicken Ihnen in unter 24 Stunden ein konkretes Angebot.