GPU Solutions

Preise · Plattform

Ihre private KI-Umgebung, die 10× schneller läuft. Wirklich souverän.

Coding-Assistent und Inferenz-Endpoints mit den neuesten Open-Source-Modellen —GLM 5.1, Qwen 3.6, Llama 3.3, DeepSeek V3.5— auf dedizierten NVIDIA B200 GPUs in Madrid. Ihr Code und Ihre Prompts verlassen den Perimeter nie.

10×

Schneller als ein MacBook M4 Max mit demselben Modell

3.2×

Schneller als eine RTX 6000 Ada Workstation

95 ms

Zeit bis zum ersten Token (2k-Prompt)

3-5

Gleichzeitige Entwickler pro Slice

Wie der Slice funktioniert

Ihr Slice gehört Ihnen. Per Hardware. Die ganze Zeit.

Wir nutzen NVIDIA Multi-Instance GPU (MIG): Die B200 wird physisch in isolierte Instanzen partitioniert. Jeder Slice hat eigene Rechenkapazität, eigenen HBM3e-Speicher, eigenen Cache und eigene Bandbreite. Sie konkurrieren mit niemandem um Zyklen. Ihr 1/4 bleibt immer Ihr 1/4, auch wenn der Rest der GPU am Limit läuft.

  • Hardware-Isolation (kein Time-Slicing, keine Virtualisierung): SMs, Speicher und Cache sind zwischen Slices physisch getrennt.
  • Garantierte Bandbreite: Ihr Anteil am HBM3e wird nicht langsamer, wenn andere Kunden ihren Slice voll auslasten.
  • 24/7 reserviert mit Monatsvertrag, oder On-Demand stundenweise, wenn Sie Traffic-Spitzen erreichen.
NVIDIA B200 · MIG
192 GB HBM3e
1/4
48 GB
1/4
48 GB
1/4
48 GB
1/4
48 GB
Dediziert: Compute · Speicher · CacheBandbreite pro Slice · ~2 TB/s

Jeder Slice = isolierte SMs + HBM3e + L2-Cache + NVDEC/NVENC · kein Noisy Neighbor

Reale Geschwindigkeit

Gleiche Modelle — es ändert sich nur, wo sie laufen.

Tokens pro Sekunde, Single-User-Inferenz, Llama 3.3 70B und Qwen 3.6 Coder 32B. Die Lücke ist nicht subtil — und sie entscheidet, ob sich ein Coding-Assistent unmittelbar oder frustrierend anfühlt.

Quellen: NVIDIA MLPerf Inference v4.1 · Blackwell-Whitepaper · vLLM · Apple MLX · LocalLLaMA. Konservative Zahlen.

wischen Sie, um die vollständige Tabelle zu sehen
Metrik

MacBook Pro M4 Max

128 GB Unified · MLX · Q4

RTX 6000 Ada

48 GB · AWQ-4bit · Workstation

1/4 B200 · GPU Solutions

MIG · 48 GB HBM3e · natives FP8

Verfügbarer Speicher
≈ 96 GB nutzbar
48 GB GDDR6
48 GB HBM3e
Speicherbandbreite
546 GB/s
960 GB/s
≈ 2 TB/s
Peak-Compute
34 TFLOPS FP16
365 TFLOPS FP8
1,1 PFLOPS FP8
Llama 3.3 70B
12 tok/s
36 tok/s
115 tok/s
Qwen 3.6 Coder 32B
48 tok/s
88 tok/s
320 tok/s
GLM 5.1 235B · MoE
22 tok/s
62 tok/s
205 tok/s
TTFT · 2k-Prompt
820 ms
450 ms
95 ms
Gleichzeitige Devs
1
1-2
3-5
Kontext
Senior-Engineer-Laptop
Workstation ~8.500 €
Ab 750 €/Monat · ohne CapEx

LLM-Inferenz ist speicherbandbreitenbegrenzt, nicht FLOPS-begrenzt. HBM3e liefert ~2× die Bandbreite des GDDR6 einer RTX 6000 Ada und ~4× den Unified-Memory des M4 Max — deshalb schlägt ein B200-Slice beide bei denselben Modellen. Große Modelle (72B+, MoE) passen nicht auf Workstations ohne Qualitätsverlust. Auf B200 passen sie in nativer FP8-Präzision.

Warum ein dedizierter Slice

Ihre KI, innerhalb Ihres Perimeters. Keine Ausnahme.

Mit einer öffentlichen API trainieren Ihre Prompts das nächste Modell, und Ihre Daten reisen über drei Kontinente, bevor sie zurückkommen. Mit einem dedizierten Slice in Madrid verlässt nichts den Perimeter. Gleiches Modell, isolierte Umgebung, Compliance by design — und obendrein 10× schneller.

Was in Ihrem Slice passiert, bleibt in Ihrem Slice

Datenschutz, Compliance und Souveränität integriert. Keine Add-ons.

01

Daten in Spanien, 100 %

Prompts, Embeddings und Antworten verlassen Madrid nie. Keine Exposition gegenüber dem CLOUD Act, keine US-Sub-Auftragsverarbeiter, keine internationalen Transfers, die das Legal-Team unterschreiben muss.

02

Privates Modell und privater Kontext

Ihr B200-Slice gehört Ihnen — mit Hardware-Isolation per MIG. Ihre Eingaben trainieren nicht das nächste Modell, und Ihr Durchsatz hängt nicht vom Nachbarmieter ab. Niemand sonst fasst Ihre Gewichte an.

03

ISO 27001 + ENS Media inklusive

Ihr Auditor erhält die Zertifikate direkt. Ihr CISO schließt die Due Diligence ab, ohne die SoA zu erweitern. Keine zusätzlichen Audits, keine mehrdeutigen DPAs.

04

Dedizierter Endpoint, nicht geteilt

Privates HTTPS mit mTLS + VPN, erreichbar nur von Ihren IPs. Keine erzwungenen Rate-Limits, keine Inferenz-Warteschlangen. Die Latenz gehört Ihnen, 24/7.

05

InfiniBand-Kolokation

Ihr Pod, Ihr Speicher und Ihre Tokens leben im selben Rack, verkabelt über InfiniBand. Weniger Hops, geringere Latenz, null Cross-Region-Egress. Ihr Multi-Step-Agent verschluckt sich nicht am Netzwerk.

Die Analogie

Madrid → New York sind dieselben 5.750 km. Per Schiff oder per Flugzeug.

Per Schiff

5.750 km

10 Tage

Per Flugzeug

5.750 km

7 Stunden

Niemand zahlt für Kilometer. Sie zahlen, um pünktlich anzukommen.

Dasselbe in KI

Eine Million Llama-3.3-70B-Tokens. Je nachdem, wo es läuft.

MacBook M4 Max · 12 t/s

1 Mio. Tokens

23 Stunden

RTX 6000 Ada · 35 t/s

1 Mio. Tokens

8 Stunden

1/4 B200 bei GPU Solutions · 115 t/s

1 Mio. Tokens

2,4 Stunden

Gleiche Arbeit erledigt. Ein Zehntel der Zeit, die Ihr Team mit Warten verbringt.

Und die Zeit zahlt sich auch selbst aus

Die operative Einsparung ist ein Nebeneffekt. Sie deckt den Slice trotzdem 5×.

01

Team

10 Devs

× 80 €/h

02

Leerlaufzeit

30 Min/Tag

× 220 Arbeitstage

03

Jährliche verlorene Kosten

88.000 €

1100 h/Jahr Leerlauf

04

1/4-Slice jährlich

14.280 €

1/4-Slice reserviert

Return on Time

+ 73.720 €/Jahr

6× der Slice

Der wahre Grund zu wechseln ist Souveränität und Compliance. Die gewonnene Zeit ist der Bonus, der Finance überzeugt.

Ihre Daten, Ihr Modell, Ihre Latenz. Und Ihr Team hört auch auf zu warten.

Kombinieren Sie sie

Drei Modi. Sie bauen die Kombination.

Reservieren Sie einen Slice für Ihr eigenes Modell. Fügen Sie stündliche Bursts hinzu, wenn der Traffic ansteigt. Und ziehen Sie Tokens aus der Token Factory für ein großes Modell, wenn Sie die GPU nicht selbst managen wollen. Alles im selben Cluster, alles souverän, jede Zeile getrennt abgerechnet — ohne Überraschungen.

01 / Reserviert€/Monat

€/Monat · dedizierte GPU

Feste Monatsgebühr für einen 24/7-MIG-Slice. Die GPU gehört Ihnen: starten und stoppen, wann Sie wollen, ohne die Zuteilung zu verlieren. Ideal für Dev-Teams und stabile Produktion.

Am besten für stabile Produktion

02 / On-Demand€/Stunde

€/Stunde · zahlen Sie nach Nutzung

Starten Sie einen Slice oder eine volle GPU und zahlen Sie stundenweise, bis Sie sie abschalten. Ohne Verpflichtung, ohne Reservierung. Sofort verfügbar über Dashboard oder API.

Am besten für Spitzen und POCs

03 / Endpoints€/1M Tokens

€/1M Tokens · Token Factory

Zahlen Sie nur die Tokens, die das Modell generiert. Keine GPU-Verwaltung. Rufen Sie den privaten HTTPS-Endpoint aus Ihrer App auf. Perfekt für Produktionsinferenz mit variabler Skala.

Am besten für Produktinferenz

GPU Compute mit MIG

Von 1/4 bis zum vollen Cluster. Immer dediziert.

Drei MIG-Slice-Größen (1/4, 1/2, volle GPU), plus das HGX-8×-Cluster für Training und Enterprise-Workloads. Gleiche API, gleiche Latenz pro Slice, Skalierung vom Prototyp zur Produktion ohne Migration.

01 / Slice

1/4

B200

Speicher48 GB HBM3e
Bandbreite≈ 2 TB/s

Coding-Assistent für 3-5 Devs · leichtes Fine-Tuning · Modelle bis 70B mit großem Kontext. Der Einstiegspunkt.

Reserviert

1.190 €/Monat

On-Demand

1,95 €/Stunde

Loslegen

02 / Halb

1/2

B200

Am beliebtesten
Speicher96 GB HBM3e
Bandbreite≈ 4 TB/s

Echte Produktion für 8-12 Devs · 70B-Inferenz in nativer FP8-Präzision · Training kleiner bis mittlerer Modelle.

Reserviert

2.290 €/Monat

On-Demand

3,95 €/Stunde

Mit dem Vertrieb sprechen

03 / Volle B200

1 ×

B200

Speicher192 GB HBM3e
Bandbreite8 TB/s

72B-Modelle in voller FP8-Präzision · Hochdurchsatz-Inferenz für Teams ab 15 Devs · verteiltes Training.

Reserviert

5.990 €/Monat

On-Demand

7,90 €/Stunde

Mit dem Vertrieb sprechen

04 / HGX-Cluster

8 ×B200

8× B200 mit NVLink 5 intra-Node und InfiniBand NDR inter-Node · Training von Foundation-Modellen · Inferenz im großen Maßstab · dedizierte Enterprise-Compliance.

Speicher1,5 TB HBM3e
Bandbreite64 TB/s aggregiert
Mit dem Vertrieb sprechen

Token Factory

Die neuesten Open-Source-Modelle. Schnell serviert.

Wir berechnen ein wenig mehr pro Million Tokens. Im Gegenzug verlassen Ihre Prompts und Ihr Kontext Madrid niemals — und die Tokens werden im selben Cluster generiert, in dem Ihr Pod lebt, verkabelt über InfiniBand. Mehr Souveränität, und weil sie direkt nebenan sind, auch mehr Geschwindigkeit.

ModellParamsKontextInput / 1MOutput / 1MSpeed (1/4 B200)
GLMGLM 5.1Neu
235B · MoE200k0,902,40180 t/s
QwenQwen 3.6
72B256k0,701,80140 t/s
QwenQwen 3.6 CoderCoding
32B256k0,401,10320 t/s
QwenQwen 3.6Schnell
14B128k0,200,55540 t/s
MetaLlama 3.3
70B128k0,601,60115 t/s
DeepSeekDeepSeek V3.5Schnell
236B · MoE128k0,451,20220 t/s
MistralMistral Large 3
123B128k0,852,2095 t/s

Preise in Euro pro Million Tokens, Pay-as-you-go, öffentliche Liste für Retail-Volumen. Geschwindigkeit in Tokens/Sekunde Single-User auf einem 1/4-B200-Slice; 1/2 und voll skalieren proportional. Hohes Volumen oder Ihr eigenes Fine-Tuned-Modell auf dediziertem Slice? Wir deployen auf einen privaten Endpoint zum verhandelten Tarif — fragen Sie uns.

Wo Ihr Code lebt

Drei Orte. Einer gibt Ihnen alle.

Es gibt keine immer richtige Option. Es gibt eine, die Geschwindigkeit, Datenschutz und Kapazität kombiniert — und zwei, die einen Trade-off erzwingen.

01 / Auf Ihrem Laptop

Lokal, auf Ihrer Maschine

Maximaler physischer Datenschutz — nichts verlässt das Gerät — aber begrenzt durch RAM und Bandbreite. Große Modelle passen nicht oder laufen langsam. Ihr Laptop ist während der Inferenz unbenutzbar.

Geschwindigkeit15
Datenschutz70
Modellkapazität20

Gewinnt Datenschutz · verliert Geschwindigkeit und Kapazität

02 / Öffentliche API

Dritt-API

Schnell, mit leistungsstarken Modellen, aber jeder Prompt reist zu den Servern von jemand anderem, mit variablen Aufbewahrungsrichtlinien und einer Gerichtsbarkeit, die je nach Anbieter wechselt. Die interne Compliance wird Sie Stunden kosten.

Geschwindigkeit80
Datenschutz15
Modellkapazität85

Gewinnt Geschwindigkeit · verliert Datenschutz

03 / Ihr Slice bei GPU SolutionsAusgewogen

Dediziertes Cluster in Madrid

Geschwindigkeit des B200-Clusters mit HBM3e, Modelle der neuesten Generation in nativer Präzision, Isolation auf VM-Ebene. Prompts und Code werden hier verarbeitet. Datenresidenz 100 % spanisch, ISO 27001 und ENS Media zertifiziert.

Geschwindigkeit95
Datenschutz100
Modellkapazität100

Geschwindigkeit · Datenschutz · Kapazität

Alle Pläne enthalten

ISO 27001 + ENS Media
100 % Daten in Spanien
Isolation auf VM-Ebene
Verschlüsselter Speicher
Support auf Deutsch, Spanisch und Englisch
Kein Vendor-Lock-in

Maßgeschneidertes Angebot

Jeder Use Case ist anders. Sagen Sie uns, was Sie tun möchten, und wir schicken Ihnen in unter 24 Stunden ein konkretes Angebot.

Angebot anfordern