Wirtschaftlichkeit15. April 20268 min Lesedauer

Private Inferenz: die Geschwindigkeit, die Geld spart (und die Zahlen, die es belegen)

Der Preis pro Token ist die Hälfte der Kosten. Die andere Hälfte ist Ihr Team, das wartet. Wir berechnen den genauen Punkt, an dem eine dedizierte Slice jede öffentliche API schlägt.

Die Pricing-Diskussion bei KI bleibt auf einer Achse verankert: €/M Tokens. Eine vernünftige Achse, um generische Textanbieter zu vergleichen, eine schlechte, sobald KI in Ihren echten Workflow eintritt. Dort sind die relevanten Kosten nicht die Tokens: Es ist Ihr Team, das auf sie wartet.

Wann eine dedizierte Slice Sinn ergibt

Öffentliche OSS-Token-Anbieter (Groq, Together, Fireworks) liegen zwischen 0,60 €/M und 0,90 €/M Output für ein 70B-Modell. Wir liegen bei 1,60 €/M. Auf dem Papier sind wir 2× teurer. Fügen wir die Geschwindigkeit zur Gleichung hinzu, kippen die Zahlen.

Llama 3.3 70B auf RTX 6000 Ada

~35 Tok/s · 8 Stunden, um 1M Tokens zu erzeugen

Llama 3.3 70B auf 1/4 B200 MIG

~115 Tok/s · 2,4 Stunden für dieselbe Million

Llama 3.3 70B auf einem öffentlichen Shared-Pod

Variabel: Warteschlangen, Rate-Limits, ES→US→ES-Latenz

Llama 3.3 70B auf Ihrer dedizierten Slice

Fest: null Warteschlange, null Rate-Limit, Latenz Madrid→Ihr VPN

Die echte Rechnung sind nicht die Sekunden, es sind die Stunden

Die offensichtlichen Kosten eines geteilten Coding-Assistenten liegen in den pro Autovervollständigung verlorenen Sekunden. Real, aber nicht das, was Quartale tötet. Was Quartale tötet, sind die Stunden, in denen der Dienst schlicht nicht antwortet. Zwei wiederkehrende Muster:

Globale Ausfälle. Die öffentlichen Status-Pages von Claude, OpenAI und GitHub Copilot dokumentieren Dutzende Vorfallsstunden pro Dienst und Jahr. Für eine Organisation, die gleichzeitig auf mehrere angewiesen ist, überschreitet die aggregierte Exposition leicht 50 Stunden/Jahr. Ein Team von nur 10 Entwicklern bei 60 €/h vollbelastetem Personalkostenansatz (Schätzung auf Basis der INE ETCL 2025 für ein Senior-IT-Profil in Spanien) verliert auf diesem Weg rund 30.000 €/Jahr an direkter, nicht abrechenbarer Zeit, mehr als das Doppelte der jährlichen Kosten einer reservierten 1/4-B200-Slice. Claude, OpenAI, GitHub Copilot sind exzellente Dienste, wir nutzen sie auch, aber sie sind Best-Effort: Es gibt keinen vertraglichen SLA mit echter Vertragsstrafe für ein einzelnes Unternehmen.

Rate-Limits bei Parallelität. Montag, 9:30 Uhr, Ihr Team startet den Sprint, und in den ersten 20 Minuten gibt das Plugin 429 zurück. Kein Ausfall: geteilter Rate-Limit, weil ein größerer Mandant Kapazität abzieht. Die verlorene Zeit landet auf keinem öffentlichen Status-Dashboard, und Ihre Entwickler nehmen einfach an, „die KI ist heute langsam“.

Eine dedizierte Slice eliminiert nicht, dass auch wir Wartungsfenster und Ausfälle haben: die gibt es. Was sie eliminiert, ist die Kopplung an die Sättigung eines globalen Dienstes, der zwischen tausenden Kunden geteilt wird. Ihre Slice gehört Ihnen, mit vertraglichem SLA, ohne laute Nachbarn, und mit einem lokalen Telefon in Madrid, an dem auch jemand abnimmt.

Welches Modell zu Ihnen passt (und wir bieten beide)

Wichtige Klarstellung: Wir bieten beide Produkte. Token Factory (pro Token, in Madrid gehostet) für flexiblen Verbrauch und dedizierte Slice (reserviertes GPU Compute) für feste Kapazität. Die Wahl ist nicht „wir gegen jemand anderen“, sondern die Frage, welches unserer Produkte zu Ihrem Verbrauchsmuster passt.

Reservierte 1/4-B200-Slice: ~1.190 €/Monat. Praktische Kapazität: 200-300M Tokens/Monat vor Sättigung. Token Factory läuft auf derselben physischen Infrastruktur, in derselben Jurisdiktion.

Niedriger oder bursty Verbrauch (<50M Tokens/Monat)

Token Factory: rechtfertigt keine Kapazitätsreservierung

Variabler Verbrauch mit Spitzen

Token Factory: Elastizität ohne Budgetbindung

Konstanter Verbrauch + sensible Daten + NIS2/DSGVO

Dedizierte Slice: Hardware-Isolation, einheitliche Jurisdiktion

Deterministische Latenz oder strikter vertraglicher SLA

Dedizierte Slice: null Warteschlange, null Rate-Limit

200M+ Tokens/Monat dauerhaft

Dedizierte Slice: Amortisation und feste Kapazität

Reines €/Token entscheidet selten. Bei niedrigem Volumen gewinnt Token Factory durch Einfachheit. Bei konstantem, kritischem Volumen gewinnt die Slice durch Determinismus und Jurisdiktion. Und da beide aus demselben Tier III in Madrid laufen, ist die Souveränitätsfrage in beiden Fällen geklärt.

Token Factory und die dedizierte Slice sind zugleich die ersten beiden Sprossen derselben Eigentumsleiter. Die nächsten gibt es auch: eigene Gewichte mit OdiTuning feinabstimmen und, wenn Sie es eines Tages brauchen, den kompletten Stack orchestriert von GPU Flow mitnehmen, auch weg von unserer Infrastruktur. Ein Produkt zu wählen heißt nicht, jemanden zu heiraten.

Die Eigentumsleiter · von Tokens zum eigenen Stack

01Offene TokensGPU Flow · Token Factory

Bezahlung nach Verbrauch, OpenAI- und Anthropic-kompatible API, null Bindung. Bereitgestellt aus Madrid.

02Dedizierte GPUGPU Flow · slice B200

Reservierte Kapazität, Hardware-Isolation, vertraglicher SLA. Ohne laute Nachbarn.

03Ihre eigenen GewichteOdiTuning

Auf Ihren Daten feinabgestimmte Modelle. Die resultierenden Gewichte gehören Ihnen, nicht dem Anbieter.

04Ihr eigener StackGPU Flow · Orchestrierung

Der komplette Stack, portabel: auf unserer oder Ihrer Infrastruktur, orchestriert von GPU Flow.

Jede Sprosse bringt mehr Kontrolle. Und die Leiter führt hinunter wie hinauf: Souveränität schließt das Recht ein zu gehen, auch von uns.

“Der Sweet Spot liegt in Teams von 4-15 Entwicklern mit konstantem Fluss, sensiblem Code und einem CFO, der nachfragt. Eine B200-Slice spart ihnen schon im ersten Monat Geld.”

Interne GPU-Solutions-Analyse, Q1 2026

Was nicht in die Tabelle passt

Die messbaren Einsparungen (Stunden × Tarif) sind die halbe Geschichte. Die andere Hälfte taucht in den Büchern nie auf, weil es vermiedene Kosten sind: der Konzentrationsverlust bei jedem Warten. Ein Entwickler, der für 10 Sekunden zu Reddit wechselt, während er auf eine Autovervollständigung wartet, hat den Aufgabenkontext verlassen. Der Wiedereinstieg kostet laut Literatur (Mark, 2008; Czerwinski 2004) zwischen 23 Sekunden und 23 Minuten. Diese Kosten erscheinen auf keiner Rechnung, aber sie sind es, die echte Produktivität zerstören.

Der souveräne Teil

Die obigen Zahlen sind der harte Fall. Aber es gibt einen zweiten Faktor, der die Gleichung in Banken, öffentlichem Sektor, Verteidigung und Gesundheitswesen umkehrt: Wenn Ihre öffentliche API dem CLOUD Act unterliegt, konkurriert die dedizierte Slice nicht mehr beim €/Token, sondern dabei, „überhaupt als Option zu existieren“. Wir betreiben ein einziges Tier-III-Rechenzentrum in Madrid, bereits mit ISO 27001 und ENS Media zertifiziert, mit VM-Isolation und MIG-Slices auf Hardware-Ebene. Wenn der Regulator fragt, wo die Daten verarbeitet werden, ist die Antwort eine Stadt, eine Jurisdiktion. Die strategische Version dieses Arguments, ausgehend vom CNBC-Interview mit Alex Karp, steht in Wer seine Gewichte kontrolliert, kontrolliert sein Schicksal (auf Englisch), und ihre Anwendung auf den konkreten Fall Code in Private Coding-Assistenten.