KI im Unternehmen ohne Cloud: GPU-Benchmarks, Kosten und DSGVO im Vergleich
Open-Source-LLMs vs. Cloud-APIs: GPU-Vergleich, TCO-Kalkulation und DSGVO-Compliance für IT-Entscheider in der DACH-Region
KI im Unternehmen ohne Cloud: GPU-Benchmarks, Kosten und DSGVO im Vergleich
Open-Source-LLMs haben 2025 ein Niveau erreicht, das viele Cloud-APIs für Enterprise-Aufgaben überflüssig macht. Gleichzeitig verschärft der EU AI Act die Compliance-Anforderungen. Für IT-Entscheider in der DACH-Region stellt sich die Frage: Wann lohnt sich eigene GPU-Hardware – und welche Modelle laufen darauf?
GPU-Vergleich: Consumer vs. Datacenter
Die Überraschung: Consumer-GPUs liefern bei Einzelnutzer-Inferenz fast die gleiche Token-Rate wie teure Datacenter-Karten – zum Bruchteil des Preises.
| GPU | VRAM | TDP | Preis (ca.) | TPS (8B, Q4) | TPS (70B, Q4) | €/TPS | TPS/Watt |
|---|---|---|---|---|---|---|---|
| RTX 3090 | 24 GB | 350 W | ~750 € (gebr.) | ~112 | – (OOM) | ~7 € | 0,32 |
| RTX 4090 | 24 GB | 450 W | ~1.700 € | ~128 | – (OOM) | ~13 € | 0,28 |
| RTX 5090 | 32 GB | 575 W | 1.900–4.100 €¹ | ~145–213 | ~27 (2×GPU) | ~10–21 € | 0,25–0,37 |
| L40S | 48 GB | 350 W | ~7.000 € | ~114 | ~15 | ~66 € | 0,32 |
| A100 80GB | 80 GB | 300 W | ~15.000 € | ~138 | ~22 | ~109 € | 0,46 |
| H100 80GB | 80 GB | 700 W | ~30.000 € | ~144 | ~25 | ~188 € | 0,21 |
| H200 | 141 GB | 700 W | ~33.000 € | ~169 | ~27 (1×GPU) | ~207 € | 0,24 |
¹ UVP $1.999, Straßenpreis wegen Knappheit deutlich höher
Kernerkenntnisse: Die RTX 3090 gebraucht bietet mit ~7 €/TPS das beste Preis-Leistungs-Verhältnis – ideal für Prototyping. Datacenter-GPUs rechnen sich erst im Batch-Betrieb: Eine H100 erreicht per vLLM mit 8 parallelen Anfragen über 800 TPS, Consumer-Karten profitieren davon kaum. Die H200 ist die einzige GPU, die ein 70B-Modell quantisiert auf einer Karte betreibt.
Welche Modelle für Coding und Recherche?
Coding: Qwen 2.5 Coder 32B erreicht GPT-4o-Niveau auf HumanEval (Apache 2.0, ~21 GB VRAM bei Q4). DeepSeek Coder V2 Lite (16B MoE) erzielte als erstes offenes Modell 90,2 % HumanEval. Für begrenzte Ressourcen: Qwen 2.5 Coder 7B übertrifft CodeLlama 34B bei nur ~5 GB VRAM.
General Purpose: Llama 3.3 70B liefert 86 % MMLU – nahe am 405B-Modell. Phi-4 (14B, MIT-Lizenz) erreicht 84,8 % MMLU bei ~9 GB VRAM. Mixtral 8x7B bietet GPT-3.5-Niveau mit guter Deutschunterstützung.
Europäisch/DSGVO: Mistral AI (Paris) ist der stärkste EU-Anbieter – Apache-2.0-Lizenz, EU-Hosting, nicht vom CLOUD Act betroffen. Aleph Alpha (Heidelberg) hat als einziger BSI-C5-Zertifizierung.
VRAM-Planung (Q4-Quantisierung, ~90–95 % Qualität)
| Modell | Q4 VRAM | Passende GPU |
|---|---|---|
| 7–8B | ~5 GB | Jede GPU ≥8 GB |
| 14B | ~9 GB | RTX 3090/4090 |
| 32B | ~21 GB | RTX 4090/5090, L40S |
| 70B | ~43 GB | A100, H100, H200 |
TCO: Wann rechnet sich On-Premises?
Aktuelle API-Preise (Anfang 2026):
| Modell | Input $/1M Tokens | Output $/1M Tokens |
|---|---|---|
| GPT-4o | $2,50 | $10,00 |
| Claude 3.5 Sonnet | $3,00 | $15,00 |
| Mistral Large 3 | $0,50 | $1,50 |
| Mistral Small 3.2 | $0,10 | $0,30 |
On-Premises-Kalkulation (8× A100, 36 Monate Abschreibung): ~12.000–16.000 €/Monat (Hardware, Colocation, Strom à ~18 ct/kWh, anteiliges Personal). Break-Even gegen GPT-4o: ab ~2–3 Mrd. Tokens/Monat. Gegen Claude Opus bereits ab ~500 Mio. Tokens. Gegen Mistral Small: selten wirtschaftlich.
Die Formel: Cloud-APIs gewinnen bei variablem Bedarf unter 1 Mrd. Tokens und wenn Frontier-Qualität nötig ist. On-Premises gewinnt bei stabilem Bedarf über 2 Mrd. Tokens plus Datenschutz-Anforderungen. Die Hybrid-Strategie – On-Prem für sensible Daten, Cloud für Spitzen – ist für die meisten Unternehmen optimal.
🧮 Break-Even-Rechner: On-Premises vs. Cloud
💰 Kostenvergleich
- Hardware-Abschreibung: 47.22€
- Strom (450W): 58.32€
- Colocation: 100.00€
- Personal (anteilig): 2000.00€
- Total: 2205.54€/Monat
- Tokens: 1.000 Mio./Monat
- Ø Preis: $6.25/1M tokens
- Total: 6250.00€/Monat
📊 Ergebnis
Break-Even-Point: 353 Mio. Tokens/Monat
✅ On-Premises ist günstiger! Ersparnis: 4044.46€/Monat
Bei 1.000 Mio. Tokens/Monat nutzen Sie 283% der Break-Even-Kapazität.
Hinweis: Vereinfachte Kalkulation. Reale Kosten variieren je nach Nutzungsprofil, Standort, Infrastruktur und Support-Anforderungen. Input/Output-Ratio angenommen als 50/50.
DSGVO und EU AI Act: Was jetzt gilt
On-Premises eliminiert die kritischsten Risiken: keine Drittlandübermittlung, keine Abhängigkeit vom EU-US Data Privacy Framework, kein CLOUD-Act-Exposure.
DeepSeek ist tabu: Sieben deutsche Datenschutzbehörden ermitteln seit Februar 2025. Keine SCCs, kein EU-Vertreter, Datenverarbeitung ausschließlich in China. Einzig das Open-Source-Modell selbst gehostet ist vertretbar.
EU AI Act Zeitplan: Seit Februar 2025 gilt die KI-Kompetenzpflicht (Art. 4) – alle KI-nutzenden Mitarbeiter müssen geschult sein. Seit August 2025 greifen GPAI-Pflichten. Ab August 2026 werden Hochrisiko-KI-Anforderungen voll wirksam. Open-Source-Modelle profitieren von reduzierten Pflichten, aber Betreiber bleiben verantwortlich.
Pflicht für alle: DSFA nach Art. 35 DSGVO bei personenbezogenen Daten, Human-in-the-Loop bei automatisierten Entscheidungen (Art. 22), RAG-Architektur für löschbares Wissen statt Modell-Finetuning.
Empfehlung
| Szenario | Hardware | Modell | Kosten/Monat |
|---|---|---|---|
| Einstieg (<500M Tokens) | 1× RTX 4090/5090 | Qwen 2.5 Coder 7B + Phi-4 | ~300 € |
| Produktion (1–5 Mrd.) | 2–4× L40S | Qwen 2.5 Coder 32B + Llama 3.3 70B | ~8.000 € |
| Hochlast (>5 Mrd.) | 8× H100/H200 | Llama 3.3 70B + Mixtral | ~14.000 € |
Die pragmatische Strategie: Hybrid starten, On-Premises-Kompetenz aufbauen, bei wachsendem Volumen die Gewichtung zugunsten eigener Infrastruktur verschieben – und Mistral AI als DSGVO-konformsten API-Partner für alles nutzen, was noch nicht lokal läuft.
Martin Stagl ist Systems Engineer und Data Scientist in Wien. Er betreibt On-Premises-LLM-Infrastruktur mit Ollama auf Kubernetes und berät zu DSGVO-konformen KI-Lösungen.