KI im Unternehmen ohne Cloud: GPU-Benchmarks, Kosten und DSGVO im Vergleich

Open-Source-LLMs vs. Cloud-APIs: GPU-Vergleich, TCO-Kalkulation und DSGVO-Compliance für IT-Entscheider in der DACH-Region

Martin Stagl 5 Min. Lesezeit
LLM DSGVO Enterprise Self-Hosting

KI im Unternehmen ohne Cloud: GPU-Benchmarks, Kosten und DSGVO im Vergleich

Open-Source-LLMs haben 2025 ein Niveau erreicht, das viele Cloud-APIs für Enterprise-Aufgaben überflüssig macht. Gleichzeitig verschärft der EU AI Act die Compliance-Anforderungen. Für IT-Entscheider in der DACH-Region stellt sich die Frage: Wann lohnt sich eigene GPU-Hardware – und welche Modelle laufen darauf?

GPU-Vergleich: Consumer vs. Datacenter

Die Überraschung: Consumer-GPUs liefern bei Einzelnutzer-Inferenz fast die gleiche Token-Rate wie teure Datacenter-Karten – zum Bruchteil des Preises.

GPUVRAMTDPPreis (ca.)TPS (8B, Q4)TPS (70B, Q4)€/TPSTPS/Watt
RTX 309024 GB350 W~750 € (gebr.)~112– (OOM)~7 €0,32
RTX 409024 GB450 W~1.700 €~128– (OOM)~13 €0,28
RTX 509032 GB575 W1.900–4.100 €¹~145–213~27 (2×GPU)~10–21 €0,25–0,37
L40S48 GB350 W~7.000 €~114~15~66 €0,32
A100 80GB80 GB300 W~15.000 €~138~22~109 €0,46
H100 80GB80 GB700 W~30.000 €~144~25~188 €0,21
H200141 GB700 W~33.000 €~169~27 (1×GPU)~207 €0,24

¹ UVP $1.999, Straßenpreis wegen Knappheit deutlich höher

Kernerkenntnisse: Die RTX 3090 gebraucht bietet mit ~7 €/TPS das beste Preis-Leistungs-Verhältnis – ideal für Prototyping. Datacenter-GPUs rechnen sich erst im Batch-Betrieb: Eine H100 erreicht per vLLM mit 8 parallelen Anfragen über 800 TPS, Consumer-Karten profitieren davon kaum. Die H200 ist die einzige GPU, die ein 70B-Modell quantisiert auf einer Karte betreibt.

Welche Modelle für Coding und Recherche?

Coding: Qwen 2.5 Coder 32B erreicht GPT-4o-Niveau auf HumanEval (Apache 2.0, ~21 GB VRAM bei Q4). DeepSeek Coder V2 Lite (16B MoE) erzielte als erstes offenes Modell 90,2 % HumanEval. Für begrenzte Ressourcen: Qwen 2.5 Coder 7B übertrifft CodeLlama 34B bei nur ~5 GB VRAM.

General Purpose: Llama 3.3 70B liefert 86 % MMLU – nahe am 405B-Modell. Phi-4 (14B, MIT-Lizenz) erreicht 84,8 % MMLU bei ~9 GB VRAM. Mixtral 8x7B bietet GPT-3.5-Niveau mit guter Deutschunterstützung.

Europäisch/DSGVO: Mistral AI (Paris) ist der stärkste EU-Anbieter – Apache-2.0-Lizenz, EU-Hosting, nicht vom CLOUD Act betroffen. Aleph Alpha (Heidelberg) hat als einziger BSI-C5-Zertifizierung.

VRAM-Planung (Q4-Quantisierung, ~90–95 % Qualität)

ModellQ4 VRAMPassende GPU
7–8B~5 GBJede GPU ≥8 GB
14B~9 GBRTX 3090/4090
32B~21 GBRTX 4090/5090, L40S
70B~43 GBA100, H100, H200

TCO: Wann rechnet sich On-Premises?

Aktuelle API-Preise (Anfang 2026):

ModellInput $/1M TokensOutput $/1M Tokens
GPT-4o$2,50$10,00
Claude 3.5 Sonnet$3,00$15,00
Mistral Large 3$0,50$1,50
Mistral Small 3.2$0,10$0,30

On-Premises-Kalkulation (8× A100, 36 Monate Abschreibung): ~12.000–16.000 €/Monat (Hardware, Colocation, Strom à ~18 ct/kWh, anteiliges Personal). Break-Even gegen GPT-4o: ab ~2–3 Mrd. Tokens/Monat. Gegen Claude Opus bereits ab ~500 Mio. Tokens. Gegen Mistral Small: selten wirtschaftlich.

Die Formel: Cloud-APIs gewinnen bei variablem Bedarf unter 1 Mrd. Tokens und wenn Frontier-Qualität nötig ist. On-Premises gewinnt bei stabilem Bedarf über 2 Mrd. Tokens plus Datenschutz-Anforderungen. Die Hybrid-Strategie – On-Prem für sensible Daten, Cloud für Spitzen – ist für die meisten Unternehmen optimal.

🧮 Break-Even-Rechner: On-Premises vs. Cloud

💰 Kostenvergleich

On-Premises (1× RTX 4090):
  • Hardware-Abschreibung: 47.22
  • Strom (450W): 58.32
  • Colocation: 100.00
  • Personal (anteilig): 2000.00
  • Total: 2205.54€/Monat
Cloud (GPT-4o):
  • Tokens: 1.000 Mio./Monat
  • Ø Preis: $6.25/1M tokens
  • Total: 6250.00€/Monat

📊 Ergebnis

Break-Even-Point: 353 Mio. Tokens/Monat

✅ On-Premises ist günstiger! Ersparnis: 4044.46€/Monat

Bei 1.000 Mio. Tokens/Monat nutzen Sie 283% der Break-Even-Kapazität.

Hinweis: Vereinfachte Kalkulation. Reale Kosten variieren je nach Nutzungsprofil, Standort, Infrastruktur und Support-Anforderungen. Input/Output-Ratio angenommen als 50/50.

DSGVO und EU AI Act: Was jetzt gilt

On-Premises eliminiert die kritischsten Risiken: keine Drittlandübermittlung, keine Abhängigkeit vom EU-US Data Privacy Framework, kein CLOUD-Act-Exposure.

DeepSeek ist tabu: Sieben deutsche Datenschutzbehörden ermitteln seit Februar 2025. Keine SCCs, kein EU-Vertreter, Datenverarbeitung ausschließlich in China. Einzig das Open-Source-Modell selbst gehostet ist vertretbar.

EU AI Act Zeitplan: Seit Februar 2025 gilt die KI-Kompetenzpflicht (Art. 4) – alle KI-nutzenden Mitarbeiter müssen geschult sein. Seit August 2025 greifen GPAI-Pflichten. Ab August 2026 werden Hochrisiko-KI-Anforderungen voll wirksam. Open-Source-Modelle profitieren von reduzierten Pflichten, aber Betreiber bleiben verantwortlich.

Pflicht für alle: DSFA nach Art. 35 DSGVO bei personenbezogenen Daten, Human-in-the-Loop bei automatisierten Entscheidungen (Art. 22), RAG-Architektur für löschbares Wissen statt Modell-Finetuning.

Empfehlung

SzenarioHardwareModellKosten/Monat
Einstieg (<500M Tokens)1× RTX 4090/5090Qwen 2.5 Coder 7B + Phi-4~300 €
Produktion (1–5 Mrd.)2–4× L40SQwen 2.5 Coder 32B + Llama 3.3 70B~8.000 €
Hochlast (>5 Mrd.)8× H100/H200Llama 3.3 70B + Mixtral~14.000 €

Die pragmatische Strategie: Hybrid starten, On-Premises-Kompetenz aufbauen, bei wachsendem Volumen die Gewichtung zugunsten eigener Infrastruktur verschieben – und Mistral AI als DSGVO-konformsten API-Partner für alles nutzen, was noch nicht lokal läuft.


Martin Stagl ist Systems Engineer und Data Scientist in Wien. Er betreibt On-Premises-LLM-Infrastruktur mit Ollama auf Kubernetes und berät zu DSGVO-konformen KI-Lösungen.

Share: