KI im Unternehmen ohne Cloud: GPU-Benchmarks, Kosten und DSGVO im Vergleich

Open-Source-LLMs haben 2025 ein Niveau erreicht, das viele Cloud-APIs für Enterprise-Aufgaben überflüssig macht. Gleichzeitig verschärft der EU AI Act die Compliance-Anforderungen. Für IT-Entscheider in der DACH-Region stellt sich die Frage: Wann lohnt sich eigene GPU-Hardware – und welche Modelle laufen darauf?

GPU-Vergleich: Consumer vs. Datacenter

Die Überraschung: Consumer-GPUs liefern bei Einzelnutzer-Inferenz fast die gleiche Token-Rate wie teure Datacenter-Karten – zum Bruchteil des Preises.

GPU	VRAM	TDP	Preis (ca.)	TPS (8B, Q4)	TPS (70B, Q4)	€/TPS	TPS/Watt
RTX 3090	24 GB	350 W	~750 € (gebr.)	~112	– (OOM)	~7 €	0,32
RTX 4090	24 GB	450 W	~1.700 €	~128	– (OOM)	~13 €	0,28
RTX 5090	32 GB	575 W	1.900–4.100 €¹	~145–213	~27 (2×GPU)	~10–21 €	0,25–0,37
L40S	48 GB	350 W	~7.000 €	~114	~15	~66 €	0,32
A100 80GB	80 GB	300 W	~15.000 €	~138	~22	~109 €	0,46
H100 80GB	80 GB	700 W	~30.000 €	~144	~25	~188 €	0,21
H200	141 GB	700 W	~33.000 €	~169	~27 (1×GPU)	~207 €	0,24

¹ UVP $1.999, Straßenpreis wegen Knappheit deutlich höher

Kernerkenntnisse: Die RTX 3090 gebraucht bietet mit ~7 €/TPS das beste Preis-Leistungs-Verhältnis – ideal für Prototyping. Datacenter-GPUs rechnen sich erst im Batch-Betrieb: Eine H100 erreicht per vLLM mit 8 parallelen Anfragen über 800 TPS, Consumer-Karten profitieren davon kaum. Die H200 ist die einzige GPU, die ein 70B-Modell quantisiert auf einer Karte betreibt.

Welche Modelle für Coding und Recherche?

Coding: Qwen 2.5 Coder 32B erreicht GPT-4o-Niveau auf HumanEval (Apache 2.0, ~21 GB VRAM bei Q4). DeepSeek Coder V2 Lite (16B MoE) erzielte als erstes offenes Modell 90,2 % HumanEval. Für begrenzte Ressourcen: Qwen 2.5 Coder 7B übertrifft CodeLlama 34B bei nur ~5 GB VRAM.

General Purpose: Llama 3.3 70B liefert 86 % MMLU – nahe am 405B-Modell. Phi-4 (14B, MIT-Lizenz) erreicht 84,8 % MMLU bei ~9 GB VRAM. Mixtral 8x7B bietet GPT-3.5-Niveau mit guter Deutschunterstützung.

Europäisch/DSGVO: Mistral AI (Paris) ist der stärkste EU-Anbieter – Apache-2.0-Lizenz, EU-Hosting, nicht vom CLOUD Act betroffen. Aleph Alpha (Heidelberg) hat als einziger BSI-C5-Zertifizierung.

VRAM-Planung (Q4-Quantisierung, ~90–95 % Qualität)

Modell	Q4 VRAM	Passende GPU
7–8B	~5 GB	Jede GPU ≥8 GB
14B	~9 GB	RTX 3090/4090
32B	~21 GB	RTX 4090/5090, L40S
70B	~43 GB	A100, H100, H200

TCO: Wann rechnet sich On-Premises?

Aktuelle API-Preise (Anfang 2026):

Modell	Input $/1M Tokens	Output $/1M Tokens
GPT-4o	$2,50	$10,00
Claude 3.5 Sonnet	$3,00	$15,00
Mistral Large 3	$0,50	$1,50
Mistral Small 3.2	$0,10	$0,30

On-Premises-Kalkulation (8× A100, 36 Monate Abschreibung): ~12.000–16.000 €/Monat (Hardware, Colocation, Strom à ~18 ct/kWh, anteiliges Personal). Break-Even gegen GPT-4o: ab ~2–3 Mrd. Tokens/Monat. Gegen Claude Opus bereits ab ~500 Mio. Tokens. Gegen Mistral Small: selten wirtschaftlich.

Die Formel: Cloud-APIs gewinnen bei variablem Bedarf unter 1 Mrd. Tokens und wenn Frontier-Qualität nötig ist. On-Premises gewinnt bei stabilem Bedarf über 2 Mrd. Tokens plus Datenschutz-Anforderungen. Die Hybrid-Strategie – On-Prem für sensible Daten, Cloud für Spitzen – ist für die meisten Unternehmen optimal.

🧮 Break-Even-Rechner: On-Premises vs. Cloud

GPU-Modell:Anzahl GPUs:

Cloud-Provider:Monatlicher Bedarf (Mio. Tokens):

💰 Kostenvergleich

On-Premises (1× RTX 4090):

Hardware-Abschreibung: 47.22€
Strom (450W): 58.32€
Colocation: 100.00€
Personal (anteilig): 2000.00€
Total: 2205.54€/Monat

Cloud (GPT-4o):

Tokens: 1.000 Mio./Monat
Ø Preis: $6.25/1M tokens
Total: 6250.00€/Monat

📊 Ergebnis

Break-Even-Point: 353 Mio. Tokens/Monat

✅ On-Premises ist günstiger! Ersparnis: 4044.46€/Monat

Bei 1.000 Mio. Tokens/Monat nutzen Sie 283% der Break-Even-Kapazität.

Hinweis: Vereinfachte Kalkulation. Reale Kosten variieren je nach Nutzungsprofil, Standort, Infrastruktur und Support-Anforderungen. Input/Output-Ratio angenommen als 50/50.

DSGVO und EU AI Act: Was jetzt gilt

On-Premises eliminiert die kritischsten Risiken: keine Drittlandübermittlung, keine Abhängigkeit vom EU-US Data Privacy Framework, kein CLOUD-Act-Exposure.

DeepSeek ist tabu: Sieben deutsche Datenschutzbehörden ermitteln seit Februar 2025. Keine SCCs, kein EU-Vertreter, Datenverarbeitung ausschließlich in China. Einzig das Open-Source-Modell selbst gehostet ist vertretbar.

EU AI Act Zeitplan: Seit Februar 2025 gilt die KI-Kompetenzpflicht (Art. 4) – alle KI-nutzenden Mitarbeiter müssen geschult sein. Seit August 2025 greifen GPAI-Pflichten. Ab August 2026 werden Hochrisiko-KI-Anforderungen voll wirksam. Open-Source-Modelle profitieren von reduzierten Pflichten, aber Betreiber bleiben verantwortlich.

Pflicht für alle: DSFA nach Art. 35 DSGVO bei personenbezogenen Daten, Human-in-the-Loop bei automatisierten Entscheidungen (Art. 22), RAG-Architektur für löschbares Wissen statt Modell-Finetuning.

Empfehlung

Szenario	Hardware	Modell	Kosten/Monat
Einstieg (<500M Tokens)	1× RTX 4090/5090	Qwen 2.5 Coder 7B + Phi-4	~300 €
Produktion (1–5 Mrd.)	2–4× L40S	Qwen 2.5 Coder 32B + Llama 3.3 70B	~8.000 €
Hochlast (>5 Mrd.)	8× H100/H200	Llama 3.3 70B + Mixtral	~14.000 €

Die pragmatische Strategie: Hybrid starten, On-Premises-Kompetenz aufbauen, bei wachsendem Volumen die Gewichtung zugunsten eigener Infrastruktur verschieben – und Mistral AI als DSGVO-konformsten API-Partner für alles nutzen, was noch nicht lokal läuft.

Martin Stagl ist Systems Engineer und Data Scientist in Wien. Er betreibt On-Premises-LLM-Infrastruktur mit Ollama auf Kubernetes und berät zu DSGVO-konformen KI-Lösungen.