Zum Inhalt springen
Zurück zum Blog
Self-hosting Cloud KI Tools Infrastruktur DSGVO

Selbst gehostet vs. Cloud KI-Coding-Tools: Was ist das Richtige für dein Team?

Veröffentlicht am 8. April 2026 · 9 Min. Lesezeit · von Lurus Team

Die Frage „Self-hosting oder Cloud?” ist für KI-Coding-Tools komplexer als bei herkömmlicher Software. Denn hier geht es nicht nur um Kosten und Kontrolle – sondern auch um Modell-Qualität, GPU-Anforderungen und die DSGVO-Compliance.

Dieser Artikel gibt einen ehrlichen Überblick, wann Self-hosting sinnvoll ist und wann eine DSGVO-konforme Cloud die bessere Wahl ist. Keine Pauschalantworten, sondern eine differenzierte Betrachtung für verschiedene Team-Konstellationen.

Was Self-hosting für KI-Coding-Tools bedeutet

Self-hosting eines KI-Coding-Tools bedeutet in der Praxis: ein eigenes LLM (Large Language Model) auf eigener oder gemieteter GPU-Infrastruktur betreiben.

Das ist technisch möglich – Ollama, vLLM und ähnliche Frameworks erlauben es, Open-Source-Modelle wie Llama 3, Mistral oder Code Llama lokal zu betreiben.

Die ehrliche Bewertung: Für die meisten Teams ist Full-Self-hosting heute noch ein erheblicher Aufwand mit signifikanten Qualitätsverlusten gegenüber State-of-the-Art-Modellen.

Die technischen Anforderungen

Um ein konkurrenzfähiges Coding-Modell selbst zu hosten, brauchst du:

  • GPU-Hardware: Mindestens eine NVIDIA A100 (40GB) für kleinere Modelle, 2-4x A100 oder H100 für Frontier-Modelle
  • Inference-Server: vLLM, TGI (Text Generation Inference) oder ähnliche optimierte Frameworks
  • Orchestrierung: Kubernetes mit GPU-Support oder dedizierte GPU-Server
  • Monitoring: Prometheus/Grafana für Latenz, Durchsatz, GPU-Auslastung
  • Skalierung: Load Balancing bei mehreren gleichzeitigen Anfragen

Das ist kein „Docker-Container starten und fertig”. Es ist ein ML-Ops-Projekt mit laufendem Wartungsaufwand.

Self-hosting: Wann es sinnvoll ist

Sehr hohe Sicherheitsanforderungen: Unternehmen mit absolut strikten Anforderungen (Rüstungsindustrie, kritische Infrastruktur, Geheimhaltungsstufen) brauchen möglicherweise vollständige Kontrolle über die gesamte Verarbeitungskette.

Air-Gapped Umgebungen: Systeme ohne Internetverbindung (industrielle Steuerungssysteme, bestimmte Behörden-IT) können per Definition keine Cloud-Dienste nutzen.

Sehr hohe Volumen: Bei extrem hohem Usage-Volumen kann Self-hosting ab einem bestimmten Punkt günstiger werden – allerdings mit erheblichem ops-Aufwand.

Spezifische Compliance-Anforderungen: Manche Branchen (Verteidigung, bestimmte Behörden) haben explizite Anforderungen, die Cloud-Nutzung – auch EU-Cloud – ausschließen.

Wann Self-hosting keinen Sinn macht

  • Teams unter 50 Entwicklern: Die TCO (Total Cost of Ownership) übersteigt fast immer Cloud-Alternativen
  • Ohne dediziertes ML-Ops-Personal: Der Wartungsaufwand erfordert Expertise, die nicht nebenbei erledigt werden kann
  • Wenn Modell-Qualität kritisch ist: Open-Source-Modelle sind gut, aber nicht auf dem Niveau von Claude 3.5 Sonnet für komplexe Coding-Aufgaben

Self-hosting: Die echten Kosten

Was oft unterschätzt wird:

GPU-Kosten: Frontier-Modelle (Claude 3.5, GPT-4 Klasse) benötigen mehrere A100/H100-GPUs. Eine H100 kostet ~$35.000 oder ~$3/Stunde in der Cloud. Für continuous availability sind mindestens 2-4 GPUs nötig.

Ops-Aufwand: Modell-Updates, Infrastruktur-Maintenance, Monitoring, Skalierung – mindestens eine Person mit ML-Ops-Expertise.

Modell-Qualität: Die besten Coding-Modelle (Claude 3.5 Sonnet) sind proprietär und nicht self-hostbar. Open-Source-Alternativen (Llama 3, DeepSeek) sind gut, aber nicht auf demselben Niveau für komplexe Coding-Aufgaben.

Realistische Schätzung: Self-hosting lohnt sich für die meisten Teams (< 50 Entwickler) noch nicht – die TCO (Total Cost of Ownership) übersteigt Cloud-Optionen, bei schlechterer Modell-Qualität.

Eine realistische Kostenrechnung

Szenario: 20 Entwickler, moderater KI-Einsatz

Self-hosting (Open-Source-Modell):

  • GPU-Server (2x A100, gemietet): ~$6.000/Monat
  • DevOps-Anteil (0.5 FTE): ~$4.000/Monat
  • Infrastruktur (Strom, Kühlung, Netzwerk): ~$500/Monat
  • Gesamt: ~$10.500/Monat

DSGVO-konforme Cloud (Lurus Code Business):

  • 20 Entwickler × $30/Monat = $600/Monat
  • Keine Infrastruktur, kein Ops-Aufwand
  • Gesamt: ~$600/Monat

Die Rechnung kippt erst bei sehr hohem Volumen (hunderte Entwickler, tausende Anfragen pro Tag) oder wenn Self-hosting aus Compliance-Gründen zwingend ist.

DSGVO-konforme Cloud: Die pragmatische Alternative

DSGVO-konforme KI-Coding-Tools wie Lurus Code bieten den Mittelweg:

  • Keine eigene GPU-Infrastruktur notwendig
  • Frontier-Modell-Qualität verfügbar
  • Verarbeitung je nach Modell und Region dokumentiert
  • DSGVO-AVV ohne Enterprise-Vertragsverhandlungen
  • Automatische Updates auf neue Modell-Versionen

Für 99% der Teams ist das die pragmatisch beste Lösung: volle Modell-Qualität, dokumentierte DSGVO-Verarbeitung, kein Ops-Aufwand.

Warum dokumentierte DSGVO-Verarbeitung wichtig ist

Der Unterschied zwischen einer beliebigen Cloud und einer DSGVO-konform dokumentierten Cloud liegt nicht primär in der Performance, sondern im Rechtsrahmen:

US-Cloud (AWS US, Azure US, GCP US):

  • Unterliegt FISA 702 und anderen US-Überwachungsgesetzen
  • Schrems II hat Privacy Shield für ungültig erklärt
  • Auch mit SCCs bleiben rechtliche Unsicherheiten

DSGVO-konforme Cloud:

  • AVV und Subprozessoren dokumentiert
  • Verarbeitung je nach Modell und Region transparent
  • No-Training- und Retention-Zusagen nachvollziehbar

Ein Anbieter mit dokumentierter Verarbeitung, AVV und klaren No-Training-Zusagen bietet Teams eine belastbare Grundlage für ihre Datenschutzbewertung. Das ist keine Anti-US-Position, sondern eine sachliche Bewertung der Rechtslage nach Schrems II.

Der Hybrid-Ansatz

Einige Teams wählen einen hybriden Ansatz:

Sensitive Aufgaben lokal, allgemeine Aufgaben in dokumentierter Cloud:

  • Lokal (Ollama + Code Llama): Simple Code-Completion, Off-the-record Experimente
  • DSGVO-konforme Cloud (Lurus Code): Komplexe Agenten-Aufgaben, Code Reviews, Security Scans

Vorteil: Maximale Kontrolle wo nötig, beste Qualität wo es auf Produktivität ankommt.

Wann Hybrid sinnvoll ist

Der Hybrid-Ansatz lohnt sich für Teams, die:

  1. Bereits GPU-Infrastruktur haben (z.B. für ML-Training) und diese auch für einfache Coding-Aufgaben nutzen wollen
  2. Experimentieren wollen ohne sich Gedanken über Datenschutz zu machen (lokale Modelle für Prototypen)
  3. Unterschiedliche Sicherheitsstufen im Code haben (public repos lokal, proprietary code in dokumentierter Cloud)

Nachteil: Komplexität. Zwei Systeme zu pflegen bedeutet doppelter Wartungsaufwand und potenzielle Verwirrung im Team.

Lokale Modelle für einfache Aufgaben

Für Teams, die experimentieren wollen, hier eine Empfehlung für lokale Setups:

Ollama + Code Llama 7B: Läuft auf einem MacBook Pro mit 16GB RAM. Gut für einfache Completions, nicht für komplexe Agenten-Aufgaben.

vLLM + Mistral 7B: Benötigt eine GPU (mindestens RTX 3080). Bessere Performance, aber immer noch nicht auf Claude-Niveau.

LM Studio: Benutzerfreundliche Desktop-App für lokale Modelle. Gut zum Ausprobieren, nicht für Produktion.

DSGVO-Vergleich: Self-hosting vs. dokumentierte Cloud

AspektSelf-hostingDSGVO-konforme Cloud (Lurus Code)
DatenresidenzVollständige KontrolleAbhängig von Modell und Region dokumentiert
DSGVO AVVNicht nötig (eigene Infrastruktur)Verfügbar
DatenflüsseSelbst zu dokumentierenProvider dokumentiert Modellrouting und Subprozessoren
Compliance-AufwandHoch (eigene Dokumentation)Niedrig (Dokumentation beim Provider verfügbar)
ZertifizierungenSelbst zu organisierenBeim Provider

Interessantes Detail: Aus DSGVO-Sicht ist Self-hosting vor allem dann überlegen, wenn vollständige Kontrolle zwingend ist. Für viele Teams ist eine dokumentierte Cloud mit AVV, No-Training-Zusagen und transparenter Verarbeitung die pragmatischere Compliance-Lösung.

Empfehlung für verschiedene Team-Typen

Startup / Scale-up (< 50 Entwickler): DSGVO-konformes Cloud-Tool (Lurus Code). Kein ops-Aufwand, volle Modell-Qualität, DSGVO ready.

Enterprise (50-500 Entwickler): Dokumentierte Cloud mit AVV oder Hybrid. Self-hosting nur bei spezifischen Anforderungen.

Enterprise (> 500 Entwickler) oder regulierte Branche: Evaluation von Self-hosting auf eigener GPU-Infrastruktur oder dedizierter Cloud-Verarbeitung. Lurus Code Enterprise-Tier für dedizierte Anforderungen anfragen.

Air-Gapped oder Hochsicherheitsumgebung: Self-hosting ist die einzige Option. Open-Source-Modelle mit lokaler Inferenz.

Fazit

Self-hosting von KI-Coding-Tools ist 2026 technisch möglich, für die meisten Teams aber noch keine sinnvolle Option. Die Kombination aus hohen GPU-Kosten, ops-Aufwand und Modell-Qualitätsverlusten gegenüber proprietären Modellen macht dokumentierte Cloud-Verarbeitung zum pragmatischeren Ansatz.

Für Unternehmen, die DSGVO-Compliance brauchen, ist ein DSGVO-konformes Cloud-Tool wie Lurus Code oft der effizienteste Weg: volle Qualität, keine eigene Infrastruktur, dokumentierte Verarbeitung.

Self-hosting bleibt die richtige Wahl für Teams mit absoluten Sicherheitsanforderungen oder air-gapped Umgebungen. Für den Rest: dokumentierte Cloud first.

Entscheidungsmatrix

KriteriumSelf-hostingDokumentierte CloudUnklare Cloud
Setup-AufwandHochNiedrigNiedrig
Laufende Kosten (< 50 Dev)HochNiedrigNiedrig
Modell-QualitätMittelHochHoch
DatenkontrolleVollständigBeim Provider, dokumentiertBeim Provider, schwer prüfbar
DSGVO-ComplianceJa (eigene Verantwortung)Ja (AVV verfügbar)Problematisch
Datenfluss-DokumentationSelbst zu pflegenVerfügbarOft unvollständig
SkalierbarkeitBegrenztUnbegrenztUnbegrenzt
WartungsaufwandHochKeinerKeiner

Häufig gestellte Fragen

Kann ich ein selbst gehostetes Modell mit Lurus Code kombinieren? Lurus Code unterstützt aktuell keine BYOM (Bring Your Own Model)-Konfiguration. Die Infrastruktur ist auf die optimierte Claude-Integration ausgelegt.

Gibt es Open-Source-Modelle, die an Claude 3.5 Sonnet herankommen? Für allgemeine Coding-Aufgaben sind Modelle wie DeepSeek Coder, Code Llama und Llama 3 sehr gut. Für komplexe, mehrstufige Coding-Agenten-Aufgaben gibt es Stand 2026 keine vollständig gleichwertige Open-Source-Alternative.

Was ist, wenn ich sowohl Self-hosting als auch Cloud brauche? Der Hybrid-Ansatz ist technisch möglich: lokale Modelle für einfache Aufgaben, dokumentierte Cloud für komplexe Agenten-Workflows. Das erfordert allerdings ein eigenes Routing-System.