In den letzten zwei Wochen hat sich bei den KI-Coding-Modellen mehr bewegt als in den drei Monaten davor. OpenAI hat GPT-5.5 veröffentlicht, Moonshot AI hat Kimi K2.6 als Open-Weight-Modell herausgebracht, Z.ai hat GLM 5.1 nachgeschoben, und DeepSeek hat V4 Pro mit 1,6 Billionen Parametern auf Hugging Face hochgeladen. Für alle vier gilt: Sie schlagen Claude Opus 4.6 auf mindestens einem relevanten Coding-Benchmark – teils um mehrere Prozentpunkte.
In Lurus Code sind ab sofort alle neuen Modelle verfügbar. Das Wichtigste zuerst: Kimi K2.6 und GLM 5.1 werden in Europa gehostet – mit Zero-Data-Retention-Garantien. Für alles, was regulierte Workloads, DSGVO oder IT-Sicherheit betrifft, bedeutet das: Open-Source-Frontier-Modelle mit klar dokumentierter Verarbeitung und konkretem EU-Hosting.
Was ist neu
Sechs neue Modelle sind ab heute verfügbar:
| Modell | Kategorie | Hosting | Highlight |
|---|---|---|---|
| GPT-5.5 | Powerful | OpenAI (EU-Region) | 82,7 % Terminal-Bench 2.0 (SOTA) |
| Kimi K2.6 | Balanced | EU | 80,2 % SWE-Bench Verified, 256K Kontext |
| GLM 5.1 | Balanced | EU | 58,4 % SWE-Bench Pro, 8h Autonomie |
| DeepSeek V4 Pro | Powerful | Global (US, ZDR) | 1,6T Parameter, 1M Kontext |
| MiniMax M2.7 | Balanced | Global (US, ZDR) | Schnell & günstig |
| Qwen 3.6 Plus | Balanced | Global (US, ZDR) | 1M Kontext mit Vision |
Parallel sind GPT-5.4 Pro und die älteren Varianten von Kimi, GLM und DeepSeek aus der Standard-Auswahl entfernt worden – sie waren auf jedem Benchmark schlechter und teurer als die Nachfolger.
GPT-5.5: State of the Art im agentischen Coding
GPT-5.5 ist am 23. April erschienen und ist OpenAIs erste komplett neu trainierte Basis seit GPT-4.5 – nicht nur ein inkrementelles Update. Die wichtigsten Zahlen:
- Terminal-Bench 2.0: 82,7 % – neuer Rekord. Zum Vergleich: Claude Opus 4.7 liegt bei 69,4 %, Gemini 3.1 Pro bei 68,5 %.
- SWE-Bench Pro: 58,6 % – Gleichstand mit Kimi K2.6, hinter Claude Opus 4.7 (64,3 %).
- MRCR v2 bei 512K–1M Tokens: 74,0 % – ein Sprung von 37 Prozentpunkten gegenüber GPT-5.4. Bei 128K–256K sogar 87,5 % vs. 59,2 % bei Claude.
- 1M Kontext in der API (400K in Codex).
In der Praxis heißt das: Langlaufende Terminal-Tasks – DevOps-Pipelines, Debugging über ganze Repositories, mehrstündige Refactorings – werden deutlich zuverlässiger. Wer bisher GPT-5.4 Pro genutzt hat, bekommt mit GPT-5.5 bessere Qualität zu einem Sechstel des Preises (5 € / 30 € vs. 30 € / 180 € pro 1M Tokens Input/Output).
In Lurus Code ersetzt GPT-5.5 GPT-5.4 Pro als Standard-Powerful-Modell im OpenAI-Segment.
Kimi K2.6 – EU-gehostet, Open-Weight, Top-Tier
Moonshot AI hat Kimi K2.6 am 20. April veröffentlicht und direkt unter einer Open-Weight-Lizenz auf Hugging Face gestellt. Die Benchmarks lesen sich wie ein Frontier-Modell:
- SWE-Bench Verified: 80,2 % – innerhalb von 0,4 Prozentpunkten hinter DeepSeek V4 Pro (80,6 %) und Claude Opus 4.6.
- SWE-Bench Pro: 58,6 % – Gleichstand mit GPT-5.5.
- Terminal-Bench 2.0: 66,7 % – vor Claude Opus 4.7 (69,4 %) … okay, knapp dahinter. Aber deutlich vor Gemini 3.1 Pro.
- DeepSearchQA F1: 92,5 %.
- 256K Kontext, native Tool-Calls, Agent-Swarm-Architektur mit bis zu 300 parallelen Sub-Agents.
Moonshot liefert damit das erste ernstzunehmende chinesische Frontier-Coding-Modell, das gleichzeitig Open-Weight ist. Wenn du aber die Kimi-API direkt nutzt, gehen deine Prompts zu Moonshots Servern in China – was für die meisten europäischen Teams ein No-Go ist.
Bei Lurus Code wird Kimi K2.6 in Europa gehostet – mit Zero Data Retention und ohne Training. Deine Prompts und dein Code werden nicht gespeichert. Preis: 0,80 € / 3,50 € pro 1M Tokens Input/Output – ein Drittel dessen, was Claude Opus kostet.
GLM 5.1 – 8 Stunden autonomes Arbeiten, EU-gehostet
Z.ai (ehemals Zhipu AI) hat GLM 5.1 wenige Tage vor Kimi K2.6 veröffentlicht. Beide haben innerhalb von zwei Wochen den ersten Platz auf SWE-Bench Pro für sich beansprucht – Z.ai mit 58,4 % leicht hinter Kimi.
Was GLM 5.1 besonders macht, ist nicht die reine Benchmark-Zahl, sondern die Langzeit-Autonomie:
- Terminal-Bench 2.0: 63,5 %
- AIME 2026: 95,3 %, GPQA-Diamond: 86,2 %
- Bis zu 8 Stunden autonome Ausführung an einem einzigen Task – planen, ausführen, iterieren, optimieren, abliefern. Kein anderes Open-Source-Modell ist auf dieser Dauer evaluiert worden.
- Trainiert auf 100.000 Huawei Ascend 910B Chips – ohne NVIDIA.
Zitat von Z.ais Lou: „Agents could do about 20 steps by the end of last year. GLM 5.1 can do 1,700 right now.” Der Sprung von 20 auf 1.700 Schritten in vier Monaten ist vermutlich die interessanteste Kurve in der Branche gerade.
Auch GLM 5.1 wird bei Lurus Code in Europa gehostet – mit Zero Data Retention und ohne Training. Preis: 1,40 € / 4,40 € pro 1M Tokens.
DeepSeek V4 Pro, MiniMax M2.7, Qwen 3.6 Plus: die neuen Global-Provider
Nicht alles ist EU-hostbar. Für drei neue Modelle bieten wir einen Global-Provider (US) an – mit einer harten Bedingung: Zero Data Retention & kein Modelltraining, vertraglich über unseren Gateway-Provider zugesichert.
DeepSeek V4 Pro (Release 24. April): 1,6 Billionen Parameter, 49 Mrd. aktiv pro Token, 1M Kontext bei nur 27 % der FLOPs und 10 % der KV-Cache-Speichers gegenüber V3.2. Das ist der eigentliche Durchbruch – 1M Kontext wird damit produktionsreif statt Premium-Feature. SWE-Bench Verified: 80,6 %, innerhalb von 0,2 Prozentpunkten von Claude Opus 4.6 – bei 7× günstigerem Preis (3,48 € vs. 25 € pro 1M Output-Tokens).
MiniMax M2.7: Schneller Allrounder für Balanced-Tasks. 0,30 € / 1,20 € pro 1M Tokens – unter den günstigsten Modellen im Angebot.
Qwen 3.6 Plus (Alibaba, März 2026): 1M-Kontext nativ, Vision-Support, starke Performance bei Frontend-Code und Web-Generierung. Für UI-lastige Workloads die spannendste Option.
Alle drei sind über unseren Gateway-Provider in den USA gehostet, laufen aber unter einer vertraglich zugesicherten ZDR-Policy. Das ist nicht dasselbe wie EU-Hosting – aber es ist deutlich stärker als die Standardbedingungen der meisten US-APIs, und es steht in den Docs explizit ausgewiesen.
Welches Modell für welchen Fall?
Kurze Heuristik aus unseren internen Tests:
- GPT-5.5 für lange Terminal-Sessions und Long-Context-Refactorings.
- Claude Opus 4.7 bleibt unschlagbar für reine Code-Qualität in kurzen Aufgaben.
- Kimi K2.6 für Agent-Swarms und lange Tool-Call-Ketten – bei einem Bruchteil der Opus-Kosten.
- GLM 5.1 für mehrstündige autonome Tasks (CI-Fixes, Migrationen, große Refactorings).
- DeepSeek V4 Pro für 1M-Kontext-Analysen ganzer Codebases.
- Qwen 3.6 Plus für Frontend- und Vision-Tasks.
Die neue Models-Seite zeigt alle Modelle mit Tier (Powerful / Balanced / Fast), Provider-Gruppe und exakten Preisen. Für die Global-Provider-Section gibt es einen expliziten ZDR-Hinweis direkt neben der Überschrift – damit auf einen Blick klar ist, welche Modelle für regulierte Workloads in Frage kommen.
Was das für dich ändert
Wenn du bereits Lurus Code nutzt: Die neuen Modelle sind ab sofort im Model-Picker (CLI und VS Code) auswählbar. Deine bestehenden Sessions laufen weiter auf dem Modell, das du vorher gewählt hattest.
Wenn du bisher auf Claude Opus gesetzt hast, weil „das einfach am besten funktioniert”: Teste GPT-5.5 auf Terminal-Bench-artigen Tasks und Kimi K2.6 auf langen Agent-Ketten. In beiden Fällen bekommst du vergleichbare Qualität zu einem Drittel der Kosten – und bei Kimi zusätzlich EU-gehostete, DSGVO-konforme Verarbeitung.
Die aktualisierte Modell-Übersicht und alle Preise findest du auf der Models-Seite und in der Preis-Tabelle in der Dokumentation.