Künstliche Intelligenz

Die Zukunft der AI Agents: Revolution oder Risiko?

Von Robin Maier 10. Juni, 2026 8 min Lesezeit

Über KI-Agenten wird derzeit in zwei Tonlagen geschrieben: euphorisch oder warnend. „Revolution der Arbeitswelt” auf der einen Seite, „unkontrollierbares Risiko” auf der anderen. Beide verfehlen das, was Verantwortliche in mittelständischen Unternehmen tatsächlich wissen müssen — nämlich, warum die meisten Agenten-Projekte zwischen Demo und Produktivbetrieb steckenbleiben, und was die wenigen erfolgreichen anders machen. Genau darum geht es hier.

Die unbequeme Datenlage

Die Demos sind beeindruckend. Die Produktionsstatistik ist ernüchternd:

Gartner erwartet, dass über 40 Prozent der agentischen KI-Projekte bis Ende 2027 abgebrochen werden — wegen eskalierender Kosten, unklaren Nutzens und fehlender Risikokontrollen.
Im selben Bericht: Von tausenden Anbietern, die sich „agentic” nennen, hält Gartner nur etwa 130 für echt. Den Rest nennt man „Agent Washing” — umetikettierte Chatbots und RPA.
Eine viel zitierte MIT-Untersuchung (2025) fand, dass rund 95 Prozent der GenAI-Pilotprojekte keinen messbaren Effekt auf das Ergebnis liefern.
Im Benchmark der Carnegie Mellon University („TheAgentCompany”) löste der beste Agent nur 24 Prozent realer Büroaufgaben vollständig.
Salesforce maß in seinem CRM-Benchmark einen Abfall von 58 Prozent Erfolg bei einstufigen auf 35 Prozent bei mehrstufigen Aufgaben.

Das klingt nach einem Argument gegen Agenten. Ist es nicht. Es ist ein Argument gegen eine bestimmte Art, sie zu bauen — und es lässt sich präzise erklären.

Warum Agenten scheitern: die Verkettungs-Arithmetik

Der wichtigste Satz zum Thema ist eine simple Rechnung. Angenommen, ein Agent macht in jedem einzelnen Schritt zu 95 Prozent alles richtig — schon ein sehr guter Wert. Eine echte Aufgabe besteht aber selten aus einem Schritt, sondern aus vielen: lesen, nachschlagen, prüfen, entscheiden, schreiben. Bei zehn verketteten Schritten liegt die Gesamtzuverlässigkeit nur noch bei 0,95¹⁰ ≈ 60 Prozent.

Jeder zusätzliche Schritt multipliziert das Fehlerrisiko, statt es zu addieren. Ein monolithischer „Mach mal alles”-Prompt, der im Demo glänzt, kollabiert deshalb in der Breite des Alltags — bei seltenen Layouts, ungewohnten Formulierungen, kaputten Eingaben. Die Demo zeigt den Best Case. Die Produktion ist die Summe aller Edge Cases.

Dazu kommen typische Fehlermuster: halluzinierte Werkzeug-Aufrufe (der Agent „erfindet” Parameter), Kontext-Drift über lange Abläufe und veraltete Schema-Definitionen, die zu falschen Datenfeldern führen. Keines davon löst ein besseres Modell allein. Sie werden durch Architektur gelöst.

Die Engineering-Antwort

Die erfolgreichen Agentensysteme von 2026 unterscheiden sich nicht durch einen cleveren Prompt, sondern durch Produktions-Disziplin. Vier Prinzipien, die wir auch in unseren eigenen Systemen konsequent anwenden:

Aufgabe zerlegen statt monolithisch prompten. Statt einem Agenten alles zuzumuten, übernimmt jeder Agent ein eng definiertes Mandat. Fehler werden so isolierbar und einzeln testbar, statt sich in einer Black Box zu vermischen.
Strukturierte Übergaben statt freiem Text. Agenten reichen sich Daten als typisierte Schemata weiter (z. B. Pydantic-Modelle), nicht als Fließtext. Jede Übergabe ist ein Vertrag mit definierten Feldern — das eliminiert eine ganze Klasse von „der nächste Agent hat den Text falsch interpretiert”-Fehlern.
Deterministische Prüfungen. Wo es harte Regeln gibt — Summen, Formate, Stammdaten-Abgleich — prüft kein Sprachmodell, sondern Code. Was die Prüfung nicht besteht, gilt als unsicher.
Mensch in der Schleife für den Rest. Unsichere Fälle werden nicht geraten, sondern eskaliert. Das ehrliche Ziel ist nicht „100 Prozent autonom”, sondern null unbemerkte Fehler: Was das System nicht sicher kann, landet zur schnellen Prüfung bei einem Menschen — nicht ungeprüft im System.

Dazu kommt Plumbing, das in keiner Demo vorkommt, aber über Produktionsreife entscheidet: idempotente, wiederaufsetzbare Pipelines (ein abgebrochener Lauf setzt exakt dort fort, wo er stand, statt Dubletten zu erzeugen), sauberes Logging und ein Trockenlauf-Modus zum Testen ohne Nebenwirkungen.

Wie das konkret aussieht, zeigt unser lead-gen-agent: vier spezialisierte Agenten mit Google ADK, Übergaben ausschließlich über typisierte Modelle, reentrant konzipiert, fail-soft — kaputte Webseiten oder API-Änderungen führen zu sauberem Logging und Skip, nicht zum Absturz. Genau dieser unspektakuläre Teil ist der Unterschied zwischen Demo und Werkzeug. Mehr zur Architektur in AI Agents im Vertrieb.

Risiken, die real sind — und solche, die ablenken

Bei aller Engineering-Zuversicht: Einige Herausforderungen sind echt und gehören auf den Tisch.

Datenschutz und Souveränität. Wer sensible Daten durch fremde Clouds schickt, handelt sich DSGVO-Fragen ein. Die saubere Antwort sind on-premise betriebene Open-Weights-Modelle — Daten bleiben im Haus. Siehe KI-Dokumentenverarbeitung on-premise.
Nachvollziehbarkeit. Entscheidungswege müssen prüfbar bleiben. Strukturierte Übergaben und Logging sind hier nicht nur Engineering-, sondern auch Governance-Werkzeug.
Regulatorik in Bewegung. Der EU AI Act greift gestaffelt; einzelne Fristen für Hochrisiko-Systeme werden derzeit verschoben. Die meisten Mittelstands-Anwendungen (interne Automatisierung, Wissensabruf, Support) fallen ohnehin nicht in die Hochrisiko-Kategorie — aber Transparenzpflichten gelten.
Schatten-KI. Der oft übersehene Punkt: Rund vier von zehn deutschen Unternehmen vermuten, dass Beschäftigte private KI-Tools nutzen — nur etwa ein Viertel hat Regeln dafür. Wer keinen sanktionierten, datenschutzkonformen Agenten bereitstellt, bekommt ungesteuerte Tools durch die Hintertür.

Das eigentliche Risiko ist also selten „der Agent läuft Amok”. Es ist „das Projekt liefert keinen Wert” — und das ist ein Engineering- und Auswahlproblem, kein Schicksal.

Häufige Fragen

Warum scheitern so viele KI-Agenten-Projekte? Meist nicht am Modell, sondern an der Architektur: Ein monolithischer Prompt häuft über viele Schritte Fehler an. Schon 95 % Zuverlässigkeit pro Schritt ergeben bei zehn Schritten nur ~60 % Gesamterfolg. Verlässlich wird es erst durch Zerlegung, strukturierte Übergaben, deterministische Prüfung und Mensch-in-der-Schleife.

Bedeutet die hohe Abbruchquote, dass man besser wartet? Nein. Sie bedeutet, dass Auswahl und Umsetzung entscheidend sind. Erfolgreich sind eng umrissene Use Cases mit messbarem ROI und sauberem Engineering — nicht Hype-getriebene Großprojekte. Welche Use Cases sich im Mittelstand lohnen, zeigt unser Whitepaper Chancen für KMUs.

Was heißt „null unbemerkte Fehler”? Dass das System fehleranfällige Fälle erkennt und zur Prüfung ausleitet, statt sie ungeprüft zu übernehmen. Nicht jeder Fall läuft autonom — aber kein automatisch übernommener Fall ist ungeprüft falsch.

Können wir Agenten DSGVO-konform und ohne Cloud betreiben? Ja. Mit Open-Weights-Modellen auf eigener Hardware verlässt kein Datum das Netzwerk. Das ist im Mittelstand oft die Voraussetzung, an der Cloud-SaaS scheitert.

Fazit

Revolution oder Risiko? Beides ist die falsche Frage. KI-Agenten sind weder Magie noch Gefahr, sondern Werkzeuge — und wie bei jedem Werkzeug entscheidet die Bauweise über den Nutzen. Die Daten sind eindeutig: Wer Agenten als Demo baut, landet in der Abbruchstatistik. Wer sie mit klassischer Engineering-Disziplin baut — zerlegt, strukturiert, geprüft, mit Mensch in der Schleife — bekommt ein verlässliches Werkzeug. Die Zukunft der Agenten gehört nicht den besten Prompts, sondern dem besten Engineering.

kitun baut produktive Multi-Agent-Systeme mit genau dieser Disziplin — strukturierte Übergaben, deterministische Validierung, on-premise möglich, ohne Abo und ohne Lizenz pro Nutzer. Im 20-minütigen Erstgespräch lässt sich einschätzen, ob ein Vorhaben produktionsreif tragfähig ist.

→ So bauen wir Agenten produktiv: lead-gen-agent

→ Die Lösung im Überblick: KI-Agenten-Entwicklung mit kitun