Weniger als 1 von 4 Unternehmen, die mit KI-Agenten experimentieren, haben einen produktiv eingesetzt. Die Lücke ist nicht technisch. Es sind vier Architekturentscheidungen, die im Pilotprojekt getroffen werden und die später teuer zu korrigieren sind.

Warum KI-Agenten-Pilotprojekte in der Schweiz stecken bleiben — und die vier Entscheidungen, die über die Skalierung entscheiden

Weniger als 1 von 4 Unternehmen, die mit KI-Agenten experimentieren, haben einen tatsächlich produktiv eingesetzt. Das ist kein Technologieproblem. Die Modelle funktionieren. Die APIs sind stabil. Die Lücke ist organisatorisch: vier Entscheidungen, die in der Pilotphase getroffen werden, sich im Moment harmlos anfühlen und später teuer zu korrigieren sind.

Dieser Beitrag beschreibt diese vier Entscheidungen, warum sie in einem Pilotprojekt leicht falsch getroffen werden, und wie sie richtig aussehen. Die Datenpunkte stammen aus dem Schweizer Markt. Die Muster gelten überall.

Das Pilotproblem

67% der Schweizer KMU mit weniger als 250 Mitarbeitenden planen, bis Ende 2026 mindestens ein KI-Tool in ihre Prozesse zu integrieren. Nur 18% haben einen strukturierten Plan, wie das gelingen soll.

Diese Lücke — 67% Absicht, 18% Struktur — ist der Lebensraum von Pilotprojekten. Ein Pilot ist das, was man baut, wenn man Absicht, aber keine Struktur hat. Er ist von Produktionsdaten isoliert, von der Compliance-Prüfung ausgenommen, auf einen einzigen Workflow begrenzt und daran gemessen, ob der Output plausibel aussieht. Er beantwortet die Frage: «Kann das funktionieren?» Nicht: «Wie betreiben wir das?»

88% der frühen KI-Anwender berichten von positivem ROI bei mindestens einem generativen KI-Anwendungsfall. Aber die Skalierung von einem funktionierenden Anwendungsfall zu einem Agenten, der zuverlässig in der Produktion läuft, erfordert vier Fragen zu beantworten, die der Pilot nie gestellt hat.

Entscheidung 1: Woher liest der Agent?

Im Pilot liest der Agent aus einem kuratierten Datensatz. Ein Spreadsheet-Export. Eine bereinigte Stichprobe. Ein Datenbankausschnitt ohne personenbezogene Daten. Der Output sieht gut aus, weil der Input so gestaltet wurde, dass er guten Output produziert.

In der Produktion liest der Agent aus operativen Daten: live Datensätze mit inkonsistenter Formatierung, fehlenden Feldern, Legacy-Einträgen aus 2012, die nicht mehr zum aktuellen Schema passen, und Kundennamen, die der Textparser nicht korrekt verarbeitet.

Die Entscheidung, die in der Pilotphase getroffen werden muss: Was ist das Datenzugriffsmodell des Agenten? Nicht «Welche Daten geben wir ihm für die Demo» — welches Zugriffsmuster wird in der Produktion laufen?

Das bedeutet konkret:

Fragt der Agent direkt die Datenbank ab, oder geht er durch eine Abstraktionsschicht, die Inputs normalisiert und validiert?
Was passiert, wenn ein Pflichtfeld null ist?
Welche Datensätze sind ausserhalb des Scope — und weiss der Agent das, bevor er sie abruft, oder erst danach?

Teams, die das Zugriffsmodell während des Pilots konzipieren, können in Wochen in die Produktion wechseln. Teams, die es nach dem Pilot entwerfen, bauen den Agenten von der Datenschicht aufwärts neu.

Entscheidung 2: Wer ist für die Aktionen des Agenten verantwortlich?

Im Pilot ist Verantwortlichkeit informell. Der Agent macht etwas falsch; man korrigiert den Prompt. Kein Audit-Trail erforderlich. Niemand ausserhalb des Projektteams sieht den Output.

In der Produktion ist jede Aktion des Agenten eine Geschäftsaktion. Wenn er einen Datensatz aktualisiert, eine Rechnung erstellt, eine Nachricht sendet oder ein Dokument archiviert, ist jemand für diese Aktion nach Schweizer Recht verantwortlich. Unter dem revidierten nDSG riskieren KMU, die automatisierte Verarbeitung von Personendaten ohne angemessene Kontrolle einsetzen, Bussen von bis zu CHF 250.000 pro Verstoss. Nur 34% der Schweizer Unternehmen haben klare Regeln definiert, welche Daten Mitarbeitende — geschweige denn Agenten — verwenden dürfen.

Die Entscheidung: Wer genehmigt was, und ab welchem Schwellenwert?

Das bedeutet nicht, für alles eine Bestätigungsmaske einzubauen. Ein Agent, der für jede Aktion eine menschliche Genehmigung benötigt, ist kein Agent; er ist ein langsames Formular. Die richtige Frage lautet: Welche Aktionen darf der Agent autonom ausführen, und bei welchen ist eine menschliche Genehmigung vor der Ausführung erforderlich? Wir haben die technische Umsetzung detailliert beschrieben — Approval Gates in einem Agent-Loop — aber die technische Implementierung ergibt erst Sinn, wenn die Policy-Frage beantwortet ist.

Die Verantwortlichkeitsgrenze während des Pilots definieren. Sie bestimmt die gesamte Human-in-the-Loop-Architektur.

Entscheidung 3: Was ist der Fehlermodus?

Im Pilot ist ein Fehler sichtbar. Der Agent produziert schlechten Output; man sieht es; man debuggt es. Die Pilotumgebung ist klein genug, dass nichts zu weit schiefläuft, bevor jemand es bemerkt.

In der Produktion kann ein Fehler tagelang unsichtbar bleiben. Der Agent verarbeitet 200 Datensätze über Nacht. 12 davon haben einen Edge Case, den der Pilot nie getestet hat. Der Fehler ist still — der Agent schliesst erfolgreich ab, schreibt ein Ergebnis und macht weiter. Bis jemand den Output prüft, hat sich der Schaden schon multipliziert.

Die Entscheidung: Was macht der Agent, wenn er unsicher ist, und wie weiss das System, wann das passiert?

Konkret:

Hat der Agent ein Tool zur Signalisierung von Unsicherheit — etwas, das einen menschlich prüfbaren Output produziert, anstatt ein committed Result zu schreiben?
Gibt es ein Audit-Log, das nicht nur erfasst, was der Agent getan hat, sondern welche Daten er gelesen und welche Zwischenschritte er unternommen hat?
Wie sieht der Rollback-Pfad aus? Wenn sich herausstellt, dass der Output des Agenten falsch war, können die letzten N Aktionen rückgängig gemacht werden? Für einen einzelnen Datensatz, ohne andere zu berühren?

Teams, die für sichtbare Fehler konzipieren, bauen Agenten, denen sie in der Produktion vertrauen. Teams, die nur den Happy Path testen, verbringen die ersten sechs Monate in der Produktion mit Incident Response.

Für KI-Agenten, die sensible Daten bei Schweizer KMU verarbeiten, überschneidet sich die Frage nach dem Fehlermodus direkt mit den Datenschutzpflichten. Ein Agent, der Personendaten still fehlverarbeitet, ist ein Haftungsrisiko, bevor er ein technisches Problem ist.

Entscheidung 4: Was bedeutet «funktioniert» in der Produktion?

Im Pilot bedeutet «funktioniert», dass der Output für die prüfende Person richtig aussieht. Das ist ein ausreichendes Kriterium für einen Proof of Concept. Für ein Produktionssystem nicht.

In der Produktion braucht man eine messbare Definition. Nicht «der Output sieht gut aus» — eine konkrete Kennzahl, die anzeigt, ob der Agent korrekt arbeitet, ob er über die Zeit degradiert oder ob er bei einer Klasse von Inputs versagt, die bisher nicht vorkamen.

Wie diese Kennzahl aussieht, hängt vom Anwendungsfall ab. Für einen Dokumentenverarbeitungsagenten: Präzision und Recall bei extrahierten Feldern, wöchentlich gegen eine Ground-Truth-Stichprobe gemessen. Für einen Kundenkorrespondenz-Agenten: Rate der menschlichen Überarbeitungen als Anteil der total produzierten Entwürfe. Für einen Dateneingabe-Agenten: Fehlerrate pro Datensatztyp, aufgeschlüsselt nach Feld.

34% der Schweizer Unternehmen nutzen KI zur Automatisierung bestimmter Arbeitsschritte — gegenüber 23% im Jahr 2024. Die Unternehmen, die von 23% auf 34% gewechselt sind, messen irgendetwas. Die Unternehmen, die es versucht haben und aufgehört haben, haben es nicht gemessen.

Die Erfolgskennzahl während des Pilots definieren. Sie gegen den Pilot-Output messen, um eine Baseline zu etablieren. Dann in der Produktion verfolgen. Wenn die Kennzahl sinkt, gibt es ein Signal. Wenn sie steigt, hat man eine Zahl vorzuweisen.

Was die Skalierung tatsächlich erfordert

Um einen KI-Agenten vom Pilot in die Produktion zu bringen, müssen vier Dinge vorhanden sein, bevor der Schalter umgelegt wird:

Ein Datenzugriffsmodell, das für operative Daten — nicht kuratierte Stichproben — ausgelegt ist, mit definiertem Verhalten für Nullwerte, Schema-Mismatches und Datensätze ausserhalb des Scope.
Ein Verantwortlichkeitsrahmen, der die Genehmigungsgrenze definiert: welche Aktionen der Agent autonom ausführt und welche menschliche Bestätigung vor der Ausführung erfordern.
Ein Fehlermodus-Design — ein Unsicherheitssignal, ein Audit-Log und ein Rollback-Pfad — damit man schnell erfährt, wenn der Agent etwas verarbeitet, das er nicht sollte.
Eine Produktionskennzahl, die während des Pilots als Baseline etabliert wird, in der Produktion automatisch verfolgt wird und einen Review auslöst, wenn der Schwellenwert unterschritten wird.

Nichts davon ist komplex. Alles davon braucht Zeit, um richtig definiert zu werden — und diese Zeit sollte während des Pilots sein, nicht danach.

Der Unterschied zwischen einem Schweizer Unternehmen, das KI-Agenten skaliert, und einem, das immer wieder durch Pilotprojekte kreist, ist meistens eine dieser vier Entscheidungen, zu spät oder gar nicht getroffen.

Wenn man sich mitten in einem KI-Pilotprojekt befindet und es gegen diese vier Fragen testen möchte — kostenlosen AI Potenzial-Check buchen. Den Pilot mitbringen. Wir erklären, was in der Produktion kaputt geht.

Warum KI-Agenten-Pilotprojekte in der Schweiz stecken bleiben — und die vier Entscheidungen, die über die Skalierung entscheiden

Warum KI-Agenten-Pilotprojekte in der Schweiz stecken bleiben — und die vier Entscheidungen, die über die Skalierung entscheiden

Das Pilotproblem

Entscheidung 1: Woher liest der Agent?

Entscheidung 2: Wer ist für die Aktionen des Agenten verantwortlich?

Entscheidung 3: Was ist der Fehlermodus?

Entscheidung 4: Was bedeutet «funktioniert» in der Produktion?

Was die Skalierung tatsächlich erfordert

Verwandte Beiträge

Von der Idee zum Produkt: Wie aus einem Halluzinations-Problem citecheck und Acurio wurden

Der Great American AI Act: Was die US-KI-Regulierung für Ihr Unternehmen bedeutet

Warum 95 % der Enterprise-KI-Agenten die Produktion nie erreichen