Ohne Vertrauen kein Nutzen

Das zentrale Problem

Stell dir vor, du hast einen Chatbot entwickelt. Das System läuft, die ersten Demos sind vielversprechend, die Stakeholder sind begeistert. Drei Monate nach dem Launch schaust du in die Nutzungsstatistiken und sie sind ernüchternd. Die Leute nutzen den Bot kaum. Und wenn doch, dann meist nur für triviale Fragen.

Was ist passiert?

Das Problem ist nicht, dass der Bot schlechte Antworten gibt. Das Problem ist, dass niemand ihm vertraut. Ein Chatbot, dem man nicht traut, spart keine Zeit – er kostet Zeit. Nutzer:innen müssen jede Antwort prüfen, gegenchecken, nachschlagen. Da ist es einfacher, gleich selbst in den Dokumenten zu suchen.

Vertrauen ist kein «nice to have», es ist die Grundvoraussetzung für Adoption. Und Vertrauen entsteht nicht durch grosse Versprechen oder schöne Screenshots. Es entsteht durch nachweisbare, messbare Qualität – durch Evaluation.

Der Kunde muss wissen, was er will

Wenn ich mit Kunden über Chatbots spreche, höre ich oft: «Wir wollen, dass der Bot gute Antworten gibt.»

Klingt vernünftig – ist aber als Anforderung zu ungenau. Was bedeutet «gut» überhaupt?

Soll der Bot lieber eine unvollständige, aber korrekte Antwort geben – oder eine ausführliche mit 95 % Korrektheit?
Darf er sagen «Das weiss ich nicht», oder soll er immer eine Antwort versuchen?
Welcher Ton ist erwünscht: sachlich-formal oder freundlich-persönlich?
Wie geht er mit widersprüchlichen Informationen in den Quellen um?
Wie detailliert sollen Antworten sein: Zusammenfassung oder vollständige Information?

Diese Fragen klingen banal, aber ihre Antworten definieren, ob ein Chatbot «gut» ist oder nicht. Oft wissen Kund:innen selbst nicht, was sie brauchen – bis sie schlechte Beispiele sehen. Deswegen brauchen wir die menschlichen Evaluationen.

Menschliche Evaluationen: Den Kunden wirklich verstehen

Jetzt wird’s praktisch. Die Anforderungen sind geklärt, der Perimeter abgesteckt. Jetzt geht es darum, zu verstehen, was «gut» eigentlich bedeutet. Doch wie finden wir das heraus?

Die Antwort lautet: zuerst manuell.

Ich weiss – in einer Welt von KI, LLM-as-a-Judge und automatisierten Metriken klingt das altmodisch. Nur: Man kann keine automatisierte Evaluation aufbauen, wenn man nicht weiss, was überhaupt evaluiert werden soll. Und das findet man nur heraus, indem echte Menschen echte Antworten bewerten.

Ein Evaluations-Set aufbauen und Dimensionen der Qualität

Zuerst braucht es repräsentative Fragen – 50 bis 200 Stück, idealerweise echte Nutzerfragen. Nicht die einfachen Demo-Beispiele, sondern Fragen aus dem Alltag:

Häufige Standardfragen: «Wie kann ich mich Anmelden?», «Wo ist der Notfall?»
Randfälle: «Wann muss ich meine Ferien als Angestellte:r der Verwaltung eingeben?», «Gib mir ein gutes Pizzarezept»
Mehrdeutige Fragen: «Wie kann ich mich Anmelden?»
Fragen, die sich gar nicht aus den Dokumenten beantworten lassen: «Ist Bern besser als Basel?», «Wer ist Margret Thatcher?»

Zu jeder Frage wird eine Antwort generiert. Parallel dazu definiert das Kernteam (und idealerweise weitere Stakeholder) die Bewertungsdimensionen – denn nicht jede Dimension ist in jedem Kontext gleich wichtig.
Üblicherweise nutzen wir:

Korrektheit: Ist die Information korrekt? Gibt es überhaupt ein richtig/falsch?
Vollständigkeit: Ist die Information vollständig? Fehlen wichtige Aspekte?
Tonalität: Stimmt die Tonalität mit unseren Vorstellungen überein? (Da hilft übrigens auch der Textmate)

Bewerten

Jetzt kommt der mühsame Teil: Mehrere Personen bewerten jedes Frage-Antwort-Paar entlang der definierten Dimensionen.

Gut/Nicht gut: Für jede Dimension wird entschieden, ob die Antwort «gut» ist oder nicht.
Begründung: Jede Bewertung muss begründet werden. Das mag aufwendig wirken, ist aber zentral, denn nur so entsteht ein gemeinsames Verständnis von «gut».
Blind evaluieren: Die Bewertenden sollten nicht sehen, was andere vergeben haben. Weichen die Resultate stark voneinander ab, sind die Kriterien zu unklar.
Diskutieren: Bei Abweichungen hilft eine gemeinsame Diskussion. Diese Gespräche sind oft der wertvollste Teil des Prozesses.

Nach 50–100 bewerteten Beispielen ergibt sich ein klares Bild der Ausgangslage – und meistens auch, was noch zu tun ist.

Mit Tools skalieren

Doch manuelles Bewerten skaliert schlecht: 100 Fragen manuell zu evaluieren ist machbar, 1'000 sind mühsam. 10'000 im kontinuierlichen Monitoring? Unmöglich.

Hier kommen Tools ins Spiel.

LLM-as-a-Judge: Das Prinzip

Die Idee ist simpel: Ein LLM bewertet die Antworten des Chatbots anhand definierter Kriterien. Es braucht, sehr vereinfacht, dazu:

Die Frage
Die Antwort deines Systems
Den Goldstandard (wie die Antwort idealerweise aussehen sollte)

Der Evaluator liefert ein Fazit und eine Begründung.

Das grösste Risiko: Man ersetzt ein Problem (Chatbot evaluieren) durch ein anderes (Evaluator evaluieren). Deshalb muss die automatisierte Bewertung kalibriert werden. Dafür nehmen wir typischerweise 50–100 manuell bewertete Beispiele und lassen sie zusätzlich vom LLM beurteilen. Stimmen die Ergebnisse überein, funktioniert der Judge zuverlässig.

Danach beginnt die kontinuierliche Verbesserung – dazu ein andermal mehr. Am Ende der Verbesserungen steht der grosse Moment, das Go-Live.

Go-Live und kontinuierliches Monitoring

Wir empfehlen, das Go-Live zunächst ohne grosse Ankündigung zu machen. So kann der Chatbot in den ersten Tagen anhand echter Nutzerfragen weiter verbessert werden.

Im Regelbetrieb ist die Arbeit aber nicht fertig: Die kontinuierliche Evaluation ist zentral. Besonders hilfreich sind Metriken wie:

Anteil unbeantworteter Fragen
Groundedness (also: halluziniert der Bot oder stammen die Fakten aus den Quellen?)
Menschliche Stichproben, vor allem bei schwacher Bewertung oder fehlender Groundedness
Und last but not least: Das Feedback der Nutzer:innen.

Durch einfach zu verstehende Metriken lässt sich auch ein Chatbot mit 10'000 oder mehr Fragen seriös überwachen – ohne jede einzelne Frage zu prüfen.

Evaluation ist kein «Nice-to-have»

Der Unterschied zwischen einem erfolgreichen und einem gescheiterten Chatbot liegt nicht im besten Embedding-Model, dem neusten LLM oder einem cleveren Retrieval-Algorithmus.
Er liegt in der Bereitschaft, Zeit in Evaluation zu investieren.

In menschliche Bewertungen.
In automatisiertes Monitoring.
In kontinuierliche Verbesserung.

Nur so entsteht Vertrauen – die Basis für Adoption.

Hast du eine Frage, einen Kommentar oder bist du einfach nur inspiriert? Tagge uns oder teile diesen Artikel direkt auf Mastodon oder LinkedIn.

Das zentrale Problem

Der Kunde muss wissen, was er will

Menschliche Evaluationen: Den Kunden wirklich verstehen

Ein Evaluations-Set aufbauen und Dimensionen der Qualität

Bewerten

Mit Tools skalieren

LLM-as-a-Judge: Das Prinzip

Go-Live und kontinuierliches Monitoring

Evaluation ist kein «Nice-to-have»

Mehr zum Thema

TextMate – Einfache Texte, effiziente Prozesse, deine Tonalität

ConfIAnce, der erste LLM-Chatbot für Allgemeinmedizin in der Schweiz

Alva macht alle Informationen des Kantons Basel-Stadt verfügbar