Das zentrale Problem
Stell dir vor, du hast einen Chatbot entwickelt. Das System lĂ€uft, die ersten Demos sind vielversprechend, die Stakeholder sind begeistert. Drei Monate nach dem Launch schaust du in die Nutzungsstatistiken und sie sind ernĂŒchternd. Die Leute nutzen den Bot kaum. Und wenn doch, dann meist nur fĂŒr triviale Fragen.
Was ist passiert?
Das Problem ist nicht, dass der Bot schlechte Antworten gibt. Das Problem ist, dass niemand ihm vertraut. Ein Chatbot, dem man nicht traut, spart keine Zeit â er kostet Zeit. Nutzer:innen mĂŒssen jede Antwort prĂŒfen, gegenchecken, nachschlagen. Da ist es einfacher, gleich selbst in den Dokumenten zu suchen.
Vertrauen ist kein «nice to have», es ist die Grundvoraussetzung fĂŒr Adoption. Und Vertrauen entsteht nicht durch grosse Versprechen oder schöne Screenshots. Es entsteht durch nachweisbare, messbare QualitĂ€t â durch Evaluation.
Der Kunde muss wissen, was er will
Wenn ich mit Kunden ĂŒber Chatbots spreche, höre ich oft: «Wir wollen, dass der Bot gute Antworten gibt.»
Klingt vernĂŒnftig â ist aber als Anforderung zu ungenau. Was bedeutet «gut» ĂŒberhaupt?
- Soll der Bot lieber eine unvollstĂ€ndige, aber korrekte Antwort geben â oder eine ausfĂŒhrliche mit 95 % Korrektheit?
- Darf er sagen «Das weiss ich nicht», oder soll er immer eine Antwort versuchen?
- Welcher Ton ist erwĂŒnscht: sachlich-formal oder freundlich-persönlich?
- Wie geht er mit widersprĂŒchlichen Informationen in den Quellen um?
- Wie detailliert sollen Antworten sein: Zusammenfassung oder vollstÀndige Information?
Diese Fragen klingen banal, aber ihre Antworten definieren, ob ein Chatbot «gut» ist oder nicht. Oft wissen Kund:innen selbst nicht, was sie brauchen â bis sie schlechte Beispiele sehen. Deswegen brauchen wir die menschlichen Evaluationen.
Menschliche Evaluationen: Den Kunden wirklich verstehen
Jetzt wirdâs praktisch. Die Anforderungen sind geklĂ€rt, der Perimeter abgesteckt. Jetzt geht es darum, zu verstehen, was «gut» eigentlich bedeutet. Doch wie finden wir das heraus?
Die Antwort lautet: zuerst manuell.
Ich weiss â in einer Welt von KI, LLM-as-a-Judge und automatisierten Metriken klingt das altmodisch. Nur: Man kann keine automatisierte Evaluation aufbauen, wenn man nicht weiss, was ĂŒberhaupt evaluiert werden soll. Und das findet man nur heraus, indem echte Menschen echte Antworten bewerten.
Ein Evaluations-Set aufbauen und Dimensionen der QualitÀt
Zuerst braucht es reprĂ€sentative Fragen â 50 bis 200 StĂŒck, idealerweise echte Nutzerfragen. Nicht die einfachen Demo-Beispiele, sondern Fragen aus dem Alltag:
- HÀufige Standardfragen: «Wie kann ich mich Anmelden?», «Wo ist der Notfall?»
- RandfÀlle: «Wann muss ich meine Ferien als Angestellte:r der Verwaltung eingeben?», «Gib mir ein gutes Pizzarezept»
- Mehrdeutige Fragen: «Wie kann ich mich Anmelden?»
- Fragen, die sich gar nicht aus den Dokumenten beantworten lassen: «Ist Bern besser als Basel?», «Wer ist Margret Thatcher?»
Zu jeder Frage wird eine Antwort generiert. Parallel dazu definiert das Kernteam (und idealerweise weitere Stakeholder) die Bewertungsdimensionen â denn nicht jede Dimension ist in jedem Kontext gleich wichtig.
Ăblicherweise nutzen wir:
- Korrektheit: Ist die Information korrekt? Gibt es ĂŒberhaupt ein richtig/falsch?
- VollstÀndigkeit: Ist die Information vollstÀndig? Fehlen wichtige Aspekte?
- TonalitĂ€t: Stimmt die TonalitĂ€t mit unseren Vorstellungen ĂŒberein? (Da hilft ĂŒbrigens auch der Textmate)
Bewerten
Jetzt kommt der mĂŒhsame Teil: Mehrere Personen bewerten jedes Frage-Antwort-Paar entlang der definierten Dimensionen.
- Gut/Nicht gut: FĂŒr jede Dimension wird entschieden, ob die Antwort «gut» ist oder nicht.
- BegrĂŒndung: Jede Bewertung muss begrĂŒndet werden. Das mag aufwendig wirken, ist aber zentral, denn nur so entsteht ein gemeinsames VerstĂ€ndnis von «gut».
- Blind evaluieren: Die Bewertenden sollten nicht sehen, was andere vergeben haben. Weichen die Resultate stark voneinander ab, sind die Kriterien zu unklar.
- Diskutieren: Bei Abweichungen hilft eine gemeinsame Diskussion. Diese GesprÀche sind oft der wertvollste Teil des Prozesses.
Nach 50â100 bewerteten Beispielen ergibt sich ein klares Bild der Ausgangslage â und meistens auch, was noch zu tun ist.
Mit Tools skalieren
Doch manuelles Bewerten skaliert schlecht: 100 Fragen manuell zu evaluieren ist machbar, 1'000 sind mĂŒhsam. 10'000 im kontinuierlichen Monitoring? Unmöglich.
Hier kommen Tools ins Spiel.
LLM-as-a-Judge: Das Prinzip
Die Idee ist simpel: Ein LLM bewertet die Antworten des Chatbots anhand definierter Kriterien. Es braucht, sehr vereinfacht, dazu:
- Die Frage
- Die Antwort deines Systems
- Den Goldstandard (wie die Antwort idealerweise aussehen sollte)
Der Evaluator liefert ein Fazit und eine BegrĂŒndung.
Das grösste Risiko: Man ersetzt ein Problem (Chatbot evaluieren) durch ein anderes (Evaluator evaluieren). Deshalb muss die automatisierte Bewertung kalibriert werden. DafĂŒr nehmen wir typischerweise 50â100 manuell bewertete Beispiele und lassen sie zusĂ€tzlich vom LLM beurteilen. Stimmen die Ergebnisse ĂŒberein, funktioniert der Judge zuverlĂ€ssig.
Danach beginnt die kontinuierliche Verbesserung â dazu ein andermal mehr. Am Ende der Verbesserungen steht der grosse Moment, das Go-Live.
Go-Live und kontinuierliches Monitoring
Wir empfehlen, das Go-Live zunĂ€chst ohne grosse AnkĂŒndigung zu machen. So kann der Chatbot in den ersten Tagen anhand echter Nutzerfragen weiter verbessert werden.
Im Regelbetrieb ist die Arbeit aber nicht fertig: Die kontinuierliche Evaluation ist zentral. Besonders hilfreich sind Metriken wie:
- Anteil unbeantworteter Fragen
- Groundedness (also: halluziniert der Bot oder stammen die Fakten aus den Quellen?)
- Menschliche Stichproben, vor allem bei schwacher Bewertung oder fehlender Groundedness
- Und last but not least: Das Feedback der Nutzer:innen.
Durch einfach zu verstehende Metriken lĂ€sst sich auch ein Chatbot mit 10'000 oder mehr Fragen seriös ĂŒberwachen â ohne jede einzelne Frage zu prĂŒfen.
Evaluation ist kein «Nice-to-have»
Der Unterschied zwischen einem erfolgreichen und einem gescheiterten Chatbot liegt nicht im besten Embedding-Model, dem neusten LLM oder einem cleveren Retrieval-Algorithmus.
Er liegt in der Bereitschaft, Zeit in Evaluation zu investieren.
In menschliche Bewertungen.
In automatisiertes Monitoring.
In kontinuierliche Verbesserung.
Nur so entsteht Vertrauen â die Basis fĂŒr Adoption.