Veröffentlicht in: Cloudcomputing-Insider 05/2024
Entscheidungen und Ergebnisse erklärbar machen
Hans war schlau, aber keiner wusste, warum. Hans konnte Rechenaufgaben lösen, und niemand konnte sich das erklären. Denn Hans war ein Pferd. Und wenn Pferde plötzlich addieren und subtrahieren können, muss da etwas Unbekanntes im Spiel sein.
Hans und sein "Mathelehrer" Wilhelm von Osten lebten Anfang des 20. Jahrhunderts – aber auch mitten im 21. Jahrhundert gibt es wieder ähnlich Unerklärbares. Stichwort künstliche Intelligenz: Jeder spricht von ihren Fähigkeiten, aber fast niemand versteht, warum sie das kann. Und spätestens, wenn KI über Kreditwürdigkeit entscheidet, den Flugverkehr beeinflusst oder eine medizinische Diagnose stellt, wollen Verbraucher und Unternehmen nicht mehr nur staunen wie beim Wunderpferd, sondern wissen, wie diese Entscheidungen zustande kommen.
Tatsächlich hat sich längst die Politik dieses Thema auf die Fahnen geschrieben: "Responsible AI" und "Trustworthy AI" sind Schlagwörter, die auf der ganz großen Bühne diskutiert werden. Das gilt für den AI Act der EU, den Verhaltenskodex der G7, und die "Bill of Rights" der US-Regierung. In Letzterer steht zum Beispiel: "Automated systems should provide explanations that are technically valid, meaningful and useful to you and to any operators or others who need to understand the system (…)". Mit anderen Worten: Ein KI-System muss verständlich erklären können, was es tut und wie es zu seinen Ergebnissen kommt. Das ist nicht nur wichtig für die Akzeptanz solcher Systeme, sondern auch, um Fehler oder auch Ungleichbehandlungen ("Bias") in der Verarbeitung erkennen zu können.
Diese Forderung stellen inzwischen auch Aufsichtsbehörden in regulierten Branchen. Die BaFin1 etwa fordert Explainable AI, spricht aber selbst davon, dass noch keine gesicherten Methoden dafür existieren. Eine Pattsituation also, die bereits damit beginnt, dass der Begriff "Erklärbarkeit" selbst erklärungsbedürftig ist. Die Definitionen, die KI-Anbieter wie Google2 liefern, sind für Nicht-Entwickler weniger hilfreich, sie zeigen nur technische Lösungswege.
Es gibt nicht nur eine KI
Wer KI und ihre Ergebnisse heute schlüssig erklären will, steht gleich zu Beginn vor einer grundsätzlichen Hürde: Es gibt "die" KI nicht. KI ist längst keine reine Weiterentwicklung der Statistik mehr, sondern fast immer ein Konglomerat verschiedener Modelle und Methoden – die sich in ihrer Transparenz erheblich unterscheiden. Die beste Vorhersage-Genauigkeit zeigen in der Regel KI-Modelle auf Basis von Neuronalen Netzen und Deep Learning. Genau diese allerdings sind schwer nachvollziehbar und werden deshalb nicht ohne Grund in die Kategorie der "Black-Box-Modelle" eingeordnet. Modelle auf Basis statistischer Methoden, etwa Entscheidungsbäume, sind dagegen oft inhärent erklärbar und deshalb "White-Box-Modelle". Allerdings sind sie auch weniger effektiv. Deshalb kann es nicht die Lösung sein, sich damit zufriedenzugeben: Die Wirtschaft wird immer die leistungsfähigsten Methoden nutzen wollen. Es müssen also neue Methoden zur Erklärung gefunden werden.
Verschiedene Stakeholder, verschiedene Erklärungstiefen
Aber was ist eigentlich eine "gute Erklärung" für den Output von KI-gestützten Systemen? Auch darauf gibt es keine eindeutige Antwort – es liegt buchstäblich im Auge des Betrachters. Wer die Ergebnisse bewerten will, muss einerseits die "Beweisführung" vor dem Hintergrund des eigenen Wissensstandes verstehen können, andererseits müssen die Erkenntnisse für den eigenen Verantwortungsbereich relevant und zielführend sein.
Um beim Beispiel der Kreditentscheidung zu bleiben: Der Antragsteller will nicht wissen, wie das Modell funktioniert, sondern welche Faktoren zur Entscheidung beigetragen haben. Die Geschäftsführung wiederum will wissen, mit welcher Sicherheit das Modell funktioniert. Die Aufsichtsbehörde will wissen, ob das Modell allen Compliance-Richtlinien genügt. Und der Entwickler will wissen, ob es nicht noch effizientere Wege gäbe, um zu dieser Entscheidung zu kommen. Sie alle haben erheblich voneinander abweichende Kenntnisstände zum Thema KI – aber sie alle wollen zufriedenstellende Antworten.
Ein Teil dieser Herausforderung lässt sich lösen, indem die jeweils passende Darstellungsform genutzt wird. Alle Varianten haben dabei eines gemeinsam: Sie simplifizieren, reduzieren also die dargestellten Dimensionen. Wenn nämlich zu viele Parameter abgebildet werden sollen, steigt die Komplexität bis ins Unverständliche, vergleichbar mit einem Koordinatensystem: Zwei Achsen sind leicht zu erfassen, ab drei wird es unübersichtlich.
Unabhängig davon ist die rein textuelle Erklärung nicht immer das Mittel der Wahl. Auch eine visuelle Darstellung kann zum Verständnis beitragen, ebenso wie eine Erklärung anhand von Beispielen.
Es wird also auf einen Baukasten von Erklärungsmethoden und -darstellungsformen herauslaufen, angepasst auf die jeweils relevante Zielgruppe und ihr Erkenntnisinteresse. Die Auswahl muss über einen Prozess erfolgen, der etwa so aussehen kann:
Das zugrunde liegende Problem allerdings bleibt: Es gibt zwar viele Ansätze zur Erklärung von KI, aber die wenigsten davon sind ausreichend erprobt und stehen schon gar nicht als Best Practices zur Verfügung. Hinzu kommt für regulierte Branchen wie Banken und Versicherungen, dass regulatorische Vorgaben zur Erklärbarkeit und damit die Rechtssicherheit fehlen.
Beispielhaft seien hier zwei Ansätze für Erklärungsmethoden genannt:
Die Einbindung von externen Wissensbasen: Sie kommt zum Beispiel dort infrage, wo es umfangreiche Sekundärliteratur zum Inhalt einer KI-Entscheidung gibt. Ein Beispiel ist die medizinische Diagnostik. Hier ist das Ziel, dass ein KI-Modell nicht nur eine Entscheidung, sondern auch gleich den Beleg dafür liefert. Dazu wird die Wissensbasis – also etwa Online-Fachpublikationen – schon während des Trainings eingesetzt, um Modelle zu erstmalig zu erstellen. Damit eröffnet sich die Chance, Zusammenhänge zu erkennen – und dem Benutzer gleich Erklärungen durch Verweise auf die entsprechenden Einträge etwa in der Fachliteratur zu liefern. Das macht die Ergebnisse leicht nachvollziehbar, und die Verlässlichkeit der den Entscheidungen zugrunde liegenden Publikationen kann einfach geprüft werden. Zudem ist auch eine Kombination mehrerer Wissensbasen möglich. Die Nachteile liegen aber ebenfalls auf der Hand: Die Qualität steht und fällt mit der Qualität der externen Quellen. Und wenn solche nicht vorhanden sind, kommt diese Methode kaum in Betracht.
Ein weiteres Verfahren, um beispielsweise den Einflussfaktor eines Merkmals (zum Beispiel der Auswirkung des Einkommens auf die Kreditwürdigkeit) zu ermitteln, ist das sog. SHAP-Verfahren. SHAP steht für Shapley Additive Explanations und wurde ursprünglich entwickelt, um mit Spieltheorie ein gerechtes Verteilungssystem zu erschaffen. Im Kern geht es darum zu ermitteln, welcher Faktor den größten Einfluss auf das Endergebnis hatte. Dazu werden Gruppen mit sämtlichen Zusammensetzungsmöglichkeiten gebildet und miteinander verglichen. Dieses Modell lässt sich sehr gut auf die Frage nach den Auswirkungen eines Merkmals auf das Ergebnis einer KI-Berechnung übertragen. Ein wesentlicher Nachteil dieser Methode ist allerdings die sehr große Rechenkapazität, die benötigt wird, sämtliche Kombinationen der Gruppen zu berechnen.
Make or Buy?
Eine geeignete Strategie, um mit der Komplexität von künstlicher Intelligenz umzugehen, ist zunächst die Ermittlung geeigneter Use Cases im Unternehmen, die mittels KI optimiert werden sollen. Im nächsten Schritt sollten die Use Cases nach dem Aufwand der Umsetzung geclustert werden. Anhand dessen lässt sich dann ermitteln, ob es bereits fertige KI-Lösungen am Markt gibt, oder ob eine Eigenentwicklung mit den vorhandenen Ressourcen machbar und wirtschaftlich ist. Letzteres dürfte allerdings eine Ausnahme darstellen.
Viele Unternehmen werden Lösungen also zukaufen (müssen). Insofern wird auch nur für die wenigsten aktuell eine Zertifizierung nach der neuen ISO 40001 infrage kommen. Es ist deshalb entscheidend, Dienstleister zu finden, die die genannten Anforderungen bedienen können und auch vor aufsichtsrechtlichen Anforderungen bestehen können.
Denn weder der Endverbraucher noch BaFin und Co. lassen sich ungestraft von der KI "einen vom Pferd" erzählen. Denn Hans konnte natürlich nicht wirklich rechnen, sondern hat nur auf die (unbewusste) Körpersprache reagiert. Auch dieser Effekt (als "Clever-Hans"-Faktor immer noch gültig) ist also heute erklärbar.