4  Herausforderungen und Empfehlungen

Die Integration von LLM-basierten Tools in bestehende Prozesse stellt Beteiligte und Betroffene vor große Herausforderungen. Die Technologie ist nicht nur vergleichsweise neu und komplex, sondern entwickelt sich rasant weiter. Es ist noch nicht absehbar, welche gesellschaftlichen und wirtschaftlichen Auswirkungen Sprachmodelle und KI im Allgemeinen haben werden. Es ist daher verständlich, dass viele Menschen und Organisationen mit Unsicherheit und Skepsis gegenüber KI reagieren. Das gilt auch für die Verwendung von KI durch staatliche und zivilgesellschaftliche Akteur:innen im Demokratiebereich. In diesem abschließenden Kapitel wollen wir einige Überlegungen und Empfehlungen formulieren, die wir für wichtig halten, um die Chancen von KI zu nutzen und die Risiken zu minimieren. Dabei geht es nicht nur um technische Fragen, sondern auch um ethische, rechtliche und gesellschaftliche Aspekte. Diese Überlegungen basieren auf informellen Gesprächen mit Akteur:innen aus dem zivilgesellschaftlichen Bereich, auf der Analyse von Studien und Berichten sowie auf unseren Erfahrungen aus dem KIdeKu-Projekt. Sie sind keineswegs abschließend, sondern sollen vielmehr Anregungen und Impulse geben, um die Diskussion über KI im Demokratiebereich weiterzuführen.

4.1 Rolle von Vertrauen

Der Einsatz von KI-basierten Applikationen kann nur dann unsere demokratische Kultur stärken, wenn diese von Bürger:innen genutzt werden, was wiederum ein hinreichend großes Vertrauen in die Sicherheit und Zuverlässigkeit solcher Anwendungen voraussetzt. Im Folgenden werden einige allgemeine Überlegungen zur Rolle von Transparenz und Zuverlässigkeit für das Vertrauen dargestellt.1

Warum sind Vertrauen und Akzeptanz im Kontext der KI-gestützten Deliberation so wichtig? Deliberative Kontexte zeichnen sich durch ihre besondere Rolle für die demokratische Teilhabe aus. In ihnen üben Bürger:innen ihre politischen Rechte aus und nehmen mittelbar oder unmittelbar an der politischen Willensbildung teil, indem sie beispielsweise ihre Überzeugungen im öffentlichen Diskurs ausdrücken oder politische Selbstwirksamkeit in Beteiligungsformaten wie Bürgerräten erfahren. Daher ist zu erwarten, dass Bürger:innen auf (wahrgenommene) Einschränkungen dieser Teilhaberechte sehr sensibel reagieren. Bei KI-gestützter Deliberation geht es also nicht nur darum, dass Nutzer:innen mit einem bestimmten KI-Tool unzufrieden sind, wenn etwas nicht richtig funktioniert, und sie als Konsequenz zum Produkt eines Konkurrenten wechseln. Viel gewichtiger ist die Gefahr, dass sie sich in der Ausübung ihrer bürgerlichen Teilhaberechte eingeschränkt fühlen. Sie könnten sich durch den Einsatz von KI ausgeschlossen, missverstanden oder anderweitig ungerecht behandelt fühlen. Im schlimmsten Fall schwächen solche Erfahrungen nicht nur das Vertrauen in KI-basierte Deliberation selbst, sondern auch das Vertrauen in Demokratie.

Eine besondere Gefahr besteht darin, dass KI-gestützte Deliberation neue Ungleichheiten in der politischen Teilhabe erzeugen kann. Wenn technische Lösungen vor allem denjenigen zugutekommen, die über digitale Kompetenzen, Vertrauen in KI oder entsprechende Ressourcen verfügen, kann politische Teilhabe insgesamt zwar wachsen, aber auch ungleicher verteilt werden.2 Wir müssen deshalb darauf achten, dass die Einführung deliberativer KI nicht zu einem neuen „deliberative divide“ führt.3

Eine weitere Herausforderung könnte man als „Skalierungsversuchung“ bezeichnen.4 Gerade Beteiligungsformate könnten durch den Einsatz von KI mit deutlich größeren Teilnehmer:innenzahlen durchgeführt werden, als es bislang möglich war.5 Funktionierende Beteiligungsverfahren sind in der Regel sehr aufwendig: Bürger:innen müssen über teilweise komplexe Fachthemen informiert werden; ihnen wird oft die Möglichkeit gegeben, Argumente und Einwände auszutauschen; sie drücken ihre Standpunkte aus, die so aggregiert werden müssen, dass der Output der Beteiligung als Entscheidungsgrundlage für Politiker:innen dienen kann. Der Aufwand für die Organisation und Moderation solcher Formate sowie für die Analyse der Beiträge nimmt dementsprechend mit steigender Teilnehmer:innenzahl sehr schnell zu. KI, so die Hoffnung, kann viele dieser Aufgaben unterstützen oder gar übernehmen.6 Die Skalierbarkeit eines Verfahrens ist jedoch keine Garantie für dessen demokratische Legitimität. Vielmehr gilt es zu bedenken, dass alle normativen Anforderungen an solche Prozesse weiterhin erfüllt sein müssen. Die Ergebnisse von Beteiligungsverfahren sollen in die politische Willensbildung einfließen, die nur dann legitimiert sind, wenn das Verfahren selbst hinreichend legitimiert ist. Dabei geht es zum Beispiel um gleiche Teilhabe, die Authentizität von Beiträgen, die Qualität des Outputs und die Neutralität der Moderation und Aggregation von Beiträgen. Ob die Erfüllung solcher normativen Anforderungen genauso gut skaliert wie die technischen Möglichkeiten, ist eine offene Frage.

Um welches Vertrauen geht es hier? Neben dem bereits beschriebenen Vertrauen in die Einhaltung politischer Rechte sind vor allem Datensicherheit sowie das Vertrauen in die Korrektheit und Unvoreingenommenheit von KI-generierten Inhalten und Analysen zentral.

Diese Aspekte hängen je nach spezifischem Einsatzszenario voneinander ab. Nehmen wir als Beispiel die Detektion toxischer Sprache: Bei der Kategorisierung toxischer Sprache kann es zu unterschiedlichen Arten von Fehlern kommen.

Eine falsch positive Detektion ist die Kategorisierung von Äußerungen als toxisch, die es gar nicht sind. Dient die Detektion toxischer Sprache beispielsweise der Moderation von Online-Diskussionen, könnte eine falsch positive Detektion dazu führen, dass bestimmte Beiträge gelöscht oder Nutzer:innen gesperrt werden, obwohl diese Beiträge eigentlich nicht toxisch sind. Dies kann zu einer wahrgenommenen Einschränkung der Meinungsfreiheit und zu einer Ausgrenzung bestimmter Gruppen führen, wenn die Fehldetektionen systematisch stärker bei diesen auftreten. So zeigen zum Beispiel Giraud u. a. (2025), dass manche Modelle höhere Raten falsch positiver Toxizitätsdetektion bei Mitgliedern der afroamerikanisch-englischen Sprachgemeinschaft aufweisen. Als mögliche Ursache nennen sie einen Bias in den Trainingsdaten aufgrund fehlender Diversität unter den Annotator:innen.

Eine falsch negative Detektion ist die Nichterkennung von Äußerungen, die tatsächlich toxisch sind. In diesem Fall könnte es vorkommen, dass toxische Beiträge nicht moderiert werden und dadurch weiterhin Schaden anrichten. Im Extremfall kommt es zur Sichtbarkeit und Verbreitung von Inhalten, die Straftatbestände erfüllen. Aber auch wenn es nicht um strafrechtlich relevante Inhalte geht, können unentdeckte toxische Beiträge dazu führen, dass die Erreichung deliberativer Ideale wie Respekt, Inklusion und rationale Diskussion erschwert wird, weil sich Menschen durch solche Beiträge angegriffen, verletzt oder ausgeschlossen fühlen und infolge dessen weniger bereit zur Teilnahme an deliberativen Prozessen sind.

Eine hinreichend hohe Ergebniskorrektheit von KI-Systemen spielt damit eine zentrale Rolle für das Vertrauen in KI-gestützte Deliberation. Darüber hinaus ist diese Art von Zuverlässigkeit eine Voraussetzung für die Erreichung der genannten deliberativen Ziele (vgl. Kapitel 2.2). Im Folgenden konzentrieren wir uns daher auf die damit zusammenhängenden Herausforderungen und besprechen Lösungsansätze zur Steigerung der Zuverlässigkeit von KI-Tools.

4.2 Evaluierung und Optimierung von KI-Tools

Wie stellen wir nun sicher, dass KI-Tools, die in deliberativen Kontexten eingesetzt werden, hinreichend zuverlässig bezüglich der Korrektheit ihrer Ergebnisse sind? Eine wichtige Rolle spielt die systematische Evaluierung. Ohne zu wissen, wie zuverlässig ein KI-Tool in einem bestimmten Kontext abschneidet, können wir nicht beurteilen, ob es für diesen Kontext hinreichend zuverlässig ist. Die Ergebnisse systematischer Evaluierungen bilden außerdem die Grundlage für eine Optimierung der Zuverlässigkeit von KI-Tools.

Die Leistungsfähigkeit eines LLM-basierten KI-Tools hängt von vielen Faktoren ab. Dazu zählen das verwendete Sprachmodell, die Modellparameter und die gesamte Pipeline, inklusive der verwendeten Prompts, in die das Modell eingebunden ist (im Engl. scaffolding oder harness). Damit gibt es auch eine Vielzahl von Faktoren, die variiert werden können, um die Zuverlässigkeit eines KI-Tools zu steigern.

Die Grundidee einer evaluationsbasierten Optimierung ist dabei sehr einfach: Schneidet die Zuverlässigkeit eines Systems nicht hinreichend zufriedenstellend ab, nimmt man so lange leistungsverbessernde Anpassungen am System vor, bis es hinreichend zuverlässig ist. Ist es möglich, einzelne Komponenten des Systems isoliert zu evaluieren, können diese Anpassungen unter Umständen sehr gezielt vorgenommen werden. Führt diese Optimierungsschleife zu keinem Erfolg oder erfordert die Optimierung zu große Abstriche bezüglich anderer relevanter Faktoren, ist es unter Umständen sinnvoll, auf den Einsatz des KI-Tools zu verzichten.

Die notwendigen Evaluierungen müssen im folgenden Sinne systematisch erfolgen: Die Ergebnisse einer Evaluation sollen belastbare Schlüsse darüber erlauben, ob ein KI-Tool für einen bestimmten Gegenstandsbereich hinreichend zuverlässig ist oder nicht. In der Regel ist es praktisch nicht möglich, den gesamten Gegenstandsbereich abzutesten. Um Schlüsse auf den gesamten Gegenstandsbereich zuzulassen, müssen die Testfälle damit so ausgewählt werden, dass sie in einer bestimmten Weise repräsentativ für den Gegenstandsbereich sind. Das könnten zum Beispiel eine hinreichend große Menge an Testfällen sein, die die Heterogenität des Gegenstandsbereichs abdecken, oder besonders schwierige Testfälle, die gezielt ausgewählt wurden, um bestimmte relevante Aspekte der Zuverlässigkeit zu testen.

Darüber hinaus muss die Evaluierung so gestaltet werden, dass sie automatisiert und einfach reproduziert werden kann, damit die oben genannten Optimierungsschleifen praktisch umsetzbar sind. Dafür können beispielsweise vorhandene Testdatensätze verwendet oder eigene durch Menschen oder automatisiert erstellt werden.

4.2.1 Herausforderungen bei der Optimierung von KI-Tools

Obwohl die Grundidee einer evaluationsbasierten Optimierung von KI-Tools sehr einfach ist, gibt es eine Reihe von praktischen und prinzipiellen Herausforderungen, die bei der Umsetzung zu beachten sind.

Zum einen ist die Evaluierung komplexer KI-Pipelines selbst komplex. Zwar lässt sich die Zuverlässigkeit eines KI-Tools als Ganzes evaluieren, um zu beurteilen, ob es für einen bestimmten Gegenstandsbereich hinreichend zuverlässig ist. Will man das KI-Tool jedoch optimieren, ist es hilfreich zu wissen, wo genau in der Pipeline etwas nicht korrekt funktioniert. Bei komplexen Pipelines müssen die einzelnen Komponenten damit unabhängig evaluiert werden, um gezielt Anpassungen vornehmen zu können.

Nehmen wir als Beispiel die vorgestellte Pipeline des EvidenceSeekers (siehe Kapitel 3.2). Die Pipeline besteht aus drei Komponenten, die unabhängig voneinander evaluiert werden können: die Disambiguierung, die Extraktion relevanter Textstellen und die Bestätigungsanalyse. Jede Komponente erfüllt eine andere Funktion und kann damit spezifische Fehlerquellen aufweisen.

Die Verfügbarkeit und Güte geeigneter Testdatensätze beziehungsweise Benchmarks sind eine weitere Herausforderung für die Evaluierung von KI-Tools. Testdatensätze müssen zum einen den anvisierten Gegenstandsbereich adäquat widerspiegeln, um belastbare Schlüsse über die Zuverlässigkeit eines KI-Tools zuzulassen. Zum anderen müssen sie selbst korrekte Labels enthalten.

Um den Gegenstandsbereich adäquat abzubilden, müssen Testdatensätze so gestaltet sein, dass sie die Heterogenität des Gegenstandsbereiches abdecken. Das bedeutet zum Beispiel, dass sie eine hinreichend große Anzahl an Testfällen enthalten müssen, die die sprachliche und kulturelle Diversität abbilden. Damit dürfen die Testdatensätze auch nicht zu „sauber“ und artifiziell sein. Außerdem sollten sie einen ausgewogenen Anteil an allen relevanten Labels enthalten, damit die Evaluierung nicht durch eine unausgewogene Verteilung der Testfälle verzerrt wird.

Testdatensätze können von Menschen oder automatisiert erstellt werden. Die menschliche Annotation von Testdatensätzen ist oft sehr aufwendig, weshalb die Verwendung automatisiert erstellter Testdatensätze eine attraktive Alternative darstellt. Je nach Anwendungsfall gibt es verschiedene Möglichkeiten, solche synthetischen Testdatensätze zu erstellen, die teils von hohem Ideenreichtum zeugen. So kann man auf Grundlage eines vorhandenen kleineren Testdatensatzes neue Testfälle generieren, indem man Bestandteile in Frage-Antwort-Paaren substituiert, von denen man weiß, dass sie für die Korrektheit der Labels nicht relevant sind. In manchen Fällen ist es auch möglich, Testdatensätze von starken Sprachmodellen generieren zu lassen (sogenanntes LLM-as-a-Generator). Das setzt allerdings voraus, dass die Zuverlässigkeit der Sprachmodelle, die für die Erstellung von Testdatensätzen verwendet werden, bereits hinreichend evaluiert und optimiert wurde.7

Synthetische Testdatensätze sind jedoch nicht für alle Anwendungsfälle geeignet. In bestimmten Fällen bedarf es nach wie vor Menschen für die Erstellung von Testdatensätzen. Das ist allerdings mit eigenen Herausforderungen verbunden. Neben dem hohen Ressourcenaufwand muss für so erstellte Testdatensätze in gleicher Weise sichergestellt werden, dass sie korrekte Labels enthalten. Dafür werden in der Regel Methoden aus der Inhaltsanalyse verwendet.8 So werden typischerweise mehrere Annotator:innen eingesetzt, um die Testdatensätze zu annotieren, und die Inter-Annotator:innen-Übereinstimmung wird berechnet, um die Güte der Annotationen zu bewerten. Das liefert zumindest indirekte Hinweise darauf, ob die Testdatensätze korrekte Labels enthalten.

Ein weiteres praktisches Problem ist die sogenannte Training-Test Contamination. Wenn KI-Modelle bereits während des Trainings Zugang zu den Testdatensätzen haben, sind ihre Testergebnisse auf diesen Datensätzen kein Indikator für ihre Zuverlässigkeit, sondern eher eine Überprüfung, ob sie die Testdatensätze bereits „gelernt“ haben. Das kann zum Beispiel passieren, wenn die Testdatensätze öffentlich zugänglich sind und damit in den Trainingsdaten enthalten sein könnten. Das kann unter Umständen zu einer systematischen Überschätzung der Zuverlässigkeit von KI-Tools führen.

4.2.1.1 Mehrdeutigkeit und Kontextabhängigkeit

Die bisher dargestellten Herausforderungen werden in der Wissenschaft und Praxis der Entwicklung und Evaluierung von KI-basierten Systemen bereits breit diskutiert. Eine prinzipielle Herausforderung, die weniger Beachtung findet, soll hier ausführlicher dargestellt werden. Das bisherige Bild der Optimierung von KI-Tools durch systematische Evaluation suggeriert unter Umständen, dass es bei Fragen zur Korrektheit von KI-generierten Resultaten immer eine eindeutige Antwort gibt. In vielen Fällen, insbesondere in deliberativen Kontexten, fehlt es an dieser Eindeutigkeit.

Das Beispiel zur Detektion toxischer Sprache kann wieder als einfache Illustration dienen. Toxische Sprache ist ein soziokulturelles Phänomen, das in mehrfacher Hinsicht von Mehrdeutigkeit geprägt ist.

Zum einen ist die Detektion toxischer Sprache häufig kontextabhängig. Das heißt, ob eine Äußerung toxische Sprache darstellt, kann vom kulturellen und situativen Kontext abhängen. Dazu zählen kulturelle Normen, der verwendete Dialekt, die Intentionen der Sprecher:innen, die Frage, ob es sich um indirekte Rede, Metaphern oder Satire handelt, und ob Codes oder sogenannte Geusenwörter (im Engl. reclaimed speech) verwendet werden. Diese Informationen sind der Äußerung nicht immer selbst ablesbar, sodass zusätzliche Kontextinformationen verfügbar sein müssen. Das gilt für die Trainings- und Testdatensätze sowie für den Einsatz von KI zur Detektion toxischer Sprache. Nur wenige der vorhandenen Testdatensätze verfügen allerdings über solche Kontextinformationen.9

Eine weitere Herausforderung ist die definitorische Vielfalt beim Begriff toxischer Sprache. Toxische Sprache kann auf unterschiedliche Weise definiert werden (Fortuna u. a. 2020). Hinzu kommt, dass es weitere Begriffe gibt, die zwar Überschneidungen, aber eben auch Unterschiede zu toxischer Sprache aufweisen, wie zum Beispiel „hate speech“, „offensive speech“ oder „uncivil speech“. Auch wenn diese Begriffe und die dazugehörigen Definitionen Überschneidungen aufweisen, gibt es Unterschiede, die in vielen Einzelfällen für die Toxizitätskategorisierung von Äußerungen relevant sind. Diese definitorische Vielfalt spiegelt sich auch in den Datensätzen wider, sodass es teilweise schwierig ist, passende Datensätze für die Evaluierung von KI-Tools zu finden.

Die beiden bisher genannten Probleme sind keine prinzipiellen Hindernisse für die Evaluierung und Optimierung von KI-Tools, sondern eher praktische Herausforderungen, die mit entsprechenden Ressourcen und Aufwand überwunden werden können. So muss dafür gesorgt werden, dass die notwendigen Kontextinformationen verfügbar sind, und es muss immer klar sein, um welches sprachliche Phänomen es geht, beziehungsweise welche Definitionen als Grundlage für eine Kategorisierung dienen. Das löst die Probleme der Mehrdeutigkeit und der Kontextabhängigkeit allerdings nicht vollständig: Selbst wenn alle notwendigen Kontextinformationen verfügbar sind und es eine klare Definition gibt, kann es immer noch einen Graubereich geben, in dem die Kategorisierung von Äußerungen als toxisch oder nicht toxisch interpretationsoffen ist. Das liegt unter anderem daran, dass toxische Sprache ein graduelles Phänomen ist und Äußerungen also mehr oder weniger toxisch sein können. Selbst die Festlegung einer Grenze kann die Interpretationsoffenheit nicht vollständig beseitigen.

Die Herausforderungen begrifflicher Vielfalt, Kontextabhängigkeit und nicht verschwindender Graubereiche betreffen viele Anwendungen KI-gestützter Deliberation, weil es häufig um die Generierung und Analyse natürlicher Sprache geht, die in einem soziokulturellen und situativen Kontext eingebunden und damit im Einzelfall interpretationsoffen sein kann.

4.2.2 Lösungsansätze

Diese Herausforderungen bei der Evaluierung und Optimierung KI-basierter Deliberation sprechen nicht grundsätzlich gegen den Einsatz von KI – zumal sie gleichermaßen berücksichtigt werden müssen, wenn Menschen diese Aufgaben übernehmen. Gerade in deliberativen Kontexten sind Aufgaben, die KI unterstützen soll, häufig normativ aufgeladen und nur selten vollständig objektivierbar. Daher müssen KI-Systeme hier besonders vorsichtig, transparent und korrigierbar eingesetzt werden. Die folgenden Empfehlungen können dazu beitragen, durch Evaluation und Transparenz Vertrauen in KI-gestützte Deliberation zu schaffen.

Durch die zentrale Rolle der Zuverlässigkeit und Korrektheit von deliberationsunterstützenden KI-Tools empfehlen sich unabhängige und transparente Evaluationen. Die Evaluierung von KI-Tools sollte von unabhängigen Dritten durchgeführt werden, die in keinem direkten Interessenkonflikt stehen. Die Ergebnisse solcher Evaluationen sollten transparent und vollständig veröffentlicht werden, damit sie von der Öffentlichkeit nachvollzogen und kritisch bewertet werden können. Solche unabhängigen Evaluationen und die Veröffentlichung der Ergebnisse bilden eine wichtige Grundlage für das Vertrauen von Nutzer:innen. Die Qualität der Testdatensätze hinsichtlich der oben genannten Kriterien muss ebenfalls unabhängig überprüfbar sein. Eine Möglichkeit besteht darin, die Datensätze frei zugänglich zu machen, damit ihre Qualität unabhängig bewertet werden kann, was jedoch auch mit einer erhöhten Gefahr der genannten Training-Test-Contamination einhergeht.

Ein weiteres Mittel zur Steigerung des Vertrauens in KI-Tools ist technische Transparenz. Das bedeutet, dass die technischen Details der KI-Pipelines offengelegt werden sollten, damit unabhängige Dritte nachvollziehen können, wie Ergebnisse entstehen und ob grundlegende Anforderungen wie z.B. Datensicherheit erfüllt sind. Technische Transparenz umfasst zum Beispiel die Offenlegung der verwendeten Modelle, des Pipelinedesigns, der Prompts sowie der IT-Infrastruktur. Ein hohes Maß an Offenheit erfordert auch die Veröffentlichung des Programmcodes unter Open-Source-Lizenzen und die Nutzung von Open-Weight-Modellen, die im Gegensatz zu proprietären Modellen wie ChatGPT frei verfügbar und selbst betreibbar sind. Bei technischer Offenheit geht es nicht primär darum, dass Nutzer:innen in die Lage versetzt werden, Ergebnisse selbst zu reproduzieren, sondern darum, dass unabhängige Dritte die KI-Tools kritisch analysieren und bewerten können. Durch solche Analysen kann nicht nur die Zuverlässigkeit der KI-Tools überprüft, sondern auch die Vertrauenswürdigkeit der Anbieter:innen bewertet werden, was wiederum das Vertrauen von Nutzer:innen in die KI-Tools stärken kann.

Die bisher genannten Empfehlungen reichen allerdings unter Umständen nicht aus, um genug Vertrauen in KI-gestützte Deliberation zu schaffen. Sie sorgen im besten Fall für hinreichende Zuverlässigkeit und Transparenz bei der Verlässlichkeitsprüfung. Die durch systematische Evaluation optimierte Zuverlässigkeit von KI-Tools bleibt jedoch begrenzt. Damit können und werden diese Tools im Einzelfall fehleranfällig sein. Selbst wenn die Fehlerquote gering ist, kann dies insgesamt zu einem Vertrauensverlust führen, wenn die Fehleranfälligkeit der Systeme nicht adäquat abgefangen wird. Hierfür sind weitere Maßnahmen notwendig, um Vertrauen in KI-gestützte Deliberation zu schaffen.

So sollte es eine hinreichende Transparenz und Erklärbarkeit der Ergebnisse geben. Nutzer:innen sollten nachvollziehen können, wie und warum bestimmte Ergebnisse entstehen. Hierbei geht es nicht unbedingt um kausale Erklärungen auf technischer Ebene, die für die meisten Nutzer:innen ohnehin selten hilfreich wären, sondern um nachvollziehbare Erklärungen für Techniklaien. Je nach Aufbau der KI-Anwendung gibt es dafür verschiedene Möglichkeiten: Wenn die KI Informationen aus Dokumenten extrahiert, sollten diese Quellen und ihr Zusammenhang mit dem Ergebnis transparent gemacht werden; wenn die KI ihr Ergebnis in mehreren Schritten erarbeitet, sollten auch die Zwischenergebnisse einsehbar sein. Eine besondere Rolle kommt generativen Sprachmodellen zu: Von diesen kann man sich Ergebnisse durch Rückfragen erklären lassen und Rechtfertigungen einfordern. Bei den neueren Reasoning-Modellen, einer Weiterentwicklung des Chain-of-Thought-Ansatzes (Betz u. a. 2021), können die der Antwort vorgeschalteten „Überlegungsschritte“ (engl. reasoning trace) für Nutzer:innen einsehbar gemacht werden. Unabhängig davon, ob diese natürlichsprachlichen Erklärungen und Rechtfertigungen tatsächlich kausal relevant für die Ergebnisse sind oder nur ex post erzeugt werden, können sie für Nutzer:innen hilfreich sein, um die Ergebnisse besser zu verstehen und einzuordnen. Sie können auch als Grundlage für eine mögliche Prüfung der Ergebnislegitimität dienen.

Damit kommen wir zu einer weiteren Anforderung. Die Ergebnisse algorithmischer Entscheidungen sollten anfechtbar und revidierbar sein. Nutzer:innen sollten nicht nur die Möglichkeit haben, Rechtfertigungen und Erklärungen einzufordern, sondern darüber hinaus ihr Recht ausüben können, die Ergebnisse anzufechten und Korrekturen zu verlangen. Dafür muss es in den entsprechenden deliberativen Kontexten Prozesse und Anlaufstellen geben. Die aktive Einbindung der Nutzer:innen hilft nicht nur, KI-Anwendungen zu verbessern, sondern zeigt Nutzer:innen auch, dass sie fehlerhaften Ergebnissen einer KI nicht ausgeliefert sind.

Für den Umgang mit Mehrdeutigkeit und Kontextabhängigkeit gibt es je nach konkretem Einsatzszenario unterschiedliche Möglichkeiten, die sich kombinieren lassen. So kann in einem ersten Schritt, Mehrdeutigkeit und Kontextabhängigkeit durch die Bereitstellung von Kontextinformationen sowie durch die Festlegung klarer Definitionen reduziert werden. Auf der Evaluationsseite setzt dies voraus, dass Test- und ggf. Trainingsdatensätze mit entsprechenden Kontextinformationen und klaren Definitionen erstellt werden. Auf der Seite der KI-Tools muss dafür gesorgt werden, dass die notwendigen Kontextinformationen verfügbar sind und die KI-Tools so ausgestaltet sind, dass sie diese Informationen auch nutzen können.

Kann durch solche Maßnahmen trotzdem keine Ergebniseindeutigkeit sichergestellt werden, muss mit der verbleibenden Mehrdeutigkeit transparent umgegangen werden. Die beiden vorgestellten Prototypen (siehe Kapitel 3) zeigen zwei grundlegende und komplementäre Wege auf:

Eine Möglichkeit besteht darin, die Mehrdeutigkeit so aufzulösen, dass die KI-Anwendung in einem ersten Schritt aufgefordert wird, den Interpretationsspielraum durch die Formulierung unterschiedlicher Interpretationen auszuloten. Anschließend werden dann für jede der identifizierten Interpretationen die weiteren Schritte der Pipeline durchlaufen. Dieser Weg wird durch die EvidenceSeeker-Boilerplate illustriert (Kapitel 3.2). Die Details der Disambiguierung müssen in Abhängigkeit der konkreten Anwendung gestaltet werden. Im EvidenceSeeker ging es vor allem darum, deskriptive und normative Aussagen zu unterscheiden, weil diese Differenzierung wichtig für die weiteren Schritte des Faktencheckprozesses ist. Disambiguierung stellt auch separate Anforderungen an die Evaluierung, weil es hier nicht nur darum geht, ob die KI-Tools die richtigen Ergebnisse liefern, sondern auch, ob sie Mehrdeutigkeiten korrekt erkennen und auflösen können.

Eine andere Möglichkeit besteht darin, die Mehrdeutigkeit nicht aufzulösen, sondern die damit verbundene Unsicherheit in den Ergebnissen transparent zu machen. Statt eindeutiger Antworten könnten Unsicherheiten qualitativ oder quantitativ angegeben werden. Es ist auch möglich, dass KI-Pipelines sich bei unzureichender Informationslage einer Antwort explizit enthalten, wie der Toxicity-Detector illustriert (Kapitel 3.1). Auch dieser Weg stellt besondere Anforderungen an die Evaluierung. So müssen mögliche Unsicherheiten in den Testdatensätzen dargestellt werden, um zu evaluieren, ob die KI-Tools diese korrekt angeben können.

HinweisZusammenfassung der Empfehlungen
  1. Unabhängige und transparente Evaluationen: Die Evaluierung von KI-Tools sollte von unabhängigen Dritten durchgeführt werden, und die Ergebnisse solcher Evaluationen sollten transparent und vollständig veröffentlicht werden.
  2. Technische Transparenz: Die technischen Details der KI-Pipelines sollten offengelegt werden, damit unabhängige Dritte nachvollziehen können, wie Ergebnisse entstehen und ob grundlegende Anforderungen wie z.B. Datensicherheit erfüllt sind.
  3. Transparenz und Erklärbarkeit von Ergebnissen: Nutzer:innen sollten nachvollziehen können, wie und warum bestimmte Ergebnisse entstehen. Insbesondere sollten Erklärungen und Rechtfertigungen für Ergebnisse Nutzer:innen zugänglich sein.
  4. Revidierbarkeit algorithmischer Entscheidungen: Nutzer:innen sollten nicht nur die Möglichkeit haben, Rechtfertigungen und Erklärungen einzufordern, sondern darüber hinaus ihr Recht ausüben können, die Ergebnisse anzufechten und Korrekturen einzufordern.
  5. Umgang mit Mehrdeutigkeit und Kontextabhängigkeit: Mehrdeutigkeit und Kontextabhängigkeit sollten durch die Bereitstellung von Kontextinformationen sowie die Festlegung klarer Definitionen reduziert werden. Wenn trotzdem keine Ergebniseindeutigkeit sichergestellt werden kann, sollte mit der verbleibenden Mehrdeutigkeit transparent umgegangen werden, zum Beispiel durch die explizite Darstellung von Unsicherheiten oder die Formulierung unterschiedlicher Interpretationen.

Diese Anforderungen formulieren Ideale, die in der Praxis mehr oder weniger stark umgesetzt werden können. Wie wichtig sie für einen bestimmten Anwendungsfall sind, lässt sich nicht pauschal beantworten, sondern hängt davon ab, wie relevant die genannten Herausforderungen im konkreten Fall sind. Darüber hinaus müssen die formulierten Gründe womöglich mit anderen Überlegungen abgewogen werden. So könnten sie beispielsweise mit berechtigten Geschäftsinteressen in Konflikt stehen. Hier gilt es, gesamtgesellschaftlich passende regulatorische Rahmenbedingungen für deliberative KI zu schaffen, um solche Konflikte möglichst gering zu halten.

KI hat großes Potenzial zur Unterstützung und Verbesserung deliberativer Prozesse. Ob dieses Potenzial ausgeschöpft wird, entscheidet sich jedoch nicht allein anhand der technischen Leistungsfähigkeit der KI-Anwendungen, sondern an ihrer Einbettung in transparente, überprüfbare und kontrollierbare Verfahren.

4.3 Praktische Herausforderungen

Neben den bereits genannten Herausforderungen, die sich vor allem auf die Evaluierung und Optimierung von KI-Tools sowie deren Zusammenhang mit dem Vertrauen in KI-basierte Deliberation beziehen, gibt es eine ganze Reihe praktischer Herausforderungen, die zum Teil technologiespezifisch und zum Teil spezifisch für den zivilgesellschaftlichen Bereich sind. Diese Herausforderungen können hier weder vollständig noch abschließend behandelt werden. Wir wollen zumindest Herausforderungen aufgreifen, die uns im Laufe des Projekts begegnet sind, und vorläufige Überlegungen darstellen.10

Eine praktische Herausforderung bei der Entwicklung KI-basierter Applikationen ist die hohe Geschwindigkeit, mit der sich die Technologie weiterentwickelt. Das betrifft nicht nur die Sprachmodelle selbst, sondern auch die Frameworks und Möglichkeiten, KI-basierte Arbeitsabläufe zu gestalten. Während zu Beginn des KIdeKu-Projekts die Entwicklung von KI-Tools hauptsächlich auf der Grundlage statischer Pipelines erfolgte, hat sie sich im Laufe des Projekts zunehmend in Richtung flexibler Pipelines in Form von agentenbasierten Systemen entwickelt. Das macht statische KI-Workflows nicht überflüssig, aber es zeigt, dass die Entwicklung von KI-Tools in ständigem Wandel begriffen ist und es leicht passieren kann, dass eine konkrete Implementierung nach kurzer Zeit schon wieder veraltet ist.

Die Entwicklung modellagnostischer Anwendungen stellt damit lediglich die grundlegendste Anforderung an KI-Tools dar. KI-Tools sollten darüber hinaus so gestaltet werden, dass es möglichst einfach ist, die konkrete technische Implementierung zu erweitern bzw. vollständig auszuwechseln. Dafür gibt es verschiedene Möglichkeiten: So sollten Anwendungen mindestens stark modular aufgebaut sein, damit einzelne Komponenten unabhängig voneinander angepasst und ausgetauscht werden können. Die immer weiter voranschreitende KI-getriebene Softwareentwicklung schafft selbst neue Möglichkeiten mit diesem Problem umzugehen. So könnte man die Ziele und Umsetzungskonzepte natürlichsprachlich als generische Beschreibungen formulieren und die Implementierung darauf aufbauend weitgehend KI-getrieben umsetzen. Diese generischen Beschreibungen sollten möglichst explizit und vollständig sein und unter anderem das Design, die Anforderungen, die Arbeitsabläufe, die Prompts sowie den Technologie-Stack umfassen. Entwickeln sich die Frameworks dann so stark weiter, dass eine Neuimplementierung notwendig wird, müsste man – etwas vereinfacht ausgedrückt – lediglich die Beschreibung des Technologie-Stacks anpassen, um die neue Implementierung zu generieren.

Ein konkreterer Vorschlag ist die Verwendung sogenannter Agent Skills (Engl. für „Agentenfähigkeiten“), die in der agentenbasierten KI-Entwicklung zunehmend an Popularität gewinnen.11 Skills sind im Grunde genommen natürlichsprachliche Anleitungen, die beschreiben, wie bestimmte Aufgaben oder Funktionen erfüllt werden sollen. Sie können in agentenbasierten Systemen dynamisch aufgerufen und ausgeführt werden, um bestimmte Funktionen zu erfüllen, und werden unabhängig von der konkreten technischen Implementierung formuliert.

Am Beispiel der vorgestellten Pipeline des EvidenceSeekers: Die Prompts für die drei unterschiedlichen Schritte der Pipeline sind bereits technologieunabhängig formuliert und liegen in Konfigurationsdateien vor, sodass sie relativ einfach angepasst und in alternativen Implementierungen wiederverwendet werden können. Weitergehen könnte man, indem man die unterschiedlichen Schritte der Pipeline und das Design der darauf aufbauenden Pipeline als Skills formuliert. Die so beschriebene Fähigkeit, Evidenzen in einer vorhandenen Wissensbasis zu identifizieren und den Grad ihrer Bestätigung zu qualifizieren, ließe sich damit in agentenbasierten Abläufen technologieunabhängig einbinden.

Sofern das Ziel darin besteht, KI-Anwendungen so zu konzeptionieren und umzusetzen, dass sie über das Stadium von Prototypen hinausgehen und tatsächlich in der Praxis eingesetzt werden, ergeben sich eine Reihe weiterer praktischer Herausforderungen.

Zunächst stellt sich die grundlegende strategische Frage nach der Wahl des Modell-Ökosystems. Open-Weight-Modelle, wie sie über Hugging Face angeboten werden, bieten potenziell größere Kontrolle, Transparenz und Unabhängigkeit. Sie können außerdem über eigene IT-Infrastrukturen betrieben werden, was die Anpassung an spezifische Anforderungen erleichtert, Abhängigkeiten vermeidet und insbesondere die Einhaltung sowie das Monitoring von Datenschutz- und Sicherheitsanforderungen ermöglicht.

Demgegenüber müssen die Anforderungen an Infrastruktur, Wartung, Sicherheit und Modellpflege selbst erfüllt werden. Sofern KI-basierte Deliberationstools im zivilgesellschaftlichen Bereich entwickelt und eingesetzt werden, kann dies eine erhebliche Hürde darstellen, da diese Organisationen häufig klein sind und nur über stark begrenzte Ressourcen verfügen. Das ist umso bedenklicher, als dass Datenschutz, Transparenz, Zuverlässigkeit und Sicherheit gerade in deliberativen Kontexten besonders relevant sind (siehe oben).

Eine mögliche Lösung könnte darin bestehen, dass Bund oder Länder zivilgesellschaftlichen Organisationen KI-Infrastruktur zur Nutzung bereitstellen, die über entsprechende API-Schnittstellen zugänglich ist.

Ein weiterer Aspekt bei der Abwägung zwischen Open-Weight- und proprietären Modellen betrifft die Performance. Nach wie vor besteht eine Lücke zwischen der Leistungsfähigkeit von Open-Weight-Modellen und der von proprietären Modellen, die von großen Plattformanbietern bereitgestellt werden. Aus der Perspektive von User:innen reicht es unter Umständen nicht aus, dass KI-Tools hinreichend zuverlässig sind, sondern sie müssen mit der Leistungsfähigkeit von ChatGPT und Co. mithalten können, um breite Akzeptanz zu erreichen. Das gilt insbesondere für Anwendungen, die in direkter Konkurrenz zu proprietären Modellen stehen, etwa KI-gestützte Chatbots oder Recherchetools.

Erst einmal lässt sich festhalten, dass sich diese Performance-Lücke in den letzten zwei Jahren verkleinert hat. Geht dieser Trend weiter, könnte diese Herausforderung in Zukunft weniger relevant sein. Darüber hinaus können verschiedene Maßnahmen ergriffen werden, um die Akzeptanz von Applikationen, die auf Open-Weight-Modellen basieren, zu steigern. So könnten die genannten Vorteile stärker kommuniziert werden. Vielleicht sollte auch darauf verzicht werden, mit generisch ausgelegten KI-Tools zu konkurrieren. Stattdessen sollte der Fokus auf die Entwicklung von KI-Anwendungen liegen, die einen sichtbaren Mehrwert generieren, indem sie auf spezifische organisatorische Prozesse, Fachlogiken oder regulatorische Anforderungen zugeschnitten werden und domänenspezifisches und institutionelles Wissen strukturiert einbinden.

Ein weiterer zentraler Aspekt betrifft die Nachhaltigkeit von KI-Projekten im zivilgesellschaftlichen Bereich. Gerade im Kontext öffentlich geförderter oder zivilgesellschaftlicher Vorhaben tritt häufig das Problem auf, dass Anwendungen nach Projektende nicht weiterentwickelt und in der Folge auch nicht genutzt werden. Mit dem Auslaufen der Finanzierung enden oft Wartung, Weiterentwicklung und Hosting. Zurück bleiben veraltete Systeme, die Sicherheitsrisiken mit sich bringen, oder schlicht abgeschaltete Dienste.12

Dieses Problem ist sicherlich komplex und hängt mit strukturellen Rahmenbedingungen zusammen. Eine Möglichkeit, dem entgegenzuwirken, ist, die Anwendungen so zu entwickeln und aufzusetzen, dass sie möglichst reibungslos von Dritten aufgegriffen und weiterentwickelt werden können. Das könnte zum Beispiel durch die Veröffentlichung von Quellcode unter geeigneten liberalen Open-Source-Lizenzen, die Bereitstellung ausführlicher Dokumentation und die Einbindung von Nutzer:innen in die Entwicklung geschehen.


  1. Ähnliche und komplementäre Überlegungen finden sich im Blogbeitrag von Marvin Sieger, der aus dem Projekt „Wegweiser.UX-für-KI“ berichtet.↩︎

  2. Diese Gefahr ist auch deswegen relevant, weil in der Forschung zu deliberativer KI die Anforderung gleicher Teilhabe weniger stark untersucht wird als andere Normen (Friess u. a. 2025).↩︎

  3. Dieser Ausdruck stammt von Jungherr und Rauchfleisch (2025), die in einer repräsentativen Umfrage zeigen, dass eine allgemeine Skepsis gegenüber KI mit einer skeptischen Einstellung zu den Fähigkeiten deliberativer KI korreliert.↩︎

  4. Die folgenden Punkte wurden auf dem KIdeKu-Workshop von Julian Müller und Eike Düvel vorgebracht.↩︎

  5. Im Projekt „Künstliche Intelligenz und Bürgerräte“ (KIB) werden Einsatzmöglichkeiten von KI in der Öffentlichkeitsbeteiligung untersucht.↩︎

  6. Vgl. bspw. Tessler u. a. (2024).↩︎

  7. Der syncAILO-Datensatz ist ein Beispiel für einen synthetischen Datensatz, der mit einer LLM-Pipeline erstellt wurde und auf dessen Grundlage unterschiedliche Test- und Trainingsdatensätze erstellt werden können. Vergleiche Kapitel 3.3.↩︎

  8. Wie bspw. in Krippendorff (2019) dargestellt.↩︎

  9. Vgl. auch Kapitel 3.1.2.↩︎

  10. Für einen Überblick aus der Perspektive von NROs sind die Resultate des KINiro-Projekts der OTH Regensburg von großer Relevanz. Dort wurde in qualitativen und quantitativen Studien untersucht, welche Herausforderungen NROs bei der Entwicklung und Nutzung von KI-Tools sehen.↩︎

  11. Skills wurden ursprünglich von Anthropic für Claude eingeführt, werden aber mittlerweile von den meisten Frameworks für agentenbasierte KI-Tools unterstützt.↩︎

  12. Ein Phänomen, das sich exemplarisch im „Civic Tech Graveyard“ dokumentiert findet.↩︎