KI-Detektoren in Schule und Unterricht? Nein Danke!

Die Angst vor KI geht um…

Videoprotokoll der Textüberarbeitung von Leigh Burell

Das musste auch die US-Studentin Leigh Burell erfahren, deren Hausarbeit fälschlicherweise von dem KI-Detektor Turnitin („Academic integrity in the age of AI writing“) als plagiiert erkannt wurde und der nun das Durchfallen in diesem wichtigen Kurs drohte. Sie konnte die Anschuldigungen widerlegen, hatte ihre Arbeit in Google Docs angefertigt und verfügte daher über die vollständige Änderungshistorie. Doch der Schreck saß tief, bei ihrer nächsten Arbeit filmte sie den Überarbeitungsprozess und reichte das Video mit dem Text zusammen ein: „I was so frustrated and paranoid that my grade was going to suffer because of something I didn’t do“ konstatiert sie im Interview mit der New York Times.

Auch an deutschen Schulen nimmt die Nachfrage nach KI-Detektoren zu, werden für viel Geld entsprechende Lizenzen angeschafft. Zu tief sitzt offensichtlich das Misstrauen, Schülerinnen und Schüler könnten beim Schreiben auf die naheliegende Lösung, einen Chatbot als Ghostwriter zu benutzen, kommen. In der Bitkom-Studie 2024 äußern immerhin 39 Prozent der befragten 502 Lehrkräfte, KI habe in der Schule nichts verloren, 37 Prozent verbieten ihren Schülerinnen und Schülern die Nutzung von KI für Hausaufgaben. Tief sitzt aber offensichtlich auch das Vertrauen in das Versprechen, mit einem KI-Detektor zuverlässig Plagiate zu finden. Ein neues Katz-und-Maus-Spiel ist eröffnet, das am Ende nur Verlierer kennt und technisch wie pädagogisch höchst fragwürdig ist.

So fragte mich auch der Moderator einer SWR3-Sendung, ob ich für ein Interview zur Verfügung stünde. Er würde diesmal auch aus persönlichem Interesse ein feature zu KI-Detektoren im Unterricht machen, denn an der Schule seiner Tochter sei gerade für viel Geld eine solche Plattform angeschafft worden. Wer reinhören möchte, kann hier meine (stark gekürzte) Sicht der Dinge nachvollziehen – einige Punkte möchte ich aber weiter ausführen und damit erläutern, warum Schulleitungen keinesfalls investieren und Lehrpersonen das Spiel gar nicht erst beginnen sollten. Denn alle Beteiligten sitzen gleich mehreren Illusionen auf – eine Trias, die ich hier kurz ausführen möchte.

KI-Detektoren in Schule und Unterricht? Nein Danke! 1

Detektoren-Illusion – Versprechen vs. Realität

Vom AI Classifier zu GPTZero

Schon kurz nach Erscheinen von ChatGPT stellte OpenAI dem Chatbot im Januar 2023 einen „AI Classifier“ zur Seite, „trained to distinguish between AI-written and human-written text“. Aber dieser Versuch musste schon kurze Zeit später beendet werden. OpenAI fasste sich kurz: „As of July 20, 2023, the AI classifier is no longer available due to its low rate of accuracy.“

Andere Tools halten sich länger am Markt. Sie heißen Winston AI, GPTZero oder auch ZeroGPT und versprechen „eine unvergleichliche Genauigkeit und Zuverlässigkeit“ (Winston AI) bei der KI-Erkennung. Insbesondere GPTZero wird auch viel in Bildungsinstitutionen verwendet, da es kostenlos verfügbar ist. Hier lohnt sich ein kurzer Blick in die mehrstufige Funktionsweise, um den Haken an der Sache zu verstehen.

Kurzer Exkurs: Wie funktioniert ein Tool wie ZeroGPT?

GPTZero baut wie die meisten KI-Detektoren im Wesentlichen auf ein dreistufiges Verfahren, das anhand unterschiedlicher Indikatoren die Wahrscheinlichkeit für einen KI-generierten Text berechnet:

  1. Merkmalsanalyse basierend auf Token-Wahrscheinlichkeiten und Satzvariation: Das Tool berechnet für einen eingegebenen Text Metriken wie „Perplexität“ (wie gut ein Sprachmodell den Text vorhersagen kann) und „Burstiness“ (Variation zwischen den Sätzen). KI-generierte Texte weisen bislang typischerweise niedrigere Perplexity-Werte und weniger Satzvariationen auf als menschlich verfasste Texte.
  2. GPTZero nutzt eine mehrstufige Analyse (Makro- bis Mikroebene), um Textmuster zu extrahieren und zu klassifizieren. In jeder Stufe werden spezifische linguistische und statistische Merkmale geprüft, um eine Unterscheidung zwischen menschlichem und KI-generiertem Text zu treffen.
  3. Training auf großen Textcorpora: Das Modell ist auf umfangreichen Datensätzen mit menschlichen und KI-generierten Texten trainiert. So lernt es typische Signaturen verschiedener Sprachmodelle und kann deren Erzeugnisse zuverlässig identifizieren.

Stanford-Studie (2023): „GPT detectors are biased against non-native English writers“

Schon im Juli 2023 untersuchte eine Studie der Stanford University die oben beschriebene Funktionsweise gängiger KI-Detektoren im Hinblick auf Fairness und Zuverlässigkeit – insbesondere im Bildungsbereich und mit Blick auf unter hochstandardisierten Bedingungen geschriebene TOEFL-Test-Texte. Die breit rezipierten Ergebnisse waren erschreckend und lassen sich in drei Bereiche aufteilen:

  1. Diskriminierung nicht-muttersprachlicher Texte
    GPT-Detektoren (wie GPTZero, Originality.AI u. a.) klassifizierten über 60 % von menschlich verfassten TOEFL-Aufsätzen (nicht-muttersprachlicher Schülerinnen und Schüler) fälschlicherweise als KI-generiert. Im Gegensatz dazu wurden US-Schüleraufsätze von Muttersprachlern (8. Klasse) fast fehlerfrei als menschlich erkannt. Grund: Nicht-muttersprachliche Texte zeigen oft niedrige linguistische Varianz (also geringe „Perplexity“ oder „Burstiness“), was von den Detektoren als typisches KI-Merkmal gewertet wird. Ein Problem, das zumindest Fremdsprachen-Lehrkräften bekannt sein sollte: Denn die Grammatik-Nutzung muttersprachlicher Verfasser differiert immer von der schulischer Fremdsprachenlerner mit ihrer aufbauend auf systematischem Grammatik-Lernen (und natürlich Wortschatz-Erwerb in klar abgegrenzten semantischen Feldern) eher „mathematischen“ Herangehensweise an Syntax und Morphosyntax.
  2. Sprachliche Verbesserung durch KI senkt Fehlklassifikationen
    Wurden die nicht-muttersprachlichen Texte durch ChatGPT sprachlich „aufgewertet“ (z. B. durch variantenreicheren Wortschatz), sank die Falsch-Positiv-Rate von 61 % auf 12 %. Umgekehrt stieg die Falsch-Positiv-Rate bei muttersprachlichen Texten stark an, wenn deren Wortwahl künstlich vereinfacht wurde.
  3. Detektoren lassen sich leicht austricksen
    Wurden KI-generierte Texte (z. B. College-Essays von ChatGPT) nachträglich stilistisch verbessert sank dadurch die Erkennungsrate der Detektoren von bis zu 100 % auf teils nur 13 %.

Das nur in aller Kürze zum Kernproblem. Auch neuere Untersuchungen untermauern diese Ergebnisse und zeigen die geringe Zuverlässigkeit anhand unterschiedlicher Manipulationstechniken, wie z.B. durch automatisches Paraphrasieren KI-generierter Texte in einer Studie aus dem Frühjahr 2024. Gleichzeitig verspricht GPTZero nun eine umfassende „De-biasing Detection for Education“ und meldet, mit gezieltem Training die Falsch-Positiv-Rate bei nicht-muttersprachlichen TOEFL-Texten auf 1,1% gesenkt zu haben.

Für mich bleibt es trotz solcher Erfolgsmeldungen dabei: Schon auf technischer Ebene können wir KI-Detektoren nicht vertrauen, die extrem schnelle Weiterentwicklung von generativer KI tut ihr Übriges. Und gerade im Bildungsbereich können Falsch-Positiv-Ergebnisse großen Schaden anrichten, wie das einleitende Beispiel verdeutlicht – ganz zu schweigen von dem grundlegenden Misstrauen in der pädagogischen Beziehung, das die Nutzung solch fehleranfälliger Tools allen Warnungen zum Trotz impliziert…

Erkennungsillusion – wenn Lehrkräfte ihre Fähigkeiten überschätzen

Die problematische Nutzung von KI-Detektoren sollte nicht von einem weiteren Problem ablenken: Unter Lehrpersonen scheint auch der Glaube verbreitet, sie könnten den Einsatz von KI in Lernprodukten erkennen und somit auch verhindern bzw. zumindest sanktionieren. Zumindest äußern in der Bitkom-Studie 2024 zwar nur 9 Prozent der befragten Lehrkräfte, sicher zu erkennen, wenn Hausaufgaben mit KI gemacht wurden, weitere 32 Prozent würden sich das aber immerhin eher zutrauen (55 Prozent trauen sich dies nicht zu). Das mag momentan noch und bei allzu simplen Versuchen funktionieren. Langfristig kann diese Illusion aber dazu führen, weiterhin einfach auf traditionelle Bewertungsmethoden setzen, obwohl die Technologie menschliche Erkennungsfähigkeiten längst übertroffen hat:

    • Klar ist bereits, dass spezialisierte KI-Detektoren KI-generierte Texte nicht mit hoher Genauigkeit und ohne das Risiko von Fehlalarmen identifizieren können.
    • Genauso wenig können aber Menschen KI-generierte Texte mit Sicherheit erkennen: Selbst erfahrene Redakteure in führenden linguistischen Fachzeitschriften konnten im Rahmen der Studie „Can linguists distinguish between ChatGPT/AI an human writing?“ KI-generierte Texte nicht zuverlässig identifizieren.
    • Den höchst problematischen (aber im Umgang mit KI alltäglichen) Zusammenhang von Selbstüberschätzung und (Falsch-)Diagnose im Bildungsbereich arbeiteten 2024 Johanna Fleckenstein et. al. in der Studie „Do teachers spot AI? Evaluating the detectability of AI-generated texts among student essays“ heraus: Die Studie zeigt, dass sowohl angehende als auch erfahrene Lehrkräfte Schwierigkeiten haben, KI-generierte Texte von Schüleraufsätzen zu unterscheiden. Zudem neigen sie dazu, ihre Fähigkeit zur Identifikation solcher Texte zu überschätzen, wobei KI-generierte Essays tendenziell positiver bewertet werden als menschlich verfasste.

Die hier nur verkürzt und exemplarisch genannten Studien weisen auf ein grundlegendes Problem hin, das vielen von uns im Alltag sehr präsent ist: Selbstbild und Haltung von Lehrpersonen werden in Zeiten von KI zunehmend in Frage gestellt. Nun mit einer Art Scheuklappen-Mentalität weiterzumachen, als hätte sich im komplizierten pädagogisch-didaktisch-technologisch geprägten Lernumfeld nichts geändert, führt in eine Sackgasse und derart geplante Lernprozesse ad absurdum.

Wissensillusion – wenn Lernende die positive Wirkung von KI überschätzen

Schnelle Ergebnisse mithilfe (generativer) KI, das problemlose Bearbeiten und Lösen schulischer Lernaufgaben und Auslagern wichtiger Denkprozesse an KI ist aber nicht nur und einseitig auf der Angebotsebene schulischer Lernprozesse zu suchen. Das würde der Komplexität des Problems nicht gerecht. Denn viele Schülerinnen und Schüler glauben, durch die Nutzung von KI-Tools wie ChatGPT beim Lernen unterstützt zu werden, obwohl diese Hilfe ihr tatsächliches Lernen beeinträchtigen kann.

Auf unreflektierte KI-Nutzung und allzu simples „skill-skipping“ habe ich u.a. in den Blogbeiträgen

immer wieder hingewiesen und versucht klarzumachen: Lernförderliche Nutzung von KI geht uns alle an, ihre Chancen und Grenzen bedürfen kontinuierlicher Diskussion im Lernprozess mit allen Beteiligten.

Mit Blick auf das Verhalten und die Ergebnisse von Schülerinnen und Schülern untersuchte eine Studie der University of Pennsylvania diesen Effekt in einem Feldexperiment mit fast 1.000 Schülerinnen und Schülern in der Türkei (im Blogbeitrag zu KI-Studien vorgestellt). Dabei wurde festgestellt, dass Lernende, die während der Übungsphasen Zugriff auf GPT-4 hatten, ihre Aufgaben signifikant besser lösten – mit einer Leistungssteigerung von 48 % bei der Standardversion (GPT Base) und sogar 127 % bei einer speziell angepassten Tutor-Version (GPT Tutor). Allerdings zeigte sich in der anschließenden Prüfung, dass die Gruppe mit Zugriff auf GPT Base um 17 % schlechter abschnitt als die Kontrollgruppe ohne KI-Unterstützung. Dies deutet darauf hin, dass die KI während der Übungsphasen als „Krücke“ diente, die eigenständiges Problemlösen letztlich aber untergrub („deskilling“-Effekt).

Interessanterweise war sich die Mehrheit der Schülerinnen und Schüler dieser negativen Auswirkungen nicht bewusst. Sie gingen davon aus, dass die Verbesserung ihrer Übungsleistungen durch KI-Unterstützung auch zu besseren Prüfungsergebnissen führen würde. Diese Fehleinschätzung – ich nenne sie etwas verkürzt Wissensillusion – kann dazu führen, dass Lernende ihre tatsächlichen Fähigkeiten überschätzen und weniger effektiv lernen.

Die Studie zeigt jedoch auch, dass eine gezielte Gestaltung von KI-Tools, wie im Fall des GPT Tutor, die negativen Effekte mildern kann. Diese Version wurde so programmiert, dass sie keine direkten Antworten gibt, sondern Hinweise und Erklärungen bietet („sokratischer Tutor“), um eigenständiges Denken zu fördern. Obwohl die Schülerinnen und Schüler mit dem GPT Tutor ihre Übungsaufgaben deutlich besser lösten, schnitten sie in der Prüfung nicht schlechter ab als die Kontrollgruppe.

Diese Erkenntnisse unterstreichen einmal mehr die Notwendigkeit, KI-Tools im Bildungsbereich kritisch-reflektiert einzusetzen. Nur das (gemeinsame) kontinuierliche Erproben und Diskutieren kann am Ende auch zur kritischen Einsicht führen – und das ist ein Auftrag, der wieder im Wesentlichen an uns Lehrkräfte geht!

Darauf weist nicht zuletzt eine kritische Replik auf die hier angeführte Studie hin: Die „KI-Kompetenz“ von Schülerinnen und Schülern, letztlich auch ein Ergebnis ihrer schulisch eingeführten und begleiteten Nutzung, ist ein wichtiger Faktor, wurde in der Studie aber nicht berücksichtigt.

Was machen? „4A“ als Selbstverständlichkeit und schulischer Alltag

Kurz und knapp: Vor dem schulischem Einsatz von KI-Detektoren kann nur gewarnt werden, Schulleitungen sollten hier keinesfalls investieren.

    • Der Einsatz in Prüfungen oder Bewertungen ist problematisch und potenziell diskriminierend, vor allem für Lernende mit nicht-muttersprachlichem Hintergrund.
    • Die erheblichen Auswirkungen: Schülerinnen und Schüler könnten zu Unrecht des Betrugs beschuldigt oder durch technische Fehlurteile benachteiligt werden, was nicht nur pädagogische, sondern auch erhebliche juristische Konsequenzen nach sich ziehen kann.

Empfehlungen: Schulen und Bildungseinrichtungen sollten daher

    • auf den Einsatz aktueller Detektoren in Leistungsbewertungen verzichten,
    • sensibilisiert sein für deren Schwächen und Verzerrungen,
    • was umfassende Praxiserfahrung (und damit Fortbildung) voraussetzt,
    • die nur durch selbstverständliche Nutzung von (generativer) KI in Schule und Unterricht erreicht werden kann,
    • und daher auf die (Weiter-)Entwicklung passender Nachweismethoden (am Beispiel der Facharbeit hier umfassend erläutert) genauso wie neuer Aufgabenformate setzen,
    • die dann auch das Lernen und Prüfen mit KI, aber ebenso auch das Lernen und Prüfen ohne KI berücksichtigen.

Dazu gehört in meinen Augen auch ein pädagogisches Grundvertrauen in die Redlichkeit unserer Schülerinnen und Schüler und ihre Fähigkeit (die es umso stärker zu fördern gilt!), (generative) KI reflektiert einzusetzen. Die Vodafone-Studien 2024 und 2025 untermauern diesen – manch subjektivem Empfinden widersprechenden – Eindruck mit Blick auf die schülerseitige KI-Nutzung: In der Vodafone-Studie 2024 geben 27% der Schülerinnen und Schüler an, KI für „komplette Lösungen oder Texte“ zu nutzen, ein Jahr später liegen deutsche Schülerinnen und Schüler bei diesem Aspekt in der europäischen Vergleichsstudie 2025 mit etwas über 30% voll im europäischen Durchschnitt. Diese Prozentzahlen dürften in etwas den Werten entsprechen, die bislang auch „ElternGPT“ oder „FreundeGPT“ einnahmen. Ähnliche Ergebnisse und dass Jugendliche dieses Thema sehr differenziert sehen, belegt genauso die Ende Mai 2025 erschiene Bitkom-Schülerbefragung.

KI-Detektoren in Schule und Unterricht? Nein Danke! 2
Bitkom-Schülerbefragung (26.05.2025 erschienen)

Angesichts der im Blogbeitrag skizzierten Herausforderungen durch KI-Detektoren und der damit verbundenen Unsicherheiten im schulischen Kontext bieten die „4A“ von Prof. Doris Weßels nach wie vor einen praxisnahen Zugang für den Umgang mit Künstlicher Intelligenz im Bildungsbereich: Aufklären, Ausprobieren, Akzeptieren und Aktiv werden.

Aufklären bedeutet, dass alle Beteiligten – Lehrkräfte, Schülerinnen und Schüler und Eltern – gemeinsam die Funktionsweise, Chancen und Grenzen von KI einschätzen lernen. Ausprobieren ermutigt dazu, KI-Tools selbst zu testen und ihre Anwendungsmöglichkeiten im Unterricht zu erkunden. Akzeptieren fordert die Anerkennung, dass KI ein dauerhafter Bestandteil unserer Bildungslandschaft ist und Unterricht diesen Punkt nicht ausklammern kann. Aktiv werden schließlich ruft dazu auf, die gewonnenen Erkenntnisse in die Gestaltung von Lehr- und Lernprozessen einzubringen und den digitalen Wandel proaktiv mitzugestalten. Dazu gehört die alltägliche Nutzung der verfügbaren (KI-)Möglichkeiten und deren Reflexion. Dazu gehört aber auch das Zusammenspiel von Bildungssteuerung und Schulpraxis – ein erster Erfolg: Die Handlungsempfehlungen der KMK zum Umgang mit KI in der Schule. Ein aktueller Misserfolg: Die Neuausschreibung des AIS, einer bundesweit verfügbaren KI-gestützten Lernplattform für die Schulen.

Die im Blogbeitrag genannten Beispiele, wie die fehlerhafte Klassifizierung der Hausarbeit von Leigh Burell durch einen KI-Detektor, die Diskriminierung nicht-muttersprachlicher Texte durch entsprechende Plattformen – und das bei gleichzeitig fundamentalen Fehleinschätzungen seitens Lehrender wie Lernender – sprechen für sich: Das nächste Katz-und-Maus-Spiel würde nur Verlierer auf allen Seiten kennen.

P.S.: Dass Transparenz für alle Seiten gilt, zeigt auch ein aktueller Fall aus den USA. Eine Studentin entlarvte ein per KI zusammenkopiertes Vorlesungsskript, das zudem zahlreiche Doppelungen und Fehler enthielt. Ihre Teilrückforderung der Studiengebühren von immerhin 8.000$ lehnte die Universität nach einer Prüfung ab.


Title: KI-Detektoren in Schule und Unterricht? Nein Danke!
URL: https://unterrichten.digital/2025/05/27/ki-detektoren-schule-unterricht-bildung/
Source: Unterrichten Digital
Source URL: https://unterrichten.digital
Date: May 27, 2025 at 10:54AM
Feedly Board(s): Schule