Der Autor Heino Apel ist Juror im BUW, und wie bei Bildungseinrichtungen ist der BUW bei seiner Bewertung und Auswahl von Wettbewerbsarbeiten mit dem Problem der KI-Nutzung konfrontiert.
Der Einsatz von KI bei der Anfertigung von Texten aller Art wird seit der freien Zugänglichkeit des Chatbots ChatGPT von der Firma OpenAI im November 2022 an Schulen und Universitäten stark diskutiert, wobei nicht nur die Problematik der Leistungsmessung sondern auch die Frage des produktiven Umgangs im Fokus steht. Während in der Anfangsphase auf schriftliche Anfragen (Prompts) an das Programm häufiger unsinnige oder fehlerhafte Antworten erfolgten, hat sich mit der weiteren Entwicklung von ChatGPT und andren Chatbots das Antwortverhalten deutlich verbessert. Insbesondere bei einem kritischen Umgang im Dialog mit der KI und durch die Möglichkeit mit weiteren konkretisierenden Nachfragen zu verfahren, lassen sich in relativ kurzer Zeit auch von fachfremden Nutzenden recht gute Ergebnisse erzielen. Z.B. bei der Erstellung von Hausarbeiten, die eine Leistungsmessung der Prüflinge darstellen sollen, kann bei einer kompetenten KI-Nutzung das Ergebnis deutlich verbessert werden. Dass KI als leistungssteigerndes Werkzeug benutzt werden kann, ist in der Fachwelt unumstritten. Aber wie geht man damit bei der Leistungsbewertung um? Die Kultusministerien der Länder haben sich insgesamt gegen ein Verbot von KI entschieden und empfehlen einen produktiven Umgang. Die Leistungsbemessung sollte zukünftig mehr prozessorientiert und weniger ergebnisorientiert sein, und die Aufgabenstellung sollte die Nutzung von KI mit integrieren, d.h. die Lehrperson sollte voraussehen, welche Aufgabenkomponenten KI-nutzbar sind, und welche nicht (oder weniger).
Die Empfehlung der Prozessorientierung klingt gut, aber ich fürchte, sie ist nicht einfach haltbar, denn der Chatbot kann gefragt werden, welche Vorgehensweise er bei einer XY-Untersuchung vorschlägt. Damit ist zumindest der Untersuchungsprozess schon einmal von der KI benannt. Der Denkprozess, mit dem ein Schüler seine Fragestellung bis zur Durchführungsüberlegung verfolgt, bleibt den Lehrenden im Falle von Hausarbeiten meist sowieso nicht nachvollziehbar.
Im Unterschied zur Leistungsbewertung von SchülerInnen und StudentInnen, wo die Lehrenden eine Leistungsabgabe in der Regel mit mündlichen oder anderen schriftlichen Vorleistungen vergleichen können, hatte der BUW schon immer den Nachteil, dass er nur die Arbeiten, nicht aber den Leistungsstand der einreichenden SchülerInnen bei der Bewertung kennt. Deshalb war von Beginn an festgelegt, dass hauptpreisverdächtige Arbeiten erst nach einer persönlichen Präsentation und Befragung durch die Jury einer Endbewertung unterzogen werden. Dabei hat sich häufig die Endbewertung von der anfänglich bewerteten schriftlichen Arbeit unterschieden. D.h. im BUW wurde die persönliche Präsentation und Befragung höher bewertet, als das eingereichte schriftliche Wettbewerbsprodukt. Was heute angesichts des vermehrten KI-Einsatzes bei Leistungsbemessungen allgemein gefordert wird.
Seit Beginn der 2000er Jahre begann die Online-Recherche („googeln“) einen wachsenden Einfluss auf die BUW-Arbeiten auszuüben. Zunehmend wurden Arbeiten primär durch Internetrecherche erstellt. Texte aus dem Internet übernommen und gar nicht oder nur pauschal am Ende einer Arbeit zitiert. Als Gegenmaßnahme wurde eine Software zur Plagiatsprüfung eingesetzt, die ausweisen konnte, wie viel Textpassagen einer Arbeit mit Textpassagen aus dem Internet übereinstimmten. Die Internetrecherche hat sich durch die Verbesserung der Suchmaschinen zunehmend vereinfacht. Die Browser, reagierten anfänglich nur auf ein Suchwort. Mit wachsender Spracherkennung lassen sich heute ganze Sätze als Fragen formulieren, aus denen der Suchalgorithmus Beiträge im Internet filtert, die als Links in der Suchmaschine aufgelistet werden. Die intellektuelle, bzw. fachliche Leistung, die ein Suchender dabei aufbringen muss, besteht darin, diese Links im Kontext seiner gesamten Fragestellung zu bewerten. Nur wenn er/sie ein gutes Metawissen über die Fragestellung verfügt, kann er/sie nach bestimmten Kriterien einen passenden Link ausfiltern, oder eine weitere Suche mit veränderter Fragestellung aufsetzen. Solche Suchprozeduren, bei denen Neues gelesen wird, und immer wieder fachliche Wahlentscheidungen getroffen werden müssen, sind für die Suchenden Lernprozesse, bei denen sie sowohl ihre Such- als auch ihre Fachkompetenz sukzessive erweitern. Gute Recherche heißt, zu wissen, wonach man suchen muss, und sich nicht mit dem ersten Link zu begnügen, sonder kritisch weiter zu prüfen, auf vertiefende oder vielleicht auch auf gegenteilige Meinungen zu stoßen. Die Quellen müssen nicht nur nach fachlicher Qualität sondern bei wertepluralen Aussagen auch nach ideologischer Ausrichtung beurteilt werden. Nach erfolgreicher substantieller Recherche für das BUW-Projekt folgt als letztes ein Gliederungskonzept und die schriftliche Ausformulierung der Arbeit. Ein fachlich versierter Gutachter erkennt sehr wohl, ob hier nur oberflächlich recherchiert wurde, oder dem Leistungsstand von Schülern entsprechend substantiell gearbeitet wurde.
Im Unterschied zu dem eher bausteinorientierten „googeln“ entfallen beim KI-Einsatz die wissenserfordernden (und wissensgenerierenden) Zwischenschritte in der Ergebnisentwicklung. Auf eine Anfrage reagiert der Chatbot sofort mit einer sehr gut ausformulierten und gut gegliederten umfassenden schriftlichen Antwort. Meist wird eine Auflistung wesentlicher Punkte generiert, es werden auch Gegenargumente genannt und fachliche Empfehlungen und Warnungen ausgesprochen. Da die KI (das gilt für ChatGPT3) nicht weiß, ob eine wissenschaftliche Arbeit gewünscht wird, schreibt sie auf eine einfache Frage in der Regel einen Text ohne Zitate etwas allgemein zum Thema mehr wikipedia-ähnlich aber umfassender. Ohne differenziertes Nachhaken (prompten) fallen solche KI-Texte nicht sehr lang und in den wissenschaftlichen Aussagen recht allgemein formuliert aus, womit sie im BUW aber durchaus eine Teilnahmebestätigung erzielen können. Solche Textleistungen lassen sich auch „googeln“, wenn etwas Kompetenz vorhanden ist, sie werden von der Jury meist als ausreichend, aber nicht als hervorragend bewertet. Ein produktiver, kompetenter KI-Einsatz verlangt vom Anwendenden präzisiertes Nachfragen. Ein Fragender kann an der KI-Antwort bemerken, dass ein wichtiges fachliches Detail unberücksichtigt blieb, oder dass sogar eine Falschaussage im Text ist, das lässt sich sukzessive verbessern, so dass hier, wie beim „googeln“ über Metawissen zum Sachverhalt gezielt der Text optimiert werden kann. Es sind nicht mehr isolierte Bausteine (Links), die vom Nutzenden bewertet werden müssen, sondern es ist ein Gesamtblick auf das KI-Ergebnis notwendig, um für ein weiteres Tuning mit weiteren Fragen die KI-Ergebnisse zu verbessern. Die KI-Antwort kann Sachverhalte darstellen, die die Fragenden vorher nicht wussten. Aber eine solche Wissensgenerierung erfolgt auch beim googeln, wenn ein fachlich besonders ergiebiger Link ausgewertet werden kann.
Der Unterschied zwischen beiden Werkzeugen besteht also darin, dass „googeln“ schrittweise zum gewünschten Ergebnis führt, während bei der KI-Nutzung die Zwischenschritte eine Blackbox sind, so dass der Weg zum gewünschten Ergebnis immer nur durch Variation des Ganzen gelingt.
Auf die Lernprozesse bezogen darf man wohl annehmen, dass beim „googeln“ die Lernenden erfahren, woher ihre Aussagen kommen (z.B. an den Adressen der Links), die zum Thema verfügbaren Facetten müssen sie selbst erschließen, und lernen dabei eine eigene Erschließungskompetenz, und sie müssen auch eine eigene Gliederungs-/Strukturierungskompetenz besitzen. Während beim Chatbot die Quellen mehr verborgen sind, die Struktur des Fachzusammenhanges muss nicht selbst konstruiert werden, und Schreibkompetenz wird primär nicht erworben, weil immer schon alles gut geschrieben ist. Wenn damit KI-Nutzende eine geringere kognitive Leistung bei der Erstellung der Arbeit iaufbringen müssen, heißt das nicht unbedingt, dass sie weniger lernen. Wenn sie Fachinteresse haben, ist das ein Lernen mit guten Beispielen, an dem sie sehen, wie gute Artikel strukturiert sind, um das im Zweifelsfall später einzubringen oder zumindest einschätzen zu können.
Es gibt bei den BUW-Arbeiten unterschiedlich Ausprägungen, die entsprechend unterschiedlichen Raum für KI-Nutzungen haben.
1. Obwohl der Wettbewerb explizit „vom Wissen zum nachhaltigen Handeln“ heißt, und in den Beschreibungen deutlich auf eine erwünschte Wissens- und Handlungskomponente hingewiesen wird, werden immer wieder rein theoretische Arbeiten ohne Handlungsteil eingereicht. Wenn eine solche Arbeit exzellent ausgearbeitet war, und als innovativ und nachhaltigkeitsrelevant eingeordnet werden konnte, wurde sie im besten Falle als Sonderpreis eingestuft. Eine solche Arbeit ist heute hochrangig „KI-gefgährdet“, d.h. sie kann bei guter KI-Kompetenz mit einem Chatbot tadelsfrei produziert werden. Meist handelt es sich bei solchen Arbeiten auch um Seminararbeiten, die für die Schule erstellt wurden, und inhaltlich nicht besonders originell und fachlich nicht aufregend gestaltet sind. Diese Arbeiten haben es in der Regel nur bis zu einer Teilnahmebestätigung oder Teilnahmeurkunde geschafft. Es ist zu vermuten, dass solche Arbeiten in Zukunft zunehmen und sich durch die KI-Nutzung qualitativ verbessern werden. Das gefährdet aber nicht den BUW, bzw. wir müssen zukünftig verstärkte KI-Wachsamkeit in diesem Fall entwickeln.
1.1. Etliche theoretische Arbeiten enthalten im Schlusskapitel Empfehlungen, wie die Ergebnisse in Zukunft besser genutzt werden können, oder es wird eine kleine Bürgerbefragung zum Thema angedockt, d.h. eine gewisse Handlungsabsicht ist zu erkennen, deren arbeitsintensivere Ausführung aber fehlt. Wenn nur Handlungsempfehlungen ausgesprochen werden, könnten die vom Chatbot formuliert worden sein, denn Chatbots liefern meist auch selbständig Konsequenzen von abgefragten Inhalten. Auch das sollte nicht als bewertungsdramatisch empfunden werden. Denn bei kompetenten Googeln lassen sich Handlungsempfehlungen auch aus passenden Links destillieren – das ist nur etwas weniger bequem als eine Chatbot-Abfrage.
Werden aber Kontakte zur Kommune oder zu entsprechenden Abteilungen von Unternehmen ausgewiesen, dann signalisiert das einen eigenständigen, engagierten Bereich, der nicht per Chatbot vorliegt (es sei denn die entsprechenden Mails wären betrügerisch fingiert).
2. Handeln kann einerseits als experimentelles Handeln durch chemische, physikalische, biologische oder soziologische Untersuchungen verstanden werden. Im Wettbewerbskontext ist allerdings das gesellschaftspolitisches Handeln gemeint, mit dem die Projektuntersuchung in ein öffentliches Wirkungsfeld gelenkt wird.
2.1 Das experimentelle Handeln ist auch „KI-gefährdet“! Beobachtungsdaten lassen sich generieren (vielleicht von anderen Beobachtungen aus der Literatur). Und mit Angabe von Rahmenbedingungen kann ein Chatbot diese Datenentwicklung wissenschaftlich interpretieren. Wer hier als Gutachter misstrauisch ist, sollte auf lokale Angaben setzen, dass das Sample in plausiblen Zusammenhang zu den Projektautoren steht (bzgl. Ort, Zeit und Umfang). Leider muss man sogar misstrauisch gegenüber Fotodokumenten sein, weil auch die sich mit entsprechenden KI-Programmen von Text zu Bild genieren lassen (z.B. mit dem Image-Creator von Microsoft).
Ein wichtiges Kriterium für KI-Anwendung ist die Konsistenz der Projektteile. Wer mit KI relativ verständnislos einen Theorieteil schreiben lässt, und dann einen experimentellen Untersuchungsteil mit oder ohne KI daran setzt, dem kann passieren, dass beide Teile wenig Bezug aufeinander haben. Man darf aber unterstellen, dass gefakte Untersuchungen schon eine ziemlich hohe kriminelle Energie voraussetzen, und die Erzeugung durch KI auch nicht ganz einfach ist, so dass diese Nutzungsform m.E. sehr selten bis gar nicht zu erwarten ist.
2.2 Arbeiten mit einem soliden gesellschaftspolitischen Handlungsteil, wo eine Projektgruppe oder eine einzelne Person in einer Kommune, in einer Schule, oder in Kooperation mit Unternehmen, sozialen Einrichtungen, etc. aktiv wird, sind im Handlungsteil menschgemacht und strukturell KI verdachtsfrei. Die Protokollierung dieses Handels in der Arbeit schreibt man besser ohne Chatbot, weil man alle lokalen Daten und Uhrzeiten dem Programm erst mitteilen müsste. Einzelne Handlungsteile, wie eine Mail an einen speziellen Adressaten verfassen, oder eine Pressemitteilung formulieren, etc. können sehr gut von Chatbots übernommen werden. Hier hat KI einen rein instrumentellen Charakter, sie verbessert die Professionalität des Handelns, fügt aber keine neuen Inhalte hinzu.
Der Wissensteil solcher Arbeiten kann sehr unterschiedlich ausfallen. Wenn ein Projekt eine innovative Idee im Solar- oder Batteriebereich entwickelt, und die dann auf Messen präsentiert und in Verhandlungen mit Unternehmen, oder der Patentbehörde tritt, dann kann der Inhaltsteil hoch wissenschaftlich, vielleicht sogar in Kooperation mit einer Forschungseinrichtung entwickelt sein. Man sollte hier aber nicht sofort die KI Verdachtskeule schwingen, denn eine Projektgruppe wird sich nicht mit einem wissenschaftlichen Betrug in die Öffentlichkeit und dessen praktische Umsetzung stürzen.
Vom Wissen zum Handeln kann auch heißen, dass Dinge, die hinlänglich bekannt sind, endlich zur Umsetzung gebracht werden sollen. In diesem Falle können sich die Wettbewerbsteilnehmenden im Wissensteil keine innovativen Meriten holen, ihre Hauptenergie müssen sie auf den Handlungsteil setzen, wo sie wissenschaftlich korrekt und kreativ vorgehen müssen. In diesem Fall sollte eine Begutachtung ohne Abstriche akzeptieren, wenn der Handlungsteil KI-basiert erstellt wurde.
Wie kann der BUW reagieren?
Wenn anfänglich konstatiert wurde, dass das Verfassen wissenschaftlicher Texte bei geschickter KI-Nutzung heute zu exzellenten Ergebnissen führen kann, und KI-Werkzeuge sich explosiv in IT-Anwendungen verbreiten werden, müssen wir davon ausgehen, dass zukünftige Projekte mehr und mehr unter KI-Nutzung erstellt werden. Eine Wettbewerbsarbeit soll eigenständig erzeugt sein, aber Hilfsmittel zu Erstellung haben wir schon immer zugelassen. Das fängt beim Betreuenden an, der/die häufig Erstimpulse setzt und den Entstehungsprozess der Arbeit mehr oder weniger beratend lenkt, es geht über die intensive Internetrecherche, die wir sogar einfordern, wenn wir z.B. nachfragen, ob das vorgestellte Konzept nicht schon an anderer Stelle erprobt wurde. Wir begrüßen auch Arbeiten, die in Forschungseinrichtungen unter Mentorbegleitung erstellt wurden, etc. Bei all diesen Unterstützungen gab es immer eine Gratwanderung zwischen Hilfe und Verletzung des Eigenständigkeitsprinzips. Unvermeidlich müssen wir dabei akzeptieren, dass Arbeiten hinter denen eine gute Hilfestellung steht, in der Regel denjenigen überlegen sind, die ohne jegliche Hilfestellung auskommen müssen. Mit den bestehenden und kommenden KI-Anwendungen ist eine weiteres Hilfsmittel für die Erstellung der Wettbewerbsarbeiten gesetzt, das wir nicht nur akzeptieren sondern auch fördern sollten.
Zukünftig werden KI-Nutzungen wahrscheinlich die einfache Onlinerecherche (googeln) ablösen, allein, weil die Browser den KI-Einsatz integrieren, so dass bei einer Anfrage automatisch eine KI-generierte Antwort erfolgt. Deshalb scheint es mir auch nicht sinnvoll von den AutorInnen zu verlangen, dass sie jede KI-Nutzung zitieren sollen. Wir haben bislang auch nicht nachgefragt, für welche Arbeitsteile Internetrecherche genutzt wurde. Erst wenn eine fachliche Aussage oder spezifische Analyse eine Quelle erfordert, sollte diese benannt werden.
Für die KI-Nutzung gilt, ebenso wie für das online Recherchieren, dass man sie unreflektiert, oder reflektiert einsetzen kann. In eine Bewertung sollte deshalb weniger eingehen, ob KI genutzt wurde, sondern wie sie benutzt wurde.
Ein kompetenter KI-Nutzer hievt sich mit seinen KI-Anwendungen für das BUW-Projekt in die Situation eines Teilnehmenden, der einen guten persönlichen Projektberater hat. Soll man deshalb den KI-Einsatz verdammen, während man die menschliche Hilfe toleriert? Eine unreflektierte KI-Nutzung von wenig engagierten Teilnehmenden wird auch zu einem schlechten Ergebnis führen.
Die Hoffnung, dass man zukünftig mit KI-Erkennungssoftware zweifelsfrei arbeiten könnte, sollte man nach Expertenmeinungen begraben. Es wird ein Katz- und Mausspiel, wie bei der Dopingkontrolle geben.