Welcher Artikel ist richtig: Oft ist die/eine andere Hautfarbe oder Nationalität Ursache der Ausgrenzung und Diskriminierung?
[ID: 597424]2
1. Einleitung
Der alltägliche Sprachgebrauch bietet Sprecherinnen und Sprechern eine Vielzahl an Anlässen, um in Zweifel zu geraten. Die wissenschaftliche Relevanz solcher Zweifel rückt seit Kleins (2003a) grundlegendem Papier zu einer systematischen Zweifelsfallsforschung vermehrt in den Fokus (vgl. u.a. Klein 2003b, 2006, 2009; Ágel 2008; Hennig 2009, 2017; Dürscheid 2011; Schmitt / Szczepaniak / Vieregge 2019; Storjohann 2023 etc.). Zweifelnden Sprecherinnen und Sprechern stehen verschiedene Strategien zur Verfügung, um sich Klarheit zu verschaffen: 1. die Konsultation einer (Gebrauchs-)Grammatik (siehe Hennig / Löber 2010 für empirische Grammatikbenutzungsforschung) oder von Werken wie dem Zweifelsfall-Duden (vgl. Hennig 2021), 2. die Nutzung verschiedener professioneller Sprachberatungsangebote (siehe bspw. Bünting / Pospiech 1996; Seelig 2002; Frilling 2005 für deskriptive Auswertungen aus der (telefonischen) Sprachberatungspraxis) und zuletzt 3. die Recherche im Internet (siehe Breindl 2016 für eine Übersicht zu Sprachberatungsressourcen im Web). Letztere führt Zweifelnde zu Informationen verschiedener Institute (etwa zum grammatischen Informationssystem grammis des Leibniz-Instituts für Deutsche Sprache (IDS Mannheim)3, kommerzieller Anbieter (ehemals www.canoonet.eu, jetzt in Teilen abrufbar unter www.leo.org4) oder zu einschlägigen (Unter-)Foren5.
Durch die rasanten Entwicklungen der letzten Jahre im Bereich Large Language Models (LLM) hat sich eine neue Quelle aufgetan, um potenziell grammatische Zweifel auszuräumen: Generative Künstliche Intelligenz (KI) in Form leistungsstarker Chatbots – der wohl bekannteste und in den Medien allgegenwärtige Vertreter davon ist ChatGPT. Über eine intuitiv bedienbare Nutzendenoberfläche verheißen diese Systeme Antworten auf Fragen aus allen Lebensbereichen, generiert von einer Maschine, die auf immensen Textmengen und damit einem kaum abschätzbaren Wissensschatz trainiert wurde. Gegenüber einer Google-Recherche oder gar der Konsultation einer Grammatik in Buchform bieten solche Systeme vermeintlich den Vorteil, dass sie Zweifelnden den Aufwand des Auffindens tatsächlich relevanter Information durch akribische Stichwortnutzung und die Abwägung verschiedener Quellen ersparen. Beispielsweise liefert die Eingabe der Sprachanfrage, die wir unserem Beitrag vorangestellt haben, keine passenden Treffer bei einer Internet-Suchmaschinensuche, wohingegen GPT-4o (das Generative KI-Modell, auf dem zurzeit ChatGPT basiert) eine zur Sprachanfrage passende Antwort generiert. Auf Grund dieser (vermeintlichen) Vorteile könnten Chatbots ein nützliches Hilfsmittel für DaF- / DaZ-Lernende sein, um unkompliziert und schnell an Antworten zu kommen.
In unserem Aufsatz wollen wir deshalb der Frage nachgehen, ob dieser Verheißung entsprechend Generative KI ein geeignetes Hilfsmittel für DaF- / DaZ-Lernende darstellt. Konkret wollen wir überprüfen, ob ChatGPT auf grammatische Fragen inhaltlich korrekte und nützliche Antworten liefert, die sich auf einen für DaF- / DaZ-Lernende notorisch schwierigen Bereich beziehen: den Artikelgebrauch (s. Abschnitt 2.1). Grundlage für diese Untersuchung ist ein Korpus authentischer Fragen aus der sprachinteressierten Öffentlichkeit und die dazugehörigen Antworten von Mitarbeitenden des Sprachberatungsservices eines Verlags. Aus diesem Korpus extrahieren wir Fragen, die für die Zielgruppe der DaF- / DaZ-Lernenden relevant sind, da sie spezifisch den Gebrauch und die Funktion von Artikeln betreffen, und vergleichen KI-generierte Antworten bezüglich inhaltlicher Richtigkeit und Nützlichkeit mit den Antworten der Verlagsmitarbeitenden.
Unser Aufsatz gliedert sich wie folgt: In Abschnitt 2 ordnen wir zum einen den Artikelgebrauch aus der Perspektive von Deutschlernenden als grammatischen Teilbereich unserer Untersuchung ein und erörtern die Möglichkeiten seiner Kategorisierung als Zweifelsfall (s. Abschnitt 2.1). Zum anderen diskutieren wir die Repräsentation einschlägiger Fragen zum Artikelgebrauch im Sprachberatungskorpus (s. Abschnitt 2.2) und geben eine kurze Einführung in für unsere Untersuchung relevante Aspekte Generativer KI (s. Abschnitt 2.3). In Abschnitt 3 stellen wir die Methode unserer Untersuchung vor und gehen dabei auf unsere Leitfragen, das Evaluationsszenario (s. Abschnitt 3.1), das untersuchte Sub-Korpus (s. Abschnitt 3.2) sowie auf die Modalitäten der bewertenden Annotation der Antworten ein (s. Abschnitt 3.3). In Abschnitt 4 präsentieren und diskutieren wir die Ergebnisse unserer Untersuchung, um in Abschnitt 5 ein abschließendes Fazit zu ziehen.
2. Ausgangslage
Die empirische Untersuchung der Frage, ob Generative KI DaF- / DaZ-Lernende bei Zweifelsfällen hinsichtlich des korrekten Artikelgebrauchs kompetent unterstützen kann, erfordert grundlegendes Wissen über die spezifischen linguistischen Problemfälle im Bereich des Artikelgebrauchs einerseits sowie über die Möglichkeiten und Grenzen moderner KI-basierter Ansätze andererseits. Diese Grundlagen werden geschaffen, indem die Problematik des Artikelgebrauchs in diesem Abschnitt aus verschiedenen Perspektiven beleuchtet wird. Dabei wird auf Gründe eingegangen, warum der Artikelgebrauch als ein besonders fehleranfälliger Bereich der deutschen Grammatik gilt, der DaF- / DaZ-Lernende häufig vor erhebliche Schwierigkeiten stellt. Zugleich wird die Verwendung (oder auch Nicht-Verwendung) des Artikels in bestimmten Strukturen als typischer grammatischer Zweifelsfall besprochen, der auch L1-Sprecherinnen und Sprecher betrifft, wie authentische Beispiele für typische Unsicherheiten aus unserem Sprachberatungskorpus belegen. Ergänzend dazu werden relevante Aspekte Generativer KI thematisiert, die für die Untersuchung dieses Themenbereichs von besonderer Bedeutung sind.
2.1 Artikelgebrauch aus der DaF- / DaZ-Perspektive und seine Relevanz als grammatischer Zweifelsfall
Das Deutsche als genusfreundliche, flektierende Sprache verfügt über ein Artikelsystem, das u.a. mit den grammatischen Kategorien Kasus, Numerus und Genus eng verbunden ist. Dieses komplexe System bringt in der Praxis erhebliche Herausforderungen mit sich, insbesondere für Lernende des Deutschen als Fremdsprache.
Potenzielle Schwierigkeiten beim Artikelgebrauch betreffen DaF-Lernende aller Erstsprachen gleichermaßen. Selbst wenn die Ausgangssprache über Kategorien wie Definit- und Indefinitartikel verfügt, wie etwa das Englische, erfordert der korrekte Gebrauch in spezifischen Fällen eine besondere Sensibilisierung6. Anderenfalls können Fehler durch den erstsprachlichen Einfluss oder Übergeneralisierung nicht vermieden werden (vgl. Witwicka-Iwanowska 2012: 10–17). Noch anspruchsvoller gestaltet sich der Erwerb des deutschen Artikelsystems für Sprecherinnen und Sprecher artikelloser Erstsprachen wie z.B. Polnisch, Ukrainisch oder Japanisch. Schließlich fehlt ihnen die Vergleichsbasis zur analogen Verwendung vollständig. Dabei bereiten ihnen die Leistung und Funktion (sowie der genusabhängige Gebrauch des Artikels) in der Regel mehr Schwierigkeiten als seine Flexionsformen, weil letztere systematisch erlernt werden können. Außerdem setzt die korrekte Entscheidung für oder gegen den Einsatz eines Artikels eine hohe Kontextsensibilität voraus. Für kontextsensitive Strukturen mit und ohne Artikel, die in beiden Fällen grammatisch korrekt sind und sich lediglich durch subtile semantische Unterschiede auszeichnen, ist es besonders schwierig, klare und einheitliche Anwendungsregeln zu formulieren (vgl. Pimingsdorfer 2013). Dies könnte u.a. ein Grund dafür sein, warum selbst weit fortgeschrittene DaF-Lernende, die beinahe fehlerfrei Deutsch sprechen, häufig Artikel regelwidrig setzen oder fälschlicherweise auslassen (vgl. Fandrych / Thurmair 2021: 117). Angesichts dieser Herausforderungen wird dem Artikelgebrauch in den verschiedenen Kompetenzstufen des DaF- / DaZ-Unterrichts zu Recht ein hoher Stellenwert beigemessen. Zudem behandeln fast alle von Lipsky (2016) untersuchten Lehrwerke die Artikelfunktionen als eigenständiges Phänomen und grenzen sie klar von der Genusunterscheidung ab.
Fandrych / Thurmair (2021: 113–117) identifizieren u.a. drei zentrale Bereiche, die am häufigsten zu Lernproblemen beim Artikelgebrauch von DaF-Lernenden führen: 1. Artikelwahl, 2. Präposition-Artikel-Verschmelzung und 3. regelwidrige Artikelauslassung:
-
Artikelwahl (= definiter (DEF) vs. indefiniter (INDEF) Artikel): „Die Wahl des passenden Artikels selbst [stellt] ein nicht zu unterschätzendes Lernproblem dar“ (Fandrych / Thurmair 2021: 115), das sich von den typischen grammatischen Artikelfehlern, die durch Genusunsicherheiten oder falsche Flexionsformen infolge von Missachtung der Kasus- und Numerus-Kongruenz ausgelöst werden, unterscheidet. Die korrekte Wahl zwischen einem definiten oder indefiniten Artikel setzt vielmehr die Fähigkeit voraus, die richtige Wahl des Artikels in Abhängigkeit von der gewünschten Lesart zu bestimmen. Hinzu kommen sprachliche Feinheiten wie generische Verwendungen, bei denen sowohl definiter als auch indefiniter Bezug möglich ist (z.B. Der Löwe ist ein Raubtier. Ein Löwe kann nicht für seine Kinder sorgen.) Lernende müssen die Wechselwirkung zwischen sprachlicher Form und inhaltlicher Bedeutung verstehen lernen, um in der Sprachproduktion die beabsichtigte Lesart zu erzielen.
-
Präposition-Artikel-Verschmelzung: Ein weiteres Lernproblem ergibt sich bei der Frage, wann Präposition und Artikel zu einer Verschmelzung (z.B. am, beim, im, vom usw.) zusammengezogen werden müssen. Fandrych / Thurmair (2021) gehen besonders auf die Fälle ein, bei denen verschmolzene und nicht-verschmolzene Formen zu Bedeutungsunterschieden führen. Als Beispiel für den letztgenannten Unterschied besprechen Fandrych / Thurmair (2021: 116) den Beleg aus dem Lernerkorpus FALKO, zit. nach Breindl (2013: 14): „Wahrscheinlich werde ich nicht als Dolmetscherin in dem/im EU-Parlament tätig werden.“, bei dem nur durch die nicht-verschmolzene Form in dem der Bezug auf das aktuell gewählte Parlament möglich ist (im Unterschied zur Institution im Allgemeinen). In solchen Kontexten beeinflusst die Wahl zwischen verschmolzener und nicht-verschmolzener Form den semantischen Gehalt des Satzes erheblich.
-
Artikelauslassung: Die Artikelauslassung betrifft in erster Linie die Entscheidung für oder gegen den Nullartikel. Ähnlich wie bei der Wahl zwischen Definit- und Indefinitartikel hängt die Entscheidung auch in diesem Fall von semantischen und pragmatischen Kriterien ab. Sie erfordert die Fähigkeit, zu erkennen, in welchen Kontexten die Artikellosigkeit zur typischen sprachlichen Norm gehört, wie beispielsweise in bestimmten festen Redewendungen (in Hinblick darauf) oder bei der Verwendung von determinativlosen Nicht-Individuativa in Nominalphrasen im Singular (vgl. Sg-NPs z.B. in [Fett] ist leichter als [Wasser], vgl. Augustin 2017: 213). In vielen anderen Fällen ist die Artikelauslassung im Deutschen ungrammatisch. Der Grund für die fehlerhafte Leistung in diesem Bereich könnte – wie z.B. Lipsky (2016) an vielen Beispielen von L1-Lernenden des Japanischen zeigt – in der Übergeneralisierung und einer unzureichenden Sensibilisierung für pragmatische Aspekte liegen.
Nicht nur für DaF-Lernende, sondern auch für L1-Sprecherinnen und Sprecher des Deutschen ist Artikelgebrauch ein häufiger Anlass für sprachliche Unsicherheiten, die einer differenzierten Betrachtung bedürfen. Sprachliche Zweifelsfälle (in der Definition von Klein 2003a), die häufig durch Sprachwandelprozesse, Sprach- oder Varietätenkontakt ausgelöst werden, dürfen nicht mit sprachlichem Zweifeln gleichgesetzt werden. Entsprechend ist nicht jeder Zweifel eines Lernenden – etwa im Bereich Deutsch als Fremdsprache – zwangsläufig „ein Hinweis auf einen sprachlichen Zweifelsfall“ (Dürscheid 2011: 155). Viele Unsicherheiten von DaF-Lernenden (insbesondere in einem frühen Stadium des DaF-Erwerbs) resultieren häufig aus Unkenntnis von Regeln oder mangelnder Sprachpraxis und sind somit nicht notwendigerweise als ‚Zweifelsfall‘ im Sinne von Klein (2003a, 2009, 2018) und Dürscheid (2011) zu bewerten. Sprachliche (grammatische) Zweifelsfälle hingegen beziehen sich auf systematische (Norm-)Konflikte innerhalb des Sprachsystems, die laut Klein als Situationen definiert werden können, in denen kompetente Sprecherinnen und Sprecher „über verschiedene sprachliche Möglichkeiten (Varianten) nachdenken und sich nicht (einfach) für eine der bewusstwerdenden Möglichkeiten entscheiden können“ (Klein 2009: 142).
Um eine klärende Antwort auf ihre Fragen zu erhalten, suchen viele Zweifelnde, unabhängig davon, ob sie Deutsch als Erst- oder Zweitsprache erworben haben, Unterstützung auch bei Mitarbeitenden von Sprachberatungsstellen. Eine wertvolle Grundlage zur Analyse solcher Anfragen bietet das Sprachberatungskorpus des Projekts „Sprachanfragen“ des IDS Mannheim, das über eine umfangreiche Beleg-Sammlung in Form von Frage-Antwort-Sequenzen verfügt7. Das Korpus ist umfangreich annotiert, nicht aber in Bezug auf personenbezogene Daten, sodass eine systematische Recherche nach Fragen von L1- bzw. DaF-Sprecherinnen und Sprechern nicht möglich ist. Jedoch zeigt die inhaltliche Analyse der Fragen im Sprachberatungskorpus, dass die von Fandrych / Thurmair (2021: 113–117) identifizierten zentralen Bereiche des Artikelgebrauchs im Korpus vertreten sind.
2.2 Artikelgebrauch als Zweifelsfall im Sprachberatungskorpus
Das Sprachberatungskorpus, das als empirische Grundlage für die vorliegende Untersuchung dient, ist inhaltlich heterogen. Aus einer Gesamtdatenbasis von 47.207 Fragen, die von Sprachinteressierten im Zeitraum von 1999 bis 2018 per E-Mail an den Sprachberatungsservice eines Verlags geschickt wurden (vgl. Lang / Schneider / Wöllstein 2023), bilden die Fragen zu Grammatik8 ca. ein Viertel aller Anfragen (12.145 / 47.207). Das für diese Untersuchung zusammengestellte Sub-Korpus basiert auf der vom Verlag verschlagworteten Unterkategorie „Artikel“. Diese umfasst insgesamt 320 Fragen von Sprachinteressierten und dazugehörigen Antworten von Mitarbeitenden einer Sprachberatungsstelle, was ca. 3 % aller Fragen der Oberkategorie „Grammatik“ ausmacht. Der vergleichsweise geringe Anteil dieser Kategorie unterhalb der Oberkategorie „Grammatik“ könnte darauf zurückzuführen sein, dass 1. die Fragen eher ‚echte Zweifelsfälle‘ umfassen, die erwartungsgemäß geringer ausfallen als ‚sprachliches Zweifeln‘; 2. die meisten L1-Sprecherinnen und Sprecher Artikelgebrauch eher intuitiv oder ohne tiefere Reflexion behandeln; 3. die Verschlagwortung der Korpusdaten nur bestimmte Fälle abdeckt, wobei weitere Fragen zum Thema ‚Artikelgebrauch‘ unter einem anderen Schlagwort (wie „Genus“) zu finden sind.
Das Sub-Korpus „Fragen zum Artikelgebrauch“ (N=320) wurde händisch inhaltlich nachannotiert. Zum einen im Hinblick darauf, ob eine Frage eine eindeutige Antwort erlaubt, also in dem Sinne, dass zwischen zwei Varianten nur eine als korrekt gilt (vgl. (1) und (3)) oder beide Varianten gültig sind (vgl. (2)). Zum anderen nach den drei von Fandrych / Thurmair (2021) eingeführten und in Abschnitt 2.1 bereits diskutierten Kategorien. Da die Fragen innerhalb der Grobkategorien kleinere Cluster bilden, wurde zusätzlich eine Feinkategorisierung9 vorgenommen. Diese hatte einen praktischen Nutzen, nämlich die Erstellung eines ausbalancierten Testdatensatzes (s. dazu Abschnitt 3.2).
Da händische Annotationen per se fehleranfällig sind, wurden drei Annotierende herangezogen, um die Klassifizierung unabhängig voneinander vorzunehmen, was sowohl die Zuverlässigkeit der Einteilung erhöht als auch die Fehlerquote minimiert. Bei Uneinigkeit wurden die kritischen Fälle gemeinsam diskutiert und einer Kategorie zugeordnet.
Geordnet nach den drei Bereichen, die Fandrych / Thurmair (2021) als zentral für Lernprobleme beim Artikelgebrauch identifizieren (s. Abschnitt 2.1), werden im Folgenden authentische Beispiele aus unserem Sub-Korpus als Frage-Antwort-Sequenzen präsentiert.
Artikelwahl: Frage nach einer Struktur / Phrase mit einem DEF oder INDEF Artikel
- (1)
- Frage: Wie antwortet man eigentlich auf die Frage, auf die wir oft in den Büchern für Anfänger stoßen, "Was/wer ist das?" Antwortet man: Das ist ein Vater/eine Mutter oder: Das ist der Vater/die Mutter. [ID: 621331]
- Antwort der Sprachberatung: Die Formulierung "Das ist der Vater" zeigt an – aufgrund des bestimmten Artikels "der" –, dass der Vater bereits bekannt ist (d.h. vorher erwähnt worden ist) oder dass hier auf den bekannten Stereotyp 'Familienvater' Bezug genommen wird. Das ist der Vater. = Das ist der Vater, den ich bereits vorher genannt habe. = Das ist der typische Vater, so wie jede Familie einen typischen Vater hat. Die Formulierung "Das ist ein Vater" zeigt an, dass der Vater nicht bekannt ist (d.h. vorher nicht erwähnt worden ist). Das ist ein Vater. = Das ist ein Vater, d.h. die männliche Bezugsperson für die Kinder in dieser Familie; mehr kann man dazu nicht sagen.
Präposition-Artikel-Verschmelzung: Frage nach einer PP, die als Verschmelzung oder ohne Verschmelzung mit oder ohne Artikel auftritt:
- (2)
- Frage: Dustin Hoffman vom Schmerz gebeutelt Oder [sic!] von Schmerz gebeutelt [ID: 591901]
- Antwort der Sprachberatung: Bei einer ganzen Reihe von Verschmelzungen (Kontraktionen wie "von dem" = "vom") konkurriert die verschmolzene Form mit einer artikellosen:
- - im / in Bau befinden
- - im / in Besitz sein
- - vom / von Schmerz gebeutelt
- Es gilt also, dass man generell beides verwenden kann. Allerdings würde man bei einer Überschrift oder Ähnlichem sicherlich "vom" erwarten, da der verschmolzene Artikel in "vom" also "von dem" impliziert, dass im Text genau erläutert wird, um welche Art von Schmerz es sich handelt. Stilistisch hört sich "Dustin Hoffmann von Schmerz gebeutelt" unseres Erachtens weniger gut an (bzw. vielleicht zu "gewählt"). Aber das ist sicher Geschmackssache. Besser wäre es dann, "Schmerz" in den Plural zu setzen: Dustin Hoffmann von Schmerzen gebeutelt. Letztlich steht Ihnen die Entscheidung aber frei.
Artikelauslassung: Frage nach einer Struktur / Phrase MIT oder OHNE Artikel:
- (3)
- Frage: Welche Regeln bestimmen hier die Wahl des Artikels? Ist dieser Satz ohne Artikel in Ordnung? Was war Reichskristallnacht und was passierte in dieser Nacht? oder Was war die Reichskristallnacht und was passierte in dieser Nacht? [ID: 624433]
- Antwort der Sprachberatung: "Reichskristallnacht" wird mit dem bestimmten Artikel gebraucht: die Reichskristallnacht
Die nachfolgende Abbildung 1 visualisiert die prozentuale Verteilung der drei genannten Kategorien in den 320 Belegen des Sub-Korpus und verdeutlicht die Gewichtung der einzelnen Bereiche.
Die Auswertung der Korpusdaten verdeutlicht, dass die von Fandrych / Thurmair (2021) identifizierten zentralen Problemfelder im Bereich DaF auch im Bereich grammatische Zweifelsfälle eine zentrale Rolle spielen. Wie bereits erwähnt, ist es aufgrund nicht vorhandener Metadaten nicht möglich, Fragende in unserem Korpus als DaF-Lernende zu identifizieren. Daher können wir nicht ausschließen, dass die Fragen zum Artikelgebrauch zum Teil auch von L1-Sprecherinnen und Sprechern stammen. Es fällt aber dennoch auf, dass die Fragen zur ‚Präposition-Artikel-Verschmelzung‘ mit einem Anteil von 41,0 % die häufigste Kategorie darstellen. Dies kann zumindest als Hinweis dafür gelten, dass dieser Bereich eine zentrale Herausforderung auch für DaF- / DaZ-Lernende darstellt. Ebenso markant ist die Kategorie ‚Artikelauslassung‘, die mit 37 % einen bedeutenden Anteil ausmacht und zeigt, dass das Auslassen von Artikeln ein ebenso häufiges Problemfeld darstellt. Die Kategorie ‚Artikelwahl‘ spielt mit 3 % im untersuchten Korpus eine untergeordnete Rolle10. Dennoch ist sie aufgrund ihrer Regelhaftigkeit und ihres Beitrags zu grammatischen Schwierigkeiten nicht zu vernachlässigen (vgl. Ergebnisse einer experimentellen Studie zum Erwerb von definiten und indefiniten Artikeln bei L1- und DaF- / DaZ-Sprecherinnen und Sprechern in Ose / Schulz 2010). Der Bereich ‚Sonstiges‘ macht 19 % aus und umfasst verschiedene Phänomene, die nicht den drei zentralen Problemfeldern zuzuordnen sind11. Diese wurden für die Zwecke der vorliegenden Studie außer Acht gelassen.
2.3 Generative KI für automatisches Beantworten von Fragen
In der Bandbreite möglicher Anwendungen (siehe bspw. Hariri 2023 für eine umfassende Darstellung der Potenziale von ChatGPT) Generativer KI ist das automatische Beantworten von Fragen durch Chatbots eine sehr naheliegende. Auch für den Bildungssektor – beispielsweise beim Erlernen einer Fremdsprache – scheint ein Einsatz auf den ersten Blick vielversprechend. Ein (produktiver) Einsatz Generativer KI zur automatischen Fragebeantwortung setzt generell, im Bildungssektor jedoch im Speziellen, zwingend voraus, dass die generierten Inhalte fachlich korrekt sein müssen12. Dieser Anforderung jedoch steht das in der Literatur für Generative KI beschriebene Phänomen der „Halluzinationen“ entgegen (vgl. bspw. Maynez et al. 2020; Dziri et al. 2021; umfassend Ji et al. 2023). Und obwohl das Potenzial moderner Sprachmodelle beeindruckend ist (beispielhaft dafür ist das – wenn auch umstrittene – Bestehen der Prüfung der amerikanischen Bar Association durch ChatGPT, siehe Bang et al. 2023), so wird auch für diese leistungsstarken Modelle das Phänomen der Halluzinationen beschrieben (siehe bspw. Bang et al. 2023; Mao et al. 2024 geben eine umfangreiche Übersicht über Evaluationsstudien von ChatGPT / GPT-4).
Ji et al. (2023: 4) definieren in ihrer umfassenden Darstellung des Phänomens Halluzinationen allgemein als die Erzeugung nicht wahrheitsgemäßer oder unsinniger Texte. Sie stellen eine differenzierte Klassifizierung von Halluzinationstypen in verschiedenen Anwendungen unterschiedlicher Generativer Sprachmodelle dar. Für den Bereich des automatischen Beantwortens von Fragen durch eine Generative KI bezeichnen Ji et al. (2023: 24) Halluzinationen als eine der größten Herausforderungen.
Diese Herausforderung wiegt bei einem Einsatz im Bildungssektor besonders schwer. Schließlich handelt es sich bei den Nutzenden um keine Expertinnen und Experten, die über das notwendige Fachwissen verfügen, um die fachliche Korrektheit einer Antwort einschätzen zu können. Tu (2023) untersucht in einer Pilotstudie die Beantwortung von Fragen zur Kommasetzung durch ChatGPT-3.5 und kommt zu dem Ergebnis, dass in vielen Fällen die generierten Antworten durch entsprechende Strukturierung und den Einsatz von (vermeintlicher) Terminologie zwar das Gewand einer Expertenantwort aufweisen, jedoch nicht die Substanz. Die Konsequenz davon sind überzeugend aussehende, jedoch inhaltlich lückenhafte oder gar falsche Antworten.
Der Gegenstand unserer Untersuchung, die Beantwortung authentischer Fragen zu einem Teilbereich deutscher Grammatik, erscheint aus zweierlei Gründen besonders vielversprechend: 1. Bereiche, von denen anzunehmen ist, dass diese in den Trainingsdaten der Sprachmodelle unterrepräsentiert sind, scheinen besonders anfällig für Halluzinationen (vgl. Ji et al. 2023: 36); 2. Die Fragen zielen nicht auf die Wiedergabe enzyklopädischen Wissens (im Sinne „Was ist die Hauptstadt von Italien? – Rom.“), sondern sind vielmehr Transferaufgaben, in denen Regelmäßigkeiten deutscher Grammatik auf konkrete Inhalte angewendet werden müssen – und zwar in einem Bereich, in dem Kontextsensitivität sowie subtile pragmatische Faktoren entscheidend sind, wie in Abschnitt 2.1 ausgeführt wurde.
3. Untersuchung und Methode
Um die titelgebende Frage unseres Beitrags, „Ist Generative KI ein geeignetes Hilfsmittel für DaF- / DaZ-Lernende?“, zu eruieren, untersuchen wir die Qualität automatisch generierter Antworten auf authentische Fragen zum Artikelgebrauch (s. Abschnitt 2.1 und 2.2) anhand der folgenden Leitfragen:
-
1. Sind die Antworten aus der Perspektive von Grammatikexperten inhaltlich korrekt?
-
a. Werden Fragen häufiger korrekt beantwortet, wenn sie eindeutig beantwortbar sind, d.h., wenn keine Varianten bestehen?
-
2. Sind die Antworten aus der Perspektive von DaF-Lehrenden hilfreich?
Leitfrage 1 motiviert sich aus den Ausführungen zu Halluzinationen in Abschnitt 2.3, Leitfrage 2 gründet in dem Umstand, dass wir Generative KI als Hilfsmittel nicht für Expertinnen und Experten, sondern für DaF-Lernende evaluieren. Auch wenn beide Fragen auf den ersten Blick in dieselbe Richtung zu korrelieren scheinen, muss dies nicht notwendigerweise der Fall sein. Zwar liegt nahe, anzunehmen, dass fachlich korrekte Antworten auch hilfreich sind. Jedoch ist beispielsweise auch vorstellbar, dass der Umfang und die Komplexität einer fachlich vollständigen Antwort mit dem wahrgenommenen Nutzen derselben aus der Perspektive der Fragenden kollidiert. Daraus ergibt sich die weiterführende Frage:
-
3. Hängen inhaltliche Korrektheit und wahrgenommene Nützlichkeit einer Antwort zusammen?
Wir gehen bei allen Forschungsfragen vergleichend vor und ziehen als Maßstab Antworten des Sprachberatungsservices heran, aus dessen Beständen unsere Datenbasis besteht (s. Abschnitt 2.2).
3.1 Evaluationsszenario und evaluierte KI
Das übergeordnete Erkenntnisinteresse unserer Untersuchung besteht in der Evaluation automatisch generierter Antworten auf Grammatikfragen in einem möglichst alltagsnahen Szenario. Folglich ist es nicht das Ziel, generell zu evaluieren, ob ein Sprachmodell korrekte Informationen zu einem grammatischen Thema generieren kann (siehe dazu Lang / Schneider / Tu 2024). Wir nehmen daher die Perspektive von Nutzenden ein, die einen konkreten sprachbezogenen Zweifel mithilfe eines Chatbots ausräumen wollen und nicht am Sprachmodell selbst interessiert sind und / oder über entsprechendes Hintergrundwissen verfügen, um beispielsweise ihre Frage so zu formulieren, dass eine korrekt generierte Antwort wahrscheinlicher ist.
Die Annahme eines möglichst alltagsnahen Szenarios beeinflusst die Wahl des zu evaluierenden Sprachmodells sowie dessen konkrete Anwendung. Basierend auf der stetig ansteigenden Anzahl von Nutzenden weltweit13 und der medialen Omnipräsenz des Produktes ist die Annahme plausibel, dass für die von uns angenommene Zielgruppe ChatGPT die erste Anlaufstation für eine Interaktion mit einem Chatbot ist14. Zur Evaluation verwenden wir die frei zugängliche Weboberfläche von ChatGPT (https://chatgpt.com) und keine Programmierschnittstelle (API). Ebenso belassen wir alle Hyperparameter in ihrem Standardzustand, jedoch unterbinden wir durch eine entsprechende Einstellung, dass die gestellten Fragen zum weiteren Training des Modells verwendet werden. Zuletzt fungieren (bei 8 Fragen aufgrund sensibler Daten leicht angepasste) authentische Fragen (s. Abschnitt 2.1 und Abschnitt 3.2) als User-Eingabe (Prompt) für die Interaktion mit dem Chatbot. Im Sinne eines authentischen Evaluationsszenarios optimieren wir die Prompts nicht, obwohl uns bewusst ist, dass die Qualität der Antworten auch von der User-Eingabe abhängt (siehe bspw. Mao et al. 2024: 7844 zur Wichtigkeit von „Prompt Engineering“, also der Anpassung der User-Eingabe). Jede Frage wird nur einmal gestellt, auch in dem Wissen, dass die Antworten bei mehrfacher Generierung im Detail aufgrund der nicht-deterministischen Funktionsweise Generativer Sprachmodelle voneinander abweichen können.
Wir evaluieren ChatGPT mit GPT-4o. Nicht bezahlenden Nutzenden steht dieses Modell (zurzeit) nur für ein limitiertes Kontingent an Fragen pro Zeitraum zur Verfügung, danach wird zur Antwortgenerierung das ältere Modell GPT-3.5 herangezogen. Da wir in unserem Evaluationsszenario davon ausgehen, dass Nutzende einen konkreten sprachlichen Zweifel auflösen wollen, scheint uns das Frei-Kontingent an Generierung mit GPT-4o ausreichend.
3.2 Zusammenstellung des Testdatensatzes
Zur Evaluation wurden aus dem in Abschnitt 2.2 beschriebenen Sub-Korpus „Fragen zum Artikelgebrauch“ 100 Fragen und dazu gehörige Antworten ausgewählt. Die Auswahl der Fragen erfolgte kontrolliert randomisiert, durch zufällige Ziehung von 10 Datenpunkten pro Feinkategorie innerhalb der thematischen Hauptbereiche nach Fandrych / Thurmair (2021). Die Auswahl nach Feinkategorien (s. Abschnitt 2.2) hatte den Zweck, eine möglichst große thematische Bandbreite mit Bezug zu den typischen Fragen und Problemen im Bereich DaF mit ausgewogen vielen Fragen zu den einzelnen Themenbereichen zu erzeugen. Einen nach thematischen Hauptbereichen balancierten Testdatensatz mit ausreichend Fragen zu erstellen, ist aufgrund der ungleichen Verteilung der Hauptbereiche im Sub-Korpus „Fragen zum Artikelgebrauch“ nicht möglich (so finden sich nur 10 Datenpunkte des Hauptbereiches „Artikelauswahl“ im Sub-Korpus)15.
Die Fragen wurden weitestgehend in ihrem Originalzustand belassen, in 8 Fällen mussten aus datenschutzrechtlichen Gründen kleinere Änderungen vorgenommen werden.
Tabelle 1 illustriert einen Datenpunkt aus den 100 zusammengestellten Frage | Antwort (Mensch) | Antwort (Maschine)-Kombinationen, die Grammatikexperten und DaF-Lehrenden zur Bewertung vorgelegt wurden.
Beispielhafter Datenpunkt bestehend aus authentischer Frage und Antwort aus dem Sub-Korpus „Fragen zum Artikelgebrauch“ (s. Abschnitt 2.2) sowie der durch GPT-4o automatisch generierten Antwort
| Frage16 | Antwort 1 (Sprachberatung) | Antwort 2 (ChatGPT-4o) |
| ich habe mich sogar verwirrt, war das Frauen- oder Maennerstimme?. Ist der Satz korrekt? Oder fehlt hier Artikel /die/ (also: …war das die Frauen- oder Maennerstimme)? [ID: 613727] |
Ja, hier fehlt ein Artikel. Je nach Kontext eben der unbestimmt [sic!] oder der bestimmte Artikel. Gehen wir davon aus, dass zuvor keine Frau erwähnt wurde, so ist die Verwendung des unbestimmten Artikels („eine“) korrekt: - Ich war sehr verwirrt. War das eine Frauen- oder eine Männerstimme? |
Der Satz „ich habe mich sogar verwirrt, war das Frauen- oder Maennerstimme?“ ist fast korrekt, aber es fehlt tatsächlich der bestimmte Artikel „die“. Die korrekte Formulierung wäre: „Ich habe mich sogar verwirrt, war das die Frauen- oder Männerstimme?“ Hier sind die Änderungen im Detail: Artikel: „die“ (bestimmter Artikel für „Frauenstimme“ und „Männerstimme“). Männerstimme: korrekte Schreibweise von „Maennerstimme“ ist „Männerstimme“, da im Deutschen das ä üblicherweise als ae ersetzt wird, wenn die Umlaute nicht verfügbar sind. |
3.3 Bewertungsverfahren durch Grammatikexperten und DaF-Lehrende
Grundlage für die Evaluation der Antwortqualität ist eine Bewertungsannotation durch menschliche Expertinnen und Experten. Auch wenn Methoden zur automatischen Evaluation existieren, spielt das Urteil menschlicher Expertinnen und Experten bei der Evaluation Generativer KI im Bereich automatischer Fragenbeantwortung eine zentrale Rolle (vgl. bspw. Ji et al. 2023: 36)17. Dies gilt umso mehr im Fall unserer Untersuchung, da zum einen Fachinhalte zu (komplexen) grammatischen Themen erfragt werden, wofür unseres Wissens (bisher) noch keine geeignete Methode der automatischen Überprüfung vorliegt. Zum anderen sollen auch subjektive Einschätzungen („Wie hilfreich findest du die Antwort?“) erfragt werden.
Die beiden Leitfragen werden durch zwei separate Gruppen abgedeckt: 1. Grammatikexperten, die einschlägig zum Thema „Artikel“ im Deutschen geforscht und publiziert haben, und 2. DaF-Lehrende mit langjähriger Unterrichtserfahrung. Beide Gruppen bestehen aus jeweils drei Expertinnen und Experten18. Ihnen wurde nicht mitgeteilt, aus welchen Quellen die Antworten stammen und damit auch nicht, dass eine Antwort KI-generiert ist.
Zur Bewertung erhielten die Expertinnen und Experten der beiden Gruppen die in Abschnitt 3.2 beschriebenen 100 Datenpunkte in Form einer Tabelle. Jede Zeile der Tabelle enthält eine Frage und sowohl die dazugehörige Antwort des Sprachberatungsservices als auch die von ChatGPT generierte. Die Reihenfolge von Sprachberatungsservice- und ChatGPT-Antwort wurde zeilenweise randomisiert, die Antworten aus den beiden Quellen formal angeglichen und etwaige Produktplatzierungen in den Antworten des Sprachberatungsservices entfernt. Diese Vorkehrungen wurden getroffen, um mögliche subjektive Neigungen zu verhindern, die daraus resultieren könnten, wenn die Bewertenden Antworten aus einer bestimmten Quelle vermuten.
Die Bewertung der beiden Antworten erfolgte in zwei Schritten: Im ersten Schritt bewerteten die Expertinnen und Experten die Antworten anhand der je nach Gruppe zentralen Frage: „Ist diese Antwort korrekt?“ (Expertengruppe: „Grammatikexperten“) bzw. „Ist die Antwort hilfreich“ (Experten-Gruppe: „DaF-Lehrende“). Die Bewertung erfolgte jeweils mittels Drop-Down-Liste, wobei zwischen den Alternativen „ja“, „nein“, „teilweise“ gewählt werden konnte. Wurde in Schritt 1 die Bewertung „teilweise“ oder „nein“ abgegeben, wurde in Schritt 2 nach der Begründung für die Bewertung aus Schritt 1 erfragt. Hierbei konnten die Bewertenden aus jeweils 7 Begründungen in einer Drop-Down-Liste auswählen, wobei Mehrfachnennungen möglich waren. Die Auswahl an möglichen Begründungen unterscheidet sich für beide Gruppen (s. Abbildung 2). Schließlich konnten die Bewertenden in einem Freitextfeld Kommentare hinterlassen. Wurde in Schritt 2 ‚Sonstiges‘ ausgewählt, wurde um eine Begründung in diesem Freitextfeld gebeten; das Freitextfeld stand darüber hinaus auch für alle anderen Arten von Kommentaren offen.
Den Bewertenden wurden ausführliche Richtlinien zur Verfügung gestellt, in dem die Bewertungsauswahl expliziert wurde; das vollständige Annotationsschema ist dieser Arbeit als Anhang beigefügt.
4. Auswertungen
Auch wenn den Bewertenden beider Expertengruppen Richtlinien zur Orientierung vorlagen, lässt sich ein subjektives Element in den Bewertungen nicht ausschließen. Das gilt insbesondere für die Frage nach dem Nutzen einer Antwort („Ist die Antwort hilfreich?“); aber auch die Bewertung inhaltlicher Richtigkeit („Ist die Antwort korrekt?“) kann im Einzelfall von verschiedenen fachlichen Referenzrahmen und den daraus resultierenden Sichtweisen abhängig sein. Schließlich handelt es sich bei einigen Fragen um Zweifelsfälle, die nicht immer eindeutig entscheidbar sind (s. illustrierend dazu (4) in Abschnitt 4.1). Aus diesem Grund ist es wichtig, die Übereinstimmung der Bewertenden zu ermitteln, um die quantitativen Auswertungen in Perspektive zu rücken. In Abschnitt 4.1 berechnen und berichten wir daher zunächst für beide Expertengruppen das Inter-Annotator-Agreement und motivieren darauf basierend die Datengrundlage für die weiteren Untersuchungen (Abschnitt 4.2), die in Abschnitt 4.3 präsentiert werden.
4.1 Inter-Annotator-Agreement
Abbildung 3 (Sprachberatungsdaten) und Abbildung 4 (GPT-4o-Daten) zeigen jeweils die paarweisen absoluten Übereinstimmungen zwischen den Annotationen der Grammatikexperten (GE) für die Frage „Ist die Antwort korrekt?“. Es ist ersichtlich, dass die Übereinstimmungen sowohl bei den Sprachberatungs- als auch bei den GPT-4o-Antworten bei keinem der Annotierendenpaare besonders hoch sind.
Auffällig ist, dass zwei Annotierendenpaare eine höhere Übereinstimmung bei den Sprachberatungsdaten haben als bei den GPT-4o-Daten (GE1-GE2 und GE2-GE-3). Nur das Annotierendenpaar GE1-GE3 hat eine höhere Übereinstimmung bei den GPT-4o-Daten als bei den Sprachberatungsdaten. In diesem Fall ist jedoch die Differenz zwischen den Übereinstimmungen und den Nicht-Übereinstimmungen nicht so hoch. Aus diesen Beobachtungen lässt sich ableiten, dass sich die Grammatikexperten bei der Annotation der Sprachberatungsdaten eher einig sind als bei den GPT-4o-Daten. Es zeigt sich nicht, dass die hohe Nicht-Übereinstimmung auf die Annotationen eines bestimmten Grammatikexperten zurückzuführen ist. Bei 10 / 100 Antworten der Sprachberatung und bei 12 / 100 Antworten von GPT-4o gehen die Bewertungen der Grammatikexperten besonders stark auseinander: Alle drei vergeben bei diesen Antworten jeweils eine andere Bewertung (korrekt, teilweise korrekt, nicht korrekt). Ein exemplarischer Fall, der diese Diskrepanzen in der Bewertung der Richtigkeit der GPT-4o-Antworten verdeutlicht und dadurch einen Einblick in die Hintergründe der Uneinigkeit zwischen den Bewertenden geben kann, ist (4).
- (4)
- Frage: Können Sie mir sagen, welche Variante korrekt ist. Wir sind total verunsichert… Variante 1 …, dass Weihnachten vor der Türe steht und sich das Jahr langsam zu Ende neigt. Variante 2 …, dass Weihnachten vor der Türe steht und sich das Jahr langsam zum Ende neigt.
- Antwort der Sprachberatung: In der Wendung „sich zum Ende neige“" steht der bestimmte Artikel. Korrekt ist also: – …, dass Weihnachten vor der Türe steht und sich das Jahr langsam zum Ende neigt.
- Antwort von ChatGPT: Beide Varianten sind grammatikalisch korrekt, aber Variante 2 ist stilistisch üblicher: Variante 2: „…, dass Weihnachten vor der Türe steht und sich das Jahr langsam zum Ende neigt.“ Der Ausdruck „sich zum Ende neigen“ ist idiomatisch und wird im Deutschen häufiger verwendet.
In der Gruppe der DaF-Lehrenden zeigt sich hinsichtlich des ermittelten Inter-Annotator-Agreements ein ähnliches Bild wie bei den Grammatikexperten: Abbildung 5 (Sprachberatungsdaten) und Abbildung 6 (GPT-4o-Daten) zeigen jeweils die paarweisen Übereinstimmungen zwischen den DaF-Lehrenden bei der Annotation im Hinblick auf die Frage „Ist die Antwort hilfreich?“.
Wie bei der Auswertung des Inter-Annotator-Agreements der Grammatikexperten zeigt sich auch hier, dass die Übereinstimmungen bei beiden Datenquellen bei keinem der Annotierendenpaare besonders hoch sind. Auffällig ist, dass die Annotationen von DaFL2 bei den GPT-4o-Daten eher mit denen von DaFL1 und DaFL3 übereinstimmen als die Annotationen von DaFL1 und DaFL3 miteinander. Bei den Bewertungen der Antworten des Sprachberatungsservices ist dieser Trend nicht zu beobachten.
Eine Betrachtung der im Freitextfeld eingetragenen Kommentare der Bewertenden gibt weitere Einblicke in mögliche Ursachen der Uneinigkeit unter den Bewertenden19. Die Auswertung der Freitextfelder aller drei Grammatikexperten deutet darauf hin, dass sie sich bei der Bewertung der inhaltlichen Korrektheit der Antworten auf ihre eigene Sprachkompetenz berufen haben, z.B. Es handelt sich m.E. nur um eine zulässige/präferierte Variante; Ich kann mich aber irren; Meiner Einschätzung nach). Dies ist konsistent mit dem in Abschnitt 2.2 beschriebenen Umstand, dass im Bereich der Artikelverwendung zum Teil subtile semantische und pragmatische Faktoren entscheidend sind. Zusätzlich weisen Freitextfeldkommentare vereinzelt in Form von Literaturverweisen (vgl. dazu rezente Arbeiten von T. Kiss) darauf hin, dass Unterschiede bezüglich des fachlichen Bezugsrahmens unter den Bewertenden existieren. Der Rückgriff auf die eigene „Sprachintuition“ sowie auf den unterschiedlichen fachlichen Bezugsrahmen können zwei mögliche Begründungen dafür sein, weshalb das Inter-Annotator-Agreement zwischen den Annotierenden niedrig ist.
Im Falle der DaF-Lehrenden wird in den Kommentaren auf verschiedene formale Kriterien verwiesen: Antworten (KI-generierte wie solche des Sprachberatungsservices) wurden als zu ausführlich und damit schwer verständlich kritisiert. Verweise auf das „Sprachgefühl“ in den Antworten wurden als problematisch herausgestellt, da DaF-Lernende nicht unbedingt bereits ein „Sprachgefühl“ entwickelt hätten. Außerdem wurde darauf hingewiesen, dass Formulierungen wie „Wir vermuten Folgendes […],“ mit der Erwartungshaltung von DaF-Lernenden kollidieren, die eher eindeutige Antworten bevorzugen.
Weiterführende Analysen der Nicht-Übereinstimmungen nach gewählter Bewertung der Korrektheit („ja“, „nein“, „teilweise“), Thema (s. Abschnitt 2.1) oder der Eindeutigkeit der Antwort (Liegt eine Variante für die Frage des Artikelgebrauchs vor?) zeigen für beide Bewertendengruppen keine Ausreißer, sodass die Uneinigkeit nicht auf einen konkreten Faktor zurückgeführt werden kann.
4.2 Mehrheitliche Übereinstimmung
Im vorangegangenen Abschnitt wurde aufgezeigt, dass die Übereinstimmungen unter den Annotierendenpaaren nicht sehr hoch ist. Betrachtet man jedoch die mehrheitliche Übereinstimmung innerhalb der jeweiligen Annotierendengruppen (Grammatikexperten und DaF-Lehrenden), d.h. prüft man, ob mindestens zwei der drei Annotierenden die gleiche Bewertung für die jeweilige zentrale Frage („Ist die Antwort korrekt?“ bzw. „Ist die Antwort hilfreich?“) vergeben haben, zeigt sich eine sehr hohe mehrheitliche Übereinstimmung für beide Annotierendengruppen und Datenquellen: Die Grammatikexperten vergeben bei den Sprachberatungsdaten nur bei 10 Antworten und bei den GPT-4o-Daten nur bei 12 Antworten (von insgesamt jeweils 100) drei verschiedene Bewertungen, sodass keine mehrheitliche Übereinstimmung feststellbar ist (vgl. Abbildung 7 und Abbildung 8).
Die DaF-Lehrenden vergeben bei den Sprachberatungsdaten nur bei 13 Antworten und bei den GPT-4o-Daten nur bei 16 Antworten (von insgesamt jeweils 100) verschiedene Bewertungen (vgl. Abbildung 9 und Abbildung 10).
Zusammengefasst lässt sich also sagen, dass die Übereinstimmungen zwischen den Annotierendenpaaren zwar jeweils nicht so hoch sind, die mehrheitliche Übereinstimmung innerhalb einer Annotierendengruppe hingegen schon. Die nachfolgenden Analysen basieren, sofern nicht anders angegeben, auf Mehrheitsbewertungen. Das bedeutet: Antworten, die von zwei der drei Bewertenden als korrekt / hilfreich eingestuft wurden, werden als korrekt / hilfreich gewertet, Antworten, die von zwei der drei Bewertenden als teilweise korrekt / teilweise hilfreich eingestuft wurden, werden als teilweise korrekt / teilweise hilfreich gewertet und Antworten, die von zwei der drei Bewertenden als nicht korrekt / nicht hilfreich eingestuft wurden, werden als nicht korrekt / nicht hilfreich gewertet. Auf diese Weise werden die drei abgegebenen Bewertungen pro Antwort auf eine Bewertung aggregiert. Pro Annotierendengruppe liegen folglich jeweils für die Sprachberatungsantworten und die ChatGPT-Antworten 100 Bewertungen (eine pro Antwort) vor.
4.3 Analysen
In diesem Abschnitt werden die mehrheitlichen Annotationen20 zunächst quantitativ ausgewertet und analysiert.
Leitfrage 1: Sind die Antworten aus der Perspektive von Grammatikexperten inhaltlich korrekt?
Abbildung 11 (Sprachberatung) und Abbildung 12 (GPT-4o) zeigen die Anzahl an Fragen pro Mehrheitsbewertung der Grammatikexperten, zudem wird die Anzahl der Fragen ausgewiesen, für die keine Mehrheitsbewertung feststellbar ist („keine Übereinstimmung“). Aus den Abbildungen geht hervor, dass im Fall der Sprachberatungsantworten die Anzahl der mehrheitlich als vollständig korrekt bewerteten Antworten nahezu doppelt so hoch ist wie im Fall der GPT-4o-Antworten. Ebenfalls sehr deutlich ist der Unterschied zwischen den Datenquellen im Fall der Antworten, die mehrheitlich als nicht korrekt bewertet wurden: Während die Antworten der Sprachberatung nur in sehr wenigen Fällen als mehrheitlich inkorrekt bewertet wurden und diese Kategorie die mit Abstand kleinste ist, liegt die Anzahl der als mehrheitlich inkorrekt bewerteten GPT-4o-Antworten ca. sechsfach so hoch. Die Anzahl der als mehrheitlich teilweise korrekt bewerteten Antworten ist bei beiden Datenquellen ähnlich hoch. Aus diesen Ergebnissen lässt sich ableiten, dass 1. im Fall der Sprachberatungsdaten die überwiegende Anzahl der Antworten als mehrheitlich vollständig oder teilweise korrekt bewertet wurden, während 2. ein Großteil der Antworten von GPT-4o auf Fragen zum Artikelgebrauch in der Einschätzung der Grammatikexperten mehrheitlich nicht bzw. nicht vollständig korrekt sind.
Im Mosaikplot in Abbildung 13 repräsentiert die Höhe der Rechtecke die Anzahl der Datenpunkte pro Datenquelle, die Breite der Rechtecke repräsentiert die Anzahl der Datenpunkte pro Antwortmöglichkeit21. Die Darstellung zeigt, dass es einen statistisch signifikanten Zusammenhang zwischen den Variablen „Datenquelle“ und „Bewertung der Antwort“ gibt (χ2 = 28,41; p = 6,7741e-07 < 0,001; Cramer’s V = 0,39). Die Frage „Ist die Antwort korrekt?“ wird für die Sprachberatungsantworten häufiger mit „ja“ und für die GPT-4o-Antworten weniger häufig mit „ja“ beantwortet, als dies erwartbar wäre. Komplementär wird die Antwort „nein“ für die Sprachberatungsantworten weniger häufig und für die GPT-4o-Antworten häufiger vergeben als dies erwartbar wäre.
Bewertungsbegründungen
Gemäß Annotationsrichtlinien (s. Abbildung 2) wählen die Annotierenden aus einer vordefinierten Menge eine Begründung aus, wenn sie eine Antwort als „teilweise korrekt“ oder „nicht korrekt“ bewertet haben. Um die ausgewählten Begründungen auszuwerten, wurde pro Begründung ermittelt, wie häufig diese kumuliert von allen Annotierenden einer Annotierendengruppe je Datenquelle vergeben wurde. Dadurch ergeben sich insgesamt 132 vergebene Begründungen für die Sprachberatungsantworten und 228 für die GPT-4o-Antworten. Um eine Vergleichbarkeit zwischen den Datenquellen herstellen zu können, wird die relative Häufigkeit der jeweiligen Begründung dargestellt.
Abbildung 14 zeigt die relative Häufigkeit der Begründungen pro Datenquelle. Es ist zu erkennen, dass die häufigste Ursache für teilweise oder nicht korrekte Antworten bei beiden Datenquellen in einer als falsch eingeschätzten Argumentation liegt. Der augenfälligste Unterschied zwischen den Bewertungsbegründungen der beiden Datenquellen liegt darin, dass bei den GPT-4o-Antworten mehr als doppelt so häufig die Begründung vergeben wurde, dass eine richtige Alternative fälschlicherweise als nicht erlaubt aufgeführt wurde (violette Färbung).
Ein Chi-Quadrat-Test mit einem auf einer Monte-Carlo-Simulation basierten p-Wert zeigt eine signifikante Abweichung der beobachteten von den erwarteten Häufigkeiten an (χ2 = 18,474; p = 0,005497 < 0,01; Cramer’s V = 0,19). Eine Analyse der Pearson-Residuen zeigt, dass insbesondere Kategorie 5 „RICHTIGE ALTERNATIVEN fälschlicherweise nicht erlaubt“ für diese Abweichung verantwortlich ist. Die Sprachberatungsantworten sind hier unterrepräsentiert (Residuum = -2,63809801), die durch GPT-4o generierten Antworten hingegen überrepräsentiert (Residuum = 2,00729161), siehe Tabelle 2.
Residuen des Chi Quadrat Tests zum Zusammenhang von Begründungen bei nicht als vollständig korrekt klassifizierten Antworten und der Datenquelle
| Begründung | Datenquelle | |
| Sprachberatung | GPT-4o | |
| 1: ARGUMENTATION / BEGRÜNDUNG falsch und irreführend | 0,33713072 | -0,25651801 |
| 2: BEISPIELSÄTZE falsch | 0,17407766 | -0,13245324 |
| 3: FALSCHE ALTERNATIVEN erlaubt | 1,53753541 | -1,16988903 |
| 4: Nicht auf alle ASPEKTE der Frage eingegangen | 1,12117117 | -0,85308335 |
| 5: RICHTIGE ALTERNATIVEN fälschlicherweise nicht erlaubt | -2,63809801 | 2,00729161 |
| 6: SONSTIGES | 0,98473193 | -0,74926865 |
| 7: THEMA verfehlt | 0,07784989 | -0,05923489 |
Weiterführende Frage 1a: Werden Fragen häufiger korrekt beantwortet, wenn sie eindeutig beantwortbar sind, d.h., wenn keine Varianten bestehen?
Zur Überprüfung der weiterführenden Frage 1a wurde eine logistische Regression gerechnet22. Hierbei wurde der Einfluss der Interaktion der unabhängigen Variablen „Frage eindeutig beantwortbar“ und „Datenquelle“ auf die abhängige Variable „Einschätzung einer Antwort als korrekt“ (Antwortlabel „ja“ vs. zusammengefasstes Antwortlabel „nicht ja“) untersucht. Es wurde jede abgegebene Bewertung durch die Annotierenden berücksichtigt (d.h. nicht mit Mehrheitsbewertungen gerechnet).
Abbildung 1523 und Tabelle 3 zeigen einen statistisch signifikanten Effekt für „Datenquelle“ (p = 0.00198 < 0,01) dergestalt, dass die Grammatikexperten die Sprachberatungsantworten als signifikant häufiger korrekt einschätzen als die KI-generierten Antworten (siehe Ausführungen zu Abbildung 11 bis Abbildung 13). Kein Einfluss ist jedoch für „Frage eindeutig beantwortbar“ oder die Interaktion zwischen „Datenquelle“ und „Frage eindeutig beantwortbar“ festzustellen.
Koeffizienten der logistischen Regression zur Überprüfung der Abhängigkeit von „Einschätzung einer Antwort als korrekt“ von „Datenquelle“ und „Frage eindeutig beantwortbar“
| Koeffizient | Std. Fehler | z Wert | p Wert | |
| (Intercept) | -0.3604 | 0.1790 | -2.014 | 0.04400* |
| Regelnicht_eindeutig | -0.1039 | 0.2381 | -0.436 | 0.66270 |
| DatenquelleSB | -0.7853 | 0.2539 | 3.093 | 0.00198** |
| Regelnicht_eindeutig:DatenquelleSB | 0.4522 | 0.3409 | 1.327 | 0.18467 |
Leitfrage 2: Sind die Antworten aus der Perspektive von DaF-Lehrenden hilfreich?
Abbildung 16 (Sprachberatung) und Abbildung 17 (GPT-4o) zeigen die Anzahl an Fragen pro Mehrheitsbewertung der DaF-Lehrenden, zudem wird die Anzahl der Fragen ausgewiesen, für die keine Mehrheitsbewertung feststellbar ist („keine Übereinstimmung“). Die Darstellungen zeigen, dass die DaF-Lehrenden mehr Antworten von GPT-4o als hilfreich ansehen als die der Sprachberatung. Der Unterschied ist jedoch nicht stark ausgeprägt. Gleiches gilt für die Bewertungen „nein“ und „teilweise“. Die leichte Tendenz, die GPT-4o-Antworten als hilfreicher zu bewerten als die Antworten der Sprachberatung, ist den Bewertungen der Grammatikexperten entgegengesetzt. Diese hatten in großer Deutlichkeit die automatisch generierten Antworten der KI als inhaltlich schlechter bewertet als die der Sprachberatung.
Anhand der Überprüfung mittels eines Chi-Quadrat-Tests konnte kein statistisch signifikanter Zusammenhang der Variablen „Datenquelle“ und der Antwort auf die Frage „Ist die Antwort hilfreich?“ festgestellt werden.
Bewertungsbegründungen
Wenn die DaF-Lehrenden eine Antwort von GPT-4o als nur teilweise hilfreich oder nicht hilfreich bewertet haben, war der häufigste Grund dafür, dass sie inhaltlich falsch ist (vgl. Abbildung 18). Hingegen wurden die Antworten der Sprachberatung weniger häufig als die GPT-4o-Antworten als nur teilweise oder nicht hilfreich bewertet, wenn sie sprachlich unangemessen sind oder das Thema verfehlt wurde.
Eine Überprüfung mittels eines Chi-Quadrat-Tests ergibt keinen statistisch signifikanten Zusammenhang von Datenquelle und Begründung der Antwort auf die Frage „Ist die Antwort hilfreich?“.
Weiterführende Frage 3: Hängen inhaltliche Korrektheit und wahrgenommene Nützlichkeit einer Antwort zusammen?
Abbildung 19 (Sprachberatungsdaten) und Abbildung 20 (GPT-4o) zeigen die Übereinstimmungen zwischen den Bewertungsdimensionen Korrektheit („Ist die Antwort korrekt?“) und Nutzen („Ist die Antwort hilfreich?“). Unter einen der Werte „ja“, „nein“ und „teilweise“ fällt eine Sprachberatungsantwort bzw. eine von ChatGPT generierte Antwort dann, wenn sie in beiden Dimensionen mehrheitlich mit „ja“, „nein“ oder „teilweise“ bewertet wurde. Ist dies nicht der Fall, bspw. wenn eine Antwort zwar mehrheitlich als inhaltlich korrekt, aber als nicht hilfreich bewertet wurde, wird sie in den Abbildungen unter „keine Übereinstimmung“ abgetragen.
Es zeigt sich, dass im Fall der Sprachberatung die Anzahl der Antworten höher ist, die sowohl als inhaltlich korrekt als auch als hilfreich bewertet wurden. Zugleich ist im Fall der GPT-4o-Antworten die Anzahl der Antworten höher, die gleichermaßen als inhaltlich inkorrekt und nicht hilfreich bewertet wurden. Der Großteil der Antworten bei beiden Datengrundlagen wird allerdings entweder nur als korrekt, aber nicht als hilfreich bewertet oder nicht als korrekt, aber als hilfreich.
Um die Expertengruppen (Grammatikexperten und DaF-Lehrende) miteinander zu vergleichen, wurde eine gemischte logistische Regression gerechnet24. Hierbei wurde der Einfluss der unabhängigen Variablen „Expertengruppe“ und „Datenquelle“ auf die abhängige Variable „Einschätzung einer Antwort als korrekt / hilfreich“ (Antwortlabel „ja“ vs. zusammengefasstes Antwortlabel „nicht ja“) als Interaktion untersucht. Es wurde jede abgegebene Bewertung durch die Annotierenden berücksichtigt (d.h. nicht mit Mehrheitsbewertungen gerechnet). Die Identität der Annotierenden wurde (ebenso wie die ID der bewerteten Antwort) als Zufallsfaktor (Random Intercept) in das Modell aufgenommen, um interindividuelle Unterschiede statistisch zu modellieren (s. Abschnitt 4.1).
Das Ergebnis der Regression (Abbildung 2125, Tabelle 4) zeigt eine statistisch signifikante Interaktion (p = 1,16e-06 < 0,001) zwischen den Variablen „Datenquelle“ und „Expertengruppe“, wobei die Hauptfaktoren nicht signifikant sind: Der Einfluss der Datenquelle auf die Einschätzung der Antwort als korrekt / hilfreich ist abhängig von der Expertengruppe. Abbildung 21 verdeutlicht dies: Die Wahrscheinlichkeit, dass die Sprachberatungsdaten als vollständig richtig bewertet werden, ist bei den Grammatikexperten höher als bei den DaF-Lehrenden. Die KI-generierten Daten werden im Vergleich von den DaF-Lehrenden eher als vollständig korrekt eingeschätzt als von den Grammatikexperten.
Koeffizienten der gemischten logistischen Regression zur Überprüfung der Abhängigkeit von „Einschätzung einer Antwort als korrekt / hilfreich“ von Datenquelle und Expertengruppe.
| Koeffizient | Std. Fehler | z Wert | p Wert | |
| (Intercept) | -0.08799 | 0.23446 | -0.375 | 0.707 |
| DatenquelleSB | -0.31455 | 0.22197 | -1.417 | 0.156 |
| ExpertengruppeGE | -0.41763 | 0.33272 | -1.255 | 0.209 |
| DatenquelleSB:ExpertengruppeGE | 1.55899 | 0.32058 | 4.863 | 1.16e-06 *** |
Eine Untersuchung, ob sich die thematischen Teilbereiche der Fragen (s. Abschnitt 2.2) hinsichtlich der Bewertungen von Korrektheit und Nutzen unterscheiden, lieferte keine Ergebnisse.
4.4 Diskussion
Die in Abschnitt 4.3 dargestellten Ergebnisse lassen sich auf die folgenden Aussagen zuspitzen:
-
Für die Gruppe der Grammatikexperten zeigen die Bewertungen eine höhere Qualität der Antworten menschlicher Sprachberaterinnen und Sprachberater im Vergleich zu den automatisch generierten Antworten von GPT-4o gemessen an der inhaltlichen Korrektheit (Abbildung 11 – Abbildung 13).
-
Die Grammatikexperten geben für als nicht oder nur teilweise korrekt bewertete KI-generierte Antworten häufiger als für nicht bzw. teilweise korrekt bewertete Antworten des Sprachberatungsservices die Begründung, dass eine richtige Variante in der jeweiligen Antwort nicht berücksichtigt wird (Abbildung 14 und Tabelle 2).
-
Zwar ist für die Gruppe der DaF-Lehrenden anhand der deskriptiven Daten (Abbildung 16 und Abbildung 17) eine leichte Tendenz dahingehend zu sehen, dass sie den KI-generierten Antworten eine höhere Qualität gemessen am Nutzen der Antworten zuweisen als den Sprachberatungsantworten. Allerdings kann die Nullhypothese der Unabhängigkeit von Datenquelle und Bewertung („ja“, „nein“, „teilweise“ auf die Frage „Ist die Antwort hilfreich?“) nicht zurückgewiesen werden.
-
Im Vergleich der Expertengruppen (Grammatikexperten und DaF-Lehrende) besteht eine statistisch signifikante Interaktion zwischen den Gruppen und der Datenquelle bezüglich der Bewertung einer Antwort als vollständig korrekt / hilfreich (Abbildung 21).
Während unsere Daten für die Gruppe der Grammatikexperten einen Unterschied bei der Bewertung der KI-generierten Antworten und den Antworten der Sprachberatung zeigen – und zwar dergestalt, dass die Antworten der Sprachberatungsmitarbeitenden als qualitativ höher eingeschätzt wurden –, ist dies für die Gruppe der DaF-Lehrenden nicht ersichtlich. Wie sind die Unterschiede zwischen den Expertengruppen zu bewerten? Ein Hinweis auf eine mögliche Erklärung lässt sich indirekt aus den Begründungen der Grammatikexperten für als inkorrekt oder nur teilweise korrekt eingestufte Antworten ableiten: Die Grammatikexperten nennen für KI-generierte Antworten gegenüber den Antworten des Sprachberatungsservices häufiger die Begründung, dass die Antwort suggerieren würde, es gäbe nur eine einzige korrekte Antwort, obwohl es zwei oder mehr Alternativen gibt. Im Umkehrschluss bedeutet dies, dass die KI-generierten Antworten in der Tendenz eher mit der Erwartungshaltung von DaF-Lernenden übereinstimmen, die vorzugsweise eindeutige Antworten bevorzugen. Dies schlägt sich möglicherweise darin nieder, dass die DaF-Lehrenden im Spannungsfeld zwischen der Bevorzugung eindeutiger Antworten im Sprachunterricht und der wissenschaftlichen Bestrebung in der Sprachdeskription auch weniger frequente Varianten abzubilden, den KI-generierten Antworten weniger kritisch gegenüberstehen als die Grammatikexperten. Diese Annahme wird weiter unterstützt durch die Kommentare der DaF-Lehrenden, die einen Verweis der Antwortenden auf das „Sprachgefühl“ der Fragenden ablehnen und sich stattdessen eindeutige, in der Praxis anwendbare Antworten wünschen; ein Wunsch, der im Einzelfall mit der sprachlichen Realität kollidiert (s. das in Abschnitt 4.1 diskutierte Beispiel (4)).
Ein weiterer möglicher Faktor findet sich bei der Betrachtung der Kommentare der DaF-Lehrenden auf sprachlicher Ebene, wenn Antworten bisweilen als „zu ausführlich“ oder sprachlich komplex und daher „schwer verständlich“ bezeichnet werden (s. Abschnitt 4.1). Im Gegensatz dazu sind GPT-4o-Antworten häufiger verständlicher formuliert, beispielsweise findet sich auch in einem Fall eine gebrauchsbasierte Erklärung. Auffällig ist, dass sich die Komplexität nicht an der Länge der Antwort festmachen lässt, da die Antworten von GPT-4o im Schnitt 125 Token (Median: 73) und die der Sprachberatung nur 81 Token (Median: 115) lang sind. Zudem zeigt sich auch nicht, dass kurze bzw. lange Antworten auffällig als hilfreicher von den Annotierenden bewertet werden. Entsprechend werden nur 52 % der GPT-4o-Antworten, die länger als die durchschnittliche Länge einer GPT-4o-Antwort sind, als hilfreich bewertet und 37 % der Antworten, die kürzer oder genauso lang wie die durchschnittliche Länge einer GPT-4o-Antwort sind.
5. Fazit
Ist Generative KI also ein geeignetes Hilfsmittel für DaF- / DaZ-Lernende? Basierend auf den Ergebnissen unserer Untersuchung lässt sich diese Frage für den von uns untersuchten Teilbereich der deutschen Grammatik, den Artikelgebrauch, mit der jetzigen Technologie, mit „eher nein“ beantworten. Schließlich legt die Analyse nahe, dass GPT-4o-Antworten zwar hilfreich wirken, da sie häufig weniger komplex formuliert sind, sich bei genauerem Hinsehen jedoch ebenfalls häufig als nicht korrekt herausstellen. Besonders schwer wiegt hierbei die Tatsache, dass die Grammatikexperten ca. 30 von 100 automatisch generierten Antworten als inkorrekt und weniger als 40 als vollständig korrekt bewerten. Dies bedeutet, dass in weniger als der Hälfte der Fälle einer Antwort uneingeschränkt getraut werden kann. Damit eignet sich GPT-4o für die automatische Beantwortung von Fragen zum deutschen Artikelgebrauch nicht als (alleiniges) Hilfsmittel bzw. muss infolge genauso gehandhabt werden wie das Ergebnis von anderweitigen Recherchen, nämlich durch weiterführende Überprüfung anhand alternativer Quellen. Aus der Perspektive von Personen, die in der Sprachberatung tätig sind, beinhalten die Ergebnisse unserer Untersuchung die Erkenntnis, dass Formalien eine entscheidende Rolle in der Einschätzung der Nützlichkeit einer Antwort spielen.
Es ist jedoch wichtig, bei der Interpretation der Untersuchungsergebnisse und damit den gezogenen Schlussfolgerungen zu berücksichtigen, dass 1. die Ansprüche der Grammatikexperten, die sich aus wissenschaftlicher Perspektive mit dem Artikelgebrauch des Deutschen auseinandersetzen, an eine vollständig zufriedenstellende Antwort nicht notwendigerweise mit DaF-Lehrenden aus der Praxis decken müssen, und dass 2. die Grammatikexperten sich untereinander in ihrer Bewertung der inhaltlichen Korrektheit sehr uneinig waren. Ein Grund dafür liegt im Thema der Fragen: Wie in Abschnitt 2.1 ausgeführt wurde, sind bei Fragen zum Artikelgebrauch im Gegensatz zu Fragen zu Genus, Kasus, Kongruenz etc. oftmals semantische und pragmatische Faktoren ausschlaggebend und es koexistieren in vielen Fällen zwei Varianten, die sich nur in Bedeutungsnuancen voneinander unterscheiden. Auch in Fällen von Artikel-Fragen, deren Beantwortung eindeutig im Sinn einer korrekten Variante ist, wie z.B. wenn sie den Artikelgebrauch bei mehr oder stark lexikalisierten Verbindungen betreffen (bei Gericht vs. beim Gericht [ID: 586645]), ist der Unterschied zwischen korrekt und inkorrekt subtiler als bei der Verletzung von bspw. Kasuskongruenz. Es ist folglich zu vermuten, dass ein anderer, unserem ähnlicher Versuchsaufbau, in dem eine klar ungrammatische Variante einer grammatischen gegenübergestellt wird, zu anderen Ergebnissen führen wird.
Notes
- Wir danken den Annotierenden der Grammatikexperten-Gruppe: Hagen Augustin, Lutz Gunkel und Thilo Weber und der DaF-Lehrenden-Gruppe: Giorgio Antonioli, Khrystyna Dyakiv und Krisztina Molnar. [^]
- Bei dem Beleg handelt es sich um einen Originalbeleg aus dem in Abschnitt 2.2 beschriebenen Korpus authentischer Sprachanfragen. Die eckigen Klammern hier und an den folgenden Stellen im Aufsatz beinhalten die eindeutige Identifikationsnummer des Datenpunktes im Korpus, sodass nach dessen Veröffentlichung die Datenpunkte nachvollzogen werden können. Die Hervorhebung der Objektwörter im Original wurde durch die Autoren hinzugefügt. [^]
- https://grammis.ids-mannheim.de (23.12.2024). [^]
- https://dict.leo.org/grammatik/deutsch/grammar.xml?lang=de (23.12.2024). [^]
- Wie das nicht mehr aktive, von Mathilde Hennig betriebene, Forum www.grammatikfragen.de oder Teilbereiche von www.gutefrage.de (beide Seiten wurden zuletzt am 23.12.2024 aufgerufen). [^]
- Exemplarisch wird hier die unterschiedliche Verwendung von Artikeln bei Abstrakta im Deutschen und Englischen an einem Beispiel aus Fandrych / Thurmair (2021: 116) verdeutlicht: Im Deutschen wird ein Definitartikel verwendet, wenn „auf ein Konzept als Ganzes, eine konkrete Erscheinung oder Periode“ Bezug genommen wird, während im Englischen in solchen Fällen häufig gar kein Artikel verwendet wird: Die Zeit vergeht schnell. – Time passes quickly. [^]
- Es ist geplant, das umfangreich annotierte Sprachberatungskorpus der Wissenschaftsöffentlichkeit zur Verfügung zu stellen. [^]
- Grammatik ist eine von vier Oberkategorien (neben Rechtschreibung, Lexik und Zeichensetzung), die zusammen etwa 86 % aller Anfragen ausmachen. [^]
- Die Fragen ließen sich den folgenden semantischen und grammatischen Feinkategorien zuordnen: 1) feste Wortverbindungen: Funktionsverbgefüge, idiomatische Redewendungen; 2) Eigennamen, Personennamen etc.; 3) Generalisierender vs. spezifischer Gebrauch, unzählbare Substantive; 4) Koordination von zwei oder mehreren NPs, Paarformen; 5) Staatennamen, Gebiete, geographische Begriffe; 6) mehr oder weniger lexikalisierte adverbiale Präpositionalphrasen (PPs); 7) PPs mit attributiven Adjektiven; 8) temporale Adverbiale mit Zeitangaben; 9) textsortenspezifischer Gebrauch (Über- und Unterschriften, Schlagzeilen); 10) nominalisierte Adjektive oder Verben. Da die Subkategorien aufgrund der geringen Stichprobe nicht in die statistische Auswertung aufgenommen werden konnten, verzichten wir hier auf ihre genaue Beschreibung. [^]
- Eine empirische Studie von Witwicka-Iwanowska (2012) kommt zum Schluss, dass polnische Deutschlernende eher dazu neigen, zu wenige als zu viele Artikel zu setzen. Ähnlich weist die Kategorie ‚Auslassung / Nicht-Setzung eines Artikels‘ die höchste Fehlerquote auf. Im Vergleich dazu treten Verwechslungen zwischen Definit- und Indefinitartikeln nur halb so häufig auf. [^]
- Zur Kategorie „Sonstiges“ gehören überwiegend Fragen zur Flexion von Artikeln sowie Adjektiven, die nach Präposition-Artikel-Verschmelzung folgen. Es findet sich darüber hinaus u.a. eine terminologische Frage in Bezug auf „Artikel“ sowie eine Frage zur Bedeutungsveränderung eines Satzes bei der Nutzung eines bestimmten Artikels. [^]
- Eine weitere, zentrale Voraussetzung für einen entsprechenden Einsatz betrifft die Transparenz der Antworten hinsichtlich der Quellen, die einer generierten Antwort zugrunde liegen. Dieser Aspekt ist ebenfalls ein bekanntes (und mit Halluzinationen) verwobenes Problem, das in diesem Beitrag nicht weiter diskutiert wird, da dies den Rahmen sprengen würde. [^]
- Siehe bspw. https://www.zdf.de/nachrichten/wirtschaft/unternehmen/chatgpt-openai-200-millionen-nutzer-chatbot-kuenstliche-intelligenz-100.html (23.12.2024). [^]
- Zwar existiert eine Vielzahl an Modellvarianten (vgl. Minaee et al. 2024 für eine umfassende Übersicht) aus den drei übergeordneten LLM-Familien, Gemini (vgl. Gemini Team 2025), GPT (vgl. OpenAI 2023) und Llama (vgl. Touvron et al. 2023), die sich hinsichtlich der zugrundeliegenden Trainingsdaten, der Architektur und Größe, dem weiterführenden Finetuning und den Lizenzbedingungen voneinander unterscheiden. Eine am 14.08.2025 durchgeführte kontrastive Analyse der Google-Suchtrends für die Suchanfragen „ChatGPT“, „Gemini“ und „Llama“ untermauert den herausragenden Bekanntheitsgrad von ChatGPT gegenüber Mitbewerbern. [^]
- Im Testdatensatz ist die Verteilung der thematischen Hauptbereiche wie folgt: 10 Artikelauswahl, 54 Präposition-Artikel-Verschmelzung, 36 Artikelauslassung. [^]
- Die Frage und Antwort 1 stammen aus dem Sub-Korpus „Fragen zum Artikelgebrauch“, Antwort 2 wurde KI-generiert. [^]
- Zwar liegen uns für jede Frage Antworten eines professionellen Sprachberatungsservices vor, die theoretisch als Goldstandard einer automatischen Evaluation der generierten Antworten herangezogen werden könnten, jedoch zeigten unsere Analysen (s. Abschnitt 4), dass nicht alle Antworten von den Grammatikexperten als korrekt bewertet werden. [^]
- Die vergleichsweise geringe Anzahl an Bewertenden erklärt sich aus dem Umstand, dass der Bewertungsprozess ausgesprochen aufwändig und die Arbeitszeit der jeweiligen Expertinnen und Experten limitiert ist. In Ermangelung geeigneter automatischer Methoden erscheint uns eine substantielle Bewertung durch menschliche Expertinnen und Experten – und sei es in geringer Zahl – die beste Methode, um die Qualität automatisch generierter Antworten zu evaluieren. [^]
- Die Bewertenden wurden nur in dem Fall, dass sie als Begründung für ihre Bewertung ‚Sonstiges‘ ausgewählt haben (s. Abbildung 2) explizit zum Verfassen eines Kommentars aufgefordert, in allen anderen Fällen stand es ihnen frei zu kommentieren. Dies führt zu unterschiedlicher Nutzung des Freitextfelds je bewertender Person (im Falle der Grammatikexperten wurde das Freitextfeld 7-, 46- und 69-mal verwendet; im Fall der DaF-Lehrenden 89-, 33- und 9-mal). Infolgedessen erfolgt die Auswertung der im Freitextfeld hinterlassenen Kommentare nicht systematisch, sondern nur exemplarisch. [^]
- Ausnahme dabei sind die Regressionsanalysen, die alle Annotationen in Betracht ziehen. [^]
- In dieser Analyse sind diejenigen Datenpunkte nicht berücksichtigt, bei denen es keine mehrheitliche Übereinstimmung zwischen den Grammatikexperten gibt. [^]
- Verwendet wurde R (R Core Team 2024) mit dem folgenden Aufruf: glm(Label == "ja" ~ Regel * Datenquelle, data = ge_long, family = "binomial"); der Einbezug von Zufallsfaktoren resultiert in einem unzuverlässigen Modell (Singularity Fit). [^]
- Die Linie zwischen den Kategorien „eindeutig“ und „nicht eindeutig“ dient rein der optischen Unterstützung. [^]
- Verwendet wurde das R Paket „lme4“ (Bates et al. 2015) mit dem folgenden Aufruf: glmer(Label == "ja" ~ Datenquelle * Expertengruppe + (1|Annotator) + (1|ID_Answer), data = data_long, family = "binomial"). [^]
- Die Linie zwischen den Kategorien „GPT-4o“ und „SB“ (=Sprachberatung) dient rein der optischen Unterstützung. [^]
Literatur und Ressourcen
Ágel, Vilmos (2008): Bastian Sick und die Grammatik. Ein ungleiches Duell. In: InfoDaF 35: 1, 64-84.
Anil, Rohan / Borgeaud, Sebastian / Alayrac, Jean-Baptiste / Yu, Jiahui / Soricut, Radu et al. (2025): Gemini: A Family of Highly Capable Multimodal Models. https://arxiv.org/abs/2312.11805 (23.12.2024).
Augustin, Hagen (2017): Verschmelzung von Präposition und Artikel. Eine kontrastive Analyse zum Deutschen und Italienischen (= Konvergenz und Divergenz 6). Berlin / Boston: de Gruyter.
Bang, Yejin / Cahyawijaya, Samuel / Lee, Nayeon / Dai, Wenliang / Su, Dan / Wilie, Bryan / Lovenia, Holy / Ji, Ziwei / Yu, Tiezheng / Chung, Willy / Do, Quyet V. / Xu, Yan / Fung, Pascale (2023): A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity. In: Park, Jong C. / Arase, Yuki / Hu, Baotian / Lu, Wei / Wijaya, Derry / Purwarianti, Ayu / Krisnadhi, Adila Alfa (eds.): Proceedings of the 13th International Joint Conference on Natural Language Processing and the 3rd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics (Volume 1: Long Papers). Nusa Dua, Bali: Association for Computational Linguistics, 675-718.
Bates, Douglas / Mächler, Martin / Bolker, Ben / Walker, Steve (2015): Fitting Linear Mixed-Effects Models Using lme4. In: Journal of Statistical Software 67: 1, 1-48. http://doi.org/10.18637/jss.v067.i01.
Breindl, Eva (2013): Komplexe grammatische Strukturen im L2-Erwerb: Das Beispiel der Verschmelzung von Präposition und Artikel. In: German as a Foreign Language 2, 1-20.
Breindl, Eva (2016): Sprachberatung im interaktiven Web. In: Klein, Wolf Peter / Staffeldt, Sven (Hrsg.): Die Kodifizierung der Sprache. Strukturen, Funktionen, Konsequenzen (= WespA – Würzburger elektronische sprachwissenschaftliche Arbeiten 17). Würzburg: Universität Würzburg, 85-109.
Bünting, Karl-Dieter / Pospiech, Ulrike (1996): Das Sprachtelefon: Beobachtungen von Unsicherheiten und Unzufriedenheiten von Sprachteilhabern. In: Böke, Karin / Jung, Matthias / Wengeler, Martin (Hrsg.): Öffentlicher Sprachgebrauch. Praktische, theoretische und historische Perspektiven. Georg Stötzel zum 60. Geburtstag. Opladen: Westdeutscher Verlag, 121-127.
Dürscheid, Christa (2011): Zweifeln als Chance? Zweifeln als Problem? Sprachliche Zweifelsfälle im Deutschunterricht. In: Köpcke, Klaus-Michael / Ziegler, Arne (Hrsg.): Grammatik – Lehren, Lernen, Verstehen. Zugänge zur Grammatik des Gegenwartsdeutschen. Berlin / Boston: de Gruyter, 155-173. http://doi.org/10.1515/9783110263183.155.
Dziri, Nouha / Madotto, Andrea / Zaiane, Osmar / Bose, Avishek Joey (2021): Neural Path Hunter: Reducing Hallucination in Dialogue Systems via Path Grounding. In: Moens, Marie-Francine / Huang, Xuanjing / Specia, Lucia / Yih, Scott Wen-tau (eds.): Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, Online and Punta Cana, Dominican Republic. Association for Computational Linguistics EMNLP (2021). Online and Punta Cana, Dominican Republic: Association for Computational Linguistic, 2197-2214.
Fandrych, Christian / Thurmair, Maria (2021): Grammatik im Fach Deutsch als Fremd- und Fachsprache. 2. Auflage. Berlin: Erich Schmidt.
Frilling, Sabine (2005): Die Sprachberatung der GfdS (II). Auswertung der Anfragen von November 2004 bis Januar 2005. In: Der Sprachdienst 49: 2-3, 69-77.
Hariri, Walid (2023): Unlocking the Potential of ChatGPT: A Comprehensive Exploration of Its Applications, Advantages, Limitations, and Future Directions in Natural Language Processing. http://doi.org/10.48550/arXiv.2304.02017.
Hennig, Mathilde (2009): Wie viel Varianz verträgt die Norm? Grammatische Zweifelsfälle als Prüfstein für Fragen der Normenbildung. In: Hennig, Mathilde / Müller, Christoph (Hrsg.): Wie normal ist die Norm? Sprachliche Normen im Spannungsfeld von Sprachwissenschaft, Sprachöffentlichkeit und Sprachdidaktik. Kassel: kassel university press, 14-38.
Hennig, Mathilde (2017): Grammatik und Variation im Spannungsfeld von Sprachwissenschaft und öffentlicher Sprachreflexion. In: Konopka, Marek / Wöllstein, Angelika (Hrsg.): Grammatische Variation. Empirische Zugänge und theoretische Modellierung. Jahrbuch des Instituts für Deutsche Sprache 2016. Berlin / Boston: de Gruyter, 23-46.
Hennig, Mathilde (Hrsg.) (2021): Sprachliche Zweifelsfälle – Das Wörterbuch für richtiges und gutes Deutsch. Berlin: Dudenverlag.
Hennig, Mathilde / Löber, Melanie (2010): Benutzung und Benutzbarkeit von Grammatiken. In: Bons, Iris / Gloning, Thomas / Kaltwasser, Dennis (Hrsg.): Fest-Platte für Gerd Fritz. Gießen, 1-31.
Ji, Ziwei / Lee, Nayeon / Frieske, Rita / Yu, Tiezheng / Su, Dan / Xu, Yan / Ishii, Etsuko / Bang, Ye Jin / Madotto, Andrea / Fung, Pascale (2023): Survey of Hallucination in Natural Language Generation. In: ACM Computing Surveys 55: 12, 1-38. http://doi.org/10.1145/3571730.
Klein, Wolf Peter (2003a): Sprachliche Zweifelsfälle als linguistischer Gegenstand. Zur Einführung in ein vergessenes Thema der Sprachwissenschaft. In: Linguistik online 16: 4, 5-33. https://bop.unibe.ch/linguistik-online/article/view/793 (23.12.2024).
Klein, Wolf Peter (2003b): In dubio contra reum… Zur Geschichte der Reflexion über sprachliche Zweifelsfälle. In: tribüne. Zeitschrift für Sprache und Schreibung 2, 4-14.
Klein, Wolf Peter (2006): Vergebens oder vergeblich? Ein Modell zur Analyse sprachlicher Zweifelsfälle. In: Breindl, Eva / Gunkel, Lutz / Strecker, Bruno (Hrsg.): Grammatische Untersuchungen: Analysen und Reflexionen, Gisela Zifonun zum 60. Geburtstag. Tübingen: Narr, 581-600.
Klein, Wolf Peter (2009): Auf der Kippe? Zweifelsfälle als Herausforderung(en) für Sprachwissenschaft und Sprachnormierung. In: Konopka Marek / Strecker, Bruno (Hrsg.): Deutsche Grammatik – Regeln, Normen, Sprachgebrauch. Berlin / New York: de Gruyter, 141-165.
Klein, Wolf Peter (2018): Sprachliche Zweifelsfälle im Deutschen. Theorie, Praxis, Geschichte. (= De Gruyter Studium). Berlin / Boston: de Gruyter.
Kupietz, Marc / Lüngen, Harald / Diewald, Nils (2023): Das Gesamtkonzept des Deutschen Referenzkorpus DeReKo. In: Deppermann, Arnulf / Fandrych, Christian / Kupietz, Marc / Schmidt, Thomas (Hrsg.): Korpora in der germanistischen Sprachwissenschaft. Berlin / Boston: de Gruyter, 1-28.
Lang, Christian / Schneider, Roman / Wöllstein, Angelika (2023): Was ist, was soll sein – und warum? Sprachanfragen aus empirisch-linguistischer Perspektive. In: Beißwenger, Michael / Gredel, Eva / Lemnitzer, Lothar / Schneider, Roman (Hrsg.): Korpusgestützte Sprachanalyse. Grundlagen, Anwendungen und Analysen. (= Studien zur Deutschen Sprache 88). Tübingen: Narr, 425-438.
Lang, Christian / Schneider, Roman / Tu, Ngoc Duyen Tanja (2024): Automatic Question Answering for the Linguistic Domain – An Evaluation of LLM Knowledge Base Extension with RAG. In: Rapp, Amon / Di Caro, Luigi / Meziane, Farid / Sugumaran, Vijayan (eds.): Natural Language Processing and Information Systems. (= Lecture Notes in Computer Science 14763). Cham: Springer, 161-171.
Lipsky, Angela (2016): Die Vermittlung der Artikelfunktionen in DaF-Lehrwerken. Wie berücksichtigen deutsche und japanische Anfängerlehrwerke die Zielgruppe der Lernenden mit artikelloser Erstsprache? In: Info DaF 43: 6, 647-666.
Mao, Rui / Chen, Guanyi / Zhang, Xulang / Guerin, Frank / Cambria, Erik. (2024): GPTEval: A Survey on Assessments of ChatGPT and GPT-4. In: Calzolari, Nicoletta / Kan, Min-Yen / Hoste, Veronique / Lenci, Alessandro / Sakti, Sakriani / Hue, Nianwen (eds.): Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). 7844-7866. https://aclanthology.org/2024.lrec-main.693.pdf (23.12.2024).
Maynez, Joshua / Narayan, Shashi / Bohnet, Bernd / McDonald, Ryan (2020): On Faithfulness and Factuality in Abstractive Summarization. In: Jurafsky, Dan / Chai, Joyce / Schluter, Natalie / Tetreault, Joel (eds.): Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 1906-1919. https://aclanthology.org/2020.acl-main.173.pdf (23.12.2024).
Minaee, Shervin / Mikolov, Tomas / Nikzad, Narjes / Chenaghlu, Meysam / Socher, Richard / Amatriain, Xavier / Gao, Jianfeng (2024): Large Language Models: A Survey. https://arxiv.org/abs/2402.06196 (23.12.2024).
Open AI (2023): GPT-4 Technical Report. https://cdn.openai.com/papers/gpt-4.pdf (23.12.2024).
Ose, Julia / Schulz, Petra (2010): Was fehlt Jonas – Ein Taschentuch oder das Taschentuch? Eine Pilotstudie zum Artikelerwerb bei Kindern mit Deutsch als Zweitsprache. In: Rost-Roth, Martina (Hrsg.): DaZ-Spracherwerb und Sprachförderung Deutsch als Zweitsprache. Beiträge aus dem 5. Workshop „Kinder mit Migrationshintergrund“. Freiburg i. Br.: Fillbach, 79-98.
Pimingsdorfer, Thomas (2013): Wer hat nicht Problem mit Artikel, na? Zum Gebrauch von definitem, indefinitem oder Null-Artikel im Deutschen für Lernende mit artikellosen Erstsprachen. Wien: Praesens-Verlag (= Theorie und Praxis: Beiträge zu Deutsch als Fremd- und Zweitsprache, Serie B, Band 1).
R Core Team (2024): R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing. Wien, Österreich. https://www.R-project.org/ (23.12.2024).
Seelig, Barbara (2002): Probleme und Tendenzen des deutschen Sprachgebrauchs. Ein Ergebnisbericht der Sprachberatungsstelle »Grammatisches Telefon Potsdam« aus dem Zeitraum Juni 1997 bis Dezember 2000. In: Sprachreport 2, 2-6.
Schmitt, Eleonore / Szczepaniak, Renata / Vieregge, Annika (Hrsg.) (2019): Sprachliche Zweifelsfälle –Definition, Erforschung, Implementierung. Hildesheim / Zürich / New York: Georg Olms Verlag.
Storjohann, Petra (2023): Sprachliche Zweifelsfälle. Lexikalisch-semantische, flexivische und wortbildungsbedingte Zweifelfälle. (= Literaturhinweise zur Linguistik (LIZULI) 13). Heidelberg: Winter.
Touvron, Hugo / Lavril, Thibaut / Izacard, Gautier / Martinet, Xavier / Lachaux, Marie-Anne / Lacroix, Timothée / Rozière, Baptiste / Goyal, Naman / Hambro, Eric / Azhar, Faisal / Rodriguez, Aurelien / Joulin, Armand / Grave, Edouard / Lample, Guillaume (2023): LLaMA: Open and Efficient Foundation Language Models. https://arxiv.org/abs/2302.13971 (23.12.2024).
Tu, Ngoc Duyen Tanja (2023): „Hallo ChatGPT, ist das Komma in folgendem Satz richtig?“ –– Können leistungsstarke Chatbots traditionelle Sprachberatung ersetzen?. DHd-Blog – Digital Humanities im deutschsprachigen Raum. https://dhd-blog.org/?p=19645 (23.12.2024).
Witwicka-Iwanowska, Magdalena (2012): Artikelgebrauch im Deutschen: Eine Analyse aus der Perspektive des Polnischen. Tübingen: Narr Francke.
Biographische Notiz
Dr. phil. Christian Lang arbeitet in der Abteilung Grammatik am Leibniz-Institut für Deutsche Sprache. Er war in leitender Funktion am Aus- und Umbau der terminologischen Ressource der Abteilung beteiligt und widmet sich in jüngster Zeit vor allem der Erforschung von Large Language Models. Neben deren Sprachproduktionskompetenz untersucht er vor allem ihre Anwendung als Tools zur automatischen Beantwortung von Fragen und wie die faktische Korrektheit der generierten Antworten optimiert werden kann.
Kontaktanschrift:
Christian Lang
Abteilung Grammatik
Leibniz-Institut für Deutsche Sprache
R5 6–13, 68161 Mannheim (Deutschland)
Biographische Notiz
Dr. phil. Ngoc Duyen Tanja Tu ist seit Juni 2022 wissenschaftliche Mitarbeiterin im Projekt „Sprachanfragen. Empirisch gestützte Erforschung von Zweifelsfällen“ der Abteilung „Grammatik“ am Leibniz-Institut für Deutsche Sprache in Mannheim. Ihr Forschungsfokus liegt in der Optimierung von computerlinguistischen Methoden für die Erforschung grammatischer Phänomene und die quantitativ linguistische Analyse dieser.
Kontaktanschrift:
Ngoc Duyen Tanja Tu
Abteilung Grammatik
Leibniz-Institut für Deutsche Sprache
R5 6–13, 68161 Mannheim (Deutschland)
Biographische Notiz
Dr. phil. Anna Volodina war langjährige wissenschaftliche Mitarbeiterin in der Abteilung „Grammatik“ am Leibniz-Institut für Deutsche Sprache in Mannheim, zuletzt im Projekt „Sprachanfragen. Empirisch gestützte Erforschung von Zweifelsfällen“. Aktuell ist sie als (Senior) Scientist an der Universität Graz tätig. Ihre Forschungsinteressen umfassen ein breites Spektrum der Linguistik, darunter Grammatik gesprochener und geschriebener Sprache, empirische (Korpus)Linguistik und angewandte Sprachwissenschaft mit einem besonderen Fokus auf Mehrsprachigkeit.
Kontaktanschrift:
Anna Volodina
Karl-Franzens-Universität Graz
Institut für Sprachwissenschaft
Merangasse 70, 8010 Graz (Österreich)




















