1. Einleitung
Korpora sind üblicherweise in erster Linie als empirische Grundlage für die linguistische Forschung konzipiert, ihre Zugangssysteme oft mit einem gewissen Einarbeitungsaufwand verbunden. Der Bereich der Entwicklung, Prüfung oder Überarbeitung von DaF-Lehrmaterial profitiert insbesondere von der Auswertung von Datenbeständen möglichst aktuellen Sprachgebrauchs. Die Inhalte sind bzw. bleiben dadurch zeitgemäß und sprechen die Zielgruppe intrinsisch motivierend an, da Phänomene an real life-Beispielen illustriert und in authentischen Aufgaben geübt werden. Die unmittelbare Nutzung von Korpora selber im Unterricht wird in vielen Abhandlungen an ausgewählten Aspekten und ‚einfachen‘ Systemen thematisiert (s. in Perkuhn 2021 zitierte Literatur; s. auch Nolting / Radtke 2019; Beißwenger et al. 2025: Kap. 5 Unterrichtsmodelle). In diesem Bereich werden allerdings viele potentielle Nutzende durch verschiedene Hürden von der Nutzung ‚komplexerer‘ Systeme abgeschreckt, sei es durch eine notwendige Registrierung, vermeintlich unnötige Entscheidungen bei den ersten Schritten oder eine schwierig zu erlernende Suchanfragesprache.
Für welche Art von Aufgaben lohnt es sich, diese Hürden auf sich zu nehmen, wenn es doch andere Ressourcen gibt, die mit einem niedrigschwelligen Zugang vergleichbare Informationen anbieten? Oder sind die Hürden verhältnismäßig doch gar nicht so hoch und die gelieferten Informationen nur in einem engen Rahmen mit starken Vorgaben vergleichbar?
Übersetzungsäquivalente lassen sich von üblichen, einsprachigen Korpora nicht erfragen. Dafür müsste man auf mehrsprachige, bestenfalls Parallelkorpora für das entsprechende Sprachenpaar zurückgreifen. Fragen zur Bedeutung eines Wortes, zu Bedeutungsbeziehungen, zu Diskurs- oder zu Bedeutungsauffälligkeiten oder -verschiebungen lassen sich durchaus mit Korpusuntersuchungen angehen (vgl. Perkuhn / Keibel 2009) – moderne lexikographische Projekte greifen auf dafür konzipierte korpuslinguistische Methoden zurück, können aber nicht in Breite und Tiefe, vor allem auch Aktualität alle Informationsbedürfnisse bearbeiten. Dieser diskursiv-semantische Bereich bietet Potenzial eher für Lernende als Entdecker oder als Forscher, also eher für Fortgeschrittene, auch im Bereich der methodischen Kompetenz.
Im Folgenden sollen die Zugänge zu verschiedenen Ressourcen beispielhaft beleuchtet werden, u.a. das Internet via Google bzw. kondensiert über ChatGPT, eher klassische Wörterbücher wie z.B. als Teil der Angebote des DWDS1, sowie auch deren Korpusrecherchen, sowie die Angebote des Leibniz-Instituts für Deutsche Sprache zum Deutschen Referenzkorpus DeReKo2.
Die Perspektive dieses Beitrags ist die Gestaltung der Zugänge zu den verschiedenen (Informations-)Ressourcen, insbesondere zu den Korpora. Die Überlegungen dazu betreffen durchaus auch deren indirekten Gebrauch für den Fremdsprachenunterricht (indirect use im Sinne von Leech 1997) für die Zunft der Materialgestaltung in ihrem professionellen Selbstverständnis. Im Fokus steht allerdings der direkte Gebrauch (direct use im Sinne von Leech 1997) der Ressourcen als „Werkzeug in der Hand von Lernenden“ (Mukherjee 2002: 179). Dabei geht es vor allem darum, das gesamte Umfeld in den Blick zu nehmen, dass die eigentliche Lernsituation ermöglicht und vorbereitet: Die Person(en) oder Institution(en), die die Infrastruktur dafür bereitstellen, eventuell weitere, die asynchron über tutorielle Anleitungen oder synchron z.B. im Unterricht über Unterweisungen oder Hilfestellungen Wissen über die Nutzung der Ressourcen vermitteln. Die Frage, die sich alle Beteiligten stellen sollten – und zu der die hier angestellten Überlegungen anregen wollen –, ist, inwieweit es vertretbar ist, jenseits einer einführenden motivierenden Phase hinaus, den Zugang möglichst niedrigschwellig zu gestalten. Dies ist zwar verständlicherweise dem Wunsch nach didaktischer Reduktion geschuldet, läuft aber irgendwann in Gefahr, der Komplexität der untersuchten Phänomene nicht mehr gerecht zu werden. Spätestens wenn das Arbeiten mit Korpora als entdeckendes und selbstgesteuertes Lernen eingesetzt wird (vgl. Rösler 2023: 202), ist eine entsprechende Kompetenz zu vermitteln, eine corpus literacy, heute vielleicht sogar in einer moderneren Fassung, als sie noch von Mukherjee (2002: 179) gefordert wurde, da das Entdecken von Musterhaftem bereits durch korpuslinguistische Methodik abgedeckt wird (vgl. Perkuhn / Keibel 2009). Eine Motivation für die Lernenden, sich diese Kompetenz – selbstverständlich nach und nach – anzueignen, könnte darauf beruhen, dass sie sich in der Rolle von Forschenden sehen können. Dadurch kann dann auch jegliches Arbeiten mit Korpora als ‚(kleine) wissenschaftliche Studie‘ gesehen werden, die andererseits allerdings auch gewissen Ansprüchen genügen müsste.
Auch wenn der Phänomenbereich der gewählten Beispiele auf den ersten Blick etwas eingeschränkt wirken mag, so wird im Weiteren gezeigt werden, wie sehr Annahmen und Vorgaben bei den vermeintlich niedrigschwelligen Zugangssystemen die Umsetzung von vagen Begrifflichkeiten prägen – und damit auch die Untersuchung aktueller Dynamik des Sprachwandels erschweren. Dabei werden auch die o.g. Hemmnisse des schwierigeren Zugangs beleuchtet und eingeordnet, sowie mögliche und teilweise bereits umgesetzte Vereinfachungen aufgezeigt. Idealerweise lassen sich so mit Hilfe von Korpora auch frühe (Zweifels-)Fragen von Lernenden angehen, sofern sie nicht auf norm- sondern auf gebrauchspräferenzorientierte Antworten zielen. Spätestens in fortgeschrittenen Lernsituationen lassen sich dann auch (Zweifels-)Fragen zu diversen linguistischen Ebenen bearbeiten analog dazu, wie auch reglementierende bzw. beschreibende Werke ihren Fokus auf den Sprachgebrauch legen: Von der Orthographie (s.u.) über lexikalisch-semantische, oft relationale Zuschreibungen (vgl. z.B. Storjohann 2021) bis hin zur Grammatik3.
2. DaF goes authentisch
Korpora sind üblicherweise digitale Textsammlungen, als Referenzkorpora (wie z.B. DeReKo oder das DWDS-Korpus) mit dem Bestreben, eine gewisse Zeitspanne und verschiedene Quellen und somit auch verschiedene Texttypen, Medialitäten, Textgenre oder Register abzudecken. Neben den eigentlichen Texten als sogenannte Primärdaten bieten Korpora mit ihren Metadaten auch Informationen zur Einordnung der jeweiligen Texte in Bezug auf die Entstehungsbedingungen und die o.g. Dimensionen inklusive der üblichen bibliographischen Angaben. Oft werden auch sprachliche Einheiten unterhalb der Textebene mit Angaben ergänzt, z.B. mit Angaben zur Grundform der im Text realisierten Wortform (dem sog. Lemma) oder zu dessen Wortklasse – meist als dessen computerlinguistische Umsetzung als part-of-speech (POS) – annotiert.
Die Auswahl und Aufbereitung der Texte für die Aufnahme in ein Korpus folgt dem Wunsch, ein möglichst breites Abbild der Sprache anbieten zu können – sofern und soweit rechtlich, ethisch, technisch und wirtschaftlich machbar. Referenzkorpora beschränken sich per se nicht auf bestimmte Sprachausschnitte, sie versuchen, formelle, aber auch informelle, vorrangig standardnahe sowohl schriftliche Texte als auch mündliche Äußerungen zu erfassen. In Korpora gesprochener Sprache (wie z.B. FOLK, vgl. Schmidt 2018) liegen die Daten auch als Audio-Daten vor, sodass sich Lernende mit dem (auch akustischen) Verstehen authentischer Aussprache von standardnah bis -fern beschäftigen können. Da diese Korpora aber eher klein sind und nicht unbedingt einen Querschnitt der Sprache abbilden, wird es im Folgenden um (größere) Schriftsprachekorpora gehen. Sofern in diesen (auch) Daten mündlicher Kommunikation enthalten sind, liegen diese dann in transkribierter Form vor. Die Primärdaten der schriftsprachlichen Texte werden üblicherweise unverändert übertragen, d.h., dass alle Textelemente dem Original entsprechen, evtl. also auch ungewöhnliche, ungewohnte und vermeintlich falsche Schreibweisen nicht korrigiert, komplizierte Ausdrücke nicht vereinfacht werden. Weder die Auswahl ist speziell didaktisch motiviert noch sind die einzelnen Texte „schulisch präpariert“ (Steinmetz 2022: 3), sondern so übernommen, wie sie in einem ‚natürlichen‘ Sprachproduktionsprozess entstanden sind. Insofern kann man ihnen auch die Eigenschaft, authentisch zu sein, zusprechen (vgl. zu dieser ‚radikalen‘, aber auch zu anderen Lesarten Rösler 2023: 45; ergänzend Kämper / Perkuhn 2022). Das alleine ist für viele Befürworter ein Grund, im Sprachunterricht mit Korpora zu arbeiten, da sich daraus automatisch eine intrinsische Motivation für die Lernenden ergibt. Immerhin können diese daran ermessen, inwieweit sie in der Lage sind, einen nicht schulisch präparierten Alltagstext zu verstehen. Je nach Alter, Lernstand und thematischem Schwerpunkt, z.B. auch im fortgeschrittenen DaF- oder DaZ-Bereich, sind dafür natürlich entsprechende Texte auszuwählen.
Grundsätzlich wäre es technisch möglich, ein Korpus wie eine elektronische Bibliothek zu verwenden und ein komplettes Werk z.B. über seine bibliographischen Angaben in den Metadaten abzurufen. Dies ist aber von den meisten Textspendern nicht erwünscht und wird durch die Nutzungsvereinbarung (zwischen Textspendern und Korpusanbietern) einerseits und durch die Endnutzervereinbarung (EULA, zwischen Korpusanbietern und Korpusnutzenden) andererseits ausgeschlossen. Der Schwerpunkt moderner korpuslinguistischer Methodik liegt auch nicht darin, Texte bereitzustellen und diese dann von den Nutzenden selbst erschließen zu lassen. Es geht darum, Phänomenen in der Sprache nachzuspüren und diese über Metriken wie auch die Verteiltheit über die o.g. Dimensionen, also auch über verschiedene Texte, zugänglich zu machen. Als Beleg für die Ausprägung des Phänomens werden den Korpusnutzenden die Metadaten und kleine Textausschnitte zur Verfügung gestellt, sowohl für jeden Einzelfall als auch idealerweise in einer Gesamtübersicht oder Visualisierung. Da die Belege nur z.T. sehr kleine Ausschnitte aus eventuell sehr umfangreichen (aber authentischen) Texten sind, stellt sich die Frage, ob sich das Attribut authentisch auch für die Belege aufrechterhalten lässt. Natürlich haftet auch ihnen der gleiche Charme an, sodass sie sich für illustrative Zwecke in Lehrwerken anbieten. Neben unverhältnismäßiger Komplexität und nicht dem Lernstand entsprechenden Elementen können sie aber auch darunter leiden, dass ihnen die Einbettung in den weiteren Rahmen des umgebenden Textes fehlt. Insofern ist vielleicht sogar die spannendere Information zu dem authentischen Sprachgebrauch diejenige, in welchen Texten sich sprachliche Phänomene manifestieren. Lernende bekommen mit der Verteilung quasi einen Fingerabdruck angeboten, in welchen z.B. zeitlichen oder diskursiven Ausschnitten der Sprache das Phänomen überhaupt oder bevorzugt zum Tragen kommt oder gemieden wird (vgl. Fandrych / Thurmair 2011).
3. (Informations-)Ressourcen vs. Korpora
Gib einem Hungrigen einen Fisch und er wird einen Tag satt, [gib ihm die Adresse und einen Gutschein für ein gutes Fischgeschäft und er wird satt, solange das Geschäft existiert,] gib ihm eine Angel und lehre ihn das Fischen, so hat er ein Leben lang etwas davon.
(frei nach Konfuzius)
Wenn wir in Anlehnung an obenstehenden Sinnspruch ‚Hunger‘ als Allegorie für Wissensdurst verstehen, kann dieser in einem Unterrichtsszenario tendenziell auf dreierlei Art gestillt werden: Wenn Lernende Fragen stellen, können Lehrende diese direkt beantworten. Damit wäre die Situation einmalig geklärt, analog zu dem einzelnen Fisch, der einmal den Hunger stillt. Lehrende können aber auch auf Ressourcen verweisen, die für die Art von Fragen konzipiert sind und in denen die Lernenden selber nachschlagen können. Damit hätten Lernende die Möglichkeit, auf Dauer selber bei weiteren ähnlichen Fragen nachzuschlagen – vorausgesetzt, die Ressource wird nachhaltig gepflegt, kann die Fragen richtig interpretieren und sie auf einem aktuellen Stand beantworten. Der in Konfuzius’ Sinnspruch untergemogelte Gutschein für die ‚Ressource‘ soll andeuten, dass der Aufbau und die Pflege solcher Angebote mit Kosten verbunden ist. Gerade in Zeiten des Informationsüberangebots des Internets verschwinden die höher-qualitativen Angebote meist recht bald hinter einer Bezahlschranke oder einem Abo-Modell. Als dritte Möglichkeit können für bestimmte Fragen Lehrende ihren Lernenden auch allgemeiner die Wege aufzeigen, wie sich die Lernenden selber der Antwort nähern können. Außer dem ersten, trivialen Weg sollen die anderen beide Wege im Folgenden für sprachbezogene Fragestellungen skizziert werden. Auch wenn sich die spannenderen Fragen eher um Wortbedeutungen, deren Beziehungen und Veränderungen drehen, soll als Einstieg eine relativ banale Frage stehen: Wie wird ein ausgewähltes Wort geschrieben? In der mündlichen Kommunikation während des Unterrichts können die Fragenden noch ihre Unsicherheit durch eine gewisse Undeutlichkeit beim Aussprechen kaschieren, z.B. „Wie wird das Wort geschrieben?“ (wobei der erste [t]-Laut nur angedeutet, womöglich halb verschluckt wird). Im ersten Szenario können die Befragten die Frage entsprechend wahrnehmen, die Unsicherheit vermutlich heraushören und sinngemäß beantworten.
3.1 Ressourcen für den Unterricht
Um gemäß dem zweiten Szenario eine Ressource einzubeziehen und zu ‚befragen‘, sind keine Spracheingabemöglichkeiten mit ähnlichen Fähigkeiten bekannt, weder für akustische noch phonetisch umschriebene Eingaben. Falls eine mündliche Spracheingabe angeboten wird, wird diese in verschriftlichter Form an das System weitergegeben, sodass alles Folgende leicht abgewandelt genauso gilt: Für die konkrete Formulierung der minimalistischen Frage müssen sich die Anfragenden für eine der möglichen Varianten entscheiden.
Für den Zugang zu den verschiedenen Ressourcen werden unterschiedlich komplexe Schnittstellen angeboten. Für den Unterricht, zumindest auf jeden Fall in der Einstiegsphase, soll der Zugang möglichst niedrigschwellig sein. In Zeiten von ChatGPT liegt nahe, es einfach mal mit einer der möglichen Varianten der o.g. Frage auszuprobieren.
Chatausschnitt mit ChatGPT 4o mini4
Die Antworten von ChatGPT (vgl. Abbildung 1), vor allem die erste, sind sehr aufschlussreich und zeigen, dass das System die Frage auf unterschiedlichen Ebenen behandelt, auch zwei (unterschiedliche) Antworten liefert und sogar noch eine weitere Information ergänzt, die irgendwie, aber doch nicht ganz zum Thema passt. Auf der ersten Ebene wird die Frage wörtlich und der Problemfall buchstäblich ausgelegt. In einer älteren Fassung von ChatGPT wurde dies noch betont, indem die einzelnen Buchstaben durch Bindestriche abgetrennt wurden („h-ä-l-s-t“). Genaugenommen ist die so formulierte Anfrage natürlich eigentlich sinnfrei, da durch die Entscheidung für eine Form die Antwort vorweggenommen ist5 und nur noch buchstabiert werden muss. Diese Ebene entspricht der graphematischen Definition des Wortbegriffs (nach Bühler et al. 1971: 87).
Im nächsten Satz wird der Problemfall morphologisch analysiert und einer Grundform, einem lexikalischen Lemma, zugeordnet. Dabei wird allerdings bereits implizit und ohne Kommentar korrigiert. Nach üblichen Normvorstellungen ist die Form ja gerade nicht, was ChatGPT morphologisch beschreibt. Der Problemfall wird also nicht mehr buchstäblich behandelt, sondern als etwas, was ‚damit gemeint ist‘. Dieses Ersatzobjekt wird in der Antwort dann noch nachgeliefert mit also und der normgerechten Schreibweise. Das System geht nicht mehr buchstäblich auf die Anfrage ein, sondern ersetzt sie durch die vom System angenommene intendierte Anfrage. Auf welcher Datengrundlage die nachfolgende ergänzende Information basiert, erschließt sich nicht ganz. Ob dieser konkrete Fehlertyp tatsächlich belegt ist oder bei der Antwort durcheinandergeht, dass die Form grundsätzlich rechtschreiblich schwierig ist und in anderen Fällen Schreibweisen mit „ä“ und „e“ thematisiert werden, ist nicht überprüfbar.
Grundsätzlich spricht nichts dagegen, die Anfrage auf der einen oder anderen (oder sogar beiden?) Ebenen zu bearbeiten. Es sollte aber transparent gemacht werden, wie die Frage interpretiert wurde, und bei einer mehrschichtigen Antwort sollten die unterschiedlichen Anteile entsprechend gekennzeichnet werden. In der Hinsicht stellt sich das Ergebnis auf eine inzwischen klassische Anfrage an Google anders dar (vgl. Abbildung 2). Google weist explizit auf die Umformulierung der Anfrage hin. Die sonst angebotene Möglichkeit, doch mit der buchstäblichen Umsetzung der Anfrage zu arbeiten, fehlt in diesem Fall, vermutlich aufgrund der erfahrungsgemäß geringen Aussicht auf (gute) Treffer. Googles Stärke ist aber weniger die tiefergehende sprachliche Analyse der Anfrage und der möglichen Treffer und es versucht auch nicht, wie ChatGPT, den Inhalt verschiedener Quellen zusammenzuführen. Es begnügt sich mit den wichtigsten Elementen der Anfrage (eine analoge Anfrage „Schreibweise hälst“ liefert die gleiche Antwort) und ordnet die Treffer gemäß einer Rangfolge, die sich auf das Enthaltensein bestimmter der Anfrage zugeordneten Schlüsselwörter, verstärkt aber auch auf die Nutzerreaktionen auf diese oder ähnliche Anfragen bezieht. Besonders gut passende Textstellen werden mit Hervorhebung oberhalb aller anderen Treffer als Zitat eingeblendet, wie z.B. Online-Rubriken oder andere Quellen, die speziell auf den Fragetyp eingehen (vgl. Zwiebelfisch in Abbildung 2). Bei Anfragen, die auch vor dem Hintergrund des Nutzerprofils als ‚interessiert an der deutschen Sprache‘ vermutet werden, sind als Treffer mit hohen Einträgen regelmäßig die Seiten von Wikipedia/Wiktionary, des Duden und des DWDS dabei. Aus Google-Sicht hat sich die Weiterleitung offensichtlich bewährt, ohne weitere Quellen, schon gar nicht den (aktuellen) Sprachgebrauch allgemein, auswerten zu müssen. Aus Sicht der Nutzenden könnte man sich die Google-Recherche sparen und direkt auf eine Seite der genannten Quellen gehen, um dort den Eintrag nachzuschlagen.
Ergebnis einer Google-Anfrage6
Das DWDS wird auch im Zusammenhang mit korpusbasierten Studien als Ressource von vielen Lehrenden empfohlen, oft auch als Beispiel genannt für einen niedrigschwelligen Zugang zu den mit dem DWDS verbundenen Korpora, und entsprechend in vielen studentischen Hausarbeiten und auch im DaF-Kontext verwendet (vgl. u.a. Wallner 2013). So hilfreich und leicht zugänglich das Angebot des DWDS für viele Fragestellungen ist, so sollte man doch festhalten, dass es eine Zusammenstellung von Informationen aus verschiedenen Ressourcen ist. Kernstück ist die digitale Version des Wörterbuchs der deutschen Sprache, ergänzt um die elektronische Fassung des Wörterbuchs der deutschen Gegenwartssprache, sowie weitere Quellen wie u.a. das Etymologische Wörterbuch von W. Pfeifer und Angaben aus dem OpenThesaurus7 sowie um automatisch aus Korpusdaten berechnete Wortprofile, regionale und Teilkorpus-bezogene Verteilungen, Zeitverläufe und zufällig daraus ausgewählte Belege. Daneben werden die DWDS-Korpora (neben Verlinkungen von den Wortartikeln bzw. von Wortübersichtsseiten) sowie statistische Auswertungsmöglichkeiten der Korpora mit eigenen Zugängen angeboten. So beeindruckend die Informationsfülle und -dichte der Wortartikel ist, die Logik des Zugangs zum gesamten Informationsangebot des DWDS folgt dem Aufbau der Ressource als Wörterbuch, seiner Makrostruktur, und wird dominiert von einem Wortbegriff als ‚angesetztes Stichwort‘‚ als sog. (lexikographisches) ‚Lemma‘. Schlägt man die beiden zur Auswahl stehenden Formen im DWDS-Portal oder im Wörterbuch nach, so wird man für das Beispiel hältst mit entsprechendem Hinweis auf die Wortartikel-Seite des Verbs halten geleitet; für das Beispiel hälst wird stattdessen eine Übersichtsseite erzeugt, die die Ergebnisse der Recherche in den verschiedenen Teilkorpora zusammenfasst, mit dem Hinweis, dass die Anfrage nicht in den lexikalischen Quellen enthalten ist. Vor dem Hintergrund der Ausrichtung des Angebots sind diese Reaktionen verständlich. Auch wenn nicht ganz transparent ist, warum sie einmal so und einmal anders ausfallen, kann aufgrund der Fehlanzeige in nur einem Fall geschlossen werden, dass dieser bestimmten Vorgaben nicht folgt.
Der Duden bietet in seinem online-Auftritt (vgl. Abbildung 3) tatsächlich einen eigenen Eintrag zur orthographisch erwünschten Schreibweise an, obwohl eine flektierte Wortform ungewöhnlich für eine Stichwortansetzung ist. Die unerwünschte Form ist nicht als eigener Eintrag gebucht. Eine Suche wird auf der Duden-Seite auch nicht intern weitergeleitet; bei einer Google-Suche greift aber wieder die oben gezeigte Umformulierung.
Ausschnitt aus Duden-online Eintrag zu hältst8
Grundsätzlich ist der Zugang zu den Informationen der bisher diskutierten Ressourcen in der technischen Handhabung sehr niedrigschwellig. Für die lexikalischen Ressourcen wie den Duden oder den hier angesprochenen Teil des DWDS besucht man die entsprechenden Webseiten oder startet die Apps, bei denen jeweils ein einfaches Eingabefeld angeboten wird. Auch wenn es z.T. weitere Einstellmöglichkeiten gibt, ist der klassische Weg, etwas in das Eingabefeld einzutippen und eine Anfrage zu starten. Der eingegebene Ausdruck entspricht der sprachlichen Einheit, über die man etwas wissen möchte, in der Hoffnung, dazu einen Wortartikel zu finden oder weitergeleitet zu werden, oder aus dem Vorhandensein im Artikeltext Schlüsse ziehen zu können. Epistemisch-konzeptionell ist der Zugang zu diesen Ressourcen insoweit niedrigschwellig, wie sich die Fragestellung auf lexikalische Einheiten (in ihrem letzten Bearbeitungszustand) bezieht.
Betrachtet man Google, aber vor allem auch ChatGPT, als Zugänge zu Informationen, die aus Teilen des Internets zusammengetragen und evtl. zusammengefasst werden, liegt nahe, die Anfrage expliziter zu formulieren. Dies ermöglicht auch Anfragen für ein größeres Spektrum an Fragen, die ein linguistisches Interesse ausdrücken. Intuitiv bietet dieser Weg die Möglichkeit, quasi so zu kommunizieren ‚wie im Unterricht‘ mit einer Lehrperson. Wie an dem Beispiel oben gezeigt, kann aber sein, dass der Zugang nicht so einfach niedrigschwellig ist, sondern eine reflektierte, schärfer konturierende Anfrage braucht.
Fortsetzung des Chats mit ChatGPT 4o mini9
Sofern alle denkbaren Varianten an Schreibweisen aufzählbar sind, wäre sinnvoll, diese als Alternativen abzufragen (vgl. Abbildung 4).
Wenn ChatGPT gefragt wird, woher es denn weiß, wie Wörter geschrieben werden, verweist es auf seine Datengrundlage. In der seien sowohl das amtliche Regelwerk von 1996 als auch dessen Überarbeitungen, sowie weitere Trainingsdaten. Warum ChatGPT trotzdem bei Regelinterpretationen falsch liegt, wie auch folgendes Beispiel zeigt (vgl. Abbildung 5), könnte u.a. daran liegen, dass die Priorisierung der neueren Regeln nicht berücksichtigt wird.
Fortsetzung des Chats mit ChatGPT 4o mini10
Im Zweifelsfall wäre es dann also doch besser, für diese Art von Fragen selbst im Regelwerk nachzuschauen oder sich auf eine Quelle zu verlassen, die sich professionell damit beschäftigt wie z.B. der Duden (vgl. Abbildung 6).
Auszug aus Eintrag bei Duden-online zu dem Stichwort Tolpatsch11
Aber auf welche Art von Information zielt denn eigentlich die gestellte Frage? In der zu Anfang verwendeten einfachsten Form ist die Frage offensichtlich so vage, dass ChatGPT verständlicherweise Schwierigkeiten hat. „Wie schreibt man X?“ legt einerseits die Interpretation nahe „Wie soll man X schreiben?“ im Sinne einer Regelung, die von einer autoritativen Instanz festgelegt wird. Dies ist für die deutsche Sprache mittlerweile der Rat für deutsche Rechtschreibung12, der Duden gilt aber auch immer noch als Paradebeispiel für die Berücksichtigung und Darstellung des Regelwerks bei seinen Publikationen. Andererseits lässt sich die Frage auch dahingehend deuten als „Wie wird X (aktuell) üblicherweise geschrieben?“. Um das beurteilen zu können, müssen wir den Sprachgebrauch beobachten und auswerten. Ganz unabhängig voneinander sind die beiden Perspektiven aber heutzutage nicht mehr, da der Rechtschreibrat selber den Sprachgebrauch beobachtet (vgl. Rat für deutsche Rechtschreibung 2015; Krome 2022), um seine Empfehlungen anzupassen. Das Mittel der Wahl sind hierfür Korpora aktueller authentischer Daten, möglichst mit einem ausreichenden Anteil an Texten, der das dynamische Potenzial der Sprache zum Ausdruck bringt.
Die eigentlichen Ressourcen, die in diesem Abschnitt diskutiert sind (auf die Google verweist bzw. die ChatGPT auswertet), stellen im Wesentlichen auf einem bestimmten Stand rückblickend Informationen zu sprachlichen Objekten dar13 mit wenig explizit authentischem Material – außer zufällig ausgewählten Belegen und aggregierten quantitativen Auswertungen. Wenn Lernende intensiver mit dem authentischen Material arbeiten wollen, müssen sie doch selber in Korpora reinschauen.
3.2 Zugang zu Korpora
Grundsätzlich können Korpora selbst aufgebaut, die nötige Zugangssoftware selbst entwickelt oder von einem Drittanbieter installiert werden. Im Folgenden soll es aber um sehr große Referenzkorpora und ihre Zugangssysteme gehen, die von entsprechend ausgestatteten Instituten aufgebaut und gepflegt werden – wie die DWDS-Korpora der Berlin-Brandenburgischen Akademie der Wissenschaften oder das Deutsche Referenzkorpus DeReKo vom Leibniz-Institut für Deutsche Sprache.
Der Zugang zu schriftsprachlichen Korpora kann ähnlich einfach angeboten werden wie bei den o.g. Ressourcen. Über den Aufruf einer Webseite werden verschiedene Einstellmöglichkeiten und (mindestens) ein Eingabefeld angeboten. Nach Eingabe eines Suchausdrucks in das Suchfeld und dem Drücken eines Buttons beginnt die Suche und das Ergebnis wird auf dem Bildschirm dargestellt. Auf der Zugangsseite für die DWDS-Korpora14 z.B. werden verschiedene Korpora zur Auswahl angeboten, lässt sich ein Zeitraum einstellen, lassen sich Teilkorpora abwählen und die Darstellung der Ergebnisse anpassen. Unterhalb des Eingabebereichs wird eine Liste verfügbarer Korpora angezeigt u.a. mit einer Kennzeichnung des Zugangs als „frei“ oder „Anmeldung“.
Vermutlich werden die meisten Nutzenden die Einstellungen zunächst beibehalten und einen Ausdruck in dem Eingabefeld ausprobieren. Insofern ist der Zugang bis hierher sehr niedrigschwellig und ein guter Anreiz, solange die Auswirkungen der Einstellungen und die Art der Suchausdrucksformulierung keine Rolle spielen. Wählt man als Eingabe das o.g. Beispiel hälst, bekommt man einen ersten Ausschnitt der gefundenen 499 (von 500 Treffern insgesamt15) und Hinweise in der Randspalte auf Treffer in weiteren Korpora. Diese Treffermenge kann man nun der Reihe nach abarbeiten, ggf. neu sortieren lassen und auch exportieren. Bei chronologisch absteigender Sortierung ist der oberste Treffer zzt. der Eintrag in Wikipedia zu dem Stichwort Rechtschreibfehler datiert auf den 21.12.2024, der auch verlinkt ist. Einerseits ist es zwar charmant, dass die Antwort auf die normative Lesart unserer Frage so prominent angeboten wird. Andererseits hat dies aber nichts mit der Frage nach dem Gebrauch zu tun und ist durch die Anordnung zufällig und verzerrend nach oben geraten: Das Datum ist lediglich das Datum der letzten Änderung des Wikipedia-Artikels. Die Wortform hälst tauchte bereits in dessen erster Fassung aus dem Jahr 2005 auf.
Für weitere Auswertungen quantitativer Art u.a. für zeitliche Häufigkeitsverläufe bietet das DWDS weitere Seiten an16. Auch dort lässt sich der Suchausdruck eingeben (sowie bis zu drei weitere im Vergleich) zur Generierung einer Zeitverlaufskurve, über weitere Seiten auch zum Abrufen eines Wortprofils und zu Kollokationsverläufen.
Was besagt aber jetzt die Trefferzahl 499 oder der Zeitverlauf? Ist die Schreibweise nun die übliche oder nicht? Eine eindimensionale Betrachtung reicht für die Beantwortung der Frage nicht aus. Wenn nicht erwartet wird, dass alle Treffer einzeln von Hand ausgewertet werden, sollten weitere Ergebnisüberblicke betrachtet werden nach verschiedenen Kriterien, um die Verwendung dieser Schreibweise in die verschiedenen Dimensionen des Sprachgebrauchs einordnen zu können. Mindestens aber sollte die zweite zur Auswahl stehende Form17 verglichen werden, um die Aussage der Größenordnung einschätzen zu können. Auf die Eingabe hältst werden 1.064.441 Treffern (1.082.715 insgesamt) gemeldet.
An einer derartigen Stelle entscheidet sich, ob eine korpuslinguistische Studie18 seriös durchgeführt wird. Werden nun einfach die Zahlen nebeneinandergestellt und der hohe Frequenzunterschied als klare Bevorzugung der einen Form interpretiert? Oder werden die Zahlen hinterfragt, ob sie insgesamt so stimmen können, und, ob sie nicht differenziert für verschiedenen Sprachausschnitte bestimmt werden müssten?
Dazu muss auch geklärt werden, wie beim DWDS Suchausdrücke ausgewertet werden, die nicht besonders gekennzeichnet sind. Mit etwas Glück kann man bereits eine Vermutung anstellen, wenn man sich die Trefferobjekte in der Ergebnisübersicht anschaut – dies hängt aber sehr stark daran, wie groß die Treffermenge und die Streuung unterschiedlicher Varianten bei dieser ist. In unserem Beispiel vermutet man, dass bei hälst keine Variation ist (die einzige Großschreibung folgt viel weiter unten), während bei hältst alle möglichen flektierten Formen des Verbs halten erscheinen. In der Dokumentation zur Suchanfragesprache findet sich dann tatsächlich auch der erklärende Hinweis, dass die unmarkierte Suche lemmabasiert durchgeführt wird, d.h. in computerlinguistischer Lesart, dass alle flektierten Formen aus dem Paradigma eines Wortes gemeinsam gesucht werden, üblicherweise durch Angabe der minimal markierten Grundform. Bei Verben wäre dies die Angabe des Infinitivs. Die Suchanfrage nach dem Infinitiv zu hältst, also halten, liefert exakt die gleichen Zahlen. Die DWDS-Korpussuche ersetzt also die Suche nach einer bekannten flektierten Form aus einem Paradigma mit der Suche nach dem gesamten Paradigma. Für die Form hälst wird dies so nicht angewandt, da diese Form nicht dem Paradigma zugeordnet wird.
Auswertung verschiedener Suchanfragen an das DWDS-Korpus.
| hälst | halten | hältst | |
| X | 499 (von 500) | 1.064.441 (von 1.082.715) | 1.064.441 (von 1.082.715) |
| @X | 464 (von 465) | 297.609 (von 302.165) | 4.861 (von 5.002) |
| X|case | 499 (von 500) | 1.064.677 (von 1.082.951) | 0 |
| /X/gi | 499 (von 500) | 312.553 (von 317.306) | 5.568 (von 5.730) |
| X|lemma | 499 (von 500) | 1.064.441 (von 1.082.715) | 1.064.441 (von 1.082.715) |
| X|lemma|case | 499 (von 500) | 1.064.677 (von 1.082.951) | 1.064.677 (von 1.082.951) |
Durch eine explizite Kennzeichnung kann vorgegeben werden, wie der Suchausdruck zu handhaben ist (vgl. Tabelle 1):
-
vorangestelltes @ bedeutet „exakte Form“,
-
„|case“ alle Variationen von Groß-/Kleinbuchstaben (ergänzt noch mehr Formen anderer Wortklassen zum expandierten Lemma?19 nicht anwendbar auf bekannte flektierte Formen?),
-
„//gi“ betrachtet Eingabe als regulären Ausdruck (hier ohne Funktion, da keine regulären Elemente) mit der Erweiterung global insensitiv zu suchen (also Groß-/Kleinschreibung bei allen Buchstaben des Ausdrucks nicht zu beachten),
-
„|lemma“ leitet weiter an die Auswertung als Lemma,
-
„|lemma|case“ dasselbe kombiniert mit oben.
Die unmarkierte Suche nach einer Form, für die kein klassisches Lemma vorhanden ist, wird nicht durch die Suche nach der exakten Form ersetzt, sondern durch eine, bei der die Groß-/Kleinschreibung toleriert wird. Um Vergleichbarkeit herzustellen, müsste man also entweder beide Formen gleichermaßen markieren (wie in Zeile 2 oder 4) oder sich zumindest für hältst an der vierten Zeile orientieren. Und für die Angaben in den Zeilen sehen die Unterschiede in der Größenordnung der Treffermenge schon gar nicht mehr so deutlich aus.
Vor dem Hintergrund, dass sich das gesamte Angebot des DWDS um ein Wörterbuch herum arrangiert, ist vollkommen plausibel, dass auch jede Anfrage, auch an das Korpus, als Anfrage nach einer intuitiven Vorstellung von einem ‚Wort‘ gedeutet wird. Für die Umsetzung muss aufgrund der Größe der Korpora dann auf eine technische Umsetzung des Konzepts zurückgegriffen werden, die nicht immer der intuitiven Vorstellung entspricht und auch nicht in allen Fällen funktioniert. Etwas versteckt findet sich darauf auch ein Hinweis auf den DWDS-Seiten (vgl. Lemnitzer 2023), allerdings auch ohne weitere Angabe, welche Technik eingesetzt wird.
Der Zugang zu den DWDS-Korpora ist insofern also nur bedingt niederschwellig, soweit die Fragestellung mit einem kompatiblen Lemmabegriff umgesetzt werden kann. Sobald es davon Abweichungen gibt, muss doch mehr Aufwand getrieben werden, um nachvollziehen zu können, wie die Suchanfragen umgesetzt werden, bzw. um herauszufinden, wie kontrolliert werden kann, dass sie so umgesetzt werden wie gewünscht. Der eingangs diskutierte Problemfall liegt also offensichtlich außerhalb des DWDS-Fokus; trotzdem wäre wünschenswert, dass die unterschiedlichen Interpretationen gleichgestalteter Eingaben transparenter gemacht werden – zumal zusätzlich zu den technischen Besonderheiten auch unterschiedliche Konzeptionen des Lemmabegriffs zu vergleichbaren Schwierigkeiten führen können. Die unscharfe Abgrenzung zwischen zwei Wörtern kann etymologische Gründe haben (wie mögen vs. möchten) oder etwa mit Wortklassenübergängen zusammenhängen. Ob Partizipien, die auch adjektivisch, somit ggf. flektiert, gebraucht werden, die Ansetzung eines eigenen Lemmas rechtfertigen oder nur als Form im Paradigma des Verbs betrachtet werden, wird unterschiedlich gehandhabt, je nachdem als wie eigenständig das Partizip empfunden wird. Andere Wörter, die ‚gefühlt‘ ein Lemma darstellen, werden aufgrund unterschiedlicher Funktionen mehrfach angesetzt (wie z.B. rechts – adverbial vs. recht+Flektion – attributiv, analog links/link). Man kann dafür plädieren, dass es z.B. aus syntaktischen/syntagmatischen Gründen sinnvoll ist, die funktionalen Teilmengen getrennt zu untersuchen. Für die Betrachtung des Wortes für ‚auf der rechten Seite‘ sollten Untersuchungen für alle Teilmengen durch- und zusammengeführt werden, z.B. gerade auch dann, wenn man die Verwendung des (Gesamt-)Lemmas im politischen Kontext auswerten möchte. Inwieweit dies auf der Agenda einer korpuslinguistischen Untersuchung umgesetzt wird oder bei der Arbeit mit Korpusdaten erkannt und nachjustiert wird, hängt auch davon ab, wie transparent der Zugang zu den Daten ist oder aufgrund eines kontrollierenden Querblicks (etwa über die Konkordanzen) rekonstruiert werden kann.
Analog verhält es sich mit Schreibvarianten von Wörtern, die aufgrund von Rechtschreibreformen (oder einfach auch ungesteuertem Sprachwandel) bestimmte Formen ablösen oder für eine Übergangszeit koexistieren. Wenn ein semantisch motivierter Lemmabegriff angesetzt wird, sollten alle Formen mit allen Schreibweisen gemeinsam betrachtet werden, gerade auch im Hinblick auf den Vergleich mit anderen Wörtern mit unveränderten Schreibweisen, der sonst durch die Einschränkung auf nur eine Schreibweise verzerrt werden kann. Für die Betrachtung, wie sich verschiedene Schreibweisen im Gebrauch zueinander verhalten, ist hingegen notwendig, dass zwei getrennte, dann wieder graphematisch motivierte Lemmata angesetzt werden. Im DWDS-Wörterbuch wird z.B. nur das Stichwort platzieren geführt mit der Schweizerischen Nebenschreibweise placieren. Die Form plazieren wird mit Bezug zur letztgenannten Variante auf den gleichen Artikel weitergeleitet. Alle Schreibweisen von Formen des Verbs in dem Artikel folgen der aktuellen Regelung, entweder aufgrund einer entsprechend eingeschränkten Recherche oder einer händischen Anpassung, da sogar der eingebettete Artikel des elektronischen Wörterbuchs der deutschen Sprache, datiert auf das Jahr 1974, diese Formen verwendet. Einzig das Etymologische Wörterbuch greift ausschließlich auf die alte Schreibweise (und die Schweizerische Nebenform) zurück. Recherchen im DWDS-Korpus führen gemäß oben beschriebener Auslegung des Lemmabegriffs zu zwei disjunkten Treffermengen getrennt nach den unterschiedlichen Stämmen. Nach dem Hinweis auf das Partizip-Zuordnungsproblem ist im Vergleich dann auch interessant, wie die DWDS-Anfragen zu den Formen platziert, platzierte und platzierten gehandhabt werden: Alle Formen können evtl. adjektivisch gebrauchte Formen des Partizips sein („der Schuss war gut platziert“, „der gut platzierte Schuss“, „die gut platzierten Schüsse“) oder auch Formen aus dem Verbparadigma („er platziert/platzierte sein Handtuch“, „sie platzierten ihre Handtücher“). Die ersten beiden Formen werden im Wörterbuch auf den Artikel des adjektivischen Partizips, das dritte kurioserweise auf das Verb geleitet, Recherchen im Korpus werden hingegen größtenteils auf das Verblemma zurückgeführt (platzieren, platziere, platzierte, platzierten: je 36599 von 36907) – außer dem mehrdeutigen unflektierten Partizip (platziert 40729 von 41068) und explizit erkennbaren Adjektiven (platziertem 4130 Treffern von 4161), erstere also vermutlich auf die Vereinigungsmenge, letztere nur auf adjektivische Verwendung. Vermutlich werden die Mehrdeutigkeiten intern über mehrfach zugewiesene POS-Tags aufgelöst und bilden damit deren Unsicherheiten ab, ohne die gleichzeitig ermittelten Zuversichtswerte zu berücksichtigen.
Zeitverlaufskurve für platzieren vs. plazieren20
Die getrennte Handhabung der verschiedenen Schreibweisen eines Wortes ist z.B. dafür sinnvoll, um dokumentieren zu können, wie sich die Schreibweisen im – im Korpus abgebildeten – Sprachgebrauch verhalten (vgl. die DWDS-Zeitverlaufskurve in Abbildung 7). Eine derartige Betrachtung wäre nicht leicht möglich, wenn alle Formen zusammen als zu einem Lemma gehörig betrachtet werden.
Eine weitere Möglichkeit, Treffermengen differenziert zu betrachten – neben der Übersicht der Treffer in den verschiedenen Teilkorpora in der Randspalte –, ist die Darstellung des Zeitverlaufs getrennt nach den im DWDS-Korpus vergebenen Textklassen (vgl. Abbildung 8).
Zeitverlaufskurve für hälst (mit Groß-/Kleinschreibung)21
Die Ausschläge sind aufgrund der unterschiedlich dichten Datengrundlage jedoch schwierig zu interpretieren, zumal die stärksten Ausschläge den Kategorien „internetbasiert“ bzw. „gesprochen“ entstammen. Wie schwierig es ist, den betroffenen Textausschnitten internetbasierter Daten das korrekte Entstehungsdatum zuzuordnen, wurde oben bereits diskutiert, ebenso wie bei Daten gesprochener Sprache die Transkribierung eine entscheidende Rolle für die Authentizität spielt.
4. Die andere Philosophie
Wir haben als am besten passend ermittelt …
Meinten Sie …
(Rückmeldungen des DWDS bzw. von Google bei quasi erfolglosen Suchen)
Zugangssysteme zu anderen Korpora wirken auf den ersten Blick nicht so nutzerfreundlich und niederschwellig. Dies mag zum Teil daran liegen, dass sie sich nicht auf einen so engen Anwendungsbereich wie die lexikalischen Fragestellungen beim DWDS fokussieren oder dass sie die Nutzenden stärker in die Pflicht nehmen, daran zu denken, dass sich viele Begriffe nicht so leicht und auch nicht so eindeutig operationalisieren lassen, wie dies z.T. beim DWDS als gut gemeintes Entgegenkommen versucht wird, aber nicht immer – wie bei den oben gezeigten Beispielen – transparent gelingt. Die Angebote des Leibniz-Instituts für Deutsche Sprache rund um das Deutsche Referenzkorpus DeReKo verfolgen diese andere Philosophie, noch sehr klassisch mit dem bewährten System Cosmas II, etwas variabler mit den Möglichkeiten um das neue System KorAP herum (vgl. auch Perkuhn 2022).
4.1 Registrieren/Anmelden
Die Nutzung der allermeisten Texte in allen Korpora unterliegt rechtlichen Vorgaben, auch wenn diese Texte vermeintlich frei im Internet zur Verfügung stehen. Quellen wie z.B. Wikipedia stellen ihre Artikel und Diskussionen hingegen explizit frei unter einer Lizenz zur Verfügung, die eine Weiternutzung in Korpora ermöglicht. Für andere Quellen müssen die Nutzungsrechte ausgehandelt werden, oft mit einer Lizenzgebühr und einer Einschränkung verbunden. Die Einschränkungen sind üblicherweise, dass nur kurze Textstellen im Sinne des Zitationsrechts angezeigt werden dürfen, dass die Daten nur für wissenschaftliche, nicht aber für kommerzielle Anwendungen verwendet dürfen, gelegentlich leider auch, dass die Daten nur innerhalb des Instituts genutzt werden dürfen. Das IDS verpflichtet die Endnutzenden durch die Endnutzervereinbarung auf die Einhaltung der ausgehandelten Vorgaben und benötigt dafür eine Registrierung, mit der ein Nutzerkonto einer realen Person zugeordnet werden kann. Für die Nutzung von Cosmas II ist die Registrierung pauschal verpflichtend; mit KorAP ist eine Nutzung der freien Quellen auch ohne Registrierung möglich, für den Zugang zu den geschützten Daten aber auch erforderlich. Eine Ausnahme stellen Anwendungen dar, die nur quantitative Angaben auswerten (wie z.B. Zeitverlaufsgrafiken wie oben gezeigt). Diese sind zzt. allerdings noch nicht über KorAP selber, sondern nur über Programmbibliotheken für R oder Python möglich.
Beim DWDS verhält es sich im Übrigen nicht viel anders. Auch dort werden ohne Anmeldung nur freie Texte (oft Wikipedia oder vergleichbare Quellen) oder quantitative Auswertungen angezeigt, Zugang zu allen Daten erfordert auch dort eine Registrierung.
Die Nutzung der lizenzrechtlich eingeschränkten Daten für den (Sprach-)Unterricht ist bisher nicht explizit vorgesehen22. Ohne eine rechtlich verbindliche Aussage treffen zu dürfen, betrifft dies aber vermutlich vor allem die Übernahme des konkreten Textmaterials in Lehrwerke. Gegen die den Regeln konforme Nutzung der Daten durch Lehrpersonen oder Lernende als Privatpersonen dürfte es kaum Einwände geben insofern, als dass das Arbeiten mit den Korpora als ‚kleine akademische Studie‘18 ausgelegt werden kann. Eine Gruppenregistrierung für Klassen oder Kurse ist allerdings nicht vorgesehen.
4.2 Auswahl vordefinierter oder selbst definierbarer Korpora
KorAP bietet bereits auf der Startseite – ähnlich wie beim DWDS – ein Eingabefeld und zwei Auswahlmenüs. Cosmas II verlangt von den Nutzenden vorweg einen zweistufigen Auswahldialog. Dahinter verbirgt sich die Notwendigkeit für die Entscheidung für einen bestimmten Datensatz, mit dem gearbeitet werden soll. Dies geschieht beim DWDS analog durch die Nicht-Veränderung der dort vorgeschlagenen Einstellungen. Um einen ersten Eindruck zu kommen, kann man bei Cosmas II für viele Fragestellungen einfach auf die jeweils erste Zeile doppelklicken. Damit hat man den Gesamtbestand des ersten Archivs W ausgewählt, das den größten Zeitraum und die größte Streuung an unterschiedlichen Quellen umfasst. Das erste Archiv ist die Fortführung des historisch gewachsenen Hauptbestands und stellt etwa ein Viertel des Datenbestands des DeReKo dar. Der Rest verteilt sich auf die Archive W2 bis W4, die aus technischen Gründen erforderlich wurden. In den verschiedenen Archiven kann nicht gemeinsam recherchiert werden, sondern nur getrennt nacheinander. Mit KorAP kann zzt. noch nicht im gesamten DeReKo recherchiert werden, aber dafür gemeinsam in einem größeren Archiv, das die Bestände aus dem Cosmas II-Archiv W sowie weitere Daten aus den anderen Archiven umfasst.
Ein wesentliches Element einer korpuslinguistischen Studie18 ist die Reflexion, inwieweit sich ein beobachtetes Phänomen auf verschiedene Ausschnitte der Sprache gleicher- oder ungleichermaßen verteilt. Dazu ist vorweg erforderlich, dass es eine Möglichkeit gibt, sich mit der Zusammensetzung des Korpus auseinanderzusetzen – auch um auszuschließen, dass das Phänomen aufgrund der Zusammensetzung des Korpus nicht verzerrt abgebildet wurde. Die Zusammensetzung eines beliebigen ausgewählten Korpus lässt sich bei Cosmas II durch Anklicken der kleinen Lupe oben rechts anzeigen. Zu dem aktuell definierten Korpus bietet KorAP bisher als Information nur eine Zusammenfassung quantitativer Angaben, weitere Übersichten können bisher nur Script-basiert erstellt werden.
Für viele Fragestellungen kann es (evtl. in einem zweiten Durchgang) sinnvoll sein, nur mit einem Ausschnitt der Daten zu arbeiten23, mit einem sog. virtuellen Korpus. In Cosmas II können virtuelle Korpora über einen Auswahldialog auf ausgewählten Ebenen (wie z.B. Quelle und/oder Zeitraum) selbst definiert, benannt und in späteren Sitzungen wiederverwendet werden. In KorAP können durch Aufklappen des linken Menüs („in … Korpora/Korpus“) virtuelle Korpora über Kombinationen von Belegungen beliebiger Metadaten definiert werden, am einfachsten über die Angaben aus konkreten Beispielen heraus. Diese Schritte erfordern zwar einen gewissen Einarbeitungsaufwand, gehen aber auch weit über die Möglichkeiten des DWDS hinaus.
4.3 Suchausdruck
Für das System Cosmas II wurde eine Anfragesprache entwickelt, die unter diesem Namen auch unter KorAP angeboten wird. Unter KorAP können über das rechte Menü („mit …“) auch andere Anfragesprachen ausgewählt werden, die aber eher dann zu empfehlen sind, wenn Nutzende bereits damit vertraut sind oder sie ganz spezifische Anliegen haben. Die folgenden Ausführungen konzentrieren sich auf die Cosmas II-Ausdrucksmöglichkeiten.
Bei den Suchausdrücken in bzw. à la Cosmas II versuchen die Angebote des IDS zu vermeiden, dass etwas hineininterpretiert wird, was die Nutzenden wohl gemeint haben könnten. Nutzende werden in der Hinsicht stärker als beim DWDS in die Pflicht genommen, bewusst zu formulieren, ob sie die Eingabe buchstäblich meinen oder eine Auslegung wünschen – denn nur sie selber können am besten beurteilen, was ihrer Fragestellung gerecht wird. Nicht alle Untersuchungen sind Lemma-orientiert oder können sich auf die Operationalisierungen des technischen Lemmabegriffs verlassen.
Ohne Kennzeichnung wird eine eingegebene Zeichenkette immer als buchstäbliche Vorgabe des gesamten Trefferobjekts (also inkl. Wortgrenzen) betrachtet; Ausnahmen bilden die drei Zeichen „*“, „?“ und „+“, die als Sonderzeichen interpretiert werden. Sollen diese explizit gesucht werden, müssen sie durch ein vorangestelltes „\“ zum Nicht-Sonderzeichen deaktiviert werden. Dies ist zu beachten, wenn z.B. nach Ausdrücken mit dem Genderstern gesucht werden soll. Der Ausdruck „Lehrer\*in*“ illustriert das Zeichen in beiden Verwendungen, zunächst maskiert als Genderstern, dann am Ende als Platzhalter für beliebig viele beliebige Zeichen am Wortende („+“ steht für evtl. ein beliebiges Zeichen, „?“ steht für genau ein beliebiges Zeichen). Grundsätzlich steht auch ein Operator für die Verwendung des gesamten Repertoires regulärer Ausdrücke zur Verfügung, die aber eine eigene Einarbeitung oder zumindest ein gutes Verständnis beispielhafter Musterausdrücke voraussetzt. Die Behandlung von Groß-/Kleinschreibung sowie auch von diakritischer Variation der einzelnen Buchstaben lässt sich getrennt davon über Optionen steuern.
Soll die Anfrage Lemma-orientiert ausgewertet werden, ist sie dergestalt zu kennzeichnen, dass der Grundform des Paradigmas, das von Interesse ist, das Zeichen „&“ unmittelbar vorangestellt wird (z.B. „&platzieren“ oder „&platziert“). Bei dieser Art der Umsetzung der Lemmainterpretation wird nicht versucht, Unsicherheiten bei der Zuordnung zu verschiedenen Lemmata, zu verschiedenen Wortklassen oder zu Lesarten aufzulösen. Stattdessen werden in einem nächsten Schritt alle Kandidaten, die passen könnten, in einer Wortformliste angeboten. Nutzende sind dadurch in der Lage (aber bis zu einem gewissen Grad auch in der Pflicht) zu prüfen, ob alle angebotenen Formen im Sinne ihrer Untersuchungsfrage mitberücksichtigt werden sollen. Falls Formen nicht erwünscht sind, können sie abgewählt werden; falls Formen fehlen, können sie explizit bei der Suchanfrage ergänzt werden. Bei der Angabe von Formen, die der Lemmatisierungsoperator nicht als Grundform deuten kann (wie z.B. „&platzierte“), wird eine leere Liste zurückgemeldet. Da die Kontrolle der Liste auch gerne mal übersprungen wird, ist dies ein zusätzlicher Schutz davor, dass Nutzende durch uneinheitliche Lemmatisierung in solchen Fällen in die Irre geführt werden. Ein relativ häufig beobachteter Fall, dass sich der Lemmatisierer nicht ganz einheitlich verhält, betrifft die Zuordnung der unflektierten Partizip-Formen: Dem Verbparadigma werden diese Formen zugeordnet, dem Partizip-Paradigma aber nicht durchgängig. Unabhängig davon, ob diese Entscheidung auf morphologischen Prinzipien beruht oder auf quantitativen Verteilungen, müssen sich die Anfragenden überlegen, ob dies für ihre Fragestellung eine Rolle spielt; eventuell ist die unflektierte ggf. abzuwählen oder explizit in den Suchausdruck mit aufzunehmen (z.B. „&platziert ODER platziert“).
In Cosmas II, allerdings nicht in KorAP, kann über die Optionen die Lemmatisierung auch in Richtung allgemeiner Wortbildung erweitert werden. In KorAP wird zzt. noch keine Wortformenliste angeboten. Allerdings wird neben dem in Cosmas II üblichen Lemmaoperator auch ermöglicht, mit der Lemmaannotation verschiedener Tagging-Werkzeuge zu arbeiten (zzt. nur TreeTagger), für die es dann allerdings andere Fallstricke zu beachten gilt.
Die Suchanfragen können in allen drei Umgebungen natürlich noch viel komplexer werden, indem sie verschiedene Vorgaben miteinander kombinieren. Eine große Stärke von Cosmas II sind miteinander verknüpfbare Abstandsoperatoren auf mehreren Ebenen (Wort, Satz, Absatz). KorAP sticht bei den Anfragesprachen, die mit Annotationen arbeiten, mit einer Unterstützung durch eine interaktive Benutzerführung hervor, um den mit der höheren Komplexität verbundenen Einarbeitungsaufwand zu reduzieren.
4.4 Ergebnisübersicht/-überblick, Visualisierung
Das Ergebnis einer Recherche wird bei allen Systemen in einer Übersicht dargestellt, auf einer Seite oder in Abhängigkeit von einer einstellbaren Seitengröße auf mehrere Seiten verteilt. Die Übersichten zeigen entweder in ihrer Gesamtheit Treffer in Form des maximal anzeigbaren Textausschnitts bzw. in einer zeilenweisen Darstellung als sogenannte Konkordanz (bzw. als keyword in context-Darstellung: KWIC) oder ermöglichen das punktuelle Umschalten der Darstellungsform, jeweils versehen mit bibliographischen Angaben oder sogar reicheren Metadaten. Cosmas II und das DWDS-Korpussystem bieten dazu verschiedene Sortiermöglichkeiten, beide chronologisch, das DWDS zusätzlich nach Beleglänge. Beim DWDS kann eine Sortierung nach Trefferwort und unmittelbaren Nachbarwörtern aufgebaut werden, Cosmas II erlaubt dafür eine Kombination von bis zu drei Bedingungen über bis zu drei Wörtern vor und nach dem Trefferobjekt. Darüber hinaus kann Cosmas II mit Hilfe einer Kookkurrenzanalyse alle Treffer nach dem systematischen Vorkommen von Partnerwörtern innerhalb eines frei vorgebbaren Kontextfensters auswerten und entsprechend gruppiert mit evtl. mehreren syntagmatischen Mustern versehen präsentieren.
Als weiteres Alleinstellungsmerkmal unter den hier vorgestellten Systemen bietet Cosmas II als Einstieg in die Auswertung einen tabellarischen Überblick der Trefferergebnisse, der zusammenfasst, in welchen Teilbereichen des Korpus wie viele Treffer belegt sind. Nutzende können für den Überblick aus einer Vielzahl von Dimensionen auswählen, sei es auf der Ebene der Korpuszusammensetzung, der Texttypen, thematischer Klassen, aber auch zeitlicher Dimensionen (von Tag bis Jahrzehnt) und Eigenschaften von variablen und Mehrwortsuchausdrücken. Für jede Ausprägung des betrachteten Merkmals bietet Cosmas II an, die jeweils eingruppierten Belegstellen als Konkordanz oder in Maximalansicht anzuzeigen.
Ergebnisüberblick bei KorAP (R-Script-basiert)24
KorAP bietet integriert noch keine derartigen Sortierungen oder Auswertungen. Durch Schnittstellen zu den Programmiersprachen R und Python können aber Script-basiert wesentlich komplexere Auswertungen vorgenommen und visualisiert werden, vergleichbar zu den Zeitverlaufsgrafiken beim DWDS, jedoch individuell für beliebige Suchausdrücke, Dimensionen und Perspektiven gestaltbar. Dazu werden für die interessierenden Ausschnitte je eigene virtuelle Korpora definiert und ausgewertet, eine Vorgehensweise, die sich auch sonst für bestimmte Fragestellungen anbietet und sich mit KorAP, aber auch mit Cosmas II (dort allerdings noch ‚händisch‘) umsetzen lässt. Ziel der über die Scripte erzeugten grafischen Darstellungen ist insbesondere, durch anklickbare Datenpunkte auch Rückverknüpfungen zu den Korpusrecherchen zu integrieren und so einen niederschwelligen Einstieg in das Arbeiten mit KorAP zu ermöglichen.
4.5 Rekonstruieren eines Rechercheergebnisses, Export
Die Ergebnisse von Recherchen werden von keinem der Systeme ohne Zutun der Nutzenden von einer Sitzung zur nächsten aufbewahrt. Alle drei bieten die Möglichkeit, Treffer einer Recherche zu exportieren, meist begrenzt durch eine obere Schranke einer maximalen Anzahl. Alle drei bieten verschiedene Formate an für die Datei, die erstellt wird. Der Online-Dialog für den Export ist beim DWDS sehr schlicht gehalten und bietet nur den bisher beschriebenen kleinen Ausschnitt an Einstellungsmöglichkeiten; für weitere Möglichkeiten, wie etwa einer bestimmten Sortierung, muss man sich etwas tiefer einarbeiten. Bei Cosmas II ist dieser Punkt bereits im Dialog mitberücksichtigt. Darüber hinaus lassen sich bei Cosmas II sowohl Konkordanz- als auch Maximalansicht gleichzeitig exportieren und – was die Exportdatei handlicher und das Weiterverarbeiten angenehmer macht – der Export auf eine zuvor getätigte Auswahl von interessanten Belegen reduzieren. Damit steht nicht nur das primär quantitative Rechercheergebnis en bloc auch ggf. offline für die Weiterverarbeitung mit/in anderer Software zur Verfügung, sondern auch ein konkreter Bearbeitungsstand eines Teils des qualitativen Interpretations- und Bewertungsprozesses.
Für die Wiederaufnahme des reinen Rechercheteils nach einer Sitzungsunterbrechung kann man beim DWDS und KorAP ausnutzen – so wie es bei letzterem die Datenpunkte in den Grafiken auch tun –, dass die Rechercheanfrage in der Adresse der angezeigten Webseite, der sog. URL, kodiert ist. Diese Angabe kann man aus der Adresszeile des Browsers herauskopieren, speichern und auch ggf. weitergeben, damit man selber oder auch andere (wie z.B. Kursteilnehmende) die Sitzung durch Einfügen der Zeile in die Adresszeile wiederherstellen können.
4.6 Weitere Analysemöglichkeiten
Im weiteren Umfeld um das DWDS und DeReKo werden weitere Analysemöglichkeiten angeboten, die sich auf die Zusammenstellung der auffälligsten typischen Wortverbindungen beziehen. Das DWDS nennt dieses Angebot „Wortprofile“, die jeweils Partnerwörter aus der syntaktisch analysierten Umgebung eines Bezugswortes nach Wortklassen getrennt auflistet. Diese Profile wurden auf einem recht aktuellen, vorgegebenen Datenbestand für 400.000 Lemmata berechnet und können auch paarweise auf Gemeinsamkeiten oder Unterschiede hin ausgewertet werden. Die Angebote des IDS verzichten auf eine syntaktische Vor-Analyse und jegliche Kategorisierung u.a. deshalb, weil die Qualität der eingesetzten Werkzeuge gerade für Phänomene, die sich dicht am Sprachwandel entlang bewegen, kaum abschätzbar ist. Die Kookkurrenzanalyse des IDS (vgl. Belica 1995) orientiert sich nur an positionellen Bezügen, kann aber auch positionelle Präferenzen herausarbeiten. Ein Kookkurrenzprofil fasst somit synoptisch alle Phänomenbereiche zusammen, liefert aber gleichzeitig genügend Hinweise, um die obige Kategorisierung o.Ä. erkenntnisgewinnend während der Interpretation herzuleiten. Cosmas II bietet die Kookkurrenzanalyse für beliebige Suchanfragen (insbesondere auch für Lemmata) für beliebige (auch virtuelle Teil-)Korpora an mit diversen Einstellmöglichkeiten zum zu analysierenden Kontext und zur Steuerung des Verfahrens. Ein Export dieser Struktur ist möglich, ein Vergleich zweier Ergebnisse kann nicht innerhalb von Cosmas II, sondern nur über die Exportdateien durchgeführt werden. Für die Auswertung von (Lemma-)Vergleichen25 entstand in den Jahren 2003 bis 2007 am IDS die Kookkurrenzdatenbank CCDB (vgl. Belica 2007), die seitdem allerdings nicht mehr mit aktuelleren Daten fortgeführt wurde. Gemeinsamkeiten bzw. Kontraste lassen sich zwar nicht auf syntagmatischer Ebene explizit anzeigen, dafür aber die Datenbank nach Einträgen mit den stärksten Übereinstimmungen abfragen. Diese similar oder related profiles spielen wiederum eine wichtige Rolle, um mit Hilfe von maschinellen Lernverfahren besondere Verwendungsbereiche oder Lesarten herauszuarbeiten (self-organizing maps: SOM). Dieses Verfahren wurde dann noch modifiziert, um Wortpaare auf dieser paradigmatisch geprägten Ebene auf Gemeinsamkeiten und Unterschiede untersuchen zu können (CNS)26. Um vergleichbare Methoden für aktuelle Daten anwenden zu können, bietet das IDS die sog. DeReKoVecs27 an. Da diese allerdings auf sog. word embeddings ansetzen, ist hierbei die paradigmatische Relation, hier: als Nähe von Positionen in einer räumlichen Vorstellung, die primäre Zugangsebene. Kookkurrenzbeziehungen wurden bei diesen Modellen nachträglich herausgerechnet. Als Datenbestand wird jeweils die aktuelle Version des DeReKo zugrunde gelegt, als Eingabe können nur Wortformen, einzeln, als Aufzählung oder als Alternativen, verarbeitet werden, eine Lemma-orientierte Auswertung ist zzt. noch nicht möglich.
5. Fazit
Korpora sagen einem, wie gesprochen wird bzw. gesprochen werden soll.
(Mythos 8 in Perkuhn / Belica 2006: 6)
Korpora sagen einem natürlich nicht, wie gesprochen werden soll, zumindest nicht im Sinne einer autoritativen Instanz, die offiziell als Norm-gebend verankert ist. Sie können auch keine implizit oder explizit gestellten Zweifelsfragen unmittelbar aus den Daten heraus beantworten. Sie können allerdings aufzeigen, wie die Zweifelsfälle in unterschiedlichen Ausschnitten des im Korpus abgebildeten Sprachgebrauchs evtl. unterschiedlich aufgelöst werden – und liefern damit Anhaltspunkte, wie Experten und Expertinnen, aber auch Lernende diese Fälle einordnen können.
Auch der Rat für deutsche Rechtschreibung spricht nur Empfehlungen aus, auf deren Basis politische Gremien für bestimmte Verwendungsbereiche Regelungen erlassen. Der Rat entwickelt und überprüft seine Empfehlungen ebenfalls auf der Grundlage des tatsächlichen Sprachgebrauchs. An der Stelle kommen Korpora (so weit wie möglich) authentischer Sprachdaten ins Spiel, um die Akzeptanz der Empfehlungen, Präferenzen von erlaubten Alternativen, aber auch natürlichen spontanen Sprachwandel auswerten zu können. Lexikalische Ressourcen, wie die oben Genannten, können nur einen bestimmten Stand der Sprache beschreiben. Es ist nahezu unmöglich, sie über ausgewählte kleine Ausschnitte hinaus aktuell zu halten. Darüber hinaus orientieren sie sich stark an einem semantischen Wortbegriff. Die oben gezeigten Internetzugänge (Google, aber auch ChatGPT) betrachten genau diese Quellen als besonders relevant als Rechercheergebnis bzw. für die natürlichsprachliche Zusammenfassung – eine Bewertung des Sprachgebrauchs findet hierbei nicht statt. Sofern sich ein Informationsbedürfnis im Rahmen dieser Vorgaben stillen lässt, d.h., dass die Aktualität keinen Einfluss hat und dass es um einen Lemmabegriff geht, der sich konzeptionell und operational klar umsetzen lässt, bieten die lexikalischen Ressourcen einen niedrigschwelligen Zugang. Dies gilt auch für die Kookkurrenzdatenbank CCDB des IDS, den Wörterbuchbereich des DWDS und den so fokussierten Zugang zu den DWDS-Korpora.
Für nicht klar definierbar Lemma-orientierte Informationsbedürfnisse verliert der Zugang zu den DWDS-Korpora und den quantitativen Auswertungen schnell seine Niedrigschwelligkeit. Auswertungsstrategien wirken nicht immer intuitiv und transparent. Spätestens damit ist die vermeintliche Kluft zwischen den niedrigschwelligen Angeboten des DWDS und komplexeren Angeboten des IDS gar nicht mehr so groß, genaugenommen sind die Unterschiede auch sonst sehr übersichtlich: Eine Registrierung ist für das Arbeiten mit dem Gesamtdatenbestand für alle Systeme erforderlich, anonymer Zugang zu freien Daten ist auch über KorAP möglich. Der Zustimmung der Datenauswahl durch Nicht-Veränderung der Voreinstellungen entspricht bei Cosmas II zwei Doppelklicks auf die prominentesten Einträge zweier Auswahllisten. Bei der Formulierung der Suchausdrücke darf man nicht erwarten, dass Cosmas II (oder auch KorAP) etwas hineininterpretiert, das Nutzende ‚gemeint‘ haben: Der Suchausdruck wird entweder buchstäblich ausgewertet oder er muss anderweitig gekennzeichnet werden – in allen Fällen bietet Cosmas II einen leichten Weg, Modifikationen einzustellen und deren Wirkung zu überprüfen. Die große Stärke der IDS-Angebote liegt in der Möglichkeit, mit beliebigen virtuellen Korpora zu arbeiten, Ergebnisüberblicke aufgefächert nach verschiedenen Dimensionen anzubieten und Kookkurrenzanalysen zu beliebigen Suchausdrücken durchzuführen. Dies sind alles wichtige Methoden, um (Zweifels-)Fragen aus dem gesamten Bereich des o.g. Spektrums von Orthographie bis Grammatik angehen zu können. Auch wenn Cosmas II keine Visualisierungen der Überblicke integriert hat und diese und weitere aggregierte Auswertungen zzt. noch nicht über KorAP, sondern nur Script-basiert realisiert werden, wird die gesamte Funktionalität in absehbarer Zeit in KorAP zur Verfügung stehen.
Anstelle des Gutscheins für das Fischgeschäft wäre es vielleicht doch eine Alternative, Wissensdurstigen – zugegebenermaßen mit etwas mehr Aufwand entsprechend der Komplexität der Aufgabenstellung – das Angeln beizubringen. Wenn Lernende mit korpuslinguistischen Arbeitsweisen zurechtkommen, können sie selber Indizien für die Beantwortung von Fragen unterschiedlichster Art herausarbeiten.
Notes
- https://www.dwds.de/ (18.02.2025). [^]
- https://www.ids-mannheim.de/digspra/kl/projekte/korpora/ (18.02.2025). [^]
- https://grammis.ids-mannheim.de/fragen/, dort speziell: https://grammis.ids-mannheim.de/fragen/6310 (18.02.2025). [^]
- https://chatgpt.com/ (18.02.2025), das aktuelle frei zugängliche Modell (vgl. den Gutschein für das Fischgeschäft). [^]
- Durch die Möglichkeit einer Spracheingabe besteht eine größere Nähe zur o.g. Unterrichtssituation, dabei wird die Entscheidung auf das speech-to-text-Verfahren verlagert, von dem nicht bekannt ist, auf welches Wissen dieses zurückgreift. [^]
- https://www.google.com/search?q=wie+schreibt+man+h%C3%A4lst (18.02.2025). [^]
- vgl. https://www.dwds.de/d/woerterbuecher (18.02.2025), für Untersuchungen zum aktuellen Sprachgebrauch beachte man bitte auch den fehlenden Korpusbezug der bisher aufgezählten Quellen und deren letztes Bearbeitungsdatum. Nur eine kleine Auswahl der Artikel wurde bisher unter Einbeziehung von Korpusbefunden aktualisiert. [^]
- https://www.duden.de/rechtschreibung/haeltst (18.02.2025). [^]
- https://chatgpt.com/ (18.02.2025). [^]
- https://chatgpt.com/ (18.02.2025), auf die analogen Anfragen in der Form „Wie schreibt man das Wort T…“ hat ChatGPT übrigens jeweils mit der buchstäblichen Antwort reagiert, ohne Hinweis auf falsche oder richtige Schreibweisen, ergänzt mit inhaltlich der gleichen Paraphrase wie oben. [^]
- https://www.duden.de/rechtschreibung/Tolpatsch (18.02.2025). [^]
- https://www.rechtschreibrat.com/ (18.02.2025). [^]
- Für weitere Fallbeispiele lohnt sich ein Blick in Listen rechtschreiblich schwieriger Wörter. [^]
- https://www.dwds.de/r (18.02.2025). [^]
- Laut Tooltip kann der 500. Treffer aus urheberrechtlichen Gründen nicht angezeigt werden. [^]
- Übersicht auf https://www.dwds.de/d/ressources, für Zeitverläufe https://www.dwds.de/r/plot/?q= (18.02.2025). [^]
- Die sich in diesem Fall durch die Unsicherheit der Aussprache des mittleren [t]-Lauts ergibt, für die aber ansonsten auch auf anderem Weg sensibilisiert werden müsste. [^]
- Im Sinne eines Oberbegriffs für das Arbeiten mit Korpora bis hin zum o.g. selbstgesteuerten, entdeckenden Lernen (vgl. Einleitung). [^]
- Erfragbar durch halten|lemma|case && !halten|lemma. [^]
- DWDS-Verlaufskurve für „platzieren · plazieren“, erstellt durch das Digitale Wörterbuch der deutschen Sprache, https://www.dwds.de/r/plot/?view=1&corpus=dwdsxl&norm=date%2Bclass&smooth=spline&genres=0&grand=1&slice=1&prune=0&window=0&wbase=0&logavg=0&logscale=0&xrange=1990%3A2024&q1=platzieren&q2=plazieren (18.02.2025). [^]
- DWDS-Verlaufskurve für „/hälst/gi“, erstellt durch das Digitale Wörterbuch der deutschen Sprache, https://www.dwds.de/r/plot/?view=1&corpus=dwdsxl&norm=date%2Bclass&smooth=spline&genres=1&grand=1&slice=1&prune=0&window=0&wbase=0&logavg=0&logscale=0&xrange=1990%3A2024&q1=%2Fh%C3%A4lst%2Fgi (18.02.2025). [^]
- Eine Erweiterung der Nutzungsrechte auch für explizit didaktische Zwecke wird durchaus strategisch anvisiert, bliebe durch die vermutlich weiterhin bestehende Auflage auf nicht-kommerzielle Nutzungsszenarien beschränkt; für die Nutzung von Audio-/Videodaten ist die Rechtslage oft komplexer, da dabei auch Persönlichkeitsrechte berücksichtigt werden müssen. [^]
- Diskursiv aufgeladene Begriffe (wie z.B. Atomausstieg, Klimakrise, Energiewende, Migration) unterscheiden sich in ihrer konnotativen Verwendung je nach Positionierung der betrachteten Quellen. Für die Untersuchung z.B. der Verwendung des Gendersterns sollte darauf geachtet werden, dass im Wesentlichen nur eine einzige Quelle (nämlich die Tageszeitung taz) für die Dynamik sorgt. [^]
- Hier verbirgt sich also endlich der Hinweis darauf, wie es sich mit den Schreibweisen im Korpus verhält: Hohe Trefferzahlen oder Unterschiede müssen relativiert werden mit Blick auf die Anteile im Korpus, die überhaupt interaktionale Elemente enthalten (für die Anrede in 2. Person) und die evtl. etwas informeller sind. [^]
- S. auch Perkuhn (2019) mit Bezügen zu den hier dargestellten Herausforderungen. [^]
- Zur Anwendung des SOM-Verfahrens s. Vachková / Belica (2009), speziell zum CNS-Verfahren z.B. Marková (2012). [^]
- https://corpora.ids-mannheim.de/openlab/derekovecs/ (18.02.2025). [^]
Literatur und Ressourcen
Beißwenger, Michael / Gredel, Eva / Bartz, Thomas / Flinz, Carolina / Hamdi, Antonia / Herzberg, Laura / Lemnitzer, Lothar / Lüngen, Harald / Radtke, Nadja / Rebhan, Lena / Rüdiger, Jan Oliver / Schmidt, Thomas / Steinsiek, Sarah (2025): Sprachkorpora im Deutschunterricht. Sprachlich-Literarisches Lernen und Deutschdidaktik. Reihe SLLD(E) – Einführungen. Bochum: Ruhr-Universität Bochum.
Belica, Cyril (1995): Statistische Kollokationsanalyse und -clustering. Korpuslinguistische Analysemethode. http://corpora.ids-mannheim.de/ (18.02.2025).
Belica, Cyril (2007): Kookkurrenzdatenbank CCDB - V3. Eine korpuslinguistische Denk- und Experimentierplattform für die Erforschung und theoretische Begründung von systemisch-strukturellen Eigenschaften von Kohäsionsrelationen zwischen den Konstituenten des Sprachgebrauchs. http://corpora.ids-mannheim.de/ (18.02.2025)
Bühler, Hans / Fritz, Gerd / Herrlitz, Wolfgang / Hundsnurscher, Franz / Insam, Bernd / Simon, Gerd / Weber, Heinrich (1971): Linguistik I: Lehr- und Übungsbuch zur Einführung in die Sprachwissenschaft. Germanistische Arbeitshefte, 5, Band 1. Tübingen: Niemeyer.
Fandrych, Christian / Thurmair, Maria (2011): Textsorten im Deutschen. Linguistische Analysen aus sprachdidaktischer Sicht. Tübingen: Stauffenburg.
Kämper, Heidrun / Perkuhn, Rainer (2022): Sprache und Diskurs. In: Sabrow, Martin / Saupe, Achim (Hrsg.): Handbuch historische Authentizität. Göttingen: Wallstein Verlag, 471-481.
Krome, Sabine (2022): Der Rat für deutsche Rechtschreibung im Spiegel von Sprach-, Norm- und Schreibwandel. Bilanz einer wechselvollen Geschichte. In: Sprachreport 38: 1, 26-37. https://doi.org/10.14618/sr-1-2022_krom.
Leech, Geoffrey (1997): Teaching and language corpora: a convergence. In: Wichmann, Anne / Fligelstone, Steven / McEnery, Tony / Knowles, Gerry (eds.): Teaching and Language Corpora. Harlow: Longman, 1-23.
Lemnitzer, Lothar (2023): Nadeln im Heuhaufen oder die Recherche in den Korpora des DWDS. Artikelserie im Blog des Digitalen Wörterbuchs der Deutschen Sprache, Teil 4. https://www.dwds.de/b/nadeln-im-heuhaufen-teil-4/ (18.02.2025).
Marková, Věra (2012): Synonyme unter dem Mikroskop. Eine korpuslinguistische Studie. Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache, Band 2. Tübingen: Narr.
Mukherjee, Joybrato (2002): Korpuslinguistik und Englischunterricht. Eine Einführung. Berlin u.a.: Peter Lang.
Nolting, Antje / Radtke, Nadja (2019): Korpusbasierte Lexikografie. Nutzung von Korpora und Analysewerkzeugen im Unterricht für Deutsch als Muttersprache und Fremdsprache. In: Zeitschrift für Interkulturellen Fremdsprachenunterricht 24: 1, 107-126.
Perkuhn, Rainer (2019): Über die Vergleichbarkeit von Kookkurrenzverhalten. In: Deutsche Sprache 1. Themenheft: Paronymie im deutschen Sprachgebrauch, 42-52.
Perkuhn, Rainer (2021): Korpusfrequenzen und andere Metriken zur Strukturierung von DaF-Lehrmaterial. In: KorDaF – Korpora Deutsch als Fremdsprache 1: 2, 116-136.
Perkuhn, Rainer (2022): Angebote zu den Korpora der deutschen Gegenwartsschriftsprache am Leibniz-Institut für Deutsche Sprache, Mannheim. In: Mitteilungen des Deutschen Germanistenverbandes 69: 2, 142-151.
Perkuhn, Rainer / Belica, Cyril (2006): Korpuslinguistik – Das unbekannte Wesen oder Mythen über Korpora und Korpuslinguistik. In: Sprachreport 22: 1, 2-8.
Perkuhn, Rainer / Keibel, Holger (2009): A brief tutorial on using collocations for uncovering and contrasting meaning potentials of lexical items. In: Minegishi, Makoto / Kawaguchi, Yuji (eds.): Working Papers in Corpus-based Linguistics and Language Education. No. 3. (= TUFS). Tokyo: Tokyo University of Foreign Studies, 77-91.
Rat für deutsche Rechtschreibung (2015): Statut des Rats für deutsche Rechtschreibung vom 17.06.2005 i.d.F. vom 30.03.2015. Aktualisierte Fassung: https://www.rechtschreibrat.com/DOX/statut.pdf (18.02.2025).
Rösler, Dietmar (2023): Deutsch als Fremdsprache – eine Einführung. 2. erweiterte und aktualisierte Aufl. Stuttgart: Metzler.
Schmidt, Thomas (2018): Gesprächskorpora. In: Kupietz, Marc / Schmidt, Thomas (Hrsg.): Korpuslinguistik. (= Germanistische Sprachwissenschaft um 2020, Bd. 5). Berlin / Boston: de Gruyter, 209-230.
Steinmetz, Michael (2022): Ganzschriften im Literaturunterricht. In: Fördermagazin Sekundarstufe 4, 3-8.
Storjohann, Petra (2021): Lerner*innen und ihre neuen Nachschlagemöglichkeiten bei Unsicherheiten mit leicht verwechselbaren Ausdrücken. In: KorDaF – Korpora Deutsch als Fremdsprache 1: 1, 25-50.
Vachková, Marie / Belica, Cyril (2009): Self-organizing lexical feature maps. Semiotic Interpretation and possible application in lexicography. In: Interdisciplinary Journal for Germanic Linguistics and Semiotic Analysis 13: 2, 223-260.
Wallner, Franziska (2013): Korpora im DaF-Unterricht – Potentiale und Perspektiven am Beispiel des DWDS. In: Revista Nebrija de Lingüística Aplicada 13. https://www.nebrija.com/revista-linguistica/korpora-im-daf-unterricht-potentiale-und-perspektiven-am-beispiel-des-dwds.html (18.02.2025).
Biographische Notiz
Rainer Perkuhn ist seit 2002 am Leibniz-Institut für Deutsche Sprache, Mannheim, im Programmbereich Korpuslinguistik. Davor tätig in Forschung/Lehre an den Universitäten Bielefeld, Duisburg, Karlsruhe; Lehraufträge an den Universitäten Freiburg, Mannheim, Göttingen, Heidelberg. Diverse Publikationen und Workshops zu korpuslinguistischer Methodik und Anwendungsbezügen, Schwerpunkte: Operationalisierung von Wortbegriffen u.a. für Frequenzbestimmungen, sowie Kookkurrenzanalyse, beides insbesondere vor dem Hintergrund des Sprachwandels.
Kontaktanschrift:
Rainer Perkuhn
Programmbereich Korpuslinguistik
Leibniz-Institut für Deutsche Sprache
R5, 6–13, D-68161 Mannheim
















