Thematic issue articles
Author: Jan Oliver Rüdiger (Leibniz-Institut für Deutsche Sprache)
Dieser Werkstattbericht zeigt anhand verschiedener korpusbasierter Ressourcen, wie Fragen zu sprachlichen Phänomenen, die für Sprachlernende nicht oder nur unzureichend dokumentiert sind, empirisch beantwortet werden können. Besonderes Augenmerk wird dabei auf OWIDplusLIVE gelegt. Hierbei handelt es sich um ein Werkzeug zur tagesaktuellen Analyse von Token (einzelne Wortformen/Lemmata) und Bi-/Trigrammen (zwei bzw. drei direkt aufeinander folgende Token). Über eine Anbindung an KorAP können zudem Belege aus dem DeReKo (Deutsches Referenzkorpus) abgerufen und analysiert werden.
This hands-on article uses various corpus-based resources to show how questions about linguistic phenomena that are undocumented or poorly documented for language learners can be answered empirically. Special attention is paid to OWIDplusLIVE. This is a tool for the daily analysis of tokens (single word forms/lemmas) and bi-/trigrams (two or three directly consecutive tokens). Via a connection to KorAP, samples from the DeReKo (German Reference Corpus) can also be retrieved and analyzed.
Keywords: Praxisbericht, korpusbasierte Ressourcen, empirische Analyse, Frequenzverlauf, Visualisierung, Hands-on report, corpus-based resources, empirical analysis, frequency distribution, visualization
How to Cite: Rüdiger, J. O. (2023) “EINE DAF/Z-LERNER*IN FRAGT NACH …? Wie man mit empirischen Ressourcen Fragen nach undokumentierten Phänomenen beantworten kann. Ein Rundgang durch verschiedene korpusbasierte Ressourcen”, Korpora Deutsch als Fremdsprache. 3(2). doi: https://doi.org/10.48694/kordaf.3862
Kennen Sie den folgenden Fall: Eine DaF/Z-Lerner*in kommt nach dem Unterricht auf Sie zu und hat eine Frage zu einem besonderen sprachlichen Phänomen, etwa zu einem der folgenden drei Fälle:
Welche Komposita im Deutschen mit einem bestimmten Erst- oder Zweitglied können gebildet werden? Wie unterscheiden sich diese konkreten Wortbildungen voneinander?
Welche Adjektiv-Nomen Kombinationen sind möglich? Welche Abfolge ist (un-)üblich?
Gibt es Variationen einer gegebenen Phrase? Welche Bedeutungsunterschiede sind mit der Varianz verbunden?
Bei allen drei Fällen handelt es sich zudem um sprachliche Phänomene, die nicht in einem Lehrbuch verzeichnet sind, bzw. zu denen es kein fertiges Unterrichtsmaterial gibt. Die Ursachen für fehlende Dokumentation in Lehrwerken, Wörterbüchern oder Unterrichtsmaterialen können vielfältig sein. So kann z.B. das Phänomen recht neu sein (z.B. Neologismen); es kann sich um ein Phänomen einer bestimmten Peer-Gruppen handeln (z.B. Jugendsprache – ggf. tradiert über Popkultur wie z.B. Deutschrap); oder es handelt sich um ein komplexes, aber sehr seltenes Phänomen (ggf. auch einen Fehler, den z.B. nur Muttersprachler*innen machen – also nicht Teil der Sprachnorm ist), so dass dieses in der Regel nicht in Materialien für Sprachlernende dokumentiert wird.
Im Rahmen dieses Artikels sollen verschiedene korpusbasierte Ressourcen vorgestellt werden, die ein Beantwortung der oben gestellten Fälle/Fragen ermöglichen1. Das Gros dieser Ressourcen wurde zum Ziel der sprachwissenschaftlichen Forschung konzipiert – die selektive Auswahl und die folgende Anleitung ermöglichen es aber, diese Ressourcen für den eigenen Lehreinsatz zu nutzen. Je nach Niveaustufe der Lerner*innen, den technischen Voraussetzungen und verfügbaren Ressourcen (z.B. Computer aber auch Zeit) können entweder die Lerner*innen selbst mit diesen Ressourcen arbeiten oder die Lehrpersonen assistieren bzw. nutzen die Ressourcen, um Lernmaterial vorzubereiten.
Der Rundgang durch die verschiedenen korpusbasierten Ressourcen ist so gestaltet, dass die drei skizzierten Fälle als Grundstruktur dienen. Dabei gibt es zwei unterschiedliche Beispieltypen: Die Hauptbeispiele erklären die Grundlagen, an ihnen wird die Bedienung, die Analyse und die Ergebnisbewertung einmalig Schritt-für-Schritt durchgespielt. Zudem gibt es Illustrationsbeispiele, die weitere Verwendungsmöglichkeiten aufzeigen und zum Ausprobieren anregen sollen.
Methodische Grundlagen und Termini werden wo nötig kurz angerissen und allgemeinverständlich erklärt. Ziel ist die Nutzung der vorgestellten Ressourcen im DaF/Z-Unterricht. Für eine tiefergehende Beschäftigung werden die Einführungswerke Bubenhofer (2009), Lemnitzer / Zinsmeister (2015) und Perkuhn / Keibel / Kupietz (2012) empfohlen. Jede Ressource greift auf eine empirische Grundlage, ein Korpus zurück (Singular: Korpus, das / Plural: Korpora, die). Ein Korpus ist nach Lemnitzer / Zinsmeister (2015: 13) „[…] eine Sammlung [authentischer] schriftlicher oder gesprochener Äußerungen in einer oder mehreren Sprachen“. Für die Korpuserstellung können verschiedene Kriterien, je nach Forschungsinteresse herangezogen werden – dieser Aspekt wird aber im Folgenden ausgeblendet – zur Vertiefung sei (A) auf die oben empfohlenen Einführungswerke sowie (B) die Dokumentationen der jeweiligen Ressourcen verwiesen. In der Korpuslinguistik ist ein Korpus in der Regel immer ein digitales (d.h. maschinenlesbares) Korpus, das automatisiert ausgewertet wird. Die folgenden Ressourcen basieren also immer auf einem Korpus und sie erlauben es, über eine Web-Oberfläche mit diesem Korpus zu interagieren, es abzufragen und somit zu untersuchen.
Als erstes kurzes Beispiel soll hier das DWDS2 (DWDS 2023) aufgeführt werden (siehe hierzu auch Flinz 2021). Als Online-Plattform bündelt es insbesondere historische Wörterbücher und Ressourcen. Es werden aber auch neuere Korpusquellen, wie Blogs, Webseiten oder die deutschsprachige Wikipedia integriert. Direkt über die Startseite www.dwds.de kann nach einzelnen Begriffen gesucht werden (siehe Abbildung 1, Punkt 1). Hier z.B. nach ‚Checker‘ – einem jugendsprachlichen Begriff:
Neben den für Wörterbüchern üblichen Verwendungs- und Bedeutungsangaben (siehe Abbildung 1, Punkt 2) erhalten Nutzer*innen des DWDS auch Informationen zu Worthäufigkeiten (siehe Abbildung 1, Punkt 3 Wortverlaufskurve, die eine klare Zunahme der Verwendungshäufigkeit nahelegt), Daten aus verknüpften Ressourcen (siehe Abbildung 1, Punkt 4 – z.B. Synonyme aus dem verknüpften OpenThesaurus3) und Korpusbelege (siehe Abbildung 1, Punkt 5 – Verwendungsbespiele). Bei den Verwendungsbeispielen handelt es sich um reale und damit authentische Beispiele für die Verwendung. Gerade für einen Einstieg in die Arbeit mit korpusbasierten Ressourcen eignet sich das DWDS sehr gut, da sowohl die Bedienung als auch Auswertung sehr nah an einem regulären Wörterbuch orientiert sind.
Eine ähnliche, aber stärker an der Gegenwartssprache orientierte Wörterbuch-Plattform bietet OWID (OWID 2023). Mit www.OWID.de wird eine Suche (siehe Abbildung 2, Punkt 1: Suchbegriff ‚Weg‘ / 2: Suchergebnisse) über verschiedene sprachwissenschaftliche Wörterbücher (siehe Abbildung 2, Punkt 3: Liste aller Ressourcen) möglich. Außerdem bietet OWID mit OWIDplus (siehe Abbildung 2, Punkt 4) einen gesonderten Bereich, in dem sich experimentelle Sprachressourcen finden lassen.
Jede Ressource auf OWIDplus wird mit einer kurzen Einführung vorgestellt. Die Ressourcen bieten dann je nach Konzeption weiterführende Informationen an. Unterhalb des Symbolbilds für die Ressource ist der Ressourcennamen vermerkt (siehe Abbildung 3, Punkt 1). Ein kurzer Beschreibungstext erklärt, das grobe Konzept und mögliche Verwendungsweisen (siehe Abbildung 3, Punkt 2). Jede Ressource ist mit einer Liste von Schlagworten verknüpft (siehe Abbildung 3, Punkt 3). Auf diese kann geklickt werden, um ähnliche Ressourcen zu finden. Eine komplette Liste der Schlagworte kann mit einem Klick auf ‚Filter‘ (siehe Abbildung 3, Punkt 4) angezeigt werden. Über den entsprechenden Button (siehe Abbildung 4, Punkt 5) gelangt man dann zur jeweiligen Ressource.
Besonders reizvoll für den Unterrichtseinsatz von OWID und OWIDplus ist die große Bandbreite an verfügbaren Ressourcen (z.B. zu gesprochener und geschriebener Sprache; einzelnen Analysen; komplexe Datensammlungen zu verschiedenen Gegenstandsbereichen und Phänomenen). Für die eingangs vorgestellten Fälle/Fragen soll primär die Ressource OWIDplusLIVE genutzt werden (Aufruf über einen Klick auf den entsprechenden Button – siehe Abbildung 3, Punkt 5). Mit diesem Tool können tagesaktuelle (zum Vortag) Analysen durchgeführt werden (seit 2020). Bei ‚klassischen‘ Korpora liegen zwischen Korpuserstellung und Auswertung meist mehrere Wochen, Monate oder sogar Jahre4. Daher eignet sich OWIDplusLIVE besonders für aktuelle Phänomene. Die Web-Oberfläche ist nutzerfreundlich gestaltet und es gibt ein kurzes deutschsprachiges Einführungsvideo, dass die wesentlichen Funktionen erklärt.
OWIDplusLIVE umfasst ein Korpus mit aktuell (Stand: 17.11.2023) rund 116 Mio. Token. Als Token werden hierbei alle Wortformen und Satzzeichen gezählt. Bei 400 Token pro Seite entspräche dies in etwa 252 Tausend vollständig bedruckte Seiten oder bei 300 Seiten pro Buch in etwa 840 Büchern. Grundlage für das Korpus bilden kontinuierlich erfasste RSS-Nachrichtenfeeds von 13 deutschsprachigen Zeitungen (11 Deutschland / je eine Zeitung aus Österreich und der Schweiz)5. RSS-Nachrichten sind Kurzmeldungen, die von den Zeitungen zu den einzelnen Artikeln veröffentlicht werden und frei zugänglich sind. OWIDplusLIVE sammelt die Daten fortlaufend und bündelt die Daten am Tagesende zu einem Datenpunkt. So lassen sich sprachliche Phänomene seit dem 01.01.2020 in den 13 genannten Quellen untersuchen. Die Korpusdaten werden zudem automatisiert mit Lemma- und POS6-Informationen angereichert. Die erlaubt es z.B. nach der Grundform (z.B. lieben zu suchen, um alle Wortformen z.B. lieben, geliebt, liebte, etc. zu finden) oder einer Eingrenzung für eine bestimmte Wortart (z.B. Grundform: modern + POS: Adjektiv führt zu den Wortformen: modern, moderne (etwas ist modern) – Grundform: modern + POS: Verb führt zu den Wortformen: modern, moder, modert (etwas modert – im Sinne von Verwesung oder Fäulnis)).
Für diesen ersten Fall sind mehrere konkrete Möglichkeiten denkbar, z.B.: Könnte die DaF/Z-Lerner*in nach einem konkreten Neologismus fragen; oder welche Komposita es im Deutschen im Rahmen der COVID-19-Pandemie gegeben hat7; oder ob ein bestimmtes Wort eher als Erst- oder eher als Zweitglied gebräuchlich ist.
OWIDplusLIVE kann entweder über www.owid.de > OWIDplus > OWIDplusLIVE oder über die direkte URL8 aufgerufen werden. Wenn das erste Mal OWIDplusLIVE startet, erscheint ein Einführungsvideo9 – dieses kann mit „Tutorial beenden“ geschlossen werden10. Die folgende Eingabemaske wird angezeigt:
In dieser Eingabemaske stehen folgende Funktionen zur Verfügung: Als erstes (Abbildung 4, Punkt 1) kann die Suchfenstergröße ausgewählt werden, d.h. es kann ein einzelnes Token (N=1), zwei direkt aufeinander folgende Token (N=2, ein so genanntes Bi-Gramm) und drei direkt aufeinanderfolgende Token (N=3, ein so genanntes Tri-Gramm) gesucht werden. Im konkreten Beispiel werden die Standardeinstellungen (Abbildung 4, Punkt 1: N=1 und Abbildung 4, Punkt 2: Wortform) belassen und in das Eingabefeld (Abbildung 4, Punkt 3) wird das Komposita ‚Angstgegner‘ eingetragen11. Zum Starten der Suchen erfolgt ein Klick auf „Suche ausführen“ (Abbildung 4, Punkt 5). Während die Suche läuft, erscheint eine Ladeanzeige. Nach wenigen Sekunden erscheinen dann die Ergebnisse unterhalb des Suchfelds (Abbildung 5, Punkt 1):
Im Visualisierungsbereich (Abbildung 5, Punkt 2) ist ein Frequenzverlauf zu sehen. Am Ende der Seite listet der „Suchverlauf“ (Abbildung 5, Punkt 3) alle bisherigen Suchen zur Suchfenstergröße N=1 auf und die dazu passenden Übereinstimmungen.
Zum Vergleich mehrerer Tokens kann die Suche mehrfach hintereinander ausgeführt werden. Bsp.: Ein erneutes Ausführen der Suche – zu Layer: Lemma (Abbildung 4, Punkt 2) und ‚Abstiegsangst‘ (Abbildung 4, Punkt 3) führt dazu, dass im Visualisierungsbereich (Abbildung 5, Punkt 2) zwei Zeitverlaufskurven angezeigt werden. Im Suchverlauf (Abbildung 5, Punkt 3) zeigt sich zudem, dass es für das Lemma ‚Abstiegsangst‘ zwei Wortformen (Realisierungen) gibt: Absteigsangst und Abstiegsängste12. Eine weitere Möglichkeit besteht darin, s.g. Wildcards (Platzhalter) zu verwenden. Dazu verwendet man einfach das Zeichen *. So findet eine Suche nach ‚Angst*‘ alle Wortformen, die mit ‚Angst‘ beginnen (z.B. Komposita mit Angst als Erstglied) – eine Suche nach ‚*angst‘ alle Wortformen, die auf ‚angst‘ enden (z.B. Komposita mit Angst als Zweit-/Letztglied). Beispiel für Ergebnisse aus dem Suchverlauf für ‚*angst‘ (Stand: 28.04.2023):
In (Abbildung 6, Punkt 1) ist die Abfrage kurz zusammengefasst zu sehen. Jedes mit der Abfrage verbundene Ergebnis wird einzeln aufgelistet. Gelegentlich kommt es vor, dass eine Abfrage zu viele oder ungewünschte Ergebnisse liefert. Es ist daher möglich, einzelne Ergebnisse abzuwählen, indem man den Haken vor dem jeweiligen Ergebnis entfernt (siehe Abbildung 6, Punkt 2). Die Ergebnisse unterscheiden sich auf mindestens einem Layer (Wortform, Lemma und/oder POS), siehe hierzu (Abbildung 6, Punkt 3 und 4). Für jedes Ergebnis wird ausgewiesen, an wie vielen Tagen (auch in Prozent) der entsprechende Ergebniseintrag im Korpus enthalten ist. Da es pro Tag zu mehr als einer Übereinstimmung kommen kann, wird die Summe aller Vorkommen, sowie die relative Summe (Summe rel.) angegeben (siehe Abbildung 6, Punkt 6)13. Ein verkleinerter relativer Frequenzverlauf (siehe Abbildung 6, Punkt 7) kann Hinweise darauf geben, ob das jeweilige Ergebnis zu bestimmten Zeitpunkten (starker roter Ausschlag nach oben) einen Effekt auf die Gesamtmenge haben kann. Da OWIDplusLIVE nur eine Ressource zum Nachschlagen von Token, Bi- und Tri-Grammen ist und keine Belegstellen bietet, wurde die das Korpus-Recherchesystem KorAP angebunden (siehe Abbildung 6, Punkt 8). Mit einem Klick auf den entsprechenden Button wird zunächst eine Anmeldung an das KorAP-System14 angefordert. Ist die Registrierung erfolgt, werden Belege aus DeReKo (Deutsches Referenzkorpus) abgerufen15:
Die Belegsätze sind aligniert (siehe Abbildung 7, Punkt 1). Die Übereinstimmungen stehen dabei exakt untereinander, mit einer zusätzlichen eindeutigen Text-Kennung (z.B. WUD17/B82/98528)16. Durch die Alignierung, einer s.g. KWIC-Darstellung17 lassen sich durch Lesen schnell die mit dem Suchwort verbundenen Kontexte erschließen bzw. Sprachgebrauchsmuster identifizieren. Im konkreten Fall wird klar, dass Angstgegner sich in der Vielzahl aller Fälle auf einen starken evtl. überlegenen Gegner vorzugsweise im Sport-Kontext handelt. Mit einem weiteren Klick auf den Button (siehe Abbildung 7, Punkt 2) kann KorAP direkt genutzt werden, um eine vertiefende und erweiterte Abfrage zu realisieren18. Mit einem Klick auf den Schließen-Button (Abbildung 7, Punkt 3) können die Belegstellen ausgeblendet werden.
Wenn also z.B. die DaF/Z-Lerner*in nach der Bedeutung von ‚Angstgegner‘ fragt, z.B., weil dieser Begriff im Kontext einer gesehenen Fußballübertragung auf Deutsch gefallen ist, gibt es mehrere Ansatzpunkte für eine Recherche in den vorgestellten Ressourcen: (1) Das DWDS bietet einen Wörterbucheintrag zu ‚Angstgegner‘. (2) OWIDplus bietet zwar mit dem Kicktionary ein kleines Wörterbuch mit 2000 Einträgen zur Fußballsprache aber keinen Eintrag zum gesuchten Wort. (3) OWIDplusLIVE hat das Token an 147 Tagen (12,2% der Tage) verzeichnet (Stand: 28.04.2023) und liefert weitere Informationen zur Häufigkeit (4) KorAP liefert zudem über 31800 Belege aus einer Vielzahl an Quellen. Nach der manuellen Sichtung, also der Durchsicht und der Lektüre der Belege aus einer Stichprobe von 100 Beispielen, deutet alles darauf hin, dass es sich bei dem Token ‚Angstgegner‘ um einen Sportjargon handelt und dass die Verwendung in anderen Kontexten eher unüblich ist.
Die Abfrage von einzelnen Token in klassischen Wörterbüchern führt durchaus oft zum Erfolg19. Für Wortkombinationen gibt es zudem spezialisierte Wörterbücher (z.B. Sprichwörterbücher20 oder Kollokationswörterbücher). Trotzdem kann es passieren, dass in diesen keine alltagssprachlichen Phänomene verzeichnet sind.
Im Folgenden werden zwei Fragen parallel untersucht: (A) Gibt es neben dem bekannten Bi-Gramm „verdienter Sieg“ auf eine (analog) „verdiente Niederlage“? (B) Gibt es im authentischen Sprachgebrauch21 Flexionsformen von Farbadjektiven, die es nach einer normativen Grammatik nicht geben sollte – z.B. zu pink, lila oder orange (z. B. weil einige Muttersprachler dies so verwenden)?
Zunächst muss die Suchfenstergröße auf N=2 eingestellt werden, um nach Bi-Grammen suchen zu können (siehe Abbildung 8, Punkt 1). Durch die Umstellung erscheinen zwei Eingabeslots. Für den ersten Eingabeslot ist anstelle von ‚Wortform‘ der Layer ‚POS‘ auszuwählen (mit einem Klick auf den Pfeil nach unten, rechts neben Wortform – Abb. 8 – 2). Sobald ‚POS‘ ausgewählt wurde, erscheint oberhalb des Auswahlpfeils ein kleines Info-Symbol. Auf dieses kann geklickt werden, um eine Liste mit gültigen POS-TAGs sowie Beispielen zu erhalten. Für die Suche nach attributiven Adjektiven kann des TAG ‚ADJA‘ verwendet werden. Für den zweiten Suchslot kann dann die Wortform ‚Sieg‘ bzw. ‚Niederlage‘ eingetragen werden (vgl. Abbildung 8, Punkt 3). Auch hier ist eine nacheinander gestellte Suchabfrage möglich – z.B. zuerst nach ADJA + Sieg und dann nach ADJA + Niederlage.
Für die Abfragen ADJA + Sieg bzw. Niederlage gibt es eine Vielzahl von möglichen Kombinationen in OWIDplusLIVE. Eine Durchsicht des Suchverlaufs (vgl. Abbildung 5, Punkt 3) ergibt, dass sowohl „verdienter Sieg/Niederlage“ als auch die gesteigerte Form „hochverdiente/r Sieg/Niederlage“ belegt sind. Die Suche (Stand: 29.04.2023) zu ‚Sieg‘ liefert 616 mögliche Adjektiv-Sieg-Kombinationen, die Suche zu ‚Niederlage‘ 339 Adjektiv-Niederlage-Kombinationen. Folgende Punkte sind bei der Reflektion der Ergebnisse zu beachten:
Die von OWIDplusLIVE vorgeschlagene Reihenfolge orientiert sich an der Erfassungshäufigkeit. Dadurch tauchen häufige Kombinationen wie z.B. „erster/zweiter/dritter Sieg“ in den oberen Listenrängen auf. Gelegentlich muss man die ganze Liste durchsehen, um interessante Ergebnisse zu identifizieren.
OWIDplusLIVE ist, wie bereits erwähnt, nur ein kleines Korpus und speist sich aus lediglich 13 Quellen. D.h. auch wenn eine Kombination nur wenige Male belegt ist, kann diese Kombination häufig und regelmäßig genutzt werden. Zum Abgleich kann die KorAP-Suche verwendet werden. Oft finden sich via KorAP tausende konkrete Belegstellen in einer wesentlich größeren Daten- und Quellenbasis.
Evtl. finden sich sowohl in OWIDplusLIVE als auch in KorAP kleinere Datenfehler. Dies können z.B. sinnlos erscheinende Zeichenketten (z.B.: +++) sein oder die automatische Annotation der POS-TAGs ist fehlerhaft. Diese Fehler sind in einem vollautomatischen Prozess und zudem bei authentischem Sprachmaterial22 unvermeidlich. Für vertiefende korpuslinguistische Analysen gibt es Verfahren zur Fehlerbereinigung, auf die hier nicht eingegangen werden muss – zur Vertiefung sind Heyer / Quasthoff / Wittig (2006), Bubenhofer (2009), Lemnitzer / Zinsmeister (2015) und Perkuhn / Keibel / Kupietz (2012) empfohlen. In einem Analyseprozess zur Konzeption von DaF/Z-Unterrichtsmaterial können diese Fehler relativ problemlos ignoriert werden.
Wie das Beispiel zeigt, können die Ergebnismengen (616 + 339) umfangreich sein. Daher ist es oft sinnvoll, eine Suchanfrage möglichst eng zu formulieren. Wenn eine Recherche nach der zweiten Frage gestartet werden soll, dann ist für den Suchslot 1: Lemma (anstelle von POS) und der Suchwert z.B. orange, pink oder lila einzutragen – und nicht POS = ADJA. Für Suchslot 2 wird dann die Einstellung POS und der Suchwert NN (Normales Nomen) empfohlen. Es finden sich so z.B. Einträge zu „orange Haut“, „orange Kürbis“ oder „orange Brille“ – ebenso wie verschiedene Wortformen „orangene Breireste“, „oranges Quadrat“ oder „orangenes Messeflugzeug“ – vgl. hierzu Dudenredaktion (2009: 344-345).
Bisher wurde der Visualisierungsbereich (siehe Abbildung 5-2) ausgespart und nur mit dem Suchverlauf (Abbildung 5, Punkt 3) gearbeitet, da dieser für die Fragestellungen dieses Beitrags meist interessantere Details durch Nutzung von KorAP-Belegen bietet. Trotzdem soll ein kurzer Blick auf diesen Bereich geworfen werden, um sprachliche Phänomene zu identifizieren, die mit einem Ereignis verbunden sind (z.B. Corona-Pandemie, russischer Angriffskrieg, Sportereignis, etc.). Für das folgende Beispiel wird nach dem Bi-Gramm (N=2) 1. POS = ADJA und 2. Wortform = Weihnachten gesucht. Die häufigste Realisationsform (Stand: 30.04.2023) ist „weiße Weihnachten“ noch vor „frohe Weihnachten“. Im Visualisierungsbereich ist die folgende Kurve zu sehen:
Die Grafik visualisiert in der Standardeinstellung alle Ergebnisse der Abfrage(n)23. Gut zu erkennen sind die frei markanten Ausschläge – die exakt mit den drei Weihnachten im bisherigen Korpus übereinstimmen. Wird der Mauscursor über die Grafik bewegt, erscheinen zu den Punkten der Kurve (unterhalb des Mauszeigers) weiterführende Informationen (siehe Abbildung 9, Punkt 1). In der Grafik wird z.B. ersichtlich, dass am 18. Dezember 202124 eine relative Frequenz25 für die Suchabfrage von ca. 196,79 (pro Mio. Token) vorlag. Die vertikale Y-Achse (Abbildung 9, Punkt 2) gibt die (relative) Frequenz an, sie passt sich automatisch dem Maximalwert an. Die horizontale X-Achse (Abbildung 9, Punkt 3) ist der Zeitverlauf, beginnend links am 01.01.2020 nach rechts (Vortag). Unterhalb der X-Achse befindet sich ein Zoom-Bereich (Abbildung 9, Punkt 4), mit dem sich der Zeitabschnitt eingrenzen lässt (Ankerpunkte links und rechts können mit der Maus verschoben werden). Der Visualisierungsbereich kann zudem über die Schaltflächen unter „Anpassen“ modifiziert werden. Vorrangig der Schalter „Relative Frequenz“ (Abbildung 9, Punkt 5), der ein An- und Abschalten der relativen Frequenz ermöglicht26. Die Granulierung (Abbildung 9, Punkt 6) erlaubt es, den Beobachtungszeitraum zu bestimmen. Im Beispiel ist der Regler auf ‚Tag‘ gesetzt, es ist aber auch möglich, Wochen, Monate, Quartale oder Jahre zu wählen – entsprechend gröber werden die visualisierten Bereiche. Ein zweiter Regler ‚Glättung‘ (Abbildung 9, Punkt 7) kontrolliert den gleitenden Durchschnitt. Das Einstellungs-Setting Granulierung = ‚Tag‘ und Glättung = 7 bedeutet: Berechne den Frequenzverlauf tageweise und berechne für jeden Tag einen Durchschnitt aus sieben Tagen (im Beispiel: drei Tage davor, der gewählte Tag und drei Tage danach). Falls die Grafik nach mehreren Suchen zu unübersichtlich werden sollte, kann über das Hauptmenü (Abbildung 9, Punkt 8) mit dem Menüpunkt „Neu“ der komplette Such- und Visualisierungsverlauf gelöscht werden. Vorher lohnt aber noch ein Blick auf die Kalender-Visualisierung (Klick auf Abbildung 9, Punkt 9), denn auch wenn die Ausschläge im Zeitverlauf gut sichtbar sind, so lässt sich nur mit etwas Mühe (Bewegungen mit der Maus) die korrekten Datumangaben identifizieren.
Auch die Kalender-Visualisierung ist ähnlich interaktiv – wird der Mauscursor über ein Datumsfeld bewegt (Abbildung 10, Punkt 1) werden Informationen angezeigt. Jede Abfrage (auch hintereinandergestellte) wird durch diese Visualisierung summiert. Je ‚wärmer‘ also gelb/orange/rot ein Bereich ist, desto höher ist die Frequenz. Datumsfelder ohne einen Fund werden weiß angezeigt. So ist in der Grafik schnell zu erkennen, dass Übereinstimmungen im Korpus nur zu einer bestimmten Zeit vorkommen (jedes Jahr ab ca. Oktober – fast durchgängig im Dezember).
OWIDplusLIVE bietet also eine ganze Reihe von Möglichkeiten nach Bi-Grammen zu suchen. Sowohl für konkrete Suchen (wie z.B. weiße Weihnachten, oranges Auto), als auch für weite Suchen (wie z. B. 1. Lemma = orange, 2. POS = NN). Durch die Nutzung der Visualisierungsfunktion können Ereignisse, die den Frequenzverlauf beeinflussen, entdeckt werden (z. B. suche nach: „zweite Welle“ im Kontext der Corona-Pandemie) und ein Blick in die KorAP-Belege kann eine Analyse substantiieren.
Zwar kann OWIDplusLIVE aktuell nur für die Recherche von maximal Tri-Grammen (N=3) genutzt werden, jedoch reicht dies meist, um Variationen in Phrasen, Argumentationsmustern und Sprichwörtern zu suchen. Zunächst muss die Suche auf N=3 umgestellt werden (Abbildung 11, Punkt 1).
Für eine Erprobung wird die Einstellung aller drei Suchslots auf den Layer POS empfohlen (siehe Abbildung 11, Punkt 2) sowie die Werte: KOUS27, K*28 und ADV29. Wird die Suche ausgeführt, so sind die fünf häufigsten Ergebnisse (am 04.05.2023): ‚wenn und aber‘, ‚obwohl oder gerade‘, während als auch‘, ‚ob und inwieweit‘ und ‚nachdem wie lange‘. Für alle diese Ergebnisse können Frequenzen über den Suchverlauf (Abbildung 6) und KorAP-Belege (Abbildung 6, Punkt 8) abgefragt werden.
Das folgende Beispiel soll aber einen Vergleich aller Ergebnisse visualisieren. Dazu ist es notwendig, den Visualisierungsbereich auf die Sankey-Visualisierung umzustellen (Klick auf Abbildung 12, Punkt 1).
Die Sankey-Grafik besteht in OWIDplusLIVE immer aus einem Anfangsbereich30 (Abbildung 12, Punkt 2), gefolgt von allen Slots (da N=3 gewählt, aus drei Positionen). Für jeden Slot (Abbildung 12, Punkt 3, 4 und 5) werden die einzelnen Wortformen aufgeführt. Je größer ein Balken an der jeweiligen Slot-Position dargestellt werden, umso häufiger kommt die Wortform an jener Position vor.
In den Ergebnissen ist und an der zweiten Position besonders häufig (siehe Abbildung 12, Punkt 4 – vierter Eintrag von oben / gelb dargestellt). Die grauen Bögen, die die einzelnen Wortformen an den Positionen verbinden, haben unterschiedliche Breiten. Je breiter ein Bogen ist, desto häufiger ist die jeweilige Abfolge. Wird der Mauszeiger über einen Bogen bewegt, werden Informationen zur Häufigkeit angezeigt. Die Bögen ermöglichen eine grobe optische Abschätzung. An der ersten Position ist: dass der häufigste Eintrag (Abbildung 12, Punkt 3 – zweiter Eintrag von oben). Von diesem gehen drei (nach rechts) Bögen ab. Der breiteste Bogen und damit die häufigste Folge ist: bis (Abbildung 12, Punkt 4 – zweiter Eintrag von oben). Auf bis folgt am häufigsten zuletzt. Die komplette Abfolge ‚dass bis zuletzt‘ kommt auch in der Ergebnismenge vor. Dies muss für Tri-Gramme (N=3) nicht zwingend der Fall sein, denn die Sankey-Visualisierung zeigt nur die häufigsten Positionen und deren Verbindungen zwischen zwei Positionen.
Werden via KorAP Belege zu ‚dass bis zuletzt‘ gesucht, so ergibt sich z.B. folgende zufällige Ausgabe:
Wie viele Korpora und korpusgestützte Ressourcen, so sind auch die hier gezeigten Ressourcen sehr stark an der Korpuslinguistik und damit primär an der Sprachwissenschaft orientiert. Der Artikel versuchte zu zeigen, welche Ressourcen online verfügbar und leicht nutzbar sind. Das DWDS eignet sich als erste Anlaufstelle, die auch DaF/Z-Lerner*innen mit etwas Vorkenntnis ab B1-Niveau nutzen können (ggf. begleitet durch die Lehrkraft). OWID und OWIDplus bietet eine große Bandbreite an sprachwissenschaftlichen Ressourcen, die sich auch im Deutschunterricht einsetzen lassen, bzw. einer Lehrkraft interessantes sprachwissenschaftliches Hintergrundwissen bieten (z.B. Diskurswörterbücher, Sprichwörterbücher, etc.). OWIDplusLIVE ist die erste, vollständig frei zugängliche Ressource für tagesaktuelle Analysen deutscher Pressesprache und direkt verknüpft mit KorAP (hier ist eine kostenlose Registrierung erforderlich) zur Volltextrecherche. Gerade wenn tagesaktuelle Ereignisse Unterrichtsgegenstand sein sollen, bietet sich eine Nutzung an31.
Auch wenn die Nutzung durch webbasierte Ressourcen den Unterrichtseinsatz vereinfachen32, indem diese ohne Installation mit jedem Computer33 nutzbar sind, so ist doch oft eine Einarbeitung nötig (siehe Literaturempfehlungen oben) und es erfordert einiges an Kreativität, um Beispiele sowie daraus resultierende Materialien zu generieren. Gerade fortgeschrittene DaF/Z-Lerner*innen ab C1-Niveau können von korpusbasierten Ressourcen profitieren, wenn sie lernen, diese für eigene Recherchen zu nutzen. Dazu ist es notwendig, dass die Lehrkraft die notwendigen Grundkenntnisse, z.B. zu den eingesetzten Ressourcen vermittelt und ggf. notwendige technische Voraussetzungen (WLAN, Endgeräte, etc.) schafft. Die Lerner*innen können dann einzeln oder in einer Kleingruppe konkreten Fragestellungen nachgehen (je nach Unterrichtsform34). Hierbei ist darauf zu achten, dass es einer gewissen Einarbeitungszeit bedarf (Computer starten, sich mit den Ressourcen vertraut machen, ggf. gute Beispiele für die Fragestellung zu suchen). Ideal ist es daher, mehrere Ressourcen innerhalb einer längeren Zeitspanne, z.B. Projektwoche, vorzustellen und die Lerner*innen selbstständig damit arbeiten zu lassen. Für den Unterrichtseinsatz ist es zudem oft sinnvoll, die Planung nicht von der eigentlichen Ressource her zu denken (auch wenn diese vorgestellt und eingeführt werden muss), sondern vielmehr das Ergebnis, bzw. die Ergebnispräsentation in den Blick zu nehmen. Einfach nur ein Online-Wörterbuch für wenige Minuten oder ein paar Unterrichtsstunden abzufragen, schafft nur ein geringes Bewusstsein dafür, wie man diese Ressource zum eigenen Lernfortschritt verwenden kann. Vom Ziel gedacht, können Lerner*innen nicht nur eine Gruppendiskussion oder ein Kurzreferat führen, sondern z.B. auch ein Plakat gestalten, einen Podcast aufnehmen oder sogar ein (YouTube, TikTok, etc.) Video produzieren. Dies motiviert nicht nur, sondern macht es auch erforderlich, dass sich die Lerner*innen intensiver mit Frage-/Problemstellung, der Ressource und der Analyse auseinandersetzen müssen. Da zur Problemlösung vielfältige Kompetenzen (z. B. Lesen, Sprechen, Hören ebenso wie der Umgang mit digitalen Medien) nötig sind, entstehen in der Praxis oft produktive Diskussionen in den Kleingruppen oder auch im Plenum.
Barbaresi, Adrien (2022): Webmonitor. https://www.dwds.de/d/korpora/webmonitor (11.11.2023).
Bubenhofer, Noah (2009): Sprachgebrauchsmuster: Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. Sprache und Wissen. Bd. 4. Berlin: De Gruyter.
Bubenhofer, Noah (2011): Korpuslinguistik in der linguistischen Lehre: Erfolge und Misserfolge. In: Journal for Language Technology and Computational Linguistics 26: 1, 141–156. doi: 10.21248/jlcl.26.2011.141.
Davies, Mark (2013): Corpus of News on the Web (NOW). https://corpus.byu.edu/now/ (11.11.2023).
Dipper, Stefanie (2011): Digitale Korpora in der Lehre - Anwendungsbeispiele aus der Theoretischen Linguistik und der Computerlinguistik. In: Journal for Language Technology and Computational Linguistics 26: 1, 81–95.
Dudenredaktion (2009): Duden – Die Grammatik: Unentbehrlich für richtiges Deutsch. 8., überarb. Aufl. Mannheim et al: Dudenverlag.
DWDS (2023): DWDS – Das Digitale Wörterbuch der deutschen Sprache. http://dwds.de/ (11.11.2023).
Flinz Carolina (2021): Korpora in DaF und DaZ: Theorie und Praxis. In: Flinz Carolina / Britta Hufeisen: Korpora in DaF und DaZ: Theorie und Praxis. (Themenheft). Zeitschrift für Interkulturellen Fremdsprachenunterricht. Didaktik und Methodik im Bereich Deutsch als Fremdsprache. Jahrgang 26, N.1 (April 2021), 1–43. https://zif.tujournals.ulb.tu-darmstadt.de/article/id/3321/ (18.11.2023).
Heyer, Gerhard / Quasthoff, Uwe / Wittig, Thomas (2006): Text Mining: Wissensrohstoff Text - Konzepte, Algorithmen, Ergebnisse. Herdecke, Bochum: W3L-Verlag.
Kupietz, Marc (2020): Deutsches Referenzkorpus – DeReKo-2020-I. Mannheim: Leibniz-Institut für Deutsche Sprache. http://hdl.handle.net/10932/00-04B6-B898-AD1A-8101-4 (11.11.2023).
Lemnitzer, Lothar / Zinsmeister, Heike (2015): Korpuslinguistik: eine Einführung. 3., durchgesehene und aktualisierte Auflage. Tübingen: Narr Verlag.
OWID (2023): OWID – Online-Wortschatz-Informationssystem Deutsch. http://www.owid.de/ (11.11.2023).
Perkuhn, Rainer / Keibel, Holger / Kupietz, Marc (2012): Korpuslinguistik. UTB Sprachwissenschaft 3433. Paderborn: Fink.
Schiller, Anne / Teufel, Simone / Stöckert, Christine / Thielen, Christine (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset). Universität Stuttgart, Universität Tübingen. http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf (11.11.2023).
Vogel, Friedemann / Deus, Fabian / Knobloch, Clemens / Rüdiger, Jan Oliver / Schmallenbach, Joline / Schölzel, Hagen / Tripps, Felix / Bäumer, Benjamin / Weber, Susanna / Wilton, Antje (2021): – gemeinschaftlich erarbeitete Online-Plattform zur Aufklärung und Dokumentation strategischer Kommunikation.
Wolfer, Sascha / Koplenig, Alexander / Michaelis, Frank / Müller-Spitzer, Carolin (2020): Tracking and analyzing recent developments in German-language online press in the face of the coronavirus crisis: cOWIDplus Analysis and cOWIDplus Viewer. In: International Journal of Corpus Linguistics 25: 347–359. http://doi.org/10.1075/ijcl.20078.wol.
Wolfer, Sascha (2020): cOWIDplus. https://www.owid.de/plus/cowidplus2020/ (11.11.2023).
Jan Oliver Rüdiger ist wissenschaftlicher Mitarbeiter am Leibniz-Institut für Deutsche Sprache in Mannheim. Der Schwerpunkt seiner Tätigkeit ist die Konzeption und Umsetzung von hochspezialisierten Softwarelösungen für die germanistische Sprachwissenschaft und die Digital Humanities.
Kontaktanschrift:
Jan Oliver Rüdiger
Leibniz-Institut für Deutsche Sprache
R 5, 6-13
68161 Mannheim
Deutschland