1. Aufbau und Inhalt
Das Korpus einfaches Deutsch (KED) besteht aus 6.841 bildungssprachlichen Texten in einfachem Deutsch. Darunter werden hier solche Texte verstanden, die sich an Lesende mit (vermutlich) eingeschränkter Lesekompetenz richten und von denen daher zu erwarten ist, dass die Textproduzenten sie verständlicher und an die Bedürfnisse ihrer Adressaten angepasst formuliert haben (vgl. Bredel / Maaß 2016: 537). Lesende mit eingeschränkter Lesekompetenz sind zum Beispiel Kinder, Jugendliche und Erwachsene, deren literale Kompetenz schwach entwickelt ist. Tabelle 1 fasst das Korpus zusammen.
KED | |
Quellen: n | 14 |
Texte: n | 6.841 |
Tokens: n | 2.803.454 |
Tokens/Text: m (se) | 409,8 (3,57) |
Sätze: n | 224.042 |
Sätze/Text: m (se) | 32,75 (0,31) |
n = Anzahl, m = Mittelwert (mean), se = Standardfehler
Das Korpus umfasst authentische Texte mit fachlich-bildender oder informierender Absicht, die eine einfache, aber allgemein schriftsprachliche Varietät abbilden sollen. Texte, die eigens für die Sprachvermittlung oder für sprachdidaktische Zwecke im weitesten Sinn erstellt wurden, sind dagegen nicht enthalten. Ebenfalls nicht enthalten sind Texte in Leichter Sprache (vgl. Bredel / Maaß 2016). Leichte Sprache folgt bestimmten sprachlichen sowie ortho- und typografischen Prinzipien, die das Verstehen erleichtern sollen. Sie wird häufig verwendet, um juristische Texte verständlicher zu gestalten. Texte in Leichter Sprache können erheblich von schriftsprachlichen Normen abweichen und werden in der Regel von besonders geschulten Autoren verfasst. Das erschwert ihre korpuslinguistische Verarbeitung und entspricht nicht dem Ziel des KED. Zudem beinhaltet das KED ausschließlich Sachtexte. Fiktionale Texte wie Märchen sind bislang nicht Teil des Korpus. Tabelle 2 gibt einen Überblick über die Verteilung von Adressatengruppen, Textsorten, Vertextungsstrategien und Themen im KED.
(a) Adressaten | n Texte | % |
Kinder | 5.793 | 84,68 |
Jugendliche | 525 | 7,67 |
Erwachsene | 523 | 7,65 |
(b) Textsorte | n Texte | % |
Lexikonartikel | 4.424 | 64,67 |
Nachricht | 943 | 13,78 |
Erklärtext | 915 | 13,38 |
Empfehlung | 287 | 4,2 |
Experiment | 217 | 3,17 |
Argumentation | 55 | 0,8 |
(c) Vertextungsstrategie | n Texte | % |
Erklären | 5.592 | 81,74 |
Berichten | 943 | 13,78 |
Anweisen | 251 | 3,67 |
Argumentieren | 55 | 0,80 |
(d) Thema | n Texte | % |
Geschichte und Kultur | 2.193 | 32,06 |
Politik und Gesellschaft | 2.180 | 31,87 |
Natur und Leben | 1.880 | 27,48 |
Gesundheit und Krankheit | 588 | 8,60 |
2. Erhebung, Annotation, Metadaten
Das Korpus besteht aus Texten, die zum Zeitpunkt der Erhebung öffentlich online einsehbar waren. Die Quellwebseiten wurden automatisiert erfasst und mit Zustimmung der Rechteinhaber als statische Kopien im Internet Archive1 archiviert und mit einem permanenten Link versehen. Anschließend wurden die Texte der archivierten Kopien (bzw. die Texte der nicht archivierten Quellwebseiten) automatisiert heruntergeladen, in Absätze, Sätze und Wortformen segmentiert und mit Lemmata und Wortarten nach dem Stuttgart-Tübingen-Tagset annotiert. Die Datenverarbeitung wurde mit den Programmiersprachen R und Python ausgeführt, für die Tokenisierung und Annotation der Texte mit Lemmata und POS wurde der Parser spaCy verwendet.
Die Texte wurden nach Einschätzung der Autoren nach Adressatengruppe, Textsorte und Vertextungsstrategie kategorisiert. Die von den Textproduzenten intendierte Adressatengruppe, Textsorte und Vertextungsstrategie waren in der Regel anhand der Einordnung der Texte auf der Quellwebseite erkennbar (z.B. Nachrichten für Kinder, Experimente für Jugendliche).
Die Themen der Texte wurden mit Hilfe von einem maschinellen Lernverfahren ermittelt (‘topic modeling’, vgl. Silge / Robinson 2017). Die Wortwolken in Abbildung 1 zeigen die wichtigsten Nomen jedes Themas. Schriftgröße und Farbe zeigen an, wie wichtig das Wort für das jeweilige Thema ist. Die Titel sind nachträglich hinzugefügt worden, um die Themen begrifflich zusammenzufassen.
Darüber hinaus enthält jeder Text Angaben zur Textdeckung. Die Textdeckung wurde auf der Grundlage eines Häufigkeitswörterbuchs des Deutschen ermittelt (vgl. Tschirner / Möhring 2020) und gibt an, welcher Anteil der Textwörter in den häufigsten 1.000, 2.000, 3.000, 4.000 und 5.000 Wörtern des Deutschen enthalten ist. Tabelle 3 zeigt einige relevante Metadaten im Überblick.
Metadatum | Erläuterung |
corpusSigle | Identifikationsbezeichnung des Korpus (ked) |
cover1kHerder | Textdeckung der 1.000 häufigsten Wörter des Deutschen |
nToks | Anzahl der Tokens im Text |
permalink | URL der Quellwebseite bzw. der archivierten Kopie der Quellwebseite |
rcpnt | Adressatengruppe des Textes (kinder, jugendliche, erwachsene) |
strtgy | Vertextungsstrategie (erklaeren, berichten, argumentieren, anweisen) |
topic | Thema des Textes (politik_gesellschaft, geschichte_kultur, natur_leben, gesundheit_krankheit) |
txttyp | Textsorte des Textes (lexikonartikel, nachricht, erklaertext, empfehlung, argumentation, experiment) |
3. Zugang
Das KED wird Teil des Deutschen Referenzkorpus (DeReKo). Als Einzelinstanz ist es derzeit – nach erfolgter Registrierung und Anmeldung – über die KorAP-Plattform des Leibniz-Instituts für Deutsche Sprache (IDS)2 durchsuchbar. Um den Zugang zu den Korpusdaten für Lehrpersonen und Lernende zu verbessern, ist die Einrichtung eines eigenen Suchportals für das KED mit vereinfachter Steuerung und didaktisch orientierten Suchmöglichkeiten vorgesehen.
4. Nutzungsbeispiel
Das KED fungiert unter anderem als Fundort für authentische Belege, die in der DaF- / DaZ-Sprachvermittlung im Rahmen von DDL-Aktivitäten (data-driven learning) genutzt werden können. Über die Nutzung für den Fremdsprachenunterricht hinaus gibt das KED auch Impulse für die (korpuslinguistische) Erforschung sprachlicher Komplexität und Einfachheit, etwa durch vergleichende Analyse von Kindernachrichten und Nachrichten für Erwachsene3.
Im Folgenden wird eine mögliche Anwendung des KED im Rahmen eines DaF-Kurses auf dem GER-Niveau B1 skizziert. Das Lernziel der Einheit wird aus konstruktionsdidaktischer Sicht (vgl. Herbst 2016; Amorocho / Pfeiffer 2023) bestimmt und besteht darin, die Lernenden zu befähigen, proportionale Entwicklungen und Veränderungen im Kontext von Sachtexten (z.B. Experimentbeschreibungen, Kochrezepten, Grafikbeschreibungen u.a.) mit Hilfe der je-desto-Konstruktion zu verstehen und auszudrücken. Hierfür wird zunächst ein Impuls in Form von ausreichendem Input gesetzt. Anschließend wird die Aufmerksamkeit der Lernenden mit Hilfe von DDL-Aktivitäten auf die Form und die Bedeutung der Konstruktion gelenkt, um den Erwerb zu unterstützen.
Hierzu sind zunächst entsprechende Belege aus dem Korpus zu gewinnen. Eine Suchanfrage im KED nach je im Kontext von desto oder umso (im Abstand von maximal 15 Wörtern vor und nach je) ergibt 293 Treffer. In 283 Fällen geht der je-Teil dem desto/umso-Teil voran, sodass dies als die prototypische Variante gelten kann. Lediglich 10 Belege mit vorangehendem umso-Teil und keinen einzigen mit vorangehendem desto-Teil finden sich im Korpus. Aus dieser Gesamt-Trefferliste kann nun für den Unterricht ein Auszug von ca. 12 Belegen vorbereitet werden (vgl. Abb. 2).
Um die Aufmerksamkeit der Lernenden auf die Formseite der Konstruktion zu lenken, kommen etwa folgende Instruktionen in Frage:
Unterstreichen Sie in den Belegen die Signalwörter je, desto und umso.
Markieren Sie alle Wörter hinter je und hinter desto / umso. Was fällt Ihnen auf? Um welche Wörter (Wortarten) handelt es sich? In welcher Form erscheinen die Wörter?
Wo steht das Verb im je-Teil, wo im desto-/umso-Teil?
Diese Aktivitäten sollen den Lernenden bewusst machen, dass sowohl der je-Teil als auch der desto/umso-Teil der Konstruktion jeweils eine Komparativform enthält, die Teile sich aber in der Verbstellung unterscheiden (Verbletztstellung imje-Teil, Verbzweitstellung im desto/umso-Teil).
Folgende Instruktionen fokussieren dagegen die Bedeutungsseite der Konstruktion:
4. Welche Information findet man im je-Teil, welche im desto-Teil?
5. Wie hängen die Informationen im je-Teil und im desto-Teil zusammen?
Diese Aktivitäten sollen die Funktion der je-desto/umso-Konstruktion als sprachliches Mittel zum Ausdruck von proportionalen Entwicklungen hervorheben und insbesondere den Wirkzusammenhang bewusst machen, dass graduelle Veränderungen im je-Teil zu graduellen Veränderungen im desto/umso-Teil führen.
Für eine stärkere unterrichtliche Steuerung könnte folgende Aufgabe (vgl. Abb. 3) unterstützend herangezogen werden.
Hieran anschließend sollten weitere, auch produktive Aktivitäten folgen, um Lernenden die Form- und Bedeutung dieser Konstruktion zu vermitteln.
Neben der Suche nach Belegen für didaktisch relevante sprachliche Phänomene können auch Volltexte des KED via Verlinkung im Kontext der Webseite genutzt werden. Der Nutzen dieser Möglichkeit zeigt sich etwa an folgendem Textausschnitt aus einem Erklärtext für Kinder, in dem auf dichtem Textraum sechs Vorkommen von je-desto-Konstruktionen (vgl. Abb. 4) zu finden sind.
Das Beispiel der je-desto-Konstruktion veranschaulicht, dass sich im KED ausreichend Belege auf (lexikalisch und grammatisch) angemessenem Niveau für die datengestützte DaFZ-Vermittlung unterschiedlicher Zielstrukturen finden lassen.
Notes
- https://archive.org/ (14.07.2024). [^]
- https://korap.ids-mannheim.de/instance/ked (14.07.2024). [^]
- Siehe hierzu eine Vorstudie zu einer Pilotversion von KED (vgl. Jach 2022). [^]
- Quelle: http://www.w3.org/1999/xlink" xlink:href="https://web.archive.org/web/20231231064243/https://www.kids-and-science.de/kinderfragen/detailansicht/datum/2016/11/09/warum-erhoeht-sich-der-ton-einer-gitarrensaite-wenn-man-sie-spannt.html (14.07.2024). [^]
Literatur und Ressourcen
Amorocho, Simone / Pfeiffer, Christian (2023): Konstruktionsdidaktik – Grundzüge einer sprachdidaktischen Konzeption. In: Deutsch als Fremdsprache 60: 3, 131–147.
Bredel, Ursula / Maaß, Christiane (2016). Leichte Sprache: theoretische Grundlagen, Orientierung für die Praxis. Sprache im Blick. Berlin: Dudenverlag.
Herbst, Thomas (2016): Foreign language learning is construction learning – what else? Moving towards Pedagogical Construction Grammar. In: de Knop, Sabine / Gilquin, Gaëtanelle (Hrsg.): Applied Construction Grammar. Berlin: de Gruyter, 21–52.
Jach, Daniel (2022): Korpus Einfaches Deutsch. Materialgrundlage für die daten-getriebene Lehre von Deutsch als fremder Bildungssprache auf niedrigem Sprachniveau. In: Li, Yuan / Liu, Fang / Wang, Zhongxin (Hrsg.): Didactica, Cultura, Lingua. Perspektiven des Deutschen. München: iudicium, 231–244.
Silge, Julia / David Robinson (2017): Text Mining with R: A Tidy Approach. Sebastopol, CA: O’Reilly. https://www.tidytextmining.com/ (17.07.2024).
Tschirner, Erwin / Möhring, Jupp (2020): A frequency dictionary of German. Core vocabulary for learners. 2nd ed. London / New York: Routledge.
Biographische Notiz
Daniel Jach studierte Linguistik an Universitäten in Deutschland, den USA und den Niederlanden und promovierte 2019 an der Universität Jena mit einer empirischen Arbeit zum gebrauchsbasierten Fremdsprachenerwerb. Seit 2019 arbeitet er als Dozent für deutsche Sprache und Linguistik an Universitäten in China, seit 2021 als DAAD-Lektor an der Southwest Jiaotong University in Chengdu. Seine Forschungsschwerpunkte sind Korpuslinguistik, gebrauchsbasierte Linguistik und Fremdsprachenerwerb.
Kontaktanschrift:
Daniel Jach
Southwest Jiaotong University
School of Foreign Languages
West Park of Hi-Tech Zone
611756 Chengdu, Sichuan
P. R. China
Gunther Dietz studierte und promovierte in Deutsch als Fremdsprache an der LMU München. Nach einem DAAD-Lektorat und einer Tätigkeit als Sprachdozent war er von 2009 bis 2024 wissenschaftlicher Mitarbeiter am Lehrstuhl für Deutsch als Zweit- und Fremdsprache und seine Didaktik der Universität Augsburg. Zurzeit vertritt er die Professur für Deutsche Sprachwissenschaft / Deutsch als Fremdsprache der Universität Bamberg. Seine Schwerpunkte sind die fremdsprachliche Hörverstehensvermittlung und die Nutzung von Korpora in der DaFZ-Vermittlungspraxis.
Kontaktanschrift:
Prof. Dr. Gunther Dietz
Otto-Friedrich-Universität Bamberg /
Professur für Deutsche Sprachwissenschaft / Deutsch als Fremdsprache
96047 Bamberg