1. Einleitung
Das Deutsch-Chinesisches Lernerkorpus (DeChiLKo) entstand im Rahmen des Promotionsprojekts „Orthographiekompetenz chinesischer Deutschlernender – eine lernerkorpusbasierte Fehleranalyse“. Ziel des Projekts ist es, empirisch zuverlässige Erkenntnisse über die orthographische Kompetenz chinesischer Deutschlernender zu gewinnen, indem eine große Datenmenge analysiert wird. Der Fokus liegt auf orthographischen Abweichungen in den Diktattexten dieser Zielgruppe.
Im Bereich Deutsch als Fremdsprache (DaF) gibt es bereits zahlreiche Lernerkorpora, die wertvolle Referenzdaten für die Spracherwerbsforschung von Sprachlernenden unterschiedlicher Herkunft und Niveaustufen bereitstellen. Zu den bekanntesten DaF-Lernerkorpora gehören die Falko-Familie1 (vgl. Reznicek et al. 2012; Hirschmann et al. 2022), das MERLIN-Korpus2 (MERLIN-Projekt 2014), das Dulko-Korpus3 (vgl. Hirschmann / Nolda 2019). Jedoch steht bis zur Entstehung des Promotionsprojekts noch kein frei zugängliches Lernerkorpus, das auf chinesische Deutschlernende fokussiert, mit großer Datenmenge zur Verfügung. Um die orthographische Kompetenz chinesischer Deutschlernender zu erforschen, steht die eigenständige Erstellung des Lernerkorpus DeChiLKo und die Annotationen der orthographischen Abweichungen im Mittelpunkt.
DeChiLKo umfasst zwei Subkorpora: das Prüfungskorpus und das Erwerbskorpus. Das Prüfungskorpus beinhaltet 195 Diktate von Germanistikstudent*innen aus 20 Universitäten (Jahre 2017 und 2019). Das Erwerbskorpus umfasst Diktatübungen von fünf chinesischen Germanistikstudent*innen, die in den ersten drei Semestern ihres Bachelorstudiums erstellt wurden (Wintersemester 2021/2022 bis Wintersemester 2022/2023).
Nach der Transkription der handschriftlich Diktattexte folgte eine Annotationsphase mit EXMARaLDA (Dulko; vgl. Nolda 2019). Alle Lernertexte im DeChiLKo wurden tokenisiert und mithilfe des TreeTagger (vgl. Schmid 1994) in EXMARaLDA (Dulko) automatisch nach Wortarten, Lemmata und Satzspannen getaggt. Analog zum Falko-Korpus (vgl. Reznicek et al. 2012) wurde der Diktatlösungstext als Zielhypothese manuell eingefügt und linguistisch annotiert. Abweichungen zwischen Zielhypothese und Lernertexten wurden automatisch identifiziert und mit Tags wie INS, CHA, SPLIT usw. versehen.
Ein besonderer Schwerpunkt von DeChiLKo liegt auf der Annotation orthographischer Abweichungen unter Berücksichtigung orthographischer Prinzipien. Dazu wurden Tokens in Graphem, Silben- und morphematischen Strukturen segmentiert und anhand eines vordefinierten Annotationsschemas auf die entsprechenden Ebenen annotiert (siehe Abschnitt 3).
Nach einer Konvertierung aller annotierten Lernertexte im Build-System Makedulko4 steht das gesamte DeChiLKo auf dem ANNIS-Interface (vgl. Krause / Zeldes 2016) für komplexe Suchabfragen zur Verfügung (siehe Abschnitt 4). Insgesamt umfasst DeChiLKo 335 Diktattexten mit 31.674. Die folgende Tabelle bietet einen Überblick über DeChiLKo:
Überblick über das DeChiLKo
| Lernertexte | Σ | Tokens | Σ | ||||
| Jahre | 2017 | 2019 | 2017 | 2019 | |||
| Prüfungskorpus | 100 | 95 | 195 | 8.219 | 9.379 | 17.598 | |
| Erwerbskorpus | 140 | 14.076 | |||||
| Σ | 335 | 31.674 | |||||
In diesem Beitrag werden die Erstellung des Korpus, insbesondere die Annotation orthographischer Abweichungen, sowie mögliche Korpusnutzungen anhand von Beispielen vorgestellt.
2. Korpuserstellung
Abbildung 1 bietet einen Überblick über die einzelnen Arbeitsschritte bei der Korpuserstellung. Neben der Transkription der als Bilddateien vorliegenden handschriftlichen Texte und dem Import digitaler Textdateien wird in Abbildung 1 auch die Abfolge der Annotationen veranschaulicht.
2.1 Datenerhebung und Datenaufbereitung
Die Texte im Prüfungskorpus entstanden unter Prüfungsbedingungen der PGG (Prüfung für das Germanistik-Grundstudium). Die PGG-Prüfung ist eine jährlich im Juni stattfindende landesweite Sprachprüfung, die von Studierenden in den Studiengängen Deutsch/Germanistik in China zum Ende des zweiten Studienjahrs abgelegt wird. Es handelt sich dabei um eine schriftliche Prüfung zur Feststellung der sprachlichen Leistung, die das Bildungsministerium der Volksrepublik China einheitlich für Studierende des Fachs Deutsch/Germanistik an chinesischen Universitäten und Hochschulen veranstaltet (Anleitungskomitee 2013). Die Prüfung findet zeitgleich an verschiedenen Hochschulorten statt und steht unter der Aufsicht der örtlichen Prüfungskommission, die sich aus Vertretern der betreffenden Hochschulen zusammensetzt (vgl. Tang 2003: 41). Die PGG-Prüfung entspricht ungefähr dem Sprachniveau B1 des Gemeinsamen Europäischen Referenzrahmens (vgl. Zhao 2020: 55).
Da die PGG eine staatliche organisierte Prüfung ist, repräsentieren die in der Prüfung entstandenen Lernertexte nicht nur einzelne Hochschulen, sondern die gesamten Germanistikstudierenden an chinesischen Hochschulen. Die teilnehmenden Institutionen umfassen Universitäten, Fremdsprachenuniversitäten, Technische Hochschulen und Pädagogische Hochschulen. Um eine repräsentative Auswahl zu gewährleisten, wurden für die Jahre 2017 und 2019 jeweils 20 Hochschulen aus den über 100 an der PGG beteiligten Institutionen berücksichtigt. Die Auswahl erfolgte unter Berücksichtigung regionaler Unterschiede, Hochschultypen und Kategorien (siehe Tabelle 2).
Kategorisierung der chinesischen Hochschulen5
| Kategorien | Hochschulen | Eigenschaften |
| A | Öffentliche Universitäten ersten Rangs |
|
| B | Öffentliche Universitäten zweiten Rangs |
|
| C | Universitäten zweiten Rangs |
|
| D | Universitäten dritten Rangs und unabhängige Colleges (An-Institute) |
|
| E | Hochschulen mit dreijährigen, anwendungsorientierten Studiengängen |
|
Die Daten des Erwerbskorpus stammen von fünf chinesischen Germanistikstudierenden der Anhui-Universität und wurden vom Wintersemester 2021/22 bis zum Wintersemester 2022/23 erhoben, d.h. während der ersten drei Semester ihres Bachelorstudiums. Es handelt sich hierbei um eine longitudinale Datenerhebung. Das Korpus umfasst insgesamt 140 Texte: 15 Diktattexte aus Semesterprüfungen und 125 Diktattexte, die als Unterrichtsübungen handschriftlich erstellt wurden. Während des Unterrichts und der Prüfung war der Einsatz von Hilfsmitteln wie Wörterbüchern oder Smartphones nicht gestattet.
Da alle Lernertexte handschriftlich verfasst wurden, bestand der erste Schritt der Datenaufbereitung in der Transkription der Diktattexte. Diese wurden in TXT-Datei übertragen, wobei das zentrale Konzept der Transkription darin bestand, die Handschrift der Lernenden möglichst originalgetreu in digitaler Form abzubilden. Alle Zeichen, die mit einer Tastatur darstellbar sind, wurden transkribiert. Ausgenommen sind Symbole, die Korrekturen der Lernenden markieren, wie z. B. Löschungen, Durchstreichungen, Absatzmarken oder Vertauschungspfeile. Gelöschte oder durchgestrichene Wörter oder Sätze wurden nicht transkribiert, ebenso wenig wie Vertauschungs- und Einfügungsmarkierungen. Die als vertauscht markierte Abfolgen wurden in der gewünschten Reihenfolge wiedergegeben.
Die transkribierten Lernertexte wurden für die nachfolgende Annotation in EXMARaLDA (Dulko) als [Word]-Spur importiert. Abbildung 2 zeigt einen exemplarischen Textausschnitt aus dem Subkorpus DeChiLKo-Prüfung 2019.
Der rot umrandete Textteil wird für die nachfolgenden Erläuterungen zur Annotationsphase in DeChiLKo verwendet.
2.2 Metadaten
Für alle Texte im DeChiLKo-Korpus wurden Metadaten zu Korpusdesign, Texten und den Autorinnen und Autoren erhoben. Die Erhebung der Metadaten orientieren sich an den von Granger / Paquot (2017) vorgeschlagenen Standards.
Nach dem Import der transkribierten Korpusdaten in EXMARaLDA (Dulko) wurden mit Hilfe des Transformationsszenarios „Meta“ die Metavariablen automatisch aus dem Dulko-Template eingefügt. Alle Metadaten wurden zudem in die ANNIS-Datenbanken integriert und können dort bei der Korpussuche (siehe Kapitel 4) gezielt genutzt werden. Die Metadaten sind in drei Hauptkategorien gegliedert:
-
Korpus: Informationen zum Korpusdesign und zur Annotation,
-
Text: Details zur Texterhebung, Bewertung und Transkription,
-
Autor/-in: personenbezogene Informationen,
Für das Erwerbskorpus wurden die persönlichen Informationen zu den fünf Versuchspersonen sowie Angaben zu ihrer Sprachlernbiographie mithilfe eines Fragebogens gesammelt. Die Erhebung detaillierter Metadaten von den Teilnehmenden der landesweiten PGG-Prüfung erwies sich hingegen als schwierig. Daher konzentrieren sich die Metadaten des DeChiLKo-Prüfungskorpus vorrangig auf text- und korpusbezogene Angaben, während die Informationen über die Lernenden lediglich begrenzt verfügbar sind.
3. Annotation
Die Annotationsphase wurde grundsätzlich in zwei Schritte unterteilt. Im ersten Schritt erfolgte die automatische Annotation der Lemmata, Wortarten und Satzspannen für den Lernertext und die Zielhypothese mithilfe des Transformationsszenarios in EXMARaLDA (Dulko).
Als Zielhypothese ([ZH]) dienten dabei die Musterlösungen der jeweiligen Diktate. Ein weiteres Transformationsszenarium „ZHDiff-Spur“ in EXMARaLDA (Dulko) erkennt automatisch Abweichungen zwischen Tokens der Zielhypothese ([ZH]) und des Lernertexts ([word]). Diese Differenzen werden mit den vorgesehenen Abweichungstags auf der [ZHDiff]-Ebene markiert: CHA (verändertes Token), INS (hinzugefügtes Token), DEL (überflüssiges Token), SPLIT (geteiltes Token), MERGE (zusammengesetztes Token), MOVS und MOVT (Token mit anderer Position) (vgl. Beeh et al. 2021). Der in Abbildung 3 gezeigte Aufbau illustriert die ersten Annotationen eines Lernertextes in EXMARaLDA (Dulko).
Screenshot von der Annotation des Lernertexts (C_NW_2019_D_007) in EXMARaLDA (Dulko) mit Satzspannen (Zeile [S]), Wortarten (Zeile [pos]) und Lemmata ([lemma]) sowie der zusätzlichen Spuren [ZH], [ZHDiff], erneutem Tagging von Satzspannen, Wortarten und Lemmata ([ZHS], [ZHpos] und [ZHlemma])
Die ZHDiff-Ebene stellt eine der wichtigsten Annotationsebenen im DeChiLKo dar, weil sie Abweichungen zwischen den von den Lernenden aufgeschriebene Diktattexten und dem Lösungstext (Zielhypothese) auf Tokenebene erfasst. Eine Analyse der Annotationsverteilung auf dieser Ebene bietet einen ersten Überblick über die orthographische Leistung der Lernenden: Wenn die Annotation auf der [ZHDiff]-Ebene „CHA (change)“ lautet, handelt es sich mit hoher Wahrscheinlichkeit um einen Schreibfehler (inkl. Wortschreibung, Zeichensetzung, Groß- und Kleinschreibung usw.). Die Annotationen „SPLIT“ oder „MERGE“ hingegen repräsentieren typischerweise Fehler im Bereich der Getrennt- oder Zusammenschreibung.
Für eine detaillierte Bewertung der Entwicklung der Rechtschreibkompetenz ist jedoch ein spezifischeres Annotationsschema erforderlich, das die besonderen Eigenschaften der falsch geschriebenen Wörter differenziert erfasst.
Es existieren bereits zahlreiche Annotationsschemata für das Deutsche, die vor allem zur Bewertung der Rechtschreibkompetenz von Kindern mit Deutsch als Erstsprache entwickelt wurden, Diese Schemata basieren häufig auf Modellen des orthographischen Erwerbs und ordnen Fehler den jeweiligen Erwerbsphasen zu, statt systematisch graphematisch fundierte Kategorien zu verwenden. Z.B. bieten die Hamburger Schreib-Probe (HSP; vgl. May 2013) und die Oldenburger Fehleranalyse (OLFA; vgl. Thomé / Thomé 2020) diagnostische Ansätze, die Fehler im Kontext von Erwerbsphasen betrachten, jedoch erlauben selten Rückschlüsse auf die Systematik des deutschen Schriftsystems.
Die Aachener Förderdiagnostische Rechtschreibanalyse (AFRA; vgl. Herné / Naumann 2018) basiert weitgehend auf graphematischen Prinzipien, weist jedoch teilweise eine fehlende Transparenz in der Zuordnung von Fehlern auf. Beispielsweise wird die Fehlschreibung *Warheit (Wahrheit) als Fehler bei der Morphem-Differenzierung eingeordnet (ebd.: 29), obwohl sie ebenso auf eine fehlerhafte Vokalquantitätsmarkierung zurückzuführen sein könnte.
Ein stärker systemorientiertes Annotationsschema findet sich bei Thelen (2010), der das graphematische System in hohem Maße berücksichtigt. Das Schema nimmt die Silbe als zentrale Einheit und unterscheidet systematisch zwischen phonologischen und morphologischen Schreibungen. Es kodiert, ob Silbenanfangsrand, -kern oder -endrand sowie spezifische orthographische Phänomene (z.B. Konsonantendopplung, markierte Vokalquantität) korrekt geschrieben wurden.
Das Annotationsschema von DeChiLKo orientiert sich an den Ansätzen von Thomé (1987), Thelen (2010), Herné / Naumann (2018) sowie Thomé / Thomé (2020). Orthographische Abweichungen werden in DeChiLKo in fünf Bereiche sowie 20 Annotationsebenen unterteilt. Diese Multiebenen-Annotation erlaubt eine detaillierte Erfassung jedes Rechtschreibfehlers, auch wenn es dabei zu Überlappungen zwischen den Kategorien kommen kann. Das Schema ermöglicht eine differenzierte Analyse der orthographischen Kompetenz chinesischer Lernender und leistet damit einen bedeutenden Beitrag zur Erforschung ihrer Rechtschreibleistungen.
Tabelle 3 gibt einen Überblick über das Annotationsschema des DeChiLKo-Korpus. Mithilfe des daraus entwickelten Tagsets werden die orthographischen Abweichungen im zweiten Annotationsschritt erfasst.
Annotationsebenen im DeChiLKo
| Schicht | Annotationsebene | Erläuterung |
| tok | word | Originaltext mit aufeinanderfolgenden Tokens |
| S | Satzspannen | |
| pos | Originaltext: Treetagger-POS-tags (STTS) | |
| lemma | Originaltext: Treetagger-Lemmata | |
| ZH | ZH | ZH: Zielhypothese |
| ZHDiff | ZH: Abweichungen ZH – word | |
| ZHS | ZH: Satzspannen | |
| ZHpos | ZH: Treetagger-POS-tags (STTS) | |
| ZHlemma | ZH: Treetagger-Lemmata | |
| Phonographischer Bereich | Graph_Fehler | Segmentierung des Tokens nach Graphem oder Graphemfolgen. |
| Graph_ZH | Segmentierung der ZH nach Graphem oder Graphemfolgen | |
| Graph_PGK | Phonem-Graphem-Korrespondenz | |
| Graph_BF | Buchstabenform | |
| Graph_KLM | Kürzen- und Längenmarkierung | |
| Graph_S-Schreibung | S-Schreibung | |
| Graph_SG | Spezielle Grapheme | |
| Silbischer Bereich | Silben_Fehler | Segmentierung des Tokens nach Silbenstruktur |
| Silben_ZH | Segmentierung der ZH nach Silbenstruktur | |
| Silben_AR | Anfangsrand | |
| Silben_SK | Silbenkern | |
| Silben_ER | Endrand | |
| Morphologischer Bereich | Morph_Fehler | Segmentierung des Tokens nach Morphemen |
| Morph_ZH | Segmentierung der ZH nach Morphemen | |
| Morphem | Abweichungen nach Morphemarten6 | |
| Morph_Konstanz | Morphologische Konstanzschreibung | |
| Morph_KompoS | Kompositumschreibung | |
| Morph_AffixS | Affixschreibung | |
| Syntaktischer Bereich | Syn_GKS | Groß- und Kleinschreibung |
| Syn_GZS | Getrennt- und Zusammenschreibung | |
| Syn_dass-das | Verwechselung zwischen dass und das | |
| Syn_man-Mann | Verwechselung zwischen man und Mann | |
| Syn_SZ | Satzzeichen | |
| Sonstiges | Son_FW | Fremdwortschreibung |
| Son_Gra-Ab | Grammatisch abzuleitende Schreibung wie dem statt den | |
| SON | Sonstige Schreibung |
Mit diesem Annotationsschema wird beispielsweise die Schreibung *farat auf mehreren Ebenen analysiert und annotiert:
-
Phonographischer Bereich:
VR-: Fehlendes vokalisiertes r auf der [Graph_PGK]-Ebene: *<a> statt <ahr>
VM-: Fehlende Markierung des Langvokals auf der [Graph_KLM]-Ebene: *<a> statt <ah>
-
Silbischer Bereich:
*ZDiph: fehlerhafte Markierung von zentralisierendem Diphthong im Silbenkern ([Silben_SK]-Ebene): *<a> für <ahr>
*Ein: fehlerhafter einfacher Endrand ([Silben_ER]-Ebene): *<t> für <d>
-
Morphologischer Bereich:
*LM: falsches lexikalisches Morphem auf der [Morphem]-Ebene: *{fa}für {fahr} und *{rad} für {rat}
DH: Fehler bei der morphologischen Dehnungsschreibung auf der Ebene [Morph_Konstanz]: *{fa} statt {fahr})
ALV: Fehler bei der Auslautverhärtung auf der Ebene [Morph_Konstanz]: *{rat}für {rad}
PV: Konsonantenauslassung bei Phonemverschmelzung in der Kompositumschreibung [Morph_KompoS]: *farat für Fahrrad
-
Syntaktischer Bereich:
KfG_Sub: Kleinschreibung für Großschreibung bei Substantiven auf der Ebene [Syn_GKS])
In EXMARaLDA (Dulko) sehen die Annotationen des Beispielausschnitts wie der Screenshot in Abbildung 4 aus:
Screenshot von der Annotation des Lernertexts (C_NW_2019_D_007) mit den zusätzlichen Spuren wie [Graphem], [Graph_BF], [Graph_KLM] usw., auf denen die orthographischen Abweichungen feiner annotiert werden. Einige der zuvor benannten Annotationsebenen wurden hier zugunsten der besseren Übersicht weggelassen.
4. Korpusnutzung
Nach der Transkription und den Annotationen werden die Lernertexte in EXMARaLDA (Dulko) in einem spezifischen .exb-Format gespeichert. Um das gesamte DeChiLKo-Korpus für die Korpusnutzung auf der ANNIS-Suchplattform (Version 3.7.1; vgl. Krause / Zeldes 2016) bereitzustellen, erfolgt eine Konvertierung aller annotierten Lernertexte in das ANNIS-Format. Hierfür wird das von Andreas Nolda entwickelte Build-System Makedulko verwendet.
Wie bei anderen Plattformen werden Suchanfragen in ANNIS im Format „Attribut-Wert-Paar“ formuliert. Darüber hinaus ermöglicht ANNIS die Kombination von Wörtern und Annotationen, indem deren Beziehungen innerhalb und zwischen verschiedenen Annotationsebenen spezifiziert werden. Suchergebnisse können zusätzlich durch Filterung nach Metadaten eingegrenzt werden, um gezielte Analysen durchzuführen.
In Tabelle 4 sind exemplarische Suchszenarien dargestellt.
Exemplarische Suchanfrage
| Sucheingabe | Bemerkung | Beispieltreffer |
| word="farat" | Exakte Wortform in den Lernertexten | farat |
| lemma="fahren" | Lemmabasierte Suche in den Lernertexten | fährt, Fährt, fahren, Fahren… |
| ZH="Fahrrad" | Exakte Wortform in der Zielhypothese | Fahrrad7 |
| ZHlemma="eine" | Lemmabasierte Suche auf der Zielhypothesenebene | ein, Ein, eine, Eine, einen, Einen… |
| pos="KOUS" | Abfrage nach Wortart | als, dass, weil… |
| ZHpos="NN" | Abfrage nach Nomen auf der Zielhypothesenebene | Sonntag, Teehaus… |
| ZHDiff="MERG" | Suche nach Änderung auf der [ZHDiff]-Ebene | einer seits statt einerseits |
| Graph_PGK="K+" | Suche nach überflüssigem Konsonantengraphem(en) auf der [Graphem]-Ebene | Überflüssiges <G> in *Grund für Rund |
| Graph_KLM="*KD" | Suche nach fehlerhafter Konsonantenverdoppelung auf der Kürze-Längenmarkierung-Ebene | <ll> für <l> in *schmallen für schmalen |
| Graph_SG ="FVS"_=_Silben_AR | Verwechslung zwischen <f> und <v> am Silbenanfangsrand | <v> für <f> in *versetzen für fortsetzen |
| Morph_AffixS="*Prä"_i_ Graph_SG ="FVS" | Verwechslung zwischen <f> und <v> bei einer falschen Präfixschreibung | <f> für <v> in *fereinsammen für vereinsamen |
| Syn_GKS="GfK" _=_ZHpos=/V.*/ | Großschreibung für Kleinschreibung bei den Verben | er *Plant einen Ausflug; Sie werden uns *Besuchen |
| Son_Gra-Ab="Dek" _i_Graph_Fehler = /(m|n)/_=_Graph_ZH=/(m|n)/ | Verwechslung zwischen den Graphemen <m> und <n> wegen Deklinationsfehler | für *dem Mann statt für den Mann ; *Im Deutschland statt In Deutschland |
| Syn_dass-das != " " & meta::institution_category = "B" | Verwechselung zwischen dass und das in den Lernertexten aus Hochschule der Kategorie B. | […], *das Kinder vor dem Computer vereinsamen. |
Die Suchanfragen in ANNIS können durch die Auswahl spezifischer Korpora entweder im gesamten DeChiLKo oder in beliebigen Subkorpora durchgeführt werden. Abbildung 5 zeigt beispielsweise die Suchergebnisse zur Groß- statt Kleinschreibung in Lernertexten aus Hochschulen der Kategorie A in den ausgewählten Subkorpora – dem Erwerbskorpus und dem Prüfungskorpus_2019.
Derzeit ist das DeChiLKo-Korpus als ANNIS-Desktopversion verfügbar. Zukünftig soll es jedoch auch als ANNIS-Browserversion bereitgestellt werden, um den Zugang zu erleichtern und einer breiteren wissenschaftlichen Öffentlichkeit den Zugriff zu ermöglichen. Dies wird insbesondere Forschenden und Lehrenden im Bereich des Orthographieerwerbs im DaF-Kontext zugutekommen.
Notes
- Weiter Informationen zum Falko-Projekt unter: https://www.linguistik.hu-berlin.de/de/institut/professuren/korpuslinguistik/forschung/falko (03.12.2025). [^]
- Weiter Informationen zum MERLIN-Projekt unter: https://www.merlin-platform.eu/# (03.12.2025). [^]
- Weiter Informationen zum Dulko-Projekt unter: https://www.ids-mannheim.de/gra/projekte/deutung/dulko/ (03.12.2025). [^]
- Das Build-System Makedulko, entwickelt von Andreas Nolda, ermöglicht die Konvertierung von Lernerkorpora in ein für ANNIS nutzbares Format. Weitere Informationen unter: https://sr.ht/~nolda/makedulko/ (03.12.2025). [^]
- vgl. Marioulas / Wu (2015); Goldberger (2017); Deutscher Akademischer Austauschdienst (2019). [^]
- Falls es sich bei den Abweichungen nicht um spezifische morphologische Schreibung handelt, werden sie in der Annotationsebene [Morphem] lediglich nach Morphemarten als Abweichungen bei den lexikalischen Morphemen (LM) oder grammatischen Morphemen (GM) zugeordnet. [^]
- Eine Suchanfrage auf der [ZH]-Ebene bezieht sich auf die exakte Wortform in der Zielhypothese selbst. Wird auf der [ZH]-Ebene nach ZH="Fahrrad" gesucht, so wird der exakte Eintrag „Fahrrad“ als Treffer gefunden. Dies ermöglicht es, gleichzeitig die zugehörigen Originalformen auf der [Wort]-Ebene, die dieser Zielhypothese zugeordnet sind – wie beispielsweise *farat, *fahrad, *faahrat usw. und die korrekte Form Fahrrad – indirekt mitzufinden. [^]
Literatur und Ressourcen
Beeh, Christoph / Drewnowska-Vargáné, Ewa / Kappel, Péter / Modrián-Horváth, Bernadett / Nolda, Andreas / Rauzs, Orsolya / Scheibl, György (2021): Dulko-Handbuch. Aufbau und Annotationsverfahren des deutsch-ungarischen Lernerkorpus. Version 1.0. Szeged: Institut für Germanistik der Universität Szeged.
Deutscher Akademischer Austauschdienst (2019): China: Daten & Analysen zum Hochschul- und Wissenschaftsstandort. (DAAD-Bildungssystemanalyse). Bonn: Deutscher Akademischer Austauschdienst. https://www.chinazentren.de/wp-content/uploads/2020/02/DAAD_Bildungssystemanalyse2019.pdf (03.12.2025).
Goldberger, Josef (2017): Chinas Hochschulen im Weltbildungssystem: Analyse von Internationalisierungsstrategien und -absichten anhand von drei Fallbeispielen. Unveröffentlichte Dissertation, Humboldt-Universität zu Berlin.
Granger, Sylviane / Paquot, Magali (2017): Core metadata for learner corpora. Draft 1.0. Unveröffentlichtes Manuskript, Université catholique de Louvain. https://clarin.eurac.edu/repository/xmlui/bitstream/handle/20.500.12124/61/Core%20Metadata%20for%20Learner%20Corpora%20Draft%201.0.pdf?sequence=1&isAllowed=y (03.12.2025).
Herné, Karl-Ludwig / Naumann, Carl L. (2016): Aachener Förderdiagnostische Rechtschreibfehler-Analyse. Systematische Einführung in die Praxis der Fehleranalyse mit Auswertungshilfen zu insgesamt 33 standardisierten Testverfahren. 5. überarbeitete Auflage. Aachen: Alfa Zentaurus.
Hirschmann, Hagen / Lüdeling, Anke / Schadrova, Anna / Bobeck, Dominique / Klotz, Martin / Akbari, Roodabeh / Scheider, Sarah / Wan, Shujun (2022): FALKO. Eine Familie vielseitig annotierter Lernerkorpora des Deutschen als Fremdsprache. In: Korpora Deutsch als Fremdsprache 2: 2, 139-148.
Hirschmann, Hagen / Nolda, Andreas (2019): Dulko – auf dem Weg zu einem deutsch-ungarischen Lernerkorpus. In: Ludwig, Eichinger / Plewnia, Albrecht (Hrsg.): Neues vom heutigen Deutsch: Empirisch – methodisch – theoretisch. Institut für Deutsche Sprache: Jahrbuch 2018. Berlin: de Gruyter, 339-342.
Krause, Thomas / Zeldes, Amir (2016): ANNIS3: A new architecture for generic corpus query and visualization. In: Digital Scholarship in the Humanities 31: 1, 118-139.
Marioulas, Julian / Wu, Lili (2015): Expansion und Hierarchisierung der chinesischen Germanistik. In: German as a foreign language 3, 30-50.
May, Peter (2013): HSP 1-10. Manual/Handbuch: Hamburger Schreibprobe: Diagnose orthografischer Kompetenz: zur Erfassung der grundlegenden Rechtschreibstrategien. Stuttgart: Verlag für pädagogische medien.
MERLIN-Projekt (2014): Nutzerhandbuch. http://www.merlin-platform.eu (03.12.2025).
Nolda, Andreas (2019): Annotation von Lernerdaten mit EXMARaLDA (Dulko). http://andreas.nolda.org (03.12.2025).
Anleitungskomitee für den Fremdsprachenunterricht an Hochschulen des chinesischen Bildungsministeriums (Hrsg.) (2013): Prüfungsordnungen für das Germanistik-Grundstudium und -Hauptstudium im Hochschulwesen Chinas. [Gāoděng xuéxiào déyǔ zhuānyè sì, bā jí kǎoshì dàgāng], Shanghai: Verlag für Fremdsprachenausbildung in Shanghai.
Reznicek, Marc / Lüdeling, Anke / Krummes, Cedric / Schwantuschke, Franziska / Walter, Maik / Schmidt, Karin / Hirschmann, Hagen / Andreas, Torsten (2012): Das Falko-Handbuch Korpusaufbau und Annotationen. Version 2.01. https://www.linguistik.hu-berlin.de/de/institut/professuren/korpuslinguistik/forschung/falko/FalkoHandbuchV2/view (03.12.2025).
Schmid, Helmut (1994): Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of the International Conference on New Methods in Language Processing. Manchester.
Tang, Lijun (2003): Lernersprachliche Abweichungen in Aufsätzen chinesischer Deutschlerner. Eine fehlerlinguistische Studie. Osnabrück: Der andere Verlag.
Thelen, Tobias (2010): Automatische Analyse orthographischer Leistungen von Schreibanfängern. Unveröffentlichte Dissertation, Universität Osnabrück.
Thomé, Günther (1987): Rechtschreibfehler türkischer und deutscher Schüler. Heidelberg: Groos.
Thomé, Günther / Thomé, Dorothea (2020): OLFA 3-9. Oldenburger Fehleranalyse für die Klassen 3-9: Instrument und Handbuch zur Ermittlung der orthographischen Kompetenz und Leistung aus freien Texten für die Planung von Fördermaßnahmen. Mit farbiger Markierung der orthographischen Entwicklungsphasen - mit einer separaten OLFA-Liste für die Schweiz - mit vielen neuen Übungen. 5. Auflage. Oldenburg: isb.
Zhao, Jin (2020): Deutsch als Fremdsprache in China – aktuelle Situation, Herausforderungen und Ausblick. In: Jahrbuch für Internationale Germanistik 52: 1, 51-64.
Biographische Notiz
Ming Liu promoviert seit 2020 in der Abteilung Interkulturelle Germanistik an der Universität Göttingen. Ihre Forschungsschwerpunkte liegen in den Bereichen Korpuslinguistik, Fremdspracherwerb und Orthographieerwerb im Kontext von Deutsch als Fremdsprache.
Kontaktanschrift:
Ming Liu
Universität Göttingen
Interkulturelle Germanistik
Käte-Hamberger-Weg 3
37075 Göttingen




