Skip to main content
Section corpora

DeChiLKo – Deutsch-Chinesisches Lernerkorpus. Ein fehlerannotiertes Lernerkorpus

Author
  • DeChiLKo – Deutsch-Chinesisches Lernerkorpus. Ein fehlerannotiertes Lernerkorpus

    Section corpora

    DeChiLKo – Deutsch-Chinesisches Lernerkorpus. Ein fehlerannotiertes Lernerkorpus

    Author

Abstract

Das Deutsch-Chinesisches Lernerkorpus (DeChiLKo) ist ein fehlerannotiertes Korpus, das im Rahmen eines Promotionsprojekts zur orthographischen Kompetenz chinesischer Deutschlernender erstellt wurde. Es umfasst 335 Diktattexte aus zwei Subkorpora und wurde mit EXMARaLDA (Dulko) annotiert, wobei orthographische Abweichungen auf mehreren linguistischen Ebenen detailliert erfasst wurden. Das Annotationsschema kombiniert phonographische, silbische, morphologische und syntaktische Kategorien und erlaubt eine präzise Analyse von orthographischen Abweichungen. Das Korpus ist in der ANNIS-Desktopversion zugänglich und wird künftig in einer Browserversion verfügbar sein. 

 

DeChiLKo – German-Chinese Learner Corpus. An error-annotated learner corpus

The German-Chinese Learner Corpus (DeChiLKo) is an error-annotated corpus developed as part of a doctoral project on the orthographic competence of Chinese learners of German. It comprises 335 dictation texts from two sub-corpora and was annotated using EXMARaLDA (Dulko). Orthographic deviations were captured across multiple linguistic levels. The annotation scheme combines phonographic, syllabic, morphological, and syntactic categories to enable a precise analysis of these deviations. The corpus is currently available in the ANNIS desktop version and will be accessible in a browser-based version in the future.

Keywords: Lernerkorpus, orthographische Fehler, Deutsch als Fremdsprache, Orthographieerwerb, Fehleranalyse, learner corpus, spelling errors, German as a Foreign Language, orthography acquisition, error analysis

How to Cite:

Liu, M., (2025) “DeChiLKo – Deutsch-Chinesisches Lernerkorpus. Ein fehlerannotiertes Lernerkorpus”, Korpora Deutsch als Fremdsprache 5(2), 254–267. doi: https://doi.org/10.48694/kordaf.4711

28 Views

8 Downloads

Published on
2025-12-27

Peer Reviewed

1. Einleitung

Das Deutsch-Chinesisches Lernerkorpus (DeChiLKo) entstand im Rahmen des Promotionsprojekts „Orthographiekompetenz chinesischer Deutschlernender – eine lernerkorpusbasierte Fehleranalyse“. Ziel des Projekts ist es, empirisch zuverlässige Erkenntnisse über die orthographische Kompetenz chinesischer Deutschlernender zu gewinnen, indem eine große Datenmenge analysiert wird. Der Fokus liegt auf orthographischen Abweichungen in den Diktattexten dieser Zielgruppe.

Im Bereich Deutsch als Fremdsprache (DaF) gibt es bereits zahlreiche Lernerkorpora, die wertvolle Referenzdaten für die Spracherwerbsforschung von Sprachlernenden unterschiedlicher Herkunft und Niveaustufen bereitstellen. Zu den bekanntesten DaF-Lernerkorpora gehören die Falko-Familie1 (vgl. Reznicek et al. 2012; Hirschmann et al. 2022), das MERLIN-Korpus2 (MERLIN-Projekt 2014), das Dulko-Korpus3 (vgl. Hirschmann / Nolda 2019). Jedoch steht bis zur Entstehung des Promotionsprojekts noch kein frei zugängliches Lernerkorpus, das auf chinesische Deutschlernende fokussiert, mit großer Datenmenge zur Verfügung. Um die orthographische Kompetenz chinesischer Deutschlernender zu erforschen, steht die eigenständige Erstellung des Lernerkorpus DeChiLKo und die Annotationen der orthographischen Abweichungen im Mittelpunkt.

DeChiLKo umfasst zwei Subkorpora: das Prüfungskorpus und das Erwerbskorpus. Das Prüfungskorpus beinhaltet 195 Diktate von Germanistikstudent*innen aus 20 Universitäten (Jahre 2017 und 2019). Das Erwerbskorpus umfasst Diktatübungen von fünf chinesischen Germanistikstudent*innen, die in den ersten drei Semestern ihres Bachelorstudiums erstellt wurden (Wintersemester 2021/2022 bis Wintersemester 2022/2023).

Nach der Transkription der handschriftlich Diktattexte folgte eine Annotationsphase mit EXMARaLDA (Dulko; vgl. Nolda 2019). Alle Lernertexte im DeChiLKo wurden tokenisiert und mithilfe des TreeTagger (vgl. Schmid 1994) in EXMARaLDA (Dulko) automatisch nach Wortarten, Lemmata und Satzspannen getaggt. Analog zum Falko-Korpus (vgl. Reznicek et al. 2012) wurde der Diktatlösungstext als Zielhypothese manuell eingefügt und linguistisch annotiert. Abweichungen zwischen Zielhypothese und Lernertexten wurden automatisch identifiziert und mit Tags wie INS, CHA, SPLIT usw. versehen.

Ein besonderer Schwerpunkt von DeChiLKo liegt auf der Annotation orthographischer Abweichungen unter Berücksichtigung orthographischer Prinzipien. Dazu wurden Tokens in Graphem, Silben- und morphematischen Strukturen segmentiert und anhand eines vordefinierten Annotationsschemas auf die entsprechenden Ebenen annotiert (siehe Abschnitt 3).

Nach einer Konvertierung aller annotierten Lernertexte im Build-System Makedulko4 steht das gesamte DeChiLKo auf dem ANNIS-Interface (vgl. Krause / Zeldes 2016) für komplexe Suchabfragen zur Verfügung (siehe Abschnitt 4). Insgesamt umfasst DeChiLKo 335 Diktattexten mit 31.674. Die folgende Tabelle bietet einen Überblick über DeChiLKo:

Tabelle 1

Überblick über das DeChiLKo

Lernertexte Σ Tokens Σ
Jahre 2017 2019 2017 2019
Prüfungskorpus 100 95 195 8.219 9.379 17.598
Erwerbskorpus 140 14.076
Σ 335 31.674

In diesem Beitrag werden die Erstellung des Korpus, insbesondere die Annotation orthographischer Abweichungen, sowie mögliche Korpusnutzungen anhand von Beispielen vorgestellt.

2. Korpuserstellung

Abbildung 1 bietet einen Überblick über die einzelnen Arbeitsschritte bei der Korpuserstellung. Neben der Transkription der als Bilddateien vorliegenden handschriftlichen Texte und dem Import digitaler Textdateien wird in Abbildung 1 auch die Abfolge der Annotationen veranschaulicht.

Abbildung 1
Abbildung 1

Überblick über die einzelnen Arbeitsschritte der Korpuserstellung

2.1 Datenerhebung und Datenaufbereitung

Die Texte im Prüfungskorpus entstanden unter Prüfungsbedingungen der PGG (Prüfung für das Germanistik-Grundstudium). Die PGG-Prüfung ist eine jährlich im Juni stattfindende landesweite Sprachprüfung, die von Studierenden in den Studiengängen Deutsch/Germanistik in China zum Ende des zweiten Studienjahrs abgelegt wird. Es handelt sich dabei um eine schriftliche Prüfung zur Feststellung der sprachlichen Leistung, die das Bildungsministerium der Volksrepublik China einheitlich für Studierende des Fachs Deutsch/Germanistik an chinesischen Universitäten und Hochschulen veranstaltet (Anleitungskomitee 2013). Die Prüfung findet zeitgleich an verschiedenen Hochschulorten statt und steht unter der Aufsicht der örtlichen Prüfungskommission, die sich aus Vertretern der betreffenden Hochschulen zusammensetzt (vgl. Tang 2003: 41). Die PGG-Prüfung entspricht ungefähr dem Sprachniveau B1 des Gemeinsamen Europäischen Referenzrahmens (vgl. Zhao 2020: 55).

Da die PGG eine staatliche organisierte Prüfung ist, repräsentieren die in der Prüfung entstandenen Lernertexte nicht nur einzelne Hochschulen, sondern die gesamten Germanistikstudierenden an chinesischen Hochschulen. Die teilnehmenden Institutionen umfassen Universitäten, Fremdsprachenuniversitäten, Technische Hochschulen und Pädagogische Hochschulen. Um eine repräsentative Auswahl zu gewährleisten, wurden für die Jahre 2017 und 2019 jeweils 20 Hochschulen aus den über 100 an der PGG beteiligten Institutionen berücksichtigt. Die Auswahl erfolgte unter Berücksichtigung regionaler Unterschiede, Hochschultypen und Kategorien (siehe Tabelle 2).

Tabelle 2

Kategorisierung der chinesischen Hochschulen5

Kategorien Hochschulen Eigenschaften
A Öffentliche Universitäten ersten Rangs
  • unterstehen in der Mehrzahl direkt dem Bildungsministerium oder anderen zentralen Regierungsstellen

  • Hochschule in den Förderprogrammen „985“ und „211“

  • nehmen die Studenten mit den höchsten Punkzahlen in Hochschulaufnahmeprüfung (Gaokao) auf

B Öffentliche Universitäten zweiten Rangs
  • Provinzuniversitäten

  • nehmen in der zweiten Zulassungsrunde die Schulabsolventen auf

C Universitäten zweiten Rangs
  • Private Universitäten

  • verleihen Bachelor-Abschluss

D Universitäten dritten Rangs und unabhängige Colleges (An-Institute)
  • Private Ausgründungen staatlicher oder privater Hochschulen, die den Namen der renommierten Universitäten tragen.

  • Niedrigere Zulassungsvoraussetzungen aber höhere Studiengebühren

E Hochschulen mit dreijährigen, anwendungsorientierten Studiengängen
  • verleihen keinen akademischen Abschluss, sondern berufsqualifizierende Abschlüsse

Die Daten des Erwerbskorpus stammen von fünf chinesischen Germanistikstudierenden der Anhui-Universität und wurden vom Wintersemester 2021/22 bis zum Wintersemester 2022/23 erhoben, d.h. während der ersten drei Semester ihres Bachelorstudiums. Es handelt sich hierbei um eine longitudinale Datenerhebung. Das Korpus umfasst insgesamt 140 Texte: 15 Diktattexte aus Semesterprüfungen und 125 Diktattexte, die als Unterrichtsübungen handschriftlich erstellt wurden. Während des Unterrichts und der Prüfung war der Einsatz von Hilfsmitteln wie Wörterbüchern oder Smartphones nicht gestattet.

Da alle Lernertexte handschriftlich verfasst wurden, bestand der erste Schritt der Datenaufbereitung in der Transkription der Diktattexte. Diese wurden in TXT-Datei übertragen, wobei das zentrale Konzept der Transkription darin bestand, die Handschrift der Lernenden möglichst originalgetreu in digitaler Form abzubilden. Alle Zeichen, die mit einer Tastatur darstellbar sind, wurden transkribiert. Ausgenommen sind Symbole, die Korrekturen der Lernenden markieren, wie z. B. Löschungen, Durchstreichungen, Absatzmarken oder Vertauschungspfeile. Gelöschte oder durchgestrichene Wörter oder Sätze wurden nicht transkribiert, ebenso wenig wie Vertauschungs- und Einfügungsmarkierungen. Die als vertauscht markierte Abfolgen wurden in der gewünschten Reihenfolge wiedergegeben.

Die transkribierten Lernertexte wurden für die nachfolgende Annotation in EXMARaLDA (Dulko) als [Word]-Spur importiert. Abbildung 2 zeigt einen exemplarischen Textausschnitt aus dem Subkorpus DeChiLKo-Prüfung 2019.

Abbildung 2
Abbildung 2

Exemplarischer Textausschnitt im Subkorpus DeChiLKo-Prüfung 2019 (C_NW_2019_D_007)

Der rot umrandete Textteil wird für die nachfolgenden Erläuterungen zur Annotationsphase in DeChiLKo verwendet.

2.2 Metadaten

Für alle Texte im DeChiLKo-Korpus wurden Metadaten zu Korpusdesign, Texten und den Autorinnen und Autoren erhoben. Die Erhebung der Metadaten orientieren sich an den von Granger / Paquot (2017) vorgeschlagenen Standards.

Nach dem Import der transkribierten Korpusdaten in EXMARaLDA (Dulko) wurden mit Hilfe des Transformationsszenarios „Meta“ die Metavariablen automatisch aus dem Dulko-Template eingefügt. Alle Metadaten wurden zudem in die ANNIS-Datenbanken integriert und können dort bei der Korpussuche (siehe Kapitel 4) gezielt genutzt werden. Die Metadaten sind in drei Hauptkategorien gegliedert:

  • Korpus: Informationen zum Korpusdesign und zur Annotation,

  • Text: Details zur Texterhebung, Bewertung und Transkription,

  • Autor/-in: personenbezogene Informationen,

Für das Erwerbskorpus wurden die persönlichen Informationen zu den fünf Versuchspersonen sowie Angaben zu ihrer Sprachlernbiographie mithilfe eines Fragebogens gesammelt. Die Erhebung detaillierter Metadaten von den Teilnehmenden der landesweiten PGG-Prüfung erwies sich hingegen als schwierig. Daher konzentrieren sich die Metadaten des DeChiLKo-Prüfungskorpus vorrangig auf text- und korpusbezogene Angaben, während die Informationen über die Lernenden lediglich begrenzt verfügbar sind.

3. Annotation

Die Annotationsphase wurde grundsätzlich in zwei Schritte unterteilt. Im ersten Schritt erfolgte die automatische Annotation der Lemmata, Wortarten und Satzspannen für den Lernertext und die Zielhypothese mithilfe des Transformationsszenarios in EXMARaLDA (Dulko).

Als Zielhypothese ([ZH]) dienten dabei die Musterlösungen der jeweiligen Diktate. Ein weiteres Transformationsszenarium „ZHDiff-Spur“ in EXMARaLDA (Dulko) erkennt automatisch Abweichungen zwischen Tokens der Zielhypothese ([ZH]) und des Lernertexts ([word]). Diese Differenzen werden mit den vorgesehenen Abweichungstags auf der [ZHDiff]-Ebene markiert: CHA (verändertes Token), INS (hinzugefügtes Token), DEL (überflüssiges Token), SPLIT (geteiltes Token), MERGE (zusammengesetztes Token), MOVS und MOVT (Token mit anderer Position) (vgl. Beeh et al. 2021). Der in Abbildung 3 gezeigte Aufbau illustriert die ersten Annotationen eines Lernertextes in EXMARaLDA (Dulko).

Abbildung 3
Abbildung 3

Screenshot von der Annotation des Lernertexts (C_NW_2019_D_007) in EXMARaLDA (Dulko) mit Satzspannen (Zeile [S]), Wortarten (Zeile [pos]) und Lemmata ([lemma]) sowie der zusätzlichen Spuren [ZH], [ZHDiff], erneutem Tagging von Satzspannen, Wortarten und Lemmata ([ZHS], [ZHpos] und [ZHlemma])

Die ZHDiff-Ebene stellt eine der wichtigsten Annotationsebenen im DeChiLKo dar, weil sie Abweichungen zwischen den von den Lernenden aufgeschriebene Diktattexten und dem Lösungstext (Zielhypothese) auf Tokenebene erfasst. Eine Analyse der Annotationsverteilung auf dieser Ebene bietet einen ersten Überblick über die orthographische Leistung der Lernenden: Wenn die Annotation auf der [ZHDiff]-Ebene „CHA (change)“ lautet, handelt es sich mit hoher Wahrscheinlichkeit um einen Schreibfehler (inkl. Wortschreibung, Zeichensetzung, Groß- und Kleinschreibung usw.). Die Annotationen „SPLIT“ oder „MERGE“ hingegen repräsentieren typischerweise Fehler im Bereich der Getrennt- oder Zusammenschreibung.

Für eine detaillierte Bewertung der Entwicklung der Rechtschreibkompetenz ist jedoch ein spezifischeres Annotationsschema erforderlich, das die besonderen Eigenschaften der falsch geschriebenen Wörter differenziert erfasst.

Es existieren bereits zahlreiche Annotationsschemata für das Deutsche, die vor allem zur Bewertung der Rechtschreibkompetenz von Kindern mit Deutsch als Erstsprache entwickelt wurden, Diese Schemata basieren häufig auf Modellen des orthographischen Erwerbs und ordnen Fehler den jeweiligen Erwerbsphasen zu, statt systematisch graphematisch fundierte Kategorien zu verwenden. Z.B. bieten die Hamburger Schreib-Probe (HSP; vgl. May 2013) und die Oldenburger Fehleranalyse (OLFA; vgl. Thomé / Thomé 2020) diagnostische Ansätze, die Fehler im Kontext von Erwerbsphasen betrachten, jedoch erlauben selten Rückschlüsse auf die Systematik des deutschen Schriftsystems.

Die Aachener Förderdiagnostische Rechtschreibanalyse (AFRA; vgl. Herné / Naumann 2018) basiert weitgehend auf graphematischen Prinzipien, weist jedoch teilweise eine fehlende Transparenz in der Zuordnung von Fehlern auf. Beispielsweise wird die Fehlschreibung *Warheit (Wahrheit) als Fehler bei der Morphem-Differenzierung eingeordnet (ebd.: 29), obwohl sie ebenso auf eine fehlerhafte Vokalquantitätsmarkierung zurückzuführen sein könnte.

Ein stärker systemorientiertes Annotationsschema findet sich bei Thelen (2010), der das graphematische System in hohem Maße berücksichtigt. Das Schema nimmt die Silbe als zentrale Einheit und unterscheidet systematisch zwischen phonologischen und morphologischen Schreibungen. Es kodiert, ob Silbenanfangsrand, -kern oder -endrand sowie spezifische orthographische Phänomene (z.B. Konsonantendopplung, markierte Vokalquantität) korrekt geschrieben wurden.

Das Annotationsschema von DeChiLKo orientiert sich an den Ansätzen von Thomé (1987), Thelen (2010), Herné / Naumann (2018) sowie Thomé / Thomé (2020). Orthographische Abweichungen werden in DeChiLKo in fünf Bereiche sowie 20 Annotationsebenen unterteilt. Diese Multiebenen-Annotation erlaubt eine detaillierte Erfassung jedes Rechtschreibfehlers, auch wenn es dabei zu Überlappungen zwischen den Kategorien kommen kann. Das Schema ermöglicht eine differenzierte Analyse der orthographischen Kompetenz chinesischer Lernender und leistet damit einen bedeutenden Beitrag zur Erforschung ihrer Rechtschreibleistungen.

Tabelle 3 gibt einen Überblick über das Annotationsschema des DeChiLKo-Korpus. Mithilfe des daraus entwickelten Tagsets werden die orthographischen Abweichungen im zweiten Annotationsschritt erfasst.

Tabelle 3

Annotationsebenen im DeChiLKo

Schicht Annotationsebene Erläuterung
tok word Originaltext mit aufeinanderfolgenden Tokens
S Satzspannen
pos Originaltext: Treetagger-POS-tags (STTS)
lemma Originaltext: Treetagger-Lemmata
ZH ZH ZH: Zielhypothese
ZHDiff ZH: Abweichungen ZH – word
ZHS ZH: Satzspannen
ZHpos ZH: Treetagger-POS-tags (STTS)
ZHlemma ZH: Treetagger-Lemmata
Phonographischer Bereich Graph_Fehler Segmentierung des Tokens nach Graphem oder Graphemfolgen.
Graph_ZH Segmentierung der ZH nach Graphem oder Graphemfolgen
Graph_PGK Phonem-Graphem-Korrespondenz
Graph_BF Buchstabenform
Graph_KLM Kürzen- und Längenmarkierung
Graph_S-Schreibung S-Schreibung
Graph_SG Spezielle Grapheme
Silbischer Bereich Silben_Fehler Segmentierung des Tokens nach Silbenstruktur
Silben_ZH Segmentierung der ZH nach Silbenstruktur
Silben_AR Anfangsrand
Silben_SK Silbenkern
Silben_ER Endrand
Morphologischer Bereich Morph_Fehler Segmentierung des Tokens nach Morphemen
Morph_ZH Segmentierung der ZH nach Morphemen
Morphem Abweichungen nach Morphemarten6
Morph_Konstanz Morphologische Konstanzschreibung
Morph_KompoS Kompositumschreibung
Morph_AffixS Affixschreibung
Syntaktischer Bereich Syn_GKS Groß- und Kleinschreibung
Syn_GZS Getrennt- und Zusammenschreibung
Syn_dass-das Verwechselung zwischen dass und das
Syn_man-Mann Verwechselung zwischen man und Mann
Syn_SZ Satzzeichen
Sonstiges Son_FW Fremdwortschreibung
Son_Gra-Ab Grammatisch abzuleitende Schreibung wie dem statt den
SON Sonstige Schreibung

Mit diesem Annotationsschema wird beispielsweise die Schreibung *farat auf mehreren Ebenen analysiert und annotiert:

  1. Phonographischer Bereich:

    • VR-: Fehlendes vokalisiertes r auf der [Graph_PGK]-Ebene: *<a> statt <ahr>

    • VM-: Fehlende Markierung des Langvokals auf der [Graph_KLM]-Ebene: *<a> statt <ah>

  2. Silbischer Bereich:

    • *ZDiph: fehlerhafte Markierung von zentralisierendem Diphthong im Silbenkern ([Silben_SK]-Ebene): *<a> für <ahr>

    • *Ein: fehlerhafter einfacher Endrand ([Silben_ER]-Ebene): *<t> für <d>

  3. Morphologischer Bereich:

    • *LM: falsches lexikalisches Morphem auf der [Morphem]-Ebene: *{fa}für {fahr} und *{rad} für {rat}

    • DH: Fehler bei der morphologischen Dehnungsschreibung auf der Ebene [Morph_Konstanz]: *{fa} statt {fahr})

    • ALV: Fehler bei der Auslautverhärtung auf der Ebene [Morph_Konstanz]: *{rat}für {rad}

    • PV: Konsonantenauslassung bei Phonemverschmelzung in der Kompositumschreibung [Morph_KompoS]: *farat für Fahrrad

  4. Syntaktischer Bereich:

    • KfG_Sub: Kleinschreibung für Großschreibung bei Substantiven auf der Ebene [Syn_GKS])

In EXMARaLDA (Dulko) sehen die Annotationen des Beispielausschnitts wie der Screenshot in Abbildung 4 aus:

Abbildung 4
Abbildung 4

Screenshot von der Annotation des Lernertexts (C_NW_2019_D_007) mit den zusätzlichen Spuren wie [Graphem], [Graph_BF], [Graph_KLM] usw., auf denen die orthographischen Abweichungen feiner annotiert werden. Einige der zuvor benannten Annotationsebenen wurden hier zugunsten der besseren Übersicht weggelassen.

4. Korpusnutzung

Nach der Transkription und den Annotationen werden die Lernertexte in EXMARaLDA (Dulko) in einem spezifischen .exb-Format gespeichert. Um das gesamte DeChiLKo-Korpus für die Korpusnutzung auf der ANNIS-Suchplattform (Version 3.7.1; vgl. Krause / Zeldes 2016) bereitzustellen, erfolgt eine Konvertierung aller annotierten Lernertexte in das ANNIS-Format. Hierfür wird das von Andreas Nolda entwickelte Build-System Makedulko verwendet.

Wie bei anderen Plattformen werden Suchanfragen in ANNIS im Format „Attribut-Wert-Paar“ formuliert. Darüber hinaus ermöglicht ANNIS die Kombination von Wörtern und Annotationen, indem deren Beziehungen innerhalb und zwischen verschiedenen Annotationsebenen spezifiziert werden. Suchergebnisse können zusätzlich durch Filterung nach Metadaten eingegrenzt werden, um gezielte Analysen durchzuführen.

In Tabelle 4 sind exemplarische Suchszenarien dargestellt.

Tabelle 4

Exemplarische Suchanfrage

Sucheingabe Bemerkung Beispieltreffer
word="farat" Exakte Wortform in den Lernertexten farat
lemma="fahren" Lemmabasierte Suche in den Lernertexten fährt, Fährt, fahren, Fahren
ZH="Fahrrad" Exakte Wortform in der Zielhypothese Fahrrad7
ZHlemma="eine" Lemmabasierte Suche auf der Zielhypothesenebene ein, Ein, eine, Eine, einen, Einen
pos="KOUS" Abfrage nach Wortart als, dass, weil
ZHpos="NN" Abfrage nach Nomen auf der Zielhypothesenebene Sonntag, Teehaus
ZHDiff="MERG" Suche nach Änderung auf der [ZHDiff]-Ebene einer seits statt einerseits
Graph_PGK="K+" Suche nach überflüssigem Konsonantengraphem(en) auf der [Graphem]-Ebene Überflüssiges <G> in *Grund für Rund
Graph_KLM="*KD" Suche nach fehlerhafter Konsonantenverdoppelung auf der Kürze-Längenmarkierung-Ebene <ll> für <l> in *schmallen für schmalen
Graph_SG ="FVS"_=_Silben_AR Verwechslung zwischen <f> und <v> am Silbenanfangsrand <v> für <f> in *versetzen für fortsetzen
Morph_AffixS="*Prä"_i_ Graph_SG ="FVS" Verwechslung zwischen <f> und <v> bei einer falschen Präfixschreibung <f> für <v> in *fereinsammen für vereinsamen
Syn_GKS="GfK" _=_ZHpos=/V.*/ Großschreibung für Kleinschreibung bei den Verben er *Plant einen Ausflug; Sie werden uns *Besuchen
Son_Gra-Ab="Dek" _i_Graph_Fehler = /(m|n)/_=_Graph_ZH=/(m|n)/ Verwechslung zwischen den Graphemen <m> und <n> wegen Deklinationsfehler für *dem Mann statt für den Mann ; *Im Deutschland statt In Deutschland
Syn_dass-das != " " & meta::institution_category = "B" Verwechselung zwischen dass und das in den Lernertexten aus Hochschule der Kategorie B. […], *das Kinder vor dem Computer vereinsamen.

Die Suchanfragen in ANNIS können durch die Auswahl spezifischer Korpora entweder im gesamten DeChiLKo oder in beliebigen Subkorpora durchgeführt werden. Abbildung 5 zeigt beispielsweise die Suchergebnisse zur Groß- statt Kleinschreibung in Lernertexten aus Hochschulen der Kategorie A in den ausgewählten Subkorpora – dem Erwerbskorpus und dem Prüfungskorpus_2019.

Abbildung 5
Abbildung 5

Screenshot von der Suche nach Groß- für Kleinschreibungen in den Lernertexten aus Hochschulen der Kategorie A in den ausgewählten Korpora (Erwerbskorpus und Prüfungskorpus_2019) im ANNIS-Interface

Derzeit ist das DeChiLKo-Korpus als ANNIS-Desktopversion verfügbar. Zukünftig soll es jedoch auch als ANNIS-Browserversion bereitgestellt werden, um den Zugang zu erleichtern und einer breiteren wissenschaftlichen Öffentlichkeit den Zugriff zu ermöglichen. Dies wird insbesondere Forschenden und Lehrenden im Bereich des Orthographieerwerbs im DaF-Kontext zugutekommen.

Notes

  1. Weiter Informationen zum Falko-Projekt unter: https://www.linguistik.hu-berlin.de/de/institut/professuren/korpuslinguistik/forschung/falko (03.12.2025). [^]
  2. Weiter Informationen zum MERLIN-Projekt unter: https://www.merlin-platform.eu/# (03.12.2025). [^]
  3. Weiter Informationen zum Dulko-Projekt unter: https://www.ids-mannheim.de/gra/projekte/deutung/dulko/ (03.12.2025). [^]
  4. Das Build-System Makedulko, entwickelt von Andreas Nolda, ermöglicht die Konvertierung von Lernerkorpora in ein für ANNIS nutzbares Format. Weitere Informationen unter: https://sr.ht/~nolda/makedulko/ (03.12.2025). [^]
  5. vgl. Marioulas / Wu (2015); Goldberger (2017); Deutscher Akademischer Austauschdienst (2019). [^]
  6. Falls es sich bei den Abweichungen nicht um spezifische morphologische Schreibung handelt, werden sie in der Annotationsebene [Morphem] lediglich nach Morphemarten als Abweichungen bei den lexikalischen Morphemen (LM) oder grammatischen Morphemen (GM) zugeordnet. [^]
  7. Eine Suchanfrage auf der [ZH]-Ebene bezieht sich auf die exakte Wortform in der Zielhypothese selbst. Wird auf der [ZH]-Ebene nach ZH="Fahrrad" gesucht, so wird der exakte Eintrag „Fahrrad“ als Treffer gefunden. Dies ermöglicht es, gleichzeitig die zugehörigen Originalformen auf der [Wort]-Ebene, die dieser Zielhypothese zugeordnet sind – wie beispielsweise *farat, *fahrad, *faahrat usw. und die korrekte Form Fahrrad – indirekt mitzufinden. [^]

Literatur und Ressourcen

Beeh, Christoph / Drewnowska-Vargáné, Ewa / Kappel, Péter / Modrián-Horváth, Bernadett / Nolda, Andreas / Rauzs, Orsolya / Scheibl, György (2021): Dulko-Handbuch. Aufbau und Annotationsverfahren des deutsch-ungarischen Lernerkorpus. Version 1.0. Szeged: Institut für Germanistik der Universität Szeged.

Deutscher Akademischer Austauschdienst (2019): China: Daten & Analysen zum Hochschul- und Wissenschaftsstandort. (DAAD-Bildungssystemanalyse). Bonn: Deutscher Akademischer Austauschdienst. https://www.chinazentren.de/wp-content/uploads/2020/02/DAAD_Bildungssystemanalyse2019.pdf (03.12.2025).

Goldberger, Josef (2017): Chinas Hochschulen im Weltbildungssystem: Analyse von Internationalisierungsstrategien und -absichten anhand von drei Fallbeispielen. Unveröffentlichte Dissertation, Humboldt-Universität zu Berlin.

Granger, Sylviane / Paquot, Magali (2017): Core metadata for learner corpora. Draft 1.0. Unveröffentlichtes Manuskript, Université catholique de Louvain. https://clarin.eurac.edu/repository/xmlui/bitstream/handle/20.500.12124/61/Core%20Metadata%20for%20Learner%20Corpora%20Draft%201.0.pdf?sequence=1&isAllowed=y (03.12.2025).

Herné, Karl-Ludwig / Naumann, Carl L. (2016): Aachener Förderdiagnostische Rechtschreibfehler-Analyse. Systematische Einführung in die Praxis der Fehleranalyse mit Auswertungshilfen zu insgesamt 33 standardisierten Testverfahren. 5. überarbeitete Auflage. Aachen: Alfa Zentaurus.

Hirschmann, Hagen / Lüdeling, Anke / Schadrova, Anna / Bobeck, Dominique / Klotz, Martin / Akbari, Roodabeh / Scheider, Sarah / Wan, Shujun (2022): FALKO. Eine Familie vielseitig annotierter Lernerkorpora des Deutschen als Fremdsprache. In: Korpora Deutsch als Fremdsprache 2: 2, 139-148.

Hirschmann, Hagen / Nolda, Andreas (2019): Dulko – auf dem Weg zu einem deutsch-ungarischen Lernerkorpus. In: Ludwig, Eichinger / Plewnia, Albrecht (Hrsg.): Neues vom heutigen Deutsch: Empirisch – methodisch – theoretisch. Institut für Deutsche Sprache: Jahrbuch 2018. Berlin: de Gruyter, 339-342.

Krause, Thomas / Zeldes, Amir (2016): ANNIS3: A new architecture for generic corpus query and visualization. In: Digital Scholarship in the Humanities 31: 1, 118-139.

Marioulas, Julian / Wu, Lili (2015): Expansion und Hierarchisierung der chinesischen Germanistik. In: German as a foreign language 3, 30-50.

May, Peter (2013): HSP 1-10. Manual/Handbuch: Hamburger Schreibprobe: Diagnose orthografischer Kompetenz: zur Erfassung der grundlegenden Rechtschreibstrategien. Stuttgart: Verlag für pädagogische medien.

MERLIN-Projekt (2014): Nutzerhandbuch. http://www.merlin-platform.eu (03.12.2025).

Nolda, Andreas (2019): Annotation von Lernerdaten mit EXMARaLDA (Dulko). http://andreas.nolda.org (03.12.2025).

Anleitungskomitee für den Fremdsprachenunterricht an Hochschulen des chinesischen Bildungsministeriums (Hrsg.) (2013): Prüfungsordnungen für das Germanistik-Grundstudium und -Hauptstudium im Hochschulwesen Chinas. [Gāoděng xuéxiào déyǔ zhuānyè sì, bā jí kǎoshì dàgāng], Shanghai: Verlag für Fremdsprachenausbildung in Shanghai.

Reznicek, Marc / Lüdeling, Anke / Krummes, Cedric / Schwantuschke, Franziska / Walter, Maik / Schmidt, Karin / Hirschmann, Hagen / Andreas, Torsten (2012): Das Falko-Handbuch Korpusaufbau und Annotationen. Version 2.01. https://www.linguistik.hu-berlin.de/de/institut/professuren/korpuslinguistik/forschung/falko/FalkoHandbuchV2/view (03.12.2025).

Schmid, Helmut (1994): Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of the International Conference on New Methods in Language Processing. Manchester.

Tang, Lijun (2003): Lernersprachliche Abweichungen in Aufsätzen chinesischer Deutschlerner. Eine fehlerlinguistische Studie. Osnabrück: Der andere Verlag.

Thelen, Tobias (2010): Automatische Analyse orthographischer Leistungen von Schreibanfängern. Unveröffentlichte Dissertation, Universität Osnabrück.

Thomé, Günther (1987): Rechtschreibfehler türkischer und deutscher Schüler. Heidelberg: Groos.

Thomé, Günther / Thomé, Dorothea (2020): OLFA 3-9. Oldenburger Fehleranalyse für die Klassen 3-9: Instrument und Handbuch zur Ermittlung der orthographischen Kompetenz und Leistung aus freien Texten für die Planung von Fördermaßnahmen. Mit farbiger Markierung der orthographischen Entwicklungsphasen - mit einer separaten OLFA-Liste für die Schweiz - mit vielen neuen Übungen. 5. Auflage. Oldenburg: isb.

Zhao, Jin (2020): Deutsch als Fremdsprache in China – aktuelle Situation, Herausforderungen und Ausblick. In: Jahrbuch für Internationale Germanistik 52: 1, 51-64.

Biographische Notiz

Ming Liu promoviert seit 2020 in der Abteilung Interkulturelle Germanistik an der Universität Göttingen. Ihre Forschungsschwerpunkte liegen in den Bereichen Korpuslinguistik, Fremdspracherwerb und Orthographieerwerb im Kontext von Deutsch als Fremdsprache.

Kontaktanschrift:

Ming Liu

Universität Göttingen

Interkulturelle Germanistik

Käte-Hamberger-Weg 3

37075 Göttingen

ming.liu@stud.uni-goettingen.de