childLex
childLex ist ein Verbundprojekt des Max-Planck-Instituts für Bildungsforschung, der Universität Potsdam und der Berlin-Brandenburgischen Akademie der Wissenschaften, das der Wissenschaft linguistische Normen der Schriftsprache für Kinder im Grundschulalter zur Verfügung stellt. Im Gegensatz zu den meisten anderen europäischen Sprachen liegen für das Deutsche bislang keine aktuellen und umfassenden Daten dazu vor, welche Eigenschaften die Sprache hat, mit der Kinder im Laufe ihrer Leseentwicklung konfrontiert werden.
Um diese Lücke zu schließen wurde ein Korpus von 500 Büchern erstellt, die Kinder im Alter zwischen 6-12 Jahren lesen. Die Auswahl basierte auf der Analyse von Selbstberichten, Verkaufszahlen, Ausleihstatistiken und Lehrerberichten aus den Jahren 2010-2012. childLex besteht zu ca. 90% aus fiktionalen Ganzschriften, die Kinder selbst in ihrer Freizeit lesen. In einem geringeren Maße wurden auch Schul- und Sachbücher aufgenommen. Normen sind für drei verschiedene Altersbereiche (6-8, 9-10 und 11-12 Jahre) oder das Gesamtkorpus verfügbar.
Die aktuelle Version von childLex (0.11, Juni 2014) umfasst insgesamt ca. 9.9 Millionen Wörter (Token, 7.8 Millionen ohne Interpunktionszeichen), die sich auf ca. 180000 verschiedene Wörter (Types) und 120000 Grundformen (Lemmata) verteilen. childLex ist auch in einer umfangsreduzierten Excel-Version auf der Projektwebsite am Max-Planck-Institut für Bildungsforschung verfügbar. Dort finden Sie auch Informationen und Artikel, die das Korpus und das Projekt beschreiben.
Projekt-Website: childLex