Tabelle Types
Ein Textkorpus besteht aus Elementen wie Wörtern, Zahlen und Satzzeichen. Diese Elemente werden Tokens genannt. Orthographisch identische Tokens bezeichnet man als Instanzen ein und desselben Types. Die Types-Tabelle enthält alle Types, die zumindest einmal im zugrundeliegenden Korpus vorkommen. Bei Types wird wird zwischen Groß- und Kleinschreibung unterschieden, d.h. singt, Singt und SINGT sind drei verschiedene Types.
Die Types-Tabelle enthält Type-bezogene Informationen wie Frequenz, Familiarität, Regularität, Häufigkeit des Wortanfangs, Nachbarschaftsmaße und mehr.
dlexDB bietet auch Varianten dieser Maße an, die ohne Berücksichtigung von Groß-/Kleinschreibung berechnet wurden. Diese Maße sind in der Types (klein)-Tabelle zu finden.
Auf der anderen Seite enthält die Annotierte Types-Tabelle noch spezifischere Frequenzmaße, nämlich die Häufigkeiten von Types unter Berücksichtigung der morphosyntaktischen Analyse im jeweiligen Kontext.
Die Types-Tabelle enthält folgende Spalten zur Anzeige oder Filterung:
- Oberflächenfilter
- Frequenzfilter
- Numerische Filter
- Familiarität
- Regularität
- Uniqueness-Point orth. Präfixlänge
- Uniqueness-Point orth. neg. Offs.
- Uniqueness-Point lemmabez. Präfixlänge
- Uniqueness-Point lemmabez. neg. Offs.
- Durchschn. bed. Wahrsch., bigrammbasiert
- Durchschn. Inf.-Geh., bigrammbasiert
- Durchschn. bed. Wahrsch., trigrammbasiert
- Durchschn. Inf.-Geh., trigrammbasiert
- Nachbarschaftsmaße