Dokumentenstatistik - Weniger wichtige Wörter anzeigen

Hallo,

schon lange frage ich mich, was die Zahlen ganz links bedeuten und was unter „weniger wichtige Wörter“ zu verstehen ist. Weiß das jemand?

image

So aus dem Bauch heraus könnte die Zahl ganz links die Zeilennummer sein.

Die Zeilennummer von was denn? Wenn ich nach Anzahl sortieren lasse, hat ein anderes Wort zum Beispiel die Nummer 1, als wenn ich alphabetisch sortieren lasse oder mit der höchsten Anzahl bzw. der niedrigsten Anzahl starte.

1 „Gefällt mir“

Auch aus dem Bauch heraus: du hast mindestens 5841 verschiedene Wörter verwendet?

1 „Gefällt mir“

:slight_smile: Ich habe nicht die geringste Ahnung.

Alle im Text vorkommenden verschiedenen Wörter („Types“) werden einfach durchnummeriert. im Gegensatz zu ihrer Vorkommenshäufigkeit (Anzahl der „Tokens“). Aus allen verschiedenen Wörtern und ihrer jeweiligen Häufigkeit ergibt sich die Gesamtzahl der Wörter des Textes.

Man kann im sprachlichen Lexikon grob zwischen semantischen (Inhaltswörtern) und grammatischen Wörtern (Funktionswörtern) unterscheiden. Letztere sind semantisch nicht so bedeutsam, gemeint sind z.B. Artikelwörter oder Hilfsverbformen oder auch manche Beziehungswörter (die Präpositionen „in“ und „auf“ z.B.) oder das Wörtchen „und“.

Da diese naturgemäß auch sehr häufig vorkommen, kann man sie in der Stilanalyse auch von der Wiederholungsmarkierung ausschließen (Option „als Dubletten ignoriert“). Das ist eine (editierbare) Wortliste von so gesehen (für den Textinhalt, wenn man so will) „weniger wichtigen“ Wörtern, die auch in der Worthäufigkeitsliste ausgeblendet werden (wenn man das Häkchen nicht setzt).