next up previous
Next: Zweite Stufe: Die Platform Up: Zwei Stufen - Zwei Previous: Zwei Stufen - Zwei

Erste Stufe: Stichwörter und Statistik

Erste Stufe der linguistischen Bearbeitung führt die statistische und Stichwörteranalyse durch. Nimmt als Eingabe die ASCII-Dateien und produziert das stichwörter und heufigkeitsorientierte Wörterbuch. Das kann man mit dem Indexingprocess von Microsoft Index Server vergleichen, da gibt es genauso eine Liste von s.g. noise words", die werden nicht berücksichtigt bei der Suche. Die Eigenschaft, das ein Wort ist ein Stichwort wird statistisch, auf Grund von seiner Heufigkeit im Text festgestellt. [Wir haben auch die linguistische Analyse des Textes für Erfindung der Kollokationen aber das ist nur Musik der Zukunft] Gefundene Stichwörter werden in einem Wörterbuch gespeichert und sogar auf die Weise organisiert, daß bei Tippfehler des Benutzers wird das korrekte Wort gesucht und mit Wahrscheinlichkeitsgrad ausgerechnet.



root
2000-01-27