Next: Zweite Stufe: Die Platform
Up: Zwei Stufen - Zwei
Previous: Zwei Stufen - Zwei
Erste Stufe der linguistischen Bearbeitung führt die statistische und
Stichwörteranalyse durch.
Nimmt als Eingabe die ASCII-Dateien und produziert das stichwörter und
heufigkeitsorientierte Wörterbuch. Das kann man mit dem Indexingprocess von
Microsoft Index Server vergleichen, da gibt es genauso eine Liste von s.g.
noise words", die werden nicht berücksichtigt bei der Suche. Die Eigenschaft,
das ein Wort ist ein
Stichwort wird statistisch, auf Grund von seiner Heufigkeit im Text festgestellt.
[Wir haben auch die linguistische Analyse des Textes für Erfindung der
Kollokationen aber das ist nur Musik der Zukunft]
Gefundene Stichwörter werden in einem Wörterbuch gespeichert und
sogar auf die Weise organisiert, daß bei Tippfehler des Benutzers wird
das korrekte Wort gesucht und mit Wahrscheinlichkeitsgrad ausgerechnet.
root
2000-01-27