next up previous
Next: Die Laufzeitphase Up: P.E.S NavigationsSystem mit Natürlichsprachiger Previous: Allgemeine Schema des Ablaufs

Die Phase der Datenvorbereitung

Die Vorbereitungsphase wird ganz automatisch durchgeführt. Vom Benutzer wird nur einen Pfad zum seinen HTML-System und die Thematik des System abgefordert. Die HTML-Seiten werden dann völlig automatisch bearbeitet. HTML-Parser mit selbständigem Präprozessor nehmen ein originelles HTML-Dokument als Eingabe, parsen seine Struktur und die strukturierte Form schicken weiter zu HTML-Reporter. Das Programm ordnet das Dokument zu seiner interner Struktur und fordert von HTML-Parser andere Dokumente an. So ist der Algorithmus und das Ergebnis stellen vier ASCII Dateien vor, die sind für die weitere Bearbeitung nötig. Die Vorbereitungsanalyse der ersten Stufe besteht aus statistischen Auswertung (Entdeckung von Stichwörter) und Indexierung der Stichwörter. Die zweite Stufe macht linguistische Analyse des HTML-Systems. Da kommt unsere linguistische Platform zum Einsatz, die analysiert einzelne Sätze der Dokumenten und erzeugt zuerst semantische Fakten, später semantisches Netz - eine strukturierte Representation des Textsystems. Die Vorbereitungsphase ist kompliziert und auch anspruchsvoll, aber im Unterschied zu vielen anderen Suchmaschinen bedeuted nicht nur Indexing von Daten, sondern auch linguistische Bearbeitung.



root
2000-01-27