Segmentierung Von Webseiten : Heuristik zur Segmentierung von XHTML-Seiten für die rauschfreie Suche und Indexierung

Bok av Burgess Alexander
In diesem Buch wird ein Verfahren zur Segmentierung von Webseiten in kohsive, semantische Teile vorgestellt. Dabei werden rauschende Komponenten, wie Werbung, Mens, Fuzeilen usw. von informativen Komponenten getrennt. So wird der eigentliche Inhalt eines XHTML-Dokuments, insbesondere einer Webseite, extrahiert. Die beschriebene Heurisitk vollzieht dies auf Basis einer Analyse des Textes der Seite und deren XHTML-Strukturen, in dem davon Verhltnisse abgeleitet werden. Anhand dieser Verhltnisse und der daraus bestimmten Kriterien sollen die einzelnen Komponenten gefunden und extrahiert werden.