Die Geschichte vom Suchen und Finden in einer digitalen Welt : Ein UEberblick und Vergleich von Konzepten zur Suche in und Informationsaufbereitung von strukturierten und unstrukturierten Datenbestand

Bok av Sara Haupt
Bachelorarbeit aus dem Jahr 2010 im Fachbereich Informatik - Wirtschaftsinformatik, Note: 1.3, Technische Universitt Dresden, Sprache: Deutsch, Abstract: Das rasante Wachstum des Internets hlt kontinuierlich an und verknpft eine unvorstellbar groe Menge an Daten. Schon lange ist es auf eine Gre angewachsen, bei der eine sinnvolle Nutzung ohne automatisierte Hilfsmittel nicht mehr mglich ist. Zwar ist aufgrund der dezentralen Struktur des Internets eine genaue Berechnung des existenten Datenumfangs kaum mglich, erhobene Schtzungen versuchen aber einen Eindruck davon zu vermitteln. So besagt eine Studie der IDC, dass sich die digitalen Informationen bereits 2006 auf 161 Exabyte belief. Vorhersagen ber die weitere Entwicklung gehen davon aus, dass diese Masse sich bis 2010 von 161 auf 988 Exabytes mehr als versechsfacht hat. Auerdem ergab die Studie, dass ca. 95% der Daten im Internet in unstrukturierter Form vorliegen. Diese nutzbringend zu verarbeiten, stellt eine groe Herausforderung dar (Gantz, 2007). Eine effektive Suche nach relevanten Informationen in dieser digitalen Welt bildet den Grundstein der Informationsgewinnung. Kurz nach der Erfindung des World Wide Webs galt in den Jahren 1991 bis 1994 das "Browsen" als die dominierende Fortbewegungsmethode in diesen Netz. Parallel dazu entwickelten sich die ersten Webcrawler, welche die Dokumente des Internets automatisch durchsuchen und in Datenbanken indexierten. Die automatische Volltextsuche wurde mglich. Mit dieser neuen Option wandelte sich das Suchverhalten der Nutzer. Anstatt zu erraten, welche Listeneintrge am passendsten sind, konnten nun Suchbegriffe eingegeben und die Relevanz einzelner Treffer einer Ergebnisliste berprft werden. Die Geschwindigkeit des Suchens wurde durch dieses neue Konzept erheblich erhht, nicht aber die Geschwindigkeit des Findens. Denn auch die Anzahl der potentiell relevanten Ergebnisse stieg deutlich an (Buzinkay, 2006, S. 177). So durchsuchen Webcrawler stetig das