Sprache und Semantik. Part-of-Speech-Tagging angewendet auf Web-Texte

Bok av Gerlinde Utsch
Studienarbeit aus dem Jahr 2012 im Fachbereich Ingenieurwissenschaften - Wirtschaftsingenieurwesen, Note: 1,0, Karlsruher Institut fr Technologie (KIT) (Institut fr Angewandte Informatik und Formale Beschreibungsverfahren (AIFB)), Veranstaltung: Seminar Sprache und Semantik: statistische und symbolische Verfahren, Sprache: Deutsch, Abstract: Viele Kinder lernen es wahrscheinlich schon in der Grundschule: Mit bunten Farben werden die verschiedenen Wortarten in einem Satz unterstrichen. Das klingt eigentlich ganz einfach, doch fr den Computer ist es nicht so leicht, Texte zu lesen und zu verstehen wie fr den Menschen. Es bedarf zunchst einer syntaktischen Analyse, damit er wenigstens teilweise an diese Fhigkeit heranreicht und nach Verstehen" der Grammatik mit bestimmten Methoden auch Inhalte verstehen kann, wie z.B. auch Inhalte aus dem Internet. Das Internet nimmt einen immer greren Raum in unserer Gesellschaft ein. Alle mglichen wichtigen und unwichtigen Informationen sind dort ffentlich zugnglich. Um diese Informationen maschinell herauszulesen und zu filtern, ist es oft ein grundlegender Vorverarbeitungsschritt, in einem Satz zu jedem Wort die richtige Wortkategorie zuzuordnen, was Part-of-Speech-Tagging (POS-Tagging) genannt wird. Mit den gewonnen Informationen aus den Annotationen knnen Maschinen leichter die Bedeutung eines Satzes erfassen oder in eine andere Sprache bersetzen. Automatisches Part-of-Speech Tagging ermglicht genau diese Zuordnung maschinell. Hufig wird Part-of-Speech-Tagging als solved task" bezeichnet, da die Exaktheit bis zu 98% betrgt. Allerdings muss man dabei bercksichtigen, dass bei diesen hohen Treffgenauigkeiten ausschlielich Zeitungstexte oder in hnlicher Sprache geschriebenen Texte betrachtet wurden, die in der Regel formgerecht und fehlerfrei sind. Andere Textarten wie z.B. Texte in Umgangssprache erreichen deutlich geringere Genauigkeiten. Besonders im Internet finden sich viele unterschiedliche Textga