Liknande böcker
Supervised Learning Algorithmus Fur Stellenanzeigenklassifikation Und Jobdeskriptoren Gewinnung
Bok av Pawel Broda
Diplomarbeit aus dem Jahr 2011 im Fachbereich Informatik - Sonstiges, Note: 1,3, Ludwig-Maximilians-Universitt Mnchen (Centrum fr Informations- und Sprachverarbeitung), Veranstaltung: Computerlinguistik, Information Extraktion, Informatik, Sprache: Deutsch, Abstract: Neben den vielen Jobportalen, die als Datenbanken funktionieren, wo Informationen wie Branche, Jobart oder Qualifikationen manuell eingegeben werden, gibt es auch Jobsuchdienste, die das Web durchsuchen, relevante Informationen extrahieren und sie automatisch klassifizieren. Die Klassifizierung erhht die Wahrscheinlichkeit dem Benutzer przise und seinen Ansprchen adquate Informationen zu liefern. Die extrahierten Informationen zu klassifizieren ist oft ein kompliziertes Unterfangen. Die Jobanzeigen sind meistens nicht kategorisiert oder so kategorisiert, dass die Kategorie nicht ermittelt und die Anzeige nicht zugeordnet werden kann. Nicht zuletzt liegt das Problem an den Suchdiensten selbst. Viele von ihnen gehren zu den Suchdiensten der ersten Generation, die auf der Volltextsuche ohne semantisch-syntaktisch-orthografische Analyse basieren und keine Gegebenheiten der Jobwelt bercksichtigen.
Die vorliegende Arbeit greift das Problem der Information Extraktion basierten Textklassifikation auf und strebt die Erstellung des semiautomatischen Algorithmus fr die Stellenanzeigenklassifikation nach vorgegebenen Jobsektoren an.
Im theoretischen Teil der Arbeit werden Jobsektoren analysiert, Verfahren der Textklassifikation, Kontexterstellung und Lexikonbootstrapping mithilfe von lokalen Grammatiken besprochen sowie ein konkreter Lsungsansatz dargestellt, der auf der semantisch-syntaktischen Analyse von Stellenanzeigen mithilfe von Korpusbearbeitungstool UNITEX basiert.
Im praktischen Teil der Arbeit wird ein Verfahren zur semiautomatischen Textklassifikation dargestellt. Es werden Informationen ber Textkorpora gegeben, einzelne Preprozessing-Schritte erlutert, lokale Grammatiken von Stellenanzei