Liknande böcker
Design Und Implementierung Eines Multi-Classifier-Systems (McS) F r Die Erkennung Von Gerendertem Text
Bok av Stefan Fleischer
Diplomarbeit aus dem Jahr 2007 im Fachbereich Informatik - Programmierung, Note: 1,0, Westflische Wilhelms-Universitt Mnster (Institut fr Informatik (Computer Vision and Pattern Recognition Group)), 35 Quellen im Literaturverzeichnis, Sprache: Deutsch, Abstract: Ziel dieser Arbeit ist es, die Klassifikationskomponente des am Institut fr Informatik entwickelten OCR-Systems zur Erkennung von gerendertem Text durch die Implementierung eines Multi-Classifier-Systems (MCS) weiter zu optimieren.
Diese Arbeit befasst sich mit dem Design und der Implementierung eines Multi-Classifier-Systems, das mehrere verschiedene Klassifikatoren zur Erkennung gerenderter Schriftzeichen kombiniert. Das MCS wird schlielich in das existierende OCR-System integriert, um dessen Effektivitt zu verbessern.
Kapitel 2 befasst sich zunchst mit Analyse und Beurteilung des vorliegenden OCR-Systems. Kapitel 2.1 identifiziert hierzu konkrete Eigenschaften gerenderter Texte und die damit einhergehenden
Herausforderungen bei der automatischen Texterkennung. Kapitel 2.2 stellt das bestehende OCR-Systems zur Erkennung von gerendertem Text vor, dessen Komponenten in Kapitel 2.3 analysiert werden, um das weitere Vorgehen im Hinblick auf das Ziel dieser Arbeit zu planen.
Kapitel 3 befasst sich mit der Schaffung der fr die Entwicklung des MCS notwendigen Voraussetzungen. Das betrifft insbesondere die dem OCR-System zu Grunde liegenden Trainingsdaten, auf deren Basis es entwickelt und getestet wurde. In Kapitel 3.1 wird dafr zunachst eine Kategorisierung von gerendertem Text vorgenommen, anhand der sich die Zusammensetzung bereits existierender Trainingsdaten untersuchen lasst. Damit die Trainingsdaten in einem sinnvollen Format vorliegen, wurde die Datenhaltung uberarbeitet. Kapitel 3.2 stellt diese berarbeitung vor. Die identifizierten Kategorien werden dann herangezogen, um in Kapitel 3.3 eine strategische Erweiterung der Datenbasis vorzunehmen.
Kapitel 4 leitet zum Kern der Arbeit ber: Au