Liknande böcker
Extração de Informação integrando componentes PLN via framework GATE
Bok av Luciano de Souza Cabral
Fred Freitas
A Extrao de Informao (EI) o ramo da rea de recuperao de informao (RI) que utiliza tcnicas e algoritmos para identificar e coletar informaes desejadas em documentos estruturados ou no, persistindo-as em um formato apropriado para consultas futuras. A utilizao de Processamento de Linguagem Natural (PLN) revela-se benfico ao processo de extrao, principalmente quando se processam documentos sem estrutura e/ou padro definido. Um framework que rene dezenas de plug-ins que podem ajudar na tarefa de EI baseada em PLN o conhecido GATE (General Architecture for Text Engineering). Neste sentido prope-se o modulo RELPIE (Regular Expressions for Language Processing Information Extraction), contendo plug-ins para a extrao a partir de texto livre. O mdulo original e integra plug-ins GATE baseados em expresses regulares (ER) e regras de produo (RP), que ficam totalmente separadas do sistema, visando modularidade na EI. Os resultados obtidos demonstram que a proposta apresenta bons nveis de extrao e reconhecimento de entidades nomeadas (NER), cerca de 80%, em texto livre.