Metodologia Para Detectar Depredadores Sexuales : Técnicas para análisis de textos cortos (chats)

Bok av Aleman Yuridiana
En este trabajo de investigación se experimenta con un conjunto de conversaciones (chats) en inglés, con el objetivo de detectar si en una conversación participa o no un depredador sexual. Para lograr esto se utilizan técnicas de minería de datos que permitan la creación modelos que separen a los depredadores sexuales del resto de los usuarios. Se trabaja principalmente con el algoritmo de bosque aleatorio y la herramienta WEKA, así como la extracción de diversos conjuntos de características para su análisis. También se implementa un sistema de búsqueda como clasificador y etiquetado automático con técnicas de bootstrapping. Entre las aportaciones de esta investigación están la creación de un corpus etiquetado que permite clasificar a los depredadores sexuales según el objetivo que persigan (material obsceno o un encuentro con la víctima) y un método de preprocesamiento y expansión de términos para trabajar con textos de redes sociales, los cuales se caracterizan por tener exceso de palabras mal escritas, truncadas o uso de emoticones. De manera adicional, se aplica la metodología propuesta en un conjunto de textos a fin de determinar el género y la edad del autor.