Avaliação da Sensibilidade de Métricas de Avaliação de Tópicos
Resumo
A crescente tendência de armazenar todo o conhecimento e conteúdo produzido de forma digital, como notícias, blogues, artigos científicos, livros, imagens e redes sociais, dificulta cada vez mais a tarefa de buscar e organizar essas informações. Os algoritmos de modelagem de tópicos permitem extrair temas/assuntos, em forma de tópicos, de vastas coleções de documentos. Um tópico consiste em um conjunto finito, que pode ter tamanhos variados, de palavras ordenadas por suas probabilidades de ocorrência. Um documento, que pode ser curto ou longo, como uma publicação em rede social e um artigo científico, respectivamente, pode ser definido como uma mistura de tópicos, ou seja, um documento pode estar relacionado com um ou mais tópicos. Avaliar a qualidade de um tópico é uma tarefa que pode ser simples para seres humanos, mas que pode se tornar muito custosa em se tratando de grandes quantidades de documentos. Dessa forma, métodos computacionais conhecidos como métricas de coerência, são utilizados para medir a qualidade e a coerência de tópicos a partir da co-ocorrência entre as palavras que os compõem, sendo que diferentes métricas podem gerar diferentes resultados quando aplicadas a um mesmo tópico. Este trabalho tem como objetivo avaliar a sensibilidade de algumas métricas através de sua aplicação por meio de experimentos utilizando diferentes configurações, com variados tamanhos e composição de palavras intrusas, para cada um dos tópicos. Como resultado deste trabalho, espera-se obter uma forma de quantificar a sensibilidade das métricas avaliadas, possibilitando o compreendimento do comportamento de cada uma delas.
Downloads
Publicado
Edição
Seção
Licença
Submeto o trabalho apresentado como texto original à Comissão Editorial do XIII SEPE e concordo que os direitos autorais, a ele referente, se torne propriedade do Anais do XIII SEPE da UFFS.