MODELAGEM DE TÓPICOS EM REGISTROS ELETRÔNICOS DE SAÚDE

  • Ivair Puerari Universidade Federal da Fronteira Sul

Resumo

Com o rápido crescimento de registros eletrônicos de saúde, torna-se cada vez mais essencial desenvolver métodos para automaticamente extrair informações. Em geral, o volume de dados na área da saúde é de grande escala, pois informações dos pacientes são coletados rotineiramente, e de fato, contém valiosas informações inseridas. O conhecimento e conteúdo produzido de forma digital dificulta a tarefa de buscar e organizar os dados. No mesmo modo, estes registros se tornam interessantes em muitas aplicações no desenvolvimento de métodos para extração automática de informações. Para este fim, em aprendizado de máquina existe uma subárea de modelagem probabilística de tópicos, um conjunto de algoritmos estatísticos que analisam as palavras dos textos originais para descobrir os principais tópicos (temas) e como esses temas podem estar conectados ao texto. Desta forma, permite organizar e resumir arquivos em uma escala que seria impossível por anotação humana. A modelagem de tópicos, visa extrair, dada uma coleção de documentos, os principais tópicos que representam os assuntos abordados pela coleção. Os documentos, são textos curtos ou longos, que podem ser gerados a partir de diferentes distribuições sobre tópicos, sendo os tópicos formados por distribuições probabilísticas de palavras. Inicialmente a coleção de documentos sofre um pré-processamento sobre os documentos, aplicando técnicas como Stop-words, tokenization, lemmatization, a fim de padronizar o vocabulário. O próximo passo é a aplicação de modelos probabilísticos de tópicos, dentre os modelos, destacaremos Latent Dirichlet Allocation(LDA) e Biterm Topic Model(BTM) e consequentemente encontrar Hiperparâmetros para extração dos tópicos. O intuito de identificar quais são os tópicos mais presentes, se faz necessário definir o número de tópicos que melhor descrevem a coleção de documentos, assim, é aplicado técnicas métricas como Pointwise Mutual Information(PMI), Normalized Pointwise Mutual Information(NPMI), UCI Coherence, NPMI Coherence baseados em janelas que dividem caracteres. Representam uma sequência de caracteres em subconjunto de palavras consecutivas que pode ser deslocado em qualquer direção sobre as palavras. Simulados em diferentes cenários, verificando a qualidade e a coerência dos tópicos. Desta forma, o objetivo deste trabalho foi realizar uma análise exploratório sobre a coleção de documentos, identificar quais são os tópicos mais presentes e qual assunto é representado dentro de cada tópico utilizando modelagem de tópicos e seu desempenho na utilização em registros eletrônicos de saúde.

Publicado
20-09-2019
Seção
Campus Chapecó - Projetos de Pesquisa