BLOCAGEM DE DADOS EM TEMPO REAL

  • Luan Félix Pimental Universidade Federal da Fronteira Sul Campus Chapecó
  • Guilherme Dal Bianco Universidade Federal da Fronteira Sul

Resumen

A integração de dados tem como objetivo facilitar o acesso a informações a partir da consolidação de diferentes fontes de dados em um único repositório. Serviços como bibliotecas virtuais, media streaming e redes sociais dependem de um processo de integração com uma alta qualidade. Para isto, uma tarefa fundamental é a identificação de entidades (registros, documentos, textos, etc.) que já estão armazenadas na base de dados, portanto não devem ser novamente inseridas. Tal etapa, é conhecida como deduplicação. A deduplicação online, diferente da versão estática, deve ser capaz de lidar com picos de processamento sem que sejam evidenciados gargalos e ao mesmo tempo deve ser capaz de se adaptar a possíveis alterações nos padrões dos dados. A deduplicação de dados envolve três etapas principais: blocagem, comparação e a classificação (CHRISTEN, P., 2012). A blocagem corresponde ao processo de geração de pares candidatos. Ou seja, todos os registros devem ser analisados em busca de potenciais duplicatas. Somente registros pertencentes a um mesmo bloco são utilizados para a criação dos pares candidatos com custo quadrático de processamento. Por isso, é importante que o processo de blocagem, que representa a maior fatia de processamento (BIANCO, G. D. et al., 2015), seja suficientemente eficiente para não resultar em atrasos de processamento. Dentro deste contexto, esta pesquisa propõe uma nova abordagem para a blocagem online através do desenvolvimento de um protótipo.

Biografía del autor/a

Luan Félix Pimental, Universidade Federal da Fronteira Sul Campus Chapecó
Graduando em Ciência da Computação, UFFS, campus Chapecó.
Guilherme Dal Bianco, Universidade Federal da Fronteira Sul
Departamento de Ciência da Computação, UFFS, campus Chapecó.

Citas

CHRISTEN, P. A survey of indexing techniques for scalable record linkage and deduplication. IEEE transactions on knowledge and data engineering, IEEE, v. 24, n. 9, p. 1537–1555, 2012.

CHRISTEN, P. Febrl: a freely available record linkage system with a graphical user interface. In: HDKM ’08:Proceedings of the second Australasian workshop on Health data and knowledge management. Darlinghurst,Australia, Australia: Australian Computer Society, Inc., 2008. p. 17–25. ISBN 978-1-920682-61-3.

BIANCO, G. D. et al. A practical and effective sampling selection strategy for large scale deduplication. IEEE Transactions on Knowledge and Data Engineering, IEEE, v. 27, n. 9, p. 2305–2319, 2015.

PIMENTEL, L. F. et al. Redblock: Uma ferramenta para a deduplicação de grandes bases de dados em tempo real. In: Escola Regional de Banco de Dados 2017, Passo Fundo. ERBD, 2017. (Best Paper).

PIMENTEL, L. F. et al. Redblock: A Tool for Online Deduplication on Large Datasets. Revista Brasileira de Computação Aplicada, RBCA, v. 9, n. 2, 2017. (Aprovado e aguardando publicação).

Publicado
07-09-2017