BLOCAGEM DE DADOS EM TEMPO REAL

Luan Félix Pimental; Guilherme Dal Bianco

Autores

Luan Félix Pimental Universidade Federal da Fronteira Sul Campus Chapecó
Guilherme Dal Bianco Universidade Federal da Fronteira Sul

Palavras-chave:

blocagem de dados, deduplicação, integração de dados.

Resumo

A integração de dados tem como objetivo facilitar o acesso a informações a partir da consolidação de diferentes fontes de dados em um único repositório. Serviços como bibliotecas virtuais, media streaming e redes sociais dependem de um processo de integração com uma alta qualidade. Para isto, uma tarefa fundamental é a identificação de entidades (registros, documentos, textos, etc.) que já estão armazenadas na base de dados, portanto não devem ser novamente inseridas. Tal etapa, é conhecida como deduplicação. A deduplicação online, diferente da versão estática, deve ser capaz de lidar com picos de processamento sem que sejam evidenciados gargalos e ao mesmo tempo deve ser capaz de se adaptar a possíveis alterações nos padrões dos dados. A deduplicação de dados envolve três etapas principais: blocagem, comparação e a classificação (CHRISTEN, P., 2012). A blocagem corresponde ao processo de geração de pares candidatos. Ou seja, todos os registros devem ser analisados em busca de potenciais duplicatas. Somente registros pertencentes a um mesmo bloco são utilizados para a criação dos pares candidatos com custo quadrático de processamento. Por isso, é importante que o processo de blocagem, que representa a maior fatia de processamento (BIANCO, G. D. et al., 2015), seja suficientemente eficiente para não resultar em atrasos de processamento. Dentro deste contexto, esta pesquisa propõe uma nova abordagem para a blocagem online através do desenvolvimento de um protótipo.

Biografia do Autor

Luan Félix Pimental, Universidade Federal da Fronteira Sul Campus Chapecó

Graduando em Ciência da Computação, UFFS, campus Chapecó.
Guilherme Dal Bianco, Universidade Federal da Fronteira Sul

Departamento de Ciência da Computação, UFFS, campus Chapecó.

Referências

CHRISTEN, P. A survey of indexing techniques for scalable record linkage and deduplication. IEEE transactions on knowledge and data engineering, IEEE, v. 24, n. 9, p. 1537–1555, 2012.

CHRISTEN, P. Febrl: a freely available record linkage system with a graphical user interface. In: HDKM ’08:Proceedings of the second Australasian workshop on Health data and knowledge management. Darlinghurst,Australia, Australia: Australian Computer Society, Inc., 2008. p. 17–25. ISBN 978-1-920682-61-3.

BIANCO, G. D. et al. A practical and effective sampling selection strategy for large scale deduplication. IEEE Transactions on Knowledge and Data Engineering, IEEE, v. 27, n. 9, p. 2305–2319, 2015.

PIMENTEL, L. F. et al. Redblock: Uma ferramenta para a deduplicação de grandes bases de dados em tempo real. In: Escola Regional de Banco de Dados 2017, Passo Fundo. ERBD, 2017. (Best Paper).

PIMENTEL, L. F. et al. Redblock: A Tool for Online Deduplication on Large Datasets. Revista Brasileira de Computação Aplicada, RBCA, v. 9, n. 2, 2017. (Aprovado e aguardando publicação).

BLOCAGEM DE DADOS EM TEMPO REAL

Autores

Palavras-chave:

Resumo

Biografia do Autor

Referências

Downloads

Publicado

Edição

Seção

Licença

Enviar Submissão

Desenvolvido por

Idioma

Informações

clustrmaps