Qualidade de Dados em Grandes BDs Heterogêneos

FUNDAÇÃO EDSON QUEIROZ
UNIVERSIDADE DE FORTALEZA
CENTRO DE CIÊNCIAS TECNOLÓGICAS
MESTRADO EM INFORMÁTICA APLICADA
Wilson Wagner Barroso Marques
Uma abordagem de qualidade de dados em grandes bancos de

dados heterogêneos
Fortaleza
2016
FUNDAÇÃO EDSON QUEIROZ
UNIVERSIDADE DE FORTALEZA
CENTRO DE CIÊNCIAS TECNOLÓGICAS
MESTRADO EM INFORMÁTICA APLICADA
Wilson Wagner Barroso Marques

dados heterogêneos
Dissertação apresentada ao Curso de Mestrado

em Informática Aplicada da Universidade de
Fortaleza (UNIFOR), como requisito parcial
para obtenção do Título de Mestre em
Informática Aplicada.
Orientador: Prof. Adriano Bessa Albuquerque, D.Sc.

Co-Orientador: Prof. Ângelo Roncalli Alencar Brayner, Dr.-Ing.
Fortaleza
2016
iii
Ficha catalográfica da obra elaborada pelo autor através do programa de

geração automática da Biblioteca Central da Universidade de Fortaleza
Barroso Marques, Wilson Wagner.

dados heterogêneos / Wilson Wagner Barroso Marques. - 2016
86 f.
Dissertação (Mestrado Acadêmico) - Universidade de

Fortaleza. Programa de Informatica Aplicada, Fortaleza, 2016.
Orientação: Adriano Bessa Albuquerque.
Coorientação: Angelo Alencar Brayner.
1. Qualidade de dados em aplicações empresariais. 2.

Manutenção de dados. 3. Bases de dados heterogêneas. I.
Albuquerque, Adriano Bessa. II. Brayner, Angelo Alencar. III.
Título.
iv
v
À minha família, o maior

presente que Deus me deu.
vi
AGRADECIMENTOS
Agradeço a Deus pelo seu amor e por ter me dado força em todos os momentos,
permitindo que eu concluísse esta etapa importante da minha vida.
Agradeço aos mentores espirituais por manterem-se presentes mesmo nos momentos em
que duvidei de minha fé.
Aos meus pais, Antônia e Wilson, pelo amor incondicional, pelos ensinamentos de vida
e pelos valores que sempre transmitiram. Por terem proporcionado até mesmo o que eles não
tiveram. Por ser exemplo de luta e vida.
À minha esposa Alexsandra, pelo amor e carinho que sempre teve por mim e pelas nossas
filhas. Por ser uma pessoa especial e amada por todos. Por ter, ainda, cuidado de forma
excepcional de tudo para que eu pudesse concluir este trabalho.
Às minhas filhas, Marília e Vitória, pelos sorrisos e alegrias que alentam minha alma e
me revigoram nos momentos difíceis. Pela alegria e simplicidade de serem crianças e de
estarem presentes em minha vida.
Aos meus avós (in memoriam), pelo exemplo de amor, de família e, principalmente, de
fé.
À minha sogra Ivonete, pelo amor e carinho incondicional pelas netas e filhos, por me
tratar como filho.
Ao meu sogro Tavares, pelo incentivo e apoio em todos os momentos em que esteve
presente na minha vida e, principalmente, por carinho e respeito à minha família.
Aos meus orientadores Adriano Bessa e Ângelo Brayner, pela amizade, disponibilidade,
atenção, incentivo e pelos ensinamentos acadêmicos que muito contribuíram para o
desenvolvimento deste trabalho.
À professora Vládia Célia Monteiro Pinheiro, D.Sc., por todo ensinamento acadêmico
transmitido e por aceitarem contribuir com este trabalho, participando da banca.
Ao professor José Maria da Silva Monteito Filho, D.Sc., por aceitarem contribuir com
este trabalho, participando da banca.
vii
Ao professor Plácido, Coordenador do Mestrado, pelas palavras de incentivo e confiança,

para que eu tomasse a decisão de iniciar e concluir este trabalho.
Aos meus colegas de mestrado, pela amizade, brincadeiras e por compartilharem comigo
dos mesmos desafios.
Aos demais professores do MIA, pelos conhecimentos compartilhados durante as
disciplinas.
Aos funcionários do MIA, pelo incentivo, pela paciência, carinho e disponibilidade.
À CAGECE e seus profissionais que contribuíram para a realização deste trabalho por
meio de estudo de caso.
Ao professor Otávio, pelo apoio para que eu conduzisse esse trabalho no ambiente da
CAGECE.
A todos os meus amigos e familiares, pela presença constante na minha vida e por
contribuírem para minha felicidade e da minha família.
viii
Deus nos concede, a cada dia, uma página de vida nova no

livro do tempo. Aquilo que colocarmos nela, corre por nossa conta.
(Chico Xavier)
ix
Resumo da dissertação apresentada ao Corpo Docente do Curso de Mestrado em

Informática Aplicada da Universidade de Fortaleza, como parte dos requisitos necessários para
a obtenção do grau de Mestre em Informática Aplicada.
Uma abordagem de qualidade de dados em grandes bancos de dados

heterogêneos
Autor: Wilson Wagner Barroso Marques
Orientador: Prof. Adriano Bessa Albuquerque, D.Sc.
Os dados sujos são caracterizados por apresentar inconsistências, imprecisão ou erros.

As consequências de dados sujos podem ser graves. Por exemplo, os dados imprecisos custam
à economia dos EUA $ 600 bilhões por ano. Assim, a melhoria da qualidade dos dados se torna
um objetivo crítico em grandes empresas. Nesse sentido, este trabalho apresenta uma nova
abordagem para avaliar a qualidade dos dados em bases de dados heterogêneas. Além disso, é
descrita uma estrutura para limpar dados armazenados nas bases de dados avaliadas e as
experiências em bases de dados reais mostram a eficácia e eficiência da abordagem proposta.
Palavras-chave: Qualidade de dados em aplicações empresariais; Manutenção de

dados; Bases de dados heterogêneas.
x
Abstract of the dissertation presented to the board of faculties of the Master Program in
Applied Informatics at the University of Fortaleza, as partial fulfillment of the requirements for
the Master’s degree in Applied Informatics.
A Data Quality Approach in Large-scale Heterogeneous Databases
Author: Wilson Wagner Barroso Marques
Advisor: Prof. Adriano Bessa Albuquerque, D.Sc.
Dirty data is characterized by presenting inconsistencies, inaccuracy or errors. The

consequences of dirty data may be severe. For instance, inaccurate data costs the U.S. economy
$600 billion a year. Thus, data quality improvement becomes a critical goal in large enterprises.
In this sense, this work presents a novel approach for evaluating data quality in heterogeneous
databases. Furthermore, a framework for cleaning data stored in the evaluated databases is
described and experiments on real databases show the effectiveness and efficiency of the
proposed approach.
Keywords: Data Quality in Enterprise applications; Data Maintenance; Heterogeneous

databases.
xi
SUMÁRIO
LISTA DE FIGURAS ............................................................................................................. xiv

LISTA DE TABELAS ..............................................................................................................xv
1 INTRODUÇÃO ..................................................................................................................1
1.1 MOTIVAÇÃO ....................................................................................................1
1.2 OBJETIVOS .......................................................................................................2
1.3 METODOLOGIA ...............................................................................................3
1.4 ESTRUTURA DO TRABALHO .......................................................................3
2 REFERENCIAL TEÓRICO ...............................................................................................4
2.1 QUALIDADE .....................................................................................................4
2.2 QUALIDADE DE DADOS ................................................................................4
2.3 TIPO DE AVALIAÇÃO DE QUALIDADE DE DADOS EM BANCO DE

DADOS 5
2.4 QUALIDADE DE DADOS Em BANCO de dados ...........................................6
2.5 COMO OBTER QUALIDADE ..........................................................................8
2.5.1 COMPARAÇÃO DE STRING ..................................................................8
2.5.2 ALGORITMO FONÉTICO ......................................................................12
2.6 TRABALHOS RELACIONADOS ..................................................................16
2.7 CONCLUSÃO DO CAPÍTULO ......................................................................18

xii
3 PROCESSO DE QUALIDADE DE DADOS EM BASE DE DADOS HETEROGÊNEA

19
3.1 O PROCESSO ..................................................................................................19
3.1.1 Selecionar banco de dados ........................................................................20
3.1.2 Carregar domínio ......................................................................................24
3.1.3 Carregar dicionário ...................................................................................29
3.1.4 Criar base classificada...............................................................................32
4 ESTUDO DE CASO EM UMA EMPRESA SANEAMENTO BÁSICO ........................36
4.1 PROJETO DE ESTUDO DE CASO ................................................................37
4.1.1 HIPÓTESE................................................................................................38
4.1.2 DADOS RELEVANTES ..........................................................................38
4.2 EXECUÇÃO DO ESTUDO DE CASO ...........................................................38
4.2.1 Selecionar banco de dados ........................................................................38
4.2.2 Carregar domínio ......................................................................................40
4.2.3 Carregar dicionário ...................................................................................43
4.2.4 Criar base classificada...............................................................................44
4.3 ANÁLISE DAS HIPÓTESES ..........................................................................46
4.3.1 Análise da hipótese H1 .............................................................................46
4.3.2 Análise da hipótese H2 .............................................................................47
4.4 CONSIDERAÇÕES FINAIS ...........................................................................47
5 CONCLUSÃO E TRABALHOS FUTUROS ..................................................................50

xiii
5.1 PRINCIPAIS CONTRIBUIÇÕES ....................................................................50
5.2 LIMITAÇÕES ..................................................................................................51
5.3 TRABALHOS FUTUROS ...............................................................................51
REFERÊNCIAS BIBLIOGRÁFICAS .....................................................................................52

APÊNDICE A – ALGORITMOS.............................................................................................56
APÊNDICE B – RESULTADOS .............................................................................................69
xiv
LISTA DE FIGURAS
Figura 1 - Processo para identificação de dados de má qualidade ..................................20
Figura 2 – Selecionar bases de dados ..............................................................................21
Figura 3 – Carregar domínio ...........................................................................................25
Figura 4 – Modelo de dados Carregar domínio ...............................................................25
Figura 5 – Carregar dicionário ........................................................................................30
Figura 6 – Modelo de dados dicionário ...........................................................................30
Figura 7 – Criar Base classificada ...................................................................................32
Figura 8 – Modelo de dados base classificada ................................................................32
Figura 9 – Ambiente CAGECE .......................................................................................36

xv
LISTA DE TABELAS
Tabela 1 – Categoria por Dimensões de qualidade ...........................................................7
Tabela 2 – Decomposição de termos .................................................................................9
Tabela 3 – Comparação de string ....................................................................................10
Tabela 4 – Resultados da Comparação de string .............................................................11
Tabela 5 – Variáveis de qualidade...................................................................................11
Tabela 6 – Resultado Soundex ........................................................................................13
Tabela 7 – Resultado BuscaBR .......................................................................................15
Tabela 8 – Comparativo Soundex x BuscaBR ................................................................15
Tabela 9 – Comparativo Soundex x BuscaBR (Ajustado) ..............................................16
Tabela 10 – Criar conexão de banco de dados ................................................................21
Tabela 11 – Selecionar tabela ..........................................................................................22
Tabela 12 – Definição estrutura de dados TABELA.......................................................22
Tabela 13 – Montar Base Metadados ..............................................................................23
Tabela 14 – Carregar Tabelas Selecionadas ....................................................................24
Tabela 15 – Definição estrutura de dados DOMÍNIO.....................................................26
Tabela 16 – Relacionamento TABELA x DOMÍNIO .....................................................26
Tabela 17 – Montar Domínio ..........................................................................................26
Tabela 18 – Definição estrutura de dados NOME...........................................................27
Tabela 19 – Relacionamento TABELA x DOMÍNIO .....................................................27
Tabela 20 – Montar base nome .......................................................................................27

xvi
Tabela 21 – Definição elementos para limpeza ...............................................................28
Tabela 22 – Selecionar dicionário ...................................................................................30
Tabela 23 – Definição estrutura de dados DICIONARIO...............................................31
Tabela 24 – Montar dicionário ........................................................................................31
Tabela 25 – Localizar termos para comparação ..............................................................33
Tabela 26 – Função de similaridade ................................................................................33
Tabela 27 – Parâmetro de avalição para Classificação ...................................................34
Tabela 28 – Fase de Ajuste..............................................................................................34
Tabela 29 – Quantidade de tuplas carregadas por tabela ................................................39
Tabela 30 – Definição elementos para limpeza ...............................................................41
Tabela 31 – Resultados falso positivo .............................................................................45
Tabela 32 – Variáveis de qualidade.................................................................................45
Tabela 33 – Resultados obtidos .......................................................................................46
Tabela 34 – Resultados Sistema PRAX ..........................................................................69
Tabela 35 – Resultados Sistema SCO .............................................................................71
Tabela 36 – Resultados Sistema SEI ...............................................................................73
Tabela 37 – Resultados Sistema SIC ...............................................................................75
Tabela 38 – Resultados Sistema SISCOPE .....................................................................77
Tabela 39 – Resultados Sistema SGR .............................................................................78
Tabela 40 – Resultados Sistema SIG...............................................................................82

1 INTRODUÇÃO
Este capítulo apresenta a introdução da pesquisa com a descrição da problemática que

motivou e justificou o desenvolvimento deste trabalho. Os objetivos e a metodologia aplicada
são apresentados em seguida. Ao final, é apresentada a forma de organização desta dissertação.
1.1 MOTIVAÇÃO
Ao longo dos últimos 50 anos, o mundo mudou da sociedade industrial para a sociedade
da informação. O desafio das grandes empresas é aumentar a capacidade de gerar e analisar
informações e não apenas melhorar a manufatura e a capacidade de distribuição de produtos.
Nesta nova era da informação, os dados são matérias-primas necessárias para o êxito
empresarial ou mesmo para sobrevivência numa economia globalizada. Por essa razão, dados
de má qualidade podem ter um impacto negativo no desempenho corporativo, contaminando os
sistemas de informação (JIN ET AL, 2003).
A existência de dados de má qualidade afeta negativamente a economia global no

mundo. Ekerson (2002) relata que o custo devido a problemas de qualidade de dados é de U$
600 milhões por ano. No mesmo trabalho, os autores mostram uma lacuna entre a realidade e a
percepção da existência de dados sujos nas empresas. Em outras palavras, na maioria das
organizações a existência de dados imprecisos é subestimada.
Entendemos que a qualidade dos dados se degenera com o tempo quando analisamos
sobre a dimensão de temporalidade. Por exemplo, os dados do consumidor podem tornar-se
obsoletos porque ele ou ela faleceu, casou-se ou mudou-se, apenas para mencionar algumas
situações. Também temos o problema de entrada de dados incorreta que afeta a dimensão de
credibilidade, isso sem mencionar os problemas quanto a manutenção de sistema que pode
1
mudar regras de validação sem reclassificação de dados já existentes na base de dados que
podem não atender a nova regra e evolução do sistema que podem produzir dados inconsistentes
ou imprecisos quando essa evolução não trabalha todas as regras anteriores e permite por
exemplo a lançamentos de serviços para um cliente não cadastrado.
Portanto, a importância da qualidade dos dados é amplamente aceita por várias

instituições e organizações internacionais. Houve muitas conferências internacionais que
apresentaram a qualidade dos dados como seu tema principal: a Conferência Internacional sobre
Qualidade da Informação (ICIQ, 2015), que é organizada tradicionalmente em Massachusetts
Institute of Technology - MIT, desde 1996; O seminário internacional sobre a qualidade da
informação nos sistemas de informação (IQIS), realizado em conjunto com a conferência
SIGMOD desde 2004; e o workshop internacional sobre Qualidade de Sistemas de Informação
(QoIS), realizado em conjunto com a Conferência de Entidade Relacionada (ER) desde 2005
(QoIS, 2006), e assim por diante.
A qualidade dos dados pode ser medida por meio de diferentes métricas e não apenas
precisão. Temporalidade, integridade, relevância e representação consistente são exemplos de
dimensões que podem ser utilizadas para avaliar a qualidade dos dados.
Também é importante observar que a atividade de entrada de dados ainda é realizada na

maioria dos casos por seres humanos. Evidentemente, este processo introduz altas taxas de
imprecisão de dados, embora existam técnicas para minimizar a probabilidade de introdução de
erros durante o processo de entrada de dados.
Para superar esse problema, uma nova abordagem para identificar e corrigir dados de
má qualidade em bancos de dados heterogêneos é apresentada neste trabalho.
1.2 OBJETIVOS
Os principais objetivos deste trabalho são:
• Apresentar uma abordagem para melhorar a qualidade de dados, usando dicionário

de dados como meio de correção.
• Gerar resultados sobre a qualidade de dados em um caso real de uma empresa.
2
1.3 METODOLOGIA
Para atingir os objetivos propostos, o desenvolvimento deste trabalho foi dividido em 3

(três) etapas:
(1) A primeira etapa consistiu em realizar uma pesquisa bibliográfica sobre qualidade
de dados.
(2) A segunda etapa consistiu em definir uma abordagem para melhorar a qualidade de
dados com identificações e correção nos casos possíveis.
(3) A terceira etapa envolveu a realização de um estudo de caso, utilizando a abordagem

proposta.
1.4 ESTRUTURA DO TRABALHO
Este trabalho está organizado em 5 (cinco) capítulos, além desta introdução, descritos
resumidamente a seguir.
No Capítulo 2, REFERENCIAL TEÓRICO, são apresentados conceitos básicos

relacionados à área de qualidade de dados.
No Capítulo 3, Erro! Fonte de referência não encontrada., são apresentados o processo

e a abordagem proposta, que toma como base o referencial teórico apresentado anteriormente.
O referido capítulo tem como objetivo a estratégia proposta para a identificação de dados sujos
e sua limpeza.
No Capítulo 4, ESTUDO DE CASO EM UMA EMPRESA SANEAMENTO BÁSICO,

é apresentado o estudo de caso da abordagem na Companhia de Águas e Esgotos do Estado do
Ceará - CAGECE, com o objetivo de avaliar a utilização da proposta em bases de dados
heterogêneas reais.
No Capítulo 5, CONCLUSÃO E TRABALHOS FUTUROS, são apresentadas as

principais conclusões e as contribuições deste trabalho, bem como suas limitações e
perspectivas futuras.
3
2 REFERENCIAL TEÓRICO
Este capítulo apresenta o conceito para a construção do processo de classificação e

tratamento de dados textuais, utilizaram-se técnicas e métodos de comparação de atributos
textuais como se pode ver a seguir.
2.1 QUALIDADE
De acordo com o dicionário Aurélio, qualidade é uma "propriedade, atributo ou condição

das coisas ou das pessoas, capaz de distingui-las das outras e de lhes determinar a natureza.
Numa escala de valores, qualidade permite avaliar e, consequentemente, aprovar, aceitar ou
recusar qualquer coisa." (FERREIRA, 1999).
A norma ISO 9000:2015 (2015) define a qualidade como a totalidade de características

de uma entidade que lhe confere a capacidade de satisfazer às necessidades explícitas e
implícitas.
2.2 QUALIDADE DE DADOS
Qualidade de dados é um conceito complexo, porque possui significados diversos para

diferentes áreas de conhecimento. Portanto, gerar uma medida de qualidade aceitável para todos
não é uma tarefa fácil. Para isso é preciso definir as características da qualidade que interessam
e, então, decidir como a avaliação da qualidade será realizada (PINHO, 2001).
Segundo Scannapieco e Batini (2005), a qualidade de dados tem natureza

multidimensional. Um conjunto de dimensões de qualidade de dados é definido, incluindo
exatidão, completude, dimensões relacionadas ao tempo e consistência. De fato, embora o
4
conjunto de dimensões descrito seja compartilhado pela maioria das propostas, ainda não há
um padrão comum definindo quais são as dimensões do componente da qualidade dos dados e
qual é exatamente o seu significado.
Tais dimensões podem ser definidas: 1-Exatidão é a qualidade que definir a informação
como exata, 2-Completude é a qualidade que definir a informação como completa, 3-
Dimensões relacionadas ao tempo é a qualidade que definir a informação quanto a
temporalidade e 4-Consistência é a qualidade que definir a informação coerente.
Segundo Wang e Diane (1996), dados que não atendem ao conjunto de dimensões de
qualidade “dados de má qualidade” pode ter impactos sociais e econômicos substanciais.
Embora as empresas procurem a melhoria da qualidade dos dados com abordagens práticas e
ferramentas, seus esforços de melhoria tendem a concentrar-se estreitamente sobre a exatidão.
Acreditando que os consumidores de dados têm uma concepção de qualidade de dados

maior do que os profissionais de TI Wang e Diane (1996), conduzido um estudo para
desenvolver um quadro hierárquico para a organização de dimensões de qualidade de dados. A
característica saliente deste estudo de pesquisa é que os atributos de qualidade dos dados são
coletados de consumidores de dados em vez de serem definidos teoricamente ou com base na
experiência dos pesquisadores.
Após esta analise sobre qualidade de dados, podemos definir que dados de má qualidade
são todos aqueles que não atendem ao conjunto de dimensões de qualidade. Sendo importante
destacar que a melhoria da qualidade de dados passa por todas as dimensões e quando
trabalhamos uma determinada dimensão, estamos atingindo nosso objetivo de melhoria da
qualidade de dados.
2.3 TIPO DE AVALIAÇÃO DE QUALIDADE DE DADOS EM BANCO

DE DADOS
Os dois tipos de avaliações que podem ser feitas em um banco de dados são: a avaliação
quantitativa (ou objetiva) e a avaliação qualitativa (ou subjetiva) (PINHO, 2001).
Na avaliação quantitativa são utilizados indicadores objetivos para medir a qualidade das
informações em banco de dados. Para este caso, a avaliação de qualidade depende apenas do
5
dado que está sendo analisado, e não do ponto de vista do avaliador. São observados, por
exemplo, valores do domínio, presença de valor, entre outros fatores.
A avaliação quantitativa da qualidade é normalmente realizada por ferramentas

automatizadas (software). Esse tipo de avaliação está baseado na perspectiva do
desenvolvimento tradicional, pois considera que a precisão e a objetividade são dois critérios
necessários. Porém, sem atingir todas as dimensões de qualidade não é possível qualificar dados
como de alta qualidade.
A avaliação qualitativa da qualidade depende do ponto de vista do avaliador e do dado

que está sendo avaliado. Neste tipo de avaliação os indicadores subjetivos são as características
da qualidade que foram definidas, objetivando capturar a percepção e a expectativa do usuário
sobre a qualidade de dados. Ela pode ser realizada por especialistas ou usuários do banco de
dados, ou ainda em conjunto com ferramentas automatizadas, que utilizam os indicadores
subjetivos para julgar a qualidade atual do banco de dados e sua aptidão de uso.
2.4 QUALIDADE DE DADOS EM BANCO DE DADOS
De acordo com English (1999), a qualidade da informação é composta por três fatores:
definição clara ou significado dos dados, valores corretos e facilidade de entendimento do
formato apresentado para o usuário final. A baixa qualidade em algum desses três componentes
pode causar falhas nos processos de negócio e resultar em tomadas de decisão incorretas.
Segundo este mesmo autor, informação é a aplicação dos dados, e pode ser representada pela
seguinte equação:
Informação = f (Dados + Definição + Apresentação)
Logo, a qualidade da informação requer que haja qualidade tanto na definição quanto no
conteúdo dos dados. A qualidade na definição dos dados aplica-se a conceitos. Ela é uma
característica e uma medida dos modelos de dados produzidos pelo processo de
desenvolvimento das aplicações. A qualidade do conteúdo dos dados é o grau no qual os valores
dos dados representam corretamente os fatos ou entidades do mundo real, e atendem às
necessidades de informação dos clientes. Ela se aplica às instâncias dos dados.
6
Segundo Batini e Scannapieco (2016), quando as pessoas pensam sobre a qualidade dos
dados, eles se concentram apenas no parâmetro de exatidão. Assim, os dados de má qualidade
são utilizados mesmo se houver erros ortográficos ou valores errados como por exemplo: uma
data de aniversário errada ou a idade absurda de uma pessoa.
Há outras dimensões importantes, como a integridade e a consistência para avaliar a

qualidade dos dados, como veremos mais adiante.
De acordo com Wang e Ziad (2000) e Pipino ET AL (2002), a informação pode ser
dividida em quatro categorias e 16 dimensões de acordo com a Tabela 1.
Tabela 1 – Categoria por Dimensões de qualidade

Categoria Dimensão
Precisão: Informação correta e confiável;
Objetividade: A informação é imparcial;

Intrínseco
Credibilidade: A informação é verdadeira;
Reputação: Fonte e conteúdo da informação;
Acessibilidade: A informação está disponível;

Acessibilidade
Segurança de acesso: O acesso à informação é restrito;
Relevância: A informação é aplicável e útil;
Valor agregado: A informação é boa e vantajosa;
Contextual Temporalidade: A informação é atualizada;
Integridade: A informação não é perdida e é suficiente;
Informação adequada: Volume de informação adequado;
Interpretabilidade: A informação está na linguagem apropriada;
Facilidade de compreensão: A informação é facilmente compreendida;
Representação Representação concisa: a informação é representada de forma compacta;
Representação consistente: informação apresentada no mesmo formato;
Facilidade de manuseio: Informação fácil de ser manuseada / aplicada;
7
2.5 COMO OBTER QUALIDADE
Para melhorar a qualidade de dados, pode-se utilizar: 1-Métodos de comparação de

campos textuais (string) e 2-Métodos de geração de fonema. O processo de comparação de
string também é usado em projetos de integração de sistemas usando enriquecimento léxico.
2.5.1 COMPARAÇÃO DE STRING
Uma melhora substancial na qualidade dos dados pode ser realizada a partir da
identificação de objetos similares, isso porque podemos avaliar se estes objetos tem o mesmo
significado, representem a mesma coisa ou se são iguais. A similaridade de objetos é estudada
em uma variada gama de áreas, desde o contexto da detecção de registros, documentos ou Web
sites similares, até nas áreas de plágio, identificação de spams e reconhecimento de padrões.
Um ponto importante no método de comparação é que devem existir dois objetos para ser
possível a realização da comparação. Neste caso, além dos dados que devem ser analisados é
necessário criar um dicionário que será a referencia para a comparação.
Um exemplo processo que utiliza comparação de string sem a necessidade de um

dicionário é o método de deduplicação que realiza comparação entre os próprios objetos para
identificar duplicidades.
A comparação entre cadeias de string pode ser verificada usando medidas de similaridade
ou funções, que podem ser divididos em dois grupos (mas não limitados a eles):
Baseado em Caracteres: usa como evidência a localização dos caracteres para avaliar a
similaridade dos registros. Essas funções são usadas para calcular a quantidade mínima de
variações (inserção, exclusão e atualização) necessárias para transformar a primeira String em
uma segunda String. No entanto, as funções baseadas em caracteres não têm um bom
desempenho porque comparam todos os caracteres para quantificar a semelhança. Neste grupo,
existem as seguintes funções de similaridade: Levenshtein (1965), Smith Waterman (1980),
Stochastic Model (RISTAD YANILOS, 1996).
Baseado em Tokens: o banco de dados é fragmentado no conjunto de tokens para

quantificar o nível de similaridade usando a relação entre os conjuntos (interseção ou união de
8
elementos). De forma simples, o nível de similaridade é calculado usando a correspondência
exata entre os tokens. No entanto, a coincidência exata impede a detecção de pequenas
variações, como, por exemplo, erros relacionados à tipografia, plural, abreviaturas, etc. Dados
(ROHLF, 1990), Jaccard, Cossine são exemplos de funções de similaridade deste grupo.
Para garantir a eficiência da função de similaridade, pode-se utilizar outra técnica para
fragmentar a string em unidades menores baseado na ideia de tokens a partir da decomposição
de string em termos menores. Assim será possível uma comparação entre termos com maior
grau de precisão conforme pode ser vista na Tabela 2.
A decomposição de termos será usada para montar domínio e carregar dicionário ambos
na rotina de decomposição que será responsável pela fragmentação do texto em partes menores.
Facilitando a analise de similaridade entre os termos analisados, isso porque teremos parte
menores como pode ser observado na Tabela 2. Veja que a coluna texto apresenta um conteúdo
que foi fracionado em termos (demais colunas), com isso será possível avaliar cada termo
independente. Isso porque podem existir erros apenas em partes especificas que identificadas
adequadamente dentro dos padrões de similaridade definidos, podem ser corrigidos.
Tabela 2 – Decomposição de termos

Texto Termo 1 Termo 2 Termo 3 Termo N
ALDEIA INDÍGENA CAPIM AÇU ALDEIA INDÍGENA CAPIM AÇU
ALTO DA VÁRZEA ALTO DA VÁRZEA
BARRA DA SUCATINGA BARRA DA SUCATINGA
BOA VISTA DO CAXITORÉ BOA VISTA DO CAXITORÉ
CAJAZEIRAS DO JILÓ CAJAZEIRAS DO JILÓ
FORTALEZA FORTALEZA
JIJOCA DE JERICOACOARA JIJOCA DE JERICOACOARA
MORADA NOVA MORADA NOVA
PIRES FERREIRA PIRES FERREIRA
SÃO LUÍS DO CURU SÃO LUÍS DO CURU
PALESTINA DO CARIRI PALESTINA DO CARIRI
CAMPOS BELOS CAMPOS BELOS
FARIAS BRITO FARIAS BRITO
VÁRZEA ALEGRE VÁRZEA ALEGRE
LAVRAS DA MANGABEIRA LAVRAS DA MANGABEIRA
ICO ICO
Com essa técnica, os algoritmos baseados em caractere têm que fazer o processo de
comparação apenas entre termos e não mais no texto completo como por exemplo: podemos
comparar “CAMPOS BELOS” com “CAMPUS BELUS” ou podemos decompor em termos e
9
comparar separadamente “CAMPOS” com “CAMPUS” e “BELOS” com “BELUS” o que torna
o processo de comparação mais simples. Dessa forma, a técnica torna-se melhor aproveitada,
conforme pode ser demonstrado na Tabela 3, quando temos a demonstração de casos de termos
comparados ao dicionário e suas diferenças.
A comparação de string será usada para criar base classificada na atividade executar
função de similaridade que será responsável pela identificação de similaridade entre os termos
comparados.
Tabela 3 – Comparação de string

Termo Comparação Termo Dicionário Alinhamento
ALAGOINHA
ALAGOINHA ALAGOINHA
ALAGOINHA
IC[O]
ICO ICÓ
IC[Ó]
ALC[A]NTARA[-]
ALCANTARA ALCÂNTARAS
ALC[Â]NTARA[S]
TEJU[SS]UOCA
TEJUSSUOCA TEJUÇUOCA
TEJU[Ç-]UOCA
IPAGUA[SSÚ]
IPAGUASSÚ IPAGUAÇU
IPAGUA[Ç-U]
MA[R]JO[-]L[A]NDIA
MARJOLANDIA MAJORLÂNDIA
MA[-]JO[R]L[Â]NDIA
G[RAC]A[-]
GRACA GARÇAS
G[ARÇ]A[S]
Podemos observar na Tabela 3 que o termo de comparação deve ser alinhado com o termo
do dicionário. O campo alinhamento apresentado na Tabela 3, apresenta entre colchetes os
caracteres diferentes entre os termos comparados. Este procedimento é realizado pelos
algoritmos de comparação de string que serão descritos a seguir.
As métricas com valores no intervalo [0,1] foram utilizados como critério para escolher
a função de similaridade porque são mais adequados, pois o índice que tende ao infinito é
sensível a pequenas mudanças (CLIFFORD STEPHENSON, 1975).
A distância de Levenshtein (1965) é calculada usando o número mínimo de operações

necessárias para transformar uma sequência em outra. Essas operações podem ser inserção,
exclusão ou substituição de um caractere. O algoritmo de Levenshtein (1965) usa uma matriz
(n + 1) x (m + 1), em que n e m representam o número de caracteres de duas cadeias.
É muito útil para aplicações que precisam determinar o nível de similaridade entre duas
cadeias, como o caso de verificadores ortográficos. A opção por este algoritmo também foi
10
baseada nos resultados entregues de distância que representa o número de operações realizadas
e seu coeficiente de similaridade.
O coeficiente de similaridade Dice (DSC) (ROHLF, 1990) é uma estatística utilizada para
comparar duas amostras semelhantes. Neste caso, essas amostras serão os termos que são
necessários para serem comparados. Foi desenvolvido, independentemente, pelos botânicos
Thorvald Sorensen (1948) e Lee Raymond Dice (1945) e utiliza uma fórmula matemática
descrita da seguinte forma: 2 | X Y | / | X | + | Y |, em que x e y representam o número de
caracteres de duas cadeias.
Na Tabela 4, é possível analisar os resultados obtidos com aplicação dos algoritmos de

comparação de string distância de Levenshtein (1965) e coeficiente de similaridade Dice (DSC)
(ROHLF, 1990).
A combinação destes resultados será apresentada nos próximos capítulos.
Tabela 4 – Resultados da Comparação de string

Termo Comparação Termo Dicionário Operações Levenshtein Dice
ALAGOINHA ALAGOINHA 0 1 1
ICO ICÓ 1 0,7 0,3
ALCANTARA ALCÂNTARAS 2 0,8 0,6
TEJUSSUOCA TEJUÇUOCA 2 0,8 0,7
IPAGUASSÚ IPAGUAÇU 3 0,7 0,6
MARJOLANDIA MAJORLÂNDIA 3 0,7 0,5
GRACA GARÇAS 4 0,3 0
A escolha dos dois algoritmos para trabalhar em conjunto baseou-se na meta que visa
melhorar o desempenho da função de similaridade com qualquer tamanho de termo (uma
maneira de garantir a eficiência com qualquer quantidade de caracteres apresentados no termo,
já que não temos como limitar o tamanho de um termo para limite inferior ou superior quanto
a quantidade de caracteres), pois fornece um ajuste específico para cada função, possibilitando
estabelecer um maior nível de similaridade.
Grupo de variáveis utilizados para auxiliar este processo, de acordo com Tabela 5.
Tabela 5 – Variáveis de qualidade

Variável Descrição
É necessário que o escore obtido ultrapasse o valor definido por esta
Similaridade automática variável para obter uma similaridade automática sem intervenção
humana;
11
Variável Descrição
De modo que duas cadeias possam ser consideradas semelhantes entre
si e possam ser apresentadas ao utilizador, é necessário que a
Semelhança substancial pontuação obtida seja maior ou igual ao valor definido por esta
variável;
Para que uma similaridade ocorra automaticamente, não pode existir

uma segunda sequência cuja semelhança esteja muito próxima da
Precisão primeira sequência (maior similaridade). Este valor é um tipo de
distância mínima que deve existir entre os dois valores de similaridades
mais altas;
Quantidade máxima de strings semelhantes que serão possíveis para

serem exibidos como um resultado válido. Essas strings são
Valor Máximo
classificadas por grau de similaridade, de modo que as sequências mais
semelhantes serão exibidas;
2.5.2 ALGORITMO FONÉTICO
Usado para facilitar a busca de informações semelhantes, mas que podem estar com
ortografia diferente por erro de escrita e mesmo assim eles possam ser correspondidos apesar
das diferenças. Consiste na criação de blocos lógicos dentro da estrutura trabalhada para criar
relacionamentos.
Usado para indexar nomes por som, como pronunciar em uma linguagem específica,
quando há palavras semelhantes, mas que podem ter ortografia diferente para que eles possam
ser correspondidos apesar das diferenças. Consiste na criação de blocos lógicos dentro da
estrutura trabalhada para criar relacionamentos.
Christen (2007) explica que o uso de algoritmos de fonemas reduz o número de

comparações entre os registros. Esse mecanismo dará um melhor desempenho ao processo,
evitando comparações desnecessárias, isto é, não realizando comparação entre objetos
completamente diferentes. Esse tipo de algoritmo também é bastante usado para localizar dados
duplicados, quando evita comparações complexas de todos com eles mesmos para encontrar as
duplicações, o que tornaria a complexidade desta busca quadrática (O(n2)).
Um recurso baste útil, mas que deve ser trabalho para língua especifica como podemos
observar na Tabela 6, quando é possível verificar na coluna termo as informações
ALAGOINHA e ALCANTARA com a coluna resultado A425 para os dois casos. Isso ocorre
devido as particularidades da língua inglesa que inviabiliza um uso geral deste algoritmo. Sendo
necessário um algoritmo para língua portuguesa.
12
Soundex (RUSSELL ODELL, 1918), baseia-se na língua inglesa e sua codificação
consiste em uma letra seguida por três números e a letra são os primeiros da sequência. Os
números são a codificação de outras consoantes de acordo com critérios do algoritmo, conforme
descrito abaixo:
• Substitua as consoantes (sem alterar a primeira letra da string) como segue:
1. b, f, p, v = 1
2. c, g, j, k, q, s, x, z = 2
3. d, t = 3
4. l = 4
5. m, n = 5
6. r = 6
• Substitua as letras adjacentes iguais por um único dígito correspondente.
• Remova todos os não-dígitos após a primeira letra.
• Retorne a letra inicial e os três primeiros dígitos restantes. Se necessário, adicione

zeros à direita para formar uma letra e três dígitos.
Na Tabela 6 temos o resultado da execução do algoritmo Soundex (RUSSELL ODELL,

1918).
Tabela 6 – Resultado Soundex

Termo Resultado
ALAGOINHA A425
ALCANTARA A425
ICO I200
TEJUSSUOCA T222
IPAGUASSÚ I122
MARJOLANDIA M624
GRACA G620
BuscaBR (DE LUCENA, 2006), é uma adaptação do algoritmo fonético Soundex ao

português brasileiro, seguindo os critérios descritos abaixo:
13
• Converter todas as letras para maiúsculas;
• Eliminar todos os acentos;
• Substituir:
1. Y por I
2. BR por B
3. PH por F
4. GR, MG, NG, RG por G
5. GE, GI, RJ, MJ, NJ por J
6. Q, CA, CO, CU, C por K
7. LH por L
8. N, RM, GM, MD, SM e terminação AO por M
9. NH por N
10. PR por P
11. Ç, X, TS, C, Z, RS por S
12. LT, TR, CT, RT, ST para T
13. W para V
• Remover as terminações [S, Z, R, R, M, N, AO e L]
• Substituir [R por L]
• Excluir todas as vogais e H;
• Eliminar toda a duplicação.
Na Tabela 7 temos o resultado da execução do algoritmo BuscaBR (DE LUCENA, 2006).
14
Tabela 7 – Resultado BuscaBR
Termo Resultado
ALAGOINHA LGM
ALCANTARA LSMTL
ICO S
TEJUSSUOCA TJS
IPAGUASSÚ PGS
MARJOLANDIA MJLM
GRACA GS
É possível observar na Tabela 8 uma comparação entre o algoritmo BuscaBR e BuscaBR

Ajustado.
Tabela 8 – Comparativo Soundex x BuscaBR

Termo Soundex BuscaBR
ABAIARA A160 BL
ABREU A160 B
APRAZIVEL A162 PSV
APUIARES A162 PL
AGUAS A220 G
ASSIS A220 S
ALCANTARA A425 LSMTL
ALAGOINHA A425 LGM
ANA A500 M
ANAUA A500 M
AURORA A660 L
ARUARU A600 L
Podemos observar que os resultados apresentados pelo algoritmo Soundex têm baixa
taxa de acerto, pois existe o mesmo resultado para mais de um termo. Isso se deve ao idioma
que, para este trabalho, será o português.
Os resultados para os termos (ANA e ANAUA) com fonema gerado M e (AURORA e

ARUARU) com fonema gerado L conforme apresentado na Tabela 8. Mostra que este algoritmo
pode ser adaptado para melhor atender aos resultados. Na versão original de BuscaBR, todas as
vogais são descartadas e como o processo foi projetado para comparar termo a termo, temos os
resultados imprecisos quando temos o mesmo resultado para mais de um termo conforme
Tabela 8.
O algoritmo BuscaBR foi ajustado para descartar apenas a última vogal do termo e
preservando as demais vogais, como podemos observar nos resultados conforme Tabela 9,
quando obtemos como resulta para os termos ANA o resultado AM, ANAUA o resultado
AMAU, AURORA o resultado AULOL e ARUARU o resultado ALUALU.
15
Tabela 9 – Comparativo Soundex x BuscaBR (Ajustado)
Termo Soundex BuscaBR (Ajustado)
ABAIARA A160 ABAIAL
ABREU A160 ABEU
APRAZIVEL A162 APASIVE
APUIARES A162 APUIALE
AGUAS A220 AGU
ASSIS A220 ASI
ALCANTARA A425 ALSAMTAL
ALAGOINHA A425 ALAGOIM
ANA A500 AM
ANAUA A500 AMAU
AURORA A660 AULOL
ARUARU A600 ALUALU
2.6 TRABALHOS RELACIONADOS
Já vimos que qualidade de dados tem natureza multidimensional (SCANNAPIECO

BATINI, 2005). Neste aspecto, encontramos trabalhos que tratam o assunto com várias
abordagens que podem ser um estudo sobre qualidade de dados, aplicação de processos e
métodos para obter qualidade de dados ou então propondo um novo método para melhoria da
qualidade de dados.
Um conjunto de trabalhos sobre esse tema foi selecionado, sendo avaliadas suas
características e objetivos.
1. Krishnan ET AL (2016) fizeram um estudo sobre a qualidade dos dados no

mercado de trabalho e na academia; tema importante no desenvolvimento deste
trabalho quando foi possível avaliar como o mercado e academia entendem a
qualidade de dados, enquanto nossa proposta é analisar e propor correções e
também avaliar a qualidade dos dados. Foram identificados como pontos
importantes: (1) a natureza interativa da limpeza de dados; (2) a falta de rigor na
avaliação da precisão dos dados limpeza; (3) desconexão entre analistas que
consultam, os engenheiros de dados e infra-estrutura que projetam a limpeza de
dados.
16
2. Geerts e Floris (2013) desenvolveram uma proposta para avaliar e resolver o
problema da qualidade dos dados, utilizando um algoritmo para calcular
soluções mínimas e implementar um protótipo baseado em SGBD, para a
correção de integridade ou dependência.
3. Duan e Lee (2013) realizaram um estudo para identificar a complexidade e os
aspectos abordados para melhorar a gestão do conhecimento, melhorando a
qualidade dos dados, utilizando um modelo de processo. Este trabalho
desenvolveu um processo para classificar e verificar banco de dados heterogêneo
com uma execução de ferramenta que utiliza uma estratégia de comparação para
avaliar a qualidade de dados existente com base em análises já realizadas ou na
própria base em momento anterior, com foco na correção e validação do domínio
de dados gerado no período de organização do banco de dados.
4. Wang e Diane (1996) realizaram um estudo para desenvolver um quadro que
abranja os aspectos da qualidade dos dados que são importados para os
consumidores de dados.
5. Kolb e Thor (2012) demonstraram uma ferramenta de deduplicação com Hadoop
para MapReduce-based.
6. Chu e Xu (2015) apresentaram a ferramenta Katara, que trabalha com uma base
de conhecimento e um sistema de limpeza de dados atraves da interpretação
semântica de tabela para alinhá-la com base de conhecimento, assim identifica
dados corretos e incorretos e gera possíveis reparos para dados incorretos.
7. Haas e Daniel (2015) apresentaram o Wisteria, um sistema para apoiar o
desenvolvimento iterativo e otimização da limpeza de dados usando Workflows.
8. Khayyat e Zuhair (2015) apresentaram o BigDansing, um sistema Big Data
Cleansing. O sistem pode funcionar em cima da maioria dos Plataformas de
processamento de dados que vão desde DBMSs até Map Reduce. Uma
programação de fácil utilização permite que os usuários expressem regras de
qualidade de dados de forma declarativa e processual.
A proposta deste trabalho é trabalhar melhoria de dados com base na análise de

comparação de string, buscando componentes de similaridade através de dicionário de dados
estabelecido previamente de acordo com características de assunto tratados no sistemas/SGBD
que será objeto de análise. Também é possível executar o processo sem um dicionário, o que
nos apresentaria um resultado sobre o domínio existente na base de dados. Este domínio pode
17
ser objeto de análise de especialista para identificar se existe inconsistências. Quando um
dicionário base for estabelecido, o processo pode ser executado novamente e propor as
correções necessárias.
2.7 CONCLUSÃO DO CAPÍTULO
Neste capítulo, foi apresentado o conceito de qualidade de dados, métricas de qualidade

e quais algoritmos de comparação de string devemos usar para atingir esse objetivo de melhoria
da qualidade de dados.
Apresentamos o algoritmo BuscaBr em sua forma pura, mas será necessária uma
adaptação ao seu código para atender a proposta de decomposição de string em partes menores
que denominamos de termos. Isto porque na língua portuguesa falada no Brasil, existem várias
palavras de origem indígena compostas só por vogais. O que tornaria a representação de um
fonema impossível com a retirada de todas as vogais para um termo composto exclusivamente
de vogais ou com um número mínimo de consoantes.
Com o avanço da tecnologia da informação em várias áreas, mais pessoas usam algum
tipo de aplicação de tecnologia da informação, tais como redes sociais, e-business etc. Como
há um maior volume de dados sendo armazenados em bancos de dados, a quantidade de erros
de digitação também ocorre. Tornando a análise desses dados um grande desafio para as áreas
de tecnologia da informação.
18
3 PROCESSO DE QUALIDADE DE DADOS EM BASE DE
DADOS HETEROGÊNEA
Neste capítulo é apresentada a abordagem para a tratamento de dados de má qualidade

e como será realizada a correção para os casos possíveis ou identificação para os demais casos.
O processo de identificação de dados de má qualidade é baseado na técnica de comparação de
cadeia em termos de pares chamado técnica de comparação de termo parcial – TCTP.
3.1 O PROCESSO
Para atingir seu objetivo, o TCTP usa uma base de conhecimento, chamada
DICIONÁRIO. O DICIONÁRIO contém os domínios de todos os dados possíveis a serem
analisados. A saída TCTP é uma lista de dados de má qualidade, que não têm nenhuma
semelhança com dados no dicionário. Além disso, TCTP recomenda a ação de correção para
melhorar a qualidade dos dados na lista de dados de má qualidade.
É possível incluir, dinamicamente, termos no banco de dados de conhecimento aqui

denominado dicionário, por exemplo, expressão coloquial ou mesmo uma gíria.
O processo foi definido em atividades que se completam e interagem para atingir o

objetivo de classificar uma base dados, identificando dados de má qualidade. Este processo foi
idealizado para classificação de string apenas. Isto é, não serão tratados dados do tipo numérico,
data e etc (qualquer outro tipo de dado deve ser desconsiderado no processo).
A Figura 1 apresenta o processo de identificação de dados de má qualidade que é

descrito no diagrama de fluxo de trabalho. Cada atividade será detalhada posteriormente neste
capítulo.
19
Figura 1 - Processo para identificação de dados de má qualidade
3.1.1 Selecionar banco de dados
O processo de identificação de dados de má qualidade tem seu ponto de partida na

configuração da conexão com SGBD, que é usada para carga de dados a serem analisados.
Neste processo, é possível selecionar mais de um banco de dados a ser analisado. O objetivo é
permitir a seleção de base de dados heterogênea conforme apresentado na Figura 2, facilitando
a classificação dos mesmos dados nas diversas bases selecionadas. Sendo possível gerar
informações com mesmo domínio em qualquer base selecionada.
20
Figura 2 – Selecionar bases de dados
3.1.1.1 Atividade - Criar conexão
Para estabelecer uma conexão com banco de dados, será necessário configurar a
conexão que será usada. Podem ser criadas mais de uma conexão com objetivo de analisar bases
de dados heterogêneas com os parâmetros, conforme Tabela 10.
Tabela 10 – Criar conexão de banco de dados
Objetivo: Criar conexão de banco de dados

Entrada: Saída:
Parâmetros de configuração com dados principais de Conexão criada com acesso ao banco de dados que foi
(Host, Banco, Porta, Usuário e Senha). definido.
Toda conexão deve ter um nome significativo.
3.1.1.2 Atividade - Selecionar tabela
Ao estabelecer a conexão que será usada no processo de identificação de dados de má

qualidade, será necessária uma análise de quais tabelas devem ser analisadas. A ideia é
identificar dados incorretos observando se estes dados pertencem a um conjunto particular de
domínio sobre o qual foi montado o dicionário. Caso contrário, será apresentado nas estatísticas
do resultado final um elevado número de erros encontrados que podem ser classificados como
entrada de dados incorreta. A Tabela 11 contem os dados de entrada e saída.
21
Tabela 11 – Selecionar tabela
Objetivo: Selecionar tabela

Entrada: Saída:
Selecionar subconjunto de tabelas para cada conexão Lista de tabelas que devem ser copiadas para área de
criada. trabalho ou stage.
3.1.1.3 Atividade - Montar base metadados
Será realizada uma busca na base de dados a ser analisada, coletando informações sobre
metadados do subconjunto de tabelas que devem ser analisadas. Estas informações serão
armazenadas numa estrutura de dados que denominamos de TABELA.
A função desta estrutura é tornar possível o mapeamento entre os dados classificados e

sua origem na base de dados que está sendo analisada, conforme definido na atividade de criar
conexão. A Tabela 13 contem os dados de entrada e saída.
Definição da estrutura de dados TABELA conforme Tabela 12:
Tabela 12 – Definição estrutura de dados TABELA

Campo Tipo Descrição
Nome_schema Varchar2(10) Nome do schema de banco de dados de origem
Nome_tabela Varchar2(31) Nome da tabela que será objeto de análise
Nom_campo Varchar2(31) Nome do campo da tabela
Descricao_campo Varchar2(100) Descrição do campo (informação não obrigatória)
Posicao_campo Integer Posição do campo na tabela (ordenação na tabela)
Restricao_notnull Varchar2(3) Identifica se campo pode nulo ou não
Tamanho_campo Integer Tamanho do campo
Precisao_campo Integer Tamanho da precisão numérica para decimais
Definição da tipo do campo (qual tipo de dados por
Tipo_campo Varchar2(30)
estar representado)
22
Quantidade de registro existem na tabela para este
Quantidade_registro Integer
campo, desconsiderando os nulos
Chave de negócio criada através da regra de
checksum MD5 dos campos:
Bk_rach Varchar2(50) NOME_SCHEMA,
NOME_TABELA,
NOME_CAMPO
Chave de registro criado através da regra de
checksum MD5 dos campos:
NOME_SCHEMA,
NOME_TABELA,
NOME_CAMPO,
DESCRICAO_CAMPO,
POSICAO_CAMPO,
Rg_rach Varchar2(50) RESTRICAO_NOTNULL,
TAMANHO_CAMPO,
PRECISAO_CAMPO,
ESCALA_CAMPO,
TIPO_CAMPO,
CHARSET_CAMPO
<i>Esta informação usada para saber se teve
mudança de estrutura deste ultima análise>
Data que foi criado este estrutura na área de trabalho
Data_criacao Date
ou stage.
Data que foi modificado estrutura de dados com base
na identificação do registro pelo campo pk_rach e
Data_alteracao Date reg_rache, avaliando se foi modificado qualquer
informação na estrutura de dados desde ultima
análise
Data que foi confirmado que este campo não existe
Data_exclusao Date
mais na base de origem conforme
Regra que identifica se o campo esta ativo ou inativo
(isto pode ocorrer quando temos várias alteração
Campo_ativo Varchar2(1) identificadas na estrutura a cada nova análise e
temos vários registro históricos das versões
anteriores)
Sequencial que informa em qual carga de dados foi
Sequencia_carga Integer
carregado esta informação
Tabela 13 – Montar Base Metadados
Objetivo: Montar Base Metadados

Entrada: Saída:
Mapeamento das estruturas de dados na origem Atualização da estrutura de dados TABELA,
(metadados) do subconjunto de tabelas selecionadas. responsável pelo mapeamento das estruturas de
dados na origem.
23
3.1.1.4 Atividade - Carregar tabelas selecionadas
Utilizando as definições obtidas e armazenadas na estrutura de dados TABELA, será

possível criar uma cópia em nossa área de trabalho ou stage das mesmas estruturas que serão
objeto de análise. Isto é necessário para evitar distorções durante o processo de classificação.
Caso a base origem venha a ser modificada.
Esta atividade também tem o objetivo de liberar o mais rápido possível a base de origem
através de processo simples de extração e carga de dados sem aplicação de regras de negócio
para agilizar o processo.
Ao final desta atividade teremos uma réplica completa do conjunto de tabelas

selecionado para análise, o qual será usado para todo o restante do processo. A Tabela 14
contem os dados de entrada e saída.
Tabela 14 – Carregar Tabelas Selecionadas
Objetivo: Carregar Tabelas Selecionadas

Entrada: Saída:
Lista de tabelas que devem ser copiadas para área de Lista de tabelas carregadas na área de trabalho ou
trabalho ou stage. stage.
3.1.2 Carregar domínio
A criação da base de verificação segue os requisitos conforme o que é definido na Figura

1 e detalhado na Figura 3 e 4, sendo detalhados seus passos as seguir.
24
Figura 3 – Carregar domínio
Figura 4 – Modelo de dados Carregar domínio
3.1.2.1 Atividade - Montar domínio
A montagem do domínio é realizada com base nas definições coletadas e armazenadas

na estrutura de dados TABELA, gerando um SQL que será carregado com todos os dados
disponíveis para nossa na estrutura de dados denominada DOMÍNIO. Temos uma estrutura de
25
dados verticalizada seguindo a estrutura padrão para o armazenamento desses dados no formato
definidos na Tabela 15. A Tabela 17 contem os dados de entrada e saída.
Tabela 15 – Definição estrutura de dados DOMÍNIO

checksum MD5 com todos os campos da tabela do
Rg_rach Varchar2(50) banco origem.
<i>Esta informação usada identificar do registro
horizontal que foi convertido para vertical >
Nome_schema Varchar2(10) Nome do schema de banco de dados de origem
Nome_tabela Varchar2(31) Nome da tabela que será objeto de análise
Nome_campo Varchar2(31) Nome do campo da tabela
Informação Varchar2(100) Dado na origem
Data_atualizacao Date Data em que foi realizada carga
Sequencial que informa em qual carga de dados foi

Sequencia_carga integer
carregado esta informação
Definição do relacionamento entre as estruturas TABELA x DOMÍNIO conforme

Tabela 16.
Tabela 16 – Relacionamento TABELA x DOMÍNIO

Objetivos: Apresentar relacionamento entre as estruturas TABELA x DOMÍNIO
TABELA DOMÍNIO
Nome_schema Nome_schema
Nome_tabela Nome_tabela
Nome_coluna Nome_coluna
Tabela 17 – Montar Domínio
Objetivo: Montar Domínio

Entrada: Saída:
Estrutura de dados TABELA (fornece informações de Atualização da estrutura de dados DOMINIO.
metadados).
26
3.1.2.2 Atividade - Montar base nome
A montagem da base NOME é realizada com base nas informações coletadas e

armazenada na estrutura de dados DOMÍNIO, carregando todos os dados disponíveis para nova
estrutura de dados denominada NOME. Temos uma estrutura de dados verticalizada seguindo
a estrutura padrão para o armazenamento desses dados no formato definidos na Tabela 18. A
Tabela 20 contem os dados de entrada e saída.
Tabela 18 – Definição estrutura de dados NOME

Id_nome Integer Sequencia que identifica registro de forma única
Resulta do processo de decomposição do campo

Parte_nome Varchar2(40)
informação da tabela DOMINIO
Quantidade de partes existe para recompor a

Parte_quantidade Integer
informação
Fonema Varchar2(40) Fonema que representa o campo Parte_nome

checksum MD5 com todos os campos da tabela do
Rg_rach Varchar2(50) banco origem.
<i>Esta informação usada identificar do registro
horizontal que foi convertido para vertical >
Definição do relacionamento entre as estruturas DOMÍNIO x NOME conforme Tabela

19.
Tabela 19 – Relacionamento TABELA x DOMÍNIO
Objetivos: Apresentar relacionamento entre as estruturas DOMÍNIO x NOME

DOMÍNIO NOME
Rg_rach Rg_rach
Tabela 20 – Montar base nome
Objetivo: Montar base Nome

Entrada: Saída:
Estrutura de dados DOMÍNIO. Atualização da estrutura de dados NOME.
Para execução desta atividade é necessária a aplicação das rotinas apresentadas abaixo:
27
3.1.2.2.1 Rotina de limpeza:
Retirada de elementos que podem impossibilitar uma comparação de similaridades,

retiramos os elementos conforme Tabela 21, entre outros que podem ser adicionados. Realizada
a substituição para espaçamento em branco em cada elemento substituído. Acentos gráficos não
serão removidos, porque seria um elemento para identificar erros de entrada de dados;
Tabela 21 – Definição elementos para limpeza

Elemento Tipo Descrição
[ Caracter Abre cochete
] Caracter Fecha cochete
{ Caracter Abre chave
} Caracter Fechar chave
( Caracter Abre parêntese
) Caracter Fecha parêntese
/ Caracter Barra
\ Caracter Barra inversa
_ Caracter Underline
-‐ Caracter Traço
. Caracter Ponto
, Caracter Virgula
; Caracter Ponto e virgula
3.1.2.2.2 Rotina de decomposição:
28
Nesta rotina a fragmentação dos dados em unidades menores é realizada, segmentando-
as até o nível de termos. Este processo é realizado usando como critério a presença de espaços
em branco entre os termos de uma string. Estes termos são convertidos em novas tuplas que
devem ser usadas na etapa de classificação.
A importância desta rotina está relacionada com o processo comparação de string para
avaliar similaridade entre as partes analisadas. Como nosso modelo é baseado em dicionário,
comparação entre termos presentes no dicionário e termos complexos com várias partes não
seria uma boa estratégia.
3.1.2.2.3 Rotina Fonema:
Esta é a rotina em que algoritmos fonéticos serão utilizados, auxiliando na seleção de

termos que devem ser comparados ao dicionário. O algoritmo Soundex pode ser utilizado
(RUSSELL ODELL, 1918) para atender a língua inglesa e BuscaBR (DE LUCENA, 2006) para
o português. Para cada nova tupla gerada no processo de decomposição será aplicado o
algoritmo de fonema gerando, assim, base de fonemas que será usada para definir quais termos
devem ser comparados com o dicionário.
3.1.3 Carregar dicionário
A definição da geração de dicionário para análise segue como definido na Figura 1 e

detalhada na Figura 5 e 6. Esta fase é responsável por ler a tabela ou arquivo que contém o
dicionário. Esta pesquisa pode ser realizada em diferentes tipos de arquivos (CSV, XLS, TXT,
XML) ou banco de dados.
29
Figura 5 – Carregar dicionário
Figura 6 – Modelo de dados dicionário
3.1.3.1 Atividade - Selecionar dicionário
A origem das informações que devem fazer parte do dicionário o qual será usado no
processo de classificação pode ser obtida de vários formatos e origens. Esta flexibilidade foi
desenvolvida para viabilizar a utilização da informação como tabela de preços enviada do
fornecedor ou planilha desenvolvida com todos os termos/jargões específicos para a área de
atuação a fim de citar algumas possibilidades de criação do dicionário. A Tabela 22 contem os
dados de entrada e saída.
Tabela 22 – Selecionar dicionário
Objetivo: Selecionar dicionário

Entrada: Saída:
Para casos de dicionário em arquivo, selecionar o Acesso ao dicionário que será usado para análises de
arquivo que contem o dicionário. similaridade.
30
Para casos de dicionário em banco de dados, criar
conexão se já não existir.
3.1.3.2 Atividade - Montar dicionário
A montagem do dicionário é realizada com base nas definições armazenadas na estrutura

de dados selecionados na atividade selecionar dicionário, carregando todos os dados
disponíveis para nova estrutura de dados denominada DICIONÁRIO. Temos uma estrutura de
dados verticalizada seguindo a estrutura padrão para o armazenamento desses dados no formato
definidos na Tabela 23. A Tabela 24 contem os dados de entrada e saída.
Tabela 23 – Definição estrutura de dados DICIONARIO

Id_dicionário Integer Sequencia que identifica registro de forma única
Resultado do processo de decomposição do termo

Parte_nome Varchar2(40)
apresentado como parte do dicionário
Quantidade de partes existe para recompor a

Parte_quantidade Integer
informação
Fonema Varchar2(40) Fonema que representa o campo Parte_nome
Tabela 24 – Montar dicionário
Objetivo: Montar dicionário

Entrada: Saída:
Acesso ao dicionário que será usado para análises de Atualização da estrutura de dados DICIONÁRIO.
similaridade.
3.1.3.2.1 Rotina de decomposição:
Esta rotina deve ser reaplicada para montagem do dicionário, para evitar que tenhamos
termos complexos que dificultem o processo de classificação.
3.1.3.2.2 Rotina Fonema:
Esta rotina deve ser reaplicada para montagem do dicionário, para gerar o fonema que
será utilizado no processo de classificação.
31
3.1.4 Criar base classificada
A fase de classificação é realizada de acordo com a Figura 1 e a Figura 7 e 8.
Figura 7 – Criar Base classificada
Figura 8 – Modelo de dados base classificada
3.1.4.1 Atividade - Localizar termos para comparação
Em primeiro lugar, é executada uma busca nas estruturas de dados NOME e

DICIONÁRIO usando como critério de seleção o campo FONEMA que armazena a fonética,
que deve ser a mesma dos termos comparados. Este critério de seleção visa à otimização do
tempo de resposta, evitando a execução de todas as comparações possíveis. A Tabela 25 contem
os dados de entrada e saída.
32
Tabela 25 – Localizar termos para comparação
Objetivo: Localizar termos para comparação

Entrada: Saída:
Estrutura de dados NOME e DICIONÁRIO. Através de Lista de termos que devem ser comparador para
seleção de dados com uso do campo FONEMA. verificar similaridade.
3.1.4.2 Atividade - Executar função de similaridade
Após a seleção dos termos a serem comparados é aplicada a função de similaridade nos
mesmos, considerando um nível específico de similaridade, como pode ser visto na Figura 7. O
resultado desta fase será armazenado na estrutura de dados CLASSIFICADA de acordo com a
Figura 8. A Tabela 26 contem os dados de entrada e saída.
Tabela 26 – Função de similaridade
Objetivo: Função de similaridade

Entrada: Saída:
Lista de termos que devem ser comparador para Coeficiente de similaridade para Levenshtein e Dice.
verificar similaridade.
3.1.4.2.1 Distância de Levenshtein
A distância de Levenshtein nos fornece dois parâmetros para avaliação do processo de

comparação de string. O primeiro é o resultado da distância de Levenshtein que representa a
quantidade de operações que devem ser feitas para aproximarmos os termos comparados. O
segundo é uma razão entre o resultado da distância de Levenshtein e o tamanho do termo usado
para comparação, este valor pode variar entre 0 e 1.
3.1.4.2.2 Coeficiente Dice
O coeficiente Dice fornece um novo parâmetro para avaliação do processo de

comparação de string. Este coeficiente é baseado na comparação dos termos em pares de
caracteres. O que nos permite uma melhor avaliação quando trabalhamos com termos muito
pequenos.
3.1.4.3 Atividade - Executar fase de ajuste
É nesta atividade que realizamos os ajustes no processo para classificar o que será
compatível e incompatível conforme critérios definidos na Tabela 27.
33
Uma característica deste trabalho é a utilização conjunta de algoritmos de função de
similaridade. O que vai permitir um melhor ajuste para classificar os dados analisados.
Após a seleção dos termos que devem ser comparados e aplicação das funções de
similaridade nos mesmos, considerando um nível específico de similaridade, obteremos o
resultado como pode ser visto na Figura 8. A Tabela 28 contem os dados de entrada e saída.
Os dados apresentados da Tabela 27 são:
1. Operações -> quantidade de operações necessárias para alinhas os termos

comparados. Conforme demonstrado na Tabela 3 e Tabela 8.
2. Levenshtein -> Numero de scores obtidos na função de similaridade.
3. Dice -> Numero de scores obtidos na função de similaridade.
4. Resultado -> Para os termos comparados que obtiverem seus resultas conforme
estes parâmetros de qualidade, devem ser considerados compatíveis. Para os
demais resultados dos parâmetros o resultado será incompatível.
Os valores apresentados na Tabela 27, foram obtidos através de ensaios realizados com
base de teste. Quando estes parâmetros foram calibrados para atingir o maior numero de
classificação corretas possíveis.
Tabela 27 – Parâmetro de avaliação para Classificação

Operações Levenshtein Dice Resultado
= 0 >= 0,80 >= 0,70 Compatível
= 1 = 0,77 >= 0,33 Compatível
= 2 = 0,75 >= 0,35 Compatível
= 3 = 0,60 >= 0,44 Compatível
= 4 = 0,50 >= 0,60 Compatível
Tabela 28 – Fase de Ajuste
Objetivo: Fase de Ajuste

Entrada: Saída:
Coeficiente de similaridade para Levenshtein e Dice. Parâmetro ajustado para similaridade.
34
No final deste processo, uma lista completa de todos os termos utilizados nas tabelas
selecionadas por análise em comparação com o dicionário estará disponível. É possível avaliar
o grau de assertividade do sistema selecionado pela análise anterior.
Neste capítulo foi apresentado o processo de classificação em sua totalidade com todas
as funções e atividades a serem executadas.
35
4 ESTUDO DE CASO EM UMA EMPRESA SANEAMENTO
BÁSICO
Para avaliar a abordagem proposta, foi realizado um estudo de caso sobre dados reais
da Companhia de Águas e Esgotos do Estado do Ceará - CAGECE, que atualmente opera em
151 de 184 municípios do Estado, com serviço de água potável e saneamento para uma
população de 5.526.441 habitantes.
A Figura 9 apresenta parte dos sistemas de CAGECE e sua integração.
Figura 9 – Ambiente CAGECE
A CACEGE possui vários sistemas que fazem uso de bancos de dados como Oracle,
SQLServer e PostgreSQL, em ambiente heterogêneo. Todas as bases de dados ocupam
aproximadamente 3 TB.
36
4.1 PROJETO DE ESTUDO DE CASO
O projeto do estudo de caso seguirá em 4 etapas e todos seus subitens, conforme modelo
proposto no capítulo 3:
1. Selecionar banco de dados

a. Atividade - Criar conexão
b. Atividade - Selecionar tabela
c. Atividade - Montar base metadados
d. Atividade - Carregar tabelas selecionadas
2. Carregar domínio
a. Atividade - Montar domínio
b. Atividade - Montar base nome
i. Rotina de limpeza
ii. Rotina de decomposição
iii. Rotina Fonema
3. Carregar dicionário
a. Atividade - Selecionar dicionário
b. Atividade - Montar dicionário
i. Rotina de decomposição
ii. Rotina Fonema
4. Criar base classificada
a. Atividade - Localizar termos para comparação
b. Atividade - Executar função de similaridade
i. Distância de Levenshtein
ii. Coeficiente Dice
c. Atividade - Executar fase de ajuste
Será detalhado cada um dos aspectos para o estudo de caso proposto, de forma que, ao
final, tenhamos o projeto completo do estudo de caso.
37
4.1.1 HIPÓTESE
O principal objetivo deste trabalho é melhorar a qualidade de dados em grandes bancos

de dados heterogêneos e, para isso, foi desenvolvida uma abordagem que, seguida corretamente,
vai proporcionar a melhoria esperada.
As principais hipóteses para este trabalho são:
• H1 – A utilização da abordagem é eficaz na identificação de um conjunto de

dados inconsistentes.
• H2 – A utilização da abordagem é eficaz para sugerir um conjunto de dados a
serem corrigidos
4.1.2 DADOS RELEVANTES
A hipótese H1 e H2 são de caráter objetivo e os dados necessários para análise dessas

hipóteses serão obtidos ao final da execução do processo.
4.2 EXECUÇÃO DO ESTUDO DE CASO
4.2.1 Selecionar banco de dados
Quando analisamos o ambiente da CAGECE, podemos perceber que existem vários

sistemas realizando troca de informações e que estes dados têm níveis de similaridade comum
entre eles.
Foram criadas todas as conexões necessárias ao processo conforme atividade criar

conexão:
4.2.1.1 Atividade - Criar conexão
1. PRAX – Oracle
2. SIC - SQLServer
3. SIG - SQLServer
4. SCO - SQLServer
5. SISCOPE - Postgresql
38
6. SEI - Oracle
7. SGR – Oracle
Entradas e saídas desta atividade estão descritas na Tabela 10.
4.2.1.2 Atividade - Selecionar tabela
Durante esta atividade, observou-se que, para cada sistema, existe uma base de dados
geográfica. Vários sistemas da CAGECE são utilizados para analisar informações com base na
geografia. Então, selecionamos todas as tabelas que têm informação de geografia.
4.2.1.3 Atividade - Montar base metadados
Buscamos na base de dados objeto de análises e gerou-se uma base de metadados

conforme esperado, com todas as tabelas selecionadas e seus respectivos campos. Todas estas
informações estão disponíveis na estrutura de dados que denominamos de TABELA.
Entradas e saídas desta atividade estão descritas na Tabela 13 bem como sua estrutura
de dados na Tabela 12.
4.2.1.4 Atividade - Carregar tabelas selecionadas
Foi possível montar uma consulta para recuperar todos os dados pertencentes às tabelas
selecionadas para análise e criar estrutura de dados compatível na área de trabalho ou stage para
receber estes dados, com base nas definições carregadas na estrutura de dados TABELA.
Esse processo teve a finalidade de liberar a base de produção de processo onerosos de

comparação.
A Tabela 29 demostra os resultados obtidos no banco de dados origem da CAGECE

(PRAX, SCO, SEI, SGR, SIC, SIG e SISCOPE). A amostra total é 3,053 tuplas carregadas no
modelo de banco de dados para o processo de classificação.
Tabela 29 – Quantidade de tuplas carregadas por tabela

Banco de Dados Tabela Quantidade
ORACLE LOC_LOCALIDADE 310
39
Banco de Dados Tabela Quantidade
SQLServer T_LOC 308
ORACLE D_GEO_GEOGRAFIA_PRAX 276
ORACLE LOC_LOCALIDADE_PRAX 787
SQLServer LOCALIDADE 305
SQLServer LOCALID 791
PostgreSQL TB_LOC 276
4.2.2 Carregar domínio
Executamos as duas atividades mais importantes para o processo de melhoria da

qualidade na fase carregar domínio.
4.2.2.1 Atividade - Montar domínio
Geramos a estrutura de dados DOMÍNIO com leitura dos dados encontrados na estrutura
de dados TABELA. Assim obtivemos o SQL necessário para carregar todas as informações
necessárias ao processo em estrutura verticalizada. Esta atividade foi importante porque
montamos todas as informações coletadas nos sistemas de origem (independente de sua
estrutura) numa estrutura padrão, quando passamos seus dados de colunas para linhas. Dessa
forma, estabeleceu-se uma estrutura única com todos os dados coletados para análise nas tabelas
e sistemas de origem.
4.2.2.2 Atividade - Montar base nome
Geramos a estrutura de dados NOME com leitura dos dados encontrados na estrutura
de dados DOMÍNIO. Nesta atividade em que o dado troca de estrutura, foram realizados os
passos limpeza, decomposição e fonema necessários ao processo.
40
4.2.2.2.1 Rotina de limpeza
Retiramos todos os elementos mapeados que podem impossibilitar uma comparação de

similaridades. Durante este passo foi possível identificar que a rotina de limpeza não estava
funcionando corretamente para tratar o novo conjunto de caracteres especiais que foram
incluídos na rotina de limpeza conforme Tabela 30.
Tabela 30 – Definição elementos para limpeza

[ Caracter Abre cochete
] Caracter Fecha cochete
{ Caracter Abre chave
} Caracter Fechar chave
( Caracter Abre parêntese
) Caracter Fecha parêntese
/ Caracter Barra
\ Caracter Barra inversa
_ Caracter Underline
-‐ Caracter Traço
. Caracter Ponto
, Caracter Virgula
; Caracter Ponto e virgula
# Caracter Cerquiha ou Hastag (Elemento novo)
41
@ Caracter Arroba (Elemento novo)
$ Caracter Cifrão ou Dólar (Elemento novo)
% Caracter Porcentagem (Elemento novo)
* Caracter Asterisco (Elemento novo)
< Caracter Menor (Elemento novo)
> Caracter Maior (Elemento novo)
= Caracter Igual (Elemento novo)
! Caracter Ponto de Exclamação (Elemento novo)
? Caracter Ponto de Interrogação (Elemento novo)
4.2.2.2.2 Rotina de decomposição
Realizamos a fragmentação dos dados em unidades menores, segmentando-as até o

nível de termos. Este passo foi realizado usando como critério a presença de espaços em branco
entre os termos de uma string. Estes termos foram convertidos em novas tuplas que foram
usadas na atividade de classificação.
4.2.2.2.3 Rotina Fonema
Esta rotina fez uso do algoritmo BuscaBR (ajustado) para a língua portuguesa. Para cada
tupla gerada no processo de decomposição foi aplicado o algoritmo de fonema gerando, assim
uma base de fonemas que usamos para definir quais termos devem ser comparados com o
dicionário.
Durante a execução desta rotina, foi identificada a necessidade de fazer um ajuste no

algoritmo de fonema BuscaBR. Isso foi necessário devido à existência de termos muito
pequenos no idioma português falado no Brasil, onde temos forte influência indígena e, por
isso, em nosso vocabulário existem palavras com praticamente todas as letras sendo vogais.
42
O ajuste foi realizado na etapa de retirada de todas as vogais do termo. Passamos a
retirar apenas as ultimas vogais que tem a função de qualificar o gênero.
4.2.3 Carregar dicionário
Buscamos garantir a eficiência deste processo, tal como foi apresentado, utilizando
como dicionário a lista de localidades do Ceará o que tem denominação na CAGECE como
geografia.
Através das informações obtidas no Instituto Brasileiro de Geografia e Estatística -

IBGE, foi possível montar com exatidão nosso dicionário que será usado no processo de
classificação.
Também foram incluídas localidades que hoje são atendidas pela CAGECE, mas ainda
não fazem parte da lista disponibilizada pelo IBGE. Esta lista é atualizada a cada 10 anos e sua
última atualização foi em 2010.
4.2.3.1 Atividade - Selecionar dicionário
Foi gerado um arquivo no formato Excel para comtemplar todas as localidades

existentes no Estado do Ceará.
4.2.3.2 Atividade - Montar dicionário
A geração da estrutura de dados DICIONÁRIO teve início com leitura dos dados
encontrados no arquivo Excel. Neste passo em que o dado troca de estrutura, foram realizados
os passos da rotina de limpeza, decomposição e fonema necessários ao processo.
4.2.3.2.1 Rotina de decomposição
Reexecução da rotina e seus resultados foram evidenciados na estrutura de dados

DICIONÁRIO.
4.2.3.2.2 Rotina Fonema
43
Reexecução da rotina e seus resultados foram evidenciados na estrutura de dados
DICIONÁRIO.
4.2.4 Criar base classificada
4.2.4.1 Atividade - Localizar termos para comparação
Realizada consulta às estruturas de dados NOME e DICIONÁRIO usando, como

condição de pesquisa, o relacionamento entre os campos NOME.FONEMA e
DICIONÁRIO.FONEMA.
4.2.4.2 Atividade - Execução função de similaridade
Após execução da atividade 4.2.4.1 (localizar termos para comparação) e passar estes
dados para esta atividade, gerou-se a lista que passou para rotinas de similaridade.
4.2.4.2.1 Distância de Levenshtein
Executamos a rotina para todo o conjunto de dois parâmetros recebidos como saída da
atividade 4.2.4.2.
4.2.4.2.2 Coeficiente Dice
Executamos a rotina para todo o conjunto de dois parâmetros recebidos como saída da
atividade 4.2.4.2.
4.2.4.3 Atividade - Fase de ajuste
Executamos esta atividade mais de uma vez, pois o ajuste necessário para obter o melhor
aproveitamento do processo de classificação foi basicamente mudando os parâmetros das
variáveis de qualidade.
Inicialmente, trabalhamos com parâmetros muito elevados que gerou um número

elevado de falso positivo. Isso ocorreu porque usamos os parâmetros de Levenshtein e Dice em
0,7 para cada, o que gerou os resultados apresentados Tabela 31.
44
A fase de ajuste dos parâmetros para calibra a classificação dos dados é necessária para
o processo não gerar um numero de classificações erradas que podem ser identificados na fase
analise do resultado.
Tabela 31 – Resultados falso positivo

Qualidade
Banco de Dados
Tuplas Corrigir Erros Corretas
PRAX 310 55 64 191
SCO 308 45 58 205
SEI 276 49 61 166
SGR 787 88 201 498
SIC 305 46 51 208
SIG 791 90 201 500
SISCOPE 276 41 66 169
Após este pequeno fracasso, foi possível avaliar melhor as condições dos parâmetros e
redefinir uma nova configuração capaz de atender o ajuste fino, cuja realização teve o intuito
de conseguir extrair o melhor potencial do processo com geração de números bem melhores a
partir desta nova configuração, que podemos verificar na Tabela 32.
Tabela 32 – Variáveis de qualidade

Parâmetros Valores
Língua Portugues Brasil (BuscaBR)
Precisão Levenshtein = 1 and Dice = 1
Levenshtein >= 0,8 and Dice >= 0,7

Similaridade automática OR

OR
Substantial Similarity Levenshtein >= 0,60 and Dice >= 0,44
OR
Levenshtein >= 0,5 e Dice >= 0,6
45
Realizados os ajustes no processo para classificar o que será compatível e incompatível,
conforme novos critérios, obtivemos o resultado conforme Tabela 33.
É possível notar que após calibrar os parâmetros (ver Tabela 32), obtivemos uma
melhorar no numero de dados para correção que esta representado na coluna corrigir da Tabela
33. Este numero representa o numero total de dados que devem ser corrigidos para melhoria da
qualidade de dados no sistema. A coluna erros representa a quantidade de dados que não foi
possível classificar como nenhum grau de similaridade. A coluna corretas representa a
totalidade de dados corretos que existem na base.
Tabela 33 – Resultados obtidos

Qualidade
Banco de Dados
Tuplas Corrigir Erros Corretas
PRAX 310 93 26 191
SCO 308 76 27 205
SEI 276 81 29 166
SGR 787 171 118 498
SIC 305 78 19 208
SIG 791 172 119 500
SISCOPE 276 75 32 169
4.3 ANÁLISE DAS HIPÓTESES
4.3.1 Análise da hipótese H1
Após a execução do processo “Montagem Domínio” e análise dos resultados obtidos,

foi verificado o sucesso desta etapa com a geração de 37.236 tuplas referentes aos dados
coletados nas tabelas e sistemas de origem e 4.329 registros com informações distintas, isto é,
o real domínio da informação.
Também foi possível avaliar outro dado importante: das 37.236 tuplas, 12.280 têm um
campo com seu valor igual a espaço em branco e outras 307 tem valor nulo. Todas as demais
têm algum tipo de informação.
46
Esta abordagem se mostrou-se satisfatória no que diz respeito ao conhecimento gerado
sobre o domínio da informação presente nos sistemas avaliados. Isso torna possível o
aprimoramento do dicionário elaborado e a reaplicação deste dicionário melhorado no intuito
de elevar o número de correções possíveis.
Como avaliação de inconsistências, foi possível observar que os dados estão

contaminados com caracteres desnecessários. Só isso já torna os dados inconsistentes ou de má
qualidade. A classificação foi realizar sem encontrar similaridade na base de conhecimento
definida como dicionário.
4.3.2 Análise da hipótese H2
Para se obter uma proposição de correção de dado é necessário identificá-lo e apresentar

resultados de similaridade relevantes para propor uma correção. Mas, para que isso ocorra, é
necessário que estes dados possam ser comparados. O que foi prejudicado por uma rotina de
limpeza que não contemplava todos os tipos de caractere especial que vai evitar uma possível
comparação.
Este refinamento foi aplicado ao processo para obtermos resultados melhores no

processo de comparação de termos conforme Tabela 30.
Após as correções aplicadas ao processo, conseguimos obter resultados expressivos

quando analisamos a Tabela 33, onde é possível avaliar a quantidade de registros apresentados
com proposta para correção nos vários sistemas.
4.4 CONSIDERAÇÕES FINAIS
Durante o estudo de caso, foi possível observar que quanto mais específico o assunto
classificado, melhores foram os resultados.
O consumo de espaço também é um fator chave para a realização de análises em grandes

volumes de tabelas. Isso se deve ao modelo proposto usar uma área de trabalho ou stage,
recebendo uma carga completa das tabelas de origem e processamento de dados relacionados a
outras tabelas neste modelo, a fim de permitir que a reversão e a localização dos dados possa
ser realizada para aplicar as correções proposta ou apenas indicação de sua localização.
47
O algoritmo de fonema BuscaBR, teve de ser adaptado ao processo. Isso foi necessário
porque há palavras em Língua Portuguesa falada no Brasil com palavras de origem indígena
composta exclusivamente de vogais. Na versão original de BuscaBR, todas as vogais são
descartadas o que não seria possível para geração de um fonema valido para determinados
termos de origem indígena. Como o processo foi projetado para comparar termo por termo,
também foi encontrado algumas palavras muito pequenas que no algoritmo original, pode gerar
um resultado não significativo.
Para termos classificados como "sem similaridade" que fazem parte do assunto no
formato definido no dicionário chamado "jargão técnico", é possível adicionar novos dados ao
dicionário e repetir o processo de classificação até obter o resultado esperado.
As dimensões encontradas no final do processo foram:
1. Precisão (informação correta e fiável);

2. Credibilidade (a informação é verdadeira);
3. Reputação (fonte e conteúdo da informação);
4. Relevância (a informação é aplicável e útil);
5. Representação consistente (informação apresentada no mesmo formato);
6. Valor incluído (a informação é benéfica e fornece vantagens);
Nesse capítulo foram apresentados os resultados obtidos no estudo de caso aplicado na

Companhia de Água e Esgoto do Estado do Ceará – CAGECE.
Foi um teste importante para análise do processo, porque analisamos o mesmo domínio
de informação em diferentes formatos e bases de dados.
Durante a execução do teste foi possível identificar que a rotina de limpeza não estava
funcionando corretamente para tratar caracteres especiais conforme Tabela 30. A rotina de
fonemas estabelecida previamente para o modo de Língua Portuguesa usando o BuscaBR (DE
LUCENA, 2006), não obteve o resultado esperado como uma aplicação para certas palavras de
origens nativas, que foram exclusivamente escritas por vogais. Isso ocorre porque este
algoritmo tem, como regra, a remoção de todas as vogais.
48
Efeito secundário produzido durante a introdução de uma solução que atenda a uma
precisão relativa que existe em caso de múltiplas escolhas possíveis. Este efeito pode ser
evidenciado nos resultados obtidos para termo que tem grafia semelhante com diferença apenas
na gráfica ou definição de gênero. Como exemplos temos:
1. MASSAPÉ que significa terra ou solo e MASSAPÊ que é um município do

Ceará.
2. SANTO e SANTA que tem o mesmo significado, mas existe a mudança de
gênero.
O item 1 pode ser resolvido com maior rigor no dicionário que será usado. No estudo
de caso aplicado à geografia, não devemos ter nomes de qualquer outro termo que não esteja
neste domínio. Quanto ao item 2, devemos definir uma lista de itens para analise, já que não
temos uma solução eminente para este caso. O melhor é identificar e separar para análise.
Na condução desse trabalho, obtivemos vários resultados da análise realizada no conjunto

dados selecionados para classificação.
Estes dados estão apresentados em forma de tabelas por sistema de origem. Todos estes
resultados estão disponíveis como evidencia do processo executado no APÊNDICE B –
RESULTADOS:
1. Tabela 34 – Resultados Sistema PRAX

2. Tabela 35 – Resultados Sistema SCO
3. Tabela 36 – Resultados Sistema SEI
4. Tabela 37 – Resultados Sistema SIC
5. Tabela 38 – Resultados Sistema SISCOPE
6. Tabela 39 – Resultados Sistema SRG
7. Tabela 40 – Resultados Sistema SIG
49
5 CONCLUSÃO E TRABALHOS FUTUROS
Neste capítulo, são apresentadas as conclusões finais após execução do processo em

ambiente corporativo com bases de dados heterogêneas.
O início do procedimento se deu com a análise de uma amostra de 3.053 tuplas,

coletadas em onze sistemas e três SGBD’S diferentes. Com o objetivo de quantificar e qualificar
inconsistências, foram executadas todas as fases e atividades do processo para tratamento e
análise de comparação de string.
O processo obteve 63,45% para a similaridade para "precisão" (base já estava correta)
ou 1937 tuplas, 24,44% para "similaridade automática" (melhoria proposta) ou 746 tuplas e
12,12% para "sem similaridade" (imprecisão ou erro) ou 370 tuplas, tomando como referência
o dicionário baseado no IBGE com inclusão de localidades operados pela CAGECE (mas não
disponibilizada pelo IBGE) sem aplicação de qualquer termo específico ou jargão. O resultado
de 24,44% para "semelhança automática" ou 746 tuplas deve ser alterado/aplicado a base de
dados para melhorar a qualidade dos dados, elevando o grau de precisão para 87,88%. O
resultado de 12,12% para "sem similaridade" ou 370 tuplas, representa o grau de imprecisão
imputado no sistema por abuso do domínio analisado.
Após apresentar o cenário e todas as proposta para correção de dados apresentado pelo
processo. Foi possível verificar sua eficiência em gerar uma melhor qualidade de dados em
ambientes corporativos e base de dados heterogenias.
5.1 PRINCIPAIS CONTRIBUIÇÕES
Como principais contribuições do trabalho realizado durante essa pesquisa, podemos

destacar:
• Desenvolvimento de um processo que permite automatizar o processo de análise e

classificação de dados de má qualidade.
50
• Execução de um estudo de caso para avaliar a abordagem definida, de forma a
comprovar efetivamente a melhoria na qualidade de dados.
5.2 LIMITAÇÕES
O estudo de caso foi realizado em apenas uma empresa, e isso pode ser limitante para
avaliar a eficácia da abordagem e gerar uma base de conhecimento consistente sobre o assunto.
Porém, um dos objetivos do trabalho é disponibilizar o conhecimento formado a partir desta
experiência.
Outra limitação foi a abordagem ter sido realizada apenas sobre o domínio especifico.
5.3 TRABALHOS FUTUROS
Para trabalhos futuros, alguns experimentos poderão ser realizados usando outros
algoritmos para identificar a similaridade de string.
Também poderão ser usados banco de dados NoSql ou DBF, sendo que este último para
projetos legados que podem ser avaliados antes de passar por um processo de migração.
51
REFERÊNCIAS BIBLIOGRÁFICAS
(PIPINO ET AL, PIPINO, Leo L.; LEE, Yang W.; WANG, Richard Y. Data quality
2002) assessment. Communications of the ACM, v. 45, n. 4, p. 211-218, 2002.
(GEERTS FLORIS, GEERTS, Floris et al. The LLUNATIC data-cleaning framework.

2013) Proceedings of the VLDB Endowment, v. 6, n. 9, p. 625-636, 2013.
WANG, R. Y.; ZIAD M.; LEE, Y. W. (2000) Data Quality. Kluwer

(WANG ZIAD, 2000)
Academics Publishers.Hinghan, MA, USA.
SMITH, Temple F.; WATERMAN, Michael S. Identification of

(SMITH
common molecular subsequences. Journal of molecular biology, v. 147,
WATERMAN, 1980)
n. 1, p. 195-197, 1981.
(RISTAD YANILOS, SVEN RISTAD, Eric; YIANILOS, Peter N. Learning string edit
1996) distance. In: eprint arXiv: cmp-lg/9610005. 1996. p. 10005.
ROHLF, F. J. Numerical taxonomy and multivariate analysis system

(ROHLF, 1990)
(NTSYS-pc). Department of Ecology and Evolution, New York, 1990.
JIN, Liang; LI, Chen; MEHROTRA, Sharad. Efficient record linkage in

large data sets. In: Database Systems for Advanced Applications,
(JIN ET AL, 2003)
2003.(DASFAA 2003). Proceedings. Eighth International Conference
on. IEEE, 2003. p. 137-146.
(RUSSELL ODELL, RUSSELL, R.; ODELL, M. Soundex Patent 01 261 167, 1918.
1918)
DE LUCENA, F. J. T. Busca Fonética em Português do Brasil, 2006.

(DE LUCENA, 2006)
LEVENSHTEIN, V. I. Binary codes capable of correcting spurious

(LEVENSHTEIN,
insertions and deletions of ones. Problems of Information transmission,
1965)
Problems of Information Transmission v.1, n.1, p. 8–17, 1965.
52
SØRENSEN, Thorvald. {A method of establishing groups of equal
amplitude in plant sociology based on similarity of species and its
(SORENSEN, 1948)
application to analyses of the vegetation on Danish commons}. Biol.
Skr., v. 5, p. 1-34, 1948.
DICE, Lee R. Measures of the amount of ecologic association between

(DICE, 1945)
species. Ecology, v. 26, n. 3, p. 297-302, 1945.
(KRISHNAN ET AL, KRISHNAN, Sanjay et al. Towards reliable interactive data cleaning: a
2016) user survey and recommendations. In: HILDA@ SIGMOD. 2016. p. 9.
DUAN, Yucong; LEE, Roger. Knowledge management for model driven

data cleaning of very large database. In: Software Engineering, Artificial
(DUAN LEE, 2013)
Intelligence, Networking and Parallel/Distributed Computing 2012.
Springer Berlin Heidelberg, 2013. p. 143-158.
CHRISTEN, P. Towards Parameter-free Blocking for Scalable Record

(CHRISTEN, 2007) Linkage. ANU Joint Computer Science Technical Report Series,
Agosto/2007.
(BATINI BATINI, Carlo; SCANNAPIECO, Monica. Data Quality Dimensions.

SCANNAPIECO, In: Data and Information Quality. Springer International Publishing,
2016) 2016. p. 21-51.
International Conference on Information Quality (ICIQ)

(ICIQ, 2015)
http://mitiq.mit.edu/ICIQ/2015/
International Workshop on Information Quality in Information Systems

(IQIS)
(IQIS). http://iqis.irisa.fr/
International Workshop on Quality of Information Systems (QoIS).

(QoIS, 2006)
http://deptinfo.cnam.fr/qois2006/
ECKERSON, W. Data Warehousing Special Report: Data quality and

(ECKERSON, 2002)
the bottom line. Applications Development Trends, v. 1, 2002.
53
FERREIRA, Aurélio Buarque de Holanda. Novo Aurélio XXI: o
(FERREIRA, 1999) dicionário da língua portuguesa. totalmente revista e ampliada. Rio de
Janeiro: Nova Fronteira, 1999.
PINHO, S. F. Avaliacao da qualidade de dados pela nao conformidade.

(PINHO, 1999) 2001. Tese de Doutorado. Dissertaçao de Mestrado, Universidade
Federal do Rio de Janeiro, Rio de Janeiro–RJ.
ISSO 9000:2015, Sistema de gestão da qualidade – Fundamentos e

(ISO 9000, 2015)
vacabuláro / Comitê: ABNT/CB-025 Qualidade
ENGLISH, L.P. Improving Data Warehouse and Business Information

(ENGLISH, 1999) Quality – Methods for Reducong Costs and Increasing Profits. USA:
Wiley, 1999. 518p.
WANG, Richard Y.; STRONG, Diane M. Beyond accuracy: What data

(WANG DIANE,
quality means to data consumers. Journal of management information
1996)
systems, v. 12, n. 4, p. 5-33, 1996.
(SCANNAPIECO SCANNAPIECO, Monica; MISSIER, Paolo; BATINI, Carlo. Data

BATINI, 2005) Quality at a Glance. Datenbank-Spektrum, v. 14, p. 6-14, 2005.
KOLB, Lars; THOR, Andreas; RAHM, Erhard. Dedoop: efficient

(KOLB THOR, 2012) deduplication with Hadoop. Proceedings of the VLDB Endowment, v. 5,
n. 12, p. 1878-1881, 2012.
(CLIFFORD CLIFFORD, H. T., and W. STEPHENSON. "1975. An introduction to

STEPHENSON, numerical classification."
1975)
CHU, XU, et al. "Katara: A data cleaning system powered by knowledge

(CHU XU, 2015) bases and crowdsourcing." Proceedings of the 2015 ACM SIGMOD
International Conference on Management of Data. ACM, 2015.
54
HAAS, DANIEL, et al. "Wisteria: Nurturing scalable data cleaning
(HAAS DANIEL,
infrastructure." Proceedings of the VLDB Endowment 8.12 (2015):
2015)
2004-2007.
KHAYYAT, ZUHAIR, et al. "Bigdansing: A system for big data

(KHAYYAT
cleansing." Proceedings of the 2015 ACM SIGMOD International
ZUHAIR, 2015)
Conference on Management of Data. ACM, 2015.
55
APÊNDICE A – ALGORITMOS
SOUNDEX
//Script here
var soundex = function (s) {
var a = s.toLowerCase().split(''),
f = a.shift(),
r = '',
codes = {
a: '', e: '', i: '', o: '', u: '',
b: 1, f: 1, p: 1, v: 1,
c: 2, g: 2, j: 2, k: 2, q: 2, s: 2, x: 2, z: 2,
d: 3, t: 3,
l: 4,
m: 5, n: 5,
r: 6
};
r=f+
.map(function (v, i, a) { return codes[v] })
.filter(function (v, i, a) {
return ((i === 0) ? v !== codes[f] : v !== a[i - 1]);
})
.join('');
56
return (r + '000').slice(0, 4).toUpperCase();
};
BUSCABR
//Script here
// 0.Criando fonema BUSCABR
var fonema = parte_nome;
// 1.Devemos retirar os caracteres especiais e converter todas as letras para Maiúsculo;
// 2.Agora eliminamos todos os acentos
var str = fonema.replace(/Â/g, "A");
fonema = str;
var str = fonema.replace(/Á/g, "A");
fonema = str;
var str = fonema.replace(/À/g, "A");
fonema = str;
var str = fonema.replace(/Ã/g, "A");
fonema = str;
var str = fonema.replace(/Ê/g, "E");
fonema = str;
var str = fonema.replace(/É/g, "E");
fonema = str;
var str = fonema.replace(/Í/g, "I");
fonema = str;
57
var str = fonema.replace(/Ó/g, "O");
fonema = str;
var str = fonema.replace(/Õ/g, "O");
fonema = str;
var str = fonema.replace(/Ú/g, "U");
fonema = str;
// 3.Substituimos Y por I;
var str = fonema.replace(/Y/g, "I");
fonema = str;
// 4.Substituimos BR por B;
var str = fonema.replace(/BR/g, "B");
fonema = str;
// 5.Substituimos PH por F;
var str = fonema.replace(/PH/g, "F");
fonema = str;
// 6.Substituimos GR, MG, NG, RG por G;
var str = fonema.replace(/GR/g, "G");
fonema = str;
var str = fonema.replace(/MG/g, "G");
fonema = str;
var str = fonema.replace(/NG/g, "G");
fonema = str;
58
var str = fonema.replace(/RG/g, "G");
fonema = str;
// 7.Substituimos GE, GI, RJ, MJ, NJ por J;
var str = fonema.replace(/GE/g, "J");
fonema = str;
var str = fonema.replace(/GI/g, "J");
fonema = str;
var str = fonema.replace(/RJ/g, "J");
fonema = str;
var str = fonema.replace(/MJ/g, "J");
fonema = str;
var str = fonema.replace(/NJ/g, "J");
fonema = str;
// Substituimos CE, CI e CH por S
//var str = fonema.replace(/CE/g, "S");
//fonema = str;
//var str = fonema.replace(/CI/g, "S");
//fonema = str;
//var str = fonema.replace(/CH/g, "S");
//fonema = str;
// Substituimos CT por T
//var str = fonema.replace(/CT/g, "T");
//fonema = str;
59
//var str = fonema.replace(/CS/g, "S");
//fonema = str;
// 13.Substituimos Ç, X, TS, C, Z, RS por S;
var str = fonema.replace(/Ç/g, "S");
fonema = str;
var str = fonema.replace(/X/g, "S");
fonema = str;
var str = fonema.replace(/TS/g, "S");
fonema = str;
var str = fonema.replace(/C/g, "S");
fonema = str;
var str = fonema.replace(/Z/g, "S");
fonema = str;
var str = fonema.replace(/RS/g, "S");
fonema = str;
// 8.Substituimos Q, CA, CO, CU, C por K;
var str = fonema.replace(/Q/g, "K");
fonema = str;
var str = fonema.replace(/CA/g, "K");
fonema = str;
var str = fonema.replace(/CO/g, "K");
fonema = str;
var str = fonema.replace(/CU/g, "K");
fonema = str;
60
var str = fonema.replace(/C/g, "K");
fonema = str;
// 9.Substituimos LH por L;
var str = fonema.replace(/LH/g, "L");
fonema = str;
// 10.Substituimos N, RM, GM, MD, SM e Terminação AO por M;
var str = fonema.replace(/N/g, "M");
fonema = str;
var str = fonema.replace(/RM/g, "M");
fonema = str;
var str = fonema.replace(/GM/g, "M");
fonema = str;
var str = fonema.replace(/MD/g, "M");
fonema = str;
var str = fonema.replace(/SM/g, "M");
fonema = str;
// 11.Substituimos NH por N;
var str = fonema.replace(/NH/g, "N");
fonema = str;
// 12.Substituimos PR por P;
var str = fonema.replace(/PR/g, "P");
fonema = str;
61
// 14.Substituimos LT, TR, CT, RT, ST por T;
var str = fonema.replace(/LT/g, "T");
fonema = str;
var str = fonema.replace(/TR/g, "T");
fonema = str;
var str = fonema.replace(/CT/g, "T");
fonema = str;
var str = fonema.replace(/RT/g, "T");
fonema = str;
var str = fonema.replace(/ST/g, "T");
fonema = str;
// 15.Substituimos W por V;
var str = fonema.replace(/W/g, "V");
fonema = str;
// 16.Eliminamos as terminações S, Z, R, R, M, N, AO e L;
var str = fonema;
var tam = str.length;
if (str.substring(tam,tam-1) == "S" || str.substring(tam,tam-1) == "Z" ||
str.substring(tam,tam-1) == "R" || str.substring(tam,tam-1) == "M" ||
str.substring(tam,tam-1) == "N" || str.substring(tam,tam-1) == "L")
fonema = str.substring(0,tam-1);
62
var str = fonema;
var tam = str.length - 2;
if (str.substring(tam,tam+1) == "A" && str.substring(tam+1,tam+2) == "O")
fonema = str.substring(0,tam);
// Modificado terminados em A, O
var str = fonema;
if (str.substring(tam,tam-1) == "A" || str.substring(tam,tam-1) == "O")
fonema = str.substring(0,tam-1);
// 17.Substituimos R por L;
var str = fonema.replace(/R/g, "L");
fonema = str;
// 18.O BuscaBr diz para eliminamos todas as vogais e o H
// Modificado
/*
var str = fonema.replace(/A/g, "");
fonema = str;
var str = fonema.replace(/E/g, "");
fonema = str;
var str = fonema.replace(/I/g, "");
63
fonema = str;
var str = fonema.replace(/O/g, "");
fonema = str;
var str = fonema.replace(/U/g, "");
fonema = str;
*/
var str = fonema.replace(/H/g, "");
fonema = str;
// 20.Eliminamos todas as letras em duplicidade;
var str = fonema;
for (i = 0; i <= str.length-1; i++) {
if (str[i] == str[i+1]) {
var p1 = str.substring(0,i);
var p2 = str.substring(i+1,tam);
fonema = p1.concat(p2);
var str = fonema;
64
}
var str = fonema;
var str = fonema;
// Caso fonema vazio
var str = fonema;
if (tam == 0) {
fonema = "1";
65
}
LEVENSHITEIN
//Script here
// Compute the edit distance between the two given strings
var a = pricipal;
var b = secundario;
var matrix = [];
// increment along the first column of each row
var i;
for(i = 0; i <= b.length; i++){
matrix[i] = [i];
// increment each column in the first row
var j;
for(j = 0; j <= a.length; j++){
matrix[0][j] = j;
// Fill in the rest of the matrix
for(i = 1; i <= b.length; i++){
for(j = 1; j <= a.length; j++){

66
if(b.charAt(i-1) == a.charAt(j-1)){
matrix[i][j] = matrix[i-1][j-1];
} else {
matrix[i][j] = Math.min(matrix[i-1][j-1] + 1, // substitution
Math.min(matrix[i][j-1] + 1, // insertion
matrix[i-1][j] + 1)); // deletion
//return matrix[b.length][a.length];
var distancia = matrix[b.length][a.length];
DICE
//Script here
// Compute the edit distance between the two given strings
function getCharactersPair(np)
var tamanho = np.length;
var pairs = [tamanho];
for(var i=0; i<np.length;i++)
pairs[i] = np.substring(i, i+2);
67
return pairs;
var np1 = pricipal;
var np2 = secundario;
var pairCharacters1 = getCharactersPair(np1);
var pairCharacters2 = getCharactersPair(np2);
var value = 0.0;
for(var i=0 ; i<pairCharacters1.length;i++)
var pair1 = pairCharacters1[i];
for(var j=0; j<pairCharacters2.length; j++)
var pair2 = pairCharacters2[j];
if(pair1 ==pair2)
value++;
break;
var diceCoefficient = (2*value)/(pairCharacters1.length+pairCharacters2.length);
68
APÊNDICE B – RESULTADOS
Resultados para sistema PRAX com banco de dados Oracle do tipo compatível na Tabela
34.
Tabela 34 – Resultados Sistema PRAX

ACARAU ACARAÚ 1.00 0.83 0.67
ALCANTARAS ALCÂNTARAS 1.00 0.90 0.80
AMARA AMARO 1.00 0.80 0.60
APRAZIVEL APRAZÍVEL 1.00 0.89 0.78
APUIARES APUIARÉS 1.00 0.88 0.75
ARARENDA ARARENDÁ 1.00 0.88 0.75
ASSARE ASSARÉ 1.00 0.83 0.67
BANABUIU BANABUIÚ 1.00 0.88 0.75
BATURITE BATURITÉ 1.00 0.88 0.75
BITUPITA BITUPITÁ 1.00 0.88 0.75
CAMPANARIO CAMPÁNARIO 1.00 0.90 0.80
CANAA CANAAN 1.00 0.83 0.73
CANAFISTULA CANAFÍSTULA 1.00 0.91 0.82
CANINDE CANINDÉ 1.00 0.86 0.71
CARIRE CARIRÉ 1.00 0.83 0.67
CARIRIACU CARIRIAÇU 1.00 0.89 0.78
CARIUS CARIÚS 1.00 0.83 0.67
CARUATAI CARUATAÍ 1.00 0.88 0.75
CEARA CEARÁ 1.00 0.80 0.60
CONCEICAO CONCEIÇÃO 2.00 0.78 0.67
COREAU COREAÚ 1.00 0.83 0.67
CRATEUS CRATEÚS 1.00 0.86 0.71
CRIOULAS CRIOULOS 1.00 0.88 0.75
DAGUA DÁGUA 1.00 0.80 0.60
ERERE ERERÊ 1.00 0.80 0.80
EUSEBIO EUSÉBIO 1.00 0.86 0.71
FELIX FÉLIX 1.00 0.80 0.60
GAVIAO GAVIÃO 1.00 0.83 0.67
GONCALO GONÇALO 1.00 0.86 0.71
GRACA GRAÇA 1.00 0.80 0.60
GROAIRAS GROAÍRAS 1.00 0.88 0.75
GUAIUBA GUAIÚBA 1.00 0.86 0.71
GUASSUSSE GUASSUSSÊ 1.00 0.89 0.78
HIDROLANDIA HIDROLÂNDIA 1.00 0.91 0.82
ICAPUI ICAPUÍ 1.00 0.83 0.67
ICO ICÓ 1.00 0.67 0.33
INDEPENDENCIA INDEPENDÊNCIA 1.00 0.92 1.00
69
INHARIN INHARIM 1.00 0.86 0.86
INHUCU INHUÇU 1.00 0.83 0.67
IPAGUACU IPAGUAÇU 1.00 0.88 0.75
IPAGUASSU IPAGUAÇU 2.00 0.78 0.71
IRAJA IRAJÁ 1.00 0.80 0.60
IRAUCUBA IRAUÇUBA 1.00 0.88 0.75
ITAICABA ITAIÇABA 1.00 0.88 0.75
ITAPAGE ITAPAGÉ 1.00 0.86 0.71
ITAPIUNA ITAPIÚNA 1.00 0.88 0.75
JOAO JOÃO 1.00 0.75 0.50
JOSE JOSÉ 1.00 0.75 0.50
JUCAS JUCÁS 1.00 0.80 0.60
MACARAU MACARAÚ 1.00 0.86 0.71
MARACANAU MARACANAÚ 1.00 0.89 0.78
MARTINOPOLE MARTINÓPOLE 1.00 0.91 0.82
MARTINOPOLES MARTINÓPOLE 2.00 0.83 0.70
MASSAPE MASSAPÉ 1.00 0.86 0.71
MASSAPE MASSAPÊ 1.00 0.86 0.71
MAZAGAO MAZAGÃO 1.00 0.86 0.71
MILHA MILHÃ 1.00 0.80 0.60
MIRAIMA MIRAÍMA 1.00 0.86 0.71
MISSAO MISSÃO 1.00 0.83 0.67
MOMBACA MOMBAÇA 1.00 0.86 0.71
MORAUJO MORAÚJO 1.00 0.86 0.71
MUNDAU MUNDAÚ 1.00 0.83 0.67
OROS ORÓS 1.00 0.75 0.50
PACUJA PACUJÁ 1.00 0.83 0.67
PAJEU PAJEÚ 1.00 0.80 0.60
PALMACIA PALMÁCIA 1.00 0.88 0.75
PALMATORIA PALMATÓRIA 1.00 0.90 0.80
PECEM PECÉM 1.00 0.80 0.60
POCO POÇO 1.00 0.75 0.50
QUATINGUABA QUATIGUABA 1.00 0.91 0.86
QUITAIUS QUITAIÚS 1.00 0.88 0.75
QUITERIA QUITÉRIA 1.00 0.88 0.75
QUITERIANOPOLIS QUITERIANÓPOLIS 1.00 0.93 0.87
QUIXADA QUIXADÁ 1.00 0.86 0.71
QUIXERE QUIXERÉ 1.00 0.86 0.71
REDENCAO REDENÇÃO 2.00 0.75 0.62
SEBASTIAO SEBASTIÃO 1.00 0.89 0.78
SITIO SÍTIO 1.00 0.80 0.60
SITIOS SÍTIOS 1.00 0.83 0.67
SIUPE SIUPÉ 1.00 0.80 0.60
SOLONOPOLE SOLONÓPOLE 1.00 0.90 0.80
TAPUIARA TAPUIARÁ 1.00 0.88 0.75
70
TAUA TAUÁ 1.00 0.75 0.50
TEJUCUOCA TEJUÇUOCA 1.00 0.89 0.78
TEJUSSUOCA TEJUÇUOCA 2.00 0.80 0.74
TIANGUA TIANGUÁ 1.00 0.86 0.71
TIMBAUBA TIMBAÚBA 1.00 0.88 0.75
TORROES TORRÕES 1.00 0.86 0.71
TRIANGULO TRIÂNGULO 1.00 0.89 0.78
UBAUNA UBAÚNA 1.00 0.83 0.67
VARZEA VÁRZEA 1.00 0.83 0.67
VICOSA VIÇOSA 1.00 0.83 0.67
Resultados para sistema SCO com banco de dados SQLServer do tipo compatível na
Tabela 35.
Tabela 35 – Resultados Sistema SCO

ALCANTARA ALCÂNTARAS 2.00 0.80 0.63
CEARA CEARÁ 1.00 0.80 0.60
ERERE ERERÊ 1.00 0.80 0.80
FELIX FÉLIX 1.00 0.80 0.60
GRACA GRAÇA 1.00 0.80 0.60
71
ICO ICÓ 1.00 0.67 0.33
IRAJA IRAJÁ 1.00 0.80 0.60
JOAO JOÃO 1.00 0.75 0.50
JOSE JOSÉ 1.00 0.75 0.50
JUCAS JUCÁS 1.00 0.80 0.60
MARRUAS MARRUÁS 1.00 0.86 0.71
OROS ORÓS 1.00 0.75 0.50
OTAVILANDIA OTAVILÂNDIA 1.00 0.91 0.82
PAJEU PAJEÚ 1.00 0.80 0.60
PECEM PECÉM 1.00 0.80 0.60
SITIO SÍTIO 1.00 0.80 0.60
SIUPE SIUPÉ 1.00 0.80 0.60
TAUA TAUÁ 1.00 0.75 0.50
72
Resultados para sistema SEI com banco de dados Oracle do tipo compatível na Tabela
36.
Tabela 36 – Resultados Sistema SEI

CAPITAL CAPITÃO 2.00 0.71 0.57
CEARA CEARÁ 1.00 0.80 0.60
ERERE ERERÊ 1.00 0.80 0.80
FELIX FÉLIX 1.00 0.80 0.60
GRACA GRAÇA 1.00 0.80 0.60
ICO ICÓ 1.00 0.67 0.33
IRAJA IRAJÁ 1.00 0.80 0.60
73
ITAPAGE ITAPAGÉ 1.00 0.86 0.71
JOAO JOÃO 1.00 0.75 0.50
JOSE JOSÉ 1.00 0.75 0.50
MARTINOPOLE MARTINÓPOLE 1.00 0.91 0.82
MAZAGAO MAZAGÃO 1.00 0.86 0.71
OROS ORÓS 1.00 0.75 0.50
PAJEU PAJEÚ 1.00 0.80 0.60
PECEM PECÉM 1.00 0.80 0.60
POCO POÇO 1.00 0.75 0.50
QUITERIANOPOLIS QUITERIANÓPOLIS 1.00 0.93 0.87
SITIO SÍTIO 1.00 0.80 0.60
SIUPE SIUPÉ 1.00 0.80 0.60
TAUA TAUÁ 1.00 0.75 0.50
74
Resultados para sistema SIC com banco de dados Oracle do tipo compatível na Tabela
37.
Tabela 37 – Resultados Sistema SIC

CEARA CEARÁ 1.00 0.80 0.60
DAGUA DÁGUA 1.00 0.80 0.60
ERERE ERERÊ 1.00 0.80 0.80
FELIX FÉLIX 1.00 0.80 0.60
ICO ICÓ 1.00 0.67 0.33
IRAJA IRAJÁ 1.00 0.80 0.60
JOAO JOÃO 1.00 0.75 0.50
75
JOSE JOSÉ 1.00 0.75 0.50
JUCAS JUCÁS 1.00 0.80 0.60
MILHA MILHÃ 1.00 0.80 0.60
OROS ORÓS 1.00 0.75 0.50
PAJEU PAJEÚ 1.00 0.80 0.60
PECEM PECÉM 1.00 0.80 0.60
SITIO SÍTIO 1.00 0.80 0.60
TAUA TAUÁ 1.00 0.75 0.50
Resultados para sistema SISCOPE com banco de dados PostgreSQL do tipo compatível
na Tabela 38.
76
Tabela 38 – Resultados Sistema SISCOPE
CEARA CEARÁ 1.00 0.80 0.60
CURÚ CURU 1.00 0.75 0.50
ERERE ERERÊ 1.00 0.80 0.80
ERERÉ ERERÊ 1.00 0.80 0.60
FELIX FÉLIX 1.00 0.80 0.60
GRACA GRAÇA 1.00 0.80 0.60
IRAJA IRAJÁ 1.00 0.80 0.60
JATÍ JATI 1.00 0.75 0.50
JOAO JOÃO 1.00 0.75 0.50
JOSE JOSÉ 1.00 0.75 0.50
77
OROS ORÓS 1.00 0.75 0.50
PACAJÚS PACAJUS 1.00 0.86 0.71
PAJEU PAJEÚ 1.00 0.80 0.60
PARAMBÚ PARAMBU 1.00 0.86 0.71
PECEM PECÉM 1.00 0.80 0.60
SITIO SÍTIO 1.00 0.80 0.60
SIUPE SIUPÉ 1.00 0.80 0.60
TAUA TAUÁ 1.00 0.75 0.50
TOME TOMÉ 1.00 0.75 0.50
TRAIRÍ TRAIRI 1.00 0.83 0.67
UMARÍ UMARI 1.00 0.80 0.60
Resultados para sistema SGR com banco de dados Oracle do tipo compatível na Tabela
39.
Tabela 39 – Resultados Sistema SGR

ABILIO ABÍLIO 1.00 0.83 0.67
ACUDE AÇUDE 1.00 0.80 0.60
AGUAS ÁGUAS 1.00 0.80 0.80
AMERICA AMÉRICA 1.00 0.86 0.71
78
ANAUA ANAUÁ 1.00 0.80 0.60
ANT ANTA 1.00 0.75 0.57
AQUINOPOLIS AQUINÓPOLIS 1.00 0.91 0.82
ARACATIACU ARACATIAÇU 1.00 0.90 0.90
ARANAU ARANAÚ 1.00 0.83 0.67
ARAPA ARAPÁ 1.00 0.80 0.60
ARAQUEM ARAQUÉM 1.00 0.86 0.71
ARARIUS ARARIÚS 1.00 0.86 0.71
BARREIRO BARREIROS 1.00 0.89 0.82
BAU BAÚ 1.00 0.67 0.33
BIXOPA BIXOPÁ 1.00 0.83 0.67
BROTOS BROTAS 1.00 0.83 0.67
CAGADO CÁGADO 1.00 0.83 0.67
CALABACA CALABAÇA 1.00 0.88 0.88
CAMARA CAMARÁ 1.00 0.83 0.67
CAMARA CÂMARA 1.00 0.83 0.67
CANADA CANADÁ 1.00 0.83 0.67
CANDEIA CANDEIAS 1.00 0.88 0.80
CARMELOPOLIS CARMELÓPOLIS 1.00 0.92 0.83
CARNAUBA CARNAUBAL 1.00 0.89 0.82
CARNAUBAS CARNAÚBAS 1.00 0.89 0.78
CARNAUBAS CARNAUBAL 1.00 0.89 0.78
CATOLE CATOLÉ 1.00 0.83 0.67
CAXITORE CAXITORÉ 1.00 0.88 0.75
CEARA CEARÁ 1.00 0.80 0.60
CESARIO CESÁRIO 1.00 0.86 0.71
CICERO CÍCERO 1.00 0.83 0.67
CIPO CIPÓ 1.00 0.75 0.50
COITE COITÉ 1.00 0.80 0.60
79
CORREGO CÓRREGO 1.00 0.86 0.71
CURAIS CURRAIS 1.00 0.86 0.92
CURÚ CURU 1.00 0.75 0.50
CUSTODIO CUSTÓDIO 1.00 0.88 0.75
DAGUA DÁGUA 1.00 0.80 0.60
EBROM EBRON 1.00 0.80 0.60
ERERE ERERÊ 1.00 0.80 0.80
ERERÉ ERERÊ 1.00 0.80 0.60
FATIMA FÁTIMA 1.00 0.83 0.67
FELICIA FELÍCIA 1.00 0.86 0.71
FELIX FÉLIX 1.00 0.80 0.60
GAZEA GÁZEA 1.00 0.80 0.60
GEQUI GIQUI 1.00 0.80 0.60
GONSALO GONÇALO 1.00 0.86 0.71
GRACA GRAÇA 1.00 0.80 0.60
GREGORIO GREGÓRIO 1.00 0.88 0.75
GUANACES GUANACÉS 1.00 0.88 0.75
IBICUA IBICUÃ 1.00 0.83 0.67
IBUACU IBUAÇU 1.00 0.83 0.67
ICARAI ICARAÍ 1.00 0.83 0.67
ICO ICÓ 1.00 0.67 0.33
IPAGUASSÚ IPAGUAÇU 3.00 0.67 0.59
IRAJA IRAJÁ 1.00 0.80 0.60
IRAPUÃ IRAPUÁ 1.00 0.83 0.67
ISIDRO IZIDRO 1.00 0.83 0.67
ITAGUA ITAGUÁ 1.00 0.83 0.67
JACAUNA JACAÚNA 1.00 0.86 0.71
JOAO JOÃO 1.00 0.75 0.50
JORD JORDÃO 2.00 0.67 0.60
80
JOSE JOSÉ 1.00 0.75 0.50
JUCAS JUCÁS 1.00 0.80 0.60
LAMEIRO LAMEIRÃO 1.00 0.88 0.80
LINO LINDO 1.00 0.80 0.67
MACEIO MACEIÓ 1.00 0.83 0.67
MAPUA MAPUÁ 1.00 0.80 0.60
MARCOS MARCO 1.00 0.83 0.73
MARJOLANDIA MAJORLÂNDIA 3.00 0.73 0.55
MARTINSLANDIA MARTINSLÂNDIA 1.00 0.92 0.85
MAURICIO MAURÍCIO 1.00 0.88 0.75
MELANCIAS MELANCIA 1.00 0.89 0.82
MILHA MILHÃ 1.00 0.80 0.60
MINEIROLANDIA MINEIROLÂNDIA 1.00 0.92 0.85
MIRAMBE MIRAMBÉ 1.00 0.86 0.71
MONTEIROS MONTEIRO 1.00 0.89 0.82
OROS ORÓS 1.00 0.75 0.50
PAIS PAI 1.00 0.75 0.57
PAJEU PAJEÚ 1.00 0.80 0.60
PANACUI PANACUÍ 1.00 0.86 0.71
PARAPUI PARAPUÍ 1.00 0.86 0.71
PAULO PAULA 1.00 0.80 0.60
PECEM PECÉM 1.00 0.80 0.60
POCO POÇO 1.00 0.75 0.50
PREA PREÁ 1.00 0.75 0.50
PRINCIPIO PRÍNCIPIO 1.00 0.89 0.78
PRINCIPIO PRINCÍPIO 1.00 0.89 0.78
QUEIROZ QUEIRÓZ 1.00 0.86 0.71
QUINCUNCA QUINCUNCÁ 1.00 0.89 0.78
81
QUIXARIU QUIXARIÚ 1.00 0.88 0.75
QUIXOA QUIXOÁ 1.00 0.83 0.67
RINARE RINARÉ 1.00 0.83 0.67
SANT SANTA 1.00 0.80 0.67
SANT SANTO 1.00 0.80 0.67
SAPO SAPÓ 1.00 0.75 0.50
SIMPLICIO SIMPLÍCIO 1.00 0.89 0.78
SITIO SÍTIO 1.00 0.80 0.60
SIUPE SIUPÉ 1.00 0.80 0.60
SUASSURAMA SUASSURANA 1.00 0.90 0.80
TAUA TAUÁ 1.00 0.75 0.50
TIBURCIO TIBÚRCIO 1.00 0.88 0.75
TOME TOMÉ 1.00 0.75 0.50
TRAPIA TRAPIÁ 1.00 0.83 0.67
TROIA TRÓIA 1.00 0.80 0.60
TUINA TUÍNA 1.00 0.80 0.60
UMARÍ UMARI 1.00 0.80 0.60
URUQUE URUQUÊ 1.00 0.83 0.67
Resultados para sistema SIG com banco de dados SQLServer do tipo compatível na
Tabela 40.
Tabela 40 – Resultados Sistema SIG

ABILIO ABÍLIO 1.00 0.83 0.67
ACUDE AÇUDE 1.00 0.80 0.60
AGUAS ÁGUAS 1.00 0.80 0.80
82
AMERICA AMÉRICA 1.00 0.86 0.71
ANAUA ANAUÁ 1.00 0.80 0.60
ANT ANTA 1.00 0.75 0.57
AQUINOPOLIS AQUINÓPOLIS 1.00 0.91 0.82
ARACATIACU ARACATIAÇU 1.00 0.90 0.90
ARAPA ARAPÁ 1.00 0.80 0.60
ARAQUEM ARAQUÉM 1.00 0.86 0.71
ARARIUS ARARIÚS 1.00 0.86 0.71
BARREIRO BARREIROS 1.00 0.89 0.82
BAU BAÚ 1.00 0.67 0.33
BIXOPA BIXOPÁ 1.00 0.83 0.67
BROTOS BROTAS 1.00 0.83 0.67
CAGADO CÁGADO 1.00 0.83 0.67
CALABACA CALABAÇA 1.00 0.88 0.88
CAMARA CAMARÁ 1.00 0.83 0.67
CAMARA CÂMARA 1.00 0.83 0.67
CANADA CANADÁ 1.00 0.83 0.67
CANDEIA CANDEIAS 1.00 0.88 0.80
CARMELOPOLIS CARMELÓPOLIS 1.00 0.92 0.83
CARNAUBA CARNAUBAL 1.00 0.89 0.82
CARNAUBAS CARNAUBAL 1.00 0.89 0.78
CARNAUBAS CARNAÚBAS 1.00 0.89 0.78
CATOLE CATOLÉ 1.00 0.83 0.67
CAXITORE CAXITORÉ 1.00 0.88 0.75
CEARA CEARÁ 1.00 0.80 0.60
CESARIO CESÁRIO 1.00 0.86 0.71
CICERO CÍCERO 1.00 0.83 0.67
CIPO CIPÓ 1.00 0.75 0.50
COITE COITÉ 1.00 0.80 0.60
83
CORREGO CÓRREGO 1.00 0.86 0.71
CURAIS CURRAIS 1.00 0.86 0.92
CURÚ CURU 1.00 0.75 0.50
CUSTODIO CUSTÓDIO 1.00 0.88 0.75
DAGUA DÁGUA 1.00 0.80 0.60
EBROM EBRON 1.00 0.80 0.60
ERERE ERERÊ 1.00 0.80 0.80
ERERÉ ERERÊ 1.00 0.80 0.60
FATIMA FÁTIMA 1.00 0.83 0.67
FELICIA FELÍCIA 1.00 0.86 0.71
FELIX FÉLIX 1.00 0.80 0.60
GAZEA GÁZEA 1.00 0.80 0.60
GEQUI GIQUI 1.00 0.80 0.60
GONSALO GONÇALO 1.00 0.86 0.71
GRACA GRAÇA 1.00 0.80 0.60
GREGORIO GREGÓRIO 1.00 0.88 0.75
GUANACES GUANACÉS 1.00 0.88 0.75
IBICUA IBICUÃ 1.00 0.83 0.67
IBUACU IBUAÇU 1.00 0.83 0.67
ICARAI ICARAÍ 1.00 0.83 0.67
ICO ICÓ 1.00 0.67 0.33
IPAGUASSÚ IPAGUAÇU 3.00 0.67 0.59
IRAJA IRAJÁ 1.00 0.80 0.60
IRAPUÃ IRAPUÁ 1.00 0.83 0.67
ISIDRO IZIDRO 1.00 0.83 0.67
ITAGUA ITAGUÁ 1.00 0.83 0.67
JACAUNA JACAÚNA 1.00 0.86 0.71
JOAO JOÃO 1.00 0.75 0.50
JORD JORDÃO 2.00 0.67 0.60
84
JOSE JOSÉ 1.00 0.75 0.50
JUCAS JUCÁS 1.00 0.80 0.60
LAMEIRO LAMEIRÃO 1.00 0.88 0.80
LINO LINDO 1.00 0.80 0.67
MACEIO MACEIÓ 1.00 0.83 0.67
MAPUA MAPUÁ 1.00 0.80 0.60
MARCOS MARCO 1.00 0.83 0.73
MARJOLANDIA MAJORLÂNDIA 3.00 0.73 0.55
MARTINSLANDIA MARTINSLÂNDIA 1.00 0.92 0.85
MAURICIO MAURÍCIO 1.00 0.88 0.75
MELANCIAS MELANCIA 1.00 0.89 0.82
MILHA MILHÃ 1.00 0.80 0.60
MINEIROLANDIA MINEIROLÂNDIA 1.00 0.92 0.85
MIRAMBE MIRAMBÉ 1.00 0.86 0.71
MONTEIROS MONTEIRO 1.00 0.89 0.82
OROS ORÓS 1.00 0.75 0.50
PAIS PAI 1.00 0.75 0.57
PAJEU PAJEÚ 1.00 0.80 0.60
PANACUI PANACUÍ 1.00 0.86 0.71
PARAPUI PARAPUÍ 1.00 0.86 0.71
PAULO PAULA 1.00 0.80 0.60
PECEM PECÉM 1.00 0.80 0.60
POCO POÇO 1.00 0.75 0.50
PREA PREÁ 1.00 0.75 0.50
PRINCIPIO PRÍNCIPIO 1.00 0.89 0.78
PRINCIPIO PRINCÍPIO 1.00 0.89 0.78
QUEIROZ QUEIRÓZ 1.00 0.86 0.71
QUINCUNCA QUINCUNCÁ 1.00 0.89 0.78
85
QUIXARIU QUIXARIÚ 1.00 0.88 0.75
QUIXOA QUIXOÁ 1.00 0.83 0.67
RINARE RINARÉ 1.00 0.83 0.67
SANT SANTA 1.00 0.80 0.67
SANT SANTO 1.00 0.80 0.67
SAPO SAPÓ 1.00 0.75 0.50
SIMPLICIO SIMPLÍCIO 1.00 0.89 0.78
SITIO SÍTIO 1.00 0.80 0.60
SIUPE SIUPÉ 1.00 0.80 0.60
SUASSURAMA SUASSURANA 1.00 0.90 0.80
TAUA TAUÁ 1.00 0.75 0.50
TIBURCIO TIBÚRCIO 1.00 0.88 0.75
TOME TOMÉ 1.00 0.75 0.50
TRAPIA TRAPIÁ 1.00 0.83 0.67
TROIA TRÓIA 1.00 0.80 0.60
TUINA TUÍNA 1.00 0.80 0.60
UMARÍ UMARI 1.00 0.80 0.60
URUQUE URUQUÊ 1.00 0.83 0.67
86

Qualidade de Dados em Grandes BDs Heterogêneos

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Qualidade de Dados em Grandes BDs Heterogêneos

Enviado por

Direitos autorais:

Formatos disponíveis

FUNDAÇÃO EDSON QUEIROZ

Wilson Wagner Barroso Marques

Uma abordagem de qualidade de dados em grandes bancos de

Wilson Wagner Barroso Marques

Uma abordagem de qualidade de dados em grandes bancos de

Dissertação apresentada ao Curso de Mestrado

Orientador: Prof. Adriano Bessa Albuquerque, D.Sc.

Ficha catalográfica da obra elaborada pelo autor através do programa de

Barroso Marques, Wilson Wagner.

Dissertação (Mestrado Acadêmico) - Universidade de

1. Qualidade de dados em aplicações empresariais. 2.

À minha família, o maior

Ao professor Plácido, Coordenador do Mestrado, pelas palavras de incentivo e confiança,

Deus nos concede, a cada dia, uma página de vida nova no

Resumo da dissertação apresentada ao Corpo Docente do Curso de Mestrado em

Uma abordagem de qualidade de dados em grandes bancos de dados

Autor: Wilson Wagner Barroso Marques

Orientador: Prof. Adriano Bessa Albuquerque, D.Sc.

Os dados sujos são caracterizados por apresentar inconsistências, imprecisão ou erros.

Palavras-chave: Qualidade de dados em aplicações empresariais; Manutenção de

A Data Quality Approach in Large-scale Heterogeneous Databases

Author: Wilson Wagner Barroso Marques

Advisor: Prof. Adriano Bessa Albuquerque, D.Sc.

Dirty data is characterized by presenting inconsistencies, inaccuracy or errors. The

Keywords: Data Quality in Enterprise applications; Data Maintenance; Heterogeneous

LISTA DE FIGURAS ............................................................................................................. xiv

1.1 MOTIVAÇÃO ....................................................................................................1

1.2 OBJETIVOS .......................................................................................................2

1.3 METODOLOGIA ...............................................................................................3

1.4 ESTRUTURA DO TRABALHO .......................................................................3

2 REFERENCIAL TEÓRICO ...............................................................................................4

2.1 QUALIDADE .....................................................................................................4

2.2 QUALIDADE DE DADOS ................................................................................4

2.3 TIPO DE AVALIAÇÃO DE QUALIDADE DE DADOS EM BANCO DE

2.4 QUALIDADE DE DADOS Em BANCO de dados ...........................................6

2.5 COMO OBTER QUALIDADE ..........................................................................8

2.5.1 COMPARAÇÃO DE STRING ..................................................................8

2.5.2 ALGORITMO FONÉTICO ......................................................................12

2.6 TRABALHOS RELACIONADOS ..................................................................16

2.7 CONCLUSÃO DO CAPÍTULO ......................................................................18

3 PROCESSO DE QUALIDADE DE DADOS EM BASE DE DADOS HETEROGÊNEA

3.1 O PROCESSO ..................................................................................................19

3.1.1 Selecionar banco de dados ........................................................................20

3.1.2 Carregar domínio ......................................................................................24

3.1.3 Carregar dicionário ...................................................................................29

3.1.4 Criar base classificada...............................................................................32

3.2 CONCLUSÃO DO CAPÍTULO ......................................................................35

4 ESTUDO DE CASO EM UMA EMPRESA SANEAMENTO BÁSICO ........................36

4.1 PROJETO DE ESTUDO DE CASO ................................................................37

4.1.2 DADOS RELEVANTES ..........................................................................38

4.2 EXECUÇÃO DO ESTUDO DE CASO ...........................................................38

4.2.1 Selecionar banco de dados ........................................................................38

4.2.2 Carregar domínio ......................................................................................40

4.2.3 Carregar dicionário ...................................................................................43

4.2.4 Criar base classificada...............................................................................44

4.3 ANÁLISE DAS HIPÓTESES ..........................................................................46

4.3.1 Análise da hipótese H1 .............................................................................46

4.3.2 Análise da hipótese H2 .............................................................................47

4.4 CONSIDERAÇÕES FINAIS ...........................................................................47

4.5 CONCLUSÃO DO CAPÍTULO ......................................................................48

5 CONCLUSÃO E TRABALHOS FUTUROS ..................................................................50

5.1 PRINCIPAIS CONTRIBUIÇÕES ....................................................................50