I2A2-ABDI - 2024-03-06 e 2024-03-13 - Celso Azevedo - Aula 06 e 07 (Qualidade de Dados I e II)

Qualidade de Dados
Qual é o seu alimento?

Créditos:
Vinícius Araújo Santos
➢ B.S. Computer Engineering at Federal University of Goiás (UFG, Goiânia, Brazil)
➢ Master Degree in Computer Science also at UFG

Qualidade de
dados
Um ponto muitas vezes
negligenciado
Inteligência Artificial
"Tudo o que amamos em nossa civilização é um produto da inteligência;
portanto, ampliar nossa inteligência humana com inteligência artificial tem o
potencial de ajudar-nos a florescer como nunca antes - desde que consigamos
manter esta tecnologia como benéfica".
Max Tegmark, President of the Future of Life Institute

Temos visto a IA crescer exponencialmente ao longo dos anos.
De assistentes pessoais como Siri, Cortana e Google Assistance a sistemas

de recomendação de vídeos como os presentes no Youtube e Netflix…
Estamos cercados de aplicações que usam esse grande potencial para

automatizar processos, cativar clientes e reduzir despesas pra citar alguns
exemplos.
Um dos principais drivers desses avanços é a forma como passamos a lidar
com dados.
Por Merriam Webster

Outro ponto importante foi a expansão da capacidade de processamento e o
advento das Redes Neurais Profundas
Neste ponto, somos induzidos a pensar algo do tipo:
“Quanto mais dados eu tiver guardado em um servidor melhor serão os

modelos gerados pelas técnicas de Inteligência Artificial.”
Infelizmente, em boa parte das situações isto não é verdade.

Qualidade de Dados
Podemos enumerar, portanto, fatores pra justificar essa infeliz constatação
como aspectos usados para analisar a qualidade de dados disponíveis:
● Acurácia
● Completude
● Consistência
● Confiabilidade
● Dados atualizados
Qualidade de Dados
Uma definição para o seria Qualidade de Dados:
“O Data Management Body of Knowledge (DMBOK) define Qualidade de Dados (DQ) como o
planejamento, implementação e controle de atividades que aplicam técnicas de gerenciamento
de qualidade aos dados, a fim de garantir que seja adequado ao consumo e atenda às
necessidades dos dados. consumidores.”
Qualidade de Dados
● Para novas aplicações no ramo de Aprendizado de Máquina e Deep Learning
o dataset (conjunto de dados) é o centro do desenvolvimento.
● Muitas vezes a fonte de maior problemas no desenvolvimento.
● O Dataset recebido é o resultado da organização que o elaborou e sua

postura em relação à QD.
Qualidade de Dados
● A sustentabilidade de um modelo de desenvolvimento em IA depende
fortemente desse aspecto.
● Isso influenciará o desempenho do modelo em produção tornando-o

sustentável a longo prazo.
Qualidade de Dados
Benefícios e aplicações de uma metodologia de qualidade de dados:
● Aumentar o valor dos dados organizacionais e as oportunidades de usá-

los.
● Reduzir riscos e custos associados a dados de baixa qualidade.
● Melhorando a eficiência e a produtividade organizacional.
● Protegendo e aprimorando a reputação da organização.

Qualidade de Dados
Benefícios e aplicações de uma metodologia de qualidade de dados:
● Perfil de dados.
● Padronização de dados.
● Monitoramento de dados.
● Limpeza de dados.
Qualidade de
dados
Importância
Importância
“Manter a qualidade dos dados é uma tarefa difícil, mas necessária.
Para obter dados consistentes e confiáveis, as empresas devem
gerenciar constantemente a qualidade dos dados, a fim de criar
confiança e permitir decisões mais rápidas e com mais conhecimento.”
Experian
Importância
Erros no ciclo de desenvolvimento de uma nova funcionalidade podem levar a
perdas ($) e sérias consequências
“Se um sistema de IA recomendar o medicamento errado para um

paciente, não perceber um tumor em um exame radiológico ou
alocar uma cama de hospital para um paciente em detrimento de
outro, porque previu erroneamente qual paciente se beneficiaria
mais, as consequência trariam riscos evitáveis.”
The Brookings Institution’s Artificial Intelligence and Emerging Technology

Importância
Organizações que se preparam para evitar tais situações têm inúmeros
benefícios:
● Economia na qualidade dos serviços prestados e comunicação.
● Trato com o cliente é muito mais fácil. Imagine explicar porque o

desenvolvimento têm se arrastado para um cliente leigo!
● Dados incorretos e duplicados são evitados
● Melhorias na qualidade no desenvolvimento futuro e tomada de

decisões.
Qualidade de
dados
Tipos de Dados
Tipos de dados
A taxonomia clássica (forma de
descrever, identificar e classificar)
tipos de dados prevê algumas
classes:
Taxonomia Clássica
Dados Qualitativos
• Dados Nominais
• Dados Ordinais
Dados Quantitativos
• Dados Discretos
• Dados Contínuos
• Dados Intervalares
• Dados Proporcionais
Segundo a LGPD
• Dados públicos: podem ser acessados por qualquer pessoa
• Dados internos: podem ser acessados apenas por colaboradores da
empresa
• Dados confidenciais: podem ser acessados apenas por um grupo de
pessoas ou cargos específicos.
• Dados restritos: podem ser acessados apenas por algumas pessoas
Tipos de dados
Jeff Hale propôs uma nova
taxonomia
Tipos de dados
Dentre estes, uma verdade
inconveniente:
● O dado inútil é provavelmente

um dos mais comuns tipos de
dados existentes.
Tipos de dados - Dado inútil
Dados sem relação com a variável que está sendo prevista
“Você provavelmente já esteve no meio de contar uma história a alguém ou

se deparar com uma longa explicação de algo complicado quando a outra
pessoa olha para você e pergunta: ‘O que você quer dizer com isso’?”
Se um dado é constituído de valores únicos sem ordem ou significado, esta

informação se torna inútil e não precisa ser adicionada ao modelo!
Tipos de dados - Dado inútil
Maldição da dimensionalidade
Tipos de dados - Tabular
Tipos de dados - Imagem
Tipos de dados - Áudio
Tipos de dados - Texto
Tipos de dados - Temporal
Tipos de dados - Dados de sensores
Qualidade de
dados
Erros Comuns
Erros comuns
Em muitas situações os maiores problemas encontrados são relacionados à
QD ocorrem na falta de dados ou mudança de critério na captação desses
dados.
Costumo dizer que “só sabemos o tamanho do problema e somos capazes

de estimar custos de desenvolvimento após olharmos os dados”.
Frase comum: “meus dados estão organizados!”

Erros comuns
Resultado: Dor de cabeça
Erros comuns
Informação incompleta
Comum em dados tabulares.
Encontrar campos de dados preenchidos (?!) com “NaN” ou “null”.
Pode ocorrer em função de erros na extração dos dados de um banco de

dados ou conversão de variáveis
Às vezes a informação mais importante na decisão está indisponível

prejudicando os processos de treinamento ou execução
Erros comuns
Erros de Semântica
O que um dado significa?
Ex.: Valores de Compra e venda de carros.
Se ocorre inversão destes campos ele estará

aparentemente correto
“Comprei esse carro por R$ 10.000 reais e vendi

por R$32.000”
Erros comuns
Erros de Sintaxe
Relacionado a como um dado é representado
DD/MM/AAAA vs. MM/DD/AAAA

Erros comuns
Erros de Sintaxe
Relacionado a como um dado é representado
DD/MM/AAAA vs. MM/DD/AAAA
Resultado: Dormir no sofá por esquecer o

aniversário de casamento (colocado errado na
agenda)
Erros comuns
Ruído
Comum devido à captura dos dados
“Alguém pichou meu muro. Vou olhar na câmera de segurança...”

Erros comuns
Má qualidade na captura
Questões como foco, resolução da

câmera, calibração de sensores,
etc.
Qualidade de
dados
Consequências
Consequências
É importante saber que essas ocorrências têm a consequência de
transformar dados que poderiam ser utilizados em dados inúteis.
Se formos retornar a aspectos de como o treinamento de modelos de IA

são treinados isto leva a em alguns casos impossibilitar o
desenvolvimento.
Alguns tipos de dados não podem ser registrados novamente ou possuem

um custo elevado de obtenção.
Consequências
“Usuários estão fazendo a conexão entre dados com qualidade e boas
decisões de negócios. Para que as empresas futuras prosperem com uma
diferenciação competitiva, a estratégia de governança de dados
desempenhará um papel crucial.”
Harald Smith, Director of Product Management at Syncsort

Consequências
Relembrando: O treinamento é feito dividindo os dados em dois conjuntos:
● Conjunto de treinamento: dados apenas utilizados para treinamento e não

contabilizados para o resultado final
● Conjunto de testes: dados não utilizados no treinamento utilizados para verificar

a acurácia para casos não vistos pelo classificador dando o resultado final
Consequências
Consequências
Se não há dados suficientes ou estes não são confiáveis as etapas de
treinamento, validação e testes fica prejudicada
Em tempo de deployment, muitos problemas podem vir à tona

Consequências
Se não há dados suficientes ou estes não são confiáveis as etapas de
treinamento, validação e testes fica prejudicada.
Em tempo de deployment, muitos problemas podem vir à tona
Evidência A
Evidência A
Evidência B
Evidência B
Parte B
CRISP-DM
Um framework para DS
O que é CRISP-DM?
CRoss Industry Standard Process for Data Mining
Criado na década de 90.
Método para conduzir projetos de Mineração de Dados ou de Ciência de Dados
Benefícios:
• Hipóteses organizadas
• Cíclico
• Código bem definido
• Flexível
• Agrega valor frequentemente
Source: https://www.datascience-pm.com/wp-content/uploads/2021/08/CRISP-DM-for-Data-Science.pdf
Detalhando as fases
Quais são as necessidades do negócio? Quais são os

OBJETIVOS do trabalho? Quais são os critérios de aceite?
Quais dados precisamos? Quais dados possuímos? Eles estão

“limpos?”
Detalhando as fases
Como os dados serão organizados para a modelagem?
Quais técnicas de modelagem vamos utilizar?

Detalhando as fases
Quais resultados atingem melhor os objetivos de negócios?
Apresentar os resultados obtidos

Perguntas vagas x objetivas
Vaga Objetiva
Não é respondida por um nome ou um Deve ser respondida com um nome ou um

número: número:
• O que meus dados podem dizer sobre o • Quantas vezes esta nova função será utilizada
meu negócios? por novos usuários?
• O que devo fazer? • Qual caminho para através do centro me fará
• Como posso aumentar meu lucro? chegar mais rápido ao trabalho?
Qualidade de
dados
Como mensurar a qualidade
de um dado?
Mensurando a Qualidade de Dados
Completude
Mensurar a proporção dos dados que satisfazem regras de valores possíveis

para um atributo:
● Densidade: Proporção entre o número de atributos não nulos em relação

aos dados disponíveis.
Cada dado possui um critério mas em geral essa métrica ajuda a detectar
problemas nos dados que podem impactar o treinamento
Completude
Mensurar a proporção dos dados que satisfazem regras de valores possíveis

para um atributo:
● Cobertura: Proporção entre número de entidades em um campo em

relação aos valores que aquele campo pode assumir naquele domínio
Consistência
Analisa a violação de regras semânticas verificando a validade de um dado em

um campo ou múltiplos campos.
● Integridade Inter-entidade: Muitas vezes um campo deve possuir uma

relação com outro campo. A não ocorrência pode indicar problemas
● Integridade Intra-entidade: Se aquele dado é consistente com as

condições do ambiente (um endereço fora da área de cobertura ou uma
instrução inconsistente)
Acurácia
Analisa o quão próximo o valor registrado está dos valores aos quais ele
representa no mundo real.
● Corretude Semântica: Proximidade entre o dado registrado e o valor real
● Corretude Sintática: Proximidade entre um dado e os demais valores

dentro de um mesmo domínio
Acurácia
Analisa o quão próximo o valor registrado está dos valores aos quais ele
representa no mundo real.
● Acurácia: Métrica que permite avaliar o grau de detalhe que um dado

precisa ser para ser considerado útil
Unicidade
Dados repetidos podem trazer dificuldades em obter um modelo com

capacidade de generalização. Este tipo de métrica verifica em que grau uma
amostra difere das demais.
● Não-duplicação: Métrica da possibilidade de uma amostra estar duplicada

com base em semelhança.
● Não-contradição: Métrica da semelhança de dados com rótulos

contraditórios.
Atualidade
Métrica que avalia o quão rapidamente a atualização nos dados com entradas
do mundo real irão impactar o modelo treinado
● Freshness: Verifica a consistência de um dado em relação ao tempo.

Dados mais antigos podem se tornar inconsistentes ao longo do tempo.
● Atualidade: Quanto tempo uma mudança no mundo real levaria para ser
refletida nos dados atuais.
Preparação de
Dados
Aspectos
Preparação de Dados
O que é?
Processo de limpeza e transformação do dado para processamento e análise.
Envolve reformatação, correções e combinações para enriquecimento dos

dados
Como indicado anteriormente, esta tarefa é um pre-requisito essencial para

contextualizar o dado para obter insights e minimizar o bias (viés) decorrente
da baixa qualidade do dado
Preparação de Dados
● Preparação dos conjuntos de dados com diferentes formatos
● Correção de erros
● Verificação da qualidade de dados
● Combinação de conjuntos de dados para obter uma base de dados mais

completa são partes das tarefas de preparação de dados
Preparação de
Dados
Análise exploratória dos
Dados
Análise Exploratória dos Dados
“A Análise Exploratória dos Dados se refere ao processo crítico da realização das
investigações iniciais sobre um dado conjunto de dados de forma a descobrir
padrões, detectar anomalias, testar hipóteses e verificar o que se assume sobre o
dado com ajuda de um sumário estatístico e representações gráficas.”
Análise Exploratória Básica
● Head - Demonstrar uma amostra inicial dos dados
● Shape: Demonstrar a dimensão dos dados (observações vs. variáveis)
● Info: Resumo dos dados e tipos de dados de cada variáveis
● Describe: Informações estatísticas dos dados numéricos

Análise Exploratória - Valores Indisponíveis
Existem diferentes abordagens para lidar com dados em falta:
● Drop: Lançar fora da base os dados que não disponíveis em uma linha ou coluna
● Média: Em campos numéricos, é possível preencher indisponíveis pela média da variável.

Necessário levar em conta a ocorrência de Outliers
● Mediana: De forma semelhante à média entretanto o valor mediano é utilizado para

substituições. Quando há muitos outliers a mediana é a forma mais recomendada
● Moda: Em variáveis categóricas é possível preencher variáveis com os valores mais frequentes.
Análise Exploratória - Valores Duplicados
● Valores duplicados inserem viés (bias) nos dados
● Prejudicam a capacidade de generalização de alguns modelos
● Para efeitos de Data Augmentation é recomendado inserir aleatoriamente

algum tipo de variação nos valores gerados artificialmente
● Necessário que estes valores não modifiquem a distribuição dos dados

Análise Exploratória - Outliers
● Outliers são valores extremos.
● Normalmente representam os valores máximos e mínimos de uma amostra
● Necessário observar a distribuição dos dados.
● Outliers prejudicam por não seguirem o padrão dos dados disponíveis
● Em muitos casos, pode-se remover outliers sem que haja prejuízo na qualidade
dos dados
● Também é possível usar o Intervalo Interquartil para corrigir tais valores

Boxplot x Curva Normal
80
Outliers
81
Análise Exploratória - Análise Bi-variada
Combinar a análise de variáveis é possível para verificar a distribuição e co-
relações entre variáveis
● Correlação entre variáveis numéricas
● Correlação entre variáveis categóricas e numéricas
● Correlação entre duas variáveis categóricas

Análise Bi-variada
83
Análise Bi-variada
84
Análise Exploratória - Normalização e escala
Variáveis nem sempre possuem a mesma escala. É necessário normalizá-las para
que modelos não considerem magnitude como significância
● Ex.: Valores de custos (dezenas de milhares) vs idade

● Normalização permite que os modelos sejam menos sensíveis a tais
ocorrências
● Normalização de múltiplas variáveis para uma mesma escala
Análise Exploratória - Encoding
● Variáveis categóricas nem sempre podem ser utilizadas para o treinamento de modelos
● Modelos de Árvore são mais recomendados para estas variáveis sem a necessidade de
Encoding
● Para os demais modelos usa-se técnicas como o label encoding, one-hot encoding, numerical
encoding que permitem a melhor representação destes dados
Preparação de
Dados
Feature Engineering
Feature Engineering
Dall.e
Challenge1I
https://labs.openai.com/e/xYvsdZh7P3kY7OTbeD4RqdD6
“Exercitando os músculos”
Which component is defective?
Regras do Jogo
● Realize o seu cadastro na plataforma Kaggle (https://www.kaggle.com/) e se inscreva no desafio
“Titanic - Machine Learning from Disaster (https://www.kaggle.com/competitions/titanic)”
● Monte um relatório com as 3 primeiras fases do CRISP-DM (business understanding, data
understanding e data preparation).
● Envie o seu relatório e demais artefatos gerados para challenges@i2a2.academy. Use o assunto
“I2A2 – ABDI – Challenge 2”.
● Limite para Entrega: 2024-03-26 23:59 BRT. Este desafio é ELIMINATÓRIO
● Envie o e-mail usando o mesmo e-mail que você utilizou no seu recadastramento.
● Entregas após a data limite NÃO SERÃO ACEITAS (a menos que você envie junto com uma foto da
sua internação em uma UTI).
● No dia 27/03/2024, algumas pessoas serão selecionadas para apresentar seus trabalhos. Estejam
preparados.
Celso Azevedo
COO – I2A2
celso@i2a2.academy
https://www.linkedin.com/in/celso-augusto-morato-azevedo/

I2A2-ABDI - 2024-03-06 e 2024-03-13 - Celso Azevedo - Aula 06 e 07 (Qualidade de Dados I e II)

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

I2A2-ABDI - 2024-03-06 e 2024-03-13 - Celso Azevedo - Aula 06 e 07 (Qualidade de Dados I e II)

Enviado por

Direitos autorais:

Formatos disponíveis

Qualidade de Dados

Qual é o seu alimento?

➢ Master Degree in Computer Science also at UFG

Max Tegmark, President of the Future of Life Institute

De assistentes pessoais como Siri, Cortana e Google Assistance a sistemas

Estamos cercados de aplicações que usam esse grande potencial para

Por Merriam Webster

“Quanto mais dados eu tiver guardado em um servidor melhor serão os

Infelizmente, em boa parte das situações isto não é verdade.

● Muitas vezes a fonte de maior problemas no desenvolvimento.

● O Dataset recebido é o resultado da organização que o elaborou e sua

● Isso influenciará o desempenho do modelo em produção tornando-o

● Aumentar o valor dos dados organizacionais e as oportunidades de usá-

● Reduzir riscos e custos associados a dados de baixa qualidade.

● Melhorando a eficiência e a produtividade organizacional.

● Protegendo e aprimorando a reputação da organização.

“Se um sistema de IA recomendar o medicamento errado para um

The Brookings Institution’s Artificial Intelligence and Emerging Technology

● Economia na qualidade dos serviços prestados e comunicação.

● Trato com o cliente é muito mais fácil. Imagine explicar porque o

● Dados incorretos e duplicados são evitados

● Melhorias na qualidade no desenvolvimento futuro e tomada de

● O dado inútil é provavelmente

“Você provavelmente já esteve no meio de contar uma história a alguém ou

Se um dado é constituído de valores únicos sem ordem ou significado, esta

Costumo dizer que “só sabemos o tamanho do problema e somos capazes

Frase comum: “meus dados estão organizados!”

Comum em dados tabulares.

Encontrar campos de dados preenchidos (?!) com “NaN” ou “null”.

Pode ocorrer em função de erros na extração dos dados de um banco de

Às vezes a informação mais importante na decisão está indisponível

O que um dado significa?

Ex.: Valores de Compra e venda de carros.

Se ocorre inversão destes campos ele estará

“Comprei esse carro por R$ 10.000 reais e vendi

Relacionado a como um dado é representado

DD/MM/AAAA vs. MM/DD/AAAA

Relacionado a como um dado é representado

DD/MM/AAAA vs. MM/DD/AAAA

Resultado: Dormir no sofá por esquecer o

Comum devido à captura dos dados

“Alguém pichou meu muro. Vou olhar na câmera de segurança...”

Questões como foco, resolução da

Se formos retornar a aspectos de como o treinamento de modelos de IA

Alguns tipos de dados não podem ser registrados novamente ou possuem

Harald Smith, Director of Product Management at Syncsort

Relembrando: O treinamento é feito dividindo os dados em dois conjuntos:

● Conjunto de treinamento: dados apenas utilizados para treinamento e não

● Conjunto de testes: dados não utilizados no treinamento utilizados para verificar

Em tempo de deployment, muitos problemas podem vir à tona

Método para conduzir projetos de Mineração de Dados ou de Ciência de Dados

Quais são as necessidades do negócio? Quais são os

Quais dados precisamos? Quais dados possuímos? Eles estão

Como os dados serão organizados para a modelagem?

Quais técnicas de modelagem vamos utilizar?

Quais resultados atingem melhor os objetivos de negócios?

Apresentar os resultados obtidos

Não é respondida por um nome ou um Deve ser respondida com um nome ou um

Mensurar a proporção dos dados que satisfazem regras de valores possíveis

● Densidade: Proporção entre o número de atributos não nulos em relação

Mensurar a proporção dos dados que satisfazem regras de valores possíveis

● Cobertura: Proporção entre número de entidades em um campo em

Analisa a violação de regras semânticas verificando a validade de um dado em

● Integridade Inter-entidade: Muitas vezes um campo deve possuir uma