Você está na página 1de 94

Qualidade de Dados

Qual é o seu alimento?


Créditos:
Vinícius Araújo Santos
➢ B.S. Computer Engineering at Federal University of Goiás (UFG, Goiânia, Brazil)

➢ Master Degree in Computer Science also at UFG


Qualidade de
dados
Um ponto muitas vezes
negligenciado
Inteligência Artificial
"Tudo o que amamos em nossa civilização é um produto da inteligência;
portanto, ampliar nossa inteligência humana com inteligência artificial tem o
potencial de ajudar-nos a florescer como nunca antes - desde que consigamos
manter esta tecnologia como benéfica".

Max Tegmark, President of the Future of Life Institute


Inteligência Artificial
Temos visto a IA crescer exponencialmente ao longo dos anos.

De assistentes pessoais como Siri, Cortana e Google Assistance a sistemas


de recomendação de vídeos como os presentes no Youtube e Netflix…

Estamos cercados de aplicações que usam esse grande potencial para


automatizar processos, cativar clientes e reduzir despesas pra citar alguns
exemplos.
Inteligência Artificial
Um dos principais drivers desses avanços é a forma como passamos a lidar
com dados.

Por Merriam Webster


Inteligência Artificial
Outro ponto importante foi a expansão da capacidade de processamento e o
advento das Redes Neurais Profundas
Inteligência Artificial
Inteligência Artificial
Neste ponto, somos induzidos a pensar algo do tipo:

“Quanto mais dados eu tiver guardado em um servidor melhor serão os


modelos gerados pelas técnicas de Inteligência Artificial.”

Infelizmente, em boa parte das situações isto não é verdade.


Qualidade de Dados
Podemos enumerar, portanto, fatores pra justificar essa infeliz constatação
como aspectos usados para analisar a qualidade de dados disponíveis:

● Acurácia

● Completude

● Consistência

● Confiabilidade

● Dados atualizados
Qualidade de Dados
Uma definição para o seria Qualidade de Dados:

“O Data Management Body of Knowledge (DMBOK) define Qualidade de Dados (DQ) como o
planejamento, implementação e controle de atividades que aplicam técnicas de gerenciamento
de qualidade aos dados, a fim de garantir que seja adequado ao consumo e atenda às
necessidades dos dados. consumidores.”
Qualidade de Dados
● Para novas aplicações no ramo de Aprendizado de Máquina e Deep Learning
o dataset (conjunto de dados) é o centro do desenvolvimento.

● Muitas vezes a fonte de maior problemas no desenvolvimento.

● O Dataset recebido é o resultado da organização que o elaborou e sua


postura em relação à QD.
Qualidade de Dados
● A sustentabilidade de um modelo de desenvolvimento em IA depende
fortemente desse aspecto.

● Isso influenciará o desempenho do modelo em produção tornando-o


sustentável a longo prazo.
Qualidade de Dados
Benefícios e aplicações de uma metodologia de qualidade de dados:

● Aumentar o valor dos dados organizacionais e as oportunidades de usá-


los.

● Reduzir riscos e custos associados a dados de baixa qualidade.

● Melhorando a eficiência e a produtividade organizacional.

● Protegendo e aprimorando a reputação da organização.


Qualidade de Dados
Benefícios e aplicações de uma metodologia de qualidade de dados:

● Perfil de dados.

● Padronização de dados.

● Monitoramento de dados.

● Limpeza de dados.
Qualidade de
dados
Importância
Importância
“Manter a qualidade dos dados é uma tarefa difícil, mas necessária.
Para obter dados consistentes e confiáveis, as empresas devem
gerenciar constantemente a qualidade dos dados, a fim de criar
confiança e permitir decisões mais rápidas e com mais conhecimento.”

Experian
Importância
Erros no ciclo de desenvolvimento de uma nova funcionalidade podem levar a
perdas ($) e sérias consequências

“Se um sistema de IA recomendar o medicamento errado para um


paciente, não perceber um tumor em um exame radiológico ou
alocar uma cama de hospital para um paciente em detrimento de
outro, porque previu erroneamente qual paciente se beneficiaria
mais, as consequência trariam riscos evitáveis.”

The Brookings Institution’s Artificial Intelligence and Emerging Technology


Importância
Organizações que se preparam para evitar tais situações têm inúmeros
benefícios:

● Economia na qualidade dos serviços prestados e comunicação.

● Trato com o cliente é muito mais fácil. Imagine explicar porque o


desenvolvimento têm se arrastado para um cliente leigo!

● Dados incorretos e duplicados são evitados

● Melhorias na qualidade no desenvolvimento futuro e tomada de


decisões.
Qualidade de
dados
Tipos de Dados
Tipos de dados
A taxonomia clássica (forma de
descrever, identificar e classificar)
tipos de dados prevê algumas
classes:
Taxonomia Clássica
Dados Qualitativos
• Dados Nominais
• Dados Ordinais

Dados Quantitativos
• Dados Discretos
• Dados Contínuos
• Dados Intervalares
• Dados Proporcionais
Segundo a LGPD
• Dados públicos: podem ser acessados por qualquer pessoa
• Dados internos: podem ser acessados apenas por colaboradores da
empresa
• Dados confidenciais: podem ser acessados apenas por um grupo de
pessoas ou cargos específicos.
• Dados restritos: podem ser acessados apenas por algumas pessoas
Tipos de dados
Jeff Hale propôs uma nova
taxonomia
Tipos de dados
Dentre estes, uma verdade
inconveniente:

● O dado inútil é provavelmente


um dos mais comuns tipos de
dados existentes.
Tipos de dados - Dado inútil
Dados sem relação com a variável que está sendo prevista

“Você provavelmente já esteve no meio de contar uma história a alguém ou


se deparar com uma longa explicação de algo complicado quando a outra
pessoa olha para você e pergunta: ‘O que você quer dizer com isso’?”

Se um dado é constituído de valores únicos sem ordem ou significado, esta


informação se torna inútil e não precisa ser adicionada ao modelo!
Tipos de dados - Dado inútil
Maldição da dimensionalidade
Tipos de dados - Tabular
Tipos de dados - Imagem
Tipos de dados - Áudio
Tipos de dados - Texto
Tipos de dados - Temporal
Tipos de dados - Dados de sensores
Qualidade de
dados
Erros Comuns
Erros comuns
Em muitas situações os maiores problemas encontrados são relacionados à
QD ocorrem na falta de dados ou mudança de critério na captação desses
dados.

Costumo dizer que “só sabemos o tamanho do problema e somos capazes


de estimar custos de desenvolvimento após olharmos os dados”.

Frase comum: “meus dados estão organizados!”


Erros comuns
Resultado: Dor de cabeça
Erros comuns
Informação incompleta

Comum em dados tabulares.

Encontrar campos de dados preenchidos (?!) com “NaN” ou “null”.

Pode ocorrer em função de erros na extração dos dados de um banco de


dados ou conversão de variáveis

Às vezes a informação mais importante na decisão está indisponível


prejudicando os processos de treinamento ou execução
Erros comuns
Erros de Semântica

O que um dado significa?

Ex.: Valores de Compra e venda de carros.

Se ocorre inversão destes campos ele estará


aparentemente correto

“Comprei esse carro por R$ 10.000 reais e vendi


por R$32.000”
Erros comuns
Erros de Sintaxe

Relacionado a como um dado é representado

DD/MM/AAAA vs. MM/DD/AAAA


Erros comuns
Erros de Sintaxe

Relacionado a como um dado é representado

DD/MM/AAAA vs. MM/DD/AAAA

Resultado: Dormir no sofá por esquecer o


aniversário de casamento (colocado errado na
agenda)
Erros comuns
Ruído

Comum devido à captura dos dados

“Alguém pichou meu muro. Vou olhar na câmera de segurança...”


Erros comuns
Má qualidade na captura

Questões como foco, resolução da


câmera, calibração de sensores,
etc.
Qualidade de
dados
Consequências
Consequências
É importante saber que essas ocorrências têm a consequência de
transformar dados que poderiam ser utilizados em dados inúteis.

Se formos retornar a aspectos de como o treinamento de modelos de IA


são treinados isto leva a em alguns casos impossibilitar o
desenvolvimento.

Alguns tipos de dados não podem ser registrados novamente ou possuem


um custo elevado de obtenção.
Consequências
“Usuários estão fazendo a conexão entre dados com qualidade e boas
decisões de negócios. Para que as empresas futuras prosperem com uma
diferenciação competitiva, a estratégia de governança de dados
desempenhará um papel crucial.”

Harald Smith, Director of Product Management at Syncsort


Consequências

Relembrando: O treinamento é feito dividindo os dados em dois conjuntos:

● Conjunto de treinamento: dados apenas utilizados para treinamento e não


contabilizados para o resultado final

● Conjunto de testes: dados não utilizados no treinamento utilizados para verificar


a acurácia para casos não vistos pelo classificador dando o resultado final
Consequências
Consequências
Se não há dados suficientes ou estes não são confiáveis as etapas de
treinamento, validação e testes fica prejudicada

Em tempo de deployment, muitos problemas podem vir à tona


Consequências
Se não há dados suficientes ou estes não são confiáveis as etapas de
treinamento, validação e testes fica prejudicada.
Em tempo de deployment, muitos problemas podem vir à tona
Evidência A
Evidência A
Evidência B
Evidência B
Parte B
CRISP-DM
Um framework para DS
O que é CRISP-DM?
CRoss Industry Standard Process for Data Mining
Criado na década de 90.

Método para conduzir projetos de Mineração de Dados ou de Ciência de Dados

Benefícios:

• Hipóteses organizadas
• Cíclico
• Código bem definido
• Flexível
• Agrega valor frequentemente
Source: https://www.datascience-pm.com/wp-content/uploads/2021/08/CRISP-DM-for-Data-Science.pdf
Detalhando as fases

Quais são as necessidades do negócio? Quais são os


OBJETIVOS do trabalho? Quais são os critérios de aceite?

Quais dados precisamos? Quais dados possuímos? Eles estão


“limpos?”
Detalhando as fases

Como os dados serão organizados para a modelagem?

Quais técnicas de modelagem vamos utilizar?


Detalhando as fases

Quais resultados atingem melhor os objetivos de negócios?

Apresentar os resultados obtidos


Perguntas vagas x objetivas
Vaga Objetiva

Não é respondida por um nome ou um Deve ser respondida com um nome ou um


número: número:
• O que meus dados podem dizer sobre o • Quantas vezes esta nova função será utilizada
meu negócios? por novos usuários?
• O que devo fazer? • Qual caminho para através do centro me fará
• Como posso aumentar meu lucro? chegar mais rápido ao trabalho?
Qualidade de
dados
Como mensurar a qualidade
de um dado?
Mensurando a Qualidade de Dados
Completude

Mensurar a proporção dos dados que satisfazem regras de valores possíveis


para um atributo:

● Densidade: Proporção entre o número de atributos não nulos em relação


aos dados disponíveis.

Cada dado possui um critério mas em geral essa métrica ajuda a detectar
problemas nos dados que podem impactar o treinamento
Mensurando a Qualidade de Dados
Completude

Mensurar a proporção dos dados que satisfazem regras de valores possíveis


para um atributo:

● Cobertura: Proporção entre número de entidades em um campo em


relação aos valores que aquele campo pode assumir naquele domínio
Mensurando a Qualidade de Dados
Consistência

Analisa a violação de regras semânticas verificando a validade de um dado em


um campo ou múltiplos campos.

● Integridade Inter-entidade: Muitas vezes um campo deve possuir uma


relação com outro campo. A não ocorrência pode indicar problemas

● Integridade Intra-entidade: Se aquele dado é consistente com as


condições do ambiente (um endereço fora da área de cobertura ou uma
instrução inconsistente)
Mensurando a Qualidade de Dados
Acurácia

Analisa o quão próximo o valor registrado está dos valores aos quais ele
representa no mundo real.

● Corretude Semântica: Proximidade entre o dado registrado e o valor real

● Corretude Sintática: Proximidade entre um dado e os demais valores


dentro de um mesmo domínio
Mensurando a Qualidade de Dados
Acurácia

Analisa o quão próximo o valor registrado está dos valores aos quais ele
representa no mundo real.

● Acurácia: Métrica que permite avaliar o grau de detalhe que um dado


precisa ser para ser considerado útil
Mensurando a Qualidade de Dados
Unicidade

Dados repetidos podem trazer dificuldades em obter um modelo com


capacidade de generalização. Este tipo de métrica verifica em que grau uma
amostra difere das demais.

● Não-duplicação: Métrica da possibilidade de uma amostra estar duplicada


com base em semelhança.

● Não-contradição: Métrica da semelhança de dados com rótulos


contraditórios.
Mensurando a Qualidade de Dados
Atualidade

Métrica que avalia o quão rapidamente a atualização nos dados com entradas
do mundo real irão impactar o modelo treinado

● Freshness: Verifica a consistência de um dado em relação ao tempo.


Dados mais antigos podem se tornar inconsistentes ao longo do tempo.

● Atualidade: Quanto tempo uma mudança no mundo real levaria para ser
refletida nos dados atuais.
Preparação de
Dados
Aspectos
Preparação de Dados
O que é?

Processo de limpeza e transformação do dado para processamento e análise.

Envolve reformatação, correções e combinações para enriquecimento dos


dados

Como indicado anteriormente, esta tarefa é um pre-requisito essencial para


contextualizar o dado para obter insights e minimizar o bias (viés) decorrente
da baixa qualidade do dado
Preparação de Dados
● Preparação dos conjuntos de dados com diferentes formatos

● Correção de erros

● Verificação da qualidade de dados

● Combinação de conjuntos de dados para obter uma base de dados mais


completa são partes das tarefas de preparação de dados
Preparação de
Dados
Análise exploratória dos
Dados
Análise Exploratória dos Dados
“A Análise Exploratória dos Dados se refere ao processo crítico da realização das
investigações iniciais sobre um dado conjunto de dados de forma a descobrir
padrões, detectar anomalias, testar hipóteses e verificar o que se assume sobre o
dado com ajuda de um sumário estatístico e representações gráficas.”
Análise Exploratória Básica
● Head - Demonstrar uma amostra inicial dos dados

● Shape: Demonstrar a dimensão dos dados (observações vs. variáveis)

● Info: Resumo dos dados e tipos de dados de cada variáveis

● Describe: Informações estatísticas dos dados numéricos


Análise Exploratória - Valores Indisponíveis
Existem diferentes abordagens para lidar com dados em falta:

● Drop: Lançar fora da base os dados que não disponíveis em uma linha ou coluna

● Média: Em campos numéricos, é possível preencher indisponíveis pela média da variável.


Necessário levar em conta a ocorrência de Outliers

● Mediana: De forma semelhante à média entretanto o valor mediano é utilizado para


substituições. Quando há muitos outliers a mediana é a forma mais recomendada

● Moda: Em variáveis categóricas é possível preencher variáveis com os valores mais frequentes.
Análise Exploratória - Valores Duplicados
● Valores duplicados inserem viés (bias) nos dados

● Prejudicam a capacidade de generalização de alguns modelos

● Para efeitos de Data Augmentation é recomendado inserir aleatoriamente


algum tipo de variação nos valores gerados artificialmente

● Necessário que estes valores não modifiquem a distribuição dos dados


Análise Exploratória - Outliers
● Outliers são valores extremos.

● Normalmente representam os valores máximos e mínimos de uma amostra

● Necessário observar a distribuição dos dados.

● Outliers prejudicam por não seguirem o padrão dos dados disponíveis

● Em muitos casos, pode-se remover outliers sem que haja prejuízo na qualidade
dos dados

● Também é possível usar o Intervalo Interquartil para corrigir tais valores


Boxplot x Curva Normal

80
Outliers

81
Análise Exploratória - Análise Bi-variada
Combinar a análise de variáveis é possível para verificar a distribuição e co-
relações entre variáveis

● Correlação entre variáveis numéricas

● Correlação entre variáveis categóricas e numéricas

● Correlação entre duas variáveis categóricas


Análise Bi-variada

83
Análise Bi-variada

84
Análise Exploratória - Análise Bi-variada
Combinar a análise de variáveis é possível para verificar a distribuição e co-
relações entre variáveis
Análise Exploratória - Análise Bi-variada
Combinar a análise de variáveis é possível para verificar a distribuição e co-
relações entre variáveis
Análise Exploratória - Normalização e escala
Variáveis nem sempre possuem a mesma escala. É necessário normalizá-las para
que modelos não considerem magnitude como significância

● Ex.: Valores de custos (dezenas de milhares) vs idade


● Normalização permite que os modelos sejam menos sensíveis a tais
ocorrências
● Normalização de múltiplas variáveis para uma mesma escala
Análise Exploratória - Encoding
● Variáveis categóricas nem sempre podem ser utilizadas para o treinamento de modelos

● Modelos de Árvore são mais recomendados para estas variáveis sem a necessidade de
Encoding

● Para os demais modelos usa-se técnicas como o label encoding, one-hot encoding, numerical
encoding que permitem a melhor representação destes dados
Preparação de
Dados
Feature Engineering
Feature Engineering
Dall.e
Challenge1I
https://labs.openai.com/e/xYvsdZh7P3kY7OTbeD4RqdD6

“Exercitando os músculos”
Which component is defective?
Regras do Jogo
● Realize o seu cadastro na plataforma Kaggle (https://www.kaggle.com/) e se inscreva no desafio
“Titanic - Machine Learning from Disaster (https://www.kaggle.com/competitions/titanic)”
● Monte um relatório com as 3 primeiras fases do CRISP-DM (business understanding, data
understanding e data preparation).
● Envie o seu relatório e demais artefatos gerados para challenges@i2a2.academy. Use o assunto
“I2A2 – ABDI – Challenge 2”.
● Limite para Entrega: 2024-03-26 23:59 BRT. Este desafio é ELIMINATÓRIO
● Envie o e-mail usando o mesmo e-mail que você utilizou no seu recadastramento.
● Entregas após a data limite NÃO SERÃO ACEITAS (a menos que você envie junto com uma foto da
sua internação em uma UTI).
● No dia 27/03/2024, algumas pessoas serão selecionadas para apresentar seus trabalhos. Estejam
preparados.
Celso Azevedo
COO – I2A2
celso@i2a2.academy
https://www.linkedin.com/in/celso-augusto-morato-azevedo/

Você também pode gostar