Escolar Documentos
Profissional Documentos
Cultura Documentos
● Acurácia
● Completude
● Consistência
● Confiabilidade
● Dados atualizados
Qualidade de Dados
Uma definição para o seria Qualidade de Dados:
“O Data Management Body of Knowledge (DMBOK) define Qualidade de Dados (DQ) como o
planejamento, implementação e controle de atividades que aplicam técnicas de gerenciamento
de qualidade aos dados, a fim de garantir que seja adequado ao consumo e atenda às
necessidades dos dados. consumidores.”
Qualidade de Dados
● Para novas aplicações no ramo de Aprendizado de Máquina e Deep Learning
o dataset (conjunto de dados) é o centro do desenvolvimento.
● Perfil de dados.
● Padronização de dados.
● Monitoramento de dados.
● Limpeza de dados.
Qualidade de
dados
Importância
Importância
“Manter a qualidade dos dados é uma tarefa difícil, mas necessária.
Para obter dados consistentes e confiáveis, as empresas devem
gerenciar constantemente a qualidade dos dados, a fim de criar
confiança e permitir decisões mais rápidas e com mais conhecimento.”
Experian
Importância
Erros no ciclo de desenvolvimento de uma nova funcionalidade podem levar a
perdas ($) e sérias consequências
Dados Quantitativos
• Dados Discretos
• Dados Contínuos
• Dados Intervalares
• Dados Proporcionais
Segundo a LGPD
• Dados públicos: podem ser acessados por qualquer pessoa
• Dados internos: podem ser acessados apenas por colaboradores da
empresa
• Dados confidenciais: podem ser acessados apenas por um grupo de
pessoas ou cargos específicos.
• Dados restritos: podem ser acessados apenas por algumas pessoas
Tipos de dados
Jeff Hale propôs uma nova
taxonomia
Tipos de dados
Dentre estes, uma verdade
inconveniente:
Benefícios:
• Hipóteses organizadas
• Cíclico
• Código bem definido
• Flexível
• Agrega valor frequentemente
Source: https://www.datascience-pm.com/wp-content/uploads/2021/08/CRISP-DM-for-Data-Science.pdf
Detalhando as fases
Cada dado possui um critério mas em geral essa métrica ajuda a detectar
problemas nos dados que podem impactar o treinamento
Mensurando a Qualidade de Dados
Completude
Analisa o quão próximo o valor registrado está dos valores aos quais ele
representa no mundo real.
Analisa o quão próximo o valor registrado está dos valores aos quais ele
representa no mundo real.
Métrica que avalia o quão rapidamente a atualização nos dados com entradas
do mundo real irão impactar o modelo treinado
● Atualidade: Quanto tempo uma mudança no mundo real levaria para ser
refletida nos dados atuais.
Preparação de
Dados
Aspectos
Preparação de Dados
O que é?
● Correção de erros
● Drop: Lançar fora da base os dados que não disponíveis em uma linha ou coluna
● Moda: Em variáveis categóricas é possível preencher variáveis com os valores mais frequentes.
Análise Exploratória - Valores Duplicados
● Valores duplicados inserem viés (bias) nos dados
● Em muitos casos, pode-se remover outliers sem que haja prejuízo na qualidade
dos dados
80
Outliers
81
Análise Exploratória - Análise Bi-variada
Combinar a análise de variáveis é possível para verificar a distribuição e co-
relações entre variáveis
83
Análise Bi-variada
84
Análise Exploratória - Análise Bi-variada
Combinar a análise de variáveis é possível para verificar a distribuição e co-
relações entre variáveis
Análise Exploratória - Análise Bi-variada
Combinar a análise de variáveis é possível para verificar a distribuição e co-
relações entre variáveis
Análise Exploratória - Normalização e escala
Variáveis nem sempre possuem a mesma escala. É necessário normalizá-las para
que modelos não considerem magnitude como significância
● Modelos de Árvore são mais recomendados para estas variáveis sem a necessidade de
Encoding
● Para os demais modelos usa-se técnicas como o label encoding, one-hot encoding, numerical
encoding que permitem a melhor representação destes dados
Preparação de
Dados
Feature Engineering
Feature Engineering
Dall.e
Challenge1I
https://labs.openai.com/e/xYvsdZh7P3kY7OTbeD4RqdD6
“Exercitando os músculos”
Which component is defective?
Regras do Jogo
● Realize o seu cadastro na plataforma Kaggle (https://www.kaggle.com/) e se inscreva no desafio
“Titanic - Machine Learning from Disaster (https://www.kaggle.com/competitions/titanic)”
● Monte um relatório com as 3 primeiras fases do CRISP-DM (business understanding, data
understanding e data preparation).
● Envie o seu relatório e demais artefatos gerados para challenges@i2a2.academy. Use o assunto
“I2A2 – ABDI – Challenge 2”.
● Limite para Entrega: 2024-03-26 23:59 BRT. Este desafio é ELIMINATÓRIO
● Envie o e-mail usando o mesmo e-mail que você utilizou no seu recadastramento.
● Entregas após a data limite NÃO SERÃO ACEITAS (a menos que você envie junto com uma foto da
sua internação em uma UTI).
● No dia 27/03/2024, algumas pessoas serão selecionadas para apresentar seus trabalhos. Estejam
preparados.
Celso Azevedo
COO – I2A2
celso@i2a2.academy
https://www.linkedin.com/in/celso-augusto-morato-azevedo/