Você está na página 1de 40

FUNDAMENTOS DE

CIÊNCIA DOS
DADOS PARA
ENGENHARIA

Prof MSc Jonathas Santos


Prof MSc Danielle Vale
Contextualização e conceituação de Ciência
dos Dados

Processo de resolução de problemas em


Ciência dos Dados
AGENDA
Introdução à análise exploratória de dados
com Python

Prática de análise exploratória de dados


DIFERENCIANDO
A SALADA DE
TERMOS
DIFERENCIANDO A SALADA DE TERMOS

¡ A ciência de dados usa IA (e seu subconjunto de Machine Learning) para interpretar dados históricos, reconhecer
padrões e fazer previsões. Nesse caso, a IA e o Machine Learning ajudam os cientistas de dados a coletar dados na
forma de insights.
¡ Como mencionado, o Machine Learning é uma ramificação da IA, avançando a ciência de dados para o próximo
nível de automação. Há muitas relações entre a ciência de dados e o Machine Learning.
¡ O Machine Learning e a estatística fazem parte da ciência de dados. Os algoritmos de Machine Learning são
treinados nos dados apresentados pela ciência de dados para se tornar mais inteligentes e mais informados ao
fazer previsões. Portanto, os algoritmos de Machine Learning dependem dos dados, já que não aprenderão sem
usá-los como um conjunto de treinamento.
EXEMPLO DO NOSSO COTIDIANO

“Imagine que sua fábrica produz bolo de chocolate.


Todos os dias, sua máquina segue a receita informada.
Mas, em alguns dias, o bolo não fica tão bom. Para
resolver esse problema de qualidade, você precisará de
todos os três conceitos: ciência de dados, Machine
Learning e inteligência artificial.”

Esta Foto de Autor Desconhecido está licenciado em CC BY-SA-NC


CIÊNCIA DE DADOS

Sua empresa começa a receber reclamações sobre uma mudança no


sabor de seu famoso bolo de chocolate. Depois de ser alertado
sobre essa mudança, você começa a especular sobre qual pode ser o
problema. Será que o lote de bolos ficou muito tempo no forno?
Será que a culpada foi a farinha? Será que o tempo de inatividade
inesperado da semana passada fez com que a massa ficasse
descansando tempo demais?
A ciência de dados permite que sua equipe obtenha os modelos
de dados para começar a descobrir quais fatores podem ter
causado essa mudança na qualidade do produto.

Esta Foto de Autor Desconhecido está licenciado em CC BY-SA-NC


MACHINE LEARNING

A partir daí, seu cientista de dados configura um modelo supervisionado de


Machine Learning que contém a receita e o processo de produção perfeitos.
Com o passar do tempo, o modelo aprende variáveis semelhantes que
produzem os resultados ideais e variáveis que resultam em mudanças no
bolo.
Por meio do aprendizado de máquina, sua empresa identifica que mudanças
na farinha causaram o problema no produto. Para corrigir a variabilidade
inevitável da matéria prima, o aprendizado de máquina conseguiu prescrever
a duração exata para peneirar a farinha e garantir a consistência certa para
o bolo mais delicioso.

Esta Foto de Autor Desconhecido está licenciado em CC BY-SA-NC


INTELIGÊNCIA ARTIFICIAL

Uma semana depois, você recebe outra remessa de farinha que contém a
consistência errada. No entanto, não é necessário se preocupar.
Como o Machine Learning ajudou a identificar essa mudança e os
parâmetros operacionais, sua batedeira identifica automaticamente a
variação de textura e continua misturando a massa até a consistência
perfeita. Por meio da IA, seu bolo sai perfeito!

Esta Foto de Autor Desconhecido está licenciado em CC BY-SA-NC


É ISSO QUE
VAMOS
FUNDAMENTAR
NESSE CURSO!
CONTEXTUALIZAÇÃO
PORQUE ESTUDAR INTELIGÊNCIA ARTIFICIAL?

Mercado global de IA Profissional bem Trabalhará com IA está cada vez mais Criação de novos
foi avaliado em US$ remunerado: US$ assuntos em presente nos nossos “produtos”
267 bilhões até 2027 164.769,00 por ano. diferentes áreas dias

Fonte: Fortune Business Insights, 2020


ESTAMOS SUBMERSOS EM DADOS
LINHA DO TEMPO
MAS PORQUE SÓ AGORA IA SE DESTACOU?
PROCESSO DE
RESOLUÇÃO
DE PROBLEMAS
EM CIÊNCIA
DOS DADOS
PROCESSO DE RESOLUÇÃO DE PROBLEMAS EM CIÊNCIA DOS
DADOS
Cada projeto inicia com o entendimento de
negócios. Os patrocinadores de negócios que
precisam da solução de análise desempenham a
função mais crítica nesse estágio, definindo o
problema, os objetivos do projeto e os

ESTÁGIO 1: requisitos da solução a partir de uma


perspectiva do negócio.

ENTENDIMENTO Esse primeiro estágio forma a base para uma


resolução bem-sucedida do problema de

DE NEGÓCIOS negócio. Para ajudar a garantir o sucesso do


projeto, os patrocinadores devem estar
envolvidos em todo o projeto, para fornecer
conhecimento de domínio, revisar provas
intermediárias e assegurar que o trabalho
permaneça sob controle para gerar a solução
desejada.
ESTÁGIO 2: ABORDAGEM ANALÍTICA

Assim que o problema de negócio tiver sido claramente identificado, o cientista de


dados poderá definir a abordagem analítica para resolver o problema. Esse estágio
implica em expressar o problema no contexto das técnicas de estatística e
aprendizado de máquina, de modo que a organização possa identificar aquelas mais
adequadas para obter o resultado desejado.

Por exemplo, se o objetivo fosse prever uma resposta como “sim” ou “não”, a
abordagem analítica poderia ser definida como a construção, o teste e a
implementação de um modelo de classificação.
ESTÁGIO 3: REQUISITOS DE DADOS

A abordagem analítica escolhida determina os requisitos de dados. Especificamente, os métodos analíticos a serem
usados requerem determinados conteúdos, formatos e representações de dados, orientados pelo conhecimento
de domínio.
ESTÁGIO 3: REQUISITOS DE DADOS

A abordagem analítica escolhida determina os requisitos de dados. Especificamente, os métodos analíticos a serem
usados requerem determinados conteúdos, formatos e representações de dados, orientados pelo conhecimento
de domínio.
ESTÁGIO 4: COLETA DE DADOS

No estágio da coleta de dados iniciais, os cientistas de dados identificam e reúnem os recursos de dados disponíveis,
estruturados, não estruturados e semiestruturados, relevantes para o domínio do problema. Geralmente, eles devem
escolher se devem fazer investimentos adicionais para obter elementos de dados menos acessíveis.
Pode ser melhor adiar a decisão de investimento até que se tenha mais conhecimento sobre os dados e o modelo. Se
houver lacunas na coleta de dados, o cientista de dados poderá precisar revisar os requisitos de dados
adequadamente e coletar dados novos e/ou adicionais.
ESTÁGIO 5: ENTENDIMENTO DOS DADOS

Após a coleta de dados original, os cientistas de dados geralmente usam estatísticas descritivas e técnicas de
visualização para entender o conteúdo dos dados, avaliar a qualidade dos dados e descobrir insights iniciais sobre os
dados. Pode ser necessário coletar dados adicionais para preencher lacunas.
ESTÁGIO 6: PREPARAÇÃO DE DADOS

Esse estágio abrange todas as atividades para construir o conjunto de dados que será usado no estágio de
modelagem subsequente. As atividades de preparação de dados incluem limpeza de dados (lidar com valores ausentes
ou inválidos, eliminar duplicatas, formatar adequadamente), combinar dados de diversas fontes (arquivos, tabelas,
plataformas) e transformar dados em variáveis mais úteis..
ESTÁGIO 7: MODELAGEM

Iniciando com a primeira versão do conjunto de dados preparado, o estágio de modelagem foca no desenvolvimento
de modelos preditivos ou descritivos de acordo com a abordagem analítica definida anteriormente.
Com os modelos preditivos, os cientistas de dados usam um conjunto de treinamento (dados históricos nos quais o
resultado de interesse é conhecido) para construir o modelo. O processo de modelagem em geral é altamente
iterativo, pois as organizações ganham insights intermediários, que levam a refinamentos na preparação de dados e na
especificação de modelo. Para uma determinada técnica, os cientistas de dados podem experimentar diversos
algoritmos com seus respectivos parâmetros para localizar o melhor modelo para as variáveis disponíveis.
ESTÁGIO 8: AVALIAÇÃO

Durante o desenvolvimento do modelo e antes da implementação, o cientista de dados avalia o modelo para
entender sua qualidade e assegurar que ele trate de maneira completa e adequada o problema de negócio. A
avaliação de modelo implica na computação de diversas medidas de diagnóstico e outros resultados, como tabelas e
gráficos, permitindo que o cientista de dados interprete a qualidade do modelo e sua eficácia na resolução do
problema. Para um modelo preditivo, os cientistas de dados usam um conjunto de teste, que é independente do
conjunto de treinamento, mas segue a mesma distribuição de probabilidade e possui um resultado conhecido.
O conjunto de testes é usado para avaliar o modelo para que ele possa ser refinado conforme necessário. Às vezes, o
modelo final também é aplicado em um conjunto de validação para uma avaliação final.
INTRODUÇÃO À
ANÁLISE
EXPLORATÓRIA
DE DADOS COM
PYTHON
ANÁLISE EXPLORATÓRIA DE DADOS (AED)

A Análise Exploratória de Dados(do


inglês, EDA – Exploratory Data A Análise Exploratória de Dados vai
Analysis) começa antes da aplicação além do uso descritivo da estatística,
de qualquer técnica estatística. É é olhar de forma mais profunda os
nessa etapa que conhecemos a dados, sem resumir muito a
fundo os nossos dados, fazendo uso quantidade e qualidade das
de algumas ferramentas de informações.
estatísticas e de visualização.
VARIÁVEIS
CLASSIFICAÇÃO DE VARIÁVEIS

As variáveis numéricas podem ser dos tipos::


• Discretas: possuem apenas valores inteiros. Ex.: número de irmãos, número de passageiros.
• Contínuas: possuem qualquer valor, incluindo números reais(float). Ex.: peso, altura.

As variáveis categóricas podem ser dos tipos::


• Nominais: quando as categorias não possam ser ordenadas de alguma maneira. Ex.: nomes, cores, sexo.
• Ordinais: nesse caso as categorias podem ser ordenadas. Ex.: tamanho (pequeno, médio, grande), classe
social (baixa, média, alta), grau de instrução (básico, médio, graduação, pós-graduação).
ANÁLISE
EXPLORATÓRIA
USANDO
PYTHON
SOBRE O DATASET

¡ O conjunto de dados consiste em 50 amostras de


cada uma das três espécies de Iris ( Iris setosa, Iris
virginica e Iris versicolor). Quatro variáveis foram
medidas em cada amostra: o comprimento e
a largura das sépalas e pétalas, em
centímetros.
¡ Com base na combinação dessas quatro
características, Fisher desenvolveu um modelo
discriminante linear para distinguir as espécies
umas das outras.
Abrir uma editor de sua preferência

CONFIGURANDO
Conferir a instalação do Python
O AMBIENTE

Criar um projeto/pasta, e criar um


arquivo Python
EXEMPLO
BIBLIOTECAS
QUE
USAREMOS
POR HOJE
PANDAS

¡ Pandas é uma biblioteca para uso em Python, open-source e de uso gratuito (sob
uma licença BSD), que fornece ferramentas para análise e manipulação de dados;
¡ O pandas permite trabalhar com diferentes tipos de dados, por exemplo:
• Dados tabulares, como uma planilha Excel ou uma tabela SQL;
• Dados ordenados de modo temporal ou não;
• Matrizes;
• Qualquer outro conjunto de dados, que não necessariamente precisem estar rotulados;
NUMPY

¡ Criado em 2005 por Travis, o pacote NumPy, denominado dessa forma devido a
abreviação de Numerical Python (Python Numérico), é uma biblioteca de código
aberto destinada a realizar operações em arrays multidimensionais,
amigavelmente denominada como ndarray nesta biblioteca.
¡ Devido sua construção e funcionalidades serem baseadas na estrutura de dados
ndarray, a biblioteca oferece operações rápidas para tratamento e limpeza de dados,
geração de subconjuntos e filtragens, estatísticas descritivas, manipulação de dados
relacionais, manipulações de dados em grupos, entre outros tipos de processamento.
VAMOS CODIFICAR

Você também pode gostar