Você está na página 1de 66

Prof.

Iális Cavalcante

ECOOO98 – Tópicos Especiais em Computação I


§ Há muitos dados disponíveis na internet?
§ Quanta informação circula nas redes sociais?
§ As pessoas e as corporações podem se beneficiar com essa
quantidade de dados gerada?

§ Sugestão de estudo:
§ We Are Social – Global Digital Report 2019
§ https://wearesocial.com/global-digital-report-2019
§ Com 3,9 bilhões de usuários no mundo, o que acontece na
web em um minuto?
§ UOL Economia - https://bit.ly/38fmxjA
§ Em 2016, eram 150 milhões de e-mails enviados por minuto.
Em 2019, foram 188 milhões. +25% de aumento

§ Original: Visual Capitalist - What Happens in an Internet


Minute in 2019?
Maio/2017
§ Evolução do estudo de Big Data
§ Surgimento da área de Ciência de Dados
§ Mercado em expansão nos últimos anos
§ Forte crescimento na geração de dados pessoais e
comerciais
§ Mas o que fazer com todos esses dados?
§ Que informações podemos obter?
§ Quais conhecimentos podem ser alcançados?
conexão sabedoria
entendendo
princípios
conhecimento
Hierarquia DIKW entendendo
Data-Information-Knowledge-Wisdom padrões
informação
entendendo
relações
dados
compreensão
§ Ciência de Dados é o termo usado para definir a extração de
descobertas (insights) de dados que são coletados de mais
de uma fonte.

§ Com o uso de várias técnicas, incluindo modelagem


preditiva, a Ciência de Dados ajuda a analisar e interpretar
grande quantidade de dados.
§ O termo Ciência de Dados vem desde os anos 60 mas só foi
associado ao conceito atual com o avanço do uso de Big
Data.
§ Conhecida como Análise de Negócios, Inteligência Competitiva entre
outras

§ Processo para extração de informações relevantes com base


nos dados e apresentar em uma linguagem simples para
usuários e tomadores de decisão.
§ Que habilidades são envolvidas na área?

§ Estatística
§ Matemática
§ Programação
§ Domínio do negócio
§ Aprendizagem de máquina
§ Visualização de Dados

§ Gerar produtos direcionados a dados (data-driven)


§ A Ciência de Dados envolve o uso de métodos automatizados para analisar
enorme quantidade de dados e para extrair conhecimento a partir deles

io
c
Ci m p


Co
ên ut

Ne
cia açã

de
da o

ea
Ár
Ciência
de Dados

Matemática e
Estatística
§ Explorar e analisar todos os dados disponíveis (estruturados ou não)
§ Para desenvolver compreensão, extrair conhecimento e formular ações que
gerem resultados.

§ Aumento da influência de dados oriundos de ciências sociais e humanas

§ Criação de novos ramos na ciência e que deve acelerar com entrada de mais dados:
§ Sensores móveis
§ Sofisticação de instrumentos industriais e domiciliares
§ Crescimento do volume de dados na internet
§ etc
Dados Decisões Ações

§ Problema identificado:
§ Clientes cancelam seus planos de streaming de vídeo com frequência de dois a
três meses após a assinatura do contrato do plano.

§ Análise dos Dados...


§ Decisão(ões)?
§ Qual(is) a(s) Ação(ões)?
Dados Decisões Ações

§ Objetivo:
extrair informações a partir dos dados e transformá-las em
conhecimento para que se defina uma tomada de decisões.
O que aconteceu?

Por que aconteceu?


AÇÃO
Dados
Acontecerá novamente?

O que deve ser feito?


O que aconteceu?

Por que aconteceu?


DECISÃO AÇÃO
Dados
Acontecerá novamente?

O que deve ser feito?


VALOR

O que aconteceu?

Por que aconteceu?


DECISÃO AÇÃO
Dados
Acontecerá novamente?

O que deve ser feito?


§ Identificar o problema da área de negócio
§ Compreender o problema (entidades e atributos)
§ Coletar conjuntos de dados (datasets) que representam a
entidade
§ Limpar e transformar os dados
§ Compreender os relacionamentos entre os dados
§ Criar modelos que representem os relacionamentos
§ Utilizar os modelos com as predições
§ Entregar valor e resultado
Sensores
Descobertas
E-Commerce
(Insights)
COLETA
Análise de Dados

Correlação
Procedimentos de Dados
Clínicos
§ Entidade § Coleções de fatos:
§ Números
§ Características
§ Palavras
§ Ambiente § Medições
§ Evento § Observações
§ Descrições
§ Comportamento
§ etc
§ Resultados
§ Observação
§ Coleção de observações
§ Observação -> registro
§ Cada registro tem um conjunto de atributos que apontam
características, comportamento ou resultados

Semi- Não
Estruturado Estruturado
Estruturado

Ex.: banco de Ex.: e-mails Ex.: Twitter


dados relacional
Fonte dos Dados
Interno Externo
- Resultados de pesquisa
- Likes do Facebook, retweets
- Registros de vendas
- Horário de publicação de posts,
- Medidas de controle de
tweets, updates
Estruturado processos
- Pontuação em sites de
- Bancos de dados de
classificação
Formato sistemas internos
dos Dados - E-mails, cartas, SMS - Conteúdo publicado em
Não - Legendas de vídeos redes sociais
Estruturado - Comentários dos clientes - Comentários em fóruns online
- Mensagens de voz - Imagens
- Imagens/ilustrações - Vídeos de câmeras de
- Avaliação de funcionários segurança
§ Google Dataset Search - https://datasetsearch.research.google.com/
§ Kagle Datasets - https://www.kaggle.com/datasets
§ Portal da Transparência - http://www.portaldatransparencia.gov.br/
§ REDDIT - https://www.reddit.com/r/datascience
§ Coleção de conjunto de dados, grandes e complexos, que não podem
ser processados por banco de dados ou aplicações de processamento
tradicionais

§ Em negócios web: resultado de rastreio de ações dos usuários na


internet
§ Compras online → frequência de compra
§ Acesso ao e-banking → movimentação financeira
§ Interações em redes sociais → curtidas, compartilhamentos e comentários
§ Consulta em buscadores → expressões pesquisadas
§ Etc.

§ Organizações com maior conhecimento


§ Mudanças de estratégias e valorização do ROI (retorno sobre investimento)
Coleta

Decisões
Big
e Ações
Big
Data Integração
Big
Data
Data

Análise
Dados Internos

Estruturados,
previsíveis,
permanentes,
ERP CRM BI SCM RH
fáceis de obter

Redes Sociais Dados Externos


Análise de textos
Reconhecimento de voz Não-estruturados,
PLN randômicos,
Internet das coisas voláteis,
Automação difíceis de obter
SAAS
PAAS
IAAS
§ Fornece técnicas e métodos de análise de dados que
auxiliam o processo de tomada de decisão nos mais
variados problemas onde existe INCERTEZA.

§ Estatística trata dos dados


§ O dado faz referência a uma variável
§ Serão trabalhadas variáveis que podem assumir diferentes
valores e unidades
§ Bioestatística
§ Controle de qualidade
§ Estatística comercial, econômica, física, populacional,
psicológica, social
§ Geoestatística
§ Pesquisa operacional
§ Quimiometria
§ Probabilidade
§ Estudo da aleatoriedade e incerteza

§ Estatística Descritiva
§ Métodos para coleta, organização, análise e síntese de dados
obtidos em uma população ou amostra
§ Estatística Inferencial
§ Estimação de informações sobre uma população a partir dos
resultados observados em uma amostra
§ Ciência que fornece métodos para coletar, descrever,
analisar, apresentar e interpretar dados, para a utilização dos
mesmos na tomada de decisões.
§ E que proporciona...

§ Big Data Analytics


§ Análise estatística de grande quantidade de dados para extração
de informação relevante que permita a compreensão atual e a
tomada de decisões
§ Contribui para prevalecer o empirismo ao invés do “achismo”

§ É possível ter sucesso em um fundo de investimento?


§ O assinante cancela seu plano nesse ano?
§ Consigo reduzir os erros em um hospital?
§ A solicitação do segurado corresponde a uma fraude?
§ Quando acontecerá o próximo crime nessa região?
§ Posso tomar minha medicação sem correr riscos?
§ Mostra o quanto o nosso cérebro não é bom pra estimar a
chance de um evento acontecer

§ Qual seria a chance de que em um grupo de n pessoas


desconhecidas, 2 delas façam aniversário no mesmo dia?

§ Em um grupo de 25 pessoas, é possível que 2 ou mais


pessoas façam aniversário no mesmo dia?
§ O ano possui comumente 365 dias.
§ E aí? É possível isso acontecer?
#1 P = 365/365 #2 P = 364/365 #3 P = 363/365
100% 99,7% 99,4%

(...) (...) (...)

#20 P = 346/365 #25 P = 341/365


94,8% 93,4%
§ Precisamos avaliar P(#1) e P(#2) e ... e P(#25)
§ P(#1) * P(#2) * ... * P(#25) = 0,43

§ Em um grupo de 25 pessoas, a chance de não haver coincidência de


aniversários é de 43%
§ Ouseja... Em 57% das vezes, no mesmo grupo alguém vai ter nascido
no mesmo dia de outra pessoa.
§ Em um grupo de 70 pessoas, 99% das vezes haverá coincidência de
aniversários entre 2 pessoas.
§ O paradoxo mostra como as pessoas possuem muita
dificuldade para estimar probabilidades.
§ O problema mostrado é algo simples e sem efeitos graves
para as pessoas.

§ Mas e nas outras vezes em que você lança probabilidade


“de cabeça”, o erro pode ser perigoso.
§ A gente toma muitos riscos que deviam ser tomados:
§ Fugir de um acidente
§ Evitar problemas com automedicação
§ Figuras públicas que abrem mão de dados corretos para lanças
probabilidades de forma equivocada
§ Na análise estatística, o contexto é vital para obter a melhor
solução

§ Relevância de entender o domínio do problema


§ O contexto do problema permite apresentar soluções
diferentes em domínios distintos

§ Demanda de trabalhar junto aos especialistas da área


§ O que é Aprendizado?

§ Capacidade de se adaptar, modificar e melhorar seu


comportamento assim como suas respostas

§ É uma das características humanas mais relevantes e dos


demais seres conhecidos como inteligentes

§ Aprendizagem de Máquina tenta reproduzir o processo de


aprendizado de seres humanos em computadores
Fonte: NVIDIA - https://developer.nvidia.com/deep-learning
§ Análise de dados que automatiza o desenvolvimento de
modelos analíticos

§ Algoritmos que aprendem a partir dos dados permitem que


os equipamentos descubram informações ocultas sem que
sejam explicitamente programados para esse objetivo
§ Tipos de Aprendizagem
§ Supervisionada
§ Não Supervisionada
§ Aprendizagem por Reforço
Classificação Regressão
§ Exemplos de aplicação comercial: sistemas de
recomendação (automação de marketing)

§ Para dados que não possuam rótulos históricos

§ Algoritmos que não recebem associação com rótulos durante


o treinamento
§ Objetivo: explorar os dados e encontrar novas estruturas
§ Não é o mesmo que Ciência de Dados
§ Ambos usam dados com o mesmo objetivo
§ Mas abordam de forma distinta, assim como divergem no
uso de tecnologias associadas
§ Ambos convertem dados brutos em descobertas de
negócios, para que os gestores/líderes possam tomar
decisões
§ Ciência de Dados aplica uma metodologia científica para
explorar dados, testes de hipótese, modelagem estatística e
aprendizagem de máquina
Intelligence
Descritiva O que aconteceu?

Business
Diagnóstica Por que isso aconteceu?
Ciência
Análise
de Dados
Preditiva O que acontecerá?

Prescritiva O que deve ser feito?


§ Operação de infraestrutura necessária para suportar a
quantidade, velocidade e variedade de dados disponíveis na
empresa
§ Diverge de unir vários bancos relacionais, que ainda é muito
comum nas organizações
§ DevOps → DataOps
§ Reconhece a ligação entre a engenharia, integração,
qualidade e segurança dos dados para aprimorar os
resultados
§ Abstração de um único repositório dentro da empresa, para
que todos os dados brutos estejam disponíveis a qualquer
pessoa que precise fazer análise sobre eles
§ Armazenamento de dados em formato bruto, sem
processamento ou governança.
§ É uma estratégia de armazenamento de dados.
Fonte: Credera.com
https://bit.ly/3cKYts8
Data Data
Warehouse Lake

Dados armazenados
de forma bruta
Dados organizados
em um único
esquema
Dados organizados
de acordo com
a necessidade

Análise feita
a partir do
data warehouse
Ciência
de Dados

Big Data Data Lake

Data Lake torna-se a fonte para a Ciência de Dados

Com o foco no armazenamento dos dados brutos,


o cientista de dados assume toda a responsabilidade sobre os resultados.
§ Modelo de gerenciamento de big data a partir da plataforma
Hadoop, como repositório central.
§ Objetivo: permitir que a organização tenha uma fonte de
dados unificada e centralizada para fornecer informações
aos usuários de negócio
§ Todas as plataformas utilizadas no projeto devem se
conectar ao EDH
§ Aprimora a fidelidade e segurança dos dados com custo
menor
§ Demanda de forte ajuste na infraestrutura
§ EDH envolve:
§ Data Lake
§ Exploração de Big Data
§ Acesso facilitado aos dados
§ Armazenamento de dados em formato nativo
§ Fonte para projetos de Ciência de Dados
§ Todo projeto de Ciência de Dados deve se iniciar com o
objetivo
§ Que perguntas precisam ser respondidas?

§ Conhecendo os questionamentos, busca-se os dados


relacionados
Compreensão Compreensão Análise
do problema dos dados com
Big Data

Preparação
dos dados

Big Data
Implementação
Modelagem

Avaliação
§ Identificar o problema é o ponto principal para definir o
melhor caminho do projeto de Ciência de Dados

§ Lance perguntas sobre seus dados e domínio para identificar


o problema
§ Isso ajudará a definir o caminho pra solução (metodologia)
§ E com menor erro, definir os custos de projeto
§ Quais os clientes que realizam o maior número de
compras?

§ A questão pode ser respondida com uma consulta simples


a um banco de dados relacional.
§ Há uma grande diferença de consumo entre os clientes
que mais compram e o consumidor médio. Isso se
confirma?

§ Com um teste de hipótese, utilizando técnicas de


Estatística, é possível avaliar e confirmar esta premissa.
§ A partir de um determinado cliente, é possível avaliar se
ele está dentro do grupo de consumidores que mais
compram?
§ Quanto de faturamento pode-se esperar vindo deste
mesmo cliente?

§ Com técnicas de aprendizagem de máquina, é possível


analisar o histórico dos clientes e definir um modelo
preditivo para avaliar potencial de compra de um
determinado consumidor.
Preparação Engenharia de Análise Produção
Dados
Definição do Aquisição Análise Exploratória Construção de
Objetivo dos Dados Produtos de Dados
Compreensão do Limpeza Inferências Operacionalização
Problema Transformação Modelagem de Alimentação de
Dados
Conhecimento dos Enriquecimento Predição Melhoria Contínua
Dados Persistência Comunicação
Análise
Dados Exploratória Modelagem Interpretação Comunicação
dos Dados

Nova
Perguntas Coleta de
Dados
§ Relatórios § Facilidade de Uso
§ Narrativas § Reprodutibilidade
§ Apresentações § Documentação
§ Sites § Conclusões Concisas
§ Aplicativos

Você também pode gostar