Você está na página 1de 15

Data Science com R

Hlio Lopes e Simone Barbosa

Departamento de Informtica PUC-Rio

Introduo
O que Data Science?

I Em termos gerais, poderamos definir Data Science como


sendo uma rea que estuda como extrair conhecimento dos
dados.
I Ela utiliza tcnicas e teorias de diversas reas, tais como:
I Banco de Dados
I Estatstica
I Machine Learning
I Visualizao
I Computao de Alto Desempenho
I ...
I Mtodos que escalam para Big Data so de particular
interesse para essa rea, mas Data Science no restrita a s
esses tipos de dados.
O que os Data Scientists fazem?

I Os Data scientists
I usam a habilidade de achar e interpretar ricas fontes de dados;
I gerenciam grande quantidade de dados, levando em conta as
disponibilidades de Hardware, de Software e das limitaes de
banda;
I gerenciam os dados: agrupando dados de diferentes fontes e
garantindo a consistncia deles;
I criam visualizaes para entender os dados;
I criam modelos matemticos ou estatsticos usando os dados;
I apresentam e comunicam as descobertas encontradas nos dados
para uma audincia tcnica ou no-tcnica.
As etapas de um projeto em Data Science

Fonte: Nina Zumel and John Mount. Practical Data Science with R,
Manning, 2014.
Definio de um objetivo
A primeira etapa de um projeto em Data Science a definio de
um objetivo mensurvel ou quantificvel.
Seria importante responder a essas perguntas:

I Porque o patrocinador necessita desse projeto?


I O que falta a ele? O que ele est fazendo hoje? O que ele
precisa?
I Que recursos voc precisar?
I Voc ter um especialista do domnio para colaborar com voc?
I Como os patrocinadores planejam a apresentao dos
resultados?
I Quais so os condicionantes que devem ser alcanados para se
ter um resultado de sucesso?

Uma vez que voc j tem um boa idia de seu objetivo, voc pode
agora focar na coleta de dados para alcan-lo.
Coleta e gerenciamento dos dados

Esse passo engloba: identificar os dados necessrios; explor-lo; e


prepar-lo para anlise. Ele geralmente o passo mais importante
do projeto, e o mais demorado.

I Que dados esto disponveis para voc?


I Eles vo me ajudar a atender o meu objetivo?
I Eles so suficientes?
I E quanto a sua qualidade?
Modelagem dos dados

Esse passo responsvel pela extrao de conhecimento atravs dos


dados para atingir o seu objetivo. Ele respondvel pela criao de
um modelo matemtico para os dados, utilizando tcnicas/teorias
estatsticas e de machine learning.
Como vrios modelos fazem hipteses sobre a distribuio dos dados
e seus relacionamentos, existe uma sobreposio e um processo
cclico entre a modelagem e a limpeza dos dados com o propsito
de encontrar uma representao adequada para os dados.
Modelagem dos dados

I Classification: Decidir se algo pertence a uma certa categoria.


I Scoring ou Regression: Predizer ou estimar um valor numrico.
I Ranking: Aprender a ordenar items por preferncias.
I Clustering: Agrupar items por similaridade.
I Finding relaitons: Achar correlaes ou causas potenciais de
efeitos observados.
I Characterization: Gerao automtica de relatrios baseados
nos dados.
Avaliao do modelo e crtica

Uma vez que voc possui um modelo, voc precisar determinar se


ele atende ao seu objetivo:

I Ele suficientemente preciso para suas necessidades? Ele


generaliza bem?
I Ele melhor que um chute bvio? Ele melhor que o
mtodo correntemente utilizado pelo patrocinador?
I O resultado do modelo faz sentido no contexto do domnio do
problema?

Mtricas de acurcia ou de qualidade do modelo sero discutidas


posteriormente no curso.
Apresentao e documentao

Uma vez que voc possui um modelo que satisfaz seus critrios de
sucesso, voc dever apresentar os seus resultados para o
patrocinador ou para outras audincias.
Ao mesmo tempo, voc dever documentar o modelo para aqueles
que sero responsveis pela sua utilizao e manuteno (quando
entregue).
Diferrentes audincias requerem diferentes tipos de informao.
Apresentao e documentao

Uma apresentao para o usurio final do modelo deveria enfatizar


como o modelo ir ajud-lo no seu trabalho:

I Como os usurios podem interpretar o modelo?


I Como a cara da sada do modelo?
I Se o modelo proporciona um trao das regras de execuo
numa rvore, como possvel l-lo?
I Se o modelo proporciona um nmero indicando a confiana
adicionalmente a uma classificao, como possvel utilizar
esse nmero?
I Quando o usurio deve rejeitar a sada do modelo?

Discutiremos no curso como estruturar uma apresentao e uma


documentao.
Entregvel e sua manuteno

Finalmente, o modelo deve ser colocado em operao.

I Voc deve garantir que o modelo ir rodar suavemente e no


ir apresentar decises desastrosas.
I Voc deve garantir que o modelo possa ser atualizado quando
seu ambiente muda.
As etapas de um projeto em Data Science

Fonte: Nina Zumel and John Mount. Practical Data Science with R,
Manning, 2014.
Resumo

Para ter um projeto em Data Science bem sucedido:

I Garanta que voc tenha um objetivo claro, verificvel e


quantificvel.
I Garanta que voc tenha fixado uma expectativa realista com
seu patrocinador.
Contatos

I Hlio Lopes
I http://www.inf.puc-rio.br/~lopes
I lopes@inf.puc-rio.br
I Simone Barbosa
I http://www.inf.puc-rio.br/~simone
I simone@inf.puc-rio.br