Escolar Documentos
Profissional Documentos
Cultura Documentos
a Dummy
Eduardo Bonet
TDC 2016 - So Paulo
Bio
Bonet
Engenharia de Controle e Automao
Mestrando em Cincia da Computao
Full Stack, Mobile, Data Science
Coorganizador Floripa Data Science Meetup
Github | LinkedIn | Blog
2/50
Cientista de Dados:
Uma pessoa que melhor em estatstica do que
qualquer Engenheiro de Software e melhor em
engenharia de software que qualquer estatsto.
Cientista de Dados:
Um estatstico que usa Mac
Ningum Sabe!
10
Encontrar Problema
Buscar Dados
Limpar e Explorar
Dados
Hiptese
Incorreta
Comunicar
Resultados
Hiptese
Correta
Validar Hiptese
Estabelecer
Hiptese
11
Encontrar um problema
12/50
Coletar Dados
Viva Real: site com listagem de imveis. http:
//api.vivareal.com:80/api/1.0/api-docs
Retorna informaes como (Exemplo).
Bairro
Latitude, Longitude
Preo
Nmero de banheiro, quartos, garagens, etc
Preo de condomnio
13
Limpar dados
Corrigir localidades com coordenadas incorretas
Remover entradas com valores estranhos
14
Explorar Dados
Verificar distribuies de preos
Estudar possveis correlaes
15
Explorar Dados
Verificar distribuies de preos
Estudar possveis correlaes
16
Explorar Dados
Verificar distribuies de preos
Estudar possveis correlaes
17
18
19
Comunicar Resultados
Alguns aspectos
possvel encontrar vagas com graduao, mas muitos pedem pelo menos
mestrado
23
Quais so as habilidades de um
Cientista de Dados?
E onde consigo encontr-las?
24
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram25
Habilidades
Programao
26
Programao
Linguagens
R
Linguagem feita para estatsticos.
Amplamente usada no meio acadmico.
Tem entrado forte no mercado, recebendo grandes investimentos.
Diversas bibliotecas estatsticas prontas, facilita parte de anlise.
27
Programao
Linguagens
Python
Verstil e fcil de aprender
Comunidade muito forte de bibliotecas gerais
Anlise (porm no to bem quanto R) e produo (porm no to bem quanto
Scala)
28
Programao
Linguagens
Scala
Baseado na JVM.
Linguagem Funcional, facilita paralelizao de algoritmos.
Curva de aprendizado alta.
Escolha comum para algoritmos em produo.
29
Programao
Linguagens - Recursos
R
Python
Scala
30
Programao
Bancos de Dados
Grande disponibilidade de DBMS
PostreSQL, MongoDB, MySQL, .
SQL vs NoSQL
31
Programao
Computao Distribuda
Muitas vezes, um computador apenas no d conta
MapReduce, Apache Spark, Hadoop, etc
MapReduce e Hadoop | Intro to Parallel Programming | Data Science and Engineering with Apache Spark
32
Programao
Programao
Machine Learning
Permite criar modelos extramente complexos e poderosos
Sistemas Recomendadores, Busca, Aprendizado Dinmico
Redes Neurais, KNN, Mquinas de Vetor Suporte
Programao
Programao - Algoritmos
Eficincia faz diferena!
Saber implementar algoritmos paralelizveis
Habilidades
36
Matemtica / Estatstica
Operaes Matriciais
Multiplicao
Fatorao matricial
Autovalores e Autovetores
37
Matemtica / Estatstica
Clculo Multivarivel
Matrizes Jacobiana e Hessiana
Base para Modelos Estatsticos,
Otimizao e Aprendizado de Mquina.
Berkeley - Multivariate Calculus | MIT - Multivariate Calculus - 2007 | MIT - Multivariate Calculus - 2010
38
Matemtica / Estatstica
Otimizao
Mtodos para minimizar uma funo especfica
Base para a maioria dos algoritmos de Aprendizado
de Mquina e Regresses Estatsticas
Matemtica / Estatstica
40
Matemtica / Estatstica
Estatstica - Distribuies
Testes de Hipteses
Saber qual distribuio melhor
representa o problema
Teorema Bayesiano
Lidar com amostras enviesadas
Matemtica / Estatstica
Testes A/B
Permite comparar resultados de duas
ou mais modificaes
42
Matemtica / Estatstica
Visualizao de dados
Comunicao de Resultados
Representar mais do que duas dimenses
Representao de diferentes variveis
Udacity - Data Visualization and D3.js | https://plot.ly | Flowing Data | Edward Turfte - Envisioning
Information
43
Sade
E-commerce
Ecologia
Personalizao
Mercado Financeiro
Marketing
Conhecimento de Domnio
Psicologia
Biologia
Otimizao de Processos
Logstica
Poltica
Esportes
44
45
Links Diversos
Quora Data Science FAQ
DataCamp - Cursos bons, alguns gratuitos
Open Datasets
Kaggle
Coursera - Lista de Cursos
46
47
Jupyter
Cdigo + Texto
Python, R, Julia, Go ..
48
Correlao no Causalidade
49
50
51
52
Concluindo
Um cientista de dados um generalista, no um especialista
Muitas habilidades no triviais para se estudar
Inmeras oportunidades de criar impacto
Extremamente desafiador, mas muito divertido
A graduao no suficiente, preciso ir alm!
53
Obrigado!
ebonet.me
54