Python e Spark
www.datascienceacademy.com.br
Análise de Dados com Python
www.datascienceacademy.com.br
Introdução a Análise de Dados
com Python
www.datascienceacademy.com.br
Preciso realmente aprender uma linguagem
de programação para trabalhar como
Cientista de Dados?
www.datascienceacademy.com.br
Você precisa aprender a usar uma
ferramenta analítica!
www.datascienceacademy.com.br
Matemática e
Estatística
Data
Science
Conhecimento
Ciência da
das áreas de
Computação
negócio
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Eu tenho que escolher uma das duas?
www.datascienceacademy.com.br
Precisamos realmente escolher?
www.datascienceacademy.com.br
A linguagem R não é exatamente uma
linguagem de programação. Ela é uma
linguagem estatística com grande foco em
análise de dados. Portanto, R pode ser
usada em algumas etapas do seu processo
de Analytics. A linguagem R é excelente
em algorítmos de Machine Learning.
www.datascienceacademy.com.br
Python é uma linguagem de programação
completa e que frequentemente aparece
entre as 3 linguagens mais utilizadas no
mundo. Foi criada com o propósito de uso
geral, mas tem evoluído muito no campo e
análise de dados, através de pacotes e
módulos criados especificamente para este
trabalho. Python é muito eficiente no
trabalho de pré-processamento, aquele que
é feito imediatamente antes a criação dos
modelos preditivos.
www.datascienceacademy.com.br
Portanto, você não precisa escolher. Aprenda e utilize as duas ferramentas no seu
processo analítico, extraindo o que cada uma faz de melhor.
www.datascienceacademy.com.br
Mas é muito trabalho
e muito material?
www.datascienceacademy.com.br
Sim, é isso mesmo!
www.datascienceacademy.com.br
Quem disse que
seria fácil?
www.datascienceacademy.com.br
Quer ou não se tornar
um Cientista de Dados?
www.datascienceacademy.com.br
Mas eu poderia utilizar soluções
analíticas proprietárias?
www.datascienceacademy.com.br
Mas então por que estou aprendendo linguagens
de programação como ferramenta analítica?
www.datascienceacademy.com.br
Por diversas razões:
• R e Python são linguagens gratuitas e podem ser usadas livremente, reduzindo custos com
licenciamento de software, por exemplo
• Embora R e Python requeiram mais trabalho manual para criar uma solução de análise,
elas oferecem muito mais flexibilidade
• Todo o conhecimento adquirido com R e Python, pode ser facilmente aplicado em outras
soluções analíticas
• Soluções Microsoft, Oracle e IBM, dão suporte a R e Python, como forma de estender as
funcionalidades de suas soluções
www.datascienceacademy.com.br
A pergunta que deve ser feita é:
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
Big Data Real-Time Analytics com
Python e Spark
www.datascienceacademy.com.br
Introdução a Análise de Dados
com Python
www.datascienceacademy.com.br
Cada vez mais dados para analisar
(Big Data)
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Armazenamento
Coleta Análise
Armazenamento
www.datascienceacademy.com.br
Fácil de aprender
Muito popular
Uso geral
Linguagem interpretada
Comunidade
www.datascienceacademy.com.br
R
SAS
Matlab
Stata
www.datascienceacademy.com.br
C e C++
Fortran
Cython (http://cython.org)
www.datascienceacademy.com.br
Matlab ou R
Python
Java, C++, C#
www.datascienceacademy.com.br
Quando não usar Python?
www.datascienceacademy.com.br
www.datascienceacademy.com.br
https://try.jupyter.org
www.datascienceacademy.com.br
IDE
(Ambiente Integrado de
Desenvolvimento)
• PyCharm
• Spyder
• Canopy
• WinPython
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
Big Data Real-Time Analytics com
Python e Spark
www.datascienceacademy.com.br
Módulos Python para Análise
de Dados
www.datascienceacademy.com.br
Python, quanto linguagem de programação,
possui seus comandos e funções bulti-in. É
o que chamamos de linguagem pura. Mas a
exemplos da linguagem R, podemos
instalar pacotes adicionais e com isso
extender as funcionalidades da linguagem.
E Python possui alguns dos melhores
pacotes para análise de dados disponíveis.
Muito deste módulos são instalados
quando você instala o Anaconda, mas
poderiam ser instalados manualmente.
www.datascienceacademy.com.br
• NumPy
• Pandas
• SciPy
• Matplotlib
• Statsmodels
• Scikit-learn
www.datascienceacademy.com.br
NumPy ou Numerical Python, é o pacote fundamental para computação científica
em Python. Dificilmente você vai utilizar NumPy sozinho, mas sim com outros
pacotes Python, uma vez que ele oferece a base fundamental para a construção
de estruturas de dados para análise. O propósito principal do NumPy é servir
como um container para seus dados de forma que você possa utilizá-los no
processo de análise e ainda manipular os dados entre diferentes algoritmos. Os
arrays em NumPy são muito mais eficientes que as opções básicas do Python.
Com arrays Numpy podemos criar objetos semelhantes aos vetores e matrizes,
que criamos com R por exemplo.
www.datascienceacademy.com.br
Pandas é um pacote de análise de dados de alta performance, totalmente
gratuito e desenvolvido em 2008. Pandas se tornou a biblioteca padrão para
manipulação e análise de dados em Python, sendo amplamente adotada por
profissionais que trabalham com Data Science. Com Pandas podemos criar
dataframes e séries de dados.
www.datascienceacademy.com.br
• Pode processar dados em diferentes formatos, como dados de séries temporais, matrizes,
dados estruturados ou não estruturados.
• Facilita muito o trabalho de carga e importação de dados em arquivos csv ou de bancos
de dados.
• Fornece funções para as mais variadas etapas de pré-processamento, como: subsetting,
slicing, filtros, merge, agrupamentos, ordenação, reshape.
• Permite facilmente tratar dados missing.
• Pode ser usado para converter dados, bem como para aplicar modelagem estatística.
• É totalmente integrado com outros pacotes Python, como SciPy, NumPy e Scikit-Learn
www.datascienceacademy.com.br
Arrays
Vetores Unidimensionais
NumPy
Arrays
Matrizes Multidimensionais
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br