Você está na página 1de 44

Big Data Real-Time Analytics com

Python e Spark

www.datascienceacademy.com.br
Análise de Dados com Python

www.datascienceacademy.com.br
Introdução a Análise de Dados
com Python

• Módulos Python para Análise de Dados


• Estruturas de Dados
• NumPy
• Pandas
• Pré-Processamento

www.datascienceacademy.com.br
Preciso realmente aprender uma linguagem
de programação para trabalhar como
Cientista de Dados?

www.datascienceacademy.com.br
Você precisa aprender a usar uma
ferramenta analítica!

www.datascienceacademy.com.br
Matemática e
Estatística

Data
Science
Conhecimento
Ciência da
das áreas de
Computação
negócio

www.datascienceacademy.com.br
www.datascienceacademy.com.br
Eu tenho que escolher uma das duas?

www.datascienceacademy.com.br
Precisamos realmente escolher?

Por que não usar as duas?

www.datascienceacademy.com.br
A linguagem R não é exatamente uma
linguagem de programação. Ela é uma
linguagem estatística com grande foco em
análise de dados. Portanto, R pode ser
usada em algumas etapas do seu processo
de Analytics. A linguagem R é excelente
em algorítmos de Machine Learning.

www.datascienceacademy.com.br
Python é uma linguagem de programação
completa e que frequentemente aparece
entre as 3 linguagens mais utilizadas no
mundo. Foi criada com o propósito de uso
geral, mas tem evoluído muito no campo e
análise de dados, através de pacotes e
módulos criados especificamente para este
trabalho. Python é muito eficiente no
trabalho de pré-processamento, aquele que
é feito imediatamente antes a criação dos
modelos preditivos.

www.datascienceacademy.com.br
Portanto, você não precisa escolher. Aprenda e utilize as duas ferramentas no seu
processo analítico, extraindo o que cada uma faz de melhor.

www.datascienceacademy.com.br
Mas é muito trabalho
e muito material?

www.datascienceacademy.com.br
Sim, é isso mesmo!

www.datascienceacademy.com.br
Quem disse que
seria fácil?

www.datascienceacademy.com.br
Quer ou não se tornar
um Cientista de Dados?

www.datascienceacademy.com.br
Mas eu poderia utilizar soluções
analíticas proprietárias?

www.datascienceacademy.com.br
Mas então por que estou aprendendo linguagens
de programação como ferramenta analítica?

www.datascienceacademy.com.br
Por diversas razões:

• R e Python são linguagens gratuitas e podem ser usadas livremente, reduzindo custos com
licenciamento de software, por exemplo

• Embora R e Python requeiram mais trabalho manual para criar uma solução de análise,
elas oferecem muito mais flexibilidade

• Todo o conhecimento adquirido com R e Python, pode ser facilmente aplicado em outras
soluções analíticas

• Soluções Microsoft, Oracle e IBM, dão suporte a R e Python, como forma de estender as
funcionalidades de suas soluções

• As duas linguagens possuem uma grande e ativa comunidade e muita documentação


disponível

www.datascienceacademy.com.br
A pergunta que deve ser feita é:

Há alguma razão para não aprender R ou Python para


Data Science?

www.datascienceacademy.com.br
Obrigado

www.datascienceacademy.com.br
Big Data Real-Time Analytics com
Python e Spark

www.datascienceacademy.com.br
Introdução a Análise de Dados
com Python

www.datascienceacademy.com.br
Cada vez mais dados para analisar
(Big Data)

Cada vez menos tempo


(Precisamos de Soluções de Análise em Tempo Real)

www.datascienceacademy.com.br
www.datascienceacademy.com.br
Armazenamento

Coleta Análise

Armazenamento

www.datascienceacademy.com.br
 Fácil de aprender
 Muito popular
 Uso geral
 Linguagem interpretada
 Comunidade

www.datascienceacademy.com.br
 R
 SAS
 Matlab
 Stata

www.datascienceacademy.com.br
 C e C++
 Fortran

 Cython (http://cython.org)

www.datascienceacademy.com.br
Matlab ou R

Python

Java, C++, C#

www.datascienceacademy.com.br
Quando não usar Python?

www.datascienceacademy.com.br
www.datascienceacademy.com.br
https://try.jupyter.org

www.datascienceacademy.com.br
IDE
(Ambiente Integrado de
Desenvolvimento)

• PyCharm
• Spyder
• Canopy
• WinPython

www.datascienceacademy.com.br
Obrigado

www.datascienceacademy.com.br
Big Data Real-Time Analytics com
Python e Spark

www.datascienceacademy.com.br
Módulos Python para Análise
de Dados

www.datascienceacademy.com.br
Python, quanto linguagem de programação,
possui seus comandos e funções bulti-in. É
o que chamamos de linguagem pura. Mas a
exemplos da linguagem R, podemos
instalar pacotes adicionais e com isso
extender as funcionalidades da linguagem.
E Python possui alguns dos melhores
pacotes para análise de dados disponíveis.
Muito deste módulos são instalados
quando você instala o Anaconda, mas
poderiam ser instalados manualmente.

www.datascienceacademy.com.br
• NumPy
• Pandas
• SciPy
• Matplotlib
• Statsmodels
• Scikit-learn

www.datascienceacademy.com.br
NumPy ou Numerical Python, é o pacote fundamental para computação científica
em Python. Dificilmente você vai utilizar NumPy sozinho, mas sim com outros
pacotes Python, uma vez que ele oferece a base fundamental para a construção
de estruturas de dados para análise. O propósito principal do NumPy é servir
como um container para seus dados de forma que você possa utilizá-los no
processo de análise e ainda manipular os dados entre diferentes algoritmos. Os
arrays em NumPy são muito mais eficientes que as opções básicas do Python.
Com arrays Numpy podemos criar objetos semelhantes aos vetores e matrizes,
que criamos com R por exemplo.

www.datascienceacademy.com.br
Pandas é um pacote de análise de dados de alta performance, totalmente
gratuito e desenvolvido em 2008. Pandas se tornou a biblioteca padrão para
manipulação e análise de dados em Python, sendo amplamente adotada por
profissionais que trabalham com Data Science. Com Pandas podemos criar
dataframes e séries de dados.

www.datascienceacademy.com.br
• Pode processar dados em diferentes formatos, como dados de séries temporais, matrizes,
dados estruturados ou não estruturados.
• Facilita muito o trabalho de carga e importação de dados em arquivos csv ou de bancos
de dados.
• Fornece funções para as mais variadas etapas de pré-processamento, como: subsetting,
slicing, filtros, merge, agrupamentos, ordenação, reshape.
• Permite facilmente tratar dados missing.
• Pode ser usado para converter dados, bem como para aplicar modelagem estatística.
• É totalmente integrado com outros pacotes Python, como SciPy, NumPy e Scikit-Learn

www.datascienceacademy.com.br
Arrays
Vetores Unidimensionais

NumPy
Arrays
Matrizes Multidimensionais

DataFrames DataFrames Pandas

www.datascienceacademy.com.br
Obrigado

www.datascienceacademy.com.br

Você também pode gostar