Escolar Documentos
Profissional Documentos
Cultura Documentos
✓ Tratamento de Dados
✓ Pré-processamento
✓ Regressão Linear (ML - Linear)
✓ Regressão Logística (ML - Classificação)
✓ Random Forest (ML - Classificação)
✓ Naive Bayes (ML – Classificação)
✓ KMeans (ML – Clusterização)
Um resumo do Spark
PySpark
PySpark é a interface alto nível que permite você conseguir acessar e usar o Spark
por meio da linguagem Python. Usando o PySpark, você consegue escrever todo o
seu código usando apenas o nosso estilo Python de escrever código.
Fonte da pesquisa:
https://spark.apache.org/
https://bityli.com/kysit
@Odemir Depieri Jr
Verificando os registros
@Odemir Depieri Jr
Filtrando
@Odemir Depieri Jr
Agrupando
Join
@Odemir Depieri Jr
Ordenando
Pré-processamento
@Odemir Depieri Jr
Correlação
Regressão Linear
@Odemir Depieri Jr
Continuação da Regressão
Regressão Logística
@Odemir Depieri Jr
Continuação da Regressão
Random Forest
@Odemir Depieri Jr
Naive Bayes
@Odemir Depieri Jr
Kmeans
@Odemir Depieri Jr
Final
Esse guia foi elaborada para demostrar o uso do PySpark
Link do código
https://colab.research.google.com/drive/1_ZPm80kl7zs5EDSUmcvtGVTp
6WrRZiGj?usp=sharing
Odemir Depieri Jr
Data Intelligence Analyst Sr
Tech Lead
Specialization AI