Bem-vindo(a) ao Scribd!

Pular no carrossel

Enunciado Do Trabalho Prático - Módulo 2 - Bootcamp Cientista de Dados PDF

Enviado por

Publio Galane

0% acharam este documento útil (0 voto)

5 visualizações3 páginas

Título original

Enunciado do Trabalho Prático - Módulo 2 - Bootcamp Cientista de Dados.pdf

Direitos autorais

Formatos disponíveis

PDF, TXT ou leia online no Scribd

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Denunciar este documento

Direitos autorais:

Formatos disponíveis

Baixe no formato PDF, TXT ou leia online no Scribd

Sinalizar o conteúdo como inadequado

0% acharam este documento útil (0 voto)

5 visualizações3 páginas

Enunciado Do Trabalho Prático - Módulo 2 - Bootcamp Cientista de Dados PDF

Enviado por

Publio Galane

Direitos autorais:

Formatos disponíveis

Baixe no formato PDF, TXT ou leia online no Scribd

Sinalizar o conteúdo como inadequado

Pular para a página

Você está na página 1de 3

Pesquisar no documento

Bootcamp: Cientista de Dados

Trabalho Prático

Módulo 2: Desenvolvendo Soluções Utilizando Apache Spark

Objetivos de Ensino

Bem-vindos(as) ao trabalho prático do módulo sobre Spark! Neste trabalho, você

vai exercitar os conceitos trabalhados na primeira parte do módulo, e vai:

✔ Se acostumar a escrever e executar aplicações que usam o Spark;

✔ Construir aplicações Spark interativas usando o pyspark ou uma plataforma

interativa como o jupyter-lab;

✔ Computar estatísticas descritivas usando o Spark;

✔ Manipular dados a partir da API de DataFrames.

É recomendado que você leia os capítulos 1, 2 e 3 da apostila e assista às aulas

relacionadas a eles. Em particular, o capítulo 2 da apostila contém instruções para
instalar o Spark na sua máquina.

Divirta-se!

Enunciado

Dados do mercado financeiro são interessantes e ricos: cada ação negociada na

bolsa de valores tem um preço que varia a cada dia. Você foi contratado como
cientista de dados de uma empresa de Wall Street para criar modelos preditivos
que, a partir da variação diária do preço das ações, consigam subsidiar e melhorar
decisões de compra e venda de ações. Você disse que, como todo bom cientista de

1
dados, gostaria de explorar os dados para entender suas características antes de
criar qualquer modelo preditivo.

Os dados estão disponíveis em https://www.kaggle.com/camnugent/sandp500/

por meio do arquivo all_stocks_5yr.csv. O arquivo contém, para cada dia e ação do
S&P 500 (lista de 500 maiores empresas americanas), os seguintes dados:

● Date - no formato yy-mm-dd

● Open - Preço da ação na abertura do mercado no dia, em dólares.

● High - Maior preço alcançado naquele dia.

● Low - Menor preço alcançado naquele dia.

● Close - Preço da ação no fechamento do mercado no dia.

● Volume - Número de ações vendidas / compradas.

● Name - O nome da ação.

Apesar do volume de dados ser pequeno, você decidiu usar o Apache Spark
para processar os dados para aprender a ferramenta, e tendo em vista que a sua
empresa disse que, em breve, obterá dados por minuto, e não por dia, e de todas as
ações do planeta, não apenas dos Estados Unidos. Neste caso, uma ferramenta
desenhada para lidar com big data será necessária, e você já quer estar com o
código pronto.

Atividades
O aluno deve extrair as principais estatísticas descritivas do conjunto de dados,
usando a API de Dataframe do Spark. Consulte a aula sobre DataFrames e
materiais como:
● https://www.datasciencemadesimple.com/descriptive-statistics-or-
summary-statistics-of-dataframe-in-pyspark/

2
● https://docs.databricks.com/spark/latest/dataframes-
datasets/introduction-to-dataframes-python.html
● https://medium.com/analytics-vidhya/spark-group-by-and-filter-deep-
dive-5326088dec80
● https://towardsdatascience.com/the-most-complete-guide-to-pyspark-
dataframes-2702c343b2e8
As perguntas objetivas contêm perguntas específicas que o aluno deve responder
por meio de aplicações Spark.

Você também pode gostar

Enunciado Do Desafio - Módulo 3 - Engenheiro (A) de Dados Cloud-1
Documento10 páginas
Enunciado Do Desafio - Módulo 3 - Engenheiro (A) de Dados Cloud-1
kanedakodama
Ainda não há avaliações
Ultima - Análise de Dados - Pamphlet
Documento10 páginas
Ultima - Análise de Dados - Pamphlet
hushiksu
Ainda não há avaliações
Spark para Iniciantes. Tutorial de Pyspark para Iniciantes - by Amauri Santos - Medium
Documento3 páginas
Spark para Iniciantes. Tutorial de Pyspark para Iniciantes - by Amauri Santos - Medium
rwurdig
Ainda não há avaliações
Tutorial Spark
Documento14 páginas
Tutorial Spark
Gabriel Alberto
Ainda não há avaliações
3 Principios de Desenvolvimento de Spark Com Python
Documento48 páginas
3 Principios de Desenvolvimento de Spark Com Python
Ricardo Bomfim
Ainda não há avaliações
06 Slides Modulo 6 PDF
Documento133 páginas
06 Slides Modulo 6 PDF
guidhu
Ainda não há avaliações
01 Slides Modulo 1
Documento121 páginas
01 Slides Modulo 1
guidhu
Ainda não há avaliações
Revolução Do SAP Fiori - AULA 2
Documento9 páginas
Revolução Do SAP Fiori - AULA 2
ncconnect
Ainda não há avaliações
Concursos
Documento21 páginas
Concursos
Rodrigo Maciel
Ainda não há avaliações
Processamento e Analise de Dado - Marcelo S. Perlin
Documento494 páginas
Processamento e Analise de Dado - Marcelo S. Perlin
Bruno Neves
Ainda não há avaliações
02.09.01 O Que e Pre Processamento PDF
Documento5 páginas
02.09.01 O Que e Pre Processamento PDF
guidhu
Ainda não há avaliações
02 Slides Modulo 2 PDF
Documento44 páginas
02 Slides Modulo 2 PDF
guidhu
Ainda não há avaliações
Data Warehouse Oracle
Documento29 páginas
Data Warehouse Oracle
Suidique Remutula
Ainda não há avaliações
Concepção de Um Software
Documento1 página
Concepção de Um Software
Erik Daniel
Ainda não há avaliações
S5 Nota10 Comentada COM460
Documento7 páginas
S5 Nota10 Comentada COM460
Dennis Ferreira
Ainda não há avaliações
IsabellaFonseca IdealDay
Documento15 páginas
IsabellaFonseca IdealDay
Tibi zero4
Ainda não há avaliações
Enunciado Do Trabalho Prático - Módulo 2 - Bootcamp Cientista de Dados-1
Documento4 páginas
Enunciado Do Trabalho Prático - Módulo 2 - Bootcamp Cientista de Dados-1
cgbarreto
Ainda não há avaliações
Clipper
No Everand
Clipper
Vitor Amadeu Souza
Ainda não há avaliações
Backtrader For Backtesting (Python) - Um Guia Completo - AlgoTrading101 Blog
Documento34 páginas
Backtrader For Backtesting (Python) - Um Guia Completo - AlgoTrading101 Blog
Anderson Muniz
100% (1)
Doctrine Na Prática
No Everand
Doctrine Na Prática
Elton Luís Minetto
Ainda não há avaliações
Como Elaborar Um Projeto de Banco de Dados - ETEC
Documento8 páginas
Como Elaborar Um Projeto de Banco de Dados - ETEC
Marcos Gomes
Ainda não há avaliações
Ebook - Metodolodia Scrum
Documento36 páginas
Ebook - Metodolodia Scrum
Engenheiro Brendel Freiartte
Ainda não há avaliações
MAPA - Material de Avaliação Prática Da Aprendizagem
Documento4 páginas
MAPA - Material de Avaliação Prática Da Aprendizagem
Jheferson Silveira
Ainda não há avaliações
Desenvolvimento De Software - Aplicativo Comercial Com C# E Camadas
No Everand
Desenvolvimento De Software - Aplicativo Comercial Com C# E Camadas
Alexandre Dutra De Oliveira / Luis Fernando Da Silva
Ainda não há avaliações
LearningSpark2.0 (001 224) PT BR
Documento224 páginas
LearningSpark2.0 (001 224) PT BR
Andressa Batista Carvalho de Souza
Ainda não há avaliações
17 Novela Do Pim
No Everand
17 Novela Do Pim
Kaicon Ricardo
Ainda não há avaliações
Programação Em Java Para A Raspberry Pi Parte Iv
No Everand
Programação Em Java Para A Raspberry Pi Parte Iv
Vitor Amadeu Souza
Ainda não há avaliações
Anotações (Metodologias Ageis 2)
Documento2 páginas
Anotações (Metodologias Ageis 2)
Larissa Roberta
Ainda não há avaliações
20 To 80
Documento5 páginas
20 To 80
requiaovictor
Ainda não há avaliações
PIM ADS 3º 2º Periodos 2020-1
Documento5 páginas
PIM ADS 3º 2º Periodos 2020-1
Jhonata De souza
Ainda não há avaliações
Gestão Imobiliária
No Everand
Gestão Imobiliária
Fábio Gomes De Aguiar
Ainda não há avaliações
Projeto Integrado II - EM CONCLUSÃO
Documento6 páginas
Projeto Integrado II - EM CONCLUSÃO
Maria Eduarda
Ainda não há avaliações
1-Slides 11
Documento64 páginas
1-Slides 11
jfelipe0
Ainda não há avaliações
1-Slides 11
Documento64 páginas
1-Slides 11
Luiz Roberto Bacaro Salvador
Ainda não há avaliações
Brochura Analista de Dados
Documento13 páginas
Brochura Analista de Dados
Alex Silva
Ainda não há avaliações
GCOM
Documento3 páginas
GCOM
Naiely Camargo
Ainda não há avaliações
01.07.1 Instalando Anaconda Python No Windows
Documento15 páginas
01.07.1 Instalando Anaconda Python No Windows
guidhu
Ainda não há avaliações
01.07.5 Apache Spark para Azure HDInsight
Documento5 páginas
01.07.5 Apache Spark para Azure HDInsight
guidhu
Ainda não há avaliações
Semana 04
Documento8 páginas
Semana 04
Matheus Olegário
Ainda não há avaliações
O Que É PySpark - Databricks e Como Aprender - by Luiz Felipe Borges - Medium
Documento4 páginas
O Que É PySpark - Databricks e Como Aprender - by Luiz Felipe Borges - Medium
rwurdig
Ainda não há avaliações
Eps - 04
Documento3 páginas
Eps - 04
ferr
Ainda não há avaliações
Conteúdo de Analise de Sistemas - Estudar
Documento2 páginas
Conteúdo de Analise de Sistemas - Estudar
ednaldosantos1502
Ainda não há avaliações
Apache Spark Streaming
Documento4 páginas
Apache Spark Streaming
Luiz Roberto Bacaro Salvador
Ainda não há avaliações
Continuação Programação
Documento11 páginas
Continuação Programação
maristersilvag
Ainda não há avaliações
Pim Vi
Documento37 páginas
Pim Vi
Wagner Sonoryt Trance
Ainda não há avaliações
Reproduzindo Arquivos De Som Wav Com Pic
No Everand
Reproduzindo Arquivos De Som Wav Com Pic
Vitor Amadeu Souza
Ainda não há avaliações
Portfolio 4º Período - Produção Textual Individual - Osman Segundo
Documento29 páginas
Portfolio 4º Período - Produção Textual Individual - Osman Segundo
comunicacaohc
Ainda não há avaliações
Aula 1
Documento17 páginas
Aula 1
Vinicius Balt
0% (2)
Original
Documento22 páginas
Original
luiz guilherme rezende rodrigues
Ainda não há avaliações
Projeto Integrado 4
Documento10 páginas
Projeto Integrado 4
rcrfm2017
Ainda não há avaliações
Mapa - Análise e Projeto Orientado A Objetos
Documento4 páginas
Mapa - Análise e Projeto Orientado A Objetos
Sara Cristina Maquim
Ainda não há avaliações
Material de Estudo
Documento11 páginas
Material de Estudo
Joao Augusto
Ainda não há avaliações
Consturindo um app android com delphi partes 1,2 e 3: Delphi berlim
No Everand
Consturindo um app android com delphi partes 1,2 e 3: Delphi berlim
Jorge Luiz E de Souza
Ainda não há avaliações
Portfolio 2 Semestre
Documento15 páginas
Portfolio 2 Semestre
Paulo Verdini
Ainda não há avaliações
Ementa Pos Graduacao em Data Science e Machine Learning
Documento14 páginas
Ementa Pos Graduacao em Data Science e Machine Learning
Douglas Freiman
Ainda não há avaliações
Projeto de Software: Roteiro Aula Prática
Documento3 páginas
Projeto de Software: Roteiro Aula Prática
andrebasper
Ainda não há avaliações
COMUM STEAM - Engenharia de Software - APS
Documento2 páginas
COMUM STEAM - Engenharia de Software - APS
Andrew Teixeira
Ainda não há avaliações
Diagrama de Entidade e Relacionamento
Documento1 página
Diagrama de Entidade e Relacionamento
Humbertoe Angelica
Ainda não há avaliações
Pim 5 Teste Caixa Preta
Documento35 páginas
Pim 5 Teste Caixa Preta
Cristiano Moraes
100% (1)
Desenvolvimento De Software Ii C# Programação Em Camadas
No Everand
Desenvolvimento De Software Ii C# Programação Em Camadas
Luis Fernando Da Silva
Ainda não há avaliações
Weg WCP-0868-24-R0 Tec
Documento18 páginas
Weg WCP-0868-24-R0 Tec
Publio Galane
Ainda não há avaliações
Schneider Electric - EcoStruxure-Panel-Server - PAS600
Documento4 páginas
Schneider Electric - EcoStruxure-Panel-Server - PAS600
Publio Galane
Ainda não há avaliações
Prova
Documento2 páginas
Prova
Publio Galane
Ainda não há avaliações
Monografia Pos Grad - CEAI
Documento25 páginas
Monografia Pos Grad - CEAI
Publio Galane
Ainda não há avaliações
Logica Fuzzy
Documento3 páginas
Logica Fuzzy
Publio Galane
Ainda não há avaliações
Formulário Proposta Monografia CEAI UFMG
Documento2 páginas
Formulário Proposta Monografia CEAI UFMG
Publio Galane
Ainda não há avaliações
Prova 6
Documento7 páginas
Prova 6
Publio Galane
Ainda não há avaliações
Provs 5
Documento5 páginas
Provs 5
Publio Galane
Ainda não há avaliações
Prova 4
Documento8 páginas
Prova 4
Publio Galane
Ainda não há avaliações
Prova Final 2
Documento8 páginas
Prova Final 2
Publio Galane
Ainda não há avaliações
Trabalho 4,2
Documento8 páginas
Trabalho 4,2
Publio Galane
Ainda não há avaliações
Ficha Rakan (ATUAL)
Documento3 páginas
Ficha Rakan (ATUAL)
Fiky Cold
Ainda não há avaliações
Apostila Projeção Da Consciência - Waldo Vieira
Documento12 páginas
Apostila Projeção Da Consciência - Waldo Vieira
Ranilson Angelo
100% (1)
Curso Técnico de Restauração
Documento2 páginas
Curso Técnico de Restauração
VítorFernandoMarquesCoito
Ainda não há avaliações
Questionario
Documento3 páginas
Questionario
Dhandara Lucymilla
Ainda não há avaliações
BudaKamakura PDF
Documento16 páginas
BudaKamakura PDF
juniorterapia
Ainda não há avaliações
Trabalho de TGA - Handy, Fayol e Ford
Documento9 páginas
Trabalho de TGA - Handy, Fayol e Ford
Marcos Roberto Rosa
Ainda não há avaliações
A Perdida Arte Da Datilografia
Documento4 páginas
A Perdida Arte Da Datilografia
Patricia Gomes
Ainda não há avaliações
Óquio: Istema Etro Erroviário
Documento96 páginas
Óquio: Istema Etro Erroviário
JL
Ainda não há avaliações
10 FLUXO CORTE LASER - Revisado 21-07-2020
Documento1 página
10 FLUXO CORTE LASER - Revisado 21-07-2020
Rafael Passarelli
Ainda não há avaliações
Geometria Átomo
Documento4 páginas
Geometria Átomo
emarchesi2012
Ainda não há avaliações
AD1Música 2021.2 CEDERJ UNIRIO PEDAGOGIA
Documento5 páginas
AD1Música 2021.2 CEDERJ UNIRIO PEDAGOGIA
Maria da Conceição Silva
Ainda não há avaliações
Permissão de Trabalho
Documento5 páginas
Permissão de Trabalho
FRANCISCO PEREIRA
Ainda não há avaliações
Estrutura Remuneratoria Senai (74131)
Documento7 páginas
Estrutura Remuneratoria Senai (74131)
Lucimari Suzuki
Ainda não há avaliações
Termodinâmica - 3
Documento46 páginas
Termodinâmica - 3
moises20ca
Ainda não há avaliações
Endometriose 2021
Documento16 páginas
Endometriose 2021
Nathalia Vasconcelos Barroso Todt Aragão
Ainda não há avaliações
RESGATE HISTÓRICO DE UMA COMUNIDADE: Um Olhar Sobre A História e Os Patrimônios Culturais Material e Natural Do Bairro Ponte Alta
Documento39 páginas
RESGATE HISTÓRICO DE UMA COMUNIDADE: Um Olhar Sobre A História e Os Patrimônios Culturais Material e Natural Do Bairro Ponte Alta
Peterson Mendes Paulino
Ainda não há avaliações
Guia de Identificação Das Pastagens Nativas Do Pantanal (2019)
Documento223 páginas
Guia de Identificação Das Pastagens Nativas Do Pantanal (2019)
Andreia Costa
Ainda não há avaliações
Etapas Do Projeto de Pesquisa
Documento2 páginas
Etapas Do Projeto de Pesquisa
joao vitor
Ainda não há avaliações
3258 Boletim Tecnico Eucatex Silicone
Documento3 páginas
3258 Boletim Tecnico Eucatex Silicone
edgar m paiva
Ainda não há avaliações
Extensao Counitaria I
Documento17 páginas
Extensao Counitaria I
dércio neves
Ainda não há avaliações
Lista 1 Mruv
Documento5 páginas
Lista 1 Mruv
Camilla Buçard
Ainda não há avaliações
Yago Castro
Documento21 páginas
Yago Castro
Yago Castro
Ainda não há avaliações
Sas2018 4
Documento17 páginas
Sas2018 4
jgabrielcdavi
Ainda não há avaliações
Proteção de Sistemas PDF
Documento23 páginas
Proteção de Sistemas PDF
Rafael De Lima Gabardo
100% (1)
Programação Semic Xxxiv Semic
Documento111 páginas
Programação Semic Xxxiv Semic
Rita
Ainda não há avaliações
Desenvolvimento Da Radiologia Intervencionista
Documento3 páginas
Desenvolvimento Da Radiologia Intervencionista
Prof-Alexsandro Ferreira
Ainda não há avaliações
Apresentação TCC Tamboreador
Documento39 páginas
Apresentação TCC Tamboreador
Allery Sam
Ainda não há avaliações
Noção Intuitiva de Limites
Documento14 páginas
Noção Intuitiva de Limites
Thayla Castro
Ainda não há avaliações
Micro2 Mincusto
Documento28 páginas
Micro2 Mincusto
Orlando Francisco Nhamussuna
Ainda não há avaliações
DT266 Alicate Amperímetro Digital
Documento4 páginas
DT266 Alicate Amperímetro Digital
edgardho
Ainda não há avaliações