Bem-vindo(a) ao Scribd!

Spark Details

Enviado por

0% acharam este documento útil (0 voto)

65 visualizações11 páginas

Spark is an expressive computing system that facilitates in-memory computing to avoid storing intermediate results to disk. It introduces the RDD abstraction of partitioned and distributed datasets that can be cached in memory across a cluster. RDDs support transformations and actions, where transformations build new RDDs and actions trigger execution by returning values or exporting data. Jobs are executed through a DAG scheduler and task scheduler to optimize partitioning and execution across worker nodes.

Descrição original:

spark

Título original

spark details

Direitos autorais

Formatos disponíveis

PPTX, PDF, TXT ou leia online no Scribd

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Denunciar este documento

Direitos autorais:

Formatos disponíveis

Baixe no formato PPTX, PDF, TXT ou leia online no Scribd

Sinalizar o conteúdo como inadequado

0% acharam este documento útil (0 voto)

65 visualizações11 páginas

Spark Details

Enviado por

sarvesh_mishra

Direitos autorais:

Formatos disponíveis

Baixe no formato PPTX, PDF, TXT ou leia online no Scribd

Sinalizar o conteúdo como inadequado

Pular para a página

Você está na página 1de 11

Pesquisar no documento

Spark

Spark ideas
• expressive computing system, not limited to
map-reduce model
• facilitate system memory
– avoid saving intermediate results to disk
– cache data for repetitive queries (e.g. for machine
learning)
• compatible with Hadoop
RDD abstraction
• Resilient Distributed Datasets
• partitioned collection of records
• spread across the cluster
• read-only
• caching dataset in memory
– different storage levels available
– fallback to disk possible
RDD operations
• transformations to build RDDs through
deterministic operations on other RDDs
– transformations include map, filter, join
– lazy operation
• actions to return value or export data
– actions include count, collect, save
– triggers execution
Job example
Driver
val log = sc.textFile(“hdfs://...”)
val errors = file.filter(_.contains(“ERROR”))
errors.cache()
Action!
errors.filter(_.contains(“I/O”)).count()
errors.filter(_.contains(“timeout”)).count()

Worker Worker Worker

Cache1 Cache2 Cache2

Block1 Block2 Block3

RDD partition-level view
Dataset-level view: Partition-level view:

log:
HadoopRDD
path = hdfs://...

errors:
FilteredRDD
func = _.contains(…)
shouldCache = true
Task 1 Task 2 ...

source: https://cwiki.apache.org/confluence/display/SPARK/Spark+Internals
Job scheduling
RDD Objects DAGScheduler TaskScheduler Worker
Cluster Threads
DAG TaskSet manager Task Block
manager

rdd1.join(rdd2) split graph into launch tasks via execute tasks

.groupBy(…)
.filter(…)
stages of tasks cluster manager
submit each retry failed or store and serve
build operator DAG
stage as ready straggling tasks blocks

source: https://cwiki.apache.org/confluence/display/SPARK/Spark+Internals
Available APIs
• You can write in Java, Scala or Python
• interactive interpreter: Scala & Python only
• standalone applications: any
• performance: Java & Scala are faster thanks to
static typing
Hand on - interpreter
• script
http://cern.ch/kacper/spark.txt

• run scala spark interpreter

$ spark-shell

• or python interpreter
$ pyspark
Hand on – build and submission
• download and unpack source code
wget http://cern.ch/kacper/GvaWeather.tar.gz; tar -xzf GvaWeather.tar.gz
• build definition in
GvaWeather/gvaweather.sbt

• source code
GvaWeather/src/main/scala/GvaWeather.scala

• building
cd GvaWeather
sbt package

• job submission
spark-submit --master local --class GvaWeather \
target/scala-2.10/gva-weather_2.10-1.0.jar
Summary
• concept not limited to single pass map-reduce
• avoid soring intermediate results on disk or
HDFS
• speedup computations when reusing datasets

Você também pode gostar

Overview
Documento25 páginas
Overview
sarvesh_mishra
Ainda não há avaliações
What Is Spark?: Up To 100× Faster
Documento56 páginas
What Is Spark?: Up To 100× Faster
jainam dude
Ainda não há avaliações
Professional Hadoop Solutions
No Everand
Professional Hadoop Solutions
Boris Lublinsky
Nota: 4 de 5 estrelas
4/5 (2)
Kelly Hadoop Hyd May 2018
Documento14 páginas
Kelly Hadoop Hyd May 2018
dilip kumar
Ainda não há avaliações
Bigdata Hadoop Spark - Python
Documento8 páginas
Bigdata Hadoop Spark - Python
Rishiraj Paul
Ainda não há avaliações
Big Data Hadoop Training
Documento13 páginas
Big Data Hadoop Training
Vinay Nagnath Jokare
Ainda não há avaliações
Resume
Documento4 páginas
Resume
shekhar
Ainda não há avaliações
HOL Hive PDF
Documento23 páginas
HOL Hive PDF
Kishore Kumar
Ainda não há avaliações
Hadoop Architecture Exercise
Documento24 páginas
Hadoop Architecture Exercise
pav20021
Ainda não há avaliações
Inndata Analytics PVT LTD December 2016 - Present: E-Mail: Phone
Documento3 páginas
Inndata Analytics PVT LTD December 2016 - Present: E-Mail: Phone
preeti d
Ainda não há avaliações
Hadoop I/O Fundamentals for Distributed Processing
Documento36 páginas
Hadoop I/O Fundamentals for Distributed Processing
Manognya Reddy
Ainda não há avaliações
Create An Spark Streaming App: 1. Architecture and Abstraction
Documento8 páginas
Create An Spark Streaming App: 1. Architecture and Abstraction
Ngô Hoàng
Ainda não há avaliações
SAmple Hadoop
Documento7 páginas
SAmple Hadoop
Mottu2003
Ainda não há avaliações
Hands On
Documento26 páginas
Hands On
Ashok Kumar K R
Ainda não há avaliações
Homework Labs Lecture01
Documento9 páginas
Homework Labs Lecture01
Episode Unlocker
Ainda não há avaliações
MapReduce Types, Formats, and Features Explained
Documento16 páginas
MapReduce Types, Formats, and Features Explained
Ashwin Ajmera
Ainda não há avaliações
Mix Hadoop Developer Interview Questions
Documento3 páginas
Mix Hadoop Developer Interview Questions
Amit Kumar
Ainda não há avaliações
PySpark+Slides v1
Documento458 páginas
PySpark+Slides v1
ravikumar lanka
Ainda não há avaliações
Hadoop Training VM: 1 Download Virtual Box
Documento3 páginas
Hadoop Training VM: 1 Download Virtual Box
Miguel Angel Hernández Ruiz
Ainda não há avaliações
RaviKumar Gurrappagari PDF
Documento8 páginas
RaviKumar Gurrappagari PDF
Benedict Zander
Ainda não há avaliações
Hadoop Test
Documento8 páginas
Hadoop Test
big_fir
100% (1)
Apache Spark: Dhineshkumar S K
Documento31 páginas
Apache Spark: Dhineshkumar S K
PREM KUMAR M
Ainda não há avaliações
Gcloud Python
Documento398 páginas
Gcloud Python
anonymous_9888
Ainda não há avaliações
SoumyadipKhan Resume
Documento1 página
SoumyadipKhan Resume
Soumyadip Khan
Ainda não há avaliações
Hadoop Admin Download Syllabus PDF
Documento4 páginas
Hadoop Admin Download Syllabus PDF
shubham phulari
Ainda não há avaliações
HDFS Architecture
Documento47 páginas
HDFS Architecture
krishan Goyal
Ainda não há avaliações
What is Big Data? Four V's and Uses in Business
Documento222 páginas
What is Big Data? Four V's and Uses in Business
ravi
Ainda não há avaliações
Hadoop Interview Questions
Documento14 páginas
Hadoop Interview Questions
Sankar Susarla
Ainda não há avaliações
Dzone Apache Hadoop Deployment
Documento7 páginas
Dzone Apache Hadoop Deployment
VernFWK
Ainda não há avaliações
NoSQL and MongoDB
Documento47 páginas
NoSQL and MongoDB
arya1017
Ainda não há avaliações
Hadoop Tutorial
Documento13 páginas
Hadoop Tutorial
becitratul
Ainda não há avaliações
Hadoop Seminar Report Introduction
Documento44 páginas
Hadoop Seminar Report Introduction
nagasrinu20
Ainda não há avaliações
Apache Kafka Installation
Documento3 páginas
Apache Kafka Installation
surendra yandra
Ainda não há avaliações
Hadoop Interview Questions
Documento2 páginas
Hadoop Interview Questions
moby
Ainda não há avaliações
Hadoop Professional with Big Data Experience
Documento3 páginas
Hadoop Professional with Big Data Experience
aras4mavis1932
Ainda não há avaliações
Hadoop Admin Interview Question and Answers
Documento5 páginas
Hadoop Admin Interview Question and Answers
Vivek Kushwaha
Ainda não há avaliações
Hadoop Interview Questions Faq
Documento14 páginas
Hadoop Interview Questions Faq
mihirhota
Ainda não há avaliações
Hadoop Release 2.0
Documento54 páginas
Hadoop Release 2.0
Prashant Sharma
Ainda não há avaliações
2 HDFS Commands
Documento7 páginas
2 HDFS Commands
VIPUL GUPTA
Ainda não há avaliações
Course Contents of Hadoop and Big Data
Documento11 páginas
Course Contents of Hadoop and Big Data
rahulsse
Ainda não há avaliações
Hadoop-Oozie User Material
Documento183 páginas
Hadoop-Oozie User Material
rahulneel
Ainda não há avaliações
24 Hadoop Interview Questions & Answers
Documento7 páginas
24 Hadoop Interview Questions & Answers
nalinbhatt
Ainda não há avaliações
Spark Sample Resume 2
Documento7 páginas
Spark Sample Resume 2
pupscribd
100% (1)
Sai Hadoop Resume
Documento5 páginas
Sai Hadoop Resume
Saikumar Avanigadda
Ainda não há avaliações
What is Apache Oozie? Scheduling and managing Hadoop jobs
Documento6 páginas
What is Apache Oozie? Scheduling and managing Hadoop jobs
ankurmaggu
Ainda não há avaliações
Apache Kafka Installation: Step 1: Download The Code
Documento3 páginas
Apache Kafka Installation: Step 1: Download The Code
surendra yandra
Ainda não há avaliações
Linux Command List
Documento8 páginas
Linux Command List
hkneptune
Ainda não há avaliações
Hadoop Ecosystem
Documento16 páginas
Hadoop Ecosystem
poojan thakkar
Ainda não há avaliações
Nimisha Patel
Documento7 páginas
Nimisha Patel
VENKATARAO Y
Ainda não há avaliações
Hadoop Administration Interview Questions and Answers: 40% Career Booster Discount On All Course - Call Us Now 9019191856
Documento26 páginas
Hadoop Administration Interview Questions and Answers: 40% Career Booster Discount On All Course - Call Us Now 9019191856
krishna
Ainda não há avaliações
Personal Info: Big Data Engineer
Documento2 páginas
Personal Info: Big Data Engineer
Noble kumar
Ainda não há avaliações
HADOOP Based Recommendation Algorithm For Micro-Video URL
Documento9 páginas
HADOOP Based Recommendation Algorithm For Micro-Video URL
dbpublications
Ainda não há avaliações
Final Print Py Spark
Documento133 páginas
Final Print Py Spark
Shivaraj K
Ainda não há avaliações
Ram Madhav Resume
Documento6 páginas
Ram Madhav Resume
ramu_uppada
Ainda não há avaliações
Facebook Hive POC
Documento18 páginas
Facebook Hive POC
Jayashree Ravi
Ainda não há avaliações
Primer On Big Data Testing
Documento24 páginas
Primer On Big Data Testing
Surojeet Sengupta
Ainda não há avaliações
BD - Unit - III - MapReduce
Documento31 páginas
BD - Unit - III - MapReduce
Prem Kumar
Ainda não há avaliações
Hadoop Cluster Deployment
No Everand
Hadoop Cluster Deployment
Danil Zburivsky
Ainda não há avaliações
Amazon Redshift Complete Self-Assessment Guide
No Everand
Amazon Redshift Complete Self-Assessment Guide
Gerardus Blokdyk
Ainda não há avaliações
Apache Oozie Essentials
No Everand
Apache Oozie Essentials
Singh Jagat Jasjit
Ainda não há avaliações
Top 25 Interview Q&A for Big Data and Analytics
Documento27 páginas
Top 25 Interview Q&A for Big Data and Analytics
Senthil Kumar
Ainda não há avaliações
Big Data Capacity Planning
Documento7 páginas
Big Data Capacity Planning
sarvesh_mishra
Ainda não há avaliações
Unix Important Command
Documento44 páginas
Unix Important Command
rraghuram64
Ainda não há avaliações
AdvancedBooks - Python Wiki
Documento104 páginas
AdvancedBooks - Python Wiki
sarvesh_mishra
0% (1)
Hadoop Spark
Documento31 páginas
Hadoop Spark
sarvesh_mishra
Ainda não há avaliações
Think CSpy
Documento288 páginas
Think CSpy
api-3713317
Ainda não há avaliações
TK Inter
Documento168 páginas
TK Inter
German Martinez Solis
Ainda não há avaliações
Fifty Examples
Documento49 páginas
Fifty Examples
sarvesh_mishra
Ainda não há avaliações
Python C
Documento108 páginas
Python C
sarvesh_mishra
Ainda não há avaliações
Python Crash Course 0.07 PDF
Documento68 páginas
Python Crash Course 0.07 PDF
Matheus Rodrigues Borba
Ainda não há avaliações
Sed - An Introduction and Tutorial
Documento51 páginas
Sed - An Introduction and Tutorial
sarvesh_mishra
Ainda não há avaliações
02 Math Essentials File
Documento55 páginas
02 Math Essentials File
HemaNath
Ainda não há avaliações
2016 07 21 Godil Presentation
Documento47 páginas
2016 07 21 Godil Presentation
sarvesh_mishra
Ainda não há avaliações
Strata Spark Streaming
Documento40 páginas
Strata Spark Streaming
sarvesh_mishra
Ainda não há avaliações
Cloud Era Csu La 11122012
Documento50 páginas
Cloud Era Csu La 11122012
sarvesh_mishra
Ainda não há avaliações
Model in R
Documento75 páginas
Model in R
sarvesh_mishra
Ainda não há avaliações
The Scala Programming Language: Presented by Donna Malayeri
Documento25 páginas
The Scala Programming Language: Presented by Donna Malayeri
sarvesh_mishra
Ainda não há avaliações
Work With Strings With Stringr::: Cheat Sheet
Documento2 páginas
Work With Strings With Stringr::: Cheat Sheet
hiqma
Ainda não há avaliações
13b Neural Networks 1
Documento24 páginas
13b Neural Networks 1
sarvesh_mishra
Ainda não há avaliações
13b Neural Networks 1
Documento24 páginas
13b Neural Networks 1
sarvesh_mishra
Ainda não há avaliações
Log Linear Models and Logistic Regression Springer Texts in Statistics
Documento33 páginas
Log Linear Models and Logistic Regression Springer Texts in Statistics
sarvesh_mishra
Ainda não há avaliações
Clustering Basics 1
Documento53 páginas
Clustering Basics 1
sarvesh_mishra
Ainda não há avaliações
Intro To RAML - The RESTful API Modeling Language - Baeldung
Documento10 páginas
Intro To RAML - The RESTful API Modeling Language - Baeldung
sarvesh_mishra
Ainda não há avaliações
Classification Basic Concepts, Decision Trees, and Model Evaluation
Documento67 páginas
Classification Basic Concepts, Decision Trees, and Model Evaluation
sarvesh_mishra
Ainda não há avaliações
Cloud Era Csu La 11122012
Documento50 páginas
Cloud Era Csu La 11122012
sarvesh_mishra
Ainda não há avaliações
Introduction to ggplot2 for data visualization
Documento79 páginas
Introduction to ggplot2 for data visualization
mindlinjas
Ainda não há avaliações
Had Oop Excercises
Documento12 páginas
Had Oop Excercises
sarvesh_mishra
Ainda não há avaliações
Hive User Meeting March 2010 Cloudera Quick Start 100325151728 Phpapp01
Documento36 páginas
Hive User Meeting March 2010 Cloudera Quick Start 100325151728 Phpapp01
Faruk Berksöz
Ainda não há avaliações
AZ-900 Microsoft Azure Fundamentals Title
Documento8 páginas
AZ-900 Microsoft Azure Fundamentals Title
nagendra reddy panyam
Ainda não há avaliações
DX Series, Digital Sentry, Endura, Sarix & VideoXpert default credentials
Documento2 páginas
DX Series, Digital Sentry, Endura, Sarix & VideoXpert default credentials
tom
Ainda não há avaliações
V.Imp V. V.Imp V. V.Imp: PPSP External Exam Important Questions
Documento2 páginas
V.Imp V. V.Imp V. V.Imp: PPSP External Exam Important Questions
jigardotcom
Ainda não há avaliações
Comp Project
Documento79 páginas
Comp Project
Kunwar
Ainda não há avaliações
b0193wq M
Documento84 páginas
b0193wq M
Anonymous nVMYT3AEO
100% (2)
ANY Pointer Restructure
Documento2 páginas
ANY Pointer Restructure
salah
Ainda não há avaliações
A Join Vs Database Join
Documento21 páginas
A Join Vs Database Join
Pradeep Kothakota
Ainda não há avaliações
Windows Forms Controls
Documento13 páginas
Windows Forms Controls
Ayesha Siddiqua
Ainda não há avaliações
Asus p5b - Bupdater Bios Upgrade Procedure
Documento4 páginas
Asus p5b - Bupdater Bios Upgrade Procedure
Salvatore Bonaffino
Ainda não há avaliações
Monitoring Issues: A Guide For Beginners
Documento19 páginas
Monitoring Issues: A Guide For Beginners
AGUSTIN RAFAEL MIRANDA PUPO
Ainda não há avaliações
(Infographic) eUDC660 Quick Registration Guide (V100R005C10 - 01)
Documento5 páginas
(Infographic) eUDC660 Quick Registration Guide (V100R005C10 - 01)
ambroise assemien
Ainda não há avaliações
Binary & Logic Operation: Siemens
Documento16 páginas
Binary & Logic Operation: Siemens
jhuskanovic
Ainda não há avaliações
Storage Manager Issue
Documento163 páginas
Storage Manager Issue
Wilda Hayatin
Ainda não há avaliações
Red Faction README
Documento16 páginas
Red Faction README
jutty
Ainda não há avaliações
Nero Burning ROM v7.2.0.3 Regged Crack Release
Documento1 página
Nero Burning ROM v7.2.0.3 Regged Crack Release
Regina Fernandes
Ainda não há avaliações
Linux System Administrators Survival Guide
Documento1.084 páginas
Linux System Administrators Survival Guide
Raju Hyd
100% (1)
ENGG 4420 Real-Time Systems Design Lab1 Daq Set Up: Lab Co-Ordinator: Kevin Dong Ta: Shu Zhou
Documento10 páginas
ENGG 4420 Real-Time Systems Design Lab1 Daq Set Up: Lab Co-Ordinator: Kevin Dong Ta: Shu Zhou
Pc Ng
Ainda não há avaliações
Computing Basics Course Covers Everyday Computer Uses
Documento33 páginas
Computing Basics Course Covers Everyday Computer Uses
Elias Claudio
Ainda não há avaliações
Support Ericsson RBS 2000 BTS
Documento2 páginas
Support Ericsson RBS 2000 BTS
sonchoy17
0% (1)
Fall 2013 - M359 - Week 2 Presentation
Documento88 páginas
Fall 2013 - M359 - Week 2 Presentation
Siraj Mansour
Ainda não há avaliações
Silicon Technology Logic Roadmap PDF
Documento20 páginas
Silicon Technology Logic Roadmap PDF
Gabriel Donovan
Ainda não há avaliações
Log Tex
Documento45 páginas
Log Tex
Rahmat New
Ainda não há avaliações
9 C# .NET String Manipulation
Documento18 páginas
9 C# .NET String Manipulation
oliviaecaterina
Ainda não há avaliações
Comp-Freecad Vs Salome
Documento19 páginas
Comp-Freecad Vs Salome
Gustavo Luis Condoy Pogo
Ainda não há avaliações
Ahmad Osama - Azure Data Engineering Cookbook - Design and Implement Batch and Streaming Analytics Using Azure Cloud Services (2021, Packt Publishing) - Libgen - Li
Documento587 páginas
Ahmad Osama - Azure Data Engineering Cookbook - Design and Implement Batch and Streaming Analytics Using Azure Cloud Services (2021, Packt Publishing) - Libgen - Li
mb.doumi
Ainda não há avaliações
Altirra Help: Keyboard mapping overview
Documento2 páginas
Altirra Help: Keyboard mapping overview
Steve Attwood
100% (2)
DeepSpeech 0
Documento15 páginas
DeepSpeech 0
eranhyzo
Ainda não há avaliações
IT AUDIT - Computer Operations
Documento45 páginas
IT AUDIT - Computer Operations
sax_worship
0% (1)
E 24256
Documento226 páginas
E 24256
yasirhussain86
Ainda não há avaliações