Bem-vindo(a) ao Scribd!

Apache Kafka

Enviado por

0% acharam este documento útil (0 voto)

183 visualizações37 páginas

This document discusses Apache Kafka, a distributed publish-subscribe messaging system. It describes how Kafka is used at LinkedIn to handle high volumes of real-time event data for applications and loading data into Hadoop. Key points are that Kafka is highly scalable, fault-tolerant, and can handle over 20 billion events per day with low latency. The architecture, design choices, and performance are also overviewed.

Descrição original:

Título original

Apache Kafka.pptx

Direitos autorais

Formatos disponíveis

PPTX, PDF, TXT ou leia online no Scribd

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Denunciar este documento

Direitos autorais:

Formatos disponíveis

Baixe no formato PPTX, PDF, TXT ou leia online no Scribd

Sinalizar o conteúdo como inadequado

0% acharam este documento útil (0 voto)

183 visualizações37 páginas

Apache Kafka

Enviado por

Thomas Varghese

Direitos autorais:

Formatos disponíveis

Baixe no formato PPTX, PDF, TXT ou leia online no Scribd

Sinalizar o conteúdo como inadequado

Pular para a página

Você está na página 1de 37

Pesquisar no documento

Apache Kafka

A distributed publish-subscribe messaging system

Neha Narkhede, LinkedIn
nnarkhede@linkedin.com, 11/11/11
Outline
Introduction to pub-sub

Kafka at LinkedIn

Hadoop and Kafka

Design

Performance
What is pub sub ?

Producer publish(topic, msg) Consumer

Topic Topic msg

1 2
Topic
3
Publish subscribe
system Consumer
Producer
msg
Outline
Introduction to pub-sub

Kafka at LinkedIn

Hadoop and Kafka

Design

Performance
Motivation

Activity tracking

Operational metrics
Kafka

Distributed

Persistent

High throughput
Kafka at LinkedIn
Frontend Frontend Service Service

Broker
Broker
Broker
Kafka

Real time Security News feed

monitoring systems Hadoop DWH
Outline
Introduction to pub-sub

Kafka at LinkedIn

Hadoop and Kafka

Design

Performance
Hadoop Data Load for Kafka
Live data center Offline data center

Hadoop
Hadoop
Dev
Hadoop
Frontend
Frontend Kafka Kafka
Real time Kafka
Kafka Kafka
Kafka
consumers

Hadoop
Hadoop
PROD
Hadoop
Multi DC data deployments
Live data centers Offline data centers

Real
Realtime Hadoop
Realtime
time Kafka Hadoop
Hadoop
Hadoop
consumers
consumers
consumers

Real
Realtime Hadoop
Realtime
time Kafka Hadoop
Hadoop
DWH
consumers
consumers
consumers
Volume

20B events/day

3 terabytes/day

150K events/sec
Message queues Log aggregators

ActiveMQ Flume
KAFKA
TIBCO Scribe

Low throughput Focus on HDFS

Secondary indexes Push model

Tuned for low No rewindable

latency consumption
What Kafka offers
Very high performance

Elastically scalable

Low operational overhead

Durable, highly available (coming soon)

Architecture
Producer Producer

Broker Broker ZK Broker Broker

Consumer Consumer
Outline
Introduction to pub-sub

Kafka at LinkedIn

Hadoop and Kafka

Design

Performance
Efficiency #1: simple storage
Each topic has an ever-growing log
A log == a list of files
A message is addressed by a log offset
Efficiency #2: careful transfer
Batch send and receive

No message caching in JVM

Rely on file system buffering

Zero-copy transfer: file -> socket

Multi subscribers
1 file system operation per request

Consumption is cheap

SLA based message retention

Rewindable consumption
Guarantees
Data integrity checks

At least once delivery

In order delivery, per partition

Automatic load balancing
Producer Producer

Broker Broker

Consumer Consumer
Auditing

# events published = # events consumed

Outline
Introduction to pub-sub

Kafka at LinkedIn

Hadoop and Kafka

Design

Performance
Performance
2 Linux boxes
16 2.0 GHz cores
6 7200 rpm SATA drive RAID 10
24GB memory
1Gb network link

200 byte messages

Producer batch size 200 messages
Basic performance metrics
Producer batch size = 40K
Consumer batch size = 1MB
100 topics, broker flush interval = 100K

Producer throughput = 90 MB/sec

Consumer throughput = 60 MB/sec
Consumer latency = 220 ms
Latency vs throughput
(100 topics, 1 producer, 1 broker)
250

200
Consumer latency in ms

150

100

0
0 20 40 60 80 100

Producer throughput in MB/sec

Scalability
(10 topics, broker flush interval 100K)
400
381
350

300 293
Throughput in MB/s

250

200 190
150

100 101
50

0
1 broker 2 brokers 3 brokers 4 brokers
Throughput vs Unconsumed data
(1 topic, broker flush interval 10K)
200000

160000
Throughput in msg/s

120000

80000

40000

0
10
105

945
199
294
388
473
567
662
756
851

1039
Unconsumed data in GB
State of the system
4 clusters per colo, 4 servers each
850 socket connections per server
20 TB
430 topics
Batched frontend to offline datacenter latency
=> 6-10 secs
Frontend to Hadoop latency => 5 min
State of the system
Successfully deployed in production at LinkedIn
and other startups
Apache incubator inclusion
0.7 Release
Compression
Cluster mirroring
Replication
Some project ideas
Security

Long poll

More compression codecs

Locality of consumption
Team
Jay Kreps
Jun Rao
Neha Narkhede
Joel Koshy
Chris Burroughs
THANK YOU
http://incubator.apache.org/kafka/index.html
kafka-users@incubator.apache.org
http://www.linkedin.com/in/nehanarkhede
@nehanarkhede
#kafka
API

Você também pode gostar

Kafka Up and Running for Network DevOps: Set Your Network Data in Motion
No Everand
Kafka Up and Running for Network DevOps: Set Your Network Data in Motion
Eric Chou
Ainda não há avaliações
20 Best Practices For Working With Apache Kafka at Scale - DZone Big Data
Documento10 páginas
20 Best Practices For Working With Apache Kafka at Scale - DZone Big Data
Suresh Maruthirao
Ainda não há avaliações
Learn Hive in 24 Hours
No Everand
Learn Hive in 24 Hours
Alex Nordeen
Ainda não há avaliações
Apache Kafka Description
Documento36 páginas
Apache Kafka Description
Roy Antonius
Ainda não há avaliações
Exploring Hadoop Ecosystem (Volume 1): Batch Processing
No Everand
Exploring Hadoop Ecosystem (Volume 1): Batch Processing
Wei Liu
Ainda não há avaliações
Getting To Know Kafka: Ola Is The First Course in The Series of Courses Covering All The Aspects of Kafka
Documento23 páginas
Getting To Know Kafka: Ola Is The First Course in The Series of Courses Covering All The Aspects of Kafka
Mahesh VP
Ainda não há avaliações
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
No Everand
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
Wei Liu
Ainda não há avaliações
Kafka Producer Internals: Find Answers On The Fly, or Master Something New. Subscribe Today
Documento1 página
Kafka Producer Internals: Find Answers On The Fly, or Master Something New. Subscribe Today
Dallas Guy
Ainda não há avaliações
Configuring Kafka For High Throughput
Documento11 páginas
Configuring Kafka For High Throughput
nilesh86378
Ainda não há avaliações
Apache Kafka - Introduction
Documento2 páginas
Apache Kafka - Introduction
mapa2509
Ainda não há avaliações
Kafka
Documento50 páginas
Kafka
Emanuele Parente
Ainda não há avaliações
Apache Kafka Tutorial
Documento3 páginas
Apache Kafka Tutorial
Mario Soares
Ainda não há avaliações
Cloudurable Kafka Tutorial v1 PDF
Documento79 páginas
Cloudurable Kafka Tutorial v1 PDF
akash b
Ainda não há avaliações
Kafka Reference Architecture
Documento12 páginas
Kafka Reference Architecture
mbhangale
Ainda não há avaliações
Spark Kafkaintegration PDF
Documento71 páginas
Spark Kafkaintegration PDF
ehenry
100% (1)
Netflix's Evolution of Their Data Pipeline with Kafka
Documento49 páginas
Netflix's Evolution of Their Data Pipeline with Kafka
VadlamaniKalyan
Ainda não há avaliações
ETL A Clear and Concise Reference
No Everand
ETL A Clear and Concise Reference
Gerardus Blokdyk
Ainda não há avaliações
Getting Started with Big Data Query using Apache Impala
No Everand
Getting Started with Big Data Query using Apache Impala
Agus Kurniawan
Ainda não há avaliações
Apache Cassandra Essentials
No Everand
Apache Cassandra Essentials
Padalia Nitin
Nota: 4 de 5 estrelas
4/5 (1)
BMC Control-M 7: A Journey from Traditional Batch Scheduling to Workload Automation
No Everand
BMC Control-M 7: A Journey from Traditional Batch Scheduling to Workload Automation
Qiang Ding
Ainda não há avaliações
Data Lake Architecture Strategy A Complete Guide - 2021 Edition
No Everand
Data Lake Architecture Strategy A Complete Guide - 2021 Edition
Gerardus Blokdyk
Ainda não há avaliações
Kubernetes A Complete Guide
No Everand
Kubernetes A Complete Guide
Gerardus Blokdyk
Ainda não há avaliações
Kubernetes: Preparing for the CKA and CKAD Certifications
No Everand
Kubernetes: Preparing for the CKA and CKAD Certifications
Philippe Martin
Ainda não há avaliações
DevOps in the Enterprise Complete Self-Assessment Guide
No Everand
DevOps in the Enterprise Complete Self-Assessment Guide
Gerardus Blokdyk
Ainda não há avaliações
IBM DB2 Administration Guide: Installation, Upgrade and Configuration of IBM DB2 on RHEL 8, Windows 10 and IBM Cloud (English Edition)
No Everand
IBM DB2 Administration Guide: Installation, Upgrade and Configuration of IBM DB2 on RHEL 8, Windows 10 and IBM Cloud (English Edition)
A S Bluck
Ainda não há avaliações
Apache Kafka - Basic Operations
Documento6 páginas
Apache Kafka - Basic Operations
pradeep kothapally
Ainda não há avaliações
Cassandra High Availability
No Everand
Cassandra High Availability
Robbie Strickland
Nota: 4.5 de 5 estrelas
4.5/5 (3)
The Book on DevOps: Guaranteed Success Systems for the Marketplace
No Everand
The Book on DevOps: Guaranteed Success Systems for the Marketplace
Magbor Atem
Ainda não há avaliações
Red Hat OpenShift A Complete Guide - 2021 Edition
No Everand
Red Hat OpenShift A Complete Guide - 2021 Edition
Gerardus Blokdyk
Nota: 1 de 5 estrelas
1/5 (1)
Kubernetes A Complete Guide - 2019 Edition
No Everand
Kubernetes A Complete Guide - 2019 Edition
Gerardus Blokdyk
Ainda não há avaliações
NiFi A Complete Guide - 2021 Edition
No Everand
NiFi A Complete Guide - 2021 Edition
Gerardus Blokdyk
Ainda não há avaliações
Kafka Sparkstreaming
Documento75 páginas
Kafka Sparkstreaming
Dastagiri Saheb
Ainda não há avaliações
Kubernetes A Complete Guide - 2021 Edition
No Everand
Kubernetes A Complete Guide - 2021 Edition
Gerardus Blokdyk
Ainda não há avaliações
Learn How Kafka Connect Works
Documento4 páginas
Learn How Kafka Connect Works
nilesh86378
Ainda não há avaliações
Kafka Cloudera Documentation
Documento175 páginas
Kafka Cloudera Documentation
Vishakha Singh
Ainda não há avaliações
Practical OneOps
No Everand
Practical OneOps
Nilesh Nimkar
Ainda não há avaliações
MuleSoft A Complete Guide - 2020 Edition
No Everand
MuleSoft A Complete Guide - 2020 Edition
Gerardus Blokdyk
Ainda não há avaliações
Apache Hive Cookbook
No Everand
Apache Hive Cookbook
Shrey Mehrotra
Ainda não há avaliações
Hadoop Cluster Deployment
No Everand
Hadoop Cluster Deployment
Danil Zburivsky
Ainda não há avaliações
Kafka Streams - Real-time Streams Processing
No Everand
Kafka Streams - Real-time Streams Processing
Prashant Kumar Pandey
Nota: 5 de 5 estrelas
5/5 (2)
Infrastructure As A Code A Complete Guide - 2021 Edition
No Everand
Infrastructure As A Code A Complete Guide - 2021 Edition
Gerardus Blokdyk
Ainda não há avaliações
Creating Development Environments with Vagrant - Second Edition
No Everand
Creating Development Environments with Vagrant - Second Edition
Michael Peacock
Ainda não há avaliações
DevOps Complete Self-Assessment Guide
No Everand
DevOps Complete Self-Assessment Guide
Gerardus Blokdyk
Ainda não há avaliações
Application Observability with Elastic: Real-time metrics, logs, errors, traces, root cause analysis, and anomaly detection
No Everand
Application Observability with Elastic: Real-time metrics, logs, errors, traces, root cause analysis, and anomaly detection
Navin Sabharwal
Ainda não há avaliações
HBase High Performance Cookbook
No Everand
HBase High Performance Cookbook
Ruchir Choudhry
Ainda não há avaliações
Apache Kafka Key Concepts
Documento8 páginas
Apache Kafka Key Concepts
sayhi2sudarshan
100% (1)
Mastering Azure Synapse Analytics: Learn how to develop end-to-end analytics solutions with Azure Synapse Analytics (English Edition)
No Everand
Mastering Azure Synapse Analytics: Learn how to develop end-to-end analytics solutions with Azure Synapse Analytics (English Edition)
Debananda Ghosh
Ainda não há avaliações
Red Hat Ansible A Complete Guide - 2019 Edition
No Everand
Red Hat Ansible A Complete Guide - 2019 Edition
Gerardus Blokdyk
Ainda não há avaliações
Hadoop 2.x Administration Cookbook
No Everand
Hadoop 2.x Administration Cookbook
Gurmukh Singh
Ainda não há avaliações
Mastering Apache Camel
No Everand
Mastering Apache Camel
Jean-Baptiste Onofré
Ainda não há avaliações
Pentaho 3.2 Data Integration Beginner's Guide
No Everand
Pentaho 3.2 Data Integration Beginner's Guide
Maria Carina Roldan
Ainda não há avaliações
Big Data Architecture A Complete Guide - 2019 Edition
No Everand
Big Data Architecture A Complete Guide - 2019 Edition
Gerardus Blokdyk
Ainda não há avaliações
DevOps Tools Standard Requirements
No Everand
DevOps Tools Standard Requirements
Gerardus Blokdyk
Ainda não há avaliações
Opa Application Development
No Everand
Opa Application Development
Li Wenbo
Ainda não há avaliações
Instant Pentaho Data Integration Kitchen
No Everand
Instant Pentaho Data Integration Kitchen
Sergio Ramazzina
Ainda não há avaliações
MuleSoft Third Edition
No Everand
MuleSoft Third Edition
Gerardus Blokdyk
Ainda não há avaliações
OpenStack Networking Essentials
No Everand
OpenStack Networking Essentials
Denton James
Ainda não há avaliações
Cloud Development and Deployment with CloudBees
No Everand
Cloud Development and Deployment with CloudBees
Nicolas De loof
Ainda não há avaliações
MySQL Administrator's Bible
No Everand
MySQL Administrator's Bible
Sheeri K. Cabral
Nota: 4.5 de 5 estrelas
4.5/5 (1)
Elasticsearch 5.x Cookbook - Third Edition
No Everand
Elasticsearch 5.x Cookbook - Third Edition
Alberto Paro
Ainda não há avaliações
Rampage III Formula
Documento172 páginas
Rampage III Formula
pabthecano
Ainda não há avaliações
Mohamed Murtada Yassin Mustafa: Education
Documento3 páginas
Mohamed Murtada Yassin Mustafa: Education
Konj Mohamed
Ainda não há avaliações
OPM Batch API's Working Code
Documento6 páginas
OPM Batch API's Working Code
Rama Brahma Reddy
100% (1)
Dell Optiplex 9010 Aio Spec Sheet PDF
Documento2 páginas
Dell Optiplex 9010 Aio Spec Sheet PDF
ninok designer
Ainda não há avaliações
Implement priority queue using array
Documento3 páginas
Implement priority queue using array
Eced
Ainda não há avaliações
Eonstor Ds Series
Documento15 páginas
Eonstor Ds Series
VanBelkumW
Ainda não há avaliações
WEEK 4 MTD3043 Requirements Modelling
Documento2 páginas
WEEK 4 MTD3043 Requirements Modelling
paishh channel
Ainda não há avaliações
Aspire 7750z PDF
Documento274 páginas
Aspire 7750z PDF
Toni011973
Ainda não há avaliações
BDB Prog Reference
Documento344 páginas
BDB Prog Reference
junk email
Ainda não há avaliações
TCS Topics Pattern
Documento4 páginas
TCS Topics Pattern
Akshay Kayapak
Ainda não há avaliações
Pankaj Full-Stack-Developer Resume
Documento2 páginas
Pankaj Full-Stack-Developer Resume
sajekar04
Ainda não há avaliações
Chapter - 001: Computer Fundamental & History
Documento33 páginas
Chapter - 001: Computer Fundamental & History
PRAVINIT
Ainda não há avaliações
PDF viewer update needed
Documento1 página
PDF viewer update needed
Jan Uriel David
Ainda não há avaliações
Greenpacket UT-235 Radio Functionality Test Report
Documento13 páginas
Greenpacket UT-235 Radio Functionality Test Report
mmlipu.ios
Ainda não há avaliações
Samsung SRP 350 Guia Del Usuario
Documento22 páginas
Samsung SRP 350 Guia Del Usuario
Jose Muñoz
Ainda não há avaliações
BIOS Handbook D25xx: Description
Documento74 páginas
BIOS Handbook D25xx: Description
Ioana Bulgariu
Ainda não há avaliações
Enable Remote Connection On SQL Server 2008 Express
Documento56 páginas
Enable Remote Connection On SQL Server 2008 Express
Irfan Raza
Ainda não há avaliações
Tib RV CPP Reference
Documento422 páginas
Tib RV CPP Reference
Michael Horii
Ainda não há avaliações
ENCOR 350-401 June 2023-v1.8
Documento572 páginas
ENCOR 350-401 June 2023-v1.8
CCIEHOMER
Ainda não há avaliações
All in One Computer Programming
Documento203 páginas
All in One Computer Programming
azuanr830
100% (5)
G Programming Reference Manual
Documento592 páginas
G Programming Reference Manual
pelouse23
Ainda não há avaliações
HP Server Automation
Documento34 páginas
HP Server Automation
dsunte
Ainda não há avaliações
Huawei MT7-L09 rollback to EMUI 3.1 Android 5.1
Documento5 páginas
Huawei MT7-L09 rollback to EMUI 3.1 Android 5.1
william
Ainda não há avaliações
Hardware Rac 2000 Ps English
Documento42 páginas
Hardware Rac 2000 Ps English
Anonymous 7mJFgWyIqT
100% (2)
Dhi-Nvr4108/4116Hs-8P-4Ks2: 8/16 Channel Compact 1U 8poe 4K&H.265 Lite Network Video Recorder
Documento3 páginas
Dhi-Nvr4108/4116Hs-8P-4Ks2: 8/16 Channel Compact 1U 8poe 4K&H.265 Lite Network Video Recorder
Jimmy Andres Arias Trujillo
Ainda não há avaliações
Table of Contents: Lexmark X734de, X736de, X738de, X738dte MFP 7526
Documento582 páginas
Table of Contents: Lexmark X734de, X736de, X738de, X738dte MFP 7526
jay p
Ainda não há avaliações
Array in C Programming
Documento9 páginas
Array in C Programming
basti
Ainda não há avaliações
DMIS Note Analyzers With Separated Scenarios For ABAP-based Migration and Replication Technology (DMIS2011/DMIS2018/DMIS2020/SAP S/4HANA)
Documento5 páginas
DMIS Note Analyzers With Separated Scenarios For ABAP-based Migration and Replication Technology (DMIS2011/DMIS2018/DMIS2020/SAP S/4HANA)
Anonymous mZ54AbOu
Ainda não há avaliações
Introduction To Java Programming - Tutorial
Documento50 páginas
Introduction To Java Programming - Tutorial
crow250
Ainda não há avaliações
Mastering JavaScript High Performance - Sample Chapter
Documento20 páginas
Mastering JavaScript High Performance - Sample Chapter
Packt Publishing
Ainda não há avaliações