Escolar Documentos
Profissional Documentos
Cultura Documentos
Funciona
o
HDFS?
Compreender
a
estrutura
do
HDFS
fundamental
para
o
design
de
sistemas
de
processamento
de
dados
altamente
eficientes.
Vejamos
alguns
conceitos
bsicos
do
HDFS.
Blocos
O
Hadoop
quebra
os
arquivos
recebidos
em
blocos
e
armazena-os
de
forma
redundante
em
todo
o
cluster.
Imagine
um
nico
arquivo
grande,
que
dividido
em
blocos,
e
os
blocos
so
distribudos
entre
os
nodes
disponveis.
Blocos
HDFS
so
geralmente
grandes,
por
padro,
128
MB
de
tamanho,
mas
configurveis
pelo
administrador
do
sistema.
WORM
(Write
Once
Read
Many
times)
O
Hadoop
possui
um
paradigma
diferente
dos
bancos
de
dados
relacionais.
Enquanto
nos
RDBMS
os
dados
esto
envolvidos
em
frequentes
operaes
de
leitura
e
escrita,
no
Hadoop
o
paradigma
de
gravar
um
imenso
conjunto
de
dados
uma
vez
e
realizar
a
leitura
quantas
vezes
forem
necessrias.
Replicao
de
dados
Os
dados
armazenados
em
todo
o
cluster
so
automaticamente
replicados.
Isso
aumenta
sua
confiabilidade
e
disponibilidade.
Por
padro,
a
replicao
de
arquivos
trplice.
O
HDFS
otimizado
para
a
leitura
de
grandes
volumes
de
dados,
em
vez
de
leituras
aleatrias.
Existem
dois
tipos
de
ns
do
cluster
Hadoop:
NameNode:
mantm
o
controle
(metadados)
de
blocos
que
compem
um
arquivo
e
tambm
a
localizao
desses
blocos.
DataNodes:
armazenam
os
blocos.
Vamos
supor
que
temos
trs
grandes
arquivos:
arquivo1,
arquivo2,
arquivo4,
conforme
ilustrado
abaixo.
Esses
arquivos
so
divididos
em
blocos
e
espalhados
por
todos
os
ns
do
cluster.
Por
padro,
eles
so
armazenados
de
forma
trplice
nos
DataNodes.
Informaes
sobre
onde
os
www.datascienceacademy.com.br
pedaos
de
arquivos
podem
ser
encontrados
so
armazenados
como
metadados
em
um
n
chamado
NameNode.
Namenode
armazena
os
metadados:
/home/hadoop/arquivo1
1,
2
Metadado
/home/hadoop/arquivo2
3,
4,
5
/home/hadoop/arquivo3
6
DataNodes
armazena
os
blocos
de
dados:
www.datascienceacademy.com.br