Você está na página 1de 2

Como

Funciona o HDFS?

Compreender a estrutura do HDFS fundamental para o design de sistemas de processamento
de dados altamente eficientes.

Vejamos alguns conceitos bsicos do HDFS.

Blocos

O Hadoop quebra os arquivos recebidos em blocos e armazena-os de forma redundante em
todo o cluster. Imagine um nico arquivo grande, que dividido em blocos, e os blocos so
distribudos entre os nodes disponveis. Blocos HDFS so geralmente grandes, por padro, 128
MB de tamanho, mas configurveis pelo administrador do sistema.

WORM (Write Once Read Many times)

O Hadoop possui um paradigma diferente dos bancos de dados relacionais. Enquanto nos RDBMS
os dados esto envolvidos em frequentes operaes de leitura e escrita, no Hadoop o paradigma
de gravar um imenso conjunto de dados uma vez e realizar a leitura quantas vezes forem
necessrias.

Replicao de dados

Os dados armazenados em todo o cluster so automaticamente replicados. Isso aumenta sua
confiabilidade e disponibilidade. Por padro, a replicao de arquivos trplice. O HDFS
otimizado para a leitura de grandes volumes de dados, em vez de leituras aleatrias.

Existem dois tipos de ns do cluster Hadoop:

NameNode: mantm o controle (metadados) de blocos que compem um arquivo e tambm a
localizao desses blocos.

DataNodes: armazenam os blocos.

Vamos supor que temos trs grandes arquivos: arquivo1, arquivo2, arquivo4, conforme ilustrado
abaixo. Esses arquivos so divididos em blocos e espalhados por todos os ns do cluster. Por
padro, eles so armazenados de forma trplice nos DataNodes. Informaes sobre onde os

www.datascienceacademy.com.br

pedaos de arquivos podem ser encontrados so armazenados como metadados em um n
chamado NameNode.





Namenode armazena os metadados:

/home/hadoop/arquivo1 1, 2
Metadado /home/hadoop/arquivo2 3, 4, 5
/home/hadoop/arquivo3 6


DataNodes armazena os blocos de dados:

www.datascienceacademy.com.br