Você está na página 1de 2

TRANSCRIO DO VDEO: O que Hadoop?

PT-BR 1/ 2


Ol a todos e sejam bem-vindos! Meu nome Akmal Chaudhri.

Neste vdeo vamos explicar o que o Hadoop e o conceito de Big Data.

Imagine a seguinte situao: Voc tem 1 GB de dados a serem processados.

Os dados esto armazenados em um banco de dados relacional em seu computador
e esta mquina no tem problema para manipular todo esse contedo.

Ento, a sua empresa se expande rapidamente e o seu banco de dados chega a
10 GB.

E depois chega a 100GB.

A partir deste ponto, o computador usado para armazenar todas essas
informaes passa a trabalhar prxima ao seu limite de processamento.

Devido a esta nova situao, voc redimensiona sua infraestrutura com um
computador com mais capacidade de processamento. Entretanto, este novo
redimensionamento s lhe permitir trabalhar com tranquilidade por mais
alguns meses.

Quando os seus dados cresce at 10TB, e depois 100TB.

E voc comea a se aproximar rapidamente dos limites de processamento por
mais uma vez.

Alm disso, a partir de agora lhe solicitam que alimente a sua aplicao com
dados no estruturados provenientes de fontes como Facebook, Twitter,
leitores de RFID, sensores, e outros.

A gerncia da companhia pretende usar as informaes de ambos os bancos
dados (relacionais e no estruturados), e quer estas informaes o mais
rpido possvel.

O que voc deve fazer? A tecnologia Hadoop pode ser a resposta!

O Hadoop um projeto open source da Fundao Apache.

um framework escrito em Java originalmente desenvolvido por Doug Cutting,
que deu o nome do elefante de brinquedo de seu filho para esta tecnologia.

O Hadoop usa as tecnologias Google's MapReduce e o Google File Sytem em sua
estrutura.

Ele foi otimizado para trabalhar com grandes quantidades de dados que podem
ser dados estruturados, dados no estruturados ou dados semi estruturados,
utilizando o conceito de hardware como commodity, isto , computadores
relativamente baratos.

Este processamento paralelo feito com um timo desempenho. Entretanto,
pela operao ser feita em lotes e manipular grandes quantidades de dados, o
tempo de resposta no imediato.


A partir da verso 0.20.2 do Hadoop, no possvel fazer atualizaes mas a
partir da verso 0,21 ser possvel criar apndices.

TRANSCRIO DO VDEO: O que Hadoop? PT-BR 2/ 2

O Hadoop duplica os dados em vrios computadores, assim, se algum dos
computadores falharem, os dados sero automaticamente processados por outro
computador.

O Hadoop no indicado para processamento de transaes on-line, onde os
dados so acessados aleatoriamente em bancos de dados estruturados como num
banco de dados relacional.

Hadoop, no indicado para aplicaes de processamento analtico on-line
(OLAP) ou aplicaes em sistemas de suporte de deciso (DSS), onde os dados
so acessados de forma sequencial em banco de dados estruturados, como num
banco de dados relacional,

para gerar relatrios que forneam suporte a inteligncia de negcios (BI).

Hadoop indicado para grande quantidades de dados ou Big Data. Ele
complementa o processamento de transaes on-line e o processamento
analtico on-line.

Ele NO um substituto para um sistema de banco de dados relacional.

Ento, o que so grandes quantidades de dados ou Big Data?

Com a enorme quantidade de dados, atualmente, gerada pelos mais diferentes
dispositivos como: leitores de RFID, microfones, cmeras, sensores, e
outros; vemos uma exploso na gerao de dados pelo mundo afora.

O termo Big Data usado para descrever grandes lotes de dados (tambm
conhecido como datasets ou conjuntos de dados) que podem ser dados no
estruturados,

e crescer de forma to rpida e volumosa que se torna difcil o seu
gerenciamento atravs do uso de banco de dados convencionais ou ferramentas
estatsticas.

Alm disso, podemos apresentar outras estatsticas interessantes que
demonstram essa exploso de dados gerados pelo mundo afora como: a
existncia de mais de 2 bilhes de usurios da internet atualmente,

a existncia de mais de 4,6 bilhes de telefones celulares em 2011,

o processamento de 7TB de dados pelo Twitter todos os dias,

e o processamento 10 TB de dados pelo Facebook todos os dias.

Curiosamente, cerca de 80% destes dados so desestruturados.

Com essa quantidade gigantesca de dados, as empresas demandam por uma
anlise mais rpida, confivel, e mais profunda nos dados.

Portanto, as solues do tipo Big Data baseadas em Hadoop e/ou outros
software de anlise esto se tornando cada vez mais relevante.

Você também pode gostar