Você está na página 1de 77

Big Data

Professor Léo Matos


Diferença entre dados estruturados
e não estruturados
Estruturados: São organizados em linhas e
colunas, planilhas. Geralmente são encontrados
em banco de dados relacionais, são eficientes
quanto à recuperação e processamento.
Não estruturados: Referem-se a dados que não
podem ser organizados em linhas e colunas,
como vídeos, e e-mails. Geralmente são dados
de difícil acesso e recuperação e muitas vezes
não dispõem de componentes necessários para
identificação de tipo de processamento e
interpretação, tornando o seu uso um desafio.
Dados não estruturados compõem a rede. De todos
os dados do mundo que foram gerados nos últimos
anos apenas 10% destes dados estão estruturados.
Os 90% restantes estão desestruturados e se
reúnem na sua grande parte nas redes sociais como
Facebook, Twitter, Pinterest, entre outras.
Dados
10%

90%

Estruturados Não Estruturados


NOSQL

• Não são relacionais, mas pode conter


relacionamentos.
• Diferentes modelos/formas de armazenamento
(grafos, documentos, chave/valor, colunas).
COLUNA

Este tipo difere bastante do modelo relacional, em que uma


linha representa um conjunto de dados relacionados (com
cada um destes últimos correspondendo a colunas):
• Em termos práticos, a organização dos dados ocorre com
base em colunas;
• Dados de colunas distintas representando um mesmo
agrupamento ocupam as mesmas posições no banco.
• Tolerância ao particionamento e disponibilidade.
• Um chave e muitas colunas
• Dados desnormalizados
Orientado a linhas
Orientado a colunas
Ótimo para registro de eventos
DOCUMENTOS

A definição geral apresentada é que os Bancos de


Dados orientados a Documentos utilizam o conceito de
dados e documentos autocontidos e auto descritivos, e
isso implica que o documento em si já define como ele
deve ser apresentado e qual é o significado dos dados
armazenados na sua estrutura.
Ótimo para blogs, análise estatísticas
Yaml
Jason
XML
CHAVE-VALOR
Como o próprio nome sugere, os bancos que se
encaixam nesta classificação são formados por
conjuntos de chaves e seus respectivos valores. Cada
um destes conjuntos, por sua vez, conta ainda com
uma chave que funciona como um identificador único:
Muito usado para perfis de usuários e senhas
ORIENTADO A GRAFOS
Bancos deste tipo empregam conceitos da teoria de
grafos para a representação de relacionamentos entre
diferentes conjuntos de dados. Uma das soluções mais
conhecidas baseadas neste modelo é o Neo4j.
• Contém nós (entidades) e arestas (relacionamentos)
• Os relacionamentos podem possuir dados
• As consultas são feitas através de transversals
(passagens)
Data Mining
(Mineração de dados)
A mineração de dados é o uso da tecnologia da
informação para descobrir regras, identificar fatores
e tendências-chave, descobrir padrões e
relacionamentos ocultos em grandes bancos de
dados para auxiliar a tomada de decisões sobre
estratégia e vantagens competitivas.
Data Warehouse
Introdução

• O grande problema de uma organização é extrair


informações para tomar decisões (Fax, e-mail,
correio, conversas, compras).

• Dados referentes a uma empresa pode estar em


diferentes sistemas diferentes (txt, banco de
dados)
Conceito: O data warehouse nada mais é do que
um “depósito de dados”. Sua função principal é o
armazenamento de informações de um banco de
dados referente a uma ou mais atividades de
uma empresa de forma consolidada, voltada à
tomada de decisões.
Características
• Não volátil
• Integrado
• Orientado por assunto
• Históricos
Não volátil

A característica de não volatilidade está


relacionada ao fato de que o conteúdo do Data
Warehouse permanece estável por longos
períodos de tempo. Os dados são
disponibilizados apenas para consulta.
Integrado

A integração é uma das principais características do Data


Warehouse, é nela que se define a representação única
para os dados provenientes dos mais diversos sistemas
de informação que irão compor a base de dados do Data
Warehousing.

Exemplo: Todas as medidas (cm, jardas, polegadas) são


transformadas para metros.
Orientado por assunto

O fato de ser orientado por assunto faz com que os


dados sejam referentes aos temas de maior interesse
das organizações. Estes temas podem ser clientes,
produtos, promoções. Esta abordagem leva em
consideração apenas entidades de alto nível, centrada
apenas nos dados que sejam relevantes ao processo de
tomada de decisão e geralmente suas estruturas não
obedecem a uma forma normalizada.
Históricos

O fato dos dados serem históricos torna possível uma


ferramenta muito importante para as análises de tomadas de
decisões, que é a análise de tendência. Em um sistema
convencional os dados armazenados refletem a posição atual
dos dados no exato momento da pesquisa. Já em um sistema
Data Warehousing, para cada mudança relevante no ambiente
operacional é criada uma nova entrada no Data Warehouse, a
qual contém um componente de tempo associado implícita ou
explicitamente. Isto torna possível a análise de tendência, pois
dados referentes a anos de funcionamento das instituições
estão disponíveis para consultas.
Objetivos: A possibilidade de manipular dados e
formas de apresentação de maneira rápida é um dos
pontos fortes de um data warehouse.

Exemplo teórico: Um site de vendas quer que o seu


cliente, ao entrar no site, veja produtos similares aos
que ele já havia comprado ou olhado.
ETL – Extração, Transformação e Carga

No ambiente de data warehouse, os dados são


inicialmente extraídos de sistemas operacionais e de
fontes externas, posteriormente integrados e
transformados (limpos, eliminados, combinados,
validados, consolidados, agregados e sumarizados),
antes de serem carregados no data warehouse.
Extração: É a coleta de dados dos sistemas de origem
(também chamados Data Sources ou sistemas
operacionais), extraindo-os e transferindo-os para o
ambiente de DW, onde o sistema de ETL pode operar
independente dos sistemas operacionais.
Limpeza, Ajustes e Consolidação (ou também
chamada transformação): É nesta etapa que
realizamos os devidos ajustes, podendo assim melhorar
a qualidade dos dados e consolidar dados de duas ou
mais fontes.
Entrega ou Carga dos dados: Consiste em fisicamente
estruturar e carregar os dados para dentro da camada
de apresentação seguindo o modelo dimensional.
Dependendo das necessidades da organização, este
processo varia amplamente..
Data Warehouse x Data Mart
Data Mart: Um Data Mart é um pequeno Data Warehouse,
ou seja, um pequeno armazenamento de dados, que
fornece suporte à decisão de um pequeno grupo de
pessoas. Os Data Marts atendem às necessidades de
unidades específicas de negócios, ao invés da corporação
como um todo; Eles otimizam o fornecimento de
informações de suporte à decisões e focam a gerência
sumarizada e/ou dados exemplificativos ao invés do
histórico de níveis atomizados; Eles podem ser apropriados
e gerenciados por pessoal de fora do departamento de
informática das corporações.
DataWarehouse X Data Mart
A diferença entre um DW e um DM basicamente consiste no
volume de dados, abrangência e foco. Enquanto o DW foca na
organização como um todo os DM´s focam em um
determinado departamento ou conjunto específico de usuário,
por exemplo.
Base de Dados Data Warehouse

Utilizador Tipo Informáticos / Funcionários Gestores /


especializados Administração

Domínio Tarefas rotineiras e Decisões estratégicas


operacionais
Objeto Transações Análise de dados
Estrutura de Dados Aplicacional Orientado a temas

OLTP "On-line Transaction


OLAP, "On-line Analytical Processing
Processing"
Conceito
Big data é um termo que descreve o grande
volume de dados — tanto estruturados quanto
não-estruturados que não podem ser
processados por ferramentas convencionais.
Big data são dados cuja escala, diversidade e
complexidade exigem novas arquiteturas,
técnicas, algoritmos e análises para gerenciá-
los e extrair valor e conhecimento oculto deles.
BIG DATA
5V
• Volume
• Velocidade
• Variedade
• Veracidade
• Valor
Onde está o Big Data
• Walmart lida com mais de 1 milhão de transações
de clientes a cada hora.
• Facebook processa 40 bilhões de fotos a partir de
sua base de usuários.
• Google processa 20 PB por dia Facebook tem 2,5 PB
de dados de usuários + 15TB / dia em 2009 e Bay
tem 6,5 PB de dados do usuário + 50 TB / dia
EM 2013 O UNIVERSO DIGITAL ERA DE

4.4 ZETTABYTES
Zetta Exa Peta Tera Giga Mega Kilo Byte

4,400,000,000,000,000,000,000
Source: 2010 IDC Digital Universe Study
EM 2020 O UNIVERSO DIGITAL SERÁ

44 ZETTABYTES
Zetta Exa Peta Tera Giga Mega Kilo Byte
44,000,000,000,000,000,000,000
Source: 2010 IDC Digital Universe Study
VOLUME
uma grande quantidade de dados gerada a cada
segundo. Pense em todos os e-mails, mensagens de
Twitter, fotos e vídeos que circulam na rede a cada
instante. A tecnologia do Big Data serve exatamente
para lidar com esse volume de dados, guardando-os
em diferentes localidades e juntando-os através de
software.
VARIEDADE
No passado, a maior parte dos dados era
estruturada e podia ser colocada em tabelas e
relações. Hoje, 80% dos dados do mundo não
se comportam dessa forma. Com o Big Data,
mensagens, fotos, vídeos e sons, que são
dados não-estruturados, podem ser
administrados juntamente com dados
tradicionais.
VELOCIDADE
Se refere à velocidade com que os dados são criados.
São mensagens de redes sociais se viralizando em
segundos, transações de cartão de crédito sendo
verificadas a cada instante ou os milissegundos
necessários para calcular o valor de compra e venda
de ações. O Big Data serve para analisar os dados no
instante em que são criados, sem ter de armazená-
los em bancos de dados.
VERACIDADE
Um dos pontos mais importantes de qualquer
informação é que ela seja verdadeira. Com o Big Data
não é possível controlar cada hashtag do Twitter ou
notícia falsa na internet, mas com análises e
estatísticas de grandes volumes de dados é possível
compensar as informações incorretas.
VALOR
O último V é o que torna Big Data relevante: tudo
bem ter acesso a uma quantidade massiva de
informação a cada segundo, mas isso não adianta
nada se não puder gerar valor. É importante que
empresas entrem no negócio do Big Data, mas é
sempre importante lembrar dos custos e benefícios e
tentar agregar valor ao que se está fazendo.
Quem está Gerando Big Data?
• Redes de Mídias Sociais
(Todos nós geramos dados)
• Instrumentos Científicos
(coletando todos os tipos de dados)
• Dispositivos Móveis
(Rastrando todos os objetos o tempo
todo)
Redes de sensors de tecnologia
(Medindo todos os tipos de dados)
Aplicação
Big data enfatizam o emprego de ferramentas
analíticas de nova geração (Hadoop, NoSQL)
Hadoop
• Um projeto desenvolvido e mantido pela
Apache Software Foundation
• Um framework de código aberto para o
processamento de software em larga escala
• Garante alto desempenho utilizando
arquitetura em cluster
CLUSTER O nome dado a um sistema que
relaciona dois ou mais computadores para
que estes trabalhem de maneira conjunta
no intuito de processar uma tarefa. Estas
máquinas dividem entre si as atividades
de processamento e executam este
trabalho de maneira simultânea.
ESCALABILIDADE
MODELO DE PROGRAMAÇÃO (MAPREDUCE)
Fase 1: Mapeamento
Na primeira fase, chamada de Map (mapeamento), os dados
são separados em pares de chave e valor, divididos em
fragmentos e distribuídos para os nodes, onde serão
processados.

Fase 2: Redução
Depois disso, acontece a etapa de Reduce (redução), que é a
combinação dos processamentos dos nodes por um master
node. É ele que entregará uma resposta única à requisição
realizada pelo usuário.
O HDFS é implementado em uma arquitetura
mestre/escravo:

(1)Namenode: Administra os dados.


(2)Datanode: Armazena os dados.

Você também pode gostar