Você está na página 1de 12

@RANIFPASSOS

BIG DATA

CONCEITO TIPOS DE DADOS


Termo que descreve o imenso volume de dados DADOS ESTRUTURADOS
- Relacionado aos dados de todo o mundo
-Dados que possuem padrões regras e formatos:
São dados estruturados e não estruturados
-
-Para criação, utilização, exibição e armazenamento
-Considera dados provenientes de diferentes fontes
-Geralmente são classificações de linhas e colunas
-Não precisam estarem necessariamente relacionados com
-Normalmente ocupam menos espaços de armazenamento
o banco local
- Exemplos: Dados de um BD, planilhas (Excel e Calc),
-Exemplo: BD interno de uma organização e também dados
arquivos CSV...
externos ao ambiente.

-O mais comum é a pesquisa web sobre dados


DADOS NÃO ESTRUTURADOS
-Ex.: Messengers, redes sociais, sites de pesquisas... -Dados que não seguem padrões, formatos, regras...
-Um BD pode conter dados que não apresentam um -São arquivos de diversas estruturas
padrão -Textos diversos: sites, relatórios, documentos, e-mails,
-Denominados outliers. mensagens de WhatsApp...
- Considerados como exceções no BD
-Arquivos de áudio, vídeos, fotos, PDF...
-São uteis para a detecção de fraudes, por exemplo.
-Redes sociais, blogs, Facebook, Twitter, Instagram...
-É possível receber dados de variadas fontes
-Os sistemas podem compreendê-los e organizá-los
-Exemplo: Televisão, Rádio, Internet...
-É possível converter para dados estruturados

-É a grande maioria dos dados da bigdata

@CARREGAR0AC0NCURSEIRA
@RANIFPASSOS

DADOS SEMI-ESTRUTURADOS FONTE DE DADOS


- São os dados que apresentam formatações heterogêneas
- Possuem estruturas mas não segue o padrão formal
ESTRUTURADOS
- Não são elementos em formatos de tabelas SEMI-ESTRUTURADOS

- Muitas vezes a estrutura básica para os dados está

implícita
NÃO
- Possuem padrões flexíveis e estruturas parciais ESTRUTURADOS

- Apenas parte dos dados possuem alguma estrutura,

- Exemplo: Dados de E-mail, Arquivos XML, HTML...

AMBIENTES DE ARMAZENAMENTO PARA


BIG DATA
DATA LAKE
- Os dados são armazenados de forma bruta

- Não passam por refinamento ou tratamento

- Armazena vários tipos de dados

- Estruturados, não estruturados e semiestruturados


ANALYTICS
- As ferramentas são mais difíceis de usar APRENDIZADO DE MÁQUINA

@CARREGAR0AC0NCURSEIRA
@RANIFPASSOS

DATA WAREHOUSE
-Considerado um sistema de BD convencional

-Armazena informações importantes para a organização

-Dados coletados internamente ou externamente

-Auxilia na tomada de decisões

-Armazena vários tipos de dados

-Estruturados, não estruturados e semiestruturados

- Preferencialmente em dados estruturados


-Os dados são tratados para armazenamento

-Opera com a Data Cleansing


-Detecta, valida e corrige erros (dados corrompidos ou
desnecessários)
- O sistema pode ser subdividido (DATA MART)

DATA MART
- São subdivisões da Data Warehouse

- Armazenam dados específicos de cada setor

OLAP
- Online Analytical Processing
CARACTERÍSTICAS DO DATAWARE HOUSE
- Processo Analítico em Tempo Real - Não é volátil: não muda com facilidade

- Permite operar com grande quantidade de dados - É orientado por assunto: temas específicos

diferentes - É integrado: consistente

- Baseado em regras específicas de análises -É histórico: histórico mantido

@CARREGAR0AC0NCURSEIRA
@RANIFPASSOS

NOSQL: ARMAZENAMENTO;
Não armazenam dados em tabelas. Utilizam modelos
Manipular Banco de Dados distribuidos e não relacionais,
diferentes de armazenamento de dados.
em que não há estruturas de tabelas. Dados não

estruturados. Em web de tempo real com a finalidade de

atender aos requisitos de gerenciamento de grandes

volumes de dados qu.e necessitam de alta disponibilidade

e escalabilidade.

TIPOS DE ARMAZENAMENTO
Chave-valor: mapeamento ou dicionário

Orientado a documentos - documentos flexíveis ,

semiestruturados

Orientado a grafos: Redes sociais , mecanismos de

recomendação e detecção de fraudes

Orientado a colunas(family): semelhante ao modelo

relacional , porém em colunas e subcolunas

@CARREGAR0AC0NCURSEIRA
@RANIFPASSOS

5V'S VALOR
VOLUME - Os dados são os bens mais preciosos de uma

- Diariamente grandes volumes de dados são criados organização

- Zetabytes, Yottabytes, Brontobytes... - Dados geram valores para uma organização

- É preciso compreender e gerenciar esses dados - Valores financeiros, estruturais, conhecimento...

- Exemplos: e-mails, transações bancárias, redes sociais,

chamadas telefônicas, rádio, TV... VARIEDADE (VARIABILIDADE ou COMPLEXIDADE)


- Relacionado a enorme variedade dos dados existentes

VERACIDADE - Como tratar os dados, armazenar, utilizar...

- Combater as informações falsas (Fake News) - Dados possuem vários tamanhos, conteúdo, tipos...

- Essas informações podem gerar problemas

- Dados desatualizados ou incompletos também são


VOLUME

tratados
VERACIDADE
- Para resolver isso são utilizadas ferramentas especiais

- Apurar a relevância dos dados para a empresa


VARIEDADE

VELOCIDADE
- Relacionado à velocidade na criação dos dados

- Relacionado à busca pelos dados em tempo real VELOCIDADE


- Compreensão e tratamento dos dados VALOR
- Utilização dos dados antes de desatualizar, corromper...

- A velocidade na obtenção dos dados é uma vantagem

@CARREGAR0AC0NCURSEIRA
@RANIFPASSOS

METADADOS VANTAGENS:
- Auxiliar em análises estatísticas e controle de
- Metadados são também Metainformação
informações
- “Meta” significa “além de”
- Facilitar a classificação sobre o tipo dos dados
- São informações sobre os dados (arquivos)
- Tornar mais fácil a organização dos dados
- Estão anexadas aos dados
- Facilitar o relacionamento entre os dados
- Considerado dados sobre os dados

- Muito importante para sistemas e não muito para o


DESVANTAGEM
usuário
- Podem facilitar a quebra de segurança
- Muitas vezes estão ocultas aos usuários
- Pode armazenar informações não desejadas
- Facilita o entendimento de sistemas sobre os dados

- O objetivo é informar detalhes sobre os dados (arquivos)

- Oferece mais informação e descrições sobre os dados


EXEMPLOS
(arquivos)
- PDF

- Descrever a estrutura do dado


- Conteúdo, Autor, Data/Hora de criação e alteração...

- Utiliza uma linguagem inteligível para o computador


- IMAGEM

- Basicamente, todos equipamentos geram metadados - Data, tamanho, formato, Local (aparelhos com GPS)...

- Documentos HTML e XML

- Informações de cadastro (telefones, e-mail, nomes)

- Dados sobre Localização

- Data e hora de ligações, e-mails, arquivos e fotos

- Informações do aparelho utilizado.

@CARREGAR0AC0NCURSEIRA
@RANIFPASSOS

AUTOMÁTICO:
DATA MINING
- Sistema autossuficiente na realização das atividades
-Representado pelo termo Data Mining
- Depende da supervisão humana no sistema
- Mineração: Extrair ou explorar algo
SEMIAUTOMÁTICO:
- Dados: Palavras isoladas, termos, que geram informações
-Precisa de ação humana para descoberta dos dados
- Agiliza a análise de “dados escondidos” e espalhados
-Precisa se supervisão humana e manipulação nos programas.

- É uma solução na descoberta de informações

- Não restringe a mineração apenas a um BD local BI: BUSINESS INTELLIGENCE


(Inteligência de Negócio) é um termo criado pelo Gartner
- Explora “tudo” e colhe o que tem valor para a empresa

Group utilizado para representar um conjunto de processos


- Fontes Digitais

com o intuito de gerar informações e relatórios analíticos que


-A mineração considera padrões, exceções, tendências,

suportem a gestão corporativa, a definição de estratégias e a


regras...

tomada de decisão em ambientes de negócio.


-Potencializa as atividades de uma organização

- Auxilia pessoas na tomada de decisões importantes

- Pode ser feita por variados programas SGBDs

- Esse processo pode descobrir novos padrões de dados

- Programas possuem técnicas de aprendizado

- Reconhecimento de padrões, analise estatística,

inteligência artificial...

- Processo pode ser automático ou semiautomático

@CARREGAR0AC0NCURSEIRA
@RANIFPASSOS

ETL
Processo para alimentar os relatórios. ETL (Extract,
DATA WAREHOUSE:
Não são derivados Data Marts a partir de metadados.
Transform, Load). Em outras palavras, esse processo
Replicação é uma cópia que pode ser realizada do
realiza três operações.
próprio Enterprise Data Warehouse para diversas

Extract: extrai as informações do Banco de dados funcionalidades

transacional

Transform: transforma as informações para o formato DATA MART (DM):


Trata-se de um subconjunto de dados.O Data Mart é
adequado

Load: carrega as informações no data Warehouse considerado um pequeno DW

FONTE DE DADOS:
Sistemas Legados, Point of Sale (POS),Aplicações web e

bancos de dados transacionais

USUÁRIOS
(Ferramentas) OLAP-Relatórios, Mineração de dados e

textos, Aplicações.

@CARREGAR0AC0NCURSEIRA
@RANIFPASSOS

FONTE DE DADOS ETL WAREHOUSE DATA MARTS USUÁRIOS


25

20

15

10

0
Item 1 Item 2 Item 3 Item 4 Item 5

EXTRACT
TRANSFORM
LOAD

@CARREGAR0AC0NCURSEIRA
@RANIFPASSOS

PROCESSO DE KDD
O processo de KDD (Knowledge Discovery in Databases) foi formalizado em 1989 em referência a procura de

conhecimento a partir de bases de dados. Seu objetivo principal é extrair conhecimento de grandes bases dados.

O processo de KDD é composto por cinco fases: seleção de dados, pré-processamento, transformação, mineração e

interpretação/avaliação.

Esse processo é aplicado na identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir

de grandes bases de dados.

OBJETIVOS:
Provisão, Identificação Classificação e Otimização

FONTES DADOS- DADOS DADOS


PADRÕES CONHECIMENTO
DE DADOS ALVOS PROCESSADOS TRANSFORMADOS

SELEÇÃO PROCESSAMENTO TRANSFORMAÇÃO MINERAÇÃO INTERPRETAÇÃO


DE DADOS AVALIAÇÃO

@CARREGAR0AC0NCURSEIRA
@RANIFPASSOS

PREDIÇÃO (PREVISÃO)
TAREFAS
-“Dizer antecipadamente o que vai acontecer”
DESCRIÇÃO -Apresenta consequências de uma ação ou omissão, como
- Descrever novos padrões e tendências
os dados se comportarão no futuro...
-Geralmente revelados pelos dados minerados
-Pode ser por regras já conhecidas ou por adivinhações
-Descrever novos aprendizados adquiridos com a mineração
-Se baseia em conceitos estatísticos e dados já
- Um sistema é capaz de aprender com a mineração
conhecidos
-Auxilia a empresa a se preparar para surpresas e acidentes
CLASSIFICAÇÃO
-Identifica as classes existentes e comparar com os dados
OUTLIERS
-Classes são “tipos de dados”
- Termo em Inglês para EXCEÇÕES
-Auxilia no aprendizado de classificação de novos registros
- Registros importantes encontrados, mas que está
fora do padrão esperado
ASSOCIAÇÃO
- Muitas vezes são descartados
-Compara os atributos minerados
- Quando visto como problemas e não soluções
-Pode identificar possíveis problemas futuros
- Pode servir para detecção de fraudes e outras ações de

segurança
AGRUPAMENTO DE DADOS (CLUSTERING)
-Organiza os dados minerados em grupos

-Pode ser por semelhança ou não


-Utiliza algoritmos específicos para armazenamento

-Algoritmos Particionais: Cria partições

-Algoritmos Hierárquicos: Obedecem hierárquicas

@CARREGAR0AC0NCURSEIRA
@RANIFPASSOS

CONCEITOS APRENDIZADO POR REFORÇO


A aprendizagem por reforço é muito utilizada em
- Em Inglês Machine Learning
sistemas de decisão em tempo real. Neste caso, não
- É um ramo da inteligência artificial
existe um grande conjunto de dados históricos para que
- Método de análise de dados feitos por máquinas
seja gerado um conjunto de treinamento e
- Os sistemas aprendem com dados filtrados
consequentemente seja possível criar um modelo de
- Identificam novos padrões (regras) e tomam decisões
aprendizado. O tempo todo novos dados são criados e
- Agem com o mínimo de intervenção humana possível
processados servindo de combustível para decisões. Uma
- Pode ser supervisionado ou não
boa ilustração de aplicação são sistemas que operam em

ambientes incertos e mutáveis, esse tipo de

APRENDIZAGEM SUPERVISIONADA aprendizagem faz com que robôs ,por exemplo, consigam

- Precisa de humano para oferecer exemplos trafegar por ambientes nunca explorados anteriormente.

- Baseia-se na tarefa da Classificação Outros bons exemplos de aplicação são em sistemas de

- Comparar as classes apresentadas para minerar decisão em tempo real, tarefas que necessitam de

constante aprendizagem ou até mesmo na aquisição de

APRENDIZAGEM NÃO-SUPERVISIONADA novos conhecimentos.

- Não precisa de humanos oferecendo padrões de dados

- O sistema desenvolve suas próprias conclusões

- A partir de um determinado conjunto de dados já

existentes

@CARREGAR0AC0NCURSEIRA

Você também pode gostar