Mapa - Mental - PF - e - PRF INFO

@RANIFPASSOS
BIG DATA
CONCEITO TIPOS DE DADOS

Termo que descreve o imenso volume de dados DADOS ESTRUTURADOS
- Relacionado aos dados de todo o mundo
-Dados que possuem padrões regras e formatos:
São dados estruturados e não estruturados
-
-Para criação, utilização, exibição e armazenamento
-Considera dados provenientes de diferentes fontes
-Geralmente são classificações de linhas e colunas
-Não precisam estarem necessariamente relacionados com
-Normalmente ocupam menos espaços de armazenamento
o banco local
- Exemplos: Dados de um BD, planilhas (Excel e Calc),
-Exemplo: BD interno de uma organização e também dados
arquivos CSV...
externos ao ambiente.
-O mais comum é a pesquisa web sobre dados

DADOS NÃO ESTRUTURADOS
-Ex.: Messengers, redes sociais, sites de pesquisas... -Dados que não seguem padrões, formatos, regras...
-Um BD pode conter dados que não apresentam um -São arquivos de diversas estruturas
padrão -Textos diversos: sites, relatórios, documentos, e-mails,
-Denominados outliers. mensagens de WhatsApp...
- Considerados como exceções no BD
-Arquivos de áudio, vídeos, fotos, PDF...
-São uteis para a detecção de fraudes, por exemplo.
-Redes sociais, blogs, Facebook, Twitter, Instagram...
-É possível receber dados de variadas fontes
-Os sistemas podem compreendê-los e organizá-los
-Exemplo: Televisão, Rádio, Internet...
-É possível converter para dados estruturados
-É a grande maioria dos dados da bigdata
@CARREGAR0AC0NCURSEIRA
@RANIFPASSOS
DADOS SEMI-ESTRUTURADOS FONTE DE DADOS

- São os dados que apresentam formatações heterogêneas
- Possuem estruturas mas não segue o padrão formal
ESTRUTURADOS
- Não são elementos em formatos de tabelas SEMI-ESTRUTURADOS
- Muitas vezes a estrutura básica para os dados está
implícita
NÃO
- Possuem padrões flexíveis e estruturas parciais ESTRUTURADOS
- Apenas parte dos dados possuem alguma estrutura,
- Exemplo: Dados de E-mail, Arquivos XML, HTML...
AMBIENTES DE ARMAZENAMENTO PARA

BIG DATA
DATA LAKE
- Os dados são armazenados de forma bruta
- Não passam por refinamento ou tratamento
- Armazena vários tipos de dados
- Estruturados, não estruturados e semiestruturados

ANALYTICS
- As ferramentas são mais difíceis de usar APRENDIZADO DE MÁQUINA
@RANIFPASSOS
DATA WAREHOUSE
-Considerado um sistema de BD convencional
-Armazena informações importantes para a organização
-Dados coletados internamente ou externamente
-Auxilia na tomada de decisões
-Armazena vários tipos de dados
-Estruturados, não estruturados e semiestruturados
- Preferencialmente em dados estruturados

-Os dados são tratados para armazenamento
-Opera com a Data Cleansing

-Detecta, valida e corrige erros (dados corrompidos ou
desnecessários)
- O sistema pode ser subdividido (DATA MART)
DATA MART
- São subdivisões da Data Warehouse
- Armazenam dados específicos de cada setor
OLAP
- Online Analytical Processing
CARACTERÍSTICAS DO DATAWARE HOUSE
- Processo Analítico em Tempo Real - Não é volátil: não muda com facilidade
- Permite operar com grande quantidade de dados - É orientado por assunto: temas específicos
diferentes - É integrado: consistente
- Baseado em regras específicas de análises -É histórico: histórico mantido
@RANIFPASSOS
NOSQL: ARMAZENAMENTO;
Não armazenam dados em tabelas. Utilizam modelos
Manipular Banco de Dados distribuidos e não relacionais,
diferentes de armazenamento de dados.
em que não há estruturas de tabelas. Dados não
estruturados. Em web de tempo real com a finalidade de
atender aos requisitos de gerenciamento de grandes
volumes de dados qu.e necessitam de alta disponibilidade
e escalabilidade.
TIPOS DE ARMAZENAMENTO
Chave-valor: mapeamento ou dicionário
Orientado a documentos - documentos flexíveis ,
semiestruturados
Orientado a grafos: Redes sociais , mecanismos de
recomendação e detecção de fraudes
Orientado a colunas(family): semelhante ao modelo
relacional , porém em colunas e subcolunas
@RANIFPASSOS
5V'S VALOR
VOLUME - Os dados são os bens mais preciosos de uma
- Diariamente grandes volumes de dados são criados organização
- Zetabytes, Yottabytes, Brontobytes... - Dados geram valores para uma organização
- É preciso compreender e gerenciar esses dados - Valores financeiros, estruturais, conhecimento...
- Exemplos: e-mails, transações bancárias, redes sociais,
chamadas telefônicas, rádio, TV... VARIEDADE (VARIABILIDADE ou COMPLEXIDADE)

- Relacionado a enorme variedade dos dados existentes
VERACIDADE - Como tratar os dados, armazenar, utilizar...
- Combater as informações falsas (Fake News) - Dados possuem vários tamanhos, conteúdo, tipos...
- Essas informações podem gerar problemas
- Dados desatualizados ou incompletos também são

VOLUME
tratados
VERACIDADE
- Para resolver isso são utilizadas ferramentas especiais
- Apurar a relevância dos dados para a empresa

VARIEDADE
VELOCIDADE
- Relacionado à velocidade na criação dos dados
- Relacionado à busca pelos dados em tempo real VELOCIDADE

- Compreensão e tratamento dos dados VALOR
- Utilização dos dados antes de desatualizar, corromper...
- A velocidade na obtenção dos dados é uma vantagem
@RANIFPASSOS
METADADOS VANTAGENS:
- Auxiliar em análises estatísticas e controle de
- Metadados são também Metainformação
informações
- “Meta” significa “além de”
- Facilitar a classificação sobre o tipo dos dados
- São informações sobre os dados (arquivos)
- Tornar mais fácil a organização dos dados
- Estão anexadas aos dados
- Facilitar o relacionamento entre os dados
- Considerado dados sobre os dados
- Muito importante para sistemas e não muito para o

DESVANTAGEM
usuário
- Podem facilitar a quebra de segurança
- Muitas vezes estão ocultas aos usuários
- Pode armazenar informações não desejadas
- Facilita o entendimento de sistemas sobre os dados
- O objetivo é informar detalhes sobre os dados (arquivos)
- Oferece mais informação e descrições sobre os dados

EXEMPLOS
(arquivos)
- PDF
- Descrever a estrutura do dado

- Conteúdo, Autor, Data/Hora de criação e alteração...
- Utiliza uma linguagem inteligível para o computador

- IMAGEM
- Basicamente, todos equipamentos geram metadados - Data, tamanho, formato, Local (aparelhos com GPS)...
- Documentos HTML e XML
- Informações de cadastro (telefones, e-mail, nomes)
- Dados sobre Localização
- Data e hora de ligações, e-mails, arquivos e fotos
- Informações do aparelho utilizado.
@RANIFPASSOS
AUTOMÁTICO:
DATA MINING
- Sistema autossuficiente na realização das atividades
-Representado pelo termo Data Mining
- Depende da supervisão humana no sistema
- Mineração: Extrair ou explorar algo
SEMIAUTOMÁTICO:
- Dados: Palavras isoladas, termos, que geram informações
-Precisa de ação humana para descoberta dos dados
- Agiliza a análise de “dados escondidos” e espalhados
-Precisa se supervisão humana e manipulação nos programas.
- É uma solução na descoberta de informações
- Não restringe a mineração apenas a um BD local BI: BUSINESS INTELLIGENCE

(Inteligência de Negócio) é um termo criado pelo Gartner
- Explora “tudo” e colhe o que tem valor para a empresa
Group utilizado para representar um conjunto de processos

- Fontes Digitais
com o intuito de gerar informações e relatórios analíticos que

-A mineração considera padrões, exceções, tendências,
suportem a gestão corporativa, a definição de estratégias e a

regras...
tomada de decisão em ambientes de negócio.

-Potencializa as atividades de uma organização
- Auxilia pessoas na tomada de decisões importantes
- Pode ser feita por variados programas SGBDs
- Esse processo pode descobrir novos padrões de dados
- Programas possuem técnicas de aprendizado
- Reconhecimento de padrões, analise estatística,
inteligência artificial...
- Processo pode ser automático ou semiautomático
@RANIFPASSOS
ETL
Processo para alimentar os relatórios. ETL (Extract,
DATA WAREHOUSE:
Não são derivados Data Marts a partir de metadados.
Transform, Load). Em outras palavras, esse processo
Replicação é uma cópia que pode ser realizada do
realiza três operações.
próprio Enterprise Data Warehouse para diversas
Extract: extrai as informações do Banco de dados funcionalidades
transacional
Transform: transforma as informações para o formato DATA MART (DM):

Trata-se de um subconjunto de dados.O Data Mart é
adequado
Load: carrega as informações no data Warehouse considerado um pequeno DW
FONTE DE DADOS:
Sistemas Legados, Point of Sale (POS),Aplicações web e
bancos de dados transacionais
USUÁRIOS
(Ferramentas) OLAP-Relatórios, Mineração de dados e
textos, Aplicações.
@RANIFPASSOS
FONTE DE DADOS ETL WAREHOUSE DATA MARTS USUÁRIOS

25
20
15
10
0
Item 1 Item 2 Item 3 Item 4 Item 5
EXTRACT
TRANSFORM
LOAD
@RANIFPASSOS
PROCESSO DE KDD
O processo de KDD (Knowledge Discovery in Databases) foi formalizado em 1989 em referência a procura de
conhecimento a partir de bases de dados. Seu objetivo principal é extrair conhecimento de grandes bases dados.
O processo de KDD é composto por cinco fases: seleção de dados, pré-processamento, transformação, mineração e
interpretação/avaliação.
Esse processo é aplicado na identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir
de grandes bases de dados.
OBJETIVOS:
Provisão, Identificação Classificação e Otimização
FONTES DADOS- DADOS DADOS

PADRÕES CONHECIMENTO
DE DADOS ALVOS PROCESSADOS TRANSFORMADOS
SELEÇÃO PROCESSAMENTO TRANSFORMAÇÃO MINERAÇÃO INTERPRETAÇÃO

DE DADOS AVALIAÇÃO
@RANIFPASSOS
PREDIÇÃO (PREVISÃO)
TAREFAS
-“Dizer antecipadamente o que vai acontecer”
DESCRIÇÃO -Apresenta consequências de uma ação ou omissão, como
- Descrever novos padrões e tendências
os dados se comportarão no futuro...
-Geralmente revelados pelos dados minerados
-Pode ser por regras já conhecidas ou por adivinhações
-Descrever novos aprendizados adquiridos com a mineração
-Se baseia em conceitos estatísticos e dados já
- Um sistema é capaz de aprender com a mineração
conhecidos
-Auxilia a empresa a se preparar para surpresas e acidentes
CLASSIFICAÇÃO
-Identifica as classes existentes e comparar com os dados
OUTLIERS
-Classes são “tipos de dados”
- Termo em Inglês para EXCEÇÕES
-Auxilia no aprendizado de classificação de novos registros
- Registros importantes encontrados, mas que está
fora do padrão esperado
ASSOCIAÇÃO
- Muitas vezes são descartados
-Compara os atributos minerados
- Quando visto como problemas e não soluções
-Pode identificar possíveis problemas futuros
- Pode servir para detecção de fraudes e outras ações de
segurança
AGRUPAMENTO DE DADOS (CLUSTERING)
-Organiza os dados minerados em grupos
-Pode ser por semelhança ou não

-Utiliza algoritmos específicos para armazenamento
-Algoritmos Particionais: Cria partições
-Algoritmos Hierárquicos: Obedecem hierárquicas
@RANIFPASSOS
CONCEITOS APRENDIZADO POR REFORÇO

A aprendizagem por reforço é muito utilizada em
- Em Inglês Machine Learning
sistemas de decisão em tempo real. Neste caso, não
- É um ramo da inteligência artificial
existe um grande conjunto de dados históricos para que
- Método de análise de dados feitos por máquinas
seja gerado um conjunto de treinamento e
- Os sistemas aprendem com dados filtrados
consequentemente seja possível criar um modelo de
- Identificam novos padrões (regras) e tomam decisões
aprendizado. O tempo todo novos dados são criados e
- Agem com o mínimo de intervenção humana possível
processados servindo de combustível para decisões. Uma
- Pode ser supervisionado ou não
boa ilustração de aplicação são sistemas que operam em
ambientes incertos e mutáveis, esse tipo de
APRENDIZAGEM SUPERVISIONADA aprendizagem faz com que robôs ,por exemplo, consigam
- Precisa de humano para oferecer exemplos trafegar por ambientes nunca explorados anteriormente.
- Baseia-se na tarefa da Classificação Outros bons exemplos de aplicação são em sistemas de
- Comparar as classes apresentadas para minerar decisão em tempo real, tarefas que necessitam de
constante aprendizagem ou até mesmo na aquisição de
APRENDIZAGEM NÃO-SUPERVISIONADA novos conhecimentos.
- Não precisa de humanos oferecendo padrões de dados
- O sistema desenvolve suas próprias conclusões
- A partir de um determinado conjunto de dados já
existentes

Mapa - Mental - PF - e - PRF INFO

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Mapa - Mental - PF - e - PRF INFO

Enviado por

Direitos autorais:

Formatos disponíveis

@RANIFPASSOS

CONCEITO TIPOS DE DADOS

-O mais comum é a pesquisa web sobre dados

-É a grande maioria dos dados da bigdata

DADOS SEMI-ESTRUTURADOS FONTE DE DADOS

- Muitas vezes a estrutura básica para os dados está

- Apenas parte dos dados possuem alguma estrutura,

- Exemplo: Dados de E-mail, Arquivos XML, HTML...

AMBIENTES DE ARMAZENAMENTO PARA

- Não passam por refinamento ou tratamento

- Armazena vários tipos de dados

- Estruturados, não estruturados e semiestruturados

-Armazena informações importantes para a organização

-Dados coletados internamente ou externamente

-Auxilia na tomada de decisões

-Armazena vários tipos de dados

-Estruturados, não estruturados e semiestruturados

- Preferencialmente em dados estruturados

-Opera com a Data Cleansing

- Armazenam dados específicos de cada setor

diferentes - É integrado: consistente

- Baseado em regras específicas de análises -É histórico: histórico mantido

estruturados. Em web de tempo real com a finalidade de

atender aos requisitos de gerenciamento de grandes

volumes de dados qu.e necessitam de alta disponibilidade

Orientado a documentos - documentos flexíveis ,

Orientado a grafos: Redes sociais , mecanismos de

recomendação e detecção de fraudes

Orientado a colunas(family): semelhante ao modelo

relacional , porém em colunas e subcolunas

- Diariamente grandes volumes de dados são criados organização

- Zetabytes, Yottabytes, Brontobytes... - Dados geram valores para uma organização

- É preciso compreender e gerenciar esses dados - Valores financeiros, estruturais, conhecimento...

- Exemplos: e-mails, transações bancárias, redes sociais,

chamadas telefônicas, rádio, TV... VARIEDADE (VARIABILIDADE ou COMPLEXIDADE)

VERACIDADE - Como tratar os dados, armazenar, utilizar...

- Essas informações podem gerar problemas

- Dados desatualizados ou incompletos também são

- Apurar a relevância dos dados para a empresa

- Relacionado à busca pelos dados em tempo real VELOCIDADE

- A velocidade na obtenção dos dados é uma vantagem

- Muito importante para sistemas e não muito para o

- O objetivo é informar detalhes sobre os dados (arquivos)

- Oferece mais informação e descrições sobre os dados

- Descrever a estrutura do dado

- Utiliza uma linguagem inteligível para o computador

- Documentos HTML e XML

- Informações de cadastro (telefones, e-mail, nomes)

- Dados sobre Localização

- Data e hora de ligações, e-mails, arquivos e fotos

- Informações do aparelho utilizado.

- É uma solução na descoberta de informações

- Não restringe a mineração apenas a um BD local BI: BUSINESS INTELLIGENCE

Group utilizado para representar um conjunto de processos

com o intuito de gerar informações e relatórios analíticos que

suportem a gestão corporativa, a definição de estratégias e a

tomada de decisão em ambientes de negócio.

- Auxilia pessoas na tomada de decisões importantes

- Pode ser feita por variados programas SGBDs

- Esse processo pode descobrir novos padrões de dados

- Programas possuem técnicas de aprendizado

- Reconhecimento de padrões, analise estatística,

- Processo pode ser automático ou semiautomático