Você está na página 1de 18

Arthur Fellipe, Arthur Gabriel, Bruno Rodrigues, Danrley Sales, Felipe Henrique, Mario Perdigão, Victor Tiné.

Data Mining (Mineração de Dados)

Consiste em um processo analítico projetado para explorar


grandes quantidades de dados (tipicamente relacionados a
negócios, mercado ou pesquisas científicas), na busca de
padrões consistentes e/ou relacionamentos sistemáticos entre
variáveis e, então, validá-los aplicando os padrões detectados a
novos subconjuntos de dados.
Big Data

Processamento e análise de conjunto de dados extremamente


grandes, que não podem ser processados utilizando-se
ferramentas convencionais de processamento de dados.

Os dados em Big Data podem provir de diversas fontes,


estruturadas, semiestruturadas e não-estruturadas.
Big Data
Causas:
• Barateamento e miniaturização da tecnologia.

• Facilidade de coletar e armazenar dados.

• Evolução tecnológica.

• Mudanças Sociais.

• Internet.

• Dispositivos Conectados (IOT)


Big Data
Tipos de dados:
• Estruturados: armazenados em banco de dados tradicionais, organizados
em tabelas.

• Semiestruturados: podem seguir diversos padrões, de forma heterogênea

• Não-estruturados: mescla de dados oriundos de várias fontes distintas,


como vídeo, texto, áudio, imagens, xml, etc.
Big Data
Tecnologia envolvidas em Big dados:

• Sistemas de arquivos distribuídos.


• Processamento paralelo massivo.
• Computação em nuvem.
• Grids de mineração de dados.
• Redes de altas velocidades.
• Sistema de armazenamento escaláveis.
• Algoritmos específicos.
• Inteligência Artificial.
Big Data
Características:

Dados produzidos com os 5 “Vs”: Volume, velocidade,


variedade, veracidade e valor.

Volume Velocidade Variedade Veracidade Valor


Big Data
Volume de
Características dos Vs: Dados

Volume de dados:

• Refere-se a enorme quantidades de dados envolvidos.

• Estima-se que exista cerca de 35 ZettaByte de dados armazenados em


todo mundo.

• Um ZB (ZettaByte) equivale a 10²¹ bytes, ou 1 bilhão de Terabytes.


Big Data
Características dos Vs:
Velocidade
Velocidade de dados:
• Os dados são gerados em grande velocidade.

• Definimos essa velocidade de acordo com o quão rápido os dados são resgatados,
armazenados e recuperados. Basicamente, falamos em taxa de fluxo de dados quando
nos referimos à sua velocidade.

• Assim, o fluxo de (geração e transmissão) de dados pode se tornar tão elevado, que os
sistemas tradicionais de análise não conseguem manipulá-los.
Big Data
Características dos Vs: Variedade

Variedade de dados:
Os dados incluem não apenas dados transicionais (banco de dados comuns /

estruturados), mas também oriundos de:

•Páginas web

•Índices de pesquisa

•Arquivos de log

•Fóruns
Big Data
Características dos Vs: Variedade

Variedade de dados:
Os dados incluem não apenas dados transicionais (banco de dados comuns /

estruturados), mas também oriundos de:

•E-mail

•Dados de sensores variados

•IoT (internet das coisas)

•Áudio e vídeo
Big Data
Características dos Vs: Variedade

Variedade de dados:

Os sistemas tradicionais não conseguem armazenar, processar e entender essa vasta

gama de dados.

Assim, deve-se utilizar novas tecnologias, algoritmos e técnicas para realizar a análise

desses dados, tanto estruturados quanto não estruturados, em conjunto.

No geral, apenas 20% do volume de dados é estruturado, sendo os 80% restantes, não

estruturados.
Big Data
Características dos Vs: Veracidade

Veracidade de dados:
Refere-se a confiabilidade dos dados que devem possuir características como:

•Qualidade e consistência

•Origem conhecida / Fonte de dados

•Serem verdadeiros, e não fabricados / oriundos de opinião

•São internos ou externos à organização?


Big Data
Características dos Vs:
Valor
Valor dos dados:

Os dados agregam valor a empresa ?

Valor é uma aplicação do Big Data que permita aumentar receita, identificar novas

oportunidades, economize custos, melhore a qualidade do produto e a satisfação do

cliente, garantindo assim melhores resultados e resolução de problemas.


Big Data
Características dos Vs: • Análise de dados médicos

Exemplo de aplicações do Big Data: • Análise de dados trafegados em redes

• Monitoramento em redes sociais • Publicidade e propaganda personalizados

• Netflix (recomendação de filmes) • Uso de telefones celulares

• Web Analytics (site de e-commerce) • Informações sobre o tempo

• Dados provenientes de múltiplos sensores de • Informações sobre trânsito e modelos de


sistemas de transporte tráfego

• Análise de dados financeiros (para evitar


fraudes)
Big Data
Clássico vs Big Data:

Analisar dados:
•Datawharehouse tradicional não é substituído pelo Data Lake
•Na SQL não substitui modelo relacional.
•Tecnologias diferentes para problemas diferentes.

Data Lakes:
•Armazenamento de dados corporativo
•Pode ser sobre HDFS
•Dados são carregados no formato nativo
•Pode ter áreas de: Descarga (formato nativo), cópias temporárias e consumo (tratados)
Big Data
Clássico vs Big Data.

Comparação:
Obrigado pela atenção !

Você também pode gostar