Big Data

Prof.
Almeida Júnior
professor.almeidajunior@gmail.com
@profalmeidajunior
 Seguem uma modelo de dados
 Possui um Schema
 Os tipos de dados são claramente definidos
 Possui um modelo rígido de dados
 Fácil fazer a pesquisa
 Relacionado aos Bancos de Dados
 Dados organizados em blocos semânticos (relações)
 Dados de um mesmo grupo possuem as mesmas descrições (atributos)
 Descrições para todas as classes de um grupo possuem o mesmo formato
(esquema)
Dados mantidos em um SGBD são chamados de
Dados Estruturados por manterem a mesma
estrutura de representação (rígida), previamente
projetada (esquema)
 Não possuem organização predefinida
 Não possuem estrutura definida
 As estruturas não são descritas implicitamente
 É maioria dos casos
 Áudio, vídeo, textos, planilhas, e-mails, fotos...
 Difícil fazer a pesquisa
 heterogeneidade dos dados
 Diversidade
 Big Data
 Heterogeneidade
 Em regra, não estão em um SGBD

 Necessita de estrutura de dados para acessar mais rápido
 Ponteiros, Índices
 Não são estritamente tipados
 Não são complementamente não-estruturados
 Os dados semi-estruturados são dados onde o esquema de representação está
presente (de forma explícita ou implícita)
 Auto-descritivo
 Uma análise do dado deve ser feita para que a sua estrutura possa ser identificada
e extraída
 Esquema pode ser mudado com facilidade
 Provê flexibidade
 Definição à posteriori
 Esquemas são definidos após a existência dos dados
 Estrutura irregular
 Não existe um esquema padrão para os dados
 Coleções de dados são definidos de maneiras diferentes, contendo informações
incompletas
 Estrutura implícita
 Muitas vezes existe uma estrutura implícita
 Estrutura parcial
 Apenas parte dos dados disponíveis podem ter uma estrutura
XML – eXtensible Markup Language
RDF – Resource Description Framework
OWL – Web Ontology Language
JSON - JavaScript Object Notation
<note>
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don't forget me this weekend!</body>
</note>
(CESPE/Escrivão de Polícia Federal/PF/2018)
CPF NOME DATA DE NASCIMENTO NOME DO PAI NOME DA MAE TELEFONE CEP
NUMERO
As informações anteriormente apresentadas correspondem aos campos de uma tabela
de um banco de dados, a qual é acessada por mais de um sistema de informação e
também por outras tabelas. Esses dados são utilizados para simples cadastros, desde a
consulta até sua alteração, e também para prevenção à fraude, por meio de verificação
dos dados da tabela e de outros dados em diferentes bases de dados ou outros meios
de informação. Considerando essas informações, julgue o item que se segue.
Os dados armazenados na referida tabela são considerados não estruturados.
(CESPE/Escrivão de Polícia Federal/PF/2018)
CPF NOME DATA DE NASCIMENTO NOME DO PAI NOME DA MAE TELEFONE CEP
NUMERO
As informações anteriormente apresentadas correspondem aos campos de uma tabela
de um banco de dados, a qual é acessada por mais de um sistema de informação e
também por outras tabelas. Esses dados são utilizados para simples cadastros, desde a
consulta até sua alteração, e também para prevenção à fraude, por meio de verificação
dos dados da tabela e de outros dados em diferentes bases de dados ou outros meios
de informação. Considerando essas informações, julgue o item que se segue.
Os dados armazenados na referida tabela são considerados não estruturados.
ERRADO
(CESPE/TCE-SC/Auditor Fiscal de Controle Externo – Informática/2016)
A respeito de dados estruturados, não estruturados e abertos, julgue o item
subsequente.
Em se tratando de dados estruturados, a informação de esquema está mesclada aos
valores dos dados, e cada objeto de dados pode ter atributos diferentes, que não
são conhecidos com antecedência. Essa característica os diferencia de dados não
estruturados.
(CESPE/TCE-SC/Auditor Fiscal de Controle Externo – Informática/2016)
A respeito de dados estruturados, não estruturados e abertos, julgue o item
subsequente.
Em se tratando de dados estruturados, a informação de esquema está mesclada aos
valores dos dados, e cada objeto de dados pode ter atributos diferentes, que não
são conhecidos com antecedência. Essa característica os diferencia de dados não
estruturados.
ERRADO
(CESPE/TCE-PB/Auditor de Contas Públicas/2018) Com relação a dados estruturados e
não estruturados, assinale a opção correta.
a) Dados não estruturados podem ser caracterizados por arquivos de diversos tipos —
textos, imagens, vídeos, entre outros —, cujas estruturas não são descritas
implicitamente.
b) Por padrão, documentos do tipo XML (eXtensible Markup Language) são
estruturados.
c) Dados não estruturados de um mesmo grupo possuem as mesmas descrições e,
consequentemente, os mesmos atributos.
d) Por padrão, dados não estruturados são organizados em blocos semânticos.
e) A alta heterogeneidade facilita as consultas aos dados não estruturados, desde que
estes estejam ligados por ponteiros.
(CESPE/TCE-PB/Auditor de Contas Públicas/2018) Com relação a dados estruturados e
não estruturados, assinale a opção correta.
a) Dados não estruturados podem ser caracterizados por arquivos de diversos tipos —
textos, imagens, vídeos, entre outros —, cujas estruturas não são descritas
implicitamente.
b) Por padrão, documentos do tipo XML (eXtensible Markup Language) são
estruturados.
c) Dados não estruturados de um mesmo grupo possuem as mesmas descrições e,
consequentemente, os mesmos atributos.
d) Por padrão, dados não estruturados são organizados em blocos semânticos.
e) A alta heterogeneidade facilita as consultas aos dados não estruturados, desde que
estes estejam ligados por ponteiros.
 velocidade, volume ou variedade (os três vês)
 Não podem ser facilmente armazenados ou analisados usando métodos
tradicionais
 Planilhas
 Bancos de dados relacionais
 Captura, Armazenamento, Manipulação e Análise

 Mineração de dados
 Análise preditiva
 Termo Ambíguo e Relativo
 É mais fácil dizer o que não é Big Data
 Não são dos dados comuns
 Não é a situação normal
 Um analista não consegue lidar com tais dados
 Os dados não se encaixam no paradigma comum (Excel, BD relacional)
 Não podem ser analisado por regressão tradicional
 Não cabem em disco do seu PC
 Como descrever ?
 Volume, Velocidade e Variedade
 Artigo de Doug Laney 2011
 Quantidade muito grande para um computador comum
 É um definição relativa. O que é algo grande ?
 Em uma época pode ser grande, no futuro não.
 Lei de Moore
 Capacidade de hardware e o desempenho dos computadores dobram a cada dois anos
(sem alterar o custo)
 Um pendrive tem muito mais espaço que computadores pessoais do passado
 O número máximo de linhas do excel já passam de mais de 1 milhão
 Explosão da quantidade de dados:
 Redes Sociais
 Fotos no telefone
 Youtube
 Os dados chegam muito rápido
 Pesquisa tradicional
 Coleta de 100 casos
 Semanas para analisar
 Anos para publicar os resultados
 Os dados são estáticos após a coleta
 Dados de Rede Social

 Fluxo constante de informações
 Conjunto de dados variando
 Firehose
 Temperatura local das cidades do Brasil

 Fluxo de dados (Streaming)
 Conjunto de dados variando
 Os dados nem sempre estão bem formatados
 Em linhas e colunas de uma planilha, por exemplo.
 Pode haver texto não estruturado:

 Livros
 Postagens de blogs
 Comentários em blogs
 Tweets
 fotos, vídeos e áudio
 .....
 Estima-se que 80% dos dados corporativos estão desestruturados

 Bancos de dados NoSQL
 É fator mais relevante que leva as empresas a soluções de Big Data.
 Se temos os 3V’s => Big data!
 Qualquer um dos três V’s pode tornar inviável a abordagem padrão
 Big data = Não poder usar a abordagem padrão
a) Volume, Velocidade e Variedade
b) Variação, Volume e Valor
c) Variedade, Velocidade e Variação
d) Valor, Velocidade e Variação
a) Volume, Velocidade e Variedade
b) Variação, Volume e Valor
c) Variedade, Velocidade e Variação
d) Valor, Velocidade e Variação
 VERDADEIRO
 FALSO
 VERDADEIRO
 FALSO
A velocidade faz parte do Big Data, pois ele inclui ___________________ de mais de
18 bilhões de redes
a) Dados em fluxo contínuo (streaming)

b) Dados consistentes
c) Dados volumosos
d) Dados dinâmicos
A velocidade faz parte do Big Data, pois ele inclui ___________________ de mais de
18 bilhões de redes
a) Dados em fluxo contínuo (streaming)

b) Dados consistentes
c) Dados volumosos
d) Dados dinâmicos
Exemplos de variedade no Big Data incluem _______________ como livros, blogs,
artigos de notícias, fotos e tweets, além de arquivos de áudio e vídeo.
a) Dados não estruturados

b) Dados intermináveis
c) Dados estruturados
d) Dados Estatísticos
Exemplos de variedade no Big Data incluem _______________ como livros, blogs,
artigos de notícias, fotos e tweets, além de arquivos de áudio e vídeo.
a) Dados não estruturados

b) Dados intermináveis
c) Dados estruturados
d) Dados Estatísticos
Big Data significa que não podemos usar a abordagem
padrão do nosso computador para analisar dados
 Verdadeiro
 Falso
Big Data significa que não podemos usar a abordagem
padrão do nosso computador para analisar dados
 Verdadeiro
 Falso
 Volume
 Velocidade
 Variedade
 Veracidade
 Valor
 Viscosidade
 Viralidade
FCC - Ana Leg/ALAP/2020
Atualmente, diversos dados são coletados pelos sistemas digitais de empresas na
internet para constituir Big Data com conteúdo sobre os resultados alcançados por seus
produtos e serviços, prestígio da imagem da organização e seus representantes. Porém,
parte desses dados pode ser falsa ou manipulada por internautas. O tratamento dos
dados, a fim de qualificá-los antes de disponibilizá-los para a tomada de decisão na
empresa, segundo o conceito das cinco dimensões “V” de avaliação de um Big Data, se
refere
a) ao valor.
b) à variedade.
c) à veracidade.
d) à velocidade.
e) ao volume
FCC - Ana Leg/ALAP/2020
Atualmente, diversos dados são coletados pelos sistemas digitais de empresas na
internet para constituir Big Data com conteúdo sobre os resultados alcançados por seus
produtos e serviços, prestígio da imagem da organização e seus representantes. Porém,
parte desses dados pode ser falsa ou manipulada por internautas. O tratamento dos
dados, a fim de qualificá-los antes de disponibilizá-los para a tomada de decisão na
empresa, segundo o conceito das cinco dimensões “V” de avaliação de um Big Data, se
refere
a) ao valor.
b) à variedade.
c) à veracidade.
d) à velocidade.
e) ao volume
Instituto AOCP - Ana (MJSP)/MJSP/Big Data/Governança de Dados/2020
José está enfrentando problemas relacionados ao armazenamento em vários
formatos, com estrutura de dados geralmente inconsistente, e à dificuldade de
integração. Esses problemas, conhecidos em Qualidade de Dados para Big Data,
podem ser respectivamente classificados como
a) Variabilidade e Viscosidade.
b) Volatilidade e Variedade.
c) Veracidade e Variedade.
d) Volume e Volatilidade.
e) Velocidade e Variabilidade
 O normal é pensar em Big Data para Publicidade ou Marketing
 Também pode ser usado para os consumidores
 Você já pode estar usando e não sabe (parecem invisíveis)
 Iphone/Ipad => Siri
 Como está o tempo ?
 Onde encontrar um restaurante japonês ?
 Verificar se há reservas
 Fatores envolvidos: recomendações, popularidade, localização, etc..
 Yelp
 Usado para encontrar restaurantes.
 Utiliza milhões de avaliações de usuários
 Volume de dados!
 Spotify
 Sabe o que você está ouvindo, o que escuta até o final, o que para ver logo, o que foi
adicionado a uma playlist, ....
 Faz sugestão para novos artistas
 Amazon
 Faz recomendação de livros
 Netflix
 Faz sugestão de filmes
 neighborland.com
 Pessoas colaboram para melhorar a cidade
 Fotos, dados, api’s do tweeter, google maps, instagram, informações de imobiliárias,
sistemas trânsito, reclamações.
 Variedade de dados!
 Google Now
 Faz recomendações antes de você pedir
 Usa agenda e a localização
 Sabe onde você está e para onde quer ir
 Pode fornecer informações sobre o trânsito
 Informações sobre o tempo
 Resultados de pesquisa com anúncios do Google. O anúncio tem como base:
 No que você está pesquisando
 No que o google sabe sobre você.
 Aproveita tudo que você pesquisou
 Marketing Preditivo
 Big Data é usado para decidir o público-alvo com antecedência
 É tentar prever, por exemplo, acontecimentos importantes da vida: formatura, casamento,
novo emprego, filhos, etc.
 Eventos frequentemente associados a uma série de transações comerciais.
 Observação do consumidor: quantas vezes vem ao site, qual o cartão de crédito, o que
comprou antes, qual a última pagina visitada, quantas vezes viu um determinado item,
idade, estado civil, localização, filhos, distância da loja, etc.
 Podem estar disponíveis (instagram, facebook, etc) ou serem comprados
 EDITED
 Usa Big Data para prever tendências de moda
 Quais serão as cores, estilos e marcas mais badalados, quando serão mais populares e ajuda a
definir preços.
 Identificação de fraudes.
 As lojas virtuais perdem cerca de US$ 3,5 bilhões por ano com fraudes on-line
 Como estamos fazendo a compra? Estamos on-line? Qual site estamos usando? Qual é nossa
localização física no mundo? Qual o endereço IP ? Qual computador estamos usando para acessar
o site?
 Usar biometria: forma como a pessoa move o mouse, tempo para digitar
 Google Flu Trends
 Padrões de pesquisa de palavras relacionadas à gripe permitiam identificar surtos de gripe.
 Pesquisas na Wikipédia conseguiam identificá-los com uma precisão ainda maior.
 BRAIN Initiative
 Visa gerar um mapa completo do funcionamento do cérebro a partir de um grande número de
exames cerebrais.
 Telescópio espacial Kepler
 Encontrar planetas fora do sistema solar
 Psicologia
 Identificar grupos de personalidades por regiões
 Google Books
 30 milhões de livros
 Mudanças no uso das palavras
Os algoritmos de Big Data são tão sofisticados que os processos são
quase invisíveis para os consumidores.
 CERTO
 ERRADO
Os algoritmos de Big Data são tão sofisticados que os processos são
quase invisíveis para os consumidores.
 CERTO
 ERRADO
Ao usar Big Data, as empresas conseguem prever futuras tendências de mercado e
definir o preço de seus produtos conforme a necessidade. Isso vem sendo útil no
setor _____.
a) Automação
b) Alimentos
c) Moda
d) Espacial
Ao usar Big Data, as empresas conseguem prever futuras tendências de mercado e
definir o preço de seus produtos conforme a necessidade. Isso vem sendo útil no
setor _____.
a) Automação
b) Alimentos
c) Moda
d) Espacial
Um exemplo de Big Data que influencia a ciência inclui _____
a) Google Flu Trends

b) Google Demo
c) Google Sync
Um exemplo de Big Data que influencia a ciência inclui _____
a) Google Flu Trends

b) Google Demo
c) Google Sync
 Objetivos.
 No Small Data, os dados são coletados para uma meta específica.
 No Big Data, pode começar com um objetivo em mente, mas pode evoluir/tomar
direções inesperadas.
 Localização.
 No Small Data, os dados costumam estar em um único local, geralmente um arquivo
de computador.
 No Big Data, os dados podem estar em diferentes arquivos, servidores e
computadores.
 Estrutura de dados e conteúdo.
 No Small Data, os dados costumam ser muito estruturados, como uma planilha do
Excel, com linhas e colunas.
 No Big Data, os dados podem estar desestruturados, ter muitos formatos, com
arquivos envolvendo várias disciplinas, e podem referenciar outros recursos.
 Preparação dos dados.
 No Small Data, eles costumam ser preparados pelo usuário final para seus próprios
objetivos
 No Big Data, os dados geralmente são preparados por um grupo de pessoas, analisados
por um segundo grupo e usados por um terceiro grupo, que pode ter objetivos diferentes
e envolver disciplinas distintas.
 Longevidade.
 No Small Data, os dados costumam ser mantidos por um determinado período após o
término do projeto, pois existe um ponto final claro.
 No Big Data, como os custos muitas vezes são altos, cada projeto dá origem a
outros, então existe continuidade nos dados, e eles duram muito tempo. A duração é
muito maior e mais incerta comparada ao Small Data.
 Medições.
 No Small Data, os dados costumam ser medidos com um único protocolo, usando
unidades definidas, geralmente ao mesmo tempo.
 No Big Data, como pode haver pessoas em diferentes locais, horários, organizações e
países, talvez usemos protocolos diferentes nas medições e precisemos fazer
muitas conversões para obter consistência.
 Reprodutibilidade.
 No Small Data, os conjuntos de dados geralmente podem ser reproduzidos por inteiro se
algo der errado.
 No Big Data, como os dados vêm em muitos formatos e de fontes variadas, nem sempre
podemos recomeçar se algo der errado.
 Riscos.
 No Small Data, se o projeto der errado, os custos são irrelevantes.
 No Big Data, os projetos podem custar milhões de dólares, e dados perdidos ou
corrompidos podem ter grande impacto
 Introspecção.
 Introspecção é um termo tirado do campo da programação orientada a objetos e se
refere à capacidade dos dados objetos para se descreverem, quando chamados.
 No Small Data, dizemos o objeto, o que está sendo medido valor em si. É possível
identificar pontos de dados individuais e o significado das coisas geralmente é claro.
 O Big Data pode resultar em informações não identificáveis, não localizáveis ou sem
sentido. A utilidade do Big Data fica comprometida nesses casos.
 Análise
 No Small Data, geralmente é possível analisar todos os dados de uma
vez, em um único procedimento, a partir de um único arquivo de
computador.
 No Big Data, pode ser necessário fazer extração, análise, redução,
normalização, Transformação.... por fim, agregar os resultados.
 Ciência de dados, Big Data = Estatística ?
 Só uma forma bonita de apelidar a Estatística
 Outros... É uma área separada
 Digrama de Venn da Ciência de Dados
 Drew Conway – 2010
 Conhecimento do Campo, Programação e Estatística
 Analyzing the Analyzers: An Introspective Survey of Data Scientists and Their Work.
 Pesquisa envolveu 250 profissionais
 Autoavaliação da identidade pessoal
 Os participantes se classificaram quanto a 11 identidades profissionais possíveis:
artista, cientista, desenvolvedor, empreendedor, engenheiro, estatístico, executivo,
faz-tudo, hacker, líder e pesquisador
 Também se classificaram em 22 competências possíveis
AM = Aprendizado de Máquina
PO = Pesquisa Operacional
 3V’s = Big Data
 1 V ? Depende....
 Volume grande, mas estruturado e sem fluxo (velocidade)
 Ex: Dados sobre o genoma
 Dados com fluxo contínuo (velocidade), mas estruturado e volume baixo.

 Ex: Informação sobre atividade sísmica
 Variedade, mas é pequeno e estático

 Ex: Reconhecimento facial
 Big Data é possível apenas com Programação e Estatística
= Aprendizado de Máquina
 Ex: Filtro de Spam. Aprende com os milhões de usuários.
 Big data é possível com programação e conhecimento do

domínio = “área de risco”
 Ex: Natural Language Toolkit
 NLTK é uma plataforma líder para a construção de programas
Python para trabalhar com dados de linguagem humana.
 Big data NÃO é possível com Estatística e conhecimento
do domínio = Pesquisa Tradicional
 A relação entre ciência de dados e Big Data não é balanceada. É possível fazer
ciência de dados com uma versão incompleta do Big Data, mas é bem mais difícil
trabalhar com Big Data sem as três competências da ciência de dados.
Uma das diferenças entre o Big Data e o Small Data é que, se algo der errado no
processo, não é fácil recomeçar e reproduzir o conjunto de dados. Como isso se
chama?
a) Dados não verificáveis

b) Erros
c) Reprodutibilidade
Uma das diferenças entre o Big Data e o Small Data é que, se algo der errado no
processo, não é fácil recomeçar e reproduzir o conjunto de dados. Como isso se
chama?
a) Dados não verificáveis

b) Erros
c) Reprodutibilidade
a) Programação, Conhecimento, Matemática
b) Conhecimento do Campo, Programação e Estatística
c) Motivação, Machine Learning, Contabilidade
a) Programação, Conhecimento, Matemática
b) Conhecimento do Campo, Programação e Estatística
c) Motivação, Machine Learning, Contabilidade
 Invasão de dados privados
 Pessoas não querem que seus dados sejam públicos, mas quere serviços
personalizados (Interesses conflitantes)
 Solução é deixar os dados anônimos (não ser possível identificar as pessoas)
 Remover: nome, endereço, etc..
 O problema é que é possível inverter o processo de deixar anônimo

 Dados anônimos da Netflix cruzados com base IMDb, foi possível identificar as pessoas
 Como fazer de forma mais efetiva ?

 Ao invés de data de nascimento => Idade
 Ao invés de CEP => Estado
 Informações sigilosas
 Compartilhamento somente com pessoas autorizadas
 Manter a Confiança das Pessoas
 Dados Intencionais
 Fotos, vídeos, áudios
 Post’s
 Clique em “Curtir”
 Pesquisa no google
 Ligação no celular
 E-mails
 Leitura de um livro on-line
 Anotações on-line
 Compras on-lide.
 Big Data é um campo dedicado à análise, processamento e armazenamento de
grandes coleções de dados que frequentemente se originam de fontes distintas.
 As soluções e práticas de Big Data são normalmente necessárias quando as
tecnologias e técnicas tradicionais de análise, processamento e armazenamento de
dados são insuficientes.
 O Big Data atende a requisitos distintos, como a combinação de vários conjuntos
de dados não relacionados, processamento de grandes quantidades de dados não
estruturados e coleta de informações ocultas de maneira sensível ao tempo.
Um Dataset é uma coleção (grupo) de dados relacionados. Cada membro de um
dataset compartilha o mesmo conjunto de atributos (propriedades). Alguns
exemplos de conjuntos de dados são:
 Tweets armazenados em um arquivo simples (arquivo plano)
 Coleção de arquivos de imagem em um diretório
 Um extrato de linhas de uma tabela de banco de dados armazenada em um
arquivo no formato CSV
 Observações históricas que são armazenadas como arquivos XML
 Data Analysis é o processo de examinar dados para encontrar fatos,
relacionamentos, padrões, percepções e/ou tendências. O
 objetivo geral da análise de dados é apoiar uma melhor tomada de decisão.
 Um exemplo de análise de dados simples é a análise dos dados de vendas de
sorvete para determinar como o número bolas de sorvete vendidas está
relacionado à temperatura diária.
 Os resultados de tal análise apoiariam decisões relacionadas a quanto sorvete uma
loja deveria pedir em relação às informações de previsão do tempo. Realizar
a análise de dados ajuda a estabelecer padrões e relacionamentos entre os dados
que estão sendo analisados.
 Data Analytics é um termo mais amplo que engloba a Data Analisys.
 Data Analytics é uma disciplina que inclui o gerenciamento de todo o ciclo de vida
dos dados, que abrange a coleta, limpeza, organização, armazenamento, análise e
controle de dados.
 O termo inclui o desenvolvimento de métodos de análise, técnicas científicas e
ferramentas automatizadas.
 Big Data define uma situação em que os conjuntos de dados cresceram de tal
maneira que tecnologias da informação convencionais não podem efetivamente
lidar com sua proporção. Em outras palavras, o conjunto de dados é tão grande
que é difícil de gerir e ainda mais difícil angariar valor do mesmo.
 Big Data está relacionado aos conjuntos de dados, cujo tamanho está além da
capacidade de ferramentas típicas de software de banco de dados para capturar,
armazenar, gerenciar e analisar. Conforme a tecnologia avança ao longo do tempo,
o tamanho dos conjuntos de dados que sejam qualificados como Big Data também
irá aumentar
 Big Data são ativos de informação de grande volume, velocidade e variedade que
exigem formas custo-efetivas e inovadoras de processamento de informações para
uma melhor percepção e tomada de decisões
Note essa definições levam em consideração a característica volume. Esse é apenas
um dos V's. Outras característica foram definidas por Laney.
São elas:
 Volume (quantidade crescente de dados)
 Variedade (aumento dos tipos e fonte de dados)
 Velocidade (aumento da velocidade dos dados)
Geralmente envolve:
 Identificação
 Aquisição
 preparação
 Análise
 a) Análise descritiva: Compreensão em tempo real dos acontecimentos é o que
define a análise descritiva. É a mineração de dados na base da cadeia de Big Data.
É uma maneira de visualizar os dados, entender como uma database se organiza e
o que significa para o presente sem necessariamente relacioná-la com padrões
passados ou futuros.
 b) Análise diagnóstica: A análise diagnóstica tem como objetivo compreender de
maneira causal todas as suas possibilidades. Como uma espécie de relatório
expandido, quando feita em uma base de dados volumosa, esse tipo de análise
permite ainda entender a razão de cada um dos desdobramentos das ações
adotadas e, a partir disso, mudar estratégias ineficazes ou reforçar as funcionais.
 c) Análise preditiva: Pode-se defini-la como uma análise de possibilidades futuras.
A partir da identificação de padrões passados em sua base dados, esse tipo de
análise permite aos gestores o mapeamento de possíveis futuros em seus campos
de atuação. A ideia é deixar de tomar decisões baseadas unicamente na intuição,
conseguindo estabelecer um prognóstico mais sólido para cada ação. Para que
isso seja possível, a análise preditiva utiliza a mineração de dados (data mining -
De forma geral Data Mining pode ser definido como o método de exploração de
grandes volumes de dados com objetivo de identificar padrões e informações
preciosas para o negócio das empresas), dados estatísticos e dados históricos para
conhecer as futuras tendências.
 d) Análise prescritiva: É uma forma de definir qual escolha será mais efetiva em
determinada situação. Dentro de uma indústria ou setor, o valor dessa análise se dá
pela capacidade de numerar determinados padrões e filtrá-los por
especificidades, obtendo um cenário bastante fiel da situação e como cada
intervenção responderá.
 Quando avançamos no tipo de
análise mais complexa ela fica.
Contudo, ela também entrega
mais valor. Ou seja, o valor e a
complexidade aumenta da
análise descritiva para a
prescritiva.
 Vou usar um cluster!
 Usa MapReduce
 Sistema de arquivos distribuído HDFS
 FS = Sistema de Arquivos
 D = Distribuído
 YARN (NOVO!)
 Gerenciador de recursos
 Algoritmo usado: BFS = BUSCA EM LARGURA ou EM AMPLITUDE

 Breadth-First Search - BFS
 Dados sobre dados
 Acompanhada os dados gerados pelos humanos
 Podem ser maiores que os dados em si
 São Legíveis por máquina
 Horário
 Local
 Com algumas dessas informações você identifica a pessoa
 DE
 PARA
 CC
 REGISTRO DE DATA E HORA
 É possível reconstruir sua “rede social”
 Se houve reposta
 Data de criação do Tweet
 Nome do Autor
 Bio do Autor
 Localização do Autor
 Número de seguidores
 ......

Big Data

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Big Data

Enviado por

Direitos autorais:

Formatos disponíveis

Prof.

 Em regra, não estão em um SGBD

 Captura, Armazenamento, Manipulação e Análise

 Dados de Rede Social

 Temperatura local das cidades do Brasil

 Pode haver texto não estruturado:

 Estima-se que 80% dos dados corporativos estão desestruturados

a) Dados em fluxo contínuo (streaming)

a) Dados em fluxo contínuo (streaming)

a) Dados não estruturados

a) Dados não estruturados

a) Google Flu Trends

a) Google Flu Trends

 Dados com fluxo contínuo (velocidade), mas estruturado e volume baixo.

 Variedade, mas é pequeno e estático

 Big data é possível com programação e conhecimento do

a) Dados não verificáveis

a) Dados não verificáveis

 O problema é que é possível inverter o processo de deixar anônimo

 Como fazer de forma mais efetiva ?

 Algoritmo usado: BFS = BUSCA EM LARGURA ou EM AMPLITUDE

Você também pode gostar