Escolar Documentos
Profissional Documentos
Cultura Documentos
Almeida Júnior
professor.almeidajunior@gmail.com
@profalmeidajunior
Seguem uma modelo de dados
Possui um Schema
Os tipos de dados são claramente definidos
Possui um modelo rígido de dados
Fácil fazer a pesquisa
Relacionado aos Bancos de Dados
Dados organizados em blocos semânticos (relações)
Dados de um mesmo grupo possuem as mesmas descrições (atributos)
Descrições para todas as classes de um grupo possuem o mesmo formato
(esquema)
Dados mantidos em um SGBD são chamados de
Dados Estruturados por manterem a mesma
estrutura de representação (rígida), previamente
projetada (esquema)
Não possuem organização predefinida
Não possuem estrutura definida
As estruturas não são descritas implicitamente
É maioria dos casos
Áudio, vídeo, textos, planilhas, e-mails, fotos...
Difícil fazer a pesquisa
heterogeneidade dos dados
Diversidade
Big Data
Heterogeneidade
Estrutura irregular
Não existe um esquema padrão para os dados
Coleções de dados são definidos de maneiras diferentes, contendo informações
incompletas
Estrutura implícita
Muitas vezes existe uma estrutura implícita
Estrutura parcial
Apenas parte dos dados disponíveis podem ter uma estrutura
XML – eXtensible Markup Language
RDF – Resource Description Framework
OWL – Web Ontology Language
JSON - JavaScript Object Notation
<note>
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don't forget me this weekend!</body>
</note>
(CESPE/Escrivão de Polícia Federal/PF/2018)
CPF NOME DATA DE NASCIMENTO NOME DO PAI NOME DA MAE TELEFONE CEP
NUMERO
As informações anteriormente apresentadas correspondem aos campos de uma tabela
de um banco de dados, a qual é acessada por mais de um sistema de informação e
também por outras tabelas. Esses dados são utilizados para simples cadastros, desde a
consulta até sua alteração, e também para prevenção à fraude, por meio de verificação
dos dados da tabela e de outros dados em diferentes bases de dados ou outros meios
de informação. Considerando essas informações, julgue o item que se segue.
Os dados armazenados na referida tabela são considerados não estruturados.
(CESPE/Escrivão de Polícia Federal/PF/2018)
CPF NOME DATA DE NASCIMENTO NOME DO PAI NOME DA MAE TELEFONE CEP
NUMERO
As informações anteriormente apresentadas correspondem aos campos de uma tabela
de um banco de dados, a qual é acessada por mais de um sistema de informação e
também por outras tabelas. Esses dados são utilizados para simples cadastros, desde a
consulta até sua alteração, e também para prevenção à fraude, por meio de verificação
dos dados da tabela e de outros dados em diferentes bases de dados ou outros meios
de informação. Considerando essas informações, julgue o item que se segue.
Os dados armazenados na referida tabela são considerados não estruturados.
ERRADO
(CESPE/TCE-SC/Auditor Fiscal de Controle Externo – Informática/2016)
A respeito de dados estruturados, não estruturados e abertos, julgue o item
subsequente.
Em se tratando de dados estruturados, a informação de esquema está mesclada aos
valores dos dados, e cada objeto de dados pode ter atributos diferentes, que não
são conhecidos com antecedência. Essa característica os diferencia de dados não
estruturados.
(CESPE/TCE-SC/Auditor Fiscal de Controle Externo – Informática/2016)
A respeito de dados estruturados, não estruturados e abertos, julgue o item
subsequente.
Em se tratando de dados estruturados, a informação de esquema está mesclada aos
valores dos dados, e cada objeto de dados pode ter atributos diferentes, que não
são conhecidos com antecedência. Essa característica os diferencia de dados não
estruturados.
ERRADO
(CESPE/TCE-PB/Auditor de Contas Públicas/2018) Com relação a dados estruturados e
não estruturados, assinale a opção correta.
a) Dados não estruturados podem ser caracterizados por arquivos de diversos tipos —
textos, imagens, vídeos, entre outros —, cujas estruturas não são descritas
implicitamente.
b) Por padrão, documentos do tipo XML (eXtensible Markup Language) são
estruturados.
c) Dados não estruturados de um mesmo grupo possuem as mesmas descrições e,
consequentemente, os mesmos atributos.
d) Por padrão, dados não estruturados são organizados em blocos semânticos.
e) A alta heterogeneidade facilita as consultas aos dados não estruturados, desde que
estes estejam ligados por ponteiros.
(CESPE/TCE-PB/Auditor de Contas Públicas/2018) Com relação a dados estruturados e
não estruturados, assinale a opção correta.
a) Dados não estruturados podem ser caracterizados por arquivos de diversos tipos —
textos, imagens, vídeos, entre outros —, cujas estruturas não são descritas
implicitamente.
b) Por padrão, documentos do tipo XML (eXtensible Markup Language) são
estruturados.
c) Dados não estruturados de um mesmo grupo possuem as mesmas descrições e,
consequentemente, os mesmos atributos.
d) Por padrão, dados não estruturados são organizados em blocos semânticos.
e) A alta heterogeneidade facilita as consultas aos dados não estruturados, desde que
estes estejam ligados por ponteiros.
velocidade, volume ou variedade (os três vês)
Não podem ser facilmente armazenados ou analisados usando métodos
tradicionais
Planilhas
Bancos de dados relacionais
Como descrever ?
Volume, Velocidade e Variedade
Artigo de Doug Laney 2011
Quantidade muito grande para um computador comum
É um definição relativa. O que é algo grande ?
Em uma época pode ser grande, no futuro não.
Lei de Moore
Capacidade de hardware e o desempenho dos computadores dobram a cada dois anos
(sem alterar o custo)
Um pendrive tem muito mais espaço que computadores pessoais do passado
O número máximo de linhas do excel já passam de mais de 1 milhão
Explosão da quantidade de dados:
Redes Sociais
Fotos no telefone
Youtube
Os dados chegam muito rápido
Pesquisa tradicional
Coleta de 100 casos
Semanas para analisar
Anos para publicar os resultados
Os dados são estáticos após a coleta
Verdadeiro
Falso
Big Data significa que não podemos usar a abordagem
padrão do nosso computador para analisar dados
Verdadeiro
Falso
Volume
Velocidade
Variedade
Veracidade
Valor
Viscosidade
Viralidade
FCC - Ana Leg/ALAP/2020
Atualmente, diversos dados são coletados pelos sistemas digitais de empresas na
internet para constituir Big Data com conteúdo sobre os resultados alcançados por seus
produtos e serviços, prestígio da imagem da organização e seus representantes. Porém,
parte desses dados pode ser falsa ou manipulada por internautas. O tratamento dos
dados, a fim de qualificá-los antes de disponibilizá-los para a tomada de decisão na
empresa, segundo o conceito das cinco dimensões “V” de avaliação de um Big Data, se
refere
a) ao valor.
b) à variedade.
c) à veracidade.
d) à velocidade.
e) ao volume
FCC - Ana Leg/ALAP/2020
Atualmente, diversos dados são coletados pelos sistemas digitais de empresas na
internet para constituir Big Data com conteúdo sobre os resultados alcançados por seus
produtos e serviços, prestígio da imagem da organização e seus representantes. Porém,
parte desses dados pode ser falsa ou manipulada por internautas. O tratamento dos
dados, a fim de qualificá-los antes de disponibilizá-los para a tomada de decisão na
empresa, segundo o conceito das cinco dimensões “V” de avaliação de um Big Data, se
refere
a) ao valor.
b) à variedade.
c) à veracidade.
d) à velocidade.
e) ao volume
Instituto AOCP - Ana (MJSP)/MJSP/Big Data/Governança de Dados/2020
José está enfrentando problemas relacionados ao armazenamento em vários
formatos, com estrutura de dados geralmente inconsistente, e à dificuldade de
integração. Esses problemas, conhecidos em Qualidade de Dados para Big Data,
podem ser respectivamente classificados como
a) Variabilidade e Viscosidade.
b) Volatilidade e Variedade.
c) Veracidade e Variedade.
d) Volume e Volatilidade.
e) Velocidade e Variabilidade
O normal é pensar em Big Data para Publicidade ou Marketing
Também pode ser usado para os consumidores
Você já pode estar usando e não sabe (parecem invisíveis)
Iphone/Ipad => Siri
Como está o tempo ?
Onde encontrar um restaurante japonês ?
Verificar se há reservas
Fatores envolvidos: recomendações, popularidade, localização, etc..
Yelp
Usado para encontrar restaurantes.
Utiliza milhões de avaliações de usuários
Volume de dados!
Spotify
Sabe o que você está ouvindo, o que escuta até o final, o que para ver logo, o que foi
adicionado a uma playlist, ....
Faz sugestão para novos artistas
Amazon
Faz recomendação de livros
Netflix
Faz sugestão de filmes
neighborland.com
Pessoas colaboram para melhorar a cidade
Fotos, dados, api’s do tweeter, google maps, instagram, informações de imobiliárias,
sistemas trânsito, reclamações.
Variedade de dados!
Google Now
Faz recomendações antes de você pedir
Usa agenda e a localização
Sabe onde você está e para onde quer ir
Pode fornecer informações sobre o trânsito
Informações sobre o tempo
Resultados de pesquisa com anúncios do Google. O anúncio tem como base:
No que você está pesquisando
No que o google sabe sobre você.
Aproveita tudo que você pesquisou
Marketing Preditivo
Big Data é usado para decidir o público-alvo com antecedência
É tentar prever, por exemplo, acontecimentos importantes da vida: formatura, casamento,
novo emprego, filhos, etc.
Eventos frequentemente associados a uma série de transações comerciais.
Observação do consumidor: quantas vezes vem ao site, qual o cartão de crédito, o que
comprou antes, qual a última pagina visitada, quantas vezes viu um determinado item,
idade, estado civil, localização, filhos, distância da loja, etc.
Podem estar disponíveis (instagram, facebook, etc) ou serem comprados
EDITED
Usa Big Data para prever tendências de moda
Quais serão as cores, estilos e marcas mais badalados, quando serão mais populares e ajuda a
definir preços.
Identificação de fraudes.
As lojas virtuais perdem cerca de US$ 3,5 bilhões por ano com fraudes on-line
Como estamos fazendo a compra? Estamos on-line? Qual site estamos usando? Qual é nossa
localização física no mundo? Qual o endereço IP ? Qual computador estamos usando para acessar
o site?
Usar biometria: forma como a pessoa move o mouse, tempo para digitar
Google Flu Trends
Padrões de pesquisa de palavras relacionadas à gripe permitiam identificar surtos de gripe.
Pesquisas na Wikipédia conseguiam identificá-los com uma precisão ainda maior.
BRAIN Initiative
Visa gerar um mapa completo do funcionamento do cérebro a partir de um grande número de
exames cerebrais.
Telescópio espacial Kepler
Encontrar planetas fora do sistema solar
Psicologia
Identificar grupos de personalidades por regiões
Google Books
30 milhões de livros
Mudanças no uso das palavras
Os algoritmos de Big Data são tão sofisticados que os processos são
quase invisíveis para os consumidores.
CERTO
ERRADO
Os algoritmos de Big Data são tão sofisticados que os processos são
quase invisíveis para os consumidores.
CERTO
ERRADO
Ao usar Big Data, as empresas conseguem prever futuras tendências de mercado e
definir o preço de seus produtos conforme a necessidade. Isso vem sendo útil no
setor _____.
a) Automação
b) Alimentos
c) Moda
d) Espacial
Ao usar Big Data, as empresas conseguem prever futuras tendências de mercado e
definir o preço de seus produtos conforme a necessidade. Isso vem sendo útil no
setor _____.
a) Automação
b) Alimentos
c) Moda
d) Espacial
Um exemplo de Big Data que influencia a ciência inclui _____
YARN (NOVO!)
Gerenciador de recursos
......