Apresentação

APRESENTAÇÃO:
Boa tarde a todos presentes, nosso grupo é composto por mim, Vinicius Omar e o João
Victor Mantuan e vamos apresentar sobre Big Data, em si, também sobre a análise de
Big Data e as suas aplicabilidades atualmente.
PRÉ-BIGDATA:
Bom, é possível observar que com o passar do tempo a análise de dados é cada vez mais
presente, ainda mais com o grande número de dados existentes e que crescem a cada
segundo, pra ter uma ideia, um estudo feito por uma empresa de TI diz que em 2020 já
terão sido gerados 44 zetabytes de dados digitais, e 1 zettabyte é igual 10²¹ bytes, ou
seja, um número muito grande de dados e por conta desse número elevado e outras
coisas que a gente vai citar aqui, aconteceu o surgimento do problema de Big Data.
BIGDATA:
O termo Big Data surgiu na década de 90, quando a NASA ao se deparar com um
grande conjunto de dados complexos que, na época, desafiavam o limite computacional,
deu o nome desse evento como um problema de Big Data.
Para falar sobre como se faz a análise de Big Data e suas aplicabilidades, primeiro a
gente tem que explicar o que é Big Data a fundo.
3V’S DE BIG DATA

Segundo o analista Doug Laney que foi o criador da corrente principal da ideia do que
Big Data é, ele diz que existem 3 características definidoras do que é Big Data, volume,
velocidade e variedade, sendo essas três características as causas da dificuldade da
análise de Big Data.
VOLUME:
O volume refere-se à quantidade de dados, ou seja, o “peso”, que no Big Data, como o
próprio nome diz, é um número bem alto, o que dá origem ao primeiro problema na
análise de Big Data, o seu enorme volume de dados, que mesmo podendo variar de
acordo com “o quê” o usuário está lidando, ainda continua um grande volume, ainda
mais para década de 90 que mesmo o volume sendo menor do que era agora ainda era
um valor alto para aquela época.
VELOCIDADE:
Depois disso nós temos a velocidade que refere-se à velocidade de processamento, que
no Big Data como usuais, temos três tipos:
Tipo de processamento em lote que é também é chamado de batch, tipo de
processamento on-line e tipo de processamento em tempo real ou real-time como é mais
chamado.
Processamento em lote
O primeiro tipo de processamento, em lote, é onde os dados acumulados são guardados
para depois serem processados uma etapa por vez, podendo fazer pausas entre cada
etapa, um exemplo bem comum é o processo de análise da situação de um cheque
quando ele é entregue ao autoatendimento que guarda e acumula os cheques para,
depois, organizar todos os cheques e iniciar o processo devido para a descoberta da
situação.
*Adendo: no caixa eletrônico isso não ocorre
*Os cheques passam por um digitalizador, minerador de texto, são guardados nos
bancos de dados e depois checados se será compensado ou não.
Processamento on-line
O segundo tipo é o processamento on-line, onde as informações são processadas no
mesmo tempo em que são registradas. Alguns exemplos bem comuns são operações
financeiras e créditos de celulares, onde quando o dinheiro é registrado o processo
inicia.
Processamento em tempo real

O terceiro é o processamento em tempo real, assim como no processamento on-line as
informações são processadas no mesmo tempo que são registradas só que isso fica
repetindo e repetindo até que alguém feche o programa. Exemplo bem simples desse
tipo de processamento é o GPS e o piloto automático.
*No GPS: o satélite manda um sinal para o receptor que intercepta os sinais e diz o local
atual e repete-se
*No piloto automático: normalmente há sensores eletrônicos que enviam dados para o
computador que retorna dados e funções do que deve ser feito no piloto automático e
repete com novos dados obtidos pelos sensores.
A escolha entre os tipos de processamento depende, basicamente, do que pode ser

considerado mais benéfico pelo usuário, porque cada um tem diferentes benefícios em
relação aos outros tipos de tecnologias.
*Exemplo: Batch é mais demorado para análise, mas tem uma maior
confiabilidade pois seu processo é feito de forma organizável que é mais visível
caso haja algum problema.
*On-line: oferece uma rapidez na resposta, mas ainda sim não permite fazer o que
um tempo real faz.
*Tempo real: oferece uma rapidez na resposta, mas tem uma menor confiabilidade
(apesar de pouco) com relação ao Batch e caso dê erro é de difícil visibilidade o
problema.
VARIEDADE:
Chegamos ao terceiro V do Big Data, a Variedade, ela refere-se ao número de tipos de
dados, no caso do Big Data são três tipos: dados estruturados, não estruturados e
semiestruturados
Dados estruturados
Começando pelos dados estruturados, esse tipo de dado comumente é obtido em
arquivos de planilhas e em bancos de dados SQL, já que apresentam uma estrutura
rígida e organizada o que ajuda na leitura e obtenção dos dados que estão nela.
*SQL: Structured Query Language ou Linguagem de consulta estruturada.
Dados não estruturados

Já os dados não estruturados são uma das principais causas do problema de Big Data,
porque esse tipo de dado é grande parte dos dados existentes por serem obtidos em
textos, imagens, vídeos e documentos, o problema é que na verdade eles não têm uma
estrutura fixa, tendo padrões apenas no seu tipo de arquivo, mas sem nenhuma estrutura
padronizada no conteúdo do arquivo o que dificulta bastante a leitura e a obtenção de
dados desses arquivos, ainda mais da década de 90, só podendo ser resolvida atualmente
com mineração de texto que envolve Machine Learning e mineração de dados.
Dados semiestruturados
Como terceiro tipo nós temos os dados semiestruturados que, assim como os não
estruturados, eles fazem parte da problematização do Big Data, e são obtidos por e-
mails, arquivos XML e página em HTML que, na verdade, têm algumas padronizações,
só que não são o suficiente para que a leitura e obtenção de dados desses arquivos sejam
fáceis porque mesmo tendo padronizações o seu conteúdo tem uma maior parte não
padronizada, exigindo assim programas mais evoluídos do que os que haviam na década
de 90.
*XLM: eXtensible Markup Language, é utilizado para armazenar informações
fiscais aqui no Brasil (nota fiscal)
*HTML: HyperText Markup Language
Agora que foi explicado o que é Big Data, vou passar a voz para o João Victor Mantuan
que vai falar sobre Big Data Analytics.

Apresentação

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apresentação

Enviado por

Direitos autorais:

Formatos disponíveis

APRESENTAÇÃO:

3V’S DE BIG DATA

Processamento em tempo real

A escolha entre os tipos de processamento depende, basicamente, do que pode ser

Dados não estruturados

Você também pode gostar