Escolar Documentos
Profissional Documentos
Cultura Documentos
Boa tarde a todos presentes, nosso grupo é composto por mim, Vinicius Omar e o João
Victor Mantuan e vamos apresentar sobre Big Data, em si, também sobre a análise de
Big Data e as suas aplicabilidades atualmente.
PRÉ-BIGDATA:
Bom, é possível observar que com o passar do tempo a análise de dados é cada vez mais
presente, ainda mais com o grande número de dados existentes e que crescem a cada
segundo, pra ter uma ideia, um estudo feito por uma empresa de TI diz que em 2020 já
terão sido gerados 44 zetabytes de dados digitais, e 1 zettabyte é igual 10²¹ bytes, ou
seja, um número muito grande de dados e por conta desse número elevado e outras
coisas que a gente vai citar aqui, aconteceu o surgimento do problema de Big Data.
BIGDATA:
O termo Big Data surgiu na década de 90, quando a NASA ao se deparar com um
grande conjunto de dados complexos que, na época, desafiavam o limite computacional,
deu o nome desse evento como um problema de Big Data.
Para falar sobre como se faz a análise de Big Data e suas aplicabilidades, primeiro a
gente tem que explicar o que é Big Data a fundo.
VOLUME:
O volume refere-se à quantidade de dados, ou seja, o “peso”, que no Big Data, como o
próprio nome diz, é um número bem alto, o que dá origem ao primeiro problema na
análise de Big Data, o seu enorme volume de dados, que mesmo podendo variar de
acordo com “o quê” o usuário está lidando, ainda continua um grande volume, ainda
mais para década de 90 que mesmo o volume sendo menor do que era agora ainda era
um valor alto para aquela época.
VELOCIDADE:
Depois disso nós temos a velocidade que refere-se à velocidade de processamento, que
no Big Data como usuais, temos três tipos:
Tipo de processamento em lote que é também é chamado de batch, tipo de
processamento on-line e tipo de processamento em tempo real ou real-time como é mais
chamado.
Processamento em lote
O primeiro tipo de processamento, em lote, é onde os dados acumulados são guardados
para depois serem processados uma etapa por vez, podendo fazer pausas entre cada
etapa, um exemplo bem comum é o processo de análise da situação de um cheque
quando ele é entregue ao autoatendimento que guarda e acumula os cheques para,
depois, organizar todos os cheques e iniciar o processo devido para a descoberta da
situação.
*Adendo: no caixa eletrônico isso não ocorre
*Os cheques passam por um digitalizador, minerador de texto, são guardados nos
bancos de dados e depois checados se será compensado ou não.
Processamento on-line
O segundo tipo é o processamento on-line, onde as informações são processadas no
mesmo tempo em que são registradas. Alguns exemplos bem comuns são operações
financeiras e créditos de celulares, onde quando o dinheiro é registrado o processo
inicia.
VARIEDADE:
Chegamos ao terceiro V do Big Data, a Variedade, ela refere-se ao número de tipos de
dados, no caso do Big Data são três tipos: dados estruturados, não estruturados e
semiestruturados
Dados estruturados
Começando pelos dados estruturados, esse tipo de dado comumente é obtido em
arquivos de planilhas e em bancos de dados SQL, já que apresentam uma estrutura
rígida e organizada o que ajuda na leitura e obtenção dos dados que estão nela.
*SQL: Structured Query Language ou Linguagem de consulta estruturada.
Dados semiestruturados
Como terceiro tipo nós temos os dados semiestruturados que, assim como os não
estruturados, eles fazem parte da problematização do Big Data, e são obtidos por e-
mails, arquivos XML e página em HTML que, na verdade, têm algumas padronizações,
só que não são o suficiente para que a leitura e obtenção de dados desses arquivos sejam
fáceis porque mesmo tendo padronizações o seu conteúdo tem uma maior parte não
padronizada, exigindo assim programas mais evoluídos do que os que haviam na década
de 90.
*XLM: eXtensible Markup Language, é utilizado para armazenar informações
fiscais aqui no Brasil (nota fiscal)
*HTML: HyperText Markup Language
Agora que foi explicado o que é Big Data, vou passar a voz para o João Victor Mantuan
que vai falar sobre Big Data Analytics.