Você está na página 1de 43

BIG DATA

BRUNO DIAS Nº034228


INTRODUÇÃO
Este trabalho foi realizado no âmbito da disciplina Data Mining e Big Data, no
ano letivo de 2020/2021, com o intuito de pesquisar e compreender o que
define Big Data, como surgiu e a motivação por trás da sua implementação, as
organizações que impulsionaram o seu desenvolvimento e as ferramentas
usadas para trabalhar com Big Data.
DEFINIÇÃO DE BIG DATA
Devido a Big Data ser um conceito relativamente recente, existem várias
descrições do termo como, por exemplo:

Big Data é uma coleção de conjuntos de dados tão grandes e complexos que se torna difícil de
processar usando ferramentas de gestão de bases de dados disponíveis ou aplicações tradicionais de
processamento de dados.
-Wikipedia
Assets de informações de alto volume, alta velocidade e / ou alta variedade que exigem formas
inovadoras e económicas de processamento de informações que permitem uma visão aprimorada,
tomada de decisões e automação de processos.
- Doug Laney

“(…) alguns definiram Big Data como uma quantidade que excede um petabyte - um milhão de
gigabytes. ”
- “Whats is Big Data?”, University of Winsconsin
Apesar de não existir uma definição universalmente aceite, ao
analisar as várias definições de Big Data podemos chegar às
seguintes conclusões:
• Big Data são dados em grande volume(> 1 petabytes)
• Big Data não é apenas um tipo de dados
• Big Data são dados que são gerados a um ritmo mais
acelerado que dados no passado de todos os tipos de fontes
• Big Data são dados que necessitam de métodos mais recentes
de armazenamento, de processamento, de análise, de
visualização e de integração
Foi a partir dessas características básicas que surgiu o que é conhecido como os 3
V’s, estabelecido por Doug Laney em 2001 [6,9]:
Volume - A quantidade de dados gerados e armazenados. O tamanho dos dados
determina o valor e o insight potencial e se eles podem ser considerados Big Data
ou não. O tamanho de Big Data geralmente é maior do que terabytes e petabytes.
Variedade - O tipo e a natureza dos dados. Big Data extrai de texto, imagens,
áudio, vídeo; além disso, completa as peças que faltam por meio da fusão de dados.
Velocidade - A velocidade com que os dados são gerados e processados ​para
atender às demandas e desafios que se encontram no caminho de crescimento e
desenvolvimento. Big Data geralmente está disponível em tempo real. Em
comparação com pequenos dados, Big Data é produzido de forma mais contínua.
E com o tempo, mais V’s foram adicionados. Primeiro pela IBM, que adicionou [6]:
Veracidade - A veracidade ou confiabilidade dos dados, que se refere à qualidade e
ao valor dos dados. Big Data não deve ser apenas grande, mas também confiável
para agregar valor na análise.

E depois mais V’s foram estabelecidos por outros peritos [6]:


Visualização - Os dados devem ser compreensíveis para partes interessadas
não técnicas e tomadores de decisão. Visualização é a criação de gráficos
complexos que contam a história do cientista de dados, transformando os dados
em informação, informação em insight, insight em conhecimento e
conhecimento em vantagem.

Valor - O valor em informações que pode ser alcançado pelo processamento e


análise de grandes conjuntos de dados. O valor também pode ser medido por
uma avaliação das outras qualidades de Big Data. O valor também pode
representar a lucratividade das informações recuperadas da análise.
E algumas características extra para além dos V’s [9]:
Exaustivo - Se todo o sistema é capturado ou gravado ou não. Big Data pode ou não incluir todos os
dados disponíveis das fontes.
Refinado e unicamente lexical - Respetivamente, a proporção de dados específicos de cada elemento por
elemento recolhido e se o elemento e as suas características estão devidamente indexados ou
identificados.
Relacional - Se os dados recolhidos contiverem campos comuns que permitiriam uma combinação, ou
meta-análise, de diferentes conjuntos de dados.
Extensional - Se novos campos em cada elemento dos dados recolhidos podem ser adicionados ou
alterados facilmente.
Escalabilidade - Se o tamanho do sistema de armazenamento de Big Data pode se expandir rapidamente.
ORIGEM E EVOLUÇÃO
Embora o conceito de Big Data em si seja relativamente novo, as origens dos
grandes conjuntos de dados retornam às décadas de 1960 e 1970, quando o mundo
dos dados estava apenas a começar com os primeiros data centers e o
desenvolvimento de bases de dados relacionais. O termo “Big Data” foi usado pela
primeira vez num artigo de Michael Cox e David Ellsworth em 1997, mas não
estava nem perto da escala que vemos hoje. [4, 7, 8, 9]
Nos primeiros anos do novo milénio, vários artigos e teses publicados por peritos
tentam determinar o ritmo de crescimento de dados obtidos e descrevem como a
tecnologia da época não é capaz de processar essa quantidade de dados. Também é
nesta altura que os “3 V´s” são documentados por Doug Laney. [4, 7, 8]
Por volta de 2005, as pessoas começaram a perceber-se da quantidade enorme de
dados os utilizadores geravam via Facebook, YouTube e outros serviços online.
Como os dados que agregam o conjunto de Big Data são provenientes de várias
fontes, não apresentam uma estrutura bem definida, ou seja, não pode ser
armazenada nos sistemas padrões SGBDR, onde os dados são representados por
meio de tabelas, com diversas linhas e colunas. [9]
Os cientistas de dados começaram a verificar que bases de dados relacionais
não conseguiriam suportar essa grande quantidade de dados não estruturados.
Desta maneira, novas tecnologias e processos tiveram que ser desenvolvidos
para permitir que esses dados não estruturados fossem analisados, já que os
mesmos podem representar até 80% do total de dados. Foi quando a Google
criou o MapReduce, em 2004, que é um modelo de programação que permite
processar grandes quantidades de dados em paralelo, dividindo o trabalho em
um conjunto de tarefas independentes, geralmente executado num cluster de
computadores. [7, 8, 9]
Hadoop (uma estrutura de código aberto inspirada no MapReduce do Google)
foi desenvolvido por Doug Cutting and Mike Cafarella em 2005, que se
juntaram à Fundação Apache em 2006. O NoSQL também começou a ganhar
popularidade nesta época. [4, 9, 16]
Atualmente, este tipo de processamento é o mais utilizado por empresas que
trabalham com Big Data e diversas organizações vêm contribuindo com código
para o seu desenvolvimento, como a Yahoo, Fundação Apache, Facebook,
Cloudera e IBM sendo as maiores propulsoras de Big Data. [9, 11]
Alguns anos mais tarde, em 2009, um projeto de código aberto foi iniciado por
Matei Zaharia no Berkeley's AMPLab da Universidade de California chamado
Spark. Spark é um mecanismo analítico unificado para processamento de dados
em grande escala, e fornece uma interface para programar clusters inteiros com
paralelismo de dados implícito e tolerância a falhas. Foi lançado em 2010 para o
público e em 2013 tornou-se parte da Fundação Apache. Agora o projeto é
atualizado e gerido pelo Comité de Gestão de Projeto, constituído por centenas de
profissionais de múltiplas organizações. [9, 14, 15]
O desenvolvimento de estruturas de código aberto, como Hadoop e mais
recentemente Spark, foi essencial para o crescimento de Big Data porque eles
tornam Big Data mais fácil de trabalhar e mais barato para armazenar. Nos
anos desde então, o volume de Big Data disparou. Os utilizadores ainda estão a
gerar grandes quantidades de dados, mas agora não são apenas os humanos. [9]
Com o advento da Internet das Coisas (IoT), mais objetos e dispositivos estão
conectados à Internet, reunindo dados sobre os padrões de uso do cliente e
desempenho do produto. O surgimento de machine learning produziu ainda
mais dados. [9, 14]
Embora Big Data tenha avançado muito, sua utilidade está apenas a começar. A
computação na nuvem expandiu ainda mais as possibilidades de Big Data. A
nuvem oferece escalabilidade verdadeiramente elástica, onde os
desenvolvedores podem simplesmente ativar clusters ad-hoc para testar um
subconjunto de dados. E as bases de dados gráficas também estão a se tornar
cada vez mais importantes, com a capacidade de exibir grandes quantidades de
dados de uma maneira que torna a análise rápida e abrangente. [7, 9]
USO NA ATUALIDADE
Big Data e a forma como as organizações gerem e obtêm insights a partir desses
dados estão a mudar a maneira como o mundo usa as informações de negócios.
Big Data é um grande negócio para as indústrias. O crescimento repentino da IoT
e de outros dispositivos conectados criou um aumento maciço na quantidade de
informações que as organizações recolhem, gerem e analisam. Junto com Big
Data, vem o potencial para revelar grandes insights - para todos os setores, do
grande ao pequeno.
Vendas - a construção do relacionamento com o cliente é crítica para o setor de
vendas - e a melhor maneira de gerir isso é gerir Big Data. Vendedores
precisam saber a melhor maneira de comercializar para os clientes, a maneira
mais eficaz de lidar com as transações e a maneira mais estratégica de trazer de
volta negócios encerrados. Big Data permanece no centro de todas essas
coisas. [1]

Fabricação - Armados com a visão que Big Data pode fornecer, os fabricantes
podem aumentar a qualidade e a produção, minimizando o desperdício -
processos que são fundamentais no mercado altamente competitivo de hoje.
Cada vez mais fabricantes estão a trabalhar numa cultura baseada em análise, o
que significa que podem resolver problemas com mais rapidez e tomar
decisões de negócios mais ágeis. [1]
Bancos - Armados com a visão que Big Data pode fornecer, os fabricantes podem
aumentar a qualidade e a produção ao mesmo tempo em que minimizam o
desperdício - processos que são fundamentais no mercado altamente competitivo de
hoje. Cada vez mais fabricantes estão a trabalhar numa cultura baseada em análise, o
que significa que podem resolver problemas com mais rapidez e tomar decisões de
negócios mais ágeis. [1]

Cuidados médicos - Registo do paciente. Planos de tratamento. Informações de


prescrição. Quando se trata de saúde, tudo precisa de ser feito com rapidez, precisão
e, em alguns casos, com transparência suficiente para atender às rígidas
regulamentações do setor. Quando Big Data é gerido de forma eficaz, os
funcionários de saúde podem descobrir insights ocultos que melhoram o
atendimento ao paciente. [1]
Educação - educadores com uma visão baseada em dados podem causar um
impacto significativo nos sistemas escolares, alunos e currículos. Ao analisar Big
Data, eles podem identificar alunos em risco, certificar-se de que os alunos estão a
progredir adequadamente e podem implementar um sistema melhor para avaliação
e suporte de professores e diretores. [1]

Pequenas e médias empresas - Entre a facilidade de recolher Big Data e as opções


cada vez mais acessíveis para gerir, armazenar e analisar dados, as SMBs têm mais
chances do que nunca de competir com as suas contrapartes maiores. As SMBs
podem usar Big Data com análises para reduzir custos, aumentar a produtividade,
construir relacionamentos mais fortes com os clientes e minimizar riscos e fraudes.
[1]
Governo - Quando as agências governamentais podem controlar e aplicar análises a
Big Data, elas ganham terreno significativo quando se trata de gerir serviços
públicos, administrar agências, lidar com congestionamento de tráfego ou prevenir
crimes. Mas embora haja muitas vantagens no uso de Big Data, os governos
também devem abordar questões de transparência e privacidade. [1]

Seguros - telemática, dados de sensores, dados meteorológicos, drones e dados de


imagens aéreas - as seguradoras são inundadas com um influxo de Big Data. A
combinação de Big Data com análises fornece novos insights que podem
impulsionar a transformação digital. Por exemplo, Big Data ajuda as seguradoras a
avaliar melhor o risco, criar novas políticas de preços, fazer ofertas altamente
personalizadas e ser mais pró-ativas na prevenção de perdas. [1]
TIPOS DE TECNOLOGIAS BIG
DATA
O QUE SÃO TECNOLOGIAS BIG DATA?

Tecnologias de Big Data podem ser definidas como software utilitário


projetado para analisar, processar e extrair as informações de conjuntos de
dados extremamente complexos e grandes com os quais o software de
processamento de dados tradicional nunca poderia lidar. Precisamos de
tecnologias de processamento de Big Data para analisar essa enorme
quantidade de dados em tempo real e chegar a conclusões e previsões para
reduzir os riscos no futuro. [11]
TIPOS DE TECNOLOGIAS BIG DATA

Tecnologias operacionais de Big Data


Em primeiro lugar, Big Data Operacional trata dos dados normais do dia-a-dia
que geramos. Isso pode ser transações online, redes sociais ou os dados de uma
organização específica, etc. Até se pode considerar isso como um tipo de dado
bruto que é usado para alimentar as tecnologias de Big Data Analítico. [11]
TIPOS DE TECNOLOGIAS BIG DATA

Alguns exemplos de tecnologias de Big Data Operacional são as seguintes:


• Reservas de bilhetes online, que incluem bilhetes de comboio, bilhetes de avião,
bilhetes de cinema, etc.
• Compras online, como as compras na Amazon, Flipkart, Walmart, Snap e muito
mais.
• Dados de sites de redes sociais como Facebook, Instagram e muito mais.
• Os detalhes de funcionários de qualquer empresa multinacional.
TIPOS DE TECNOLOGIAS BIG DATA

Tecnologias analíticas de Big Data


Big Data Analítico é como a versão avançada das tecnologias de Big Data. É
um pouco mais complexo que Big Data Operacional. Resumindo, Big Data
Analítico é onde a parte do desempenho real entra em ação e as decisões de
negócios cruciais em tempo real são feitas analisando Big Data Operacional.
[11]
TIPOS DE TECNOLOGIAS BIG DATA

Alguns exemplos de tecnologias analíticas de Big Data são os seguintes:


• Mercado de stocks
• Realizar missões espaciais onde cada bit de informação é crucial.
• Informação de previsão do clima
• Campos médicos onde o estado de saúde de um determinado paciente pode ser
monitorado.
TOP TECNOLOGIAS BIG DATA
TOP TECNOLOGIAS BIG DATA

As principais tecnologias de Big Data são divididas em 4 campos, que são classificados da
seguinte forma [11]:
• Data Storage
• Data Mining
• Data Analytics
• Data Visualization

A seguir podemos ver algumas tecnologias que se enquadram nessas categorias junto com as
empresas que as estão a usar.
DATA STORAGE
Hadoop
Quando se trata de Big Data, o Hadoop é a primeira tecnologia a entrar
em ação. Baseado na arquitetura de MapReduce, o Hadoop ajuda no
processamento de trabalhos relacionados a batch e processar
informação do batch. Hadoop foi construído para armazenar e
processar os dados num ambiente de processamento de dados
distribuídos junto com hardware comum e um modelo de execução de
programação simples. Também pode ser usado para armazenar e
analisar os dados presentes em várias máquinas diferentes com alta
capacidade de armazenamento, velocidade e baixo custo. [2, 3, 11, 16]
Desenvolvido por: Fundação Apache em 2006

Escrito em: JAVA


Companhias a usar Hadoop: Microsoft, Intel, IBM, MAPR
DATA MINING
Presto
É um popular mecanismo de consulta distribuída de código
aberto e baseado em SQL que é usado para executar
consultas interativas em fontes de dados de todas as escalas
e os tamanhos variam de Gigabytes a Petabytes. Com sua
ajuda, podemos consultar dados no Cassandra, Hive,
armazenamentos de dados proprietários e sistemas de
armazenamento de base de dados relacional. [11]
Desenvolvido por: Fundação Apache em 2013
Escrito em: JAVA
Companhias a usar Presto: Netflix, Airbnb, Facebook,
Checkr
DATA ANALYTICS
Kafka
Conhecido pela sua publicação-subscrição ou pub-sub, como é popularmente
conhecido, é um sistema de corretor de mensagens assíncrono de mensagens
diretas que é usado para receber e executar processamento de dados de
streaming em tempo real. Também fornece uma previsão do período de
retenção e os dados podem ser canalizados por meio do mecanismo produtor-
consumidor. É uma das plataformas de streaming mais populares, muito
semelhante ao sistema de mensagens corporativas ou a uma fila de mensagens.
O Kafka lançou muitas melhorias até o momento e um tipo principal é o do
confluente Kafka, que fornece um nível adicional de propriedades para o
Kafka, como Schema registry, Ktables, KSql, etc. [2, 11, 17]
Desenvolvido por: Fundação Apache em 2011
Escrito em: Scala, JAVA
Companhias a usar Kafka: Twitter, Yahoo, Spotify
DATA VISUALIZATION
Tableau
O Tableau é uma ferramenta de visualização de
dados poderosa e de crescimento mais rápido
usada no setor de Business Intelligence. A
análise de dados é muito rápida com o Tableau e
as visualizações criadas são na forma de painéis
e planilhas. [11]
Desenvolvido por: TableAU em 2013
Escrito em: JAVA, C++, Python, C
Companhias a usar Tableau: Oracle, Qlik
CONCLUSÕES
Através da pesquisa realizada para a concretização deste trabalho apercebi-me
do impacto que o desenvolvimento de Big Data teve no nosso dia-a-dia. Apesar
de ser um conceito relativamente recente, o efeito que teve no mundo é
irrefutável. Achei o facto de que o termo ter sido usado antes da explosão
interessante, pois os cientistas que primeiro usaram o termo aplicaram a uma
quantidade de dados que hoje consideramos normal.
Ainda mais, ter a chance de pesquisar o impacto que esta tecnologia tem não
apenas em industrias diretamente relacionadas com informática é muito
esclarecedora. É algo que como clientes/utilizadores não nos apercebemos mas
é interessante ter em perspetiva como as empresas lidam com os dados dos
utilizadores e tentam melhorar o seu funcionamento.
E foi através deste trabalho que me apercebi do quão rigorosas são as
competências para trabalhar nesta área [10]:
• Habilidades analíticas
• Habilidades de visualização de dados
• Familiaridade com Business Domain e ferramentas de Big Data
• Habilidades de programação
• Habilidades na resolução de problemas
• SQL – Structured Query Language
• Habilidades de Data Mining
• Familiaridade com tecnologias
• Familiaridade com nuvens públicas e hibridas
• Habilidades através de experiência prática
E também procurei ofertas de trabalho relacionadas com Big Data em Portugal,
especificamente no Porto. [12, 13]

Big Data Developer


Data Science/Big Data Consultant
Com estes requisitos em mente, eu apenas cumpro ter experiência com Python,
falar inglês e conhecimentos de base de dados. Em todos os outros aspetos, ainda
tenho muito trabalho pela frente. Apesar de ter adquirido os conhecimentos
essenciais para Data Mining nesta disciplina, eu acho que não estaria pronto para
trabalhar com Big Data.
Isto mostra-me que ainda tenho muito para aprender e estudar e, é um incentivo a
experimentar software que não tivemos chance nas aulas, como o Hadoop e o
Spark.
REFERÊNCIAS
“Big Data - What it is and why it matters”, SAS, visitado em 9 de junho de 2021 -
1 https://www.sas.com/en_us/insights/big-data/what-is-big-data.html#todaysworld

“What is Big Data”, Oracle, visitado em 9 de junho de 2021 - https://www.oracle.com/big-data/what-


2 is-big-data/

3 “Big Data Analytics”, IBM, visitado em 9 de junho de 2021 - https://www.ibm.com/uk-


en/analytics/hadoop/big-data-analytics

4 “The Origins of Big Data”, KDnuggets, visitado


https://www.kdnuggets.com/2017/02/origins-big-data.html
em 10 de junho de 2021 -
“What I Always Wanted To Know About Big Data* (*but was afraid to ask)” por Ramesh Dontha,
5 Linkedin, visitado em 10 de junho de 2021 - https://www.linkedin.com/pulse/what-i-always-wanted-
know-big-data-afraid-ask-ramesh-dontha?trk=mp-author-card

“What is Big Data?”, University of Wisconsin, visitado em 10 de junho de 2021


6 -https://datasciencedegree.wisconsin.edu/data-science/what-is-big-data/

7 “What is “Big Data” — Understanding the History” por James Winegar, towards data science,
visitado em 10 de junho de 2021 - https://towardsdatascience.com/what-is-big-data-understanding-
the-history-32078f3b53ce

“A brief history of big data everyone should read” por Bernard Marr, World Economic Forum,
8 visitado em 10 de junho de 2021 - https://www.weforum.org/agenda/2015/02/a-brief-history-of-big-
data-everyone-should-read/
9 “Big Data”, Wikipedia, visitado em 12 de junho de 2021 - https://en.wikipedia.org/wiki/Big_data

“Top 10 In-Demand Big Data Skills To Land ‘Big’ Data Jobs in 2021” por Utkarsh Singh, upGrad blog,
10 visitado em 12 de junho de 2021 - https://www.upgrad.com/blog/big-data-skills/

11 “Top Big Data Technologies that you Need to know” por Ravi Kiran, Edureka, visitado em 12 de
junho de 2021 - https://www.edureka.co/blog/top-big-data-technologies/

“Big Data Developer”, CarrerJet, visitado em 15 de junho de 2021 -


12 https://www.careerjet.pt/jobad/pta282ed1f9c996610d6d05439b81d9350
13 “Data Science / Big Data Consultant”, CarrerJet, visitado em 15 de junho de 2021 -
https://www.careerjet.pt/jobad/ptd67f989c9536df5f5ba7ebdd534ec2f0

“Apache Spark”, Wikipedia, visitado em 17 de junho de 2021 -


14 https://en.wikipedia.org/wiki/Apache_Spark

“Apache Spark History”, Apache Spark, visitado em 17 de junho de 2021 -


15 https://spark.apache.org/history.html

“Apache Hadoop”, Wikipedia, visitado em 17 de junho de 2021 -


16 https://en.wikipedia.org/wiki/Apache_Hadoop

“What Is Kafka? A Super-Simple Explanation Of This Important Data Analytics Tool”, Bernard Marr
17 & Co., visitado em 17 de junho de 2021 - https://www.bernardmarr.com/default.asp?contentID=1525

Você também pode gostar