Escolar Documentos
Profissional Documentos
Cultura Documentos
Tiago Rangel - BD
Tiago Rangel - BD
Big Data
Junho, 2021
1
Índice
1. Introdução ................................................................................................................................. 3
6. 8 V`S........................................................................................................................................... 6
Referências .................................................................................................................................. 13
2
1. Introdução
No âmbito da unidade curricular de “Data Mining e Big Data” do 2º ano de Licenciatura em
Tecnologias de Informação, Web e Multimédia do Instituto Politécnico da Maia, sob
orientação do Professor Pedro Correia Cravo Pimenta no ano letivo 2020/2021, foi proposto
a execução de um projeto final, que tem como finalidade abordar o tema Big Data.
Neste relatório será apresentado, o significa de Big Data e os seus diferentes tipos de dados,
como se desenvolveu ao longo da história, os 8 V’S, o porquê de este conceito estar cada
vez mais presente nas empresas, a forma de como ele é usado e as ferramentas utilizadas.
Dado que nos dias de hoje, são cada vez mais os volumes e as variedades de dados
produzidos e armazenados. Desde bancos, companhias aéreas, operadores de
telecomunicações, browsers, redes de retalho são algumas das diversas áreas que convivem
diariamente com grandes volumes de informação. Contudo ter apenas dados não chega
também é importante saber usá-los e é aí que o conceito de Big Data entra em ação.
“ Big data is a collection of data from traditional and digital sources inside and outside your
company that represents a source for ongoing discovery and analysis. “(Arthur, 2021, Online)
Deste modo, pode ser definido como um conceito que trata de um grande volume de dados
tradicionais (exemplo - registos financeiros) e digitais (exemplo - interações nas redes
sociais), estruturados e não estruturados que precisam de ser processados e armazenados
por ferramentas preparadas para lidar com este elevado número de dados de forma a ser
encontrada alguma informação que possa ser aproveitada, em tempo útil.
Esta informação é cada vez mais importante dado que fará com que a empresa consiga
estar um passo à frente no mercado pelo simples facto que poderá entender de como
melhorar um produto ou criar uma estratégia de marketing mais eficiente, para produzir
em menos tempo, evitar o desperdício de recursos, superar um concorrente, cortar gasto e
assim por diante.
3
Portanto, o Big data é uma solução que oferece um modo para obter informações (relações
entre os dados) oriundas de um grande conjunto de dados de forma rápida para tornar algo
mais eficiente e produtivo.
Os dados estruturados são aqueles que apresentam uma estrutura definida, ou seja, com
categorias, clusters e definições, como informações sobre o perfil de um cliente, vendas,
localizações, entre outros. Estes são encontrados em base de dados e planilhas, que para
armazenar qualquer dado necessitam de ter definida a sua estrutura, ou seja, se uma
determinada coluna e linha foi criada para ser numérica, esta não aceitará dados de texto.
Já os dados não estruturados são os mais complexos de trabalhar porque não existem neles
uma estrutura, necessitando de uma intervenção humana para a sua preparação. Estes
dados são derivados de redes sociais, como Youtube, Twitter, Instagram na qual lidam com
vídeos, imagens, texto ou até áudio. Atualmente, o monitoramento das redes sociais é feito
através da análise de comentários, de posts, fóruns, entre outos na qual é possível saber o
que pessoas estão a falar sobre um determinado assunto.
Social data: são oriundos das pessoas e fornecem informações que decifram
comportamentos. Por exemplo quando se possui dados sobre o que as pessoas comentam
em fotos nas redes sociais ou o que pesquisam no Google, consegue-se perceber o seu
nível de previsibilidade.
Enterprise data: são oriundos de empresas e gerados constantemente que permitem medir
produtividade das equipas e descobrir alguns problemas
4
Personal data ou data of things: são oriundos de informações coletadas em dispositivos IoT,
sensores inteligentes e outros dispositivos do género.
O termo nasceu na década de 1990 pela NASA, mas só em 2001 vice-presidente e diretor
de pesquisas do Enterprise Analytics Strategies (Estratégias Analíticas Empresariais), Doug
Laney, expôs a definição de Big Data em três V’s:
• Volume
• Variedade
• Velocidade
Nos anos 2005, começou-se a perceber que os dados do utilizador gerados por o Facebook
e o Youtube, entre outras redes sociais da época eram muitos e começaram a surgir
ferramentas que permitiam a análise de esses dados como a Hadoop.
Figura 1 - Evolução na busca por termos "Data Mining" e "Big Data" na internet – Fonte: Google
(2015).
5
Em 2013, o chefe de dados da Express Scripts, Inderpal Bhandar, argumentou que existiam
outros três V’s adicionais:
• Valor
• Volatilidade
• Veracidade.
Mas como será apresentado no próximo tópico, o big data ainda reservaria outros V’S: a
visualização e a validade. O modelo assim está completo, mas sempre com a possibilidade
de continuar a evoluir.
6. 8 V`S
O conceito do Big Data revela então 8 V`s que irão permitir compreender o seu
funcionamento e ajudar a encontrar as ferramentas certas para manipular dados o que
garante que o big data faça o que é pretendido para tomar decisões estratégicas e
lucrativas:
• 1. Volume
O Big Data agrupa uma enorme quantidade de dados (desde fotos, vídeos, emails, etc) que
são gerados a cada segundo. Assim, para lidar com esse volume de dados com eficiência,
tornou-se possível o seu agrupamento através de softwares.
• 2. Velocidade
Esta é definida pela agilidade com a qual os dados são produzidos e manipulados. O Big
Data vai analisar os dados no instante em que são criados sem precisar armazená-los. Tal
como acontece com as transações de cartão de crédito.
• 3. Variedade
A variedade revela que os dados podem ser gerados em vários formatos como já referidos
anteriormente desde estruturados ou não estruturados.
• 4. Valor
6
As informações produzidas precisam de ser do interesse do negócio, ou seja, gerar
conteúdos que agregam valor.
• 5. Veracidade
A veracidade refere-se à qualidade dos dados. Como os dados vêm de muitas fontes
diferentes, é difícil vincular, combinar, limpar e transformar dados entre sistemas.
• 6. Volatilidade
Na análise de Big Data, a inconsistência de dados é um cenário comum que surge quando
os dados são obtidos de fontes diferentes. Portanto, para obter dados significativos dessa
enorme quantidade de dados, a deteção de anomalias e valores discrepantes são essenciais.
• 7. Visualização
• 8. Validade
Por fim, a validade refere-se a quão precisos e corretos os dados são para o uso pretendido.
Colheita de dados
7
e tecnologias para analisar conjuntos de big data em escala de terabyte ou mesmo
petabyte.
Armazenamento
Limpeza de Dados
Data Mining
Interpretação do conteúdo
A interpretação dos dados determina se um modelo pode ser aplicado a problemas fora de
âmbito de um ambiente teste.
Visualização de informações
Integração de dados
Por fim, a integração dos dados significa utilizar todos os resultados obtidos de forma
sistemática e com inteligência.
8
Como por exemplo, adotar uma plataforma que relacione diferentes informações sobre o
comportamento de um consumidor numa dashboard para comparar os dados do e-
commerce com os da loja física. Que permite que a empresa mantenha um olhar
panorâmico sobre a sua performance.
Mas não são só empresas grandes que utilizam o big data se favorecem, algumas empresas
consideradas médias utilizam este conceito para também crescer e inovar.
Portanto, o Big Data tornou-se um pilar fundamental para o crescimento de uma empresa
e é utilizado para imensas situações, tais como:
O Big Data tem a capacidade de cruzar informações de várias fontes, como bases de dados,
perfis de consumidores, histórico de mensagens e de interações com os clientes.
Deste modo, é possível executar uma “escuta social” sobre como a empresa/marca é vista
e compreendida em diferentes contextos.
Com base nestas informações, é feita uma avaliação sobre esta reputação e analisa-se se
realmente é necessário trabalhar para melhor a perceção do público.
9
Portanto, as técnicas de big data ajudam a descobrir exigências, desejos e outras situações
que levará a empresa a novos segmentos de negócios que permitirá atender às exigências
do mercado.
Por exemplo, caso uma matéria-prima fique mais cara, o preço da mercadoria final
normalmente deve ser reajustado para que a empresa continue adquirindo matérias-primas
para a fabricação sem prejudicar lucros futuros.
Já nas lojas que vendem para a população é muito utilizado para a construção de
relacionamentos com os clientes, na qual é possível descobrir quais os desejos dos
consumidores e o que pode ser feito para melhorar o atendimento.
Na saúde é utilizado para por exemplo para reduzir o tempo de espera dos clientes ou para
melhorar a experiência de cada um.
Por fim, no setor financeiro é utilizado para otimizar avaliações de crédito e processos de
prevenção a fraudes.
10
10. Ferramentas
Quando estamos perante o Big Data possuir bases de dados NoSQL não chega pois é
necessário contar com ferramentas que permitam o tratamento e análise destes grandes
volumes de dados. Algumas das ferramentas são:
• Import.io
• Apache Hadoop
• Oracle Data Mining
• Tableau
• Chartio
• Pentaho
De seguida, irá ser abordado uma destas ferramentas para perceber o porquê de ser
importante:
Apache Hadoop
O Apache Hadoop é uma das principais ferramentas open source de Big Data utilizadas no
mercado. Este software foi desenvolvido especialmente para processamento e análise de
grandes volumes de dados e é executado em hardware comum num data center ou na
nuvem.
• Ser um projeto open source que irá permitir a sua customização para responder
melhor às necessidades do estudo;
• Barato de implementar devido ao facto de não possuir o pagamento de licenças e
suportar hardware convencional;
• Conta com recursos tolerância a falhas;
• O hadoop é escalável, ou seja, quando houver a necessidade de processamentos de
maior quantidade de dados é possível fazê-lo;
11. Conclusão
Em suma, o Big Data é um conceito que se encontra em crescimento e é capaz de analisar
um grande conjunto de dados e de fornecer diversas informações que contribuem para o
entendimento e crescimento de um determinado negócio.
11
Assim, com a elaboração deste trabalho espero que tenha atingidos os objetivos esperados
e tê-los concluído com sucesso.
12
Referências
Arthur, Lisa. What Is Big Data?. Forbes.
Disponivel em: https://www.forbes.com/sites/lisaarthur/2013/08/15/what-is-big-
data/?sh=4a05fdc35c85 Acesso em: 17/06/2021
13
Abel, Carol. Análise de dados: conheça as 8 principais ferramentas de Big Data para usar nos
negócios. MindMiners
14