Você está na página 1de 14

Instituto Politécnico da Maia – IPMAIA

Departamento de Ciências da Comunicação e Tecnologias da Informação

Big Data

Tiago Filipe da Silva Rangel nºa037232

Curso: Licenciatura Tecnologias e Informação para a Web e Multimédia

Orientador institucional: Pedro Correia Cravo Pimenta

Junho, 2021

1
Índice
1. Introdução ................................................................................................................................. 3

2. O que é Big Data? ...................................................................................................................... 3

3. Dados Estruturados e não estruturados ................................................................................... 4

4. Tipos de dados do Big Data ....................................................................................................... 4

5. História do Big Data ................................................................................................................... 5

6. 8 V`S........................................................................................................................................... 6

7. Funcionamento do Big Data ...................................................................................................... 7

8. Importância do Big Data nas empresas ..................................................................................... 9

9. Como o Big Data é usado ........................................................................................................ 10

10. Ferramentas .......................................................................................................................... 11

11. Conclusão .............................................................................................................................. 11

Referências .................................................................................................................................. 13

2
1. Introdução
No âmbito da unidade curricular de “Data Mining e Big Data” do 2º ano de Licenciatura em
Tecnologias de Informação, Web e Multimédia do Instituto Politécnico da Maia, sob
orientação do Professor Pedro Correia Cravo Pimenta no ano letivo 2020/2021, foi proposto
a execução de um projeto final, que tem como finalidade abordar o tema Big Data.

Neste relatório será apresentado, o significa de Big Data e os seus diferentes tipos de dados,
como se desenvolveu ao longo da história, os 8 V’S, o porquê de este conceito estar cada
vez mais presente nas empresas, a forma de como ele é usado e as ferramentas utilizadas.

Dado que nos dias de hoje, são cada vez mais os volumes e as variedades de dados
produzidos e armazenados. Desde bancos, companhias aéreas, operadores de
telecomunicações, browsers, redes de retalho são algumas das diversas áreas que convivem
diariamente com grandes volumes de informação. Contudo ter apenas dados não chega
também é importante saber usá-los e é aí que o conceito de Big Data entra em ação.

2. O que é Big Data?


O Big Data é um conceito que está em constante desenvolvimento e, portanto, a sua
definição é apresentada de diversas formas.

“ Big data is a collection of data from traditional and digital sources inside and outside your
company that represents a source for ongoing discovery and analysis. “(Arthur, 2021, Online)

Deste modo, pode ser definido como um conceito que trata de um grande volume de dados
tradicionais (exemplo - registos financeiros) e digitais (exemplo - interações nas redes
sociais), estruturados e não estruturados que precisam de ser processados e armazenados
por ferramentas preparadas para lidar com este elevado número de dados de forma a ser
encontrada alguma informação que possa ser aproveitada, em tempo útil.

Esta informação é cada vez mais importante dado que fará com que a empresa consiga
estar um passo à frente no mercado pelo simples facto que poderá entender de como
melhorar um produto ou criar uma estratégia de marketing mais eficiente, para produzir
em menos tempo, evitar o desperdício de recursos, superar um concorrente, cortar gasto e
assim por diante.

3
Portanto, o Big data é uma solução que oferece um modo para obter informações (relações
entre os dados) oriundas de um grande conjunto de dados de forma rápida para tornar algo
mais eficiente e produtivo.

3. Dados Estruturados e não estruturados


Por conseguinte, quando se fala em data Mining é importante entender as diferentes
categorias de dados.

Os dados estruturados são aqueles que apresentam uma estrutura definida, ou seja, com
categorias, clusters e definições, como informações sobre o perfil de um cliente, vendas,
localizações, entre outros. Estes são encontrados em base de dados e planilhas, que para
armazenar qualquer dado necessitam de ter definida a sua estrutura, ou seja, se uma
determinada coluna e linha foi criada para ser numérica, esta não aceitará dados de texto.

Já os dados não estruturados são os mais complexos de trabalhar porque não existem neles
uma estrutura, necessitando de uma intervenção humana para a sua preparação. Estes
dados são derivados de redes sociais, como Youtube, Twitter, Instagram na qual lidam com
vídeos, imagens, texto ou até áudio. Atualmente, o monitoramento das redes sociais é feito
através da análise de comentários, de posts, fóruns, entre outos na qual é possível saber o
que pessoas estão a falar sobre um determinado assunto.

4. Tipos de dados do Big Data


Depois de compreender a categorização dos dados é também essencial entender os três
tipos de dados:

Social data: são oriundos das pessoas e fornecem informações que decifram
comportamentos. Por exemplo quando se possui dados sobre o que as pessoas comentam
em fotos nas redes sociais ou o que pesquisam no Google, consegue-se perceber o seu
nível de previsibilidade.

Enterprise data: são oriundos de empresas e gerados constantemente que permitem medir
produtividade das equipas e descobrir alguns problemas

4
Personal data ou data of things: são oriundos de informações coletadas em dispositivos IoT,
sensores inteligentes e outros dispositivos do género.

5. História do Big Data


Apesar do conceito do big data ser relativamente novo, os grandes conjuntos de dados
remontam aos anos de 1960 e 1970, quando o mundo dos dados estava a começar com os
primeiros data centres e o desenvolvimento de bases de dados relacionais.

O termo nasceu na década de 1990 pela NASA, mas só em 2001 vice-presidente e diretor
de pesquisas do Enterprise Analytics Strategies (Estratégias Analíticas Empresariais), Doug
Laney, expôs a definição de Big Data em três V’s:

• Volume
• Variedade
• Velocidade

Nos anos 2005, começou-se a perceber que os dados do utilizador gerados por o Facebook
e o Youtube, entre outras redes sociais da época eram muitos e começaram a surgir
ferramentas que permitiam a análise de esses dados como a Hadoop.

O desenvolvimento destes softwares de código aberto, foram essenciais para o crescimento


do big data porque tornaram o big data mais simples de trabalhar e mais barato para
armazenar dados. A partir do ano de 2011 o interesse no big data só tem aumentado tal
como mostra o seguinte gráfico.

Figura 1 - Evolução na busca por termos "Data Mining" e "Big Data" na internet – Fonte: Google
(2015).

5
Em 2013, o chefe de dados da Express Scripts, Inderpal Bhandar, argumentou que existiam
outros três V’s adicionais:

• Valor
• Volatilidade
• Veracidade.

Mas como será apresentado no próximo tópico, o big data ainda reservaria outros V’S: a
visualização e a validade. O modelo assim está completo, mas sempre com a possibilidade
de continuar a evoluir.

6. 8 V`S
O conceito do Big Data revela então 8 V`s que irão permitir compreender o seu
funcionamento e ajudar a encontrar as ferramentas certas para manipular dados o que
garante que o big data faça o que é pretendido para tomar decisões estratégicas e
lucrativas:

• 1. Volume

O Big Data agrupa uma enorme quantidade de dados (desde fotos, vídeos, emails, etc) que
são gerados a cada segundo. Assim, para lidar com esse volume de dados com eficiência,
tornou-se possível o seu agrupamento através de softwares.

• 2. Velocidade

Esta é definida pela agilidade com a qual os dados são produzidos e manipulados. O Big
Data vai analisar os dados no instante em que são criados sem precisar armazená-los. Tal
como acontece com as transações de cartão de crédito.

• 3. Variedade

A variedade revela que os dados podem ser gerados em vários formatos como já referidos
anteriormente desde estruturados ou não estruturados.

• 4. Valor

6
As informações produzidas precisam de ser do interesse do negócio, ou seja, gerar
conteúdos que agregam valor.

• 5. Veracidade

A veracidade refere-se à qualidade dos dados. Como os dados vêm de muitas fontes
diferentes, é difícil vincular, combinar, limpar e transformar dados entre sistemas.

Por esse motivo as empresas precisam conectar e correlacionar hierarquias e múltiplas


ligações de dados permitindo que as ferramentas de big data forneçam dados confiáveis e
verídicos, por meio de relatórios, estatísticas e análises, com base em grandes volumes de
informações.

• 6. Volatilidade

Na análise de Big Data, a inconsistência de dados é um cenário comum que surge quando
os dados são obtidos de fontes diferentes. Portanto, para obter dados significativos dessa
enorme quantidade de dados, a deteção de anomalias e valores discrepantes são essenciais.

• 7. Visualização

Os dados precisam ser apresentados de forma acessível e legível para facilitar a


compreensão aos analistas.

• 8. Validade

Por fim, a validade refere-se a quão precisos e corretos os dados são para o uso pretendido.

7. Funcionamento do Big Data


Para compreender o Big Data é necessário compreender a complexidade envolvida na
transformação de um dado bruto em uma informação valiosa. Por isso, de seguida irão ser
apresentadas quais as etapas desde o início ao fim do projeto.

Colheita de dados

A colheita é a primeira etapa que consiste em obter um grande conjunto de dados de


diversas fontes, mas já orientado para um objetivo específico. Esta requer novas estratégias

7
e tecnologias para analisar conjuntos de big data em escala de terabyte ou mesmo
petabyte.

Armazenamento

O armazenamento consiste na distribuição dos dados em servidores, dispositivos e sistemas


distintos, tanto físicos quanto na nuvem. Estes dados podem ser armazenados em qualquer
formato.

Limpeza de Dados

Nesta etapa são identificadas as anomalias ou discrepâncias que possam comprometer a


análise dos dados. A limpeza é feita por um processo de inspeção dos dados recolhidos que
permitem que dados anómalos (valores nulos, inconsistentes, duplicado, entre outros)
sejam removidos ou tratados para evitar causar algum tipo de problema.

Data Mining

O Data Mining é realizado computacionalmente e pode ser definida como um


processamento de dados para a identificação de padrões. Tem uma capacidade de oferecer
insights relevantes devido ao facto de não olhar para padrões de comportamento, mas sim
para situações que por vezes não fazem sentido para as pessoas.

Interpretação do conteúdo

A interpretação dos dados determina se um modelo pode ser aplicado a problemas fora de
âmbito de um ambiente teste.

Visualização de informações

A visualização de informações é a fase de remodelar os resultados extraídos. Nesta fase,


são feitas adaptações gráficas que favorecem uma interpretação simples, eliminando ruídos
e fatores que desviem o foco durante a análise.

Integração de dados

Por fim, a integração dos dados significa utilizar todos os resultados obtidos de forma
sistemática e com inteligência.

8
Como por exemplo, adotar uma plataforma que relacione diferentes informações sobre o
comportamento de um consumidor numa dashboard para comparar os dados do e-
commerce com os da loja física. Que permite que a empresa mantenha um olhar
panorâmico sobre a sua performance.

8. Importância do Big Data nas empresas


Nos dias de hoje, a maior parte das empresas que utilizam o Big Data são as empresas
gigantescas, como Google, UPS, Facebook, IBM ou entidades governamentais. A UPS,
empresa de entregas americana, tem diversos exemplos de utilização deste conceito como
por exemplo, a recolha e análise de dados acerca das rotas de entregas permitiram
economizar cerca de 38 milhões de litros de combustível e realizaram mais 350 mil
encomendas por ano.

Mas não são só empresas grandes que utilizam o big data se favorecem, algumas empresas
consideradas médias utilizam este conceito para também crescer e inovar.

Portanto, o Big Data tornou-se um pilar fundamental para o crescimento de uma empresa
e é utilizado para imensas situações, tais como:

Realizar uma escuta social

O Big Data tem a capacidade de cruzar informações de várias fontes, como bases de dados,
perfis de consumidores, histórico de mensagens e de interações com os clientes.

Deste modo, é possível executar uma “escuta social” sobre como a empresa/marca é vista
e compreendida em diferentes contextos.

Com base nestas informações, é feita uma avaliação sobre esta reputação e analisa-se se
realmente é necessário trabalhar para melhor a perceção do público.

Maior facilidade para segmentação de público e mercado

A partir dos resultados do monitoramento do público e das avaliações criadas é possível


compreender melhor o comportamento de clientes.

9
Portanto, as técnicas de big data ajudam a descobrir exigências, desejos e outras situações
que levará a empresa a novos segmentos de negócios que permitirá atender às exigências
do mercado.

Realizar análises comparativas para definir melhores preços

Dificuldades de comunicação entre os departamentos de vendas e de compras podem gerar


problemas ao atribuir um preço a um produto e o Big Data pode evitar isso.

Por exemplo, caso uma matéria-prima fique mais cara, o preço da mercadoria final
normalmente deve ser reajustado para que a empresa continue adquirindo matérias-primas
para a fabricação sem prejudicar lucros futuros.

9. Como o Big Data é usado


O Big Data é utilizado de diversas maneiras nas empresas e por vários motivos.

Na indústria, o uso deste conceito contribui para o aumento da qualidade de produção e a


diminuição do desperdício.

Já nas lojas que vendem para a população é muito utilizado para a construção de
relacionamentos com os clientes, na qual é possível descobrir quais os desejos dos
consumidores e o que pode ser feito para melhorar o atendimento.

Na saúde é utilizado para por exemplo para reduzir o tempo de espera dos clientes ou para
melhorar a experiência de cada um.

Por fim, no setor financeiro é utilizado para otimizar avaliações de crédito e processos de
prevenção a fraudes.

10
10. Ferramentas
Quando estamos perante o Big Data possuir bases de dados NoSQL não chega pois é
necessário contar com ferramentas que permitam o tratamento e análise destes grandes
volumes de dados. Algumas das ferramentas são:

• Import.io
• Apache Hadoop
• Oracle Data Mining
• Tableau
• Chartio
• Pentaho

De seguida, irá ser abordado uma destas ferramentas para perceber o porquê de ser
importante:

Apache Hadoop

O Apache Hadoop é uma das principais ferramentas open source de Big Data utilizadas no
mercado. Este software foi desenvolvido especialmente para processamento e análise de
grandes volumes de dados e é executado em hardware comum num data center ou na
nuvem.

O hadoop é utilizado por diversos motivos, tais como:

• Ser um projeto open source que irá permitir a sua customização para responder
melhor às necessidades do estudo;
• Barato de implementar devido ao facto de não possuir o pagamento de licenças e
suportar hardware convencional;
• Conta com recursos tolerância a falhas;
• O hadoop é escalável, ou seja, quando houver a necessidade de processamentos de
maior quantidade de dados é possível fazê-lo;

11. Conclusão
Em suma, o Big Data é um conceito que se encontra em crescimento e é capaz de analisar
um grande conjunto de dados e de fornecer diversas informações que contribuem para o
entendimento e crescimento de um determinado negócio.
11
Assim, com a elaboração deste trabalho espero que tenha atingidos os objetivos esperados
e tê-los concluído com sucesso.

12
Referências
Arthur, Lisa. What Is Big Data?. Forbes.
Disponivel em: https://www.forbes.com/sites/lisaarthur/2013/08/15/what-is-big-
data/?sh=4a05fdc35c85 Acesso em: 17/06/2021

Guedes, Marylene. O que são dados estruturados e não estruturados?. TreinaWeb.

Disponível em: https://www.treinaweb.com.br/blog/o-que-sao-dados-estruturados-e-nao-


estruturados Acesso em: 17/06/2021

Sierro, Sérgio. Dados Estruturados vs Dados Não-Estruturados. Gran Cursos Online.

Disponível em: https://blog.grancursosonline.com.br/dados-estruturados-vs-dados-nao-


estruturados/ Acesso em: 17/06/2021

Alecrim, Emerson. O que é Big Data?. Info Wester.

Disponível em: https://www.infowester.com/big-data.php Acesso em: 17/06/2021

Nascimento, Rodrigo. Afinal. o que é Big Data?. Marketing por dados.

Disponível em: http://marketingpordados.com/analise-de-dados/o-que-e-big-data-


%F0%9F%A4%96/ Acesso em: 17/06/2021

Fia. Big Data: o que é, como aplicar, a importância e exemplos. Fia.

Disponível em: https://fia.com.br/blog/big-data/ Acesso em: 17/06/2021

Totvs. Big Data: o que é, como funciona e como aplicar?. Totvs

Disponível em: https://www.totvs.com/blog/inovacoes/big-data/ Acesso em: 17/06/2021

Smallcombe, Mark. The 7 Vs of Big Data. Xplenty

Disponível em: https://www.xplenty.com/blog/7-vs-big-data/#extra Acesso em: 17/06/2021

Cetax. DATA ANALYTICS, BIG DATA, DATA SCIENCE. Cetax

Disponível em: https://www.cetax.com.br/blog/big-data/ Acesso em: 18/06/2021

13
Abel, Carol. Análise de dados: conheça as 8 principais ferramentas de Big Data para usar nos
negócios. MindMiners

Disponível em: https://mindminers.com/blog/ferramentas-de-big-data/ Acesso em:


18/06/2021

14

Você também pode gostar