Você está na página 1de 6

Big Data 101

Introdução 🚀
Começamos este curso nos indagando… Afinal, o
que é Big Data?

Segundo Murtaza Haider, PhD

Big Data é qualquer volume de dados que vai além da capacidade dos seus
sistemas de armazenamento e manipulação. Não é um valor fixo de dados onde
ao atingirmos 50 petabyes temos Big Data. É algo em constante mudança igual
como vemos que conforme as empresas geram mais dados e seus clusters já
não dão conta o cenário e as tecnologias vão mudando.

A ciência de dados como uma área da ciência, com foco evoluir a capacidades de armazenamento,
processamento e agregação de valor a uma enorme gama de dados, é cada vez mais necessária para
nos desafogar do dilúvio de dados que vem crescendo nos últimos anos.

Big Data 101 1


What is Big Data 🤨
Como população do planeta Terra, viventes na era da tecnologia e informação do século XXI, nosso dia a
dia está rodeado de ferramentas interativas e com elas geramos dados. Ao fazermos um pedido em um
app de delivery, marcamos uma aula no curso de inglês on-line ou mandamos uma mensagem para
algum parente, todos nós geramos dados. Agora imagine mais de 5 bilhões de pessoas com acesso a
internet e tecnologias vivendo seu dia a dia… muita coisa né? Ai está a sua resposta.
Todos esses dados gerados loucamente possuem características bem claras de serem reconhecidas,
como: alto volume, são gerados em alta velocidade, em grande variedade e muitos deles em
veracidade.

Atualmente, no crescente número de empresas que estão investindo em adotar uma cultura data-driven,
os dados nos trazem custo-benefício incríveis com formas inovadoras de gerarem valor aos mesmos
após o processamento correto para retirada de insights. Devido a isso vemos uma nova característica
surgir: o valor.

Big Data in Business 🪙💻


Recommendation Engines

Foto retirada da internet. Fonte: https://macmagazine.com.br/post/2022/04/05/plex-agora-unifica-catalogos-de-varios-


servicos-de-streaming/

Ainda nos tempos atuais é comum a ideia coletiva de que a tecnologia é difícil e distante de suas
realidades, mas mal elas sabem que podemos encontrar esse impacto dos dados quando fazem
compras em plataformas online onde passam a sugerir mais produtos com base no que a pessoa mais
consome, recomendação de filmes em suas plataformas de streaming ou uma playlist de músicas
personalizadas com seu gosto musical criadas automaticamente pelo seu app de música 😉
Virtual Personal Assistants
E que tal falar sobre o crescente número de adeptos das Assistentes Virtuais que, através de
ferramentas, aparelhos e até IoT, nos ajudam a realizar tarefas, agendar compromissos e até pedir
comida!
Através da analise de dados históricos gerados por você e captados pelos dispositivos, essas
inteligências artificiais traçam seu perfil e oferecem um serviço cada vez mais personalizado com suas
necessidades.

Big Data 101 2


E dos dois serviços listados acima vemos como nosso dia a dia pode estar rodeado de tecnologia,
tecnologias fornecidas por diversas empresas. Tirando, também, do que já comentei acerca da cultura
data-driven e a vantagem competitiva que a mesma traz.

Economia operacional e de recursos para viabilizar mais


investimento em produtos com maior taxa de sucesso.
É isso mesmo. Como falamos da vantagem competitiva anteriormente, deixe-me dar o exemplo que vi no
curso: Como uma plataforma de streaming sabe quais conteúdos produzir dentro de tantas opções que o
cinema traz? Porque eles sabem os dados de todos os consumidores! Analisando os comentários,
velocidade de reprodução, quando pulamos um trecho, idioma, gênero, tempo de duração, quando
assistimos e de qual lugar do mundo, quais pesquisas fazemos e muuuito mais. Já comum as
plataformas já lançarem produtos sabendo que serão um sucesso (salvo as exceções).
Outro exemplo é a personalização de campanhas publicitárias que sabem como e para quem devem
direcionar cada tipo de campanha!

Beyond the Hype


Podemos dizer que com o avanço do acesso a tecnologia e internet, aumento populacional, e as
inovações em cloud contribuem continuamente para o aumento do volume e diversidade dos dados que
temos hoje em dia. Diversos serviços tecnológicos, sensores, plataformas digitais e até telemedicina
contribuem, também, para o crescimento desses dados.
Falaremos mais sobre cloud em um outro momento, mas o que podemos deixar claro acerca de sua
participação nesse movimento é que por oferecer aos seus cliente uma plataforma digital, que pode ser
acessada de qualquer lugar do mundo e permite uma alta escalabilidade para armazenamento e
processamento dos dados, onde você paga pelo o que usa, deixa um leque de opções viáveis para que o
mundo explore mais essa onda.

No vídeo, o narrador comenta sobre uma pesquisa da IBM e da SAID Business School onde
identificaram três fontes principais de Big Data, onde entramos nós seres humanos, máquinas, aparelhos
e objetos inteligentes conectados a rede ou/e internet e as próprias empresas com seus
datawarehouse’s.

Estes dados podem vir estruturados, não estruturados e semiestruturados. Os estruturados são dados
organizados, rotulados e que seguem um modelo definido de estrutura e seguem um modelo de tabela
ou banco de dados relacional. Já os dados não estruturados representam cerca de 80% dos dados no
mundo, como fotos, vídeos, txt, json, xml e muuito mais. E os dados semiestruturados são uma mistura
dos dois.

Big Data and Data Science

Big Data 101 3


Agora, neste tópico, vamos discutir como o Big Data se relaciona com a ciência de dados e gera frutos
tão ricos.

Ao abordarmos as habilidade abrangentes na ciência de dados veremos a integração, análise (),


visualização, otimização, segurança e governância.

Integração

É a habilidade de incorporar partes em um todo, como unir tantas fontes em uma estrutura de fonte de
dados principal. Utilizando ferramentas como o Hadoop, conseguimos unir diversas fontes de dados,
como diversos bancos, em uma.

Através do HDFS (Hadoop Distributed File System), que, cruamente falando, se trata de um sistema
centralizados “dorsal” dos braços dos arquivos distribuídos entre diferentes locais/fontes.

Análise

É a habilidade que, através do estudo comportamental e factível, nos permite concluir e sugerir sobre
aquilo que está sendo observado. Por exemplo podemos falar como o Walmart utiliza do Polaris,
ferramenta de mecanismo de busca, para sugerir compras para seus cliente a partir da análise
comportamental dos mesmos.

Visualização e Otimização

Passou-se o tempo onde as tabelas que usávamos podiam sem conferidas por olho hahaha. Atualmente,
os dados que precisamos entender são enormes e quase infinitos. Por isso, é super importante nos
dedicarmos a buscar as melhores formas de visualizar tantas informações para entendê-las, pois é a
partir delas que muitas pessoas tomam grandes decisões

Segurança e Governança

A discussão acerca da necessidade de zelo e responsabilidade com o manuseio de dados é extensa e


de longa data. Afinal, como assegurar a segurança de TODOS os dados que circulam sobre pessoas e
empresas por uma grande organização? A violação de dados pessoais é crime e cabe a empresa estar
dentro dos conformes legais e assegurar a segurança e a governança dos mesmos. É necessário saber
organizar a distribuição das informações!

Na ciência de dados, o tamanho “não importa”, mas sim como o profissional realiza o processo de
limpeza, mineração e análise dos dados para obter valor. O foco é o rico resultado que nasce da boa
combinação, análise e modelagem dos dados exploratórios. Como é dito no vídeo: “A ciência de dados é
o processo de destilação de insights a partir dos dados para embasar as decisões”. Isso unindo
conhecimentos estatísticos, de negócios, ciência e informática.

Tem-se todo um cuidado com a determinação do problema de negócio, da coleta dos dados, exploração
e análise dos mesmos, construção, adaptação e validação de modelos, storytelling e tomada de decisão.

Big Data 101 4


Big Data Use Case
Quando uma empresa, seja ela grande ou pequena, decide investir em ferramentas de unificação e
análise de dados, ela decide entender o mundo ao redor dela e como ela pode se colocar de forma
vantajosa nele. Ela ganha valor.

Podemos usar big data em uma forma de visualização de mapa climático na hora do jornal para entender
a dinâmica climática no nosso país e região.

Podemos usar big data em grandes metrópoles para prever fluxo de pessoas e veículos em diferentes
locais e horários, oferecendo um tesouro onde os governantes podem direcionar suas medidas de
redução de carbono, planejamento no transporte público e uma infraestrutura de maior qualidade para a
população.

A criação de protocolos e medidas mais eficientes para combater os crimes na tecnologia, terrorismo
cibernético e fraudes através da análise de big data e encontrando padrões que os criminosos deixam ao
tentar fraudar algum recurso.

Processing Big Data


Seguindo os estudos publicados pelo McKinsey Global Institute de 2011, os componentes básicos do big
data são divididos em três grandes campos: Técnicas de Análise de dados, como o teste A/B, machine
learning e NPL. O campo das Tecnologias de dados, como o BI, cloud computing e databases. E, por
último mas não menos importante, o campo da Visualização como gráficos, graphs e displays de dados.

Agora focaremos mais no campo das tecnologias de dados e falaremos sobre como o processamento de
dados está se adaptando para fornecer soluções que ofereçam a capacidade de visualização com dados
estruturados, semiestruturados e não estruturados. O a riqueza mineirada e refinada da mina de dados
só é valiosa devido a capacidade do time de profissionais de manusear ferramentas que saibam ler os
diversos tipos de dados que contém no território e compreendê-los.
Ferramentas de dados como o Hadoop e o NoSQL, que sabem atuar no meio do grande volume de
dados estruturados e não estruturados, são alguns dos meios para atingirmos os fins já descritos
anteriormente. Podemos citar o Data Science Workbench, da IBM, que é uma ferramenta hospedada em
cloud que oferece funcionalidades open-source para o desenvolvimento de projetos de data science e
machine learning, que providenciam fácil acesso à Spark, Hadoop, além da possibilidade de
programação com python, R e Scala.

What is the Hadoop Framework?


É um framework open-source usado para armazenar e processar grandes volumes de dados.

É formado por diferentes módulos especializados, sendo os principais o HDFS, Gerenciamento de


Recursos e Programação para Tasks Computacionais, Modelos de Programação de Processamento
Distribuído Baseados no MapReduce, utilitários comuns e bibliotecas de software necessários para toda
plataforma Hadoop.
A estrutura do Hadoop é escrita em Java e utiliza da tecnologia MapReduce do Google como sua base.

Big Data 101 5


Segundo o vídeo, para a IBM “O Apache Hadoop é uma plataforma de processamento altamente
escalável projetada para processar grandes conjuntos de dados através de centenas de milhares de nós
computacionais que operam paralelamente”.

Big Data 101 6

Você também pode gostar