O Que É Big DATA?

carloshbm21@gmail.
com
O que é Big DATA?
O termo “big data” se refere à enorme quantidade de dados que são gerados e
coletados diariamente, provenientes de fontes como redes sociais, sensores,
transações financeiras, registros médicos e muito mais. Gerenciar esses grandes
conjuntos de dados pode ser um desafio para empresas e organizações de todos os
setores . É por isso que o big data tem sido um tema cada vez mais relevante nos
últimos anos, e tem sido amplamente adotado em diferentes setores, incluindo
saúde, finanças, varejo, manufatura, entre outros. Uma das principais vantagens do
big data é a capacidade de obter insights mais profundos e significativos sobre
padrões, tendências e comportamentos, que podem ajudar as empresas a tomar
decisões mais informadas e estratégicas. Com ferramentas de análise avançadas,
como machine learning e inteligência artificial, é possível identificar correlações e
padrões que não seriam visíveis com técnicas de análise tradicionais.
O Big Data na prática:
Sabe-se que, o Mc Donald’s, coleta e combina os dados de suas lanchonetes ao

redor do globo com o objetivo de padronizá-los e, com isso, compreender o
comportamento de seu público; como esse público percebe seus produtos; os
aperfeiçoamentos logísticos e layouts que podem ser concebidos para melhorar a
experiência do usuário perante seus serviços e produtos. A partir dos estudos de
Sentiment Analysis (análises de sentimentos), realizados em redes sociais, foram
lançados novos sanduíches, promoções em tempo real etc. Tudo isso só foi
possível, graças ao acompanhamento dos cientistas de dados, que mensuraram
atentamente as manifestações e reações de seu público – alterando estratégia em
tempo real e, até a logística do Drive-Thru, alterada em cada país conforme as
reações de seus consumidores no que diz respeito ao layout, tempo de espera e
informações providenciadas por seus funcionários no ponto de entrega dos lanches.
Tudo é possibilitado por meio de ferramentas de Big Data.
Tecnologias do BIG DATA

Hadoop é um framework de código aberto desenvolvido para armazenamento e
processamento distribuído de grandes conjuntos de dados em clusters de
computadores. Foi criado para lidar com o desafio de lidar com a crescente
quantidade de dados gerados pelas empresas e organizações. O Hadoop é
baseado em um modelo de programação MapReduce que divide tarefas em
pequenos blocos de trabalho e distribui-os em diferentes nós de um cluster de
computadores. Isso permite que grandes conjuntos de dados sejam processados
em paralelo, acelerando significativamente o tempo de processamento. O Hadoop é
projetado para ser escalável, tolerante a falhas e capaz de lidar com grandes
volumes de dados. Além do modelo MapReduce, o Hadoop inclui o Hadoop
Distributed File System (HDFS), que é um sistema de arquivos distribuído que
fornece armazenamento de arquivos de grande escala para os dados processados
pelo Hadoop. O Hadoop é utilizado por muitas empresas e organizações para lidar
com grandes quantidades de dados em tempo real, como empresas de tecnologia,
finanças, saúde, governo e outras indústrias.
Apache Spark: um motor de processamento de dados em larga escala que

pode ser executado em cima do Hadoop ou em clusters independentes. o
Spark também apresenta uma performance muito superior ao Hadoop,
chegando em alguns casos a apresentar uma performance quase 100x maior.
Outra grande vantagem do Spark, é que todos os componentes funcionam
integrados na própria ferramenta, como o Spark Streamming, o Spark SQL e
o GraphX, diferentemente do Hadoop, onde é necessário utilizar ferramentas
que se integram a ele, mas que são distribuídas separadamente, como o
Apache Hive. Além disso, outro aspecto importante é que ele permite a
programação em três linguagens: Java, Scala e Python. Spark tem diversos
componentes para diferentes tipos de processamentos, todos construídos
sobre o Spark Core, que é o componente que disponibiliza as funções
básicas para o processamento como as funções map, reduce, filter e collect.
Entre estes destacam-se:
● O Spark Streamming, que possibilita o processamento de fluxos em tempo

real;
● O GraphX, que realiza o processamento sobre grafos;
● O SparkSQL para a utilização de SQL na realização de consultas e
processamento sobre os dados no Spark;
● A MLlib, que é a biblioteca de aprendizado de máquina, com diferentes
algoritmos para as mais diversas atividades, como clustering.
Um banco de dados NoSQL é um banco de dados não relacional que não usa uma
estrutura de tabela como um banco de dados relacional tradicional. Em vez disso,
um banco de dados NoSQL usa uma variedade de modelos de dados diferentes
para armazenar e acessar dados, incluindo modelos de documentos, chave-valor,
gráficos e colunas. Ao contrário dos bancos de dados relacionais, que exigem que
os dados sejam organizados em tabelas e sigam um esquema rígido, os bancos de
dados NoSQL permitem que os dados sejam armazenados de maneira mais flexível
e não exigem um esquema predefinido. Isso significa que os dados podem ser
adicionados ou alterados facilmente sem a necessidade de alterar toda a estrutura
do banco de dados. Os bancos de dados NoSQL são escaláveis, tolerantes a falhas
e projetados para lidar com grandes volumes de dados em clusters de servidores
distribuídos. Eles são usados em muitas aplicações modernas, como aplicativos
web, jogos, análise de big data, IoT (Internet das coisas), gerenciamento de
conteúdo, entre outros.
Cloud computing (computação em nuvem) é um modelo de fornecimento de

serviços de computação sob demanda, que permite o acesso a recursos de
computação compartilhados, como servidores, armazenamento, aplicativos e
serviços, por meio da internet. Em outras palavras, em vez de manter seus próprios
servidores e infraestrutura, as empresas podem alugar recursos de computação em
provedores de serviços em nuvem. Os serviços de computação em nuvem são
oferecidos em diferentes modelos, incluindo Software as a Service (SaaS), Platform
as a Service (PaaS) e Infrastructure as a Service (IaaS). O modelo SaaS oferece
aplicativos prontos para uso, como software de e-mail e de gerenciamento de
projetos. O modelo PaaS oferece um ambiente de desenvolvimento e execução
para aplicativos personalizados, enquanto o modelo IaaS oferece recursos de
infraestrutura, como servidores virtuais e armazenamento em nuvem. A computação
em nuvem oferece várias vantagens, incluindo escalabilidade, flexibilidade, custos
reduzidos e segurança. As empresas podem escalar seus recursos de computação
conforme necessário, sem a necessidade de investir em infraestrutura adicional. A
flexibilidade permite que as empresas acessem seus recursos de computação de
qualquer lugar do mundo, permitindo o trabalho remoto. O modelo de pagamento
por uso significa que as empresas só pagam pelos recursos que usam, reduzindo os
custos operacionais. A segurança é garantida por meio de recursos de segurança
em camadas oferecidos pelos provedores de serviços em nuvem, incluindo
criptografia, autenticação de usuários e backup de dados.
O Apache Kafka é uma plataforma de streaming de dados de código aberto
desenvolvida pela Apache Software Foundation. Ele é projetado para lidar com
grandes volumes de dados em tempo real, permitindo que as empresas capturem,
processem e transmitam fluxos de dados em tempo real entre diferentes sistemas e
aplicativos. O Kafka funciona como um sistema de mensagens distribuído, onde os
dados são transmitidos em tópicos e particionados em várias partições. Ele é
altamente escalável, tolerante a falhas e pode ser executado em clusters de
servidores distribuídos, permitindo que as empresas gerenciem grandes volumes de
dados em tempo real. O Kafka é frequentemente usado em cenários de Big Data,
IoT (Internet das Coisas), análise de dados em tempo real e outras aplicações que
exigem a transmissão de grandes volumes de dados em tempo real. Ele permite
que as empresas capturem dados de diferentes fontes e transmitam esses dados
para diferentes aplicativos e sistemas em tempo real. O Kafka também possui uma
API rica e suporta várias linguagens de programação, permitindo que os
desenvolvedores integrem facilmente o Kafka em seus aplicativos e sistemas
existentes. Ele também tem uma comunidade ativa e suporte da Apache Software
Foundation, tornando-o uma escolha popular para a transmissão de dados em
tempo real em ambientes empresariais.

O Que É Big DATA?

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

O Que É Big DATA?

Enviado por

Direitos autorais:

Formatos disponíveis

carloshbm21@gmail.

O que é Big DATA?

O Big Data na prática:

Sabe-se que, o Mc Donald’s, coleta e combina os dados de suas lanchonetes ao

Tecnologias do BIG DATA

Apache Spark: um motor de processamento de dados em larga escala que

● O Spark Streamming, que possibilita o processamento de fluxos em tempo

Cloud computing (computação em nuvem) é um modelo de fornecimento de

Você também pode gostar