Você está na página 1de 67

BIG DATA

TUDO O QUE VOCÊ PRECISA SABER


TÓPICOS DO MATERIAL
▪ Definição e Conceito de Big Data
▪ Os 3 V’s do Big Data
▪ Origem dos dados
▪ Dados Estruturados e Não Estruturados
▪ Big Data em números
▪ Cases de Big Data
▪ Como ingressar no Big Data
▪ Cursos indicados para quem deseja ingressar
▪ Conclusão
O QUE É BIG DATA?
O termo Big Data nasceu no início da década de 1990, na NASA, para
descrever grandes conjuntos de dados complexos que desafiam os limites
computacionais tradicionais de captura, processamento, análise e
armazenamento informacional.
DEFINIÇÃO DE BIG DATA
Podemos, então, compreender Big Data como um termo que define “Um grande
volume de dados, gerados em alta velocidade e variedade, que necessitam de
tecnologias inovadoras e formas econômicas para processar, organizar e
armazenar todo esse grande volume de dados, a fim de se permitir melhor
compreensão, para a tomada de decisão e automação de processos.”
RESUMO
Só para reforçar: Big Data (Grandes conjunto de Dados, em português), é
um termo usado para descrever imensos volumes de dados, não
estruturados e estruturados, que não podem ser efetivamente
processados com softwares/tecnologias convencionais.
VOLUME,
VELOCIDADE E
VARIEDADE DE
DADOS
OS 3 V’S DO BIG DATA
Não é só o volume de dados que define Big Data. Embora o termo seja
relativamente novo, o conceito ganhou força no início dos anos 2000,
quando um famoso analista, Doug Laney, definiu os três V’s que compõem
o Big Data.
1. VOLUME DE DADOS
Passamos a falar muito rápido de Gigabytes para Terabytes, e agora
estamos falando de Petabytes e outros volumes que não vou saber
colocar aqui de cabeça para vocês. Hoje são contabilizados em média 12
Terabytes de Tweets diariamente, em 2012 foram gerados cerca de 2.834
Exabytes (que são milhões de Gigabytes) a previsão é que em 2020 se
gerem anualmente 40.026 Exabytes de informações.
1. VOLUME DE DADOS
No passado, armazenar toda essa quantidade de informações teria sido
um problema, mas as novas tecnologias (como o Hadoop) têm aliviado a
carga e tornado possível o processamento e análise dessa vasta
quantidade de dados.
2. VELOCITY – VELOCIDADE
Hoje, para alguns negócios, 1 minuto pode ser muito tempo, detecção de
fraudes, liberações de pagamentos, análises de dados médicos ou qualquer
outra informação sensível a tempo. A maior parte dos projetos de DW/BI (Data
Warehouse e Business Intelligence) ainda tem latência em D-1, ou seja,
carregamos o dia anterior. Ainda acreditamos que essa solução se aplique a
muitos negócios, porém, para algumas análises, quanto mais próximo do tempo
real, maior pode ser o incremento de negócio.
3. VARIETY– VARIEDADE
Hoje temos capacidade de capturar e analisar dados estruturados e não-
estruturados - texto, sensores, navegação Web, áudio, vídeo, arquivos de
logs, catracas, centrais de ar condicionado, entre outros. Uma nova série
de ferramentas estão se tornando parte dos projetos, são as ferramentas
de Machine Data, dados de máquina, quase qualquer aparelho eletrônico
hoje em dia tem uma estrutura de dados ou programação, o ponto é que
nem todos podem ser acessados (ainda..).
ORIGEM DOS
DADOS
ORIGEM DOS DADOS
Agora compreendemos que tudo se baseia em dados.
Mas, de onde esses dados, utilizados em Big Data, são extraídos?
Se o objetivo do Big Data é extrair um grande volume de dados, organizá-
los e analisá-los, a fim de se obter insights para negócios e prever uma
determinada situação, pode se dizer que os dados são extraídos de
qualquer lugar? Sim, qualquer lugar e formato.
ORIGEM DOS DADOS
▪ Redes Sociais – Facebook, instagram, twitter etc;
▪ Websites – Google, Portal de Notícias, Mapas etc;
▪ Sistemas – ERP, CMS, etc;
▪ Aplicativos – Posição Geográfica, Gosto Musical, Fotografia;
▪ Banco de Dados – da internet (externos), de empresas (internos);
▪ Pacote Office – Excel, Access, Word;
▪ Máquinas e Assessórios tecnológicos
TIPOS DE DADOS
Basicamente, é possível usar quaisquer tipos de dados, estruturados e
não-estruturados, os quais serão abordados mais adiante.

Abaixo, alguns exemplos de formatos de dados:


Imagens, Vídeos, Áudio, Textos, CSV, XML etc..
DADOS
ESTRUTURADOS
& NÃO
ESTRUTURADOS
DADOS ESTRUTURADOS
Dados Estruturados são aqueles que possuem algum padrão ou formato,
que podem ser usado na sua leitura e extração dos dados.

Dados de bancos de dados, sistemas legados, arquivos texto.

Exemplos:
csv, txt ou xml.
DADOS NÃO-ESTRUTURADOS
Dados Não-Estruturados são aqueles que não possuem um formato
padronizado para leitura - podem ser arquivos.

Exemplos:
Word, Páginas de Internet/Intranet, Vídeos, áudios, entre outros.
BIG DATA EM
NÚMEROS
4 MILHÕES
Segundo o portal Statista, até o fim de 2015, o número de profissionais que
trabalham com Big Data e Inteligência Artificial era de 4 milhões. Metade desse
pessoal está apenas nos EUA, o que significa que outros mercados, como o
brasileiro, ainda têm muito a desenvolver.
US$ 200 MILHÕES
E por falar em Estados Unidos, durante a gestão Obama, os investimentos
ultrapassaram a casa dos US$ 200 milhões quando o assunto era iniciativas que
envolvem Big Data.
530%
Achou muito? Entre 1996 e 2011, o aumento de investimento em Inteligência
Artificial realizado pela Associação Nacional de Ciência dos EUA cresceu mais de
530%.
1/5
Já a China será responsável por ⅕ de todos os dados do planeta em 2020,
segundo a Baseline.
40%
Não para por aí, 2020 também é o ano em que se espera que processos de
análise preditiva e prescritiva atrairão cerca de 40% do novo investimento líquido
das empresas.
23%
Isso tudo, é claro, porque estima-se que apenas 23% das empresas já utilizem
estratégias efetivamente ligadas ao universo de Big Data Analytics e Inteligência
Artificial.
US$ 17 BILHÕES
Falando em Inteligência Artificial, a área atraiu mais de 17 bilhões em
investimento somente entre os anos de 2009 e 2014.
62%
Parte desses bilhões é impulsionada pelo setor privado, cujos investimentos no
setor de IA crescem cerca de 62% ao ano.
50%
A Academia não fica para trás e o número de publicações sobre Inteligência
Artificial cresce cerca de 50% a cada 5 anos.
US$ 50 BILHÕES
O Wikibon indica que, em 2014, Big Data era um mercado de US$ 28 bilhões. Até
2017 esse número quase dobrará para 50 bilhões de dólares, chegando a US$ 102
bilhões em 2019.
90%
A Baseline também indica que os dados produzidos de 2013 para cá representam
90% de todas as informações existentes na internet.
26 HORAS
A Macy’s, famosa loja de departamento dos EUA, consegue, por meio de
ferramentas de Big Data Analytics e Inteligência Artificial, adaptar e acompanhar
com mais frequência as tendências do varejo. A empresa tem 73 milhões de
produtos e, a cada 26 horas, produz relatórios e informações sobre eles.
2,2 MILHÕES
Segundo o Gartner, 2,2 milhões de terabytes de novos dados são criados todos os
dias no mundo.
40 TRILHÕES
Ainda segundo o Instituto, a previsão é que até 2020 haja um total de 40 trilhões
de gigabytes de dados no mundo.
R$ 16,3 BI
O setor que mais investe em Big Data é o de serviços financeiros. Segundo o
Gartner, foram gastos em 2015 mais de 16 bilhões de reais. Já o setor de energia,
que hoje é o que menos aposta em análise de dados, crescerá 51% em
investimento até 2020.
1 ZETTABYTE
Pela primeira vez desde a criação da internet, em 2016 o tráfego global de dados
na rede ultrapassou a marca de 1 Zettabyte (1 bilhão de terabytes!), de acordo
com um white paper publicado pela Cisco. Isto representa um crescimento de 5
vezes em um prazo de 5 anos.
1.7 MB/S PARA CADA
HABITANTE DO PLANETA
O volume de produção de informação na web cresce de forma exponencial.
Mantendo-se os níveis projetados, no ano de 2020 serão gerados cerca de 1,7
megabytes de novas informações por segundo para cada habitante do planeta
Terra!
Desnecessário dizer que somente por meio de Big Data Analytics será possível
extrair dados relevantes desse oceano de informações, certo?
0,5%
Você deve ter estranhado um número tão baixo no meio de outros gigantescos.
Mas a notícia é boa. Até o momento, apenas 0.5% de toda a informação
disponível online foi analisada ou utilizada para fins comerciais. Você consegue
imaginar todo o potencial à disposição nos outros 99,5% que nunca foram
explorados por soluções de Big Data e Inteligência Artificial?
Os números não mentem. E nós, que nos interessamos tanto por eles, sabemos
que nesse exato minuto 2 milhões de consultas são feitas no Google, 100 mil
mensagens estão sendo enviadas pelo Twitter e cerca de 200 milhões de e-mails
são disparados.
EXEMPLOS DE
BIG DATA
ONDE UTILIZA-SE BIG DATA?
Big Data afeta organizações em praticamente todas as indústrias. Confira
abaixo alguns setores que podem e utilizam Big Data:

Banco / Financeiro; Educação; Governo; Saúde; Segurança; Varejo.


CASES REAIS
DE BIG DATA
MC DONALD’S
MC DONALD’S
O Fast-Food mais famosos do planeta, o Mc Donalds, gerencia cerca de 34
mil restaurantes e serve mais de 69 milhões de pessoas em 118 países –
tudo isso com frequência diária. Com base nesse pequeno trecho de
informações, você já deve estar imaginando o quão gigantesco é o
número de dados gerados diariamente pelo Mc Donalds, certo? Bom, e o
que o grande M amarelo faz com todos esses dados gerados?
MC DONALD’S
Sabe-se que, o Mc Donald’s, coleta e combina os dados de suas
lanchonetes ao redor do globo com o objetivo de padronizá-los e, com
isso, compreender o comportamento de seu público; como esse público
percebe seus produtos; os aperfeiçoamentos logísticos e layouts que
podem ser concebidos para melhorar a experiência do usuário perante
seus serviços e produtos.
MC DONALD’S
A partir dos estudos de Sentiment Analysis (análises de sentimentos),
realizados em redes sociais, foram lançados novos sanduíches, promoções
em tempo real etc. Tudo isso só foi possível, graças ao acompanhamento
dos cientistas de dados, que mensuraram atentamente as manifestações e
reações de seu público – alterando estratégia em tempo real e, até a
logística do Drive-Thru, alterada em cada país conforme as reações de
seus consumidores no que diz respeito ao layout, tempo de espera e
informações providenciadas por seus funcionários no ponto de entrega
dos lanches. Tudo possibilitado por meio de ferramentas de Big Data.
AMERICAN EXPRESS
AMERICAN EXPRESS
Nos últimos anos, a American Express conseguiu compreender que, os
recursos digitais e a mobilidade modificaram as expectativas de seus
consumidores sobre seus serviços nos últimos anos. Seus clientes
esperam que a empresa (American Express) o conheçam com mais afinco,
saiba dialogar com eles e entenda e compreenda as suas preferências.
AMERICAN EXPRESS
A consciência e compreensão de mercado, obtida pela American Express,
só foi possível por meio da implantação de um projeto de Big Data
audacioso, que integra tecnologias open source – como o Hadoop, com
capacitações analíticas e operacionais da organização ao longo de suas
linhas de negócios.
AMERICAN EXPRESS
Resultado: Foi desenvolvido uma parceria estratégica e experiências em
tempo real para atender seus clientes. Resultados dessas ações é o Amex
Offers – que conecta membros a promoções personalizadas, bem como
uma parceria inovadora com o site de viagens Trip Advisor, cujo objetivo é
a concessão de benefícios exclusivos e, em tempo real, aos clientes da
operadora de cartões.
COMO
INGRESSAR NO
BIG DATA
COMO INGRESSAR NO BIG DATA
O profissional que tem interesse em trabalhar na área, deve possuir
conhecimento técnico e em negócios. O caminho que recomendamos e
adquirir conhecimento através das ferramentas utilizadas.
COMO INGRESSAR NO BIG DATA
Além das ferramentas, o interessado na área deve desenvolver
conhecimentos técnicos em programação, Linux e Modelagem de Dados.
Conhecer sobre o negócio/processos da empresa e ter noções mínimas de
estatísticas e matemática aplicada a dados (Data Science).
ÁREAS DE ATUAÇÃO EM
BIG DATA
ADMINISTRAÇÃO
Quando se fala em administração, em Big Data, refere-se ao responsável
por manter os ambientes e as ferramentas para realizar o projeto de Big
Data funcionando. Um profissional mais técnico que necessita de
conhecimento em sistemas operacionais, principalmente em Linux,
arquitetura de hardware e redes, a fim de, garantir melhor performance
das ferramentas/ambiente Hadoop.
DESENVOLVEDOR
Responsável por desenvolver os processos de captura, transformação e
carga de dados. O perfil do profissional tende a exigir conhecimentos de
programação e das ferramentas utilizadas nos processos. Além disso,
desenvolve novas rotinas e processos relacionados as necessidades de
negócio.
CIENTISTA OU ANALISTA DE DADOS
Responsável por atender as demandas das áreas de negócio ou
planejamento da empresa. Está mais ligada as áreas de negócios devendo
ter o conhecimento das ferramentas de consulta e acesso aos dados,
noções de estatística e matemática aplicada.
CONHECIMENTOS
NECESSÁRIOS
HABILIDADES ANALÍTICAS
Para aqueles que procuram trabalhar com Big Data, você precisará de:

A capacidade de obter insights das enormes quantidades de dados que


você obterá. Com habilidades analíticas de resolução de problemas, você
poderá determinar quais dados são relevantes para solução de um
problema.
CRIATIVIDADE
O interessado deve ter a capacidade de criar novos métodos para reunir,
interpretar e analisar uma estratégia de dados.
HABILIDADES ESTATÍSTICAS E
MATEMÁTICAS
Bom, antiquado “crunching numérico” é absolutamente necessário.
INFORMÁTICA
Os computadores são a chave para o trabalho por trás de cada estratégia
de dados. Os programadores terão uma necessidade constante de criar
algoritmos para transformar dados em insights.
COMPETÊNCIAS EMPRESARIAIS
Os profissionais do Big Data devem ter uma compreensão dos objetivos
de negócios que estão em vigor, juntamente com os processos
subjacentes que impulsionam o crescimento do negócio e seu lucro.
CURSOS PARA
INGRESSAR EM
BIG DATA
ALGUNS CURSOS INDICADOS
1. Big Data Introdução (introdução a big data)
2. Hadoop Essentials (iniciante)
3. Hadoop Spark (Desenvolvedor)
4. Hadoop Pig e Hive (Desenvolvedor)
5. Hadoop Administration I (Administrador)
6. Hadoop Data Science (Analista)
ALGUNS CURSOS INDICADOS
Para saber mais sobre os cursos de Big Data, você pode acessar a página
de cursos de Big Data da Cetax.

https://www.cetax.com.br/categoria/cursos-de-big-data/
CONCLUSÃO
CONCLUSÃO
Neste material foi possível adentrar no imenso universo de dados e
compreender um pouquinho sobre Big Data.

Você deve ter notado que, ao longo do material, a palavra Hadoop


apareceu algumas vezes. Isso porque o Hadoop é a principal (e essencial)
ferramenta para se realizar o Big Data.
CONCLUSÃO
Agora, que você está inteirado sobre Big Data, pode seguir a diante e
baixar o material de Hadoop para complementar o conhecimento
absorvido nesse material.

Você também pode gostar