Você está na página 1de 67
BIG DATA TUDO O QUE VOCÊ PRECISA SABER

BIG DATA

TUDO O QUE VOCÊ PRECISA SABER

TÓPICOS DO MATERIAL

Definição e Conceito de Big Data

Os 3 V’s do Big Data

Origem dos dados

Dados Estruturados e Não Estruturados

Big Data em números

Cases de Big Data

Como ingressar no Big Data

Cursos indicados para quem deseja ingressar

Conclusão

▪ Cases de Big Data ▪ Como ingressar no Big Data ▪ Cursos indicados para quem

O QUE É BIG DATA?

O termo Big Data nasceu no início da década de 1990, na NASA, para

descrever grandes conjuntos de dados complexos que desafiam os limites

computacionais tradicionais de captura, processamento, análise e armazenamento informacional.

que desafiam os limites computacionais tradicionais de captura, processamento, análise e armazenamento informacional.

DEFINIÇÃO DE BIG DATA

Podemos, então, compreender Big Data como um termo que define “Um grande

volume de dados, gerados em alta velocidade e variedade, que necessitam de

tecnologias inovadoras e formas econômicas para processar, organizar e

armazenar todo esse grande volume de dados, a fim de se permitir melhor

compreensão, para a tomada de decisão e automação de processos.

volume de dados , a fim de se permitir melhor compreensão, para a tomada de decisão

RESUMO

Só para reforçar: Big Data (Grandes conjunto de Dados, em português), é

um termo usado para descrever imensos volumes de dados, não

estruturados e estruturados, que não podem ser efetivamente processados com softwares/tecnologias convencionais.

, não estruturados e estruturados, que não podem ser efetivamente processados com softwares/tecnologias convencionais.
VOLUME, VELOCIDADE E VARIEDADE DE DADOS

VOLUME,

VELOCIDADE E

VARIEDADE DE DADOS

VOLUME, VELOCIDADE E VARIEDADE DE DADOS

OS 3 V’S DO BIG DATA

Não é só o volume de dados que define Big Data. Embora o termo seja relativamente novo, o conceito ganhou força no início dos anos 2000,

quando um famoso analista, Doug Laney, definiu os três V’s que compõem

o Big Data.

no início dos anos 2000, quando um famoso analista, Doug Laney, definiu os três V’s que

1. VOLUME DE DADOS

Passamos a falar muito rápido de Gigabytes para Terabytes, e agora

estamos falando de Petabytes e outros volumes que não vou saber

colocar aqui de cabeça para vocês. Hoje são contabilizados em média 12 Terabytes de Tweets diariamente, em 2012 foram gerados cerca de 2.834

Exabytes (que são milhões de Gigabytes) a previsão é que em 2020 se

gerem anualmente 40.026 Exabytes de informações.

(que são milhões de Gigabytes) a previsão é que em 2020 se gerem anualmente 40.026 Exabytes

1. VOLUME DE DADOS

No passado, armazenar toda essa quantidade de informações teria sido

um problema, mas as novas tecnologias (como o Hadoop) têm aliviado a

carga e tornado possível o processamento e análise dessa vasta quantidade de dados.

(como o Hadoop) têm aliviado a carga e tornado possível o processamento e análise dessa vasta

2. VELOCITY VELOCIDADE

Hoje, para alguns negócios, 1 minuto pode ser muito tempo, detecção de fraudes, liberações de pagamentos, análises de dados médicos ou qualquer

outra informação sensível a tempo. A maior parte dos projetos de DW/BI (Data

Warehouse e Business Intelligence) ainda tem latência em D-1, ou seja,

carregamos o dia anterior. Ainda acreditamos que essa solução se aplique a muitos negócios, porém, para algumas análises, quanto mais próximo do tempo real, maior pode ser o incremento de negócio.

negócios, porém, para algumas análises, quanto mais próximo do tempo real, maior pode ser o incremento

3. VARIETYVARIEDADE

Hoje temos capacidade de capturar e analisar dados estruturados e não-

estruturados - texto, sensores, navegação Web, áudio, vídeo, arquivos de

logs, catracas, centrais de ar condicionado, entre outros. Uma nova série de ferramentas estão se tornando parte dos projetos, são as ferramentas

de Machine Data, dados de máquina, quase qualquer aparelho eletrônico

hoje em dia tem uma estrutura de dados ou programação, o ponto é que

nem todos podem ser acessados (ainda

).

hoje em dia tem uma estrutura de dados ou programação, o ponto é que nem todos
ORIGEM DOS DADOS

ORIGEM DOS DADOS

ORIGEM DOS DADOS

ORIGEM DOS DADOS

Agora compreendemos que tudo se baseia em dados.

Mas, de onde esses dados, utilizados em Big Data, são extraídos?

Se o objetivo do Big Data é extrair um grande volume de dados, organizá- los e analisá-los, a fim de se obter insights para negócios e prever uma

determinada situação, pode se dizer que os dados são extraídos de

qualquer lugar? Sim, qualquer lugar e formato.

uma determinada situação, pode se dizer que os dados são extraídos de qualquer lugar? Sim, qualquer

ORIGEM DOS DADOS

Redes Sociais Facebook, instagram, twitter etc;

Websites Google, Portal de Notícias, Mapas etc;

Sistemas ERP, CMS, etc;

Aplicativos Posição Geográfica, Gosto Musical, Fotografia;

Banco de Dados da internet (externos), de empresas (internos);

Pacote Office Excel, Access, Word;

Máquinas e Assessórios tecnológicos

de empresas (internos); ▪ Pacote Office – Excel, Access, Word; ▪ Máquinas e Assessórios tecnológicos

TIPOS DE DADOS

Basicamente, é possível usar quaisquer tipos de dados, estruturados e

não-estruturados, os quais serão abordados mais adiante.

Abaixo, alguns exemplos de formatos de dados:

Imagens, Vídeos, Áudio, Textos, CSV, XML etc

abordados mais adiante. Abaixo, alguns exemplos de formatos de dados: Imagens, Vídeos, Áudio, Textos, CSV, XML
DADOS ESTRUTURADOS & NÃO ESTRUTURADOS

DADOS

ESTRUTURADOS

& NÃO ESTRUTURADOS

DADOS ESTRUTURADOS & NÃO ESTRUTURADOS

DADOS ESTRUTURADOS

Dados Estruturados são aqueles que possuem algum padrão ou formato,

que podem ser usado na sua leitura e extração dos dados.

Dados de bancos de dados, sistemas legados, arquivos texto.

Exemplos:

csv, txt ou xml.

sua leitura e extração dos dados. Dados de bancos de dados, sistemas legados, arquivos texto. Exemplos:

DADOS NÃO-ESTRUTURADOS

Dados Não-Estruturados são aqueles que não possuem um formato

padronizado para leitura - podem ser arquivos.

Exemplos:

Word, Páginas de Internet/Intranet, Vídeos, áudios, entre outros.

para leitura - podem ser arquivos. Exemplos: Word, Páginas de Internet/Intranet, Vídeos, áudios, entre outros.
BIG DATA EM NÚMEROS

BIG DATA EM NÚMEROS

BIG DATA EM NÚMEROS

4 MILHÕES

Segundo o portal Statista, até o fim de 2015, o número de profissionais que

trabalham com Big Data e Inteligência Artificial era de 4 milhões. Metade desse

pessoal está apenas nos EUA, o que significa que outros mercados, como o brasileiro, ainda têm muito a desenvolver.

pessoal está apenas nos EUA, o que significa que outros mercados, como o brasileiro, ainda têm

US$ 200 MILHÕES

E por falar em Estados Unidos, durante a gestão Obama, os investimentos

ultrapassaram a casa dos US$ 200 milhões quando o assunto era iniciativas que

envolvem Big Data.

Obama , os investimentos ultrapassaram a casa dos US$ 200 milhões quando o assunto era iniciativas

530%

Achou muito? Entre 1996 e 2011, o aumento de investimento em Inteligência

Artificial realizado pela Associação Nacional de Ciência dos EUA cresceu mais de

530%.

de investimento em Inteligência Artificial realizado pela Associação Nacional de Ciência dos EUA cresceu mais de

1/5

Já a China será responsável por ⅕ de todos os dados do planeta em 2020,

segundo a Baseline.

1/5 Já a China será responsável por ⅕ de todos os dados do planeta em 2020,

40%

Não para por aí, 2020 também é o ano em que se espera que processos de

análise preditiva e prescritiva atrairão cerca de 40% do novo investimento líquido

das empresas.

que processos de análise preditiva e prescritiva atrairão cerca de 40% do novo investimento líquido das

23%

Isso tudo, é claro, porque estima-se que apenas 23% das empresas já utilizem

estratégias efetivamente ligadas ao universo de Big Data Analytics e Inteligência

Artificial.

empresas já utilizem estratégias efetivamente ligadas ao universo de Big Data Analytics e Inteligência Artificial .

US$ 17 BILHÕES

Falando em Inteligência Artificial, a área atraiu mais de 17 bilhões em

investimento somente entre os anos de 2009 e 2014.

em Inteligência Artificial, a área atraiu mais de 17 bilhões em investimento somente entre os anos

62%

Parte desses bilhões é impulsionada pelo setor privado, cujos investimentos no

setor de IA crescem cerca de 62% ao ano.

Parte desses bilhões é impulsionada pelo setor privado, cujos investimentos no setor de IA crescem cerca

50%

A Academia não fica para trás e o número de publicações sobre Inteligência

Artificial cresce cerca de 50% a cada 5 anos.

não fica para trás e o número de publicações sobre Inteligência Artificial cresce cerca de 50%

US$ 50 BILHÕES

O Wikibon indica que, em 2014, Big Data era um mercado de US$ 28 bilhões. Até

2017 esse número quase dobrará para 50 bilhões de dólares, chegando a US$ 102

bilhões em 2019.

US$ 28 bilhões. Até 2017 esse número quase dobrará para 50 bilhões de dólares, chegando a

90%

A Baseline também indica que os dados produzidos de 2013 para cá representam

90% de todas as informações existentes na internet.

também indica que os dados produzidos de 2013 para cá representam 90% de todas as informações

26 HORAS

A Macy’s, famosa loja de departamento dos EUA, consegue, por meio de

ferramentas de Big Data Analytics e Inteligência Artificial, adaptar e acompanhar

com mais frequência as tendências do varejo. A empresa tem 73 milhões de produtos e, a cada 26 horas, produz relatórios e informações sobre eles.

do varejo. A empresa tem 73 milhões de produtos e, a cada 26 horas, produz relatórios

2,2 MILHÕES

Segundo o Gartner, 2,2 milhões de terabytes de novos dados são criados todos os

dias no mundo.

2,2 MILHÕES Segundo o Gartner, 2,2 milhões de terabytes de novos dados são criados todos os

40 TRILHÕES

Ainda segundo o Instituto, a previsão é que até 2020 haja um total de 40 trilhões

de gigabytes de dados no mundo.

Ainda segundo o Instituto, a previsão é que até 2020 haja um total de 40 trilhões

R$ 16,3 BI

O setor que mais investe em Big Data é o de serviços financeiros. Segundo o

Gartner, foram gastos em 2015 mais de 16 bilhões de reais. Já o setor de energia,

que hoje é o que menos aposta em análise de dados, crescerá 51% em investimento até 2020.

Já o setor de energia, que hoje é o que menos aposta em análise de dados,

1 ZETTABYTE

Pela primeira vez desde a criação da internet, em 2016 o tráfego global de dados

na rede ultrapassou a marca de 1 Zettabyte (1 bilhão de terabytes!), de acordo

com um white paper publicado pela Cisco. Isto representa um crescimento de 5 vezes em um prazo de 5 anos.

acordo com um white paper publicado pela Cisco. Isto representa um crescimento de 5 vezes em

1.7 MB/S PARA CADA HABITANTE DO PLANETA

O volume de produção de informação na web cresce de forma exponencial. Mantendo-se os níveis projetados, no ano de 2020 serão gerados cerca de 1,7

megabytes de novas informações por segundo para cada habitante do planeta

Terra!

Desnecessário dizer que somente por meio de Big Data Analytics será possível extrair dados relevantes desse oceano de informações, certo?

que somente por meio de Big Data Analytics será possível extrair dados relevantes desse oceano de

0,5%

Você deve ter estranhado um número tão baixo no meio de outros gigantescos.

Mas a notícia é boa. Até o momento, apenas 0.5% de toda a informação

disponível online foi analisada ou utilizada para fins comerciais. Você consegue

imaginar todo o potencial à disposição nos outros 99,5% que nunca foram explorados por soluções de Big Data e Inteligência Artificial?

Os números não mentem. E nós, que nos interessamos tanto por eles, sabemos

que nesse exato minuto 2 milhões de consultas são feitas no Google, 100 mil

mensagens estão sendo enviadas pelo Twitter e cerca de 200 milhões de e-mails são disparados.

feitas no Google, 100 mil mensagens estão sendo enviadas pelo Twitter e cerca de 200 milhões
EXEMPLOS DE BIG DATA

EXEMPLOS DE BIG DATA

EXEMPLOS DE BIG DATA

ONDE UTILIZA-SE BIG DATA?

Big Data afeta organizações em praticamente todas as indústrias. Confira

abaixo alguns setores que podem e utilizam Big Data:

Banco / Financeiro; Educação; Governo; Saúde; Segurança; Varejo.

abaixo alguns setores que podem e utilizam Big Data: Banco / Financeiro; Educação; Governo; Saúde; Segurança;
CASES REAIS DE BIG DATA

CASES REAIS DE BIG DATA

CASES REAIS DE BIG DATA

MC DONALD’S

MC DONALD’S

MC DONALD’S

O Fast-Food mais famosos do planeta, o Mc Donalds, gerencia cerca de 34

mil restaurantes e serve mais de 69 milhões de pessoas em 118 países

tudo isso com frequência diária. Com base nesse pequeno trecho de informações, você já deve estar imaginando o quão gigantesco é o

número de dados gerados diariamente pelo Mc Donalds, certo? Bom, e o

que o grande M amarelo faz com todos esses dados gerados?

de dados gerados diariamente pelo Mc Donalds, certo? Bom, e o que o grande M amarelo

MC DONALD’S

Sabe-se que, o Mc Donald’s, coleta e combina os dados de suas

lanchonetes ao redor do globo com o objetivo de padronizá-los e, com

isso, compreender o comportamento de seu público; como esse público percebe seus produtos; os aperfeiçoamentos logísticos e layouts que

podem ser concebidos para melhorar a experiência do usuário perante

seus serviços e produtos.

e layouts que podem ser concebidos para melhorar a experiência do usuário perante seus serviços e

MC DONALD’S

A partir dos estudos de Sentiment Analysis (análises de sentimentos),

realizados em redes sociais, foram lançados novos sanduíches, promoções

em tempo real etc. Tudo isso só foi possível, graças ao acompanhamento

dos cientistas de dados, que mensuraram atentamente as manifestações e

reações de seu público alterando estratégia em tempo real e, até a

logística do Drive-Thru, alterada em cada país conforme as reações de

seus consumidores no que diz respeito ao layout, tempo de espera e

informações providenciadas por seus funcionários no ponto de entrega

dos lanches. Tudo possibilitado por meio de ferramentas de Big Data.

por seus funcionários no ponto de entrega dos lanches. Tudo possibilitado por meio de ferramentas de

AMERICAN EXPRESS

AMERICAN EXPRESS

AMERICAN EXPRESS

Nos últimos anos, a American Express conseguiu compreender que, os

recursos digitais e a mobilidade modificaram as expectativas de seus

consumidores sobre seus serviços nos últimos anos. Seus clientes

esperam que a empresa (American Express) o conheçam com mais afinco,

saiba dialogar com eles e entenda e compreenda as suas preferências.

(American Express) o conheçam com mais afinco, saiba dialogar com eles e entenda e compreenda as

AMERICAN EXPRESS

A consciência e compreensão de mercado, obtida pela American Express,

só foi possível por meio da implantação de um projeto de Big Data

audacioso, que integra tecnologias open source como o Hadoop, com

capacitações analíticas e operacionais da organização ao longo de suas

linhas de negócios.

como o Hadoop, com capacitações analíticas e operacionais da organização ao longo de suas linhas de

AMERICAN EXPRESS

Resultado: Foi desenvolvido uma parceria estratégica e experiências em

tempo real para atender seus clientes. Resultados dessas ações é o Amex

Offers que conecta membros a promoções personalizadas, bem como

uma parceria inovadora com o site de viagens Trip Advisor, cujo objetivo é

a concessão de benefícios exclusivos e, em tempo real, aos clientes da

operadora de cartões.

cujo objetivo é a concessão de benefícios exclusivos e, em tempo real, aos clientes da operadora
COMO INGRESSAR NO BIG DATA

COMO INGRESSAR NO BIG DATA

COMO INGRESSAR NO BIG DATA

COMO INGRESSAR NO BIG DATA

O profissional que tem interesse em trabalhar na área, deve possuir

conhecimento técnico e em negócios. O caminho que recomendamos e

adquirir conhecimento através das ferramentas utilizadas.

técnico e em negócios . O caminho que recomendamos e adquirir conhecimento através das ferramentas utilizadas.

COMO INGRESSAR NO BIG DATA

Além das ferramentas, o interessado na área deve desenvolver

conhecimentos técnicos em programação, Linux e Modelagem de Dados.

Conhecer sobre o negócio/processos da empresa e ter noções mínimas de estatísticas e matemática aplicada a dados (Data Science).

da empresa e ter noções mínimas de estatísticas e matemática aplicada a dados (Data Science).

ÁREAS DE ATUAÇÃO EM BIG DATA

ÁREAS DE ATUAÇÃO EM BIG DATA

ADMINISTRAÇÃO

Quando se fala em administração, em Big Data, refere-se ao responsável

por manter os ambientes e as ferramentas para realizar o projeto de Big

Data funcionando. Um profissional mais técnico que necessita de conhecimento em sistemas operacionais, principalmente em Linux,

arquitetura de hardware e redes, a fim de, garantir melhor performance

das ferramentas/ambiente Hadoop.

em Linux , arquitetura de hardware e redes , a fim de, garantir melhor performance das

DESENVOLVEDOR

Responsável por desenvolver os processos de captura, transformação e

carga de dados. O perfil do profissional tende a exigir conhecimentos de

programação e das ferramentas utilizadas nos processos. Além disso,

desenvolve novas rotinas e processos relacionados as necessidades de

negócio.

utilizadas nos processos. Além disso, desenvolve novas rotinas e processos relacionados as necessidades de negócio.

CIENTISTA OU ANALISTA DE DADOS

Responsável por atender as demandas das áreas de negócio ou

planejamento da empresa. Está mais ligada as áreas de negócios devendo

ter o conhecimento das ferramentas de consulta e acesso aos dados, noções de estatística e matemática aplicada.

o conhecimento das ferramentas de consulta e acesso aos dados , noções de estatística e matemática

CONHECIMENTOS

NECESSÁRIOS

CONHECIMENTOS NECESSÁRIOS

HABILIDADES ANALÍTICAS

Para aqueles que procuram trabalhar com Big Data, você precisará de:

A capacidade de obter insights das enormes quantidades de dados que

você obterá. Com habilidades analíticas de resolução de problemas, você

poderá determinar quais dados são relevantes para solução de um problema.

de resolução de problemas, você poderá determinar quais dados são relevantes para solução de um problema.

CRIATIVIDADE

O interessado deve ter a capacidade de criar novos métodos para reunir,

interpretar e analisar uma estratégia de dados.

interessado deve ter a capacidade de criar novos métodos para reunir, interpretar e analisar uma estratégia

HABILIDADES ESTATÍSTICAS E MATEMÁTICAS

Bom, antiquado crunching numérico” é absolutamente necessário.

HABILIDADES ESTATÍSTICAS E MATEMÁTICAS Bom, antiquado “ crunching numérico” é absolutamente necessário.

INFORMÁTICA

Os computadores são a chave para o trabalho por trás de cada estratégia

de dados. Os programadores terão uma necessidade constante de criar

algoritmos para transformar dados em insights.

de dados. Os programadores terão uma necessidade constante de criar algoritmos para transformar dados em insights.

COMPETÊNCIAS EMPRESARIAIS

Os profissionais do Big Data devem ter uma compreensão dos objetivos

de negócios que estão em vigor, juntamente com os processos

subjacentes que impulsionam o crescimento do negócio e seu lucro.

que estão em vigor, juntamente com os processos subjacentes que impulsionam o crescimento do negócio e
CURSOS PARA INGRESSAR EM BIG DATA

CURSOS PARA INGRESSAR EM BIG DATA

CURSOS PARA INGRESSAR EM BIG DATA

ALGUNS CURSOS INDICADOS

1.

Big Data Introdução (introdução a big data)

2.

Hadoop Essentials (iniciante)

3.

Hadoop Spark (Desenvolvedor)

4.

Hadoop Pig e Hive (Desenvolvedor)

5.

Hadoop Administration I (Administrador)

6.

e Hive (Desenvolvedor) 5. Hadoop Administration I (Administrador) 6. Hadoop Data Science (Analista)

ALGUNS CURSOS INDICADOS

Para saber mais sobre os cursos de Big Data, você pode acessar a página

de cursos de Big Data da Cetax.

, você pode acessar a página de cursos de Big Data da Cetax. https://www.cetax.com.br/categoria/cursos- de -big-data/
CONCLUSÃO

CONCLUSÃO

CONCLUSÃO

CONCLUSÃO

Neste material foi possível adentrar no imenso universo de dados e compreender um pouquinho sobre Big Data.

Você deve ter notado que, ao longo do material, a palavra Hadoop

apareceu algumas vezes. Isso porque o Hadoop é a principal (e essencial)

ferramenta para se realizar o Big Data.

Hadoop apareceu algumas vezes. Isso porque o Hadoop é a principal (e essencial) ferramenta para se

CONCLUSÃO

Agora, que você está inteirado sobre Big Data, pode seguir a diante e

baixar o material de Hadoop para complementar o conhecimento

absorvido nesse material.

Big Data, pode seguir a diante e baixar o material de Hadoop para complementar o conhecimento