Escolar Documentos
Profissional Documentos
Cultura Documentos
Leitura 2
Leitura 2
Compreendendo Big Data) do livro "Big Data Fundamentals: Concepts, Drivers &
Techniques" (Fundamentos de Big Data: conceitos, motivadores e técnicas) para uma
visão inicial e conceitual do que é Big Data
https://learning.oreilly.com/library/view/big-data-fundamentals/9780134291185/ch01.xhtml
9780134291185/ch01.xhtml#ch01lev1sec1
Capítulo 1. Entendendo o Big Data
Conceitos e Terminologia
Embora o Big Data possa aparecer como uma nova disciplina, ele vem se desenvolvendo há
anos. O gerenciamento e a análise de grandes conjuntos de dados têm sido um problema de
longa data – desde abordagens de trabalho intensivo dos primeiros esforços de censo até a
ciência atuarial por trás dos cálculos dos prêmios de seguro. A ciência do Big Data evoluiu a
partir dessas raízes.
Além das abordagens analíticas tradicionais baseadas em estatísticas, o Big Data adiciona
técnicas mais recentes que alavancam recursos computacionais e abordagens para
executar algoritmos analíticos. Essa mudança é importante à medida que os conjuntos de
dados continuam a se tornar maiores, mais diversos, mais complexos e centrados em
streaming. Embora as abordagens estatísticas tenham sido usadas para aproximar medidas
de uma população por meio de amostragem desde os tempos bíblicos, os avanços na
ciência computacional permitiram o processamento de conjuntos de dados inteiros,
tornando essa amostragem desnecessária.
• otimização operacional
• inteligência acionável
• previsões precisas
• descobertas científicas
Conceitos e Terminologia
Como ponto de partida, vários conceitos e termos fundamentais precisam ser definidos e
compreendidos.
Conjuntos de dados
Figura 1.1 Os conjuntos de dados podem ser encontrados em muitos formatos diferentes.
Análise de dados
Análise de dados
A análise de dados é um termo mais amplo que engloba a análise de dados. A análise de
dados é uma disciplina que inclui o gerenciamento do ciclo de vida completo dos dados,
que abrange a coleta, limpeza, organização, armazenamento, análise e controle de dados. O
termo inclui o desenvolvimento de métodos de análise, técnicas científicas e ferramentas
automatizadas. Em ambientes de Big Data, a análise de dados desenvolveu métodos que
permitem que a análise de dados ocorra por meio do uso de tecnologias distribuídas
altamente escaláveis e frameworks capazes de analisar grandes volumes de dados de
diferentes fontes. A Figura 1.3 mostra o símbolo usado para representar a análise.
O ciclo de vida da análise de Big Data geralmente envolve identificar, adquirir, preparar e
analisar grandes quantidades de dados brutos e não estruturados para extrair informações
significativas que podem servir como entrada para identificar padrões, enriquecer dados
corporativos existentes e realizar pesquisas em grande escala.
A análise de dados permite a tomada de decisões orientada por dados com respaldo
científico, para que as decisões possam ser baseadas em dados factuais e não apenas em
experiências passadas ou apenas na intuição. Existem quatro categorias gerais de análise
que se distinguem pelos resultados que produzem:
• análise descritiva
• análise de diagnóstico
• análise preditiva
• análise prescritiva
Análise Descritiva
Estima-se que 80% dos resultados analíticos gerados sejam de natureza descritiva. Em
termos de valor, a análise descritiva fornece o menor valor e exige um conjunto de
habilidades relativamente básico.
Figura 1.5 Os sistemas operacionais, na foto à esquerda, são consultados por meio de
ferramentas de análise descritiva para gerar relatórios ou painéis, na foto à direita.
Análise de diagnóstico
• Por que as vendas do segundo trimestre foram inferiores às vendas do primeiro trimestre?
• Por que houve mais chamadas de suporte originadas da região leste do que da região oeste?
• Por que houve um aumento nas taxas de readmissão de pacientes nos últimos três meses?
A análise de diagnóstico fornece mais valor do que a análise descritiva, mas exige um
conjunto de habilidades mais avançado. A análise de diagnóstico geralmente exige a coleta
de dados de várias fontes e o armazenamento em uma estrutura que se presta à execução
de análises de detalhamento e roll-up, conforme mostrado na Figura 1.6 . Os resultados da
análise de diagnóstico são visualizados por meio de ferramentas de visualização interativa
que permitem aos usuários identificar tendências e padrões. As consultas executadas são
mais complexas em comparação com as da análise descritiva e são realizadas em dados
multidimensionais mantidos em sistemas de processamento analítico.
Figura 1.6 A análise de diagnóstico pode resultar em dados adequados para realizar
análises de detalhamento e roll-up.
Análise preditiva
• Se um cliente comprou os Produtos A e B, quais são as chances de que ele também compre
o Produto C?
A análise preditiva tenta prever os resultados dos eventos, e as previsões são feitas com
base em padrões, tendências e exceções encontradas em dados históricos e atuais. Isso
pode levar à identificação de riscos e oportunidades.
Esse tipo de análise envolve o uso de grandes conjuntos de dados compostos por dados
internos e externos e várias técnicas de análise de dados. Ele fornece maior valor e requer
um conjunto de habilidades mais avançado do que a análise descritiva e de diagnóstico. As
ferramentas usadas geralmente abstraem as complexidades estatísticas subjacentes,
fornecendo interfaces front-end amigáveis, conforme mostrado na Figura 1.7 .
Análise Prescritiva
A análise prescritiva baseia-se nos resultados da análise preditiva, prescrevendo ações que
devem ser tomadas. O foco não é apenas em qual opção prescrita é melhor seguir, mas por
quê. Em outras palavras, a análise prescritiva fornece resultados que podem ser
fundamentados porque incorporam elementos de compreensão situacional. Assim, esse
tipo de análise pode ser usado para obter uma vantagem ou mitigar um risco.
A análise prescritiva fornece mais valor do que qualquer outro tipo de análise e,
correspondentemente, exige o conjunto de habilidades mais avançado, bem como software
e ferramentas especializados. Vários resultados são calculados e o melhor curso de ação
para cada resultado é sugerido. A abordagem muda de explicativa para consultiva e pode
incluir a simulação de vários cenários.
Esse tipo de análise incorpora dados internos com dados externos. Os dados internos
podem incluir dados de vendas atuais e históricos, informações de clientes, dados de
produtos e regras de negócios. Os dados externos podem incluir dados de mídia social,
previsões do tempo e dados demográficos produzidos pelo governo. A análise prescritiva
envolve o uso de regras de negócios e grandes quantidades de dados internos e externos
para simular resultados e prescrever o melhor curso de ação, conforme mostrado
na Figura 1.8 .
Figura 1.8 A análise prescritiva envolve o uso de regras de negócios e dados internos e/ou
externos para realizar uma análise aprofundada.
O BI permite que uma organização obtenha insights sobre o desempenho de uma empresa
analisando dados gerados por seus processos de negócios e sistemas de informação. Os
resultados da análise podem ser usados pela administração para orientar os negócios em
um esforço para corrigir problemas detectados ou melhorar o desempenho
organizacional. O BI aplica análises a grandes quantidades de dados em toda a empresa,
que normalmente são consolidadas em um data warehouse corporativo para executar
consultas analíticas. Conforme mostrado na Figura 1.9 , a saída do BI pode ser exibida em
um painel que permite aos gerentes acessar e analisar os resultados e refinar as consultas
analíticas para explorar ainda mais os dados.
Figura 1.9 O BI pode ser usado para aprimorar aplicativos de negócios, consolidar dados
em data warehouses e analisar consultas por meio de um painel.
Um KPI é uma métrica que pode ser usada para avaliar o sucesso em um contexto de
negócios específico. Os KPIs estão vinculados às metas e objetivos estratégicos gerais de
uma empresa. Elassão frequentemente usados para identificar problemas de desempenho
de negócios e demonstrar conformidade regulatória. Os KPIs atuam, portanto, como pontos
de referência quantificáveis para medir um aspecto específico do desempenho geral de um
negócio. Os KPIs geralmente são exibidos por meio de um painel de KPI, conforme
mostrado na Figura 1.10 . O painel consolida a exibição de vários KPIs e compara as
medições reais com valores de limite que definem o intervalo de valores aceitável do KPI.
Figura 1.10 Um painel de KPI atua como um ponto de referência central para medir o
desempenho do negócio.
Esta seção explora as cinco características do Big Data que podem ser usadas para ajudar a
diferenciar os dados categorizados como “Big” de outras formas de dados. Os cinco traços
de Big Data mostrados na Figura 1.11 são comumente chamados de Cinco Vs:
• volume
• velocidade
• variedade
• veracidade
• valor
Volume
As fontes de dados típicas responsáveis por gerar grandes volumes de dados podem incluir:
Velocidade
Dependendo da fonte de dados, a velocidade nem sempre pode ser alta. Por exemplo, as
imagens de ressonância magnética não são geradas com a mesma frequência que as
entradas de log de um servidor da Web de alto tráfego. Conforme ilustrado na Figura 1.13 ,
a velocidade de dados é colocada em perspectiva quando se considera que o seguinte
volume de dados pode ser facilmente gerado em um determinado minuto: 350.000 tweets,
300 horas de vídeos enviados para o YouTube, 171 milhões de e-mails e 330 GBs de dados
de sensores de um motor a jato.
Variedade
Variedade de dados refere-se aos vários formatos e tipos de dados que precisam ser
suportados por soluções de Big Data. A variedade de dados traz desafios para as empresas
em termos de integração, transformação, processamento e armazenamento de dados. A
Figura 1.14 fornece uma representação visual da variedade de dados, que inclui dados
estruturados na forma de transações financeiras, dados semiestruturados na forma de e-
mails e dados não estruturados na forma de imagens.
Figura 1.14 Exemplos de conjuntos de dados de Big Data de alta variedade incluem dados
estruturados, textuais, de imagem, vídeo, áudio, XML, JSON, dados de sensores e
metadados.
Veracidade
Valor
O valor é definido como a utilidade dos dados para uma empresa. A característica de valor
está intuitivamente relacionada à característica de veracidade, pois quanto maior a
fidelidade dos dados, mais valor ele possui para o negócio. O valor também depende de
quanto tempo demora o processamento de dados, pois os resultados da análise têm um
prazo de validade; por exemplo, uma cotação de ações atrasada de 20 minutos tem pouco
ou nenhum valor para fazer uma negociação em comparação com uma cotação de 20
milissegundos. Como demonstrado, valor e tempo estão inversamente
relacionados. Quanto mais tempo leva para que os dados sejam transformados em
informações significativas, menos valor ele tem para um negócio. Resultados obsoletos
inibem a qualidade e a velocidade da tomada de decisão informada. Figura 1.15fornece
duas ilustrações de como o valor é impactado pela veracidade dos dados e pela
pontualidade dos resultados analíticos gerados.
Figura 1.15 Dados que têm alta veracidade e podem ser analisados rapidamente têm mais
valor para um negócio.
• Os resultados da análise estão sendo comunicados com precisão aos tomadores de decisão
apropriados?
Os dados processados por soluções de Big Data podem ser gerados por humanos ou gerados
por máquinas, embora seja responsabilidade das máquinas gerar os resultados
analíticos. Os dados gerados por humanos são o resultado da interação humana com
sistemas, como serviços online e dispositivos digitais. A Figura 1.16 mostra exemplos de
dados gerados por humanos.
Figura 1.16 Exemplos de dados gerados por humanos incluem mídias sociais, postagens em
blogs, e-mails, compartilhamento de fotos e mensagens.
Os dados gerados por máquina são gerados por programas de software e dispositivos de
hardware em resposta a eventos do mundo real. Por exemplo, um arquivo de log captura
uma decisão de autorização feita por um serviço de segurança e um sistema de ponto de
venda gera uma transação em relação ao estoque para refletir os itens comprados por um
cliente. Do ponto de vista do hardware, um exemplo de dados gerados por máquina seriam
as informações transmitidas de vários sensores em um celular que podem estar relatando
informações, incluindo posição e intensidade do sinal da torre de celular. A Figura
1.17 fornece uma representação visual de diferentes tipos de dados gerados por máquina.
Figura 1.17 Exemplos de dados gerados por máquina incluem logs da web, dados de
sensores, dados de telemetria, dados de medidores inteligentes e dados de uso de
aparelhos.
Conforme demonstrado, os dados gerados por humanos e gerados por máquina podem vir
de várias fontes e ser representados em vários formatos ou tipos. Esta seção examina a
variedade de tipos de dados que são processados por soluções de Big Data. Os principais
tipos de dados são:
• dados estruturados
• dados semiestruturados
Esses tipos de dados referem-se à organização interna dos dados e às vezes são chamados
de formatos de dados. Além desses três tipos de dados fundamentais, outro tipo importante
de dados em ambientes de Big Data são os metadados. Cada um será explorado por sua vez.
Dados estruturados
Figura 1.18 O símbolo usado para representar dados estruturados armazenados em forma
de tabela.
Os dados que não estão em conformidade com um modelo de dados ou esquema de dados
são conhecidos como dados não estruturados. Estima-se que os dados não estruturados
representem 80% dos dados em qualquer empresa. Os dados não estruturados têm uma
taxa de crescimento mais rápida do que os dados estruturados. A Figura 1.19 ilustra alguns
tipos comuns de dados não estruturados. Essa forma de dados é textual ou binária e muitas
vezes transmitida por meio de arquivos independentes e não relacionais. Um arquivo de
texto pode conter o conteúdo de vários tweets ou postagens de blog. Arquivos binários
geralmente são arquivos de mídia que contêm dados de imagem, áudio ou
vídeo. Tecnicamente, tanto os arquivos texto quanto os binários possuem uma estrutura
definida pelo próprio formato do arquivo, mas esse aspecto é desconsiderado, e a noção de
ser desestruturado é em relação ao formato dos dados contidos no próprio arquivo.
Figura 1.19 Arquivos de vídeo, imagem e áudio são todos tipos de dados não estruturados.
Os dados semiestruturados têm um nível definido de estrutura e consistência, mas não são
de natureza relacional. Em vez disso, os dados semiestruturados são hierárquicos ou
baseados em gráficos. Esse tipo de dado é comumente armazenado em arquivos que
contêm texto. Por exemplo, a Figura 1.20 mostra que arquivos XML e JSON são formas
comuns de dados semiestruturados. Devido à natureza textual desses dados e sua
conformidade com algum nível de estrutura, eles são mais facilmente processados do que
os dados não estruturados.
Metadados
A Ensure to Insure (ETI) é uma seguradora líder que fornece uma variedade de planos de
seguro nos setores de saúde, construção, marítimo e aviação para sua base de 25 milhões
de clientes espalhados pelo mundo. A empresa é composta por uma força de trabalho de
cerca de 5.000 funcionários e gera uma receita anual de mais de 350.000.000 USD.
História
A ETI começou sua vida como provedora exclusiva de seguros de saúde há 50 anos. Como
resultado de várias aquisições nos últimos 30 anos, a ETI ampliou seus serviços para incluir
planos de seguro de propriedade e acidentes nos setores de construção, marítimo e
aviação.Cada um de seus quatro setores é composto por uma equipe central de agentes
especializados e experientes, atuários, subscritores e avaliadores de sinistros.
Os agentes geram a receita da empresa com a venda de apólices, enquanto os atuários são
responsáveis pela avaliação de risco, criando novos planos de seguro e revisando os planos
existentes. Os atuários também realizam análises hipotéticas e utilizam dashboards e
scorecards para avaliação de cenários. Os subscritores avaliam novos pedidos de seguro e
decidem sobre o valor do prêmio. Os avaliadores de sinistros lidam com a investigação de
reclamações feitas contra uma apólice e chegam a um valor de liquidação para o segurado.
O sistema de cotação de apólices é usado para criar novos planos de seguro e fornecer
cotações a clientes em potencial. Ele é integrado ao site e ao portal de atendimento ao
cliente para fornecer aos visitantes do site e aos agentes de atendimento ao cliente a
capacidade de obter cotações de seguro. O sistema de administração de apólices lida com
todos os aspectos do gerenciamento do ciclo de vida da apólice, incluindo emissão,
atualização, renovação e cancelamento de apólices. O sistema de gestão de sinistros lida
com as atividades de processamento de sinistros.
Nas últimas décadas, a lucratividade da empresa vem caindo. Um comitê composto por
gerentes seniores foi formado para investigar e fazer recomendações. As conclusões do
comitê revelaram que a principal razão por trás da deterioração da situação financeira da
empresa é o aumento do número de reclamações fraudulentas e os pagamentos associados
sendo feitos contra elas. Esses achados mostraram que a fraude cometida tornou-se
complexa e difícil de detectar porque os fraudadores se tornaram mais sofisticados e
organizados. Além de incorrer em perdas monetárias diretas, os custos relacionados ao
processamento de reclamações fraudulentas resultam em perdas indiretas.
A comissão salientou que a frequência com que os regulamentos existentes mudam e novos
regulamentos são introduzidos aumentou recentemente. A empresa teminfelizmente,
demorou a responder e não foi capaz de garantir o cumprimento total e contínuo. Devido a
essas deficiências, a ETI teve que pagar pesadas multas.
O comitê observou que outra razão por trás do fraco desempenho financeiro da empresa é
que os planos de seguro são criados e as apólices são subscritas sem uma avaliação de risco
completa. Isso levou à definição de prêmios incorretos e mais pagamentos do que o
previsto. Atualmente, a diferença entre os prêmios arrecadados e os pagamentos efetuados
é compensada com o retorno dos investimentos. No entanto, essa não é uma solução de
longo prazo, pois dilui o lucro obtido nos investimentos. Além disso, os planos de seguro
geralmente são baseados na experiência dos atuários e na análise da população como um
todo, resultando em planos de seguro que se aplicam apenas a um conjunto médio de
clientes. Os clientes cujas circunstâncias divergem da média definida não estão
interessados em tais planos de seguro.
As razões acima mencionadas também são responsáveis pela queda do preço das ações da
ETI e pela diminuição da participação de mercado.
Com base nas conclusões do comitê, os seguintes objetivos estratégicos são definidos pelos
diretores da ETI:
2. Reduzir a deserção de clientes e melhorar a retenção de clientes com (a) liquidação rápida
de sinistros e (b) políticas personalizadas e competitivas baseadas em circunstâncias
individuais, em vez de apenas generalização demográfica.
3. Alcançar e manter a conformidade regulamentar total em todos os momentos,
empregando técnicas aprimoradas de gerenciamento de risco que podem prever melhor os
riscos, porque a maioria das regulamentações exige conhecimento preciso dos riscos para
garantir a conformidade.
Após consultar sua equipe de TI, o comitê recomendou a adoção de uma estratégia
orientada por dados com análises aprimoradas a serem aplicadas em várias funções de
negócios de forma que diferentes processos de negócios levem em consideração dados
internos e externos relevantes. Dessa forma, as decisões podem ser baseadas em evidências
e não apenas na experiência e na intuição. Em particular, o aumento de grandes
quantidades de dados estruturados com grandes quantidades de dados não estruturados é
enfatizado para dar suporte à realização de análises de dados profundas, porém oportunas.
• Processamento de grandes quantidades de dados em tempo hábil – Embora o EDW seja usado
para gerar relatórios com base em dados históricos, a quantidade de dados processados
não pode ser classificada como grande e os relatórios demoram muito para serem gerados.
• Processamento de vários tipos de dados e combinação de dados estruturados com dados não
estruturados – São produzidos vários tipos de dados não estruturados, como documentos
textuais e registros de call center que não podem ser processados atualmente devido à sua
natureza não estruturada. Em segundo lugar, os dados estruturados são usados
isoladamente para todos os tipos de análises.
A equipe de TI concluiu emitindo uma recomendação para que a ETI adote o Big Data como
o principal meio de superar esses impedimentos para apoiar o alcance das metas
estabelecidas.
Embora a ETI tenha escolhido Big Data para a implementação de seus objetivos
estratégicos, como está atualmente, a ETI não possui habilidades internas de Big Data e
precisa escolher entre contratar um consultor de Big Data ou enviar sua equipe de TI para
um curso de treinamento de Big Data. A última opção é escolhida. No entanto, apenas os
membros seniores da equipe de TI são enviados para o treinamento em antecipação a uma
solução econômica e de longo prazo, onde os membros da equipe treinados se tornarão um
recurso interno permanente de Big Data que pode ser consultado a qualquer momento e
também pode treinar membros da equipe júnior para aumentar ainda mais o conjunto de
habilidades internas de Big Data.
A ETI atualmente não utiliza análises preditivas nem prescritivas. No entanto, a adoção de
Big Data permitirá realizar esses tipos de análise, pois agora pode fazer uso de dados não
estruturados, que quando combinados com dados estruturados fornecem um rico recurso
de suporte a esses tipos de análise. A ETI decidiu implementar esses dois tipos de análise de
maneira gradual, primeiro implementando análises preditivas e, em seguida,
desenvolvendo lentamente seus recursos para implementar análises prescritivas.
Nesta fase, a ETI está planejando fazer uso de análise preditiva para apoiar o alcance de
seus objetivos. Por exemplo, a análise preditiva permitirá a detecção de reclamações
fraudulentas, prevendo qual reclamação é fraudulenta e, em caso de deserção do cliente,
prevendo quais clientes provavelmente desertarão. No futuro, por meio de análises
prescritivas, prevê-se que a ETI possa aprimorar ainda mais a realização de seus
objetivos. Por exemplo, a análise prescritiva pode prescrever o valor correto do prêmio
considerando todos os fatores de risco ou pode prescrever o melhor curso de ação a ser
tomado para mitigar sinistros diante de catástrofes, como inundações ou tempestades.
Volume
A equipe observa que dentro da empresa, uma grande quantidade de dados transacionais é
gerada como resultado do processamento de reclamações, venda de novas apólices e
alterações nas apólices existentes. No entanto, uma rápida discussão revela que grandes
volumes de dados não estruturados, tanto dentro como fora da empresa, podem ser úteis
para atingir os objetivos da ETI. Esses dados incluem registros de saúde, documentos
enviados pelos clientes no momento de enviar uma solicitação de seguro, horários de
propriedades, dados de frota, dados de mídia social e dados meteorológicos.
Velocidade
Com relação ao influxo de dados, alguns dados são de baixa velocidade, como os dados de
envio de sinistros e os dados de novas apólices emitidas. No entanto, dados como logs do
servidor web e cotações de seguro são dados de alta velocidade. Olhando para fora da
empresa, os membros da equipe de TI antecipam que os dados de mídia social e os dados
climáticos podem chegar em um ritmo acelerado. Além disso, prevê-se que, para
gerenciamento de catástrofes e detecção de sinistros fraudulentos, os dados precisem ser
processados de forma razoavelmente rápida para minimizar as perdas.
Variedade
Na busca de seus objetivos, a ETI deverá incorporar uma série de conjuntos de dados que
incluem registros de saúde, dados de apólices, dados de sinistros, dados de cotações, dados
de mídia social, notas de agentes de call center, notas de reguladores de sinistros,
fotografias de incidentes, boletins meteorológicos, censos dados, logs do servidor web e e-
mails.
Veracidade
Uma amostra de dados retirados dos sistemas operacionais e do EDW mostra sinais de alta
veracidade. A equipe de TI atribui isso à validação de dados realizada em váriosestágios,
incluindo validação no momento da entrada de dados, validação em vários pontos quando
um aplicativo está processando dados, como validação de entrada em nível de função e
validação realizada pelo banco de dados quando os dados são persistidos. Olhando para
fora dos limites da ETI, um estudo de algumas amostras retiradas dos dados de mídia social
e dados meteorológicos demonstra um declínio ainda maior na veracidade, indicando que
esses dados exigirão um nível maior de validação e limpeza de dados para torná-los dados
de alta veracidade.
Valor
• Dados não estruturados: dados de mídia social, documentos de solicitação de seguro, notas
do agente de call center, notas do avaliador de sinistros e fotografias de incidentes.