Você está na página 1de 27

Leia a introdução do capítulo 1 "Chapter 1. Understanding Big Data" (Capítulo 1.

Compreendendo Big Data) do livro "Big Data Fundamentals: Concepts, Drivers &
Techniques" (Fundamentos de Big Data: conceitos, motivadores e técnicas) para uma
visão inicial e conceitual do que é Big Data
https://learning.oreilly.com/library/view/big-data-fundamentals/9780134291185/ch01.xhtml

Leia a seção "Concepts and Terminology" (Conceitos e Terminologia) do capítulo 1 do livro


"Big Data Fundamentals: Concepts, Drivers & Techniques" () para complementar a visão
inicial e conceitual do que é Big Data
https://learning.oreilly.com/library/view/Big+Data+Fundamentals:+Concepts,+Drivers+&+Techniques/

9780134291185/ch01.xhtml#ch01lev1sec1
Capítulo 1. Entendendo o Big Data

Conceitos e Terminologia

Características de Big Data

Diferentes tipos de dados

Antecedentes do Estudo de Caso

Big Data é um campo dedicado à análise, processamento e armazenamento de grandes


coleções de dados que frequentemente se originam de fontes díspares. As soluções e
práticas de Big Data geralmente são necessárias quando as tecnologias e técnicas
tradicionais de análise, processamento e armazenamento de dados são
insuficientes. Especificamente, o Big Data atende a requisitos distintos, como a combinação
de vários conjuntos de dados não relacionados, processamento de grandes quantidades de
dados não estruturados e coleta de informações ocultas de maneira sensível ao tempo.

Embora o Big Data possa aparecer como uma nova disciplina, ele vem se desenvolvendo há
anos. O gerenciamento e a análise de grandes conjuntos de dados têm sido um problema de
longa data – desde abordagens de trabalho intensivo dos primeiros esforços de censo até a
ciência atuarial por trás dos cálculos dos prêmios de seguro. A ciência do Big Data evoluiu a
partir dessas raízes.
Além das abordagens analíticas tradicionais baseadas em estatísticas, o Big Data adiciona
técnicas mais recentes que alavancam recursos computacionais e abordagens para
executar algoritmos analíticos. Essa mudança é importante à medida que os conjuntos de
dados continuam a se tornar maiores, mais diversos, mais complexos e centrados em
streaming. Embora as abordagens estatísticas tenham sido usadas para aproximar medidas
de uma população por meio de amostragem desde os tempos bíblicos, os avanços na
ciência computacional permitiram o processamento de conjuntos de dados inteiros,
tornando essa amostragem desnecessária.

A análise de conjuntos de dados de Big Data é um esforço interdisciplinar que combina


matemática, estatística, ciência da computação e conhecimento no assunto. Essa mistura de
habilidades e perspectivas gerou alguma confusão sobre o que compreende o campo de Big
Data e sua análise, pois a resposta que se recebe dependerá da perspectiva de quem está
respondendo à pergunta. Os limites do que constitui um problema de Big Data também
estão mudando devido ao cenário em constante mudança e avanço da tecnologia de
software e hardware. Isso se deve ao fato de que a definição de Big Data leva em
consideração o impacto das características dos dados no design do próprio ambiente da
solução. Trinta anos atrás, um gigabyte de dados poderia representar um problema de Big
Data e exigir recursos de computação para fins especiais. Agora,

Os dados em ambientes de Big Data geralmente se acumulam ao serem acumulados na


empresa por meio de aplicativos, sensores e fontes externas. Dados processados por um
grandeA solução de dados pode ser usada diretamente por aplicativos corporativos ou
pode ser alimentada em um data warehouse para enriquecer os dados existentes. Os
resultados obtidos por meio do processamento de Big Data podem levar a uma ampla gama
de insights e benefícios, como:

• otimização operacional

• inteligência acionável

• identificação de novos mercados

• previsões precisas

• detecção de falhas e fraudes

• registros mais detalhados

• melhor tomada de decisão

• descobertas científicas

Evidentemente, as aplicações e os benefícios potenciais do Big Data são amplos. No entanto,


existem inúmeras questões que precisam ser consideradas ao adotar abordagens de análise
de Big Data. Essas questões precisam ser compreendidas e ponderadas em relação aos
benefícios previstos para que decisões e planos informados possam ser produzidos. Esses
tópicos são discutidos separadamente na Parte II .

Conceitos e Terminologia

Como ponto de partida, vários conceitos e termos fundamentais precisam ser definidos e
compreendidos.

Conjuntos de dados

Coleções ou grupos de dados relacionados são geralmente chamados de conjuntos de


dados. Cada grupo ou membro do conjunto de dados (datum) compartilha o mesmo
conjunto de atributos ou propriedades que outros no mesmo conjunto de dados. Alguns
exemplos de conjuntos de dados são:

• tweets armazenados em um arquivo simples

• uma coleção de arquivos de imagem em um diretório

• um extrato de linhas de uma tabela de banco de dados armazenada em um arquivo


formatado em CSV

• observações meteorológicas históricas que são armazenadas como arquivos XML

A Figura 1.1 mostra três conjuntos de dados baseados em três formatos de dados


diferentes.

Figura 1.1 Os conjuntos de dados podem ser encontrados em muitos formatos diferentes.

Análise de dados

A análise de dados é o processo de examinar dados para encontrar fatos, relacionamentos,


padrões, insights e/ou tendências. O objetivo geral da análise de dados é apoiar uma
melhor tomada de decisão. Um exemplo simples de análise de dados é a análise dos dados
de vendas de sorvetes para determinar como o número de casquinhas de sorvete vendidas
está relacionado à temperatura diária. Os resultados de tal análise apoiariam decisões
relacionadas à quantidade de sorvete que uma loja deve pedir em relação às informações
de previsão do tempo. Realizar a análise de dados ajuda a estabelecer padrões e
relacionamentos entre os dados que estão sendo analisados. A Figura 1.2 mostra o símbolo
usado para representar a análise dos dados.

Figura 1.2 O símbolo usado para representar a análise de dados.

Análise de dados

A análise de dados é um termo mais amplo que engloba a análise de dados. A análise de
dados é uma disciplina que inclui o gerenciamento do ciclo de vida completo dos dados,
que abrange a coleta, limpeza, organização, armazenamento, análise e controle de dados. O
termo inclui o desenvolvimento de métodos de análise, técnicas científicas e ferramentas
automatizadas. Em ambientes de Big Data, a análise de dados desenvolveu métodos que
permitem que a análise de dados ocorra por meio do uso de tecnologias distribuídas
altamente escaláveis e frameworks capazes de analisar grandes volumes de dados de
diferentes fontes. A Figura 1.3 mostra o símbolo usado para representar a análise.

Figura 1.3 O símbolo usado para representar a análise de dados.

O ciclo de vida da análise de Big Data geralmente envolve identificar, adquirir, preparar e
analisar grandes quantidades de dados brutos e não estruturados para extrair informações
significativas que podem servir como entrada para identificar padrões, enriquecer dados
corporativos existentes e realizar pesquisas em grande escala.

Diferentes tipos de organizações usam ferramentas e técnicas de análise de dados de


maneiras diferentes. Tomemos, por exemplo, estes três setores:
• Em ambientes orientados aos negócios, os resultados da análise de dados podem reduzir os
custos operacionais e facilitar a tomada de decisões estratégicas.

• No domínio científico, a análise de dados pode ajudar a identificar a causa de um fenômeno


para melhorar a precisão das previsões.

• Em ambientes baseados em serviços, como organizações do setor público, a análise de


dados pode ajudar a fortalecer o foco na prestação de serviços de alta qualidade, reduzindo
os custos.

A análise de dados permite a tomada de decisões orientada por dados com respaldo
científico, para que as decisões possam ser baseadas em dados factuais e não apenas em
experiências passadas ou apenas na intuição. Existem quatro categorias gerais de análise
que se distinguem pelos resultados que produzem:

• análise descritiva

• análise de diagnóstico

• análise preditiva

• análise prescritiva

Os diferentes tipos de análise aproveitam diferentes técnicas e algoritmos de análise. Isso


implica que pode haver requisitos variados de dados, armazenamento e processamento
para facilitar a entrega de vários tipos de resultados analíticos. A Figura 1.4 mostra a
realidade de que a geração de resultados analíticos de alto valor aumenta a complexidade e
o custo do ambiente analítico.
Figura 1.4 O valor e a complexidade aumentam da análise descritiva para a analítica
prescritiva.

Análise Descritiva

A análise descritiva é realizada para responder perguntas sobre eventos que já


ocorreram. Essa forma de análise contextualiza os dados para gerar informações.

Exemplos de perguntas podem incluir:

• Qual foi o volume de vendas nos últimos 12 meses?

• Qual é o número de chamadas de suporte recebidas categorizadas por gravidade e


localização geográfica?

• Qual é a comissão mensal auferida por cada agente de vendas?

Estima-se que 80% dos resultados analíticos gerados sejam de natureza descritiva. Em
termos de valor, a análise descritiva fornece o menor valor e exige um conjunto de
habilidades relativamente básico.

A análise descritiva geralmente é realizada por meio de relatórios ou painéis ad-hoc,


conforme mostrado na Figura 1.5 . Os relatórios são geralmente de natureza estática e
exibem dados históricos que são apresentados na forma de grades de dados ou gráficos. As
consultas são executadas em armazenamentos de dados operacionais de dentro de uma
empresa, por exemplo, um sistema de gerenciamento de relacionamento com o cliente
(CRM) ou sistema de planejamento de recursos empresariais (ERP).

Figura 1.5 Os sistemas operacionais, na foto à esquerda, são consultados por meio de
ferramentas de análise descritiva para gerar relatórios ou painéis, na foto à direita.

Análise de diagnóstico

A análise diagnóstica visa determinar a causa de um fenômeno que ocorreu no passado


usando perguntas que se concentram na razão por trás do evento. O objetivo desse tipo de
análise é determinar quais informações estão relacionadas ao fenômeno para possibilitar
responder a perguntas que buscam determinar por que algo ocorreu.

Tais perguntas incluem:

• Por que as vendas do segundo trimestre foram inferiores às vendas do primeiro trimestre?

• Por que houve mais chamadas de suporte originadas da região leste do que da região oeste?

• Por que houve um aumento nas taxas de readmissão de pacientes nos últimos três meses?

A análise de diagnóstico fornece mais valor do que a análise descritiva, mas exige um
conjunto de habilidades mais avançado. A análise de diagnóstico geralmente exige a coleta
de dados de várias fontes e o armazenamento em uma estrutura que se presta à execução
de análises de detalhamento e roll-up, conforme mostrado na Figura 1.6 . Os resultados da
análise de diagnóstico são visualizados por meio de ferramentas de visualização interativa
que permitem aos usuários identificar tendências e padrões. As consultas executadas são
mais complexas em comparação com as da análise descritiva e são realizadas em dados
multidimensionais mantidos em sistemas de processamento analítico.

Figura 1.6 A análise de diagnóstico pode resultar em dados adequados para realizar
análises de detalhamento e roll-up.

Análise preditiva

A análise preditiva é realizada na tentativa de determinar o resultado de um evento que


pode ocorrer no futuro. Com a análise preditiva, as informações são aprimoradas com
significado para gerar conhecimento que transmite como essas informações estão
relacionadas. A força e a magnitude das associações formam a base dos modelos usados
para gerar previsões futuras com base em eventos passados. É importante entender que os
modelos usados para análise preditiva têm dependências implícitas nas condições sob as
quais os eventos passados ocorreram. Se essas condições subjacentes mudarem, os modelos
que fazem previsões precisam ser atualizados.

As perguntas são geralmente formuladas usando um raciocínio hipotético, como o


seguinte:

• Quais são as chances de um cliente ficar inadimplente em um empréstimo se tiver perdido


um pagamento mensal?

• Qual será a taxa de sobrevivência do paciente se o medicamento B for administrado em vez


do medicamento A?

• Se um cliente comprou os Produtos A e B, quais são as chances de que ele também compre
o Produto C?
A análise preditiva tenta prever os resultados dos eventos, e as previsões são feitas com
base em padrões, tendências e exceções encontradas em dados históricos e atuais. Isso
pode levar à identificação de riscos e oportunidades.

Esse tipo de análise envolve o uso de grandes conjuntos de dados compostos por dados
internos e externos e várias técnicas de análise de dados. Ele fornece maior valor e requer
um conjunto de habilidades mais avançado do que a análise descritiva e de diagnóstico. As
ferramentas usadas geralmente abstraem as complexidades estatísticas subjacentes,
fornecendo interfaces front-end amigáveis, conforme mostrado na Figura 1.7 .

Figura 1.7 As ferramentas de análise preditiva podem fornecer interfaces front-end


amigáveis.

Análise Prescritiva

A análise prescritiva baseia-se nos resultados da análise preditiva, prescrevendo ações que
devem ser tomadas. O foco não é apenas em qual opção prescrita é melhor seguir, mas por
quê. Em outras palavras, a análise prescritiva fornece resultados que podem ser
fundamentados porque incorporam elementos de compreensão situacional. Assim, esse
tipo de análise pode ser usado para obter uma vantagem ou mitigar um risco.

Exemplos de perguntas podem incluir:

• Entre três medicamentos, qual oferece os melhores resultados?

• Qual é o melhor momento para negociar uma determinada ação?

A análise prescritiva fornece mais valor do que qualquer outro tipo de análise e,
correspondentemente, exige o conjunto de habilidades mais avançado, bem como software
e ferramentas especializados. Vários resultados são calculados e o melhor curso de ação
para cada resultado é sugerido. A abordagem muda de explicativa para consultiva e pode
incluir a simulação de vários cenários.

Esse tipo de análise incorpora dados internos com dados externos. Os dados internos
podem incluir dados de vendas atuais e históricos, informações de clientes, dados de
produtos e regras de negócios. Os dados externos podem incluir dados de mídia social,
previsões do tempo e dados demográficos produzidos pelo governo. A análise prescritiva
envolve o uso de regras de negócios e grandes quantidades de dados internos e externos
para simular resultados e prescrever o melhor curso de ação, conforme mostrado
na Figura 1.8 .

Figura 1.8 A análise prescritiva envolve o uso de regras de negócios e dados internos e/ou
externos para realizar uma análise aprofundada.

Inteligência de Negócios (BI)

O BI permite que uma organização obtenha insights sobre o desempenho de uma empresa
analisando dados gerados por seus processos de negócios e sistemas de informação. Os
resultados da análise podem ser usados pela administração para orientar os negócios em
um esforço para corrigir problemas detectados ou melhorar o desempenho
organizacional. O BI aplica análises a grandes quantidades de dados em toda a empresa,
que normalmente são consolidadas em um data warehouse corporativo para executar
consultas analíticas. Conforme mostrado na Figura 1.9 , a saída do BI pode ser exibida em
um painel que permite aos gerentes acessar e analisar os resultados e refinar as consultas
analíticas para explorar ainda mais os dados.

Figura 1.9 O BI pode ser usado para aprimorar aplicativos de negócios, consolidar dados
em data warehouses e analisar consultas por meio de um painel.

Indicadores Chave de Desempenho (KPI)

Um KPI é uma métrica que pode ser usada para avaliar o sucesso em um contexto de
negócios específico. Os KPIs estão vinculados às metas e objetivos estratégicos gerais de
uma empresa. Elassão frequentemente usados para identificar problemas de desempenho
de negócios e demonstrar conformidade regulatória. Os KPIs atuam, portanto, como pontos
de referência quantificáveis para medir um aspecto específico do desempenho geral de um
negócio. Os KPIs geralmente são exibidos por meio de um painel de KPI, conforme
mostrado na Figura 1.10 . O painel consolida a exibição de vários KPIs e compara as
medições reais com valores de limite que definem o intervalo de valores aceitável do KPI.

Figura 1.10 Um painel de KPI atua como um ponto de referência central para medir o
desempenho do negócio.

Características de Big Data


Para que um conjunto de dados seja considerado Big Data, ele deve possuir uma ou mais
características que exijam acomodação no design da solução e na arquitetura do ambiente
analítico. A maioria dessas características de dados foi inicialmente identificada por Doug
Laney no início de 2001, quando ele publicou um artigo descrevendo o impacto do volume,
velocidade e variedade de dados de comércio eletrônico em data warehouses
corporativos. A esta lista, a veracidade foi adicionada para explicar a menor relação sinal-
ruído de dados não estruturados em comparação com fontes de dados estruturados. Em
última análise, o objetivo é conduzir a análise dos dados de forma que resultados de alta
qualidade sejam entregues em tempo hábil, o que fornece valor ideal para a empresa.

Esta seção explora as cinco características do Big Data que podem ser usadas para ajudar a
diferenciar os dados categorizados como “Big” de outras formas de dados. Os cinco traços
de Big Data mostrados na Figura 1.11 são comumente chamados de Cinco Vs:

• volume

• velocidade

• variedade

• veracidade

• valor

Figura 1.11 Os Cinco Vs do Big Data.

Volume

O volume previsto de dados processados por soluções de Big Data é substancial e


crescente. Altos volumes de dados impõem demandas distintas de armazenamento e
processamento de dados, bem como processos adicionais de preparação, curadoria e
gerenciamento de dados. A Figura 1.12 fornece uma representação visual do grande
volume de dados sendo criado diariamente por organizações e usuários em todo o mundo.
Figura 1.12 Organizações e usuários em todo o mundo criam mais de 2,5 EBs de dados por
dia. Como ponto de comparação, a Biblioteca do Congresso atualmente possui mais de 300
TBs de dados.

As fontes de dados típicas responsáveis por gerar grandes volumes de dados podem incluir:

• transações online, como pontos de venda e serviços bancários

• experimentos científicos e de pesquisa, como o Large Hadron Collider e o telescópio


Atacama Large Millimeter/Submillimeter Array

• sensores, como sensores GPS, RFIDs, medidores inteligentes e telemática

• mídias sociais, como Facebook e Twitter

Velocidade

Em ambientes de Big Data, os dados podem chegar em velocidades rápidas e enormes


conjuntos de dados podem se acumular em períodos de tempo muito curtos. Do ponto de
vista de uma empresa, a velocidade dos dados se traduz na quantidade de tempo que leva
para que os dados sejam processados quando entram no perímetro da empresa. Lidar com
o rápido fluxo de dados exige que a empresa projete soluções de processamento de dados
altamente elásticas e disponíveis e recursos de armazenamento de dados correspondentes.

Dependendo da fonte de dados, a velocidade nem sempre pode ser alta. Por exemplo, as
imagens de ressonância magnética não são geradas com a mesma frequência que as
entradas de log de um servidor da Web de alto tráfego. Conforme ilustrado na Figura 1.13 ,
a velocidade de dados é colocada em perspectiva quando se considera que o seguinte
volume de dados pode ser facilmente gerado em um determinado minuto: 350.000 tweets,
300 horas de vídeos enviados para o YouTube, 171 milhões de e-mails e 330 GBs de dados
de sensores de um motor a jato.

Figura 1.13 Exemplos de conjuntos de dados de Big Data de alta velocidade produzidos a


cada minuto incluem tweets, vídeos, e-mails e GBs gerados a partir de um motor a jato.

Variedade

Variedade de dados refere-se aos vários formatos e tipos de dados que precisam ser
suportados por soluções de Big Data. A variedade de dados traz desafios para as empresas
em termos de integração, transformação, processamento e armazenamento de dados. A
Figura 1.14 fornece uma representação visual da variedade de dados, que inclui dados
estruturados na forma de transações financeiras, dados semiestruturados na forma de e-
mails e dados não estruturados na forma de imagens.

Figura 1.14 Exemplos de conjuntos de dados de Big Data de alta variedade incluem dados
estruturados, textuais, de imagem, vídeo, áudio, XML, JSON, dados de sensores e
metadados.

Veracidade

A veracidade refere-se à qualidade ou fidelidade dos dados. Os dados que entram em


ambientes de Big Data precisam ser avaliados quanto à qualidade, o que pode levar a
atividades de processamento de dados para resolver dados inválidos e remover ruídos. Em
relação à veracidade, os dados podem fazer parte do sinal ou ruído de um conjunto de
dados. Ruído são dados que não podem ser convertidos em informações e, portanto, não
têm valor, enquanto os sinais têm valor e levam a informações significativas. Dados com
uma relação sinal-ruído alta têm mais veracidade do que dados com uma relação
menor. Os dados adquiridos de maneira controlada, por exemplo, por meio de registros de
clientes on-line, geralmente contêm menos ruído do que os dados adquiridos por meio de
fontes não controladas, como postagens em blogs. Assim, a relação sinal-ruído dos dados
depende da fonte dos dados e de seu tipo.

Valor

O valor é definido como a utilidade dos dados para uma empresa. A característica de valor
está intuitivamente relacionada à característica de veracidade, pois quanto maior a
fidelidade dos dados, mais valor ele possui para o negócio. O valor também depende de
quanto tempo demora o processamento de dados, pois os resultados da análise têm um
prazo de validade; por exemplo, uma cotação de ações atrasada de 20 minutos tem pouco
ou nenhum valor para fazer uma negociação em comparação com uma cotação de 20
milissegundos. Como demonstrado, valor e tempo estão inversamente
relacionados. Quanto mais tempo leva para que os dados sejam transformados em
informações significativas, menos valor ele tem para um negócio. Resultados obsoletos
inibem a qualidade e a velocidade da tomada de decisão informada. Figura 1.15fornece
duas ilustrações de como o valor é impactado pela veracidade dos dados e pela
pontualidade dos resultados analíticos gerados.

Figura 1.15 Dados que têm alta veracidade e podem ser analisados rapidamente têm mais
valor para um negócio.

Além da veracidade e do tempo, o valor também é afetado pelas seguintes preocupações


relacionadas ao ciclo de vida:

• Quão bem os dados foram armazenados?

• Os atributos valiosos dos dados foram removidos durante a limpeza de dados?


• Os tipos certos de perguntas estão sendo feitos durante a análise de dados?

• Os resultados da análise estão sendo comunicados com precisão aos tomadores de decisão
apropriados?

Diferentes tipos de dados

Os dados processados por soluções de Big Data podem ser gerados por humanos ou gerados
por máquinas, embora seja responsabilidade das máquinas gerar os resultados
analíticos. Os dados gerados por humanos são o resultado da interação humana com
sistemas, como serviços online e dispositivos digitais. A Figura 1.16 mostra exemplos de
dados gerados por humanos.

Figura 1.16 Exemplos de dados gerados por humanos incluem mídias sociais, postagens em
blogs, e-mails, compartilhamento de fotos e mensagens.

Os dados gerados por máquina são gerados por programas de software e dispositivos de
hardware em resposta a eventos do mundo real. Por exemplo, um arquivo de log captura
uma decisão de autorização feita por um serviço de segurança e um sistema de ponto de
venda gera uma transação em relação ao estoque para refletir os itens comprados por um
cliente. Do ponto de vista do hardware, um exemplo de dados gerados por máquina seriam
as informações transmitidas de vários sensores em um celular que podem estar relatando
informações, incluindo posição e intensidade do sinal da torre de celular. A Figura
1.17 fornece uma representação visual de diferentes tipos de dados gerados por máquina.
Figura 1.17 Exemplos de dados gerados por máquina incluem logs da web, dados de
sensores, dados de telemetria, dados de medidores inteligentes e dados de uso de
aparelhos.

Conforme demonstrado, os dados gerados por humanos e gerados por máquina podem vir
de várias fontes e ser representados em vários formatos ou tipos. Esta seção examina a
variedade de tipos de dados que são processados por soluções de Big Data. Os principais
tipos de dados são:

• dados estruturados

• dados não estruturados

• dados semiestruturados

Esses tipos de dados referem-se à organização interna dos dados e às vezes são chamados
de formatos de dados. Além desses três tipos de dados fundamentais, outro tipo importante
de dados em ambientes de Big Data são os metadados. Cada um será explorado por sua vez.

Dados estruturados

Os dados estruturados estão em conformidade com um modelo ou esquema de dados e


geralmente são armazenados em forma de tabela. Ele é usado para capturar
relacionamentos entre diferentes entidades e, portanto, é mais frequentemente
armazenado em um banco de dados relacional. Dados estruturados são frequentemente
gerados por aplicativos corporativos e sistemas de informação, como sistemas ERP e
CRM. Devido à abundância de ferramentas e bancos de dados que suportam nativamente
dados estruturados, raramente requer consideração especial em relação ao processamento
ou armazenamento. Exemplos desse tipo de dados incluem transações bancárias, faturas e
registros de clientes. A Figura 1.18 mostra o símbolo usado para representar dados
estruturados.

Figura 1.18 O símbolo usado para representar dados estruturados armazenados em forma
de tabela.

Dados não estruturados

Os dados que não estão em conformidade com um modelo de dados ou esquema de dados
são conhecidos como dados não estruturados. Estima-se que os dados não estruturados
representem 80% dos dados em qualquer empresa. Os dados não estruturados têm uma
taxa de crescimento mais rápida do que os dados estruturados. A Figura 1.19 ilustra alguns
tipos comuns de dados não estruturados. Essa forma de dados é textual ou binária e muitas
vezes transmitida por meio de arquivos independentes e não relacionais. Um arquivo de
texto pode conter o conteúdo de vários tweets ou postagens de blog. Arquivos binários
geralmente são arquivos de mídia que contêm dados de imagem, áudio ou
vídeo. Tecnicamente, tanto os arquivos texto quanto os binários possuem uma estrutura
definida pelo próprio formato do arquivo, mas esse aspecto é desconsiderado, e a noção de
ser desestruturado é em relação ao formato dos dados contidos no próprio arquivo.

Figura 1.19 Arquivos de vídeo, imagem e áudio são todos tipos de dados não estruturados.

A lógica de propósito especial geralmente é necessária para processar e armazenar dados


não estruturados. Por exemplo, para reproduzir um arquivo de vídeo, é essencial que o
codec correto (codificador-decodificador) esteja disponível. Dados não estruturados não
podem ser processados ou consultados diretamente usando SQL. Se for necessário
armazenar em um banco de dados relacional, ele será armazenado em uma tabela como
um objeto grande binário (BLOB). Como alternativa, um banco de dados Not-only SQL
(NoSQL) é um banco de dados não relacional que pode ser usado para armazenar dados
não estruturados juntamente com dados estruturados.
Dados semiestruturados

Os dados semiestruturados têm um nível definido de estrutura e consistência, mas não são
de natureza relacional. Em vez disso, os dados semiestruturados são hierárquicos ou
baseados em gráficos. Esse tipo de dado é comumente armazenado em arquivos que
contêm texto. Por exemplo, a Figura 1.20 mostra que arquivos XML e JSON são formas
comuns de dados semiestruturados. Devido à natureza textual desses dados e sua
conformidade com algum nível de estrutura, eles são mais facilmente processados do que
os dados não estruturados.

Figura 1.20 XML, JSON e dados do sensor são semiestruturados.

Exemplos de fontes comuns de dados semiestruturados incluem arquivos de intercâmbio


eletrônico de dados (EDI), planilhas, feeds RSS e dados de sensores. Os dados
semiestruturados geralmente têm requisitos especiais de pré-processamento e
armazenamento, especialmente se oformato não é baseado em texto. Um exemplo de pré-
processamento de dados semiestruturados seria a validação de um arquivo XML para
garantir que ele esteja de acordo com sua definição de esquema.

Metadados

Os metadados fornecem informações sobre as características e a estrutura de um conjunto


de dados. Esse tipo de dados é principalmente gerado por máquina e pode ser anexado aos
dados. O rastreamento de metadados é crucial para o processamento, armazenamento e
análise de Big Data, pois fornece informações sobre o pedigree dos dados e sua
proveniência durante o processamento. Exemplos de metadados incluem:

• Tags XML fornecendo o autor e a data de criação de um documento

• atributos que fornecem o tamanho do arquivo e a resolução de uma fotografia digital

As soluções de Big Data dependem de metadados, principalmente ao processar dados


semiestruturados e não estruturados. A Figura 1.21 mostra o símbolo usado para
representar os metadados.
Figura 1.21 O símbolo usado para representar metadados.

Antecedentes do Estudo de Caso

A Ensure to Insure (ETI) é uma seguradora líder que fornece uma variedade de planos de
seguro nos setores de saúde, construção, marítimo e aviação para sua base de 25 milhões
de clientes espalhados pelo mundo. A empresa é composta por uma força de trabalho de
cerca de 5.000 funcionários e gera uma receita anual de mais de 350.000.000 USD.

História

A ETI começou sua vida como provedora exclusiva de seguros de saúde há 50 anos. Como
resultado de várias aquisições nos últimos 30 anos, a ETI ampliou seus serviços para incluir
planos de seguro de propriedade e acidentes nos setores de construção, marítimo e
aviação.Cada um de seus quatro setores é composto por uma equipe central de agentes
especializados e experientes, atuários, subscritores e avaliadores de sinistros.

Os agentes geram a receita da empresa com a venda de apólices, enquanto os atuários são
responsáveis pela avaliação de risco, criando novos planos de seguro e revisando os planos
existentes. Os atuários também realizam análises hipotéticas e utilizam dashboards e
scorecards para avaliação de cenários. Os subscritores avaliam novos pedidos de seguro e
decidem sobre o valor do prêmio. Os avaliadores de sinistros lidam com a investigação de
reclamações feitas contra uma apólice e chegam a um valor de liquidação para o segurado.

Alguns dos principais departamentos da ETI incluem os departamentos de subscrição,


liquidação de sinistros, atendimento ao cliente, jurídico, marketing, recursos humanos,
contas e TI. Tanto os clientes potenciais quanto os existentes geralmente entram em
contato com o departamento de atendimento ao cliente da ETI por telefone, embora o
contato via e-mail e mídia social tenha aumentado exponencialmente nos últimos anos.

A ETI se esforça para se diferenciar oferecendo apólices competitivas e atendimento


premium ao cliente que não termina quando uma apólice é vendida. Sua administração
acredita que isso ajuda a alcançar maiores níveis de aquisição e retenção de clientes. A ETI
depende muito de seus atuários para criar planos de seguro que reflitam as necessidades
de seus clientes.
Infraestrutura Técnica e Ambiente de Automação

O ambiente de TI da ETI consiste em uma combinação de plataformas cliente-servidor e


mainframe que suportam a execução de vários sistemas, incluindo cotação de apólices,
administração de apólices, gestão de sinistros, avaliação de riscos, gestão de documentos,
faturamento, planejamento de recursos empresariais (ERP) e gestão de relacionamento
(CRM).

O sistema de cotação de apólices é usado para criar novos planos de seguro e fornecer
cotações a clientes em potencial. Ele é integrado ao site e ao portal de atendimento ao
cliente para fornecer aos visitantes do site e aos agentes de atendimento ao cliente a
capacidade de obter cotações de seguro. O sistema de administração de apólices lida com
todos os aspectos do gerenciamento do ciclo de vida da apólice, incluindo emissão,
atualização, renovação e cancelamento de apólices. O sistema de gestão de sinistros lida
com as atividades de processamento de sinistros.

Um sinistro é registrado quando um segurado faz um relatório, que é então atribuído a um


avaliador de sinistros que analisa o sinistro à luz das informações disponíveis que foram
enviadas quando o sinistro foi feito, bem como outras informações básicas obtidas de
diferentes fontes internas e externas . Com base nas informações analisadas, a reclamaçãoé
liquidado seguindo um determinado conjunto de regras de negócios. O sistema de
avaliação de risco é usado pelos atuários para avaliar qualquer risco potencial, como uma
tempestade ou uma inundação que possa resultar em sinistros por parte dos segurados. O
sistema de avaliação de risco permite a avaliação de risco baseada em probabilidade que
envolve a execução de vários modelos matemáticos e estatísticos.

O sistema de gerenciamento de documentos serve como um repositório central para todos


os tipos de documentos, incluindo apólices, reclamações, documentos digitalizados e
correspondência de clientes. O sistema de cobrança acompanha a cobrança de prêmios dos
clientes e também gera vários lembretes para clientes que perderam o pagamento por e-
mail e correio postal. O sistema ERP é utilizado para o dia-a-dia da ETI, incluindo gestão de
recursos humanos e contas. O sistema de CRM registra todos os aspectos da comunicação
com o cliente por telefone, e-mail e correio postal e também fornece um portal para
agentes de call center para lidar com dúvidas de clientes. Além disso, permite que a equipe
de marketing crie, execute e gerencie campanhas de marketing. Os dados desses sistemas
operacionais são exportados para um Enterprise Data Warehouse (EDW) que é usado para
gerar relatórios para análise financeira e de desempenho. O EDW também é usado para
gerar relatórios para diferentes autoridades regulatórias para garantir a conformidade
regulatória contínua.

Objetivos e Obstáculos de Negócios

Nas últimas décadas, a lucratividade da empresa vem caindo. Um comitê composto por
gerentes seniores foi formado para investigar e fazer recomendações. As conclusões do
comitê revelaram que a principal razão por trás da deterioração da situação financeira da
empresa é o aumento do número de reclamações fraudulentas e os pagamentos associados
sendo feitos contra elas. Esses achados mostraram que a fraude cometida tornou-se
complexa e difícil de detectar porque os fraudadores se tornaram mais sofisticados e
organizados. Além de incorrer em perdas monetárias diretas, os custos relacionados ao
processamento de reclamações fraudulentas resultam em perdas indiretas.

Outro fator que contribui é um aumento significativo na ocorrência de catástrofes como


inundações, tempestades e epidemias, que também aumentaram o número de sinistros
genuínos de alto nível. Outras razões para quedas na receita incluem a deserção de clientes
devido ao processamento lento de sinistros e produtos de seguro que não atendem mais às
necessidades dos clientes. A última fraqueza foi exposta pelo surgimento de concorrentes
experientes em tecnologia que empregam o uso da telemática para fornecer políticas
personalizadas.

A comissão salientou que a frequência com que os regulamentos existentes mudam e novos
regulamentos são introduzidos aumentou recentemente. A empresa teminfelizmente,
demorou a responder e não foi capaz de garantir o cumprimento total e contínuo. Devido a
essas deficiências, a ETI teve que pagar pesadas multas.

O comitê observou que outra razão por trás do fraco desempenho financeiro da empresa é
que os planos de seguro são criados e as apólices são subscritas sem uma avaliação de risco
completa. Isso levou à definição de prêmios incorretos e mais pagamentos do que o
previsto. Atualmente, a diferença entre os prêmios arrecadados e os pagamentos efetuados
é compensada com o retorno dos investimentos. No entanto, essa não é uma solução de
longo prazo, pois dilui o lucro obtido nos investimentos. Além disso, os planos de seguro
geralmente são baseados na experiência dos atuários e na análise da população como um
todo, resultando em planos de seguro que se aplicam apenas a um conjunto médio de
clientes. Os clientes cujas circunstâncias divergem da média definida não estão
interessados em tais planos de seguro.

As razões acima mencionadas também são responsáveis pela queda do preço das ações da
ETI e pela diminuição da participação de mercado.

Com base nas conclusões do comitê, os seguintes objetivos estratégicos são definidos pelos
diretores da ETI:

1. Reduzir as perdas (a) melhorando a avaliação de risco e maximizando a mitigação de risco,


que se aplica tanto à criação de planos de seguro quanto quando novos aplicativos são
selecionados no momento da emissão de uma apólice, (b) implementando um sistema de
gerenciamento de catástrofes proativo que diminui o número de reclamações potenciais
resultantes de uma calamidade e (c) detecção de reclamações fraudulentas.

2. Reduzir a deserção de clientes e melhorar a retenção de clientes com (a) liquidação rápida
de sinistros e (b) políticas personalizadas e competitivas baseadas em circunstâncias
individuais, em vez de apenas generalização demográfica.
3. Alcançar e manter a conformidade regulamentar total em todos os momentos,
empregando técnicas aprimoradas de gerenciamento de risco que podem prever melhor os
riscos, porque a maioria das regulamentações exige conhecimento preciso dos riscos para
garantir a conformidade.

Após consultar sua equipe de TI, o comitê recomendou a adoção de uma estratégia
orientada por dados com análises aprimoradas a serem aplicadas em várias funções de
negócios de forma que diferentes processos de negócios levem em consideração dados
internos e externos relevantes. Dessa forma, as decisões podem ser baseadas em evidências
e não apenas na experiência e na intuição. Em particular, o aumento de grandes
quantidades de dados estruturados com grandes quantidades de dados não estruturados é
enfatizado para dar suporte à realização de análises de dados profundas, porém oportunas.

O comitê perguntou à equipe de TI se existem obstáculos existentes que possam impedir a


implementação da estratégia mencionada. A equipe de TI foi lembrada das restrições
financeiras dentro das quais precisa operar. Em resposta a isso, a equipe preparou um
relatório de viabilidade que destaca os seguintes obstáculos:

• Adquirir , armazenar e processar dados não estruturados de fontes de dados internas e


externas – Atualmente, apenas dados estruturados são armazenados e processados, pois a
tecnologia existente não suporta o armazenamento e processamento de dados não
estruturados.

• Processamento de grandes quantidades de dados em tempo hábil – Embora o EDW seja usado
para gerar relatórios com base em dados históricos, a quantidade de dados processados
não pode ser classificada como grande e os relatórios demoram muito para serem gerados.

• Processamento de vários tipos de dados e combinação de dados estruturados com dados não
estruturados – São produzidos vários tipos de dados não estruturados, como documentos
textuais e registros de call center que não podem ser processados atualmente devido à sua
natureza não estruturada. Em segundo lugar, os dados estruturados são usados
isoladamente para todos os tipos de análises.

A equipe de TI concluiu emitindo uma recomendação para que a ETI adote o Big Data como
o principal meio de superar esses impedimentos para apoiar o alcance das metas
estabelecidas.

EXEMPLO DE ESTUDO DE CASO

Embora a ETI tenha escolhido Big Data para a implementação de seus objetivos
estratégicos, como está atualmente, a ETI não possui habilidades internas de Big Data e
precisa escolher entre contratar um consultor de Big Data ou enviar sua equipe de TI para
um curso de treinamento de Big Data. A última opção é escolhida. No entanto, apenas os
membros seniores da equipe de TI são enviados para o treinamento em antecipação a uma
solução econômica e de longo prazo, onde os membros da equipe treinados se tornarão um
recurso interno permanente de Big Data que pode ser consultado a qualquer momento e
também pode treinar membros da equipe júnior para aumentar ainda mais o conjunto de
habilidades internas de Big Data.

Tendo recebido o treinamento de Big Data, os membros da equipe treinados enfatizam a


necessidade de um vocabulário comum de termos para que toda a equipe esteja na mesma
página ao falar sobre Big Data. Uma abordagem baseada em exemplos é adotada. Ao
discutir conjuntos de dados, alguns dos conjuntos de dados relacionados apontados pelos
membros da equipe incluem reivindicações, apólices, cotações, dados de perfil do cliente e
dados do censo. Apesar deOs conceitos de análise de dados e análise de dados são
rapidamente compreendidos, alguns dos membros da equipe que não têm muita exposição
de negócios têm dificuldade para entender o BI e o estabelecimento de KPIs
apropriados. Um dos membros treinados da equipe de TI explica o BI usando como
exemplo o processo de geração de relatórios mensais para avaliar o desempenho do mês
anterior. Esse processo envolve a importação de dados de sistemas operacionais para o
EDW e a geração de KPIs, como apólices vendidas e reclamações enviadas, processadas,
aceitas e rejeitadas, que são exibidas em diferentes painéis e scorecards.

Em termos de análise, a ETI utiliza análises descritivas e de diagnóstico. A análise


descritiva inclui consultar o sistema de administração de apólices para determinar o
número de apólices vendidas a cada dia, consultar o sistema de gerenciamento de sinistros
para descobrir quantos sinistros são enviados diariamente e consultar o sistema de
cobrança para descobrir quantos clientes estão atrasados em seus pagamentos de
prêmios. A análise de diagnóstico é realizada como parte de várias atividades de BI, como
realizar consultas para responder a perguntas como por que a meta de vendas do mês
passado não foi atingida. Isso inclui a execução de operações de detalhamento para
detalhar as vendas por tipo e local, para que seja possível determinar quais locais tiveram
desempenho inferior para tipos específicos de apólices.

A ETI atualmente não utiliza análises preditivas nem prescritivas. No entanto, a adoção de
Big Data permitirá realizar esses tipos de análise, pois agora pode fazer uso de dados não
estruturados, que quando combinados com dados estruturados fornecem um rico recurso
de suporte a esses tipos de análise. A ETI decidiu implementar esses dois tipos de análise de
maneira gradual, primeiro implementando análises preditivas e, em seguida,
desenvolvendo lentamente seus recursos para implementar análises prescritivas.

Nesta fase, a ETI está planejando fazer uso de análise preditiva para apoiar o alcance de
seus objetivos. Por exemplo, a análise preditiva permitirá a detecção de reclamações
fraudulentas, prevendo qual reclamação é fraudulenta e, em caso de deserção do cliente,
prevendo quais clientes provavelmente desertarão. No futuro, por meio de análises
prescritivas, prevê-se que a ETI possa aprimorar ainda mais a realização de seus
objetivos. Por exemplo, a análise prescritiva pode prescrever o valor correto do prêmio
considerando todos os fatores de risco ou pode prescrever o melhor curso de ação a ser
tomado para mitigar sinistros diante de catástrofes, como inundações ou tempestades.

Identificando características de dados


Os membros da equipe de TI desejam avaliar diferentes conjuntos de dados gerados dentro
dos limites da ETI, bem como quaisquer outros dados gerados fora dos limites da ETI que
possam ser de interesse da empresa no contexto de volume, velocidade, variedade,
veracidade e características de valor. Os membros da equipe analisam cada característica e
discutem como diferentes conjuntos de dados manifestam essa característica.

Volume

A equipe observa que dentro da empresa, uma grande quantidade de dados transacionais é
gerada como resultado do processamento de reclamações, venda de novas apólices e
alterações nas apólices existentes. No entanto, uma rápida discussão revela que grandes
volumes de dados não estruturados, tanto dentro como fora da empresa, podem ser úteis
para atingir os objetivos da ETI. Esses dados incluem registros de saúde, documentos
enviados pelos clientes no momento de enviar uma solicitação de seguro, horários de
propriedades, dados de frota, dados de mídia social e dados meteorológicos.

Velocidade

Com relação ao influxo de dados, alguns dados são de baixa velocidade, como os dados de
envio de sinistros e os dados de novas apólices emitidas. No entanto, dados como logs do
servidor web e cotações de seguro são dados de alta velocidade. Olhando para fora da
empresa, os membros da equipe de TI antecipam que os dados de mídia social e os dados
climáticos podem chegar em um ritmo acelerado. Além disso, prevê-se que, para
gerenciamento de catástrofes e detecção de sinistros fraudulentos, os dados precisem ser
processados de forma razoavelmente rápida para minimizar as perdas.

Variedade

Na busca de seus objetivos, a ETI deverá incorporar uma série de conjuntos de dados que
incluem registros de saúde, dados de apólices, dados de sinistros, dados de cotações, dados
de mídia social, notas de agentes de call center, notas de reguladores de sinistros,
fotografias de incidentes, boletins meteorológicos, censos dados, logs do servidor web e e-
mails.

Veracidade

Uma amostra de dados retirados dos sistemas operacionais e do EDW mostra sinais de alta
veracidade. A equipe de TI atribui isso à validação de dados realizada em váriosestágios,
incluindo validação no momento da entrada de dados, validação em vários pontos quando
um aplicativo está processando dados, como validação de entrada em nível de função e
validação realizada pelo banco de dados quando os dados são persistidos. Olhando para
fora dos limites da ETI, um estudo de algumas amostras retiradas dos dados de mídia social
e dados meteorológicos demonstra um declínio ainda maior na veracidade, indicando que
esses dados exigirão um nível maior de validação e limpeza de dados para torná-los dados
de alta veracidade.
Valor

No que diz respeito à característica de valor, todos os membros da equipe de TI concordam


que precisam extrair o máximo valor dos conjuntos de dados disponíveis, garantindo que
os conjuntos de dados sejam armazenados em sua forma original e que sejam submetidos
ao tipo certo de análise.

Identificando tipos de dados

Os membros da equipe de TI passam por um exercício de categorização dos vários


conjuntos de dados que foram identificados até agora e apresentam a seguinte lista:

• Dados estruturados: dados de apólices, dados de sinistros, dados de perfil de clientes e


dados de cotações.

• Dados não estruturados: dados de mídia social, documentos de solicitação de seguro, notas
do agente de call center, notas do avaliador de sinistros e fotografias de incidentes.

• Dados semiestruturados: registros de saúde, dados de perfil de clientes, boletins


meteorológicos, dados censitários, logs de servidores web e e-mails.

Os metadados são um conceito novo para o grupo, pois os procedimentos atuais de


gerenciamento de dados da ETI não criam nem anexam metadados. Além disso, as práticas
atuais de processamento de dados não levam em consideração metadados, mesmo que
estejam presentes. Uma das razões apontadas pela equipe de TI é que, atualmente, quase
todos os dados armazenados e processados são de natureza estruturada e originados
dentro da empresa. Assim, as origens e as características dos dados são implicitamente
conhecidas. Após alguma consideração, os membros da equipe percebem que, para os
dados estruturados, o dicionário de dados e a existência do último registro de data e hora
atualizado e das últimas colunas de ID de usuário atualizadas nas diferentes tabelas do
banco de dados relacional podem ser usados como uma forma de metadados.

Você também pode gostar