Você está na página 1de 1

IBM Developer

Artigo

Introdução à Classificação e à Arquitetura


de Big Data
Como classificar o Big Data em categorias

Salvar Curtir

Por: Divakar Mysore, Shrikant Khupat, Shweta Jain


Publicado 25/04/2014

Visão geral
Há muitas maneiras de armazenar, adquirir, processar e analisar big data. Cada fonte de big data tem
características diferentes, incluindo frequência, volume, velocidade, tipo e veracidade dos dados. Quando big
data são processados e armazenados, outras dimensões vêm à tona, como governança, segurança e
políticas. Escolher uma arquitetura e construir uma solução apropriada de big data é um desafio, pois é
preciso considerar muitos fatores.

Esta série “Arquitetura e padrões de big data” apresenta uma abordagem estruturada, com base em padrões,
para simplificar a definição de uma arquitetura geral de big data. Como é importante avaliar se um cenário de
negócios é um problema de big data, nós incluímos ponteiros para ajudar a determinar quais problemas de
negócios são bons candidatos para soluções de big data.

De classificação de big data à escolha de


uma solução de big data
Se você já investigou soluções de big data, sabe que não é uma tarefa simples. Esta série mostra como
encontrar uma solução de big data adequada para suas necessidades.

Nós começamos examinando os tipos de dados que o termo “big data” descreve. Para simplificar a
complexidade dos tipos de big data, nós classificamos essa categoria de acordo com vários parâmetros e
fornecemos uma arquitetura lógica para as camadas e os componentes de alto nível envolvidos em qualquer
solução de big data. Em seguida, propomos uma estrutura para classificar problemas de negócios de big data
definindo padrões de classificação atômicos e compostos. Esses padrões ajudam a determinar o padrão de
solução apropriado para aplicação. Incluímos exemplos de problemas de negócios de vários segmentos de
mercado. Por fim, para cada componente e padrão, nós apresentamos os produtos que oferecem a função
relevante.

A Parte 1 explica como classificar big data. Os demais artigos desta série tratam dos seguintes tópicos:

Definindo uma arquitetura lógica das camadas e dos componentes de uma solução de big data
Entendendo padrões atômicos de soluções de big data
Entendendo padrões compostos (ou mistos) para usar em soluções de big data
Escolhendo um padrão para uma solução de big data
Determinando a viabilidade de um problema de negócios para uma solução de big data
Selecionando os produtos certos para implementar uma solução de big data

Classificando problemas de negócios de


acordo com o tipo de big data
É possível categorizar problemas de negócios em tipos de problemas de big data. Mais adiante, usaremos
esse tipo para determinar o padrão apropriado de classificação (atômico ou composto) e a solução de big
data apropriada. Mas o primeiro passo é mapear o problema de negócios para o tipo de big data. A tabela a
seguir contém problemas comuns de negócios e atribui um tipo de big data a cada um.

Problemas de negócios de big data por tipo


Problemas de Tipo de Descrição
negócios big data

Serviços públicos: Dados Concessionárias de serviços públicos implementaram medidores inteligentes para
Prever o consumo gerados medir o consumo de água, gás e eletricidade a intervalos regulares de uma hora ou
de energia por menos. Esses medidores inteligentes geram enormes volumes de dados de
máquina intervalo que precisam ser analisados. As concessionárias também operam
sistemas grandes, caros e complicados para gerar energia. Cada rede contém
sensores sofisticados que monitoram voltagem, corrente, frequência e outras
características operacionais importantes. Para ter eficiência operacional, a
empresa precisa monitorar os dados entregues pelo sensor. Uma solução de big
data pode analisar dados de geração de energia (fornecimento) e de consumo de
energia (demanda) usando medidores inteligentes.

Telecomunicações: Dados da Operadores de telecomunicações precisam criar modelos detalhados de perda de


Analítica de perda web e clientes que incluam dados de mídias sociais e de transação, como CDRs, para
de clientes sociais estar à frente da concorrência. O valor dos modelos de perda de clientes depende
Dados de da qualidade dos atributos (dados principais do cliente, como data de nascimento,
transação sexo, local e renda) e do comportamento social dos clientes. Provedores de
telecomunicações que implementam uma estratégia de analítica preditiva podem
gerenciar e prever a perda analisando os padrões de chamada dos assinantes.

Marketing: Análise Dados da Departamentos de marketing usam feeds do Twitter para realizar análise de
de sentimento web e sentimento e determinar o que os usuários estão falando sobre a empresa e seus
sociais produtos ou serviços, especialmente após o lançamento de um novo produto ou
release. O sentimento do cliente deve ser integrado aos dados de perfil do cliente
para derivar resultados significativos. O feedback do cliente pode variar de acordo
com seus aspectos demográficos.

Atendimento ao Gerado Departamentos de TI estão usando soluções de big data para analisar logs de
cliente: por aplicativo e obter insight que possa melhorar o desempenho do sistema. Arquivos
Monitoramento de humanos de log de diferentes fornecedores de aplicativos estão em formatos diferentes e
chamada precisam ser padronizados para uso pelos departamentos de TI.

Varejo: Sistema de Dados da Varejistas podem usar tecnologia de reconhecimento facial combinada a uma foto
mensagens web e da mídia social para fazer ofertas personalizadas a clientes com base no
personalizado com sociais comportamento de compra e na localização. Esse recurso pode ter um impacto
base em Biométrica tremendo nos programas de fidelização dos varejistas, mas há sérias
reconhecimento considerações sobre a privacidade. Os varejistas precisariam ser transparentes
facial e mídia com relação à privacidade para implementar esses aplicativos.
social

Varejo e Dados Varejistas podem atingir seu público-alvo com promoções específicas e cupons
marketing: Dados gerados com base em dados de localização. As soluções são geralmente projetadas para
de dispositivos por detectar a localização de um usuário ao entrar em uma loja ou através de um GPS.
móveis e máquina Dados de localização combinados a dados de preferência do cliente obtidos em
direcionamento Dados de redes sociais permitem que os varejistas direcionem campanhas de marketing
com base em transação online e nas lojas com base no histórico de compras. As notificações são entregues
localização por meio de aplicativos remotos, SMS e email.

FSS, assistência Dados A capacidade de gerenciamento de fraudes prevê a probabilidade de fraude em


médica: Detecção gerados uma dada transação ou conta do cliente. Soluções analisam transações em tempo
de fraude por real e geram recomendações para ação imediata, o que é essencial para impedir
máquina fraudes de terceiros, fraudes pela própria pessoa e mau uso deliberado de
Dados de privilégios de conta. As soluções são projetadas geralmente para detectar e evitar
transação diversos tipos de fraude e risco em vários segmentos de mercado, incluindo:
Gerados Fraude em cartões de crédito e débito Fraude em contas de depósito Fraude
por técnica Dívida em aberto Fraude em assistência médica Fraude em Medicaid e
humano Medicare Fraude em seguro de propriedade e de vida Fraude em seguro-
desemprego Fraude em seguros Fraude em telecomunicações

Quando problemas de big data são categorizados por tipo, é mais fácil ver as características de cada tipo de
dados. Essas características ajudam a entender como os dados são obtidos, como são processados para o
formato apropriado e com que frequência novos dados estão disponíveis. Dados de diferentes fontes
possuem características diferentes; por exemplo, dados de mídia social podem ter vídeos, imagens e texto
não estruturado, como postagens de blog, entrando continuamente.

Nós avaliamos dados de acordo com essas características comuns, das quais tratamos na seção a seguir:

O formato do conteúdo
O tipo de dados (dados de transação, históricos e principais, por exemplo)
A frequência de disponibilização dos dados
A intenção: como é preciso formatar os dados (consulta ad hoc nos dados, por exemplo)
Se o processamento deve ocorrer em tempo real, quase em tempo real ou em modo de lote.

Usando os tipos de big data para


classificar suas características
É útil examinar as características de big data seguindo certas linhas — por exemplo, como os dados são
coletados, analisados e processados. Após a classificação dos dados, é possível associá-los com o padrão
apropriado de big data:

Tipo de análise — Se os dados são analisados em tempo real ou agrupados para análise posterior. Pense
bastante antes de escolher o tipo de análise, pois isso afeta várias outras decisões sobre produtos,
ferramentas, hardware, fontes de dados e a frequência estimada dos dados. Para alguns casos de uso é
necessária uma mistura dos dois tipos:

detecção de fraude; a análise deve ser feita em tempo real ou quase.


Análise de tendência para decisões estratégicas de negócios; análise pode ser feita em modo de lote.

Metodologia de processamento — O tipo de técnica a ser aplicada para processar dados (por exemplo,
preditiva, analítica, consulta ad hoc e relatórios). As necessidades de negócios determinam a metodologia
de processamento apropriada. É possível usar uma combinação de técnicas. A escolha de metodologia de
processamento ajuda a identificar as ferramentas e técnicas apropriadas para uso na solução de big data.
Frequência e tamanho dos dados — O volume estimado de dados e a frequência com que chegam. Saber a
frequência e o tamanho ajuda a determinar o mecanismo de armazenamento, formato de armazenamento
e as ferramentas necessárias de pré-processamento. Frequência e tamanho de dados dependem das
fontes:

Sob demanda, como dados de mídia social


Feed contínuo, em tempo real (dados de clima ou transacionais)
Série temporal (dados com base em tempo)

Tipo de dados — Tipo dos dados a serem processados — transacionais, históricos, principais e outros.
Saber o tipo de dados ajuda a segregar os dados no armazenamento.
Formato de conteúdo — Formato dos dados recebidos — estruturados (RDMBS, por exemplo), não
estruturados (áudio, vídeo e imagens, por exemplo) ou semiestruturados. O formato determina como os
dados recebidos precisam ser processados e é essencial para escolher ferramentas e técnicas e definir
uma solução de uma perspectiva de negócios.
Fonte de dados — Fontes de dados (onde os dados são gerados) — web e mídia social, gerados por
máquina, gerados por humanos, etc. Identificar todas as fontes de dados ajuda a determinar o escopo de
uma perspectiva de negócios. A figura mostra as fontes de dados mais usadas.
Consumidores de dados — Uma lista de todos os possíveis consumidores dos dados processados:

Processos de negócios
Usuários corporativos
Aplicativos corporativos
Pessoas individuais em várias funções de negócios
Parte dos fluxos do processo
Outros repositórios de dados ou aplicativos corporativos

Hardware — O tipo de hardware no qual a solução de big data será implementada — hardware barato ou de
ponta. Entender as limitações do hardware ajuda na escolha da solução big data.

Classificação de big data mostra as várias categorias para classificar big data. As principais categorias para
definir padrões de dados de big data foram identificadas e destacadas em azul listrado. Padrões de big data,
definidos no próximo artigo, derivam de uma combinação dessas categorias.

Classificação de big data

Tabela de classificação de big data

Conclusão e agradecimentos
No restante desta série, descreveremos a arquitetura lógica e as camadas de uma solução de big data, do
acesso ao consumo de big data. Incluiremos uma lista abrangente de fontes de dados e apresentaremos
padrões atômicos com foco em cada um dos aspectos importantes de uma solução de big data. Trataremos
de padrões compostos e explicaremos como padrões atômicos podem ser combinados para solucionar casos
particulares de uso de big data. Concluiremos a série com alguns padrões de solução que associam casos de
uso muito usados a produtos.

Os autores gostariam de agradecer Rakesh R. Shinde por sua orientação em definir a estrutura geral da série
e por ler e fazer comentários valiosos.

Aviso
O conteúdo aqui presente foi traduzido da página IBM Developer US. Caso haja qualquer divergência de texto
e/ou versões, consulte o conteúdo original.

Legend

Categories

Analytics Ciência de dados

Gerenciamento de dados

Índice

IBM Developer Siga-nos


Sobre Twitter
Comentários e FAQ Facebook

Build
Reportar abuso YouTube
Aviso de terceiros

Smart
Explorar Selecione o idioma
Build Newsletters English

Secure Code patterns 中文


Artigos 日本語
Tutoriais Português
Eventos Español
한글

Comunidades Privacidade Termos de uso Acessibilidade Preferências de cookies

Você também pode gostar