Você está na página 1de 4

De BIG DATA 2.0 para BIG DATA 1.

" O que posso fazer agora que não podia fazer antes? Ou fazer melhor do que antes? "

Caso AMAZON
Muito a frente da tendência atual, incorporou a voz dos consumidores desde o início.

HOW?

● Na classificação de produtos
● Avaliação de produtos
● E mais profundamente na classificação da avaliação do produto

Caso Banco Signet 1990 (Fairbanks e Morris)


Na época buscava fazer um modelo preditivo mais sofisticado porém não tinham dados
suficientes.

HOW PROCEED?

● obter dados necessários a um custo.

Cada vez mais os gestores precisam supervisionar equipes analíticas e processos de


análises.

● Comerciantes têm que organizar e compreeender campanhas orientadas a dados.


● Capitalistas de empreendimentos devem ser capazes de investir sabiamente em
empresas com ativos de dados substanciais
● Estrategistas de negócios devem ser capazes de elaborar planos que exploram
dados

CONCEITOS FUNDAMENTAIS

1. PPIC-ED: Processo padrão de indústria cruzada para mineração


de dados.
Tal pensamento estruturado também contrasta pontos
críticos onde a criatividade humana é necessária.
X
Pontos onde ferramentas analíticas
de alta potência podem ser executadas

2. A partir de uma grande massa de dados, é possível encontrar


atributos descritivos informativos de entidade de interesse.

Um cliente seria uma entidade de interesse e cada cliente pode ser descrito por um grande
número de atributos como o uso, histórico de serviço ao cliente.
! Esse processo é chamado de encontrar variáveis que se relacionam com a
ROTATIVIDADE.
Um analista de negócios pode ser capaz de criar algumas hipóteses e testá- las -> Furacão
Francês

○ Prevendo a rotatividade de cliente: A transferência de cliente de uma


empresa para outra.
○ Atrair novos clientes é muito mais caro do que manter os que já existem,
POR ISSO,

uma boa verba de Marketing é alocada para evitar a rotatividade.


A - O Marketing já projetou uma oferta especial de retenção
B - É preciso elaborar um plano para saber como a equipe de DS deve utilizar os dados
para decidir quais clientes devem receber uma oferta especial de retenção antes do término
dos seus contratos.
C - Atente sobre quais dados você pode usar e como serão usados.

3. Sobre-ajuste se ajusta muito bem ao conjunto de dados.

Já observado mas ineficaz para prever novos resultados.

○ A necessidade de detectar e evitar sobre-ajuste é um dos conceitos mais


importantes para se compreender quando se aplica mineração de dados para
problemas reais.
○ Um modelo pode usar algumas partes relevantes dos dados (sinais) e outras
irrelevantes (ruídos)
4. Formular soluções de mineração de dados e avaliar os
resultados envolve pensar cuidadosamente sobre o contexto
em que serão utilizadas.

Se o objetivo é a extração de conhecimento potencialmente útil , como podemos formular


o que é útil?
Isso define da aplicação em questão.
PROBLEMAS DE NEGÓCIOS: A TAREFA DE MINERAÇÃO DE DADOS
- Classificação e estimativa de probabilidade de classe
{ Um exemplo de pergunta seria:
"Entre todos os clientes da Megatelco,
quais são suscetíveis de responder a determinada oferta?" }

As duas classes poderiam ser chamadas 'vai responder' e 'não vai responder'

● O processo de mineração de dados produz um modelo que dado um novo indivíduo,


determina a que classe o individuo pertence.
● Uma tarefa intimamente relacionada é a pontuaçãoou estimativa de probabilidade de
classe.

Em cenário de resposta ao cliente, um modelo de pontuação seria capaz de avaliar cada


cliente e produzir uma pontuação da probabilidade de cada um à responder à oferta.

REGRESSÃO ('estimativa de valor') - tenta estimar ou prever para cada indivíduo, o valor
numérico de alguma variável.
A variável a ser prevista é USO DO SERVIÇO.

● Um modelo poderia ser gerado analisando outros indivíduos semelhantes na


população e seus históricos de uso.
● Um procedimento de regressão produz um modelo que dado um indivíduo calcula o
valor da variável especifica p aquele indivíduo.

A regressão está relacionada com a classificação porém as duas são diferentes.

○ classificação prevê se alguma coisa vai acontecer


○ regressão prevê quanto de alguma coisa vai acontecer

COMBINAÇÃO POR SIMILARIDADE tenta identificar indivíduos semelhantes com base


nos dados conhecidos sobre eles.
Por exemplo: A IBM está interessada em encontrar empresas semelhantes aos seus
melhores clientes comerciais a fim de concentrar sua força de venda nas melhores
oportunidades.
*COMBINAÇÃO { é a base de um dos métodos mais populares para se fazer
recomendações de produtos }
( encontrar pessoas semelhantes a você, em termos de produtos que tenham gostado ou
comprado )

○ eles usam a combinação por similaridade de acordo com a base de dados


'firmográficos' que descrevem as características das empresas.

AGRUPAMENTO tenta reunir indivíduos de uma população por meio de sua similaridade
mas não é motivado por nenhum propósito específico.
{ "Nossos clientes forma grupos naturais ou segmentos?" }

○ O agrupamento é útil na exploração preliminar de domínio para ver quais


grupos naturais existem, pois esses grupos podem sugerir outras tarefas ou
abordagens de mineração.
○ Utilizado também como porta de entrada para processos de tomada de
decisão com foco em:

{ "quais produtos devemos oferecer ou desenvolver?" }


{ "como nossas equipes de atendimento ao cliente (equipe de vendas) devem ser
estruturadas?" }

AGRUPAMENTO DE COOCORRÊNCIA (mineração de conjunto de items frequentes,


descoberta da regra de associação e análise de portfólios de ações)
{ "Quais itens são comumente comprados juntos?" }

!O agrupamento analisa as semelhanças entre os objetos com base em seus atributos,


considera a similaridade dos objetos com base em suas aparições conjuntas nas
transações.
Por exemplo:
Analisar os registros de compras de um supermercado pode revelar que carne moída é
comprada junto com molho de pimenta com muito mais frequência do que se pode esperar.
{ Decidir como agir de acordo pode exigir um pouco de criatividade mas pode sugerir uma
promo especial, a exibição do produto ou uma oferta combinada }
O resultado do agrupamento por coocorrência é uma descrição dos itens que ocorrem
juntos.
Essas descrições geralmente incluem estatísticas sobre a frequência de coocorrência.
PERFILAMENTO (descrição de comportamento) tenta caracterizar o comportamento típico
de um indivíduo, grupo ou população
{ "Qual é o uso típico de celular nesse segmento de cliente?" }

○ O comportamento pode não ter uma descrição simples;

Você também pode gostar