Escolar Documentos
Profissional Documentos
Cultura Documentos
Otair Pelisson
Histórico
Desde a década de 90 do século passado, passamos por uma verdadeira revolução em relação
à capacidade de criação e armazenamento de dados. Em poucos anos, passamos de um
disquete, com capacidade para 1,4 megabytes de informação, para sistemas na nuvem com
capacidade de 4500 terabytes (3,6 e+10 megabytes ).
Machine learning, ou aprendizado de máquina, é uma das técnicas usadas em data science. Ele
permite que computadores usem dados e algoritmos para tomarem decisões. Isso acontece
porque os algoritmos reconhecem padrões e se valem disso para prever o que pode acontecer
em seguida.
Big data “Essencialmente, o termo big data significa conjuntos de dados que são grandes demais
para os sistemas tradicionais de processamento. Portanto, exigem novas tecnologias para
processá-los”. Essa é uma das definições mais aceitas sobre esse termo que já se popularizou
muito
Business Intelligence: Outro assunto muito comentado quando se fala sobre data science é o
business intelligence (BI). Apesar de trabalharem para um mesmo objetivo – gerar insights de
negócios – os dois se diferem pelas abordagens, metodologias e tecnologias utilizadas para
chegar nesse objetivo.
Prof. Otair Pelisson
Pensamento Analítico:
Desenvolva processos.
Quando estamos desenvolvendo uma nova habilidade, alguns passos que parecem automáticos
devem ser esquematizados. Assim você sabe o que fazer em seguida e vai treinando. Até que se
torne natural.
É como aprender uma coreografia ou resolver um problema matemático
Exercite a curiosidade.
Preste atenção no que acontece ao seu redor e busque entender como foi o processo de tomada
de decisão dos outros. Mas não fique apenas observando. Faça perguntas e busque entender
como as coisas funcionam.
Quando alguém trouxer conclusões, pergunte como a pessoa chegou àquele resultado.
Exemplos
O Furacão Francês:
O furacão Francês estava a caminho , avançando pelo Caribe, ameaçando atingir a costa
atlântica da Flórida. Os residentes se mudaram para terrenos mais elevados, porém distantes,
em Bentonville, Arkansas;
Executivos das lojas Walmart decidiram que a situação oferecia uma grande oportunidade para
uma de suas mais recentes armas orientada em dados: a tecnologia preditiva.
Uma semana antes de a tempestade atingir a costa, Linda M. Dillman, diretora executiva de
informações, pressionou sua equipe para trabalhar em previsões baseadas no que havia
acontecido quando o furacão Charley apareceu, várias semanas antes.
Tarefa.
Sua tarefa é elaborar um plano preciso, passo a passo para saber como a equipe de data science
deve usar os vastos recursos de dados da Mega TelCo para decidir quais clientes devem receber
uma oferta especial de retenção antes do término de seus contrato.
Prof. Otair Pelisson
Compreensão do Negócio.
Inicialmente, é vital compreender o problema a ser resolvido, isso pode parecer óbvio,
mas projetos de negociação raramente vêm pré-molados como problemas claros e
inequívocos de mineração de dados. Muitas vezes, reformular o problema e projetar
uma solução é um processo repetitivo de descoberta.
Compreensão de Dados.
Se a solução do problema de negócios é o objetivo, os dados compreendem a matéria-
prima disponível a partir da qual a solução será construída. É importante entender os
pontos fortes e as limitações dos dados porque raramente há uma correspondência
exata com o problema.
Avaliação.
Avaliar os resultados de mineração de dados inclui avaliação quantitativas e qualitativas,
vários investidores se preocupam com o processo de tomada de decisão nos negócios
que será realizada ou apoiada pelos modelos resultantes
Prof. Otair Pelisson
Implantação;
Na implantação, os resultados da mineração de dados, e cada vez mais nas próprias
técnicas de mineração de dados, são colocados em uso real, a fim de constatar algum
retorno sobre o investimento. O casos mais claros de implantação envolvem a
implementação de um modelo preditivo em alguns sistema de informação ou processo
de negócios.
Modelagem Preditiva
O que é modelagem preditiva
A modelagem preditiva é um método baseado em modelos matemáticos aplicados que
sinalizam o custo previsto para um período ou a probabilidade de um evento ou
resultado ocorrer no futuro. Para chegar a essa conclusão no que se refere a uma
população específica, são usados dados passados e características comuns.
A análise é baseada em uma pergunta que se pretende responder. Mas é importante
fazer apenas um questionamento de cada vez, a fim de ter uma avaliação mais precisa.
Por exemplo, você pode descobrir qual grupo populacional tem mais condições de ter
diabetes ou qualquer outra doença crônica e, inclusive, prever a possibilidade de realizar
uma cirurgia de coluna, que tem alto valor de sinistro.
Redução de custos
O resultado é uma redução dos custos com essa taxa. Isso porque um dos fatores de
avaliação são os dados baseados em sinistros, que são aliados aos demográficos e aos
indicadores de doenças.
1 - Probabilidade:
Exemplo.
Prof. Otair Pelisson
Resolução:
Evento a) número 2 só existe um número 2 nos dados portanto
1
P(a) = = 0,166 ≅ 16,7%
6
Resolução
a)identificação do experimento aleatório : sorteio de uma carta em um baralho de 52;
b) identificação do evento a ser estudado (A: a carta é um ás de espada; B a carta é uma rainha
de ouros; C a carta é um rei de copas)
Assim
1 1 1 3
𝑃 (𝐴 ∪ 𝐵 ∪ 𝐶) = + + = = 0,06
52 52 52 52
Para explicar a correlação linear entre duas variáveis, é comum identificar, por meio de um
gráfico chamado Diagrama de dispersão, indícios de que a relação existe e se é conveniente
prosseguir.
A nuvem de pontos pode tomar diferentes formas, se desejarmos saber o grau de correlação
entres as variáveis (pontos) estudados, pode-se utilizar o coeficiente de correlação de
Pearson, dada pela expressão:
𝑛 ∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑟=
√𝑛 ∑ 𝑥𝑖 − ∑(𝑥𝑖 )2 ∙ 𝑛 ∑ 𝑦𝑖 − ∑(𝑦𝑖 )2
2
Onde :
X é a variável independente
Y é a variável dependente
N é o número de observações
R é o coeficiente de correlação linear que pertence ao intervalo [-1 ; + 1]
Se r = + 1 => a correlação entre as duas variáveis é forte e positiva
Se r = - 1 => a correlação entre as varáveis é forte e negativa
Se r = 0 => não há correlação entre as varáveis ou a existência não é linear.
Para ajustar o coeficiente de correlação teremos que encontrar a equação da reta y = a +bx
Onde B= coeficiente angular, A = interceptor
𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∙∑ 𝑦𝑖
𝐵=
𝑛 ∑ 𝑥𝑖 2 −(∑ 𝑥𝑖 )2
Exemplo 1: Para ilustrar vamos atribuir valores de coordenadas e colocar em uma tabela para
mostrar a aplicação de fórmula.
X Y X 2 Y2 xy
Prof. Otair Pelisson
Encontrando A
∑ 𝑦 −𝐵 ∑ 𝑥 20 − 2 . 8 20 −16
𝐴= => 𝐴 = => 𝐴 = => 𝐴 = 1
𝑛 4 4
2.2 – Regressão linear é usada quando queremos retornar aos pontos de origem para achar os
valores; Resumidamente quando observamos os pontos dispersos em uma tabela usamos a
equação da reta para fazer ajustes de valores a fim de minimizar erros.
Exemplo 2 Previsão de demanda com regressão linear
Ao observar os pontos percebemos que não formam uma reta linear, sendo assim os valores
(pontos) que estiverem fora de reta, acima ou abaixo são considerados erros.
Para minimizar os erros fazermos soma de todos os erros pela formula.
𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑟=
√𝑛 ∑ 𝑥𝑖 −(∑ 𝑥1 )2 .√𝑛 ∑ 𝑦𝑖 2 −(∑ 𝑦1 )2
2
4∙1560,8−855∙8,2
𝑟=
√4∙164.179−731.025∙√4∙14,91−67,24
𝑟 = −0,0001 ; portanto podemos concluir que não existe um correlação entre os valores na
tabela pois com tendência a zero.
Segmentação supervisionada.
Lembrando que um modelo preditivo se concentra na estimativa do valor de uma variável alvo
interesse. Uma forma intuitiva de pensar sobre a extração de padrões de dados de forma
supervisionada é tentar
Segmentar a população em subgrupos que possuem diferentes valores para a variável alvo (e
dentro subgrupo os exemplos possuem valores semelhantes para a variável alvo).
Se a segmentação é feita usando valores das variáveis que serão conhecidas quando o alvo
não for , então, esses segmentos podem ser utilizados para prever o valor da variável alvo.
Muitas vezes, estamos interessados em aplicar a mineração de dados quando temos muitos
atributos e não emos certeza do que os segmentos devem ser.
Em nosso problemas de previsão de rotatividade, quem é capaz de dizer quais são os melhores
segmentos para se prever a propensão à rotatividade ?
Se existe segmentos de dados com valores (médios) significativamente diferentes para a variável
alvo, gostaríamos ter certeza de extraí-los automaticamente.
Considere apenas a seleção do único atributo mais informativo. A resolução deste problema
introduzirá nossa primeira técnica concreta de mineração de dados - simples, porém muito útil.
Prof. Otair Pelisson
No nosso exemplo, que variável nos dá mais informações sobre a futura taxa de rotatividade da
população ? Ser um profissional ? Idade ? Local de residência ? Renda? Quantidade de
reclamações no atendimento ao cliente? Quantidade de cobranças adicionais?
Sim não sim sim sim não sim não não sim não sim
Dado um grande conjunto de exemplos, como selecionamos uma atributo para dividi-los de
maneira informativa? Vamos considerar um problemas de classificação binário (duas classes),
e pensar sobre o que gostaríamos de obter dele. Na figura acima um simples problema de
segmentação: doze pessoas representadas como figuras de palito. Existem dois tipos de
cabeça: quadrada e circular; e dois tipos de corpos: retangular e oval e duas das pessoas tem
corpos cinzas, enquanto o resto são brancos.
Esses são atributos que usaremos para descrever as pessoas. Acima de cada pessoa esta um
rótulo de alvo binário, sim ou não, indicando (por exemplo) se a pessoa cancela
empréstimos.
Poderíamos descrever sobre essas pessoas como:
• Atributos:
- formato de cabeça: quadrada ou circular
- formato do corpo: retangular , oval
- cor do corpo: cinza ou branco
Então, vamos nos perguntar: qual dos atributos seria melhor para segmentar essas pessoas
em grupos, de forma a diferenciar quais serão cancelamentos de créditos e quais não?
Tecnicamente falando, gostaríamos que os grupos resultantes fossem os mais puros possíveis.
Por puro queremos dizer homogêneo em relação à variável alvo.
Se cada membro de um grupo tem o mesmo valor para o alvo, então o grupo é puro. Se
houver pelo menos um membro do grupo com um valor diferente para a variável alvo, em
relação ao restante de grupo, então o grupo é impuro.
3 – Nem todos atributos são binários; muitos tem três ou mais valores distintos. Devemos
levar em conta que um atributo pode ser dividir em dois grupos, enquanto outro pode se
dividir em três ou sete.
4 – Alguns atributos assumem valores numéricos (contínuos ou inteiros). Faz sentido fazer um
segmento para cada valor numérico?
Felizmente, para problemas de classificação , podemos abordar todas as questões por meio da
criação de uma fórmula de avaliação quão bem cada atributo divide um conjunto de
exemplos em segmentos, com relação a uma variável alvo escolhida. Tal formula é baseada em
uma medida de pureza.
O critério de divisão mais comum é chamando de ganho de informação, e se baseia em ma
medida de pureza chamada entropia.
A entropia é uma medida de descordem que pode ser aplicada a um conjunto, como um dos
nossos segmentos individuais. Considere que temos um conjunto de propriedades de
membros de conjunto, e cada membro tem uma e apenas uma das propriedades. Na
segmentação supervisionada, as propriedades dos membros corresponderão aos valores da
variável alvo.
Desordem corresponde a quão misto (impuro) o segmento é com relação a essas
propriedades de interesse.
Equação da entropia
Exemplo:
1) Supondo um conjunto (S) de 10 pessoas, sendo que sete pertence a classe de pessoas
que não fazem cancelamento de crédito , e três da classe com cancelamento de crédito
7
𝑝 (𝑠𝑒𝑚 𝑐𝑎𝑛𝑐𝑒𝑙𝑎𝑚𝑒𝑛𝑡𝑜 ) = = 0,7
10
3
𝑝 (𝑐𝑜𝑚 𝑐𝑎𝑛𝑐𝑒𝑙𝑎𝑚𝑒𝑛𝑡𝑜 ) = = 0,3
10
A entropia é apenas parte da história, para medir quão informativo é um atributo cm relação
ao nosso alvo : quanto ganho de informação isso nos dá sobre o valor da variável alvo. Um
atributo segmenta um conjunto de exemplos em vários subconjuntos. A entropia apenas nos
diz o quanto um subconjunto individual e impuro.
Como a entropia é usada pera medir a desordem conjunto e podemos definir o ganho de
informação (GI) para medir quanto um atributo melhora (diminui) a entropia ao longo de
toda a segmentação que ele cria.
Prof. Otair Pelisson
Nó raiz
Empregado
Sim não
Classe:
Sem baixa Idade
de credito
<45 ≥ 45
Classe: Classe:
Sem baixa Baixa de
de credito credito
Na figura, a árvore está de cabeça para baixo com a raiz no topo: A árvore é composta de nós,
internos e terminais e ramos provenientes dos nós internos.
Cada nó interno na árvore de decisão contém um teste de atributo, com dada ramo um do nó
representado um valor diferente do atributo. Acompanhando os ramos do nós raiz para baixo (
no sentido das setas), cada caminho m consequentemente, termina em um nó terminal ou
folha. A árvore de decisão cria uma segmentação de dados: cada ponto de dados
corresponderá a um , e apenas um caminho na árvore e, por conseguinte, uma única folha.
Em outras palavras, cada folha corresponde a um segmento, e os atributos e valores ao logo
do caminho dão as características dele. Por isso, o caminho mais à direita na árvore de
decisão na figura corresponde ao segmento “pessoas mais velhas, desempregadas com saldo
elevados”.
A árvore é uma segmentação supervisionada, porque cada folha contém um valor para a
variável alvo, tal árvore é chamada de árvore de classificação ou, mais livremente, árvore de
decisão.