Você está na página 1de 13

29/09/2020

ANÁLISE DISCRIMINANTE

Sumário
Análise discriminante
• O problema
• Conceito da técnica
• Objetivos da técnica
• Discriminação em duas populações
• Função discriminante linear de Fisher
• Probabilidade de classificação incorreta
• Métodos de Validação

Regressão Logística
• Conceito da técnica
• Objetivos da técnica
• O modelo logístico
• Significância dos coeficientes 2
29/09/2020

O problema

Considere as seguintes situações:

Para a concessão de crédito, um gerente de um banco coleta dados


cadastrais dos solicitantes:
■ Os dados coletados são úteis para diferenciar um mau pagador de um
bom pagador? Quão úteis?
■ Com base nos dados de um solicitante, é possível prever se ele será um
bom ou mau pagador?

O problema

Uma geotécnico coleta um expressivo banco de dados com características


de taludes rochosos, composto por taludes estáveis e instáveis.
■ É possível definir quais são as variáveis mais importantes na definição de
estabilidade de um talude?
■ É possível estimar a condição de estabilidade de um novo talude que não
compõe o banco de dados?
■ É possível prever a taxa de sucesso dessa estimativa?

4
29/09/2020

Conceito da técnica

É uma técnica de análise multivariada que se emprega para descobrir


as características que distinguem os membros de um grupo dos de
outro, de modo que, conhecidas as características de um novo
indivíduo, se possa prever a que grupo ele pertence.

Para aplicação da técnica é necessário que as variáveis independentes


sejam métricas e a variável dependente seja não métrica (categórica).

Objetivos da técnica

■ Construir uma regra de discriminação dos grupos

■ As variáveis observadas realmente são capazes de diferenciar as


populações?

■ Construir uma regra para classificar novas observações em uma das


população.

6
29/09/2020

Discriminação entre duas populações

Discriminação entre duas populações

8
29/09/2020

Função discriminante linear de Fisher

Função discriminante linear de Fisher

10
29/09/2020

Discriminação entre duas populações

11

Probabilidade de classificação incorreta

Quanto menor forem essas probabilidades, maior é a capacidade


discriminatória da função discriminante!
12
29/09/2020

Probabilidade de classificação incorreta

Estimação das probabilidades de classificação incorreta

13

Probabilidade de classificação incorreta

Estimação das probabilidades de classificação incorreta

14
29/09/2020

Probabilidade de classificação incorreta

Estimação da probabilidade global de acerto

Estimação da taxa de erro aparente

15

Validação da regra discriminante

■ Método da ressubstitução

■ Método da ressubstituição com divisão amostral

■ Método da validação cruzada (jackknife)

16
29/09/2020

Discriminação em g populações

■ Generalização do caso de discriminação em 2 populações

■ Funções canônicas de Fisher

17

Exemplo
Banco de dados dos taludes: 88 taludes de mina ao redor do mundo

UCS
Variáveis: Espaçamento médio
Persistência descont. Principal
Abertura
Rugosidade descont. principal
Preenchimento descont. Principal Variáveis
Alteração independentes
Água subterrânea
Orientação descont. Principal
Desmonte
Altura do talude
Orientação do talude
Variável categórica
Condição de estabilidade do talude: estável (0) ou
dependente
instável (1)

18
29/09/2020

REGRESSÃO LOGÍSTICA

Conceito da técnica

É uma técnica de análise multivariada que se emprega para descobrir as


características que distinguem os membros de um grupo dos de outro, de
modo que, conhecidas as características de um novo indivíduo, se possa
prever a que grupo ele pertence.

Para aplicação da técnica as variáveis independentes podem ser métricas ou


não métricas e a variável dependente seja não métrica (categórica).

20
29/09/2020

Objetivos da técnica

■ Construir uma regra de discriminação dos grupos

■ As variáveis observadas realmente são capazes de diferenciar as


populações?

■ Construir uma regra para classificar novas observações em uma das


população.

21

O modelo

Considere p variáveis independentes denotadas pelo vetor 𝑋 = (𝑥 , 𝑥 , … , 𝑥 ).


O modelo da regressão logística é dado pela equação abaixo.


𝑒 ( )
𝑒
𝜋 1 = ( )
= ⋯
1+𝑒 1+𝑒

𝜋 0 = 1 − 𝜋(1)

22
29/09/2020

O modelo

Estimativa dos coeficientes da regressão logística

log𝐿(𝛽 ) = 𝑦 𝛽 +𝛽 𝑋 − log 1+𝑒

Em que:
𝛽 é o termo independente;
𝛽 = (𝛽 , 𝛽 , … , 𝛽 ) é o vetor dos coeficientes das variáveis independentes (parâmetros do modelo);
𝑦 é a probabilidade a priori de que o evento ocorra considerando a amostra total.
23

O modelo

Graficamente

24
29/09/2020

Significância dos coeficientes da


Regressão Logística
■ Teste de Wald

H0: 𝛽𝑖 = 0;
Ha: 𝛽𝑖 ≠ 0 𝛽
𝑊=
𝑠(𝛽 )

A estatística do teste apresenta distribuição normal. Para que para que a hipótese seja
rejeitada, com 95% de confiança, o p-valor deve ser inferior a 0,05.

25

Exemplo
Banco de dados com os passageiros que estava a bordo do Titanic
Variáveis:
■ Variáveis independentes:
• Id
• Classe: 1, 2 e 3
• Sexo: masculino e feminino
• Idade
• Taxa de passagem
■ Variável categórica: Sobreviveu (1), Não Sobreviveu (0)
Qual é a probabilidade de você sobreviver caso estivesse a bordo do
Titanic?
26

Você também pode gostar