Você está na página 1de 18

Modelos de classificação – parte 1

Modelos de classificação
 Modelos de classificação buscam encontrar um modelo
matemático capaz de classificar objetos a partir de
informações dos seus atributos.
 Para que o modelo possa ser encontrado, faz-se necessária
uma amostra de dados em que os valores dos atributos e os
rótulos das classes sejam conhecidos. Esse fato torna os
modelos de classificação métodos supervisionados.
 Uma vez definido o modelo, a classe de qualquer objeto pode
ser definida substituindo-se o valor dos atributos do objeto no
modelo.
Modelos de classificação
Existem muitas técnicas dedicadas à construção de modelos de
classificação:
 vizinhos mais próximos;
 regressão logística;
 Naive Bayes;
 SVM e
 árvores de decisão (e as suas variantes).

As partes 1 e 2 deste módulo discutem o que diferencia cada um


dos métodos citados anteriormente, as suas vantagens e
desvantagens.
Vizinhos mais próximos
Sabemos que cada objeto de um conjunto de dados pode ser
representado como um ponto em um espaço cartesiano.

Objeto 2 pode ser representado


como um ponto em um espaço
de dimensão 5.

Conjunto de todos os objetos dá


origem a um conjunto de pontos
em um espaço de dimensão 5.
Vizinhos mais próximos
Suponha, por exemplo, objetos com dois atributos (pontos em
2D) distribuídos em duas classes:

classe 1 (azul)
Vizinhos mais próximos
Dado um novo ponto cuja Pode-se inferir a classe do novo
classe é desconhecida. ponto como a mesma da maioria
dos seus vizinhos mais próximos.

Esta é a ideia básica da técnica de


vizinhos mais próximos.
Vizinhos mais próximos
Vantagens: Desvantagens:
 metodologia bastante  encontrar um valor
simples; apropriado para o número de
 fácil interpretação e vizinhos a ser considerado
 não linearidade (o método é pode não ser tarefa simples;
mais flexível que um  usar outliers como dado de
classificador linear). treinamento tende a
atrapalhar a classificação e
 encontrar os vizinhos mais
próximos demanda um
razoável esforço
computacional.
Regressão logística
Função logística Regressão logística é um classificador binário
que indica a probabilidade de um dado objeto
1 pertencer à classe 0 ou à classe 1.
𝑦=
1 + 𝑒 −𝑥 A ideia é substituir a variável x da função
logística por uma equação linear da forma:
1
𝑦=
1 + 𝑒 −(𝑎1 𝑥1 +𝑎2 𝑥2 +⋯+𝑎𝑛𝑥𝑛+𝑏)

A equação linear define um plano (reta em 2D)


que divide o espaço dos objetos em duas partes.

Pontos acima do plano recebem um valor positivo


Associa um número entre 0 pela equação linear. Pontos sobre o plano, valores
e 1 a qualquer valor x. iguais a zero e pontos abaixo do plano recebem
valores negativos.
Regressão logística
1
Função logística 𝑦=
1 + 𝑒 −(𝑎1 𝑥1 +𝑎2 𝑥2 +⋯+𝑎𝑛𝑥𝑛+𝑏)
1
𝑦=
1 + 𝑒 −𝑥

Os coeficientes da equação linear


Associa um número entre 0 são calculados resolvendo-se um
e 1 a qualquer valor x. problema de otimização convexa.
Naive Bayes
A técnica Naive Bayes constrói um modelo de classificação a partir de duas
hipóteses:
1. a distribuição de probabilidade conjunta dos atributos e das classes é
conhecida e
2. os atributos são todos estatisticamente independentemente
distribuídos.

𝑝 𝑦 𝑥 ~𝑝(𝑦) ෑ 𝑝 𝑥𝑖 𝑦
probabilidade de o objeto com probabilidade de cada
atributos x pertencer à classe y probabilidade das classes atributo dadas as classes

Conhecidas a probabilidade de cada uma das classes e as probabilidades


condicionais de cada atributo dadas às classes, pode-se estimar a classe de
um dado objeto como aquela com maior probabilidade de ocorrência.
Naive Bayes
idade renda profissão gênero categoria Se o conjunto de treinamento
obj1 20-30 média gerente masculino ok for grande o suficiente,
obj2 40-50 alta médico feminino rico podem-se estimar todas as
obj3 20-30 média estudante feminino ok probabilidades envolvidas no
: : : : : : modelo matemático com
objn 60-70 baixa masculino pobre certa confiança.

Probabilidade dos atributos dadas as classes: Probabilidade das classes:


Naive Bayes
idade renda profissão gênero categoria
obj 20-30 média médico masculino ???

𝑝 𝑦 𝑥 ~𝑝(𝑦) ෑ 𝑝 𝑥𝑖 𝑦

A classe que resultar na maior probabilidade é atribuída ao objeto.


Naive Bayes
Vantagens: Desvantagens:
 metodologia simples  não considera a relação
(embora matematicamente entre os atributos, pois
robusta); assume que são
 fácil interpretação e independentes, e
 robusta a outliers e  torna-se mais complexa
atributos irrelevantes. quando os atributos são
contínuos.
Avaliando modelos de classificação
A matriz de confusão é um dos mecanismos mais utilizados para
avaliar o desempenho de classificadores binários, isto é,
classificadores que devem decidir entre duas classes e que
podem ser interpretados como: positivo e negativo.

Verdadeiro Positivos (VP) Falso Positivo (FP)

Número de objetos da classe Positivo que são Número de objetos da classe Negativo que são
preditos pelo classificador como Positivo. preditos pelo classificador como Positivo.

Falso Negativo (FN) Verdadeiro Negativos (VN)

Número de objetos da classe Positivo que são Número de objetos da classe Negativo que são
preditos pelo classificador como Negativo. preditos pelo classificador como Negativo.
Avaliando modelos de classificação

A partir da matriz de confusão,


define-se um conjunto de
medidas de qualidade:
Avaliando modelos de classificação
As medidas de qualidade não são apropriadas O classificador tem acurácia de 90%, porém
quando existe desbalanceamento entre classes. está classificando todos objetos em uma
única classe, o que não é adequado.
Exemplo:
O que se faz na prática é utilizar a análise
dados: conjunta de Sensitividade e Taxa de Falso
 90 objetos pertencentes à classe Positivo e
Positivo.

 10 objetos pertencentes à classe Negativo. O classificador ideal é o que tem


Sensitividade próxima de 1 e Taxa de Falso
Classificador: Positivo próxima de zero.
100 objetos pertencentes à classe Positivo.
No caso do exemplo, temos:
Sensitividade = 1 Taxa Falso Positivo = 1
VP = 90 FP = 10
O desempenho não é adequado, uma vez que a
FN = 0 VN = 0
Taxa de Falso Positivo está longe de zero.
O classificador ideal é o que tem Sensitividade
próxima de 1 (um) e Taxa de Falso Positivo
próxima de 0 (zero).
TODOS OS DIREITOS RESERVADOS.

Você também pode gostar