Você está na página 1de 2

Generalidades

1 Classificação / Regressão
O objetivo geral das técnicas de Classificação e Regressão é construir um modelo/regra
que possa ser usado para se fazer previsões. Em um problema de Classificação ou Regressão,
tem-se, genericamente, um conjunto de dados de treinamento (também chamado de banco
de dados de treinamento). Cada registro — linha do banco de dados — possui vários
atributos/caracterı́sticas/variáveis. Os atributos cujo domı́nio é numérico são chamados de
atributos numéricos, enquanto que os atributos cujo domı́nio não é numérico são chamados de
atributos categóricos. Alguns autores distinguem entre atributos categóricos que assumem
valores em um conjunto não ordenado (atributos nominais) e atributos categóricos com
domı́nios ordenados (atributos ordinais).
Existe um atributo distinto denominado atributo dependente. Os atributos restantes
são chamados de atributos dos preditores ou atributos independentes; eles são numéricos ou
categóricos por natureza. Se o atributo dependente for categórico, o problema é referido
como um problema de classificação. Se o atributo dependente for numérico, tem-se um
problema de regressão. A análise de regressão é um método conceitualmente simples usado
para investigar relações funcionais entre variáveis. Po exemplo, um avaliador imobiliário pode
querer relacionar o preço de venda de uma casa com as caracterı́sticas fı́sicas da mesma. A
relação é expressa na forma de uma equação ou um modelo conectando a resposta ou variável
dependente e uma ou mais variáveis explicativas ou preditoras.

2 Um Tı́pico Problema de Classificação


Um crédito é uma quantidade de dinheiro emprestado por uma instituição financeira,
por exemplo, um banco, a ser pago de volta com juros, em geral em parcelas. É importante
para o banco que ele seja capaz de prever com antecedência o risco associado a concessão
do empréstimo. Em outras palavras, é importante para o banco estimar a probabilidade do
cliente se tornar inadimplente e não pagar o valor total adquirido.
Na classificação de crédito (credit score), o banco calcula o risco dado o montante do
crédito e as informações sobre o cliente. As informações sobre o cliente incluem dados que
a instituição financeira tem acesso e é relevante para o cálculo de sua capacidade financeira
(a renda, poupança, garantias, profissão, idade, histórico financeiro passado, e assim por
diante).
O banco tem um registro de empréstimos concedidos a seus clientes e se o empréstimo foi
pago ou não. A partir destas informações pretende-se obter uma regra geral de classificação
para concessão ou não de crédito.
Este é um exemplo de um problema de classificação em que existem duas classes: uma
formada pelos clientes de baixo risco e os de alto risco. As informações sobre um novo
cliente torna-se a entrada para o classificador, cuja tarefa é alocar a de entrada — o cliente
– a uma das duas. (Introduction to Machine Learning (2010), Second Edition — Ethem
Alpaydin).
Um algorı́tmo de classificação é usado para classificar um “objeto”, com base em um
conjunto de medidas também chamadas de caracterı́sticas ou atributos, a um grupo pré-

1
definido.

Você também pode gostar