General I Dad Es

Generalidades
1 Classificação / Regressão
O objetivo geral das técnicas de Classificação e Regressão é construir um modelo/regra
que possa ser usado para se fazer previsões. Em um problema de Classificação ou Regressão,
tem-se, genericamente, um conjunto de dados de treinamento (também chamado de banco
de dados de treinamento). Cada registro — linha do banco de dados — possui vários
atributos/caracterı́sticas/variáveis. Os atributos cujo domı́nio é numérico são chamados de
atributos numéricos, enquanto que os atributos cujo domı́nio não é numérico são chamados de
atributos categóricos. Alguns autores distinguem entre atributos categóricos que assumem
valores em um conjunto não ordenado (atributos nominais) e atributos categóricos com
domı́nios ordenados (atributos ordinais).
Existe um atributo distinto denominado atributo dependente. Os atributos restantes
são chamados de atributos dos preditores ou atributos independentes; eles são numéricos ou
categóricos por natureza. Se o atributo dependente for categórico, o problema é referido
como um problema de classificação. Se o atributo dependente for numérico, tem-se um
problema de regressão. A análise de regressão é um método conceitualmente simples usado
para investigar relações funcionais entre variáveis. Po exemplo, um avaliador imobiliário pode
querer relacionar o preço de venda de uma casa com as caracterı́sticas fı́sicas da mesma. A
relação é expressa na forma de uma equação ou um modelo conectando a resposta ou variável
dependente e uma ou mais variáveis explicativas ou preditoras.
2 Um Tı́pico Problema de Classificação

Um crédito é uma quantidade de dinheiro emprestado por uma instituição financeira,
por exemplo, um banco, a ser pago de volta com juros, em geral em parcelas. É importante
para o banco que ele seja capaz de prever com antecedência o risco associado a concessão
do empréstimo. Em outras palavras, é importante para o banco estimar a probabilidade do
cliente se tornar inadimplente e não pagar o valor total adquirido.
Na classificação de crédito (credit score), o banco calcula o risco dado o montante do
crédito e as informações sobre o cliente. As informações sobre o cliente incluem dados que
a instituição financeira tem acesso e é relevante para o cálculo de sua capacidade financeira
(a renda, poupança, garantias, profissão, idade, histórico financeiro passado, e assim por
diante).
O banco tem um registro de empréstimos concedidos a seus clientes e se o empréstimo foi
pago ou não. A partir destas informações pretende-se obter uma regra geral de classificação
para concessão ou não de crédito.
Este é um exemplo de um problema de classificação em que existem duas classes: uma
formada pelos clientes de baixo risco e os de alto risco. As informações sobre um novo
cliente torna-se a entrada para o classificador, cuja tarefa é alocar a de entrada — o cliente
– a uma das duas. (Introduction to Machine Learning (2010), Second Edition — Ethem
Alpaydin).
Um algorı́tmo de classificação é usado para classificar um “objeto”, com base em um
conjunto de medidas também chamadas de caracterı́sticas ou atributos, a um grupo pré-
1
definido.

General I Dad Es

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

General I Dad Es

Enviado por

Direitos autorais:

Formatos disponíveis

Generalidades

2 Um Tı́pico Problema de Classificação

Você também pode gostar