Você está na página 1de 0

1

Universidade de So Paulo
Escola Superior de Agricultura Luiz de Queiroz








Tcnicas de Data Mining na aquisio de clientes para
financiamento de Crdito Direto ao Consumidor - CDC





Adriana Maria Marques da Silva

Dissertao apresentada para obteno do ttulo de
Mestre em Cincias. rea de concentrao:
Estatstica e Experimentao Agronmica












Piracicaba
2012



2
Adriana Maria Marques da Silva
Bacharel em Estatstica








Tcnicas de Data Mining na aquisio de clientes para
financiamento de Crdito Direto ao Consumidor - CDC



Orientador:
Prof. Dr. CARLOS TADEU DOS SANTOS DIAS


Dissertao apresentada para obteno do ttulo de
Mestre em Cincias. rea de concentrao:
Estatstica e Experimentao Agronmica













Piracicaba
2012


































Dados Internacionais de Catalogao na Publicao
DIVISO DE BIBLIOTECA - ESALQ/USP


Silva Adriana Maria Marques da
Tcnicas de Data Mining na aquisio de clientes para financiamento de Crdito
Direto ao Consumidor - CDC / Adriana Maria Marques da Silva.- - Piracicaba, 2012.
182 p: il.
Dissertao (Mestrado) - - Escola Superior de Agricultura Luiz de Queiroz, 2012.

1. rvore de deciso 2. Crdito direto ao consumidor 3. Financiamento
4. Minerao de dados 5. Redes neurais 6. Regresso logstica I. Ttulo
CDD 332.743
S586t




Permitida a cpia total ou parcial deste documento, desde que citada a fonte O autor

3


DEDICATRIA


















Aos meus pais,
Maria Lailda Marques e
Manoel Carlos Santana da Silva
Com amor, DEDICO.
4




5


AGRADECIMENTOS

Primeiramente, aos meus familiares, Maria Lailda Marques, Manoel Carlos
Santana da Silva, Joo Paulo Marques da Silva, por estarem ao meu lado, mesmo a
quilmetros de distncia durante um perodo desta jornada. Em especial, minha me, pelo
carinho e bondade na correo dos meus trabalhos. Tambm aos meus primos, tios e tias
pela confiana e carinho.
Aos meus amigos que trabalho, que muito ajudaram nesta jornada final, por
me respeitarem e incentivarem: Andreia Santos, Lyse Nogueira, Daniel Ferreira, Danylo
Moya, Alison Ishii, Ronaldo Aoki, Daniela Souza, Carlos Miranda, Reginaldo Perseghetti,
Daniel Martins, Bruno Galhardo, Rafael Paes, Rafael Amaro e Cleria Barichello.
Ao meu primeiro e melhor chefe, Ivan Pezzoli, por confiar e me apoiar
inmeras vezes, sempre me motivando e me entusiasmando em toda atividade que eu
fizesse.
Ao SAS, pela compreenso e apoio, especialmente ao meu chefe Rodolpho
Marcelino e Wander Vasconcelos.
Aos amigos de departamento, Kelli Gonalves, Thais Cardoso e Otavio
Menezes, pela ajuda, compreenso e admirao.
Ao Alexandre Gomes e Henrique Lima, pela ajuda e camaradagem nos
problemas tcnicos.
professora dina, pelos conhecimentos compartilhados e pela amizade.
Aos meus colegas de ps-graduao, Marcelino Rosa, Everton Batista,
Cristiane Rodrigues, Josiane Rodrigues, Lilian, Tiago Oliveira, Ana Patricia Peixoto, pela
ajuda, conversas risos, almoos, horas de estudo e pelo divertimento.
minha amiga de casa, Priscila Neves Faria, pela amizade, companherismo e
ajuda.
A minha amiga, Glucia Tatiana Ferrari, pela amizade, carinho, dedicao,
horas de estudo, viagens, divertimento e companherismo.
Ao amigo Ricardo Alves de Olinda, pela ajuda, amizade e dedicao.
Ao Professor Dr. Carlos Tadeu dos Santos Dias, pela orientao e confiana
em mim depositadas. Por todo incentivo, crticas e sugestes que foram fundamentais para
o desenvolvimento desta pesquisa e para o meu crescimento profissional.
6


Aos professores de graduao pela formao e por toda ajuda.
Aos docentes do Programa de Ps-Graduao em Estatstica e
Experimentao Agronmica que auxiliaram em minha formao.
Aos funcionrios do Departamento de Cincias Exatas da ESALQ/USP,
Eduardo Bonilha e Jorge Alexandre Wiendl, pelo apoio tcnico, s secretrias Luciane
Brajo e Solange de Assis Paes Sabadin, pelo apoio acadmico.
Ao Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico (CNPq)
pela concesso da bolsa de estudos para a realizao deste trabalho.
Aqueles que contribuiram direta ou indiretamente para a realizao deste
estudo e, por fim, a todos que confiaram em mim.

MUITO OBRIGADA!
7


SUMRIO

RESUMO................................................................................................................... 11
ABSTRACT ............................................................................................................... 13
1 ESTRUTURA DA DISSERTAO ......................................................................... 15
2 INTRODUO ....................................................................................................... 17
2.1 Justificativa .......................................................................................................... 20
2.1.1 Justificativa Terica .......................................................................................... 21
2.1.2 Justificativa Prtica ........................................................................................... 22
3 REVISO BIBLIOGRFICA ................................................................................... 25
3.1 Regresso Logstica ............................................................................................ 25
3.1.1 Funo de ligao Logito ................................................................................. 27
3.1.2 Funo de ligao Probito ................................................................................ 27
3.1.3 Funo de ligao Complementar Log-Log (Cloglog) ...................................... 28
3.1.4 Regresso Logstica Simples ........................................................................... 29
3.1.4.1 Teste de Significncia dos Coeficientes ........................................................ 34
3.1.5 Regresso Logstica Mltipla ........................................................................... 40
3.1.5.1 Teste de significncia dos parmetros do modelo ........................................ 43
3.1.5.2 Estimao do Intervalo de Confiana dos Parmetros .................................. 44
3.1.5.3 Razo de Chance .......................................................................................... 44
3.1.5.4 Seleo de variveis ..................................................................................... 48
3.1.5.5 Medidas de qualidade do ajuste .................................................................... 51
3.1.5.6 Estatsticas Pearson Qui-Quadrado e Deviance ........................................... 51
3.1.5.7 Teste de Hosmer-Lemeshow para adequao do modelo ............................ 53
3.1.5.8 Matriz de confuso ........................................................................................ 54
3.1.5.9 rea abaixo da curva ROC ............................................................................ 56
3.2 rvore de Deciso ............................................................................................... 58
8


3.2.1 Utilizao da rvore de Deciso ...................................................................... 62
3.2.1.1 Seleo de variveis ..................................................................................... 62
3.2.1.2 Importncia da varivel ................................................................................. 63
3.2.1.3 Deteco de interao .................................................................................. 63
3.2.1.4 Valores faltantes ........................................................................................... 64
3.2.1.5 Interpretao do modelo ............................................................................... 65
3.2.1.6 Modelagem preditiva ..................................................................................... 66
3.2.2 Como construir uma rvore de deciso ........................................................... 67
3.2.2.1 Como uma regra criada usando uma diviso binria ................................. 67
3.2.2.2 Mensurar a importncia de uma diviso quando a varivel resposta binria
.................................................................................................................................. 68
3.2.2.2.1 Grau de separao .................................................................................... 69
3.2.2.2.2 Reduo da impureza como medida para mensurar a importncia de uma
quebra ....................................................................................................................... 71
3.2.2.2.2.1 ndice de impureza GINI ......................................................................... 72
3.2.2.2.2.2 Entropia .................................................................................................. 72
3.2.2.3 Mensurar a importncia de uma diviso quando a varivel resposta
categrica ................................................................................................................. 73
3.2.2.4 Ajustes para o valor-p quando as variveis explicativas tm diferentes nveis
.................................................................................................................................. 73
3.2.2.4.1 Ajuste de Bonferroni .................................................................................. 74
3.2.2.4.2 Ajuste de Profundidade .............................................................................. 75
3.2.3 Controlar o crescimento da rvore: regras de parada...................................... 76
3.2.4 Poda: a seleo da rvore do tamanho certo .................................................. 77
3.2.5 Algoritmos Conhecidos .................................................................................... 83
3.2.5.1 ID3 ................................................................................................................ 84
3.2.5.2 C4.5 .............................................................................................................. 84
9


3.2.5.3 CART ............................................................................................................. 85
3.2.5.4 CHAID ........................................................................................................... 86
3.2.5.5 Algortmos SAS ............................................................................................. 86
3.3 Rede Neural ........................................................................................................ 87
3.3.1 O crebro humano ........................................................................................... 88
3.3.2 Os Neurnios ................................................................................................... 89
3.3.3 A comunicao entre os Neurnios .................................................................. 89
3.3.4 O modelo MCP (McCulloch e Pitts) .................................................................. 91
3.3.5 Funes de Ativao ........................................................................................ 92
3.3.6 Principais arquiteturas de RNAs ....................................................................... 94
3.3.7 Aprendizado ..................................................................................................... 98
3.3.7.1 Aprendizado supervisionado ......................................................................... 99
3.3.7.2 Correo de erros ....................................................................................... 100
3.3.7.3 Aprendizado por reforo .............................................................................. 102
3.3.7.4 Aprendizado no supervisionado ................................................................ 103
3.3.8 Perceptron ...................................................................................................... 103
3.3.8.1 O algortmo de aprendizado do Perceptron ................................................. 104
3.3.8.2 Implementao do algortmo de aprendizado do Perceptron ...................... 105
3.3.8.3 Consideraes sobre o aprendizado do Perceptron ................................... 106
3.3.9 Redes Perceptron de Mltiplas Camadas (MLP) ........................................... 106
3.3.9.1 A arquitetura de uma rede Perceptron de Mltiplas Camadas (MLP) ......... 108
3.3.9.2 Nmero de camadas ................................................................................... 109
3.3.9.3 Nmero de neurnios .................................................................................. 110
3.3.9.4 Treinamento de Redes MLP ........................................................................ 110
3.3.9.5 Camada de sada ........................................................................................ 114
3.3.9.6 Camada escondida...................................................................................... 115
4 MATERIAL E MTODOS ..................................................................................... 119
10


4.1 Descrio do conjunto de dados ....................................................................... 120
4.2 Sistema computacional SAS ............................................................................. 122
5 RESULTADOS .................................................................................................... 125
6 CONCLUSO ...................................................................................................... 137
REFERNCIAS ...................................................................................................... 139
APNDICES ........................................................................................................... 143



11


RESUMO
Tcnicas de Data Mining na aquisio de clientes para financiamento de
Crdito Direto ao Consumidor CDC

O trabalho busca dissertar sobre as tcnicas de data mining mais difundidas:
regresso logstica, rvore de deciso e rede neural, alm de avaliar se tais tcnicas
oferecem ganhos financeiros para instituies privadas que contam com processos
ativos de conquista de clientes. Uma empresa do setor financeiro ser utilizada
como objeto de estudo, especificamente nos seus processos de aquisio de novos
clientes para adeso do Crdito Direto ao Consumidor (CDC). Sero mostrados os
resultados da aplicao nas trs tcnicas mencionadas, para que seja possvel
verificar se o emprego de modelos estatsticos discriminam os clientes potenciais
mais propensos dos menos propensos adeso do CDC e, ento, verificar se tal
ao impulsiona na obteno de ganhos financeiros. Esses ganhos podero vir
mediante reduo dos custos de marketing abordando-se somente os clientes com
maiores probabilidades de responderem positivamente campanha. O trabalho
apresentar o funcionamento de cada tcnica teoricamente, e conforme os
resultados indicam, data mining uma grande oportunidade para ganhos financeiros
em uma empresa.

Palavras-chave: Minerao de Dados; Regresso Logstica; rvore de Deciso;
Rede Neural; Crdito Direto ao Consumidor
12



13


ABSTRACT
Data Mining Techniques to acquire new customers for financing of Consumer
Credit
The paper intends to discourse about most widespread data mining techniques:
logistic regression, decision tree and neural network, and assess whether these
techniques provide financial gains for private institutions that have active processes
for business development. A company of the financial sector is used as object of
study, specifically in the processes of acquiring new customers for adhesion to
consumer credit (in Brazil CDC). This research will show the results of the three
above mentioned techniques, to check whether the statistical models point out
relevant differences between prospects intentions to adhere to consumer credit. In
the meantime, the techniques are checked whether they leverage financial gain.
These gains are expected to came from better focused and directed marketing
efforts. The paper presents the operation of each technique theoretically, and as the
results indicate, data mining is a great opportunity for a company boost profits.

Keywords: Data Mining; Logistic Regression; Decision Tree; Neural Network;
Consumer Credit


14



15


1 ESTRUTURA DA DISSERTAO
A presente dissertao encontra-se dividida nas seguintes partes:
Introduo; Justificativa; Desenvolvimento; Resultados e Concluses. No captulo 2,
Introduo, apresenta-se a contextualizao do estudo, alm das justificativas
tericas e prticas. No captulo 3, Reviso de Literatura, so explicadas todas as
tcnicas utilizadas na aplicao e delineia-se o procedimento utilizado para a
obteno dos objetivos. Neste captulo so apresentados fundamentos tericos
sobre cada abordagem. No Captulo 4, Resultados, apresentam-se a descrio do
estudo de caso realizado e os modelos obtidos, alm das comparaes e motivos
pelos quais o modelo foi escolhido. No captulo 5 so apresentadas as concluses
finais do trabalho em decorrncia dos resultados obtidos nesta pesquisa.


16



17


2 INTRODUO
Segundo Dilly (2010), a quantidade de informao no mundo dobra a
cada 20 meses e o tamanho e a quantidade dos bancos de dados crescem com
velocidade ainda maior. Como a quantidade de informao disponvel aumenta a
cada dia, essencial tentar aproveitar o mximo possvel dessa informao. A forma
mais sensata de utilizar essas informaes verificar se h algum conhecimento,
padro ou alguma direo dentro delas.
O banco de dados de um supermercado, por exemplo, contm cada
transao realizada por cada cliente. Com todos esses registros, podem-se
descobrir padres nas compras, criar grupos de cliente com um mesmo hbito,
descobrir produtos que impulsionam a venda de outros e outros achados. Com todas
essas descobertas, pode-se otimizar os resultados financeiros do supermercado.
O processo de explorar grandes quantidades de dados procura de
padres consistentes, como regras de associao ou sequncias temporais, para
detectar relacionamentos sistemticos entre variveis, chamado minerao de
dados, em portugus, ou Data Mining, em ingls.
Data Mining parte de um processo maior conhecido como Descoberta
de Conhecimento em Base de Dados (KDD - Knowledge Discovery in Databases) e
se constitui por um leque de tcnicas que por meio do uso de algoritmos de
aprendizagem ou classificao baseados em estatstica, inteligncia artificial e
aprendizado de mquinas, so capazes de explorar um conjunto de dados, extraindo
ou ajudando a evidenciar padres e auxiliando na descoberta de conhecimento.
O ser humano sempre aprendeu observando padres, formulando
hipteses e testando-as para descobrir regras. A novidade da era do computador o
grande volume de dados que no pode mais ser examinado procura de padres
em um prazo de tempo razovel. A soluo instrumentalizar o prprio computador
para detectar relaes que sejam novas e teis. A minerao de dados surge para
essa finalidade e pode ser aplicada tanto para a pesquisa cientfica como para
impulsionar a lucratividade de uma empresa com experincia, inovadora e
competitiva.
18


O processo KDD constitudo de vrias etapas, sendo a etapa mais
importante o Data Mining. Como se pode notar pela Figura 1, o processo KDD passa
por cinco fases. A primeira fase para a descoberta de conhecimento a seleo dos
dados. Nessa fase importante ter conhecimento de onde se pretende chegar.
Como de conhecimento geral, em toda anlise quantitativa, a
qualidade dos dados essencial para a obteno de resultados confiveis. Segundo
Diniz e Louzada-Neto (2000), dados limpos e compreensveis so requisitos bsicos
para o sucesso do Data Mining. Com isso essencial que a segunda fase, Pr-
Processamento, seja realizada com sucesso. Esse passo leva at 80% do tempo
necessrio para todo o processo, devido s dificuldades de integrao de bases de
dados heterogneas (MANNILA, 1996).













Figura 1 - Etapas que constituem o processo de KDD
Os dados pr-processados devem passar por outra transformao, que
os armazena adequadamente, visando facilitar o uso das tcnicas de Data Mining. O
objetivo do passo seguinte, Data Mining, a aplicao de tcnicas de minerao nos
dados pr-processados, o que envolve ajuste de modelos e/ou determinao de
19


caractersticas nos dados. Em outras palavras, exige o uso de mtodos inteligentes
para a extrao de padres ou conhecimentos dos dados.
No passo final, Interpretao e Anlise, existe a possibilidade de retorno
a qualquer um dos passos anteriores, dependendo dos resultados e das
necessidades exigidas pelo objetivo. Com isso, o resultado final no depende
apenas da etapa do Data Mining, depende de todo processo: consistncia da base
de dados (Data Cleaning), escolha das variveis e por ltimo a tcnica utilizada.
Teoricamente, Data Mining pode ser aplicado em qualquer rea de
conhecimento. No entanto, existem reas em que o uso dessa tcnica mais
frequente. Conforme Fayyad, Piatetski-Shapiro e Smyth (1996), essas reas so:
Marketing: reduo dos custos com o envio de correspondncias
atravs de sistemas de mala direta a partir da identificao de grupos de clientes
potenciais. Um exemplo disso o que o Po de Acar fez com a utilizao do SAS.
O mercado passa a oferecer um carto de desconto em troca de informaes
pessoais que sero utilizadas como entrada para o modelo computacional de Data
Mining. Com essas informaes consegue-se criar grupos de clientes e
consequentemente, pode-se oferecer o produto certo para pessoa certa,
aumentando a probabilidade de venda.
Deteco de fraude: reclamaes indevidas de seguro, chamadas
clonadas de telefones celulares, compras fraudulentas com carto de crdito, fraude
na composio quimica do leite e nomes duplicados em sistemas de Previdncia
Social.
Investimento: diversas empresas tm usado tcnicas de minerao de
dados para obter ganhos financeiros. So usados especialmente modelos de redes
neurais no mercado de aes e na previso da cotao do ouro e do dlar.
Produo: empresas desenvolvem sistemas para detectar e
diagnosticar erros na fabricao de produtos. Estas falhas so normalmente
agrupadas por tcnicas de Anlise de Agrupamentos.
As tcnicas de minerao podem ser aplicadas a tarefas (neste
contexto, um problema de descoberta de conhecimento a ser solucionado) como
20


associao, classificao, predio/previso, sumarizao e clusterizao. A seguir
uma descrio resumida de cada uma delas (FAYYAD; STOLORZ, 1997):
Associao: consiste em determinar quais fatos ou objetos tendem a
ocorrer juntos em um mesmo evento ou em uma mesma transao.
Classificao: consiste em construir um modelo que possa ser aplicado
a dados no classificados visando categorizar os objetos em classes. Associa ou
classifica um item a uma ou vrias classes categricas pr-definidas. Uma tcnica
estatstica apropriada para classificao a anlise discriminante. Os objetivos
dessa tcnica envolvem a descrio grfica ou algbrica das caractersticas
diferenciais das observaes de vrias populaes, alm da classificao das
observaes em uma ou mais classes predeterminadas.
Predio/Previso: predio usada para definir um provvel valor para
uma ou mais variveis. A previso utilizada quando se tm sries temporais
(dados organizados cronologicamente), como por exemplo a previso da cotao de
uma ao na bolsa de valores.
Agrupamentos ou Clusterizao: um processo de partio, que visa
dividir uma populao em subgrupos mais heterogneos entre si. diferente da
tarefa de classificao, pois no existem classes predefinidas, os objetos so
agrupados de acordo com a similaridade. Os clusters so definidos por meio do
agrupamento de dados baseados em medidas de similaridade ou modelos
probabilsticos. A anlise de cluster (ou agrupamento) uma tcnica que visa
detectar a existncia de diferentes grupos dentro de um determinado conjunto de
dados e, em caso de sua existncia, determinar quais so eles.
A Minerao de Dados fornece uma srie de idias e tcnicas para uma
vasta variedade de profisses. Estatsticos, pesquisadores de Inteligncia Artificial e
administradores de bancos de dados que usam tcnicas diferentes para chegar a
um mesmo fim, ou seja, a informao.

2.1 Justificativa
Qualquer tcnica estatstica empregada corretamente pode reverter em
grandes mudanas para qualquer objetivo. Bancos de dados so a fonte para
21


qualquer incremento, novos conhecimentos e descobertas. Empresas capazes de
estudar e entender seu prprio negcio conseguem visualizar novas oportunidades e
com isso conseguem uma melhor posio no mercado. O tema dessa dissertao
muito abordado pelas empresas e merece destaque no meio acadmico, para que
as tcnicas sejam aperfeioadas e que com isso exista um link entre universidade e
empresa. A seguir, esto descritas justificativas para este estudo, tanto na parte
acadmica, como no mundo corporativo.

2.1.1 Justificativa Terica
As tcnicas estatsticas e computacionais so grandes aliadas do
conhecimento e das descobertas. Desde anlises descritivas at modelos mais
sofisticados, o poder das melhores decises, deveriam ser baseados nestes
resultados. Desde a dcada de 70, vem ocorrendo debates sobre as razes para a
baixa utilizao de modelos pelos gestores de empresas, apesar de ser comprovada
a eficcia em diversos modelos disponveis (LITTLE, 2004). Ainda existe uma certa
resistncia por parte dos executivos tomadores de deciso, porm, cada dia fica
mais ntida a necessidade de um estudo para o conhecimento do negcio em
questo.
Segundo Leeflang e Wittink (2000) um modelo a representao dos
elementos mais importantes da percepo de um sistema do mundo real, por isso, a
necessidade das pesquisas que envolvem a elaborao de modelos sejam
realizadas em parcerias entre a academia e as empresas, possibilitando aos
acadmicos o acesso a um grande conjunto de informaes reais e ao mesmo
tempo que os modelos gerados possam efetivamente contribuir com os gestores,
auxiliando nos processos de tomada de deciso (LEEFLANG; WITTINK, 2000).
A melhor compreenso de como se comporta o negcio de uma
empresa, auxiliar a determinar estratgias mais eficazes, bem como possibilitar s
empresas adotantes a aprimorar o processo de avaliao e escolha de produtos e
servios, bem como estratgias de marketing e estudos de riscos. A importncia da
realizao de estudos no mercado corporativo o de possibilitar o desenvolvimento
e a melhora da competitividade das empresas nacionais.
22


2.1.2 Justificativa Prtica
Como mencionado na introduo, 80% do tempo de uma anlise de
Data Mining usado pelo processamento dos dados e manipulao dos mesmos.
Uma preocupao, apontada pelas empresas que adotaram sistemas de coleta de
informaes de clientes, est no desafio em transformar estes dados em
informaes que auxiliem no processo decisrio, o que de, certa forma, vem
trazendo questionamentos quanto viabilidade de coletar tantas informaes,
considerando os altos custos envolvidos comparados aos benefcios gerados,
conforme abordam Rigby e Ledingham (2004). Os autores afirmam que a
necessidade do negcio a prioridade maior da empresa e deve prevalecer em
relao capacidade tecnolgica.
Muitas empresas armazenam milhares de registros em suas bases de
dados, como informaes relacionadas ao cliente, histrico de comportamento com
seus produtos, entre outros. A impercia (inabilidade) em obter informaes sobre
estes dados impede que a organizao obtenha conhecimento valioso e aplicvel
(SUMATHI; SIVANANDAM, 2006). Neste contexto, a utilizao de tcnicas de
minerao de dados mostra-se como uma oportunidade para a realizao de
estudos acadmicos e, tambm, para a gerao de novos modelos para as
organizaes. Este estudo pretende auxiliar na compreenso das tcnicas de
minerao de dados, que so tcnicas de extrao de conhecimento de grandes
quantidades de dados (HAN; KAMBER, 2006).
A aplicao de tcnicas de minerao de dados pode auxiliar na
elaborao de novos modelos contextualizados a casos brasileiros, mostrando o
potencial da utilizao destas tcnicas para a gesto de servios e consumidores.
Com o advento de novas interfaces grficas que facilitam o uso das ferramentas,
associado grande quantidade de informaes disponibilizadas, a minerao de
dados representa uma grande oportunidade para a realizao de estudos e modelos
em administrao para melhores tomadas de deciso.
A escolha do tema desta dissertao se deu pelo fato de que as
tcnicas de Data Mining so tcnicas emergentes, sendo incentivada a sua
utilizao por diversos autores (HAIR et al., 2005; GUPTA et al., 2006), alm de ser
23


recomendada a utilizao de minerao de dados de modo a abrir novas
perspectivas para o mercado corporativo (GUPTA et al., 2006).
Um modelo deve prever, no mnimo, os fatos que o originaram. Um
bom modelo aquele que tem a capacidade de previso de novos fatos
(BASSANEZI, 2004), sendo assim, a grande preocupao deste trabalho que o
modelo desenvolvido possa ser aplicado no mundo corporativo com o objetivo de
ajudar na montagem de estratgia da empresa ou diminuio dos prejuzos.
Apesar de muitos modelos de marketing serem robustos e
comprovadamente eficazes, observa-se ainda a pouca utilizao de modelos
acadmicos pelas empresas, sendo que Martinez-Lopez e Casillas (2009)
recomendam um esforo da academia para reduzir este distanciamento, de modo
que os modelos possam ser utilizados com sucesso e aplicados nas atividades do
dia-a-dia das empresas. Para Little (2004), os modelos no so muito utilizados
pelos gestores por ser difcil de encontrar um bom modelo que inclua as variveis de
interesse do gestor, pela dificuldade de se realizar uma boa parametrizao e pelo
fato de os gestores no compreenderem os modelos. Para que um modelo seja
utilizado por gestores, Little (2004) ressalta que o modelo dever ser: (1) simples; (2)
robusto; (3) fcil de controlar; (4) adaptativo; (5) completo nos elementos importantes
e (6) fcil de comunicar. A simplicidade facilita a compreenso. A robustez previne a
inconsistncia e evita resultados absurdos. A facilidade de controle implica a
transparncia do modelo, de modo que o gestor saiba o que est ocorrendo. A
adaptabilidade permite a insero no modelo de novas alteraes do ambiente. A
requisio de ser completo permite que o gestor possa inserir os requisitos/variveis
desejados. A facilidade de comunicao desejvel para permitir a difuso do
conhecimento.
Outra dificuldade para o uso de modelos pelos gestores a
necessidade da customizao, uma vez que cada universo de produtos, servios e
clientes possui caractersticas prprias, que dificilmente so contempladas por um
modelo genrico. Na construo do modelo optou-se por avaliar o melhor
desempenho do modelo feito por trs das principais tcnicas de Data Mining:
Regresso Logstica, rvore de Deciso e Redes Neurais.
24


Com este estudo, objetiva-se colaborar com os estudos cientficos
brasileiros na rea de minerao de dados. O mercado corporativo brasileiro ainda
necessita de pesquisas que possam aprimorar a gesto e possibilitar a obteno da
excelncia em prestao de servios, o que poder abrir novas possibilidades de
atuao. O estudo tambm pode ajudar a conscientizar os gestores de empresas de
servios da importncia da utilizao de boas prticas de gesto, uso da inteligncia
analtica.

25


3 REVISO BIBLIOGRFICA
Neste captulo exlica-se as tcnicas utilizadas na aplicao prtica e delineia-
se o procedimento utilizado para a obteno dos objetivos.

3.1 Regresso Logstica
A regresso logstica surgiu em 1789, com os estudos de crescimento
populacional de Malthus. Segundo Cramer (2002), 40 anos depois, Alphonse
Quetelet e Pierre- Franois Verhust, recuperaram a idia de Malthus para descrever
o crescimento populacional na Frana, Blgica e Rssia. No entanto, s em 1845,
Pierre- Franois Verhust publicou a formulao utilizada nos estudos de crescimento
da populao a que chamou de curva logstica.
Ainda no sc. XIX, a mesma funo foi utilizada para descrever as
reaes qumicas autocatalticas, porm se manteve apagada na maior parte do
sculo e s foi redescoberto em 1920 por Raymond Pearl, discpulo de Karl Pearson,
e Lowell Reed que o aplicaram igualmente ao estudo do crescimento da populao
dos Estados Unidos da Amrica.
Os modelos logsticos surgiram da necessidade de modelos mais
satisfatrios para dados qualitativos e pela dificuldade encontrada ao aplicar a
Regresso Linear para variveis dependentes qualitativas. O modelo de regresso
logstica o principal modelo de dados binrios, que so aqueles em que a varivel
de interesse (resposta) assume dois valores possves. Como existem muitas
situaes prticas onde as variveis binrias so encontradas, o estudo sobre o
assunto bastante vasto.
A regresso logstica muito semelhante regresso linear. Em ambos
os casos utiliza-se uma ou mais variveis explicativas () para predizer o valor de
uma varivel resposta (). Entretanto, na regresso logstica (ou modelo binrio), a
varivel resposta () possui apenas dois valores possveis.
Usualmente adota-se o valor como o resultado mais importante da
resposta ou aquele que se pretende relacioanar ao acontecimento de interesse
(conhecido como sucesso) e o valor ao fracasso (resultado complementar).
26


A regresso logstica trabalha com chances ao invs de propores. As
chances correspondem razo entre propores de dois resultados possveis. Se
a probabilidade de sucesso, ento a probabilidade de fracasso, ou seja:
, e




e sendo uma probabilidade, o valor previsto deve ser qualquer nmero limitado
entre e .
A Regresso Logstica modela a mdia em termos de uma ou mais
variveis explicativas . Pode-se tentar relacionar e como uma regresso linear:

(1)
no entanto no seria um bom modelo, pois sempre que

,
valores extremos de fornecero valores para

que ficariam
fora do conjunto de valores possveis para .
Por isso, o modelo de regresso logstica remove essa dificuldade
determinando uma transformao de modo que pertena ao intervalo
, podendo assim ser modelada pela funo linear como na eq. (1). A funo
denominada como funo de ligao (ISHIKAWA, 2007).
De acordo com Sarma (2009), algumas transformaes podem
desempenhar esse papel. Assumindo que a varivel estimada denotada por para
cada linha no banco de dados, sabe-se que o valor de depende de todas as
variveis usadas para estim-lo (representadas pelas variveis independentes

),
sendo assim, sempre que se tem todas as observaes de

preenchidas, tem-se
, ou seja:

(2)
em que o vetor de coeficientes, o vetor de variveis independentes e
uma varivel aleatria. Diferentes suposies sobre a distribuio da varivel
aleatria d origem a diferentes funes de ligao. Sendo que a probabilidade de
resposta :
| |


em que a funo da distribuio acumulada da varivel aleatria .
27


3.1.1 Funo de ligao Logito
Segundo Sarma (2009), a funo de distribuio acumulada ser:


e, com isso, tem-se que:


Por isso, a probabilidade de resposta calculada como
|

(3)
e
|

(4)
Das eq. (3) e (4) pode-se notar que a funo de ligao :
(
|
|
)
(

chamado de preditor linear, uma vez que uma combinao


linear das variveis

de entrada.

3.1.2 Funo de ligao Probito
Segundo Sarma (2009), na funo de ligao probito assume-se que a
varivel aleatria na eq. (2) tem uma distribuio normal com mdia 0 e desvio
padro igual a 1. Neste caso tem-se que:
28


|


devido semetria da distribuio de probabilidade normal, em que


Sendo assim,


ento
|


Definido que

a inversa da distribuio de probabilidade normal


acumulada.

3.1.3 Funo de ligao Complementar Log-Log (Cloglog)
Segundo Sarma (2009), na funo de ligao log-log a probabilidade de
resposta calculada como
|


e
|



Com isso, a funo de ligao definida por:
( |)


Em estudos de dados binrios que envolvem uma varivel respotas
binria e uma ou mais covariveis , a probabilidade de sucesso :
|


em que

representa o valor esperado de dado o valor

da varivel

. A
forma especfica do modelo de Regresso Logstica Simples :
29


A mdia condicional de dado

, quando se usa a distribuio logstica


definida por:


em que , ou seja, o valor esperado ir sempre representar a
probabilidade de

.
Seja a transformao linear

, ento:


sendo assim,


A transformao de

que o ponto importante no estudo de


Regresso Logstica, aqui, a transformao logito. Essa transformao defenida,
em termos de

, como:

)
em que

o logito.

3.1.4 Regresso Logstica Simples
A Regresso Logstica Simples trata de um modelo no qual a varivel
resposta assume valores 0 ou 1 e contm apenas uma varivel explicativa (

).
Sabe-se que a observao da varivel resposta , dado um valor de ser a
probabilidade de ocorrncia (

) mais um erro (). Com isso, se ento


e . J quando , ento e assim
. Como sempre um valor positivo, assume sempre um valor negativo
quando e sempre positivo quando .
30


Logo, a distribuio condicional da varivel resposta segue uma
distribuio Bernoulli com probabilidade definida pela mdia condicional .
Conforme a distribuio de Bernoulli, a funo de probabilidade de

.
Como mencionado anteriormente, utilizando a funo de ligao logito,
o valor esperado da varivel resposta, na regresso logstica simples definido por

e desde que as observaes sejam independentes, a funo de


probabilidade definida por:


Quando o vetor da mdia condicional | pode assumir qualquer
valor quando varia entre e , os parmetros do modelo podem ser estimados
utilizando o mtodo dos Mnimos Quadrados (MMQ), pois o objetivo ajustar um
modelo linear. Porm, quando o vetor da mdia condicional apresentar a forma de
uma distribuio acumulada, como no caso da varivel dicotmica, a estimao dos
parmetros da funo definida pela mxima verossimilhana (no linear).
Como o objetivo obter o valor dos parmetros com o propsito de
encontrar os melhores valores para

utiliza-se, ento, o mtodo de mxima


verossimilhana, a fim de que os estimadores dos parmetros maximizem a funo
que expressa a probabilidade com base nos dados observados.
A funo de verossimilhana definida por:


o que representa a expresso:
*

+ *

+ *

+
Aplicando o logaritmo, tem-se:


31


)]


Para encontrar o valor de que maximiza

, faz-se a
derivada parcial de com relao a

e em seguida a

, igualando as duas
derivadas a zero.

)+


Como

.
sendo que

, ento

)]


derivando (

), tem-se:
[ (

)]

)
Como


derivando (

), tem-se:
32


[ (

)]



Retornando derivada principal, tem-se que:

)]


Sabendo que

e que

, ento


Sabendo que o estimador de


33


ou seja, a soma dos valores observados de igual a soma dos valores estimados
da probabilidade do evento sucesso.

Derivando, agora, em funo de

, tem-se:

)]


sendo a derivada de (

), dado que


[ (

)]


sendo a derivada de (

), dado que


[ (

)]


Retornando derivada principal, tem-se que:
34


)]


ento



As equaes encontradas, a partir das derivadas, so conhecidas como
equaes de verossimilhana. Em Regresso Logstica essas equaes no so
lineares em

, o que exige mtodos especiais para soluo. Estes mtodos


so de natureza iterativa e tm sido programados em softwares onde a Regresso
Logstica est disponvel (HOSMER; LEMESHOW, 2000).

3.1.4.1 Teste de Significncia dos Coeficientes
Pode-se usar a estatstica Deviance para testar hipteses sobre
subconjuntos dos parmetros do modelo, assim como usa-se as somas de
quadrados do erro para testar hipteses semelhantes no modelo de regresso linear
normal. Pode-se escrever o modelo completo em duas partes, como:
(


35


em que o modelo completo tem parmetros. O vator

referente aos
parmetros da primeira parte, ou seja, contm dos parmetros no modelo
completo,

contm os parmetros da segunda parte, ou seja, parmetros e que


as colunas da matriz

contm as variveis associadas a esses parmetros.


Neste caso o nmero de parmetros que deseja-se testar.
A estatstica Deviance do modelo completo descrita por e
supondo que queira-se testar
{



o modelo reduzido ser
(


e a estatstica Deviance do modelo reduzido ser

.
Segundo Montegomery, Peck e Vining (2006), a estatstica Deviance
para o modelo reduzido ser sempre maior que a deviance do modelo completo,
porque o modelo reduzido contm menos parmetros. No entanto, se a deviance do
modelo reduzido no for muito maior que a deviance do modelo completo indica que
o ajuste do modelo reduzido quase to bom quanto o ajuste do modelo completo,
por isso provvel que os parmetros em

sejam iguais a zero. Porm, se a


diferena da deviance maior, pelo menos um dos parmetros de

no zero e
ento deve-se rejeitar a hiptese nula. Formalmente a diferena entre deviances

(5)
e tem graus de liberdade. Se a hiptese nula
verdadeira e se grande, a diferena (1.5) tem uma distribuio qui-quadrado com
graus de liberdade. Portanto, o teste estatstico e o critrio de deciso so:
{



Assim, a comparao dos valores da varivel resposta com os valores
preditos obtidos dos modelos com e sem a varivel em questo baseada na
funo do da verossimilhana . Esta comparao definida por:
36






*
[

+
*

+
[
*

+ *

+
[

] [

]
]
*
[

)]

+
[

[(

]+

*
(

+]


Como o estimador de mxima verossimilhana de

, definido em
3.1.4,

ento a estatstica

(Deviance) :

*
(

+]


devido propriedade de invarincia das funes dos estimadores de mxima
verossimilhana.
Para estimar a significncia de uma varivel independente, compara-se
o valor de com e sem a varivel independente na Equao:




37


ento:

+ e *

+
em que:

a Deviance para o modelo sem a varivel, primeira parte do modelo,


excluindo as variveis que deseja-se testar;
a Deviance para o modelo com a varivel;

a funo de verossimilhana do modelo sem a varivel;

a funo de verossimilhana do modelo com a varivel e

a funo de verossimilhana do modelo saturado.


Assim:

] [

[


]
Segundo Hosmer e Lemeshow (2000), para o caso de uma nica
varivel independente, quando ela no est no modelo, o Estimador de Mxima
Verossimilhana de

) em que

o nmero de indivduos com a


caracterstica de interesse e

o nmero de observaes que no tem a


caracterstica de interesse.
Dado que

. Como a
varivel independente no est no modelo reduzido, tem-se que

. Igualando essa expresso a zero:


38


*


Como

(nmero de casos de sucesso) e


(nmero de casos em que ), aplicando em ambos os lados tm-se:

) ento

)
Sendo assim, para o caso de Regresso Logstica Simples:

[


]

[
(

]
Como visto anteriormente, o do denominador definido por:
(*

) [

)]


j o ((

) definido por:
((


39



Ento:

]
sob a hiptese nula que

igual a zero, a estatstica

tem distruio
qui-quadrado com 1 grau de liberdade, com a suposio do tamanho n ser
suficientemente grande. Rejeita-se

se

(HOSMER;
LEMESHOW, 2000).
Segundo Hosmer e Lemeshow (2000), antes de concluir que um ou
todos os coeficientes so no nulos, tem-se que observar a estatstica do teste de
Wald. O teste de Wald pode ser obtido comparando a estimativa de mxima
verossimilhana de determinado coeficiente,

, com a estimativa do seu erro


padro. Assim as hipteses so as seguintes:
,



e a estatstica teste definida pela seguinte expresso:


em que

o desvio padro estimado do estimador do parmetro

o
valor que se deseja testar. A estatstica

apresenta uma distribuio qui-quadrado


com nmero de graus de liberdade igual ao nmero de restries. Os valores
crticos,

, para as estimativas dos parmetros so os nveis para os quais se o


valor do teste de Wald calculado para um determinado

for maior que o

, se
rejeita a hiptese nula para um dado nvel de significncia. No caso do teste dos
coeficientes nulos,

, e ento
40



em que

o desvio padro estimado do estimador do parmetro

.
Observando que

so estimadores de mxima
verossimilhana de

respectivamente, rejeita-se a hiptese nula de


se ||

. Conforme Hosmer e Lemeshow (2000), os Intervalos de Confiana
so os seguintes:
Coeficiente de Inclinao:


Intercepto:


Logito:

(
)

)

3.1.5 Regresso Logstica Mltipla
A Regresso Logstica Mltipla, assim como a Regresso Logstica
Simples, contm a varivel resposta como uma varivel dicotmica, porm possui
mais de uma varivel independente (

). Sabendo que a probabilidade condicional


da varivel resposta, considerando variveis independentes (

)
definida por:
|
Neste caso, como trata-se de variveis independentes, o logito da
Regresso Linear Mltipla definido por:


Com isso, o Modelo de Regresso Linear Mltipla ser:


41


escrevendo o modelo linearizado tem-se:
(


Mesmo linearizado, este modelo apresenta erros heterocedsticos (com
varincia no constante) o que torna no aconselhvel a utilizao do mtodo de
mnimos quadrados para a estimao dos parmetros do modelo.
Sendo a funo de mxima verossimilhana


em que

a funo de probabilidade de

e o
nmero de observaes.
A maximizao desta funo um problema equivalente a
maximizao do seu logaritmo, j que a funo logaritmo uma funo montona
crescente. Para facilitar a obteno do maximizante, tem-se o logaritmo da funo
de verossimilhana ou funo log-verossimilhana, como descrito anteriormente:


O estimador de mxima verossimilhana dos componentes de
correspondem, por definio, aos valores desses parmetros que maximizam

. Para obter este mximo, torna-se necessrio calcular a primeira e a


segunda derivada de

, designadas por Gradiente e matriz Hessiana .


No possvel encontrar diretamente uma soluo para este problema
que assegure a condio necessria para o mximo de

. Assim, este
problema de maximizao resolvido por meio de um algoritmo de otimizao. Um
dos algoritmos de otimizao mais utilizados o de Newton-Raphson. Amemiya
(1985) demonstra que o log da funo de verossimilhana globalmente cncavo,
42


assim o algoritmo de Newton-Raphson converge para um nico mximo (os
estimadores de mxima verossimilhana) independentemente dos valores de
inicializao adotados.
Se os elementos da matriz Hessiana so avaliados como os
estimadores de mxima verossimilhana

, para estimar os valores das


varincias e covarincias dos coeficientes basta inverter a matriz Hessiana
(MONTEGOMERY; PECK; VINING, 2006).
(

) (


Segundo Hosmer e Lemeshow (2000) e Montegomery, Peck e Vining
(2006) o ajuste do modelo estimado (

) (

, em que uma matriz


contendo os dados de cada observao e uma matriz diagonal
cujos elementos da diagonal principal so

. Assim as matrizes e
so:
[

]
e
[

]
Lembrando que o j-simo elemento da diagonal da matriz

a
varincia estimada

, podendo ser denotada por

, e os elementos fora da
diagonal principal so covarincias de

, denotadas de

, o estimador
do erro padro definido por:

) [

]


em que

representa a estimaiva do erro padro.



43


3.1.5.1 Teste de significncia dos parmetros do modelo
Assim como na Regresso Linear, a primeira etapa verificar a
significncia dos parmetros associados s variveis no modelo. O teste baseado na
estatstica o mesmo para o caso univariado, mas agora, substitui-se os valores
ajustados pelo vetor

que contm parmetros e testa-se as seguintes


hipteses:
,

)

Como mencionado, a estatstica nq eq. (5) tem distribuio

e
rejeita-se se

se

. Ao rejeitar

conclui-se que pelo menos um


coeficiente ou talvez todos os coeficientes so diferentes de zero.
Aps concluir que pelo menos um parmetro diferente de zero,
realiza-se o teste univariado de Wald, em que as hipteses so:
,



ou seja, testa-se a significncia da varivel

. Para isso calcula-se a estatstica j


descrita anteriormente:


Ao calcular

rejeita-se

se

for menor que o valor do percentil da


distribuio da estatstica teste

, ou seja,

no significativa para o modelo, ou,


conclui-se por meio do valor-p que se for maior que um pr definido, o parmetro
significativo para o modelo (no se rejeita

).
Aps retirar-se variveis no significativas, realiza-se novamente o
teste , em que, agora compara-se o valor de com variveis iniciais menos o
valor sem as variveis retiradas. Caso esta diferena seja menor que a
estatstica

, as variveis que foram retiradas no entram no modelo.



44


3.1.5.2 Estimao do Intervalo de Confiana dos Parmetros
Os mtodos usados na estimao do intervalo de confiana do modelo
de Regresso Logstica Mltipla so os mesmos da Regresso Linear Simples.
Ento os intervalos de confiana so definidos a seguir.
Coeficientes:

)
Para obter o intervalo de confiana da transformao logito estimada
(

) necessrio saber a soma das varincias para


cada varivel. Como (

) (

(ver eq. (6)), ento:


Logo, o intervalo de confiana definido por:



3.1.5.3 Razo de Chance
Uma anlise para explorao dos dados diz respeito ao clculo dos
odds e dos odds-ratio (razes de chance). O odds pode ser interpretado como a
comparao de dois nmeros: o primeiro traduz a probabilidade de ocorrncia de um
evento e o segundo, a probabilidade do mesmo evento no ocorrer, ou seja:




J o odds-ratio a razo entre os odds, ou seja

|
|

Sendo assim, a razo de chance uma medida de associao que
indica o quanto mais ou menos provvel a probabilidade de obter uma resposta
positiva, consoante ao valor da varivel independente. Por exemplo, para variveis
explicativas dicotmicas, considerar-se que Y indica se o indivduo est em situao
regular ou devedora, e X (varivel indenpendente) seja a presena ou ausncia de
45


um determinado fator de risco (medida criada a partir da caracterstica do indivduo),
ento a razo de chance indica o quanto mais provvel a ocorrncia do evento,
neste caso, de o indivduo estar em situao devedora, consoante ao fator de risco
estar ou no presente.
Uma razo de chance igual a 1 indica ausncia de relao associativa
entre a varivel explicativa e a varivel dependente. Uma razo de chance menor
que 1 indica que a varivel explicativa est associada negativamente varivel
resposta, ou seja, quanto menor a razo de chance, maior a probabilidade de o
cliente apresentar menores riscos de incumprimento, indicando que o fator de risco
apresenta algum poder para discriminar quem so os bons pagadores. J uma razo
de chance maior que 1 significa que quanto maior a razo de chance, maior a
probabilidade de o cliente apresentar maiores riscos de incumprimento,
evidenciando que o fator de risco considerado apresenta poder para discriminar
maus pagadores.
Na maioria dos modelos, os coeficientes estimados das variveis
independentes representam uma inclinao ou taxa de alterao de uma funo da
varivel dependente por acrscimo de uma unidade na varivel independente.
No modelo de Regresso Logstica

o coeficiente
de inclinao que representa a variao na transformao logito para o acrscimo de
uma unidade na varivel independente . Toda a interpretao depende da natureza
da varivel independente. No exemplo citado anteriormente, existe a situao da
interpretao dos coeficientes de Regresso Logstica quando a varivel
independente dicotmica. Segundo Hosmer e Lemeshow (2000) esta situao
pode ser apresentada como:



Total 1 1

46


O odds para o evento definido como

e a odds para o
evento quando

. Sendo assim, o odds-ratio (razo de chance)


definido como o odds de pelo odds de , como:


O log de odds-ratio conhecido como logito :
(


) (


)
ento o da razo de chances :
[


] [


Considerando o exemplo mencionado anteriormente, se a
ocorrncia de ser um mau pagador a metade entre aqueles que no tem o fator de
risco do que entre os indivduos que tem fator de risco. Se , ento a chance
de um indivduo ser mau pagador 9 vezes maior em indivduos com o fator de risco
do que um indivduo sem o fator de risco.
O estimador de tende a ter distribuio assimtrica. A assimetria
amostral de devido ao fato que ela varia entre e , com valor 0
ocorrendo quando . Para tamanhos amostrais grandes, a distribuio de
ser normal e portanto simtrica. Assim o intervalo de confiana de
ser:
*

)+
Quando tratar-se de uma varivel independente com mais de duas
categorias pode-se usar um conjunto de variveis dicotmicas para represent-las.
47


Fixa-se um grupo como referncia com o qual os outros grupos sero comparados.
O mtodo para especificao das variveis dicotmicas envolve fazer todas elas
iguais a zero para o grupo de referncia e fixar uma nica varivel de planejamento
igual a 1 para cada um dos outros grupos. Sendo assim se a varivel independente
contiver categorias, sero criadas variveis dicotmicas para explic-las:
Categorias
de


A 0 0
B 1 0
C 0 1

O intervalo de confiana para a razo de chance ser exatamente o
mesmo que apresentado na eq. (7). Segundo Hosmer e Lemeshow (2000) esse
mtodo de codificao de variveis de planejamento o mais utilizado na literatura e
conhecido como codificao de clula referente, pois o interesse estimar o risco de
um grupo com a ocorrncia em relao ao outro grupo sem a ocorrncia.
Tratando-se de uma varivel independente contnua o das chances
para uma variao de unidades em fornece a diferena logito

, e a razo de chances ser:



O intervalo de confiana para a razo de chance (HOSMER;
LEMESHOW, 2000) definida por:
*

)+
A interpretao do coeficiente estimado para uma varivel contnua
similar ao de uma varivel nominal. A principal diferena que necessrio definir
que quantidade seria uma mudana significativa nas variveis contnuas.

48


3.1.5.4 Seleo de variveis
Quando se selecionam dados no mbito de um problema de
classificao, a tendncia acrescentar o maior nmero de variveis possveis, de
forma a melhor caracterizar o problema. Acontece, normalmente, que muitas das
variveis no esto associadas a varivel resposta (target), havendo nestes casos,
dois tipos de variveis: as variveis completamente irrelevantes, ou seja, que em
nada distiguem a varivel resposta; e as variveis redundantes, ou seja, que em
nada acrescentam a discriminao da varivel resposta dado que alguma outra
varivel j acrescentou a mesma informao. Por esta razo, comum em estudos
deste gnero, considerarem-se diversas abordagens de forma a encontrar as
relaes tidas entre as variveis independentes e a varivel resposta.
O propsito da seleo de variveis consiste em, a partir de um
conjunto inicial de F variveis, selecionar um subconjunto H, tal que H<F, tendo sido
H apurado segundo um determinado critrio que permita identificar as variveis
relevantes para o problema em anlise. A eliminao de variveis inteis permite
reduzir a dimenso dos dados e a sua complexidade e portanto, reduzir o tempo de
processamento dos mtodos. Alm disso, segundo Hosmer e Lemeshow (2000), a
seleo de variveis um passo muito importante, pois tendencialmente, com um
menor nmero de variveis o modelo ser mais robusto.
Para alcanar o objetivo na seleo de variveis necessrio: (1) um
plano de seleo de variveis, (2) um mtodo para a validao do modelo em termos
das variveis individuais e tambm do ponto de vista do ajuste com todas no modelo
(HOSMER; LEMESHOW, 2000).
Na obteno de um modelo estatstico procura-se o mais parcimonioso,
mas que explique bem os dados. A vantagem em minimizar o nmero de variveis
que o modelo resultante provavelmente mais estvel numericamente e mais fcil
de ser generalizado, pois quanto mais variveis o modelo tiver, maiores sero os
erros padro estimados e o modelo fica cada vez mais dependente dos dados
observados.
Conforme Hosmer e Lemeshow (2000), as etapas para a seleo de
variveis so as seguintes:
49


1) O processo de seleo comea com uma anlise exploratria
univariada cuidadosa para cada varivel. Deve-se tomar cuidado com a varivel
independente, pois dependendo de seu tipo podem ocorrer tabelas de contigncia
com caselas zero, que produzir uma estimativa pontual univariada para uma das
razes de chances iguais a zero ou infinito.
2) Depois feita a seleo para uma anlise multivariada. A
varivel cujo teste univariado tiver valor-p < 0,25 candidata a entrar no modelo
multivariado juntamente com outras variveis consideradas importantes pelo
especialista responsvel pela anlise.
O valor de nvel de significncia usado como critrio para
seleo de variveis, pois o uso do valor tradicional ( ) frequentemente falha
na identificao de variveis conhecidas como importantes.
3) Nesta etapa, a importncia de cada varivel includa no modelo
deve ser verificada. Por isso, deve-se calcular a estatstica de Wald e uma
comparao de cada coeficiente estimado com o coeficiente do modelo univariado
contendo apenas aquela varivel. As variveis que no contriburem para o modelo
baseado neste critrios devem ser eliminadas e um novo modelo deve ser ajustado.
O novo modelo comparado com o modelo anterior (sempre com mais variveis)
por meio do teste da razo de verossimilhana. Os coeficientes estimados para as
variveis restantes devem ser comparados com aqueles do modelo completo.
necessrio, verificar as variveis cujos coeficientes tm mudanas marcantes em
magnitude. Este processo de eliminao, reajustamento e verificao feito at que
todas as variveis importantes estejam includas no modelo e aquelas excludas no
tenham importncia estatstica.
4) Aps a obteno do modelo com todas as variveis essenciais,
interessante considerar os termos de interao entre as variveis. Primeiro, inclu-
se no modelo principal cada interao e compara-se o modelo de interao com o
modelo principal. Selecionam-se as interaes significativas e ajusta-se um novo
modelo. O novo modelo comparado com o modelo principal. Se no existir efeito
de interao o processo est completo, mas, se existir o efeito de interao, o
processo continuar at que se determine o modelo completo com as interaes.
50


Outra maneira para selecionar variveis o mtodo Stepwise. Neste
tipo de seleo, as variveis so selecionadas tanto por incluso como por excluso
no modelo em um uso sequencial baseado exclusivamente em critrio estatstico.
Existem duas outras verses do procedimento de seleo:
a) Seleo forward com teste para eliminao backward;
b) Eliminao backward seguido de um teste de seleo forward. A
seleo stepwise til porque ela constri modelos em forma sequencial e permite o
exame de um conjunto de modelos que podem no ter sido examinados.
A seleo stepwise um algoritmo estatstico que verifica a importncia
das variveis e tambm em inclu-las ou exclu-las com base numa regra de deciso
fixada. A importncia de uma varivel definida em termos de uma medida da
significncia estatstica do coeficiente da varivel (HOSMER; LEMESHOW, 2000).
Segundo Hosmer e Lemeshow (2000), na Regresso Linear Stepwise,
o teste F usado desde que os erros sejam assumidos com distribuio Normal. Na
Regresso Logstica Stepwise, os erros so assumidos a partir da distribuio
Binomial e a significncia avaliada pelo teste razo de verossimilhana qui-
quadrado.
Assim, em cada passo do procedimento, a varivel mais importante, em
termos estatsticos, ser a varivel que produz a maior mudana no log de
verossimilhana relativo a um modelo no contendo a varivel (modelo com maior
estatstica da razo de verossimilhana ) (HOSMER; LEMESHOW, 2000).
Depois que o modelo de Regresso Logstico ajustado, podem
ocorrer alguns problemas numricos:
a) Frequncia de zeros em uma tabela de contigncia: Uma prtica
comum para evitar uma estimativa do ponto indefinido adicionar 1,5 para cada
clula. Este valor adicionado permite a mudana da anlise de uma tabela de
contingncia simples, mas raramente satisfatrio para um conjunto de dados mais
complexo (HOSMER; LEMESHOW, 2000).
A presena de uma clula de contagem zero deve ser detectada na
anlise univariada dos dados, pois esta clula causar problemas de estgio de
modelagem de anlise. Para contornar este problema, pode-se juntar as categorias
51


da varivel em uma forma significativa para elimin-la, ou se a varivel no mnimo
de escala ordinal, trat-la como se ela fosse contnua.
b) Covariveis discriminam perfeitamente: quando um conjunto
de covariveis separa completamente os grupos respostas. Se uma covarivel
conhecida, o valor da varivel resposta com certeza conhecido.
c) Colinearidades: Como no caso da Regresso Linear, o ajuste do
modelo via Regresso Logstica tambm sensvel para colinearidades entre as
variveis independentes no modelo.
Hosmer e Lemeshow (2000) destacam que os problemas numricos de
uma clula de contagem zero, separao completa e colinearidade, so sempre
manifestados por erros padro estimados extraordinariamente grandes e algumas
vezes, por coeficientes estimados grandes.

3.1.5.5 Medidas de qualidade do ajuste
Aps a estimao do modelo, o mais adequado avaliar a qualidade do
ajuste do mesmo. Com isso, o interesse testar as hipteses:
{



Para verificar a qualidade do ajuste, necessrio verificar se o valor
estimado pelo modelo proposto igual aos valores reais. O esperado que as
distncias entre (vetor da varivel resposta) e (vetor dos valores ajustados)
sejam pequenas.
Existem algumas estatsticas testes capazes de testar essas hipteses,
so elas:

3.1.5.6 Estatsticas Pearson Qui-Quadrado e Deviance
Na Regresso Logstica, segundo Hosmer e Lemeshow (2000), existem
muitas formas de medir a diferena entre o valor esperado e o valor ajustado. Uma
forma ajustar a -sima covarivel padro como

.
52



em que:

o nmero de observaes que tiveram os mesmos valores, para


sendo que o nmero de observaes distintas;

a probabilidade condicional da varivel resposta, denotada aqui como

a transformao logito estimada.


Em outras palavras, como se fossem criados grupos, onde as
observaes so as mesmas (ver exemplo no apndice 1). Sabendo-se como
calcular , a qualidade do ajuste pode ser avaliada com a estatstica qui-quadrado
de Pearson, que compara as probabilidades observadas e esperadas de sucesso e
fracasso em cada grupo de observaes. O nmero esperado de sucesso

e o
nmero esperado de fracassos

. A estatstica de Pearson
(MONTEGOMERY; PECK; VINING, 2006):

[(


A estatstica

pode ser comparada a uma distribuio qui-quadrado


com graus de liberdade. Pequenos valores para a estatstica (ou um
valor-p grande) implica que o modelo proporciona um ajuste satisfatrio aos dados.
A qualidade do ajuste tambm pode ser avaliada utilizando o resduo
de Deviance. A estatstica de Deviance como o dobro da diferena do log da
verossimilhana entre o modelo saturado e o modelo completo (que o modelo
atual), que foi ajustado para os dados com probabilidade de sucesso estimado

. A Deviance definida como:


53





*

) (

) (

)+


Note que, no clculo da Deviance,

) se

e se


tem-se (

) (

) . Quando o modelo de regresso logstica


ajustado adequadamente e o tamanho da amostra grande, a Deviance segue uma
distribuio qui-quadrado com graus de liberdade em que o
nmero de parmetros no modelo. Pequenos valores de Deviance (ou valor-p
grande) implica que o modelo proporciona um bom ajuste aos dados, enquanto
grandes valores da Deviance indicam que o modelo atual no adequado
(MONTEGOMERY; PECK; VINING, 2006).

3.1.5.7 Teste de Hosmer-Lemeshow para adequao do modelo
Hosmer e Lemeshow propuseram um teste para verificar a
adequabilidade do modelo quando no h rplica nas variveis regressoras. Neste
procedimento as observaes so classificadas em grupos com base nas
probabilidades estimadas de sucesso e geralmente, cerca de 10 grupo so usados
(quando , os grupos so chamados de decis de risco) e o nmero de
sucessos observados

e fracassos

so comparados com a frequencia


esperada em cada grupo,

, em que

o nmero de observaes
em cada grupo e a probabilidade mdia de sucesso estimada em cada um dos -
simo grupo definida por


Se o modelo de regresso logstica est correto, a estatstica de
Hosmer Lemeshow (2000) segue uma distribuio qui-quadrada com graus de
liberdade quando a amostra grande. Grandes valores de estatstica implicam
que o modelo no tem um adequado ajuste aos dados (MONTEGOMERY; PECK;
VINING, 2006).
54


3.1.5.8 Matriz de confuso
A matriz de confuso resume os resultados do modelo. Esta tabela,
tambm conhecida como tabela de classificao, o resultado da classificao
cruzada da varivel resposta com os valores dicotmicos cujos valores so
derivados da probabilidade estimada pelo modelo (HOSMER; LEMESHOW, 2000).
Com o modelo ajustado atribui-se um valor estimado de (ou 0, ou 1) a
partir da probabilidade estimada pelo modelo (

) para cada indivduo. Assim o -


simo indivduo ser classificado como 1 se

(em que um ponto de corte


previamente definido, conhecido como cutoff) e 0 caso contrrio. Um valor, segundo
Hosmer e Lemeshow (2000), comum para . Para um determinado cutoff
possvel determinar a matriz de confuso, como apresentada a seguir:

Valores Previstos ERROS
1 0 1 0
Valores
observados
1
d
Verdadeiro Positivo (VP)
c
Falso negativo (FN)



0
b
Falso Positivo (FP)
a
Verdadeiro Negativo
(VN)




Por meio da matriz de confuso possvel determinar a porcentagem
de classificaes corretas do modelo ajustado, que so as medidas de
especificidade e de sensitividade. Sensitividade a razo do grupo com
classificao favorvel do grupo com a varivel de interesse (classificado ,
observado ) sobre o total desse grupo observado, ou seja:



A especificidade a razo do outro grupo com classificao favorvel,
com a outra varivel (classificao e observado ) sobre o total desse
grupo observado:
55




A razo geral do modelo de classificao correta estimada como:



e o erro total do modelo de classificao como:



Segundo Choro (2005) importante realar nessa matriz, vrios
aspectos importantes:
1) Erro tipo I
Designado por (dimenso do teste), a razo de observaes em
situao 1 ( ) classificados como sendo 0 ( ). Imagine uma
instituio financeira que tenha uma taxa elevada (clientes devedores
sendo classificados como clientes regulares) significa que a instituio
muito generosa com a concesso de crdito estando, ento, exposta ao
risco de crdito.
2) Erro tipo II
Designado por (complementar da potncia do teste) a razo de
observaes em situao 0 ( ) classificados como 1 ( ). Na
instituio financeira citada, se elevado por um longo perodo haver
perdas nas vendas e concomitantemente quebra nos lucros. Esta
instituio est exposta ao risco comercial, ou seja, ao risco de perda de
quota de mercado.
3) Cutoff
Os erros e esto dependentes do cutoff considerado para classificar a
observao com 0 ou 1. Alm disso, a matriz de confuso muitas vezes
usada para comparar diferentes modelos de classificao, tendo como
hiptese que os dois tipos de erros tm a mesma importncia para a
instituio.

56


3.1.5.9 rea abaixo da curva ROC
A curva ROC (Receiver Operating Characteristic), tambm conhecida
como curva de Lorenz (HENLEY; MCNEIL, 1982) baseada nos conceitos de
sensitividade e especificidade. Estatsticas (medida de classificao correta) que
podem ser obtidas a partir da construo de matrizes de confuso criadas a partir do
resultado da classificao dos indivduos, gerado pelo modelo.
De acordo com Hosmer e Lemeshow (2000), para fazer a curva plota-se
a probabilidade de deteno do verdadeiro sinal (sensitividade) e o falso sinal (1-
especificidade) para completo alcance dos possveis pontos de corte.
A rea abaixo da curva ROC, que varia entre 0 e 1, fornece uma
medida da capacidade do modelo discriminar entre indivduos com o fator de
interesse versus os que no tem o fator de interesse. Contudo, quando se considera
um teste onde esto presentes duas populaes, uma com indivduos 1 (presena
do fator de interesse) e outra de indivduos 0 (ausncia do fator de interesse), muito
raramente se observa uma perfeita separao entre as duas populaes. Os
resultados deste teste apresentam uma sobreposio conforme nota-se na Figura 2.
Figura 2 - Funes de densidade de duas populaes
Para a direita do cutoff (teste positivo) identifica-se uma rea
correspondente ao falso positivo (FP) e outra ao verdadeiro positivo (VP). Para a
esquerda do ponto de corte (teste negativo) identifica-se uma rea correspondente
aos falsos negativos (FN) e outra aos verdadeiros negativos (VN).
Quanto menor for a sobreposio das distribuies, menor a rea
correspondente ao falso positivo. Assim, valores de corte elevado conduzem a um
teste pouco sensvel e muito especfico; por outro lado, valores de cutoff baixos
conduzem a um teste muito sensvel e pouco especfico.
57


O objetivo escolher um ponto de corte timo, que maximize a escolha
de sensibilidade e especificidade, deve-se plotar um grfico semelhante ao grfico
da Figura 3, em que so sugeridos diversos pontos de corte e o ponto timo o
cruzamento da curva de sensibilidade e especificidade.







Figura 3 - Plotagem de Sensitividade e Especificidade contra os pontos de corte
J a Figura 4 ilustra a curva ROC, cuja rea abaixo da curva a medida
de discriminao (varia entre 0 e 1), ou seja, a capacidade preditiva do modelo
classificar corretamente as observaes como 0 ou 1.
Figura 4 - Plotagem de Sensitividade versus 1- Especificidade para possveis pontos de corte
O clculo da rea abaixo da curva ROC bastante intuitivo: Seja

o
nmero de indivduos com e

o nmero de indivduos com . Existem

pares em que os indivduos com so combinados com os indivduos


com . Destes,

pares determinada a proporo das vezes em que os


indivduos com tem a maior das 2 probabilidades. Imagine um caso em que
tem-se indivduos. O nmero de observaes com e .
58


Logo, comparaes podem ser feitas. Da contando o nmero de
vezes que o indivduo com tem maior probabilidade que o indivduo com
tem-se (contagem da estatstica U de Mann-Whitney). Assim a razo

, em que a rea abaixo da curva ROC .


Uma regra sugestiva para a intepretao da rea abaixo da curva ROC
:
Se discriminao pssima;
Se sem discriminao (mostra que a discriminao no
melhor que uma chance ao acaso);
Se discriminao fraca;
Se discriminao aceitvel;
Se discriminao excelente;
Se discriminao excepcional.

3.2 rvore de Deciso
A rvore de deciso utilizada como um instrumento de apoio tomada
de deciso que consiste numa representao grfica das alternativas disponveis
geradas a partir de uma deciso inicial. Uma das grandes vantagens de uma rvore
de deciso a possibilidade de transformao/decomposio de um problema
complexo em diversos sub-problemas mais simples.
As rvores de Deciso tem-se tornado populares para explorar,
identificar e classificar estruturas complexas, exigindo-se que tenham um tamanho
amostral razovel para a obteno de bons resultados (MCLACHLAN, 1992).
Existem dois tipos de rvores de deciso: rvores de regresso, quando a varivel
resposta quantitativa e as rvores de classificao, quando a varivel resposta
classificatria. Neste estudo aborda-se apenas as rvores de classificao.
Segundo Berry e Linoff (2004), rvore de Deciso uma ferramenta
muito poderosa e amplamente popular para classificao e predio, sendo seu
grande atrativo o fato de que rvores de deciso representam regras que podem ser
59


expressas em linguagem comum, de modo que os seres humanos possam entend-
las.
O algortmo da rvore de deciso muito flexvel porque opera com
todos os tipos de variveis, seja nas variveis independentes como na dependente,
no impondo nenhuma restrio s suas distribuies. Uma rvore de deciso tem o
poder de discriminar porque decompe a relao complexa existente entre a varivel
resposta e as vrias variveis explicativas em sub-problemas mais simples usando,
recursivamente, a mesma estratgia em cada sub-problema. O objetivo encontrar
uma rvore com a menor taxa de erro, menor complexidade, com poucos ns
terminais e que esteja adequada aos objetivos do estudo, tornando-se fcil de
interpretar.
Uma rvore de deciso representa uma segmentao hierrquica dos
dados. O segmento original o conjunto de dados inteiro que conhecido como o
n raiz da rvore. Ele o primeiro a ser dividido em dois ou mais segmentos por
meio da aplicao de uma srie de regras simples. Cada regra atribui uma
observao para um segmento com base no valor de uma entrada para essa
observao. De um modo semelhante, cada segmento resultante ainda dividido
em sub-segmentos, cada sub-segmento dividido em mais sub-segmentos e assim
por diante. Esse processo continua at que o particionamento no seja mais
possvel. Tal processo de segmentao conhecido como particionamento recursivo
e resulta em uma hierarquia de segmentos dentro de segmentos. A hierarquia
chamada de rvore e cada segmento ou sub-segmento chamado de n.
Qualquer segmento ou sub-segmento que est dividido em mais sub-
segmentos conhecido como n intermedirio. Um n com todos os seus
sucessores forma um ramo da rvore. Os segmentos finais que no so mais
particionados so conhecidos como ns terminais ou folhas da rvore. Cada folha
definida por uma combinao nica de regras usadas previamente. As folhas so
subconjunto disjunto dos dados originais, no h sobreposio entre eles e cada
registro no conjunto de dados pertence a uma e somente uma folha.


60


Um modelo de rvore de deciso composto por:
definio do n, ou regra, a fim de atribuir a cada registro de um
conjunto de dados um n folha;
probabilidades posteriores de cada n folha;
a atribuio de um nvel pretendido para cada folha;
Definies do n so desenvolvidos usando os dados de treinamento e
so expressos por regras simples. Probabilidades posteriores so calculadas para
cada n usando os dados de treinamento. A atribuio do nvel pretendido para cada
n feito tambm durante a fase de treinamento e as probabilidades posteriores so
dadas pela proporo de nveis da varivel resposta dentro de cada n e a
atribuio do nvel baseada nessa probabilidade, quando no se tem nenhum
outro atributo em questo, como o custo ou despesas.
Imagine um exemplo em que um futuro sorveteiro quer saber o que
predispe as pessoas a comprarem sorvete. Entre todas as pessoas observadas,
46% compra sorvete. Esta populao representada no n raiz da rvore, no topo
do diagrama. A Figura 5 mostra detalhadamente o caminho da rvore e suas regras.













61

























Figura 5 - Exemplo de rvore de deciso para uma varivel target binria (compra ou no compra)



N 1
Compra sorvete: 6
No compra sorvete: 7



Local
parque evento rua
N 2 (Folha)
Compra sorvete: 2
No compra sorvete: 0


Deciso: Compra sorvete

N 3
Compra sorvete: 2
No compra sorvete: 3



N 4
Compra sorvete: 3
No compra sorvete: 3



N 8 (Folha)
Compra sorvete: 1
No compra sorvete: 2


Deciso: No Compra
sorvete

N 7 (Folha)
Compra sorvete: 3
No compra sorvete: 0


Deciso: Compra
sorvete

N 6 (Folha)
Compra sorvete: 0
No compra sorvete: 1


Deciso: No Compra
sorvete

N 5 (Folha)
Compra sorvete: 2
No compra sorvete: 0


Deciso: Compra
sorvete

Idade
< 12 >= 12
Dia Ensolarado
Sim No
62


rvores de deciso simples so atraentes porque possuem uma
representao clara de como as variveis independentes determinam o alvo.
rvores tambm so atraentes porque aceitam vrios tipos de variveis: nominal,
ordinal e intervalar. Variveis nominais tm valores categricos sem ordem inerente.
Variveis ordinais so categricas com valores ordenados, por exemplo: ' frios',
'bom', 'quente', e 'muito quente'. Variveis intervalares so variveis que podem ser
calculadas. Temperatura uma varivel intervalar, quando seus valores so
expressos em graus. Uma varivel pode ser de qualquer tipo, independentemente
dela servir como uma varivel target (o propsito para criao da rvore) ou como
uma varivel input (as variveis de entrada para o modelo - so aquelas variveis
disponveis para uso nas regras de diviso).
As rvores tambm tm suas deficincias. Quando os dados no
contm uma relao simples entre as variveis de entradas e a varivel resposta, a
rvore pode acabar sendo uma rvore simplista demais. Uma rvore d a impresso
de que certos insumos exclusivamente explicam as variaes no alvo. Um conjunto
completamente diferente de insumos poderia dar uma explicao diferente e talvez
at melhor. E como mencionado anteriormente, sempre procura-se por uma rvore
com a menor taxa de erro, menor complexidade, com poucos ns terminais e que
esteja adequada aos objetivos do estudo, tornando-se fcil de interpretar.

3.2.1 Utilizao da rvore de Deciso
As rvores de deciso no so necessariamente utilizadas apenas para
modelagem preditiva. Existe uma lista de opes para a utilizao de uma rvore de
deciso, que so:

3.2.1.1 Seleo de variveis
Os dados chegam ao analista, normalmente, com muitas variveis. A
primeira misso encontrar alguma coisa interessante nos dados, que normalmente
contm variveis redundantes ou irrelevantes que ficam no caminho. A tarefa
preliminar determinar quais variveis so susceptveis de ser preditiva.
63


Uma prtica comum excluir variveis de entrada (independente) com
pouca correlao com a varivel resposta. Uma prtica alternativa a utilizao de
insumos que aparecem nas regras de diviso de uma rvore. rvores avisam
relaes a partir da interao dos insumos. Por exemplo, comprar sorvete pode no
ter correlao com o Local a menos que o tempo esteja ensolarado e quente. A
rvore nota as duas entradas. Alm disso, as rvores descartam entradas
redundantes. Dia ensolarado e temperatura, por exemplo, podem se correlacionar
com a compra de sorvetes, mas a rvore s precisa de uma das entradas.
O analista usaria, normalmente, as variveis selecionadas como as
variveis de entrada em um modelo como o de regresso logstica, por exemplo.
Porm as rvores no selecionam todas as variveis importantes para uma
regresso. A soluo sensata incluir algumas variveis a partir de outra tcnica,
tais como correlao. Nenhuma tcnica de seleo capaz de profetizar quais
variveis vo ser eficazes em outras ferramentas de modelagem.

3.2.1.2 Importncia da varivel
O analista pode querer usar tcnicas de seleo de variveis para
fornecer uma medida de importncia de cada varivel, em vez de apenas enumer-
las. Intuitivamente, as variveis usadas em uma rvore tm diferentes nveis de
importncia. O que torna uma varivel importante a fora da influncia e o nmero
de casos influenciados.
Alguns softwares implementam uma frmula que define a importncia
de uma regra de diviso: para uma varivel target intervalar, a importncia de uma
diviso a reduo na soma de erros quadrados entre o n e os ramos imediatos.
Para uma varivel target categrica, a importncia a reduo no ndice de Gini,
normalmente.

3.2.1.3 Deteco de interao
A partir das variveis selecionadas em uma regresso, normalmente
considera-se possveis efeitos de interao. Considere a modelagem do preo de
casas familiares. Suponha que os preos da maioria das casas no conjunto de
64


dados so proporcionais a uma combinao linear da metragem quadrada e a idade
da casa, mas as casas que fazem fronteira um campo de golfe so vendidas a um
preo acima do que seria esperado a partir da combinao do tamanho e idade.
Para criao do melhor modelo seria necessrio um indicador que informe se a casa
faz fronteira com o campo de golfe ou no. Dados raramente vm com as variveis
mais teis!
No entanto, parece plausvel que as casas que fazem fronteira com o
campo de golfe so aproximadamente do mesmo tamanho e foram construdas na
mesma poca. Se nenhuma das outras casas forem desse tamanho e nem foram
construdas durante esse tempo, ento essa combinao de tamanho e tempo
fornece uma indicao sobre a casa fazer fronteira com o campo de golfe. A
regresso deve conter trs variveis: metragem quadrada, idade e o indicador de
campo de golfe. O indicador construdo a partir da metragem quadrada e idade,
portanto, representa uma interao entre esses dois insumos.
Normalmente tenta-se multiplicar o tamanho pela idade, porm no
seria significativo. Uma sugesto, ento, desenvolver uma rvore e criar um
indicador para cada folha. Para uma observao particular, o indicador igual a um
(1) quando a observao pertence a aquela folha e caso contrrio igual a zero (0).
A regresso conter metragem quadrada, idade, e vrios indicadores, um para cada
folha da rvore. Se a rvore cria uma folha com apenas as casas que fazem fronteira
com o campo de golfe, ento, ter-se- incluido os efeitos de interao direita. Os
indicadores para as outras folhas no iriam estragar o ajuste. Indicadores para ns
no-folha so desnecessrios porque seriam iguais a soma de indicadores de seus
descendentes.

3.2.1.4 Valores faltantes
comum trabalhar com dados nos quais boa parte das variveis
contm uma quantidade considervel de dados faltantes. rvores de deciso so
mais tolerantes falta de dados do que os modelos de regresso, por exemplo. Em
uma regresso, ao combinar vrias entradas, uma observao faltante em qualquer
varivel input deve ser descartada. Para o mais simples dos algoritmos de rvore, as
65


observaes que precisam ser excludas so aquelas em que no se tem a varivel
target.
Valores faltantes podem causar uma perda enorme de dados em
dimenses elevadas. Por exemplo, suponha que cada uma das variveis de
entrada tenha por cento de dados faltantes. Nesta situao, a proporo esperada
de dados disponveis (sem missing) definida por

. Se tem-se 1% de dados
ausentes para 100 variveis input, tem-se apenas 37% dos dados para
anlise. No caso de 200 variveis com , tem-se 13% dos dados
disponveis e se forem 400 variveis com um mesmo , tem-se apenas 2% de
informao. Se os dados faltantes aumentarem para 5% , tem-se menos
de 1% dos dados disponveis, com 100 variveis de entrada.
Trabalhando com uma regresso com dados faltantes pode-se substituir
primeiro os valores em falta, por palpites. Isso chamado de imputao, uma
abordagem natural a de ajustar um modelo com os valores no-missing para
prever os que faltam. rvores podem ser a melhor ferramenta de modelagem para
este fim, por causa de sua tolerncia falta de dados, a sua aceitao de diferentes
tipos de dados e sua robustez nas suposies sobre as distribuies das variveis
de entrada. Para cada entrada da regresso, construir uma rvore que use as outras
variveis de entrada para prever o dado faltante. Ou seja, se , e representam
as variveis de entradas (input), cria-se, ento, uma rvore para prever em funo
de e , outra rvore para prever em funo de e , e outra para prever dado
e .

3.2.1.5 Interpretao do modelo
rvores so, por vezes, usadas para ajudar a compreender os
resultados de outros modelos, um exemplo ocorre em pesquisa de mercado. Uma
empresa pode oferecer muitos produtos e diferentes clientes esto interessados em
produtos diferentes. Uma tarefa de pesquisa de mercado segregar os potenciais
clientes em segmentos homogneos e em seguida, atribuir campanhas de marketing
para esses segmentos. Normalmente, nenhuma informao est disponvel sobre a
resposta dos clientes e assim nenhuma varivel target existe.
66


Segmentao baseada em similaridades entre as variveis de
entrada. As pessoas diferem um pouco em suas opes de compra dependendo da
sua demografia: idade, situao familiar e onde vivem. Informaes demogrficas
so relativamente fceis de se obter, e os dados faltantes, muitas vezes, podem ser
imputados utilizando informaes do censo.
Aps os segmentos serem construdos, a idade mdia, renda e outras
estatsticas esto disponveis para cada um deles. No entanto, essas estatsticas
demogrficas no so muito sugestivas de quais produtos o segmento est
interessado. O prximo passo, ento, selecionar uma amostra de cada segmento e
perguntar s pessoas sobre seu estilo de vida e preferncias de produtos. Por fim,
combina-se as amostras de todos os segmentos em um nico conjunto de dados e
cria-se uma rvore usando a perguntas da pesquisa como variaveis de entrada e o
nmero do segmento como a varivel target. Usando apenas alguns segmentos com
um nmero igual de pessoas em cada um aumenta a chance de se obter uma rvore
til. A idia que a rvore caracterize alguns segmentos pelo tipo de roupas, carros,
ou hobbies que sugerem quais produtos cada segmento de pessoas gostaria de
comprar.

3.2.1.6 Modelagem preditiva
Como listado anteriormente, a rvore pode ajudar a superar alguns
obstculos na modelagem preditiva, em cada exemplo a rvore ajuda a preparar os
dados ou interpretar os resultados de um outro modelo preditivo. No entanto, muitos
autores compartilham a idia comum de que as rvores por si s so eficazes
modelos preditivos (MORGAN; SONQUIST, 1963; KASS, 1980; BREIMAN et
al.,1984; QUINLAN, 1979). Cada autor pode descrever estudos em que as rvores
foram usadas para predio.
rvores no substituem outras tcnicas de modelagem. Trata-se
apenas de mais uma tcnica disponvel para anlise, que pode ser usada para
vrios objetivos.

67


3.2.2 Como construir uma rvore de deciso
Para que uma rvore seja construda com sucesso necessrio que os
dados sejam divididos utilizando o mtodo do particionamento recursivo. Existem
diversas formas de diviso e de seleo de qual varivel ser usada em cada regra.
Disserta-se a seguir os pontos mais importantes para o estudo em questo. Utiliza-
se como premissa o fato da varivel target ser uma varivel binria e descreve-se os
mtodos possveis.

3.2.2.1 Como uma regra criada usando uma diviso binria
Na diviso binria, dois galhos so criados em cada n. Quando uma
varivel intervalar utilizada para particionar as observaes em dois grupos, um
valor especfico dessa varivel pode ser escolhido. Por exemplo, imagine a varivel
investimento (valor investido no ltimo ms), um possvel valor para a quebra
poderia ser R$4.000,00. As observaes com investimento menor que valor da
quebra (R$4.000,00) so armazernados no galho esquerdo e as observaes com
investimento maior ou igual ao valor da quebra sero armazenados no galho
direito. No caso de mltiplas divises, mais de dois galhos so criados a partir de um
n. Por exemplo, a varivel investimento poderia ser dividida como R$2.000,00 -
R$4.000,00, R$4.000,01 - R$6.000,00, R$6.000,01 - R$8.000,00, etc.
Com o propsito de dividir qualquer segmento ou sub-segmento do
conjunto de dados em um n, necessita-se calcular algum valor que mensure qual
seria a melhor diviso, dado todas as variveis de entrada, mais o possvel valor de
quebra de cada uma delas. A idia localizar o melhor valor de quebra dentro de
uma varivel e comparar esse valor com todos os outros valores de quebra das
outras variveis input. O mtodo de clculo desse valor que mensura qual o melhor
valor de quebra pode ser feito de diversas formas.
O processo de seleo da melhor separao consiste em duas etapas.
No primeiro passo, o melhor valor de separao para cada entrada determinado.
Na segunda etapa, a melhor varivel input dentre todas as variveis de entrada
selecionada por meio da comparao do valor da melhor diviso de cada varivel
com o valor da melhor diviso das outras variveis e seleciona-se a varivel input
68


cujo valor de separao produz o maior valor. Este processo pode ser ilustrado
pelo seguinte exemplo:
Suponha-se que existam 50 variveis explicativas em um determinado
estudo, representadas por

. O algoritmo da rvore comea com a


varivel

e examina todas as candidatas divises na forma

, em que um
valor de separao que est entre o mnimo e o mximo dos valores de

. Todas as
observaes que tiverem

iro para o n filho da esquerda e todas as


observaes em que

iro para o n filho da direita. O algoritmo percorre


todos os possveis valores de diviso na mesma varivel de entrada e seleciona o
melhor valor de diviso. Imagine que para a varivel

o melhor valor de separao


seja

. Esse mesmo processo repetido para

e tambm para

at
definirem-se os melhores valores de diviso como sendo

. Tendo
encontrado o melhor valor de separao para cada varivel de entrada, o algoritmo
compara esses valores para encontrar a varivel de entrada cujo melhor valor de
separao oferece a melhor repartio dentre todas as variveis testadas. Suponha
que

o melhor valor de diviso para a varivel

e suponha que


escolhida como a melhor varivel para realizar a diviso do n. Por conseguinte, o
n particionado usando a varivel

de entrada. Todos os registros com

so enviados para o n filho esquerdo e todos os registros com

so
enviados para o n filho direito. Este processo repetido para cada n. Variveis
diferentes podem ser selecionadas em ns diferentes.

3.2.2.2 Mensurar a importncia de uma diviso quando a varivel resposta
binria
O valor que representa a importncia da separao pode ser
mensurado de diversas formas e terminado pelo analista responsvel. Quando a
varivel resposta binria ou categrica com mais de 2 nveis, existem duas
maneiras de mensurar a importncia da diviso: pelo grau de separao alcanado
na diviso, ou pela reduo da impureza atingida na separao. Normalmente o
grau de separao medido pelo valor-p do teste Qui-Quadrado de Pearson e a
reduo de impurezas medido pela reduo da entropia ou pela reduo do ndice
69


de Gini. J quando a varivel resposta contnua, essa importncia pode ser
mensurada pelo teste F, que testa cada grau de separao para os ns filhos.

3.2.2.2.1 Grau de separao
Todas as separaes bidirecionais dividem um n pai em dois ns
filhos. Logworth uma medida de como esses ns filhos diferem um do outro.
Quanto maior for a diferena entre os dois ns filhos e quanto maior o grau de
separao alcanado pela diviso, melhor a diviso considerada.
Imagine uma situao em que a varivel resposta seja uma varivel
binria, sendo 1 o indivduo respondente e 0 o no-respondente e a varivel
investimento seja uma varivel explicativa. Cada linha do conjunto de dados
representa uma observao (ou indivduo). A Tabela 1, a baixo, mostra uma vista
parcial do conjunto de dados, que esto expostos ordenados pela varivel
investimentos.
Tabela 1 - Demonstrao de uma base de dados com varivel resposta binria
Indivduos (Obervaes) Resposta Invenstimento (R$)
1 0 2000
2 0 3000
... ... ...
278 1 10000
... ... ...
10.000 1 200000
Os dados mostrados na Tabela 1 podem ser divididos em diferentes
valores da varivel investimento. Em cada valor de separao, uma tabela de
contingncia 2x2 pode ser construda, como mostrado na Tabela 2 (exemplo de uma
diviso). As colunas representam os dois ns filhos que resultaro da divis, e as
linhas representam o comportamento da varivel resposta.
Tabela 2 - Tabela de Contigncia quando a diviso realizada em R$2.000 da varivel
investimento






Total
Respondente (1)


No-Respondente (0)


Total


70


Para avaliar o grau de separao alcanado por uma diviso,
necessrio calcular o valor da estatstica qui-quadrado

e testar a hiptese nula


de que a proporo de respondentes entre aqueles com investimentos menores que
no diferente daqueles com investimento maior ou igual a . Isto
pode ser escrito como:


Sob a hiptese nula, o valor esperado de cada casela exposto na
Tabela 3.
Tabela 3 - Tabela de Contigncia quando a diviso realizada R$2.000 da varivel
investimento, sob a hiptese nula


A estatstica qui-quadrado calculada da seguinte forma:


O valor-p de

encontrado resolvendo a equao

| . O logworth simplesmente
calculado como

. Quanto maior for o logworth (e, por


conseguinte, quanto menor for o valor-p), melhor ser a separao.
Imagine que este primeiro logworth calculado a partir da primeira
diviso chamado

. Outra separao feita no prximo nvel do


rendimento (por exemplo ), outra tabela de contingncia feita, e o logworth
calculado da mesma maneira. O nome desse novo clculo

. Se
existem valores distintos para a varivel investimento no conjunto de dados,
tabelas de contingncia sero criadas, e o logworth calculado para cada uma. O
valor calculado para o logworth de cada tabela de contingncia so

. A diviso que resulta no maior logworth


selecionada.





Respondente (1)


No-Respondente (0)


71


Suponha que o melhor valor de diviso de investimento de ,
com o logworth de . Agora considere a prxima varivel, Idade. Se h valores
distintos de idade nos dados, divises sero consideradas. Considerando a
melhor diviso de Idade como , com o logworth de . Se a idade e o
investimento so as nicas variveis explicativas no conjunto de dados, ento a
varivel investimento selecionada para dividir o n porque tem o maior valor
logworth. Assim, o conjunto de dados ser dividido em de investimento.
Essa diviso pode ser chamada de a melhor das melhores possveis divises.
Se houver 200 variveis explicativas no conjunto de dados, o processo
de encontrar a melhor diviso ser realizada 199 vezes (uma para cada varivel de
entrada) e repetido isso para cada n dividido. Cada varivel de entrada deve ser
examinada e a melhor diviso encontrada aquela com o maior logworth. Esta ser
escolhida como a melhor das melhores divises.

3.2.2.2.2 Reduo da impureza como medida para mensurar a importncia de
uma quebra
Impureza de um n o grau de heterogeneidade no que diz respeito
composio dos nveis da varivel resposta. Se n dividido em ns filhos e , e
se

so as propores de registos nos ns e , ento, a diminuio da


impureza

, em que o ndice de impureza de n , e


e so os ndices de impureza dos ns filho e , respectivamente.
Para dividir o n em dois ns filhos e baseado no valor diviso da
varivel de entrada

, o algoritmo da rvore examina todos os candidatos que se


dividem da forma

, em que

um nmero real entre o valor


mnimo e mximo da varivel

. Os registros que tm

iro para o n filho


esquerdo e os registros em que

iro para a direita. Suponha que h


candidatos a diviso na varivel

. Os valores candidatos so

. O
algoritmo compara a reduo de impurezas sobre estes divisores e seleciona o
que atingiu maior reduo como o valor para a melhor diviso.

72


3.2.2.2.2.1 ndice de impureza GINI
Se

a proporo de respondentes em um n, e

a proporo de
no-respondentes, o ndice de impureza Gini para aquele n definido como

. Se dois registros so escolhidos de forma aleatria (com


reposio) a partir de um n, a probabilidade de que ambos sejam respondentes

, enquanto que a probabilidade de que ambos sejam no-respondentes

, e a
probabilidade de que eles sejam ou ambos respondentes ou ambos no-
respondentes

. Assim,

pode ser interpretado como a


probabilidade de que qualquer um dos dois elementos escolhidos ao acaso (com
reposio) so diferentes. Para variveis respostas binrias, o ndice de Gini
simplifica para

. Um n puro tem um ndice Gini igual a zero. Tal ndice


pode atingir o valor mximo de

quando ambas as classes so igualmente


representadas.

3.2.2.2.2.2 Entropia
A entropia uma outra medida de impureza do n. definida como

para variveis respostas binrias. Um n que tem uma


entropia maior do que a de outro n mais heterogneo e portanto, menos puro. A
raridade de um evento medido como

. Se um evento raro, isso significa


que a probabilidade de resposta de sua ocorrncia, em um n, baixa. Suponha
que a probabilidade de ser respondente em um n . Em seguida, a raridade
da resposta

. Este um evento raro. A probabilidade de ser


no-respondente inversamente proporcional ; da a raridade de no-
respondentes

. Um n que tem uma resposta rara de


menos impuro do que um n que tem propores iguais de respondentes e no-
respondentes. Assim,

grande, quando a raridade alta e pequeno


quando a raridade do evento baixa. A entropia deste n definida por:


73


Considere um outro n em que a probabilidade de respondentes seja
igual a probabilidade de no-respondentes (). A entropia deste n ser:


O n que predominantemente de no-respondentes (com uma
proporo de ) tem um valor de entropia de . Um n com distribuio
igual de respondentes e no-respondentes tem entropia igual a . Um n que possui
todos os respondentes ou todos os no-respondentes tem entropia a zero. Assim, a
entropia varia entre e , em que indica a pureza mxima e a impureza mxima.

3.2.2.3 Mensurar a importncia de uma diviso quando a varivel resposta
categrica
Se a varivel resposta categrica com mais de duas categorias
(nveis), os procedimentos so os mesmos. As estatsticas de qui-quadrado sero
calculadas a partir de tabelas de contingncia , em que o nmero de ns
filhos a serem criados com base em uma certa entrada e o nmero de nveis da
varivel target (categorias). Os valores-p so calculados a partir da distribuio de
qui-quadrado com grau de liberdade igual a . O ndice de Gini e de
Entropia tambm podem ser aplicados neste caso, eles esto simplesmente
prorrogados por mais de dois nveis da varivel alvo.

3.2.2.4 Ajustes para o valor-p quando as variveis explicativas tm diferentes
nveis
Quando se compara as divises de diferentes variveis de entrada, os
valores-p devem ser ajustados para levar em conta o fato de que nem todas as
variveis de entrada tm o mesmo nmero de nveis. Em geral, algumas entradas
so binrias, algumas so ordinais, algumas so nominais e outras so intervalares.
Por exemplo, uma varivel como compra ou no compra sorvete,
chamada de compra. Para esta varivel (compra), apenas uma diviso avaliada,
74


apenas uma tabela de contingncia considerada, e apenas um teste realizado.
Uma varivel explicativa como Idade pode assumir qualquer valor inteiro maior que
0. Suponha que existam possveis valores de Idade no conjunto de dados,
tabelas de contingncia sero construdas e portanto, testes qui-quadrado so
calculados. Em outras palavras, sessenta e seis testes so realizados sobre esta
entrada para selecionar a melhor separao.
Suponha que a diviso da varivel Idade tenha um

, o que significa que

. Em outras palavras, a probabilidade de encontrar um qui-quadrado maior do que


o

calculado, de forma aleatria,

, sob a hiptese nula. A probabilidade de que,


a partir dos testes qui-quadrado calculados sobre a varivel Idade, pelo menos,
um dos testes produz uma deciso falsa positiva (em que se rejeita a hiptese nula,
dada que ela verdadeira) :


Esta taxa de erro do experimento muito maior do que a taxa de erro
individual de

. Por exemplo, se a taxa de erro indivdual (

) em cada teste de
, em seguida, a taxa de erro do experimento

. Isto
significa que quando voc tem mltiplas comparaes

(uma para cada possvel


diviso), o valor-p subestima o risco de rejeitar a hiptese nula quando ela
verdadeira. Claramente, quanto mais possveis divises a varivel tem, menos
preciso os valores-p sero.

3.2.2.4.1 Ajuste de Bonferroni
Ao comparar a melhor diviso da varivel Idade com a melhor diviso
da varivel compra, os logworths precisam ser ajustados para o nmero de
divises, ou testes, em cada varivel. Neste caso da varivel compra, h apenas um
teste e portanto, no necessrio ajuste. Mas, no caso da varivel Idade, a melhor
separao escolhida a partir de um conjunto de 66 divises. Portanto,


subtrado do logworth da melhor separao. Em geral, se uma entrada tem m
75


possveis divises, ento

subtrado do logworth de cada diviso da


varivel de entrada. Esse ajuste chamado de ajuste de Bonferroni.

3.2.2.4.2 Ajuste de Profundidade
Pode-se chamar o ajuste baseado no nmero de divises antecedentes
como ajuste de profundidade, porque o ajuste depende da profundidade da rvore
na qual a separao feita. A profundidade baseada no nmero de ramos criados
anteriormente ao n em questo.
O valor-p calculado multiplicado por um multiplicador de profundidade,
com base na profundidade da rvore no n em questo, para chegar ao valor-p
ajustado profundidade da diviso. Por exemplo, suponha que, antes do n em
questo havia quatro divises (quatro divises foram realizadas a partir do n raiz
at o n atual) e que cada diviso envolveu dois ramos (usando diviso binria).
Neste caso, o multiplicador de profundidade . Em geral, o
multiplicador de profundidade para divises binrias

, em que a profundidade,
ou seja, o nmero de ramos, a partir do n raiz at o n atual.
O valor-p calculado ajustado por meio da multiplicao pelo
multiplicador de profundidade. Isto significa que a uma profundidade de 4, se o valor-
p calculado , o valor-p ajustado profundidade ser . Sem o
ajuste de profundidade, a separao teria sido considerada estatisticamente
significativa. Mas aps o ajuste, a separao no estatisticamente significativa.
O ajuste de profundidade tambm pode ser interpretado como diviso
do limiar do valor-p pelo multiplicador de profundidade. Se o limiar do valor-p
especificado pelo nvel de significncia , ento o valor ajustado ser
. Qualquer diviso com valor-p acima de ser rejeitada. Em
geral, se o nvel de significncia especificado, ento qualquer separao, que
tem um valor-p acima de um rejeitada.
O efeito do ajuste de profundidade o de aumentar o valor do limiar do
logworth por

. Assim, quanto mais profunda for a rvore, mais


a norma se torna rigorosa para aceitar uma diviso significativa. Isto leva rejeio
de mais divises do que teria sido rejeitadas sem o ajuste de profundidade. Assim, o
76


ajuste de profundidade pode tambm, limitar o tamanho da rvore, aceitando menos
divises.

3.2.3 Controlar o crescimento da rvore: regras de parada
Regras de parada so aplicadas durante a fase de desenvolvimento da
rvore para decidir se o particionamento recursivo foi realizado
suficientemente. Existem algumas maneiras utilizadas para impedir o crescimento
desnecessrio da rvore. A seguir descrevem-se algumas alternativas:
Controlar o crescimento das rvores por meio do nvel de significncia.
Pode-se controlar o tamanho inicial da rvore, definindo-se um limite para o valor-p.
Por exemplo, definindo-se um nvel de significncia como 0,05, o logworth ser
limitado em

ou 1,30. Se, em qualquer n, nenhuma das variveis de


entrada tem uma diviso com logworth superior ou igual ao limiar, ento o n no
particionado. Diminuindo o limiar do valor-p, aumenta-se o grau em que os dois ns
filhos podem variar, a fim de considerar uma separao dos dados mais significativa.
Assim, o crescimento da rvore pode ser controlado.
Controlar o crescimento das rvores por meio do ajuste de
profundidade. Como mencionado anteriormente, o ajuste de profundidade ajusta o
valor-p conforme o nmero de ramos anteriores ao n. Em particular, se o nvel
de significncia especificado, ento, qualquer separao que tenha um valor-p
acima de ser rejeitado. Assim, quanto mais
profunda, mais rigorosa tornam-se as regras para aceitar uma diviso como
significativa. Isto leva rejeio de mais divises do que sem o ajuste, resultando
em menos parties.
Controlar o crescimento das rvores por meio do tamanho da folha.
Pode-se controlar o crescimento da rvore, definindo-se um tamanho para a folha.
Por exemplo, definindo o tamanho da folha como 100, isto significa que, se uma
diviso resulta em uma folha com menos de 100 registros, essa diviso no dever
ser executada. Assim, o crescimento pra no n atual.
Controlar o crescimento das rvores por meio do tamanho do n a ser
dividido. Por exemplo, se o tamanho do n deve ser de 300 registros, isto significa
77


que, se um n tem menos de 300 registros, ento ele no deve ser considerado para
a separao.
Controlar o crescimento das rvores por meio da profundidade mxima.
Isso determina o nmero mximo de geraes de ns. O n raiz n da gerao, ou
seja, zero e os filhos do n raiz so os ns da primeira gerao etc. Pode-se, ento,
controlar o crescimento da rvore especificando o nmero de geraes desejadas.

3.2.4 Poda: a seleo da rvore do tamanho certo
Aps criar a maior rvore possvel (rvore mxima) sob as regras de
paradas estipuladas, necessita-se podar a rvore no tamanho correto. A idia
comear com a rvore mxima e eliminar uma diviso em cada etapa. Por exemplo,
se a rvore mxima tem folhas e remove-se uma diviso em determinado ponto,
encontra-se uma sub-rvore com folhas. Removendo-se outra diviso em outro
ponto, encontra-se outra sub-rvore com folhas. Assim, pode-se encontrar
sub-rvores com tamanho . Ento, seleciona-se dentre todas as sub-rvores
com folhas a melhor delas, a partir de algum critrio de seleo, que sero
descritos abaixo. Em seguida, remove-se outra diviso da sub-rvore com
folhas e encontra-se, ento, outra sub-rvore com folhas e, assim por diante,
at encontrar uma rvore com uma nica folha. No final deste processo, haver uma
sequncia de rvores de tamanhos . E para cada uma delas
obtm-se a mtrica, conforme o critrio de seleo estipulado, a fim de se chegar na
melhor rvore.
Alguns critrios para a seleo do modelo final incluem: minimizao de
custos, minimizao da taxa de erro (misclassification), minimizao do erro
quadrado mdio, ou maximizao do Lift. No caso de uma varivel target contnua, a
minimizao do erro quadrado mdio o critrio mais utilizado. Outro critrio
possvel consiste em comparar o lucro das sub-rvores em cada passo. Todos os
clculos realizados nas sub-rvores so realizados usando a base da dados de
validao.
Imagine um estudo em que a varivel resposta seja binria, contendo
respostas 0 ou 1. Sendo classificado como 1 o indivduo de interesse, entende-se
que misclassification uma taxa de erro encontrada a partir de um modelo. uma
78


mtrica utilizada em modelos com resposta categrica, em que estuda-se a taxa de
erro no caso do modelo ter classificado um indivduo como 1, quando na verdade ele
0 ou ento quando o modelo classifica-o como 0 quando na verdade ele 1. A
utilizao deste critrio para seleo do melhor modelo tem como objetivo minimizar
o erro de classificao.
O erro quadrado mdio o quadrado da diferena entre o valor predito
e o valor real. a mtrica mais apropriada para variveis resposta contnuas. J o
Lift utilizado para modelos com resposta categrica, como os que possuem um
alvo binrio. O lift calculado como a diviso entre a taxa de resposta observada
(proporo de registros classificados como 1) no topo de das observaes da
base de validao e a taxa de resposta global (proporo de respondentes 1 na
base toda) nos dados de validao. O ranking criado a partir da probabilidade
predita (probabilidade do registro ser classificado como 1 na varivel target) de
resposta para cada registro no conjunto de dados de validao.
Parte-se agora para um exemplo real. A ilustrao a seguir mostra o
passo-a-passo da poda de uma rvore. A rvore mxima (Figura 6) foi construda
utilizando os dados de treinamento com 10309 registros. As regras de partio foram
seguidas e os ns foram classificados utilizando a base de treinamento.
Os dados de validao utilizados para a poda consistem em 8937
registros. As definies dos ns e a classificao deles so as mesmas das
desenvolvidas com a base de treinamento, porm os registros em cada n so
construdos a partir da base de validao.
A Figura 6 mostra a rvore desenvolvida a partir dos dados de
treinamento. O diagrama de rvore fornece: a identificao do n, a identificao da
folha, o nmero de respondentes no n, o nmero de no-respondentes, o nmero
total de registros em cada n; proporo de respondentes (probabilidade posterior
de resposta), proporo de no-respondentes (probabilidade posterior de no-
resposta) e o rtulo da deciso em que as folhas so classificadas.
Quando a varivel resposta binria, as probabilidades posteriores so
a proporo de respondentes e a proporo dos no-respondentes em cada n. Em
modelagem, essas probabilidades posteriores so utilizadas como predies das
79


probabilidades. A todos os registros em uma folha so atribudos a mesma
probabilidade predita de resposta.
A rvore consiste na criao de regras em cada folha. Comeando a
partir do n raiz e indo para baixo para um n terminal, pode-se ler a regra de cada
folha de uma rvore. Estas regras so expressas por intervalos nas variveis de
entrada. As varireis de entrada selecionadas pelo algoritmo de rvore neste
exemplo fictcio so: investimento, sexo e idade.
As regras dos ns folha so:
Folha 1: se o valor de investimento for menor que R$15.000 e se o sexo
for Feminino, ento, todos os integrantes deste n folha sero classificados como
respondentes (1).
Folha 2: se o valor de investimento for menor que R$15.000 e se o sexo
for Masculino, ento, todos os integrantes deste n folha sero classificados como
no-respondentes (0).
Folha 3: se o valor de investimento for maior ou igual a R$15.000 e se a
Idade for menor que 35, ento, todos os integrantes deste n folha sero
classificados como no-respondentes (0).
Folha 4: se o valor de investimento for maior ou igual a R$15.000 e se a
Idade for maior ou igual a 35, ento, todos os integrantes deste n folha sero
classificados como respondentes (1).
Neste exemplo, usam-se apenas as probabilidades para decidir se o n
ser respondente ou no-respondente. Especificando uma matriz de custos, por
exemplo, pode-se mudar a deciso inserindo essa nova informao, buscando
minimiz-lo.





80



























Figura 6 - Exemplo de rvore de deciso construda a partir dos dados de treinamento



N 1 (n raiz)
Respondente (1): 6565
No respondente (0): 3744
Total: 10309



Deciso (1)
Investimento
< R$15.000 >= R$15.000
N 2
Respondente (1): 2908
No respondente (0): 3278
Total: 6186



Deciso (0)
N 3
Respondente (1): 3657
No respondente (0): 466
Total: 4123



Deciso (1)
N 7 (Folha 4)
Respondente (1): 3542
No respondente (0): 160
Total: 3702



Deciso (1)
N 6 (Folha 3)
Respondente (1): 115
No respondente (0): 306
Total: 421



Deciso (0)
N 5 (Folha 2)
Respondente (1): 856
No respondente (0): 2389
Total: 3245



Deciso (0)
N 4 (Folha 1)
Respondente (1): 2052
No respondente (0): 889
Total: 2941



Deciso (1)
Sexo
Fem Masc
Idade
< 35 >= 35
81


























Figura 7 - Exemplo de rvore de deciso construda a partir dos dados de validao


N 1 (n raiz)
Respondente (1): 933
No respondente (0): 8004
Total: 8937



Deciso (1)
Investimento
< R$15.000 >= R$15.000
N 2
Respondente (1): 337
No respondente (0): 3523
Total: 3860



Deciso (0)
N 3
Respondente (1): 596
No respondente (0): 4481
Total: 5077



Deciso (1)
N 7 (Folha 4)
Respondente (1): 301
No respondente (0): 2068
Total: 2369



Deciso (1)
N 6 (Folha 3)
Respondente (1): 295
No respondente (0): 2413
Total: 421



Deciso (0)
N 5 (Folha 2)
Respondente (1): 218
No respondente (0): 1850
Total: 2068



Deciso (0)
N 4 (Folha 1)
Respondente (1): 119
No respondente (0): 1673
Total: 1792



Deciso (1)
Sexo
Fem Masc
Idade
< 35 >= 35
82


A poda ser realizada a partir dos dados de validao. Primeiro, as
regras criadas sero utilizadas para dividir os dados de validao em diferentes ns.
Uma vez que cada n j tem atribudo um nvel de destino com base nas
probabilidades posteriores, pode-se calcular a taxa de erro de cada n da rvore
utilizando o conjunto de dados de validao. A Figura 7 mostra a aplicao da rvore
para o conjunto de dados de validao.
Depois de aplicar as regras na base de dados de validao, tem-se uma
rvore como a da Figura 3. Comparando a rvore a partir dos dados de validao
(Figura 7) com a rvore a partir dos dados de treinamento (Figura 6), observa-se que
as decises em cada n so exatamente as mesmas em ambos os diagramas. Isso
ocorre porque as decises so baseadas nas probabilidades posteriores geradas
durante a criao da rvore, com a base de treinamento. Essas regras e decises
tornam parte do modelo e no mudam quando aplicados a um novo conjunto de
dados.
A rvore na Figura 7 a rvore mxima neste exemplo, com quatro ns
folha. No entanto, dentro desta rvore existem vrias sub-rvores de diferentes
tamanhos. Existem duas sub-rvores com 3 ns folha, uma sub-rvore com 2 ns
folhas e uma sub-rvore com apenas 1 n folha (o n raiz).
Podando-se os ns 6 e 7, obtm-se a sub-rvore com os ns folhas 3, 4
e 5 (sub_rvore_3_4_5). Podando-se os ns 4 e 5, obtm-se a sub-rvore com os
ns folhas 2, 6 e 7 (sub_rvore_2_6_7). Podando-se os ns 4, 5, 6 e 7, tem-se a
sub-rvore com 2 folhas (sub_rvore_2_3) e podando-se os ns 2 e 3, tem-se a sub-
rvore com apenas 1 n folha (sub_rvore_1).
Para cada uma das sub-rvore mais a rvore mxima, deve-se calcular
a taxa de erro (misclassification) e escolher como melhor modelo, a rvore com
menor taxa. O clculo desta taxa pode ser entendido como uma matriz:
Target Deciso (1) Deciso (0)
1 1 0
0 0 1

Nesta matriz, se um respondente est classificado corretamente, ento
uma unidade de preciso atingida. Se um no-respondente est corretamente
83


classificado como no-resposta, em seguida, uma unidade de preciso
adquirida. Caso contrrio, no h ganho.
Como dito anteriormente, os ns so classificados como respondentes
ou no-respondentes com base nas probabilidades posteriores calculadas a partir do
conjunto de dados de treinamento. Na rvore criada (Figura 7) a proporo de
respondentes 10,4% e a proporo de no-respondentes de 89,6%, no n
raiz. Assim, se o n raiz classificado como um n respondente, a probabilidade
predita ser 0,104. O erro para esse n ser de 89,6%.
Para a sub-rvore com 3 ns, com os ns folha 4, 5 e 3, a taxa de erro
0,71, ou seja, (1673+218+4481)/8937, em que 1673 a quantidade de registros
que foram classificados como 1 (deciso do n 4), quando na verdade eram 0. O
valor 218 referente aos registros classificados incorretamente como 0, quando
eram na verdade 1 (n 5) e 4481 so os registros que foram classificados como 1,
quando na verdade eram para ser 0 (n 3).
Deve-se calcular a taxa de erro para cada sub-rvore listada acima. A
Tabela abaixo mostra a taxa de erro para cada sub-rvore:
Sub-rvore Taxa de erro
sub_rvore_4_5_6_7 0.475999
sub_rvore_2_6_7 0.302115
sub_rvore_3_4_5 0.712991
sub_rvore_2_3 0.539107
sub_rvore_1 0.895603

Como se observa a sub-rvore com 3 folhas, contendo os ns 2, 6 e 7,
a melhor escolha, baseado na minimizao da taxa de erro.

3.2.5 Algoritmos Conhecidos
A lista, a seguir, contm os algoritmos mais conhecidos e descreve
como eles trabalham. Cada algoritmo foi desenvolvido por uma pessoa ou grupo de
pessoas inspiradas em criar algo melhor do que o que j existe. O ltimo tpico so
os algoritmos SAS. O software SAS permite que o usurio misture algumas das
melhores idias dos algoritmos mais conhecidos.
84


3.2.5.1 ID3
Este algoritmo, apresentado por J. R. Quinlan (QUINLAN, 1986),
constitui uma das referncias base dos algoritmos atuais de induo de rvores de
deciso. Desenvolvido com vista ao tratamento de problemas contendo apenas
caractersticas discretas, a sua estrutura bsica iterativa. Adotando o critrio de
maximizao da informao para a escolha da caracterstica que sero testadas em
cada n, a sua estrutura muito simples no que se refere ao tratamento de
problemas. Cada caracterstica permite a diviso do conjunto de treino num nmero
de subconjuntos igual sua cardinalidade (nmero de diferentes valores possveis).
O algoritmo ID3 (Inductive Decision Tree) segue os seguintes passos
para construo de uma rvore de deciso:
1. Comear com todos os exemplos de treino;
2. Escolher o teste (atributo) que melhor divide os exemplos, ou seja agrupar
exemplos da mesma classe ou exemplos semelhantes;
3. Para o atributo escolhido, criar um n filho para cada valor possvel do
atributo;
4. Transportar os exemplos para cada filho tendo em conta o valor do filho;
5. Repetir o procedimento para cada filho no "puro". Um filho puro quando
cada atributo X tem o mesmo valor em todos os exemplos.
O algoritmo ID3 foi um dos primeiros algoritmos de rvore de deciso,
tendo sua elaborao baseada em sistemas de inferncia e em conceitos de
sistemas de aprendizagem. Logo aps foram elaborados diversos algoritmos, sendo
os mais conhecidos: C4.5, CART (Classification and Regression Trees), CHAID (Chi
Square Automatic Interaction Detection), entre outros.

3.2.5.2 C4.5
Apresentado no mais recente trabalho de Ross Quinlan (QUINLAN,
1993), este algoritmo visa a gerao de rvores de deciso e de regras de
classificao permitindo o tratamento de atributos discretos e/ou contnuos. Sendo
possvel a aquisio, juntamente com o livro citado, de um pacote de software sob a
85


forma de fontes que permite o teste e a avaliao de resultados. Embora o software
tenha sido desenvolvido para a instalao em sistemas UNIX, foi adaptado para o
ambiente MS-Windows utilizando o compilador Borland C++ 3.1 de forma a possuir
uma plataforma nica de execuo dos vrios algoritmos. Apesar desta adaptao,
dado que a estimao de erro por validao cruzada efetuada nesta verso do
C4.5 (release 5), custa de um ficheiro de comandos do sistema UNIX, a maioria
das experincias utilizando esta tcnica foram efetuadas neste sistema executando
a verso original deste programa.

3.2.5.3 CART
O algoritmo CART - Classification And Regression Trees - foi
apresentado por quatro estatsticos chamados Leo Breiman, Jerome Friedman,
Richard Oslen e Charles Stone em uma de suas publicaes (BREIMAN, 1984). Por
ser um algoritmo no-paramtrico, uma das suas caractersticas principais a
grande capacidade de pesquisa de relaes entre os dados, mesmo quando elas
no so evidentes, bem como a produo de resultados sob a forma de rvores de
deciso de grande simplicidade e legibilidade.
Tal como o seu nome indica, esta uma metodologia que prev o
tratamento de variveis dependentes discretas (classificao) ou contnuas
(regresso) usando uma mesma tecnologia. O resultado deste algoritmo sempre
uma rvore binria que pode ser percorrida da sua raiz at s folhas respondendo
apenas a questes simples do tipo sim/no. A anlise efetuada de forma
completamente automtica requerendo uma interveno humana mnima. Segundo
os autores, esta tcnica permite a obteno de resultados, em geral, superiores aos
obtidos pelas tcnicas estatsticas clssicas, sendo superado apenas num restrito
nmero de casos e apenas por algoritmos de complexidade muito superior. No
entanto, quando superado, a diferena nos resultados mnima.
Este algoritmo um exemplo de um algoritmo de partio binria
recursiva. O processo binrio pois os ns efetuam uma partio em dois
subconjuntos e recursivo pois aplicado recursivamente a cada um dos
86


subconjuntos assim gerados, at que no seja possvel ou no seja necessrio
efetuar mais nenhuma partio.

3.2.5.4 CHAID
CHAID uma das tcnicas para construo de uma rvore de deciso,
baseada no teste de significncia ajustado (teste de Bonferroni). A tcnica foi
desenvolvida na frica do Sul e foi publicada em 1980 por Gordon V. Kass (KASS,
1980), que tinha completado sua tese de doutorado sobre este tema. CHAID pode
ser usado para a predio (de uma maneira semelhante anlise de regresso),
bem como, classificao e para a deteco de interao entre as variveis.
CHi-squared Automatic Interaction Detection, CHAID, um mtodo
exploratrio para estudar as relaes entre uma varivel resposta e um conjunto de
variveis explicativas que podem interagir entre si. O mtodo CHAID permite obter
rvores de deciso com mltiplas categorias, ou seja, divises com mais de duas
opes. Para selecionar as variveis explicativas relevantes para a explicao da
varivel resposta, o mtodo em questo utiliza o teste do qui-quadrado quando trata-
se de uma varivel nominal como resposta, utiliza a razo de verossimilhana
quando o varivel resposta ordinal e utiliza o teste F da ANOVA quando a varivel
resposta quantitativa.
Este mtodo frequentemente utilizado como uma tcnica exploratria
e uma alternativa regresso linear mltipla e regresso logstica, especialmente
quando o conjunto de dados no bem adequado anlise de regresso.
3.2.5.5 Algortmos SAS
Algoritmos SAS incorporam e estendem a maioria das boas idias
discutidas para o particionamento recursivo. Tanto a varivel target como as
variveis input podem ser nominais, ordinais ou intervalares. O usurio especifica o
nmero mximo de galhos de uma diviso, permitindo assim a obteno de rvores
binrias, rvores espessas ou qualquer que se queira. As quebras podem ser
avaliadas como uma reduo na impureza (Mnimos Quadrados, ndice de Gini ou
Entropia), ou como um teste de significncia (Qui-Quadrado ou Teste F). Testes de
significncia permitem ajustes de Bonferroni, como foi feito no CHAID. Valores
87


faltantes podem, opcionalmente, ser tratado como um valor especial, como no
CHAID. Regras surrogate, se adequado, atribuiem os casos com valores faltantes a
um ramo, como nos algoritmos de Breiman et al. (1984).
H muitas opes de controle sobre a poda da rvore. Como no CHAID,
um limite para o nvel de significncia pode parar o crescimento das rvores. O
usurio tem opes na especificao de uma medida de avaliao. Por exemplo,
incluir custos da m classificao.
Os algoritmos de rvore de deciso esto includos no SAS Enterprise
Miner, que fornece um ambiente de programao visual para modelagem preditiva.
Probabilidades a priori, os custos de m classificao, por exemplo, se aplicam a
todas as ferramentas de modelagem. A rvore pode incorporar probabilidades antes
para o critrio de diviso ou apenas us-los para ajustar as probabilidades
posteriores. A rvore pode criar uma varivel indicadora para cada folha. Estas
variveis automaticamente entram em outros modelos, tais como modelos de
regresso, colocando o n de interesse aps o n da rvore.

3.3 Rede Neural
Redes Neurais Artificiais (RNA), tambm conhecida como conexionismo
ou sistema de processamento paralelo e distribudo tiveram seu ressurgimento no
final da dcada de 1980, alguns anos aps sua primeira apario em 1943. Essa
forma de computao no-algortmica caracterizada por sistemas que, em algum
nvel, relembram a estrutura do crebro humano. Por no ser baseada em regras, a
computao neural se constitui em uma alternativa computao algortmica
convencional. Grande parte da investigao em RNA foi inspirada e influenciada
pelo sistema nervoso do ser humano. A RNA vista como a aproximao mais
promissora para a construo de verdadeiros sistemas inteligentes.
RNA so sistemas paralelos distribudos compostos por unidades de
processamento simples (neurnios artificiais) que calcula determinadas funes
matemticas (normalmente no-lineares). Tais unidades so dispostas em uma ou
mais camadas e interligadas por um grande nmero de conexes, geralmente
unidirecionais. Na maioria dos modelos essas conexes esto associadas a pesos,
88


os quais armazenam o conhecimento adquirido pelo modelo e servem para ponderar
a entrada recebida por cada neurnio da rede.
Em RNAs o procedimento usual na soluo de problema passa
inicialmente por uma fase de aprendizagem, em que um conjunto de exemplos
apresentado para a rede, que extrai as caractersticas necessrias para representar
a informao fornecida. Essas caractersticas so utilizadas posteriromente para
gerar respostas para o problema.
Sem dvida, o fato mais atrativo em uma RNA a capacidade de
aprender por meio de exemplos e de generalizar a informao aprendida com o
objetivo de encontrar a resposta adequada. Atualmente, os modelos neurais tem tido
inmeras aplicaes nas mais diversas reas, desde as telecomunicaes ao
mercado imobilirio, das despesas militares ao turismo (SHACHMUROVE, 2002;
LAW; PINE, 2004), das relaes internacionais (BECK; KING; ZENG, 2000) s
questes de poltica interna (EISINGA; FRANSES; DIJK, 1998). Na rea financeira,
vrios problemas tem sido abordados recorrendo s redes neurais, como a anlise
de risco de crdito (NEVES; VIEIRA, 2004), a modelagem da inflao (MCNELIS,
2005) e taxas de cmbio (ZHANG et al., 2002), o clculo do rating, a previso da
volatilidade das opes (MCNELIS, 2005) e a previso da rentabilidade de aes
(THAWORNWONG; ENKE, 2004).

3.3.1 O crebro humano
O crebro humano responsvel por funes cognitivas bsicas, assim
como pela execuo de funes sensoriomotoras autnomas. Alm disso, sua rede
de neurnios tem a capacidade de reconhecer padres e relacion-los, usar e
armazenar conhecimenos por experincia, alm de interpretar observaes.
Apesar dos grandes avanos cientficos, o conhecimento do modo
como o crebro humano funciona est longe de estar completo. No entanto, o
comportamento individual dos neurnios biolgicos bem entendido do ponto de
vista funcional e exatamente nesse comportamento conhecido que se baseiam as
RNAs.

89


3.3.2 Os Neurnios
O crebro humano contm em torno de

neurnios, sua clula


fundamental. O neurnio uma celula do sistema nervoso responsvel pela
conduo do impulso nervoso. Cada um desses neurnios processa e se comunica
com milhares de outros continuamente e em paralelo. A estrutura individual desses
neurnios, a topologia de suas conexes e o comportamento conjunto desses
elementos de processamento naturais formam a base para o estudo das RNAs.
Segundo Damsio (1996) os neurnios biolgicos so divididos em trs
sees: um corpo celular; uma fibra principal de sada, o axnio; e fibras de entrada,
os dentritos. Cada qual com suas funes especficas, porm complementares.
O corpo celular mede apenas alguns milsimos de milmetros, e os
dentritos aprensentam poucos milmetros de comprimento. O axnio, contudo, pode
ser mais longo e em geral, tem calibre uniforme. Os dentritos tem por funo receber
as informaes, ou impulsos nervosos, oriundos de outros neurnios e conduz-las
at o corpo celular. Neste, a informao processada e novos impulsos so
gerados. Esses impulsos so transmitidos a outros neurnios, passando atravs do
axnio at os dentritos dos neurnios seguintes. O ponto de contato entre a
terminao axnia de um neurnio e o dentrito do outro chamado de sinapse. So
pelas sinapses que os neurnios se unem funcionalmente, formando as redes
neurais biolgicas. As sinapses funcionam como vlvulas e so capazes de controlar
a transmisso de impulsos (o fluxo da informao) entre os neurnios na rede
neural.
Segundo Kohonen (2001) a ligao entre os axnios possuem um
comprimento tal no seu conjunto que se fossem esticados daria para fazer duas
viagens de ida e volta da Terra Lua.
3.3.3 A comunicao entre os Neurnios
Uma rede neural consiste num conjunto de unidades de processamento
simples (neurnios) que se comunicam entre si enviando sinais atravs de um
nmero elevado de conexes. Em termos biolgicos, se a informao acumulada no
corpo celular de um determinado neurnio atingir certo limite, o neurnio dispara,
transmitindo um sinal eletroqumico ao neurnio adjacente a ele, atravs de um
90


canal emissor, o axnio. A extremidade do axnio composta por ramificaes (as
sinapses) que por sua vez esto ligadas estrutura do neurnio receptor atravs de
outras ramificaes, os dentritos. Na Figura 8 pode-se ver o diagrama de um
neurnio.







Figura 8 - Diagrama de um neurnio

Um nico neurnio pode estar ligado a centenas ou mesmo a dezenas
de milhares de neurnios. Num crebro existem estruturas anatmicas de pequena,
mdia e alta complexidade com diferentes funes, sendo possveis parcerias.
Figura 9 - Os diferentes tipos de conexes
Cortez e Neves (2000) comentam que os neurnios tendem a agrupar-
se em camadas, existindo trs principais tipos de conexes: divergente, em que o
neurnio pode ser ligado a vrios neurnios via uma arborizao do axnio;
convergentes, em que vrios neurnios podem ser conectados a um nico neurnio;
e encadeadas ou cclicas, as quais podem envolver vrios neurnios e formarem
cliclos (Figura 9).

91


3.3.4 O modelo MCP (McCulloch e Pitts)
O primeiro modelo artificial de um neurnio biolgico foi fruto do
trabalho pioneiro de Warren McCulloch e Walter Pitts, em 1943. McCulloch,
psiclogo e neurofisiologista, dedicou sua carreira tentativa de representar e
modelar eventos no sistema nervoso. Pitts, um matemtico recm formado, juntou-
se a ele em 1942. No trabalho publicado em 1943, A Logical Calculus of the Ideas
Immament in Nervous Activity, so apresentadas uma discusso sofisticada de
redes lgicas de neurnios artificiais (chamados de neurnio MCP devido a
McCulloch e Pitts), alm de novas idias sobre mquina de estados finitos,
elementos de deciso limiar lineares e representaes lgicas de vrias formas de
comportamento e memria.
O modelo de neurnio artificial proposto por McCulloch e Pitts uma
simplificao do que se sabia na poca a respeito do neurnio biolgico. Um
neurnio biolgico pode ser visualizado do ponto de vista funcional: as suas
mltiplas entradas recebem ativaes excitatrias ou inibitrias dos neurnios
anteriores e, caso essa soma das excitaes e inibies ultrapasse um determinado
limite, o neurnio emite um impulso nervoso. Foi com base nesse comportamento
funcional que o modelo MCP foi proposto na dcada de 1940.
Os neurnios (ou ns) transportam informao entrada (input) e passam
a outros neurnios atravs das suas conexes de sada (output). Nas redes neurais
artificiais estas conexes so designadas por pesos ou ponderaes (weights). A
informao eltrica simulada com valores numricos especficos armazenados
nestes pesos.
A descrio matemtica do modelo MCP resultou um modelo com
terminais de entrada (dentritos) que recebem os valores

(que
representam as ativaes dos neurnios anteriores) e apenas um terminal de sada
(representando o axnio). Para representar o comportamento das sinapses, os
terminais de entrada dos neurnios tem pesos acoplados

cujos valores
podem ser positivos ou negativos, dependendo das sinapses correspondentes
serem inibitrias ou excitatrias. O efeito de uma sinapse particular no neurnio
ps-sinptico definido por

. Os pesos determinam em que grau o neurnio


deve considerar sinais de disparo que ocorrem naquela conexo.
92


Como descrito na Figura 10, a informao enviada para o neurnio
com base nos pesos de recepo da camada de entrada (input). Este input
processado por uma funo de combinao que soma os valores

recebidos
pelo neurnio (soma ponderada). O valor resultante comparado com um
determinado valor limiar (threshold) pelas funes de ativao do neurnio. Se a
soma obtida excede ao valor limiar, o neurnio ser ativado e enviar um output
pelos seus pesos de envio para todos os neurnios a ele conectados e assim
sucessivamente, caso contrrio o neurnio ser inibido.
Figura 10 - Neurnio de McCulloch e Pitts, no qual representa a soma ponderada das
entradas e a funo de ativao

No modelo MCP, a ativao do neurnio obtida por meio da aplicao
de uma funo de ativao, que ativa ou no a sada, dependendo do valor da
soma ponderada de suas entradas.

3.3.5 Funes de Ativao
A funo de ativao responsvel por gerar a sada do neurnio a
partir dos valores dos vetores de peso

e de entrada

. A funo de ativao de um neurnio MCP definida por



{


93


e do tipo degrau deslocada do limiar de ativao em relao origem, ou seja, a
sada ser 1 para

e 0 para

.
Existem diversas funes de ativao, entre elas a funo degrau
(Figura 11), exemplificada para . Uma aproximao contnua da funo degrau
conhecida como funo de ativao sigmoidal (Figura 12) definida por:



Figura 11 - Funo de ativao degrau

Figura 12 - Funo de ativao sigmoidal
Essa funo, alm de ser diferencivel, possui uma regio semi linear
que pode ser impotante na aproximao de funes contnuas. Dependendo do tipo
de problema a ser abordado, neurnios com funo de ativao linear (Figura 13)
podem ser utilizados como:

94



Figura 13 - Funo de ativao linear
J as RNAs do tipo Radial Basis Functions (RBF) utilizam neurnios
com funes de ativao radiais, como a gaussiana (Figura 14) definida por:


em que o centro (ponto mdio) e o raio de abertura da funo.


Figura 14 - Funo de ativao gaussiana

3.3.6 Principais arquiteturas de RNAs
As redes neurais artificiais diferenciam-s pela sua arquitetura e pela
forma como os pesos associados s conexes so ajustados durante o processo de
aprendizagem. A arquitetura de uma rede neural restringe o tipo de problema no
qual a rede poder ser utilizada, e definida pelo nmero de camadas (camada
95


nica ou mltiplas camadas), pelo nmero de ns em cada camada, pelo tipo de
conexes entre os ns e pela sua topologia (HAYKIN, 1999).
Independentemente da funo de ativao escolhida, neurnios
individuais possuem capacidade computacional limitada. No entanto, um conjunto de
neurnios artificiais conectados na forma de uma rede neural capaz de resolver
problemas de complexidade elevada. As figuras a seguir mostram algumas
configuraes possveis de neurnios artificiais conectados na forma de redes
neurais artificiais.

Figura 15 - Rede feedforward de uma nica camada
A estrutura mais simples apresentada nas Figuras 15 e 16 que
correspondem a redes neurais alimentadas para frente (feedforward). Uma RNA
feedforward pode ser organizada por camadas, porque no existem ciclos, dado que
as conexes so sempre unidirecionais (convergentes ou divergentes) no existindo
realimentao. Na sua forma mais simples (Figura 15), uma rede composta por
uma camada de entrada, cujos valores de sada so fixados externamente e por
uma camada de sada.

96



Figura 16 - Rede feedforward de duas camadas
importante ressaltar, que a camada de entrada no contabilizada
como camada num RNA, dado o fato de nesta no se efetuarem qualquer forma de
clculo. A segunda classe de redes feedforward distingue-se pelo fato de possuir
uma ou mais camadas intermedirias, cujos ns so designados por ns
intermedirios tendo como funo, intervir de forma til entre a entrada e a sada da
rede (Figura 16). Ao se acrescentar camadas intermedirias, aumenta-se a
capacidade da rede em modelar funes de maior complexidade, uma
particularidade bastante til, quando o nmero de ns na camada de entrada
elevado. Por outro lado, este aumento nas camadas intermedirias pode vir a
atrapalhar no tempo de aprendizagem, visto que este tempo aumenta de forma
exponencial.
97



Figura 17 - Rede com recorrncia entre sadas e camada intermediria
As RNAs apresentadas nas Figuras 15 e 16 so consideradas estticas,
j que no possuem recorrncia em sua estrutura: as suas sadas em um
determinado instante dependem apenas das entradas atuais. J as estruturas das
Figuras 17 e 18 possuem conexes recorrentes entre neurnios de um mesmo nvel
ou entre neurnios de sada e de camadas anteriores. Na Figura 17, a sada
depende no somente das entradas, mas tambm do seu valor atual. Essa estrutura
de RNA utilizada na resoluo de problemas que envolvam processamento
temporal, como em previso de eventos futuros. J a estrutura da Figura 18 possui
um nico nvel de neurnios, em que a sada de cada um deles est conectada s
entradas de todos os outros. A rede no possui entradas externas e sua operao
se d em funo da dinmica de mudana de estados dos neurnios, que operam
de forma auto-associativa.


98



Figura 18 - Rede com recorrncia auto-associativa

3.3.7 Aprendizado
Como j mencionado, uma das propriedades mais importantes de uma
rede neural artificial a capacidade de aprender a partir da interao com o meio
ambiente e fazer inferncias do que aprenderam.
A utilizao de redes neurais, independente do problema, passa
primeiramente pela fase de aprendizagem que ocorre quando a rede neural
consegue extrair padres de informao no subconjunto de treino, criando assim
uma representao prpria. Segundo Braga, Carvalho e Ludemir (2000), a etapa de
aprendizagem consiste num processo interativo de ajuste dos parmentros da rede,
os pesos das conexes entre as unidades de processamento, que guardam, ao final
do processo, o conhecimento que a rede adquiriu do ambiente em que se encontra a
operar.
Para Haykin (1999), a aprendizagem um processo pela qual os
parmetros de uma rede neural so ajustados por meio de um processo de estmulo
do meio ambiente no qual a rede est inserida, sendo o tipo de aprendizagem
determinado pela maneira como ocorrem os ajustamentos nos parmetros. Sendo
assim, o objetivo do treino/aprendizagem consiste em atribuir valores apropriados
aos pesos sinpticos de modo a produzir o conjunto de sadas desejadas ou ao
menos consistentes com um intervalo de erro estabelecido. Desta forma, o processo
99


de aprendizagem consiste na busca de um espao de pesos pela aplicao de
alguma regra que defina esta aprendizagem.
importante ressaltar que o conceito de aprendizado est relacionado
com a melhoria do desempenho da rede segundo algum critrio pr-estabelecido. O
erro quadrtico mdio da resposta de rede em relao ao conjunto de dados
fornecido pelo ambiente, por exemplo, utilizado como critrio de desempenho dos
algoritmos de correo dos erros. Assim, quando estes algoritmos so utilizados no
treinamento de RNAs, espera-se que o erro diminua medida que o aprendizado
prossiga.
De uma forma genrica, o valor do vetor de pesos no instante
pode ser escrito como:

em que e representam os valores dos pesos nos instantes e ,
respectivamente, e o ajuste aplicado aos pesos.
Os algoritmos de aprendizado diferem, basicamente, na forma como
calculado. H vrios algoritmos diferentes para treinamento de redes
neurais, podendo os mesmos ser agrupados em dois paradigmas principais:
aprendizado supervisionado e aprendizado no-supervisionado.

3.3.7.1 Aprendizado supervisionado
Aprendizado supervisionado implica a existncia de um supervisor, ou
professor externo, o qual responsvel por estimular as entradas da rede por meio
de padres de entrada e observar a sada calculada pela mesma, comparando-a
com a sada desejada. Como a resposta da rede funo dos valores atuais do
conjunto de pesos, estes so ajustados de forma a aproximar a sada da rede da
sada desejada. A Figura 19 ilustra uma representao esquemtica do aprendizado
supervisionado. Para cada padro de entrada, a rede tem sua sada corrente
comparada com a sada desejada pelo supervisor, que fornece informaes sobre a
direo de ajustes dos pesos.

100








Figura 19 - Aprendizado supervisionado
Este professor pode ser um humano, que especifica a classe correta
para cada padro de entrada, ou um sistema fsico cujo comportamento se pretende
modelar. A cada interao efetuada a rede neural compara a resposta desejada com
o valor de sada da rede, originando um erro. O erro resultante utilizado para
ajustar os pesos da rede. A soma dos erros quadrticos de todas as sadas
normalmente utilizada como medida de desempenho da rede. Uma das vantagens
da aprendizagem supervisionada a de que o seu modelo bem definido,
apontando-se como principais crticas e artificialismo, a limitao do modelo de
aprendizagem e a necessidade de professor (REED; MARKS ll, 1999).
O aprendizado supervisionado pode ser implementado basicamente de
duas formas: off-line ou on-line. Para treinamento off-line, os dados do conjunto de
treinamento no mudam, e uma vez obtida uma soluo para a rede, esta deve
permanecer fixa. Caso novos dados sejam adicionados, um novo treinamento,
envolvendo tambm os dados anteriores, deve ser realizado para se evitar
interferncia no treinamento anterior. Por sua vez, no aprendizado on-line o conjunto
de dados muda continuamente e a rede deve estar em um contnuo processo de
adaptao.

3.3.7.2 Correo de erros
O caso mais comum de aprendizado supervisionado o aprendizado
por correo de erros, em que se procura minimizar o erro da resposta atual da rede
em relao sada desejada. A expresso genrica para o erro no instante de
tempo t pode ser escrita como:
Sada
Professor
Entrada
RNA
+
-

101



em que

a sada desejada e a resposta atual calculada pela rede. A


forma genrica para atualizao dos pesos por correo dos erros definida por:


em que

corresponde ao peso de entrada , a taxa de aprendizado,


uma medida de erro e

a entrada do neurnio.
A obteno das equaes de ajuste envolve a minimizao da soma
dos erros quadrticos das sadas, como:


em que p o nmero de exemplos de treinamento,

a sada desejada para o


vetor de entrada

e a sada corrente da rede para o vetor

.
Portanto o conjunto de dados formado pelos pares de entradas e
sadas (

) define a superfcie de erro. Para cada valor possvel de w, a soma dos


erros quadrticos do conjunto de dados calculada, e um vetor

obtido. A
superfcie formada por todos os valores de

resulta na superfcie de erro para o


conjunto de dados. O valor de w que minimiza

correponde soluo de erro


mnimo, ou mnimo global, para o conjunto de dados atual. Dependendo do tipo de
unidade de processamento utilizado para construir a rede, a superfcie de erro pode
assumir formas diferentes:
1. No caso da rede ser formada inteiramente por unidades de processamento
lineares, a superfcie de erro definida por uma funo quadrtica dos pesos
da rede, podendo a mesma possuir um nico mnimo.
2. Para o caso da rede ser formada por unidades de processamento no-
lineares, a superfcie de erro poder ter uma forma irregular e vrios mnimos
locais, alm do mnimo global.
Em ambas as situaes, o objetivo do aprendizado por correo de
erros , a partir de um ponto arbitrrio da superfcie de erro, mover-se na direo do
mnimo global. Na primeira situao s existe um mnimo global, j que se trata de
uma superfcie de erro quadrtica, que pode ser facilmente atingido. Na segunda
102


situao, nem sempre o mnimo global alcanado, j que as sadas no-lineares
geram superfcies de erros irregulares, podendo levar a rede a se estabilizar em um
mnimo local indesejado. Apesar disso, existem tcnicas de treinamento que levam a
rede a se aproximar do mnimo global. No obstante, nem sempre o mnimo global
corresponde soluo com a melhor resposta da rede para dados no pertencentes
ao conjunto de treinamento.

3.3.7.3 Aprendizado por reforo
O aprendizado por reforo se caracteriza por um processo de tentativa e erro
que visa a maximizar o ndice de desempenho escalar chamado de sinal de reforo.
Enquano no aprendizado supervisionado o supervisor externo fornece informaes
para a atualizao dos pesos baseado em um critrio de desempenho como o erro,
no aprendizador por reforo o crtico externo procura maximizar o reforo das aes
boas executadas pela rede.
Na Figura 20 essa idia fica exposta claramente, podendo-se observar que a
funo do crtico semelhante a do supervisor (professor) no aprendizado
supervisionado. Segundo Sutton, o aprendizado por reforo ocorre quando uma
ao tomada pelo sistema de aprendizado seguida de estados satisfatrios, ento
a tendncia do sistema de produzir essa ao particular reforada. Se no for
seguida de estado satisfatrio, a tendncia do sistema de produzir essa ao
enfraquecida.





Figura 20 - Aprendizado por reforo
O aprendizado por reforo se aplica principalmente a problemas de
aprendizado envolvendo tarefas de controle nas quais permitdo rede errar
durante o processo de interao com o sistema a ser controlado.
Crtico
Reforo / Penalidade
Ao
RNA
103


3.3.7.4 Aprendizado no supervisionado
Um dos incovenientes do treino supervisionado a necessidade de
professor. Dado que no se sabe a priori o nmero nem as classes envolvidas,
surge-se a necessidade de uma aprendizagem e classificao no supervisionada.
Neste esquema de treinamento somente os padres de entrada esto disponveis
para a rede, ao contrrio do aprendizado supervisionado, cujo conjunto de
treinamento possui pares de entrada e sada. Durante o processo de aprendizado os
padres de entrada so apresentados continuamente rede e a existncia de
regularidades nesses dados faz com que o aprendizado seja possvel. Regularidade
e redundncia nas entradas so caractersticas essenciais para haver aprendizado
no-supervisionado.
Se uma rede tem a habilidade de descobrir cluster com similaridade de
padres sem superviso, isto , sem possuir informao sobre a varivel target, por
qualquer que seja o processo utilizado, diz-se que a rede, alm de no ser
supervisionada, possui capacidade de auto-organizao (GURNEY, 1997). Neste
tipo de aprendizado no existe a figura do supervisor externo, sendo o ajuste dos
pesos feito independentemente de qualquer critrio de desempenho da resposta da
rede, por meio de um mecanismo local s sinapses.

3.3.8 Perceptron
O modelo perceptron de uma nica camada, ou perceptron simples,
proposto por Rosenblatt (ROSENBLATT, 1962) era composto por uma estrutura de
rede, tendo como unidades bsicas neurnios MCP, e por uma regra de
aprendizado. Alguns anos mais tarde, Rosenblatt demonstrou o teorema de
convergncia do perceptron, que mostra que o neurnio MCP treinado com o
algoritmo de aprendizado do perceptron sempre converge caso o problema em
questo seja linearmente separvel (ROSENBLATT, 1962).
A topologia original descrita por Resenblatt era composta por unidades
de entrada (retina), por um nvel intermedirio formado pelas unidades de
associao e por um nvel de sada formado pelas unidades de resposta. Embora
essa topologia original possua trs nveis, ela conhecida como perceptron de uma
104


nica camada, j que somente o nvel de sada (unidades de resposta) apresenta
propriedades adaptativas.

3.3.8.1 O algortmo de aprendizado do Perceptron
Uma RNA composta por um conjunto de neurnios com capacidade
de processamento local, uma topologia de conexo que define a forma como estes
neurnios esto conectados e uma regra de aprendizado.
Durante o processo de aprendizado o que se deseja obter no instante
o valor do incremento a ser aplicado ao vetor de pesos de tal forma
que o seu valor atualizado esteja mais prximo da soluo
desejada do que . Sendo assim, os algoritmos de aprendizado de RNA visam o
desenvolvimento de tcnicas para a obteno do valor de mais apropriado
para a obteno da soluo do problema.
Considerando um neurnio arbitrrio da camada de resposta de um
perceptron e seus vetores de entrada

e de pesos , sua ativao definida por


, em que

representa o produto interno entre

.
Consequentemente, a condio crtica de disparo do neurnio

ou

, o que equivalente a se adicionar um peso

com o valor s
entradas do neurnio e conect-lo a uma entrada com valor fixo

. A nova
condio crtica de disparo para os vetores aumentados passa ento a ser ,
em que



.
Considere agora o par de treinamento

para um neurnio
arbitrrio da rede em que o seu vetor de entrada e

a sada desejada para um


neurnio arbitrrio da rede, rede em resposta ao vetor de entrada ser chamada
simplesmente de , podendo-se ento definir o erro devido sada atual como
sendo

. Para o caso do percepetron, tem-se sempre que e

, podendo, portando haver apenas duas situaes possveis para as quais


o erro de sada diferente de 0, conforme mostrado na Tabela a seguir.


105


Tabela 4 - Possveis situaes para o erro


(sada desejada)

(sada atual)

(erro)
0 0 0
1 0 1
0 1 -1
1 1 0

Para duas situaes possveis (

e ou

e ),
chegou-se mesma expresso para a regra de atualizao dos pesos, que pode
ento ser escrita como a equao geral para a atualizao dos pesos de um
neurnio de um perceptron simples: , em que a
constante uma medida de rapidez com que o vetor de pesos ser atualizado,
sendo comumente chamada de taxa de aprendizado. De acordo com o Teorema da
Convergncia (ROSENBLATT, 1958), a atualizao dos pesos leva sempre a uma
soluo caso as classes em questo sejam linearmente separveis.

3.3.8.2 Implementao do algortmo de aprendizado do Perceptron
O algoritmo de aprendizado do perceptron sempre chega, em um tempo
finito, a uma soluo para o problema de separao de duas classes linearmente
separveis (ROSENBLATT, 1958). De maneira geral, o algoritmo de aprendizado de
um perceptron pode ser descrito como:
1. Inicialize ;
2. Inicialize o vetor de pesos com valores aleatrios;
3. Aplique a regra de atualizao dos pesos para
todos os pares (

) do conjunto de treinamento {(

)}

;
4. Repita o passo anterior at que para todos os elementos de .

106


3.3.8.3 Consideraes sobre o aprendizado do Perceptron
Sabe-se que independentemente do valor de , haver convergncia
em um tempo finito, caso as classe sejam linearmente separveis; no entanto, esse
tempo pode ser proibitivo em situaes reais. Um valor muito pequeno de pode
levar a um tempo de convergncia muito alto, equanto um valor muito alto pode levar
a instabilidade no treinamento. O melhor ajuste para o valor de depender do
problema, no havendo uma recomendao geral para todos os casos.
Uma outra considerao com relao aos valores iniciais atribudos
aos elementos do vetor de pesos. Uma regra geral inici-los com valores
amostrados em uma ditribuio uniforme definida no intervalo , em que
um valor positivo prximo de zero, como 0,5, por exemplo. A recomendao de se
iniciar os pesos com valores pequenos, prximos a zero, faz-se necessria para
evitar saturao forte do neurnio MCP, o que resultaria em dificuldades para
convergncia do algoritmo. Valores iniciais grandes para os pesos resultariam em
um valor igualmente grande para a soma ponderada das entradas, o que levaria a
uma resposta da funo de ativao muito distante do limiar, resultando na
necessidade de muitos passos de treinamento para alterar o estado de sada do
neurnio.

3.3.9 Redes Perceptron de Mltiplas Camadas (MLP)
As redes de uma nica camada tm a limitao de resolver apenas
problemas com caractersticas lineares. Sabe-se, no entanto, que as no-
linearidades so inerentes maioria as situaes e problemas reais, sendo
necessrias, portanto, a utilizao de estruturas com caractersticas no-lineares
para a resoluo de problemas de maior complexidade.
As no-linearidades so incorporadas a modelos neurais por meio das
funes de ativao (no-lineares) de cada neurnio da rede e da composio da
sua estrutura em camadas sucessivas. Assim, a reposta da camada mais externa da
rede corresponde composio das respostas dos neurnios das camadas
anteriores. rede neural de mltiplas camadas compostas por neurnios com
107


funes de ativao sigmoidais nas camadas intermedirias d-se o nome de
Perceptron de Mltipas Camadas (MLPs Multilayer Perceptron).
Os perceptrons de mltiplas camadas so uma importante classe de
redes neurais artificiais, eles consistem em um conjunto de unidades sensoriais, que
constituem a camada de entrada; as camadas ocultas e as de sada, formadas por
ns computacionais. Um perceptron de mltiplas camadas tem trs caractersticas
distintas:
a) O modelo de cada neurnio da rede inclui uma funo no-linear chamada
funo de ativao. importante ressaltar que essa no-linearidade deve
ser suave, isto , diferencivel em qualquer ponto. Uma forma que
normalmente utilizada e que satisfaz essas exigncias uma no-
linearidade sigmoidal (como funo de ativao descrita anteriormente).
b) A rede contm uma ou mais camadas intermedirias, ou ocultas, que no
so parte da entrada nem da sada da mesma. Os neurnios ocultos
capacitam a rede a aprender tarefas complexas extraindo
progressivamente as caracterstcas mais sinificativas dos padres
(vetores) de entrada.
c) A rede possui um alto grau de conectividade, determinado pelas sinpses
da rede.
por meio da combinao destas caractersticas, em conjunto com a
habilidade de aprender da experincia por treinamento, que o perceptron de
mltiplas camadas deriva seu poder computacional.
O treinamento de redes de uma nica camada por meio de aprendizado
supervisionado e correo de erros realizado por meio da aplicao do ajuste
ao vetor de pesos . Para redes de uma nica camada, o erro obtido
diretamente por meio da diferena entre a sada desejada e sada corrente da rede.
No entanto, para redes de mltiplas camadas esse procedimento pode ser aplicado
somente para a camada de sada, j que no existem sadas desejadas definidas
para as camadas intermedirias. Assim, o problema passa a ser ento como calcular
ou estimar o erro das camadas intermedirias.
108


A soluo para esse problema de treinamento de MLPs surgiu em
meados da dcada de 1980 com a descrio do algoritmo de retropropagao de
erros, ou back-propagation. O princpio do algoritmo , utilizando-se o gradiente
descendente, estimar o erro das camadas intermedirias por meio de uma estimativa
de efeito que estas causam no erro da camada de sada. Assim, o erro de sada da
rede calculado e este retroalimentado para as camadas intermedirias,
possibilitando o ajuste dos pesos proporcionalmente aos valores das conexes entre
camadas. A utilizao do gradiente descendente requer o uso de funes de
ativao contnuas e diferenciveis, assim, funes de ativao do tipo degrau
utilizadas no perceptron simples, por exemplo, no podero ser utilizadas. Funes
sigmoidais sero utilizadas para prover uma aproximao da funo degrau.
O papel das mltiplas camadas em uma rede feedforward, como a rede
MLP, transformar, sucessivamente, o problema descrito pelo conjunto de dados no
espao de entrada em uma representao tratvel para a camada de sada da rede.
Por exemplo, um problema no-linearmente separvel, resolvido por uma rede de
duas camadas, transformado em um problema linearmente separvel pela camada
intermediria, criando uma nova disposio interna rede para os dados de entrada.
A partir dessa nova disposio, linearmente separvel, a camada de sada pode
resolver o problema descrito no espao de entrada.

3.3.9.1 A arquitetura de uma rede Perceptron de Mltiplas Camadas (MLP)
Redes MLP apresentam um poder computacional maior do que aquele
apresentado pelas redes de uma nica camada. Redes com duas camadas
intermedirias podem implementar qualquer funo, seja ela linearmente separvel
ou no (CYBENKO, 1989). A qualidade da aproximao obtida depender da
complexidade da rede, ou seja, do nmero de neurnios utilizados nas camadas
intermedirias. A Figura 16, mostrada anteriormente, apresenta uma rede MLP tpica
com uma camada intermediria.
O comportamento de uma rede MLP, como a da Figura 16, pode ser
descrita por meio de duas transformaes sucessivas, sendo uma delas

,
relativa camada intermediria, e a outra

, relativa camada de
109


sada, em que

correspondem, respectivamente, aos vetores de pesos das


camadas escondida e de sada.

3.3.9.2 Nmero de camadas
Para uma rede com pelo menos duas camadas intermedirias, pode-se
dizer que o seguinte processamento occorre em cada uma das camadas:
1. Primeira camada intermediria: cada neurnio contribui com retas para
a formao da superfcie no espao de entrada;
2. Segunda camada intermediria: cada neurnio combina as retas
descritas pelos neurnios da camada anterior conectados a ele,
formando regies convexas, em que o nmero de lados definido pelo
nmero de unidades a ele conectadas.
3. Camada de sadia: cada neurnio forma regies que so combinaes
das regies convexas definidas pelos neurnios a ele conectadas da
camada anterior. Os neurnios definem, dessa maneira, regies com
formatos diversos.
A idia que a rede responda de acordo com as caractersticas
presentes nos dados de entrada e no exatamente igual aos dados de entrada. Por
exemplo, o princpio de Ockham diz que deve-se preferir modelos simples a modelos
complexos e esta preferncia dever aplicar-se at que os modelos se adequem aos
dados. Igualmente, Choro (2005) diz que apesar de vrias prticas para determinar
a dimenso da camada intermediria, na maioria dos casos continua ser a
tentantiva e erro a melhor regra a seguir.
Uma rede MLP com uma camada intermediria suficiente para
aproximar qualquer funo contnua e em problemas mais complexos pode-se
utilizar duas camadas. Independentemente da complexidade do problema, duas
camadas so suficientes para que a rede possa aproximar o problema. A utilizao
de um grande nmero de camadas escondidas no recomendada. Cada vez que o
erro mdio durante o treinamento utilizado para atualizar os pesos das sinpses da
camada imediatamente anterior, ele se torna menos til ou preciso. A nica camada
que tem uma noo precisa de erro cometido pela rede a camda de sada. A ltima
110


camada escondida recebe uma estimativa sobre o erro. A penltima camada
escondida recebe uma estimativa da estimativa, e assim por diante.

3.3.9.3 Nmero de neurnios
Em relao ao nmero de neurnios nas camadas escondidas, este
geralmente definido empiricamente. Deve-se ter cuidado para no utilizar nem
unidades demais, o que pode levar a rede a memorizar os dados de treino
(overfitting), ao invs de extrair as caracatersticas gerais que permitiro a
generelizao, nem um nmero muito pequeno, que pode forar a rede a gastar
tempo em excesso tentando encontrar uma representao tima. Devido a estas
dificuldades recomendado manter o nmero de neurnios escondidos baixo, mas
no to baixo quanto o estritamente necessrio. Existem vrias propostas de como
determinar a quantidade adequada de neurnios nas camadas escondidas de uma
rede neural. So as mais utilizadas:
1. O nmero de neurnios dever estar compreendido entre o nmero de
variveis de input e o nmero de output (BLUM, 1992).
2. O nmero de neurnios dever ser menor que a metade do nmero de
variveis da primeira camada (SWINGLER, 1996).
3. O nmero de neurnios dever ser igual ao nmero de dimenses
(componentes principais) necessrias para explicar 70 a 90% da
variabilidade dos dados de entrada (BOGER; GUTERMAN, 1997).

3.3.9.4 Treinamento de Redes MLP
O algoritmo de treinamento de redes MLP mais popular o back-
propagation que, por ser supervisionado, utiliza pares de entrada e sada para, por
meio de um mecanismo de correo de erros, ajustar os pesos da rede. O
treinamento ocorre em duas fases, em que cada fase percorre a rede em um
sentido. Essas duas fases so chamadas de fase forward e fase backward. A fase
forward utilizada para definir a sada da rede para um dado padro de entrada. A
fase backward utiliza a sada desejada e a sada fornecida pela rede para atualizar
os pesos de suas conexes.
111


Segundo Beale e Jackson (1990), a grande dificuldade do perceptron
de mltiplas camadas consiste no clculo dos pesos nas camadas intermedirias de
uma forma eficiente e que minimize o erro na sada. Quanto mais camadas
intermedirias existirem, mais difcil ser o clculo dos erros. O algoritmo back-
propagation um algoritmo em que a aprendizagem d-se por meio de um
processamento interativo dos exemplos de treino, comparando as previses da rede
para cada um dos exemplos de treino com os verdadeiros valores. A minimizao do
erro no algoritmo back-propagation obtida pela execuo do gradiente decrescente
na superfcie de erros do espao de pesos, em que a altura para qualquer ponto no
espao de pesos correponde medida de erro. Para cada exemplo de treino, os
pesos so modificados de forma a minimizar o erro quadrtico mdio entre as
previses da rede e os verdadeiros resultados. Estas modificaes so feitas no
sentido contrrio da camada de output para a camada de input. O erro apurado na
camada de output e retro-propagado para a camada de input, ou seja, uma vez
apurado o erro segue-se um processo de apuramento das responsabilidades
tentando corrigir os pesos que mais contriburam para esse erro.
possvel identificar duas fases distintas no processo de aprendizagem
do algoritmo em questo. A primeira fase responsvel pelo processo de treino e
consiste em enviar um sinal funcional que vai da camada de input at a de output,
isto , processamento para frente, onde um vetor de entrada fornecido aos
neurnios de entrada, propagando-se para frente, camada a camada. Finalmente
produzido um conjunto de sada como resposta da rede. Durante a fase de
propagao os pesos sinpticos da rede so todos fixos.
Na segunda fase do treino enviado um sinal do erro, no sentido
inverso, isto , do output para a camada de input denominado de retropropagao.
Durante a fase de retropropagao, os pesos sinpticos so todos ajustados de
acordo com uma regra de correo do erro. Especificamente esta fase apresenta a
validao da fase anterior, ou seja, verifica-se se o output produzido foi satisfatrio,
por meio da comparao das sadas geradas pela rede com a resposta desejada
para produzir um sinal de erro. Este sinal de erro tambm retropropagado por meio
da rede, em sentido contrrio das conexes sinpticas da o nome de
retropropagao do erro.
112


Para facilitar a compreenso do algoritmo, apresenta-se uma descrio
resumida dos passos mais importantes do algoritmo. A fase forward (a primeira fase)
envolve os seguintes passos:
1. O vetor de entrada apresentado s entradas da rede, e as sadas dos
neurnios da primeira camada escondida

so calculadas.
2. As sadas da camada escondida

provero as entradas da camada


seguinte

. As sadas da camada

so calculadas. O processo se
repete at que se chegue camada de sada

.
3. As sadas produzidas pelos neurnios da camada de sada so ento
comparadas s sadas desejadas

para aquele vetor de entrada e o


erro correspondente

calculado.
Conforme pode ser visto nos passos descritos para a fase forward, o
seu objetivo obter o erro de sada aps a propagao do sinal por todas as
camadas da rede. A fase backward, por sua vez, envolve as etapas:
1. O erro da camada de sada

utilizado para ajustar diretamente os seus


pesos, utilizando-se para isso o gradiente descendente do erro.
2. Os erros dos neurnios da camada de sada

so propagados para a
camada anterior

, utilizando-se para isso os pesos das conexes entre


as camadas, que sero multiplicados pelos erros correspondentes. Assim,
tem-se um valor de erro estimado para cada neurnio da camada
escondida que representa uma medida de influncia de cada neurnio na
camada

no erro de sada da camada

.
3. Os erros calculados para o neurnio da camada

so ento utilizados
para ajustar os seus pesos pelo gradiente descendente, analogamente ao
procedimento utilizado para a camada

.
4. O processo se repete at que os pesos da camada

sejam ajustados,
concluindo-se assim o ajuste dos pesos de toda a rede para o veto de
entrada e sua sada desejada

.
A Figura 21 mostra um esquema de rede MLP com duas camadas.
Nesta figura pode-se entender melhor o raciocnio do back-propagation, junto com
as dedues a seguir.
113


Figura 21 - Esquema da rede MLP e os ndices associados
Um neurnio possui uma sada linear

, correspondente soma
ponderada de suas entradas e uma sada, normalmente no-linear,

obtida aps a
aplicao da funo de ativao sobre

, ou seja,

. Para diferenciar as
respostas dos neurnios das camadas de sada e escondidas, estes ltimos tero
suas sadas referenciadas como

para um neurnio qualquer.


O erro de um neurnio de sada na iterao definido por

, sendo a soma dos erros quadrticos de todos os neurnios de sada


na iterao definida por:


Como a sada linear do neurnio da camada de sada definida por

, sendo o ndice referente camada escondida, pode-se


reescrever o erro do neurnio como

. Assim a soma dos


erros quadrticos de todos os neurnios de sada na iterao pode ser reescrita
como:



114


3.3.9.5 Camada de sada
A idia ajustar o vetor de pesos em direo contrria ao gradiente do
erro. Assim, as derivadas parciais de em relao a cada um dos pesos da camada
de sada sero inicialmente obtidas. Para o neurnio , a derivada parcial de em
relao ao peso

que o conecta ao neurnio da camada escondida pode ser


obtida por:


Pela regra da cadeia, v-se:

*(

))+

*(

))+
Sabendo que

, como dito anteriormente, tem-


se:

*(

))+
Novamente, pela regra da cadeia, chega-se:

*(

))+

* (

)+



Como dito anteriormente

, ou seja, somente o
termo em que no ter derivada nula, tem-se que

. J a derivada da (

) pode ser representada


simplesmente por (

), correspondente derivada da funo de ativao do


neurnio em relao ao valor de

no instante . Assim, obtem-se finalmente a


equao para o ajuste dos pesos do neurnio qualquer da camada de sada:
115



3.3.9.6 Camada escondida
Considere que se refere a uma entrada da rede de duas camadas.
Assim, a derivada parcial do erro de sada em relao ao peso pode ser obtida a
partir da equao:

))


em que o somatrio ocorre sobre todo os neurnios de sada e pode ser reescrito
como:

)
em que o nmero de neurnios na camada de sada.
Tratando cada termo separadamente, de maneira geral, tem-se:

))


Similarmente ao que foi feito anteriormente:


Como

corresponde ao somatrio das contribuies ponderadas


dos neurnios conectados a , a derivada

pode ser obtida por

). Como somente o neurnio da camada escondida tem o peso

como entrada, a derivada do somatrio se reduz simplesmente a:


)
116


Pela regra da cadeia, sabe-se que:

)
Como

corresponde a soma ponderada das entradas conectadas


ao neurnio , a derivada

) se reduz somente a

, j que todos os
termos do somatrio sero constantes exceto

, o que nos leva a:


Sabendo-se disso,


pode ser escrito por


e com isso,

)
ser

)

e ento:


Como o ajuste dos pesos deve ser feito na direo contrria ao
gradiente, tem-se que

. Assim, a equao a seguir apresenta o ajuste


117


a ser aplicado ao peso arbitrrio

, que conecta a entrada ao neurnio da


camada escondida.


em que , como j dito anteriormente, uma constante de proporcionalidade
correspondente taxa de aprendizado.
Na equao anterior, o termo

) corresponde derivada da
funo de ativao do neurnio da camada escondida. O seu argumento


corresponde a soma ponderada das suas entradas. O termo

corresponde a uma medida de erro do neurnio da


camada escondida. Como o somatrio feito em , correspondendo aos neurnios
da camada de sada, tem-se aqui a soma ponderada de todos os erros dos
neurnios de sada pelos pesos que os conectam ao neurnio da camada
escondida. Por meio dessa soma ponderada dos erros da camada de sada, os erros
calculados com base no conjunto de treinamento voltam para trs para permitir o
ajuste dos neurnios da camada escondida. Esse termo d o nome ao algoritmo
como sendo error back-propagation, ou retropropagao de erros.












118



119


4 MATERIAL E MTODOS
Para a aplicao das tcnicas estudas, utilizou-se um conjunto de
dados bancrios. O objetivo do estudo encontrar os clientes mais propensos a
adiquirem o CDC (Crdito Direto ao Consumidor), com o objetivo final de criar uma
campanha de marketing ofertando tal produto. O retorno esperado com o uso de
modelagem acertar o pblico de clientes que recebero o mailling, obtendo o
maior retorno possvel (adeso do cliente).
Segundo Gouveia (2007), CDC uma modalidade de crdito para
aquisio de bens durveis e servios. fornecido por bancos, financeiras e
estabelecimentos comerciais que vendem produtos financiveis via CDC.
O CDC tem prazo varivel entre 3 e 48 meses, podendo chegar a 84
meses, quando o bem durvel um automvel. O prazo para quitao da dvida
varia em funo do valor e tipo do bem, da capacidade de pagamento do comprador
e das condies da economia. Normalmente, o pagamento em prestaes
mensais. Geralmente os juros so pr-fixados, mas para prazos maiores que 12
meses pode haver algum reajuste pela TR ou pelo IGP-M (FINANCENTER, 2012).
Os juros so menores at mesmo que o crdito pessoal, mas isso s
possvel por que o agente financiador pede garantias. Quando possvel, o prprio
bem adquirido dado em garantia. Isso se chama alienao fiduciria. Ou seja,
trata-se de um financiamento destinado a aquisio de bens durveis e servios,
como por exemplo: veculos, eletrodomsticos, eletroeletrnicos, equipamentos
profissionais, materiais de construo, vesturio, outros bens no perecveis - e
servios - assistncia tcnica, manuteno etc.
O CDC pode ser obtido no estabelecimento vendedor que mantm
convnio com uma ou vrias instituies financeiras - banco ou financeira. Tambm
h os casos em que o prprio estabelecimento "banca" o financiamento e
posteriormente, negocia estes crditos com uma instituio financeira, gerando o
CDC-I; nesta modalidade a loja assume o risco de pagamento pelo comprador -
chamada Intervenincia. O pagamento pode ser realizado por meio de boleto
bancrio ou carnet pagvel na loja. O seguro do bem exigido no caso de veculos.
H outros seguros, como vida e perda de emprego, que podero ser exigidos.
120


Normalmente, o preo do seguro includo no valor do financiamento. O valor do
IOF tambm normalmente financiado e a falta de pagamento permite ao vendedor
retomar o bem financiado (FINANCENTER, 2012).
O objetivo do banco em questo saber para quais clientes ofertar esta
modalidade de crdito. Utilizando as informaes dos clientes que j pertencem ao
conjunto de clientes do banco, o objetivo construir um modelo que fornea a
probabilidade de aquisio do financiamento, para novos clientes.

4.1 Descrio do conjunto de dados
O conjunto de dados foi disponibilizado na internet, em uma competio
realizada pelo GUSAS (2011) e refere-se a clientes de um banco que adiquiriram ou
no o plano de financiamento CDC no ms de agosto de 2011. Dentre os 10 mil
clientes, mil adiquiriram a modalidade de crdito.
Para predizer a probabilidade de adeso do CDC, foram
disponibilizados uma srie de informaes sobre os 10 mil clientes. As variveis
cedidas so tanto nominais, ordinais ou contnuas. Na Tabela 5 encontra-se listada o
nome da varivel mais a descrio da mesma.

121


Tabela 5 - Caracterizao das variveis em estudo

(continua)
Varivel Descrio
ID Identificao do cliente
VL_TOTAL_CDB_T0
Valor total em CDB (Certificado de Depsito
Bancrio)
VL_LIMITE_IMPLANTADO_SM Valor do saldo mdio de limite implantado
VL_LIMITE_UTILIZADO_SM Valor do saldo mdio de limite utilizado
QT_CHEQUE_COMPENSADO Quantidade de cheques compensados
SEXO Sexo do cliente (H- homem, M-Mulher)
VL_TOTL_REND Valor total da renda do cliente
IDADE Idade do cliente
QTD_ACESSOS_ATM_MES
Quantidade de acessos ao ATM (Automatic
Teller Machine, mais conhecido como caixa
eletrnico)
QTD_ACESSOS_IB_MES
Quantidade de acessos ao IB (Internet
Banking)
QTD_ACESSOS_TMK_MES
Quantidade de acessos ao TMK
(Telemarketing)
QT_CDC_LEAS Quantidade de CDC
VL_SALD_ATIV
Valor do saldo ativo (crdito tomado no
banco)
VL_SALD_PASS
Valor do saldo passivo (investimentos
bancrios do cliente)
VL_SALD_POUP Valor do saldo de poupana
VL_SALD_PRVD_PRIV Valor do saldo de previdncia
VL_TRANS_INTERNACIONAL Valor das transaes internacionais
VL_TRANS_NACIONAL Valor das transaes nacionais
QT_TRANS_INTERNACIONAL Quantidade de transaes internacionais
QT_TRANS_NACIONAL Quantidade de transaes nacionais
QT_COMPRA_VISA Quantidade de compras realizadas com Visa
VL_LIMITE_DISPONIVEL_CART_CRED
Valor do limite disponvel no carto de
crdito
VL_LIMITE_UTILIZADO_CART_CRED
Valor do saldo mdio de limite utilizado no
carto de crdito
VL_LIMITE_IMPLANTADO_CART_CRED
Valor do limite implantado no carto de
crdito
VL_SALDO_DEVEDOR_TOTAL Valor do saldo devedor total no banco
RENDA_MENSAL Renda Mensal
AVENC_TOTAL_SCR_CP
Valor total a vencer de crdito pessoal
tomado no mercado (incluindo o prprio
banco)
VENCD_TOTAL_SCR_CP Total vencido de crdito pessoal no mercado


122


Tabela 5 - Caracterizao das variveis em estudo
(concluso)
Varivel Descrio
AVENC_TOTAL_SCR_CONSIG
Valor total a vencer de consignado tomado
no mercado (incluindo o prprio banco)
VENCD_TOTAL_SCR_CONSIG Total vencido de consignado no mercado
PERFIL_HIST
Perfil do cliente dentro do banco (Investidor
ou Tomador)
QTD_DEB_AUTOMATICO Quantidade de dbitos automticos
VL_DEB_AUTOMATICO Valor de dbitos automticos
SG_UF
Sigla da unidade da federao em que o
cliente abriu conta
QTCLI_SEGUROS_12 Quantidade de seguros que o cliente possui
QTDE_PRODUTOS_PF_12 Quantidade de produtos pessoa fsica
VL_SM_CAPTACAO_12
Valor do saldo mdio de captao no ltimo
ms
VL_SM_CRED_PESSOAL_12
Valor do saldo mdio de crdito pessoal no
ltimo ms
VL_TARIFA_COBRADA_12
Valor mdio da tarifa cobrada do cliente no
ltimo ms
TOT_SEG_AUTO
Total de meses com seguro auto (de 1 a 9
meses)
MBB_3M Margem Bruta
SALDO_DISPONIVEL_3M Saldo do cliente disponvel (mdia trimestral)
VL_TOTAL_INVESTIMENTO_T0 Valor total em Investimentos
FLAG_RESPOSTA
Adquiriu CDCem Ago/11 (1 - Adquiriu, 0 -
No adquiriu)
RESTRICAO_FINANCEIRA
Cliente com restrio financeira (1 - possui,
0 - no possui)
RISCO Nvel de risco de crdito do cliente
ESTADO_CIVIL Estado civil do cliente
ESCOLARIDADE Escolaridade do cliente
TEM_PRE_APROV_CDC
Posse de pr-aprovado para CDC (1 -
possui; 0 - no possui)
SEGMENTO
Segmento criado pelo banco, que classifica
o cliente entre Clssico, Especial e
Supremo.

4.2 Sistema computacional SAS
Para a realizao deste trabalho foi utilizado o sistema computacional
SAS, de domnio privado, existindo a necessidade de licena para utilizao do
mesmo. SAS um software criado na dcada de 60, por Jim Goodnight e mais
quatro colegas. Atualmente o software mais utilizado no mercado de trabalho, por
123


garantir as anlises realizadas e pela habilidade na manipulao de grandes bases
de dados. uma marca que sempre est presente entre os melhores softwares, nas
pesquisas realizadas na rea de TI (Tecnologia da Informao).
O SAS uma empresa que est no mercado a mais de 30 anos e no
decorrer deste tempo foi aperfeioando suas tecnologias e com isso, aumentando
seu nmero de softwares. Atualmente existe um software para cada perfil de
usurios, o que facilitou na escolha do melhor software para tal estudo. Todo o
trabalho foi realizado utilizando o SAS Enterpise Guide para anlises simples e
manipulao das bases de dados e o SAS Enterprise Miner para a modelagem.
O SAS Enterprise Miner auxilia no processo de minerao de dados
para criar modelos preditivos e descritivos altamente precisos, com base em
anlises de grandes quantidades de dados de toda uma empresa. uma ferramenta
de fcil manipulao e de capacidades integrada para criar e compartilhar
conhecimentos que podem ser usados para melhor tomar decises. As
organizaes, com viso de futuro, usam o software SAS Enterprise Miner para
detectar fraudes, minimizar riscos, prever demandas e aumentar as taxas de
resposta para campanhas de marketing.
O SAS Enterprise Miner apoia todo o processo de minerao de dados
com um amplo conjunto de recursos. Independentemente da preferncia ou nvel de
habilidade do usurio, o SAS fornece um software flexvel, que aborda os problemas
complexos. No Apndice D h uma breve descrio sobre o software mais um guia
introdutrio.
O SAS Enterprise Miner inclui um grande benefcio que a auto-
documentao. Todos os modelos so criados num fluxo que permite ao
desenvolvedor saber o passo a passo do estudo. Essa vantagem diminui o tempo de
desenvolvimento de modelo de data mining para os estatsticos ou desenvolvedores.
O software permite que os usurios de negcios gerem
automaticamente modelos preditivos e ajam sobre eles de forma rpida e eficaz.
Resultados analticos podem ser compreendidos facilmente, o que possibilita a
obteno de conhecimentos necessrios para uma melhor tomada de deciso.
124


O SAS Enterprise Miner permite melhorar a preciso das previses e
compartilhar informaes confiveis a fim de melhorar a qualidade das decises.
Modelos com melhor desempenho melhoram a estabilidade e preciso das
previses, que podem ser verificadas facilmente pelo modelo de avaliao visual e
mtricas de validao. Previso de resultados e avaliao estatstica de modelos
construdos com diferentes abordagens podem ser exibidas lado a lado para facilitar
a comparao. Os diagramas resultantes servem como auto-documento de modelos
que podem ser facilmente atualizado ou aplicados a novos problemas, sem ter que
iniciar tudo novamente. Alm disso, o perfil de modelo fornece uma compreenso de
como as variveis preditoras contribuem para o resultado que est sendo modelado.
Facilitar a implantao do modelo e o processo de scoragem (processo
de aplicao de um modelo para novos dados - o resultado final de muitos
empreendimentos de minerao de dados). SAS Enterprise Miner automatiza o
processo tedioso de scoragem e fornece o cdigo completo de scoragem para todas
as fases de desenvolvimento do modelo no SAS, C, Java e PMML. O cdigo de
scoragem pode ser implantado em tempo real ou em lotes dentro de ambientes SAS,
na Web ou diretamente nos bancos de dados relacionais. O resultado uma
execuo mais rpida dos resultados da minerao de dados.

125


5 RESULTADOS
Para qualquer anlise de dados e/ou Data Mining necessrio
conhecer as variveis, seus casos possveis e distribuies. Inicialmente essencial
realizar uma anlise descritiva dos dados. Anlise univariada, anlise bivariada e
anlises de correlao para evitar problemas de multicolinearidade.
Nesta anlise dispe-se de 51 variveis, das quais uma a varivel
objetivo (FLAG_RESPOSTA - binria) e as demais so variveis explicativas, sendo
elas binrias, nominais, ordinais e intervalares.
A partir da anlise univariada pode-se eliminar algumas variveis como
as que no tem informao suficiente, por exemplo, a varivel VL_TOTAL_CDB_T0
com 95% dos dados faltantes (Apndice B). J a anlise bivariada mostra, por
exemplo para a varivel SEXO, qual o nmero de clientes do sexo masculino que
adiquiriam ou no o CDC (Crdito Direto ao Consumidor) e tambm para o sexo
feminino. Todas as variveis foram analisadas e todas que tiveram alguma
categorizao ou agrupamento foram renomeadas como nome_antigo_A, em que
A representa algum agrupamento (Apndice B).
A anlise de correlao foi realizada e dentre as variveis altamente
correlacionadas manteve-se apenas as mais importantes. Os dados faltantes, como
mencionado no decorrer da dissertao, podem reduzir bruscamente o nmero de
dados vlidos para a anlise de regresso logstica, por exemplo. Para as variveis
com este problema utilizou-se o mtodo de rvore de deciso para inserir valores
nos dados sem informao. Neste mtodo os valores faltantes so estimados como
se fossem a varivel resposta e o restante das variveis so utilizadas como
explicativas. Esta tcnica de imputao pode ser mais precisa do que usar
simplesmente uma mdia ou mediana da varivel em questo. As anlises
descritivas das variveis imputadas e transformadas esto disponveis no Apndice
B.
Para a modelagem dos clientes que adquirem CDC, partionou-se a
base de dados em 70% para a base de treinamento (onde o modelo ser construdo)
e 30% para a base de validao (onde ser medido o desempenho do modelo).
126


Estimou-se um modelo logito binrio com as variveis j descritas
anteriormente. Na Tabela 6 tm-se os coeficientes de regresso, as estatsticas de
Wald e respectivos intervalos de confiana para cada um dos parmetros que foi
selecionado a partir do mtodo Stepwise.
Tabela 6 Resultado do modelo selecionado a partir do mtodo Stepwise
Varivel Domnio
G
L
Coefici
entes
Erro
Padro Wald Sig IC 95%
Intercept 1 -1,6078 0,5639 8,13 0,0044 -2,713 -0,5025
IMP_IDADE_A
1 MENOR OU
IGUAL A 25
ANOS 1 1,2603 0,175 51,86 <,0001 0,9173 1,6033
IMP_IDADE_A
2 ENTRE 26 E 35
ANOS 1 1,0505 0,1293 66,02 <,0001 0,7971 1,3039
IMP_IDADE_A
3 ENTRE 36 E 50
ANOS 1 0,6586 0,1266 27,05 <,0001 0,4104 0,9068
IMP_QTDE_PRODU
TOS_PF_12_A DE 1 A 5 1 -0,412 0,1079 14,58 0,0001 -0,6235 -0,2006
IMP_QTD_ACESSO
S_ATM_MES_A DE 1 A 5 1 -0,2208 0,1026 4,63 0,0314 -0,422 -0,0197
IMP_QT_CDC_LEAS 0 1 -1,5716 0,1948 65,08 <,0001 -1,9534 -1,1898
IMP_QT_CHEQUE_
COMPENSADO_A 0 1 -0,9149 0,1369 44,65 <,0001 -1,1832 -0,6466
IMP_QT_CHEQUE_
COMPENSADO_A DE 1 A 5 1 -0,3616 0,1303 7,7 0,0055 -0,617 -0,1062
IMP_RENDA_MENS
AL_A
1 MENOS QUE
500 REAIS 1 -1,3083 0,2381 30,19 <,0001 -1,775 -0,8416
IMP_RENDA_MENS
AL_A
2 ENTRE 500 E
1500 REAIS 1 -0,7146 0,1614 19,59 <,0001 -1,031 -0,3982
IMP_RENDA_MENS
AL_A
3 ENTRE 1500 E
3000 REAIS 1 -0,2905 0,1328 4,78 0,0287 -0,5508 -0,0302
IMP_RISCO ALTO 1 -2,168 0,7463 8,44 0,0037 -3,6307 -0,7053
IMP_RISCO BAIXO 1 0,7617 0,1686 20,41 <,0001 0,4313 1,0921
IMP_SG_UF_A OUTRAS 1 -0,3735 0,1721 4,71 0,03 -0,7108 -0,0362
IMP_SG_UF_A SUDESTE 1 -0,5381 0,1325 16,49 <,0001 -0,7979 -0,2784
LOG_IMP_VL_SALD
_ATIV 1 0,0369 0,0119 9,67 0,0019 0,0137 0,0602
LOG_IMP_VL_SALD
_PRVD_PRIV 1 -0,0503 0,0212 5,61 0,0179 -0,0919 -0,00868
LOG_IMP_VL_TRAN
S_NACIONAL 1 0,0369 0,0158 5,48 0,0192
0,0060
1 0,0678
RESTRICAO_FINAN
CEIRA 0 1 1,4898 0,4936 9,11 0,0025 0,5223 2,4573
SEGMENTO CLSSICO 1 -1,5112 0,2103 51,63 <,0001 -1,9235 -1,099
SEGMENTO ESPECIAL 1 -0,3157 0,1215 6,75 0,0094 -0,5537 -0,0776
SEXO H 1 0,3837 0,0963 15,88 <,0001 0,195 0,5724

Pela razo de chance, Tabela 7, conclui-se, por exemplo, que clientes
sem nenhuma restrio financeira so 4,436 vezes mais propensos a adiquirirem
127


CDC do que os clientes com alguma restrio. J cliente com idade menor ou igual a
25 anos so 3,526 vezes mais propensos a adquirirem CDC que cliente mais velhos
que 51 anos. Clientes entre 26 e 35 anos so 2,859 vezes mais propensos que os
cliente com idade maior que 51 anos, e assim por diante.
Tabela 7 Razo de chance para cada uma das variveis no modelo de Regresso Logstica
Variveis
Razo de
Chance
IMP_IDADE_A
1 MENOR OU IGUAL A 25 ANOS vs
4 MAIOR OU IGUAL A 51 ANOS 3,526
IMP_IDADE_A
2 ENTRE 26 E 35 ANOS vs 4
MAIOR OU IGUAL A 51 ANOS 2,859
IMP_IDADE_A
3 ENTRE 36 E 50 ANOS vs 4
MAIOR OU IGUAL A 51 ANOS 1,932
IMP_QTDE_PRODUTOS_PF_12_A DE 1 A 5 vs MAIS OU IGUAL A 6 0,662
IMP_QTD_ACESSOS_ATM_MES_A DE 1 A 5 vs MAIS OU IGUAL A 6 0,802
IMP_QT_CDC_LEAS 0 vs 1 0,208
IMP_QT_CHEQUE_COMPENSADO_A 0 vs MAIS OU IGUAL A 6 0,401
IMP_QT_CHEQUE_COMPENSADO_A DE 1 A 5 vs MAIS OU IGUAL A 6 0,697
IMP_RENDA_MENSAL_A
1 MENOS QUE 500 REAIS vs 4
MAIS QUE 3000 REAIS 0,27
IMP_RENDA_MENSAL_A
2 ENTRE 500 E 1500 REAIS vs 4
MAIS QUE 3000 REAIS 0,489
IMP_RENDA_MENSAL_A
3 ENTRE 1500 E 3000 REAIS vs 4
MAIS QUE 3000 REAIS 0,748
IMP_RISCO ALTO vs MEDIO 0,114
IMP_RISCO BAIXO vs MEDIO 2,142
IMP_SG_UF_A OUTRAS vs SUL 0,688
IMP_SG_UF_A SUDESTE vs SUL 0,584
LOG_IMP_VL_SALD_ATIV 1,038
LOG_IMP_VL_SALD_PRVD_PRIV 0,951
LOG_IMP_VL_TRANS_NACIONAL 1,038
RESTRICAO_FINANCEIRA 0 vs 1 4,436
SEGMENTO CLSSICO vs SUPREMO 0,221
SEGMENTO ESPECIAL vs SUPREMO 0,729
SEXO H vs M 1,468

A partir da matriz de confuso da base de validao exposta na Tabela
8 nota-se que dentre os 72 clientes que foram classificados como que adquirem
CDC, 47 foram classificados corretamente (65,27%) e dos 2930 clientes que foram
classificados como que no adquirem CDC, 2676 foram classificados corretamente
(91,33%). Por outro lado, dentre os 301 clientes que adquirem CDC, apenas 47
128


foram classificados corretamente (15,61%) e dentre os 2701 clientes que no
adquirem CDC, 2676 foram classificados corretamente (99,07%).
Tabela 8 Matriz de confuso para o modelo de Regresso Logstica
Estimado
Real 1 0
1 47 254
0 25 2676

A Figura 22 mostra uma viso da rvore de deciso que utilizou a
entropia como critrio de diviso, restringindo a profundidade a trs nveis, para fins
de apresentao (o modelo final contou com uma profundidade de cinco nveis).
Observa-se, dentro dos retngulos a porcentagem de clientes que no adquirem
CDC (0) e os que adquirem (1), tanto para a base de treinamento como na de
validao alm da frequncia em cada base. Abaixo dos ns ficam as variveis
selecionadas para a diviso at que chegue as folhas, quando as divises adicionais
no trazem mais pureza.
Figura 22 Ilustrao parcial da rvore de Deciso
Neste modelo so consideradas 9 variveis importantes para a
explicao da varivel target. A seguir v-se uma lista (Tabela 9) com as variveis
consideradas importantes, na ordem de importncia.

129


Tabela 9 Variveis importantes para o modelo de rvore de Deciso
Varivel Importncia
IMP_RENDA_MENSAL_A 1
IMP_QT_CDC_LEAS 0.61726
LOG_IMP_VL_LIMITE_IMPLANTADO_SM 0.46242
IMP_QT_TRANS_NACIONAL_A 0.43282
LOG_IMP_VL_SALD_ATIV 0.38773
LOG_IMP_VL_TRANS_NACIONAL 0.28886
IMP_QT_CHEQUE_COMPENSADO_A 0.22472
IMP_IDADE_A 0.16863
IMP_TOT_SEG_AUTO_A 0.12289

A Tabela 10 mostra a matriz de confuso da base de validao para a
rvore de deciso. Dentre os 47 clientes que foram classificados como que
adquirem CDC, 30 foram classificados corretamente (63,82%) e dos 2955 clientes
que foram classificados como que no adquirem CDC, 2684 foram classificados
corretamente (90,82%). Por outro lado, dentre os 301 clientes que adquirem CDC,
apenas 30 foram classificados corretamente (9,96%) e dentre os 2701 clientes que
no adquirem CDC, 2684 foram classificados corretamente (99,37%).
Tabela 10 Matriz de confuso para o modelo de rvore de Deciso
Estimado
Real 1 0
1 30 271
0 17 2684

Finalmente, no Apndice C encontram-se as regras em ingls das
divises de cada n, que mostram como programar as divises. A sua estrutura
comea mostrando as variveis a serem divididas no n e seus intervalos, faixas, ou
quantidades. No exemplo abaixo, toma-se a varivel transformada do valor do limite
implantado SM, e verifica-se se menor do que 7,04. Alm disso, a varivel
agrupada renda mensal deve ser entre 1500 e 3000 reais. Caso essas condies
sejam satisfeitas, o cliente alocado ao n 9, que ser considerado como
FLAG_RESPOSTA = 0 (no adquire CDC). Como v-se, para fins de interpretao
do resultado, a rvore bem mais simples de ser compreendida.

130


*------------------------------------------------------------*
Node = 9
*------------------------------------------------------------*
if Transformed: Imputed VL_LIMITE_IMPLANTADO_SM < 7.04795 or MISSING
AND Imputed RENDA_MENSAL_A = 3 ENTRE 1500 E 3000 REAIS then
Tree Node Identifier = 9
Number of Observations = 108
Predicted: FLAG_RESPOSTA=0 = 0.85
Predicted: FLAG_RESPOSTA=1 = 0.15

A Tabela 11 mostra a alocao dos pesos na rede neural, para algumas
variveis (apenas para fins de apresentao), sendo que em azul esto os pesos
positivos, e em vermelho os pesos negativos, sendo H11, H12, e H13 os neurnios
da camada escondida (Hidden Layer). Esta uma rede neural com uma camada
escondida com trs neurnios e funo de ativao mlogstica.

Tabela 11 Alocao dos pesos na rede neural (tabela ilustrativa pois contm apenas
algumas variveis)

Origem Destino Peso
LOG_IMP_MBB_3M H11 0.070411
LOG_IMP_SALDO_DISPONIVEL_3M H11 0.048623
LOG_IMP_VL_TARIFA_COBRADA_12 H11 -0.167993
LOG_IMP_MBB_3M H12 0.015025
LOG_IMP_SALDO_DISPONIVEL_3M H12 0.389042
LOG_IMP_VL_TARIFA_COBRADA_12 H12 -0.056576
LOG_IMP_MBB_3M H13 -0.007322
LOG_IMP_SALDO_DISPONIVEL_3M H13 -0.244988
LOG_IMP_VL_TARIFA_COBRADA_12 H13 0.064894
RESTRICAO_FINANCEIRA0 H11 0.587923
RESTRICAO_FINANCEIRA0 H12 0.433778
RESTRICAO_FINANCEIRA0 H13 0.296037

Analisando a quantidade de acerto, tm-se a matriz de confuso da
base de validao (Tabela 12). Dentre os 110 clientes que foram classificados como
que adquirem CDC, 71 foram classificados corretamente (64,54%) e dos 2892
clientes que foram classificados como que no adquirem CDC, 2662 foram
classificados corretamente (92,04%). Por outro lado, dentre os 301 clientes que
adquirem CDC, apenas 71 foram classificados corretamente (23,58%) e dentre os
131


2701 clientes que no adquirem CDC, 2662 foram classificados corretamente
(98,55%).
Tabela 12 - Matriz de confuso para o modelo de Rede Neural
Estimado
Real 1 0
1 71 230
0 39 2662

Os trs modelos: regresso logstica, rvore de deciso e rede neural
apresentaram a rea da curva ROC igual a 0,864, 0,833, 0,86 respectivamente
(Figura 23). Pode-se notar que a rea da curva ROC para todos os modelos indica
uma discriminao excelente (o modelo discrimina de modo excelente os clientes
que tm a caracterstica de interesse dos clientes que no tm), porm visvel a
partir das matrizes de confuso que os itens de interesse (FLAG_RESPOSTA=1)
esto sendo classificados erroneamente, sendo acertivos em apenas 15,61% para
regresso logstica, 9,96% para a rvore de deciso e 23,58% para a Rede Neural.

Figura 23 Grfico da curva ROC para os trs modelos iniciais (Regresso Logstica na cor
verde, rvore de deciso na cor marrom e Rede Neural na cor vermelha)


132


Isso pode ser explicado pela frequncia de eventos de interesse
comparado aos demais (9000 clientes que no adquirem CDC e apenas 1000
clientes que adquirem). A proporo desbalanceada pode causar um alto valor da
rea da curva ROC, sem atingir o objetivo principal, dado que percentualmente a
quantidade de eventos de interesse no significativa.
Com o objetivo de suavizar este problema, selecionou-se aleatorimente
1500 clientes que no adquirem CDC e mantve-se os mil clientes que adquiram.
Desta forma a base disponvel para o prximo passo ser de 2500 clientes, onde
40% adquire CDC e 60% no adquire. Supondo que a proporo real dentro do
banco seja esta.
Toda a anlise descritva univariada, bivariada, corelaes, alm das
imputaes e transformaes foram refeitas e os resultados foram mais
interessantes. As Tabelas 13, 14 e 15 mostram a matriz de confuso para este novo
estudo e como pode-se notar, os modelos foram mais acertivos.
Para Regresso Logstica, dentre os 262 clientes que foram
classificados como que adquirem CDC, 187 foram classificados corretamente
(71,37%) e dos 490 clientes que foram classificados como que no adquirem CDC,
376 foram classificados corretamente (76,73%). Por outro lado, dentre os 301
clientes que adquirem CDC, 187 foram classificados corretamente (62,12%) e dentre
os 451 clientes que no adquirem CDC, 376 foram classificados corretamente
(83,37%).
Tabela 13 - Matriz de confuso para o modelo de Regresso Logstica (2)
Estimado
Real 1 0
1 187 114
0 75 376

Para rvore de Deciso, dentre os 283 clientes que foram classificados
como que adquirem CDC, 194 foram classificados corretamente (68,55%) e dos 469
clientes que foram classificados como que no adquirem CDC, 362 foram
classificados corretamente (77,18%). Por outro lado, dentre os 301 clientes que
adquirem CDC, 194 foram classificados corretamente (64,45%) e dentre os 451
clientes que no adquirem CDC, 362 foram classificados corretamente (80,26%).
133


Tabela 14 - Matriz de confuso para o modelo de rvore de Deciso (2)
Estimado
Real 1 0
1 194 107
0 89 362

J para Rede Neural, dentre os 269 clientes que foram classificados
como que adquirem CDC, 188 foram classificados corretamente (69,88%) e dos 483
clientes que foram classificados como que no adquirem CDC, 370 foram
classificados corretamente (76,60%). Por outro lado, dentre os 301 clientes que
adquirem CDC, 188 foram classificados corretamente (62,45%) e dentre os 451
clientes que no adquirem CDC, 371 foram classificados corretamente (82,03%).
Tabela 15 - Matriz de confuso para o modelo de Rede Neural (2)
Estimado
Real 1 0
1 188 113
0 81 370

Os trs novos modelos: regresso logstica (2), rvore de deciso (2) e
rede neural (2) apresentaram a rea da curva ROC igual a 0,844, 0,814 e 0,831
respectivamente (Figura 24). Pode-se notar que a rea da curva ROC para todos os
modelos indica uma discriminao excelente (o modelo discrimina de modo
excelente os clientes que tm a caracterstica de interesse dos clientes que no
tm), com um melhor acerto na varivel target de interesse.

134


Figura 24 Grfico da curva ROC para os trs modelos (Regresso Logstica (2) na cor
verde, rvore de Deciso (2) na cor marrom e Rede Neural (2) na cor vermelha)

Neste caso, usando a rea da curva ROC como parmetro de deciso,
o melhor modelo dentre os 3 desenvolvidos seria o de Regresso Logstica. Para
este modelo, tem-se na Figura 25 o grfico do Lift. Supondo que o interesse do
banco seja ofertar CDC para seus clientes, de uma forma aleatria com 10% da
base o retorno seria menor do que se usasse o resultado do modelo. Usando o
modelo para selecionar o melhor pblico a se oferecer CDC, para 10% da base, o
acerto do melhor pblico seria 2,20 vezes melhor.








135










Figura 25 Grfico lift para o modelo de Regresso Logstica (2) onde o azul representa a
base de treinamento e o vermelho a base de validao

J na Figura 26 pode-se ver o comportamento do lift para os 3 modelos
desenvolvidos. Sendo o dcimo percentil da Regresso Logstica (2) igual a 2,20, da
rvore de Deciso (2) igual a 2,04, e da Rede Neural (2) igual a 2,13.








Figura 26 Grfico lift para os trs modelos desenvolvidos (Regresso Logstica (2) na cor
vermelha, rvore de Deciso (2) na cor verde e Rede Neural (2) na cor azul)

136



137


6 CONCLUSO
O objetivo desse trabalho foi dissertar sobre as tcnicas de data mining
mais difundidas: regresso logstica, rvore de deciso, e rede neural, alm de
avaliar se tais tcnicas oferecem ganhos financeiros para instituies privadas
quando utilizadas corretamente.
Com a aplicao na base de dados de um banco, pde-se mostrar que
os modelos so capazes de oferecer rendimento monetrio para as instituies que
os usam. O objetivo do banco encontrar quais so os clientes mais propensos a
adquirem o CDC (Crdito Direto ao Consumidor), com o objetivo final de criar uma
campanha de marketing ofertando tal produto. O retorno esperado com o uso de
modelagem, acertar o pblico de clientes que recebero o mailling, obtendo o
maior retorno possvel (adeso do cliente).
Supondo que a proporo real de clientes que adquirem CDC seja de
40% e que o interesse do banco seja fazer a campanha de marketing para 10% dos
clientes, o retorno esperado sem modelo de 40% dos clientes que receberam a
campanha aderindo ao CDC. Por outro lado, se o modelo entregar um lift de 1,5 para
o primeiro decil, significa que ao estimular esses clientes obter-se- um retorno 50%
superior ao retorno mdio.
Logo, os lifts obtidos na modelagem mostram o quanto o emprego do
modelo otimiza a lista de seleo de clientes que participaro da campanha. O
objetivo do banco atingir eficientemente a grande base de clientes potenciais. As
trs tcnicas forneceram resultados muito similares e mostraram que a utilizao de
Data Mining pode ajudar no objetivo do banco. Sendo assim, o critrio para a
seleo do melhor modelo deve ser a facilidade de implantao e uso. Portanto, pelo
que foi visto anteriormente, a rvore de deciso mais apropriada por apresentar
maior facilidade na interpretao dos resultados para o gestor de negcios.
A primeira dificuldade que surge em qualquer tarefa de modelagem diz
respeito elaborao de uma base de dados em condies apropriadas para o
estudo. preciso escolher e preparar um grande volume de dados, sendo
necessrio observar as condies de preechimento das variveis e, caso necessrio
eliminar registos sobre os quais se desconfia da veracidade. A base de dados
138


utilizada no presente estudo contm algumas variveis com elevadas porcentagens
de missing, as quais foram extradas da anlise. A ausncia destas variveis no
prejudicou os modelos desenvolvidos, porm poderiam ter enriquecido-os, se
significativas.
Sendo assim, importante ressaltar que o tratamento das informaes
de fundamental importncia para que o processo de modelagem se desenvolva
bem. Modelos bem desenvolvidos so inteis se as informaes para a modelagem
no tiverem qualidade. O tratamento da informao deve ser mantida constante
dentro de qualquer instituio, para que anlises estatsticas tenham qualidade.
Dados faltantes devem ser tratados e um sistema de coleta de informao deve ser
criado de forma que minimize possveis erros humanos.
de interesse realizar posteriormente um estudo detalhado das
tcnicas de data mining aplicadas a outros tipos de variveis resposta (nominal ou
ordinal), alm de outras tcnicas tambm utilizadas em minerao de dados, como
clusterizao e cesta de produtos.

139


REFERNCIAS
AMEMIYA, T. Advanced Econometrics. 9th ed. Cambridge: Harvard University
Press, 1985. 521p.

BASSANEZI, R.C. Ensino-aprendizagem com modelagem matemtica. So
Paulo: Contexto, 2004. 389p.

BEALE, R.; JACKSON, T. Neural computing: an introduction. Bristol, UK: IOP,
1990. 240p.

BECK, N.; KING G.; ZENG L. Improving Quantitative Studies of International Conflict:
A Conjecture. American Political Science Review, Washington, v. 94, n. 1, p 21-35,
Mar. 2000.

BERRY, M.J.A.; LINOFF, G.S. Data mining techniques: for marketing, sales, and
customer relationship management. New York: John Wiley, 2004. 672p.

BLUM, A. Neural Networks in C++. New York: Wiley, 1992. 224p.

BOGER, Z.; GUTERMAN H. Knowledge extraction from artificial neural network
models. In: IEEE SYSTEMS, MAN, AND CYBERNETICS CONFERENCE, 1997,
Florida. Anais Flrida: IEEE, 1997. p: 3030-3035.

BRAGA, A.P.; CARVALHO A.C.P.L.F.; LUDEMIR T.B. Redes Neurais Artificiais:
Teoria e Aplicaes. Rio de Janeiro: LTC Livros Tcnicos e Cientificos Editora, 2000.
226p.

BREIMAN, L.; FRIEDMAN, J.H.; OLSHEN, R.A.; STONE, C.J. Classification and
Regression Trees. Belmont, California: Wadsworth, 1984. 368p.

CHORO, L.A.R. Logit vs Redes Neuronais Artificiais: Um exemplo aplicado a
cartes de crdito. 2005. 156p. Dissertao (Mestrado em Estatstica e Gesto de
Informao) Instituto Superior de Estatstica e Gesto de Informao, Universidade
Nova de Lisboa, Lisboa, 2005.

CORTEZ, P.; NEVES, J. Redes Neuronais Artificiais. Braga: Escola de Engenharia
Universidade do Minho, 2000. 52p.

CRAMER, J.S. The Origins of Logistic Regression. Tinbergen Institute Discussion
Papers 02-119/4, Tinbergen Institute, 2002.

CYBENKO, G. Approximation by superpositions of a sigmoid function. Mathematics
of Control, Signals and Systems, New York, v. 2, p. 303-314, 1989.

DAMSIO, A.R. O Erro de Decartes: Emoo, Razo e Crebro Humano.
Companhia das Letras, 1996. 336p.

140


DILLY, R. Data Mining: an introduction. Disponvel em: <
http://www.pcc.qub.ac.uk/tec/courses/datamining/stu_notes/dm_book_1.html>.
Acesso em: 16 dez. 2010.

DINIZ, C.A.; LOUZADA-NETO, F. Data Mining: uma introduo. So Carlos:
Associao Brasileira de Estatstica, 2000. 123p.

EISINGA, R.; FRANSES P.; DIJK D. Timing of Vote Decision in First and Second
Order Dutch Elections 1978-1995 Evidence from Artificial Neural Networks. Political
Analysis, Oxford, v. 7, n. 1, p. 117-142, 1998.

FAYYAD, U.M.; PIATETSKI-SHAPIRO, G.; SMYTH, P. The KDD Process for
Extracting Useful Knowledge from Volumes of Data. Communications of the ACM,
New York, v. 39, p.27-34, Nov. 1996.

FAYYAD, U.M.; STOLORZ, P. Data mining and KDD: promise and
challenges. Future Generation Computer Systems, North-Holland, v.13, p.99-115,
Nov. 1997.

FINANCENTER. Seu guia de finanas pessoais. Disponvel em:
<http://financenter.terra.com.br/Index.cfm/Fuseaction/Secao/Id_Secao/224>. Acesso
em: 11 jun. 2012.

GOUVEIA, A. CDC Crdito Direto ao Consumidor. [18 de outubro, 2007].
Disponvel em: <http://endinheirado.wordpress.com/2007/10/18/cdc-credito-direto-
ao-consumidor/>. Acesso em: 11 jun. 2012.

GUPTA, S.; HANSSENS, D.; HARDIE, B.; HAHN, W.; KUMAR, V.; LIN, N.; SRIRAM,
N.R.S. Modeling Customer Lifetime Value. Journal of Service Research, Thousand
Oaks, v. 9, n. 2, p. 139-155, Nov. 2006.

GURNEY, K. An introduction to Neuronal Network. London: CRC Press, 1997.
234p.

GUSAS. Grupo de Usurios SAS. Disponvel em: <http://gusasbrasil.ning.com/>.
Acesso em: 13 de out. 2011.

HAIR, J.F.; TATHAM, R.L.; ANDERSON, R.E.; BLACK, W. Anlise Multivariada de
Dados. Traduo de A.S. SantAnna; A.C. Neto. 5. ed. Porto Alegre: Bookman,
2005. 593p.

HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. 2
nd
ed. San
Francisco: Elsevier, 2006. 551p.

HAYKIN, S. Neuronal Networks: A comprehensive foundation. New Jersey:
Prentice Hall, 1999. 842p.

HENLEY, J.A.; MCNEIL B.J. The Meaning and Use of the Area Under the Receiver
Operating Characteristics (ROC) Curve. Radiology, Oak Brook, p. 29-36, Apr. 1982.
141



HOSMER, D.W.; LEMESHOW, S. Applied logistic regression. 2nd ed. New York:
Wiley, 2000. 375p.

ISHIKAWA, N.I. Uso de tranformaes em modelos de regresso logstica.
2007. 92p. Dissertao (Mestrado em Cincias) Instituto de Matemtica e
Estatstica, Universidade de So Paulo, So Paulo, 2007.

KASS, G.V. An Exploratory Technique for Investigating Large Quantities of
Categorical Data. Applied Statistics, Abingdon, v. 29, n. 2, p. 119-127, 1980.

KOHONEN, T. Self-Organizing Maps. 3
rd
. ed. New York: Information Sciences,
2001. 501p.

LAW, R.; PINE R. Tourism demand forecasting for the tourism industry: a neural
network approach. In: ZANG, G.P. Neural networks in businesses forecasting.
IRM Press, 2004. chap. 6

LEEFLANG, P.S.H.; WITTINK, D.R. Building models for marketing decisions: Past,
present and future. International Journal of Research in Marketing, Maryland
Heights, v. 17, n. 2/3, p. 105-126, Apr. 2000.

LITTLE, J.D.C. Models and Managers: The Concept of a Decision Calculus.
Management Science, Hanover, v. 50, n. 12, p. 1841-1853, Dec. 2004.

MANNILA, H. Data mining: machine learning, statistics and databases. In:
INTERNATIONAL CONFERENCE ON STATISTICS AND SCIENTIFIC DATABASE
MANAGEMENT, 1996, Estocolmo. Anais Estocolmo: EIC, 1996. p. 2-9.

MARTINEZ-LOPEZ, F.J.; CASILLAS, J. Marketing Intelligent Systems for consumer
behaviour modelling by a descriptive induction approach based on Genetic Fuzzy
Systems. Industrial Marketing Management, Maryland Heights, v. 38, n. 7, p. 714-
731, Oct. 2009.

MCLACHLAN, G. Discriminant Analysis and Statistical Pattern Recognition.
New York: John Wiley, 1992. 519p.

MCNELIS, P.D. Neural Networks in Finance: Gaining Predictive Edge in the
Market. Elsevier Academic Press, 2005. 256p.

MONTEGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introduction to linear
regression analysis. 4
th
ed. New York: Wiley, 2006. 613p.

MORGAN, J.N.; SONQUIST, J.A. Problems in the Analysis of Survey Data, and a
Proposal. Journal of the Americal Statistical Association, Alexandria, v. 58, n.
302, p. 415-435, Jun.1963.

142


NEVES, J.C.; VIEIRA A. Estimating Banruptcy Using Neural Networks Trained with
Hidden Layer Learning Vector Quantization. Lisboa: Working Paper,Departamento
de Gesto, ISEG, UTL., 2004, Departamento de Gesto, ISEG, UTL.

QUINLAN, R.J. Discovering Rules from Large Collections of Examples: A Case
Study. In: MICHIE D. Expert Systems in the Micro Electronic Age. Edinburgh
University Press, 1979. 287p.

QUINLAN, J.R. Induction of Decision Trees. Machine Learning, Boston, v. 1, n. 1, p.
81-106. 1986.

QUINLAN, J.R. C4.5: Programs for Machine Learning. San Mateo, CA: Morgan
Kaufman, 1993. 302p.

REED, R.D.; MARKS II, R.J. Neuronal Smithing: Supervised Learning in feedward
Artificial Neuronal Network. Cambridge: MIT, 1999. 352p.

RIGBY, D.K.; LEDINGHAM, D. CRM Done Right. Harvard Business Review,
Cambridge, v. 82, p. 118-129, Nov. 2004.

ROSENBLATT, F. The perceptron: A probabilistic model for information storage and
organization in the brain. Psychological Review, Washington, v. 65, n. 6, p. 386-
408, Nov. 1958.

ROSENBLATT, F. Principles of Neurodynamics: Perceptrons and theory of brain
mechanisms. New York: Spartan Books, 1962. 622p.

SARMA, K.S. Predictive Modeling with SAS Enterprise Miner. Cary: SAS Press,
2009. 360p.

SHACHMUROVE, Y. Applying artificial neural networks to business, Economics
and finance. CARESS Working Papers: UCLA Department of Economics, 2002.
43p.

SUMATHI, S.; SIVANANDAM, S.N. Introduction to data mining and its
applications. Berlin: Springer-Verlag, 2006. 828p.

SWINGLER, K. Applying neural networks: a practical guide. London: Academic
Press, 1996. 303p.

THAWORNWONG, S.; ENKE D. Forecasting stock returns with artificial neural
networks. In: ZANG, G.P. Neural networks in businesses forecasting. IRM Press,
2004. chap 3.

ZHANG, Y.; AKKALADEVI, S.; VACHTSEVANOS, G.; LIN T. Granular neural web
agents for stock prediction. Soft Computing, Belin, v. 6, p. 406 413, 2002.

143















APNDICES

144



145


APNDICE A
Imagine um exemplo onde a varivel resposta seja binria (0 ou 1) e
que existam 3 variveis independentes (

). A Tabela 16 mostra o conjundo


de dados deste exemplo.
Tabela 16 - Conjunto de dados ilustrativo
Observao Y


1 1 Fem 1,70 1
2 0 Fem 1,62 1
3 0 Masc 1,85 0
4 0 Masc 1,80 0
5 0 Masc 1,85 0
6 0 Masc 1,80 0
7 1 Fem 1,70 1
8 1 Fem 1,70 1
9 0 Fem 1,53 1
10 0 Fem 1,62 1

Note que:
As observaes 1, 8 e 7 so iguais:

;
As observaes 2 e 10 so iguais:

;
As observaes 5 e 3 so iguais:

;
As observaes 6 e 4 so iguais:

;
A observao 9 aparece apenas uma vez:

;

Assim:

e




146


APNDICE B
A seguir esto as anlises descritivas da base de dado bruta, ou seja,
sem nenhuma alterao. Variveis com final _A so variveis agrupas antes da
modelagem e da imputao de dados.
SEXO (Sexo do cliente):
SEXO Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
H 5479 54,79 5479 54,79
M 4521 45,21 10000 100

ESTADO_CIVIL (Estado civil do cliente):
ESTADO_CIVIL
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
150 1,5 150 1,5
DIVORCIADO 511 5,11 661 6,61
NO INFORMADO 3235 32,35 3896 38,96
SOLTEIRO 5698 56,98 9594 95,94
VIVO 406 4,06 10000 100

ESCOLARIDADE (Escolaridade do cliente):
ESCOLARIDADE_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
927 9,27 927 9,27
ENSINO MDIO 3575 35,75 4502 45,02
SEM ESCOLARIDADE / ENSINO
FUNDAMENTAL
1843 18,43 6345 63,45
SUPERIOR
3655 36,55 10000 100

PERFIL_HIST (Perfil do cliente dentro do banco):
PERFIL_HIST
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
879 8,79 879 8,79
INVESTIDOR 3954 39,54 4833 48,33
NEUTRO 1364 13,64 6197 61,97
TOMADOR
3803 38,03 10000 100

147


RESTRICAO_FINANCEIRA (Cliente com restrio financeira (1 -
possui, 0 - no possui)):
RESTRICAO_FINANCEIRA
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
0 8527 85,27 8527 85,27
1 1473 14,73 10000 100

RISCO (Nvel de risco de crdito do cliente):
RISCO
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
35 0,35 35 0,35
ALTO 1185 11,85 1220 12,2
BAIXO
7294 72,94 8514 85,14
MDIO 1486 14,86 10000 100

SEGMENTO (Segmento criado pelo banco):
SEGMENTO
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
CLSSICO 4040 40,4 4040 40,4
ESPECIAL 3441 34,41 7481 74,81
SUPREMO
2519 25,19 10000 100

SG_UF (Sigla da unidade da federao em que o cliente abriu conta):
SG_UF_A Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
346 3,46 346 3,46
OUTRAS
1423 14,23 1769 17,69
SUDESTE
7078 70,78 8847 88,47
SUL 1153 11,53 10000 100

TEM_PRE_APROV_CDC (Posse de pr-aprovado para CDC (1 -
possui; 0 - no possui)):
TEM_PRE_APROV_CDC Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
0 5645 56,45 5645 56,45
1
4355 43,55 10000 100

148


IDADE (Idade do cliente):
IDADE_A Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
148 1,48 148 1,48
1 MENOR OU IGUAL A 25 ANOS
1677 16,77 1825 18,25
2 ENTRE 26 E 35 ANOS 2773 27,73 4598 45,98
3 ENTRE 36 E 50 ANOS 2756 27,56 7354 73,54
4 MAIOR OU IGUAL A 51 ANOS
2646 26,46 10000 100

QT_CDC_LEAS (Quantidade de CDC (0 - no tem outro CDC, 1 - tem
outro CDC)):
QT_CDC_LEAS Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
. 194 1,94 194 1,94
0
9608 96,08 9802 98,02
1 198 1,98 10000 100

QT_CHEQUE_COMPENSADO (Quantidade de cheques
compensados):
QT_CHEQUE_COMPENSADO_
A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
9 0,09 9 0,09
0
7149 71,49 7158 71,58
DE 1 A 5 2034 20,34 9192 91,92
MAIS OU IGUAL A 6 808 8,08 10000 100

QT_COMPRA_VISA (Quantidade de compras realizadas com Visa):
QT_COMPRA_VISA_A Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
357 3,57 357 3,57
0
5855 58,55 6212 62,12
DE 1 A 5 1815 18,15 8027 80,27
MAIS OU IGUAL A 6 1973 19,73 10000 100



149


QT_TRANS_INTERNACIONAL (Quantidade de transaes
internacionais):
QT_TRANS_INTERNACIONAL_
A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
1707 17,07 1707 17,07
0
7959 79,59 9666 96,66
MAIS OU IGUAL A 1 334 3,34 10000 100

QT_TRANS_NACIONAL (Quantidade de transaes nacionais):
QT_TRANS_NACIONAL_A Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
1707 17,07 1707 17,07
0
4665 46,65 6372 63,72
DE 1 A 5 1573 15,73 7945 79,45
MAIS OU IGUAL A 6 2055 20,55 10000 100

QTCLI_SEGUROS_12( Seguros que o cliente possui (0 - no possui
seguro, 1 - possui seguro)):
QTCLI_SEGUROS_12 Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
0 5536 55,36 5536 55,36
1
4464 44,64 10000 100

QTD_ACESSOS_ATM_MES (Quantidade de acessos ao ATM
(Automatic Teller Machine, mais conhecido como caixa eletrnico)):
QTD_ACESSOS_ATM_MES_A Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
3475 34,75 3475 34,75
DE 1 A 5
4912 49,12 8387 83,87
MAIS OU IGUAL A 6 1613 16,13 10000 100

QTD_ACESSOS_IB_MES (Quantidade de acessos ao IB (Internet
Banking)):
Varivel com 74,06% de valores faltantes excluda da anlise.

150


QTD_ACESSOS_TMK_MES (Quantidade de acessos ao TMK
(Telemarketing)):
Varivel com 74,94% de valores faltantes excluda da anlise.

QTD_DEB_AUTOMATICO (Quantidade de dbitos automticos):
Varivel com 68,80% de valores faltantes excluda da anlise.

QTDE_PRODUTOS_PF_12 (Quantidade de produtos pessoa fsica):
QTDE_PRODUTOS_PF_12_A Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
456 4,56 456 4,56
DE 1 A 5
6466 64,66 6922 69,22
MAIS OU IGUAL A 6 3078 30,78 10000 100

TOT_SEG_AUTO (Total de meses com seguro auto (de 1 a 9 meses)):
TOT_SEG_AUTO_A Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
419 4,19 419 4,19
0
9423 94,23 9842 98,42
MAIS OU IGUAL A 1 MS 158 1,58 10000 100

RENDA_MENSAL (Renda mensal do cliente):
RENDA_MENSAL_A Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
17 0,17 17 0,17
1 MENOS QUE 500 REAIS
1871 18,71 1888 18,88
2 ENTRE 500 E 1500 REAIS 3843 38,43 5731 57,31
3 ENTRE 1500 E 3000 REAIS 1782 17,82 7513 75,13
4 MAIS QUE 3000 REAIS
2487 24,87 10000 100

Sobre as variveis contnuas excluiu-se as variveis com mais de 65%
de dados faltantes (sinalizadas em negrito na tabela abaixo).


151


Tabela 17 Estatstica descritiva para das variveis contnuas.
Varivel Mdia
Desvio
Padro
Mnimo Mximo
N
Vlido
N
Faltante
AVENC_TOTAL_SCR_
CONSIG
15835,54 26627,28 0 230882,71 986 9014
AVENC_TOTAL_SCR_
CP
14515,64 45611,11 0 1157585,69 1087 8913
MBB_3M 154,1163944 395,4999364 -6147,76 8468,54 9559 441
SALDO_DISPONIVEL_
3M
3015,22 14271,79 0 709546,71 9559 441
VENCD_TOTAL_SCR_
CONSIG
1011,16 8109,66 0 163222,04 986 9014
VENCD_TOTAL_SCR_
CP
279,3943238 1823,18 0 40337,51 1087 8913
VL_DEB_AUTOMATIC
O
389,3043045 3734,88 0,11 200116,59 3120 6880
VL_LIMITE_DISPONIV
EL_CART_CRED
15214,07 38899,53 0 636985,47 5466 4534
VL_LIMITE_IMPLANTA
DO_CART_CRED
21324,05 48852,77 0 735000 5466 4534
VL_LIMITE_IMPLANTA
DO_SM
4524,91 7107,06 0 100000 6782 3218
VL_LIMITE_UTILIZAD
O_CART_CRED
5092,12 16060,57 -131227,53 325246,32 5466 4534
VL_LIMITE_UTILIZAD
O_SM
-655,9016844 2127,18 -51748,5 0 6768 3232
VL_SALD_ATIV 5057,62 21205,28 0 715036,59 9806 194
VL_SALD_PASS 12697,5 100809,92 0 4883727,79 9806 194
VL_SALD_POUP 2952,61 15349,11 0 685658,24 9806 194
VL_SALD_PRVD_PRIV 1828,45 30984,24 0 1675067,13 9806 194
VL_SALDO_DEVEDO
R_TOTAL
6294,94 18055,34 -13072,45 419175,98 5466 4534
VL_SM_CAPTACAO_1
2
15814,88 112779,65 1 4811773,26 7792 2208
VL_SM_CRED_PESS
OAL_12
1555,41 7744,18 0 243912,96 9544 456
VL_TARIFA_COBRAD
A_12
26,9498767 44,6257627 -114,65 1283,86 5272 4728
VL_TOTAL_CDB_T0 95557,28 311945,89 104,07 4724536,51 407 9593
VL_TOTAL_INVESTIM
ENTO_T0
23953,85 136505,96 0 4863665,82 3889 6111
VL_TOTL_REND 2661,96 6615,39 0 371476,52 9853 147
VL_TRANS_INTERNA
CIONAL
77,1608971 1327,85 0 91193,2 8293 1707
VL_TRANS_NACIONA
L
414,8774834 1211,92 0 29869,87 8293 1707




152


Tabela 18 Percentis das variveis contnuas.
Varivel
5
Percentil
Primeiro
Quartil
Mediana
Terceiro
Quatil
95 Percentil
AVENC_TOTAL_SCR_
CONSIG
0 3938,62 7745,39 16601,41 54496,79
AVENC_TOTAL_SCR_
CP
0 1859,07 5233,44 14300,34 51036,93
MBB_3M 0 8,2807667 40,0002 137,0933333 676,2205333
SALDO_DISPONIVEL_
3M
0 12,53 135,6666667 975,5366667 13879,46
VENCD_TOTAL_SCR_
CONSIG
0 0 0 0 2352,65
VENCD_TOTAL_SCR_
CP
0 0 0 0 1042,34
VL_DEB_AUTOMATIC
O
15 51,165 140,37 358,995 1179,17
VL_LIMITE_DISPONIV
EL_CART_CRED
0 590,44 2603,62 11866,7 72786,64
VL_LIMITE_IMPLANTA
DO_CART_CRED
500 1500 5000 19000 98600
VL_LIMITE_IMPLANTA
DO_SM
200 750 1850 5200 18500
VL_LIMITE_UTILIZADO
_CART_CRED
-328,02 11 853,05 3959,72 22690,04
VL_LIMITE_UTILIZADO
_SM
-3255,39 -399,525 -29,36 0 0
VL_SALD_ATIV 0 0 24,675 1943,49 23611,34
VL_SALD_PASS 0 0,97 152,975 1786,12 39868,09
VL_SALD_POUP 0 0 1,645 527,84 13036,97
VL_SALD_PRVD_PRIV 0 0 0 0 0
VL_SALDO_DEVEDOR
_TOTAL
0 173,32 1330,57 4927,27 26533,9
VL_SM_CAPTACAO_1
2
3,55 48,425 289,045 2490,05 54135,31
VL_SM_CRED_PESSO
AL_12
0 0 0 0 7448,22
VL_TARIFA_COBRADA
_12
2,5 7,05 19 37,5 76
VL_TOTAL_CDB_T0 1029,66 7340,3 29515,95 74633,77 366205,13
VL_TOTAL_INVESTIME
NTO_T0
0 0,13 102,72 7005,08 102175,22
VL_TOTL_REND 0 595,22 1200 2931,62 10000
VL_TRANS_INTERNAC
IONAL
0 0 0 0 0
VL_TRANS_NACIONAL 0 0 0 284,87 2180,75


153





























Figura 26 Histograma para as variveis contnuas
154


Aps a imputao de valores pelo mtodo de rvore de deciso e aps
a transformao logartma das variveis contnuas, obtev-se os resultados abaixo.
Variveis com inicial IMP_ so variveis que tiveram valores inseridos pelo mtodo
de rvore, j as variveis iniciadas com LOG_ tiveram o logartmo aplicado.
IMP_ESTADO_CIVIL (Estado civil do cliente):
IMP_ESTADO_CIVIL_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
DIVORCIADO / VIVO 1453 14,53 1453 14,53
SOLTEIRO 8547 85,47 10000 100

IMP_ESCOLARIDADE (Escolaridade do cliente):
IMP_ESCOLARIDADE_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
ENSINO MDIO 3940 39,4 3940 39,4
SEM ESCOLARIDADE /
ENSINO FUNDAMENTAL
2060 20,6 6000 60
SUPERIOR
4000 40 10000 100

IMP_PERFIL_HIST (Perfil do cliente dentro do banco):
IMP_PERFIL_HIST
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
INVESTIDOR 4325 43,25 4325 43,25
NEUTRO 1611 16,11 5936 59,36
TOMADOR
4064 40,64 10000 100

IMP_RISCO (Nvel de risco de crdito do cliente):
IMP_RISCO
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
ALTO 1186 11,86 1186 11,86
BAIXO 7324 73,24 8510 85,1
MDIO
1490 14,9 10000 100




155


IMP_SG_UF (Sigla da unidade da federao em que o cliente abriu
conta):
IMP_SG_UF_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
OUTRAS 1423 14,23 1423 14,23
SUDESTE 7424 74,24 8847 88,47
SUL
1153 11,53 10000 100

IMP_IDADE (Idade do cliente):
IMP_IDADE_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
1 MENOR OU IGUAL A 25 ANOS 1677 16,77 1677 16,77
2 ENTRE 26 E 35 ANOS 2773 27,73 4450 44,5
3 ENTRE 36 E 50 ANOS
2819 28,19 7269 72,69
4 MAIOR OU IGUAL A 51 ANOS
2731 27,31 10000 100

IMP_QT_CDC_LEAS (Quantidade de CDC (0 - no tem outro CDC, 1 -
tem outro CDC)):
IMP_QT_CDC_LEAS
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
0 9802 98,02 9802 98,02
1 198 1,98 10000 100

IMP_QT_CHEQUE_COMPENSADO (Quantidade de cheques
compensados):
IMP_QT_CHEQUE_COMPENSADO_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
0 7158 71,58 7158 71,58
DE 1 A 5 2034 20,34 9192 91,92
MAIS OU IGUAL A 6
808 8,08 10000 100




156


IMP_QT_COMPRA_VISA (Quantidade de compras realizadas com
Visa):
IMP_QT_COMPRA_VISA_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
0 6208 62,08 6208 62,08
DE 1 A 5 1815 18,15 8023 80,23
MAIS OU IGUAL A 6
1977 19,77 10000 100

IMP_QT_TRANS_INTERNACIONAL (Quantidade de transaes
internacionais):
IMP_QT_TRANS_INTERNACIONAL_
A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
0 9666 96,66 9666 96,66
MAIS OU IGUAL A 1 334 3,34 10000 100

IMP_QT_TRANS_NACIONAL (Quantidade de transaes nacionais):
IMP_QT_TRANS_NACIONAL_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
0 6372 63,72 6372 63,72
DE 1 A 5 1573 15,73 7945 79,45
MAIS OU IGUAL A 6
2055 20,55 10000 100

IMP_QTD_ACESSOS_ATM_MES (Quantidade de acessos ao ATM
(Automatic Teller Machine, mais conhecido como caixa eletrnico)):
IMP_QTD_ACESSOS_ATM_MES_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
DE 1 A 5 8321 83,21 8321 83,21
MAIS OU IGUAL A 6 1679 16,79 10000 100

IMP_QTDE_PRODUTOS_PF_12 (Quantidade de produtos pessoa
fsica):
IMP_QTDE_PRODUTOS_PF_12_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
DE 1 A 5 6904 69,04 6904 69,04
MAIS OU IGUAL A 6 3096 30,96 10000 100

157


IMP_TOT_SEG_AUTO (Total de meses com seguro auto (de 1 a 9
meses)):
IMP_TOT_SEG_AUTO_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
0 9841 98,41 9841 98,41
MAIS OU IGUAL A 1 MS 159 1,59 10000 100

IMP_RENDA_MENSAL (Renda mensal do cliente):
IMP_RENDA_MENSAL_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
1 MENOS QUE 500 REAIS 1886 18,86 1886 18,86
2 ENTRE 500 E 1500 REAIS 3844 38,44 5730 57,3
3 ENTRE 1500 E 3000 REAIS 1782 17,82 7512 75,12
4 MAIS QUE 3000 REAIS 2488 24,88 10000 100

Nas variveis contnuas aplicou-se o logartmo, como pode-se ver nas
distribuies da Figura a seguir, dispostos na mesma ordem do anterior:

158


























Figura 27 Histograma para as variveis contnuas transformadas

159


APNDICE C
A seguir est programada as regras de deciso para o modelo de
rvore de deciso exposto no captulo de resultados.
*------------------------------------------------------------*
Node = 7
*------------------------------------------------------------*
if Imputed RENDA_MENSAL_A >= 4 MAIS QUE 3000 REAIS
AND Imputed QT_CDC_LEAS IS ONE OF: 1
then
Tree Node Identifier = 7
Number of Observations = 99
Predicted: FLAG_RESPOSTA=0 = 0.42
Predicted: FLAG_RESPOSTA=1 = 0.58

*------------------------------------------------------------*
Node = 9
*------------------------------------------------------------*
if Transformed: Imputed VL_LIMITE_IMPLANTADO_SM < 7.04795 or MISSING
AND Imputed RENDA_MENSAL_A >= 3 ENTRE 1500 E 3000 REAIS AND Imputed
RENDA_MENSAL_A <= 3 ENTRE 1500 E 3000 REAIS
then
Tree Node Identifier = 9
Number of Observations = 108
Predicted: FLAG_RESPOSTA=0 = 0.85
Predicted: FLAG_RESPOSTA=1 = 0.15

*------------------------------------------------------------*
Node = 10
*------------------------------------------------------------*
if Transformed: Imputed VL_LIMITE_IMPLANTADO_SM >= 7.04795
AND Imputed RENDA_MENSAL_A <= 3 ENTRE 1500 E 3000 REAIS or MISSING
AND Imputed QT_CDC_LEAS IS ONE OF: 1
then
Tree Node Identifier = 10
Number of Observations = 44
Predicted: FLAG_RESPOSTA=0 = 0.48
Predicted: FLAG_RESPOSTA=1 = 0.52

*------------------------------------------------------------*
Node = 16
*------------------------------------------------------------*
if Transformed: Imputed VL_LIMITE_IMPLANTADO_SM < 7.04795 or MISSING
AND Imputed: TOT_SEG_AUTO_A <= 0 or MISSING
AND Imputed RENDA_MENSAL_A <= 2 ENTRE 500 E 1500 REAIS or MISSING
then
Tree Node Identifier = 16
Number of Observations = 3012
Predicted: FLAG_RESPOSTA=0 = 0.99
Predicted: FLAG_RESPOSTA=1 = 0.01




*------------------------------------------------------------*
Node = 17
*------------------------------------------------------------*
160


if Transformed: Imputed VL_LIMITE_IMPLANTADO_SM < 7.04795 or MISSING
AND Imputed: TOT_SEG_AUTO_A >= MAIS OU IGUAL A 1 MS
AND Imputed RENDA_MENSAL_A <= 2 ENTRE 500 E 1500 REAIS or MISSING
then
Tree Node Identifier = 17
Number of Observations = 5
Predicted: FLAG_RESPOSTA=0 = 0.60
Predicted: FLAG_RESPOSTA=1 = 0.40

*------------------------------------------------------------*
Node = 21
*------------------------------------------------------------*
if Transformed: Imputed VL_TRANS_NACIONAL >= 4.91151
AND Transformed: Imputed VL_LIMITE_IMPLANTADO_SM >= 7.04795
AND Imputed RENDA_MENSAL_A <= 3 ENTRE 1500 E 3000 REAIS or MISSING
AND Imputed QT_CDC_LEAS IS ONE OF: 0 or MISSING
then
Tree Node Identifier = 21
Number of Observations = 630
Predicted: FLAG_RESPOSTA=0 = 0.83
Predicted: FLAG_RESPOSTA=1 = 0.17

*------------------------------------------------------------*
Node = 22
*------------------------------------------------------------*
if Imputed: QT_TRANS_NACIONAL_A <= 0
AND Imputed: QT_CHEQUE_COMPENSADO_A <= 0 or MISSING
AND Imputed RENDA_MENSAL_A >= 4 MAIS QUE 3000 REAIS
AND Imputed QT_CDC_LEAS IS ONE OF: 0 or MISSING
then
Tree Node Identifier = 22
Number of Observations = 427
Predicted: FLAG_RESPOSTA=0 = 0.91
Predicted: FLAG_RESPOSTA=1 = 0.09

*------------------------------------------------------------*
Node = 24
*------------------------------------------------------------*
if Transformed: Imputed VL_SALD_ATIV < 6.75507 or MISSING
AND Imputed: QT_TRANS_NACIONAL_A >= DE 1 A 5 or MISSING
AND Imputed RENDA_MENSAL_A >= 4 MAIS QUE 3000 REAIS
AND Imputed QT_CDC_LEAS IS ONE OF: 0 or MISSING
then
Tree Node Identifier = 24
Number of Observations = 483
Predicted: FLAG_RESPOSTA=0 = 0.78
Predicted: FLAG_RESPOSTA=1 = 0.22

*------------------------------------------------------------*
Node = 25
*------------------------------------------------------------*
if Transformed: Imputed VL_SALD_ATIV >= 6.75507
AND Imputed: QT_TRANS_NACIONAL_A >= DE 1 A 5 or MISSING
AND Imputed RENDA_MENSAL_A >= 4 MAIS QUE 3000 REAIS
AND Imputed QT_CDC_LEAS IS ONE OF: 0 or MISSING
then
Tree Node Identifier = 25
Number of Observations = 452
Predicted: FLAG_RESPOSTA=0 = 0.63
161


Predicted: FLAG_RESPOSTA=1 = 0.37

*------------------------------------------------------------*
Node = 30
*------------------------------------------------------------*
if Transformed: Imputed VL_TRANS_NACIONAL < 4.91151 or MISSING
AND Transformed: Imputed VL_LIMITE_IMPLANTADO_SM >= 7.04795
AND Imputed: IDADE_A <= 3 ENTRE 36 E 50 ANOS or MISSING
AND Imputed RENDA_MENSAL_A <= 3 ENTRE 1500 E 3000 REAIS or MISSING
AND Imputed QT_CDC_LEAS IS ONE OF: 0 or MISSING
then
Tree Node Identifier = 30
Number of Observations = 951
Predicted: FLAG_RESPOSTA=0 = 0.91
Predicted: FLAG_RESPOSTA=1 = 0.09

*------------------------------------------------------------*
Node = 31
*------------------------------------------------------------*
if Transformed: Imputed VL_TRANS_NACIONAL < 4.91151 or MISSING
AND Transformed: Imputed VL_LIMITE_IMPLANTADO_SM >= 7.04795
AND Imputed: IDADE_A >= 4 MAIOR OU IGUAL A 51 ANOS
AND Imputed RENDA_MENSAL_A <= 3 ENTRE 1500 E 3000 REAIS or MISSING
AND Imputed QT_CDC_LEAS IS ONE OF: 0 or MISSING
then
Tree Node Identifier = 31
Number of Observations = 537
Predicted: FLAG_RESPOSTA=0 = 0.97
Predicted: FLAG_RESPOSTA=1 = 0.03

*------------------------------------------------------------*
Node = 36
*------------------------------------------------------------*
if Transformed: Imputed VL_SALD_ATIV < 5.59928 or MISSING
AND Imputed: QT_TRANS_NACIONAL_A <= 0
AND Imputed: QT_CHEQUE_COMPENSADO_A >= DE 1 A 5
AND Imputed RENDA_MENSAL_A >= 4 MAIS QUE 3000 REAIS
AND Imputed QT_CDC_LEAS IS ONE OF: 0 or MISSING
then
Tree Node Identifier = 36
Number of Observations = 128
Predicted: FLAG_RESPOSTA=0 = 0.88
Predicted: FLAG_RESPOSTA=1 = 0.13

*------------------------------------------------------------*
Node = 37
*------------------------------------------------------------*
if Transformed: Imputed VL_SALD_ATIV >= 5.59928
AND Imputed: QT_TRANS_NACIONAL_A <= 0
AND Imputed: QT_CHEQUE_COMPENSADO_A >= DE 1 A 5
AND Imputed RENDA_MENSAL_A >= 4 MAIS QUE 3000 REAIS
AND Imputed QT_CDC_LEAS IS ONE OF: 0 or MISSING
then
Tree Node Identifier = 37
Number of Observations = 122
Predicted: FLAG_RESPOSTA=0 = 0.69
Predicted: FLAG_RESPOSTA=1 = 0.31

162


APNDICE D
D.1 Conhecendo o SAS Enterprise Miner
O SAS Enterprise Miner possui uma interface de programao visual
que facilita a construo de modelos de Data Mining para o processo de descoberta
de conhecimento. A ferramenta oferece ricas facilidades para a explorao e
manipulao de dados, alm de vrias tcnicas de modelagem e recursos grficos,
para a visualizao de dados. As operaes so representadas em um diagrama, no
qual cada n (nodes) representa um um passo na anlise, conforme v-se na Figura
28.













Figura 28 - Interface do SAS Enterprise Miner





163



Figura 29 - Interface do SAS Enterprise Miner
J na Figura 29 expe-se um tour pelo software, onde cada nmero
ser explicado a seguir.
1. Menu inicial
2. Os botes de atalho permitem desenvolver tarefas rpidamente,
como por exemplo, executar um n.
3. A barra de ferramentas permite acessar as ferramentas, dividida
em abas de acordo com a arquitetura SEMMA, que ser explicada a seguir.
4. O painel do Projeto permite visualizar e gerenciar os data sources,
diagramas, resultados e usurios do projeto.
164


5. O painel de propriedades permite exibir e editar as configuraes dos
data sources, diagramas, ns, resultados e os usurios.
6. O painel de ajuda exibe uma breve descrio do objeto selecionado
no painel de propriedades.
7. A rea de trabalho do diagrama contm um ou mais fluxos. Um fluxo
comea com um data source e sequencialmente aplica-se ferramentas do SAS
Enterprise Miner (que so chamados de ns dentro do diagrama) para completar o
objetivo analtico.
8. Um fluxo contm vrios ns. Os ns so ferramentas do SAS
Enterprise Miner, que so conectados por setas para mostrar a direo do fluxo de
informaes em uma anlise.
9. A rea de trabalho do diagrama permite criao de uma sequncia
grfica de todos os passos utilizados para anlise de dados.
O software SAS Enterprise Miner um produto que contm uma srie
de ferramentas teis para suportar todo o processo de Data Mining. Tais ferramentas
esto organizadas de acordo com o processo SEMMA, ou seja, de acordo com 5
estgios, que sero listados a seguir.

D.2 Principal Processo SAS para Minerao de Dados
A barra de ferramentas do SAS Enterprise Miner organizada de
acordo com o processo SAS para minerao de dados, conhecido como SEMMA. A
sigla SEMMA - amostrar, explorar, modificar, modelar e avaliar - se refere ao
processo principal da minerao de dados. Antes de examinar cada fase da SEMMA
importante salientar que a SEMMA no uma metodologia de minerao de
dados, mas sim uma organizao lgica do conjunto de ferramentas do SAS
Enterprise Miner que realizam tarefas essenciais na minerao de dados.
Enterprise Miner pode ser usado como parte de qualquer metodologia
iterativa de minerao de dados adotada. Obviamente que medidas como a
formulao do problema de negcio e a montagem da fonte de dados com qualidade
so essenciais para o xito global de qualquer projeto de minerao de dados.
165


Seguindo esse raciocnio, tem-se que o processo de Data Mining pode
seguir os passos expostos na Figura 30. Note que o processo SEMMA faz parte do
processo, momento em que o SAS Enterprise Miner ativo.









Figura 30 - Principal Processo SAS para Minerao de Dados no SAS Enterprise Miner

D.2.1 Arquitetura SEMMA
As etapas do processo SEMMA esto focadas nos aspectos de
desenvolvimento do modelo de minerao de dados:

D.2.1.1 SAMPLE
Realizar uma amostra (opcional) dos dados, extraindo uma parte de um
grande conjunto de dados. Esta amostra deve ser grande o suficiente para conter as
informaes significativas e tambm pequena o suficiente para processar, conforme
a capcidade do hardware. Minerao de uma amostra representativa, em vez de
todo o volume de dados reduz o tempo de processamento necessrio para obter
informaes cruciais ao negcio. Se os padres gerais aparecem nos dados como
um todo, estes sero detectveis em uma amostra representativa. Se um nicho to
pequeno que no representado em uma amostra e, ainda assim to importante
que influencia o todo, ele pode ser descoberto por meio de mtodos de sntese.
166


importante, tambm, a criao de conjuntos de dados particionados com o n de
partio de dados:
Treinamento - base utilizada para a montagem do modelo.
Validao - base utilizada para a avaliao e para apontar overfitting de
modelo.
Teste - base usada para obter uma avaliao honesta de quo bem o
modelo generaliza.

D.2.1.2 EXPLORE
Explorar os dados a fim de encontrar tendncias e/ou anomalias no
previstas, para obter conhecimento e idias. O passo de explorao ajuda a
aperfeioar o processo de descoberta. Se a explorao visual no revelar
tendncias claras, pode-se explorar os dados por meio de tcnicas estatsticas,
incluindo a anlise fatorial, anlise de correspondncia e de cluster. Por exemplo, no
processo de minerao de dados para uma campanha de mala direta, o
agrupamento pode revelar grupos de clientes com diferentes padres. Conhecer
esses padres cria oportunidades para mailings personalizados ou promoes
especficas.

D.2.1.3 MODIFY
Modificar os dados, criando, selecionando e transformando as variveis
para o foco do processo de seleo do modelo. Baseado nas descobertas obtidas
na fase de explorao, pode ser necessrio manipular os dados para incluir
informaes como o agrupamento de clientes e subgrupos significativos, ou de
introduzir novas variveis. Pode-se tambm notar a necessidade de tratar outliers ou
reduzir o nmero de variveis, a fim de restringi-las as mais importantes. Minerao
de dados um processo dinmico, interativo, pode-se atualizar os mtodos de
minerao de dados ou modelos, quando novas informaes estiverem disponveis.

167


D.2.1.4 MODEL
Modelar os dados a partir de tcnicas de modelagem em minerao de
dados. No SAS Enterprise Miner tem-se, por exemplo: redes neurais, rvore de
deciso, modelos logsticos e outros modelos estatsticos - como a anlise de sries
temporais, raciocnio baseado em memria e de componentes principais. Cada
tcnica tem seu ponto forte e apropriado dentro de situaes especficas de
minerao de dados, dependendo dos dados. Por exemplo: redes neurais so muito
boas no ajuste de alta complexidade de relaes no lineares.

D.2.1.5 ASSESS
Avaliar os dados, avaliar a utilidade e confiabilidade dos resultados do
processo de minerao de dados e entender como ele executa. Uma forma comum
de avaliar um modelo aplic-lo a uma parte do conjunto de dados, ainda no
utilizado durante a fase de amostragem. Se o modelo for vlido, ele deve trabalhar
para esta amostra reservada, bem como para a amostra utilizada para construir o
modelo. Da mesma forma, pode-se testar o modelo com os dados conhecidos. Por
exemplo, sabe-se que os clientes em um arquivo tinham altas taxas de reteno e o
modelo prev a reteno, pode-se verificar se o modelo seleciona esses clientes
com preciso. Alm disso, as aplicaes prticas do modelo, tais como expedies
parciais em uma campanha de mala direta, ajuda a provar sua validade.
Ao avaliar os resultados obtidos em cada etapa do processo SEMMA,
pode-se observar novas questes a partir dos resultados anteriores e assim,
proceder de volta para a fase de explorao para o refinamento adicional dos dados.
Depois de ter desenvolvido o modelo campeo usando a abordagem
SEMMA de minerao, o prximo passo a implementao do modelo em novos
clientes (indivduos), ou novas bases. A implantao do modelo o resultado final
da minerao de dados. O SAS Enterprise Miner automatiza a fase de implantao,
fornecendo o cdigo de escoragem em SAS, alm do cdigo em C, Java e PMML.

168


D.3 Arquitetura e configurao do SAS Enterprise Miner
O SAS Enterprise Miner organizado em torno de uma arquitetura
client/server. Isso significa que o SAS Enterprise Miner Client apenas uma parte de
um conjunto maior de programas. O SAS Enterprise Miner Client simplesmente
uma janela de interface feita em Java. O trabalho de anlise feita por um software
conhecido como SAS Foundation, que outro nome para a linguagem e
procedimentos SAS. O SAS Foundation por sua vez apoiado por outros softwares
conhecidos como Servidor de Metadados SAS. O SAS Metadata Server monitora o
acesso a dados e informaes de arquitetura do sistema.
Existem vrias maneiras de configurar o SAS Enterprise Miner: Na
configurao de estao de trabalho pessoal (Personal Workstation), o SAS
Enterprise Miner Client, SAS Foundation, e SAS Metadata Server residem em um
nico computador central. Os componentes se comunicam por meio de uma
tecnologia proprietria chamada SAS IOM, como mostra a Figura 31.






Figura 31 - Interface do SAS Enterprise Miner

Na configurao do Enterprise Client, a comunicao entre o SAS
Enterprise Miner Client, o SAS Foundation Server e o SAS Metadata Server criado
por meio de um componente adicional denominado Analytics Platform. Isso permite
que vrios Clients conectem-se a vrios servidores SAS Foundation. Para executar o
SAS Enterprise Miner o administrador do sistema SAS deve instalar e configurar
esses componentes, geralmente em diversos computadores independentes. Depois
que a configurao for estabelecida pouco importa, para o analista, exceto para
lembrar que todos os dados so lidos no servidor do SAS Foundation e no no PC
169


fsico local. A nica coisa que o analista vai ver a interface do SAS Enterprise
Miner Client. Na Figura 32 v-se uma imagem ilustrativa dessa forma de instalao.







Figura 32 - Interface do SAS Enterprise Miner

D.3 Entendendo a Forma de Trabalho do SAS Enterprise Miner
No SAS Enterprise Miner as anlises so organizadas em projetos,
diagramas, fluxos e ns. Com auxilio da Figura 33 pode-se entender isso facilmente.
O primeiro passo a criao de um Projeto e nesse projeto onde sero realizadas
todas as anlises necessrias. Dentro de um projeto pode-se criar diversos
Diagramas, organizando-os da forma necessria.
Dentro de um Diagrama que se cria os Fluxos. Um Fluxo pode ser
composto, por uma base de dados, um particionamento de dados e uma regresso,
por exemplo. Cada Fluxo composto por ns, ou seja, cada passo da anlise. Cada
n, como j dito anteriormente, executa uma tarefa.

Figura 33 - Forma de organizao do SAS Enterprise Miner
170


Por trs desse esquema, existe um espao fsico onde realmente o
projeto est salvo. A organizao fsica de um projeto SAS Enterprise Miner mais
complicada. Quando um projeto criado no SAS Enterprise Miner, quatro
subdiretrios so criados automaticamente dentro do diretrio do projeto:
DataSources, Reports, Workspaces e System. A estrutura do diretrio do projeto
"teste" (ilustrado na Figura 29) mostrada na Figura 34.

Figura 34 - Forma de organizao fsica do SAS Enterprise Miner
Os projetos contm diagramas, que so o prximo nvel da hierarquia
da organizao do SAS Enterprise Miner. Diagramas geralmente dizem respeito a
um tema nico do projeto. Quando um diagrama definido, um novo subdiretrio
criado no diretrio Workspaces do projeto correspondente. Cada diagrama
independente e nenhuma informao pode ser passada de um diagrama para o
outro. A estrutura do diretrio Workspaces para o projeto "teste" criado para a Figura
29 mostrado na Figura 35.
171



Figura 35 - Estrutura do diretrio Workspaces
As anlises realizadas no SAS Enterprise Miner so desenvolvidas por
um fluxo. Um fluxo uma sequncia de ns, conectados por flechas que definem a
ordem da anlise. A organizao do fluxo est contida em um arquivo,
EM_DGRAPH, que armazenado dentro do diretrio do diagrama correspondente.
Cada n do diagrama corresponde a um subdiretrio separado no diretrio desse
diagrama. As informaes de um fluxo podem ser enviadas para outro, bastando
apenas lig-los pelas flechas. O diretrio do diagrama EMWS1 (nome dado para a
pasta do diagrama que contm os fluxos e ns) mostrado a seguir na Figura 36.

Figura 36 - Estrutura do diretrio de um diagrama
172


Felizmente, a interface do SAS Enterprise Miner nos protege dessa
complexidade.

D.4 Primeiros Passos
O propsito desta seo introduzir os passos iniciais a serem dados
em qualquer anlise de minerao de dados. Como por exemplo, a criao de um
projeto, a criao de uma biblioteca e criao de um Data Source.

D.4.1 Criao de um Projeto
Aps aberto o Miner e digitado usurio e senha, o primeiro passo ser a
criao de um projeto. Como mostrado na Figura 37, clicar-se em New Project.








Figura 37 - Inicializao do SAS Enterprise Miner
Depois de clicado em New Project, segue-se com as solicitaes do
Wizard. A etapa 1 da criao de um projeto a especificao do SAS Server onde
salva-se o projeto. Aps selecionado, clica-se em Avanar. Na etapa 2 coloca-se
um nome para o projeto e especifica-se a pasta, dentro do SAS Server, onde o
projeto ser salvo, como mostra a Figura 38.
173



Figura 38 - Etapa 2 na criao de um Projeto
Clicando em Avanar, o prximo passo ser especificar um folder, como
na Figura 39.
Avanar novamente e tem-se a ltima etapa que apenas um resumo
de todas as informaes sobre o novo projeto e ento, Concluir.

Figura 39 - Etapa 3 na criao de um Projeto
Finalizado a criao do Projeto, tem-se uma tela semelhante a da
Figura 40. Observe que nenhuma das funcionalidades est habilitada, pois ainda
no existe um diagrama, etapa seguinte criao de um projeto.


174


Figura 40 - Visualizao do SAS Enterprise Miner aps a criao de um projeto

D.4.2 Criao de um Diagrama
Sem dvida esse o passo mais simples a se realizar dentro de um
Projeto. Para isso basta clicar com o boto direito do mouse na palavra Diagrams e
Create Diagram, como mostra a Figura 41.









175










Figura 41 - Indicao para criao de um novo diagrama
Em seguida basta digitar um nome para o diagrama, como na Figura 42
e OK.

Figura 42 - Criao de um novo diagrama
Com a criao de um diagrama todas as funcionalidades da ferramenta
ficam disponveis para uso (Figura 43). Agora basta criar uma biblioteca e em
seguida um Data Source.
176



Figura 43 - Visualizao do SAS Enterprise Miner aps a criao de um diagrama

D.4.3 Criao de uma Biblioteca
Para a criao de uma biblioteca precisa-se apenas especificar um
caminho, indicando ao SAS onde as bases esto armazenadas. Nesse ponto pode-
se fazer uma leitura de bases j em formato SAS (SAS Data Set) ou ento, por
exemplo, num banco de dados (ODBC, Oracle, DB2,...). Para a criao de uma
biblioteca dentro do Miner, pode-se optar pelo Wizard ou ento pelo cdigo.
Apresenta-se aqui os dois mtodos.

D.4.3.1 Opo Wizard
Para criao de uma biblioteca pela funo Wizard, deve-se ir em File,
New, Library. Na etapa 1 seleciona-se a opo Create New Library e Avanar.
177



Figura 44 - Etapa 1 para a criao de uma Biblioteca no SAS Enterprise Miner
Na etapa 2 nomea-se essa biblioteca, coloca-se o endereo de onde os
dados esto armazenados, no campo Path (Figura 45). Avanar e no prximo passo
tem-se o status da criao e as informaes sobre a biblioteca e Concluir para
finalizar a atividade.


Figura 45 - Etapa 2 para a criao de uma Biblioteca no SAS Enterprise Miner

178


D.4.3.1 Opo Cdigo
Para criao de uma biblioteca via cdigo o procedimento muito
simples. Selecionando o nome do projeto, no campo Project Start Code dentro Menu
e clica-se na elipse, indicada na Figura 46.

Figura 46 - Indicao do caminho para criao de uma biblioteca via cdigo SAS
179


O prximo passo ser digitar o cdigo com o caminho de onde dever
ser feita a leitura dos dados. O comando o mesmo usado tanto no SAS Base como
no SAS Guide. A linguagem exatamente a mesma. Com isso, o cdigo ser:
libname dados 'C:\TESTES'; (Figura 47). Para executar o comando, basta clicar em
Run Now e em seguida verificar a execuo, na aba log.

Figura 47 - Cdigo SAS para criao de uma biblioteca, junto com o resultado do Log
Depois de criada a biblioteca o prximo passo a criao do Data
Source, ou seja, metadados que informam ao SAS Enterprise Miner sobre o nome, a
localizao da tabela SAS, o SAS cdigo que usado para definir um caminho da
biblioteca, os papis de cada varivel para anlise, os nveis de medio e outros
atributos que norteiam o processo de minerao de dados.

D.4.4 Criao de um Data Source
No software SAS Enterprise Miner pode-se inserir tabelas para anlise
por meio de uma biblioteca e um Data Source, ou pelo n File Import. O mais
recomendado que toda a manipulao e gerao de base de dados para a anlise
seja feita no SAS Enterprise Guide e que apenas o desenvolvimento da modelagem
seja feita no SAS Enterprise Miner. Com isso, nesse material, descreve-se apenas
da insero de uma base de dados que j esteja em formato SAS e no formato
exigido pelo modelo.
180


Como a biblioteca SAS j existe, o caminho para alcance dos dados j
est sinalizado no SAS Enterprise Miner. O que deve-se fazer informar ao Miner
caractersticas da base de dados em estudo. Deve-se descrever o papel de cada
varivel, seus nveis de medio e alguns outros atributos importantes para anlise.
Como feito na criao do diagrama, clica-se com o boto direito do
mouse na palavra Data Source e Create Data Source. Na etapa 1 opta-se pela
opo SAS Table, Avanar. Na etapa 2 especifca-se em qual biblioteca os dados
esto armazenados, como na Figura 48 e Avanar.

Figura 48 - Etapa 2 para criao de um Data Source
Na prxima etapa confere-se as informaes sobre o Data Source e
Avanar. No prximo passo especificar-se caractersticas de cada varivel da base
de dados. Existem duas maneiras de se fazer isso, pelo mtodo bsico ou pelo
mtodo avanado.
No caso do mtodo Bsico o SAS Enterprise Miner fornece as regras e
nveis iniciais com base no tipo e formato das variveis. Pode ser necessrio ajustar
estas regras e nveis de medio. J na opo Avanado, pode-se customizar (boto
Customize...) como sero as regras de cada varivel, como por exemplo (Figura 49)
a regra que cada varivel com mais de 50% de missing ser automaticamente
marcada como rejected, ou ento, que uma varivel intervalar que tiver menos de 20
nmeros distintos ser classificada como Nominal e que uma varivel classificatria
que tenha mais de 20 nveis ser rejeitada. Esses nmeros podem ser alterados
conforme a necessidade da anlise.
181


Muitas vezes a opo Avanado j ajuda com as classificaes, por
isso, muitas vezes o caminho preferido pelos analistas. Selecionado Advanced e
Avanar, ajusta-se a descrio de cada varivel, Figura 49.
A coluna Role especifica o papel de cada varivel na anlise. Por
exemplo, uma varivel pode ter o papel de ID (identificao), de input (variveis
independentes no modelo) ou de target (varivel dependente).
A coluna Level especifica o nvel de medio de cada varivel. Por
exemplo, uma varivel pode ser ordinal, nominal, intervalar, ou binria. Todas essas
classificaes sero usadas nos passos de modelagem, por isso este um passo
muito importante na anlise. Cada n tem uma exigncia sobre as variveis, com
isso deve-se ter em mente o tipo de anlise que ir realizar. Caso seja necessrio
mudar algo depois de finalizado o wizard do Data Source, pode-se fazer alteraes
na descrio das variveis direto no n da base de interesse.
Figura 49 - Etapa 5 para criao de um Data Source
A etapa seguinte oferece a opo de criar um modelo baseado no valor
de cada deciso (para utilizar essa ferramenta necessrio assegurar que existe
uma varivel target e que o nvel desta varivel no intervalar).
Finalmente, o ltimo passo especificar o papel da tabela SAS na
anlise. A tabela pode ser: Raw, Train, Validation, Test, Score ou Transaction. Cada
ferramenta no Miner exige um formato pr-definido das tabelas. Escolhe-se a opo
182


Raw quando tem-se dados brutos e deles faz-se parties para modelagem e
validao. A opo Train usada quando a base ser totalmente utilizada para a
construo dos modelos, Validation quando a base ser usada para validao dos
modelos e Test quando a base ser utilizada para testar os modelos. Base Score a
base em que aplica-se o modelo selecionado (o n Score exige uma base com essa
classificao, caso contrrio, no executa) e Transaction quando trabalha-se com
dados transacionais, por exemplo, para uma anlise de Associao.
Um ponto importante que deve ser mencionado sobre a definio do
que Data Source, que no o mesmo que uma tabela ou dados em formato Data
Set SAS. Data Source uma definio de metadados que fornece ao SAS
Enterprise Miner informaes sobre um conjunto de dados SAS ou tabela SAS.

Você também pode gostar