Escolar Documentos
Profissional Documentos
Cultura Documentos
Universidade de So Paulo
Escola Superior de Agricultura Luiz de Queiroz
Tcnicas de Data Mining na aquisio de clientes para
financiamento de Crdito Direto ao Consumidor - CDC
Adriana Maria Marques da Silva
Dissertao apresentada para obteno do ttulo de
Mestre em Cincias. rea de concentrao:
Estatstica e Experimentao Agronmica
Piracicaba
2012
2
Adriana Maria Marques da Silva
Bacharel em Estatstica
Tcnicas de Data Mining na aquisio de clientes para
financiamento de Crdito Direto ao Consumidor - CDC
Orientador:
Prof. Dr. CARLOS TADEU DOS SANTOS DIAS
Dissertao apresentada para obteno do ttulo de
Mestre em Cincias. rea de concentrao:
Estatstica e Experimentao Agronmica
Piracicaba
2012
Dados Internacionais de Catalogao na Publicao
DIVISO DE BIBLIOTECA - ESALQ/USP
Silva Adriana Maria Marques da
Tcnicas de Data Mining na aquisio de clientes para financiamento de Crdito
Direto ao Consumidor - CDC / Adriana Maria Marques da Silva.- - Piracicaba, 2012.
182 p: il.
Dissertao (Mestrado) - - Escola Superior de Agricultura Luiz de Queiroz, 2012.
1. rvore de deciso 2. Crdito direto ao consumidor 3. Financiamento
4. Minerao de dados 5. Redes neurais 6. Regresso logstica I. Ttulo
CDD 332.743
S586t
Permitida a cpia total ou parcial deste documento, desde que citada a fonte O autor
3
DEDICATRIA
Aos meus pais,
Maria Lailda Marques e
Manoel Carlos Santana da Silva
Com amor, DEDICO.
4
5
AGRADECIMENTOS
Primeiramente, aos meus familiares, Maria Lailda Marques, Manoel Carlos
Santana da Silva, Joo Paulo Marques da Silva, por estarem ao meu lado, mesmo a
quilmetros de distncia durante um perodo desta jornada. Em especial, minha me, pelo
carinho e bondade na correo dos meus trabalhos. Tambm aos meus primos, tios e tias
pela confiana e carinho.
Aos meus amigos que trabalho, que muito ajudaram nesta jornada final, por
me respeitarem e incentivarem: Andreia Santos, Lyse Nogueira, Daniel Ferreira, Danylo
Moya, Alison Ishii, Ronaldo Aoki, Daniela Souza, Carlos Miranda, Reginaldo Perseghetti,
Daniel Martins, Bruno Galhardo, Rafael Paes, Rafael Amaro e Cleria Barichello.
Ao meu primeiro e melhor chefe, Ivan Pezzoli, por confiar e me apoiar
inmeras vezes, sempre me motivando e me entusiasmando em toda atividade que eu
fizesse.
Ao SAS, pela compreenso e apoio, especialmente ao meu chefe Rodolpho
Marcelino e Wander Vasconcelos.
Aos amigos de departamento, Kelli Gonalves, Thais Cardoso e Otavio
Menezes, pela ajuda, compreenso e admirao.
Ao Alexandre Gomes e Henrique Lima, pela ajuda e camaradagem nos
problemas tcnicos.
professora dina, pelos conhecimentos compartilhados e pela amizade.
Aos meus colegas de ps-graduao, Marcelino Rosa, Everton Batista,
Cristiane Rodrigues, Josiane Rodrigues, Lilian, Tiago Oliveira, Ana Patricia Peixoto, pela
ajuda, conversas risos, almoos, horas de estudo e pelo divertimento.
minha amiga de casa, Priscila Neves Faria, pela amizade, companherismo e
ajuda.
A minha amiga, Glucia Tatiana Ferrari, pela amizade, carinho, dedicao,
horas de estudo, viagens, divertimento e companherismo.
Ao amigo Ricardo Alves de Olinda, pela ajuda, amizade e dedicao.
Ao Professor Dr. Carlos Tadeu dos Santos Dias, pela orientao e confiana
em mim depositadas. Por todo incentivo, crticas e sugestes que foram fundamentais para
o desenvolvimento desta pesquisa e para o meu crescimento profissional.
6
Aos professores de graduao pela formao e por toda ajuda.
Aos docentes do Programa de Ps-Graduao em Estatstica e
Experimentao Agronmica que auxiliaram em minha formao.
Aos funcionrios do Departamento de Cincias Exatas da ESALQ/USP,
Eduardo Bonilha e Jorge Alexandre Wiendl, pelo apoio tcnico, s secretrias Luciane
Brajo e Solange de Assis Paes Sabadin, pelo apoio acadmico.
Ao Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico (CNPq)
pela concesso da bolsa de estudos para a realizao deste trabalho.
Aqueles que contribuiram direta ou indiretamente para a realizao deste
estudo e, por fim, a todos que confiaram em mim.
MUITO OBRIGADA!
7
SUMRIO
RESUMO................................................................................................................... 11
ABSTRACT ............................................................................................................... 13
1 ESTRUTURA DA DISSERTAO ......................................................................... 15
2 INTRODUO ....................................................................................................... 17
2.1 Justificativa .......................................................................................................... 20
2.1.1 Justificativa Terica .......................................................................................... 21
2.1.2 Justificativa Prtica ........................................................................................... 22
3 REVISO BIBLIOGRFICA ................................................................................... 25
3.1 Regresso Logstica ............................................................................................ 25
3.1.1 Funo de ligao Logito ................................................................................. 27
3.1.2 Funo de ligao Probito ................................................................................ 27
3.1.3 Funo de ligao Complementar Log-Log (Cloglog) ...................................... 28
3.1.4 Regresso Logstica Simples ........................................................................... 29
3.1.4.1 Teste de Significncia dos Coeficientes ........................................................ 34
3.1.5 Regresso Logstica Mltipla ........................................................................... 40
3.1.5.1 Teste de significncia dos parmetros do modelo ........................................ 43
3.1.5.2 Estimao do Intervalo de Confiana dos Parmetros .................................. 44
3.1.5.3 Razo de Chance .......................................................................................... 44
3.1.5.4 Seleo de variveis ..................................................................................... 48
3.1.5.5 Medidas de qualidade do ajuste .................................................................... 51
3.1.5.6 Estatsticas Pearson Qui-Quadrado e Deviance ........................................... 51
3.1.5.7 Teste de Hosmer-Lemeshow para adequao do modelo ............................ 53
3.1.5.8 Matriz de confuso ........................................................................................ 54
3.1.5.9 rea abaixo da curva ROC ............................................................................ 56
3.2 rvore de Deciso ............................................................................................... 58
8
3.2.1 Utilizao da rvore de Deciso ...................................................................... 62
3.2.1.1 Seleo de variveis ..................................................................................... 62
3.2.1.2 Importncia da varivel ................................................................................. 63
3.2.1.3 Deteco de interao .................................................................................. 63
3.2.1.4 Valores faltantes ........................................................................................... 64
3.2.1.5 Interpretao do modelo ............................................................................... 65
3.2.1.6 Modelagem preditiva ..................................................................................... 66
3.2.2 Como construir uma rvore de deciso ........................................................... 67
3.2.2.1 Como uma regra criada usando uma diviso binria ................................. 67
3.2.2.2 Mensurar a importncia de uma diviso quando a varivel resposta binria
.................................................................................................................................. 68
3.2.2.2.1 Grau de separao .................................................................................... 69
3.2.2.2.2 Reduo da impureza como medida para mensurar a importncia de uma
quebra ....................................................................................................................... 71
3.2.2.2.2.1 ndice de impureza GINI ......................................................................... 72
3.2.2.2.2.2 Entropia .................................................................................................. 72
3.2.2.3 Mensurar a importncia de uma diviso quando a varivel resposta
categrica ................................................................................................................. 73
3.2.2.4 Ajustes para o valor-p quando as variveis explicativas tm diferentes nveis
.................................................................................................................................. 73
3.2.2.4.1 Ajuste de Bonferroni .................................................................................. 74
3.2.2.4.2 Ajuste de Profundidade .............................................................................. 75
3.2.3 Controlar o crescimento da rvore: regras de parada...................................... 76
3.2.4 Poda: a seleo da rvore do tamanho certo .................................................. 77
3.2.5 Algoritmos Conhecidos .................................................................................... 83
3.2.5.1 ID3 ................................................................................................................ 84
3.2.5.2 C4.5 .............................................................................................................. 84
9
3.2.5.3 CART ............................................................................................................. 85
3.2.5.4 CHAID ........................................................................................................... 86
3.2.5.5 Algortmos SAS ............................................................................................. 86
3.3 Rede Neural ........................................................................................................ 87
3.3.1 O crebro humano ........................................................................................... 88
3.3.2 Os Neurnios ................................................................................................... 89
3.3.3 A comunicao entre os Neurnios .................................................................. 89
3.3.4 O modelo MCP (McCulloch e Pitts) .................................................................. 91
3.3.5 Funes de Ativao ........................................................................................ 92
3.3.6 Principais arquiteturas de RNAs ....................................................................... 94
3.3.7 Aprendizado ..................................................................................................... 98
3.3.7.1 Aprendizado supervisionado ......................................................................... 99
3.3.7.2 Correo de erros ....................................................................................... 100
3.3.7.3 Aprendizado por reforo .............................................................................. 102
3.3.7.4 Aprendizado no supervisionado ................................................................ 103
3.3.8 Perceptron ...................................................................................................... 103
3.3.8.1 O algortmo de aprendizado do Perceptron ................................................. 104
3.3.8.2 Implementao do algortmo de aprendizado do Perceptron ...................... 105
3.3.8.3 Consideraes sobre o aprendizado do Perceptron ................................... 106
3.3.9 Redes Perceptron de Mltiplas Camadas (MLP) ........................................... 106
3.3.9.1 A arquitetura de uma rede Perceptron de Mltiplas Camadas (MLP) ......... 108
3.3.9.2 Nmero de camadas ................................................................................... 109
3.3.9.3 Nmero de neurnios .................................................................................. 110
3.3.9.4 Treinamento de Redes MLP ........................................................................ 110
3.3.9.5 Camada de sada ........................................................................................ 114
3.3.9.6 Camada escondida...................................................................................... 115
4 MATERIAL E MTODOS ..................................................................................... 119
10
4.1 Descrio do conjunto de dados ....................................................................... 120
4.2 Sistema computacional SAS ............................................................................. 122
5 RESULTADOS .................................................................................................... 125
6 CONCLUSO ...................................................................................................... 137
REFERNCIAS ...................................................................................................... 139
APNDICES ........................................................................................................... 143
11
RESUMO
Tcnicas de Data Mining na aquisio de clientes para financiamento de
Crdito Direto ao Consumidor CDC
O trabalho busca dissertar sobre as tcnicas de data mining mais difundidas:
regresso logstica, rvore de deciso e rede neural, alm de avaliar se tais tcnicas
oferecem ganhos financeiros para instituies privadas que contam com processos
ativos de conquista de clientes. Uma empresa do setor financeiro ser utilizada
como objeto de estudo, especificamente nos seus processos de aquisio de novos
clientes para adeso do Crdito Direto ao Consumidor (CDC). Sero mostrados os
resultados da aplicao nas trs tcnicas mencionadas, para que seja possvel
verificar se o emprego de modelos estatsticos discriminam os clientes potenciais
mais propensos dos menos propensos adeso do CDC e, ento, verificar se tal
ao impulsiona na obteno de ganhos financeiros. Esses ganhos podero vir
mediante reduo dos custos de marketing abordando-se somente os clientes com
maiores probabilidades de responderem positivamente campanha. O trabalho
apresentar o funcionamento de cada tcnica teoricamente, e conforme os
resultados indicam, data mining uma grande oportunidade para ganhos financeiros
em uma empresa.
Palavras-chave: Minerao de Dados; Regresso Logstica; rvore de Deciso;
Rede Neural; Crdito Direto ao Consumidor
12
13
ABSTRACT
Data Mining Techniques to acquire new customers for financing of Consumer
Credit
The paper intends to discourse about most widespread data mining techniques:
logistic regression, decision tree and neural network, and assess whether these
techniques provide financial gains for private institutions that have active processes
for business development. A company of the financial sector is used as object of
study, specifically in the processes of acquiring new customers for adhesion to
consumer credit (in Brazil CDC). This research will show the results of the three
above mentioned techniques, to check whether the statistical models point out
relevant differences between prospects intentions to adhere to consumer credit. In
the meantime, the techniques are checked whether they leverage financial gain.
These gains are expected to came from better focused and directed marketing
efforts. The paper presents the operation of each technique theoretically, and as the
results indicate, data mining is a great opportunity for a company boost profits.
Keywords: Data Mining; Logistic Regression; Decision Tree; Neural Network;
Consumer Credit
14
15
1 ESTRUTURA DA DISSERTAO
A presente dissertao encontra-se dividida nas seguintes partes:
Introduo; Justificativa; Desenvolvimento; Resultados e Concluses. No captulo 2,
Introduo, apresenta-se a contextualizao do estudo, alm das justificativas
tericas e prticas. No captulo 3, Reviso de Literatura, so explicadas todas as
tcnicas utilizadas na aplicao e delineia-se o procedimento utilizado para a
obteno dos objetivos. Neste captulo so apresentados fundamentos tericos
sobre cada abordagem. No Captulo 4, Resultados, apresentam-se a descrio do
estudo de caso realizado e os modelos obtidos, alm das comparaes e motivos
pelos quais o modelo foi escolhido. No captulo 5 so apresentadas as concluses
finais do trabalho em decorrncia dos resultados obtidos nesta pesquisa.
16
17
2 INTRODUO
Segundo Dilly (2010), a quantidade de informao no mundo dobra a
cada 20 meses e o tamanho e a quantidade dos bancos de dados crescem com
velocidade ainda maior. Como a quantidade de informao disponvel aumenta a
cada dia, essencial tentar aproveitar o mximo possvel dessa informao. A forma
mais sensata de utilizar essas informaes verificar se h algum conhecimento,
padro ou alguma direo dentro delas.
O banco de dados de um supermercado, por exemplo, contm cada
transao realizada por cada cliente. Com todos esses registros, podem-se
descobrir padres nas compras, criar grupos de cliente com um mesmo hbito,
descobrir produtos que impulsionam a venda de outros e outros achados. Com todas
essas descobertas, pode-se otimizar os resultados financeiros do supermercado.
O processo de explorar grandes quantidades de dados procura de
padres consistentes, como regras de associao ou sequncias temporais, para
detectar relacionamentos sistemticos entre variveis, chamado minerao de
dados, em portugus, ou Data Mining, em ingls.
Data Mining parte de um processo maior conhecido como Descoberta
de Conhecimento em Base de Dados (KDD - Knowledge Discovery in Databases) e
se constitui por um leque de tcnicas que por meio do uso de algoritmos de
aprendizagem ou classificao baseados em estatstica, inteligncia artificial e
aprendizado de mquinas, so capazes de explorar um conjunto de dados, extraindo
ou ajudando a evidenciar padres e auxiliando na descoberta de conhecimento.
O ser humano sempre aprendeu observando padres, formulando
hipteses e testando-as para descobrir regras. A novidade da era do computador o
grande volume de dados que no pode mais ser examinado procura de padres
em um prazo de tempo razovel. A soluo instrumentalizar o prprio computador
para detectar relaes que sejam novas e teis. A minerao de dados surge para
essa finalidade e pode ser aplicada tanto para a pesquisa cientfica como para
impulsionar a lucratividade de uma empresa com experincia, inovadora e
competitiva.
18
O processo KDD constitudo de vrias etapas, sendo a etapa mais
importante o Data Mining. Como se pode notar pela Figura 1, o processo KDD passa
por cinco fases. A primeira fase para a descoberta de conhecimento a seleo dos
dados. Nessa fase importante ter conhecimento de onde se pretende chegar.
Como de conhecimento geral, em toda anlise quantitativa, a
qualidade dos dados essencial para a obteno de resultados confiveis. Segundo
Diniz e Louzada-Neto (2000), dados limpos e compreensveis so requisitos bsicos
para o sucesso do Data Mining. Com isso essencial que a segunda fase, Pr-
Processamento, seja realizada com sucesso. Esse passo leva at 80% do tempo
necessrio para todo o processo, devido s dificuldades de integrao de bases de
dados heterogneas (MANNILA, 1996).
Figura 1 - Etapas que constituem o processo de KDD
Os dados pr-processados devem passar por outra transformao, que
os armazena adequadamente, visando facilitar o uso das tcnicas de Data Mining. O
objetivo do passo seguinte, Data Mining, a aplicao de tcnicas de minerao nos
dados pr-processados, o que envolve ajuste de modelos e/ou determinao de
19
caractersticas nos dados. Em outras palavras, exige o uso de mtodos inteligentes
para a extrao de padres ou conhecimentos dos dados.
No passo final, Interpretao e Anlise, existe a possibilidade de retorno
a qualquer um dos passos anteriores, dependendo dos resultados e das
necessidades exigidas pelo objetivo. Com isso, o resultado final no depende
apenas da etapa do Data Mining, depende de todo processo: consistncia da base
de dados (Data Cleaning), escolha das variveis e por ltimo a tcnica utilizada.
Teoricamente, Data Mining pode ser aplicado em qualquer rea de
conhecimento. No entanto, existem reas em que o uso dessa tcnica mais
frequente. Conforme Fayyad, Piatetski-Shapiro e Smyth (1996), essas reas so:
Marketing: reduo dos custos com o envio de correspondncias
atravs de sistemas de mala direta a partir da identificao de grupos de clientes
potenciais. Um exemplo disso o que o Po de Acar fez com a utilizao do SAS.
O mercado passa a oferecer um carto de desconto em troca de informaes
pessoais que sero utilizadas como entrada para o modelo computacional de Data
Mining. Com essas informaes consegue-se criar grupos de clientes e
consequentemente, pode-se oferecer o produto certo para pessoa certa,
aumentando a probabilidade de venda.
Deteco de fraude: reclamaes indevidas de seguro, chamadas
clonadas de telefones celulares, compras fraudulentas com carto de crdito, fraude
na composio quimica do leite e nomes duplicados em sistemas de Previdncia
Social.
Investimento: diversas empresas tm usado tcnicas de minerao de
dados para obter ganhos financeiros. So usados especialmente modelos de redes
neurais no mercado de aes e na previso da cotao do ouro e do dlar.
Produo: empresas desenvolvem sistemas para detectar e
diagnosticar erros na fabricao de produtos. Estas falhas so normalmente
agrupadas por tcnicas de Anlise de Agrupamentos.
As tcnicas de minerao podem ser aplicadas a tarefas (neste
contexto, um problema de descoberta de conhecimento a ser solucionado) como
20
associao, classificao, predio/previso, sumarizao e clusterizao. A seguir
uma descrio resumida de cada uma delas (FAYYAD; STOLORZ, 1997):
Associao: consiste em determinar quais fatos ou objetos tendem a
ocorrer juntos em um mesmo evento ou em uma mesma transao.
Classificao: consiste em construir um modelo que possa ser aplicado
a dados no classificados visando categorizar os objetos em classes. Associa ou
classifica um item a uma ou vrias classes categricas pr-definidas. Uma tcnica
estatstica apropriada para classificao a anlise discriminante. Os objetivos
dessa tcnica envolvem a descrio grfica ou algbrica das caractersticas
diferenciais das observaes de vrias populaes, alm da classificao das
observaes em uma ou mais classes predeterminadas.
Predio/Previso: predio usada para definir um provvel valor para
uma ou mais variveis. A previso utilizada quando se tm sries temporais
(dados organizados cronologicamente), como por exemplo a previso da cotao de
uma ao na bolsa de valores.
Agrupamentos ou Clusterizao: um processo de partio, que visa
dividir uma populao em subgrupos mais heterogneos entre si. diferente da
tarefa de classificao, pois no existem classes predefinidas, os objetos so
agrupados de acordo com a similaridade. Os clusters so definidos por meio do
agrupamento de dados baseados em medidas de similaridade ou modelos
probabilsticos. A anlise de cluster (ou agrupamento) uma tcnica que visa
detectar a existncia de diferentes grupos dentro de um determinado conjunto de
dados e, em caso de sua existncia, determinar quais so eles.
A Minerao de Dados fornece uma srie de idias e tcnicas para uma
vasta variedade de profisses. Estatsticos, pesquisadores de Inteligncia Artificial e
administradores de bancos de dados que usam tcnicas diferentes para chegar a
um mesmo fim, ou seja, a informao.
2.1 Justificativa
Qualquer tcnica estatstica empregada corretamente pode reverter em
grandes mudanas para qualquer objetivo. Bancos de dados so a fonte para
21
qualquer incremento, novos conhecimentos e descobertas. Empresas capazes de
estudar e entender seu prprio negcio conseguem visualizar novas oportunidades e
com isso conseguem uma melhor posio no mercado. O tema dessa dissertao
muito abordado pelas empresas e merece destaque no meio acadmico, para que
as tcnicas sejam aperfeioadas e que com isso exista um link entre universidade e
empresa. A seguir, esto descritas justificativas para este estudo, tanto na parte
acadmica, como no mundo corporativo.
2.1.1 Justificativa Terica
As tcnicas estatsticas e computacionais so grandes aliadas do
conhecimento e das descobertas. Desde anlises descritivas at modelos mais
sofisticados, o poder das melhores decises, deveriam ser baseados nestes
resultados. Desde a dcada de 70, vem ocorrendo debates sobre as razes para a
baixa utilizao de modelos pelos gestores de empresas, apesar de ser comprovada
a eficcia em diversos modelos disponveis (LITTLE, 2004). Ainda existe uma certa
resistncia por parte dos executivos tomadores de deciso, porm, cada dia fica
mais ntida a necessidade de um estudo para o conhecimento do negcio em
questo.
Segundo Leeflang e Wittink (2000) um modelo a representao dos
elementos mais importantes da percepo de um sistema do mundo real, por isso, a
necessidade das pesquisas que envolvem a elaborao de modelos sejam
realizadas em parcerias entre a academia e as empresas, possibilitando aos
acadmicos o acesso a um grande conjunto de informaes reais e ao mesmo
tempo que os modelos gerados possam efetivamente contribuir com os gestores,
auxiliando nos processos de tomada de deciso (LEEFLANG; WITTINK, 2000).
A melhor compreenso de como se comporta o negcio de uma
empresa, auxiliar a determinar estratgias mais eficazes, bem como possibilitar s
empresas adotantes a aprimorar o processo de avaliao e escolha de produtos e
servios, bem como estratgias de marketing e estudos de riscos. A importncia da
realizao de estudos no mercado corporativo o de possibilitar o desenvolvimento
e a melhora da competitividade das empresas nacionais.
22
2.1.2 Justificativa Prtica
Como mencionado na introduo, 80% do tempo de uma anlise de
Data Mining usado pelo processamento dos dados e manipulao dos mesmos.
Uma preocupao, apontada pelas empresas que adotaram sistemas de coleta de
informaes de clientes, est no desafio em transformar estes dados em
informaes que auxiliem no processo decisrio, o que de, certa forma, vem
trazendo questionamentos quanto viabilidade de coletar tantas informaes,
considerando os altos custos envolvidos comparados aos benefcios gerados,
conforme abordam Rigby e Ledingham (2004). Os autores afirmam que a
necessidade do negcio a prioridade maior da empresa e deve prevalecer em
relao capacidade tecnolgica.
Muitas empresas armazenam milhares de registros em suas bases de
dados, como informaes relacionadas ao cliente, histrico de comportamento com
seus produtos, entre outros. A impercia (inabilidade) em obter informaes sobre
estes dados impede que a organizao obtenha conhecimento valioso e aplicvel
(SUMATHI; SIVANANDAM, 2006). Neste contexto, a utilizao de tcnicas de
minerao de dados mostra-se como uma oportunidade para a realizao de
estudos acadmicos e, tambm, para a gerao de novos modelos para as
organizaes. Este estudo pretende auxiliar na compreenso das tcnicas de
minerao de dados, que so tcnicas de extrao de conhecimento de grandes
quantidades de dados (HAN; KAMBER, 2006).
A aplicao de tcnicas de minerao de dados pode auxiliar na
elaborao de novos modelos contextualizados a casos brasileiros, mostrando o
potencial da utilizao destas tcnicas para a gesto de servios e consumidores.
Com o advento de novas interfaces grficas que facilitam o uso das ferramentas,
associado grande quantidade de informaes disponibilizadas, a minerao de
dados representa uma grande oportunidade para a realizao de estudos e modelos
em administrao para melhores tomadas de deciso.
A escolha do tema desta dissertao se deu pelo fato de que as
tcnicas de Data Mining so tcnicas emergentes, sendo incentivada a sua
utilizao por diversos autores (HAIR et al., 2005; GUPTA et al., 2006), alm de ser
23
recomendada a utilizao de minerao de dados de modo a abrir novas
perspectivas para o mercado corporativo (GUPTA et al., 2006).
Um modelo deve prever, no mnimo, os fatos que o originaram. Um
bom modelo aquele que tem a capacidade de previso de novos fatos
(BASSANEZI, 2004), sendo assim, a grande preocupao deste trabalho que o
modelo desenvolvido possa ser aplicado no mundo corporativo com o objetivo de
ajudar na montagem de estratgia da empresa ou diminuio dos prejuzos.
Apesar de muitos modelos de marketing serem robustos e
comprovadamente eficazes, observa-se ainda a pouca utilizao de modelos
acadmicos pelas empresas, sendo que Martinez-Lopez e Casillas (2009)
recomendam um esforo da academia para reduzir este distanciamento, de modo
que os modelos possam ser utilizados com sucesso e aplicados nas atividades do
dia-a-dia das empresas. Para Little (2004), os modelos no so muito utilizados
pelos gestores por ser difcil de encontrar um bom modelo que inclua as variveis de
interesse do gestor, pela dificuldade de se realizar uma boa parametrizao e pelo
fato de os gestores no compreenderem os modelos. Para que um modelo seja
utilizado por gestores, Little (2004) ressalta que o modelo dever ser: (1) simples; (2)
robusto; (3) fcil de controlar; (4) adaptativo; (5) completo nos elementos importantes
e (6) fcil de comunicar. A simplicidade facilita a compreenso. A robustez previne a
inconsistncia e evita resultados absurdos. A facilidade de controle implica a
transparncia do modelo, de modo que o gestor saiba o que est ocorrendo. A
adaptabilidade permite a insero no modelo de novas alteraes do ambiente. A
requisio de ser completo permite que o gestor possa inserir os requisitos/variveis
desejados. A facilidade de comunicao desejvel para permitir a difuso do
conhecimento.
Outra dificuldade para o uso de modelos pelos gestores a
necessidade da customizao, uma vez que cada universo de produtos, servios e
clientes possui caractersticas prprias, que dificilmente so contempladas por um
modelo genrico. Na construo do modelo optou-se por avaliar o melhor
desempenho do modelo feito por trs das principais tcnicas de Data Mining:
Regresso Logstica, rvore de Deciso e Redes Neurais.
24
Com este estudo, objetiva-se colaborar com os estudos cientficos
brasileiros na rea de minerao de dados. O mercado corporativo brasileiro ainda
necessita de pesquisas que possam aprimorar a gesto e possibilitar a obteno da
excelncia em prestao de servios, o que poder abrir novas possibilidades de
atuao. O estudo tambm pode ajudar a conscientizar os gestores de empresas de
servios da importncia da utilizao de boas prticas de gesto, uso da inteligncia
analtica.
25
3 REVISO BIBLIOGRFICA
Neste captulo exlica-se as tcnicas utilizadas na aplicao prtica e delineia-
se o procedimento utilizado para a obteno dos objetivos.
3.1 Regresso Logstica
A regresso logstica surgiu em 1789, com os estudos de crescimento
populacional de Malthus. Segundo Cramer (2002), 40 anos depois, Alphonse
Quetelet e Pierre- Franois Verhust, recuperaram a idia de Malthus para descrever
o crescimento populacional na Frana, Blgica e Rssia. No entanto, s em 1845,
Pierre- Franois Verhust publicou a formulao utilizada nos estudos de crescimento
da populao a que chamou de curva logstica.
Ainda no sc. XIX, a mesma funo foi utilizada para descrever as
reaes qumicas autocatalticas, porm se manteve apagada na maior parte do
sculo e s foi redescoberto em 1920 por Raymond Pearl, discpulo de Karl Pearson,
e Lowell Reed que o aplicaram igualmente ao estudo do crescimento da populao
dos Estados Unidos da Amrica.
Os modelos logsticos surgiram da necessidade de modelos mais
satisfatrios para dados qualitativos e pela dificuldade encontrada ao aplicar a
Regresso Linear para variveis dependentes qualitativas. O modelo de regresso
logstica o principal modelo de dados binrios, que so aqueles em que a varivel
de interesse (resposta) assume dois valores possves. Como existem muitas
situaes prticas onde as variveis binrias so encontradas, o estudo sobre o
assunto bastante vasto.
A regresso logstica muito semelhante regresso linear. Em ambos
os casos utiliza-se uma ou mais variveis explicativas () para predizer o valor de
uma varivel resposta (). Entretanto, na regresso logstica (ou modelo binrio), a
varivel resposta () possui apenas dois valores possveis.
Usualmente adota-se o valor como o resultado mais importante da
resposta ou aquele que se pretende relacioanar ao acontecimento de interesse
(conhecido como sucesso) e o valor ao fracasso (resultado complementar).
26
A regresso logstica trabalha com chances ao invs de propores. As
chances correspondem razo entre propores de dois resultados possveis. Se
a probabilidade de sucesso, ento a probabilidade de fracasso, ou seja:
, e
e sendo uma probabilidade, o valor previsto deve ser qualquer nmero limitado
entre e .
A Regresso Logstica modela a mdia em termos de uma ou mais
variveis explicativas . Pode-se tentar relacionar e como uma regresso linear:
(1)
no entanto no seria um bom modelo, pois sempre que
,
valores extremos de fornecero valores para
que ficariam
fora do conjunto de valores possveis para .
Por isso, o modelo de regresso logstica remove essa dificuldade
determinando uma transformao de modo que pertena ao intervalo
, podendo assim ser modelada pela funo linear como na eq. (1). A funo
denominada como funo de ligao (ISHIKAWA, 2007).
De acordo com Sarma (2009), algumas transformaes podem
desempenhar esse papel. Assumindo que a varivel estimada denotada por para
cada linha no banco de dados, sabe-se que o valor de depende de todas as
variveis usadas para estim-lo (representadas pelas variveis independentes
),
sendo assim, sempre que se tem todas as observaes de
preenchidas, tem-se
, ou seja:
(2)
em que o vetor de coeficientes, o vetor de variveis independentes e
uma varivel aleatria. Diferentes suposies sobre a distribuio da varivel
aleatria d origem a diferentes funes de ligao. Sendo que a probabilidade de
resposta :
| |
em que a funo da distribuio acumulada da varivel aleatria .
27
3.1.1 Funo de ligao Logito
Segundo Sarma (2009), a funo de distribuio acumulada ser:
e, com isso, tem-se que:
Por isso, a probabilidade de resposta calculada como
|
(3)
e
|
(4)
Das eq. (3) e (4) pode-se notar que a funo de ligao :
(
|
|
)
(
de entrada.
3.1.2 Funo de ligao Probito
Segundo Sarma (2009), na funo de ligao probito assume-se que a
varivel aleatria na eq. (2) tem uma distribuio normal com mdia 0 e desvio
padro igual a 1. Neste caso tem-se que:
28
|
devido semetria da distribuio de probabilidade normal, em que
Sendo assim,
ento
|
Definido que
e
|
Com isso, a funo de ligao definida por:
( |)
Em estudos de dados binrios que envolvem uma varivel respotas
binria e uma ou mais covariveis , a probabilidade de sucesso :
|
em que
da varivel
. A
forma especfica do modelo de Regresso Logstica Simples :
29
A mdia condicional de dado
em que , ou seja, o valor esperado ir sempre representar a
probabilidade de
.
Seja a transformao linear
, ento:
sendo assim,
A transformao de
, como:
)
em que
o logito.
3.1.4 Regresso Logstica Simples
A Regresso Logstica Simples trata de um modelo no qual a varivel
resposta assume valores 0 ou 1 e contm apenas uma varivel explicativa (
).
Sabe-se que a observao da varivel resposta , dado um valor de ser a
probabilidade de ocorrncia (
.
Como mencionado anteriormente, utilizando a funo de ligao logito,
o valor esperado da varivel resposta, na regresso logstica simples definido por
Quando o vetor da mdia condicional | pode assumir qualquer
valor quando varia entre e , os parmetros do modelo podem ser estimados
utilizando o mtodo dos Mnimos Quadrados (MMQ), pois o objetivo ajustar um
modelo linear. Porm, quando o vetor da mdia condicional apresentar a forma de
uma distribuio acumulada, como no caso da varivel dicotmica, a estimao dos
parmetros da funo definida pela mxima verossimilhana (no linear).
Como o objetivo obter o valor dos parmetros com o propsito de
encontrar os melhores valores para
o que representa a expresso:
*
+ *
+ *
+
Aplicando o logaritmo, tem-se:
31
)]
Para encontrar o valor de que maximiza
, faz-se a
derivada parcial de com relao a
e em seguida a
, igualando as duas
derivadas a zero.
)+
Como
.
sendo que
, ento
)]
derivando (
), tem-se:
[ (
)]
)
Como
derivando (
), tem-se:
32
[ (
)]
Retornando derivada principal, tem-se que:
)]
Sabendo que
e que
, ento
Sabendo que o estimador de
33
ou seja, a soma dos valores observados de igual a soma dos valores estimados
da probabilidade do evento sucesso.
Derivando, agora, em funo de
, tem-se:
)]
sendo a derivada de (
), dado que
[ (
)]
sendo a derivada de (
), dado que
[ (
)]
Retornando derivada principal, tem-se que:
34
)]
ento
As equaes encontradas, a partir das derivadas, so conhecidas como
equaes de verossimilhana. Em Regresso Logstica essas equaes no so
lineares em
35
em que o modelo completo tem parmetros. O vator
referente aos
parmetros da primeira parte, ou seja, contm dos parmetros no modelo
completo,
o modelo reduzido ser
(
e a estatstica Deviance do modelo reduzido ser
.
Segundo Montegomery, Peck e Vining (2006), a estatstica Deviance
para o modelo reduzido ser sempre maior que a deviance do modelo completo,
porque o modelo reduzido contm menos parmetros. No entanto, se a deviance do
modelo reduzido no for muito maior que a deviance do modelo completo indica que
o ajuste do modelo reduzido quase to bom quanto o ajuste do modelo completo,
por isso provvel que os parmetros em
no zero e
ento deve-se rejeitar a hiptese nula. Formalmente a diferena entre deviances
(5)
e tem graus de liberdade. Se a hiptese nula
verdadeira e se grande, a diferena (1.5) tem uma distribuio qui-quadrado com
graus de liberdade. Portanto, o teste estatstico e o critrio de deciso so:
{
Assim, a comparao dos valores da varivel resposta com os valores
preditos obtidos dos modelos com e sem a varivel em questo baseada na
funo do da verossimilhana . Esta comparao definida por:
36
*
[
+
*
+
[
*
+ *
+
[
] [
]
]
*
[
)]
+
[
[(
]+
*
(
+]
Como o estimador de mxima verossimilhana de
, definido em
3.1.4,
ento a estatstica
(Deviance) :
*
(
+]
devido propriedade de invarincia das funes dos estimadores de mxima
verossimilhana.
Para estimar a significncia de uma varivel independente, compara-se
o valor de com e sem a varivel independente na Equao:
37
ento:
+ e *
+
em que:
] [
[
]
Segundo Hosmer e Lemeshow (2000), para o caso de uma nica
varivel independente, quando ela no est no modelo, o Estimador de Mxima
Verossimilhana de
) em que
. Como a
varivel independente no est no modelo reduzido, tem-se que
Como
(nmero de casos em que ), aplicando em ambos os lados tm-se:
) ento
)
Sendo assim, para o caso de Regresso Logstica Simples:
[
]
[
(
]
Como visto anteriormente, o do denominador definido por:
(*
) [
)]
j o ((
) definido por:
((
39
Ento:
]
sob a hiptese nula que
tem distruio
qui-quadrado com 1 grau de liberdade, com a suposio do tamanho n ser
suficientemente grande. Rejeita-se
se
(HOSMER;
LEMESHOW, 2000).
Segundo Hosmer e Lemeshow (2000), antes de concluir que um ou
todos os coeficientes so no nulos, tem-se que observar a estatstica do teste de
Wald. O teste de Wald pode ser obtido comparando a estimativa de mxima
verossimilhana de determinado coeficiente,
e a estatstica teste definida pela seguinte expresso:
em que
o
valor que se deseja testar. A estatstica
, se
rejeita a hiptese nula para um dado nvel de significncia. No caso do teste dos
coeficientes nulos,
, e ento
40
em que
.
Observando que
so estimadores de mxima
verossimilhana de
se ||
. Conforme Hosmer e Lemeshow (2000), os Intervalos de Confiana
so os seguintes:
Coeficiente de Inclinao:
Intercepto:
Logito:
(
)
)
3.1.5 Regresso Logstica Mltipla
A Regresso Logstica Mltipla, assim como a Regresso Logstica
Simples, contm a varivel resposta como uma varivel dicotmica, porm possui
mais de uma varivel independente (
)
definida por:
|
Neste caso, como trata-se de variveis independentes, o logito da
Regresso Linear Mltipla definido por:
Com isso, o Modelo de Regresso Linear Mltipla ser:
41
escrevendo o modelo linearizado tem-se:
(
Mesmo linearizado, este modelo apresenta erros heterocedsticos (com
varincia no constante) o que torna no aconselhvel a utilizao do mtodo de
mnimos quadrados para a estimao dos parmetros do modelo.
Sendo a funo de mxima verossimilhana
em que
a funo de probabilidade de
e o
nmero de observaes.
A maximizao desta funo um problema equivalente a
maximizao do seu logaritmo, j que a funo logaritmo uma funo montona
crescente. Para facilitar a obteno do maximizante, tem-se o logaritmo da funo
de verossimilhana ou funo log-verossimilhana, como descrito anteriormente:
O estimador de mxima verossimilhana dos componentes de
correspondem, por definio, aos valores desses parmetros que maximizam
No possvel encontrar diretamente uma soluo para este problema
que assegure a condio necessria para o mximo de
. Assim, este
problema de maximizao resolvido por meio de um algoritmo de otimizao. Um
dos algoritmos de otimizao mais utilizados o de Newton-Raphson. Amemiya
(1985) demonstra que o log da funo de verossimilhana globalmente cncavo,
42
assim o algoritmo de Newton-Raphson converge para um nico mximo (os
estimadores de mxima verossimilhana) independentemente dos valores de
inicializao adotados.
Se os elementos da matriz Hessiana so avaliados como os
estimadores de mxima verossimilhana
) (
Segundo Hosmer e Lemeshow (2000) e Montegomery, Peck e Vining
(2006) o ajuste do modelo estimado (
) (
. Assim as matrizes e
so:
[
]
e
[
]
Lembrando que o j-simo elemento da diagonal da matriz
a
varincia estimada
, e os elementos fora da
diagonal principal so covarincias de
, denotadas de
, o estimador
do erro padro definido por:
) [
]
em que
)
Como mencionado, a estatstica nq eq. (5) tem distribuio
e
rejeita-se se
se
. Ao rejeitar
ou seja, testa-se a significncia da varivel
Ao calcular
rejeita-se
se
, ou seja,
).
Aps retirar-se variveis no significativas, realiza-se novamente o
teste , em que, agora compara-se o valor de com variveis iniciais menos o
valor sem as variveis retiradas. Caso esta diferena seja menor que a
estatstica
)
Para obter o intervalo de confiana da transformao logito estimada
(
) (
Logo, o intervalo de confiana definido por:
3.1.5.3 Razo de Chance
Uma anlise para explorao dos dados diz respeito ao clculo dos
odds e dos odds-ratio (razes de chance). O odds pode ser interpretado como a
comparao de dois nmeros: o primeiro traduz a probabilidade de ocorrncia de um
evento e o segundo, a probabilidade do mesmo evento no ocorrer, ou seja:
J o odds-ratio a razo entre os odds, ou seja
|
|
Sendo assim, a razo de chance uma medida de associao que
indica o quanto mais ou menos provvel a probabilidade de obter uma resposta
positiva, consoante ao valor da varivel independente. Por exemplo, para variveis
explicativas dicotmicas, considerar-se que Y indica se o indivduo est em situao
regular ou devedora, e X (varivel indenpendente) seja a presena ou ausncia de
45
um determinado fator de risco (medida criada a partir da caracterstica do indivduo),
ento a razo de chance indica o quanto mais provvel a ocorrncia do evento,
neste caso, de o indivduo estar em situao devedora, consoante ao fator de risco
estar ou no presente.
Uma razo de chance igual a 1 indica ausncia de relao associativa
entre a varivel explicativa e a varivel dependente. Uma razo de chance menor
que 1 indica que a varivel explicativa est associada negativamente varivel
resposta, ou seja, quanto menor a razo de chance, maior a probabilidade de o
cliente apresentar menores riscos de incumprimento, indicando que o fator de risco
apresenta algum poder para discriminar quem so os bons pagadores. J uma razo
de chance maior que 1 significa que quanto maior a razo de chance, maior a
probabilidade de o cliente apresentar maiores riscos de incumprimento,
evidenciando que o fator de risco considerado apresenta poder para discriminar
maus pagadores.
Na maioria dos modelos, os coeficientes estimados das variveis
independentes representam uma inclinao ou taxa de alterao de uma funo da
varivel dependente por acrscimo de uma unidade na varivel independente.
No modelo de Regresso Logstica
o coeficiente
de inclinao que representa a variao na transformao logito para o acrscimo de
uma unidade na varivel independente . Toda a interpretao depende da natureza
da varivel independente. No exemplo citado anteriormente, existe a situao da
interpretao dos coeficientes de Regresso Logstica quando a varivel
independente dicotmica. Segundo Hosmer e Lemeshow (2000) esta situao
pode ser apresentada como:
Total 1 1
46
O odds para o evento definido como
e a odds para o
evento quando
O log de odds-ratio conhecido como logito :
(
) (
)
ento o da razo de chances :
[
] [
Considerando o exemplo mencionado anteriormente, se a
ocorrncia de ser um mau pagador a metade entre aqueles que no tem o fator de
risco do que entre os indivduos que tem fator de risco. Se , ento a chance
de um indivduo ser mau pagador 9 vezes maior em indivduos com o fator de risco
do que um indivduo sem o fator de risco.
O estimador de tende a ter distribuio assimtrica. A assimetria
amostral de devido ao fato que ela varia entre e , com valor 0
ocorrendo quando . Para tamanhos amostrais grandes, a distribuio de
ser normal e portanto simtrica. Assim o intervalo de confiana de
ser:
*
)+
Quando tratar-se de uma varivel independente com mais de duas
categorias pode-se usar um conjunto de variveis dicotmicas para represent-las.
47
Fixa-se um grupo como referncia com o qual os outros grupos sero comparados.
O mtodo para especificao das variveis dicotmicas envolve fazer todas elas
iguais a zero para o grupo de referncia e fixar uma nica varivel de planejamento
igual a 1 para cada um dos outros grupos. Sendo assim se a varivel independente
contiver categorias, sero criadas variveis dicotmicas para explic-las:
Categorias
de
A 0 0
B 1 0
C 0 1
O intervalo de confiana para a razo de chance ser exatamente o
mesmo que apresentado na eq. (7). Segundo Hosmer e Lemeshow (2000) esse
mtodo de codificao de variveis de planejamento o mais utilizado na literatura e
conhecido como codificao de clula referente, pois o interesse estimar o risco de
um grupo com a ocorrncia em relao ao outro grupo sem a ocorrncia.
Tratando-se de uma varivel independente contnua o das chances
para uma variao de unidades em fornece a diferena logito
O intervalo de confiana para a razo de chance (HOSMER;
LEMESHOW, 2000) definida por:
*
)+
A interpretao do coeficiente estimado para uma varivel contnua
similar ao de uma varivel nominal. A principal diferena que necessrio definir
que quantidade seria uma mudana significativa nas variveis contnuas.
48
3.1.5.4 Seleo de variveis
Quando se selecionam dados no mbito de um problema de
classificao, a tendncia acrescentar o maior nmero de variveis possveis, de
forma a melhor caracterizar o problema. Acontece, normalmente, que muitas das
variveis no esto associadas a varivel resposta (target), havendo nestes casos,
dois tipos de variveis: as variveis completamente irrelevantes, ou seja, que em
nada distiguem a varivel resposta; e as variveis redundantes, ou seja, que em
nada acrescentam a discriminao da varivel resposta dado que alguma outra
varivel j acrescentou a mesma informao. Por esta razo, comum em estudos
deste gnero, considerarem-se diversas abordagens de forma a encontrar as
relaes tidas entre as variveis independentes e a varivel resposta.
O propsito da seleo de variveis consiste em, a partir de um
conjunto inicial de F variveis, selecionar um subconjunto H, tal que H<F, tendo sido
H apurado segundo um determinado critrio que permita identificar as variveis
relevantes para o problema em anlise. A eliminao de variveis inteis permite
reduzir a dimenso dos dados e a sua complexidade e portanto, reduzir o tempo de
processamento dos mtodos. Alm disso, segundo Hosmer e Lemeshow (2000), a
seleo de variveis um passo muito importante, pois tendencialmente, com um
menor nmero de variveis o modelo ser mais robusto.
Para alcanar o objetivo na seleo de variveis necessrio: (1) um
plano de seleo de variveis, (2) um mtodo para a validao do modelo em termos
das variveis individuais e tambm do ponto de vista do ajuste com todas no modelo
(HOSMER; LEMESHOW, 2000).
Na obteno de um modelo estatstico procura-se o mais parcimonioso,
mas que explique bem os dados. A vantagem em minimizar o nmero de variveis
que o modelo resultante provavelmente mais estvel numericamente e mais fcil
de ser generalizado, pois quanto mais variveis o modelo tiver, maiores sero os
erros padro estimados e o modelo fica cada vez mais dependente dos dados
observados.
Conforme Hosmer e Lemeshow (2000), as etapas para a seleo de
variveis so as seguintes:
49
1) O processo de seleo comea com uma anlise exploratria
univariada cuidadosa para cada varivel. Deve-se tomar cuidado com a varivel
independente, pois dependendo de seu tipo podem ocorrer tabelas de contigncia
com caselas zero, que produzir uma estimativa pontual univariada para uma das
razes de chances iguais a zero ou infinito.
2) Depois feita a seleo para uma anlise multivariada. A
varivel cujo teste univariado tiver valor-p < 0,25 candidata a entrar no modelo
multivariado juntamente com outras variveis consideradas importantes pelo
especialista responsvel pela anlise.
O valor de nvel de significncia usado como critrio para
seleo de variveis, pois o uso do valor tradicional ( ) frequentemente falha
na identificao de variveis conhecidas como importantes.
3) Nesta etapa, a importncia de cada varivel includa no modelo
deve ser verificada. Por isso, deve-se calcular a estatstica de Wald e uma
comparao de cada coeficiente estimado com o coeficiente do modelo univariado
contendo apenas aquela varivel. As variveis que no contriburem para o modelo
baseado neste critrios devem ser eliminadas e um novo modelo deve ser ajustado.
O novo modelo comparado com o modelo anterior (sempre com mais variveis)
por meio do teste da razo de verossimilhana. Os coeficientes estimados para as
variveis restantes devem ser comparados com aqueles do modelo completo.
necessrio, verificar as variveis cujos coeficientes tm mudanas marcantes em
magnitude. Este processo de eliminao, reajustamento e verificao feito at que
todas as variveis importantes estejam includas no modelo e aquelas excludas no
tenham importncia estatstica.
4) Aps a obteno do modelo com todas as variveis essenciais,
interessante considerar os termos de interao entre as variveis. Primeiro, inclu-
se no modelo principal cada interao e compara-se o modelo de interao com o
modelo principal. Selecionam-se as interaes significativas e ajusta-se um novo
modelo. O novo modelo comparado com o modelo principal. Se no existir efeito
de interao o processo est completo, mas, se existir o efeito de interao, o
processo continuar at que se determine o modelo completo com as interaes.
50
Outra maneira para selecionar variveis o mtodo Stepwise. Neste
tipo de seleo, as variveis so selecionadas tanto por incluso como por excluso
no modelo em um uso sequencial baseado exclusivamente em critrio estatstico.
Existem duas outras verses do procedimento de seleo:
a) Seleo forward com teste para eliminao backward;
b) Eliminao backward seguido de um teste de seleo forward. A
seleo stepwise til porque ela constri modelos em forma sequencial e permite o
exame de um conjunto de modelos que podem no ter sido examinados.
A seleo stepwise um algoritmo estatstico que verifica a importncia
das variveis e tambm em inclu-las ou exclu-las com base numa regra de deciso
fixada. A importncia de uma varivel definida em termos de uma medida da
significncia estatstica do coeficiente da varivel (HOSMER; LEMESHOW, 2000).
Segundo Hosmer e Lemeshow (2000), na Regresso Linear Stepwise,
o teste F usado desde que os erros sejam assumidos com distribuio Normal. Na
Regresso Logstica Stepwise, os erros so assumidos a partir da distribuio
Binomial e a significncia avaliada pelo teste razo de verossimilhana qui-
quadrado.
Assim, em cada passo do procedimento, a varivel mais importante, em
termos estatsticos, ser a varivel que produz a maior mudana no log de
verossimilhana relativo a um modelo no contendo a varivel (modelo com maior
estatstica da razo de verossimilhana ) (HOSMER; LEMESHOW, 2000).
Depois que o modelo de Regresso Logstico ajustado, podem
ocorrer alguns problemas numricos:
a) Frequncia de zeros em uma tabela de contigncia: Uma prtica
comum para evitar uma estimativa do ponto indefinido adicionar 1,5 para cada
clula. Este valor adicionado permite a mudana da anlise de uma tabela de
contingncia simples, mas raramente satisfatrio para um conjunto de dados mais
complexo (HOSMER; LEMESHOW, 2000).
A presena de uma clula de contagem zero deve ser detectada na
anlise univariada dos dados, pois esta clula causar problemas de estgio de
modelagem de anlise. Para contornar este problema, pode-se juntar as categorias
51
da varivel em uma forma significativa para elimin-la, ou se a varivel no mnimo
de escala ordinal, trat-la como se ela fosse contnua.
b) Covariveis discriminam perfeitamente: quando um conjunto
de covariveis separa completamente os grupos respostas. Se uma covarivel
conhecida, o valor da varivel resposta com certeza conhecido.
c) Colinearidades: Como no caso da Regresso Linear, o ajuste do
modelo via Regresso Logstica tambm sensvel para colinearidades entre as
variveis independentes no modelo.
Hosmer e Lemeshow (2000) destacam que os problemas numricos de
uma clula de contagem zero, separao completa e colinearidade, so sempre
manifestados por erros padro estimados extraordinariamente grandes e algumas
vezes, por coeficientes estimados grandes.
3.1.5.5 Medidas de qualidade do ajuste
Aps a estimao do modelo, o mais adequado avaliar a qualidade do
ajuste do mesmo. Com isso, o interesse testar as hipteses:
{
Para verificar a qualidade do ajuste, necessrio verificar se o valor
estimado pelo modelo proposto igual aos valores reais. O esperado que as
distncias entre (vetor da varivel resposta) e (vetor dos valores ajustados)
sejam pequenas.
Existem algumas estatsticas testes capazes de testar essas hipteses,
so elas:
3.1.5.6 Estatsticas Pearson Qui-Quadrado e Deviance
Na Regresso Logstica, segundo Hosmer e Lemeshow (2000), existem
muitas formas de medir a diferena entre o valor esperado e o valor ajustado. Uma
forma ajustar a -sima covarivel padro como
.
52
em que:
e o
nmero esperado de fracassos
. A estatstica de Pearson
(MONTEGOMERY; PECK; VINING, 2006):
[(
A estatstica
) (
) (
)+
Note que, no clculo da Deviance,
) se
e se
tem-se (
) (
e fracassos
, em que
o nmero de observaes
em cada grupo e a probabilidade mdia de sucesso estimada em cada um dos -
simo grupo definida por
Se o modelo de regresso logstica est correto, a estatstica de
Hosmer Lemeshow (2000) segue uma distribuio qui-quadrada com graus de
liberdade quando a amostra grande. Grandes valores de estatstica implicam
que o modelo no tem um adequado ajuste aos dados (MONTEGOMERY; PECK;
VINING, 2006).
54
3.1.5.8 Matriz de confuso
A matriz de confuso resume os resultados do modelo. Esta tabela,
tambm conhecida como tabela de classificao, o resultado da classificao
cruzada da varivel resposta com os valores dicotmicos cujos valores so
derivados da probabilidade estimada pelo modelo (HOSMER; LEMESHOW, 2000).
Com o modelo ajustado atribui-se um valor estimado de (ou 0, ou 1) a
partir da probabilidade estimada pelo modelo (
0
b
Falso Positivo (FP)
a
Verdadeiro Negativo
(VN)
Por meio da matriz de confuso possvel determinar a porcentagem
de classificaes corretas do modelo ajustado, que so as medidas de
especificidade e de sensitividade. Sensitividade a razo do grupo com
classificao favorvel do grupo com a varivel de interesse (classificado ,
observado ) sobre o total desse grupo observado, ou seja:
A especificidade a razo do outro grupo com classificao favorvel,
com a outra varivel (classificao e observado ) sobre o total desse
grupo observado:
55
A razo geral do modelo de classificao correta estimada como:
e o erro total do modelo de classificao como:
Segundo Choro (2005) importante realar nessa matriz, vrios
aspectos importantes:
1) Erro tipo I
Designado por (dimenso do teste), a razo de observaes em
situao 1 ( ) classificados como sendo 0 ( ). Imagine uma
instituio financeira que tenha uma taxa elevada (clientes devedores
sendo classificados como clientes regulares) significa que a instituio
muito generosa com a concesso de crdito estando, ento, exposta ao
risco de crdito.
2) Erro tipo II
Designado por (complementar da potncia do teste) a razo de
observaes em situao 0 ( ) classificados como 1 ( ). Na
instituio financeira citada, se elevado por um longo perodo haver
perdas nas vendas e concomitantemente quebra nos lucros. Esta
instituio est exposta ao risco comercial, ou seja, ao risco de perda de
quota de mercado.
3) Cutoff
Os erros e esto dependentes do cutoff considerado para classificar a
observao com 0 ou 1. Alm disso, a matriz de confuso muitas vezes
usada para comparar diferentes modelos de classificao, tendo como
hiptese que os dois tipos de erros tm a mesma importncia para a
instituio.
56
3.1.5.9 rea abaixo da curva ROC
A curva ROC (Receiver Operating Characteristic), tambm conhecida
como curva de Lorenz (HENLEY; MCNEIL, 1982) baseada nos conceitos de
sensitividade e especificidade. Estatsticas (medida de classificao correta) que
podem ser obtidas a partir da construo de matrizes de confuso criadas a partir do
resultado da classificao dos indivduos, gerado pelo modelo.
De acordo com Hosmer e Lemeshow (2000), para fazer a curva plota-se
a probabilidade de deteno do verdadeiro sinal (sensitividade) e o falso sinal (1-
especificidade) para completo alcance dos possveis pontos de corte.
A rea abaixo da curva ROC, que varia entre 0 e 1, fornece uma
medida da capacidade do modelo discriminar entre indivduos com o fator de
interesse versus os que no tem o fator de interesse. Contudo, quando se considera
um teste onde esto presentes duas populaes, uma com indivduos 1 (presena
do fator de interesse) e outra de indivduos 0 (ausncia do fator de interesse), muito
raramente se observa uma perfeita separao entre as duas populaes. Os
resultados deste teste apresentam uma sobreposio conforme nota-se na Figura 2.
Figura 2 - Funes de densidade de duas populaes
Para a direita do cutoff (teste positivo) identifica-se uma rea
correspondente ao falso positivo (FP) e outra ao verdadeiro positivo (VP). Para a
esquerda do ponto de corte (teste negativo) identifica-se uma rea correspondente
aos falsos negativos (FN) e outra aos verdadeiros negativos (VN).
Quanto menor for a sobreposio das distribuies, menor a rea
correspondente ao falso positivo. Assim, valores de corte elevado conduzem a um
teste pouco sensvel e muito especfico; por outro lado, valores de cutoff baixos
conduzem a um teste muito sensvel e pouco especfico.
57
O objetivo escolher um ponto de corte timo, que maximize a escolha
de sensibilidade e especificidade, deve-se plotar um grfico semelhante ao grfico
da Figura 3, em que so sugeridos diversos pontos de corte e o ponto timo o
cruzamento da curva de sensibilidade e especificidade.
Figura 3 - Plotagem de Sensitividade e Especificidade contra os pontos de corte
J a Figura 4 ilustra a curva ROC, cuja rea abaixo da curva a medida
de discriminao (varia entre 0 e 1), ou seja, a capacidade preditiva do modelo
classificar corretamente as observaes como 0 ou 1.
Figura 4 - Plotagem de Sensitividade versus 1- Especificidade para possveis pontos de corte
O clculo da rea abaixo da curva ROC bastante intuitivo: Seja
o
nmero de indivduos com e
Local
parque evento rua
N 2 (Folha)
Compra sorvete: 2
No compra sorvete: 0
Deciso: Compra sorvete
N 3
Compra sorvete: 2
No compra sorvete: 3
N 4
Compra sorvete: 3
No compra sorvete: 3
N 8 (Folha)
Compra sorvete: 1
No compra sorvete: 2
Deciso: No Compra
sorvete
N 7 (Folha)
Compra sorvete: 3
No compra sorvete: 0
Deciso: Compra
sorvete
N 6 (Folha)
Compra sorvete: 0
No compra sorvete: 1
Deciso: No Compra
sorvete
N 5 (Folha)
Compra sorvete: 2
No compra sorvete: 0
Deciso: Compra
sorvete
Idade
< 12 >= 12
Dia Ensolarado
Sim No
62
rvores de deciso simples so atraentes porque possuem uma
representao clara de como as variveis independentes determinam o alvo.
rvores tambm so atraentes porque aceitam vrios tipos de variveis: nominal,
ordinal e intervalar. Variveis nominais tm valores categricos sem ordem inerente.
Variveis ordinais so categricas com valores ordenados, por exemplo: ' frios',
'bom', 'quente', e 'muito quente'. Variveis intervalares so variveis que podem ser
calculadas. Temperatura uma varivel intervalar, quando seus valores so
expressos em graus. Uma varivel pode ser de qualquer tipo, independentemente
dela servir como uma varivel target (o propsito para criao da rvore) ou como
uma varivel input (as variveis de entrada para o modelo - so aquelas variveis
disponveis para uso nas regras de diviso).
As rvores tambm tm suas deficincias. Quando os dados no
contm uma relao simples entre as variveis de entradas e a varivel resposta, a
rvore pode acabar sendo uma rvore simplista demais. Uma rvore d a impresso
de que certos insumos exclusivamente explicam as variaes no alvo. Um conjunto
completamente diferente de insumos poderia dar uma explicao diferente e talvez
at melhor. E como mencionado anteriormente, sempre procura-se por uma rvore
com a menor taxa de erro, menor complexidade, com poucos ns terminais e que
esteja adequada aos objetivos do estudo, tornando-se fcil de interpretar.
3.2.1 Utilizao da rvore de Deciso
As rvores de deciso no so necessariamente utilizadas apenas para
modelagem preditiva. Existe uma lista de opes para a utilizao de uma rvore de
deciso, que so:
3.2.1.1 Seleo de variveis
Os dados chegam ao analista, normalmente, com muitas variveis. A
primeira misso encontrar alguma coisa interessante nos dados, que normalmente
contm variveis redundantes ou irrelevantes que ficam no caminho. A tarefa
preliminar determinar quais variveis so susceptveis de ser preditiva.
63
Uma prtica comum excluir variveis de entrada (independente) com
pouca correlao com a varivel resposta. Uma prtica alternativa a utilizao de
insumos que aparecem nas regras de diviso de uma rvore. rvores avisam
relaes a partir da interao dos insumos. Por exemplo, comprar sorvete pode no
ter correlao com o Local a menos que o tempo esteja ensolarado e quente. A
rvore nota as duas entradas. Alm disso, as rvores descartam entradas
redundantes. Dia ensolarado e temperatura, por exemplo, podem se correlacionar
com a compra de sorvetes, mas a rvore s precisa de uma das entradas.
O analista usaria, normalmente, as variveis selecionadas como as
variveis de entrada em um modelo como o de regresso logstica, por exemplo.
Porm as rvores no selecionam todas as variveis importantes para uma
regresso. A soluo sensata incluir algumas variveis a partir de outra tcnica,
tais como correlao. Nenhuma tcnica de seleo capaz de profetizar quais
variveis vo ser eficazes em outras ferramentas de modelagem.
3.2.1.2 Importncia da varivel
O analista pode querer usar tcnicas de seleo de variveis para
fornecer uma medida de importncia de cada varivel, em vez de apenas enumer-
las. Intuitivamente, as variveis usadas em uma rvore tm diferentes nveis de
importncia. O que torna uma varivel importante a fora da influncia e o nmero
de casos influenciados.
Alguns softwares implementam uma frmula que define a importncia
de uma regra de diviso: para uma varivel target intervalar, a importncia de uma
diviso a reduo na soma de erros quadrados entre o n e os ramos imediatos.
Para uma varivel target categrica, a importncia a reduo no ndice de Gini,
normalmente.
3.2.1.3 Deteco de interao
A partir das variveis selecionadas em uma regresso, normalmente
considera-se possveis efeitos de interao. Considere a modelagem do preo de
casas familiares. Suponha que os preos da maioria das casas no conjunto de
64
dados so proporcionais a uma combinao linear da metragem quadrada e a idade
da casa, mas as casas que fazem fronteira um campo de golfe so vendidas a um
preo acima do que seria esperado a partir da combinao do tamanho e idade.
Para criao do melhor modelo seria necessrio um indicador que informe se a casa
faz fronteira com o campo de golfe ou no. Dados raramente vm com as variveis
mais teis!
No entanto, parece plausvel que as casas que fazem fronteira com o
campo de golfe so aproximadamente do mesmo tamanho e foram construdas na
mesma poca. Se nenhuma das outras casas forem desse tamanho e nem foram
construdas durante esse tempo, ento essa combinao de tamanho e tempo
fornece uma indicao sobre a casa fazer fronteira com o campo de golfe. A
regresso deve conter trs variveis: metragem quadrada, idade e o indicador de
campo de golfe. O indicador construdo a partir da metragem quadrada e idade,
portanto, representa uma interao entre esses dois insumos.
Normalmente tenta-se multiplicar o tamanho pela idade, porm no
seria significativo. Uma sugesto, ento, desenvolver uma rvore e criar um
indicador para cada folha. Para uma observao particular, o indicador igual a um
(1) quando a observao pertence a aquela folha e caso contrrio igual a zero (0).
A regresso conter metragem quadrada, idade, e vrios indicadores, um para cada
folha da rvore. Se a rvore cria uma folha com apenas as casas que fazem fronteira
com o campo de golfe, ento, ter-se- incluido os efeitos de interao direita. Os
indicadores para as outras folhas no iriam estragar o ajuste. Indicadores para ns
no-folha so desnecessrios porque seriam iguais a soma de indicadores de seus
descendentes.
3.2.1.4 Valores faltantes
comum trabalhar com dados nos quais boa parte das variveis
contm uma quantidade considervel de dados faltantes. rvores de deciso so
mais tolerantes falta de dados do que os modelos de regresso, por exemplo. Em
uma regresso, ao combinar vrias entradas, uma observao faltante em qualquer
varivel input deve ser descartada. Para o mais simples dos algoritmos de rvore, as
65
observaes que precisam ser excludas so aquelas em que no se tem a varivel
target.
Valores faltantes podem causar uma perda enorme de dados em
dimenses elevadas. Por exemplo, suponha que cada uma das variveis de
entrada tenha por cento de dados faltantes. Nesta situao, a proporo esperada
de dados disponveis (sem missing) definida por
. Se tem-se 1% de dados
ausentes para 100 variveis input, tem-se apenas 37% dos dados para
anlise. No caso de 200 variveis com , tem-se 13% dos dados
disponveis e se forem 400 variveis com um mesmo , tem-se apenas 2% de
informao. Se os dados faltantes aumentarem para 5% , tem-se menos
de 1% dos dados disponveis, com 100 variveis de entrada.
Trabalhando com uma regresso com dados faltantes pode-se substituir
primeiro os valores em falta, por palpites. Isso chamado de imputao, uma
abordagem natural a de ajustar um modelo com os valores no-missing para
prever os que faltam. rvores podem ser a melhor ferramenta de modelagem para
este fim, por causa de sua tolerncia falta de dados, a sua aceitao de diferentes
tipos de dados e sua robustez nas suposies sobre as distribuies das variveis
de entrada. Para cada entrada da regresso, construir uma rvore que use as outras
variveis de entrada para prever o dado faltante. Ou seja, se , e representam
as variveis de entradas (input), cria-se, ento, uma rvore para prever em funo
de e , outra rvore para prever em funo de e , e outra para prever dado
e .
3.2.1.5 Interpretao do modelo
rvores so, por vezes, usadas para ajudar a compreender os
resultados de outros modelos, um exemplo ocorre em pesquisa de mercado. Uma
empresa pode oferecer muitos produtos e diferentes clientes esto interessados em
produtos diferentes. Uma tarefa de pesquisa de mercado segregar os potenciais
clientes em segmentos homogneos e em seguida, atribuir campanhas de marketing
para esses segmentos. Normalmente, nenhuma informao est disponvel sobre a
resposta dos clientes e assim nenhuma varivel target existe.
66
Segmentao baseada em similaridades entre as variveis de
entrada. As pessoas diferem um pouco em suas opes de compra dependendo da
sua demografia: idade, situao familiar e onde vivem. Informaes demogrficas
so relativamente fceis de se obter, e os dados faltantes, muitas vezes, podem ser
imputados utilizando informaes do censo.
Aps os segmentos serem construdos, a idade mdia, renda e outras
estatsticas esto disponveis para cada um deles. No entanto, essas estatsticas
demogrficas no so muito sugestivas de quais produtos o segmento est
interessado. O prximo passo, ento, selecionar uma amostra de cada segmento e
perguntar s pessoas sobre seu estilo de vida e preferncias de produtos. Por fim,
combina-se as amostras de todos os segmentos em um nico conjunto de dados e
cria-se uma rvore usando a perguntas da pesquisa como variaveis de entrada e o
nmero do segmento como a varivel target. Usando apenas alguns segmentos com
um nmero igual de pessoas em cada um aumenta a chance de se obter uma rvore
til. A idia que a rvore caracterize alguns segmentos pelo tipo de roupas, carros,
ou hobbies que sugerem quais produtos cada segmento de pessoas gostaria de
comprar.
3.2.1.6 Modelagem preditiva
Como listado anteriormente, a rvore pode ajudar a superar alguns
obstculos na modelagem preditiva, em cada exemplo a rvore ajuda a preparar os
dados ou interpretar os resultados de um outro modelo preditivo. No entanto, muitos
autores compartilham a idia comum de que as rvores por si s so eficazes
modelos preditivos (MORGAN; SONQUIST, 1963; KASS, 1980; BREIMAN et
al.,1984; QUINLAN, 1979). Cada autor pode descrever estudos em que as rvores
foram usadas para predio.
rvores no substituem outras tcnicas de modelagem. Trata-se
apenas de mais uma tcnica disponvel para anlise, que pode ser usada para
vrios objetivos.
67
3.2.2 Como construir uma rvore de deciso
Para que uma rvore seja construda com sucesso necessrio que os
dados sejam divididos utilizando o mtodo do particionamento recursivo. Existem
diversas formas de diviso e de seleo de qual varivel ser usada em cada regra.
Disserta-se a seguir os pontos mais importantes para o estudo em questo. Utiliza-
se como premissa o fato da varivel target ser uma varivel binria e descreve-se os
mtodos possveis.
3.2.2.1 Como uma regra criada usando uma diviso binria
Na diviso binria, dois galhos so criados em cada n. Quando uma
varivel intervalar utilizada para particionar as observaes em dois grupos, um
valor especfico dessa varivel pode ser escolhido. Por exemplo, imagine a varivel
investimento (valor investido no ltimo ms), um possvel valor para a quebra
poderia ser R$4.000,00. As observaes com investimento menor que valor da
quebra (R$4.000,00) so armazernados no galho esquerdo e as observaes com
investimento maior ou igual ao valor da quebra sero armazenados no galho
direito. No caso de mltiplas divises, mais de dois galhos so criados a partir de um
n. Por exemplo, a varivel investimento poderia ser dividida como R$2.000,00 -
R$4.000,00, R$4.000,01 - R$6.000,00, R$6.000,01 - R$8.000,00, etc.
Com o propsito de dividir qualquer segmento ou sub-segmento do
conjunto de dados em um n, necessita-se calcular algum valor que mensure qual
seria a melhor diviso, dado todas as variveis de entrada, mais o possvel valor de
quebra de cada uma delas. A idia localizar o melhor valor de quebra dentro de
uma varivel e comparar esse valor com todos os outros valores de quebra das
outras variveis input. O mtodo de clculo desse valor que mensura qual o melhor
valor de quebra pode ser feito de diversas formas.
O processo de seleo da melhor separao consiste em duas etapas.
No primeiro passo, o melhor valor de separao para cada entrada determinado.
Na segunda etapa, a melhor varivel input dentre todas as variveis de entrada
selecionada por meio da comparao do valor da melhor diviso de cada varivel
com o valor da melhor diviso das outras variveis e seleciona-se a varivel input
68
cujo valor de separao produz o maior valor. Este processo pode ser ilustrado
pelo seguinte exemplo:
Suponha-se que existam 50 variveis explicativas em um determinado
estudo, representadas por
, em que um
valor de separao que est entre o mnimo e o mximo dos valores de
. Todas as
observaes que tiverem
e tambm para
at
definirem-se os melhores valores de diviso como sendo
. Tendo
encontrado o melhor valor de separao para cada varivel de entrada, o algoritmo
compara esses valores para encontrar a varivel de entrada cujo melhor valor de
separao oferece a melhor repartio dentre todas as variveis testadas. Suponha
que
e suponha que
escolhida como a melhor varivel para realizar a diviso do n. Por conseguinte, o
n particionado usando a varivel
so
enviados para o n filho direito. Este processo repetido para cada n. Variveis
diferentes podem ser selecionadas em ns diferentes.
3.2.2.2 Mensurar a importncia de uma diviso quando a varivel resposta
binria
O valor que representa a importncia da separao pode ser
mensurado de diversas formas e terminado pelo analista responsvel. Quando a
varivel resposta binria ou categrica com mais de 2 nveis, existem duas
maneiras de mensurar a importncia da diviso: pelo grau de separao alcanado
na diviso, ou pela reduo da impureza atingida na separao. Normalmente o
grau de separao medido pelo valor-p do teste Qui-Quadrado de Pearson e a
reduo de impurezas medido pela reduo da entropia ou pela reduo do ndice
69
de Gini. J quando a varivel resposta contnua, essa importncia pode ser
mensurada pelo teste F, que testa cada grau de separao para os ns filhos.
3.2.2.2.1 Grau de separao
Todas as separaes bidirecionais dividem um n pai em dois ns
filhos. Logworth uma medida de como esses ns filhos diferem um do outro.
Quanto maior for a diferena entre os dois ns filhos e quanto maior o grau de
separao alcanado pela diviso, melhor a diviso considerada.
Imagine uma situao em que a varivel resposta seja uma varivel
binria, sendo 1 o indivduo respondente e 0 o no-respondente e a varivel
investimento seja uma varivel explicativa. Cada linha do conjunto de dados
representa uma observao (ou indivduo). A Tabela 1, a baixo, mostra uma vista
parcial do conjunto de dados, que esto expostos ordenados pela varivel
investimentos.
Tabela 1 - Demonstrao de uma base de dados com varivel resposta binria
Indivduos (Obervaes) Resposta Invenstimento (R$)
1 0 2000
2 0 3000
... ... ...
278 1 10000
... ... ...
10.000 1 200000
Os dados mostrados na Tabela 1 podem ser divididos em diferentes
valores da varivel investimento. Em cada valor de separao, uma tabela de
contingncia 2x2 pode ser construda, como mostrado na Tabela 2 (exemplo de uma
diviso). As colunas representam os dois ns filhos que resultaro da divis, e as
linhas representam o comportamento da varivel resposta.
Tabela 2 - Tabela de Contigncia quando a diviso realizada em R$2.000 da varivel
investimento
Total
Respondente (1)
No-Respondente (0)
Total
70
Para avaliar o grau de separao alcanado por uma diviso,
necessrio calcular o valor da estatstica qui-quadrado
Sob a hiptese nula, o valor esperado de cada casela exposto na
Tabela 3.
Tabela 3 - Tabela de Contigncia quando a diviso realizada R$2.000 da varivel
investimento, sob a hiptese nula
A estatstica qui-quadrado calculada da seguinte forma:
O valor-p de
| . O logworth simplesmente
calculado como
. Se
existem valores distintos para a varivel investimento no conjunto de dados,
tabelas de contingncia sero criadas, e o logworth calculado para cada uma. O
valor calculado para o logworth de cada tabela de contingncia so
No-Respondente (0)
71
Suponha que o melhor valor de diviso de investimento de ,
com o logworth de . Agora considere a prxima varivel, Idade. Se h valores
distintos de idade nos dados, divises sero consideradas. Considerando a
melhor diviso de Idade como , com o logworth de . Se a idade e o
investimento so as nicas variveis explicativas no conjunto de dados, ento a
varivel investimento selecionada para dividir o n porque tem o maior valor
logworth. Assim, o conjunto de dados ser dividido em de investimento.
Essa diviso pode ser chamada de a melhor das melhores possveis divises.
Se houver 200 variveis explicativas no conjunto de dados, o processo
de encontrar a melhor diviso ser realizada 199 vezes (uma para cada varivel de
entrada) e repetido isso para cada n dividido. Cada varivel de entrada deve ser
examinada e a melhor diviso encontrada aquela com o maior logworth. Esta ser
escolhida como a melhor das melhores divises.
3.2.2.2.2 Reduo da impureza como medida para mensurar a importncia de
uma quebra
Impureza de um n o grau de heterogeneidade no que diz respeito
composio dos nveis da varivel resposta. Se n dividido em ns filhos e , e
se
, em que
. Os registros que tm
. Os valores candidatos so
. O
algoritmo compara a reduo de impurezas sobre estes divisores e seleciona o
que atingiu maior reduo como o valor para a melhor diviso.
72
3.2.2.2.2.1 ndice de impureza GINI
Se
a proporo de respondentes em um n, e
a proporo de
no-respondentes, o ndice de impureza Gini para aquele n definido como
, e a
probabilidade de que eles sejam ou ambos respondentes ou ambos no-
respondentes
. Assim,
73
Considere um outro n em que a probabilidade de respondentes seja
igual a probabilidade de no-respondentes (). A entropia deste n ser:
O n que predominantemente de no-respondentes (com uma
proporo de ) tem um valor de entropia de . Um n com distribuio
igual de respondentes e no-respondentes tem entropia igual a . Um n que possui
todos os respondentes ou todos os no-respondentes tem entropia a zero. Assim, a
entropia varia entre e , em que indica a pureza mxima e a impureza mxima.
3.2.2.3 Mensurar a importncia de uma diviso quando a varivel resposta
categrica
Se a varivel resposta categrica com mais de duas categorias
(nveis), os procedimentos so os mesmos. As estatsticas de qui-quadrado sero
calculadas a partir de tabelas de contingncia , em que o nmero de ns
filhos a serem criados com base em uma certa entrada e o nmero de nveis da
varivel target (categorias). Os valores-p so calculados a partir da distribuio de
qui-quadrado com grau de liberdade igual a . O ndice de Gini e de
Entropia tambm podem ser aplicados neste caso, eles esto simplesmente
prorrogados por mais de dois nveis da varivel alvo.
3.2.2.4 Ajustes para o valor-p quando as variveis explicativas tm diferentes
nveis
Quando se compara as divises de diferentes variveis de entrada, os
valores-p devem ser ajustados para levar em conta o fato de que nem todas as
variveis de entrada tm o mesmo nmero de nveis. Em geral, algumas entradas
so binrias, algumas so ordinais, algumas so nominais e outras so intervalares.
Por exemplo, uma varivel como compra ou no compra sorvete,
chamada de compra. Para esta varivel (compra), apenas uma diviso avaliada,
74
apenas uma tabela de contingncia considerada, e apenas um teste realizado.
Uma varivel explicativa como Idade pode assumir qualquer valor inteiro maior que
0. Suponha que existam possveis valores de Idade no conjunto de dados,
tabelas de contingncia sero construdas e portanto, testes qui-quadrado so
calculados. Em outras palavras, sessenta e seis testes so realizados sobre esta
entrada para selecionar a melhor separao.
Suponha que a diviso da varivel Idade tenha um
Esta taxa de erro do experimento muito maior do que a taxa de erro
individual de
) em cada teste de
, em seguida, a taxa de erro do experimento
. Isto
significa que quando voc tem mltiplas comparaes
subtrado do logworth da melhor separao. Em geral, se uma entrada tem m
75
possveis divises, ento
, em que a profundidade,
ou seja, o nmero de ramos, a partir do n raiz at o n atual.
O valor-p calculado ajustado por meio da multiplicao pelo
multiplicador de profundidade. Isto significa que a uma profundidade de 4, se o valor-
p calculado , o valor-p ajustado profundidade ser . Sem o
ajuste de profundidade, a separao teria sido considerada estatisticamente
significativa. Mas aps o ajuste, a separao no estatisticamente significativa.
O ajuste de profundidade tambm pode ser interpretado como diviso
do limiar do valor-p pelo multiplicador de profundidade. Se o limiar do valor-p
especificado pelo nvel de significncia , ento o valor ajustado ser
. Qualquer diviso com valor-p acima de ser rejeitada. Em
geral, se o nvel de significncia especificado, ento qualquer separao, que
tem um valor-p acima de um rejeitada.
O efeito do ajuste de profundidade o de aumentar o valor do limiar do
logworth por
Deciso (1)
Investimento
< R$15.000 >= R$15.000
N 2
Respondente (1): 2908
No respondente (0): 3278
Total: 6186
Deciso (0)
N 3
Respondente (1): 3657
No respondente (0): 466
Total: 4123
Deciso (1)
N 7 (Folha 4)
Respondente (1): 3542
No respondente (0): 160
Total: 3702
Deciso (1)
N 6 (Folha 3)
Respondente (1): 115
No respondente (0): 306
Total: 421
Deciso (0)
N 5 (Folha 2)
Respondente (1): 856
No respondente (0): 2389
Total: 3245
Deciso (0)
N 4 (Folha 1)
Respondente (1): 2052
No respondente (0): 889
Total: 2941
Deciso (1)
Sexo
Fem Masc
Idade
< 35 >= 35
81
Figura 7 - Exemplo de rvore de deciso construda a partir dos dados de validao
N 1 (n raiz)
Respondente (1): 933
No respondente (0): 8004
Total: 8937
Deciso (1)
Investimento
< R$15.000 >= R$15.000
N 2
Respondente (1): 337
No respondente (0): 3523
Total: 3860
Deciso (0)
N 3
Respondente (1): 596
No respondente (0): 4481
Total: 5077
Deciso (1)
N 7 (Folha 4)
Respondente (1): 301
No respondente (0): 2068
Total: 2369
Deciso (1)
N 6 (Folha 3)
Respondente (1): 295
No respondente (0): 2413
Total: 421
Deciso (0)
N 5 (Folha 2)
Respondente (1): 218
No respondente (0): 1850
Total: 2068
Deciso (0)
N 4 (Folha 1)
Respondente (1): 119
No respondente (0): 1673
Total: 1792
Deciso (1)
Sexo
Fem Masc
Idade
< 35 >= 35
82
A poda ser realizada a partir dos dados de validao. Primeiro, as
regras criadas sero utilizadas para dividir os dados de validao em diferentes ns.
Uma vez que cada n j tem atribudo um nvel de destino com base nas
probabilidades posteriores, pode-se calcular a taxa de erro de cada n da rvore
utilizando o conjunto de dados de validao. A Figura 7 mostra a aplicao da rvore
para o conjunto de dados de validao.
Depois de aplicar as regras na base de dados de validao, tem-se uma
rvore como a da Figura 3. Comparando a rvore a partir dos dados de validao
(Figura 7) com a rvore a partir dos dados de treinamento (Figura 6), observa-se que
as decises em cada n so exatamente as mesmas em ambos os diagramas. Isso
ocorre porque as decises so baseadas nas probabilidades posteriores geradas
durante a criao da rvore, com a base de treinamento. Essas regras e decises
tornam parte do modelo e no mudam quando aplicados a um novo conjunto de
dados.
A rvore na Figura 7 a rvore mxima neste exemplo, com quatro ns
folha. No entanto, dentro desta rvore existem vrias sub-rvores de diferentes
tamanhos. Existem duas sub-rvores com 3 ns folha, uma sub-rvore com 2 ns
folhas e uma sub-rvore com apenas 1 n folha (o n raiz).
Podando-se os ns 6 e 7, obtm-se a sub-rvore com os ns folhas 3, 4
e 5 (sub_rvore_3_4_5). Podando-se os ns 4 e 5, obtm-se a sub-rvore com os
ns folhas 2, 6 e 7 (sub_rvore_2_6_7). Podando-se os ns 4, 5, 6 e 7, tem-se a
sub-rvore com 2 folhas (sub_rvore_2_3) e podando-se os ns 2 e 3, tem-se a sub-
rvore com apenas 1 n folha (sub_rvore_1).
Para cada uma das sub-rvore mais a rvore mxima, deve-se calcular
a taxa de erro (misclassification) e escolher como melhor modelo, a rvore com
menor taxa. O clculo desta taxa pode ser entendido como uma matriz:
Target Deciso (1) Deciso (0)
1 1 0
0 0 1
Nesta matriz, se um respondente est classificado corretamente, ento
uma unidade de preciso atingida. Se um no-respondente est corretamente
83
classificado como no-resposta, em seguida, uma unidade de preciso
adquirida. Caso contrrio, no h ganho.
Como dito anteriormente, os ns so classificados como respondentes
ou no-respondentes com base nas probabilidades posteriores calculadas a partir do
conjunto de dados de treinamento. Na rvore criada (Figura 7) a proporo de
respondentes 10,4% e a proporo de no-respondentes de 89,6%, no n
raiz. Assim, se o n raiz classificado como um n respondente, a probabilidade
predita ser 0,104. O erro para esse n ser de 89,6%.
Para a sub-rvore com 3 ns, com os ns folha 4, 5 e 3, a taxa de erro
0,71, ou seja, (1673+218+4481)/8937, em que 1673 a quantidade de registros
que foram classificados como 1 (deciso do n 4), quando na verdade eram 0. O
valor 218 referente aos registros classificados incorretamente como 0, quando
eram na verdade 1 (n 5) e 4481 so os registros que foram classificados como 1,
quando na verdade eram para ser 0 (n 3).
Deve-se calcular a taxa de erro para cada sub-rvore listada acima. A
Tabela abaixo mostra a taxa de erro para cada sub-rvore:
Sub-rvore Taxa de erro
sub_rvore_4_5_6_7 0.475999
sub_rvore_2_6_7 0.302115
sub_rvore_3_4_5 0.712991
sub_rvore_2_3 0.539107
sub_rvore_1 0.895603
Como se observa a sub-rvore com 3 folhas, contendo os ns 2, 6 e 7,
a melhor escolha, baseado na minimizao da taxa de erro.
3.2.5 Algoritmos Conhecidos
A lista, a seguir, contm os algoritmos mais conhecidos e descreve
como eles trabalham. Cada algoritmo foi desenvolvido por uma pessoa ou grupo de
pessoas inspiradas em criar algo melhor do que o que j existe. O ltimo tpico so
os algoritmos SAS. O software SAS permite que o usurio misture algumas das
melhores idias dos algoritmos mais conhecidos.
84
3.2.5.1 ID3
Este algoritmo, apresentado por J. R. Quinlan (QUINLAN, 1986),
constitui uma das referncias base dos algoritmos atuais de induo de rvores de
deciso. Desenvolvido com vista ao tratamento de problemas contendo apenas
caractersticas discretas, a sua estrutura bsica iterativa. Adotando o critrio de
maximizao da informao para a escolha da caracterstica que sero testadas em
cada n, a sua estrutura muito simples no que se refere ao tratamento de
problemas. Cada caracterstica permite a diviso do conjunto de treino num nmero
de subconjuntos igual sua cardinalidade (nmero de diferentes valores possveis).
O algoritmo ID3 (Inductive Decision Tree) segue os seguintes passos
para construo de uma rvore de deciso:
1. Comear com todos os exemplos de treino;
2. Escolher o teste (atributo) que melhor divide os exemplos, ou seja agrupar
exemplos da mesma classe ou exemplos semelhantes;
3. Para o atributo escolhido, criar um n filho para cada valor possvel do
atributo;
4. Transportar os exemplos para cada filho tendo em conta o valor do filho;
5. Repetir o procedimento para cada filho no "puro". Um filho puro quando
cada atributo X tem o mesmo valor em todos os exemplos.
O algoritmo ID3 foi um dos primeiros algoritmos de rvore de deciso,
tendo sua elaborao baseada em sistemas de inferncia e em conceitos de
sistemas de aprendizagem. Logo aps foram elaborados diversos algoritmos, sendo
os mais conhecidos: C4.5, CART (Classification and Regression Trees), CHAID (Chi
Square Automatic Interaction Detection), entre outros.
3.2.5.2 C4.5
Apresentado no mais recente trabalho de Ross Quinlan (QUINLAN,
1993), este algoritmo visa a gerao de rvores de deciso e de regras de
classificao permitindo o tratamento de atributos discretos e/ou contnuos. Sendo
possvel a aquisio, juntamente com o livro citado, de um pacote de software sob a
85
forma de fontes que permite o teste e a avaliao de resultados. Embora o software
tenha sido desenvolvido para a instalao em sistemas UNIX, foi adaptado para o
ambiente MS-Windows utilizando o compilador Borland C++ 3.1 de forma a possuir
uma plataforma nica de execuo dos vrios algoritmos. Apesar desta adaptao,
dado que a estimao de erro por validao cruzada efetuada nesta verso do
C4.5 (release 5), custa de um ficheiro de comandos do sistema UNIX, a maioria
das experincias utilizando esta tcnica foram efetuadas neste sistema executando
a verso original deste programa.
3.2.5.3 CART
O algoritmo CART - Classification And Regression Trees - foi
apresentado por quatro estatsticos chamados Leo Breiman, Jerome Friedman,
Richard Oslen e Charles Stone em uma de suas publicaes (BREIMAN, 1984). Por
ser um algoritmo no-paramtrico, uma das suas caractersticas principais a
grande capacidade de pesquisa de relaes entre os dados, mesmo quando elas
no so evidentes, bem como a produo de resultados sob a forma de rvores de
deciso de grande simplicidade e legibilidade.
Tal como o seu nome indica, esta uma metodologia que prev o
tratamento de variveis dependentes discretas (classificao) ou contnuas
(regresso) usando uma mesma tecnologia. O resultado deste algoritmo sempre
uma rvore binria que pode ser percorrida da sua raiz at s folhas respondendo
apenas a questes simples do tipo sim/no. A anlise efetuada de forma
completamente automtica requerendo uma interveno humana mnima. Segundo
os autores, esta tcnica permite a obteno de resultados, em geral, superiores aos
obtidos pelas tcnicas estatsticas clssicas, sendo superado apenas num restrito
nmero de casos e apenas por algoritmos de complexidade muito superior. No
entanto, quando superado, a diferena nos resultados mnima.
Este algoritmo um exemplo de um algoritmo de partio binria
recursiva. O processo binrio pois os ns efetuam uma partio em dois
subconjuntos e recursivo pois aplicado recursivamente a cada um dos
86
subconjuntos assim gerados, at que no seja possvel ou no seja necessrio
efetuar mais nenhuma partio.
3.2.5.4 CHAID
CHAID uma das tcnicas para construo de uma rvore de deciso,
baseada no teste de significncia ajustado (teste de Bonferroni). A tcnica foi
desenvolvida na frica do Sul e foi publicada em 1980 por Gordon V. Kass (KASS,
1980), que tinha completado sua tese de doutorado sobre este tema. CHAID pode
ser usado para a predio (de uma maneira semelhante anlise de regresso),
bem como, classificao e para a deteco de interao entre as variveis.
CHi-squared Automatic Interaction Detection, CHAID, um mtodo
exploratrio para estudar as relaes entre uma varivel resposta e um conjunto de
variveis explicativas que podem interagir entre si. O mtodo CHAID permite obter
rvores de deciso com mltiplas categorias, ou seja, divises com mais de duas
opes. Para selecionar as variveis explicativas relevantes para a explicao da
varivel resposta, o mtodo em questo utiliza o teste do qui-quadrado quando trata-
se de uma varivel nominal como resposta, utiliza a razo de verossimilhana
quando o varivel resposta ordinal e utiliza o teste F da ANOVA quando a varivel
resposta quantitativa.
Este mtodo frequentemente utilizado como uma tcnica exploratria
e uma alternativa regresso linear mltipla e regresso logstica, especialmente
quando o conjunto de dados no bem adequado anlise de regresso.
3.2.5.5 Algortmos SAS
Algoritmos SAS incorporam e estendem a maioria das boas idias
discutidas para o particionamento recursivo. Tanto a varivel target como as
variveis input podem ser nominais, ordinais ou intervalares. O usurio especifica o
nmero mximo de galhos de uma diviso, permitindo assim a obteno de rvores
binrias, rvores espessas ou qualquer que se queira. As quebras podem ser
avaliadas como uma reduo na impureza (Mnimos Quadrados, ndice de Gini ou
Entropia), ou como um teste de significncia (Qui-Quadrado ou Teste F). Testes de
significncia permitem ajustes de Bonferroni, como foi feito no CHAID. Valores
87
faltantes podem, opcionalmente, ser tratado como um valor especial, como no
CHAID. Regras surrogate, se adequado, atribuiem os casos com valores faltantes a
um ramo, como nos algoritmos de Breiman et al. (1984).
H muitas opes de controle sobre a poda da rvore. Como no CHAID,
um limite para o nvel de significncia pode parar o crescimento das rvores. O
usurio tem opes na especificao de uma medida de avaliao. Por exemplo,
incluir custos da m classificao.
Os algoritmos de rvore de deciso esto includos no SAS Enterprise
Miner, que fornece um ambiente de programao visual para modelagem preditiva.
Probabilidades a priori, os custos de m classificao, por exemplo, se aplicam a
todas as ferramentas de modelagem. A rvore pode incorporar probabilidades antes
para o critrio de diviso ou apenas us-los para ajustar as probabilidades
posteriores. A rvore pode criar uma varivel indicadora para cada folha. Estas
variveis automaticamente entram em outros modelos, tais como modelos de
regresso, colocando o n de interesse aps o n da rvore.
3.3 Rede Neural
Redes Neurais Artificiais (RNA), tambm conhecida como conexionismo
ou sistema de processamento paralelo e distribudo tiveram seu ressurgimento no
final da dcada de 1980, alguns anos aps sua primeira apario em 1943. Essa
forma de computao no-algortmica caracterizada por sistemas que, em algum
nvel, relembram a estrutura do crebro humano. Por no ser baseada em regras, a
computao neural se constitui em uma alternativa computao algortmica
convencional. Grande parte da investigao em RNA foi inspirada e influenciada
pelo sistema nervoso do ser humano. A RNA vista como a aproximao mais
promissora para a construo de verdadeiros sistemas inteligentes.
RNA so sistemas paralelos distribudos compostos por unidades de
processamento simples (neurnios artificiais) que calcula determinadas funes
matemticas (normalmente no-lineares). Tais unidades so dispostas em uma ou
mais camadas e interligadas por um grande nmero de conexes, geralmente
unidirecionais. Na maioria dos modelos essas conexes esto associadas a pesos,
88
os quais armazenam o conhecimento adquirido pelo modelo e servem para ponderar
a entrada recebida por cada neurnio da rede.
Em RNAs o procedimento usual na soluo de problema passa
inicialmente por uma fase de aprendizagem, em que um conjunto de exemplos
apresentado para a rede, que extrai as caractersticas necessrias para representar
a informao fornecida. Essas caractersticas so utilizadas posteriromente para
gerar respostas para o problema.
Sem dvida, o fato mais atrativo em uma RNA a capacidade de
aprender por meio de exemplos e de generalizar a informao aprendida com o
objetivo de encontrar a resposta adequada. Atualmente, os modelos neurais tem tido
inmeras aplicaes nas mais diversas reas, desde as telecomunicaes ao
mercado imobilirio, das despesas militares ao turismo (SHACHMUROVE, 2002;
LAW; PINE, 2004), das relaes internacionais (BECK; KING; ZENG, 2000) s
questes de poltica interna (EISINGA; FRANSES; DIJK, 1998). Na rea financeira,
vrios problemas tem sido abordados recorrendo s redes neurais, como a anlise
de risco de crdito (NEVES; VIEIRA, 2004), a modelagem da inflao (MCNELIS,
2005) e taxas de cmbio (ZHANG et al., 2002), o clculo do rating, a previso da
volatilidade das opes (MCNELIS, 2005) e a previso da rentabilidade de aes
(THAWORNWONG; ENKE, 2004).
3.3.1 O crebro humano
O crebro humano responsvel por funes cognitivas bsicas, assim
como pela execuo de funes sensoriomotoras autnomas. Alm disso, sua rede
de neurnios tem a capacidade de reconhecer padres e relacion-los, usar e
armazenar conhecimenos por experincia, alm de interpretar observaes.
Apesar dos grandes avanos cientficos, o conhecimento do modo
como o crebro humano funciona est longe de estar completo. No entanto, o
comportamento individual dos neurnios biolgicos bem entendido do ponto de
vista funcional e exatamente nesse comportamento conhecido que se baseiam as
RNAs.
89
3.3.2 Os Neurnios
O crebro humano contm em torno de
(que
representam as ativaes dos neurnios anteriores) e apenas um terminal de sada
(representando o axnio). Para representar o comportamento das sinapses, os
terminais de entrada dos neurnios tem pesos acoplados
cujos valores
podem ser positivos ou negativos, dependendo das sinapses correspondentes
serem inibitrias ou excitatrias. O efeito de uma sinapse particular no neurnio
ps-sinptico definido por
recebidos
pelo neurnio (soma ponderada). O valor resultante comparado com um
determinado valor limiar (threshold) pelas funes de ativao do neurnio. Se a
soma obtida excede ao valor limiar, o neurnio ser ativado e enviar um output
pelos seus pesos de envio para todos os neurnios a ele conectados e assim
sucessivamente, caso contrrio o neurnio ser inibido.
Figura 10 - Neurnio de McCulloch e Pitts, no qual representa a soma ponderada das
entradas e a funo de ativao
No modelo MCP, a ativao do neurnio obtida por meio da aplicao
de uma funo de ativao, que ativa ou no a sada, dependendo do valor da
soma ponderada de suas entradas.
3.3.5 Funes de Ativao
A funo de ativao responsvel por gerar a sada do neurnio a
partir dos valores dos vetores de peso
e de entrada
93
e do tipo degrau deslocada do limiar de ativao em relao origem, ou seja, a
sada ser 1 para
e 0 para
.
Existem diversas funes de ativao, entre elas a funo degrau
(Figura 11), exemplificada para . Uma aproximao contnua da funo degrau
conhecida como funo de ativao sigmoidal (Figura 12) definida por:
Figura 11 - Funo de ativao degrau
Figura 12 - Funo de ativao sigmoidal
Essa funo, alm de ser diferencivel, possui uma regio semi linear
que pode ser impotante na aproximao de funes contnuas. Dependendo do tipo
de problema a ser abordado, neurnios com funo de ativao linear (Figura 13)
podem ser utilizados como:
94
Figura 13 - Funo de ativao linear
J as RNAs do tipo Radial Basis Functions (RBF) utilizam neurnios
com funes de ativao radiais, como a gaussiana (Figura 14) definida por:
em que o centro (ponto mdio) e o raio de abertura da funo.
Figura 14 - Funo de ativao gaussiana
3.3.6 Principais arquiteturas de RNAs
As redes neurais artificiais diferenciam-s pela sua arquitetura e pela
forma como os pesos associados s conexes so ajustados durante o processo de
aprendizagem. A arquitetura de uma rede neural restringe o tipo de problema no
qual a rede poder ser utilizada, e definida pelo nmero de camadas (camada
95
nica ou mltiplas camadas), pelo nmero de ns em cada camada, pelo tipo de
conexes entre os ns e pela sua topologia (HAYKIN, 1999).
Independentemente da funo de ativao escolhida, neurnios
individuais possuem capacidade computacional limitada. No entanto, um conjunto de
neurnios artificiais conectados na forma de uma rede neural capaz de resolver
problemas de complexidade elevada. As figuras a seguir mostram algumas
configuraes possveis de neurnios artificiais conectados na forma de redes
neurais artificiais.
Figura 15 - Rede feedforward de uma nica camada
A estrutura mais simples apresentada nas Figuras 15 e 16 que
correspondem a redes neurais alimentadas para frente (feedforward). Uma RNA
feedforward pode ser organizada por camadas, porque no existem ciclos, dado que
as conexes so sempre unidirecionais (convergentes ou divergentes) no existindo
realimentao. Na sua forma mais simples (Figura 15), uma rede composta por
uma camada de entrada, cujos valores de sada so fixados externamente e por
uma camada de sada.
96
Figura 16 - Rede feedforward de duas camadas
importante ressaltar, que a camada de entrada no contabilizada
como camada num RNA, dado o fato de nesta no se efetuarem qualquer forma de
clculo. A segunda classe de redes feedforward distingue-se pelo fato de possuir
uma ou mais camadas intermedirias, cujos ns so designados por ns
intermedirios tendo como funo, intervir de forma til entre a entrada e a sada da
rede (Figura 16). Ao se acrescentar camadas intermedirias, aumenta-se a
capacidade da rede em modelar funes de maior complexidade, uma
particularidade bastante til, quando o nmero de ns na camada de entrada
elevado. Por outro lado, este aumento nas camadas intermedirias pode vir a
atrapalhar no tempo de aprendizagem, visto que este tempo aumenta de forma
exponencial.
97
Figura 17 - Rede com recorrncia entre sadas e camada intermediria
As RNAs apresentadas nas Figuras 15 e 16 so consideradas estticas,
j que no possuem recorrncia em sua estrutura: as suas sadas em um
determinado instante dependem apenas das entradas atuais. J as estruturas das
Figuras 17 e 18 possuem conexes recorrentes entre neurnios de um mesmo nvel
ou entre neurnios de sada e de camadas anteriores. Na Figura 17, a sada
depende no somente das entradas, mas tambm do seu valor atual. Essa estrutura
de RNA utilizada na resoluo de problemas que envolvam processamento
temporal, como em previso de eventos futuros. J a estrutura da Figura 18 possui
um nico nvel de neurnios, em que a sada de cada um deles est conectada s
entradas de todos os outros. A rede no possui entradas externas e sua operao
se d em funo da dinmica de mudana de estados dos neurnios, que operam
de forma auto-associativa.
98
Figura 18 - Rede com recorrncia auto-associativa
3.3.7 Aprendizado
Como j mencionado, uma das propriedades mais importantes de uma
rede neural artificial a capacidade de aprender a partir da interao com o meio
ambiente e fazer inferncias do que aprenderam.
A utilizao de redes neurais, independente do problema, passa
primeiramente pela fase de aprendizagem que ocorre quando a rede neural
consegue extrair padres de informao no subconjunto de treino, criando assim
uma representao prpria. Segundo Braga, Carvalho e Ludemir (2000), a etapa de
aprendizagem consiste num processo interativo de ajuste dos parmentros da rede,
os pesos das conexes entre as unidades de processamento, que guardam, ao final
do processo, o conhecimento que a rede adquiriu do ambiente em que se encontra a
operar.
Para Haykin (1999), a aprendizagem um processo pela qual os
parmetros de uma rede neural so ajustados por meio de um processo de estmulo
do meio ambiente no qual a rede est inserida, sendo o tipo de aprendizagem
determinado pela maneira como ocorrem os ajustamentos nos parmetros. Sendo
assim, o objetivo do treino/aprendizagem consiste em atribuir valores apropriados
aos pesos sinpticos de modo a produzir o conjunto de sadas desejadas ou ao
menos consistentes com um intervalo de erro estabelecido. Desta forma, o processo
99
de aprendizagem consiste na busca de um espao de pesos pela aplicao de
alguma regra que defina esta aprendizagem.
importante ressaltar que o conceito de aprendizado est relacionado
com a melhoria do desempenho da rede segundo algum critrio pr-estabelecido. O
erro quadrtico mdio da resposta de rede em relao ao conjunto de dados
fornecido pelo ambiente, por exemplo, utilizado como critrio de desempenho dos
algoritmos de correo dos erros. Assim, quando estes algoritmos so utilizados no
treinamento de RNAs, espera-se que o erro diminua medida que o aprendizado
prossiga.
De uma forma genrica, o valor do vetor de pesos no instante
pode ser escrito como:
em que e representam os valores dos pesos nos instantes e ,
respectivamente, e o ajuste aplicado aos pesos.
Os algoritmos de aprendizado diferem, basicamente, na forma como
calculado. H vrios algoritmos diferentes para treinamento de redes
neurais, podendo os mesmos ser agrupados em dois paradigmas principais:
aprendizado supervisionado e aprendizado no-supervisionado.
3.3.7.1 Aprendizado supervisionado
Aprendizado supervisionado implica a existncia de um supervisor, ou
professor externo, o qual responsvel por estimular as entradas da rede por meio
de padres de entrada e observar a sada calculada pela mesma, comparando-a
com a sada desejada. Como a resposta da rede funo dos valores atuais do
conjunto de pesos, estes so ajustados de forma a aproximar a sada da rede da
sada desejada. A Figura 19 ilustra uma representao esquemtica do aprendizado
supervisionado. Para cada padro de entrada, a rede tem sua sada corrente
comparada com a sada desejada pelo supervisor, que fornece informaes sobre a
direo de ajustes dos pesos.
100
Figura 19 - Aprendizado supervisionado
Este professor pode ser um humano, que especifica a classe correta
para cada padro de entrada, ou um sistema fsico cujo comportamento se pretende
modelar. A cada interao efetuada a rede neural compara a resposta desejada com
o valor de sada da rede, originando um erro. O erro resultante utilizado para
ajustar os pesos da rede. A soma dos erros quadrticos de todas as sadas
normalmente utilizada como medida de desempenho da rede. Uma das vantagens
da aprendizagem supervisionada a de que o seu modelo bem definido,
apontando-se como principais crticas e artificialismo, a limitao do modelo de
aprendizagem e a necessidade de professor (REED; MARKS ll, 1999).
O aprendizado supervisionado pode ser implementado basicamente de
duas formas: off-line ou on-line. Para treinamento off-line, os dados do conjunto de
treinamento no mudam, e uma vez obtida uma soluo para a rede, esta deve
permanecer fixa. Caso novos dados sejam adicionados, um novo treinamento,
envolvendo tambm os dados anteriores, deve ser realizado para se evitar
interferncia no treinamento anterior. Por sua vez, no aprendizado on-line o conjunto
de dados muda continuamente e a rede deve estar em um contnuo processo de
adaptao.
3.3.7.2 Correo de erros
O caso mais comum de aprendizado supervisionado o aprendizado
por correo de erros, em que se procura minimizar o erro da resposta atual da rede
em relao sada desejada. A expresso genrica para o erro no instante de
tempo t pode ser escrita como:
Sada
Professor
Entrada
RNA
+
-
101
em que
em que
a entrada do neurnio.
A obteno das equaes de ajuste envolve a minimizao da soma
dos erros quadrticos das sadas, como:
em que p o nmero de exemplos de treinamento,
.
Portanto o conjunto de dados formado pelos pares de entradas e
sadas (
obtido. A
superfcie formada por todos os valores de
, em que
.
Consequentemente, a condio crtica de disparo do neurnio
ou
com o valor s
entradas do neurnio e conect-lo a uma entrada com valor fixo
. A nova
condio crtica de disparo para os vetores aumentados passa ento a ser ,
em que
.
Considere agora o par de treinamento
para um neurnio
arbitrrio da rede em que o seu vetor de entrada e
(sada desejada)
(sada atual)
(erro)
0 0 0
1 0 1
0 1 -1
1 1 0
Para duas situaes possveis (
e ou
e ),
chegou-se mesma expresso para a regra de atualizao dos pesos, que pode
ento ser escrita como a equao geral para a atualizao dos pesos de um
neurnio de um perceptron simples: , em que a
constante uma medida de rapidez com que o vetor de pesos ser atualizado,
sendo comumente chamada de taxa de aprendizado. De acordo com o Teorema da
Convergncia (ROSENBLATT, 1958), a atualizao dos pesos leva sempre a uma
soluo caso as classes em questo sejam linearmente separveis.
3.3.8.2 Implementao do algortmo de aprendizado do Perceptron
O algoritmo de aprendizado do perceptron sempre chega, em um tempo
finito, a uma soluo para o problema de separao de duas classes linearmente
separveis (ROSENBLATT, 1958). De maneira geral, o algoritmo de aprendizado de
um perceptron pode ser descrito como:
1. Inicialize ;
2. Inicialize o vetor de pesos com valores aleatrios;
3. Aplique a regra de atualizao dos pesos para
todos os pares (
) do conjunto de treinamento {(
)}
;
4. Repita o passo anterior at que para todos os elementos de .
106
3.3.8.3 Consideraes sobre o aprendizado do Perceptron
Sabe-se que independentemente do valor de , haver convergncia
em um tempo finito, caso as classe sejam linearmente separveis; no entanto, esse
tempo pode ser proibitivo em situaes reais. Um valor muito pequeno de pode
levar a um tempo de convergncia muito alto, equanto um valor muito alto pode levar
a instabilidade no treinamento. O melhor ajuste para o valor de depender do
problema, no havendo uma recomendao geral para todos os casos.
Uma outra considerao com relao aos valores iniciais atribudos
aos elementos do vetor de pesos. Uma regra geral inici-los com valores
amostrados em uma ditribuio uniforme definida no intervalo , em que
um valor positivo prximo de zero, como 0,5, por exemplo. A recomendao de se
iniciar os pesos com valores pequenos, prximos a zero, faz-se necessria para
evitar saturao forte do neurnio MCP, o que resultaria em dificuldades para
convergncia do algoritmo. Valores iniciais grandes para os pesos resultariam em
um valor igualmente grande para a soma ponderada das entradas, o que levaria a
uma resposta da funo de ativao muito distante do limiar, resultando na
necessidade de muitos passos de treinamento para alterar o estado de sada do
neurnio.
3.3.9 Redes Perceptron de Mltiplas Camadas (MLP)
As redes de uma nica camada tm a limitao de resolver apenas
problemas com caractersticas lineares. Sabe-se, no entanto, que as no-
linearidades so inerentes maioria as situaes e problemas reais, sendo
necessrias, portanto, a utilizao de estruturas com caractersticas no-lineares
para a resoluo de problemas de maior complexidade.
As no-linearidades so incorporadas a modelos neurais por meio das
funes de ativao (no-lineares) de cada neurnio da rede e da composio da
sua estrutura em camadas sucessivas. Assim, a reposta da camada mais externa da
rede corresponde composio das respostas dos neurnios das camadas
anteriores. rede neural de mltiplas camadas compostas por neurnios com
107
funes de ativao sigmoidais nas camadas intermedirias d-se o nome de
Perceptron de Mltipas Camadas (MLPs Multilayer Perceptron).
Os perceptrons de mltiplas camadas so uma importante classe de
redes neurais artificiais, eles consistem em um conjunto de unidades sensoriais, que
constituem a camada de entrada; as camadas ocultas e as de sada, formadas por
ns computacionais. Um perceptron de mltiplas camadas tem trs caractersticas
distintas:
a) O modelo de cada neurnio da rede inclui uma funo no-linear chamada
funo de ativao. importante ressaltar que essa no-linearidade deve
ser suave, isto , diferencivel em qualquer ponto. Uma forma que
normalmente utilizada e que satisfaz essas exigncias uma no-
linearidade sigmoidal (como funo de ativao descrita anteriormente).
b) A rede contm uma ou mais camadas intermedirias, ou ocultas, que no
so parte da entrada nem da sada da mesma. Os neurnios ocultos
capacitam a rede a aprender tarefas complexas extraindo
progressivamente as caracterstcas mais sinificativas dos padres
(vetores) de entrada.
c) A rede possui um alto grau de conectividade, determinado pelas sinpses
da rede.
por meio da combinao destas caractersticas, em conjunto com a
habilidade de aprender da experincia por treinamento, que o perceptron de
mltiplas camadas deriva seu poder computacional.
O treinamento de redes de uma nica camada por meio de aprendizado
supervisionado e correo de erros realizado por meio da aplicao do ajuste
ao vetor de pesos . Para redes de uma nica camada, o erro obtido
diretamente por meio da diferena entre a sada desejada e sada corrente da rede.
No entanto, para redes de mltiplas camadas esse procedimento pode ser aplicado
somente para a camada de sada, j que no existem sadas desejadas definidas
para as camadas intermedirias. Assim, o problema passa a ser ento como calcular
ou estimar o erro das camadas intermedirias.
108
A soluo para esse problema de treinamento de MLPs surgiu em
meados da dcada de 1980 com a descrio do algoritmo de retropropagao de
erros, ou back-propagation. O princpio do algoritmo , utilizando-se o gradiente
descendente, estimar o erro das camadas intermedirias por meio de uma estimativa
de efeito que estas causam no erro da camada de sada. Assim, o erro de sada da
rede calculado e este retroalimentado para as camadas intermedirias,
possibilitando o ajuste dos pesos proporcionalmente aos valores das conexes entre
camadas. A utilizao do gradiente descendente requer o uso de funes de
ativao contnuas e diferenciveis, assim, funes de ativao do tipo degrau
utilizadas no perceptron simples, por exemplo, no podero ser utilizadas. Funes
sigmoidais sero utilizadas para prover uma aproximao da funo degrau.
O papel das mltiplas camadas em uma rede feedforward, como a rede
MLP, transformar, sucessivamente, o problema descrito pelo conjunto de dados no
espao de entrada em uma representao tratvel para a camada de sada da rede.
Por exemplo, um problema no-linearmente separvel, resolvido por uma rede de
duas camadas, transformado em um problema linearmente separvel pela camada
intermediria, criando uma nova disposio interna rede para os dados de entrada.
A partir dessa nova disposio, linearmente separvel, a camada de sada pode
resolver o problema descrito no espao de entrada.
3.3.9.1 A arquitetura de uma rede Perceptron de Mltiplas Camadas (MLP)
Redes MLP apresentam um poder computacional maior do que aquele
apresentado pelas redes de uma nica camada. Redes com duas camadas
intermedirias podem implementar qualquer funo, seja ela linearmente separvel
ou no (CYBENKO, 1989). A qualidade da aproximao obtida depender da
complexidade da rede, ou seja, do nmero de neurnios utilizados nas camadas
intermedirias. A Figura 16, mostrada anteriormente, apresenta uma rede MLP tpica
com uma camada intermediria.
O comportamento de uma rede MLP, como a da Figura 16, pode ser
descrita por meio de duas transformaes sucessivas, sendo uma delas
,
relativa camada intermediria, e a outra
, relativa camada de
109
sada, em que
so calculadas.
2. As sadas da camada escondida
. As sadas da camada
so calculadas. O processo se
repete at que se chegue camada de sada
.
3. As sadas produzidas pelos neurnios da camada de sada so ento
comparadas s sadas desejadas
calculado.
Conforme pode ser visto nos passos descritos para a fase forward, o
seu objetivo obter o erro de sada aps a propagao do sinal por todas as
camadas da rede. A fase backward, por sua vez, envolve as etapas:
1. O erro da camada de sada
so propagados para a
camada anterior
.
3. Os erros calculados para o neurnio da camada
so ento utilizados
para ajustar os seus pesos pelo gradiente descendente, analogamente ao
procedimento utilizado para a camada
.
4. O processo se repete at que os pesos da camada
sejam ajustados,
concluindo-se assim o ajuste dos pesos de toda a rede para o veto de
entrada e sua sada desejada
.
A Figura 21 mostra um esquema de rede MLP com duas camadas.
Nesta figura pode-se entender melhor o raciocnio do back-propagation, junto com
as dedues a seguir.
113
Figura 21 - Esquema da rede MLP e os ndices associados
Um neurnio possui uma sada linear
, correspondente soma
ponderada de suas entradas e uma sada, normalmente no-linear,
obtida aps a
aplicao da funo de ativao sobre
, ou seja,
. Para diferenciar as
respostas dos neurnios das camadas de sada e escondidas, estes ltimos tero
suas sadas referenciadas como
Como a sada linear do neurnio da camada de sada definida por
114
3.3.9.5 Camada de sada
A idia ajustar o vetor de pesos em direo contrria ao gradiente do
erro. Assim, as derivadas parciais de em relao a cada um dos pesos da camada
de sada sero inicialmente obtidas. Para o neurnio , a derivada parcial de em
relao ao peso
Pela regra da cadeia, v-se:
*(
))+
*(
))+
Sabendo que
*(
))+
Novamente, pela regra da cadeia, chega-se:
*(
))+
* (
)+
Como dito anteriormente
, ou seja, somente o
termo em que no ter derivada nula, tem-se que
. J a derivada da (
3.3.9.6 Camada escondida
Considere que se refere a uma entrada da rede de duas camadas.
Assim, a derivada parcial do erro de sada em relao ao peso pode ser obtida a
partir da equao:
))
em que o somatrio ocorre sobre todo os neurnios de sada e pode ser reescrito
como:
)
em que o nmero de neurnios na camada de sada.
Tratando cada termo separadamente, de maneira geral, tem-se:
))
Similarmente ao que foi feito anteriormente:
Como
)
116
Pela regra da cadeia, sabe-se que:
)
Como
) se reduz somente a
, j que todos os
termos do somatrio sero constantes exceto
Sabendo-se disso,
pode ser escrito por
e com isso,
)
ser
)
e ento:
Como o ajuste dos pesos deve ser feito na direo contrria ao
gradiente, tem-se que
em que , como j dito anteriormente, uma constante de proporcionalidade
correspondente taxa de aprendizado.
Na equao anterior, o termo
) corresponde derivada da
funo de ativao do neurnio da camada escondida. O seu argumento
corresponde a soma ponderada das suas entradas. O termo
1 1 Fem 1,70 1
2 0 Fem 1,62 1
3 0 Masc 1,85 0
4 0 Masc 1,80 0
5 0 Masc 1,85 0
6 0 Masc 1,80 0
7 1 Fem 1,70 1
8 1 Fem 1,70 1
9 0 Fem 1,53 1
10 0 Fem 1,62 1
Note que:
As observaes 1, 8 e 7 so iguais:
;
As observaes 2 e 10 so iguais:
;
As observaes 5 e 3 so iguais:
;
As observaes 6 e 4 so iguais:
;
A observao 9 aparece apenas uma vez:
;
Assim:
e
146
APNDICE B
A seguir esto as anlises descritivas da base de dado bruta, ou seja,
sem nenhuma alterao. Variveis com final _A so variveis agrupas antes da
modelagem e da imputao de dados.
SEXO (Sexo do cliente):
SEXO Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
H 5479 54,79 5479 54,79
M 4521 45,21 10000 100
ESTADO_CIVIL (Estado civil do cliente):
ESTADO_CIVIL
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
150 1,5 150 1,5
DIVORCIADO 511 5,11 661 6,61
NO INFORMADO 3235 32,35 3896 38,96
SOLTEIRO 5698 56,98 9594 95,94
VIVO 406 4,06 10000 100
ESCOLARIDADE (Escolaridade do cliente):
ESCOLARIDADE_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
927 9,27 927 9,27
ENSINO MDIO 3575 35,75 4502 45,02
SEM ESCOLARIDADE / ENSINO
FUNDAMENTAL
1843 18,43 6345 63,45
SUPERIOR
3655 36,55 10000 100
PERFIL_HIST (Perfil do cliente dentro do banco):
PERFIL_HIST
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
879 8,79 879 8,79
INVESTIDOR 3954 39,54 4833 48,33
NEUTRO 1364 13,64 6197 61,97
TOMADOR
3803 38,03 10000 100
147
RESTRICAO_FINANCEIRA (Cliente com restrio financeira (1 -
possui, 0 - no possui)):
RESTRICAO_FINANCEIRA
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
0 8527 85,27 8527 85,27
1 1473 14,73 10000 100
RISCO (Nvel de risco de crdito do cliente):
RISCO
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
35 0,35 35 0,35
ALTO 1185 11,85 1220 12,2
BAIXO
7294 72,94 8514 85,14
MDIO 1486 14,86 10000 100
SEGMENTO (Segmento criado pelo banco):
SEGMENTO
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
CLSSICO 4040 40,4 4040 40,4
ESPECIAL 3441 34,41 7481 74,81
SUPREMO
2519 25,19 10000 100
SG_UF (Sigla da unidade da federao em que o cliente abriu conta):
SG_UF_A Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
346 3,46 346 3,46
OUTRAS
1423 14,23 1769 17,69
SUDESTE
7078 70,78 8847 88,47
SUL 1153 11,53 10000 100
TEM_PRE_APROV_CDC (Posse de pr-aprovado para CDC (1 -
possui; 0 - no possui)):
TEM_PRE_APROV_CDC Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
0 5645 56,45 5645 56,45
1
4355 43,55 10000 100
148
IDADE (Idade do cliente):
IDADE_A Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
148 1,48 148 1,48
1 MENOR OU IGUAL A 25 ANOS
1677 16,77 1825 18,25
2 ENTRE 26 E 35 ANOS 2773 27,73 4598 45,98
3 ENTRE 36 E 50 ANOS 2756 27,56 7354 73,54
4 MAIOR OU IGUAL A 51 ANOS
2646 26,46 10000 100
QT_CDC_LEAS (Quantidade de CDC (0 - no tem outro CDC, 1 - tem
outro CDC)):
QT_CDC_LEAS Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
. 194 1,94 194 1,94
0
9608 96,08 9802 98,02
1 198 1,98 10000 100
QT_CHEQUE_COMPENSADO (Quantidade de cheques
compensados):
QT_CHEQUE_COMPENSADO_
A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
9 0,09 9 0,09
0
7149 71,49 7158 71,58
DE 1 A 5 2034 20,34 9192 91,92
MAIS OU IGUAL A 6 808 8,08 10000 100
QT_COMPRA_VISA (Quantidade de compras realizadas com Visa):
QT_COMPRA_VISA_A Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
357 3,57 357 3,57
0
5855 58,55 6212 62,12
DE 1 A 5 1815 18,15 8027 80,27
MAIS OU IGUAL A 6 1973 19,73 10000 100
149
QT_TRANS_INTERNACIONAL (Quantidade de transaes
internacionais):
QT_TRANS_INTERNACIONAL_
A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
1707 17,07 1707 17,07
0
7959 79,59 9666 96,66
MAIS OU IGUAL A 1 334 3,34 10000 100
QT_TRANS_NACIONAL (Quantidade de transaes nacionais):
QT_TRANS_NACIONAL_A Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
1707 17,07 1707 17,07
0
4665 46,65 6372 63,72
DE 1 A 5 1573 15,73 7945 79,45
MAIS OU IGUAL A 6 2055 20,55 10000 100
QTCLI_SEGUROS_12( Seguros que o cliente possui (0 - no possui
seguro, 1 - possui seguro)):
QTCLI_SEGUROS_12 Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
0 5536 55,36 5536 55,36
1
4464 44,64 10000 100
QTD_ACESSOS_ATM_MES (Quantidade de acessos ao ATM
(Automatic Teller Machine, mais conhecido como caixa eletrnico)):
QTD_ACESSOS_ATM_MES_A Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
3475 34,75 3475 34,75
DE 1 A 5
4912 49,12 8387 83,87
MAIS OU IGUAL A 6 1613 16,13 10000 100
QTD_ACESSOS_IB_MES (Quantidade de acessos ao IB (Internet
Banking)):
Varivel com 74,06% de valores faltantes excluda da anlise.
150
QTD_ACESSOS_TMK_MES (Quantidade de acessos ao TMK
(Telemarketing)):
Varivel com 74,94% de valores faltantes excluda da anlise.
QTD_DEB_AUTOMATICO (Quantidade de dbitos automticos):
Varivel com 68,80% de valores faltantes excluda da anlise.
QTDE_PRODUTOS_PF_12 (Quantidade de produtos pessoa fsica):
QTDE_PRODUTOS_PF_12_A Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
456 4,56 456 4,56
DE 1 A 5
6466 64,66 6922 69,22
MAIS OU IGUAL A 6 3078 30,78 10000 100
TOT_SEG_AUTO (Total de meses com seguro auto (de 1 a 9 meses)):
TOT_SEG_AUTO_A Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
419 4,19 419 4,19
0
9423 94,23 9842 98,42
MAIS OU IGUAL A 1 MS 158 1,58 10000 100
RENDA_MENSAL (Renda mensal do cliente):
RENDA_MENSAL_A Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulada
17 0,17 17 0,17
1 MENOS QUE 500 REAIS
1871 18,71 1888 18,88
2 ENTRE 500 E 1500 REAIS 3843 38,43 5731 57,31
3 ENTRE 1500 E 3000 REAIS 1782 17,82 7513 75,13
4 MAIS QUE 3000 REAIS
2487 24,87 10000 100
Sobre as variveis contnuas excluiu-se as variveis com mais de 65%
de dados faltantes (sinalizadas em negrito na tabela abaixo).
151
Tabela 17 Estatstica descritiva para das variveis contnuas.
Varivel Mdia
Desvio
Padro
Mnimo Mximo
N
Vlido
N
Faltante
AVENC_TOTAL_SCR_
CONSIG
15835,54 26627,28 0 230882,71 986 9014
AVENC_TOTAL_SCR_
CP
14515,64 45611,11 0 1157585,69 1087 8913
MBB_3M 154,1163944 395,4999364 -6147,76 8468,54 9559 441
SALDO_DISPONIVEL_
3M
3015,22 14271,79 0 709546,71 9559 441
VENCD_TOTAL_SCR_
CONSIG
1011,16 8109,66 0 163222,04 986 9014
VENCD_TOTAL_SCR_
CP
279,3943238 1823,18 0 40337,51 1087 8913
VL_DEB_AUTOMATIC
O
389,3043045 3734,88 0,11 200116,59 3120 6880
VL_LIMITE_DISPONIV
EL_CART_CRED
15214,07 38899,53 0 636985,47 5466 4534
VL_LIMITE_IMPLANTA
DO_CART_CRED
21324,05 48852,77 0 735000 5466 4534
VL_LIMITE_IMPLANTA
DO_SM
4524,91 7107,06 0 100000 6782 3218
VL_LIMITE_UTILIZAD
O_CART_CRED
5092,12 16060,57 -131227,53 325246,32 5466 4534
VL_LIMITE_UTILIZAD
O_SM
-655,9016844 2127,18 -51748,5 0 6768 3232
VL_SALD_ATIV 5057,62 21205,28 0 715036,59 9806 194
VL_SALD_PASS 12697,5 100809,92 0 4883727,79 9806 194
VL_SALD_POUP 2952,61 15349,11 0 685658,24 9806 194
VL_SALD_PRVD_PRIV 1828,45 30984,24 0 1675067,13 9806 194
VL_SALDO_DEVEDO
R_TOTAL
6294,94 18055,34 -13072,45 419175,98 5466 4534
VL_SM_CAPTACAO_1
2
15814,88 112779,65 1 4811773,26 7792 2208
VL_SM_CRED_PESS
OAL_12
1555,41 7744,18 0 243912,96 9544 456
VL_TARIFA_COBRAD
A_12
26,9498767 44,6257627 -114,65 1283,86 5272 4728
VL_TOTAL_CDB_T0 95557,28 311945,89 104,07 4724536,51 407 9593
VL_TOTAL_INVESTIM
ENTO_T0
23953,85 136505,96 0 4863665,82 3889 6111
VL_TOTL_REND 2661,96 6615,39 0 371476,52 9853 147
VL_TRANS_INTERNA
CIONAL
77,1608971 1327,85 0 91193,2 8293 1707
VL_TRANS_NACIONA
L
414,8774834 1211,92 0 29869,87 8293 1707
152
Tabela 18 Percentis das variveis contnuas.
Varivel
5
Percentil
Primeiro
Quartil
Mediana
Terceiro
Quatil
95 Percentil
AVENC_TOTAL_SCR_
CONSIG
0 3938,62 7745,39 16601,41 54496,79
AVENC_TOTAL_SCR_
CP
0 1859,07 5233,44 14300,34 51036,93
MBB_3M 0 8,2807667 40,0002 137,0933333 676,2205333
SALDO_DISPONIVEL_
3M
0 12,53 135,6666667 975,5366667 13879,46
VENCD_TOTAL_SCR_
CONSIG
0 0 0 0 2352,65
VENCD_TOTAL_SCR_
CP
0 0 0 0 1042,34
VL_DEB_AUTOMATIC
O
15 51,165 140,37 358,995 1179,17
VL_LIMITE_DISPONIV
EL_CART_CRED
0 590,44 2603,62 11866,7 72786,64
VL_LIMITE_IMPLANTA
DO_CART_CRED
500 1500 5000 19000 98600
VL_LIMITE_IMPLANTA
DO_SM
200 750 1850 5200 18500
VL_LIMITE_UTILIZADO
_CART_CRED
-328,02 11 853,05 3959,72 22690,04
VL_LIMITE_UTILIZADO
_SM
-3255,39 -399,525 -29,36 0 0
VL_SALD_ATIV 0 0 24,675 1943,49 23611,34
VL_SALD_PASS 0 0,97 152,975 1786,12 39868,09
VL_SALD_POUP 0 0 1,645 527,84 13036,97
VL_SALD_PRVD_PRIV 0 0 0 0 0
VL_SALDO_DEVEDOR
_TOTAL
0 173,32 1330,57 4927,27 26533,9
VL_SM_CAPTACAO_1
2
3,55 48,425 289,045 2490,05 54135,31
VL_SM_CRED_PESSO
AL_12
0 0 0 0 7448,22
VL_TARIFA_COBRADA
_12
2,5 7,05 19 37,5 76
VL_TOTAL_CDB_T0 1029,66 7340,3 29515,95 74633,77 366205,13
VL_TOTAL_INVESTIME
NTO_T0
0 0,13 102,72 7005,08 102175,22
VL_TOTL_REND 0 595,22 1200 2931,62 10000
VL_TRANS_INTERNAC
IONAL
0 0 0 0 0
VL_TRANS_NACIONAL 0 0 0 284,87 2180,75
153
Figura 26 Histograma para as variveis contnuas
154
Aps a imputao de valores pelo mtodo de rvore de deciso e aps
a transformao logartma das variveis contnuas, obtev-se os resultados abaixo.
Variveis com inicial IMP_ so variveis que tiveram valores inseridos pelo mtodo
de rvore, j as variveis iniciadas com LOG_ tiveram o logartmo aplicado.
IMP_ESTADO_CIVIL (Estado civil do cliente):
IMP_ESTADO_CIVIL_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
DIVORCIADO / VIVO 1453 14,53 1453 14,53
SOLTEIRO 8547 85,47 10000 100
IMP_ESCOLARIDADE (Escolaridade do cliente):
IMP_ESCOLARIDADE_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
ENSINO MDIO 3940 39,4 3940 39,4
SEM ESCOLARIDADE /
ENSINO FUNDAMENTAL
2060 20,6 6000 60
SUPERIOR
4000 40 10000 100
IMP_PERFIL_HIST (Perfil do cliente dentro do banco):
IMP_PERFIL_HIST
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
INVESTIDOR 4325 43,25 4325 43,25
NEUTRO 1611 16,11 5936 59,36
TOMADOR
4064 40,64 10000 100
IMP_RISCO (Nvel de risco de crdito do cliente):
IMP_RISCO
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
ALTO 1186 11,86 1186 11,86
BAIXO 7324 73,24 8510 85,1
MDIO
1490 14,9 10000 100
155
IMP_SG_UF (Sigla da unidade da federao em que o cliente abriu
conta):
IMP_SG_UF_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
OUTRAS 1423 14,23 1423 14,23
SUDESTE 7424 74,24 8847 88,47
SUL
1153 11,53 10000 100
IMP_IDADE (Idade do cliente):
IMP_IDADE_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
1 MENOR OU IGUAL A 25 ANOS 1677 16,77 1677 16,77
2 ENTRE 26 E 35 ANOS 2773 27,73 4450 44,5
3 ENTRE 36 E 50 ANOS
2819 28,19 7269 72,69
4 MAIOR OU IGUAL A 51 ANOS
2731 27,31 10000 100
IMP_QT_CDC_LEAS (Quantidade de CDC (0 - no tem outro CDC, 1 -
tem outro CDC)):
IMP_QT_CDC_LEAS
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
0 9802 98,02 9802 98,02
1 198 1,98 10000 100
IMP_QT_CHEQUE_COMPENSADO (Quantidade de cheques
compensados):
IMP_QT_CHEQUE_COMPENSADO_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
0 7158 71,58 7158 71,58
DE 1 A 5 2034 20,34 9192 91,92
MAIS OU IGUAL A 6
808 8,08 10000 100
156
IMP_QT_COMPRA_VISA (Quantidade de compras realizadas com
Visa):
IMP_QT_COMPRA_VISA_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
0 6208 62,08 6208 62,08
DE 1 A 5 1815 18,15 8023 80,23
MAIS OU IGUAL A 6
1977 19,77 10000 100
IMP_QT_TRANS_INTERNACIONAL (Quantidade de transaes
internacionais):
IMP_QT_TRANS_INTERNACIONAL_
A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
0 9666 96,66 9666 96,66
MAIS OU IGUAL A 1 334 3,34 10000 100
IMP_QT_TRANS_NACIONAL (Quantidade de transaes nacionais):
IMP_QT_TRANS_NACIONAL_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
0 6372 63,72 6372 63,72
DE 1 A 5 1573 15,73 7945 79,45
MAIS OU IGUAL A 6
2055 20,55 10000 100
IMP_QTD_ACESSOS_ATM_MES (Quantidade de acessos ao ATM
(Automatic Teller Machine, mais conhecido como caixa eletrnico)):
IMP_QTD_ACESSOS_ATM_MES_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
DE 1 A 5 8321 83,21 8321 83,21
MAIS OU IGUAL A 6 1679 16,79 10000 100
IMP_QTDE_PRODUTOS_PF_12 (Quantidade de produtos pessoa
fsica):
IMP_QTDE_PRODUTOS_PF_12_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
DE 1 A 5 6904 69,04 6904 69,04
MAIS OU IGUAL A 6 3096 30,96 10000 100
157
IMP_TOT_SEG_AUTO (Total de meses com seguro auto (de 1 a 9
meses)):
IMP_TOT_SEG_AUTO_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
0 9841 98,41 9841 98,41
MAIS OU IGUAL A 1 MS 159 1,59 10000 100
IMP_RENDA_MENSAL (Renda mensal do cliente):
IMP_RENDA_MENSAL_A
Frequncia Percentual
Frequncia
Acumulada
Percentual
Acumulado
1 MENOS QUE 500 REAIS 1886 18,86 1886 18,86
2 ENTRE 500 E 1500 REAIS 3844 38,44 5730 57,3
3 ENTRE 1500 E 3000 REAIS 1782 17,82 7512 75,12
4 MAIS QUE 3000 REAIS 2488 24,88 10000 100
Nas variveis contnuas aplicou-se o logartmo, como pode-se ver nas
distribuies da Figura a seguir, dispostos na mesma ordem do anterior:
158
Figura 27 Histograma para as variveis contnuas transformadas
159
APNDICE C
A seguir est programada as regras de deciso para o modelo de
rvore de deciso exposto no captulo de resultados.
*------------------------------------------------------------*
Node = 7
*------------------------------------------------------------*
if Imputed RENDA_MENSAL_A >= 4 MAIS QUE 3000 REAIS
AND Imputed QT_CDC_LEAS IS ONE OF: 1
then
Tree Node Identifier = 7
Number of Observations = 99
Predicted: FLAG_RESPOSTA=0 = 0.42
Predicted: FLAG_RESPOSTA=1 = 0.58
*------------------------------------------------------------*
Node = 9
*------------------------------------------------------------*
if Transformed: Imputed VL_LIMITE_IMPLANTADO_SM < 7.04795 or MISSING
AND Imputed RENDA_MENSAL_A >= 3 ENTRE 1500 E 3000 REAIS AND Imputed
RENDA_MENSAL_A <= 3 ENTRE 1500 E 3000 REAIS
then
Tree Node Identifier = 9
Number of Observations = 108
Predicted: FLAG_RESPOSTA=0 = 0.85
Predicted: FLAG_RESPOSTA=1 = 0.15
*------------------------------------------------------------*
Node = 10
*------------------------------------------------------------*
if Transformed: Imputed VL_LIMITE_IMPLANTADO_SM >= 7.04795
AND Imputed RENDA_MENSAL_A <= 3 ENTRE 1500 E 3000 REAIS or MISSING
AND Imputed QT_CDC_LEAS IS ONE OF: 1
then
Tree Node Identifier = 10
Number of Observations = 44
Predicted: FLAG_RESPOSTA=0 = 0.48
Predicted: FLAG_RESPOSTA=1 = 0.52
*------------------------------------------------------------*
Node = 16
*------------------------------------------------------------*
if Transformed: Imputed VL_LIMITE_IMPLANTADO_SM < 7.04795 or MISSING
AND Imputed: TOT_SEG_AUTO_A <= 0 or MISSING
AND Imputed RENDA_MENSAL_A <= 2 ENTRE 500 E 1500 REAIS or MISSING
then
Tree Node Identifier = 16
Number of Observations = 3012
Predicted: FLAG_RESPOSTA=0 = 0.99
Predicted: FLAG_RESPOSTA=1 = 0.01
*------------------------------------------------------------*
Node = 17
*------------------------------------------------------------*
160
if Transformed: Imputed VL_LIMITE_IMPLANTADO_SM < 7.04795 or MISSING
AND Imputed: TOT_SEG_AUTO_A >= MAIS OU IGUAL A 1 MS
AND Imputed RENDA_MENSAL_A <= 2 ENTRE 500 E 1500 REAIS or MISSING
then
Tree Node Identifier = 17
Number of Observations = 5
Predicted: FLAG_RESPOSTA=0 = 0.60
Predicted: FLAG_RESPOSTA=1 = 0.40
*------------------------------------------------------------*
Node = 21
*------------------------------------------------------------*
if Transformed: Imputed VL_TRANS_NACIONAL >= 4.91151
AND Transformed: Imputed VL_LIMITE_IMPLANTADO_SM >= 7.04795
AND Imputed RENDA_MENSAL_A <= 3 ENTRE 1500 E 3000 REAIS or MISSING
AND Imputed QT_CDC_LEAS IS ONE OF: 0 or MISSING
then
Tree Node Identifier = 21
Number of Observations = 630
Predicted: FLAG_RESPOSTA=0 = 0.83
Predicted: FLAG_RESPOSTA=1 = 0.17
*------------------------------------------------------------*
Node = 22
*------------------------------------------------------------*
if Imputed: QT_TRANS_NACIONAL_A <= 0
AND Imputed: QT_CHEQUE_COMPENSADO_A <= 0 or MISSING
AND Imputed RENDA_MENSAL_A >= 4 MAIS QUE 3000 REAIS
AND Imputed QT_CDC_LEAS IS ONE OF: 0 or MISSING
then
Tree Node Identifier = 22
Number of Observations = 427
Predicted: FLAG_RESPOSTA=0 = 0.91
Predicted: FLAG_RESPOSTA=1 = 0.09
*------------------------------------------------------------*
Node = 24
*------------------------------------------------------------*
if Transformed: Imputed VL_SALD_ATIV < 6.75507 or MISSING
AND Imputed: QT_TRANS_NACIONAL_A >= DE 1 A 5 or MISSING
AND Imputed RENDA_MENSAL_A >= 4 MAIS QUE 3000 REAIS
AND Imputed QT_CDC_LEAS IS ONE OF: 0 or MISSING
then
Tree Node Identifier = 24
Number of Observations = 483
Predicted: FLAG_RESPOSTA=0 = 0.78
Predicted: FLAG_RESPOSTA=1 = 0.22
*------------------------------------------------------------*
Node = 25
*------------------------------------------------------------*
if Transformed: Imputed VL_SALD_ATIV >= 6.75507
AND Imputed: QT_TRANS_NACIONAL_A >= DE 1 A 5 or MISSING
AND Imputed RENDA_MENSAL_A >= 4 MAIS QUE 3000 REAIS
AND Imputed QT_CDC_LEAS IS ONE OF: 0 or MISSING
then
Tree Node Identifier = 25
Number of Observations = 452
Predicted: FLAG_RESPOSTA=0 = 0.63
161
Predicted: FLAG_RESPOSTA=1 = 0.37
*------------------------------------------------------------*
Node = 30
*------------------------------------------------------------*
if Transformed: Imputed VL_TRANS_NACIONAL < 4.91151 or MISSING
AND Transformed: Imputed VL_LIMITE_IMPLANTADO_SM >= 7.04795
AND Imputed: IDADE_A <= 3 ENTRE 36 E 50 ANOS or MISSING
AND Imputed RENDA_MENSAL_A <= 3 ENTRE 1500 E 3000 REAIS or MISSING
AND Imputed QT_CDC_LEAS IS ONE OF: 0 or MISSING
then
Tree Node Identifier = 30
Number of Observations = 951
Predicted: FLAG_RESPOSTA=0 = 0.91
Predicted: FLAG_RESPOSTA=1 = 0.09
*------------------------------------------------------------*
Node = 31
*------------------------------------------------------------*
if Transformed: Imputed VL_TRANS_NACIONAL < 4.91151 or MISSING
AND Transformed: Imputed VL_LIMITE_IMPLANTADO_SM >= 7.04795
AND Imputed: IDADE_A >= 4 MAIOR OU IGUAL A 51 ANOS
AND Imputed RENDA_MENSAL_A <= 3 ENTRE 1500 E 3000 REAIS or MISSING
AND Imputed QT_CDC_LEAS IS ONE OF: 0 or MISSING
then
Tree Node Identifier = 31
Number of Observations = 537
Predicted: FLAG_RESPOSTA=0 = 0.97
Predicted: FLAG_RESPOSTA=1 = 0.03
*------------------------------------------------------------*
Node = 36
*------------------------------------------------------------*
if Transformed: Imputed VL_SALD_ATIV < 5.59928 or MISSING
AND Imputed: QT_TRANS_NACIONAL_A <= 0
AND Imputed: QT_CHEQUE_COMPENSADO_A >= DE 1 A 5
AND Imputed RENDA_MENSAL_A >= 4 MAIS QUE 3000 REAIS
AND Imputed QT_CDC_LEAS IS ONE OF: 0 or MISSING
then
Tree Node Identifier = 36
Number of Observations = 128
Predicted: FLAG_RESPOSTA=0 = 0.88
Predicted: FLAG_RESPOSTA=1 = 0.13
*------------------------------------------------------------*
Node = 37
*------------------------------------------------------------*
if Transformed: Imputed VL_SALD_ATIV >= 5.59928
AND Imputed: QT_TRANS_NACIONAL_A <= 0
AND Imputed: QT_CHEQUE_COMPENSADO_A >= DE 1 A 5
AND Imputed RENDA_MENSAL_A >= 4 MAIS QUE 3000 REAIS
AND Imputed QT_CDC_LEAS IS ONE OF: 0 or MISSING
then
Tree Node Identifier = 37
Number of Observations = 122
Predicted: FLAG_RESPOSTA=0 = 0.69
Predicted: FLAG_RESPOSTA=1 = 0.31
162
APNDICE D
D.1 Conhecendo o SAS Enterprise Miner
O SAS Enterprise Miner possui uma interface de programao visual
que facilita a construo de modelos de Data Mining para o processo de descoberta
de conhecimento. A ferramenta oferece ricas facilidades para a explorao e
manipulao de dados, alm de vrias tcnicas de modelagem e recursos grficos,
para a visualizao de dados. As operaes so representadas em um diagrama, no
qual cada n (nodes) representa um um passo na anlise, conforme v-se na Figura
28.
Figura 28 - Interface do SAS Enterprise Miner
163
Figura 29 - Interface do SAS Enterprise Miner
J na Figura 29 expe-se um tour pelo software, onde cada nmero
ser explicado a seguir.
1. Menu inicial
2. Os botes de atalho permitem desenvolver tarefas rpidamente,
como por exemplo, executar um n.
3. A barra de ferramentas permite acessar as ferramentas, dividida
em abas de acordo com a arquitetura SEMMA, que ser explicada a seguir.
4. O painel do Projeto permite visualizar e gerenciar os data sources,
diagramas, resultados e usurios do projeto.
164
5. O painel de propriedades permite exibir e editar as configuraes dos
data sources, diagramas, ns, resultados e os usurios.
6. O painel de ajuda exibe uma breve descrio do objeto selecionado
no painel de propriedades.
7. A rea de trabalho do diagrama contm um ou mais fluxos. Um fluxo
comea com um data source e sequencialmente aplica-se ferramentas do SAS
Enterprise Miner (que so chamados de ns dentro do diagrama) para completar o
objetivo analtico.
8. Um fluxo contm vrios ns. Os ns so ferramentas do SAS
Enterprise Miner, que so conectados por setas para mostrar a direo do fluxo de
informaes em uma anlise.
9. A rea de trabalho do diagrama permite criao de uma sequncia
grfica de todos os passos utilizados para anlise de dados.
O software SAS Enterprise Miner um produto que contm uma srie
de ferramentas teis para suportar todo o processo de Data Mining. Tais ferramentas
esto organizadas de acordo com o processo SEMMA, ou seja, de acordo com 5
estgios, que sero listados a seguir.
D.2 Principal Processo SAS para Minerao de Dados
A barra de ferramentas do SAS Enterprise Miner organizada de
acordo com o processo SAS para minerao de dados, conhecido como SEMMA. A
sigla SEMMA - amostrar, explorar, modificar, modelar e avaliar - se refere ao
processo principal da minerao de dados. Antes de examinar cada fase da SEMMA
importante salientar que a SEMMA no uma metodologia de minerao de
dados, mas sim uma organizao lgica do conjunto de ferramentas do SAS
Enterprise Miner que realizam tarefas essenciais na minerao de dados.
Enterprise Miner pode ser usado como parte de qualquer metodologia
iterativa de minerao de dados adotada. Obviamente que medidas como a
formulao do problema de negcio e a montagem da fonte de dados com qualidade
so essenciais para o xito global de qualquer projeto de minerao de dados.
165
Seguindo esse raciocnio, tem-se que o processo de Data Mining pode
seguir os passos expostos na Figura 30. Note que o processo SEMMA faz parte do
processo, momento em que o SAS Enterprise Miner ativo.
Figura 30 - Principal Processo SAS para Minerao de Dados no SAS Enterprise Miner
D.2.1 Arquitetura SEMMA
As etapas do processo SEMMA esto focadas nos aspectos de
desenvolvimento do modelo de minerao de dados:
D.2.1.1 SAMPLE
Realizar uma amostra (opcional) dos dados, extraindo uma parte de um
grande conjunto de dados. Esta amostra deve ser grande o suficiente para conter as
informaes significativas e tambm pequena o suficiente para processar, conforme
a capcidade do hardware. Minerao de uma amostra representativa, em vez de
todo o volume de dados reduz o tempo de processamento necessrio para obter
informaes cruciais ao negcio. Se os padres gerais aparecem nos dados como
um todo, estes sero detectveis em uma amostra representativa. Se um nicho to
pequeno que no representado em uma amostra e, ainda assim to importante
que influencia o todo, ele pode ser descoberto por meio de mtodos de sntese.
166
importante, tambm, a criao de conjuntos de dados particionados com o n de
partio de dados:
Treinamento - base utilizada para a montagem do modelo.
Validao - base utilizada para a avaliao e para apontar overfitting de
modelo.
Teste - base usada para obter uma avaliao honesta de quo bem o
modelo generaliza.
D.2.1.2 EXPLORE
Explorar os dados a fim de encontrar tendncias e/ou anomalias no
previstas, para obter conhecimento e idias. O passo de explorao ajuda a
aperfeioar o processo de descoberta. Se a explorao visual no revelar
tendncias claras, pode-se explorar os dados por meio de tcnicas estatsticas,
incluindo a anlise fatorial, anlise de correspondncia e de cluster. Por exemplo, no
processo de minerao de dados para uma campanha de mala direta, o
agrupamento pode revelar grupos de clientes com diferentes padres. Conhecer
esses padres cria oportunidades para mailings personalizados ou promoes
especficas.
D.2.1.3 MODIFY
Modificar os dados, criando, selecionando e transformando as variveis
para o foco do processo de seleo do modelo. Baseado nas descobertas obtidas
na fase de explorao, pode ser necessrio manipular os dados para incluir
informaes como o agrupamento de clientes e subgrupos significativos, ou de
introduzir novas variveis. Pode-se tambm notar a necessidade de tratar outliers ou
reduzir o nmero de variveis, a fim de restringi-las as mais importantes. Minerao
de dados um processo dinmico, interativo, pode-se atualizar os mtodos de
minerao de dados ou modelos, quando novas informaes estiverem disponveis.
167
D.2.1.4 MODEL
Modelar os dados a partir de tcnicas de modelagem em minerao de
dados. No SAS Enterprise Miner tem-se, por exemplo: redes neurais, rvore de
deciso, modelos logsticos e outros modelos estatsticos - como a anlise de sries
temporais, raciocnio baseado em memria e de componentes principais. Cada
tcnica tem seu ponto forte e apropriado dentro de situaes especficas de
minerao de dados, dependendo dos dados. Por exemplo: redes neurais so muito
boas no ajuste de alta complexidade de relaes no lineares.
D.2.1.5 ASSESS
Avaliar os dados, avaliar a utilidade e confiabilidade dos resultados do
processo de minerao de dados e entender como ele executa. Uma forma comum
de avaliar um modelo aplic-lo a uma parte do conjunto de dados, ainda no
utilizado durante a fase de amostragem. Se o modelo for vlido, ele deve trabalhar
para esta amostra reservada, bem como para a amostra utilizada para construir o
modelo. Da mesma forma, pode-se testar o modelo com os dados conhecidos. Por
exemplo, sabe-se que os clientes em um arquivo tinham altas taxas de reteno e o
modelo prev a reteno, pode-se verificar se o modelo seleciona esses clientes
com preciso. Alm disso, as aplicaes prticas do modelo, tais como expedies
parciais em uma campanha de mala direta, ajuda a provar sua validade.
Ao avaliar os resultados obtidos em cada etapa do processo SEMMA,
pode-se observar novas questes a partir dos resultados anteriores e assim,
proceder de volta para a fase de explorao para o refinamento adicional dos dados.
Depois de ter desenvolvido o modelo campeo usando a abordagem
SEMMA de minerao, o prximo passo a implementao do modelo em novos
clientes (indivduos), ou novas bases. A implantao do modelo o resultado final
da minerao de dados. O SAS Enterprise Miner automatiza a fase de implantao,
fornecendo o cdigo de escoragem em SAS, alm do cdigo em C, Java e PMML.
168
D.3 Arquitetura e configurao do SAS Enterprise Miner
O SAS Enterprise Miner organizado em torno de uma arquitetura
client/server. Isso significa que o SAS Enterprise Miner Client apenas uma parte de
um conjunto maior de programas. O SAS Enterprise Miner Client simplesmente
uma janela de interface feita em Java. O trabalho de anlise feita por um software
conhecido como SAS Foundation, que outro nome para a linguagem e
procedimentos SAS. O SAS Foundation por sua vez apoiado por outros softwares
conhecidos como Servidor de Metadados SAS. O SAS Metadata Server monitora o
acesso a dados e informaes de arquitetura do sistema.
Existem vrias maneiras de configurar o SAS Enterprise Miner: Na
configurao de estao de trabalho pessoal (Personal Workstation), o SAS
Enterprise Miner Client, SAS Foundation, e SAS Metadata Server residem em um
nico computador central. Os componentes se comunicam por meio de uma
tecnologia proprietria chamada SAS IOM, como mostra a Figura 31.
Figura 31 - Interface do SAS Enterprise Miner
Na configurao do Enterprise Client, a comunicao entre o SAS
Enterprise Miner Client, o SAS Foundation Server e o SAS Metadata Server criado
por meio de um componente adicional denominado Analytics Platform. Isso permite
que vrios Clients conectem-se a vrios servidores SAS Foundation. Para executar o
SAS Enterprise Miner o administrador do sistema SAS deve instalar e configurar
esses componentes, geralmente em diversos computadores independentes. Depois
que a configurao for estabelecida pouco importa, para o analista, exceto para
lembrar que todos os dados so lidos no servidor do SAS Foundation e no no PC
169
fsico local. A nica coisa que o analista vai ver a interface do SAS Enterprise
Miner Client. Na Figura 32 v-se uma imagem ilustrativa dessa forma de instalao.
Figura 32 - Interface do SAS Enterprise Miner
D.3 Entendendo a Forma de Trabalho do SAS Enterprise Miner
No SAS Enterprise Miner as anlises so organizadas em projetos,
diagramas, fluxos e ns. Com auxilio da Figura 33 pode-se entender isso facilmente.
O primeiro passo a criao de um Projeto e nesse projeto onde sero realizadas
todas as anlises necessrias. Dentro de um projeto pode-se criar diversos
Diagramas, organizando-os da forma necessria.
Dentro de um Diagrama que se cria os Fluxos. Um Fluxo pode ser
composto, por uma base de dados, um particionamento de dados e uma regresso,
por exemplo. Cada Fluxo composto por ns, ou seja, cada passo da anlise. Cada
n, como j dito anteriormente, executa uma tarefa.
Figura 33 - Forma de organizao do SAS Enterprise Miner
170
Por trs desse esquema, existe um espao fsico onde realmente o
projeto est salvo. A organizao fsica de um projeto SAS Enterprise Miner mais
complicada. Quando um projeto criado no SAS Enterprise Miner, quatro
subdiretrios so criados automaticamente dentro do diretrio do projeto:
DataSources, Reports, Workspaces e System. A estrutura do diretrio do projeto
"teste" (ilustrado na Figura 29) mostrada na Figura 34.
Figura 34 - Forma de organizao fsica do SAS Enterprise Miner
Os projetos contm diagramas, que so o prximo nvel da hierarquia
da organizao do SAS Enterprise Miner. Diagramas geralmente dizem respeito a
um tema nico do projeto. Quando um diagrama definido, um novo subdiretrio
criado no diretrio Workspaces do projeto correspondente. Cada diagrama
independente e nenhuma informao pode ser passada de um diagrama para o
outro. A estrutura do diretrio Workspaces para o projeto "teste" criado para a Figura
29 mostrado na Figura 35.
171
Figura 35 - Estrutura do diretrio Workspaces
As anlises realizadas no SAS Enterprise Miner so desenvolvidas por
um fluxo. Um fluxo uma sequncia de ns, conectados por flechas que definem a
ordem da anlise. A organizao do fluxo est contida em um arquivo,
EM_DGRAPH, que armazenado dentro do diretrio do diagrama correspondente.
Cada n do diagrama corresponde a um subdiretrio separado no diretrio desse
diagrama. As informaes de um fluxo podem ser enviadas para outro, bastando
apenas lig-los pelas flechas. O diretrio do diagrama EMWS1 (nome dado para a
pasta do diagrama que contm os fluxos e ns) mostrado a seguir na Figura 36.
Figura 36 - Estrutura do diretrio de um diagrama
172
Felizmente, a interface do SAS Enterprise Miner nos protege dessa
complexidade.
D.4 Primeiros Passos
O propsito desta seo introduzir os passos iniciais a serem dados
em qualquer anlise de minerao de dados. Como por exemplo, a criao de um
projeto, a criao de uma biblioteca e criao de um Data Source.
D.4.1 Criao de um Projeto
Aps aberto o Miner e digitado usurio e senha, o primeiro passo ser a
criao de um projeto. Como mostrado na Figura 37, clicar-se em New Project.
Figura 37 - Inicializao do SAS Enterprise Miner
Depois de clicado em New Project, segue-se com as solicitaes do
Wizard. A etapa 1 da criao de um projeto a especificao do SAS Server onde
salva-se o projeto. Aps selecionado, clica-se em Avanar. Na etapa 2 coloca-se
um nome para o projeto e especifica-se a pasta, dentro do SAS Server, onde o
projeto ser salvo, como mostra a Figura 38.
173
Figura 38 - Etapa 2 na criao de um Projeto
Clicando em Avanar, o prximo passo ser especificar um folder, como
na Figura 39.
Avanar novamente e tem-se a ltima etapa que apenas um resumo
de todas as informaes sobre o novo projeto e ento, Concluir.
Figura 39 - Etapa 3 na criao de um Projeto
Finalizado a criao do Projeto, tem-se uma tela semelhante a da
Figura 40. Observe que nenhuma das funcionalidades est habilitada, pois ainda
no existe um diagrama, etapa seguinte criao de um projeto.
174
Figura 40 - Visualizao do SAS Enterprise Miner aps a criao de um projeto
D.4.2 Criao de um Diagrama
Sem dvida esse o passo mais simples a se realizar dentro de um
Projeto. Para isso basta clicar com o boto direito do mouse na palavra Diagrams e
Create Diagram, como mostra a Figura 41.
175
Figura 41 - Indicao para criao de um novo diagrama
Em seguida basta digitar um nome para o diagrama, como na Figura 42
e OK.
Figura 42 - Criao de um novo diagrama
Com a criao de um diagrama todas as funcionalidades da ferramenta
ficam disponveis para uso (Figura 43). Agora basta criar uma biblioteca e em
seguida um Data Source.
176
Figura 43 - Visualizao do SAS Enterprise Miner aps a criao de um diagrama
D.4.3 Criao de uma Biblioteca
Para a criao de uma biblioteca precisa-se apenas especificar um
caminho, indicando ao SAS onde as bases esto armazenadas. Nesse ponto pode-
se fazer uma leitura de bases j em formato SAS (SAS Data Set) ou ento, por
exemplo, num banco de dados (ODBC, Oracle, DB2,...). Para a criao de uma
biblioteca dentro do Miner, pode-se optar pelo Wizard ou ento pelo cdigo.
Apresenta-se aqui os dois mtodos.
D.4.3.1 Opo Wizard
Para criao de uma biblioteca pela funo Wizard, deve-se ir em File,
New, Library. Na etapa 1 seleciona-se a opo Create New Library e Avanar.
177
Figura 44 - Etapa 1 para a criao de uma Biblioteca no SAS Enterprise Miner
Na etapa 2 nomea-se essa biblioteca, coloca-se o endereo de onde os
dados esto armazenados, no campo Path (Figura 45). Avanar e no prximo passo
tem-se o status da criao e as informaes sobre a biblioteca e Concluir para
finalizar a atividade.
Figura 45 - Etapa 2 para a criao de uma Biblioteca no SAS Enterprise Miner
178
D.4.3.1 Opo Cdigo
Para criao de uma biblioteca via cdigo o procedimento muito
simples. Selecionando o nome do projeto, no campo Project Start Code dentro Menu
e clica-se na elipse, indicada na Figura 46.
Figura 46 - Indicao do caminho para criao de uma biblioteca via cdigo SAS
179
O prximo passo ser digitar o cdigo com o caminho de onde dever
ser feita a leitura dos dados. O comando o mesmo usado tanto no SAS Base como
no SAS Guide. A linguagem exatamente a mesma. Com isso, o cdigo ser:
libname dados 'C:\TESTES'; (Figura 47). Para executar o comando, basta clicar em
Run Now e em seguida verificar a execuo, na aba log.
Figura 47 - Cdigo SAS para criao de uma biblioteca, junto com o resultado do Log
Depois de criada a biblioteca o prximo passo a criao do Data
Source, ou seja, metadados que informam ao SAS Enterprise Miner sobre o nome, a
localizao da tabela SAS, o SAS cdigo que usado para definir um caminho da
biblioteca, os papis de cada varivel para anlise, os nveis de medio e outros
atributos que norteiam o processo de minerao de dados.
D.4.4 Criao de um Data Source
No software SAS Enterprise Miner pode-se inserir tabelas para anlise
por meio de uma biblioteca e um Data Source, ou pelo n File Import. O mais
recomendado que toda a manipulao e gerao de base de dados para a anlise
seja feita no SAS Enterprise Guide e que apenas o desenvolvimento da modelagem
seja feita no SAS Enterprise Miner. Com isso, nesse material, descreve-se apenas
da insero de uma base de dados que j esteja em formato SAS e no formato
exigido pelo modelo.
180
Como a biblioteca SAS j existe, o caminho para alcance dos dados j
est sinalizado no SAS Enterprise Miner. O que deve-se fazer informar ao Miner
caractersticas da base de dados em estudo. Deve-se descrever o papel de cada
varivel, seus nveis de medio e alguns outros atributos importantes para anlise.
Como feito na criao do diagrama, clica-se com o boto direito do
mouse na palavra Data Source e Create Data Source. Na etapa 1 opta-se pela
opo SAS Table, Avanar. Na etapa 2 especifca-se em qual biblioteca os dados
esto armazenados, como na Figura 48 e Avanar.
Figura 48 - Etapa 2 para criao de um Data Source
Na prxima etapa confere-se as informaes sobre o Data Source e
Avanar. No prximo passo especificar-se caractersticas de cada varivel da base
de dados. Existem duas maneiras de se fazer isso, pelo mtodo bsico ou pelo
mtodo avanado.
No caso do mtodo Bsico o SAS Enterprise Miner fornece as regras e
nveis iniciais com base no tipo e formato das variveis. Pode ser necessrio ajustar
estas regras e nveis de medio. J na opo Avanado, pode-se customizar (boto
Customize...) como sero as regras de cada varivel, como por exemplo (Figura 49)
a regra que cada varivel com mais de 50% de missing ser automaticamente
marcada como rejected, ou ento, que uma varivel intervalar que tiver menos de 20
nmeros distintos ser classificada como Nominal e que uma varivel classificatria
que tenha mais de 20 nveis ser rejeitada. Esses nmeros podem ser alterados
conforme a necessidade da anlise.
181
Muitas vezes a opo Avanado j ajuda com as classificaes, por
isso, muitas vezes o caminho preferido pelos analistas. Selecionado Advanced e
Avanar, ajusta-se a descrio de cada varivel, Figura 49.
A coluna Role especifica o papel de cada varivel na anlise. Por
exemplo, uma varivel pode ter o papel de ID (identificao), de input (variveis
independentes no modelo) ou de target (varivel dependente).
A coluna Level especifica o nvel de medio de cada varivel. Por
exemplo, uma varivel pode ser ordinal, nominal, intervalar, ou binria. Todas essas
classificaes sero usadas nos passos de modelagem, por isso este um passo
muito importante na anlise. Cada n tem uma exigncia sobre as variveis, com
isso deve-se ter em mente o tipo de anlise que ir realizar. Caso seja necessrio
mudar algo depois de finalizado o wizard do Data Source, pode-se fazer alteraes
na descrio das variveis direto no n da base de interesse.
Figura 49 - Etapa 5 para criao de um Data Source
A etapa seguinte oferece a opo de criar um modelo baseado no valor
de cada deciso (para utilizar essa ferramenta necessrio assegurar que existe
uma varivel target e que o nvel desta varivel no intervalar).
Finalmente, o ltimo passo especificar o papel da tabela SAS na
anlise. A tabela pode ser: Raw, Train, Validation, Test, Score ou Transaction. Cada
ferramenta no Miner exige um formato pr-definido das tabelas. Escolhe-se a opo
182
Raw quando tem-se dados brutos e deles faz-se parties para modelagem e
validao. A opo Train usada quando a base ser totalmente utilizada para a
construo dos modelos, Validation quando a base ser usada para validao dos
modelos e Test quando a base ser utilizada para testar os modelos. Base Score a
base em que aplica-se o modelo selecionado (o n Score exige uma base com essa
classificao, caso contrrio, no executa) e Transaction quando trabalha-se com
dados transacionais, por exemplo, para uma anlise de Associao.
Um ponto importante que deve ser mencionado sobre a definio do
que Data Source, que no o mesmo que uma tabela ou dados em formato Data
Set SAS. Data Source uma definio de metadados que fornece ao SAS
Enterprise Miner informaes sobre um conjunto de dados SAS ou tabela SAS.