Você está na página 1de 71

UNIVERSIDADE REGIONAL DE BLUMENAU

CENTRO DE CINCIAS EXATAS E NATURAIS


CURSO DE CINCIAS DA COMPUTAO
(BACHARELADO)

PROTTIPO DE UM SISTEMA ESPECIALISTA PARA


ANLISE DE CRDITO DE PESSOAS FSICAS

TRABALHO DE CONCLUSO DE CURSO SUBMETIDO UNIVERSIDADE


REGIONAL DE BLUMENAU PARA OBTENO DOS CRDITOS DE DISCIPLINA
COM NOME EQUIVALENTE NO CURSO DE CINCIAS DA COMPUTAO BACHARELADO

WANTOIR FEITEN

BLUMENAU (SC), NOVEMBRO/1999.


1999/2-40

UNIVERSIDADE REGIONAL DE BLUMENAU


CENTRO DE CINCIAS EXATAS E NATURAIS
CURSO DE CINCIAS DA COMPUTAO
(Bacharelado)

PROTTIPO DE UM SISTEMA ESPECIALISTA PARA


ANLISE DE CRDITO DE PESSOAS FSICAS

TRABALHO DE CONCLUSO DE CURSO SUBMETIDO UNIVERSIDADE


REGIONAL DE BLUMENAU PARA A OBTENO DOS CRDITOS NA
DISCIPLINA COM NOME EQUIVALENTE NO CURSO DE CINCIAS DA
COMPUTAO BACHARELADO

WANTOIR FEITEN

BLUMENAU, NOVEMBRO/1999

PROTTIPO DE UM SISTEMA ESPECIALISTA PARA


ANLISE DE CRDITO DE PESSOAS FSICAS
WANTOIR FEITEN

ESTE TRABALHO DE CONCLUSO DE CURSO, FOI JULGADO ADEQUADO


PARA OBTENO DOS CRDITOS NA DISCIPLINA DE TRABALHO DE
CONCLUSO DE CURSO OBRIGATRIA PARA OBTENO DO TTULO DE:

BACHAREL EM CINCIAS DA COMPUTAO

Prof. Roberto Heinzle Orientador na FURB

Prof. Jos Roque Voltolini da Silva Coordenador do TCC

BANCA EXAMINADORA

Prof. Roberto Heinzle

Prof. Marcel Hugo

Prof. Oscar Dalfovo

ii

Este trabalho de concluso de curso dedicado minha


noiva, pelo apoio e incentivos recebidos ao longo destes
anos de graduao.

iii

AGRADECIMENTOS

Ao Professor e Orientador Roberto Heinzle pelo acompanhamento e


incentivo na realizao do trabalho.

A todos os amigos, professores e colegas do curso de Cincias da


Computao pelo incentivo, ajuda, apoio e compreenso recebidos
durante os anos de graduao.

iv

SUMRIO
LISTA DE FIGURAS .............................................................................................................viii
LISTA DE TABELAS ............................................................................................................... x
RESUMO .................................................................................................................................. xi
ABSTRACT .............................................................................................................................xii
1 INTRODUO....................................................................................................................... 1
1.1 Objetivos do Trabalho .......................................................................................................... 2
1.2 Organizao do Trabalho...................................................................................................... 2
2 INTELIGNCIA ARTIFICIAL.............................................................................................. 3
2.1 Conceituao ........................................................................................................................ 3
2.2 Objetivos da Inteligncia Artificial ...................................................................................... 3
2.3 Aplicaes da Inteligncia Artificial .................................................................................... 3
2.4 SISTEMAS ESPECIALISTAS ............................................................................................ 4
2.4.1 Conceituao ..................................................................................................................... 4
2.4.2 Evoluo dos Sistemas Especialistas................................................................................. 4
2.4.3 Arquitetura de um Sistema Especialista ............................................................................ 5
2.4.3.1 Base de Conhecimentos.................................................................................................. 5
2.4.3.2 Motor de Inferncia ........................................................................................................ 6
2.4.4 Representao do Conhecimento....................................................................................... 6
2.4.5 Ferramentas de construo de Sistemas Especialistas....................................................... 7
2.4.6 Limitaes de um Sistema especialista ............................................................................. 7
3 TEORIA DOS CONJUNTOS DIFUSOS ............................................................................... 9
3.1 Definio .............................................................................................................................. 9
3.2 Funo de Pertinncia......................................................................................................... 10
3.3 Sistemas Difusos ................................................................................................................ 11

3.4 Raciocnio Difuso ............................................................................................................... 12


3.5 Nmeros Difusos ................................................................................................................ 12
3.6 Variveis Lingsticas ........................................................................................................ 13
3.7 Desfusificao .................................................................................................................... 14
4 DATA MINING .................................................................................................................... 15
4.1 Definio ............................................................................................................................ 15
4.2 Prospeco de conhecimento.............................................................................................. 15
4.3 As etapas do processo de KDD .......................................................................................... 16
4.4 Utilidades do Data Mining ................................................................................................. 18
4.4.1 Classificao.................................................................................................................... 18
4.4.2 Estimativa ........................................................................................................................ 19
4.4.3 Agrupamento por afinidade ............................................................................................. 19
4.4.4 Previso ........................................................................................................................... 20
4.4.5 Segmentao.................................................................................................................... 20
4.5 Tcnicas de Data Mining.................................................................................................... 21
4.5.1 Anlise de seleo estatstica........................................................................................... 24
4.5.2 MBR ................................................................................................................................ 24
4.5.3 Algortmos genticos....................................................................................................... 25
4.5.4 Deteco de agrupamentos .............................................................................................. 25
4.5.5 Anlise de vnculos.......................................................................................................... 25
4.5.6 rvores de deciso e induo de regras........................................................................... 26
4.5.7 Redes neurais artificiais................................................................................................... 26
5 ANLISE DE CRDITO ..................................................................................................... 27
5.1 Introduo........................................................................................................................... 27
5.2 Processo de Tomada de Deciso ........................................................................................ 27
5.2.1 Experincia ...................................................................................................................... 28

vi

5.2.2 Julgamento....................................................................................................................... 28
5.2.3 Ambiente ......................................................................................................................... 28
5.3 Risco ................................................................................................................................... 29
5.4 Anlise Discriminante ........................................................................................................ 29
5.5 Modelo de Escoragem ........................................................................................................ 31
6 O PROTTIPO ..................................................................................................................... 35
6.1 Introduo........................................................................................................................... 35
6.2 Modelagem Essencial ......................................................................................................... 35
6.3 Plataforma de Desenvolvimento......................................................................................... 38
6.4 Aquisio do Conhecimento............................................................................................... 39
6.5 Representao do Conhecimento ....................................................................................... 42
6.6 Utilizao de Data Mining.................................................................................................. 42
6.7 Modelagem Difusa ............................................................................................................. 43
6.7.1 Conjuntos difusos ............................................................................................................ 44
6.7.2 Funes de pertinncia .................................................................................................... 45
6.7.3 Mquina de inferncia ..................................................................................................... 46
6.8 Testes Realizados ............................................................................................................... 47
7 CONCLUSES E SUGESTES.......................................................................................... 51
7.1 Concluses.......................................................................................................................... 51
7.2 Limitaes .......................................................................................................................... 51
7.3 Sugestes para trabalhos futuros ........................................................................................ 52
APNCIDE 1 - REGRAS UTILIZADAS ............................................................................... 53
REFERNCIAS BIBLIOGRFICAS ..................................................................................... 56

vii

LISTA DE FIGURAS
Figura 1: Componentes de um Sistema Especialista .................................................................. 5
Figura 2: Exemplo de funo de pertinncia ............................................................................ 11
Figura 3: Conjunto difuso de nmeros reais prximos de 6..................................................... 12
Figura 4: Conjunto difuso convexo .......................................................................................... 13
Figura 5: Conjunto difuso no convexo ................................................................................... 13
Figura 6: Os passos do processo de KDD ................................................................................ 16
Figura 7: Modelo recebe entradas e produz informaes......................................................... 23
Figura 8: Correlao entre caractersticas ................................................................................ 32
Figura 9: Distribuio de score - 1 ........................................................................................... 32
Figura 10: Distribuio de score - 2 ......................................................................................... 33
Figura 11: Ponto de corte 1 ...................................................................................................... 33
Figura 12: Ponto de corte 2 ...................................................................................................... 33
Figura 13: Divergncia ............................................................................................................. 34
Figura 14: Modelo Ambiental - diagrama de contexto ............................................................ 35
Figura 15: Modelo Comportamental - diagrama de fluxo de dados (DFD) ............................. 36
Figura 16: Modelo Entidade x Relacionamento ....................................................................... 37
Figura 17: Menu Principal (Creditor)....................................................................................... 39
Figura 18: Cadastro .................................................................................................................. 40
Figura 19: Dados Pessoais........................................................................................................ 40

viii

Figura 20: Dados Profissionais................................................................................................. 41


Figura 21: Dados Adicionais .................................................................................................... 41
Figura 22: Perfil Desejado........................................................................................................ 43
Figura 23: Limite de Crdito .................................................................................................... 43

ix

LISTA DE TABELAS
Tabela 1: Tabela de score de duas caractersticas - idade ........................................................ 30
Tabela 2: Tabela de score de duas caractersticas - casa prpria/alugada ................................ 31
Tabela 3: Perfil exemplo........................................................................................................... 48
Tabela 4: Dados cadastrais do cliente exemplo........................................................................ 48

RESUMO

O presente estudo consiste em desenvolver um prottipo que auxilie na


determinao do limite de crdito que poder ser concedido uma pessoa fsica, minimizando
o risco de inadimplncia. O prottipo a ser implementado um sistema especialista que
possibilita a tomada de decises utilizando uma base de dados existente e de alguns
questionamentos especficos para a ocasio. Para a implementao do prottipo ser utilizada
uma filosofia de data mining, para a obteno dos dados da pessoa para serem usados no
processo de deciso de limite de crdito a ser sugerido. Esta sugesto de limite de crdito ser
obtida atravs de iteraes, realizadas com um conjunto de regras baseadas em Lgica Difusa,
sobre informaes extradas de um banco de dados.

xi

ABSTRACT

This work consist of developing a prototype auxiliary in the determination of


credit limit of a person, minimizing the risc of inadimplence. The prototype to be
implemented is an expert system which alow decision making by using an existent data base
and a few specific question to the occasion. For the implementation of the prototype is used
data mining tecnic to obtain person datas to be used in the process of the credit limit decision.
This limit is calculated by iterations, realized with one rules set based in Fuzzy Logic, and
informations extract of one data base.

xii

1 INTRODUO
Acompanhando a economia nacional nos ltimos anos, verifica-se que as diversas
mudanas promovidas pelo governo impactaram diretamente a concesso de crdito pessoal,
tanto no setor bancrio/financeiro como no comrcio. O processo de mudana de atitude, no
que tange o crdito para pessoas fsicas, dos tempos da inflao elevada para o momento de
estabilidade, gerou uma desorientao para as pessoas e para as instituies financeiras,
acarretando um aumento considervel na inadimplncia [ALM92].
Neste instante, aprofundaram-se os estudos na anlise de caractersticas das pessoas,
para desenvolver Sistemas de Apoio Deciso capazes de auxiliar na definio de quanto
poderia ser concedido de crdito. Muitos dos modelos de anlise de crdito para pessoas
fsicas desenvolvidos at o presente baseiam-se em clculos matemticos, suscetveis a falhas
por no considerar fatores de natureza humana. Desenvolveram-se tambm estudos utilizando
Inteligncia Artificial, especificamente com Sistemas Especialistas Probabilsticos, que
utilizam Bases de Conhecimento e regras de produo.
Este trabalho consiste numa pesquisa sobre o processo de anlise e concesso de
crdito para pessoas fsicas, e desenvolvimento de um prottipo para este fim, utilizando
Inteligncia Artificial, atravs de tecnologia de Sistemas Especialistas associado a mtodos de
data mining e lgica difusa. As informaes sobre os clientes sero coletadas atravs de
mdulo de cadastro, para posteriormente serem utilizadas na definio do perfil do cliente
ideal para concesso de crdito, minimizando o risco de inadimplncia.
Para a determinao do perfil do cliente ideal ser utilizada a filosofia de data mining,
para vasculhar os dados cadastrais dos clientes e descobrir caractersticas associadas aos
clientes que no apresentem histricos de inadimplncia. Este perfil ser utilizado ento, pelo
analista de crdito, para calcular o valor considerado tecnicamente possvel de ser
emprestado, para determinado cliente, com menor risco de inadimplncia. Este clculo ser
baseado em informaes obtidas pelo estudo dos conceitos e mtodos para concesso de
crdito utilizados atualmente, mas aplicados de forma distinta da usual. A definio deste
valor ser feita com uso de lgica difusa, atravs de inferncia com regras de produo, que
faro ponderaes entre as caractersticas do perfil do cliente ideal e as caractersticas do
cliente para o qual se deseja conceder crdito.

1.1 OBJETIVOS DO TRABALHO


Com este trabalho objetiva-se desenvolver um prottipo para auxlio na determinao
de um limite de crdito para emprstimo pessoas fsicas, de forma a minimizar o risco de
inadimplncia. Para tanto utilizar-se- um sistema especialista que associa o uso de Lgica
Difusa e data mining aplicados sobre um conjunto de informaes extradas de um Banco de
Dados.
Ser estudado Data Mining e Sistemas Especialistas, com utilizao conjunta de
Lgica Difusa, utilizando a ferramenta de desenvolvimento de aplicativos Delphi. Descrio
da especificao e implementao de um prottipo de Sistema Especialista para Anlise de
Crdito, para apoio deciso de crdito para instituies financeiras ou empresas comerciais.

1.2 ORGANIZAO DO TRABALHO


O trabalho est organizado em oito captulos, descrevendo:

Captulo 1 - Introduo ao trabalho, com breve descrio do contexto deste,

seus objetivos e sua organizao.

Captulo 2 - Conceituao de Inteligncia Artificial, descrio de seus

objetivos e aplicaes. Fundamentao terica relativa a Sistemas Especialistas,


abrangendo desde conceituao at suas limitaes.

Captulo 3 - Fundamentao terica da Teoria dos Conjuntos Difusos.

Captulo 4 - Fundamentao terica de Data Mining, compreendendo

conceituao, descrio de prospeco de conhecimento, utilidades e tcnicas.

Captulo 5 - Consiste na fundamentao terica da Anlise de Crdito;

Captulo 6 - Apresentao do prottipo desenvolvido;

Captulo 7 - Concluses e sugestes para futuros trabalhos.

2 INTELIGNCIA ARTIFICIAL
2.1 CONCEITUAO
H muito tempo os pesquisadores e cientistas estudam a inteligncia humana com o
intuito de entender seu funcionamento. Diversas pesquisas foram desenvolvidas tentando
reproduzir a forma humana de pensar.
No mbito da computao, utiliza-se a expresso Inteligncia Artificial para designar o
estudo do comportamento inteligente. Mas o que a Inteligncia Artificial? Segundo
[RAB95], " o resultado da aplicao de tcnicas e recursos, especialmente de natureza no
numrica, viabilizando a soluo de problemas que exigiriam do humano certo grau de
raciocnio e de percia". Para [HAR88], "a Inteligncia Artificial um campo de estudos que
busca o desenvolvimento de sistemas inteligentes. Um sistema inteligente aquele capaz de
resolver problemas, que, quando resolvidos por humanos, exigem um comportamento dito
inteligente".

2.2 OBJETIVOS DA INTELIGNCIA ARTIFICIAL


A Inteligncia Artificial tem como objetivo compreender os princpios que permitem
simular a inteligncia humana por meio da criao de modelos computacionais de processos
cognitivos, bem como desenvolver sistemas (hardware e software) mais teis e com
capacidade de deduo e percepo [RAB95].

2.3 APLICAES DA INTELIGNCIA ARTIFICIAL


A Inteligncia Artificial (IA) pode ser aplicada onde existe inferncia humana e esta
necessita de alguma forma de auxlio ou automatizao. Dentre as diversas reas da IA, citase como exemplo a robtica, o processamento de linguagem natural, a computao algbrica,
os sistemas especialistas, o reconhecimento de padres, as bases de dados inteligentes, a
prova de teoremas e os jogos. Podem existir outras aplicaes, porm estas so as que mais
tem se destacado nos ltimos anos.

2.4 SISTEMAS ESPECIALISTAS


2.4.1 CONCEITUAO
[LEV88] afirma que "Sistemas Especialistas so programas de computador que usam
conhecimento especializado e procedimentos de inferncia para resolver problemas que
normalmente so solucionados por especialistas humanos altamente experientes". Alguns
problemas somente conseguem ser resolvidos por pessoas com conhecimento especializado
sobre o assunto, treinamento e experincia. Estas pessoas so denominadas especialistas. Para
solucionar estes mesmos problemas utilizando os recursos computacionais, utiliza-se os
Sistemas Especialistas, que visam reproduzir o processo de resoluo de um especialista
humano.
J [RIB87] escreve que "um sistema especialista aquele que projetado e
desenvolvido para atender a uma aplicao determinada e limitada do conhecimento humano.
capaz de emitir uma deciso, com o apoio em conhecimento justificado, a partir de uma
base de informaes, tal qual um especialista de determinada rea do conhecimento humano".
Os Sistemas Especialistas na maioria das vezes, quando no solucionam o problema,
diminuem o universo onde localiza-se a soluo, facilitando a busca do resultado desejado.

2.4.2 EVOLUO DOS SISTEMAS ESPECIALISTAS


No final da dcada de 60, os primeiros pesquisadores de Inteligncia Artificial
concluram que apenas produzindo um conjunto resumido de regras, e associ-las um
computador potente, no seria possvel alcanar o desempenho da mente humana. No
conseguiriam obter sequer o desempenho da mente humana para solucionar um problema
especfico. Notaram que o objetivo procurado era demasiadamente grande.
Trataram ento de desenvolver pesquisas no sentido de conseguir atender soluo de
problemas especficos, sem alternativas de aprendizado ou com aprendizado reduzido. Apesar
dos resultados alcanados serem pequenos, satisfizeram os pesquisadores, que durante a
dcada de 70 desenvolveram diversos Sistemas Especialistas. Podem ser destacados o
Prospector e o Mycin, desenvolvidos para Gelogos e Mdicos, respectivamente. Desde

ento, as pesquisas tem evoludo de forma rpida, principalmente em torno da aquisio e


representao do conhecimento.

2.4.3 ARQUITETURA DE UM SISTEMA ESPECIALISTA


Para exemplificar a estrutura de um Sistema Especialista genrico, a figura 1 mostra o
modelo proposto por [HEI95].
Figura 1: Componentes de um Sistema Especialista.
BASE DE
CONHECIMENTOS

MECANISMO DE
APRENDIZAGEM E
AQUISIO DO
CONHECIMENTO

MOTOR DE
INFERNCIA

QUADRO NEGRO

SISTEMA DE
JUSTIFICAO

SISTEMA DE
CONSULTA

Fonte: [HEI95]

A representao da figura 1 no unnime entre os autores, porm aceita pela


maioria deles. Tambm cabe ressaltar que esta estrutura pode sofrer alteraes, dependendo
da implementao adotada e da forma de representao do conhecimento. Dentre os mdulos
constantes na figura 1, sero descritos a seguir os que tem maior relevncia para o presente
trabalho.

2.4.3.1 BASE DE CONHECIMENTOS


o mdulo principal de todo Sistema Especialista, pois contm o conhecimento
necessrio para que se consiga alcanar o objetivo pretendido. Pode-se dizer que a base de
conhecimentos contm um somatrio de crenas, fatos e heursticas.

Este conhecimento passado ao sistema pelo especialista e armazenado de uma forma


prpria que permite ao sistema fazer posteriormente o processamento ou inferncia. A forma
como o conhecimento representado pode variar, sendo as mais comuns, regras de produo,
frames e redes semnticas.
A fase de construo da base de conhecimentos uma das mais complexas na
implementao de um sistema especialista pois o conhecimento de um especialista no se
encontra formalizado, precisando portanto de um trabalho prvio para tal. A base de
conhecimentos est interligada com quase todos os demais elementos do sistema [HEI95].

2.4.3.2 MOTOR DE INFERNCIA


As informaes armazenadas numa base de conhecimentos so, evidentemente,
estticas at que uma fora externa analise e processe este conhecimento para ele tirar
proveito. Este mecanismo, tambm conhecido como mquina de inferncia, responsvel por
buscar na base o conhecimento necessrio a ser avaliado em cada situao, direcionar o
processo de raciocnio, gerenciar situaes de incerteza e levar ao resultado final.
Entretanto, de forma geral, pode-se afirmar que o processo envolve um encadeamento
lgico que permita tirar concluses a partir do conhecimento existente. O motor de inferncia
, portanto, o responsvel pela ao repetitiva de buscar, analisar e gerar novos
conhecimentos [HEI95]. A forma de anlise e interpretao envolve diversos tipos de
solues e s vezes at manipulao de incertezas, variando conforme o problema que se
deseja resolver.

2.4.4 REPRESENTAO DO CONHECIMENTO


Segundo [LAP93], a representao do conhecimento constitui-se no conjunto de
mecanismos usados para armazenar e manipular o conhecimento. Para

[PER95],

representao do conhecimento caracteriza-se por mtodos usados para modelar os


conhecimentos de especialistas em algum campo, de forma eficiente, e coloc-los prontos
para serem acessados pelo usurio de um sistema inteligente.
Existem vrias maneiras de representar o conhecimento, sendo as principais as
descritas a seguir:

a) regras de produo: uma maneira bastante utilizada nos diversos sistemas


especialistas existentes no mercado mundial [PER95]. Sua estrutura constitui-se basicamente
de uma premissa, ou conjunto de premissas, e uma concluso, ou conjunto de concluses;
b) redes semnticas: so estruturas formadas por ns, conectados entre si atravs de
arcos rotulados. Os ns representam objetos, conceitos, situaes ou aes, e os arcos
representam relaes entre os ns [LAP93];
c) frames: tambm so chamados de quadros e compem-se de estruturas de
preenchimento que descrevem uma entidade real ou imaginria. Um frame constitudo por
um nome, uma coleo de atributos, chamados de escaninhos ou slots, e valores associados a
eles.

2.4.5 FERRAMENTAS DE CONSTRUO DE SISTEMAS


ESPECIALISTAS
Conforme [HEI95] uma das maiores dificuldades na implementao de Sistemas
Especialistas quanto ao ambiente de programao. Desde 1958, quando foi criado o LISP,
diversas ferramentas foram criadas para os mais diversos tipos de aplicaes da inteligncia
artificial. As linguagens de programao que tem maior destaque so o LISP, o FORTRAN e
o PROLOG, sendo que cada ambiente possui suas caractersticas especficas, definindo a rea
em que so utilizados.
Visando facilitar o desenvolvimento de aplicaes, pois considerou-se que vrios
sistemas utilizariam uma mesma mquina de inferncia, foram criadas ferramentas,
denominadas Shell, para transcrever para o computador os Sistemas Especialistas.

2.4.6 LIMITAES DE UM SISTEMA ESPECIALISTA


Os pontos negativos, comumente ressaltados, segundo [RAB95], so que sistemas
especialistas no so bons em representar o conhecimento temporal e espacial, em executar
raciocnio de senso comum, em manipular conhecimento inconsciente e em reconhecer os
seus prprios limites. Adicionalmente h muitas falhas nas ferramentas de IA disponveis,
especialmente no que concerne manipulao concomitante de vrias formas de
representao do conhecimento e de sua aquisio.

Para [PAC91], uma anlise do processo de resoluo de problemas por parte do ser
humano evidencia que este freqentemente considera situaes com informaes de natureza
qualitativa, incompleta ou incerta. O ser humano, quando busca por determinada soluo,
pressupe que o tratamento de informaes de tal natureza no se constitui em um obstculo
intransponvel. Para os sistemas especialistas, no entanto, o tratamento deste tipo de
informaes problemtico e tem sido alvo de amplos estudos.
Contudo, para manipular informaes de natureza qualitativa, incompleta ou incerta,
pode-se associar aos sistemas especialistas a Teoria dos Conjuntos Difusos. Esta teoria ser
abordada no captulo 3.

3 TEORIA DOS CONJUNTOS DIFUSOS


Segundo [RAB95], "existe em nossa comunicao quotidiana muitas palavras e
sentenas com significado no preciso ou vago. Isto acontece porque, tanto quem fala como
quem houve, no necessita de informaes mais precisas e est acostumado a lidar com tais
tipos de impreciso. Por exemplo, algum que no restaurante solicita uma sopa bem quente de
barbatana de tubaro, no est preocupado com a real temperatura da sopa. O que ele deseja
que a temperatura da sopa esteja bastante acima do que ele considera como morna.
Certamente ningum capaz de determinar o ponto preciso em que a sopa passa de morna
para quente".
Interessado em representar tais imprecises, o professor Lofti A Zadeh, da
Universidade da Califrnia, Berkeley, desenvolveu a teoria dos conjuntos difusos, publicando
um primeiro artigo sobre o assunto em 1962. Zadeh tratou o assunto pela denominao fuzzy
sets, que traduzida para o portugus como conjuntos difusos ou conjuntos nebulosos.
Esta teoria define que um conjunto no apresenta limites bem definidos, podendo um
elemento pertencer parcialmente a ele, ou pertencer a dois conjuntos ao mesmo tempo. Os
conjuntos difusos so classes que possuem elementos que esto associados a estas por graus
de pertinncia, que uma medida que quantifica o grau ou a fora com que estes elementos
pertencem a um determinado conjunto. O mundo real indica estas classes atravs da incerteza,
impreciso ou do duvidoso.

3.1 DEFINIO
Na teoria clssica dos conjuntos, um elemento pertence ou no a um determinado
conjunto, restringindo as fronteiras dos conjuntos e dando o mesmo peso a diferentes objetos.
Para conjuntos ordinrios, podemos associar o valor 1 aos elementos pertencentes a um
conjunto e 0 para os elementos que no pertencem a ele. A funo que associa estes valores
denominada de funo caracterstica do conjunto.
A teoria dos conjuntos difusos tambm permite que se tenha uma funo caracterstica,
a qual chamada de funo de pertinncia. Esta funo de pertinncia, em geral, assume
valores no intervalo [0,1] e faz com que um objeto passe a no mais ser classificado como

estritamente pertencente ou no a um conjunto, mas sim, lhe designa graus de pertinncia em


relao a diferentes conjuntos [RAU96]. Tomando por exemplo um conjunto X:
a) para os elementos que com certeza pertencem ao conjunto X, atribudo um grau
de pertinncia igual a 1;
b) para os elementos que com certeza no pertencem ao conjunto X, atribudo um
grau de pertinncia igual a 0;
c) para os elementos que no se pode afirmar com certeza se pertencem ao conjunto
X, atribudo um valor intermedirio, que tende para 1, quanto maiores forem as
razes para crer que ele pertena ao conjunto X.

3.2 FUNO DE PERTINNCIA


O componente crucial de um conjunto difuso sua funo de pertinncia, a qual
quantifica o quanto cada objeto pertence ao conjunto. Assim, as operaes sobre conjuntos
difusos so definidas pela funo de pertinncia.
Segundo [WEL94], funes de pertinncia so mecanismos atravs dos quais
conjuntos difusos interagem com o mundo real. O domnio de uma funo de pertinncia o
conjunto de valores possveis para uma dada varivel.
A figura 2 demonstra um exemplo empregando a funo trapezoidal, onde x
representa o lucro anual (em milhes de US$) de uma empresa. O lucro pode ser
caracterizado como:
a) pequeno(x) = (4 - x)/2 se 2 < x < 4, 0 se x 4 e 1 se x 2
b) mdio(x) = (x - 2)/2 se 2 < x < 4, (8 - x)/2 se 6 < x < 8, 0 se 2 x 8 e 1 se 4
x6
c) grande(x) = (x - 6)/2 se 6 < x < 8, 0 se x 6 e 1 se x 8

10

Figura 2: Exemplo de funo de pertinncia.

2,5
1,0
0,75
Pequeno

Mdio

Grande

0,25

Fonte: [WEL94]

Utilizando este exemplo, assumindo que o valor de x seja 2,5, tem-se um valor que
est contido no conjunto difuso pequeno com um grau de pertinncia igual a 0,75 e
pertencendo a mdio com um grau de pertinncia igual a 0,25.

3.3 SISTEMAS DIFUSOS


Um sistema difuso consiste na combinao de conjuntos difusos definidos por
variveis de entrada e sada, junto com um conjunto de regras difusas, ligando um ou mais
conjuntos difusos de entrada a um conjunto difuso de sada.
Os sistemas difusos so utilizados geralmente em aplicaes que envolvem controle e
redes neurais como reconhecimento de padres. Sabe-se que os japoneses utilizam sistemas
difusos em seus carros para controle de frenagem, suspenso ativa, controles de ignio e
transmisso automtica. Sistemas difusos tambm podem ser aplicados em modelos no
lineares. Nestes casos, para executar um processo de tomada de deciso, por exemplo, estes
sistemas baseiam-se em regras que utilizam variveis lingsticas difusas.
As regras que compem estes sistemas so do tipo "SE ENTO", onde variveis
utilizadas nos antecedentes e nos conseqentes so variveis lingsticas. Os antecedentes
situam-se entre o SE e o ENTO, e os conseqentes so posicionados aps o ENTO.

11

3.4 RACIOCNIO DIFUSO


O raciocnio difuso o processo pelo qual obtm-se uma concluso, geralmente
imprecisa, deduzida atravs de um conjunto de premissas, tambm imprecisas.
Na lgica clssica, os valores verdade so zero ou um, e o vocabulrio definido
atravs desses valores verdade sob a forma de tabelas verdade. A lgica difusa baseia-se nas
lgicas multivaloradas, em que os valores verdade variam no intervalo [0,1], podendo assumir
os "meios termos". Zadeh diz que a lgica difusa uma extenso da lgica multivalorada, em
que os valores verdade so variveis lingsticas.
Para [RAB95], os melhores argumentos a favor da lgica difusa esto localizados no
em seus fundamentos conceituais, mas em suas potenciais aplicaes. Verifica-se que a lgica
difusa tem larga aplicabilidade em reas de controle e processos de tomada de deciso, onde a
modelagem matemtica precisa se torna invivel ou at impossvel, dada a impreciso dos
elementos envolvidos, ou da existncia de informaes imprecisas e incompletas.

3.5 NMEROS DIFUSOS


[PER95] afirma que "um nmero difuso um conjunto difuso que simultaneamente
convexo e normalizado, ou seja, um subconjunto difuso de nmeros reais". Um conjunto
difuso dito normalizado quando sua altura for 1. A altura (h) do conjunto o limite superior
do prprio conjunto [PAC91]. Na figura 3 v-se uma exemplificao de um conjunto difuso
normalizado.
Figura 3: Conjunto difuso de nmeros reais prximos de 6.

1,0
h

0,0
(6-)

(6+)

Fonte: [RAU96]

Para [ROS95], um conjunto difuso convexo descrito por uma funo de pertinncia
cujos valores de pertinncia so crescentes, ou decrescentes, ou ainda crescentes e

12

decrescentes, a medida que se incrementa os valores para os elementos no universo. Em


outras palavras, para quaisquer elementos x, y e z pertencentes ao conjunto difuso A, a
relao x < y < z implica que A(y) min [A(x),A(z)]. Na figura 4 mostrado um conjunto
difuso convexo e na figura 5 um conjunto difuso no convexo.
Figura 4: Conjunto difuso convexo.
h

A(y)

1,0

A(z)

A(x)
0,0

Figura 5: Conjunto difuso no convexo.


h
1,0

A(z)
A(x)
A(y)
0,0
x

Segundo [PER95], um exemplo de nmeros difusos o conjunto difuso formado pelas


expresses "pequeno", "aproximadamente 8" e "mais ou menos grande".

3.6 VARIVEIS LINGSTICAS


Sendo a teoria dos conjuntos difusos capaz de tratar a modelagem de situaes
complexas e imprecisas, esta tambm permite trabalhar com variveis menos numricas e
menos precisas, chamadas de variveis lingsticas. [ROS95] descreve que uma varivel
lingstica difere de uma varivel numrica j que seus valores no so nmeros, mas palavras
ou sentenas em uma linguagem natural ou artificial. J que palavras, em geral, so menos
precisas que nmeros, o conceito de varivel lingstica serve ao propsito de prover um meio

13

de aproximar caracterizaes de fenmenos, os quais so muito complexos ou mal definidos


quando descritos em termos quantitativos convencionais.
[PER95] afirma que "o uso deste tipo de varivel permite que se faa estimativas
numricas de termos da linguagem natural. Para ele, uma rea de aplicao particularmente
importante das variveis lingsticas a do raciocnio aproximado.

3.7 DESFUSIFICAO
Existem situaes em que a sada de um processo difuso necessita ser um valor
quantitativo. Este valor pode ser apurado a partir de um nmero difuso, atravs do processo
denominado desfusificao. Segundo [ROS95], existem, pelo menos, sete mtodos
pesquisados e popularizados, de desfusificao, destacando-se o da pertinncia mxima, o
mtodo

da

centride

mdia

14

ponderada

da

pertinncia

mxima.

4 DATA MINING
4.1 DEFINIO
A evoluo tecnolgica dos ltimos anos tornou relativamente fcil o acmulo de
dados. Como conseqncia surgiram grandes repositrios de dados, agregados de forma
organizada e eficiente. Ao mesmo tempo, informao passa a ser valorizada como nunca antes
na histria, e os dados armazenados, vasculhados por especialistas, a procura de tendncias e
padres.
Entretanto, a anlise desses dados ainda demorada, dispendiosa, pouco automatizada,
e sujeita a erros, mal-entendidos e falta de acurcia. A automatizao dos processos de anlise
de dados, com a utilizao de softwares ligados diretamente massa de informaes, se
tornou uma necessidade, j que o aproveitamento das informaes j existentes,
transformando-as em conhecimento, permite avanos sem paralelo na histria do
desenvolvimento dos bancos de dados [FIG98].
Neste captulo apresentado o Data Mining, que a explorao e anlise, por meios
automticos ou semi-automticos, de uma grande quantidade de dados para descobrir padres
e regras significativos [BER97]. Sero descritas as etapas do Processo de KDD (Knowledge
Discovery in Databases - KDD) e as tarefas que o Data Mining pode desempenhar.

4.2 PROSPECO DE CONHECIMENTO


Atribuindo algum significado especial a um dado, este se transforma em uma
informao. Se especialistas elaboram uma regra, a interpretao do confronto entre a
informao e a regra constitui um conhecimento [FIG98].
Prospeco de conhecimento em bases de dados (Knowledge Discovery in Databases KDD) um processo que envolve a automao da identificao e do reconhecimento de
padres em um banco de dados. Trata-se de uma pesquisa de fronteira, que comeou a se
expandir mais rapidamente nos ltimos cinco anos. Sua principal caracterstica a extrao
no-trivial de informaes a partir de uma base de dados de grande porte. Essas informaes
so necessariamente implcitas, previamente desconhecidas, e potencialmente teis [FIG98].

Devido a essas caractersticas incomuns, todo o processo de KDD depende de uma


nova gerao de ferramentas e tcnicas de anlise de dados, e envolve diversas etapas. A
principal, que forma o ncleo do processo, e que muitas vezes se confunde com ele, chama-se
Data Mining, ou Minerao de Dados, tambm conhecido como processamento de padres de
dados, arqueologia de dados, ou colheita de informao (information harvesting).
O KDD compreende todo o processo de descoberta de dados, enquanto o Data Mining
refere-se a aplicao de algoritmos para extrao de padres de dados, sem os passos
adicionais do KDD e da anlise dos resultados [AVI98].

4.3 AS ETAPAS DO PROCESSO DE KDD


O processo de KDD (figura 6) comea com o entendimento do domnio da aplicao e
dos objetivos finais a serem atingidos. Em seguida, feito um agrupamento organizado de
uma massa de dados, alvo da prospeco. A etapa da limpeza dos dados (data cleaning) vem
a seguir, atravs de um pr-processamento dos dados, visando adequ-los aos algoritmos. Isso
se faz atravs da integrao de dados heterogneos, eliminao de incompletude dos dados,
repetio de registros, problemas de tipagem, etc. Essa etapa pode tomar at 80% do tempo
necessrio para todo o processo, devido s bem conhecidas dificuldades de integrao de
bases de dados heterogneas [FAY96].
Figura 6: Os passos do processo de KDD.

Fonte: [FIG98]

Os dados pr-processados devem ainda passar por uma transformao que os armazena
adequadamente, visando facilitar o uso das tcnicas de Data Mining. Em algumas aplicaes
de Data Mining mais especficas, ferramentas avanadas de representao de conhecimento
podem descrever o contedo de um banco de dados por si s, usando esse mapeamento como
uma meta-camada para os dados.

16

Prosseguindo no processo, chega-se fase de Data Mining especificamente, que


comea com a escolha dos algoritmos a serem aplicados. Essa escolha depende
fundamentalmente do objetivo do processo de KDD: classificao, segmentao,
agrupamento por afinidades, estimativas, etc. De modo geral, na fase de Data Mining,
ferramentas especializadas procuram padres nos dados. Essa busca pode ser efetuada
automaticamente pelo sistema ou interativamente com um analista, responsvel pela gerao
de hipteses.
Diversas ferramentas distintas, como redes neurais, induo de rvores de deciso,
sistemas baseados em regras e programas estatsticos, tanto isoladamente quanto em
combinao, podem ser ento aplicadas ao problema. Em geral, o processo de busca
interativo, de forma que os analistas revem o resultado, formam um novo conjunto de
questes para refinar a busca em um dado aspecto das descobertas, e realimentam o sistema
com novos parmetros.
Ao final do processo, o sistema de Data Mining gera um relatrio das descobertas, que
passa ento a ser interpretado pelos analistas de minerao. Somente aps a interpretao das
informaes obtidas encontra-se o conhecimento.
Uma diferena significante entre Data Mining e outras ferramentas de anlise est na
maneira como exploram as interrelaes entre os dados. As diversas ferramentas de anlise
disponveis dispem de um mtodo baseado na verificao, isto , o usurio constri hipteses
sobre interrelaes especficas e ento verifica ou refuta, atravs do sistema. Esse modelo
torna-se dependente da intuio e habilidade do analista em propor hipteses interessantes, em
manipular a complexidade do espao de atributos, e em refinar a anlise baseado nos
resultados de consultas ao banco de dados potencialmente complexas. J o processo de Data
Mining fica responsvel pela gerao de hipteses, garantindo mais rapidez, acurcia e
completude aos resultados.
Estas etapas so interdependentes, pois os resultados de cada uma so a entrada da
prxima etapa. Toda a abordagem dirigida por resultados e cada estgio depende dos
resultados do estgio anterior [FIG98]. Mas no existe uma ordem ou seqncia totalmente
nica para o andamento deste processo, porque isso depende das tcnicas empregadas e dos
dados sobre os quais o KDD est sendo aplicado [AVI98]. A qualquer momento, por

17

exemplo, pode-se voltar o processo de KDD para uma etapa anterior, desde que a tcnica e os
dados empregados permitam.

4.4 UTILIDADES DO DATA MINING


O Data Mining pode desempenhar uma srie limitada de tarefas dependendo das
circunstncias. Cada classe de aplicao em Data Mining tem como base um conjunto de
algoritmos que sero usados na extrao de relaes relevantes dentro de uma massa de dados
[FIG98]:
a) classificao;
b) estimativa;
c) agrupamento por afinidade;
d) previso;
e) segmentao.
Cada uma destas propostas difere quanto classe de problemas que o algoritmo ser
capaz de resolver.

4.4.1 CLASSIFICAO
Classificao uma tcnica que consiste na aplicao de um conjunto de exemplos
pr-classificados para desenvolver um modelo capaz de classificar uma populao maior de
registros. Em geral, algoritmos de classificao incluem rvores de deciso ou redes neurais, e
comeam com um treinamento a partir de transaes-exemplo. O algoritmo classificador usa
estes exemplos para determinar um conjunto de parmetros, codificados em um modelo, que
ser mais tarde utilizado para a discriminao do restante dos dados.
Uma vez que o algoritmo classificador foi desenvolvido de forma eficiente, ele ser
usado de forma preditiva para classificar novos registros naquelas mesmas classes prdefinidas.
Alguns exemplos de Classificao so:
a) classificar pedidos de crditos como de baixo, mdio e alto risco;
b) esclarecer pedidos de seguro fraudulentos;
c) atribuir palavras-chave a artigos jornalsticos.

18

Um modelo de classificao apanha um novo registro e atribui ao mesmo uma


classificao existente. Um modelo de previso semelhante a um modelo de classificao,
exceto por no ser limitado a um conjunto de nmero de classes. Um modelo de agrupamento
toma vrios registros e retorna um nmero menor de grupos. Esses grupos podem ento ser
aplicados a novos registros, criando um modelo de classificao. Um modelo de sries
temporais como um modelo de classificao ou de previso, exceto por incluir dados
tomados com o decorrer do tempo [BER97].

4.4.2 ESTIMATIVA
Uma variao do problema de classificao envolve a gerao de valores ao longo das
dimenses dos dados: so os chamados algoritmos de estimativa. A estimativa lida com
resultados contnuos, ao contrrio da classificao que lida com resultados discretos.
Fornecidos alguns dados, usa-se a estimativa para estipular um valor para alguma varivel
contnua desconhecida como receita, altura ou saldo de carto de crdito.
Ao invs de um classificador binrio determinar um risco positivo ou negativo, a
tcnica gera valores de escore, dentro de uma determinada margem. A abordagem de
estimativa tem a grande vantagem de que os registros individuais podem ser agora ordenados
por classificao, e as redes neurais so adequadas a esta tarefa.
Exemplos de estimativa incluem:
a) estimar o nmero de filhos numa famlia;
b) estimar a renda total de uma famlia;
c) estimar o valor em tempo de vida de um cliente.

4.4.3 AGRUPAMENTO POR AFINIDADE


Este algoritmo identifica afinidades entre itens de um subconjunto de dados. Essas
afinidades so expressas na forma de regras: 72% de todos os registros que contm os itens
A, B, e C tambm contm D e E. A porcentagem de ocorrncia (72 no caso) representa o
fator de confiana da regra, e costuma ser usado para eliminar tendncias fracas, mantendo
apenas as regras mais fortes. Dependncias funcionais podem ser vistas como regras de
associao com fator de confiana igual a 100%.

19

Trata-se de um algoritmo tipicamente endereado anlise de mercado, onde o


objetivo encontrar tendncias dentro de um grande nmero de registros de compras, por
exemplo, expressas como transaes. Essas tendncias podem ajudar a entender e explorar
padres de compra naturais, e podem ser usadas para ajustar mostrurios, modificar
prateleiras ou propagandas, e introduzir atividades promocionais especficas. Um exemplo
mais distinto, onde essa mesma tcnica pode ser utilizada, o caso de um banco de dados
escolar, relacionando alunos e disciplinas. Uma regra do tipo 84% dos alunos inscritos em
Introduo ao Unix tambm esto inscritos em Programao em C pode ser usada pela
direo ou secretaria para planejar o currculo anual, ou alocar recursos como salas de aula e
professores [FIG98].

4.4.4 PREVISO
A previso o mesmo que classificao ou estimativa, exceto pelo fato de que os
registros so classificados de acordo com alguma atitude futura prevista. Em um trabalho de
previso, o nico modo de confirmar a preciso da classificao esperar para ver.
Essa tarefa uma variante do problema de agrupamento por afinidades, onde as regras
encontradas entre as relaes podem ser usadas para identificar seqncias interessantes, que
sero utilizadas para predizer acontecimentos subsequentes. Nesse caso, no apenas a
coexistncia de itens dentro de cada transao importante, mas tambm a ordem em que
aparecem, e o intervalo entre elas. Seqncias podem ser teis para identificar padres
temporais, por exemplo entre compras em uma loja, ou utilizao de cartes de crdito, ou
ainda tratamentos mdicos.
Exemplos de tarefas de previso:
a) previso de quais clientes sairo nos prximos seis meses;
b) previso da quantia de dinheiro que um cliente utilizar caso seja oferecido a ele
um certo limite de carto de crdito.

4.4.5 SEGMENTAO
A segmentao um processo de agrupamento de uma populao heterognea em
vrios subgrupos ou clusters mais homogneos. O que a distingue da classificao que a
segmentao no depende de classes pr-determinadas.

20

Essa segmentao realizada automaticamente por algoritmos que identificam


caractersticas em comum e particionam o espao n-dimensional definido pelos atributos. Os
registros so agrupados de acordo com a semelhana e depende do usurio determinar qual o
significado de cada segmento, caso exista algum. Muitas vezes a segmentao uma das
primeiras etapas dentro de um processo de Data Mining, j que identifica grupos de registros
correlatos, que sero usados como ponto de partida para futuras exploraes.
O exemplo clssico o de segmentao demogrfica, que serve de incio para uma
determinao das caractersticas de um grupo social, visando desde hbitos de compras at
utilizao de meios de transporte.

4.5 TCNICAS DE DATA MINING


Muitas das tcnicas usadas em ferramentas atuais de Data Mining se originaram na
pesquisa em inteligncia artificial da dcada de 80 e princpio da dcada de 90. Entretanto,
agora essas tcnicas passaram a ser utilizadas em sistemas de banco de dados de grande
escala, devido a confluncia de diversos fatores que aumentaram o valor lquido da
informao, dentre os quais se destacam [FIG98]:
a) a expanso e difuso de sistemas transacionais volumosos: nos ltimos 15 ou 20
anos, computadores esto sendo usados para capturar e armazenar informaes
detalhadas de processos transacionais intensivos, como vendas, telecomunicaes,
bancos e operaes com cartes de crdito. Os SGBDs saltaram de algumas
centenas de transaes por minuto para mais de 10.000/min, com excees que
chegam a 30.000. Esse crescimento da capacidade de processamento
acompanhado de uma reduo equivalente do custo por processamento, que ajuda a
disseminar a tecnologia e integr-la ao mercado, gerando uma proliferao ainda
maior de sistemas de transaes geradores de informao.
b) informao como vantagem competitiva: a necessidade da informao resulta na
proliferao de grandes repositrios de dados (Data Warehouses) que integram
mltiplos sistemas operacionais para suporte a deciso, muitas vezes incluindo
dados de fontes externas, como registros demogrficos.

21

c) a difuso de tecnologia de informao escalvel: a busca da interoperabilidade


levou recente adoo da sistemas de informao escalveis, incluindo SGBDs,
ferramentas analticas e troca de informaes via servios de Internet/Intranet.
Por outro lado, a quantidade de dados brutos armazenados est crescendo rapidamente,
tornando o espao de deciso muito extenso e complexo para os atuais sistemas de suporte a
deciso.
[FIG98] explica que, por causa desta grande quantidade de dados brutos, todo o
processo de KDD atual ainda requer pr/ps-processamentos dos dados, necessrios para
assegurar o melhor aproveitamento da aplicao e a consistncia dos resultados. Atividades de
pr-processamento incluem a seleo apropriada de subconjuntos de dados, por razes de
desempenho, assim como complexas transformaes de dados que servem de ponte para o
chamado gap representacional, separao entre os dados e seu significado real. Psprocessamento envolve a subseleo de resultados volumosos e a aplicao de tcnicas de
visualizao para auxiliar o entendimento. Essas atividades so crticas para contornar alguns
problemas de implementao, tais como:
a) alta suscetibilidade a dados sujos: as ferramentas de Data Mining via de regra
no possuem uma estrutura dotada de semntica, orientada a aplicao, e como tal,
tomam todos os dados factualmente. Torna-se necessrio tomar precaues para
assegurar que os dados analisados so limpos, o que pode significar uma
exaustiva anlise dos atributos que alimentam os algoritmos. Entretanto, um bom
processo de limpeza de dados (data cleaning), certamente beneficia o processo
de Data Mining.
b) inabilidade para explicar resultados em termos humanos: mesmo em aplicaes
utilizando rvores de deciso e regras de induo, que so capazes de gerar
informao sobre os atributos utilizados, o volume e formato da informao
encontrada pode ser intil sem um processamento adicional.
c) gap representacional: a maior parte das fontes de dados das aplicaes de Data
Mining atuais est armazenada em grandes sistemas relacionais, e seus dados esto
em geral normalizados, com os atributos espalhados em mltiplas tabelas. Alm
disso, a maioria das ferramentas restrita em termos dos tipos de dados com as
quais podem operar, tornando-se necessrio categorizar variveis ou remape-las.

22

Conforme salienta [FIG98], um modelo produz um ou mais valores a partir de um


dado conjunto de entradas. A anlise dos dados , com freqncia, o processo de construo
de um modelo apropriado para os dados (figura 7). Um exemplo disso uma regresso linear,
onde construda sobre um modelo em linha com a seguinte forma:
aX + bY + c = 0
Onde a, b, c so os parmetros e X e Y so as variveis. Para um dado valor de X,
estima-se o valor de Y. Este tipo de modelo um dos mais simples existentes.
O fato de um modelo existir no significa que proporcionar resultados precisos.
Existem bons e maus modelos e, medir seus resultados um passo crtico em seu uso e
desenvolvimento [FIG98].
Figura 7: Modelo recebe entradas e produz informaes.

[BER97]

Na criao dos modelos, a entrada geralmente especificada claramente. Geralmente,


preparar os dados de sistemas para preencher o domnio de um modelo chamado de
depurao de dados ou data scrubbing mais desafiador do que a prpria criao do
modelo. Os dados que alimentaro o modelo podem afetar a escolha da tcnica. Para
problemas fsicos, com muitas variveis contnuas de entrada, as tcnicas de regresso
estatsticas normalmente funcionam muito bem. Quando as entradas tm muitas variveis de
categorias, as rvores de deciso funcionam melhor. Quando a relao entre as entradas e a
sada de dados difcil de ser estabelecida, as redes neurais so as melhores opes.
Freqentemente a sada de dados de um modelo especificada em primeiro lugar e
geralmente uma categoria ou uma varivel contnua.

23

Segundo [BER97], para criar um modelo para Data Mining, deve-se ter em mente o
seguinte:
a) um dos perigos no uso de modelos o excesso ou a carncia de dados;
b) tanto o Data Mining direto quanto o indireto usam modelos, mas de maneira
diversa;
c) alguns modelos expem sua finalidade melhor que outros;
d) alguns modelos so mais fceis de aplicar que outros.
Cada tcnica de data mining possui tarefas onde elas so melhores aplicveis. Cada
classe de aplicao em data mining tem como base um conjunto de algoritmos que sero
usados na extrao de relaes relevantes dentro de uma massa de dados: anlise de
seqncias, clusterizao, classificao, estimativas e regras de associao. Outras tcnicas
mais recentes incluem lgica difusa (fuzzy logic) e algoritmos genticos. Cada uma destas
propostas difere quanto classe de problemas que o algoritmo ser capaz de resolver.

4.5.1 ANLISE DE SELEO ESTATSTICA


A anlise de seleo estatstica uma forma de agrupamento usada para encontrar
grupos de itens que tendem a ocorrer em conjunto em uma seleo estatstica. Como tcnica
de agrupamento, ela til quando se deseja saber quais itens ocorrem ao mesmo tempo ou em
uma seqncia particular [FIG98].

4.5.2 MBR
O MBR (Memory-Based Reasoning raciocnio baseado em memria) uma tcnica
de data mining dirigida que usa exemplos conhecidos como modelo para fazer previses
sobre exemplos desconhecidos. O MBR procura os vizinhos mais prximos nos exemplos
conhecidos e combina seus valores para atribuir valores de classificao ou de previso
[BER97].
Os elementos-chave no MBR so a funo de distncia usada para encontrar os
vizinhos mais prximos e a funo de combinao, que combina valores dos vizinhos mais
prximos para fazer uma previso. Uma vantagem do MBR sua habilidade de aprender
sobre novas classificaes simplesmente introduzindo novos exemplos no banco de dados.
Uma vez encontrada a funo de distncia e a funo de combinao corretas tendem a

24

permanecer muito estveis, mesmo com a incorporao de novos exemplos para novas
categorias nos dados conhecidos. Alis, esta uma caracterstica que diferencia o MBR da
maior parte das outras tcnicas de data mining.

4.5.3 ALGORITMOS GENTICOS


Os algoritmos genticos aplicam a mecnica da gentica e seleo natural pesquisa
usada para encontrar os melhores conjuntos de parmetros que descrevem uma funo de
previso. Eles so utilizados no data mining dirigido e so semelhantes estatstica, em que a
forma do modelo precisa ser conhecida em profundidade. Os algoritmos genticos usam os
operadores seleo, cruzamento e mutao para desenvolver sucessivas geraes de solues.
Com a evoluo do algoritmo, somente os mais previsveis sobrevivem, at as funes
convergirem em uma soluo ideal [BER97].
Esta tcnica apropriada para resolver os mesmos tipos de problemas que as outras
tcnicas de data mining, mas ela tambm pode ser usada para aprimorar MBRs e redes
neurais.

4.5.4 DETECO DE AGRUPAMENTOS


Esta tcnica constitui-se na construo de modelos para encontrar dados semelhantes, e
estas reunies por semelhana so chamadas de grupos (clusters). uma forma de data
mining no-direcionado, onde a meta encontrar similaridades no conhecidas anteriormente.
Existem muitas tcnicas para encontrar grupos, incluindo mtodos geomtricos, estatsticos e
redes neurais [HAR98].

4.5.5 ANLISE DE VNCULOS


A anlise de vnculos segue as relaes entre registros para desenvolver modelos
baseados em padres nas relaes. Esse um aplicativo de construo de teoria grfica de
data mining. Esta tcnica no muito compatvel com a tecnologia de banco de dados
relacionais e sua maior rea de aplicao a rea policial, onde pistas so ligadas entre si para
solucionar os crimes. As poucas ferramentas que existem, enfocam mais a visualizao de
vnculos que a anlise de padres [HAR98].

25

4.5.6 RVORES DE DECISO E INDUO DE REGRAS


As rvores de deciso so usadas para o data mining dirigido, mais especificamente a
classificao. Esta tcnica divide os registros do conjunto de dados de treinamento em
subconjuntos separados, cada um descrito por uma regra simples em um ou mais campos
[HAR98].
Uma grande vantagem nesta tcnica que o modelo bem explicvel, j que tem a
forma de regras explcitas. Isto permite s pessoas avaliarem os resultados, identificando os
atributos-chave do processo.

4.5.7 REDES NEURAIS ARTIFICIAIS


As redes neurais so modelos simples de interconexes neurais no crebro, adaptados
para o uso em computadores e so, provavelmente, a tcnica de data mining mais utilizada.
Elas aprendem com um conjunto de dados de treinamento, generalizando modelos para
classificao e previso. Esta tcnica pode tambm ser aplicada ao data mining no-dirigido
(na forma de redes Kohonen e estruturas relacionadas) e s previses em sries temporais
[HAR98].
Uma das principais vantagens na utilizao desta tcnica a sua variedade de
aplicao. Elas so interessantes porque detectam padres nos dados de forma anloga ao
pensamento humano. Mas existem duas desvantagens em seu uso:
a) a dificuldade de interpretar os modelos produzidos por elas;
b) a sensibilidade ao formato dos dados que as alimentam, pois representaes de
dados diferentes podem produzir resultados diversos.

26

5 ANLISE DE CRDITO
5.1 INTRODUO
A deciso em finanas sempre objeto de muitos cuidados por parte dos executivos
financeiros. Em condies limites, poder significar o fracasso ou o sucesso de toda uma
administrao. O ato de decidir, segundo [SEC96], a mais importante funo do
administrador e a que envolve a maior relao custo-benefcio, quando se trata do
administrador financeiro.
Pode-se compreender ento, que uma deciso tomada hoje dever causar uma srie de
efeitos no futuro, embora existam grandes dificuldades em estabelecer claramente estes
efeitos, ou mesmo instrumentos para detect-los e quantific-los. O executivo financeiro est
constantemente tomando decises dentro de um ambiente de mudanas, onde o risco e a
incerteza preponderam em termos de conjuntura econmica, poltica e social [SEC96].
Apresenta-se nos tpicos a seguir as questes consideradas mais importantes para um
processo de anlise de crdito.

5.2 PROCESSO DE TOMADA DE DECISO


Em praticamente todas as atividades econmicas, "os homens de finanas esto
constantemente sujeitos s tomadas de deciso que, muitas vezes, podem representar o
fracasso ou o sucesso de determinado projeto, principalmente em economias to atribuladas
como a brasileira" [SEC96]. Toda vez que se toma uma deciso, utiliza-se dados conhecidos
sobre o passado e faz-se previses sobre o futuro. Segundo [LEM76], previso o processo
pelo qual a partir de informaes existentes, admitidas certas hipteses e atravs de algum
mtodo de gerao, chega-se a informaes sobre o futuro, com uma determinada finalidade.
Embora haja dificuldades no estabelecimento de um processo para tomada de deciso,
[SEC96] identifica trs elementos que podem influenci-lo:
a)

experincia;

b)

julgamento;

c)

ambiente.

5.2.1 EXPERINCIA
A experincia provm de um conjunto de situaes vividas por uma pessoa ou
empresa, e tanto maior quanto maior for o nmero de exposies ao processo decisrio.
Quando se pensa em experincia importante considerar o nmero de exposies a diferentes
processos de deciso, o nvel de responsabilidade do envolvido na tomada da deciso, com
quem a compartilhou ou se era nica e, finalmente, os resultados obtidos [SEC96].

5.2.2 JULGAMENTO
Normalmente uma deciso tomada com base em experincias do passado, porm, em
algumas situaes, se obrigado a contrariar a experincia. " nestas ocasies que aparece
certa habilidade inata aos tomadores de deciso" [SEC96].
A ocorrncia destes fatos amplia a experincia e conduz a um ciclo que envolve
experincias e julgamentos. O julgamento tem muito a ver com a questo poltica dentro da
organizao; isso deve levar a uma postura objetiva na realizao de um trabalho, de forma a
tomar-se a deciso de qualidade boa ao invs de ficar procurando a tima [SEC96]. O
julgamento , ainda, o responsvel pelo exame da possibilidade de a deciso ser ou no
efetivada.

5.2.3 AMBIENTE
O ambiente, dentro de um processo de tomada de deciso, deve ser analisado sob dois
aspectos, antes e depois da deciso. fundamental que o ambiente, do ponto de vista anterior
ao instante da deciso, seja cultivado para que se facilite o processo decisrio. importante a
diversificao do fluxo de informaes e a conscincia do grupo que decide em relao a sua
cultura [SEC96].
No aspecto do ambiente ps deciso, [SEC96] declara que deve ser levado em conta
que as decises podem afetar pessoas, suas crenas, opinies e conceitos pr-estabelecidos.
Dentro deste quadro torna-se importante ao administrador no s a tomada de deciso, mas
tambm a explicao da mesma.

28

5.3 RISCO
Na rea financeira, o risco e a incerteza esto presentes em um grande nmero de
decises que, em conjunto, podem conduzir ao fracasso ou ao sucesso. A definio mais
simples e prtica parece ser dada por [SOL81]: "risco o grau de incerteza a respeito de um
evento". Um "evento certo" tratado no estudo das probabilidades como correspondendo
probabilidade de 100% de que ocorra. Desta forma, "sempre que estivermos diante de eventos
que apresentam certo grau de incerteza, podemos estabelecer uma correspondente
probabilidade de ocorrncia do evento" [SEC96].
O grau de incerteza, ou seja, o risco, estar intimamente ligado com a probabilidade de
ocorrncia dos eventos em estudo. A condio limite ser a condio de incerteza plena em
que no se quer ou no se tem condies de usar o conceito de probabilidades para a avaliao
do evento.

por meio da probabilidade que se capta a influncia da experincia, do

julgamento e do ambiente, em diferentes condies de projees de resultados, relativos a


uma questo que ser objeto de deciso. Nestas condies, a forma mais comum de
tratamento da questo a obteno de uma distribuio de probabilidades, sua mdia e
desvio.

5.4 ANLISE DISCRIMINANTE


Quando se tem uma situao em que se necessita classificar uma pessoa, por exemplo,
como participante de um grupo, dentro de um universo de grupos, utiliza-se a anlise
discriminante.
Segundo [PET73], a anlise discriminante destina-se a estabelecer um mtodo para
atribuir itens a populaes predeterminadas. Tambm pode ser definida como um instrumento
usado para encontrar semelhanas e diferenas entre dois ou mais conjuntos. No caso da
anlise discriminante aplicada ao processo de concesso de crdito, interessa saber quais
caractersticas definem o "bom" cliente. Para isso, define-se como so o bom e o mau cliente
para determinada instituio. Esta definio normalmente baseada em dados como
rentabilidade, fidelidade, nmero de produtos adquiridos, etc. A definio de bom e mau
cliente varia de instituio para instituio. Como um segundo passo, seleciona-se dois grupos

29

de clientes daquela instituio, um de bons e outro de maus, para que sejam determinadas
quais as caractersticas comuns.
Por caracterstica, neste caso, devem ser consideradas variveis como idade, tempo de
emprego, valor do patrimnio, etc. Os valores que as caractersticas assumem so
denominados de atributos. Abaixo, um exemplo extrado de [PET73] ilustra a anlise
discriminante.
Se aceitar todos os clientes que procurarem a instituio, encontrar-se- dezesseis
clientes bons para cada cliente mau. Esta relao pode ser expressa dizendo-se que a
"probabilidade da populao" [PET73] de dezesseis para um.
Supondo-se tambm que cada cliente mau gere um prejuzo mdio de R$ 400,00 e que
cada cliente bom gere um lucro mdio de R$ 20,00. O ponto de equilbrio ser de 400/20, ou
seja, vinte para um. Isto equivale a dizer que ser preciso vinte clientes bons para pagar um
mau.
Imaginando-se que na amostra, as variveis (caractersticas) idade e tipo de residncia
tenham apresentado o seguinte comportamento:
Tabela 1: Tabela de escore de duas caractersticas - idade
Idade

% de bons

% de maus

Probabilidade

At 30

10

40

1/4

31 a 40

20

30

2/3

41 a 50

30

20

3/2

Acima de 50

40

10

4/1

100 %

100 %

Na tabela 1 verifica-se que as probabilidades para um cliente de 25 anos de idade sero


de 16/1x(1/4)= 4/1. Partindo do pressuposto que o ponto de equilbrio de vinte para um, no
se pode aceitar este cliente. Clientes com este perfil representam um risco alm do
estatisticamente aceitvel.

30

No entanto, para um cliente de 50 anos de idade, as probabilidades sero de


16/1x(4/1)=64/1. Neste caso, o risco apresentado inferior ao representado pelo ponto de
equilbrio (20/1), mostrando ser um cliente aceitvel, pois neste grupo da populao so
encontrados sessenta e quatro clientes bons para cada mau. Esta tabela, porm, no de muita
utilidade, pois permitiria trabalhar apenas com clientes com idade acima de 50 anos.
Acrescentando-se ento outra caracterstica pesquisa, registra-se tambm se a pessoa
mora em casa prpria ou alugada, supondo que o estudo desta caraterstica tenha a seguinte
distribuio:
Tabela 2: Tabela de escore de duas caractersticas - casa prpria/alugada
Imvel

% de bons

% de maus

Probabilidade

Prprio

60

30

2/1

Alugado

30

60

1/2

Outros

10

10

1/1

100 %

100 %

Tem-se ento as seguintes relaes de probabilidade:


a) 25 anos de idade e casa alugada = 16/1 x (1/4 x 1/2) = 2/1;
b) 50 anos de idade e casa prpria = 16/1 x (4/1 x 2/1) = 128/1;
c) 35 anos de idade e casa prpria = 16/1 x (2/3 x 4/1) = 43/1.
Percebe-se que o acrscimo de mais uma caracterstica ampliou a rea de atuao,
levando a concluir que quanto mais caractersticas se estudar, mais refinado ser o nosso
modelo. Na prtica so utilizadas entre oito e doze caractersticas [PET73].

5.5 MODELO DE ESCORAGEM


Ao estudar vrias caractersticas, deve-se analisar o grau de correlao entre elas,
como observado na figura 8.

31

Figura 8: Correlao entre caractersticas.

idade

Idade
Tempo de
emprego

Casa
prpria/
alugada

Tempo de
residncia

Transformando-se as probabilidades em pontos e montando um grfico de sua


distribuio, obtem-se algo prximo da distribuio normal, as conhecidas curvas em forma
de sino (figura 9).
Figura 9: Distribuio de escore - 1.

Quantidade

3200 bons
200 maus

1/2

1/1

2/1 12/1 128/1

Relaes de probabilidade

Este grfico, em nmeros absolutos de bons e maus clientes no muito til para
leitura e anlise. O mesmo grfico, registrando porcentagens destes mesmos clientes facilita a
visualizao, como observado na figura 10.

32

Figura 10: Distribuio de escore - 2.

maus

bons

100

10

20

50

80

110

pontos

Supondo que se quisesse colocar um ponto de corte a 65 pontos, para eliminar todos os
maus clientes, perder-se-a cerca de 40% dos clientes potencialmente bons.
Figura 11: Ponto de corte 1.
%

maus

bons

100

10

20

50

80

110

pontos

Entretanto, colocando-se o ponto de corte a 25, com o intuito de incluir quase todos os
bons clientes, aceitar-se- cerca de 50% dos clientes potencialmente maus.
Figura 12: Ponto de corte 2.
%

maus

bons

100

10

20

50

80

110

33

pontos

Assim, quanto mais afastadas estiverem as curvas, mais eficiente ser o sistema. A
distncia entre os picos das curvas chamada de "divergncia" e mede o "poder
discriminante" do sistema.
Figura 13: Divergncia.

maus

bons

100
Sistema A

0
%

10

20

50

maus

80

110

pontos

bons

100
Sistema B

10

20

50

80

110

34

pontos

6 O PROTTIPO
6.1 INTRODUO
A proposta de construir um prottipo de um sistema especialista utilizando-se a teoria
dos conjuntos difusos e a tcnica de data mining para anlise de seleo estatstica, aplicados
na rea de anlise de crdito, objetiva apoiar o especialista na realizao de suas tarefas. O
desenvolvimento de um prottipo deve necessariamente possuir uma especificao, onde
define-se os requisitos da aplicao.
O passo inicial da fase de especificao do sistema um levantamento de dados e
informaes para nortear o desenvolvimento do prottipo. Este levantamento feito
contatando-se o usurio, e elaborando-se uma descrio textual, por exemplo. A partir desta
descrio, parte-se para a etapa de modelagem do prottipo. No captulo 5 foi feita a descrio
do processo de anlise de crdito, e com as informaes coletadas pode-se realizar diversas
representaes que auxiliam a implementao do prottipo, de acordo com a modelagem
essencial.

6.2 MODELAGEM ESSENCIAL


Esta modelagem mostra, como o prprio nome diz, a essncia do sistema a ser
desenvolvido. composta pelos modelos ambiental e comportamental. O modelo ambiental
visa mostrar como o sistema interage com o ambiente externo e o modelo comportamental
indica o que o sistema deve fazer para interagir com o ambiente externo.
O modelo ambienteal composto por um diagrama de contexto, que representa o fluxo
de dados, e por uma lista de eventos, que representa as tarefas que devem ser executadas no
sistema. A figura 14 mostra o diagrama de contexto.
Figura 14: Modelo Ambiental - diagrama de contexto.
Dados profissionais
Dados pessoais
CLIENTE

Dados adicionais

Rel. Limite Crdito


SISTEMA DE
ANLISE DE
CRDITO

Definio de perfil
Atribuio de limite

ANALISTA
DE
CRDITO

Os eventos do prottipo so:


1.

Cliente solicita cadastramento.

2.

Analista define perfil do cliente ideal.

3.

Analista de Crdito efetua anlise dos dados cadastrais do Cliente.

4.

Emisso do Relatrio de Limite de Crdito.

No modelo comportamental desenvolve-se o diagrama de fluxo de dados, dicionrio de


dados e modelo entidade x relacionamento (MER). O MER um modelo conceitual de dados
que representa, atravs de um diagrama, as associaes existentes entre as entidades de dados,
ou seja, demonstra

relao existente entre os conjuntos de dados definidos a partir do

levantamento realizado. Para o prottipo que pretende-se desenvolver, as figuras 15 e 16


mostram o diagrama de fluxo de dados (DFD), o MER e o dicionrio de dados elaborados.
Figura 15: Modelo Comportamental - diagrama de fluxo de dados (DFD).

1)

2)

3)

4)

CLIENTE

CLIENTE

CLIENTE

ANALISTA
DE
CRDITO

Dados pessoais

MANTER
CADASTRO DE
DADOS
PESSOAIS

Dados
Pessoais

Dados profissionais

MANTER
CADASTRO DE
DADOS
PROFISSIONAIS

Dados
Profissionais

Dados adicionais

MANTER
CADASTRO DE
DADOS
ADICIONAIS

Dados
Adicionais

DEFINIR PERFIL
DO CLIENTE
CONSIDERADO
IDEAL

Definio de perfil

36

Arquivo de
Perfil

5)

6)

ANALISTA
DE
CRDITO

ATRIBUIR
LIMITE DE
CRDITO DO
CLIENTE

Atribuio de limite

GERAR
RELATLORIO
DE LIMITE DE
CRDITO

Limite de
Crdito

Rel. Limite Crdito

Limite de
Crdito

ANALISTA
DE
CRDITO

Figura 16: Modelo Entidade x Relacionamento.

Dicionrio de dados:
Dados Pessoais = CPF + { nome + sexo + rua + nmero + bairro + cidade + estado + CEP +
naturalidade + data de nascimento}

37

Dados Profissionais = CPF + { profisso + renda mensal + nome da empresa + tempo de emprego}
Dados Adicionais = CPF + { estado civil + nmero de filhos + grau de instruo + tipo de reresidncia + tipo de veculo + conceito subjetivo}
Atribuio de Limite = {CPF + valor deferido}
Relatrio de Limite de Crdito = CPF + nome + data do limite + valor calculado + valor deferido}
A partir do MER so definidas as tabelas que comporo o projeto lgico do prottipo,
definidas na forma da entidades identificadas, descritas a seguir:
a) Tabela Dados Pessoais: CPF, nome do cliente, sexo, rua, nmero, bairro, cidade, estado,
CEP, naturalidade e data de nascimento;
b) Tabela Dados Profissionais: CPF, profisso, salrio, nome da empresa e tempo de
emprego;
c) Tabela Dados Adicionais: CPF, estado civil, nmero de filhos, grau de instruo, tipo de
residncia, tipo de veculo e conceito subjetivo;
d) Tabela Limite de Crdito: CPF, valor calculado, valor deferido e data do limite.
e) Arquivo de Perfil: idade ideal, residncia ideal, veculo ideal, instruo ideal, estado civil
ideal, tempo de emprego ideal e sexo ideal.

6.3 PLATAFORMA DE DESENVOLVIMENTO


O prottipo foi desenvolvido para a plataforma PC em ambiente Windows, utilizandose um microcomputador com processador Celeron de 333 Mhz, e 64 Mb de memria RAM. O
aplicativo final requer no mnimo processador de 100 Mhz, porm, com queda de
performance. Para implementar o prottipo optou-se pelo ambiente de programao visual
Borland Delphi, em sua verso 4.0, pela facilidade de se conseguir literatura e por j possuir

38

algum conhecimento sobre ela. O ambiente de programao Delphi possui algumas


caractersticas merecedoras de destaque, como: "abordagem baseada em formulrios e
orientada a objetos, compilador extremamente rpido, suporte a banco de dados, integrao
com a programao em Windows e sua tecnologia de componentes" [CAN98].

6.4 AQUISIO DO CONHECIMENTO


Para a aquisio do conhecimento necessrio para o desenvolvimento do prottipo,
foram feitas entrevistas com funcionrios do Banco do Brasil S.A., especialistas em anlise de
crdito. Destas entrevistas foram obtidas informaes (captulo 5) que, aliadas a dados obtidos
junto literatura especializada, deram base ao desenvolvimento do prottipo no que tange
aquisio do conhecimento.
Para dar entrada dos conhecimentos necessrios, parte-se do menu principal (janela Creditor) onde existe a chamada para o cadastro de informaes dos clientes. As figuras 17 e
18 apresentam o menu principal e o menu de cadastro.
Figura 17: Menu principal (Creditor).

39

Figura 18: Cadastro.

A ordem na aquisio do conhecimento dada pela ordem dos botes na tela, de cima
para baixo:
a) Dados Pessoais: os dados pessoais do cliente consistem em informaes acerca de
sua identificao e local de residncia (figura 19);
Figura 19: Dados Pessoais.

40

b) Dados Profissionais: os dados profissionais do cliente consistem em informaes


acerca de sua ocupao profissional (figura 20);
Figura 20: Dados Profissionais.

c) Dados Adicionais: os dados adicionais do cliente consistem em informaes


complementares, no relacionadas diretamente com sua ocupao profissional
(figura 21);
Figura 21: Dados Adicionais.

41

6.5 REPRESENTAO DO CONHECIMENTO


A forma de representao do conhecimento escolhida para o sistema especialista a
forma de tabelas. Com a utilizao do ambiente de programao Delphi 4.0, optou-se por
montar uma estrutura de dados organizada em tabelas do tipo Paradox 7, fazendo uso do
Database Desktop 7, utilitrio que compe o Delphi. As tabelas definidas no prottipo so:
DadosPessoais.DB, Dados Profissionais.DB, DadosAdicionais.DB e Limites.DB. As trs
primeiras tabelas referem-se aos dados cadastrais dos clientes, adquiridos conforme relatado
no item anterior. A tabela Limites.DB ser descrita mais a frente, quando for relatado o
processo de definio dos limites de crdito de cada cliente.

6.6 LIMPEZA DE DADOS


Para que o especialista realize a anlise de cada cliente e determine um limite de
crdito para este, necessrio que seja definido um perfil de cliente a ser tomado como base.
Para definir este perfil, os especialistas utilizam-se geralmente da anlise discriminante,
descrita no captulo 6.4. Como alternativa este processo, foi implementada a etapa do
processo de KDD denominada limpeza de dados.
A implementao baseou-se em pesquisas na base de informaes, atravs de
instrues em SQL (Structured Query Language - linguagem de consulta estruturada), que
uma linguagem de consulta e manipulao de bancos de dados. Estas pesquisas tem por
finalidade identificar alguns dados dos clientes cujo item de afinidade o conceito subjetivo
"bom". Os resultados das consultas base de dados so tratados de diversas formas, de
acordo com a varivel que se est definindo. Para o quesito idade feita uma mdia entre as
idades das pessoas selecionadas. Para os demais quesitos (residncia, veculo, grau de
instruo, estado civil, tempo de emprego e sexo), verificado qual situao encontrada
com maior freqncia.
O processo disparado na tela "Perfil Desejado", acessada atravs do boto "Perfil" da
tela principal, quando o boto "Procurar Perfil" acionado. (figura 22).

42

Figura 22: Perfil Desejado.

As informaes definidas pelo processo executado podem ser gravadas no arquivo


"Perfil.dat" acionando-se o boto "Gravar perfil".

6.7 MODELAGEM DIFUSA


Partindo do menu principal, atravs do boto "Perfil", aciona-se o mdulo de definio
do limite de crdito do cliente (figura 23). Neste mdulo so realizadas iteraes sobre a base
de conhecimento, com o uso de lgica difusa, confrontando informaes desta base com as
informaes do cadastro do cliente.
Figura 23: Limite de crdito.

43

Os dados dos limites de crdito j definidos podem ser recuperados digitando-se o CPF
do cliente no campo prprio e acionando-se em seguida o boto "Recuperar". Se no houver
limite definido, pode-se calcular o limite acionando-se o boto "Calcular". Aps informado o
valor deferido para o cliente, pelo especialista, este pode ser gravado na tabela Limites.DB,
referida no captulo 7.3. Estes dados tambm podem ser impressos.

6.7.1 CONJUNTOS DIFUSOS


Para calcular o limite de crdito foram definidos conjuntos difusos das informaes
representadas pelos requisitos Salrio, Instruo, Idade, Tempo de emprego e Filhos,
conforme descrito a seguir:
a) Para o requisito Salrio foram criados trs conjuntos difusos:

1o conjunto constitudo dos valores que iniciam em zero e terminam em 500.

Conjunto: (0,00 a 500,00) reais.

2o conjunto constitudo dos valores que iniciam em 501 e terminam em

3.000. Conjunto: (501,00 a 3.000,00) reais.

3o conjunto constitudo dos valores superiores a 3.001. Conjunto: (3.001,00

ao infinito) reais.
b) Para o requisito Instruo, o conjunto difuso foi construdo tendo por base o
nmero de anos necessrios para se alcanar cada grau de formao. Para cada grau
foi definida uma varivel lingustica, associada ao nmero de anos necessrios para
seu atingimento. Conjunto: (analfabeto, primrio, ginsio, segundo grau, terceiro
grau, ps-graduao, mestrado, doutorado).
c) No caso do requisito Idade, o conjunto difuso foi construdo a partir da informao
do perfil definido, conforme explicado no tpico 6.6. Esta informao tomada
como valor mximo inteiro positivo, sendo que o menor valor inteiro positivo
sempre ser 0 (zero). O limite superior definido pela varivel "Idade" do perfil do
cliente ideal definido.

44

d) No requisito Tempo de Emprego, o conjunto difuso foi construdo definido-se


cinco intervalos de tempo associados variveis lingusticas. Conjunto: (at um
ano, um a dois anos, trs a cinco anos, seis a dez anos, mais de dez anos).
e) Para o requisito Filhos, a construo do conjunto difuso foi construdo definido-se
cinco variveis lingusticas que so associadas ao nmero de filhos, iniciando-se em
zero e chegando-se ao limite superior estabelecido como maior do que trs.
Conjunto: (nenhum, um, dois, trs, mais de trs).
Para as demais caractersticas no possvel criar um conjunto difuso porque as
informaes esto em um estado nico. Como exemplo temos o caso do sexo, que s pode
possuir dois estados: masculino e feminino.

6.7.2 FUNES DE PERTINNCIA


Como descrito no captulo 4.2, funo de pertinncia uma funo matemtica que
tem como resultado o grau de pertinncia de cada elemento de um conjunto difuso. Para cada
conjunto difuso criado, citados no captulo anterior, foi criada uma ou mais funes de
pertinncia, descritas a seguir, com informaes obtidas junto a especialistas:
a) Salrio: Existem neste caso trs funes de pertinncia (apndice 1), uma para
cada faixa de valor definida. A primeira para salrios inferiores a R$ 500,00, a
segunda para valores entre R$ 500,00 e R$ 3.000,00, e a terceira para valores acima
de R$ 3.000,00.

Funo de pertinncia 1: FP = (300/30)

Funo de pertinncia 2: FP = (300/15)

Funo de pertinncia 3: FP = (300/10)

b) Instruo: Se o grau de instruo do cliente for igual ao do perfil definido,


atribudo o grau de pertinncia igual a 100, caso contrrio, aplicada a funo
abaixo, onde o valor lingustico atribudo de acordo com a varivel lingustica.
Para cada grau de instruo, identificados atravs das variveis lingusticas, so

45

definidos os valores lingsticos, atribuindo-se um valor numrico, correspondente


ao nmero de anos necessrios para aquela formao.
FP = (valor lingustico /tempo total de graduao)*80.
c) Idade: So duas funes de pertinncia, sendo uma para quando a idade do cliente
for inferior idade do perfil, outra para quando tiver idade superior, e a terceira
para quando tiver idade igual, quando o valor de pertinncia ser 100.

Funo de pertinncia 1: FP = ((Idade cliente- Idade perfil)/ Idade perfil)*100)

Funo de pertinncia 2: FP = ((Idade perfil- Idade cliente)/ Idade

cliente)*100)
d) Tempo de Emprego: Quando o tempo de emprego do cliente for igual ao do perfil
definido, atribudo o grau de pertinncia igual a 100, caso contrrio, aplicada a
funo abaixo, onde o valor lingustico atribudo de acordo com a varivel
lingustica. Para cada tempo de emprego, identificados atravs das variveis
lingusticas, so definidos os valores lingsticos, atribuindo-se um valor numrico.
FP = (valor lingustico /10)*80.
e) Filhos: Para cada varivel lingustica criada atribudo um valor ligustico.
Quando o valor lingustico for igual a dois, atribudo o grau de pertinncia igual a
100, caso contrrio, aplicada a funo de pertinncia abaixo.
FP = 100 - ((valor lingustico/10)*80).
Para as demais variveis existem somente duas funes de pertinncia. A primeira
possui valor de pertinncia igual a 1,0, quando o cliente possui a caracterstica desejada. A
segunda atribui valor de pertinncia igual a 0,0.

6.7.3 MQUINA DE INFERNCIA


A inferncia realizada atravs da aplicao das funes de pertinncia aplicadas
conforme seleo, de acordo com as informaes do perfil desejado, manipulando os

46

conhecimentos armazenados na base de conhecimentos. A mquina de inferncia foi


programada com instrues do tipo:
SE <informao> menor que <condio>
ENTO dispara funo de pertinncia;
O processo de inferncia manipula os conhecimentos cruzando os dados armazenados
do perfil desejado com os dados do cliente, atravs das funes de pertinncia. Quando no h
funo de pertinncia, verificado somente se a condio procurada existe ou no na base de
dados do cliente.
Como resultado encontrado o grau de pertinncia entre o cliente analisado e o perfil
do cliente definido conforme explicado no tpico 6.6. Com este grau de pertinncia, foi
utilizada uma frmula que concluir qual a sugesto de Limite de Crdito a ser proposta
(apndice 1).

6.8 TESTES REALIZADOS


Para testar o prottipo da forma mais abrangente possvel, foi efetuado o
cadastramento de diversos clientes fictcios, com as mais diversas caractersticas, tentando
compreender a maior quantidade de variaes. Para certificar outras funes do mdulo de
cadastramento, foram testadas tambm as opes de excluso, alterao e navegao pelas
informaes das tabelas.
Foram realizadas vrias definies de perfil, em diversos momentos do processo de
cadastramento, como forma de observar as alteraes das caractersticas definidas, de acordo
com o aumento da base de dados. Para cada perfil definido, foram escolhidos aleatoriamente
diversos clientes cadastrados, e definidos seus limites de crdito.
Para exemplificar o processo de inferncia que leva definio do limite de crdito de
um cliente, ser usado um perfil exemplo (tabela 3), e demonstradas as inferncias realizadas
para um cliente exemplo (tabela 4). A seguir descrito o processo de inferncia realizado com
os dados de exemplo, e o clculo do valor a ser sugerido ao analista como Limite de Crdito a
ser definido para o cliente em anlise.

47

Tabela 3: Perfil exemplo


Idade ideal
Residncia ideal
Veculo ideal
Instruo ideal
Estado civil ideal
Tempo de emprego ideal
Sexo ideal

23 anos
De familiares
Prprio
Mestrado
Solteiro
Dois a cinco anos
Feminino

Tabela 4: Dados cadastrais do cliente exemplo


Idade
Residncia
Veculo
Instruo
Estado civil
Tempo de emprego
Sexo
Nmero de filhos
Salrio

22 anos
Prpria
Prprio
Terceiro grau
Solteiro
Dois a cinco anos
Masculino
Nenhum
R$ 2.900,00

Regra 1
SE Idade do Cliente (22) = Idade do Perfil (23)
ENTO Valor de Pertinncia = 100
SENO SE Idade do Cliente (22) > Idade do Perfil (23)
ENTO Valor de Pertinncia = ((Idade do Cliente - Idade do Perfil) /Idade do
Perfil)*100
SENO Valor de Pertinncia = ((Idade do Perfil (23) - Idade do Cliente (22)) /Idade do
Cliente (22))*100
Valor de Pertinncia Idade = 5

Regra 2
SE Residncia do Cliente (Prpria) = Residncia do Perfil (De familiares)
ENTO Valor de Pertinncia = 100
SENO Valor de Pertinncia = 0
Valor de Pertinncia Residncia = 0

Regra 3
SE Veculo do Cliente (Prprio) = Veculo do Perfil (Prprio)
ENTO Valor de Pertinncia = 100
SENO Valor de Pertinncia = 0
Valor de Pertinncia Veculo = 100

48

Regra 4
SE Estado Civil do Cliente (Solteiro) = Estado Civil do Perfil (Solteiro)
ENTO Valor de Pertinncia = 100
SENO Valor de Pertinncia = 0
Valor de Pertinncia Estado Civil = 100

Transformao das variveis lingsticas de instruo em valores


SE Instruo do Cliente (Terceiro grau) = 'Terceiro grau'
ENTO Valor Lingstico = 16;
Regra 5
SE Instruo do Cliente (Terceiro grau) = Instruo do Perfil (Mestrado)
ENTO Valor de Pertinncia = 100
SENO Valor de Pertinncia = (Valor Lingstico (16)/24)*80
Valor de Pertinncia Instruo = 53

Transformao das variveis lingsticas de tempo de emprego em valores


SE Tempo de Emprego do Cliente (Dois a cinco anos) = 'Dois a cinco anos'
ENTO Valor Lingstico = 6;
Regra 6
SE Tempo de Emprego do Cliente (Dois a cinco anos) = Tempo de Emprego do Perfil (Dois a
cinco anos)
ENTO Valor de Pertinncia = 100
SENO Valor de Pertinncia = (Valor Lingstico/10)*80
Valor de Pertinncia Tempo de Emprego = 100

Regra 7
SE Sexo do Cliente (Masculino) = Sexo do Perfil (Feminino)
ENTO Valor de Pertinncia = 100
SENO Valor de Pertinncia = 0
Valor de Pertinncia Sexo = 0

Transformao das variveis lingsticas de nmero de filhos em valores


SE Nmero de Filhos do Cliente (Nenhum) = 'Nenhum'
ENTO Valor Lingstico = 2;
Regra 8
SE Nmero de Filhos do Cliente (Nenhum) = 'Nenhum'
ENTO Valor de Pertinncia = 100

49

SENO Valor de Pertinncia = 100 - ((Valor Lingstico/10)*80)


Valor de Pertinncia Nmero de Filhos = 100

Regra 9
SE Salrio do Cliente (2.900) < 500
ENTO Valor de Pertinncia = (300/30)
SENO SE Idade do Cliente (2.900) < 3000
ENTO Valor de Pertinncia = (300/15)
SENO Valor de Pertinncia = (300/10)
Valor de Pertinncia Salrio = 20
Clculo do Limite de Crdito
Limite de Crdito Sugerido = ((VP_Idade + VP_Resid + VP_Veiculo
+ VP_Instruc + VP_EstCivil + VP_TpEmpr
+ VP_Sexo + VP_Filhos) /800) * ((VP_Salario
* Salrio do Cliente) / 100)) * 12);
Limite de Crdito Sugerido = (((5 + 0 + 100 + 100 + 53 + 100 + 0 + 100) /800)
* ((20 * 2.900) / 100) * 12);
Limite de Crdito Sugerido = R$ 3.985,00

50

7 CONCLUSES E SUGESTES
7.1 CONCLUSES
A proposta do presente trabalho foi de demonstrar a utilizao da tecnologia dos
sistemas especialistas, unindo a teoria dos conjuntos difusos e tcnicas de data mining,
aplicados na rea de anlise de crdito para pessoas fsicas, objetivando auxiliar o profissional
responsvel por esta tarefa a definir um valor de Limite de Crdito.
O sistema especialista no domnio do conhecimento no qual foi construdo demonstrou
que os objetivos pretendidos foram alcanados, mostrou-se muito til a unio da teoria dos
conjuntos difusos e tcnicas de data mining. A soma desta tecnologias demonstrou a
possibilidade de utilizao de sistemas especialistas na rea de anlise de crdito para pessoas
fsicas, na forma de uma ferramenta de apoio deciso, liberando o especialista para outras
atividades correlacionadas.
Constatou-se que alguns problemas do mundo real tem revelado a necessidade de tratar
dados imprecisos e qualificativos. Mostra-se neste campo, uma crescente aplicao da lgica
difusa. As perspectivas neste rea so promissoras j que sistemas especialistas podem fundirse a tcnicas de data mining e teoria dos conjuntos difusos para solucionarem problemas
cada vez mais complexos.

7.2 LIMITAES
O prottipo construdo possui algumas limitaes, como geralmente acontece em
trabalhos desenvolvidos em um espao curto de tempo como o definido para este estudo.
Pode-se citar as seguintes limitaes:
a) uso de poucas variveis na definio do perfil do cliente ideal desejado;
b) no implementao de mdulo de manuteno das regras, acarretando necessidade
de alterao do cdigo fonte do prottipo;
c) no foi realizado estudo comparativo sobre as tcnicas de data mining a fim de
identificar qual se mostraria mais adequada ao projeto.

7.3 SUGESTES PARA TRABALHOS FUTUROS


Para as tecnologias apresentadas neste estudo, inmeros caminhos podero se abrir,
mostrando um vasto nmero de aplicaes possveis. No caso especfico deste trabalho,
poderia ser feito um estudo mais aprofundado sobre todo o processo de anlise de crdito.
Poderia ser feito um estudo mais detalhado sobre as tcnicas de data mining,
especificamente sobre anlise de seleo estatstica, aprimorando o processo aqui
implementado.
Quanto ao uso de lgica difusa associada em um sistema especialista, poderia ser
realizado um estudo comparando os diversos mtodos de desfusificao existentes.

52

APNDICE 1 - REGRAS DE INFERNCIA


Regra 1
SE Idade do Cliente = Idade do Perfil
ENTO Valor de Pertinncia = 100
SENO SE Idade do Cliente > Idade do Perfil
ENTO Valor de Pertinncia = ((Idade do Cliente - Idade do Perfil) /Idade do
Perfil)*100
SENO Valor de Pertinncia = ((Idade do Perfil - Idade do Cliente) /Idade do
Cliente)*100

Regra 2
SE Residncia do Cliente = Residncia do Perfil
ENTO Valor de Pertinncia = 100
SENO Valor de Pertinncia = 0

Regra 3
SE Veiculo do Cliente = Veiculo do Perfil
ENTO Valor de Pertinncia = 100
SENO Valor de Pertinncia = 0

Regra 4
SE Estado Civil do Cliente = estado Civil do Perfil
ENTO Valor de Pertinncia = 100
SENO Valor de Pertinncia = 0

Transformao das variveis lingsticas de instruo em valores


SE Instruo do Cliente = 'Analfabeto'
ENTO Valor Lingstico = 0;
SE Instruo do Cliente = 'Primrio'
ENTO Valor Lingstico = 5;
SE Instruo do Cliente = 'Ginsio'
ENTO Valor Lingstico = 8;
SE Instruo do Cliente = 'Segundo grau'
ENTO Valor Lingstico = 11;
SE Instruo do Cliente = 'Terceiro grau'
ENTO Valor Lingstico = 16;

SE Instruo do Cliente = 'Ps-graduao'


ENTO Valor Lingstico = 18;
SE Instruo do Cliente = 'Mestrado'
ENTO Valor Lingstico = 21;
SE Instruo do Cliente = 'Doutorado'
ENTO Valor Lingstico = 24;

Regra 5
SE Instruo do Cliente = Instruo do Perfil
ENTO Valor de Pertinncia = 100
SENO Valor de Pertinncia = (Valor Lingstico/24)*80

Transformao das variveis lingsticas de tempo de emprego em valores


SE Tempo de Emprego do Cliente = 'At um ano'
ENTO Valor Lingstico = 2;
SE Tempo de Emprego do Cliente = 'Um a dois anos'
ENTO Valor Lingstico = 4;
SE Tempo de Emprego do Cliente = 'Dois a cinco anos'
ENTO Valor Lingstico = 6;
SE Tempo de Emprego do Cliente = 'Cinco a dez anos'
ENTO Valor Lingstico = 8;
SE Tempo de Emprego do Cliente = 'Mais de dez anos'
ENTO Valor Lingstico = 10;

Regra 6
SE Tempo de Emprego do Cliente = Tempo de Emprego do Perfil
ENTO Valor de Pertinncia = 100
SENO Valor de Pertinncia = (Valor Lingstico/10)*80

Regra 7
SE Sexo do Cliente = Sexo do Perfil
ENTO Valor de Pertinncia = 100
SENO Valor de Pertinncia = 0

Transformao das variveis lingsticas de nmero de filhos em valores


SE Nmero de Filhos do Cliente = 'Nenhum'
ENTO Valor Lingstico = 2;

54

SE Nmero de Filhos do Cliente = 'Um'


ENTO Valor Lingstico = 4;

SE Nmero de Filhos do Cliente = 'Dois'


ENTO Valor Lingstico = 6;
SE Nmero de Filhos do Cliente = 'Trs'
ENTO Valor Lingstico = 8;
SE Nmero de Filhos do Cliente = 'Mais de trs'
ENTO Valor Lingstico = 10;

Regra 8
SE Nmero de Filhos do Cliente = 'Nenhum'
ENTO Valor de Pertinncia = 100
SENO Valor de Pertinncia = 100 - ((Valor Lingstico/10)*80)

Regra 9
SE Salrio do Cliente < 500
ENTO Valor de Pertinncia = (300/30)
SENO SE Idade do Cliente < 3000
ENTO Valor de Pertinncia = (300/15)
SENO Valor de Pertinncia = (300/10)

Clculo do Limite de Crdito


Limite de Crdito Sugerido = ((VP_Idade + VP_Resid + VP_Veiculo + VP_Instruc
+ VP_EstCivil + VP_TpEmpr + VP_Sexo + VP_Filhos)
/800) * ((VP_Salario * Salrio do Cliente) / 100)) * 12);

55

REFERNCIAS BIBLIOGRFICAS
[ALM92]

ALMEIDA, Hamilton. Polticas econmicas sero iguais at 95. Zero Hora,


Porto Alegre, 24 mai 1992.

[AVI98]

VILA, Brulio Coelho. Data Mining. In: VI ESCOLA REGIONAL DE


INFORMTICA DA SBC. Curitiba : Champagnat, 1998. p. 87-106.

[BER97]

BERRY, Michael J. A.; LINOFF, Gordon. Data mining techniques. USA :


Wiley Computer Publishing, 1997.

[CAN98]

CANTU, Marco. Dominando o Delphi 4 - A Bblia. So Paulo : Makron


Books, 1998.

[FAY96]

FAYYAD, Usama M... [et all]. Advances in knowledge discovery and data
mining. Mento Park : AAAI : MIT, 1996.

[FIG98]

FIGUEIRA, Rafael Medeiros Andrade. Miner: um software de inferncia de


dependncias funcionais. Rio de Janeiro, 1998. Trabalho de Concluso de
Curso Instituto de Matemtica, Universidade Federal do Rio de Janeiro.

[HAR88]

HARMON, Paul; KING, David. Sistemas Especialistas. Rio de Janeiro :


Editora Campus, 1988.

[HAR98]

HARRISON, Thomas H. Intranet data warehouse. So Paulo : Berkeley


Brasil, 1998.

[HEI95]

HEINZLE, Roberto. Prottipo de uma ferramenta para criao de sistemas


especialistas baseados em regras de produo. Florianpolis : UFSC,
1995. Dissertao de Mestrado, Universidade Federal de Santa Catarina,
Programa de Ps-Graduao em Engenharia de Produo e Sistemas.

[LAP93]

LAPOLLI, Flvio Rubens. Sistema especialista difuso para controle de


estaes de tratamento de esgotos pelo processo de iodos ativados.
Florianpolis : UFSC, 1993. Dissertao de Mestrado, Universidade Federal

56

de Santa Catarina, Programa de Ps-Graduao em Engenharia de Produo


e Sistemas.
[LEM76]

LEME, Ruy Aguiar da Silva. Projeo da demanda. So Paulo: Fundao


Vanzolini, 1976.

[LEV88]

LEVINE, Robert I.; DRANG, Diane E.; EDELSON, Barry. Inteligncia


artificial e sistemas especialistas. So Paulo: McGraw-Hill, 1988.

[PAC91]

PACHECO, Roberto C.S.. Tratamento de impreciso em sistemas


especialistas. Florianpolis : UFSC, 1991. Dissertao de Mestrado,
Universidade Federal de Santa Catarina, Programa de Ps-Graduao em
Engenharia de Produo e Sistemas.

[PER95]

PEREIRA, Cledy Gonalvez. Um sistema especialista com tcnicas difusas


para os limites da agncia. Florianpolis : UFSC, 1995. Dissertao de
Mestrado, Universidade Federal de Santa Catarina, Programa de PsGraduao em Engenharia de Produo e Sistemas.

[PET73]

PETERS, William Stanley; SUMMERS, George W.. Anlise estatstica e


processo decisrio. Rio de Janeiro: Fundao Getlio Vargas em convncio
com Instituto Nacional do Livro - MEC e Editora da Universidade de So
Paulo, 1973.

[RAB95]

RABUSKE, Renato Antnio. Inteligncia artificial. Florianpolis: Editora da


UFSC, 1995.

[RAU96]

RAUTENBERG, Sandro. Um prottipo de sistema especialista difuso para


definio de salrios por habilidades. Blumenau, 1996. Trabalho de
Concluso de Curso (Bacharelado em Cincias da Computao) - Centro de
Cincias Exatas e Naturais, FURB.

[RIB87]

RIBEIRO, Horcio da Cunha e Souza. Introduo aos sistemas especialistas.


Rio de Janeiro - So Paulo : Livros Tcnicos e Cientficos Editora, 1987.

57

[ROS95]

ROSS, Timothy Jack. Fuzzy logic with Eengineering applications. Norwell :


McGraw-Hill, 1995.

[SEC96]

SECURATO, Jos Roberto. Decises financeiras em condies de risco. So


Paulo : Atlas, 1996.

[SOL81]

SOLOMON, Erza, PRINGLE, John J.. Introduo administrao


financeira. So Paulo : Atlas, 1981.

[WEL94]

WELSTEAD, Stephen T. Neural network and fuzzy logic applications in


C/C++. New york: John Willey & Sons, 1994.

58

Você também pode gostar