Você está na página 1de 10

Classificao de pginas da Internet utilizando redes neurais

artificiais.
Genilto Dallo
Departamento de Cincia da Computao (DECOMP)
Universidade Estadual do Centro-Oeste (UNICEN!O) "uarapuava# P! $ %rasil
&eniltodallo'&mail(com
Resumo. Este arti&o a)orda a classi*icao de p+&inas da Internet pelo seu
conte,do utili-ando uma !ede Neural .o/onen( Desenvolveu-se um
sistema em 0ava para e1trair o conte,do das p+&inas# e a partir do seu
conte,do 2 *eita um an+lise e classi*icao com a !N3(
Palavras-chave !edes Neurais 3rti*iciais# !N3# classi*icao de p+&inas(
!"stract. /is paper reports t/e classi*ication o* 4e) pa&es )5 t/eir content
usin& a .o/onen Neural Net4or6( 3 s5stem 4as developed in 0ava to
e1tract t/e contents o* t/e pa&es# and *rom its content is made an anal5sis
and classi*ication 4it/ t/e !N3(
#e$%ords7 3rti*icial Neural Net4or6s# .o/onen# !N3# 4e) pa&es
classi*ication(
&.Introduo
Este tra)al/o 2 motivado pelo crescimento constante do conte,do na Internet# 8ue tem como
conse8uncia a e1istncia de uma &rande 8uantidade de in*orma9es# di*iculta a tare*a de
recuperao e classi*icao desses dados(
Desde sua criao# a :orld :ide :e) (:::) apresenta ta1as de crescimento espantosas(
Isso se deve ao *ato da sua alta acessi)ilidade e escala)ilidade# 8ue propiciam um am)iente muito
*avor+vel para o compartil/amento de in*orma9es entre usu+rios( ;e&undo um levantamento
reali-ado em setem)ro de <==># por um provedor de servios norte-americano c/amado Netcra*t?#
estimasse 8ue e1istam mais de ?@A#? mil/9es de sBtios na :e)( C+ tam)2m uma proDeo 8ue indica
8ue a ta1a de crescimento atual da Internet levar+ E e1istncia de apro1imadamente du-entos
mil/9es de sBtios no ano de <=?=(F?G
3 utili-ao de !N3s para classi*icao de conte,do pode ser utili-ada em v+rias +reas#
como *erramentas de )usca# sistemas de &erenciamento de acesso a Internet(Pro15 e Hire4all)#
3nti-vBrus# )lo8ueio de ;P3M em emails# recuperao de dados# data-minin&# deteco de intrusos#
etc(
Este arti&o ir+ a)ordar a implementao de um so*t4are utili-ando a !N3 .o/onen para a
classi*icao de p+&inas da Internet pelo seu conte,do e uma )reve e1planao so)re redes neurais e
redes neurais .o/onen(
'.Redes (eurais !rtificiais )R(!*
3s !N3s constituem uma das v+rias lin/as de pes8uisa no campo da Inteli&ncia 3rti*icial
e tm por o)Detivo investi&ar a possi)ilidade da simulao de comportamentos inteli&entes atrav2s
de modelos )aseados na estrutura e *uncionamento do c2re)ro /umano( Estes modelos so
construBdos a partir de t2cnicas computacionais e podem ser implementadas em /ard4are ou
so*t4are( O estudo das !N3s 2 um dos ramos da Inteli&ncia 3rti*icial (I3) 8ue mais se
desenvolve# atraindo pes8uisadores de diversas +reas do con/ecimento F<G(
3 !N3 possui a caracterBstica de ser uma memIria do tipo associativa# ou seDa# 2 capa- de
recuperar o con/ecimento arma-enado a partir de partes da in*ormao( Isso si&ni*ica 8ue dado um
padro aprendido# ao se apresentar entradas incompletas em relao ao padro# a caracterBstica
associativa permite a in*erncia do restante da in*ormao F?G(
O aprendi-ado de uma !N3 pode ser7
!prendizado +upervisionado Neste tipo# a rede neural rece)e um conDunto de entradas
padroni-adas e seus correspondentes padr9es de saBda# onde ocorrem aDustes nos pesos sin+pticos
at2 8ue o erro entre os padr9es de saBda &erados pela rede ten/a um valor deseDado(
!prendizado no +upervisionado neste tipo# a rede neural tra)al/a os dados de *orma a
determinar al&umas propriedades dos conDuntos de dados( 3 partir destas propriedades 2 8ue o
aprendi-ado 2 constituBdo(
,-"rido neste tipo# ocorre a utili-ao dos dois tipos supervisionado e no-supervisionado#
o*erecendo a rede neural uma maior a)ran&ncia FJG(
'.& ./uival0ncia de Computa"ilidade
3 ese de C/urc/-urin& di- 8ue todo pro)lema comput+vel pode ser resolvido por m+8uina
de urin&( ;e as redes neurais so ou no e8uivalentes a uma m+8uina de urin& (M) e em
conse8uncia so capa-es de resolver 8ual8uer pro)lema comput+vel e apenas eles# tem despertado
&rande interesse recentemente( Kisto a lu- dos tra)al/os pu)licados por 3r)i) F@G# pode-se di-er 8ue
em termos de computa)ilidade MLs e neurocomputadores so e8uivalentes( Isso 8uer di-er 8ue um
neurocomputador no sa)e resolver nen/um pro)lema 8ue no pudesse ser resolvido com uma M
e vice versa( Esta a*irmao pode ser descrita mais precisamente por dois teoremas FJG(
odo pro)lema 8ue pode ser resolvido por um M poder+ ser resolvido# por uma !N3 munida de
convenientes dispositivos de entrada e saBda( Com e*eito# usando neurMnios arti*iciais (e dos mais
simples# a8ueles 8ue possuem apenas saBdas )in+rias) + possBvel construir os circuitos lI&icos NeO#
NouO e NnoO al2m de circuitos )iest+veis( Pode-se tirar v+rias conclus9es# dentre as 8uais os teoremas
e o corol+rio 8ue# e1istem redes neurais 8ue no podem ser implementadas em M(
Conse8uentemente e1istem pro)lemas 8ue podem ser resolvidos por neurocomputadores 8ue no
podem ser resolvidos pela M+8uina de urin& FJG(
'.' Redes (eurais #1,1(.(
O al&oritmo de .o/onen *oi desenvolvido por euvo .o/onen em ?PQ<# sendo considerado
relativamente simples e com a capacidade de or&ani-ar dimensionalmente dados comple1os em
a&rupamentos# de acordo com suas rela9es( Este m2todo solicita apenas os parRmetros de entrada#
mostrando-se ideal para pro)lemas onde os padr9es so descon/ecidos ou indeterminados FAG(
Este al&oritmo 2 considerado um mapa auto-or&ani-+vel (;OM)# capa- de diminuir a
dimenso de um &rupo de dados# conse&uindo manter a representao real com relao as
propriedades relevantes dos vetores de entrada# tendo-se como resultado um conDunto das
caracterBsticas do espao de entrada FSG(
3l2m disso# possui a propriedade de trans*ormar um mapa multidimensional em
)idimensional# adicionando os elementos ao novo mapa de tal *orma 8ue os o)Detos similares seDam
posicionados prI1imos uns dos outros FSG(
3presenta duas importantes caracterBsticas7 utili-a apro1imao dos pontos similares onde
os mesmos so processados separadamente e permite ao mapa o)ter centros em um plano
)idimensional disponi)ili-ando uma visuali-ao *acilmente compreensBvel F>G(
Este al&oritmo utili-a o m2todo de aprendi-a&em por competio (competitive learning)#
considerado o mais comum nas !N3 auto-or&ani-+veis# permitindo 8ue acontea o aprendi-ado
dividindo-se os padr9es de entrada dos dados em conDuntos insepar+veis( Este m2todo avalia os
neurMnios de saBda da rede de maneira 8ue ocorra uma competio entre eles# tendo-se como
resultado o neurMnio 8ue possui maior ativao( 3 rede neural de .o/onen 2 composta por duas
camadas7 a de entrada e de .o/onen( Cada nI da camada de entrada tem a *uno de distri)uir os
valores padr9es para a de .o/onen# 8ue 2 um conDunto de nodos or&ani-ados de *orma ta)ular( O
vetor de entrada possui seus elementos conectados com cada nI da camada .o/onen por meio de
li&a9es# as 8uais so respons+veis por manterem atuali-ados os valores durante o processo de
treinamento da !N3 FAG( 3 *i&ura ? mostra de maneira simpli*icada a estrutura de uma rede
.o/onen(
Hi&ura ?( !epresentao da uma rede .o/onen FQG(
3s in*orma9es (e as a)stra9es) TaprendidasU por uma rede de .o/onen podem ser
e1ploradas apIs o treinamento da rede e utili-adas das mais variadas *ormas( 3l&umas +reas em 8ue
a !N3 .o/onen pode ser aplicada so7 Classi*icao )i)lio&r+*ica# sistema de )usca em ima&ens#
dia&nIsticos m2dicos# interpretao de atividades sBsmicas# compresso de dados e recon/ecimento
de vo-(
2. 1 Pro"lema
Estre tra)al/o )usca classi*icar p+&inas da internet pelo seu conte,do# /+ uma &rande
di*iculdade /oDe no recon/ecimento e classi*icao( Por e1emplo# 8uando o conte,do por palavras 2
utili-ado em um servidor pro15# um acesso precisa ser *eito a um endereo# e este endereo possui
uma palavra 8ue esta )lo8ueada# conse8uentemente o acesso a esta p+&ina ser+ )lo8ueado( Nem
sempre a p+&ina 8ue possui apenas uma palavra *a- parte de um conte,do imprIprio( Utili-ando
!N3 podemos relacionar v+rias palavras de uma p+&ina e classi*ic+-la de uma *orma mais e*ica-(
;ites de )usca podem ter um resultado mais e*ica-# reali-ando uma )usca conte1tuali-ada a um
assunto de interesse(
2.& Reconhecimento de padr3es
Este tra)al/o caracteri-a-se como um recon/ecedor de padr9es( O recon/ecimento de
padr9es envolve trs nBveis de processamento7 *iltra&em da entrada# e1trao de caracterBsticas e
classi*icao FPG( 3 *iltra&em da entrada de dados tem o o)Detivo de eliminar dados desnecess+rios
ou distorcidos *a-endo com 8ue a entrada apresente apenas dados relevantes para o recon/ecimento
do o)Deto em an+lise( 3 e1trao de caracterBsticas consiste da an+lise dos dados de entrada a *im de
e1trair e derivar in*orma9es ,teis para o processo de recon/ecimento(
O est+&io *inal do recon/ecimento de padr9es 2 a classi*icao# onde atrav2s da an+lise das
caracterBsticas da entrada de dados o o)Deto em an+lise 2 declarado como pertencente a uma
determinada cate&oria(FPG
Vuando )usca-se reali-ar o recon/ecimento de padr9es em modelos est+ticos# em especial a
*ase de classi*icao 8ue 2 )astante onerosa# esses modelos so e*icientes apenas 8uando suposi9es
de limite so satis*eitas( 3 e*icincia de modelos est+ticos depende de um &rande conDunto de
suposi9es ou condi9es so)re as 8uais o modelo 2 construBdo( Para 8ue o modelo seDa empre&ado
com sucesso# 2 necess+rio 8ue os usu+rios possuam um )om con/ecimento so)re as propriedade dos
dados analisados e das capacidades do modelo F?=G( 3s redes neurais so uma alternativa
promissora para v+rios m2todos de classi*icao convencionais( Elas possuem vanta&ens como ser
adaptativas em *uno dos seus dados# ou seDa# so capa-es de se aDustar a si prIprias sem a
necessidade de 8ual8uer especi*icao e1plBcita( 3s redes neurais tam)2m so modelos no lineares
capa-es de modelar com *le1i)ilidade as comple1as rela9es do modelo do mundo real(
4 Implementao
O sistema *oi implementado em lin&ua&em 0ava# utili-ando a IDE Net)eans( estes de
per*ormance *oram praticados em al&uns /ard4ares di*erentes# o al&oritmo desenvolvido o)teve
uma Itima per*ormance( O n,mero m+1imo de neurMnios *oi de S==(===(
O desempen/o do aplicativo depende das condi9es da Internet de onde ele esta sendo utili-ado(
Para representao dos pesos *oi utili-ada um espao vetorial de dimenso @# 8ue
corresponde Es li&a9es dos neurMnios com as entradas# so nestas li&a9es onde *icam arma-enadas
os pesos( Um vetor representa a entrada# cada posio do vetor possui um Bndice ( i )# e cada entrada
possui uma li&ao e um peso com cada neurMnio de Bndice ( D # 6 ) de um espao vetorial de
dimenso <# *ormando assim um espao vetorial de dimenso @# con*orme mostra a Hi&ura <(
Hi&ura<( !epresentao do con/ecimento arma-enado(pesos) FQG(
O sistema permite a entrada de um endereo(url)# a partir deste endereo ser+ *eita uma
e1trao de seu conte,do (palavras)(
3pIs a e1trao das palavras de um site# um *iltro processa somente as palavras 8ue 2
necess+rio classi*icar# essas palavras *icam arma-enadas em um ar8uivo de te1to 8ue podem ser
*acilmente adicionadas ou removidas( K+rios sites *oram analisados# e as palavras comumente
encontradas em sites da mesma classe *oram adicionadas a este ar8uivo(
Cada palavra 2 representada de *orma num2rica em uma vari+vel de ponto *lutuante( 3
a)ela ? e1empli*ica al&umas palavras e suas respectivas representa9es(
Palavra Representao num5rica
3ssine =(?<AQ<>
3utomo)ilismo =(J<<?AA
Hute)ol =(?S=PPA
ecnolo&ia =(P<?=<@
empo =(><<?P<
Mul/eres =(PP?<?>
Indicadores =(@<??<>
"raduao =(<>S=?J
Palavra no e1istente =
a)ela?# representao num2rica das palavras(
4.'.& Pesos iniciais
Iniciali-ao dos pesos 2 *eita aleatoriamente com valores em dou)le de = at2 ?(
4.'.' Clculo do neur6nio vencedor
O c+lculo dos pesos 2 *eito atrav2s da distRncia euclidiana de cada entrada at2 cada neurMnio
con*orme mostra a HIrmula ?(
?
Onde : 2 o valor do peso do neurMnio e K o valor da entrada(
O neurMnio vencedor 2 a8uele 8ue possui a menor distRncia euclidiana(
4.'.7 !8uste dos pesos ) !prendizado*
O 3Duste dos pesos (3prendi-ado) 2 e*etuado para o neurMnio vencedor e tam)2m os seus
vi-in/os( No sistema implementado so considerados os Q vi-in/os de um espao vetorial de
dimenso <( 3 *Irmula < *oi utili-ada para o aDuste dos pesos(
<
Onde 4 2 o valor do peso do neurMnio t# W 2 a ta1a de aprendi-ado# K 2 o valor de entrada(
4.'.9 Par:metros da rede
3 rede *oi desenvolvida para ter parRmetros *le1Bveis# 8uantidade de neurMnios# taman/o da
entrada# ta1a de aprendi-ado e 2pocas( O 3l&oritmo desenvolvido pode ser utili-ado em v+rias
aplica9es se&uindo as caracterBsticas a8ui apresentadas# como valores de entrada num2rica(
4.'.; !rmazenamento dos pesos.
O arma-enamento dos pesos pode ser *eito por um )oto atrav2s do aplicativo# os dados da
matri- 8ue representa os pesos 2 salvo ento em um ar8uivo(
3 recuperao destes dados poder+ ser *eita posteriormente atrav2s de uma *uncionalidade
implementada na inter*ace &r+*ica ()oto carre&ar pesos)(
4.'.4 Interface Grfica do sistema
Hi&ura @( Inter*ace &r+*ica do sistema(
<.Resultados
Os resultados o)tidos *oram satis*atIrios para o pro)lema proposto( 3 rede desenvolvida
conse&uiu o)ter os dados e classi*ic+-lo atrav2s da !N3 apesar de al&umas restri9es(
3l&umas p+&inas utili-am tecnolo&ias em 8ue o sistema no conse&uiu o)ter palavras
necess+rias para poder *a-er a classi*icao( ;omente p+&inas 8ue utili-am a lin&ua&em CMW e
8ue possuem te1to podem ser classi*icadas( 3trav2s da ta)ela <# podemos ver al&uns resultados
depois de al&uns treinamentos(
Endereo Vuantidade de Palavras NeurMnio vencedor
:44(uol(com()r ?SA@ F@GF@G
:44()ol(com()r ??<P F@GF<G
:44(terra(com()r P@P F@GF<G
:44(5a/oo(com()r ??@ F@GF<G
:44(unipar()r @AA FJGF?QG
:44(unicentro()r A?S FJGF?@G
:44(cai1a(&ov()r F?>GFQG
:44(/s)c(com()r F?>GF>G
:44(santander(com()r F?>GFQG
a)ela <( !esultados o)tidos em testes com o sistema(
3 8uantidade de neurMnios de entrada *oi de ?@=# sendo 8ue ?@= palavras *oram utili-adas(3
8uantidade de neurMnios na rede *oi de J=(===( a1a de aprendi-a&em de =(J e J= 2pocas(
3 partir dos resultados o)tidos# podemos associar um determinado n,mero de neurMnios
como se *ossem uma classe(
=. Concluso
3s aplica9es de recon/ecimento de padr9es aproveitam a capacidade de aprendi-ado e a
&rande capacidade de processamento das redes neurais a *im de o)ter identi*ica9es de padr9es
dentro de cate&orias previamente esta)elecidas mais rapidamente( 3l2m disso# 8uando uma rede
neural possui o treinamento ade8uado# ela conse&ue tolerar e contornar al&umas di*erenas nos
dados analisados de cada site# o*erecendo um recon/ecimento de padr9es e*iciente(
3s redes neurais so uma e1celente t2cnica para a classi*icao por padr9es# e podem ser
utili-adas nas mais diversas situa9es# )asta compreender o conte1to do pro)lema e aplic+-la com
as con*i&ura9es 8ue mais se adaptam a ele(
Devido a inconsistncia dos dados o)tidos# como por e1emplo al&uns sites de mesma classe
possuBrem palavras di*erenciadas em seu conte,do# o recon/ecimento pela !N3 *oi di*icultado(
Pretende-se utili-ar outros padr9es de entrada# para mel/orar a sua classi*icao(
Para demonstrar a *le1i)ilidade do al&oritmo apresentado# um 4e)service *oi desenvolvido
para *a-er a classi*icao atrav2s de um site de )usca( Os pesos tam)2m podem ser treinados# utili-a
o mesmo ar8uivo de arma-enamento de pesos do aplicativo( Este site pode ser acessado pelo
endereo7 /ttp7XX444(4imep(com()rX1usX
=. Referencia "i"liogrfica
F?G MONEI!O# P(P(( (<==>) Hiltra&em de p+&inas :e) )aseada em redes neurais arti*iciais de
Cop*ield# *tp7XXdocentes(puc-
campinas(edu()rXpu)Xpro*essoresXceatecXDuanXCCXPedroMonteiroXPedroY<=Monteiro-CC-
Mono&ra*ia(pd*# a&osto <==P(
F<G M3!IN# 3(((<==@) Um Mecanismo para Hiltra&em de Pa&inas da :e) )aseado no modelo de
!ede Neural 3rti*icial de Cop*ield# P? *( Dissertao (Mestrado em In*orm+tica)( Centro de
Cincias E1atas# 3m)ientais e de ecnolo&ias( Ponti*Bcia Universidade CatIlica de Campinas#
Campinas(
F@G 3!%I%# M( 3( (?PSJ) %rains# Mac/ines and Mat/ematics( Mc"ra4-Cill(
FJG%3!!EO# 0( M( (<==<) Introduo Es !edes Neurais#
/ttp7XX444(in*(u*sc()rXZ)arretoXtutoriaisX;urve5(pd*# a&osto <==P(
FAG 0OE[ !(( (?PP>) O)Dect-oriented neural net4or6s in C\\# Wondon7 3cademic Press(
FSG M3NCINI et al( (<==S) 3plicao de redes neurais arti*iciais no au1Blio ao dia&nIstico de
crianas respiradoras )ucais e nasais( 3nais do ] Con&resso %rasileiro de In*orm+tica em ;a,de#
HlorianIpolis(
F>G Pavel %( (<==<) T;urve5 o* clusterin& data minin& tec/ni8uesU#
/ttp7XX444(ee(ucr(eduXZ)art/XEE<J<Xclusterin&^surve5(pd*# a&osto <==P(
FQG ;OM utorial# /ttp7XX444(ai-Dun6ie(comXannXsomXsomA(/tml # a&osto <==P(
FPG 0E;3N# 0(P(( (<==A) T/e neural approac/ to pattern reco&nitionU#
/ttp7XX444(acm(or&Xu)i8uit5Xvie4sXvAi>^Desan(/tml# a&osto <==P(
F?=G _C3N"# "(P(((<===) TNeural net4or6s *or classi*ication7 3 surve5U( IEEE;MC7 IEEE
ransactions on ;5stems# Man# and C5)ernetics((
F??G WIE%;EIN# W( C( (<==<) TData Minin& $ eoria e Pr+ticaU #
/ttp7XX444(in*(u*r&s()rXZclesioXcmp?A?Xcmp?A?<==<?Xarti&o^lourdes(pd*# Outu)ro <==P(

Você também pode gostar