Você está na página 1de 17

FUNDAO UNIVERSIDADE FEDERAL DO VALE DO SO FRANCISCO

CAMPUS JUAZEIRO
CURSO DE ENGENHARIA DA COMPUTAO

VICTOR GUSTAVO DA SILVA OLIVEIRA

ESTUDO DE CASO: INTELIGNCIA COMPUTACIONAL

Juazeiro, BA
2017
FUNDAO UNIVERSIDADE FEDERAL DO VALE DO SO FRANCISCO
CAMPUS JUAZEIRO
CURSO DE ENGENHARIA DA COMPUTAO

VICTOR GUSTAVO DA SILVA OLIVEIRA

ESTUDO DE CASO: INTELIGNCIA COMPUTACIONAL


Estudo de caso requerido pelo
professor Rosalvo Ferreira de Oliveira
Neto, como requisito para obteno de
nota da disciplina Inteligncia
Computacional, do curso de Engenharia
de Computao da Universidade Federal
do Vale do So Francisco

Juazeiro, BA
2017
1. Introduo..............................................................................................3

2. Estudo de Caso.....................................................................................3

a) KNN.................................................................................................3

b) J48...................................................................................................4

c) Multilayer Perceprton......................................................................5

d) Random Forest...............................................................................6

e) KNN + InfoGain...............................................................................7

f) KNN + AntSearch e KNN + GeneticSearch.....................................8

3. Concluso............................................................................................10

4. Referncias Bibliogrficas...................................................................12
3

0. Introduo
A inteligncia computacional tem por objetivo projetar e construir agentes
inteligentes, em destaque os programas de computador inteligentes. Pode
ser caracterizada, tambm, como a construo de inteligncia artificial,
simulando e buscando entender a inteligncia humana ou animal. Segundo
Bellman (1978), a inteligncia artificial pode ser definida como um sistema
que pensa como humanos, sendo atividades que ns associamos com o
pensamento humano, atividades tais como tomadas de decises, resoluo
de problemas e aprendizado.
Este trabalho tem por objetivo um estudo de caso de algumas tcnicas de
inteligncia artificiais, focando em alguns campos especficos dos mtodos, e
apresentando resultados e concluses a respeito do mesmo.

1. Estudo de Caso
Abaixo, esto apresentados os mtodos utilizados para a realizao dos
experimentos para este estudo, e os seus respectivos dados. Para a
obteno dos dados, foi utilizado o programa WEKA, na verso 3.8, e a base
de dados CNAE-9, disponibilizada pelo professor em sua pgina da web. Em
cada um dos mtodos, foram realizadas 20 execues, cada uma com dados
diferentes. Os resultados so mostrados a seguir.

a) KNN
Para o KNN, a mudana realizada foi na quantidade de K prximos
vizinhos. Isto quer dizer que ele seleciona uma quantidade determinada
de vizinhos de um dado elemento, e de acordo com a classe ao qual
esses vizinhos pertenam e com a regra usada, ele ento atribuir uma
classe a este elemento. No experimento, foram selecionados
aleatoriamente vizinhos em um universo compreendido de 1 at 900, e os
resultados so mostrados abaixo na tabela 1.
2. KNN

3. KNN VALUE 4. % CORRECTLY


4

CLASSIFIED

5. 1 6. 85,1852%

7. 2 8. 82,0370%

9. 4 10. 83,2407%

11. 5 12. 83,5185%

13. 6 14. 83,1481%

15. 8 16. 81,9444%

17. 9 18. 82,1296%

19. 10 20. 82,3148%

21. 11 22. 82,5926%

23. 15 24. 80,5556%

25. 16 26. 80,2778%

27. 18 28. 78,9815%

29. 25 30. 74,8148%

31. 30 32. 70,4630%

33. 33 34. 69,3519%

35. 44 36. 69,0741%

37. 55 38. 64,9074%

39. 80 40. 60,1852%

41. 400 42. 31,4815%

43. 900 44. 11,1110%

Tabela 1: Resultados KNN


Como podemos observar, o melhor resultado obtido foi quando o valor de
K 1. Isto se deve ao fato de que para o K igual a 1, a regra de classificao
irrelevante, pois o vizinho pertence a uma nica classe, tornando a
classificao mais simples. A partir do momento em que escolhemos um K>1,
a regra muda, sendo ento escolhida a classe aquela que tenha, nos
vizinhos, a maior representatividade. Como a base est com seus elementos
selecionados de modo aleatrio, existe a probabilidade que, em dada fold de
5

classificao, possam existir mais elementos de uma certa classe, e menos


das outras, tornando o mtodo instvel e gerando mais escolhas erradas.

a) J48
O J48 um algoritmo que cria modelos de deciso em rvore, analisando
os dados no modelo de treino e usando esta anlise na classificao dos
outros modelos. A rvore criada do topo para a base, escolhendo o atributo
mais apropriado para a situao. Escolhido o atributo, os dados do treino so
divididos em sub-grupos com os valores do atributo, e repetindo a escolha
at que a maioria dos elementos dos sub-grupos pertenam a uma nica
classe. Abaixo est o resultado obtido quando do uso do J48 na base de
dados utilizada.

45. RVORE DE DECISO - J-48

47. % CORRECTLY
46. FOLDS
CLASSIFIED

48. 6 49. 89,1667%

Tabela 2: Resultado J48


Percebemos que o algoritmo J48 funciona melhor nessa base de dados
que o KNN. Isto pode ser atribudo ao fato de que o KNN, por ser um mtodo
definido como preguioso, faz a seleo com base no vizinho mais prximo
do elemento, enquanto o J48 usa a repetio no conjunto de testes para
refinar sua classificao.
6

a) Multilayer Perceprton
O algoritmo de Perceptron de camadas (Multilayer Perceptron ou MLP)
uma rede neural do tipo perceptron, proposta por Minsky & Papert em 1969,
como uma forma de superar a limitao da rede perceptron simples, capaz
de definir automaticamente os pesos da rede. Uma rede MLP tpica possui
uma ou mais camadas intermedirias de neurnios, um alto grau de
conectividade e os neurnios da camada individual possuem uma funo de
ativao logstica. Para o ajuste dos pesos e limiares, de forma a minimizar o
erro da sada dos neurnios e a sada desejada, foi escolhida a regra de
generalizao delta.
Abaixo esto os resultados obtidos na anlise do MLP.
50. MULTILAYER PERCEPTRON

53. %
CORREC
52. LEARNIN
51. HIDDEN LAYERS TLY
G RATE
CLASSIFI
ED

54. 1 55. 0.1 56. 21,3889%

57. 2 58. 0.1 59. 38,0556%

60. 4 61. 0.1 62. 88,0556%

63. 5 64. 0.1 65. 74,1667%

66. 6 67. 0.1 68. 91,9444%

69. 8 70. 0.1 71. 94,3519%

72. 9 73. 0.1 74. 86,2963%

75. 10 76. 0.1 77. 88,3333%

78. 11 79. 0.1 80. 88,9815%

81. 15 82. 0.1 83. 81,9444%

84. 1 85. 0.2 86. 21,8519%

87. 2 88. 0.2 89. 23,7037%

90. 4 91. 0.2 92. 42,1296%


7

93. 5 94. 0.2 95. 49,7222%

96. 6 97. 0.2 98. 63,8889%

101. 58,79
99. 8 100. 0.2
63%

104. 56,66
102. 9 103. 0.2
67%

107. 68,42
105. 10 106. 0.2
59%

110. 58,51
108. 11 109. 0.2
85%

113. 54,81
111. 15 112. 0.2
48%

Tabela 3: Resultados de MLP


Como pode-se verificar, a medida em que a quantidade de camadas
escondidas vai crescendo, tambm vai aumentando a quantidade de
elementos classificados corretamente, at um ponto em que comea a decair.
Isto se deve ao fato de que, medida em que a rede vai se tornando mais
complexa, a interconexo dos neurnios comea a causar rudo. Notamos
tambm que quando se aumenta a razo de aprendizado, os valores
diminuem. Podemos atribuir isto ideia de que, quanto menor for a razo de
aprendizado, menores vo ser as correes dos pesos, tornando a
aprendizagem mais suave.

a) Random Forest
O algoritmo de Random Forest pode ser definido como um conjunto de
rvores de deciso onde, ao invs de se utilizar toda a base de dados para a
construo de uma rvore, divide-se em vrios subconjuntos de dados
aleatoriamente, de tamanho menor, sendo que os elementos podem se
repetir nos subconjuntos, dado que a coleta desses elementos feita usando
uma amostragem do tipo bootstrap. A partir de cada um desses subconjuntos,
cria-se uma nova rvore de deciso, escolhendo aleatoriamente elementos
desses subconjuntos, que sero os ns das rvores. Formada a floresta, a
cada rvore atribudo um peso para a classificao, obtido pela similaridade
8

entre as rvores, e atravs desse peso o elemento a ser testado receber


ento sua classificao.
O resultado da classificao da random tree para o conjunto de dados
apresentado mostrado a seguir.
114. RANDOM FOREST

117. %
CORREC
115. NumIteratio 116. Num
TLY
ns Features
CLASSIFI
ED

120. 94,53
118. 100 119. 1
70%

123. 94,81
121. 200 122. 1
48%

126. 95,09
124. 300 125. 1
26%

129. 95,09
127. 450 128. 1
26%

132. 94,90
130. 100 131. 2
74%

135. 95,09
133. 200 134. 2
26%

138. 94,62
136. 300 137. 2
96%

141. 94,90
139. 450 140. 2
74%

144. 93,61
142. 100 143. 4
11%

147. 94,07
145. 200 146. 4
41%

150. 94,35
148. 300 149. 4
19%
9

153. 94,44
151. 450 152. 4
44%

156. 93,88
154. 100 155. 6
89%

159. 94,16
157. 200 158. 6
67%

162. 94,35
160. 300 161. 6
19%

165. 94,44
163. 450 164. 6
44%

168. 93,70
166. 100 167. 9
37%

171. 93,79
169. 200 170. 9
63%

174. 93,98
172. 300 173. 9
15%

177. 93,70
175. 450 176. 9
37%

Tabela 4: Resultados de Random Forest


Como podemos ver, esta tcnica demonstra-se mais precisa na
classificao dos dados, e apresenta menos rudos entre as diferentes
quantidades de iteraes e de features. De fato, a literatura apresenta que
este mtodo pode ser mais efetivo que outras (HAN, 2011; CARUANA, 2008),
como redes neurais artificiais, devido ao uso de subconjuntos e amostragem
bootstrap, sendo tambm muito pouco sensveis a rudos e resistentes a
sobreajuste.

a) KNN + InfoGain
Agora, feita uma mudana de abordagem. Passa-se a usar, junto do
mtodo de classificao, um filtro de busca, atravs de um avaliador. Aps
serem classificados, os dados so processados no filtro, neste caso o ganho
de informao, para que seja refinado o conjunto de dados de forma a obter-
10

se o melhor conjunto dos dados classificados. O mtodo de ganho de


informao baseia-se na avaliao individual das caractersticas do conjunto,
de modo que os elementos com menor ganho de informao so eliminados
do subconjunto.
A seguir mostrada a tabela com os resultados obtidos para a base
utilizando-se KNN com InfoGain.

178. KNN+INFOGAIN

181. %
CORREC
180. THRE
179. KNN VALUE TLY
SHOLD
CLASSIFI
ED

184. 81,11
182. 1 183. -0.1
11%

187. 85,18
185. 1 186. -0.2
52%

190. 85,18
188. 1 189. -0.3
52%

193. 81,11
191. 1 192. 0.1
11%

196. 63,42
194. 1 195. 0.2
59%

199. 37,12
197. 1 198. 0.3
96%

Tabela 5: KNN + InfoGain


possvel observar que, quanto menor o limiar de tolerncia de entropia,
maior o acerto da classificao. Isto mostra que o filtro efetivamente
funciona, e que a medida em que vai ser aumentando este limiar, diminui a
quantidade de acertos, ou seja, quanto mais tolerante a erros o filtro for, pior
ser a classificao final.
11

a) KNN + AntSearch e KNN + GeneticSearch


Nos algoritmos de busca de colnia de formigas, baseou-se o estudo em
observaes da natureza. Numa colnia de formigas real, as formigas
buscam alimentos na natureza e, a medida em que vo caminhando, liberam
um feromnio para encontrar rapidamente o caminho de volta. Quando
encontram alimento, elas voltam liberando o mesmo feromnio, reforando a
presena do mesmo no caminho, fazendo com que outros membros do grupo
entendam que ali existe um melhor caminho para o alimento, reforando
ainda mais esse feromnio, impedindo que ele evapore e se percam. J nos
caminhos maiores, o feromnio acaba se evaporando e o caminho
esquecido. O algoritmo utiliza-se da mesma ideia, utilzando grafos como os
caminhos, onde as formigas simuladas passam.
No algoritmo gentico, tambm h um estudo da natureza para se buscar
a soluo de um problema. Nessa abordagem, pensa-se nos indivduos como
potenciais solues ao problema, cada um com seus atributos (cromossomos
ou gentipos), que podem sofrer mutaes ou alteraes conforme se
passam as geraes. Para que se avancem as geraes, cruzamentos so
feitos entre esses indivduos e a partir de uma funo objeto para a
otimizao, escolhem-se os candidatos mais aptos para os prximos
cruzamentos, que originaro as prximas geraes. Estes novos e
melhorados candidatos tambm vo passar pela avaliao, para que uma
prxima gerao com melhores candidatos seja criada, e assim
sucessivamente at que se atinja um critrio de parada, que pode ser tanto
um nmero mximo de geraes, ou um nvel de qualidade dos candidatos
seja alcanado.
Abaixo sero apresentados os grficos para o algoritmo da colnia de
formigas e para o gentico. Os resultados dos mesmos sero debatidos na
concluso.
200. KNN+ANTSEARCH
12

201.
206. %COR
EVAPO 204. PH 205. POPU
202. HEU 203. ITER RECTLY
RA ROMON LATION
RISTIC ATIONS CLASSIFIE
TI E SIZE
D
ON

207. 212. 33,240


208. 0,6 209. 20 210. 1,6 211. 20
0,6 7%

213. 218. 16,851


214. 0,7 215. 40 216. 1,7 217. 40
0,7 9%

219. 224. 16,851


220. 0,8 221. 60 222. 1,8 223. 60
0,8 9%

225. 230. 16,851


226. 0,9 227. 80 228. 1,9 229. 80
0,9 9%

231. 236. 16,851


232. 1 233. 100 234. 2 235. 100
1 9%

237. 242. 16,851


238. 0,6 239. 20 240. 1,6 241. 20
1,1 9%

243. 248. 16,851


244. 0,7 245. 40 246. 1,7 247. 40
1,2 9%

249. 254. 16,851


250. 0,8 251. 60 252. 1,8 253. 60
1,3 9%

255. 260. 16,851


256. 0,9 257. 80 258. 1,9 259. 80
1,4 9%

261. 266. 16,851


262. 1 263. 100 264. 2 265. 100
1,5 9%

267. 272. 16,851


268. 0,6 269. 20 270. 1,6 271. 20
1,6 9%

273. 278. 16,851


274. 0,7 275. 40 276. 1,7 277. 40
1,7 9%

279. 284. 16,851


280. 0,8 281. 60 282. 1,8 283. 60
1,8 9%

285. 290. 16,851


286. 0,9 287. 80 288. 1,9 289. 80
1,9 9%

291. 292. 1 293. 100 294. 2 295. 100 296. 16,851


13

2 9%

297. 302. 16,851


298. 0,6 299. 20 300. 1,6 301. 20
2,1 9%

303. 308. 16,851


304. 0,7 305. 40 306. 1,7 307. 40
2,2 9%

309. 314. 16,851


310. 0,8 311. 60 312. 1,8 313. 60
2,3 9%

315. 320. 16,851


316. 0,9 317. 80 318. 1,9 319. 80
2,4 9%

321. 326. 16,851


322. 1 323. 100 324. 2 325. 100
2,5 9%

Tabela 6: KNN + AntSearch

327. KNN+GENETICSEARCH

328. CROS 329. MAXG 330. MUT 331. POPU 332. %CORREC
SOVERP ENERATIO ATIONPR LATIONSI TLY
ROB NS OB ZE CLASSIFIED

333. 0,4 334. 20 335. 0,033 336. 20 337. 11,5741%

338. 0,4 339. 25 340. 0,033 341. 30 342. 11,5741%

343. 0,4 344. 30 345. 0,033 346. 40 347. 11,5741%

348. 0,4 349. 35 350. 0,033 351. 50 352. 11,5741%

353. 0,4 354. 40 355. 0,033 356. 60 357. 11,5741%

358. 0,5 359. 20 360. 0,055 361. 20 362. 11,5741%

363. 0,5 364. 25 365. 0,055 366. 30 367. 11,5741%

368. 0,5 369. 30 370. 0,055 371. 40 372. 11,5741%


14

373. 0,5 374. 35 375. 0,055 376. 50 377. 11,5741%

378. 0,5 379. 40 380. 0,055 381. 60 382. 11,5741%

383. 0,6 384. 20 385. 0,066 386. 20 387. 11,5741%

388. 0,6 389. 25 390. 0,066 391. 30 392. 11,5741%

393. 0,6 394. 30 395. 0,066 396. 40 397. 11,5741%

398. 0,6 399. 35 400. 0,066 401. 50 402. 11,5741%

403. 0,6 404. 40 405. 0,066 406. 60 407. 11,5741%

408. 0,7 409. 20 410. 0,088 411. 20 412. 11,5741%

413. 0,7 414. 25 415. 0,088 416. 30 417. 11,5741%

418. 0,7 419. 30 420. 0,088 421. 40 422. 11,5741%

423. 0,7 424. 35 425. 0,088 426. 50 427. 11,5741%

428. 0,7 429. 40 430. 0,088 431. 60 432. 11,5741%

Tabela 7: KNN + GeneticSearch

433. Concluso
Avaliando os resultados, fica evidente que a escolha da melhor
abordagem para um determinado conjunto de dados apresentados depende
principalmente do problema apresentado, embora possamos notar que
alguns algoritmos obtiveram melhores resultados na classificao, podendo
ser destacada a floresta aleatria como o melhor mtodo para este conjunto
de dados, sendo seguido pelo perceptron de multicamadas, comprovando o
que se esclarecido na literatura.
Apesar de tambm ser mostrado na literatura que os mtodos de
avaliao junto com filtros de busca apresentarem resultados otimizados se
comparados ao uso to somente do mtodo de classificao, foram
encontrados nos resultados deste estudo de caso valores que diferem dessas
alegaes. Isto pode se dever a diversos fatores, como por exemplo
problemas na instalao do software utilizado (WEKA 3.8), na instalao dos
pacotes necessrios para o funcionamento destes algoritmos, feitos de forma
externa, pois o programa apresentou erros ao instalar utilizando seu
explorador de pacotes, ou ainda a manipulao e atribuio de valores
15

inadequados ou incorretos nos campos do software, gerando o rudo


apresentado nos resultados. Pode-se conjecturar tambm que, devido
pouca quantidade de dados na base para a classificao, esse rudo possa
ser natural, e os dados obtidos podem ser considerados vlidos, embora para
que se tenha consistncia, um estudo com o teste de mais possibilidades
seja necessrio.
Apesar disso, fica evidente que a computao muito avanou no que diz
respeito ao desenvolvimento e aperfeioamento de tcnicas, mtodos e
softwares para a minerao e classificao de dados, esta que se tornou uma
rea de pesquisa fundamental na sociedade atual. Cada vez mais, empresas
pblicas e privadas se valem de informaes advindas de sistemas
inteligentes para a melhoria e avano de pesquisa, inovao e at mesmo
qualidade de vida, buscando um enfoque em sua rea de atuao, de modo
que possam se enquadrar num mundo onde cada vez mais o uso da
tecnologia se faz necessrio para um acelerado crescimento das mesmas.
O desenvolvimento e a aplicao de ferramentas para auxiliar neste
trabalho, como por exemplo o WEKA, se fazem importantes para velocidade
e dinamismo no meio acadmico, de modo que a criao dessas ferramentas
auxiliam o entendimento de diversos mtodos, sua utilizao prtica e uma
viso para abordagem de problemas eventuais que possam ser enfrentados.
Embora isso seja uma verdade, tambm interessante frisar que o estudo
dos algoritmos de forma aprofundada e a tentativa de utilizao dos mesmos
sem as ferramentas disponveis uma forma bastante vlida de estudo, de
modo que, no tendo as mesmas em mos, o profissional ser capaz de
projetar uma soluo de maneira efetiva.
O algoritmo KNN apresenta-se como uma soluo eficiente e rpida para
classificao de elementos da base de dados. Mesmo com uma base
relativamente pequena, conseguimos visualizar que uma simples ideia como
a deste algoritmo capaz de nos proporcionar uma flexibilidade e
adaptatividade gigantescas, e mesmo que os resultados obtidos junto com os
mtodos de otimizao no tenham sido satisfatrios neste experimento, fica
claro o poder dos mesmos para as atividades propostas.
16

434. Referncias Bibliogrficas


BELLMAN, R.E. An Introduction to Artificial Intelligence: Can Computers
Think? - Boyd & Fraser, 1978.
HAN, J.; KAMBER, M.; PEI, J. Data mining: concepts and techniques.
3ed. San Francisco - Morgan Kaufmann Publishers, 2011.
CARUANA, R.; KARAMPATZIAKIS, N.; YESSENALINA, A. An empirical
evaluation of supervised learning in high dimensions. In: International
conference on Machine learning, 25, Helsinki, Proceedings...Helsinki: ACM,
p.96-103, 2008.
ZUBEN, F. J. V; ATTUX, R. R. F. IA353 - DCA/FEEC/Unicamp &
DECOM/FEEC/Unicamp. Disponvel em
ftp://ftp.dca.fee.unicamp.br/pub/docs/vonzuben/ia353_1s07/topico5_07.pdf -
Acesso em 05/03/2017.

Você também pode gostar