Escolar Documentos
Profissional Documentos
Cultura Documentos
CAMPUS JUAZEIRO
CURSO DE ENGENHARIA DA COMPUTAO
Juazeiro, BA
2017
FUNDAO UNIVERSIDADE FEDERAL DO VALE DO SO FRANCISCO
CAMPUS JUAZEIRO
CURSO DE ENGENHARIA DA COMPUTAO
Juazeiro, BA
2017
1. Introduo..............................................................................................3
2. Estudo de Caso.....................................................................................3
a) KNN.................................................................................................3
b) J48...................................................................................................4
c) Multilayer Perceprton......................................................................5
d) Random Forest...............................................................................6
e) KNN + InfoGain...............................................................................7
3. Concluso............................................................................................10
4. Referncias Bibliogrficas...................................................................12
3
0. Introduo
A inteligncia computacional tem por objetivo projetar e construir agentes
inteligentes, em destaque os programas de computador inteligentes. Pode
ser caracterizada, tambm, como a construo de inteligncia artificial,
simulando e buscando entender a inteligncia humana ou animal. Segundo
Bellman (1978), a inteligncia artificial pode ser definida como um sistema
que pensa como humanos, sendo atividades que ns associamos com o
pensamento humano, atividades tais como tomadas de decises, resoluo
de problemas e aprendizado.
Este trabalho tem por objetivo um estudo de caso de algumas tcnicas de
inteligncia artificiais, focando em alguns campos especficos dos mtodos, e
apresentando resultados e concluses a respeito do mesmo.
1. Estudo de Caso
Abaixo, esto apresentados os mtodos utilizados para a realizao dos
experimentos para este estudo, e os seus respectivos dados. Para a
obteno dos dados, foi utilizado o programa WEKA, na verso 3.8, e a base
de dados CNAE-9, disponibilizada pelo professor em sua pgina da web. Em
cada um dos mtodos, foram realizadas 20 execues, cada uma com dados
diferentes. Os resultados so mostrados a seguir.
a) KNN
Para o KNN, a mudana realizada foi na quantidade de K prximos
vizinhos. Isto quer dizer que ele seleciona uma quantidade determinada
de vizinhos de um dado elemento, e de acordo com a classe ao qual
esses vizinhos pertenam e com a regra usada, ele ento atribuir uma
classe a este elemento. No experimento, foram selecionados
aleatoriamente vizinhos em um universo compreendido de 1 at 900, e os
resultados so mostrados abaixo na tabela 1.
2. KNN
CLASSIFIED
5. 1 6. 85,1852%
7. 2 8. 82,0370%
9. 4 10. 83,2407%
a) J48
O J48 um algoritmo que cria modelos de deciso em rvore, analisando
os dados no modelo de treino e usando esta anlise na classificao dos
outros modelos. A rvore criada do topo para a base, escolhendo o atributo
mais apropriado para a situao. Escolhido o atributo, os dados do treino so
divididos em sub-grupos com os valores do atributo, e repetindo a escolha
at que a maioria dos elementos dos sub-grupos pertenam a uma nica
classe. Abaixo est o resultado obtido quando do uso do J48 na base de
dados utilizada.
47. % CORRECTLY
46. FOLDS
CLASSIFIED
a) Multilayer Perceprton
O algoritmo de Perceptron de camadas (Multilayer Perceptron ou MLP)
uma rede neural do tipo perceptron, proposta por Minsky & Papert em 1969,
como uma forma de superar a limitao da rede perceptron simples, capaz
de definir automaticamente os pesos da rede. Uma rede MLP tpica possui
uma ou mais camadas intermedirias de neurnios, um alto grau de
conectividade e os neurnios da camada individual possuem uma funo de
ativao logstica. Para o ajuste dos pesos e limiares, de forma a minimizar o
erro da sada dos neurnios e a sada desejada, foi escolhida a regra de
generalizao delta.
Abaixo esto os resultados obtidos na anlise do MLP.
50. MULTILAYER PERCEPTRON
53. %
CORREC
52. LEARNIN
51. HIDDEN LAYERS TLY
G RATE
CLASSIFI
ED
101. 58,79
99. 8 100. 0.2
63%
104. 56,66
102. 9 103. 0.2
67%
107. 68,42
105. 10 106. 0.2
59%
110. 58,51
108. 11 109. 0.2
85%
113. 54,81
111. 15 112. 0.2
48%
a) Random Forest
O algoritmo de Random Forest pode ser definido como um conjunto de
rvores de deciso onde, ao invs de se utilizar toda a base de dados para a
construo de uma rvore, divide-se em vrios subconjuntos de dados
aleatoriamente, de tamanho menor, sendo que os elementos podem se
repetir nos subconjuntos, dado que a coleta desses elementos feita usando
uma amostragem do tipo bootstrap. A partir de cada um desses subconjuntos,
cria-se uma nova rvore de deciso, escolhendo aleatoriamente elementos
desses subconjuntos, que sero os ns das rvores. Formada a floresta, a
cada rvore atribudo um peso para a classificao, obtido pela similaridade
8
117. %
CORREC
115. NumIteratio 116. Num
TLY
ns Features
CLASSIFI
ED
120. 94,53
118. 100 119. 1
70%
123. 94,81
121. 200 122. 1
48%
126. 95,09
124. 300 125. 1
26%
129. 95,09
127. 450 128. 1
26%
132. 94,90
130. 100 131. 2
74%
135. 95,09
133. 200 134. 2
26%
138. 94,62
136. 300 137. 2
96%
141. 94,90
139. 450 140. 2
74%
144. 93,61
142. 100 143. 4
11%
147. 94,07
145. 200 146. 4
41%
150. 94,35
148. 300 149. 4
19%
9
153. 94,44
151. 450 152. 4
44%
156. 93,88
154. 100 155. 6
89%
159. 94,16
157. 200 158. 6
67%
162. 94,35
160. 300 161. 6
19%
165. 94,44
163. 450 164. 6
44%
168. 93,70
166. 100 167. 9
37%
171. 93,79
169. 200 170. 9
63%
174. 93,98
172. 300 173. 9
15%
177. 93,70
175. 450 176. 9
37%
a) KNN + InfoGain
Agora, feita uma mudana de abordagem. Passa-se a usar, junto do
mtodo de classificao, um filtro de busca, atravs de um avaliador. Aps
serem classificados, os dados so processados no filtro, neste caso o ganho
de informao, para que seja refinado o conjunto de dados de forma a obter-
10
178. KNN+INFOGAIN
181. %
CORREC
180. THRE
179. KNN VALUE TLY
SHOLD
CLASSIFI
ED
184. 81,11
182. 1 183. -0.1
11%
187. 85,18
185. 1 186. -0.2
52%
190. 85,18
188. 1 189. -0.3
52%
193. 81,11
191. 1 192. 0.1
11%
196. 63,42
194. 1 195. 0.2
59%
199. 37,12
197. 1 198. 0.3
96%
201.
206. %COR
EVAPO 204. PH 205. POPU
202. HEU 203. ITER RECTLY
RA ROMON LATION
RISTIC ATIONS CLASSIFIE
TI E SIZE
D
ON
2 9%
327. KNN+GENETICSEARCH
328. CROS 329. MAXG 330. MUT 331. POPU 332. %CORREC
SOVERP ENERATIO ATIONPR LATIONSI TLY
ROB NS OB ZE CLASSIFIED
433. Concluso
Avaliando os resultados, fica evidente que a escolha da melhor
abordagem para um determinado conjunto de dados apresentados depende
principalmente do problema apresentado, embora possamos notar que
alguns algoritmos obtiveram melhores resultados na classificao, podendo
ser destacada a floresta aleatria como o melhor mtodo para este conjunto
de dados, sendo seguido pelo perceptron de multicamadas, comprovando o
que se esclarecido na literatura.
Apesar de tambm ser mostrado na literatura que os mtodos de
avaliao junto com filtros de busca apresentarem resultados otimizados se
comparados ao uso to somente do mtodo de classificao, foram
encontrados nos resultados deste estudo de caso valores que diferem dessas
alegaes. Isto pode se dever a diversos fatores, como por exemplo
problemas na instalao do software utilizado (WEKA 3.8), na instalao dos
pacotes necessrios para o funcionamento destes algoritmos, feitos de forma
externa, pois o programa apresentou erros ao instalar utilizando seu
explorador de pacotes, ou ainda a manipulao e atribuio de valores
15