Você está na página 1de 9

Implementao do Algoritmo Naive Bayes Trabalho II

ACH2016 Inteligncia Artificial 2010 | Turma 02

Eder Novais | Lucas Prieto | Rafael Cunha | Victor Leal

Classes Escolhidas e Motivao


Hardware PC, Religio Misc e Hockey; Motivao: Classes bem distintas e, portanto, o erro deve ser pequeno! Cada classe possui 1.000 documentos, totalizando 3.000 mensagens; Utilizado o corpus 20news-18828.tar.gz onde as duplicadas foram removidas e cabealho possui apenas From e Subject.

Preparao dos Dados


Devido a insignificncia de palavras com concatenao de ponto, vrgula, caixa alta e baixa, etc., os dados foram mantidos originais; Com o auxlio da ferramenta CMU tool kit, no incio da execuo da aplicao gerado vocabulrio e arquivos de frequncia (criados na primeira execuo apenas); Para cada arquivo presente no corpus gerado um arquivo de frequncia; Vocabulrio com 99.042 palavras;
3

Descrio e Discusso dos Experimentos


Foram feitos vrios testes; Cada teste difere do anterior devido a propriedade aleatria aplicada ao conjunto total de exemplos; O comportamento (tempo de execuo, erros, acertos) do classificador pouco vria de um experimento para o outro; Arquivos de Frequncia, vocabulrio e executvel (.jar) somam 7.09Mb em disco; Consumo mdio de 92Mb em memria principal.
4

Desempenho do Classificador: HOLDOUT


Matriz de confuso:
Real/Predita Hockey HW-PC Religio Hockey 329 5 1 HW-PC 1 329 0 Religio 3 2 332

Acurcia: 98.8% Mdia (Erro Mdio): 1.2% Erro Padro: 0.0019889464195427054 Com 95% de confiana, o erro verdadeiro est entre: 5 0.8% e 1.6%.

Desempenho do Classificador: CROSS VALIDATION


10 Parties (Folds) de 300 textos cada, desempenho:
Erro Estimado em Cada Rodada
10 9 8 7 6 5 4 3 2 1 0

Erro

Rodada 1 Rodada 2 Rodada 3 Rodada 4 Rodada 5 Rodada 6 Rodada 7 Rodada 8 Rodada 9 Rodada 10
6

Desempenho do Classificador: CROSS VALIDATION


Erro Estimado Rodada 1: 1.0% Rodada 2: 0.3% Rodada 3: 1.7% Rodada 4: 0.3% Rodada 5: 0% Rodada 6: 1.3% Rodada 7: 1.0% Rodada 8: 1.3% Rodada 9: 0.7% Rodada 10: 0.7% Erro Mdio Aproximadamente: 0.8% Erro Padro 0.0016597076940321838

Erro Verdadeiro Com 95% de confiana, o erro verdadeiro esta entre: 0.5% e 1.2%

Impresses Gerais e Concluses


Eficaz: algoritmo de aprendizado bastante eficaz quando se tem classes bem distintas; Eficiente: de 2 a 5 minutos para gerar a sada dependendo do hardware utilizado; Permitiu estudar mais afundo o trabalho completo de data mining, suas etapas e dificuldades como escassez de memria;

Referncias
Clarkson, P. and R. Rosenfeld (1997) Statistical language modeling using the CMUcambridge toolkit. 5th European Conference on Speech Communication and Technology (EUROSPEECH 1997). Haruechaiyasak, C. Naive Bayes for Text Classification. In: A Tutorial on Naive Bayes Classification.