Apresentação TII

Implementao do Algoritmo Naive Bayes Trabalho II
ACH2016 Inteligncia Artificial 2010 | Turma 02
Eder Novais | Lucas Prieto | Rafael Cunha | Victor Leal
Classes Escolhidas e Motivao

Hardware PC, Religio Misc e Hockey; Motivao: Classes bem distintas e, portanto, o erro deve ser pequeno! Cada classe possui 1.000 documentos, totalizando 3.000 mensagens; Utilizado o corpus 20news-18828.tar.gz onde as duplicadas foram removidas e cabealho possui apenas From e Subject.
Preparao dos Dados

Devido a insignificncia de palavras com concatenao de ponto, vrgula, caixa alta e baixa, etc., os dados foram mantidos originais; Com o auxlio da ferramenta CMU tool kit, no incio da execuo da aplicao gerado vocabulrio e arquivos de frequncia (criados na primeira execuo apenas); Para cada arquivo presente no corpus gerado um arquivo de frequncia; Vocabulrio com 99.042 palavras;
3
Descrio e Discusso dos Experimentos

Foram feitos vrios testes; Cada teste difere do anterior devido a propriedade aleatria aplicada ao conjunto total de exemplos; O comportamento (tempo de execuo, erros, acertos) do classificador pouco vria de um experimento para o outro; Arquivos de Frequncia, vocabulrio e executvel (.jar) somam 7.09Mb em disco; Consumo mdio de 92Mb em memria principal.
4
Desempenho do Classificador: HOLDOUT

Matriz de confuso:
Real/Predita Hockey HW-PC Religio Hockey 329 5 1 HW-PC 1 329 0 Religio 3 2 332
Acurcia: 98.8% Mdia (Erro Mdio): 1.2% Erro Padro: 0.0019889464195427054 Com 95% de confiana, o erro verdadeiro est entre: 5 0.8% e 1.6%.
Desempenho do Classificador: CROSS VALIDATION

10 Parties (Folds) de 300 textos cada, desempenho:
Erro Estimado em Cada Rodada
10 9 8 7 6 5 4 3 2 1 0
Erro
Rodada 1 Rodada 2 Rodada 3 Rodada 4 Rodada 5 Rodada 6 Rodada 7 Rodada 8 Rodada 9 Rodada 10
6
Desempenho do Classificador: CROSS VALIDATION

Erro Estimado Rodada 1: 1.0% Rodada 2: 0.3% Rodada 3: 1.7% Rodada 4: 0.3% Rodada 5: 0% Rodada 6: 1.3% Rodada 7: 1.0% Rodada 8: 1.3% Rodada 9: 0.7% Rodada 10: 0.7% Erro Mdio Aproximadamente: 0.8% Erro Padro 0.0016597076940321838
Erro Verdadeiro Com 95% de confiana, o erro verdadeiro esta entre: 0.5% e 1.2%
Impresses Gerais e Concluses

Eficaz: algoritmo de aprendizado bastante eficaz quando se tem classes bem distintas; Eficiente: de 2 a 5 minutos para gerar a sada dependendo do hardware utilizado; Permitiu estudar mais afundo o trabalho completo de data mining, suas etapas e dificuldades como escassez de memria;
Referncias
Clarkson, P. and R. Rosenfeld (1997) Statistical language modeling using the CMUcambridge toolkit. 5th European Conference on Speech Communication and Technology (EUROSPEECH 1997). Haruechaiyasak, C. Naive Bayes for Text Classification. In: A Tutorial on Naive Bayes Classification.

Apresentação TII

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apresentação TII

Enviado por

Direitos autorais:

Formatos disponíveis

Implementao do Algoritmo Naive Bayes Trabalho II

ACH2016 Inteligncia Artificial 2010 | Turma 02

Eder Novais | Lucas Prieto | Rafael Cunha | Victor Leal

Classes Escolhidas e Motivao

Preparao dos Dados

Descrio e Discusso dos Experimentos

Desempenho do Classificador: HOLDOUT

Desempenho do Classificador: CROSS VALIDATION

Desempenho do Classificador: CROSS VALIDATION

Impresses Gerais e Concluses

Você também pode gostar