Dissertação

U NIVERSIDADE F EDERAL DE G OIÁS
I NSTITUTO DE I NFORMÁTICA
C AMILA M AIONE
Mineração de dados para o

reconhecimento da origem e do tipo de
alimentos e outras substâncias com base
em sua composição química
Goiânia
2016
C AMILA M AIONE
Mineração de dados para o

reconhecimento da origem e do tipo de
alimentos e outras substâncias com base
em sua composição química
Dissertação apresentada ao Programa de Pós–Graduação do

Instituto de Informática da Universidade Federal de Goiás,
como requisito parcial para obtenção do título de Mestre em
Computação.
Área de concentração: Ciências da Computação.
Orientador: Prof. Rommel Melgaço Barbosa
Goiânia
2016
Ficha catalográfica elaborada automaticamente
com os dados fornecidos pelo(a) autor(a), sob orientação do Sibi/UFG.
Maione, Camila
Mineração de dados para o reconhecimento da origem e do tipo de
alimentos e outras substâncias com base em sua composição química
[manuscrito] / Camila Maione. - 2016.
LXXXII, 82 f.: il.
Orientador: Prof. Dr. Rommel Melgaço Barbosa.

Dissertação (Mestrado) - Universidade Federal de Goiás, Instituto de
Informática (INF) , Programa de Pós-Graduação em Ciência da
Computação, Goiânia, 2016.
Bibliografia.
Inclui tabelas, lista de figuras, lista de tabelas.
1. mineração de dados. 2. agrupamento. 3. classificação. 4. seleção de

variáveis. 5. alimentos. I. Melgaço Barbosa, Rommel, orient. II. Título.
Todos os direitos reservados. É proibida a reprodução total ou parcial do
trabalho sem autorização da universidade, do autor e do orientador(a).
Camila Maione
Graduada em Ciências da Computação pela Universidade Federal de Goiás

(UFG). Durante o Mestrado, foi bolsista da CAPES e realizou pesquisas na
área de mineração de dados e análise de grupos, com foco em aplicação de
técnicas de classificação, agrupamento e seleção de variáveis para análise de
conjuntos de dados reais.
À minha mãe, Zildete.
Agradecimentos
Agradeço primeiramente ao meu orientador, Rommel Melgaço Barbosa, por me

receber sob sua orientação, pela sua condução e por todo o conhecimento a mim transmi-
tido no decorrer destes dois anos, pela sua acessibilidade, solicitude e pela oportunidade
de participar ativamente dos projetos de pesquisa descritos neste trabalho.
Agradeço à minha família, meus tios Maria e Sérgio e amigos familiares, Pedro
César e Fernando por toda a motivação, carinho e incentivo. Agradeço também aos meus
falecidos avós, Azíria e Hercídio, por todo o auxílio fundamental prestado em meus anos
escolares que prescederam o início do Mestrado e cuja lembrança por si só me motiva a
dar sempre o melhor de mim.
Agradeço, principalmente, à minha mãe Zildete, que é a minha maior motivação
por trás de meus atos e a quem dedico todas as minhas conquistas. Obrigada pelo seu
esmero em minha criação e por me garantir sempre os melhores recursos de aprendizado
ao seu alcance, que foram de fundamental importância para que eu concretizasse esta
etapa. Obrigada pelo seu eterno e incondicional suporte, emocional e financeiro, nos
momentos de dificuldade encontrados no decorrer destes dois anos.
Agradeço aos meus colegas e amigos que o Instituto de Informática me trouxe,
especialmente Henrique Mikado, Daniela Alves, Ana Lyvia Silva, Marcio Lima, Nattane
Luiza, Ernesto Veiga, Ítalo Tavares, Cleber Godoy e Déborah Daher, Roberto César
Rodrigues e Rachel Daher, pelas conversas descontraídas, pelos bons momentos, pelas
experiências compartilhadas, pelo apreço e pela motivação.
Agradeço aos membros:
• do Laboratório de Toxicologia e Essencialidade de Metais da Universidade de São

Paulo, Vanessa de Oliveira Souza, Fernando Barbosa Junior, Eloisa Silva de Paula,
Matheus Gallimberti, Airton da Cunha Martins Junior e Ana Carolina Paulelli;
• do Laboratório de Química e Toxicologia Forense do Instituto de Criminalística de
São Paulo, Loraine Togni e José da Costa;
• do Department of Chemistry da University of Central Florida, Andres Dobal
Campiglia;
• do Centro de Ciências Naturais e Humanas da Universidade Federal do ABC,
Fabiana Roberta Segura e Bruno Lemos Batista;
pelos conjuntos de dados fornecidos e pela participação nas pesquisas realizadas.
Agradeço toda a equipe técnica e administrativa do Instituto de Informática,
especialmente Mirian e Patrícia, por sua presteza, gentileza e assistência nas diversas
dúvidas levantadas no decorrer do programa.
Agradeço à Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
(CAPES) pelo auxílio financeiro.
E, finalmente, agradeço a todo o corpo docente do Instituto de Informática, pelo
seu inestimável empenho pelo instituto e pelos seus alunos, e por todo o conhecimento e
experiências compartilhados comigo desde os anos de graduação.
Há uma quantidade enorme de informações ocultas em bases de dados
- informações que são potencialmente importantes mas ainda não foram
descobertas ou articuladas. A nossa missões é trazê-las à tona.
Ian H. Witten, Eibe Frank, Mark A. Hall,

Data Mining - Practical Machine Learning Tools and Techniques.
Resumo
Maione, Camila. Mineração de dados para o reconhecimento da origem e

do tipo de alimentos e outras substâncias com base em sua composição
química. Goiânia, 2016. 82p. Dissertação de Mestrado. Instituto de Informática,
Universidade Federal de Goiás.
Uma maneira prática de caracterizar substâncias é através dos elementos químicos em sua
composiçã. Utilizando estes elementos como variáveis descritoras, é possível organizar-
mos amostras de substâncias em uma matriz de dados para ser analisada por técnicas de
mineração de dados e estatística. A classificação de substâncias baseada em sua compo-
sição química provê uma variedade de informações úteis para diversos propósitos, como
reconhecimento da origem geográfica de uma determinada substância, verificação de au-
tenticidade, identificar características de produtos que auxiliem empresas no controle de
qualidade e preservação, diferenciação de categorias de produtos, entre outros.
Este trabalho apresenta uma metodologia para análise preditiva de dados de substâncias
e alimentos com base em sua composição química, utilizando técnicas de mineração de
dados aliada a espectrometria de massa por plasma indutivamente acoplado (ICP-MS).
Quatro aplicações diretas da metodologia são apresentadas: reconhecimento geográfico
do arroz branco brasileiro produzido nos estados do Rio Grande do Sul e Goiás; classifi-
cação do suco de uva brasileiro em orgânico e convencional; diferenciação do chocolate
brasileiro em orgânico e convencional e análise de seus elementos tóxicos e essenciais; re-
conhecimento da origem de tabletes de ecstasy entre duas cidades de apreensão do estado
de São Paulo, Campinas e Ribeirão Preto.
Em todas as aplicações, os modelos de classificação obtidos apresentaram alto desempe-
nho de predição (superior a 85%), o que atesta a eficiência da metodologia proposta, e
os algoritmos de seleção de variáveis utilizados ajudaram a identificar os elementos quí-
micos mais importantes para a diferenciação das amostras. No âmbito de diferenciação
de amostras de alimento entre orgânico e convencional, a nossa abordagem é pioneira e
gerou bons resultados.
Palavras–chave
mineração de dados, agrupamento, classificação, seleção de variáveis, alimentos,
aprendizagem de máquina
Abstract
Maione, Camila. Data mining for the recognition of origin and type of food
and other substances based on its chemical composition. Goiânia, 2016. 82p.
MSc. Dissertation. Instituto de Informática, Universidade Federal de Goiás.
A practical way to characterize consumable substances is through its chemical elements in
its composition and theirs concentrations. By using these elements as feature variables, it
is possible to arrange these substances samples in a data matrix in which data mining
and statistical techniques can be applied for predictive analysis. The classification of
consumable substances based on its chemical components is an interesting problem
and provides useful information for various purposes, as: recognition of geographical
origin of a substance; validation and authenticity; determination of the characteristics of
a product which can aid companies in the quality control and preservation; differentiation
of categories of a product, and others.
This study presents a methodology for predictive analysis of substances and food based
on its chemical components, using data mining concepts and techniques allied to ICP-
MS. Four applications of the proposed methodology are described: recognition of the
geographical origin of Brazilian white rice produced in SÃ£o Paulo and Goiás states; dif-
ferentiation of organic and conventional Brazilian grape juice; differentiation of organic
and conventional Brazilian chocolate, and analysis of its toxic and essential elements; re-
cognition of the source of ecstasy tablets apprehended in two cities from Sao Paulo state,
Ribeirão Preto and Campinas.
For all applications presented, the classification models obtained showed high predictive
performance (over 85%), which attest the efficiency of the proposed methodology, and
the variable selection techniques used helped us to identify the chemical elements which
are more important to the differentiation of the analyzed samples. For the purpose of
distinguishing food samples into organic and conventional, our approach is pioneer and
yielded good results.
Keywords
data mining, clustering, classification, feature selection, food, machine learning
Sumário
Lista de Figuras 12
Lista de Tabelas 13
1 Apresentação 14
2 Mineração de dados 17
2.1 Classificação 18
2.1.1 Modelos de classificação 19
Máquinas vetores de suporte 20
Redes neurais artificiais 23
Árvores de decisão 25
2.1.2 Medidas de desempenho de classificadores 28
2.2 Seleção de variáveis 31
2.2.1 Algoritmos de seleção de variáveis 32
2.3 Balanceamento de dados 34
3 Diferenciação do arroz branco produzido em duas regiões do Brasil 36

3.1 Introdução e objetivos 36
3.2 Metodologia 37
3.2.1 Dados analisados 37
3.2.2 Métodos de mineração de dados utilizados 38
3.3 Resultados obtidos 38
3.4 Conclusões 40
4 Diferenciação do suco de uva orgânico e convencional 43

4.2 Metodologia 44
4.3.1 Elementos químicos nas amostras de suco de uva orgânico e convencional 45
4.3.2 Seleção de variáveis de modelos de classificação 47
4.4 Conclusões 55
5 Diferenciação do chocolate orgânico e convencional 57

5.2 Metodologia 57
5.3.1 Elementos tóxicos e essenciais encontrados nas amostras de chocolate 59
5.3.2 Classificação das amostras de chocolate e seleção de variáveis 63
5.4 Conclusões 64
6 Diferenciação de amostras de ecstasy apreendidas em Ribeirão Preto e Cam-

pinas 66
6.2 Metodologia 67
6.4 Conclusões 71
7 Considerações finais 73
Referências Bibliográficas 74
Lista de Figuras
2.1 Processo de descoberta de conhecimento em bancos de dados (KDD) [82]. 17

2.2 Exemplo de classificador. 19
2.3 Possíveis limites de decisão para um conjunto de dados. 20
2.4 Margem do limite de decisão. 21
2.5 Limites de decisão, margens do limite de decisão e parâmetros do SVM. 22
2.6 Transformação de um conjunto de dados originalmente bidimensional
(ℜ2 ) e não separáveis linearmente para um espaço tridimensional (ℜ3 )
onde eles são linearmente separáveis [47]. 23
2.7 Desenho arquitetural de um modelo perceptron 24
2.8 Exemplo de um multilayer perceptron [82]. 24
2.9 Exemplo de estrutura de uma árvore de decisão [68]. 26
2.10 Execução do método de validação cruzada k-fold. 30
2.11 Execução do SMOTE. 35
3.1 Importância relativa das variáveis de acordo com suas notas de F-score
calculadas. 40
4.1 Importância relativa das variáveis de acordo com o valor de F-score

calculado. 48
4.2 Importância relativa das variáveis de acordo com o valor de RFI calculado. 48
4.3 Importância relativa das variáveis de acordo com o valor de X 2 calculado. 49
4.4 Desempenho dos modelos de classificação obtidos utilizando diferentes
subconjuntos de variáveis avaliadas pelo F-score, X 2 e RFI . 53
4.5 Regra de decisão gerada pelo melhor modelo CART obtido. 54
5.1 Metodologia empregada para análise de dados. Técnicas de seleção de

variáveis são utilizadas para refinar o conjunto de variáveis original e
obter o melhor subconjunto de variáveis hipotético, que será utilizado para
treinar modelos de classificação SVM e MLP. 59
5.2 Importância relativa das variáveis de acordo com o coeficiente X 2 e o
F-score. 65
(a) Coeficiente X2 calculado para cada elemento químico nas amostras
de chocolate. 65
(b) Medida de F-score calculada para os elementos químicos nas amos-
tras de chocolate que atingiram um valor de X 2 maior do que 0. 65
6.1 Importância relativa das variáveis de acordo com suas notas de F-score
calculadas. 70
Lista de Tabelas
2.1 Exemplos de funções kernel para uso com o SVM. 23

2.2 Conjunto de treinamento [68]. 26
2.3 Estrutura de uma matriz de confusão gerada para um modelo de classifi-
cação binário. 31
3.1 Concentração média e faixas de concentração dos elementos químicos

encontrados no arroz de diferentes áreas de produção, Goiás e Rio
Grande do Sul. 39
3.2 Valores de precisão obtidos pelos modelos de classificação utilizando
diferentes subconjuntos de variáveis. 41
3.3 Medidas de desempenho para os melhores modelos SVM, RF e MLP
obtidos. 41
4.1 Concentrações médias e faixas de concentração para os elementos quí-

micos determinados nas amostras de suco de uva orgânico e convencional. 46
4.2 Precisão obtida pelos modelos de classificação usando subconjuntos de
variáveis avaliadas de acordo com o F-score. 50
variáveis avaliadas de acordo com o X 2 . 51
variáveis avaliadas de acordo com o RFI. 52
4.5 Medidas de desempenho computadas para os melhores SVM, CART e
MLP obtidos. 55
5.1 Níveis de concentração dos 38 elementos químicos encontrados nas

amostras de chocolate brasileiro orgânico (OC) e convencional (CC). 62
5.2 Medidas de desempenho para os modelos SVM e MLP treinados utili-
zando seleção de variáveis e todas as variáveis originais do conjunto de
dados. 64
6.1 Concentração média e desvio padrão (DP) dos elementos químicos en-
contrados nos tabletes de ecstasy apreendidos em Campinas e Ribeirão
Preto. 69
6.2 Valores de precisão obtidos pelo modelo SVM utilizando diferentes sub-
conjuntos de variáveis. 71
6.3 Medidas de desempenho para os modelos SVM que atingiram o valor
ótimo de precisão (81.58%). 72
CAPÍTULO 1
Apresentação
A quantidade de dados disponíveis no mundo está em ascensão. Recursos capa-

zes de capturar e transmitir dados surgem e são aprimorados incessantemente, cumpli-
ciados pelos grandes avanços nas tecnologias de rede e comunicação dos últimos anos.
Para abarcar este avanço, ferramentas e tecnologias de armazenamento e manipulação de
dados são constantemente evoluídas. Dados brutos armazenados em bancos de dados, pla-
nilhas ou outras formas de registro são promissoras fontes de informação. Uma variedade
de técnicas de análise estatística multivariada e reconhecimento de padrões foram conce-
bidas nas últimas decadas com o objetivo de se extrair informações de dados brutos. E,
nos últimos anos, um novo processo de descoberta de informação e padrões em dados tem
cativado a atenção de pesquisadores na área de análise de dados: a mineração de dados.
Mineração de dados é um processo útil para a extração de informações em gran-
des bases de dados. A mineração de dados agrega conceitos de inteligência artificial,
aprendizagem de máquina, análise estatística multivariada, álgebra linear e fundamentos
de computação, provendo técnicas capazes de realizar análises classificatórias, voltadas
para a predição de valores e informação em um dado arbitrário a partir de dados previ-
amente observados, ou análises de agrupamento, identificando perfis ou categorias nos
dados e os dividindo em grupos distintos com base em algum padrão de similaridade.
A mineração de dados também dispõe de algoritmos de seleção de variáveis, capazes de
identificar as variáveis descritivas (muitas vezes referidas como colunas) mais relevantes
em grandes planilhas de dados para uma determinada análise.
Uma maneira prática de caracterizar substâncias é através dos elementos quími-
cos em sua composição. Utilizando estes elementos como variáveis descritoras, é possível
organizarmos amostras de substâncias em uma matriz de dados para ser analisada por téc-
nicas de mineração de dados e estatística. A classificação de substâncias consumíveis
baseada em sua composição química provê uma variedade de informações úteis para di-
versos propósitos [7, 48, 5, 79, 55, 18, 80, 81, 62, 15], como reconhecimento da origem
geográfica de uma determinada substância, verificação de autenticidade, identificar ca-
racterísticas de produtos que auxiliem empresas no controle de qualidade e preservação,
diferenciação de categorias de produtos, entre outros.
15
Uma ferramenta eficiente e que nos últimos 30 anos tem ganhado popularidade
nos laboratórios ao redor do mundo para a extração de elementos químicos em amostras
é a espectrometria de massa com plasma indutivamente acoplado (ICP-MS) [66]. ICP-
MS possui várias vantagens sobre outras ferramentas de determinação elemental como
absorção atômica e espectrometria de emissão ótica, incluindo espectrometria de emissão
atômica (ICP-AES) [93].
Neste trabalho, aliamos as técnicas de análise preditiva da mineração de dados
com dados obtidos através de ICP-MS para propor modelos de classificação capazes
de diferenciar amostras de substâncias com base em sua composição química. Esta
é a primeira vez em que esta metolodogia é utilizada para a certificação de alguns
alimentos orgânicos, como o suco de uva. Os resultados são promissores, com modelos
de classificação construídos que apresentam alta precisão de classificação.
No Capítulo 2 apresentamos a fundamentação teórica que embasa o nosso tra-
balho. Explicamos os conceitos básicos de mineração de dados e aprendizagem supervi-
sionada, e discorremos sobre todas as técnicas, modelos de classificação e algoritmos de
seleção de variáveis utilizados em nossas análises.
No Capítulo 3, apresentamos a nossa pesquisa feita com amostras de arroz
brasileiro de Goiás e do Rio Grande do Sul, e os modelos de classificação construídos
capazes de predizar o estado de produção de uma amostra de arroz com base em seus
elementos químicos. Nós utilizamos três técnicas de classificação conhecidas, máquinas
vetores de suporte, árvores aleatórias e redes neurais artificiais, aliadas ao F-score para a
seleção de variáveis. Os modelos obtidos mostraram taxa de precisão de 93.66%, 93.83%
e 90%, respectivamente. Este trabalho foi publicado em 2016 com o título "Classification
of geographic origin of rice by data mining and inductively coupled plasma mass
spectrometry" na revista Computers and Electronics in Agriculture, qualificada como A2
em Ciência da Computação [56].
No Capítulo 4, apresentamos o estudo da composição elemental de amostras
de suco de uva orgânico e convencional. O objetivo era prover modelos de classificação
capazes de diferenciar os dois tipos de suco, além de entender quais eram os elementos
químicos mais importantes para a diferenciação. Utilizamos modelos de máquinas vetores
de suporte, redes neurais artificiais e árvores de decisão, que mostraram precisão de
89.18%, 86.48% e 86.48%, respectivamente. Este trabalho foi publicado com o título
”Comparative study of data mining techniques for the authentication of organic grape
juice based on ICP-MS analysis” na revista Expert Systems with Applications, qualifiada
como A2 em Ciência da Computação [57].
No Capítulo 5, apresentamos o estudo dos elementos tóxicos e essenciais que
compõem o chocolate orgânico e o chocolate convencional. Modelos de classificação
baseados em máquinas vetores de suporte e redes neurais artificiais foram construídos
16
para a diferenciação de amostras dos dois tipos e chocolate, e apresentaram 95.83% e

93.75% de precisão de classificação, respectivamente.
No Capítulo 6, apresentamos o uso de nossa metodologia em uma outra área,
voltada para ciências forenses. Nesta aplicação, conseguimos classificar a origem de
amostras de ecstasy apreendidas pela polícia em dois municípios importantes do estado
de São Paulo (Brasil), Campinas e Ribeirão Preto, também com base em sua composição
mineral. Este trabalho está sendo preparado para submissão e recebeu apoio financeiros
da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) e do Conselho
Nacional de Desenvolvimento Científico e Tecnológico (CNPq).
No Capítulo 7, apresentamos as considerações finais do nosso trabalho, dentre
as quais destacamos o sucesso e os bons resultados obtidos pela nossa metodologia na
classificação da origem de alimentos e outros produtos, e para a certificação do tipo de
alimentos (convencional ou orgânico), sendo, neste último caso, uma abordagem inédita
na literatura.
CAPÍTULO 2
Mineração de dados
De acordo com Tan et. al [82], mineração de dados é o processo de descoberta

automática de informações úteis em grandes depósitos de dados. A mineração de dados
dispõe de técnicas que utilizam a aprendizagem de máquina aliada a cálculos estatísticos,
álgebra linear e otimização matemática para descoberta de informações em conjuntos
de dados que podem passar inobservados através de métodos de análise tradicionais.
Problemas de mineração de dados utilizam dados presentes em alguma base de dados [92]
e desta forma a mineração de dados é uma parte integral da descoberta de conhecimento
em bancos de dados (KDD), que é o processo geral de conversão de dados brutos em
informações úteis e consiste de uma série de etapas de transformação como as que estão
dispostas na Figura 2.1 [82].
Figura 2.1: Processo de descoberta de conhecimento em bancos

de dados (KDD) [82].
A aprendizagem de máquina é um procedimento fundamental para a realização

da maior parte dos processos de mineração de dados. Derivada do campo de inteligência
artificial, ela abrange métodos de estatística computacional, otimização matemática e fun-
damentos de computação para moldar algoritmos e torná-los capazes de fazer descobertas
automáticas de padrões e informações em conjuntos de dados que levam a uma tomada de
decisão [11]. Problemas de mineração de dados, que envolvem a análise de bases de dados
(como os contemplados nesta pesquisa), não são resolúveis através de algoritmos estáti-
cos comuns e requerem que estes algoritmos evoluam e se adaptem de maneira autônoma
conforme o cenário em torno da solução é modificado, e nestes casos a aprendizagem de

máquina é especialmente útil.
No contexto de mineração de dados e reconhecimento de padrões, uma base (ou
conjunto) de dados é definida como um conjunto finito de exemplos E = {e1 , e2 , ..., en }
que representam combinações lineares de um determinado conjunto de variáveis X =
{x1 , x2 , ..., xm }. Em outras palavras, cada exemplo (ou amostra) é descrito por um vetor
finito de entrada correspondente aos valores de suas características. Desta forma, um
conjunto de dados refere-se a uma matriz n × m, sendo n a quantidade de exemplos
disponíveis e m a quantidade de variáveis, ou características, que descrevem os exemplos.
A aprendizagem de máquina nos permite então modelar algoritmos capazes de observar o
comportamento dos exemplos de um determinado conjunto de dados e suas características
e tentar predizer informações em exemplos novos e desconhecidos, ou mesmo identificar
padrões e perfis entre os exemplos deste conjunto de dados.
As demais seções deste capítulo abordam e descrevem sumariamente todas as
etapas, conceitos e técnicas de mineração de dados utilizadas no decorrer nosso projeto.
Desta forma, este capítulo contempla toda a fundamentação teórica que deu base à
pesquisa realizada.
2.1 Classificação
Considere um conjunto de dados arbitrário. Após a leitura de todos os exemplos
deste conjunto e suas características, queremos ser capazes de inferir informações para
novos exemplos desconhecidos que sejam descritos pelo mesmo vetor de características.
Este processo de inferência é chamado de generalização. Generalização e classificação
implementam a aprendizagem supervisionada, cujo objetivo o desenvolvimento de algo-
ritmos capazes de generalizar dados novos e desconhecidos com base em um conjunto de
dados previamente observado, o qual chamamos de conjunto de treinamento. Os exem-
plos do conjunto de treinamento estão associados a uma característica especial chamada
rótulo de classe que se refere à informação que desejamos poder predizer em novos exem-
plos. Desta forma, a aprendizagem supervisionada é utilizada para construir algoritmos
capazes de predizer o rótulo de classe de novos exemplos com base nas características e
nos rótulos de classe observados em outros exemplos.
O produto da aprendizagem supervisionada é um classificador, matematica-
mente definido por uma função fˆ : X → {true, f alse} utilizando o conjunto de exem-
plos D de maneira que fˆ(x) ∼ = f (x), sendo D um conjunto de objetos rotulados onde
D = {(x, y) | x ∈ S e y = f (x)} para uma função de rotulação f : X → {true, f alse} [39].
A Figura 2.2 ilustra um exemplo de classificador para um conjunto de dados
cujos exemplos são definidos por três variáveis: x1 (Variável 1), x2 (Variável 2) e um
rótulo de classe c, referente a cor do exemplo no gráfico. Como c só pode assumir dois
valores (vermelho ou azul), dizemos que este é um problema de classificação binária. O
classificador receberá como entrada os valores de x1 e x2 e retornará um valor predito para
c. No exemplo dado,
( o classificador é definido pela função de classificação:
verde se x2 < 5
f (e) =
vermelho se x2 > 5
Assim, o classificador irá predizer a cor vermelha para exemplos desconhecidos cujo valor
de x2 for maior do que 5 e azul caso contrário.
10.0
7.5
Variável 2
5.0
2.5
0.0
0.0 2.5 5.0 7.5 10.0
Variável 1
Figura 2.2: Exemplo de classificador.
A classificação de dados possui aplicações em diversas áreas. Alguns trabalhos

recentes envolvem detecção de mensagens de spam em e-mails baseada no cabeçalho
e conteúdo da mensagem [82], diferenciação de amostras de alimentos com base em sua
composição mineral [57, 56, 3, 15], predição do time vencedor em competições esportivas
[27], classificação de textos [64, 83, 74], predição do diagnóstico [67] e da chance de
sobrevivência ao câncer de mama [28], entre outros.
2.1.1 Modelos de classificação

Nesta subseção, discorremos sobre as técnicas de classificação utilizadas no
decorrer da nossa pesquisa: máquinas vetores de suporte (SVM), redes neurais artificiais,
árvores de decisão e florestas aleatórias.
Máquinas vetores de suporte
Máquinas vetores de suporte (SVM) é uma técnica de classificação introduzida

por Corinna Cortes e Vladmir Vapnik [21] e que tem se popularizado rapidamente na
literatura sobre mineração e classificação de dados. Um dos motivos é a sua eficiência e
sucesso empírico, comprovados através das altas porcentagens de predição com sucesso
que o SVM tem mostrado em diversas aplicações de vários domínios.
O objetivo do SVM é encontrar um hiperplano que atuará como limite de decisão
e que deverá ter a maior margem possível. Chamados este hiperplano de hiperplano
de margem máxima [82]. A Figura 2.3 nos mostra um exemplo de conjunto de dados
linearmente separável e os vários hiperplanos capazes de classificar perfeitamente os
dados, e o classificador deverá escolher um destes hiperplanos como o limite de decisão
com base em sua capacidade de separação. As margens de um hiperplano são definidas
como hiperplanos paralelos ao limite de decisão que se afastam até tocar, cada um, os
primeiros exemplos de cada classe. A Figura 2.4 ilustra dois limites de decisão, L e T ,
sendo m1 e m2 margens de L e t1 e t2 margens de T .
Figura 2.3: Possíveis limites de decisão para um conjunto de da-

dos.
Classificadores com limites de decisão com margens pequenas são mais susceptí-
veis a overfitting e possuem menor capacidade de generalização, uma vez que uma ligeira
perturbação o limite de decisão pode ter um impacto significativo sobre o resultado da
classificação [82]. Observando a Figura 2.4, vemos que um exemplo desconhecido que
ocorra imediatamente abaixo do limite de decisão T em sua porção superior direita será
classificado como triângulo, quando na verdade este exemplo demonstra maior similari-
Figura 2.4: Margem do limite de decisão.
dade com os exemplos representados pelo círculo; para o limite de decisão L, exemplos
somente serão classificados como triângulo se estiverem pelo menos abaixo da metade
do gráfico. Isto significa que, no pior caso, um exemplo classificado como triângulo pelo
limite de decisão L será mais similar aos demais exemplos triângulos de treinamento do
que no caso do limite de decisão T .
Quando o SVM trabalha sobre dados linearmente separáveis, o limite de decisão
possui representação linear, como ilustrado na Figura 2.5 para um exemplo de conjunto
de dados bidimensional. O limite de decisão é definido pela equação:
w·x+b = 0 (2-1)
onde x é o conjunto de valores das variáveis de um exemplo arbitrário e, e w

é um conjunto de pesos cuja combinação linear computa o valor do rótulo de classe y
de e. Assim, se considerarmos que os dois possíveis valores de rótulos de classe para os
exemplos são 1 e -1 (no exemplo da Figura 2.5, suponha que círculos possuem rótulo de
classe 1 e triângulos possuem rótulo de classe -1), o SVM irá predizer o rótulo de classe
de um novo exemplo como 1, se w · x + b > 0 e -1 se w · x + b < 0.
A largura da margem do limite de decisão é dada pela distância entre os dois
hiperplanos paralelos ao limite de decisão que tangenciam os exemplos de cada classe que
estão mais próximos ao limite de decisão. Essa distância é calculada através da equação
[21, 14]:
2
d= (2-2)
|| w ||
o objetivo do SVM é encontrar o limite de decisão cuja margem seja a maior
Figura 2.5: Limites de decisão, margens do limite de decisão e

parâmetros do SVM.
possível, o qual chamamos de hiperplano de margem máxima. Isto significa minimizar a

seguinte função objetivo [21, 14]:
|| w ||2
min (2-3)
w 2
Ao trabalhar com dados linearmente não separáveis, o SVM projeta os dados do
seu espaço de coordenadas original em x para um novo espaço Φ(x) onde os exemplos
sejam separáveis por um limite de decisão linear, como mostrado na Figura 2.6. Este
processo é feito através da aplicação de uma função de transformação sobre os atributos
do conjunto de dados, como a função no exemplo abaixo [82]:
√
Φ : ℜ2 → ℜ3 (x1 , x2 ) → (z1 , z2 , z3 ) = (x12 , 2x1 x2 , x22 ) (2-4)
O limite de decisão linear no novo espaço será dado pela equação 2-1 adaptada
para os atributos transformados, ou seja: w · Φ(x) + b = 0.
Uma alternativa para o cálculo do mapeamento dos atributos transformados no
novo espaço dimensional é o uso das funções de núcleo, ou funções kernel, representadas
por K(x, y). Esta função permite expressar a similaridade entre dois exemplos no novo
espaço transformado em função do produto de ponto entre eles. A Tabela 2.1 traz alguns
exemplos de funções kernel que podem ser utilizadas com o SVM.
Figura 2.6: Transformação de um conjunto de dados original-

mente bidimensional (ℜ2 ) e não separáveis linear-
mente para um espaço tridimensional (ℜ3 ) onde eles
são linearmente separáveis [47].
Kernel Fórmula
Linear K(x, y) = xT y + c
Polinomial K(x, y) = (αxT + c)d
Gaussiana K(x, y) = exp(−γ || x − y ||2 )
Laplaciana K(x, y) = exp(− ||x−y||
σ )
Tabela 2.1: Exemplos de funções kernel para uso com o SVM.
Redes neurais artificiais
Redes neurais artificiais [96] foram inspiradas no sistema cognitivo e nas funções
neurológicas do cérebro humano, simulando os neurônios e seus ligamentos, responsáveis
pelas transmissões de impulsos nervosos. Neurônios possuem os axiônios, filamentos que
conectam a outro neurônio através dos dendritos, e o ponto de conexão é chamado de
sinapse. De maneira similar, uma rede neural artificial é um modelo de classificação
composto de nós interconectados [82], comumente referidos também como perceptron.
A Figura 2.7 mostra o desenho arquitetural de um modelo perceptron. Um
perceptron é uma estrutura composta por n nós de entrada, que simulam os neurônios.
Estes nós recebem e armazenam os valores de entrada das variáveis que descrevem os
exemplos, e o conjunto destes nós de entrada formam a camada inicial do modelo. Cada
nó desta camada inicial se conecta a outro nó, disposto na camada de saída do modelo,
através de arestas que estão associadas a um valor de peso w, que simulam os axiônios e
a força da conexão da sinapse entre um nó de entrada e o nós de saída.
O nó de saída do modelo armazena a função que, utilizando os valores de entrada
fornecidos, calcula o valor de saída y do modelo, referente ao rótulo de classe. Essa função
envolve a soma ponderada dos valores recebidos pelos nós de entrada multiplicados pelo
valor de peso das arestas correspondentes. O valor de saída é computado através de uma
função de ativação, como por exemplo a função sinal na equação abaixo:
Figura 2.7: Desenho arquitetural de um modelo perceptron
!
d
y = sign ( ∑ xd wd ) − t) (2-5)
k=1
sendo t um fator de tendência. Desta forma, y no exemplo acima pode assumir

dois valores distintos, {+1, −1}.
O Multilayer Perceptron (MLP) é uma extensão do modelo perceptron que
possui, além das camadas de entrada e saída, camadas intermediárias (também chamadas
de camadas ocultas) formadas por nós chamados nós ocultos. A Figura 2.8 mostra um
exemplo de estrutura de um MLP.
Figura 2.8: Exemplo de um multilayer perceptron [82].
Durante a fase de treinamento, o modelo MLP busca determinar os valores para

os pesos w que minimize a soma total de erros quadrados:
1 N
E(w) = ∑ (yi − ŷi)
2 i=1
(2-6)
Desta forma, os valores de w1 , w2 , ..., wn são repetidamente ajustados de maneira

a reduzir o erro de classificação. Um algoritmo conhecido para o ajuste dos pesos é o
método de gradiente descendente, que propõe a seguinte equação para a atualização dos
valores de w:
ϑE(w)
wj = w j −λ (2-7)
ϑw j
onde λ é chamada taxa de descoberta. Como a atualização do valor do peso
depende do valor de saída obtido pelo classificador, para que os nós ocultos tenham
acesso a este valor, a propagação inversa é utilizada. Este procedimento adiciona uma
fase no treinamento após o cálculo do valor de saída para um determinado exemplo de
treinamento. Nesta fase adicional, o valor do erro de predição é propagado da camada
k + 1 para a camada k anterior, e os pesos dos nós nas camadas ocultas são atualizados
em ordem reversa [82]. Finalmente, podemos resumir o algoritmo de treinamento com o
método de propagação inversa nos modelos MLP nos seguintes passos [35]:
1. Inicialize a rede neural com os seus valores de pesos

2. Leia o primeiro exemplo de treinamento
3. Propague os valores dos atributos do exemplo fornecido através da rede neural para
que um valor de saída seja obtido
4. Calcule o erro de saída através da comparação do valor de saída esperado com o
valor de saída obtido
5. Propague o erro de volta pela rede
6. Ajuste os valores dos pesos de maneira a minimizar o erro geral de classificação
7. Repita os passos 2-7 para um novo exemplo de treinamento, até que o erro geral
seja satisfatoriamente pequeno
O MLP tem sido utilizado para resolver uma variedade de problemas que podem
ser categorizados em predição, aproximação de funções ou classificação de padrões [35].
Entretanto, existem alguns desafios inerentes ao uso deste classificador, como:
• Dificuldade de implementação e interpretação.

• A quantidade de nós e camadas ocultas a serem utilizadas.
Árvores de decisão
Árvores de decisão [63, 12, 68] se referem a um dos modelos de classificação

mais antigos, e mais populares devido à sua simplicidade, baixo custo computacional e
rápida generalização de novos exemplos. Cada atributo do conjunto de dados de treina-
mento é questionado individualmente, e estas questões e suas respostas formam regras de
classificação. O objetivo da árvore de decisão é expressar as regras de classificação em
uma estrutura em árvore. Cada nó da árvore corresponde a uma variável de atributo, e
cada aresta que sai de um nó x representa um valor, ou uma faixa de possíveis valores,
para a variável x. Nós folhas armazenam os possíveis rótulos de classe, e correspondem
ao ponto final do processo de classificação. A classificação de um exemplo desconhe-

cido se dá através da checagem dos valores de suas variáveis, começando pelo nó raíz,
analisando o resultado do teste da variável ali armazenada, e seguindo pela aresta que
representa o valor obtido. Este processo iterativo gerará um percurso na árvore de decisão
até que um dos nós folhas seja alcançado e o rótulo de classe associado a este nó folha
será determinado como o rótulo de classe do exemplo fornecido [68].
A Figura 2.9 mostra um exemplo de árvore de decisão desenvolvida a partir do
conjunto de treinamento mostrado na Tabela 2.2. O conjunto de treinamento possui 14
exemplos, descritos pelas variáveis "Aparência"que assume os possíveis valores ({enso-
larado, nublado, chuvoso}), "Temperatura"({quente, moderado, frio}), "Umidade"({alta,
normal}), "Ventania"({sim, não}), e o rótulo de classe "Classe"({P,N}).
Aparência Temperatura Umidade Ventania Classe

1 ensolarado quente alta não N
2 ensolarado quente alta sim N
3 nublado quente alta não J
4 chuvoso moderado alta não J
5 chuvoso frio normal não J
6 chuvoso frio normal sim N
7 nublado frio normal sim J
8 ensolarado moderado alta não N
9 ensolarado frio normal não J
10 chuvoso moderado normal não J
11 ensolarado moderado normal sim J
12 nublado moderado alta sim J
13 nublado quente normal não J
14 chuvoso moderado alta sim N
Tabela 2.2: Conjunto de treinamento [68].
Figura 2.9: Exemplo de estrutura de uma árvore de decisão [68].

Várias árvores distintas podem ser construídas para resolver um único problema
de classificação, e embora algumas árvores sejam mais precisas do que outras, encontrar
a árvore ótima é computacionalmente inviável [82]. Uma das questões mais pertinentes
a respeito do projeto de árvores de decisão e que influirá em seu desempenho de
classificação e tempo de execução é a organização dos nós, isto é, a forma com a
qual o questionamento de uma determinada variável irá particionar os dados para as
demais variáveis nos nós seguintes. Em geral, queremos que um determinado atributo
seja capaz de dividir os exemplos do conjunto de dados de maneira que exemplos de uma
determinada classe tenham a maior frequência possível do que outra. A porcentagem de
exemplos de uma mesma classe que estão alocados em uma partição está relacionada
ao grau de pureza desta partição. Quanto maior for a porcentagem de exemplos de uma
mesma classe alocados em uma partição gerada pelo questionamento de um atributo, mais
pura será esta partição.
Um dos tipos de classificadores baseados em árvores de decisão mais conhecidos
é o ID3, proposto por Quinlan [68]. O ID3 utiliza a chamada entropia condicionada como
métrica de particionamento [63]. A função de entropia, utilizada para medir o grau de
distorção da distribuição das classes C = {c1 , ..., c j }, é definida pela equação [82]:
j
H(a) = − ∑ p(ci | a)log2 p(ci | a) (2-8)
i=1
sendo a um determinado atributo que descreve um exemplo de treinamento, j

a quantidade de rótulos de classe possíveis que o exemplo pode assumir, e P(ci | a)
a probabilidade posterior do atributo a na população ci . A variável que apresentar o
menor valor de entropia será aquela que divide os dados com maior grau de pureza
[82, 63]. Assim, o algoritmo para a construção da árvore de decisão de acordo com o
ID3 compreende os seguintes passos [63]:
1. Calcule o valor de entropia H(ai ) para todos os atributos ai que descrevem os

exemplos e selecione o atributo que apresentar o menor valor de entropia
2. Divida o conjunto de dados de acordo com os possíveis valores de ai e gere
seus correspondentes nós. O nó será terminal caso todos os exemplos pertençam
a mesma classe.
3. Caso contrário, o nó gerado será não terminal. Para cada nó não terminal, escolha o
atributo a j que apresentar o menor valor de entropia H(a j ).
4. Repita o passo 2 para o atributo a j .
A desvantagem principal do ID3 é que ele é sensível à quantidade de valores que

os atributos podem assumir, ou seja, seu custo computacional é altamente influenciado
pela quantidade de valores possíveis dos atributos. O algoritmo C4.5 é uma extensão do
ID3 projetada para superar esta limitação [69]. O C4.5 utiliza a métrica do ganho de
informação, definido por [63]:
I(Y | X) = H(Y ) − H(Y | X) (2-9)
onde X é um atributo, Y é o rótulo de classe, H(Y ) é o valor de entropia do rótulo

de classe Y , H(Y | X) é a entropia condicionada de Y quando o valor de X é conhecido. A
taxa de ganho de informação pode ser calculada através da fórmula:
I(Y | X)
T G(Y | X) = , (2-10)
H(X)
sendo H(X) a entropia dos exemplos em relação ao atributo X.
A vantagem da métrica da taxa de ganho de informação empregada pelo C4.5 em
relação ao simples cálculo da entropia condicionad utilizada pelo ID3 é que a métrica da
taxa de ganho de informação desencoraja a árvore de decisão a selecionar atributos com
grandes quantidades de valores distintos possíveis. Desta forma, ao trabalharmos com
conjuntos de dados com muitos atributos que podem assumir uma grande quantidade de
valores distintos, o uso do algoritmo C4.5 é preferível.
Em suma, árvores de decisão possuem diversas vantagens. Árvores de decisão
podem ser facilmente visualizadas e interpretadas. Através da observação das regras
de decisão expostas nos caminhos da árvore, é possível gerar hipóteses a respeito da
influência individual que cada variável exerce nos resultados de classificação e seus
relacionamentos. Além disso, árvores de decisão apresentam baixo custo computacional
não apenas em sua construção, como também para a generalização de novos exemplos
[82].
2.1.2 Medidas de desempenho de classificadores

Avaliar o desempenho de um modelo de classificação significa averiguar o quão
preciso é o modelo para predizer o rótulo de classe de novos exemplos. Um modelo de
classificação perfeito adivinhará corretamente o rótulo de classe para todo e qualquer
exemplo novo que seja fornecido, mas na prática, para a maioria dos conjuntos de
dados reais, este cenário é bastante raro. Desta forma, o desempenho de um modelo de
classificação também costuma ser medido pela sua taxa de erro. Ao passo que anular esta
taxa de erro é uma tarefa difícil (e impossível em alguns problemas), podemos minimizá-
la com diversas ações, como por exemplo:
• Ajustar repetidamente os parâmetros de um classificador e observar os resultados;

• Escolher um bom conjunto de atributos para descrever os exemplos. Muitas vezes
os atributos escolhidos para representar o conjunto de dados são redundantes (cor-
relacionados) entre si, ou possuem pouca influência na informação que desejamos

predizer (estas variáveis também são comumente chamadas de irrelevantes, ou com
baixo poder discriminatório);
• Diminuir a quantidade de ruídos ou valores nulos nos dados. Ruídos são anomalias
nos dados que podem ser causados por diversos motivos, como uma medição mal
feita, interferência de sinal, danos causados durante a cópia ou leitura, entre outros.
Valores nulos referem-se a medidas não coletadas ou inexistentes que farão com que
o modelo de classificação desconheça o valor durante a leitura dos dados. Ruídos e
valores nulos são prejudiciais ao desempenho do modelo de classificação. Ruídos,
em particular, são difíceis de serem identificados e são tratados como informação
relevante durante o treinamento do classificador;
• Escolher um número satisfatório e equivalente de exemplos de treinamento para
as classes distintas, de maneira que as classes fiquem igualmente representadas.
Quando o conjunto de dados é desbalanceado, isto é, as classes não estão represen-
tadas de maneira equivalente ou similar, o classificador pode ignorar a importância
das classes minoritárias e tender a fazer mais predições para as classes majoritárias,
desta forma ocasionando um baixo desempenho de classificação de exemplos que
pertençam às classes minoritárias [71];
• Escolher um modelo de classificação adequado e otimizado para o tipo de problema
com o qual se deseja trabalhar. Quantidade de variáveis descritoras, quantidade de
exemplos de treinamento, tipos de variáveis, quantidade de possíveis valores para
cada variável, são questões importantes a se fazer a respeito do conjunto de dados
na hora de escolher o classificador ideal;
• entre outros.
Para avaliarmos o desempenho de um classificador, é necessário que, além de

um conjunto de exemplos de treinamento, exista um conjunto de exemplos de teste
cujos rótulos de classes sejam conhecidos a princípio. Os exemplos de treinamento serão
usados para desenvolver o modelo, enquanto os exemplos de teste serão utilizados para
que o usuário obtenha informações sobre o quão preciso é o modelo desenvolvido para
predizer o rótulo de classe de exemplos novos. Entretanto, esta abordagem apresenta
dois problemas principais: quando o número de exemplos do conjunto de dados é muito
pequeno, o que torna a sua divisão em um subconjunto de exemplos para treinamento e
outro para teste inviável [87], e o fato de que os resultados da avaliação dependem dos
exemplos que são aleatoriamente designados para o conjunto de treinamento ou para o
conjunto de teste [51].
O método de validação cruzada é uma solução para o caso em que os conjuntos
de treinamento e teste possuem poucos exemplos [30]. No método de validação cruzada k-
fold, o conjunto de dados D é dividido de forma aleatória em k subconjuntos mutuamente
exclusivos D1 , D2 , ..., Dk (os ”folds”, ou repartições) de tamanho igual ou similar. O

classificador é treinado e testado em k iterações, tal que a cada iteração t ∈ {1, 2, ..., k}
o classificador é treinado usando a repartição D \ Dt e testado usando a repartição Dt . O
método de validação cruzada calcula a precisão como a quantidade geral de classificações
feitas corretamente, dividida pelo número de exemplos total no conjunto de dados. A
Figura 2.10 ilustra a execução do método de validação cruzada k-fold.
Figura 2.10: Execução do método de validação cruzada k-fold.
A precisão calculada pelo método de validação cruzada varia de acordo com

os exemplos que são aleatoriamente alocados nas repartições [51] e o método validação
cruzada leave-one-out é uma alternativa para que resultados mais estáveis sejam obtidos.
Este método é um caso particular do método de validação cruzada tradicional em que o
conjunto de teste é formado por apenas 1 exemplo enquanto os demais exemplos são
utilizados para treinar o classificador. A estimativa de precisão final computada pelo
método leave-one-out é a média de todas as n estimativas calculadas (sendo n a quantidade
de exemplos no conjunto de dados).
Os resultados de predição obtidos por um classificador podem ser organizados
em uma matriz de confusão. Um exemplo de matriz de confusão está na Tabela 2.3.
As linhas da matriz de confusão estão associadas ao rótulos de classe esperados dos
exemplos, enquanto as colunas estão associadas aos rótulos previstos pelo classificador.
Assim, um número bi j da matriz refere-se à quantidade de exemplos da classe associada
à linha i que foram classificados pelo modelo como pertencentes à classe associada à
coluna j. De maneira intuitiva, todas as classificações corretas estão armazenadas na linha
diagonal da matriz de confusão. Chamamos de verdadeiros positivos (VP) e verdadeiros
negativos (VN) o número de exemplos positivos e negativos, respectivamente, que foram
corretamente classificados, falsos positivos (FP) o número de exemplos negativos que
foram incorretamente classificados como positivos, e falsos negativos o número de
exemplos positivos que foram incorretamente classificados como negativos.
Rótulos preditos
Classe
Positivo Negativo
Positivo Verdadeiro positivo (VP) Falso negativo (FN)
Negativo Falso positivo (FP) Verdadeiro negativo (VN)
Tabela 2.3: Estrutura de uma matriz de confusão gerada para um
modelo de classificação binário.
Os valores armazenados na matriz de confusão podem ser utilizados para obter

outras medidas de desempenho populares, como precisão (Equação 2-11), sensitividade
(Equação 2-12) e especificidade (Equação 2-13). Precisão refere-se à probabilidade geral
do modelo classificar corretamente um exemplo arbitrário, dada pela razão do número de
exemplos de teste classificados corretamente (verdadeiros positivos e verdadeiros nega-
tivos) sobre o número total de exemplos do conjunto de dados. Sensitividade refere-se a
probabilidade geral do modelo classificar corretamente um exemplo arbitrário que per-
tença à classe positiva, e é dada pelo número de exemplos da classe positiva classificados
corretamente (verdadeiros positivos) sobre o número total de exemplos da classe positiva
no conjunto de dados (verdadeiros positivos e falsos negativos). Analogamente, espe-
cificidade estima a probabilidade geral do modelo classificar corretamente um exemplo
arbitrário que pertença à classe negativa, dada pelo número de exemplos da classe nega-
tiva classificados corretamente (verdadeiros negativos) sobre o número total de exemplos
da classe negativa no conjunto de dados (verdadeiros negativos e falsos positivos).
TP+TN
Accuracy(%) = × 100 (2-11)
T P + FP + FN + T N
TP
Sensitivity(%) = × 100 (2-12)
T P + FN
TN
Speci f icity(%) = × 100 (2-13)
FP + T N
2.2 Seleção de variáveis

A escolha de um bom conjunto de atributos que ofereçam informações relevantes
para a discriminação dos exemplos entre os rótulos de classe contemplados pelo problema
em questão é fundamental para o bom desempenho de um modelo de classificação. Entre-
tanto, é comum que alguns atributos escolhidos possuam pouca ou nenhuma influência na
informação que desejamos predizer, e apesar de parecerem fontes importantes de infor-
mação sobre os exemplos a princípio, não contribuam ou contribuam negativamente para
o processo de classificação.
Em geral, dizemos que um atributo é importante para a análise quando ele é
relevante e irredundante. Atributos redundantes são aqueles que possuem relativamente
alto grau de dependência com outro(s), de maneira que a informação contida poderia ser
igualmente obtida se apenas um ou menos dos atributos dependentes fossem utilizados
[16]. Atributos irrelevantes são aqueles cuja informação contida não é útil para a geração
de qualquer hipótese sobre os exemplos com respeito aos seus rótulos de classe, isto é,
o atributo é independente do rótulo de classe. Para que um atributo seja importante, ele
precisa ser independente dos demais atributos que descrevem os dados, mas não pode ser
independente dos rótulos de classe [16].
Seleção de variáveis é uma etapa de processamento dos dados da mineração de
dados que visa a identificação e remoção de atributos considerados desimportantes para o
processo de classificação. A remoção destes atributos é útil para [24, 37, 82]:
• Melhora no desempenho de classificação: atributos irrelevantes ou redundantes não

provêem (ou provêem poucas) informações úteis para o processo de classificação e
podem acabar prejudicando o desempenho dos modelos.
• Redução de ruído: atributos que contenham uma frequência larga de ruídos em seus
valores serão identificados e descartados.
• Simplificação da análise: a remoção de atributos diminui a dimensão do problema
trabalhado e permite uma melhor visualização dos dados.
• Aprimoramento do tempo de construção e execução de modelos de classificação: a
remoção de atributos diminui o tamanho do conjunto de dados, podendo diminuir o
tempo de treinamento de um classificador e o tempo das operações de classificação.
2.2.1 Algoritmos de seleção de variáveis

As técnicas de seleção de atributos são usualmente divididas em duas categorias:
métodos filtro e métodos wrapper. Métodos filtro são executados de maneira independente
e antes da fase de treinamento dos modelos, e avaliam os atributos de maneira que
os atributos melhores avaliados são selecionados para o treinamento do classificador,
enquanto nos métodos wrapper, o critério de seleção de atributos é o desempenho de
predição do classificador [16], isto é, subconjuntos de atributos diferentes são testados
com o uso de um classificador e os subconjuntos que gerarem os classificadores mais
precisos serão selecionados. Métodos filtro são populares devido à sua simplicidade, custo
computacional relativamente baixo e desempenho satisfatório na literatura presente [16].
Para avaliar os atributos, os métodos filtros consideram que bons atributos devem ser
independentes dos demais porém dependentes do rótulo de classe.
CFS (Correlation Based Feature Selection) é um método proposto por Hall
[38] que utiliza uma heurística baseada em correlações para estimar a importância de
um subconjunto de atributos. Este método gera subconjuntos a partir de diferentes
combinações de atributos, e cada subconjunto é avaliado de acordo com a seguinte
equação da correlação de Pearson:
krc f
Ms = p (2-14)
k + k(k − 1)r f f
sendo k o número total de atributos, Ms o mérito de um subconjunto de atributos S, rc f é

a correlação média entre os atributos e o rótulo de classe, e r f f é a intercorrelação média
entre os atributos. Atributos irrelevantes apresentarão baixo valor para rc f e atributos
redundantes apresentarão valor alto para r f f . Ambos os casos levarão a uma minimização
do valor de Ms . Finalmente, o subconjunto de atributos que receber o maior valor de
mérito será selecionado como o melhor subconjunto de atributos.
F-score [19] é uma técnica que estima a discriminação entre dois conjuntos de
números reais. Dados os exemplos de treinamento xk , k = {1, ..., m} se o número de
exemplos positivos e negativos são n+ e n− respectivamente, então o valor de F-score
para o i-ésimo atributo é definido como:
(+) (−)
(x̄i − x̄i )2 + (x̄i − x̄i )2
F(i) = n+ (+) (+) 2 n− (−) (−) 2
(2-15)
1 1
n+ −1 ∑k=1 (xk,i − x̄i ) + n− −1 ∑k=1 (xk,i − x̄i )
(+) (−)
onde x̄i , x̄i e x̄i são os valores médias do i-ésimo atributo para o conjunto de exemplos
(+)
positivos, negativos e total, respectivamente; xk,i é o valor do i-ésimo atributo do k-ésimo
(−)
exemplo positivo, e xk,i é o valor do i-ésimo atributo para o k-ésimo exemplo negativo.
Quanto maior for o valor de F-score, mais discriminativo é o atributo avaliado.
O método estatístico X 2 (chi-quadrado) visa computar o grau de dependência
entre um atributo t e o rótulo de classe c, definido pela equação [94]:
n × (AD −CB)2
X 2 (t, c) = (2-16)
(A +C) × (B + D) × (A + B) × (C + D)
onde A é o número de vezes em que t e c co-ocorrem, B é o número de vezes em que

t ocorre e c não ocorre simultaneamente, C é o número de vezes em que c ocorre e t
não ocorre simultaneamente, D é o número de vezes em que c e nem t ocorrem, e n é o
número total de exemplos. Basicamente, o nível de dependência entre t e c mostra quanta
influência t possui em c. O valor de X 2 calculado pode ser utilizado para computar o valor
do coeficiente de Cramér V [22], que se trata de um teste posterior e adicional ao X 2 e
que provê informações adicionais a respeito do quão significativo é o relacionamento de
dependência encontrado entre duas variáveis de atributo. O coeficiente de Cramér V é
definido como: s
X2
V= (2-17)
n(k − 1)
onde k é o menor número entre o número de linhas menos um ou o número de colunas

menos um. O valor de V varia de 0 (nenhuma dependência entre as variáveis de atributo
fornecidas) até 1 (variáveis completamente dependentes).
2.3 Balanceamento de dados

Em alguns casos, é possível que o conjunto de dados a ser analisado possua quan-
tidades distintas de exemplos de cada classe. Quando existe uma relativa disparidade entre
a quantidade de exemplos de cada classe, dizemos que o conjunto de dados é desbalance-
ado. Neste cenário, as classes não estão representadas de maneira equivalente ou similar:
o classificador pode ignorar a importância das classes menos representadas e tender a
fazer mais predições para as classes com maior número de representantes, o que pode
prejudicar bastante o desempenho de classificação de exemplos que pertençam às classes
minoritárias [71, 31]. Assim, é importante que o conjunto de dados em questão possua não
apenas uma quantidade satisfatória de exemplos, mas também uma proporção equivalente
de exemplos de cada classe de maneira que elas fiquem similarmente representadas.
Uma solução para o desbalanceamento de conjunto de dados é o chamado
oversampling, que significa preencher o conjunto de dados com exemplos da classe
minoritária, ou o undersampling, que é o caso inverso, em que alguns exemplos da classe
majoritária são removidos de maneira a equilibrar a proporção das classes.
Uma técnica conhecida para este fim é o SMOTE (Synthetic Minority Oversam-
pling Technique). Esta técnica consiste em gerar exemplos sintéticos, rotulados com a
classe minoritária do conjunto de dados, que, no espaço dimensional, são posicionados
no segmento que liga um exemplo da classe minoritária com os k vizinhos mais próximos
também pertencentes à classe minoritária, que podem ser escolhidos aleatoriamente [17].
A Figura 2.11 ilustra a execução do algoritmo SMOTE. Em suma, o algoritmo é definido
pelos seguintes passos:
(a) Selecione um objeto k da classe minoritária

(b) Ligue k a um de seus vizinhos mais próximos i que também pertença à classe
minoritária
(c) Gere um objeto sintético ki da classe minoritária e o posicione sobre a linha que liga
kai
(d) Repita o processo para outros vizinhos mais próximos da classe minoritária
Figura 2.11: Execução do SMOTE.

CAPÍTULO 3
Diferenciação do arroz branco produzido em
duas regiões do Brasil
3.1 Introdução e objetivos

O arroz é o grão de cereal mais consumido no mundo. O Brasil está entre os
dez maiores produtores de arroz e, de acordo com a Empresa Brasileira de Pesquisa
Agropecuária [32], mais de 11 milhões de toneladas de arroz foram colhidos de 2009
para 2010. Em 2001, a produção brasileira contou 1.8% do total da produção mundial
e cerca de 50% da produção latino-americana. Em 2005, o Brasil exportou por volta de
272 mil toneladas de arroz. Atualmente, apenas 5% da produção nacional é exportada. A
população brasileira gasta aproximadamente 22% de sua renda em alimentos, e o arroz
é o produto principal da cesta básica de uma família. O consumo anual de arroz pela
população brasileira é de, em média, 25 quilos por habitante. A maior parte do arroz
produzido o Brasil vêm das regiões sul e centro-oeste, respectivamente. A produção é feita
através de dois sistemas de cultivos: irrigado e sequeiro. O estado do Rio Grande do Sul é
o maior produtor de arroz irrigado, enquanto o arroz de sequeiro é produzido basicamente
nos planaltos da região centro-oeste (Mato Grosso e Goiás), nordeste (Piauí e Maranhão)
e norte (Pará e Rondônia). A composição química dos grãos de arroz é interferida pelas
condições climáticas, cultivo, armazenamento e sistema de processamento [32, 60].
Este projeto apresenta um estudo de mineração de dados para a classificação de
amostras de arroz de Goiás e do Rio Grande do Sul, estados das regiões centro-oeste e sul
respectivamente, baseado em seus componentes minerais. Os principais objetivos são:
• prover um modelo de classificação capaz de predizer em qual região brasileira,

centro-oeste ou sul, uma determinada amostra de arroz foi produzida;
• confirmar a autenticidade de amostras de arroz;
• identificar quais características químicas são significativas para a distinção de
amostras de arroz das duas regiões contempladas.
3.2 Metodologia 37
Em comparação com outras pesquisas na literatura recente [72, 18, 81, 59], nosso
estudo apresenta as seguintes vantagens:
• Nós analisamos amostras de arroz obtidas de diferentes regiões do mesmo país.

• Nós empregamos métodos de mineração de dados, como modelos de classificação
e seletores de atributos, que conseguem capturar padrões ocultos e variação nos
dados de maneira mais eficientes do que simples observação ou métodos estatísticos
tradicionais.
• Nós trabalhamos com conjunto de dados balanceado, isto é, com números similares
de amostras obtidas de cada região.
• Nós utilizamos métodos de seleção de variáveis de maneira a avaliar as variáveis
de atributos utilizadas e identificar os melhores subconjuntos de atributos que são
capazes de diferenciar as amostras de arroz e ainda assim prover bons resultados
preditivos. Este procedimento é útil para ajudar a entender como as concentrações
dos componentes químicos encontrados nas amostras variam nas amostras de
cada estado, quais componentes são mais importantes para diferenciá-las, quais
componentes são homogêneos e quais componentes são mais frequentes numa
amostra de arroz de uma determinada região.
3.2 Metodologia
3.2.1 Dados analisados

O conjunto de dados utilizado inclui 31 amostras de arroz branco do tipo
Oriza Sativa, que é mais comum no Brasil. Estas amostras foram obtidas das regiões
centro-oeste e sul do Brasil, que utilizam os sistemas de cultivo irrigado e de sequeiro
respectivamente. Destas amostras, 12 foram obtidas do estado de Goiás (região centro-
oeste) e 19 foram obtidas do estado do Rio Grande do Sul (região sul).
A determinação dos elementos químicos no arroz foi realizada através de ICP-
MS. Os 20 componentes químicos encontrados em cada amostra de arroz coincidem com
os elementos encontrados por Cheajesadagul et. al [18], que são: cobre (Cu), zinco (Zn),
magnésio (Mg), boro (B), fósforo (P), molibdênio (Mo), arsênio (As), chumbo (Pb), cád-
mio (Cd), manganês (Mn), selênio (Se), cobalto (Co), crômio (Cr), bário (Ba), rubídio
(Rb), ferro (Fe), potássio (K), cálcio (Ca), latânio (La) e cério (Ce). As variáveis de atri-
butos utilizadas para descrever as amostras do conjunto de dados foram as concentrações
encontradas para cada elemento. A Tabela 3.1 sumariza os componentes químicos en-
contrados juntamente com o valor médio, mínimo e máximo de suas concentrações nas
amostras.
3.2.2 Métodos de mineração de dados utilizados

Um dos pontos que foram observados neste trabalho é que o conjunto de dados
fornecido é relativamente pequeno, consistindo em uma matriz de dados 31×21, em
comparação com outros conjuntos de dados reais estudados na literatura recente sobre
classificação. Portanto, uma das nossas preocupações foi desenvolver uma metodologia
adequada para análise de conjuntos de dados pequenos.
Neste estudo, foram utilizadas três técnicas de classificação comprovadamente
capazes de produzir bons resultados de precisão para conjuntos de dados com número
pequeno de amostras: máquinas vetores de suporte, florestas aleatórias e redes neurais.
Nós também empregamos um método de seleção de variáveis, F-score. A metodologia
desenvolvida para a análise destes dados é descrita a seguir:
1. Utilizamos o F-score para avaliar as variáveis individualmente, medindo o valor de

discriminação entre variáveis e os rótulos de classe;
2. Geramos K = {k1 , k2 , ..., km } subconjuntos de variáveis, sendo o subconjunto k j
formado pelas j variáveis com melhores notas de F-score, m sendo o tamanho total
do conjunto de variáveis original, e km sendo o conjunto de variáveis original (sem
seleção de variáveis). Como o conjunto de dados possui 20 variáveis, então m = 20;
3. Cada subconjunto km é utilizado para treinar um modelo SVM, RF e MLP utili-
zando validação cruzada 10-fold repetida 10 vezes.
Este processo resultou em um total de 20 modelos SVM, RF e MLP obtidos, e

possibilitou observar como cada variável afetou no desempenho da predição conforme nós
adicionamos variáveis bem avaliadas pelo F-score na fase de treinamento dos modelos.
3.3 Resultados obtidos

Toda a análise foi conduzida no software R [70], que fornece uma variedade
de pacotes para a realização de análises estatísticas e de mineração de dados, incluindo
classificação, seleção de variáveis e outras funções [77, 54, 53]. A Tabela 3.1 mostra
os valores médios, mínimos e máximos para as concentraçãos do elementos químicos
determinados nas amostras de arroz dos dois estados.
Após observação inicial, percebemos que as amostras de arroz de Goiás são
consideravelmente mais ricas em Zn, Cd e Ca do que as amostras de arroz do Rio Grande
do Sul (diferença média de 3.11, 8.46 e 13.63 mg/kg, respectivamente). Já as amostras do
Rio Grande do Sul mostraram maiores concentrações de As, Co e Rb (diferença média de
24.43, 9.25 e 8.5 mg/kg, respectivamente). A concentração máxima de As e Ce também
é um pouco maior nas amostras do Rio Grande do Sul.
Elemento Goiás (n=12) Rio Grande do Sul (n=19)

Cu (mg/kg) 3.05 (1.92±4.61) 4.04 (2.75±6.50)
Zn (mg/kg) 23.9 (19.3±27.2) 20.8 (12.5±34.6)
Mg (g/100g) 0.04 (0.03±0.04) 0.05 (0.03±0.08)
B (mg/kg) 0.35 (0.21±0.39) 0.39 (0.12±0.76)
P (g/100g) 0.14 (0.11±0.15) 0.24 (0.12±0.55)
Mo (mg/kg) 0.31 (0.22±0.54) 0.4 (0.28±0.64)
As (ng/g) 184 (144±198) 208 (44.8±445)
Pb (ng/g) 2.18 (0.14±20.9) 4.21 (0.16±17.7)
Cd (ng/g) 19.9 (8.86±20.1) 11.4 (4.76±22.6)
Mn (mg/kg) 9.25 (6.47±13.1) 12.3 (4.97±31.3)
Se (ng/g) 69.1 (44.9±90.3) 69.1 (44.1±147)
Co (ng/g) 19.2 (7.19±70.6) 38.4 (14.7±107)
Cr (mg/kg) 2.95 (2.16±3.27) 3.02 (2.34±3.43)
Ba (mg/kg) 0.15 (0.07±0.30) 0.38 (0.13±1.43)
Rb (mg/kg) 3.36 (1.83±10.9) 11.9 (4.12±32.2)
Fe (mg/kg) 2.08 (1.74±2.17) 4.01 (1.73±12.7)
K (ng/g) (g/100g) 0.05 (0.04±0.06) 0.09 (0.04±0.18)
Ca (mg/kg) 52.8 (29.3±77) 39.1 (12.3±92.5)
La (ng/g) 0.17 (0±0.97) 0.79 (0.05±9.78)
Ce (ng/g) 0.17 (0.05±0.74) 1.69 (0.07±19.3)
Tabela 3.1: Concentração média e faixas de concentração dos ele-
mentos químicos encontrados no arroz de diferentes
áreas de produção, Goiás e Rio Grande do Sul.
Prosseguindo para a etapa de seleção de variáveis, a Figura 3.1 mostra os valores

obtidos para cada variável de acordo com o F-score, referentes à sua importância relativa
de acordo com o método. Cd, Rb, Mg e K possuem relativamente maior nota do que as
demais variáveis, o que significa que, de acordo com o F-score, estes elementos possuem
maior poder discriminativo sobre as amostras de arroz e, portanto, são promissoras
candidatas ao treinamento do modelo de classificação. As variáveis avaliadas com baixo
valor de F-score, como Se e Cr, quase não possuem poder discriminativo e são menos
importantes para a análise.
Após o cálculo das importâncias relativas das variáveis, geramos os subconjuntos
de variáveis que foram utilizados para construir os modelos de classificação. Cada
subconjunto foi gerado com as variáveis que receberam as N melhores notas de F-
score, para N = {1, 2, ..., 20}. O subconjunto #1 possui a variável melhor avaliada,
subconjunto #2 possui as duas variáveis melhores avaliadas e assim sucessivamente. O
último subconjunto, #20, contém todas as variáveis do conjunto original.
A Tabela 3.2 mostra os subconjuntos de variáveis gerados juntamente com a
precisão obtida pelos modelos SVM, RF e MLP desenvolvidos utilizando validação
cruzada 10-fold. Um fato interessante é que o valor de Cd é suficiente para construir
um modelo capaz de predizer a origem geográfica do arroz com uma precisão satisfatória:
os modelos SVM, RF e MLP construídos apenas com essa variável apresentaram valores
3.4 Conclusões 40
Se
Cr
B
As
Pb
La
Ce
Components
Zn
Co
Mn
Ca
Fe
Ba
Cu
Mo
P
K
Mg
Rb
Cd
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
F−scores
Figura 3.1: Importância relativa das variáveis de acordo com suas

notas de F-score calculadas.
altos de precisão de 87.5%, 77.5% e 87.41%, respectivamente. Este fenômeno pode estar
associado às diferenças condições de cultivo nos dois estados. Os produtos do estado do
Rio Grande do Sul utilizam o sistema irrigado, que faz o gerencimento de irrigação para
controlar o nível de água no solo. Em Goiás, o principal sistema de cultivo é o de sequeiro.
Bingham et. al [10] mostrou que os grãos cultivados em sistema de sequeiro possuem
aproximadamente 55% a mais de Cd do que os grãos cultivos em sistema irrigado. A
disponibilidade reduzida de Cd nos solos irrigados é atribuída à precipitação de CdS [10].
O desempenho do SVM e RF tenderam a crescer conforme as variáveis melhores
avaliadas foram adicionadas ao subconjunto de variáveis de treinamento, enquanto o MLP
manteve o desempenho estável para todos os subconjuntos de variáveis utilizados. Os
melhores modelos SVM e RF obtidos descartaram as variáveis Cr e Se, e estabilizaram sua
precisão em 93.66% e 93.83%, respectivamente. O melhor modelo MLP obtido utilizou
apenas Cd e Rb como variáveis de treinamento, e atingiu precisão de 90% - um pouco
menor do que os melhores modelos SVM e RF obtidos, que empregaram 16 variáveis a
mais.
A Tabela 3.3 mostra as medidas de sensitividade e especificidade para os melho-
res modelos obtidos. O modelo SVM apresentou a melhor sensitividade (84.5%) e especi-
ficidade (100%), enquanto o modelo RF apresentou a melhor taxa de precisão (93.83%).
3.4 Conclusões
Os resultados que obtivemos provam que a classificação do arroz oriundo dos
dois estados produtores do Brasil com base em seus componentes químicos é possível e
3.4 Conclusões 41
Precisão (%)
Subconjunto Variáveis
SVM RF MLP
#1 Cd 87.50 77.50 87.41
#2 Cd, Rb 89.41 89.58 90.00
#3 Cd, Rb, Mg 90.08 93.25 86.83
#4 Cd, Rb, Mg, K 90.50 92.83 79.16
#5 Cd, Rb, Mg, K, P 90.50 87.41 84.41
#6 Cd, Rb, Mg, K, P, Mo 90.41 91.83 86.50
#7 Cd, Rb, Mg, K, P, Mo, Cu 91.33 91.16 85.91
#8 Cd, Rb, Mg, K, P, Mo, Cu, Ba 93.50 91.33 85.00
#9 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe 91.16 88.25 83.83
#10 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca 90.66 90.16 83.33
#11 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn 90.25 88.50 82.08
#12 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co 90.16 89.50 84.08
#13 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co, Zn 90.41 90.66 82.33
#14 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co, Zn, Ce 93.41 90.75 77.16
#15 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co, Zn, Ce, La 91.50 91.08 79.50
#16 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co, Zn, Ce, La, Pb 93.25 91.08 87.58
#17 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co, Zn, Ce, La, Pb, As 93.00 92.83 89.75
#18 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co, Zn, Ce, La, Pb, As, B 93.66 93.83 87.75
#19 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co, Zn, Ce, La, Pb, As, B, Cr 91.00 93.08 89.41
#20 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co, Zn, Ce, La, Pb, As, B, Cr, Se 90.08 92.50 89.58
Tabela 3.2: Valores de precisão obtidos pelos modelos de classifi-

cação utilizando diferentes subconjuntos de variáveis.
SVM RF MLP
Subconjunto de variáveis #18 #18 #2
Precisão (%) 93.66 93.83 90.00
Sensitividade (%) 84.50 82.00 83.00
Especificidade (%) 100.00 99.50 94.00
Tabela 3.3: Medidas de desempenho para os melhores modelos
SVM, RF e MLP obtidos.
com alto desempenho, mesmo quando poucas amostras estão disponíveis para análise.
Dentre os 20 elementos químicos encontrados na composição das amostras de arroz,
o F-score mostrou que Cd, Rb, Mg e K são aqueles com maior poder discriminativo
para as amostras. Além disso, em uma primeira análise estatística, identificamos que
o arroz produzido em Goiás tende a possuir maiores concentrações de Cd, enquanto
o arroz produzido no Rio Grande do Sul geralmente possui maiores concentrações
de Rb. Procedemos então à construção dos modelos de classificação utilizando vários
subconjuntos de variáveis avaliadas pelo F-score. Os melhores modelos encontrados
foram um SVM, RF e MLP com 93.66%, 93.83% e 90% de precisão, respectivamente,
utilizando validação cruzada 10-fold repetida 10 vezes. Um fato interessante observado
foi que o componente Cd desempenha um papel importante na classificação, e este
elemento sozinho é capaz de discriminar as amostras de Goiás e do Rio Grande do Sul
com uma precisão satisfatória, embora não ótima.
Entre as contribuições deste trabalho, nós destacamos o reconhecimento da
origem geográfica do arroz, útil para fins de autenticação. Por exemplo, os produtores
podem estabelecer um certificado para a identificação do arroz produzido em uma
determinada região. A nossa análise também mostrou quais foram os elementos químicos
3.4 Conclusões 42
mais importantes pra distinguir as amostras de arroz das duas regiões. Entender o
comportamento destes componentes é também importante uma vez que serve como fonte
de informações para os produtores, ajudando-os na preservação, manutenção e garantia da
qualidade do arroz - uma questão substancial, uma vez que o arroz é o principal alimento
consumido pela população brasileira.
Este trabalho foi publicado em 2016 na revista Computers and Electronics in
Agriculture com o título "Classification of geographic origin of rice by data mining and
inductively coupled plasma mass spectrometry" [56].
CAPÍTULO 4
Diferenciação do suco de uva orgânico e
convencional

Autenticidade é uma preocupação substancial da indústia de alimentos orgâni-
cos. Alimentos são considerados orgânicos quando eles, ou seus ingredientes, são cul-
tivados sem o uso de substâncias externas potencialmente danosas como pesticidades,
hormônios e fertilizantes químicos. Devido aos métodos bem regimentados para produção
e cultivo, os riscos enfrentados e algumas regras particulares que os produtores precisam
obedecer, alimentos orgânicos costumam ser mais caros do que os alimentos convencio-
nais. Entretanto, os clientes que apreciam este tipo de alimentos estão dispostos a pagar
um preço um pouco maior pelos benefícios inerentes aos alimentos orgânicos, que são
mais saudáveis ao organismo e ao meio ambiente [41]. Entretanto, como não há diferen-
ças visuais perceptíveis entre alimentos orgânicos e convencionais, e o conceito de ”orgâ-
nico” se referir ao método de produção do produto e não às características do produto em
si, os clientes precisam confiar em certificados para confirmar a autenticidade do alimento
orgânico que estão comprando, e tais certificados e selos podem ser fraudulentos. Outra
importante questão em torno dos alimentos orgânicos é referente à sua composição. Quais
elementos em sua composição química são fundamentais para diferenciar alimentos culti-
vados de maneira orgânica dos alimentos cultivamentos de maneira convencional? Quais
elementos podem ser encontrados em concentrações maiores nos alimentos orgânicos do
que nos convencionais, e vice versa?
Esta pesquisa apresentou um estudo de mineração de dados do suco de uva
orgânico e detalhou a concepção de modelos de classificação para alimentos orgânicos
baseado nas concentrações de seus elementos químicos. Embora ICP-MS tenha sido
empregado na determinação dos componentes metálicos em amostras de suco de uva [26],
não encontramos na literatura recente relatos de qualquer estudo da composição química
do suco de uva orgânico, e nem de tentativas de diferenciação do suco de uva orgânico
do suco de uva tradicional. Desta forma, nosso trabalho aborda um problema novo. Nós
4.2 Metodologia 44
propomos uma metodologia que consiste em técnicas de mineração de dados visando a

diferenciação do suco de uva orgânico do suco de uva tradicional baseado no estudo de
sua composição química. Houve um enfoque especial na parte de seleção de variáveis, de
maneira a observarmos quais componentes descrevem melhor cada tipo de suco e quais
mostram um comportamento homogêneos em ambos.
As principais contribuições deste trabalho foram:
• Nós provemos uma metodologia de mineração de dados detalhada que pode ser
adaptada e utilizada para diferenciar qualquer tipo de alimmento orgânico de sua
versão convencional. Esta metodologia é útil para a verificação de autenticidade,
origem geográfica, observar o comportamento de sua composição química, entre
outras utilidades.
• Nós abordamos um problema novo e interessante, que é a classificação do suco de
uva orgânico e convencional baseado em sua composição química.
• Nós estudamos o comportamento dos elementos químicos no suco de uva orgânico
e em sua versão tradicional, identificando aqueles mais importantes para diferenciá-
los.
4.2 Metodologia

Amostras de suco de uva orgânico (19 amostras) e de suco de uva convencional
(18 amostras) foram obtidas de diferentes produtoras em diferentes estados do Brasil. To-
das as amostras orgânicas eram certificadas pela IDB Certificações brasileira (Inspeções e
Certificações Agropecuárias e Alimentícias). Os elementos químicos nas amostras foram
determinados por ICP-MS (ELAN DRCII, PerkinElmer, CT, USA) com argão de alta pu-
reza (99.999%, White Martins, Brazil). Os 44 elementos encontrados foram: Ag, Al, As,
Ba, Be, Bi , Cd, Ce, Co, Cr, Cu, Dy, Eu, Er, Fe, Gd, Ho, K, La, Lu, Mg, Mn, Mo, Na, Nd,
Ni, P, Pb, Pd, Pr, Rb, Sb, Se, Sm, Sn, Yb, U, Ta, Tb, Tl, Tm, U, V, e Zn.

Neste trabalho, utilizamos máquinas vetores de suporte (SVM), árvores de deci-
são (CART) e redes neurais artificiais (MLP) como modelos de classificação. Utilizamos
também três métodos filtro para seleção de variáveis: F-score, X 2 e RFI. Nossa metodo-
logia de análise compreendeu os seguintes passos:
1. F-score, X 2 e RFI foram utilizados para avaliar as variáveis individualmente.

2. Geramos os subconjuntos de variáveis A = {A1 , A2 , ..., Am }, B = {B1 , B2 , ..., Bm } e

C = {C1 ,C2 , ...,Cm }, sendo A j , B j e C j os subconjuntos com as j melhores variáveis
avaliadas pelo F-score, X 2 e RFI, respectivamente. O número m é o número total
de variáveis do conjunto de dados, sendo então Am = Bm = Cm correspondentes ao
conjunto de variáveis original. Como o conjunto de dados possui um total de 44
variáveis descritoras, então m = 44.
3. Cada subconjunto pertencente a A, B e C foi empregado para treinar um modelo
SVM, CART e MLP, utilizando validação cruzada leave-one-out.
Este processo resultou em um total de 132 modelos obtidos de cada tipo, sendo:
44 modelos SVM, CART e MLP treinados com subconjuntos de variáveis avaliados
pelo F-score; 44 modelos SVM, CART e MLP treinados com subconjuntos de variáveis
avaliados pelo RFI; 44 modelos SVM, CART e MLP treinados com subconjuntos de
variáveis avaliados pelo X 2 .
4.3.1 Elementos químicos nas amostras de suco de uva orgânico e

convencional
A Tabela 4.1 mostra os valores médios, mínimos e máximos de concentração
para os elementos químicos determinados no suco de uva orgânico e convencional. Con-
siderando os elementos tóxicos e potencialmente tóxicos avaliados no presente estudo,
alumínio, bário, lantânio, cério e foram encontrados em níveis muito mais elevados (>
1.0 µg/g) nos dois tipos de suco, com os níveis encontrados em amostras orgânicas sendo
estatisticamente superiores aos níveis encontrados no suco de uva convencional. As con-
centrações médias de alumínio foram de 1.89 µg/g and 2.3 µg/g em amostras conven-
cionais e orgânicas, respectivamente. Para latânio e cério, os valores médios encontrados
foram 2.1 µg/g e 1.2 µg/g e 2.3 µg/g e 1.6 µg/g para as amostras orgânicas e convencionais,
respectivamente.
Fertilizadores a base de fósforo, comumente aplicados em sistemas de cultivo
convencionais, podem conter quantidades variadas de tório, urânio e elementos de terras
raras como contaminantes [1, 86]. Em contrapartida, fertilizantes a base de pedras de
fosfato aparentemente não são proibidos em sistemas de cultivo orgânico, o que pode
explicar os níveis altos de La e Ce encontrados nas amostras de suco orgânico. Mesmo
com o relato de alguns estudos sobre a ocorrência de efeitos tóxicos após a exposição
a elementos de terras raras [40], os níveis máximos toleráveis em alimentos ainda não
foram definidos.
Orgânico (n=19) Convencional (n=18)

Elemento
Min(ng/g) Máx(ng/g) Médio(ng/g) Min(ng/g) Máx(ng/g) Médio(ng/g)
Al (µg/g) 0.42 9.3 2.4 0.35 3.2 1.9
Cr (ng/g) 0.88 2.0 1.1 0.941 1.56 1.1
Ag (ng/g) 0.13 7.97 1.52 0.1 10.4 1.58
As (ng/g) 4.51 42.1 17.7 6.49 47.3 22.8
Pb (ng/g) 3.71 80.3 27.2 2.89 19.4 9.76
Cd (ng/g) 0.66 3.91 1.57 0.65 7.77 2.14
Mn (µg/g) 1.91 12.6 6.6 3.1 7.6 5.8
Tl (ng/g) 0.47 10.5 4.96 1.45 8.52 3.65
Co (ng/g) 5.71 115 25.5 12.5 68 31.5
Se (ng/g) 5.95 33.2 16.3 2.23 73.9 22.2
Rb (µg/g) 3.9 31.4 15.2 3.4 20.8 9.3
Ni (ng/g) 20.9 256 70.9 31.5 270 83.7
Ba (µg/g) 0.47 22.0 5.3 0.43 8.9 1.8
Bi (ng/g) 0.05 3.28 0.77 0 2 0.44
Be (ng/g) 0.21 4.22 1.74 0.17 3.26 1.65
V (ng/g) 2.33 76.2 9.58 3.54 114 36
U (ng/g) 0.01 1.98 0.38 0.02 4.19 0.59
Zn (µg/g) 0.74 5.4 2.1 0.9 3.2 2.1
Cu (µg/g) 0.33 6.5 2.8 0.25 14.3 2.3
Fe (µg/g) 3.5 10.1 5.4 2.3 66.3 9.4
Ca (µg/g) 254 697 395 277 2,933 525
Mg (µg/g) 144 634 368 122 398 288
K (µg/g) 4806 16465 15195 436 16498 6571
Na (µg/g) 8.9 53.7 24.0 7.4 934 231
P (µg/g) 331 969 642 268 629 451
La (µg/g) 0.76 4.7 2.1 0.53 3.2 1.2
Sm (µg/g) 0.110 1.03 0.42 0.09 0.43 0.2
Eu (µg/g) 80.2 1.2 0.45 0.07 0.56 0.21
Tb (ng/g) 17.8 196 74 14.7 71.3 40.2
Dy (ng/g) 19.1 294 112 17.8 103 60.8
Nd (µg/g) 151 1.04 0.51 124 675 301
Pr (ng/g) 149 894 461 107 619 275
Yb (ng/g) 14.9 113 52.2 20.5 67.6 41.2
Tm (ng/g) 7.78 68.7 28.9 13.1 38.7 21
Lu (ng/g) 5.11 51.1 20.9 6.67 31.8 17.1
Gd (ng/g) 19.2 284 120 17.9 125 62.5
Ho (ng/g) 19.1 177 80 17.3 78 46.7
Er (ng/g) 24 180 79.7 26.7 88.4 51.7
Ce (µg/g) 0.73 4.8 2.3 0.59 3.3 1.6
Hg (ng/g) 0.17 3.91 1.68 1.31 4.84 2.27
Mo (ng/g) 2.54 26.9 9.8 2.9 25.6 11.5
Pd (ng/g) 0.05 1.7 0.31 0.04 3.45 0.38
Sb (ng/g) 0.27 5.42 1.29 0.23 11.8 2.28
Sn (ng/g) 18.7 89.5 45.8 3.9 61.1 18
Tabela 4.1: Concentrações médias e faixas de concentração para
os elementos químicos determinados nas amostras de
suco de uva orgânico e convencional.
Os níveis maiores de elementos essenciais estão ordenados da seguinte forma: K

> P > Ca > Mg >>> Na > Mn > Fe > Cu > Zn.
Uma observação interessante é que o suco de uva contribui consideravelmente
para a obtenção da quantidade diária recomendada de Mn para humanos. Considerando
os valores médios de Mn encontrados no suco orgânico e convencional (6.6 mg/L e 5.8

mg/L, respectivamente), um consumo diário de 500 gramas de suco de uva é suficiente
para suprir um homem adulto com Mn, cuja dose diária recomendada é de 2.3 miligramas
[84]. Contudo, a concentração média de sódio encontrada foi de 24.0 µg/g e 231.0 µg/g
no suco orgânico e convencional, respectivamente.
4.3.2 Seleção de variáveis de modelos de classificação

A análise foi conduzida utilizando o software R [70].
Começamos a análise obtendo os subconjuntos de variáveis avaliados pelo F-
2
score, X e RFI. As Figuras 4.1, 4.2 e 4.3 mostram as importâncias relativas obtidas
pelas variáveis de acordo com os três metodos. Quanto maior os valores obtidos, mais
significativas as variáveis serão.
O gráfico do F-score mostra que as variáveis K, Sn e P possuem notas relativa-
mente mais altas dos que as demais variáveis, enquanto o gráfico do RFI mostra Na e Sn
como as duas variáveis melhores avaliadas. Em ambos os gráficos, há uma queda con-
siderável nos valores das próximas variáveis, que a seguir decrescem gradativamente e
de maneira estável. Entretanto, de acordo com o coeficiente X 2 , apenas os elementos Dy,
Tb, Pb, Gd, V, Nd, Ho, La, Co, Sm, P, K, Sn e Na possuem algum valor discriminativo
sobre o rótulo de classe (tipo de suco) e, novamente, Na, Sn, K e P foram as variáveis
melhor avaliadas. De maneira geral, os três métodos filtro concordam que Na, Sn, P, K,
Sm e Nd estão entre as dez variáveis mais importantes para diferenciação do tipo de suco,
especialmente Na, Sn e K.
Também de acordo com estes métodos, as variáveis com menor poder discrimi-
nativo são Ag, Zn, Cr, Be e Pd. Estas variáveis receberam valores pequenos de F-score,
valor zero de X 2 e valores negativos para RFI (exceto Zn e Cr para este último, que rece-
beram valores positivos de RFI, mas também pequenos). Outras variáveis como Sb, Mo,
Hg, Ce, Er, Lu, Tm, Yb, Pr, Eu, Mg, Ca, Fe, Cu, U, Bi, Ba, Ni, Rb, Se, Tl, Mn, Cd, As e
Al também foram avaliadas como pouco discriminativas.
O próximo passo da análise foi gerar os subconjuntos de variáveis para o
treinamento dos modelos de classificação. Cada subconjunto foi gerado com as variáveis
que receberam os N melhores valores de F-score, X 2 e RFI, com N = {1, 2, ..., 45}. Os
subconjuntos FS#1, CHI#1 e RFI#1 são compostos pela melhor variável identificada pelo
F-score, X 2 e RFI respectivamente; FS#2, CHI#2 e RFI#2 são formados pelas 2 variáveis
mais importantes, e assim sucessivamente. Os últimos subconjuntos, FS#44, CHI#44 e
RFI#44, contém todas as variáveis do conjunto de variáveis original.
K..
Sn
P.
Na.
Sm
Nd
Pr
Gd
La
Eu
Pb
Tb
Ho
Dy
V
Rb
Ce
Er
Mg.
Ba
Element
Tm
Hg
Tl
Sb
Yb
Se
Bi
Cd
Fe.
As
Lu
Mn
Ca.
U
Co
Mo
Al
Ni
Cu
Pd
Be
Cr
Zn
Ag
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65
F−score value
Figura 4.1: Importância relativa das variáveis de acordo com o

valor de F-score calculado.
Na.
Sn
Co
P.
K..
Sm
Ho
Gd
La
Er
Nd
V
Tb
Ba
Dy
Fe.
Ce
Rb
Eu
Pr
Element
Mg.
Pb
Al
Tm
Zn
As
Yb
Cu
Ni
Ca.
Hg
Tl
Mn
Sb
Lu
Bi
Se
Pd
Cr
Be
Mo
Cd
U
Ag
−2.4 0.6 3.6 6.6 9.6 12.6
RFI value

valor de RFI calculado.
Na.
Sn
K..
P.
Sm
Co
La
Ho
Nd
V
Gd
Dy
Tb
Pb
Sb
Pd
Mo
Hg
Ce
Er
Element
Lu
Tm
Yb
Pr
Eu
Mg.
Ca.
Fe.
Cu
Zn
U
Be
Bi
Ba
Ni
Rb
Se
Tl
Mn
Cd
As
Ag
Cr
Al
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90
Chi−square value

valor de X 2 calculado.
Precisão (%)
Subconjunto
Variáveis
SVM CART MLP
FS#1 K 78.37 72.97 75.67
FS#2 K, Sn 83.78 81.08 81.08
FS#3 K, Sn, P 86.48 81.08 81.08
FS#4 K, Sn, P, Na 83.78 86.48 83.78
FS#5 K, Sn, P, Na, Sm 83.78 86.48 78.37
FS#6 K, Sn, P, Na, Sm, Nd 89.18 86.48 83.78
FS#7 K, Sn, P, Na, Sm, Nd, Pr 89.18 86.48 83.78
FS#8 K, Sn, P, Na, Sm, Nd, Pr, Gd 89.18 86.48 81.08

FS#9 K, Sn, P, Na, Sm, Nd, Pr, Gd, La 86.48 86.48 81.08
FS#10 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu 86.48 86.48 81.08
FS#11 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb 86.48 86.48 81.08
FS#12 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb 86.48 86.48 81.08
FS#13 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho 86.48 86.48 78.37
FS#14 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy 86.48 86.48 81.08
FS#15 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V 83.78 86.48 81.08
FS#16 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb 83.78 86.48 83.78
FS#17 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce 86.48 86.48 83.78
FS#18 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er 86.48 86.48 81.08
FS#19 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg 89.18 86.48 78.37
FS#20 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba 89.18 86.48 83.78
FS#21 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm 89.18 86.48 78.37
FS#22 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg 86.48 86.48 78.37
FS#23 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl 86.48 86.48 86.48
FS#24 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb 83.78 86.48 86.48
FS#25 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb 83.78 86.48 83.78
FS#26 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se 83.78 86.48 83.78
FS#27 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi 83.78 86.48 83.78
FS#28 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd 81.08 86.48 81.08
FS#29 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe 78.37 86.48 81.08
FS#30 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As 78.37 86.48 81.08
FS#31 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As, Lu 81.08 86.48 81.08
FS#32 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As, Lu, Mn 78.37 86.48 81.08
FS#33 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As, Lu, Mn, Ca 78.37 86.48 81.08
FS#34 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As, Lu, Mn, Ca, U 75.67 86.48 83.78
FS#35 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As, Lu, Mn, Ca, U, Co 75.67 86.48 78.37
FS#36 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As, Lu, Mn, Ca, U, Co, Mo 72.97 86.48 81.08
FS#37 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As, Lu, Mn, Ca, U, Co, Mo, Al 72.97 86.48 81.08
FS#38 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As, Lu, Mn, Ca, U, Co, Mo, Al, Ni 72.97 86.48 78.37
FS#39 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As, Lu, Mn, Ca, U, Co, Mo, Al, Ni, Cu 75.67 86.48 81.08
FS#40 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As, Lu, Mn, Ca, U, Co, Mo, Al, Ni, Cu, Pd 72.97 86.48 78.37
FS#41 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As, Lu, Mn, Ca, U, Co, Mo, Al, Ni, Cu, Pd, Be 72.97 86.48 78.37
FS#42 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As, Lu, Mn, Ca, U, Co, Mo, Al, Ni, Cu, Pd, Be, Cr 72.97 86.48 78.37
50
FS#43 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As, Lu, Mn, Ca, U, Co, Mo, Al, Ni, Cu, Pd, Be, Cr, Zn 70.27 86.48 81.08
FS#44 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As, Lu, Mn, Ca, U, Co, Mo, Al, Ni, Cu, Pd, Be, Cr, Zn, Ag 70.27 86.48 78.37
Tabela 4.2: Precisão obtida pelos modelos de classificação usando

subconjuntos de variáveis avaliadas de acordo com o
F-score.
Precisão (%)
Subconjunto
Variáveis
SVM CART MLP
CHI#1 Na 86.48 86.48 86.48
CHI#2 Na, Sn 83.78 86.48 86.48
CHI#3 Na, Sn, K 83.78 86.48 81.08
CHI#4 Na, Sn, K, P 83.78 86.48 83.78
CHI#5 Na, Sn, K, P, Sm 83.78 86.48 81.08
CHI#6 Na, Sn, K, P, Sm, Co 83.78 86.48 83.78
CHI#7 Na, Sn, K, P, Sm, Co, La 81.08 86.48 70.27
CHI#8 Na, Sn, K, P, Sm, Co, La, Ho 83.78 86.48 75.67

CHI#9 Na, Sn, K, P, Sm, Co, La, Ho, Nd 83.78 86.48 78.37
CHI#10 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V 83.78 86.48 78.37
CHI#11 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd 83.78 86.48 83.78
CHI#12 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb 83.78 86.48 81.08
CHI#13 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb 86.48 86.48 81.08
CHI#14 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy 86.48 86.48 81.08
CHI#15 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al 86.48 86.48 78.37
CHI#16 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr 86.48 86.48 75.67
CHI#17 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag 83.78 86.48 81.08
CHI#18 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As 83.78 86.48 78.37
CHI#19 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd 81.08 86.48 78.37
CHI#20 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn 81.08 86.48 78.37
CHI#21 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl 86.48 86.48 81.08
CHI#22 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se 83.78 86.48 81.08
CHI#23 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb 83.78 86.48 83.78
CHI#24 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni 81.08 86.48 81.08
CHI#25 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba 81.08 86.48 81.08
CHI#26 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi 81.08 86.48 81.08
CHI#27 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be 78.37 86.48 75.67
CHI#28 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U 78.37 86.48 75.67
CHI#29 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn 78.37 86.48 81.08
CHI#30 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu 72.97 86.48 78.37
CHI#31 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu, Fe 72.97 86.48 81.08
CHI#32 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu, Fe, Ca 72.97 86.48 78.37
CHI#33 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu, Fe, Ca, Mg 70.27 86.48 78.37
CHI#34 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu, Fe, Ca, Mg, Eu 70.27 86.48 78.37
CHI#35 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu, Fe, Ca, Mg, Eu, Pr 67.56 86.48 78.37
CHI#36 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu, Fe, Ca, Mg, Eu, Pr, Yb 70.27 86.48 78.37
CHI#37 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu, Fe, Ca, Mg, Eu, Pr, Yb, Tm 70.27 86.48 81.08
CHI#38 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu, Fe, Ca, Mg, Eu, Pr, Yb, Tm, Lu 70.27 86.48 78.37
CHI#39 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu, Fe, Ca, Mg, Eu, Pr, Yb, Tm, Lu, Er 70.27 86.48 81.08
CHI#40 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu, Fe, Ca, Mg, Eu, Pr, Yb, Tm, Lu, Er, Ce 72.97 86.48 78.37
CHI#41 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu, Fe, Ca, Mg, Eu, Pr, Yb, Tm, Lu, Er, Ce, Hg 72.97 86.48 78.37
CHI#42 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu, Fe, Ca, Mg, Eu, Pr, Yb, Tm, Lu, Er, Ce, Hg, Mo 72.97 86.48 81.08
51
CHI#43 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu, Fe, Ca, Mg, Eu, Pr, Yb, Tm, Lu, Er, Ce, Hg, Mo, Pd 70.27 86.48 81.08
CHI#44 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu, Fe, Ca, Mg, Eu, Pr, Yb, Tm, Lu, Er, Ce, Hg, Mo, Pd, Sb 70.27 86.48 78.37

X 2.
Precisão (%)
Subconjunto
Variáveis
SVM CART MLP
RFI#1 Na 86.48 86.48 86.48
RFI#2 Na, Sn 83.78 86.48 86.48
RFI#3 Na, Sn, Co 83.78 86.48 86.48
RFI#4 Na, Sn, Co, P 83.78 86.48 81.08
RFI#5 Na, Sn, Co, P, K 83.78 86.48 83.78
RFI#6 Na, Sn, Co, P, K, Sm 83.78 86.48 83.78
RFI#7 Na, Sn, Co, P, K, Sm, Ho 83.78 86.48 78.37
RFI#8 Na, Sn, Co, P, K, Sm, Ho, Gd 83.78 86.48 78.37

RFI#9 Na, Sn, Co, P, K, Sm, Ho, Gd, La 83.78 86.48 72.97
RFI#10 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er 83.78 86.48 75.67
RFI#11 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd 83.78 86.48 75.67
RFI#12 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V 83.78 86.48 81.08
RFI#13 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb 83.78 86.48 83.78
RFI#14 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba 83.78 86.48 81.08
RFI#15 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy 83.78 86.48 81.08
RFI#16 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe 83.78 86.48 81.08
RFI#17 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce 83.78 86.48 78.37
RFI#18 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb 86.48 86.48 81.08
RFI#19 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu 86.48 86.48 81.08
RFI#20 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr 86.48 86.48 81.08
RFI#21 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg 86.48 86.48 81.08
RFI#22 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb 86.48 86.48 78.37
RFI#23 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al 86.48 86.48 81.08
RFI#24 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm 83.78 86.48 81.08
RFI#25 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn 86.48 86.48 83.78
RFI#26 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As 83.78 86.48 86.48
RFI#27 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb 83.78 86.48 83.78
RFI#28 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu 83.78 86.48 81.08
RFI#29 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni 78.37 86.48 83.78
RFI#30 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca 78.37 86.48 81.08
RFI#31 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca, Hg 75.67 86.48 78.37
RFI#32 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca, Hg, Tl 78.37 86.48 83.78
RFI#33 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca, Hg, Tl, Mn 78.37 86.48 83.78
RFI#34 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca, Hg, Tl, Mn, Sb 78.37 86.48 83.78
RFI#35 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca, Hg, Tl, Mn, Sb, Lu 78.37 86.48 83.78
RFI#36 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca, Hg, Tl, Mn, Sb, Lu, Bi 78.37 86.48 83.78
RFI#37 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca, Hg, Tl, Mn, Sb, Lu, Bi, Se 75.67 86.48 81.08
RFI#38 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca, Hg, Tl, Mn, Sb, Lu, Bi, Se, Pd 72.97 86.48 81.08
RFI#39 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca, Hg, Tl, Mn, Sb, Lu, Bi, Se, Pd, Cr 72.97 86.48 78.37
RFI#40 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca, Hg, Tl, Mn, Sb, Lu, Bi, Se, Pd, Cr, Be 72.97 86.48 78.37
RFI#41 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca, Hg, Tl, Mn, Sb, Lu, Bi, Se, Pd, Cr, Be, Mo 75.67 86.48 78.37
RFI#42 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca, Hg, Tl, Mn, Sb, Lu, Bi, Se, Pd, Cr, Be, Mo, Cd 72.97 86.48 81.08
52
RFI#43 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca, Hg, Tl, Mn, Sb, Lu, Bi, Se, Pd, Cr, Be, Mo, Cd, U 70.27 86.48 81.08
RFI#44 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca, Hg, Tl, Mn, Sb, Lu, Bi, Se, Pd, Cr, Be, Mo, Cd, U, Ag 70.27 86.48 81.08

RFI.
Accuracy plot for F−Score subsets Accuracy plot for Chi−square subsets
90 90
89 89
88 88
CART CART
87 87
86 86
85 85
84 84
83 83
82 MLP 82 MLP
81 81
80 80
Accuracy
Accuracy
79 79
78 78
77 77
76 76
75 75
74 SVM 74 SVM
73 73
72 72
71 71
70 70
69 69
68 68
67 67
66 66
65 65
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43
Variable subsets (#) Variable subsets (#)
Accuracy plot for RFI subsets
90
89
88
CART
87
86
85
84
83
82 MLP
81
80
Accuracy
79
78
77
SVM
76
75
74
73
72
71
70
69
68
67
66
65
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43
Variable subsets (#)
Figura 4.4: Desempenho dos modelos de classificação obtidos uti-

lizando diferentes subconjuntos de variáveis avaliadas
pelo F-score, X 2 e RFI.
As Tabelas 4.2, 4.3 e 4.4 e a Figura 4.4 mostram as precisões obtidas pelos
modelos de classificação treinados com os subconjuntos de variáveis especificados e
utilizando validação cruzada leave-one-out. É possível ver que os três modelos treinados
com apenas uma variável mostraram bons resultados de classificação: 78.37%, 72.97%
e 75.67% de precisão para o SVM, CART e MLP, respectivamente, utilizando apenas
a variável K, e 86.48% de precisão para todos os modelos quando utilizando apenas a
variável Na.
O modelo CART apresentou desempenho de predição semelhante para todos os
subconjuntos de variáveis obtidos de acordo com os três métodos de seleção de variáveis,
com precisão mínima de 72.97% utilizando o subconjunto FS#1 e máxima de 86.48%
para todos os demais subconjuntos usados, exceto FS#2 e FS#3. Isto significa que, na
prática, a adição de novas variáveis (ainda que bem avaliadas) na fase de treinamento
deste modelo não afeta o seu desempenho. A Figura 4.5 ajuda a entender o porquê.
Figura 4.5: Regra de decisão gerada pelo melhor modelo CART

obtido.
Todos os modelos CART, exceto os que foram treinados com FS#1-FS#3, geram
a árvore mostrada na Figura 4.5. De acordo com esta árvore, a tomada de decisão do
modelo para predizer o tipo de suco da amostra é feita consultando apenas o valor da
variável Na. Desta forma, todos os subconjuntos possíveis de variáveis que incluam Na
gerarão modelos CART que apresentação os mesmos resultados. Como os subconjuntos
FS#1-FS#3 não possuem esta variável, mostraram precisão diferente. De acordo com a
regra de decisão exposta, dada uma amostra arbitrária de suco de uva, se a concentração de
Na for maior ou igual a 56.7 µg/g, então a amostra é do tipo convencional. Caso contrário,
a amostra é do tipo orgânico. O modelo classifica 38% das amostras como convencionais
(a porcentagem correta é 49%) e 62% como orgânicas (a porcentagem correta é 51%).
Assim, provamos que o modelo CART é eficiente e produz poucos erros para diferenciar
o suco de uva orgânico do convencional utilizando apenas o valor da concentração de
sódio da amostra como variável de atributo.
O comportamento do modelo SVM é um pouco mais interessante pois alterações
no desempenho são observadas conforme variáveis com notas ruins são adicionadas ao
treinamento. Para os subconjuntos obtidos pelo F-score, a precisão do SVM se inicia
em 78.37% quando a melhor variável é utilizada, e gradativamente aumenta conforme
novas variáveis com boa avaliação são adicionadas. O modelo atinge precisão máxima,
89.18%, quando o subconjunto com as seis melhores variáveis é utilizado, e então este
valor começa a cair gradativamente conforme adicionamos as 22 variáveis restantes. O
mesmo fenômeno ocorre para os subconjuntos gerados pelo X 2 e RFI: o SVM atinge
seus melhores resultados até os subconjuntos CHI#24 e RFI#29 serem utilizados, e então
seu desempenho começa a cair conforme as demais variáveis são contempladas na fase
de treinamento. Através desta observação, concluímos que as variáveis que receberam as
menores notas de F-score, X 2 e RFI não são apenas inúteis, como também prejudiciais
ao desempenho dos modelos. Assim, podemos considerar que apenas as 6 melhores
variáveis de acordo com o F-score, as 24 melhores variáveis de acordo com X 2 e as 29
melhores variáveis de acordo com o RFI são boas candidatas ao treinamento dos modelos
de classificação. As variáveis comuns nestes três conjuntos são K, Sn, P, Na, Sm e Nd.
A Tabela 4.5 mostra as medidas de sensitividade e especificidade computadas
4.4 Conclusões 55
para os melhores modelos SVM, CART e MLP obtidos. Para os modelos que obtiveram
a mesma precisão para diferentes subconjuntos de variáveis, consideramos como modelo
ótimo aquele que utilizou a menor quantidade de variáveis. De maneira geral, o melhor
modelo produzido foi o SVM treinado com o subconjunto FS#6 (K, Sn, P, Na, Sm, Nd),
apresentando precisão de 89.18%.
SVM CART MLP

Subconjunto de variáveis {K, Sn, P, Na, Sm, Nd} {Na} {Na}
Precisão (%) 89.18 86.48 86.48
Sensitividade (%) 77.77 72.22 72.22
Especificidade (%) 94.73 100 100
Tabela 4.5: Medidas de desempenho computadas para os melhores
SVM, CART e MLP obtidos.
4.4 Conclusões
Neste trabalho, apresentamos um estudo de mineração de dados do suco de
uva orgânico. Desenvolvemos modelos de classificação capazes de diferenciar o suco
de uva orgânico do suco de uva convencional baseado em seus componentes químicos.
Nós também detalhamos quais destes componentes eram os mais importantes para a
classificação.
Nossos resultados mostram que, de acordo com os métodos de seleção de
variáveis utilizados, os componentes Na, Sn, P, K, Sm e Nd são os mais importantes
para diferenciar o suco de uva convencional do orgânico, especialmente Na, Sn e K. De
fato, a concentração de Na é consideravelmente maior nas amostras de suco convencional,
enquanto o suco orgânico mostrou maiores concentrações de K e Sn. Além disso, todos os
métodos de seleção de variáveis abordados indicaram que Ag, Zn, Cr, Be e Pd estão entre
os componentes menos importantes para a diferenciação das amostras, e outros elementos,
como Sb, Mo, Hg, Ce, Er, Lu, Tm, Yb, Pr, Eu, Mg, Ca, Fe, Cu, U, Bi, Ba, Ni, Rb, Se, Tl,
Mn, Cd, As e Al também foram considerados com pouco poder discriminativo.
A importância do sódio na diferenciação dos dois tipos de suco é corroborada
pelos modelos CART obtidos. Estes modelos utilizaram apenas os valores de concentra-
ção de Na como base para predizer o tipo de suco de uma amostra arbitrária. Assim, todos
os modelos CART apresentaram medidas de desempenho iguais (86.48% de precisão)
para todos os subconjuntos de variáveis que incluíram este elemento. O desempenho do
SVM aumentou gradativamente conforme variáveis bem avaliadas pelos seletores foram
adicionadas à fase de treinamento, para então cair gradativamente conforme as variáveis
consideradas menos importantes foram adicionadas. Finalmente, nossos melhores mode-
los obtidos foram: um SVM com 89.18% de precisão treinado com as variáveis K, Sn, P,
4.4 Conclusões 56
Na, Sm e Nd, e um CART e MLP com 86.48% de precisão utilizando apenas Na como
variável.
Para trabalhos futuros, nós esperamos que algumas limitações enfrentadas neste
projeto sejam abordadas. Por exemplo, nosso conjunto de dados é relativamente pequeno,
possuindo apenas 37 amostras no total, e um maior número de amostras para treinamento
e teste pode gerar modelos de classificação mais precisos. Além disso, nesse estudo, nós
trabalhamos com amostras de suco de uva obtidas apenas no Brasil. Seria interessante
que a análise fosse expandida para incluir amostras de diferentes países, com diferentes
sistemas de cultivo e produção. Um modelo de classificação poderia ser desenvolvido para
diferenciar o suco de uva produzido em diferentes países de maneira a certificar a sua
origem geográfica, ou visualizar a diferença no comportamento da composição mineral
do suco de uva produzido em diferentes culturas e condições climáticas.
O trabalho foi publicado em 2016 na revista Expert Systems with Applications
com o título ”Comparative study of data mining techniques for the authentication of
organic grape juice based on ICP-MS analysis” [57].
CAPÍTULO 5
Diferenciação do chocolate orgânico e
convencional

O chocolate é um alimento amplamente apreciado e que oferece alguns benefí-
cios à saúde, e estando provavelmente relacionado à redução de doenças cardiovasculares
[89, 4, 29]. Em contrapartida, o seu consumo em excesso está relacionado ao aumento de
incidentes de diabetes e obesidade [25, 36].
Atualmente, diversos estudos que visam a determinação dos elementos tóxicos e
essenciais no chocolate foram conduzidos utilizando técnicas de espectroscopia atômica,
como espectrômetro de massa com plasma indutivamente acoplado (ICP-MS) [58, 95,
88]. Entretanto, as diferenças entre os elementos tóxicos e fundamentais no chocolate
orgânico e convencional ainda são desconhecidas.
Neste projeto, nós apresentamos um estudo da composição química do chocolate
orgânico e convencional utilizando mineração de dados aliada a ICP-MS. Nosso objetivo
foi determinar e avaliar os níveis de concentração dos elementos tóxicos e convencional
em ambos tipos de chocolate, e também determinar quais destes componentes são os
mais importantes para diferenciar o chocolate orgânico do chocolate convencional. Para
esta última tarefa, nós empregados técnicas de mineração de dados e propomos uma
metodologia de seleção de variáveis baseada em métodos filtro para refinar o conjunto
de variáveis original em um novo subconjunto formado pelas variáveis mais relevantes.
5.2 Metodologia

O conjunto de dados analisado neste trabalho consiste em 36 amostras de
chocolate que foram coletadas levando em consideração diferentes marcas e conteúdo de
cacau. Estas amostras foram compradas em mercados nos estados de São Paulo e Minas
5.2 Metodologia 58
Gerais (Brasil), e estão divididas em 12 amostras de chocolate orgânico e 24 amostras de

chocolate convencional.
Os elementos químicos tóxicos e essenciais na composição das amostras e suas
concentrações foram determinados utilizando ICP-MS (ELAN DRCII, PerkinElmer, CT,
EUA) com argão de alta pureza (99.999%, White Martins, Brasil). Os 38 elementos
químicos encontrados foram As, Al, Sc, Cd, Cu, Fe, Mg, Mn, Ni, Pb, V, U, Zn, La, Dy,
Pr, Sn, Nd, Gd, Ba, Sb, Be, Se, Mo, Co, Tl, Er, Ce, Yb, Lu, Th, Ho, Ge, Nb, Sm, Tb, Tm
e Eu, e seus valores de concentração foram utilizados como variáveis de atributo para o
conjunto de dados.

Um dos problemas encontrados durante a análise era o fato do conjunto de
dados ser desbalanceado, consistindo em 24 amostras de chocolate convencional e apenas
metade desta quantidade para o chocolate orgânico, representado por apenas 12 amostras.
Para liquidar este problema, a técnica SMOTE foi utilizada. Para a tarefa de classificação
das amostras entre os dois tipos de chocolate contemplados, utilizamos os modelos SVM
e MLP. Para a análise e seleção das variáveis de atributo, utilizamos os três métodos filtros
CFS, F-score e X 2 .
O projeto da metodologia utilizada está ilustrado na Figura 5.1. O primeiro passo
é certificar que as classes no conjunto de dados estão representadas da maneira iguais
ou similar. Modificar a quantidade de amostras do conjunto de dados não interfere em
seu conjunto de variáveis, entretanto esta quantidade e a proporção das classes afeta
diretamente nos resultados dos métodos filtro de seleção de variáveis e classificação.
Portanto, o método SMOTE é utilizado no início da análise de maneira a obtermos um
conjunto de dados balanceado.
Considerando D como o conjunto original de variáveis de atributos, o processo
de seleção de variáveis adotada neste estudo é descrita nos seguintes passos:
1. O coeficiente X 2 (valor V ) é utilizado para calcular o nível de dependência de cada

variável em relação ao rótulo de classe. Variáveis que obtiveram valor V igual a zero
não possuem correlação com o rótulo de classe e foram descartadas da análise. O
subconjunto refinado de variáveis D1 foi formado com as variáveis remanescentes.
2. O valor de F-score foi calculado para todas as variáveis pertencentes a D1 . Nós
definimos um valor de limite k e as variáveis que obtiveram valor de F-score inferior
a k também foram descartadas da análise. O subconjunto refinado de variáveis D2
foi formado com as variáveis remanescentes.
3. O algoritmo CFS foi aplicado de maneira a obter o melhor sunconjunto de variáveis
formado a partir das variáveis em D2 .
Basicamente, cada método filtro foi utilizado de maneira a refinar o conjunto de

variáveis através da remoção das variáveis avaliadas como pouco significativas de acordo
com cada método. O melhor subconjunto de variáveis hipotético, obtido pelo CFS, é
então utilizado para treinar modelos SVM e MLP, cujos desempenhos de predição são
computados através das métricas de precisão, sensitividade e especifidade. Para fins de
comparação, modelos de classificação também foram construídos utilizando o conjunto
de variáveis original.
Figura 5.1: Metodologia empregada para análise de dados. Téc-

nicas de seleção de variáveis são utilizadas para refi-
nar o conjunto de variáveis original e obter o melhor
subconjunto de variáveis hipotético, que será utilizado
para treinar modelos de classificação SVM e MLP.
5.3.1 Elementos tóxicos e essenciais encontrados nas amostras de

chocolate
Embora alguns estudos revelem a concentração de componentes químicos do
chocolate [43, 42, 75, 95, 44, 23], este é o primeiro projeto que elucida a concentração
de 38 elementos (incluindo latanídeos e actinídeos) em amostras de chocolate e avalia a
autenticidade de amostras de chocolate orgânico. A Tabela 5.1 mostra a concentração dos

elementos tóxicos e essenciais determinados para todas as amostras. Zinco, manganês,
cobre, alumínio e bário são os elementos mais abundantes, apresentando níveis de
concentração maiores do que 5000 ng·g−1 nas amostras de ambos os tipos de chocolate.
Para magnésio, níquel e cobalto, os níveis de concentração variam entre 300 e 2800
ng·g−1 . Os demais componentes são relativamente menos frequentes em ambos tipos de
chocolate, apresentando valores menores do que ng·g−1 .
Os níveis mínimo e máximo de alumínio (Al) são de 1551 e 11464 ng·g−1
respectivamente para o chocolate convencional, e 4837 e 20656 ng·g−1 respectivamente
para o chocolate orgânico. A árvore de cacau possui a habilidade de absorver o alumínio
presente no solo [76]. Este elemento não é essencial para o organismo humano e seus
efeitos adversos estão relacionados principalmente a condições patológicas como doença
de Alzheimer e Parkinson [45].
As concentrações de arsênio (As) e cádmio (Cd) são maiores no chocolate con-
vencional, enquanto os níveis de chumbo (Pb) são similares nos dois tipos de chocolate.
Esses elementos podem ser tóxicos ao organismo humano se ingeridos em grandes quan-
tidades. As é um metalóide tóxico encontrado em alimentos como arroz, peixe e chocolate
[9], geralmente despejado no meio ambiente através de pesticidas, fertilizantes e alimen-
tos de animais que podem contaminar alimentos e água [78]. Este elemento é cancerí-
geno e pode causar câncer de pele, fígado, pulmão e bexiga [45]. Este projeto encontrou
39.9±37.0 e 18.5±10.7 ng·g−1 de As no chocolate convencional e orgânico, respectiva-
mente. Pb é um metal tóxico que pode ser encontrado em muitos alimentos como farinha
de mandioca, café, açúcar e também chocolate [2, 6, 5, 88], e quando ingerido em grandes
quantidades, pode acarretar efeitos adversos nos sistemas nervoso, digestivo e hemato-
poiético [45]. Neste projeto, encontramos concentrações semelhantes de Pb nas amostras
de chocolate convencional (50.1±47.9 ng·g−1 ) e orgânico (52.9±38.5 ng·g−1 ).
Cádmio é um agente contaminante que ocorre naturalmente no cacau e em
produtos derivados. Esse metal tóxico pode acumular no solo e ser absorvidos por plantas
como o cacaueiro, levando à contaminação de grãos de cacau. Além disso, fertilizantes
a base de fosfato são considerados como a maior fonte de Cd em solos de agricultura
[46]. No corpo humano, Cd se acumula nos rins e ocasiona disfunções renares. Quando
ingerido em grandes quantidades, Cd também acarreta disfunções no metabolismo do
cálcio, resultando na formação de pedras nos rins, osteoporose e osteomalacia [65, 91].
As concentrações de Cd encontradas para o chocolate neste estudo foram baixas e mais
frequentes no tipo orgânico (44.6±36.1 ng·g−1 ) do que no tipo convencional (66±101
ng·g−1 ).
As concentrações médias de manganês (Mn) no chocolate orgânico e convencio-
nal foram de 11698 e 11477 ng·g−1 , respectivamente. De acordo com Djoussé et. al [29],
o consumo de chocolate pela população norte-americana está inversamente relacionado

com a prevalência de doenças coronárias, com alguns benefícios atribuídos ao consumo
de cobre [49].
Os níveis médios de níquel (Ni) encontrados no chocolate convencional e orgâ-
nico foram 2770 e 2590 ng·g−1 , respectivamente. Os materiais brutos utilizados durante o
processo de fabricação do chocolate podem ser as possíveis fontes de contaminação para
este metal, uma vez que o chocolate é produzido em recipientes de aço.
O zinco (Zn) é um elemental essencial para o corpo humano e importante
para várias enzimas, especialmente para a produção e neutralização de espécies reativas
ao oxigênio [50]. Neste estudo, concentrações similares de Zn foram encontradas no
chocolate orgânico (19113±5438 ng·g−1 ) e convencional (19579±374 ng·g−1 ).
Um fato interessante é que todas as concentrações de latanídeos e actinídeos
observadas neste estudo são maiores no chocolate convencional do que no chocolate or-
gânico. Não há registros até o momento da presença destes elementos no chocolate na
literatura presente. Entretanto, alguns estudos avaliaram a concentração de latanídeos e
actinídeos em alimentos como o café e o açúcar, que também demonstraram grandes
quantidades de elementos terras raras como La, Ce, Th e Y nas amostras convencionais
em comparação às amostras orgânicas [6, 5]. Além disso, os fertilizantes inorgânicos uti-
lizados no sistema de cultivo convencional contêm alta concentração de lantanídeos e
actinídeos, resultando no aumento dos níveis destes elementos no solo e, conseqüente-
mente, aumento de sua absorção pelas plantas. Esses elementos podem se acumular ao
longo da cadeia alimentar e o seu excesso pode acarretar efeitos prejudiciais para os seres
humanos [85].
As(ng·g−1 ) Cd(ng·g−1 ) Pb(ng·g−1 ) Al(ng·g−1 ) U(ng·g−1 ) Sb(ng·g−1 ) Ge(ng·g−1 ) Tl(ng·g−1 )
OC 18.5±10.7 44.6±36.1 50.1±47.9 5025±2611 0.41±0.23 6.21±9.57 0.52±0.26 6.61±3.12
(7.14±46) (9.6±145) (15.5±180) (1551±11464) (0.1±0.95) (0.3±31.7) (0.18±1.25) (2.99±14.2)
CC 39.9±37.0 66±101 52.9±38.5 10953±427 0.77±0.3 2.96±3.62 0.78±0.28 7.54±2.94
(12±170) (16.4±527) (13.4±201) (4837±20656) (0±1.51) (1.14±19.6) (0.23±1.27) (2.74±13.7)
Sc(ng·g−1 ) Nb(ng·g−1 ) Sn(ng·g−1 ) Be(ng·g−1 ) Ba(ng·g−1 ) V(ng·g−1 ) Ni(ng·g−1 ) Mn(ng·g−1 )
OC 46.1±20.2 1.08±0.90 9.79±5.72 0.18±0.62 8483±6285 32.5±13.45 2590±1028 11698±4556

(26.1±98.8) (0±3.05) (3.57±23.3) (0±1.61) (2798±21533) (11.7±58.2) (1040±4702) (4517±
20206)
CC 71.4±54.6 1.26±0.65 16.2±12.7 0.36±0.66 5640±3206 48.4±15.91 2770±788 11477±3303
(15.5±271) (0.28±2.77) (5.19±49.6) (0±2.12) (1994±15568) (20.6±83.2) (1131±3857) (4892±17135)
Mo(ng·g−1 ) Co(ng·g−1 ) Cu(ng·g−1 ) Se(ng·g−1 ) Zn(ng·g−1 ) Fe(ng·g−1 ) Mg(ng·g−1 ) Ce(ng·g−1 )
OC 115±38.1 342±157 11256±4359 105±53.9 19113±5438 81.4±45.7 1835±915 12.9±7.25
(42.5±165) (135±731) (4203±19422) (35.7±222) (10445±31881) (40.5±192) (727±3563) (3.67±32.8)
CC 126±50.8 300±(97.4±560)10207±3081 129±71.1 19579±374 119±46.4 2190±881 21±7.64
(57.1±259) (4396±14889) (34.3±349) (13514±27700) (53.7±229) (633±3344) (9±47.3)
Dy(ng·g−1 ) −1
Er(ng·g ) Eu(ng·g−1 ) Gd(ng·g−1 ) Ho(ng·g−1 ) La(ng·g−1 ) Lu(ng·g−1 ) Nd(ng·g−1 )
OC 0.6±0.23 0.26±0.10 1.62±0.43 1.14±0.38 0.09±0.04 5.14±2.60 0.02±0.01 4.34±2.26
(0.16±0.99) (0.07±0.41) (1±2.65) (0.43±1.78) (0.02±0.15) (1.91±12.1) (0±0.04) (1.35±9.42)
CC 0.99±0.41 0.4±0.14 1.67±0.58 1.87±0.75 0.16±0.06 9.54±4.55 0.04±0.02 6.71±2.24
(0.34±1.89) (0.16±0.66) (0.62±2.69) (0.64±3.42) (0.06±0.26) (3.89±26.8) (0.02±0.07) (0±10)
Pr(ng·g−1 ) Sm(ng·g−1 ) Tb(ng·g−1 ) Th(ng·g−1 ) Tm(ng·g−1 ) Yb(ng·g−1 )
OC 1.09±0.51 2.94±0.74 0.12±0.04 1.79±1.14 0.03±0.02 0.19±0.08
(0.37±2.27) (2.17±5.06) (0.04±0.22) (0.76±4.91) (0±0.05) (0.06±0.28)
CC 1.81±0.52 3.46±1.08 0.20±0.10 4.04±1.80 0.06±0.02 0.35±0.14
(0.62±2.66) (1.26±5.04) (0.07±0.43) (1.29±7.94) (0.03±0.12) (0.14±0.52)
Tabela 5.1: Níveis de concentração dos 38 elementos químicos en-
contrados nas amostras de chocolate brasileiro orgâ-
nico (OC) e convencional (CC).
62
5.3.2 Classificação das amostras de chocolate e seleção de variáveis

A etapa inicial da análise preditiva foi lidar com o problema do desbalancea-
mento do conjunto de dados. O algoritmo SMOTE gerou 12 amostras sintéticas de cho-
colate orgânico que foram adicionadas ao conjunto de dados. Este procedimento resultou
em um novo conjunto de dados com um total de 24 amostras de chocolate orgânico, equi-
valente à quantidade de amostras de chocolate convencional.
A próxima etapa da análise foi a fase de seleção de variáveis. Iniciamos através
do cálculo do coeficiente X 2 para cada variável de atributo. Este processo visa a redução
da largura do conjunto de dados através da identificação e remoção das variáveis que
são descorrelacionadas do rótulo de classe (X2 =0). Os coeficientes X 2 calculados para
todos os elementos químicos (que atuam como as variáveis de atributo) são mostrados
na Figura 5.2(a). Dezoito variáveis apresentaram X2 =0 e foram descartadas: Sc, Eu, Sn,
Nb, Mo, Mg, Zn, Tl, Se, Pb, Ni, Mn, Cu, Co, Cd, Be, Ba e As. Calculamos o valor de
F-score para as variáveis restantes, e os resultados são mostrados na Figura 5.2(b). As
variáveis que receberam valor de F-score inferior a 0.2 foram também descartadas, sendo
elas Sb e Sm. O algoritmo CFS foi executado com as variáveis restantes de maneira
a encontrarmos o melhor subconjunto de variáveis hipotético e, segundo o CFS, este
subconjunto compreende as variáveis: Ce, Tm, Fe, Er, Ge e Lu. Desta forma, concluímos
que, de acordo com os três métodos filtros de seleção de variáveis utilizados, estes seis
elementos são os mais importantes para diferenciar as amostras de chocolate convencional
das amostras de chocolate orgânico.
Após o cálculo do melhor subconjunto de variáveis, nós o utilizamos para treinar
modelos de classificação SVM e MLP. Dois modelos de cada algoritmo foram obtidos:
um utilizando o melhor subconjunto de variáveis e o outro utilizando todas as variáveis do
conjunto original. A comparação dos resultados dos dois modelos é útil para observarmos
como o desempenho de predição varia quando os modelos utilizam apenas as 6 variáveis
avaliadas como mais discriminativas e todas as 38 variáveis originais. Todos os modelos
foram treinados e testados utilizando o método de validação cruzada leave-one-out. As
medidas de desempenho (precisão, sensitividade e especificidade) para os quatro modelos
obtidos estão resumidas na Tabela 5.2.
O modelo com melhor precisão obtido foi o SVM treinado com todas as variáveis
do conjunto de dados original, apresentando 95.83% de precisão. Este mesmo modelo
alcançou 100% de sensitividade, ou seja, taxa de predição perfeita para as amostras de
chocolate convencional. Em contrapartida, o modelo MLP treinado com todas as variáveis
apresentou o melhor valor de especificidade, ou seja, este modelo é capaz de predizer com
95.83% de precisão as amostras de chocolate orgânico isoladamente.
Um fato interessante a se observar é que, embora as medidas de desempenho
sejam melhores para os modelos de classificação que utilizam todo o conjunto de variáveis
5.4 Conclusões 64
original, o desempenho medido para os modelos treinados com apenas 6 variáveis ainda
é satisfatório. O modelo SVM treinado com o subconjunto de variáveis alcançou 91.67%
de precisão e 100% de sensitividade. Estes resultados comprovam que os elementos Ce,
Tm, Fe, Er, Ge e Lu são extremamente relevantes para a diferenciação das amostras
de chocolate orgânica das amostras de chocolate convencional, e são capazes de gerar
modelos de classificação com alto desempenho de predição.
Seleção de variáveis Todas as variáveis

Medida
SVM MLP SVM MLP
Precisão (%) 91.67 87.5 95.83 93.75
Sensitividade (%) 100 87.5 100 91.67
Especificidade (%) 83.33 87.5 91.67 95.83
Tabela 5.2: Medidas de desempenho para os modelos SVM e MLP
treinados utilizando seleção de variáveis e todas as
variáveis originais do conjunto de dados.
5.4 Conclusões
Este trabalho apresentou um estudo dos elementos tóxicos e essenciais no
chocolate orgânico e convencional através de mineração de dados aliada a ICP-MS, além
de propor modelos de classificação capazes de diferenciar os dois tipos de chocolate com
alta precisão. Alumínio foi o elemento encontrado em maiores níveis de concentração,
especialmente nas amostras de chocolate convencional. Altas concentrações de ferro,
zinco e manganês, contrariando a crença de que alimentos orgânicos são ricos em
elementos essenciais. Em contrapartida, altas concentrações de elementos terras raras
foram observadas nas amostras de chocolate convencional em comparação ao observado
nas amostras de chocolate orgânico.
O método filtro de seleção de variáveis CFS combinado ao coeficiente X 2 e F-
score concluíram que Ce, Tm, Fe, Er, Ge e Lu são os elementos mais relevantes para
a diferenciação das amostras dos dois tipos de chocolate. O modelo SVM treinado com
este subconjunto de variáveis apresentou 91.67% de precisão e 100% de sensitividade
(capacidade de predição perfeita para amostras de chocolate convencional). Esses resul-
tados provam que estes seis elementos são extremamente relevantes para a diferenciação
do chocolate orgânico e convencional e conseguem gerar modelos de classificação de alta
precisão. O desempenho de predição é aprimorado, tanto no SVM quanto no MLP, quando
todas as variáveis do conjunto de dados original são utilizadas em seu treinamento. O me-
lhor modelo encontrado foi o SVM treinado com todas as variáveis do conjunto de dados
original, apresentando 95.83% de precisão de classificação e 100% de sensitividade.
5.4 Conclusões 65
Sb Al
Ce
Sm Yb
Tm
Al Pr
Fe
Th Th
Pr
La Lu
Yb
Er Er
Ge
V Tm
Tb
Nd Nd
Lu
Ho Ce
Element
Element
Gd La
U
Dy Ge
Sc
Eu Ho
Sn
Nb Gd
Mo
Mg Fe
Zn
Tl Tb
Se
Pb Dy
Ni
Mn V
Cu
Co U
Cd
Be Sb
Ba Sm
As
0.0 0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6
Chi−square value F−score value
(a) Coeficiente X2 calculado para cada elemento (b) Medida de F-score calculada para os ele-
químico nas amostras de chocolate. mentos químicos nas amostras de chocolate
que atingiram um valor de X 2 maior do que
0.
coeficiente X 2 e o F-score.
CAPÍTULO 6
Diferenciação de amostras de ecstasy
apreendidas em Ribeirão Preto e Campinas

Substâncias estimulantes do tipo anfetaminas (ATS, na sigla em inglês) são dro-
gas de consumo popular. De acordo com o Escritório das Nações Unidas sobre Drogas
e Crime (UNODC), o uso global de ATS atualmente é maior do que o uso de cocaína e
heroína combinados [61]. Estratégias efetivas para combater o crescimento proeminente
da distribuição de ATS requerem um melhor conhecimento das redes internacionais de
tráfico. Uma forma de obter informações úteis a respeito das rotas de tráfico, fontes de
fornecimento, laboratórios clandestinos e protocolos de sintetização é através de carac-
terização química [73]. O termo ”caracterização química” se refere ao perfil espectral da
droga ilícita. Supostamente, amostras de uma mesma droga produzidas na mesma carga
de fabricação possuem composição química e níveis de concentrações semelhantes e apre-
sentam perfis espectrais praticamente idênticos, enquanto, de maneira inversa, amostras
de uma mesma droga que são produzidas em laboratórios diferentes apresentam compo-
sições químicas e perfis espectrais diferentes.
Neste estudo, analisamos a caracterização química de tabletes de ecstasy. Ecstasy
é uma substância ATS pertencente a um grupo popular de drogas ilícitas conhecimento
como ”drogas de clube” [13]. Além da possibilidade de inflingir efeitos colaterais peri-
gosos, o consumo de ecstasy está associado a atividades criminais, dependência alcoólica
e comportamento sexual de risco que pode levar ao aumento das taxas de transmissão
do vírus HIV. Amostras de ecstasy foram obtidas de dois locais de apreensão no estado
de São Paulo (Brasil), um na cidade de Campinas e outro na cidade de Ribeirão Preto.
Utilizamos a metodologia proposta de mineração de dados aliada a ICP-MS para predizer
em qual das duas cidades contempladas uma determinada amostra de ecstasy deveria ser
obtida com base em sua caracterização química.
Alguns estudos recentes sobre a análise da composição química de tabletes de
ecstasy envolvem o uso de espectrometria de emissão atômica por plasma indutivamente
6.2 Metodologia 67
acoplado (ICP-AES) [20], espectrometria de massa por plasma indutivamente acoplado

[8, 20, 52], espectrometria de absorção atómica de forno de grafite [34] e métodos ele-
troquímicos [33]. E alguns estudos recentes já aplicam ICP-MS para a classificação de
tabletes de ecstasy, utilizando, todavia, métodos de estatística tradicional como análise
dos componentes principais (PCA), agrupamento hierárquico(HCA) e redes neurais arti-
ficiais [8, 90]. Contudo, tanto o PCA quanto HCA falharam em diferenciar os tabletes de
diferentes regiões de apreensão de maneira satisfatória. Desta forma, neste estudo, utili-
zamos máquinas vetores de suporte (SVM) para desempenhar a classificação.
6.2 Metodologia

As amostras de ecstasy analisadas foram obtidas de 38 apreensões feitas pela
polícia do estado de São Paulo, Brasil, no período entre Agosto de 2011 e Julho de
2012. As apreensões ocorreram em duas cidades, resultando em 21 amostras obtidas de
Campinas e 17 amostras de Ribeirão Preto. Os 25 elementos químicos encontrados nas
amostras e utilizados como variáveis de atributo para a análise foram: selênio (Se), zinco
(Zn), magnésio (Mg), cálcio (Ca), níquel (Ni), arsênio (As), chumbo (Pb), cádmio (Cd),
manganês (Mn), cobalto (Co), cobre (Cu), césio (Cs), bário (Ba), rubídio (Rb), urânio
(U), bismuto (Bi), tálio (Tl), molibdênio (Mo), antimônio (Sb), telúrio (Te), lantano (La),
cério (Ce), érbio (Er), lutécio (Lu), neodímio (Nd).

Para a tarefa de classificação, utilizamos o modelo SVM. Para a seleção de
variáveis, utilizamos o F-score. A metodologia desenvolvida para a análise destes dados
é semelhante à descrita no capítulo 3 deste trabalho, onde as variáveis que receberam
maior valores de F-score são adicionadas gradativamente ao conjunto de treinamento do
modelo de classificação e, ao final, checa-se a precisão obtida pelo modelo. Os passos são
detalhados a seguir:
1. Utilizamos o F-score para avaliar as variáveis individualmente, medindo o valor de

discriminação entre variáveis e os rótulos de classe;
2. Geramos K = {k1 , k2 , ..., km } subconjuntos de variáveis, sendo o subconjunto k j
formado pelas j variáveis com melhores notas de F-score, m sendo o tamanho total
do conjunto de variáveis original, e km sendo o conjunto de variáveis original (sem
seleção de variáveis). Como o conjunto de dados possui 25 variáveis, então m = 25;
3. Cada subconjunto km é utilizado para treinar um modelo SVM utilizando o método

de validação cruzada leave-one-out.
Este processo resultou em um total de 25 modelos SVM e possibilitou obser-

var como cada variável afetou no desempenho da predição conforme nós adicionamos
variáveis bem avaliadas pelo F-score na fase de treinamento dos modelos.

A Tabela 6.1 mostra os valores de concentração média seu desvio padrão para os
25 elementos químicos determinados nas amostras de tabletes de ecstasy apreendidos nas
cidades de Campinas e Ribeirão Preto. Imediatamente podemos observar que os elemen-
tos químicos Mg, Ca e Zn são os mais presentes na composição química dos tabletes de
ecstasy apreendidos em ambas as cidades. As amostras de ecstasy apreendidas em Ribei-
rão Preto apresentam concentração média de Mg, Ca e Zn de 1090000 ng/g, 61000 ng/g e
5800 ng/g, respectivamente, enquanto as amostras apreendidas em Campinas apresentam
530000 ng/g, 471000 ng/g e 9400 ng/g, respectivamente. Os elementos menos presentes
são Tl, Er, Cd, Cs, Te, apresentando concentração média de 0.46, 0.43, 2.6, 2.2, 2.1 ng/g
para as amostras apreendidas em Ribeirão Preto, respectivamente, e 0.59, 0.27, 2.6, 0.9,
1.2 ng/g para as amostras apreendidas em Campinas, respectivamente.
As amostras de ecstasy apreendidas em Ribeirão Preto apresentam maiores
concentrações de Mg e Pb (1090000 e 755 ng/g, respectivamente) em relação às amostras
apreendidas em Campinas, que por sua vez apresentam concentrações relativamente
maiores de Ca, Cu e Zn (471000, 611 e 9400 ng/g, respectivamente).
Utilizamos o método filtro F-score para avaliar individualmente cada elemento
e obter as suas importâncias relativas para a diferenciação das amostras apreendidas
nas duas cidades. Os valores de F-score obtidos estão visíveis na Figura 6.1 em ordem
decrescente de relevância. Através do gráfico, podemos ver que as variáveis Se, Mo, e Mg
não apenas receberam os maiores valores, como também receberam valores muito maiores
do que as demais variáveis, intuitivamente visível na queda brusca sofrida pela barra que
representa a quarta variável melhor colocada (U). Portanto, concluímos que estes três
elementos são os mais significativos para a diferenciação das amostras em relação ao seu
local de apreensão. As duas variáveis que receberam os menores valores de F-score foram
Cd e Mn, avaliadas como tendo menor poder discriminativo sobre a origem das amostras.
Tendo em mãos os valores de F-score obtidos para todas as variáveis, o próximo
passo é gerar os subconuntos de variáveis a serem utilizados no treinamento do modelo
de classificação. Semelhante à abordagem adotada na análise detalhada no Capítulo 3,
cada subconjunto foi gerado com as variáveis que receberam as N melhores notas de
Elemento Ribeirão Preto (n=17) (Média±DP) Campinas (n=21) (Média±DP)

As (ng·g−1 ) 193 ± 270 88 ± 65
Ba (ng·g−1 ) 469 ± 1121 614 ± 1274
Bi (ng·g−1 ) 12.1 ± 29.9 2.4 ± 2.5
Ca (µg·g−1 ) 61 ± 75 471 ± 168
Cd (ng·g−1 ) 2.6 ± 3.8 2.6 ± 5.9
Ce (ng·g−1 ) 14.8 ± 23.3 8.6 ± 12.8
Co (ng·g−1 ) 8.5 ± 12.1 10.5 ± 19.3
Cu (ng·g−1 ) 278 ± 262 611 ± 1425
Cs (ng·g−1 ) 2.2 ± 5.3 0.9 ± 2.2
Er (ng·g−1 ) 0.43 ± 0.45 0.27 ± 0.42
La (ng·g−1 ) 39.4 ± 124 5.2 ± 7.3
Mg (µg·g−1 ) 1090 ± 927 530 ± 424
Mn (ng·g−1 ) 426 ± 452 402 ± 537
Mo (ng·g−1 ) 16.6 ± 18.3 5.1 ± 6.0
Nd (ng·g−1 ) 4.2 ± 4.6 2.9 ± 4.0
Ni (ng·g−1 ) 468 ± 439 291 ± 477
Pb (ng·g−1 ) 755 ± 204 105 ± 167
Rb (ng·g−1 ) 20.7 ± 33.9 45.0 ± 155
Se (ng·g−1 ) 7.1 ± 10.9 0.28 ± 0.77
Sb (ng·g−1 ) 31.4 ± 87.4 3.8 ± 6.9
Te (ng·g−1 ) 2.1 ± 3.0 1.2 ± 0.8
Tl (ng·g−1 ) 0.46 ± 0.31 0.59 ± 1.2
U (ng·g−1 ) 11.9 ± 22.8 2.4 ± 1.5
Zn (µg·g−1 ) 5.8 ± 7.4 9.4 ± 12
Tabela 6.1: Concentração média e desvio padrão (DP) dos ele-
mentos químicos encontrados nos tabletes de ecstasy
apreendidos em Campinas e Ribeirão Preto.
F-score, para N = {1, 2, ..., 25}. O subconjunto #1 possui a variável melhor avaliada,
subconjunto #2 possui as duas variáveis melhores avaliadas e assim sucessivamente. O
último subconjunto, #25, contém todas as variáveis do conjunto original.
A Tabela 6.2 mostra os subconjuntos de variáveis gerados juntamente com a
precisão obtida pelo modelo SVM desenvolvido utilizando validação cruzada leave-one-
out. O modelo atinge a sua precisão máxima, 81.58%, quando o subconjunto formado
pelas três melhores variáveis identificadas pelo F-score (isto é, Se, Mo e Mg) é utilizado.
Isto prova que os três elementos que receberam maiores notas de F-score são de fato
importantes para a diferenciação, gerando um modelo de classificação de alto desempenho
sem a necessidade de considerar os demais elementos encontrados. Este valor de precisão
é mantido conforme mais variáveis são adicionadas na fase de treinamento. Uma queda
na precisão ocorre quando a décima quarta variável melhor colocada, Ca, é adicionada
no treinamento do modelo (modelo #14). Os modelos #14, #15, #16, #17, #18, #19 e
#20 tem a precisão estabilizada em 78.95%. Outra queda ocorre quando a variável Tl é
adicionada no treinamento do modelo, e a precisão dos modelos #21, #22, #23, #24 e #25
Se
Mo
Mg
U
As
Bi
Pb
Sb
Er
Element La
Ni
Te
Lu
Ca
Ce
Cu
Zn
Cs
Nd
Rb
Tl
Co
Ba
Mn
Cd
0.00 0.05 0.10 0.15 0.20
F−score value
Figura 6.1: Importância relativa das variáveis de acordo com suas
notas de F-score calculadas.
é estabilizada em 76.32%.
Dessa forma, podemos observar que o desempenho do SVM é aprimorado e
mantido em sua melhor precisão quando as 13 melhores variáveis avaliadas de acordo
com o F-score são utilizadas na fase de treinamento, e então é prejudicado quando as
variáveis menos importantes são contempladas.
Para obtermos informações mais detalhadas a respeito dos modelos que atingi-
ram a precisão máxima e identificarmos aquele que de fato pode ser considerado como
de melhor desempenho, calculamos as medidas de desempenho de sensitividade e es-
pecificidade. Os resultados, juntamente com os valores de parâmetros configurados para
os modelos #3-#13, estão dispostos na Tabela 6.3. Podemos observar através da tabela
que, apesar dos onze modelos apresentarem valores idênticos de precisão, as medidas de
sensitividade e especificidade são melhores e idênticos para os modelos #3-#8.
Isso prova a importância das três variáveis avaliadas como mais significativas
pelo F-score, Se, Mo e Mg. Estas três variáveis sozinhas geraram o modelo SVM
com os melhores valores de precisão (81.58%), sensitividade (95.24%) e especificidade
(64.71%). Estas medidas de desempenho permanecem inalteradas quando o modelo
adiciona as variáveis U, As, Bi, Pb, Sb e Er em seu treinamento. Isto significa que estas
variáveis não possuem de fato qualquer poder de discriminação sobre as amostras de
ecstasy com respeito ao seu local de apreensão, não aprimorando e nem prejudicando o
desempenho do modelo de classificação, podendo ser descartadas da análise para fins de
6.4 Conclusões 71
Modelo Variáveis Precisão (%)

#1 Se 68.42
#2 Se, Mo 78.95
#3 Se, Mo, Mg 81.58
#4 Se, Mo, Mg, U 81.58
#5 Se, Mo, Mg, U, As 81.58
#6 Se, Mo, Mg, U, As, Bi 81.58
#7 Se, Mo, Mg, U, As, Bi, Pb 81.58
#8 Se, Mo, Mg, U, As, Bi, Pb, Sb 81.58
#9 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er 81.58
#10 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er, La 81.58
#11 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er, La, Ni 81.58
#12 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er, La, Ni, Te 81.58
#13 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er, La, Ni, Te, Lu 81.58
#14 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er, La, Ni, Te, Lu, Ca 78.95
#15 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er, La, Ni, Te, Lu, Ca, Ce 78.95
#16 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er, La, Ni, Te, Lu, Ca, Ce, Cu 78.95
#17 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er, La, Ni, Te, Lu, Ca, Ce, Cu, Zn 78.95
#18 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er, La, Ni, Te, Lu, Ca, Ce, Cu, Zn, Cs 78.95
#19 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er, La, Ni, Te, Lu, Ca, Ce, Cu, Zn, Cs, Nd 78.95
#20 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er, La, Ni, Te, Lu, Ca, Ce, Cu, Zn, Cs, Nd, Rb 78.95
#21 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er, La, Ni, Te, Lu, Ca, Ce, Cu, Zn, Cs, Nd, Rb, Tl 76.32
#22 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er, La, Ni, Te, Lu, Ca, Ce, Cu, Zn, Cs, Nd, Rb, Tl, Co 76.32
#23 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er, La, Ni, Te, Lu, Ca, Ce, Cu, Zn, Cs, Nd, Rb, Tl, Co, Ba 76.32
#24 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er, La, Ni, Te, Lu, Ca, Ce, Cu, Zn, Cs, Nd, Rb, Tl, Co, Ba, Mn 76.32
#25 Se, Mo, Mg, U, As, Bi, Pb, Sb, Er, La, Ni, Te, Lu, Ca, Ce, Cu, Zn, Cs, Nd, Rb, Tl, Co, Ba, Mn, Cd 76.32
Tabela 6.2: Valores de precisão obtidos pelo modelo SVM utili-

zando diferentes subconjuntos de variáveis.
simplificação. Por outro lado, as variáveis La, Ni, Te, Lu, Ca, Ce, Cu, Zn, Cs, Nd, Rb,
Tl, Co, Ba, Mn e Cd, que receberam valores menores de F-score, mostraram-se de fato
prejudiciais ao desempenho do modelo, causando queda na precisão, sensitividade e/ou
especificidade.
Desta forma, concluimos que o melhor modelo SVM obtido foi o modelo #3, e
que os elementos químicos utilizados em seu treinamento, Se, Mo e Mg, são de fato os
mais significativos para diferenciar as amostras de ecstasy com respeito à cidade em que
foram apreendidas.
6.4 Conclusões
Neste trabalho, trazemos uma aplicação da metodologia proposta de técnicas de
mineração de dados aliada a ICP-MS na área forense. Amostras de tabletes de ecstasy
foram obtidas de dois sítios de apreensão no estado de São Paulo (Brasil), estando um na
cidade de Campinas e outro na cidade de Ribeirão Preto. Utilizamos ICP-MS para obter
a caracterização química de cada amostra, e 25 elementos foram encontrados: Se, Mg,
Er, Zn, Ni, Lu, Mo, As, U, La, Cu, Ce, Ba, Co, Nd, Te, Rb, Cs, Bi, Ca, Sb, Pb, Tl, Mn e
Cd. Os elementos químicos Mg, Ca e Zn são os mais presentes na composição química
dos tabletes de ecstasy apreendidos em ambas as cidades, enquanto os elementos menos
presentes são Tl, Er, Cd, Cs e Te. As amostras de ecstasy apreendidas em Ribeirão Preto
apresentam maiores concentrações de Mg e Pb em relação às amostras apreendidas em
6.4 Conclusões 72
Modelo Sensitividade (%) Especificidade(%) Valor C Valor σ

3 95.24 64.71 1 0.25
4 95.24 64.71 1 0.25
5 95.24 64.71 0.5 0.25
6 95.24 64.71 0.5 0.25
7 95.24 64.71 0.5 0.25
8 95.24 64.71 0.5 0.25
9 90.48 58.82 0.1 1.5
10 90.48 58.82 0.06 1.5
11 85.71 58.82 0.05 3
12 90.48 58.82 0.03 2
13 90.48 58.82 0.03 3
Tabela 6.3: Medidas de desempenho para os modelos SVM que
atingiram o valor ótimo de precisão (81.58%).
Campinas, que por sua vez apresentam concentrações relativamente maiores de Ca, Cu e
Zn.
O método filtro de seleção de variáveis F-score foi computado para todas as
variáveis. As variáveis Se, Mo e Mg não apenas receberam os maiores valores, como
também receberam valores muito maiores do que as demais variáveis. O próximo passo
foi gerar os subconuntos de variáveis a serem utilizados no treinamento do modelo de
classificação, totalizando 25 subconjuntos diferentes e, automaticamente, 25 modelos
de classificação do tipo SVM distintos que foram treinados. Todos os modelos SVM
construídos utilizaram a função kernel gaussiana (RBF).
O melhor modelo SVM obtido foi o modelo #3, treinado com as variáveis Se,
Mo e Mg, de fato as que receberam as melhores notas de F-score. Este modelo apresentou
81.58% de precisão, 95.24% de sensitividade e 64.71% de especificidade. Isto prova que
estes elementos químicos são de fato os mais significativos para diferenciar as amostras
de ecstasy com respeito à cidade em que foram apreendidas. Por outro lado, as variáveis
La, Ni, Te, Lu, Ca, Ce, Cu, Zn, Cs, Nd, Rb, Tl, Co, Ba, Mn e Cd, que de fato receberam
valores menores de F-score, mostraram-se de fato prejudiciais ao desempenho do modelo,
causando queda na precisão, sensitividade e/ou especificidade.
Este trabalho está sendo preparado para submissão e recebeu apoio financeiros
da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) e do Conselho
Nacional de Desenvolvimento Científico e Tecnológico (CNPq).
CAPÍTULO 7
Considerações finais
Os resultados obtidos nos estudos mostrados neste trabalho provam que as técni-
cas de mineração de dados aliadas a ICP-MS é uma metodologia de sucesso para o estudo
de substâncias. O estudo de substâncias com base em sua composição química provê uma
variedade de informações úteis, como as citadas neste trabalho: reconhecimento geográ-
fico, classificação do tipo de um determinado alimento ou substância, identificar catego-
rias de produtos, autenticação de um determinado produto, entre outros.
Neste trabalho, apresentamos quatro aplicações distintas desta metodologia, que
incluem: reconhecimento geográfico do arroz branco brasileiro produzido nos estados
do Rio Grande do Sul e Goiás; diferenciação do suco de uva brasileiro orgânico do
convencional; diferenciação do chocolate brasileiro orgânico do convencional e análise
de seus elementos tóxicos e essenciais; reconhecimento da origem do ecstasy entre duas
cidades de apreensão do estado de São Paulo. Em todas estas aplicações, os modelos de
classificação obtidos apresentaram alto desempenho, com precisões computadas acima
de 85%. Os algoritmos de seleção de variáveis também se mostraram importantes para
identificar os elementos químicos mais importantes na diferenciação das amostras, e
também os menos relevantes.
Nossa metodologia é pioneira na certificação de alimentos orgânicos. Embora
tenhamos focado no suco de uva e no chocolate, a metodologia proposta pode ser adaptada
e utilizada na diferenciação de qualquer tipo de alimento orgânico, ou mesmo outras
substâncias, como produtos cosméticos, perfumes, remédios, drogas e outros.
Referências Bibliográficas
[1] A BDEL -H ALEEM , A. S.; S ROOR , A.; E L -B AHI , S. M.; Z OHNY, E. Heavy metals
and rare earth elements in phosphate fertilizer components using instrumental
neutron activation analysis. Applied Radiation and Isotopes, 55(4):569–573, 2001.
[2] A DEYEMI , J. A.; A DEDIRE , C. O.; PAULELLI , A. C.; J R , A. C. M.; I LEKE , K. D.; J R ,
F. B. Levels and daily intake of lead (pb) and six essential elements in gari
samples from ondo state, southwest nigeria: A potential risk factor of health
status. Journal of Food Composition and Analysis, 2015.
[3] A LCÁZAR , Á.; J URADO, J. M.; PALACIOS -M ORILLO, A.; DE PABLOS , F.; M ARTÍN ,
M. J. Recognition of the geographical origin of beer based on support vector
machines applied to chemical descriptors. Food Control, 23(1):258 – 262, 2012.
[4] B ALBOA -C ASTILLO, T.; L ÓPEZ -G ARCÍA , E.; L EÓN -M UÑOZ , L. M.; P ÉREZ -
TASIGCHANA , R. F.; B ANEGAS , J. R.; R ODRÍGUEZ -A RTALEJO, F.; P., G.-C. Cho-
colate and health-related quality of life: a prospective study. PLoS One,
10:e0123161, 4 2015.
[5] B ARBOSA , R. M.; B ATISTA , B. L.; B ARIÃO, C. V.; VARRIQUE , R. M.; C OELHO,
V. A.; C AMPIGLIA , A. D.; B ARBOSA , F. A simple and practical control of the
authenticity of organic sugarcane samples based on the use of machine-
learning algorithms and trace elements determination by inductively coupled
plasma mass spectrometry. Food Chemistry, 184:154–159, 10 2015.
[6] B ARBOSA , R. M.; B ATISTA , B. L.; VARRIQUE , R. M.; C OELHO, V. A.; C AMPIGLIA ,
A. D.; B ARBOSA , F. The use of advanced chemometric techniques and trace
element levels for controlling the authenticity of organic coffee. Food Research
International, 61:246–251, 7 2014.
[7] B ARBOSA , R. M.; N ACANO, L. R.; F REITAS , R.; B ATISTA , B. L.; B ARBOSA , F. The
use of decision trees and naïve bayes algorithms and trace element patterns
for controlling the authenticity of free- range-pastured hens’ eggs. Journal of
Food Science, 79:C1672–C1677, 2014.
[8] B ATISTA , B. L.; R ODRIGUES , J. L.; S OUZA , V. C. O.; J R , F. B. A fast ultrasound-

assisted extraction procedure for trace elements determination in hair samples
by icp-ms for forensic analysis. Forensic Science International, 192:88–93, 2009.
[9] B ATISTA , B.; S OUZA , V. D. O.; S ILVA , F. D.; B ARBOSA , F. J. Survey of 13 trace
elements of toxic and nutritional significance in rice from brazil and exposure
assessment. Food Additives & Contaminants: Part B, 3(4):253–262, 2010.
[10] B INGHAM , F.; PAGE , A.; M AHLER , R.; G ANJE , T. Cadmium availability to rice in
sludge-amended soil under ”flood” and ”nonflood” culture. Soil Science Society
of America Journal, 50:715–719, 1976.
[11] B ISHOP, C. M. Pattern Recognition and Machine Learning. Springer-Verlag New

York, Inc., Secaucus, NJ, USA, 2006.
[12] B REIMAN , L.; F RIEDMAN , J.; O LSHEN , R.; S TONE , C. Classification and Regres-
sion Trees. Wadsworth and Brooks, Monterey, CA, 1984.
[13] B ROWN , S. D.; M ELTON , T. C. Trends in bioanalytical methods for the determi-
nation and quantification of club drugs: 2000-2010. Biomedical Chromatography,
25:300–321, 2011.
[14] B URGES , C. J. C. A tutorial on support vector machines for pattern recognition.

Data Mining Knowledge Discovery, 2(2):121–167, 1998.
[15] C EBALLOS -M AGAÑA , S. G.; J URADO, J. M.; M UÑIZ -VALENCIA , R.; A LCÁZAR , A.;
DE PABLOS , F.; M ARTÍN , M. J. Geographical authentication of tequila according
to its mineral content by means of support vector machines. Food Analytical
Methods, 5(2):260–265, 2012.
[16] C HANDRASHEKAR , G.; S AHIN , F. A survey on feature selection methods. Com-

puters and Electrical Engineering, 40:16–28, 2014.
[17] C HAWLA , N. V.; B OWYER , K. W.; H ALL , L. O.; K EGELMEYER , W. P. Smote:

Synthetic minority over-sampling technique. J. Artif. Int. Res., 16(1):321–357,
2002.
[18] C HEAJESADAGUL , P.; A RNAUDGUILHEM , C.; S HIOWATANA , J.; S IRIPINYANOND, A.;

S ZPUNAR , J. Discrimination of geographical origin of rice based on multi-
element fingerprinting by high resolution inductively coupled plasma mass
spectrometry. Food Chemistry, 141(4):3504–3509, 2013.
[19] C HEN , Y.-W.; L IN , C.-J. Combining svms with various feature selection strate-
gies. In: Feature Extraction, volume 207 de Studies in Fuzziness and Soft Com-
puting, p. 315–324. Springer Berlin Heidelberg, 2006.
[20] C OMMENT, S.; L OCK , E.; Z INGG , C.; J AKOB , A. The analysis of ecstasy tablets by
icp-ms and icp/aes. Problems of Forensic Sciences, 46:131–146, 2001.
[21] C ORTES , C.; VAPNIK , V. Support-vector networks. Machine Learning, 20(3):273–

297, 1995.
[22] C RAMÉR , H. Mathematical Methods of Statistics. Princeton University Press,

1946.
[23] DAHIYA , S.; K ARPE , R.; H EGDE , A. G.; S HARMA , R. M. Lead, cadmium and nickel
in chocolate and candies from suburban area of mumbai. Indian Journal of Food
Composition and Analysis, 18:517–522, 2005.
[24] DASH , M.; L IU, H. Feature selection for classification. Intelligent Data Analysis,
1(1-4):131–156, 1997.
[25] D E A RAUJO, Q. R.; G ATTWARD, J. N.; A LMOOSAWI , S.; C OSTA S ILVA , M. D.;
DANTAS , P. A.; JÃ O NIOR , Q. R. Cacao and human health: from head to foot -
a review. Critical Reviews in Food Science and Nutrition, 8 2013.
[26] DE A SSIS , R. A.; K ÜCHLER , I. L.; M IEKELEY, N.; DA S ILVEIRA , C. L. P. Elementos-

traço e sódio em sucos de uva: aspectos nutricionais e toxicológicos. Química
Nova, 31:1948–1952, 2008.
[27] D ELEN , D.; C OGDELL , D.; K ASAP, N. A comparative analysis of data mining
methods in predicting {NCAA} bowl outcomes. International Journal of Forecas-
ting, 28(2):543 – 552, 2012.
[28] D ELEN , D.; WALKER , G.; K ADAM , A. Predicting breast cancer survivability: a
comparison of three data mining methods. Artificial Intelligence in Medicine,
34(2):113 – 127, 2005.
[29] D JOUSSÉ , L.; H OPKINS , P. N.; N ORTH , K. E.; PANKOW, J. S.; A RNETT, D. K.;
E LLISON , R. C. Chocolate consumption is inversely associated with prevalent
coronary heart disease: the national heart, lung, and blood institute family heart
study. Clinical Nutrition, 30:182–187, 4 2011.
[30] D UDA , R. O.; H ART, P. E.; S TORK , D. G. Pattern Classification (2Nd Edition).
Wiley-Interscience, 2000.
[31] E LKAN , C.; N OTO, K. Learning classifiers from only positive and unlabeled data.
In: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining, KDD ’08, p. 213–220, New York, NY, USA, 2008. ACM.
[32] E MBRAPA . Sistema de cultivo de arroz irrigado no brasil, 2005.
[33] F IERRO, I.; D EBAN , L.; PARDO, R.; TASCÓN , M.; VÁZQUEZ , D. Analysis of heavy
metals in ecstasy tablets by electrochemical methods. Toxicological and Environ-
mental Chemistry, 89:411–419, 2007.
[34] F RENCH , H. E.; W ENT, M. J.; G IBSON , S. J. Artificial neural networks (the
multilayer perceptron) - a review of applications in the atmospheric sciences.
Forensic Science International, 231:88–91, 2013.
[35] G ARDNER , M.; D ORLING , S. Artificial neural networks (the multilayer perceptron)
- a review of applications in the atmospheric sciences. Atmospheric Environment,
32(14-15):2627–2636, 1998.
[36] G REENBERG , J. A. Chocolate intake and diabetes risk. Clinical Nutrition, 34:129–
133, 2 2014.
[37] G UYON , I.; E LISSEEFF , A. An introduction to variable and feature selection.

Journal of Machine Learning Research, 3:1157–1182, 2003.
[38] H ALL , M. A. Correlation-based feature selection for discrete and numeric class
machine learning. In: Proceedings of the Seventeenth International Conference on
Machine Learning, ICML ’00, p. 359–366, San Francisco, CA, USA, 2000. Morgan
Kaufmann Publishers Inc.
[39] H AMEL , L. H. Knowledge Discovery with Support Vector Machines. Wiley-

Interscience, New York, NY, USA, 2009.
[40] H IRANO, S.; S UZUKI , K. T. Exposure, metabolism, and toxicity of rare earths and
related compounds. Environmental Health Perspective, 104(1):85–95, 1996.
[41] H UGHNER , R. S.; M C D ONAGH , P.; P ROTHERO, A.; S HULTZ , C. J.; S TANTON , J. Who
are organic food consumers? a compilation and review of why people purchase
organic food. Journal of Consumer Behaviour, 6:1–17, 2007.
[42] I EGGLI , C. V. S.; B OHRER , D.; N ASCIMENTO, P. C.; C ARVALHO, L. M. Determi-

nation of sodium, potassium, calcium, magnesium, zinc and iron in emulsified
chocolate samples by flame atomic absorption spectrometry. Food Chemistry,
124:1189–1193, 2011.
[43] I EGGLI , C. V. S.; B OHRER , D.; N ASCIMENTO, P. C.; C ARVALHO, L. M.; G OBO, L. A.
Determination of aluminum, copper and manganese content in chocolate sam-
ples by graphite furnace atomic absorption spectrometry using a microemul-
sion technique. Journal of Food Composition and Analyses, 24:465–468, 2011.
[44] I WEGBUE , C. Concentrations of selected metals in candies and chocolates

consumed in southern nigeria. Food Additives & Contaminates part B, 4:22–27,
2011.
[45] J AISHANKAR , M.; T SETEN , T.; A NBALAGAN , N.; M ATHEW, B. B.; B EEREGOWDA ,
K. N. Toxicity, mechanism and health effects of some heavy metals. Interdisci-
plinary Toxicology, 7:60–72, 2014.
[46] J IAO, W.; C HEN , W.; C HANG , A.; PAGE , A. Environmental risks of trace elements
associated with long-term phosphate fertilizers applications: a review. Environ-
mental Pollution, 168:44–53, 2015.
[47] J ORDAN , M. I.; T HIBAUX , R. Cs281b/stat241b: Advanced topics in learning & de-
cision making - the kernel trick. http://www.cs.berkeley.edu/ jordan/courses/281B-
spring04/lectures/lec3.pdf, 2004.
[48] K HANMOHAMMADI , M.; K ARAMI , F.; M IR -M ARQUÉS , A.; G ARMARUDI , A. B.; G ARRI -
GUES , S.; DE LA G UARDIA , M. Classification of persimmon fruit origin by near
infrared spectrometry and least squares-support vector machines. Journal of
Food Engineering, 62:17–22, 2014.
[49] K LEVAY, L. M. Copper in chocolate may improve health. Clinical Nutrition, 31:149,
2012.
[50] K LOUBERT, V.; R INK , L. Zinc as a micronutrient and its preventive role of
oxidative damage in cells. Food and Function, 6:3195–3204, 2015.
[51] KOHAVI , R. A study of cross-validation and bootstrap for accuracy estimation

and model selection. In: Proceedings of the 14th International Joint Conference on
Artificial Intelligence - Volume 2, IJCAI’95, p. 1137–1143, 1995.
[52] KOPER , C.; VAN DEN B OOM , C.; W IARDA , W.; S CHRADER , M.; DE J O -
ODE , P.; VAN DER P EIJIL , G.; B OLCK , A. Elemental analysis of 3,4-
methylenedioxymethamphetamine (mdma): a tool to determine the synthesis
method and trace links. Forensic Science International, 171:171–179, 2007.
[53] K UHN , M. caret: Classification and Regression Training, 2015. R package version
6.0-47.
[54] L IAW, A.; W IENER , M. Classification and regression by randomforest. R News,

2(3):18–22, 2002.
[55] L IU, C.; YANG , S. X.; D ENG , L. Determination of internal qualities of newhall
navel oranges based on nir spectroscopy using machine learning. Journal of
Food Engineering, 161:16–23, 2015.
[56] M AIONE , C.; B ATISTA , B. L.; C AMPIGLIA , A. D.; J R , F. B.; B ARBOSA , R. M. Clas-
sification of geographic origin of rice by data mining and inductively coupled
plasma mass spectrometry. Computers and Electronics in Agriculture, 121:101 –
107, 2016.
[57] M AIONE , C.; DE PAULA , E. S.; G ALLIMBERTI , M.; B ATISTA , B. L.; C AMPIGLIA , A. D.;
J R , F. B.; B ARBOSA , R. M. Comparative study of data mining techniques for the
authentication of organic grape juice based on icp-ms analysis. Expert Systems
with Applications, 49:60–73, 2016.
[58] M ANTON , W. Determination of the provenance of cocoa by soil protolith ages

and assessment of anthropogenic lead contamination by pb/nd and lead iso-
tope ratios. Journal of Agricultural and Food Chemistry, 58:713–721, 1 2010.
[59] M ARINI , F.; Z UPAN , J.; M AGRÌ , A. L. On the use of counterpropagation artificial
neural networks to characterize italian rice varieties. Analytica Chimica Acta,
510(2):231–240, 2004.
[60] M IRANDA , S. H. G.; S ILVA , G. S.; M OTTA , M. A. S. B.; E SPÓSITO, H. O sistema

agroindustrial do arroz no rio grande do sul. In: XLV Congresso da Sociedade
Brasileira de Economia, Agricultura e Sociologia Rural, 2007.
[61] M ORELATO, M.; B EAVIS , A.; TAHTOUH , M.; R IBAUX , O.; K IRKBRIDE , P.; R OUX , C.
The use of forensic case data in intelligence-led policing: The example of drug
profiling. Forensic Science International, 226:1–9, 2013.
[62] N ARDI , E. P.; E VANGELISTA , F. S.; TORMEN , L.; S AINT ’P IERRE , T. D.; C URTIUS ,
A. J.; DE S OUZA , S. S.; J R , F. B. The use of inductively coupled plasma mass
spectrometry (icp-ms) for the determination of toxic and essential elements in
different types of food samples. Food Chemistry, 112(3):727–732, 2009.
[63] N AVADA , A.; A NSARI , A.; PATIL , S.; S ONKAMBLE , B. Overview of use of decision
tree algorithms in machine learning. In: Control and System Graduate Research
Colloquium (ICSGRC), 2011 IEEE, p. 37–42, June 2011.
[64] N IGAM , K.; M CCALLUM , A. K.; T HRUN , S.; M ITCHELL , T. Text classification from
labeled and unlabeled documents using em. Machine Learning, 39(2):103–134,
2000.
[65] PATRICK , L. Toxic metals and antioxidants: Part ii. the role of antioxidants in
arsenic and cadmium toxicity. Alternative Medicine Review, 8:106–128, 2003.
[66] P ERKIN E LMER I NC.. The 30-minute guide to icp-ms, 2011.
[67] P OLAT, K.; G ÜNE Ş , S. Breast cancer diagnosis using least square support
vector machine. Digital Signal Processing, 17(4):694 – 701, 2007.
[68] Q UINLAN , J. R. Induction of decision trees. Machine Learning, 1:81–106, 1985.
[69] Q UINLAN , J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann

Publishers Inc., San Francisco, CA, USA, 1993.
[70] R C ORE T EAM . R: A Language and Environment for Statistical Computing. R

Foundation for Statistical Computing, Vienna, Austria, 2014.
[71] S ÁEZ , J. A.; L UENGO, J.; S TEFANOWSKI , J.; H ERRERA , F. Smote-ipf: Addressing
the noisy and borderline examples problem in imbalanced classification by a
re-sampling method with filtering. Information Sciences, 291:184–203, 2015.
[72] S ARUTA , K.; H IRAI , Y.; TANAKA , K.; I NOUE , E.; O KAYASU, T.; M ITSUOKA , M. Pre-
dictive models for yield and protein content of brown rice using support vector
machine. Computers and Electronics in Agriculture, 99:93–100, 2013.
[73] S CHÄFFER , M. AND D IECKMANN , S.; P ÜTZ , M.; KOHLES , T.; P YELL , U.; Z IMMER -
MANN , R. Impact of reaction parameters on the chemical profile of 3,4-
methylenedioxymethamphetamine synthesized via reductive amination: target
analysis based on gc-qms compared to non-targeted analysis based on gc×gc-
tof-ms. Forensic Science International, 233:201–211, 2013.
[74] S CHNEIDER , K.-M. A comparison of event models for naive bayes anti-spam
e-mail filtering. In: Proceedings of the Tenth Conference on European Chapter
of the Association for Computational Linguistics - Volume 1, EACL ’03, p. 307–314,
Stroudsburg, PA, USA, 2003. Association for Computational Linguistics.
[75] S EPE , A.; C OSTANTINI , S.; C IARALLI , L.; C IPROTTI , M.; G IORDANO, R. Evalua-
tion of aluminium concentrations in samples of chocolate and beverages by
electrothermal atomic absorption spectrometry. Food Additives & Contaminants,
18:788–796, 2001.
[76] S HAMSHUDDIN , J.; M UHRIZAL , S.; FAUZIAH , I.; H USNI , M. H. A. Effects of adding
organic materials to an acid sulfate soil on the growth of cocoa (theobroma
cacao l.) seedlings. Science of the Total Environment, 323:33–45, 2004.
[77] S ING , T.; S ANDER , O.; B EERENWINKEL , N.; L ENGAUER , T. Rocr: visualizing
classifier performance in r. Bioinformatics, 21(20):78–81, 2005.
[78] S INGH , R.; S INGH , S.; PARIHAR , P.; S INGH , V. P.; P RASAD, S. M. Arsenic conta-
mination, consequences and remediation techniques: a review. Ecotoxicology
Environmental Safety, 112:247–270, 2015.
[79] S OLTANI , M.; O MID, M. Detection of poultry egg freshness by dielectric spec-
troscopy and machine learning techniques. LWT - Food Science and Technology,
62:1034–1042, 2015.
[80] S UN , L.-X.; DANZER , K.; T HIEL , G. Classification of wine samples by means

of artificial neural networks and discrimination analytical methods. Fresenius’
Journal of Analytical Chemistry, 359(2):143–149, 1997.
[81] S UZUKI , Y.; C HIKARAISHI , Y.; O GAWA , N. O.; O HKOUCHI , N.; KORENAGA , T. Geo-
graphical origin of polished rice based on multiple element and stable isotope
analyses. Food Chemistry, 109(2):470–475, 2008.
[82] TAN , P.-N.; S TEINBACH , M.; K UMAR , V. Introduction to Data Mining, (First
Edition). Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 2005.
[83] TONG , S.; KOLLER , D. Support vector machine active learning with applications
to text classification. Journal of Machine Learning Research, 2:45–66, 2002.
[84] T RUMBO, P.; YATES , A. A.; S CHLICKER , S.; P OOS , M. Dietary reference intakes.
Journal of the Academy of Nutrition and Dietetics, 101(3):294–301, 2001.
[85] T URRA , C.; F ERNANDES , E. A. N.; B ACCHI , M. A. Evaluation on rare earth

elements of brazilian agricultural supplies. Journal of Environmental Chemistry
and Ecotoxicology, 3:86–92, 2011.
[86] T URRA , C.; F ERNANDES , E. A. D. N.; B ACCHI , M. A.; S ARRIÉS , G. A.; J ÚNIOR ,
F. B.; R EYES , A. E. L. Rare earth elements in citrus production systems. Journal
of Plant Nutrition, 36(5):762–771, 2013.
[87] VARMA , S.; S IMON , R. Bias in error estimation when using cross-validation for
model selection. BMC Bioinformatics, 7(91), 2006.
[88] V ILLA , J. E. L.; P EIXOTO, R. R. A.; S., C. Cadmium and lead in chocolates
commercialized in brazil. Journal of Agricultural and Food Chemistry, 62:8759–
8763, 8 2014.
[89] V ISIOLI , F.; B ERNAERT, H.; C ORTI , R.; F ERRI , C.; H EPTINSTALL , S.; M OLINARI ,
E.; P OLI , A.; S ERAFINI , M.; S MIT, H. J.; V INSON , J. A.; V IOLI , F.; PAOLETTI , R.
Chocolate, lifestyle, and health. Critical Reviews in Food Science and Nutrition,
49:299–312, 2009.
[90] WADDELL , R. J.; N IC DAÉID, N.; L ITTLEJOHN , D. Classification of ecstasy tablets

using trace metal analysis with the applications of chemometric procedures
and artificial neural network algorithms. Analyst, 129:235–240, 2004.
[91] WHO. Exposure to cadmium: a major public health concern, 2010.
[92] W ITTEN , I. H.; F RANK , E.; H ALL , M. A. Data Mining: Practical Machine Learning
Tools and Techniques. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA,
3rd edition, 2011.
[93] W OLF, R. E. What is icp-ms? ...and more importantly, what can it do?, 2005.
[94] YANG , Y.; P EDERSEN , J. O. A comparative study on feature selection in text

categorization. In: Proceedings of the Fourteenth International Conference on
Machine Learning, ICML ’97, p. 412–420, San Francisco, CA, USA, 1997. Morgan
Kaufmann Publishers Inc.
[95] YANUS , R.; S ELA , H.; B OROJOVICH , E. J. C.; Z AKON , Y.; S APHIER , M.; N IKOLSKI ,
A.; G UTFLAIS , E.; L ORBER , A.; K ARPAS , Z. Trace elements in cocoa solids and
chocolate: An icpms study. Talanta, 119:1–4, 2 2014.
[96] Z HANG , G. Neural networks for classification: a survey. Systems, Man, and
Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, 30(4):451–
462, 2000.

Dissertação

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Dissertação

Enviado por

Direitos autorais:

Formatos disponíveis

U NIVERSIDADE F EDERAL DE G OIÁS

Mineração de dados para o

Mineração de dados para o

Dissertação apresentada ao Programa de Pós–Graduação do

Orientador: Prof. Dr. Rommel Melgaço Barbosa.

1. mineração de dados. 2. agrupamento. 3. classificação. 4. seleção de

Graduada em Ciências da Computação pela Universidade Federal de Goiás

Agradeço primeiramente ao meu orientador, Rommel Melgaço Barbosa, por me

• do Laboratório de Toxicologia e Essencialidade de Metais da Universidade de São

Ian H. Witten, Eibe Frank, Mark A. Hall,

Maione, Camila. Mineração de dados para o reconhecimento da origem e

3 Diferenciação do arroz branco produzido em duas regiões do Brasil 36

4 Diferenciação do suco de uva orgânico e convencional 43

5 Diferenciação do chocolate orgânico e convencional 57

6 Diferenciação de amostras de ecstasy apreendidas em Ribeirão Preto e Cam-

2.1 Processo de descoberta de conhecimento em bancos de dados (KDD) [82]. 17

4.1 Importância relativa das variáveis de acordo com o valor de F-score

5.1 Metodologia empregada para análise de dados. Técnicas de seleção de

2.1 Exemplos de funções kernel para uso com o SVM. 23

3.1 Concentração média e faixas de concentração dos elementos químicos

4.1 Concentrações médias e faixas de concentração para os elementos quí-

5.1 Níveis de concentração dos 38 elementos químicos encontrados nas

A quantidade de dados disponíveis no mundo está em ascensão. Recursos capa-

para a diferenciação de amostras dos dois tipos e chocolate, e apresentaram 95.83% e

De acordo com Tan et. al [82], mineração de dados é o processo de descoberta

Figura 2.1: Processo de descoberta de conhecimento em bancos

A aprendizagem de máquina é um procedimento fundamental para a realização

conforme o cenário em torno da solução é modificado, e nestes casos a aprendizagem de

A classificação de dados possui aplicações em diversas áreas. Alguns trabalhos

2.1.1 Modelos de classificação

Máquinas vetores de suporte

Máquinas vetores de suporte (SVM) é uma técnica de classificação introduzida

Figura 2.3: Possíveis limites de decisão para um conjunto de da-

Figura 2.4: Margem do limite de decisão.

onde x é o conjunto de valores das variáveis de um exemplo arbitrário e, e w

Figura 2.5: Limites de decisão, margens do limite de decisão e

possível, o qual chamamos de hiperplano de margem máxima. Isto significa minimizar a

Figura 2.6: Transformação de um conjunto de dados original-

Redes neurais artificiais

Figura 2.7: Desenho arquitetural de um modelo perceptron

sendo t um fator de tendência. Desta forma, y no exemplo acima pode assumir

Figura 2.8: Exemplo de um multilayer perceptron [82].

Durante a fase de treinamento, o modelo MLP busca determinar os valores para

Desta forma, os valores de w1 , w2 , ..., wn são repetidamente ajustados de maneira

1. Inicialize a rede neural com os seus valores de pesos

• Dificuldade de implementação e interpretação.

Árvores de decisão [63, 12, 68] se referem a um dos modelos de classificação

ao ponto final do processo de classificação. A classificação de um exemplo desconhe-

Aparência Temperatura Umidade Ventania Classe

Figura 2.9: Exemplo de estrutura de uma árvore de decisão [68].

sendo a um determinado atributo que descreve um exemplo de treinamento, j

1. Calcule o valor de entropia H(ai ) para todos os atributos ai que descrevem os

A desvantagem principal do ID3 é que ele é sensível à quantidade de valores que

I(Y | X) = H(Y ) − H(Y | X) (2-9)

onde X é um atributo, Y é o rótulo de classe, H(Y ) é o valor de entropia do rótulo

2.1.2 Medidas de desempenho de classificadores

• Ajustar repetidamente os parâmetros de um classificador e observar os resultados;

relacionados) entre si, ou possuem pouca influência na informação que desejamos

Para avaliarmos o desempenho de um classificador, é necessário que, além de

exclusivos D1 , D2 , ..., Dk (os ”folds”, ou repartições) de tamanho igual ou similar. O

Figura 2.10: Execução do método de validação cruzada k-fold.

A precisão calculada pelo método de validação cruzada varia de acordo com

Os valores armazenados na matriz de confusão podem ser utilizados para obter

2.2 Seleção de variáveis