Escolar Documentos
Profissional Documentos
Cultura Documentos
I NSTITUTO DE I NFORMÁTICA
C AMILA M AIONE
Goiânia
2016
C AMILA M AIONE
Goiânia
2016
Ficha catalográfica elaborada automaticamente
com os dados fornecidos pelo(a) autor(a), sob orientação do Sibi/UFG.
Maione, Camila
Mineração de dados para o reconhecimento da origem e do tipo de
alimentos e outras substâncias com base em sua composição química
[manuscrito] / Camila Maione. - 2016.
LXXXII, 82 f.: il.
Camila Maione
Maione, Camila. Data mining for the recognition of origin and type of food
and other substances based on its chemical composition. Goiânia, 2016. 82p.
MSc. Dissertation. Instituto de Informática, Universidade Federal de Goiás.
A practical way to characterize consumable substances is through its chemical elements in
its composition and theirs concentrations. By using these elements as feature variables, it
is possible to arrange these substances samples in a data matrix in which data mining
and statistical techniques can be applied for predictive analysis. The classification of
consumable substances based on its chemical components is an interesting problem
and provides useful information for various purposes, as: recognition of geographical
origin of a substance; validation and authenticity; determination of the characteristics of
a product which can aid companies in the quality control and preservation; differentiation
of categories of a product, and others.
This study presents a methodology for predictive analysis of substances and food based
on its chemical components, using data mining concepts and techniques allied to ICP-
MS. Four applications of the proposed methodology are described: recognition of the
geographical origin of Brazilian white rice produced in São Paulo and Goiás states; dif-
ferentiation of organic and conventional Brazilian grape juice; differentiation of organic
and conventional Brazilian chocolate, and analysis of its toxic and essential elements; re-
cognition of the source of ecstasy tablets apprehended in two cities from Sao Paulo state,
Ribeirão Preto and Campinas.
For all applications presented, the classification models obtained showed high predictive
performance (over 85%), which attest the efficiency of the proposed methodology, and
the variable selection techniques used helped us to identify the chemical elements which
are more important to the differentiation of the analyzed samples. For the purpose of
distinguishing food samples into organic and conventional, our approach is pioneer and
yielded good results.
Keywords
data mining, clustering, classification, feature selection, food, machine learning
Sumário
Lista de Figuras 12
Lista de Tabelas 13
1 Apresentação 14
2 Mineração de dados 17
2.1 Classificação 18
2.1.1 Modelos de classificação 19
Máquinas vetores de suporte 20
Redes neurais artificiais 23
Árvores de decisão 25
2.1.2 Medidas de desempenho de classificadores 28
2.2 Seleção de variáveis 31
2.2.1 Algoritmos de seleção de variáveis 32
2.3 Balanceamento de dados 34
7 Considerações finais 73
Referências Bibliográficas 74
Lista de Figuras
3.1 Importância relativa das variáveis de acordo com suas notas de F-score
calculadas. 40
6.1 Importância relativa das variáveis de acordo com suas notas de F-score
calculadas. 70
Lista de Tabelas
6.1 Concentração média e desvio padrão (DP) dos elementos químicos en-
contrados nos tabletes de ecstasy apreendidos em Campinas e Ribeirão
Preto. 69
6.2 Valores de precisão obtidos pelo modelo SVM utilizando diferentes sub-
conjuntos de variáveis. 71
6.3 Medidas de desempenho para os modelos SVM que atingiram o valor
ótimo de precisão (81.58%). 72
CAPÍTULO 1
Apresentação
Uma ferramenta eficiente e que nos últimos 30 anos tem ganhado popularidade
nos laboratórios ao redor do mundo para a extração de elementos químicos em amostras
é a espectrometria de massa com plasma indutivamente acoplado (ICP-MS) [66]. ICP-
MS possui várias vantagens sobre outras ferramentas de determinação elemental como
absorção atômica e espectrometria de emissão ótica, incluindo espectrometria de emissão
atômica (ICP-AES) [93].
Neste trabalho, aliamos as técnicas de análise preditiva da mineração de dados
com dados obtidos através de ICP-MS para propor modelos de classificação capazes
de diferenciar amostras de substâncias com base em sua composição química. Esta
é a primeira vez em que esta metolodogia é utilizada para a certificação de alguns
alimentos orgânicos, como o suco de uva. Os resultados são promissores, com modelos
de classificação construídos que apresentam alta precisão de classificação.
No Capítulo 2 apresentamos a fundamentação teórica que embasa o nosso tra-
balho. Explicamos os conceitos básicos de mineração de dados e aprendizagem supervi-
sionada, e discorremos sobre todas as técnicas, modelos de classificação e algoritmos de
seleção de variáveis utilizados em nossas análises.
No Capítulo 3, apresentamos a nossa pesquisa feita com amostras de arroz
brasileiro de Goiás e do Rio Grande do Sul, e os modelos de classificação construídos
capazes de predizar o estado de produção de uma amostra de arroz com base em seus
elementos químicos. Nós utilizamos três técnicas de classificação conhecidas, máquinas
vetores de suporte, árvores aleatórias e redes neurais artificiais, aliadas ao F-score para a
seleção de variáveis. Os modelos obtidos mostraram taxa de precisão de 93.66%, 93.83%
e 90%, respectivamente. Este trabalho foi publicado em 2016 com o título "Classification
of geographic origin of rice by data mining and inductively coupled plasma mass
spectrometry" na revista Computers and Electronics in Agriculture, qualificada como A2
em Ciência da Computação [56].
No Capítulo 4, apresentamos o estudo da composição elemental de amostras
de suco de uva orgânico e convencional. O objetivo era prover modelos de classificação
capazes de diferenciar os dois tipos de suco, além de entender quais eram os elementos
químicos mais importantes para a diferenciação. Utilizamos modelos de máquinas vetores
de suporte, redes neurais artificiais e árvores de decisão, que mostraram precisão de
89.18%, 86.48% e 86.48%, respectivamente. Este trabalho foi publicado com o título
”Comparative study of data mining techniques for the authentication of organic grape
juice based on ICP-MS analysis” na revista Expert Systems with Applications, qualifiada
como A2 em Ciência da Computação [57].
No Capítulo 5, apresentamos o estudo dos elementos tóxicos e essenciais que
compõem o chocolate orgânico e o chocolate convencional. Modelos de classificação
baseados em máquinas vetores de suporte e redes neurais artificiais foram construídos
16
2.1 Classificação
Considere um conjunto de dados arbitrário. Após a leitura de todos os exemplos
deste conjunto e suas características, queremos ser capazes de inferir informações para
novos exemplos desconhecidos que sejam descritos pelo mesmo vetor de características.
Este processo de inferência é chamado de generalização. Generalização e classificação
implementam a aprendizagem supervisionada, cujo objetivo o desenvolvimento de algo-
ritmos capazes de generalizar dados novos e desconhecidos com base em um conjunto de
dados previamente observado, o qual chamamos de conjunto de treinamento. Os exem-
plos do conjunto de treinamento estão associados a uma característica especial chamada
rótulo de classe que se refere à informação que desejamos poder predizer em novos exem-
plos. Desta forma, a aprendizagem supervisionada é utilizada para construir algoritmos
capazes de predizer o rótulo de classe de novos exemplos com base nas características e
nos rótulos de classe observados em outros exemplos.
O produto da aprendizagem supervisionada é um classificador, matematica-
mente definido por uma função fˆ : X → {true, f alse} utilizando o conjunto de exem-
plos D de maneira que fˆ(x) ∼ = f (x), sendo D um conjunto de objetos rotulados onde
D = {(x, y) | x ∈ S e y = f (x)} para uma função de rotulação f : X → {true, f alse} [39].
A Figura 2.2 ilustra um exemplo de classificador para um conjunto de dados
cujos exemplos são definidos por três variáveis: x1 (Variável 1), x2 (Variável 2) e um
2.1 Classificação 19
rótulo de classe c, referente a cor do exemplo no gráfico. Como c só pode assumir dois
valores (vermelho ou azul), dizemos que este é um problema de classificação binária. O
classificador receberá como entrada os valores de x1 e x2 e retornará um valor predito para
c. No exemplo dado,
( o classificador é definido pela função de classificação:
verde se x2 < 5
f (e) =
vermelho se x2 > 5
Assim, o classificador irá predizer a cor vermelha para exemplos desconhecidos cujo valor
de x2 for maior do que 5 e azul caso contrário.
10.0
7.5
Variável 2
5.0
2.5
0.0
0.0 2.5 5.0 7.5 10.0
Variável 1
Figura 2.2: Exemplo de classificador.
Classificadores com limites de decisão com margens pequenas são mais susceptí-
veis a overfitting e possuem menor capacidade de generalização, uma vez que uma ligeira
perturbação o limite de decisão pode ter um impacto significativo sobre o resultado da
classificação [82]. Observando a Figura 2.4, vemos que um exemplo desconhecido que
ocorra imediatamente abaixo do limite de decisão T em sua porção superior direita será
classificado como triângulo, quando na verdade este exemplo demonstra maior similari-
2.1 Classificação 21
dade com os exemplos representados pelo círculo; para o limite de decisão L, exemplos
somente serão classificados como triângulo se estiverem pelo menos abaixo da metade
do gráfico. Isto significa que, no pior caso, um exemplo classificado como triângulo pelo
limite de decisão L será mais similar aos demais exemplos triângulos de treinamento do
que no caso do limite de decisão T .
Quando o SVM trabalha sobre dados linearmente separáveis, o limite de decisão
possui representação linear, como ilustrado na Figura 2.5 para um exemplo de conjunto
de dados bidimensional. O limite de decisão é definido pela equação:
w·x+b = 0 (2-1)
2
d= (2-2)
|| w ||
o objetivo do SVM é encontrar o limite de decisão cuja margem seja a maior
2.1 Classificação 22
|| w ||2
min (2-3)
w 2
Ao trabalhar com dados linearmente não separáveis, o SVM projeta os dados do
seu espaço de coordenadas original em x para um novo espaço Φ(x) onde os exemplos
sejam separáveis por um limite de decisão linear, como mostrado na Figura 2.6. Este
processo é feito através da aplicação de uma função de transformação sobre os atributos
do conjunto de dados, como a função no exemplo abaixo [82]:
√
Φ : ℜ2 → ℜ3 (x1 , x2 ) → (z1 , z2 , z3 ) = (x12 , 2x1 x2 , x22 ) (2-4)
O limite de decisão linear no novo espaço será dado pela equação 2-1 adaptada
para os atributos transformados, ou seja: w · Φ(x) + b = 0.
Uma alternativa para o cálculo do mapeamento dos atributos transformados no
novo espaço dimensional é o uso das funções de núcleo, ou funções kernel, representadas
por K(x, y). Esta função permite expressar a similaridade entre dois exemplos no novo
espaço transformado em função do produto de ponto entre eles. A Tabela 2.1 traz alguns
exemplos de funções kernel que podem ser utilizadas com o SVM.
2.1 Classificação 23
Kernel Fórmula
Linear K(x, y) = xT y + c
Polinomial K(x, y) = (αxT + c)d
Gaussiana K(x, y) = exp(−γ || x − y ||2 )
Laplaciana K(x, y) = exp(− ||x−y||
σ )
Tabela 2.1: Exemplos de funções kernel para uso com o SVM.
Redes neurais artificiais [96] foram inspiradas no sistema cognitivo e nas funções
neurológicas do cérebro humano, simulando os neurônios e seus ligamentos, responsáveis
pelas transmissões de impulsos nervosos. Neurônios possuem os axiônios, filamentos que
conectam a outro neurônio através dos dendritos, e o ponto de conexão é chamado de
sinapse. De maneira similar, uma rede neural artificial é um modelo de classificação
composto de nós interconectados [82], comumente referidos também como perceptron.
A Figura 2.7 mostra o desenho arquitetural de um modelo perceptron. Um
perceptron é uma estrutura composta por n nós de entrada, que simulam os neurônios.
Estes nós recebem e armazenam os valores de entrada das variáveis que descrevem os
exemplos, e o conjunto destes nós de entrada formam a camada inicial do modelo. Cada
nó desta camada inicial se conecta a outro nó, disposto na camada de saída do modelo,
através de arestas que estão associadas a um valor de peso w, que simulam os axiônios e
a força da conexão da sinapse entre um nó de entrada e o nós de saída.
O nó de saída do modelo armazena a função que, utilizando os valores de entrada
fornecidos, calcula o valor de saída y do modelo, referente ao rótulo de classe. Essa função
envolve a soma ponderada dos valores recebidos pelos nós de entrada multiplicados pelo
valor de peso das arestas correspondentes. O valor de saída é computado através de uma
função de ativação, como por exemplo a função sinal na equação abaixo:
2.1 Classificação 24
!
d
y = sign ( ∑ xd wd ) − t) (2-5)
k=1
1 N
E(w) = ∑ (yi − ŷi)
2 i=1
(2-6)
ϑE(w)
wj = w j −λ (2-7)
ϑw j
onde λ é chamada taxa de descoberta. Como a atualização do valor do peso
depende do valor de saída obtido pelo classificador, para que os nós ocultos tenham
acesso a este valor, a propagação inversa é utilizada. Este procedimento adiciona uma
fase no treinamento após o cálculo do valor de saída para um determinado exemplo de
treinamento. Nesta fase adicional, o valor do erro de predição é propagado da camada
k + 1 para a camada k anterior, e os pesos dos nós nas camadas ocultas são atualizados
em ordem reversa [82]. Finalmente, podemos resumir o algoritmo de treinamento com o
método de propagação inversa nos modelos MLP nos seguintes passos [35]:
O MLP tem sido utilizado para resolver uma variedade de problemas que podem
ser categorizados em predição, aproximação de funções ou classificação de padrões [35].
Entretanto, existem alguns desafios inerentes ao uso deste classificador, como:
Árvores de decisão
Várias árvores distintas podem ser construídas para resolver um único problema
de classificação, e embora algumas árvores sejam mais precisas do que outras, encontrar
a árvore ótima é computacionalmente inviável [82]. Uma das questões mais pertinentes
a respeito do projeto de árvores de decisão e que influirá em seu desempenho de
classificação e tempo de execução é a organização dos nós, isto é, a forma com a
qual o questionamento de uma determinada variável irá particionar os dados para as
demais variáveis nos nós seguintes. Em geral, queremos que um determinado atributo
seja capaz de dividir os exemplos do conjunto de dados de maneira que exemplos de uma
determinada classe tenham a maior frequência possível do que outra. A porcentagem de
exemplos de uma mesma classe que estão alocados em uma partição está relacionada
ao grau de pureza desta partição. Quanto maior for a porcentagem de exemplos de uma
mesma classe alocados em uma partição gerada pelo questionamento de um atributo, mais
pura será esta partição.
Um dos tipos de classificadores baseados em árvores de decisão mais conhecidos
é o ID3, proposto por Quinlan [68]. O ID3 utiliza a chamada entropia condicionada como
métrica de particionamento [63]. A função de entropia, utilizada para medir o grau de
distorção da distribuição das classes C = {c1 , ..., c j }, é definida pela equação [82]:
j
H(a) = − ∑ p(ci | a)log2 p(ci | a) (2-8)
i=1
ID3 projetada para superar esta limitação [69]. O C4.5 utiliza a métrica do ganho de
informação, definido por [63]:
I(Y | X)
T G(Y | X) = , (2-10)
H(X)
sendo H(X) a entropia dos exemplos em relação ao atributo X.
A vantagem da métrica da taxa de ganho de informação empregada pelo C4.5 em
relação ao simples cálculo da entropia condicionad utilizada pelo ID3 é que a métrica da
taxa de ganho de informação desencoraja a árvore de decisão a selecionar atributos com
grandes quantidades de valores distintos possíveis. Desta forma, ao trabalharmos com
conjuntos de dados com muitos atributos que podem assumir uma grande quantidade de
valores distintos, o uso do algoritmo C4.5 é preferível.
Em suma, árvores de decisão possuem diversas vantagens. Árvores de decisão
podem ser facilmente visualizadas e interpretadas. Através da observação das regras
de decisão expostas nos caminhos da árvore, é possível gerar hipóteses a respeito da
influência individual que cada variável exerce nos resultados de classificação e seus
relacionamentos. Além disso, árvores de decisão apresentam baixo custo computacional
não apenas em sua construção, como também para a generalização de novos exemplos
[82].
Rótulos preditos
Classe
Positivo Negativo
Positivo Verdadeiro positivo (VP) Falso negativo (FN)
Negativo Falso positivo (FP) Verdadeiro negativo (VN)
Tabela 2.3: Estrutura de uma matriz de confusão gerada para um
modelo de classificação binário.
TP+TN
Accuracy(%) = × 100 (2-11)
T P + FP + FN + T N
TP
Sensitivity(%) = × 100 (2-12)
T P + FN
TN
Speci f icity(%) = × 100 (2-13)
FP + T N
alto grau de dependência com outro(s), de maneira que a informação contida poderia ser
igualmente obtida se apenas um ou menos dos atributos dependentes fossem utilizados
[16]. Atributos irrelevantes são aqueles cuja informação contida não é útil para a geração
de qualquer hipótese sobre os exemplos com respeito aos seus rótulos de classe, isto é,
o atributo é independente do rótulo de classe. Para que um atributo seja importante, ele
precisa ser independente dos demais atributos que descrevem os dados, mas não pode ser
independente dos rótulos de classe [16].
Seleção de variáveis é uma etapa de processamento dos dados da mineração de
dados que visa a identificação e remoção de atributos considerados desimportantes para o
processo de classificação. A remoção destes atributos é útil para [24, 37, 82]:
krc f
Ms = p (2-14)
k + k(k − 1)r f f
(+) (−)
(x̄i − x̄i )2 + (x̄i − x̄i )2
F(i) = n+ (+) (+) 2 n− (−) (−) 2
(2-15)
1 1
n+ −1 ∑k=1 (xk,i − x̄i ) + n− −1 ∑k=1 (xk,i − x̄i )
(+) (−)
onde x̄i , x̄i e x̄i são os valores médias do i-ésimo atributo para o conjunto de exemplos
(+)
positivos, negativos e total, respectivamente; xk,i é o valor do i-ésimo atributo do k-ésimo
(−)
exemplo positivo, e xk,i é o valor do i-ésimo atributo para o k-ésimo exemplo negativo.
Quanto maior for o valor de F-score, mais discriminativo é o atributo avaliado.
O método estatístico X 2 (chi-quadrado) visa computar o grau de dependência
entre um atributo t e o rótulo de classe c, definido pela equação [94]:
n × (AD −CB)2
X 2 (t, c) = (2-16)
(A +C) × (B + D) × (A + B) × (C + D)
Em comparação com outras pesquisas na literatura recente [72, 18, 81, 59], nosso
estudo apresenta as seguintes vantagens:
3.2 Metodologia
Se
Cr
B
As
Pb
La
Ce
Components
Zn
Co
Mn
Ca
Fe
Ba
Cu
Mo
P
K
Mg
Rb
Cd
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
F−scores
altos de precisão de 87.5%, 77.5% e 87.41%, respectivamente. Este fenômeno pode estar
associado às diferenças condições de cultivo nos dois estados. Os produtos do estado do
Rio Grande do Sul utilizam o sistema irrigado, que faz o gerencimento de irrigação para
controlar o nível de água no solo. Em Goiás, o principal sistema de cultivo é o de sequeiro.
Bingham et. al [10] mostrou que os grãos cultivados em sistema de sequeiro possuem
aproximadamente 55% a mais de Cd do que os grãos cultivos em sistema irrigado. A
disponibilidade reduzida de Cd nos solos irrigados é atribuída à precipitação de CdS [10].
O desempenho do SVM e RF tenderam a crescer conforme as variáveis melhores
avaliadas foram adicionadas ao subconjunto de variáveis de treinamento, enquanto o MLP
manteve o desempenho estável para todos os subconjuntos de variáveis utilizados. Os
melhores modelos SVM e RF obtidos descartaram as variáveis Cr e Se, e estabilizaram sua
precisão em 93.66% e 93.83%, respectivamente. O melhor modelo MLP obtido utilizou
apenas Cd e Rb como variáveis de treinamento, e atingiu precisão de 90% - um pouco
menor do que os melhores modelos SVM e RF obtidos, que empregaram 16 variáveis a
mais.
A Tabela 3.3 mostra as medidas de sensitividade e especificidade para os melho-
res modelos obtidos. O modelo SVM apresentou a melhor sensitividade (84.5%) e especi-
ficidade (100%), enquanto o modelo RF apresentou a melhor taxa de precisão (93.83%).
3.4 Conclusões
Os resultados que obtivemos provam que a classificação do arroz oriundo dos
dois estados produtores do Brasil com base em seus componentes químicos é possível e
3.4 Conclusões 41
Precisão (%)
Subconjunto Variáveis
SVM RF MLP
#1 Cd 87.50 77.50 87.41
#2 Cd, Rb 89.41 89.58 90.00
#3 Cd, Rb, Mg 90.08 93.25 86.83
#4 Cd, Rb, Mg, K 90.50 92.83 79.16
#5 Cd, Rb, Mg, K, P 90.50 87.41 84.41
#6 Cd, Rb, Mg, K, P, Mo 90.41 91.83 86.50
#7 Cd, Rb, Mg, K, P, Mo, Cu 91.33 91.16 85.91
#8 Cd, Rb, Mg, K, P, Mo, Cu, Ba 93.50 91.33 85.00
#9 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe 91.16 88.25 83.83
#10 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca 90.66 90.16 83.33
#11 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn 90.25 88.50 82.08
#12 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co 90.16 89.50 84.08
#13 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co, Zn 90.41 90.66 82.33
#14 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co, Zn, Ce 93.41 90.75 77.16
#15 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co, Zn, Ce, La 91.50 91.08 79.50
#16 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co, Zn, Ce, La, Pb 93.25 91.08 87.58
#17 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co, Zn, Ce, La, Pb, As 93.00 92.83 89.75
#18 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co, Zn, Ce, La, Pb, As, B 93.66 93.83 87.75
#19 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co, Zn, Ce, La, Pb, As, B, Cr 91.00 93.08 89.41
#20 Cd, Rb, Mg, K, P, Mo, Cu, Ba, Fe, Ca, Mn, Co, Zn, Ce, La, Pb, As, B, Cr, Se 90.08 92.50 89.58
SVM RF MLP
Subconjunto de variáveis #18 #18 #2
Precisão (%) 93.66 93.83 90.00
Sensitividade (%) 84.50 82.00 83.00
Especificidade (%) 100.00 99.50 94.00
Tabela 3.3: Medidas de desempenho para os melhores modelos
SVM, RF e MLP obtidos.
com alto desempenho, mesmo quando poucas amostras estão disponíveis para análise.
Dentre os 20 elementos químicos encontrados na composição das amostras de arroz,
o F-score mostrou que Cd, Rb, Mg e K são aqueles com maior poder discriminativo
para as amostras. Além disso, em uma primeira análise estatística, identificamos que
o arroz produzido em Goiás tende a possuir maiores concentrações de Cd, enquanto
o arroz produzido no Rio Grande do Sul geralmente possui maiores concentrações
de Rb. Procedemos então à construção dos modelos de classificação utilizando vários
subconjuntos de variáveis avaliadas pelo F-score. Os melhores modelos encontrados
foram um SVM, RF e MLP com 93.66%, 93.83% e 90% de precisão, respectivamente,
utilizando validação cruzada 10-fold repetida 10 vezes. Um fato interessante observado
foi que o componente Cd desempenha um papel importante na classificação, e este
elemento sozinho é capaz de discriminar as amostras de Goiás e do Rio Grande do Sul
com uma precisão satisfatória, embora não ótima.
Entre as contribuições deste trabalho, nós destacamos o reconhecimento da
origem geográfica do arroz, útil para fins de autenticação. Por exemplo, os produtores
podem estabelecer um certificado para a identificação do arroz produzido em uma
determinada região. A nossa análise também mostrou quais foram os elementos químicos
3.4 Conclusões 42
mais importantes pra distinguir as amostras de arroz das duas regiões. Entender o
comportamento destes componentes é também importante uma vez que serve como fonte
de informações para os produtores, ajudando-os na preservação, manutenção e garantia da
qualidade do arroz - uma questão substancial, uma vez que o arroz é o principal alimento
consumido pela população brasileira.
Este trabalho foi publicado em 2016 na revista Computers and Electronics in
Agriculture com o título "Classification of geographic origin of rice by data mining and
inductively coupled plasma mass spectrometry" [56].
CAPÍTULO 4
Diferenciação do suco de uva orgânico e
convencional
• Nós provemos uma metodologia de mineração de dados detalhada que pode ser
adaptada e utilizada para diferenciar qualquer tipo de alimmento orgânico de sua
versão convencional. Esta metodologia é útil para a verificação de autenticidade,
origem geográfica, observar o comportamento de sua composição química, entre
outras utilidades.
• Nós abordamos um problema novo e interessante, que é a classificação do suco de
uva orgânico e convencional baseado em sua composição química.
• Nós estudamos o comportamento dos elementos químicos no suco de uva orgânico
e em sua versão tradicional, identificando aqueles mais importantes para diferenciá-
los.
4.2 Metodologia
Este processo resultou em um total de 132 modelos obtidos de cada tipo, sendo:
44 modelos SVM, CART e MLP treinados com subconjuntos de variáveis avaliados
pelo F-score; 44 modelos SVM, CART e MLP treinados com subconjuntos de variáveis
avaliados pelo RFI; 44 modelos SVM, CART e MLP treinados com subconjuntos de
variáveis avaliados pelo X 2 .
K..
Sn
P.
Na.
Sm
Nd
Pr
Gd
La
Eu
Pb
Tb
Ho
Dy
V
Rb
Ce
Er
Mg.
Ba
Element
Tm
Hg
Tl
Sb
Yb
Se
Bi
Cd
Fe.
As
Lu
Mn
Ca.
U
Co
Mo
Al
Ni
Cu
Pd
Be
Cr
Zn
Ag
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65
F−score value
Na.
Sn
Co
P.
K..
Sm
Ho
Gd
La
Er
Nd
V
Tb
Ba
Dy
Fe.
Ce
Rb
Eu
Pr
Element
Mg.
Pb
Al
Tm
Zn
As
Yb
Cu
Ni
Ca.
Hg
Tl
Mn
Sb
Lu
Bi
Se
Pd
Cr
Be
Mo
Cd
U
Ag
−2.4 0.6 3.6 6.6 9.6 12.6
RFI value
Na.
Sn
K..
P.
Sm
Co
La
Ho
Nd
V
Gd
Dy
Tb
Pb
Sb
Pd
Mo
Hg
Ce
Er
Element
Lu
Tm
Yb
Pr
Eu
Mg.
Ca.
Fe.
Cu
Zn
U
Be
Bi
Ba
Ni
Rb
Se
Tl
Mn
Cd
As
Ag
Cr
Al
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90
Chi−square value
FS#43 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As, Lu, Mn, Ca, U, Co, Mo, Al, Ni, Cu, Pd, Be, Cr, Zn 70.27 86.48 81.08
FS#44 K, Sn, P, Na, Sm, Nd, Pr, Gd, La, Eu, Pb, Tb, Ho, Dy, V, Rb, Ce, Er, Mg, Ba, Tm, Hg, Tl, Sb, Yb, Se, Bi, Cd, Fe, As, Lu, Mn, Ca, U, Co, Mo, Al, Ni, Cu, Pd, Be, Cr, Zn, Ag 70.27 86.48 78.37
CHI#43 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu, Fe, Ca, Mg, Eu, Pr, Yb, Tm, Lu, Er, Ce, Hg, Mo, Pd 70.27 86.48 81.08
CHI#44 Na, Sn, K, P, Sm, Co, La, Ho, Nd, V, Gd, Pb, Tb, Dy, Al, Cr, Ag, As, Cd, Mn, Tl, Se, Rb, Ni, Ba, Bi, Be, U, Zn, Cu, Fe, Ca, Mg, Eu, Pr, Yb, Tm, Lu, Er, Ce, Hg, Mo, Pd, Sb 70.27 86.48 78.37
RFI#43 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca, Hg, Tl, Mn, Sb, Lu, Bi, Se, Pd, Cr, Be, Mo, Cd, U 70.27 86.48 81.08
RFI#44 Na, Sn, Co, P, K, Sm, Ho, Gd, La, Er, Nd, V, Tb, Ba, Dy, Fe, Ce, Rb, Eu, Pr, Mg, Pb, Al, Tm, Zn, As, Yb, Cu, Ni, Ca, Hg, Tl, Mn, Sb, Lu, Bi, Se, Pd, Cr, Be, Mo, Cd, U, Ag 70.27 86.48 81.08
Accuracy plot for F−Score subsets Accuracy plot for Chi−square subsets
90 90
89 89
88 88
CART CART
87 87
86 86
85 85
84 84
83 83
82 MLP 82 MLP
81 81
80 80
Accuracy
Accuracy
79 79
78 78
77 77
76 76
75 75
74 SVM 74 SVM
73 73
72 72
71 71
70 70
69 69
68 68
67 67
66 66
65 65
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43
Variable subsets (#) Variable subsets (#)
Accuracy plot for RFI subsets
90
89
88
CART
87
86
85
84
83
82 MLP
81
80
Accuracy
79
78
77
SVM
76
75
74
73
72
71
70
69
68
67
66
65
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43
Variable subsets (#)
As Tabelas 4.2, 4.3 e 4.4 e a Figura 4.4 mostram as precisões obtidas pelos
modelos de classificação treinados com os subconjuntos de variáveis especificados e
utilizando validação cruzada leave-one-out. É possível ver que os três modelos treinados
com apenas uma variável mostraram bons resultados de classificação: 78.37%, 72.97%
e 75.67% de precisão para o SVM, CART e MLP, respectivamente, utilizando apenas
a variável K, e 86.48% de precisão para todos os modelos quando utilizando apenas a
variável Na.
O modelo CART apresentou desempenho de predição semelhante para todos os
subconjuntos de variáveis obtidos de acordo com os três métodos de seleção de variáveis,
com precisão mínima de 72.97% utilizando o subconjunto FS#1 e máxima de 86.48%
para todos os demais subconjuntos usados, exceto FS#2 e FS#3. Isto significa que, na
prática, a adição de novas variáveis (ainda que bem avaliadas) na fase de treinamento
deste modelo não afeta o seu desempenho. A Figura 4.5 ajuda a entender o porquê.
4.3 Resultados obtidos 54
Todos os modelos CART, exceto os que foram treinados com FS#1-FS#3, geram
a árvore mostrada na Figura 4.5. De acordo com esta árvore, a tomada de decisão do
modelo para predizer o tipo de suco da amostra é feita consultando apenas o valor da
variável Na. Desta forma, todos os subconjuntos possíveis de variáveis que incluam Na
gerarão modelos CART que apresentação os mesmos resultados. Como os subconjuntos
FS#1-FS#3 não possuem esta variável, mostraram precisão diferente. De acordo com a
regra de decisão exposta, dada uma amostra arbitrária de suco de uva, se a concentração de
Na for maior ou igual a 56.7 µg/g, então a amostra é do tipo convencional. Caso contrário,
a amostra é do tipo orgânico. O modelo classifica 38% das amostras como convencionais
(a porcentagem correta é 49%) e 62% como orgânicas (a porcentagem correta é 51%).
Assim, provamos que o modelo CART é eficiente e produz poucos erros para diferenciar
o suco de uva orgânico do convencional utilizando apenas o valor da concentração de
sódio da amostra como variável de atributo.
O comportamento do modelo SVM é um pouco mais interessante pois alterações
no desempenho são observadas conforme variáveis com notas ruins são adicionadas ao
treinamento. Para os subconjuntos obtidos pelo F-score, a precisão do SVM se inicia
em 78.37% quando a melhor variável é utilizada, e gradativamente aumenta conforme
novas variáveis com boa avaliação são adicionadas. O modelo atinge precisão máxima,
89.18%, quando o subconjunto com as seis melhores variáveis é utilizado, e então este
valor começa a cair gradativamente conforme adicionamos as 22 variáveis restantes. O
mesmo fenômeno ocorre para os subconjuntos gerados pelo X 2 e RFI: o SVM atinge
seus melhores resultados até os subconjuntos CHI#24 e RFI#29 serem utilizados, e então
seu desempenho começa a cair conforme as demais variáveis são contempladas na fase
de treinamento. Através desta observação, concluímos que as variáveis que receberam as
menores notas de F-score, X 2 e RFI não são apenas inúteis, como também prejudiciais
ao desempenho dos modelos. Assim, podemos considerar que apenas as 6 melhores
variáveis de acordo com o F-score, as 24 melhores variáveis de acordo com X 2 e as 29
melhores variáveis de acordo com o RFI são boas candidatas ao treinamento dos modelos
de classificação. As variáveis comuns nestes três conjuntos são K, Sn, P, Na, Sm e Nd.
A Tabela 4.5 mostra as medidas de sensitividade e especificidade computadas
4.4 Conclusões 55
para os melhores modelos SVM, CART e MLP obtidos. Para os modelos que obtiveram
a mesma precisão para diferentes subconjuntos de variáveis, consideramos como modelo
ótimo aquele que utilizou a menor quantidade de variáveis. De maneira geral, o melhor
modelo produzido foi o SVM treinado com o subconjunto FS#6 (K, Sn, P, Na, Sm, Nd),
apresentando precisão de 89.18%.
4.4 Conclusões
Neste trabalho, apresentamos um estudo de mineração de dados do suco de
uva orgânico. Desenvolvemos modelos de classificação capazes de diferenciar o suco
de uva orgânico do suco de uva convencional baseado em seus componentes químicos.
Nós também detalhamos quais destes componentes eram os mais importantes para a
classificação.
Nossos resultados mostram que, de acordo com os métodos de seleção de
variáveis utilizados, os componentes Na, Sn, P, K, Sm e Nd são os mais importantes
para diferenciar o suco de uva convencional do orgânico, especialmente Na, Sn e K. De
fato, a concentração de Na é consideravelmente maior nas amostras de suco convencional,
enquanto o suco orgânico mostrou maiores concentrações de K e Sn. Além disso, todos os
métodos de seleção de variáveis abordados indicaram que Ag, Zn, Cr, Be e Pd estão entre
os componentes menos importantes para a diferenciação das amostras, e outros elementos,
como Sb, Mo, Hg, Ce, Er, Lu, Tm, Yb, Pr, Eu, Mg, Ca, Fe, Cu, U, Bi, Ba, Ni, Rb, Se, Tl,
Mn, Cd, As e Al também foram considerados com pouco poder discriminativo.
A importância do sódio na diferenciação dos dois tipos de suco é corroborada
pelos modelos CART obtidos. Estes modelos utilizaram apenas os valores de concentra-
ção de Na como base para predizer o tipo de suco de uma amostra arbitrária. Assim, todos
os modelos CART apresentaram medidas de desempenho iguais (86.48% de precisão)
para todos os subconjuntos de variáveis que incluíram este elemento. O desempenho do
SVM aumentou gradativamente conforme variáveis bem avaliadas pelos seletores foram
adicionadas à fase de treinamento, para então cair gradativamente conforme as variáveis
consideradas menos importantes foram adicionadas. Finalmente, nossos melhores mode-
los obtidos foram: um SVM com 89.18% de precisão treinado com as variáveis K, Sn, P,
4.4 Conclusões 56
Na, Sm e Nd, e um CART e MLP com 86.48% de precisão utilizando apenas Na como
variável.
Para trabalhos futuros, nós esperamos que algumas limitações enfrentadas neste
projeto sejam abordadas. Por exemplo, nosso conjunto de dados é relativamente pequeno,
possuindo apenas 37 amostras no total, e um maior número de amostras para treinamento
e teste pode gerar modelos de classificação mais precisos. Além disso, nesse estudo, nós
trabalhamos com amostras de suco de uva obtidas apenas no Brasil. Seria interessante
que a análise fosse expandida para incluir amostras de diferentes países, com diferentes
sistemas de cultivo e produção. Um modelo de classificação poderia ser desenvolvido para
diferenciar o suco de uva produzido em diferentes países de maneira a certificar a sua
origem geográfica, ou visualizar a diferença no comportamento da composição mineral
do suco de uva produzido em diferentes culturas e condições climáticas.
O trabalho foi publicado em 2016 na revista Expert Systems with Applications
com o título ”Comparative study of data mining techniques for the authentication of
organic grape juice based on ICP-MS analysis” [57].
CAPÍTULO 5
Diferenciação do chocolate orgânico e
convencional
5.2 Metodologia
original, o desempenho medido para os modelos treinados com apenas 6 variáveis ainda
é satisfatório. O modelo SVM treinado com o subconjunto de variáveis alcançou 91.67%
de precisão e 100% de sensitividade. Estes resultados comprovam que os elementos Ce,
Tm, Fe, Er, Ge e Lu são extremamente relevantes para a diferenciação das amostras
de chocolate orgânica das amostras de chocolate convencional, e são capazes de gerar
modelos de classificação com alto desempenho de predição.
5.4 Conclusões
Este trabalho apresentou um estudo dos elementos tóxicos e essenciais no
chocolate orgânico e convencional através de mineração de dados aliada a ICP-MS, além
de propor modelos de classificação capazes de diferenciar os dois tipos de chocolate com
alta precisão. Alumínio foi o elemento encontrado em maiores níveis de concentração,
especialmente nas amostras de chocolate convencional. Altas concentrações de ferro,
zinco e manganês, contrariando a crença de que alimentos orgânicos são ricos em
elementos essenciais. Em contrapartida, altas concentrações de elementos terras raras
foram observadas nas amostras de chocolate convencional em comparação ao observado
nas amostras de chocolate orgânico.
O método filtro de seleção de variáveis CFS combinado ao coeficiente X 2 e F-
score concluíram que Ce, Tm, Fe, Er, Ge e Lu são os elementos mais relevantes para
a diferenciação das amostras dos dois tipos de chocolate. O modelo SVM treinado com
este subconjunto de variáveis apresentou 91.67% de precisão e 100% de sensitividade
(capacidade de predição perfeita para amostras de chocolate convencional). Esses resul-
tados provam que estes seis elementos são extremamente relevantes para a diferenciação
do chocolate orgânico e convencional e conseguem gerar modelos de classificação de alta
precisão. O desempenho de predição é aprimorado, tanto no SVM quanto no MLP, quando
todas as variáveis do conjunto de dados original são utilizadas em seu treinamento. O me-
lhor modelo encontrado foi o SVM treinado com todas as variáveis do conjunto de dados
original, apresentando 95.83% de precisão de classificação e 100% de sensitividade.
5.4 Conclusões 65
Sb Al
Ce
Sm Yb
Tm
Al Pr
Fe
Th Th
Pr
La Lu
Yb
Er Er
Ge
V Tm
Tb
Nd Nd
Lu
Ho Ce
Element
Element
Gd La
U
Dy Ge
Sc
Eu Ho
Sn
Nb Gd
Mo
Mg Fe
Zn
Tl Tb
Se
Pb Dy
Ni
Mn V
Cu
Co U
Cd
Be Sb
Ba Sm
As
0.0 0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6
Chi−square value F−score value
(a) Coeficiente X2 calculado para cada elemento (b) Medida de F-score calculada para os ele-
químico nas amostras de chocolate. mentos químicos nas amostras de chocolate
que atingiram um valor de X 2 maior do que
0.
Figura 5.2: Importância relativa das variáveis de acordo com o
coeficiente X 2 e o F-score.
CAPÍTULO 6
Diferenciação de amostras de ecstasy
apreendidas em Ribeirão Preto e Campinas
6.2 Metodologia
F-score, para N = {1, 2, ..., 25}. O subconjunto #1 possui a variável melhor avaliada,
subconjunto #2 possui as duas variáveis melhores avaliadas e assim sucessivamente. O
último subconjunto, #25, contém todas as variáveis do conjunto original.
A Tabela 6.2 mostra os subconjuntos de variáveis gerados juntamente com a
precisão obtida pelo modelo SVM desenvolvido utilizando validação cruzada leave-one-
out. O modelo atinge a sua precisão máxima, 81.58%, quando o subconjunto formado
pelas três melhores variáveis identificadas pelo F-score (isto é, Se, Mo e Mg) é utilizado.
Isto prova que os três elementos que receberam maiores notas de F-score são de fato
importantes para a diferenciação, gerando um modelo de classificação de alto desempenho
sem a necessidade de considerar os demais elementos encontrados. Este valor de precisão
é mantido conforme mais variáveis são adicionadas na fase de treinamento. Uma queda
na precisão ocorre quando a décima quarta variável melhor colocada, Ca, é adicionada
no treinamento do modelo (modelo #14). Os modelos #14, #15, #16, #17, #18, #19 e
#20 tem a precisão estabilizada em 78.95%. Outra queda ocorre quando a variável Tl é
adicionada no treinamento do modelo, e a precisão dos modelos #21, #22, #23, #24 e #25
6.3 Resultados obtidos 70
Se
Mo
Mg
U
As
Bi
Pb
Sb
Er
Element La
Ni
Te
Lu
Ca
Ce
Cu
Zn
Cs
Nd
Rb
Tl
Co
Ba
Mn
Cd
0.00 0.05 0.10 0.15 0.20
F−score value
Figura 6.1: Importância relativa das variáveis de acordo com suas
notas de F-score calculadas.
é estabilizada em 76.32%.
Dessa forma, podemos observar que o desempenho do SVM é aprimorado e
mantido em sua melhor precisão quando as 13 melhores variáveis avaliadas de acordo
com o F-score são utilizadas na fase de treinamento, e então é prejudicado quando as
variáveis menos importantes são contempladas.
Para obtermos informações mais detalhadas a respeito dos modelos que atingi-
ram a precisão máxima e identificarmos aquele que de fato pode ser considerado como
de melhor desempenho, calculamos as medidas de desempenho de sensitividade e es-
pecificidade. Os resultados, juntamente com os valores de parâmetros configurados para
os modelos #3-#13, estão dispostos na Tabela 6.3. Podemos observar através da tabela
que, apesar dos onze modelos apresentarem valores idênticos de precisão, as medidas de
sensitividade e especificidade são melhores e idênticos para os modelos #3-#8.
Isso prova a importância das três variáveis avaliadas como mais significativas
pelo F-score, Se, Mo e Mg. Estas três variáveis sozinhas geraram o modelo SVM
com os melhores valores de precisão (81.58%), sensitividade (95.24%) e especificidade
(64.71%). Estas medidas de desempenho permanecem inalteradas quando o modelo
adiciona as variáveis U, As, Bi, Pb, Sb e Er em seu treinamento. Isto significa que estas
variáveis não possuem de fato qualquer poder de discriminação sobre as amostras de
ecstasy com respeito ao seu local de apreensão, não aprimorando e nem prejudicando o
desempenho do modelo de classificação, podendo ser descartadas da análise para fins de
6.4 Conclusões 71
simplificação. Por outro lado, as variáveis La, Ni, Te, Lu, Ca, Ce, Cu, Zn, Cs, Nd, Rb,
Tl, Co, Ba, Mn e Cd, que receberam valores menores de F-score, mostraram-se de fato
prejudiciais ao desempenho do modelo, causando queda na precisão, sensitividade e/ou
especificidade.
Desta forma, concluimos que o melhor modelo SVM obtido foi o modelo #3, e
que os elementos químicos utilizados em seu treinamento, Se, Mo e Mg, são de fato os
mais significativos para diferenciar as amostras de ecstasy com respeito à cidade em que
foram apreendidas.
6.4 Conclusões
Neste trabalho, trazemos uma aplicação da metodologia proposta de técnicas de
mineração de dados aliada a ICP-MS na área forense. Amostras de tabletes de ecstasy
foram obtidas de dois sítios de apreensão no estado de São Paulo (Brasil), estando um na
cidade de Campinas e outro na cidade de Ribeirão Preto. Utilizamos ICP-MS para obter
a caracterização química de cada amostra, e 25 elementos foram encontrados: Se, Mg,
Er, Zn, Ni, Lu, Mo, As, U, La, Cu, Ce, Ba, Co, Nd, Te, Rb, Cs, Bi, Ca, Sb, Pb, Tl, Mn e
Cd. Os elementos químicos Mg, Ca e Zn são os mais presentes na composição química
dos tabletes de ecstasy apreendidos em ambas as cidades, enquanto os elementos menos
presentes são Tl, Er, Cd, Cs e Te. As amostras de ecstasy apreendidas em Ribeirão Preto
apresentam maiores concentrações de Mg e Pb em relação às amostras apreendidas em
6.4 Conclusões 72
Campinas, que por sua vez apresentam concentrações relativamente maiores de Ca, Cu e
Zn.
O método filtro de seleção de variáveis F-score foi computado para todas as
variáveis. As variáveis Se, Mo e Mg não apenas receberam os maiores valores, como
também receberam valores muito maiores do que as demais variáveis. O próximo passo
foi gerar os subconuntos de variáveis a serem utilizados no treinamento do modelo de
classificação, totalizando 25 subconjuntos diferentes e, automaticamente, 25 modelos
de classificação do tipo SVM distintos que foram treinados. Todos os modelos SVM
construídos utilizaram a função kernel gaussiana (RBF).
O melhor modelo SVM obtido foi o modelo #3, treinado com as variáveis Se,
Mo e Mg, de fato as que receberam as melhores notas de F-score. Este modelo apresentou
81.58% de precisão, 95.24% de sensitividade e 64.71% de especificidade. Isto prova que
estes elementos químicos são de fato os mais significativos para diferenciar as amostras
de ecstasy com respeito à cidade em que foram apreendidas. Por outro lado, as variáveis
La, Ni, Te, Lu, Ca, Ce, Cu, Zn, Cs, Nd, Rb, Tl, Co, Ba, Mn e Cd, que de fato receberam
valores menores de F-score, mostraram-se de fato prejudiciais ao desempenho do modelo,
causando queda na precisão, sensitividade e/ou especificidade.
Este trabalho está sendo preparado para submissão e recebeu apoio financeiros
da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) e do Conselho
Nacional de Desenvolvimento Científico e Tecnológico (CNPq).
CAPÍTULO 7
Considerações finais
Os resultados obtidos nos estudos mostrados neste trabalho provam que as técni-
cas de mineração de dados aliadas a ICP-MS é uma metodologia de sucesso para o estudo
de substâncias. O estudo de substâncias com base em sua composição química provê uma
variedade de informações úteis, como as citadas neste trabalho: reconhecimento geográ-
fico, classificação do tipo de um determinado alimento ou substância, identificar catego-
rias de produtos, autenticação de um determinado produto, entre outros.
Neste trabalho, apresentamos quatro aplicações distintas desta metodologia, que
incluem: reconhecimento geográfico do arroz branco brasileiro produzido nos estados
do Rio Grande do Sul e Goiás; diferenciação do suco de uva brasileiro orgânico do
convencional; diferenciação do chocolate brasileiro orgânico do convencional e análise
de seus elementos tóxicos e essenciais; reconhecimento da origem do ecstasy entre duas
cidades de apreensão do estado de São Paulo. Em todas estas aplicações, os modelos de
classificação obtidos apresentaram alto desempenho, com precisões computadas acima
de 85%. Os algoritmos de seleção de variáveis também se mostraram importantes para
identificar os elementos químicos mais importantes na diferenciação das amostras, e
também os menos relevantes.
Nossa metodologia é pioneira na certificação de alimentos orgânicos. Embora
tenhamos focado no suco de uva e no chocolate, a metodologia proposta pode ser adaptada
e utilizada na diferenciação de qualquer tipo de alimento orgânico, ou mesmo outras
substâncias, como produtos cosméticos, perfumes, remédios, drogas e outros.
Referências Bibliográficas
[1] A BDEL -H ALEEM , A. S.; S ROOR , A.; E L -B AHI , S. M.; Z OHNY, E. Heavy metals
and rare earth elements in phosphate fertilizer components using instrumental
neutron activation analysis. Applied Radiation and Isotopes, 55(4):569–573, 2001.
[2] A DEYEMI , J. A.; A DEDIRE , C. O.; PAULELLI , A. C.; J R , A. C. M.; I LEKE , K. D.; J R ,
F. B. Levels and daily intake of lead (pb) and six essential elements in gari
samples from ondo state, southwest nigeria: A potential risk factor of health
status. Journal of Food Composition and Analysis, 2015.
[3] A LCÁZAR , Á.; J URADO, J. M.; PALACIOS -M ORILLO, A.; DE PABLOS , F.; M ARTÍN ,
M. J. Recognition of the geographical origin of beer based on support vector
machines applied to chemical descriptors. Food Control, 23(1):258 – 262, 2012.
[4] B ALBOA -C ASTILLO, T.; L ÓPEZ -G ARCÍA , E.; L EÓN -M UÑOZ , L. M.; P ÉREZ -
TASIGCHANA , R. F.; B ANEGAS , J. R.; R ODRÍGUEZ -A RTALEJO, F.; P., G.-C. Cho-
colate and health-related quality of life: a prospective study. PLoS One,
10:e0123161, 4 2015.
[5] B ARBOSA , R. M.; B ATISTA , B. L.; B ARIÃO, C. V.; VARRIQUE , R. M.; C OELHO,
V. A.; C AMPIGLIA , A. D.; B ARBOSA , F. A simple and practical control of the
authenticity of organic sugarcane samples based on the use of machine-
learning algorithms and trace elements determination by inductively coupled
plasma mass spectrometry. Food Chemistry, 184:154–159, 10 2015.
[6] B ARBOSA , R. M.; B ATISTA , B. L.; VARRIQUE , R. M.; C OELHO, V. A.; C AMPIGLIA ,
A. D.; B ARBOSA , F. The use of advanced chemometric techniques and trace
element levels for controlling the authenticity of organic coffee. Food Research
International, 61:246–251, 7 2014.
[7] B ARBOSA , R. M.; N ACANO, L. R.; F REITAS , R.; B ATISTA , B. L.; B ARBOSA , F. The
use of decision trees and naïve bayes algorithms and trace element patterns
for controlling the authenticity of free- range-pastured hens’ eggs. Journal of
Food Science, 79:C1672–C1677, 2014.
Referências Bibliográficas 75
[9] B ATISTA , B.; S OUZA , V. D. O.; S ILVA , F. D.; B ARBOSA , F. J. Survey of 13 trace
elements of toxic and nutritional significance in rice from brazil and exposure
assessment. Food Additives & Contaminants: Part B, 3(4):253–262, 2010.
[10] B INGHAM , F.; PAGE , A.; M AHLER , R.; G ANJE , T. Cadmium availability to rice in
sludge-amended soil under ”flood” and ”nonflood” culture. Soil Science Society
of America Journal, 50:715–719, 1976.
[12] B REIMAN , L.; F RIEDMAN , J.; O LSHEN , R.; S TONE , C. Classification and Regres-
sion Trees. Wadsworth and Brooks, Monterey, CA, 1984.
[13] B ROWN , S. D.; M ELTON , T. C. Trends in bioanalytical methods for the determi-
nation and quantification of club drugs: 2000-2010. Biomedical Chromatography,
25:300–321, 2011.
[15] C EBALLOS -M AGAÑA , S. G.; J URADO, J. M.; M UÑIZ -VALENCIA , R.; A LCÁZAR , A.;
DE PABLOS , F.; M ARTÍN , M. J. Geographical authentication of tequila according
to its mineral content by means of support vector machines. Food Analytical
Methods, 5(2):260–265, 2012.
[19] C HEN , Y.-W.; L IN , C.-J. Combining svms with various feature selection strate-
gies. In: Feature Extraction, volume 207 de Studies in Fuzziness and Soft Com-
puting, p. 315–324. Springer Berlin Heidelberg, 2006.
[20] C OMMENT, S.; L OCK , E.; Z INGG , C.; J AKOB , A. The analysis of ecstasy tablets by
icp-ms and icp/aes. Problems of Forensic Sciences, 46:131–146, 2001.
[23] DAHIYA , S.; K ARPE , R.; H EGDE , A. G.; S HARMA , R. M. Lead, cadmium and nickel
in chocolate and candies from suburban area of mumbai. Indian Journal of Food
Composition and Analysis, 18:517–522, 2005.
[24] DASH , M.; L IU, H. Feature selection for classification. Intelligent Data Analysis,
1(1-4):131–156, 1997.
[25] D E A RAUJO, Q. R.; G ATTWARD, J. N.; A LMOOSAWI , S.; C OSTA S ILVA , M. D.;
DANTAS , P. A.; JÃ O NIOR , Q. R. Cacao and human health: from head to foot -
a review. Critical Reviews in Food Science and Nutrition, 8 2013.
[27] D ELEN , D.; C OGDELL , D.; K ASAP, N. A comparative analysis of data mining
methods in predicting {NCAA} bowl outcomes. International Journal of Forecas-
ting, 28(2):543 – 552, 2012.
[28] D ELEN , D.; WALKER , G.; K ADAM , A. Predicting breast cancer survivability: a
comparison of three data mining methods. Artificial Intelligence in Medicine,
34(2):113 – 127, 2005.
[29] D JOUSSÉ , L.; H OPKINS , P. N.; N ORTH , K. E.; PANKOW, J. S.; A RNETT, D. K.;
E LLISON , R. C. Chocolate consumption is inversely associated with prevalent
coronary heart disease: the national heart, lung, and blood institute family heart
study. Clinical Nutrition, 30:182–187, 4 2011.
[30] D UDA , R. O.; H ART, P. E.; S TORK , D. G. Pattern Classification (2Nd Edition).
Wiley-Interscience, 2000.
Referências Bibliográficas 77
[31] E LKAN , C.; N OTO, K. Learning classifiers from only positive and unlabeled data.
In: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining, KDD ’08, p. 213–220, New York, NY, USA, 2008. ACM.
[33] F IERRO, I.; D EBAN , L.; PARDO, R.; TASCÓN , M.; VÁZQUEZ , D. Analysis of heavy
metals in ecstasy tablets by electrochemical methods. Toxicological and Environ-
mental Chemistry, 89:411–419, 2007.
[34] F RENCH , H. E.; W ENT, M. J.; G IBSON , S. J. Artificial neural networks (the
multilayer perceptron) - a review of applications in the atmospheric sciences.
Forensic Science International, 231:88–91, 2013.
[35] G ARDNER , M.; D ORLING , S. Artificial neural networks (the multilayer perceptron)
- a review of applications in the atmospheric sciences. Atmospheric Environment,
32(14-15):2627–2636, 1998.
[36] G REENBERG , J. A. Chocolate intake and diabetes risk. Clinical Nutrition, 34:129–
133, 2 2014.
[38] H ALL , M. A. Correlation-based feature selection for discrete and numeric class
machine learning. In: Proceedings of the Seventeenth International Conference on
Machine Learning, ICML ’00, p. 359–366, San Francisco, CA, USA, 2000. Morgan
Kaufmann Publishers Inc.
[40] H IRANO, S.; S UZUKI , K. T. Exposure, metabolism, and toxicity of rare earths and
related compounds. Environmental Health Perspective, 104(1):85–95, 1996.
[41] H UGHNER , R. S.; M C D ONAGH , P.; P ROTHERO, A.; S HULTZ , C. J.; S TANTON , J. Who
are organic food consumers? a compilation and review of why people purchase
organic food. Journal of Consumer Behaviour, 6:1–17, 2007.
[43] I EGGLI , C. V. S.; B OHRER , D.; N ASCIMENTO, P. C.; C ARVALHO, L. M.; G OBO, L. A.
Determination of aluminum, copper and manganese content in chocolate sam-
ples by graphite furnace atomic absorption spectrometry using a microemul-
sion technique. Journal of Food Composition and Analyses, 24:465–468, 2011.
[45] J AISHANKAR , M.; T SETEN , T.; A NBALAGAN , N.; M ATHEW, B. B.; B EEREGOWDA ,
K. N. Toxicity, mechanism and health effects of some heavy metals. Interdisci-
plinary Toxicology, 7:60–72, 2014.
[46] J IAO, W.; C HEN , W.; C HANG , A.; PAGE , A. Environmental risks of trace elements
associated with long-term phosphate fertilizers applications: a review. Environ-
mental Pollution, 168:44–53, 2015.
[47] J ORDAN , M. I.; T HIBAUX , R. Cs281b/stat241b: Advanced topics in learning & de-
cision making - the kernel trick. http://www.cs.berkeley.edu/ jordan/courses/281B-
spring04/lectures/lec3.pdf, 2004.
[48] K HANMOHAMMADI , M.; K ARAMI , F.; M IR -M ARQUÉS , A.; G ARMARUDI , A. B.; G ARRI -
GUES , S.; DE LA G UARDIA , M. Classification of persimmon fruit origin by near
infrared spectrometry and least squares-support vector machines. Journal of
Food Engineering, 62:17–22, 2014.
[49] K LEVAY, L. M. Copper in chocolate may improve health. Clinical Nutrition, 31:149,
2012.
[50] K LOUBERT, V.; R INK , L. Zinc as a micronutrient and its preventive role of
oxidative damage in cells. Food and Function, 6:3195–3204, 2015.
[52] KOPER , C.; VAN DEN B OOM , C.; W IARDA , W.; S CHRADER , M.; DE J O -
ODE , P.; VAN DER P EIJIL , G.; B OLCK , A. Elemental analysis of 3,4-
methylenedioxymethamphetamine (mdma): a tool to determine the synthesis
method and trace links. Forensic Science International, 171:171–179, 2007.
[53] K UHN , M. caret: Classification and Regression Training, 2015. R package version
6.0-47.
Referências Bibliográficas 79
[55] L IU, C.; YANG , S. X.; D ENG , L. Determination of internal qualities of newhall
navel oranges based on nir spectroscopy using machine learning. Journal of
Food Engineering, 161:16–23, 2015.
[56] M AIONE , C.; B ATISTA , B. L.; C AMPIGLIA , A. D.; J R , F. B.; B ARBOSA , R. M. Clas-
sification of geographic origin of rice by data mining and inductively coupled
plasma mass spectrometry. Computers and Electronics in Agriculture, 121:101 –
107, 2016.
[57] M AIONE , C.; DE PAULA , E. S.; G ALLIMBERTI , M.; B ATISTA , B. L.; C AMPIGLIA , A. D.;
J R , F. B.; B ARBOSA , R. M. Comparative study of data mining techniques for the
authentication of organic grape juice based on icp-ms analysis. Expert Systems
with Applications, 49:60–73, 2016.
[59] M ARINI , F.; Z UPAN , J.; M AGRÌ , A. L. On the use of counterpropagation artificial
neural networks to characterize italian rice varieties. Analytica Chimica Acta,
510(2):231–240, 2004.
[61] M ORELATO, M.; B EAVIS , A.; TAHTOUH , M.; R IBAUX , O.; K IRKBRIDE , P.; R OUX , C.
The use of forensic case data in intelligence-led policing: The example of drug
profiling. Forensic Science International, 226:1–9, 2013.
[62] N ARDI , E. P.; E VANGELISTA , F. S.; TORMEN , L.; S AINT ’P IERRE , T. D.; C URTIUS ,
A. J.; DE S OUZA , S. S.; J R , F. B. The use of inductively coupled plasma mass
spectrometry (icp-ms) for the determination of toxic and essential elements in
different types of food samples. Food Chemistry, 112(3):727–732, 2009.
[63] N AVADA , A.; A NSARI , A.; PATIL , S.; S ONKAMBLE , B. Overview of use of decision
tree algorithms in machine learning. In: Control and System Graduate Research
Colloquium (ICSGRC), 2011 IEEE, p. 37–42, June 2011.
Referências Bibliográficas 80
[64] N IGAM , K.; M CCALLUM , A. K.; T HRUN , S.; M ITCHELL , T. Text classification from
labeled and unlabeled documents using em. Machine Learning, 39(2):103–134,
2000.
[65] PATRICK , L. Toxic metals and antioxidants: Part ii. the role of antioxidants in
arsenic and cadmium toxicity. Alternative Medicine Review, 8:106–128, 2003.
[67] P OLAT, K.; G ÜNE Ş , S. Breast cancer diagnosis using least square support
vector machine. Digital Signal Processing, 17(4):694 – 701, 2007.
[71] S ÁEZ , J. A.; L UENGO, J.; S TEFANOWSKI , J.; H ERRERA , F. Smote-ipf: Addressing
the noisy and borderline examples problem in imbalanced classification by a
re-sampling method with filtering. Information Sciences, 291:184–203, 2015.
[72] S ARUTA , K.; H IRAI , Y.; TANAKA , K.; I NOUE , E.; O KAYASU, T.; M ITSUOKA , M. Pre-
dictive models for yield and protein content of brown rice using support vector
machine. Computers and Electronics in Agriculture, 99:93–100, 2013.
[73] S CHÄFFER , M. AND D IECKMANN , S.; P ÜTZ , M.; KOHLES , T.; P YELL , U.; Z IMMER -
MANN , R. Impact of reaction parameters on the chemical profile of 3,4-
methylenedioxymethamphetamine synthesized via reductive amination: target
analysis based on gc-qms compared to non-targeted analysis based on gc×gc-
tof-ms. Forensic Science International, 233:201–211, 2013.
[74] S CHNEIDER , K.-M. A comparison of event models for naive bayes anti-spam
e-mail filtering. In: Proceedings of the Tenth Conference on European Chapter
of the Association for Computational Linguistics - Volume 1, EACL ’03, p. 307–314,
Stroudsburg, PA, USA, 2003. Association for Computational Linguistics.
[75] S EPE , A.; C OSTANTINI , S.; C IARALLI , L.; C IPROTTI , M.; G IORDANO, R. Evalua-
tion of aluminium concentrations in samples of chocolate and beverages by
electrothermal atomic absorption spectrometry. Food Additives & Contaminants,
18:788–796, 2001.
Referências Bibliográficas 81
[76] S HAMSHUDDIN , J.; M UHRIZAL , S.; FAUZIAH , I.; H USNI , M. H. A. Effects of adding
organic materials to an acid sulfate soil on the growth of cocoa (theobroma
cacao l.) seedlings. Science of the Total Environment, 323:33–45, 2004.
[77] S ING , T.; S ANDER , O.; B EERENWINKEL , N.; L ENGAUER , T. Rocr: visualizing
classifier performance in r. Bioinformatics, 21(20):78–81, 2005.
[78] S INGH , R.; S INGH , S.; PARIHAR , P.; S INGH , V. P.; P RASAD, S. M. Arsenic conta-
mination, consequences and remediation techniques: a review. Ecotoxicology
Environmental Safety, 112:247–270, 2015.
[79] S OLTANI , M.; O MID, M. Detection of poultry egg freshness by dielectric spec-
troscopy and machine learning techniques. LWT - Food Science and Technology,
62:1034–1042, 2015.
[81] S UZUKI , Y.; C HIKARAISHI , Y.; O GAWA , N. O.; O HKOUCHI , N.; KORENAGA , T. Geo-
graphical origin of polished rice based on multiple element and stable isotope
analyses. Food Chemistry, 109(2):470–475, 2008.
[82] TAN , P.-N.; S TEINBACH , M.; K UMAR , V. Introduction to Data Mining, (First
Edition). Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 2005.
[83] TONG , S.; KOLLER , D. Support vector machine active learning with applications
to text classification. Journal of Machine Learning Research, 2:45–66, 2002.
[84] T RUMBO, P.; YATES , A. A.; S CHLICKER , S.; P OOS , M. Dietary reference intakes.
Journal of the Academy of Nutrition and Dietetics, 101(3):294–301, 2001.
[86] T URRA , C.; F ERNANDES , E. A. D. N.; B ACCHI , M. A.; S ARRIÉS , G. A.; J ÚNIOR ,
F. B.; R EYES , A. E. L. Rare earth elements in citrus production systems. Journal
of Plant Nutrition, 36(5):762–771, 2013.
[87] VARMA , S.; S IMON , R. Bias in error estimation when using cross-validation for
model selection. BMC Bioinformatics, 7(91), 2006.
Referências Bibliográficas 82
[88] V ILLA , J. E. L.; P EIXOTO, R. R. A.; S., C. Cadmium and lead in chocolates
commercialized in brazil. Journal of Agricultural and Food Chemistry, 62:8759–
8763, 8 2014.
[89] V ISIOLI , F.; B ERNAERT, H.; C ORTI , R.; F ERRI , C.; H EPTINSTALL , S.; M OLINARI ,
E.; P OLI , A.; S ERAFINI , M.; S MIT, H. J.; V INSON , J. A.; V IOLI , F.; PAOLETTI , R.
Chocolate, lifestyle, and health. Critical Reviews in Food Science and Nutrition,
49:299–312, 2009.
[92] W ITTEN , I. H.; F RANK , E.; H ALL , M. A. Data Mining: Practical Machine Learning
Tools and Techniques. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA,
3rd edition, 2011.
[93] W OLF, R. E. What is icp-ms? ...and more importantly, what can it do?, 2005.
[95] YANUS , R.; S ELA , H.; B OROJOVICH , E. J. C.; Z AKON , Y.; S APHIER , M.; N IKOLSKI ,
A.; G UTFLAIS , E.; L ORBER , A.; K ARPAS , Z. Trace elements in cocoa solids and
chocolate: An icpms study. Talanta, 119:1–4, 2 2014.
[96] Z HANG , G. Neural networks for classification: a survey. Systems, Man, and
Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, 30(4):451–
462, 2000.