Você está na página 1de 18

Universidade Federal de São Carlos

Departamento de Química - Programa de Pós-Graduação em Química

Dia/Ano: 16 de Julho, 2020


Avaliação da disciplina Quimiometria II (Prof. Dr. Renato Lajarim Carneiro).
Aluno: Rodolfo Cesar Rodrigues Filho (Mestrado Profissional).

1) Sobre análise de agrupamentos (HCA, PCA, KNN e SIMCA):


Indique o título e o resumo do seu projeto de mestrado ou doutorado
e faça um outro resumo indicando como você poderia utilizar o PCA em
seu projeto/linha de pesquisa.

Projeto Mestrado Profissional: Rodolfo Cesar Rodrigues Filho


Orientador: Prof. Dr. Renato Lajarim Carneiro
Título do projeto de mestrado profissional: Development of a new protocol of
multivariate models for IR technology in PepsiCo

A PepsiCo é uma empresa multinacional estadunidense dedicada à fabricação,


comercialização e distribuição de bebidas e aperitivos. Possui diversas sedes de
manufatura, distribuição e centro de pesquisa & desenvolvimento ao redor do mundo. Sua
fundação ocorreu em 1965, a partir da fusão da Pepsi-Cola Company (dedicada
exclusivamente para bebidas) e da Frito-Lay (exclusivamente para aperitivos).
Ao longo dos anos, a companhia tem ampliado seu portfólio com aquisições de
companhias do mesmo setor em diversos países do mundo, com objetivo de ampliar suas
marcas de alimentos e bebidas. As marcas mais famosas mundialmente adquiridas foram:
Tropicana em 1998 e Quaker Oats em 2001.
No Brasil não é diferente, em 1976 a companhia adquiriu a Elma companhia Elma Chips
(maior companhia nacional de salgadinhos na época) e anos posteriores apliou seu
portfólio com aquisições importantes como Lucky 2001 e Mabel 2011.
Para esse projeto de mestrado profissional, o propósito dessa parceria entre UfscAr e
PepsiCo do Brasil é alavancar uma tecnologia analítica muito utilizada hoje em dia em
processos industriais de alimentos que são tecnologias IR. Nas operações de salgadinhos
a nível global, a tecnologia como infravermelho próximo é muito utilizado para monitorar
parâmetros físico químicos, tais como como umidade e óleo, que são fatores críticos para
os nossos produtos de acordo com nossos consumidores. A área de Measurements
Sciences da companhia é o setor responsável por desenvolver e aprimorar todas as
tecnologias analíticas para companhia. Especificamente o time de QA Sciences LATAM,
o qual faço parte, somos o centro de excelências para desenvolvimento de modelos de
regressão para todas as matrizes de produtos que tem como “standard” esse instrumento
como controle de processo.
Atualmente após uma reestruturação interna global de divisões de técnicas, encontramos
uma oportunidade no protocolo de desenvolvimento de curvas de calibrações existente,
pois o setor de Latino América é a região matriz para esse tipo de tecnologia a nível
global.
Com novos objetivos de crescimento sustentável procurando sempre ser mais ágeis,
rápidos e eficazes, o time de LATAM tem buscado melhorar os novos modelos de
regressão para ampliar todas as variáveis de matrizes que possuímos na companhia ao
redor do mundo. Sendo assim, a presente proposta de mestrado profissional tem como
objetivo identificar e reformular o protocolo de desenvolvimento de modelos de regressão
multivariados com intuito de aumentar a capacidade preditiva de novos modelos de
predizer informações novas, através de técnicas de calibrações multivariadas, tais como,
modelos de regressões parciais por mínimos quadrados (PLS), aplicando técnicas padrões
da indústria de alimentos para parâmetros FQ mais usados para conclusões sobre
tendências gerais dos métodos.
Através disso, entendemos que planejamento fatorial e pré tratamento de dados serão
etapas cruciais desse projeto e deverão ser utilizados para avaliar diversas condições
possíveis de processo identificando e melhorando as lacunas no atual protocolo para
atingir robustez e precisões maiores com conhecimentos aplicados na quimiometria.
A utilização do PCA será uma alternativa trabalhada nesse projeto para o aprimoramento
desse novo protocolo, pois a seleção de variáveis será fundamental para diminuir o custo,
tempo e obter análises mais precisas dos nossos modelos. Há estudos prévios realizados
por nós, onde sabemos exatamente quais são as longitudes de onda mais usuais que
encontramos as bandas mais impactantes para análises de Umidade e Óleo de nossos
produtos. No entanto, através do conhecimento teórico apresentado nessa disciplina com
esse tipo de pré tratamento, para o desenvolvimento de um modelo multivariado robusto
será necessário minimizar os efeitos de outiliers e evidenciar melhor os agrupamentos de
amostras para definição de perfis de composição.
Atualmente sabemos que algumas curvas desenvolvidas para certas matrizes, possuem
problemas overfitting, pois não separamos amostras suficientes para validação e predição
dos modelos implementados, isso faz com que nosso modelo tenha um comportamento
extremamente bom para o conjunto de dados que foram utilizados para sua criação e
comportamento razoável para outras amostras.
Portanto, acreditamos que o pré tratamento PCA antes de aplicar o modelo de regressão
PLS nos ajudará muito para obter resultados coerentes para nossos produtos, podendo ser
replicado posteriormente para outros grupos analíticos da companhia ao redor do mundo.

2) O HCA e o PCA são utilizados em análise exploratória e reconhecimento não-


supervisionado de padrões, enquanto KNN e SIMCA são, respectivamente, seus
correspondentes supervisionados. Quando devemos utilizar métodos
supervisionados e quando utilizar métodos não-supervisionados? Exemplifique com
uma aplicação respaldada por artigos (não utilize exemplos dados em aula, como o
arquivo arch, oliva, etc..). (até 2 página).
De acordo com D.L Massart, um dos primeiros autores de livros de Quimiometria,
descreve essa doutrina como uma disciplina que podemos utilizar conceitos matemáticos
e de estatística de forma lógica para ensinar ou selecionar procedimentos de
experimentação ótimos, fornecendo uma máxima informação química que poderá ser
relevante analisando dados químicos e obtendo conhecimento dos sistemas estudados
(Handboolk of Chemometrics and Qualimetrics, 2003).
Esses procedimentos podem ser providos principalmente entre diferentes conceitos de
componentes principais de modelos de classificação amostral, onde podemos ter métodos
supervisionados, tais como KNM e SIMCA, e não supervisionados como HCA e PCA,
onde ambas são técnicas multivariáveis que possuem sua maior diferença no
conhecimento sobre as amostras a serem analisadas. Isto é, classificações supervisionadas
são modelos específicos que podemos descrever o número óptimo de componentes
principais, sendo classes estudadas e explicadas por modelos de classes ou residuais. Por
este motivo, normalmente as amostras a serem analisadas tendem de ter a necessidade de
haver um conhecimento prévio dos dados amostrais. Já os métodos não supervisionados,
a sua classificação é proveniente de agrupamentos com base nas características dos dados
experimentais, ou seja, uma interpretação geral da principal informação contida em uma
tabela multivariada, extraindo e visualizando uma possível variação sistemática
proveniente dos dados referidos na tabela.
Os métodos supervisionados podem ser modelados usualmente através de alguma
variável não supervisionada, como o PCA por exemplo, de forma independente como
uma técnica de classificação propriamente dita a fim de identificar modelos similares
dentro de grupo, prevendo assim uma provável associação para novas observações. Essa
classificação poderá criar um “modelo de classe” estabelecidos com base em algum
conjunto amostral desconhecida e ajustá-la no seu melhor modelo respectivamente.
Portanto a grande vantagem desse modelo versus o não supervisionado é que em sua
validação cruzada, podemos identificar o número de componentes principais necessárias
para descrever o sinal nos dados, garantindo que não tenhamos componentes secundários
formados ou carregados de ruídos. Assim garantimos que a variação residual encontrada
em cada modelo de classe seja uma medida direta da similaridade da amostra
desconhecida com esse respectivo grupo, gerando mapeamento de componentes que o
atribuem com alta probabilidade de acerto levando principalmente diagnósticos de poder
de modelagem (o quanto a variável analisada ajuda os principais componentes a modelar
a variação) e poder discriminatório (o quanto a variável analisada ajuda os principais
componentes a classificar as amostras no conjunto de dados).
Já os métodos não supervisionados descobrem em que aspecto uma amostra é diferente
da outra, ou seja, se estão correlacionas ou são independentes uma da outra. Esses tipos
de técnicas trabalham muito com métodos hierárquicos com critérios de similaridade ou
dissimilaridade, permitindo detectar padrões de amostras como qualquer agrupamento
específico. Normalmente são métodos úteis e que forma base para os supervisionados,
podendo detectar quantos componentes principais são significativos. Os HCA por
exemplo é uma outra técnica de classificação não supervisionada popular, que
frequentemente é usada para analisar dados de pesquisa de mercado que os divide em
grupos. Eles conseguem formar clusters através de Taxonomia numérica, que podem ser
robustas desde que não tenham perturbações significativas nas distâncias, pois pequenas
adições ou alterações podem alterar significativamente o agrupamento formado, pois os
cálculos de distância são provenientes de distâncias médias entre os objetos.
Exemplos aplicabilidade literária:
HCA e PCA – Foi utilizado em um projeto de pós-graduação de um aluno da UnB para
desenvolver um método analítico na quantificação de alcaloide minoritários em amostra
de cocaína. Ele usou métodos não supervisionados através de resultados de GC-DIC com
objetivo de minimizar efeitos de outliers e evidenciar agrupamentos de amostras para
definição de perfis de composição.
SIMCA – Foi utilizado em um projeto de Desenvolvimento de um modelo SIMCA para
classificação de querosenes por Espectroscopia Infravermelha. Eles usaram modelos
supervisionados que conseguiram diferenciar e classificar as amostras de origens
diferentes em grupos de similaridade. Aplicaram também anteriormente o PCA para
identificar os componentes principais que tinham maiores relevâncias e a partir desses
grupos fizeram a comprovação por SIMCA e por Espectros de Massa.

3) Suponha que você esteja realizando uma análise de soja por Infravermelho
próximo, médio, massas ou cromatografias líquida ou gasosa. Suponha que você
tenha um grupo de amostras de soja transgênica e um grupo de soja convencional,
cultivadas de maneira similar. Após diversas tentativas utilizando PCA dos
espectros/cromatogramas, você não conseguiu ver separação entre as amostras dos
dois grupos por nenhuma técnica. Baseado nessas suposições, cite possíveis razões
para não se verificar tal separação no PCA. (até 1 página).
Para as possíveis razões do problema acima citado para a não
identificação/verificação de separação de amostras através do método não supervisionado
PCA para amostras de soja transgênica e convencionais, podemos ter:
1° A similaridade e conexões da composição do material, podem ter uma baixa
variação genética modificada entre ambos materiais na composição da estrutura da soja,
causando uma alta similaridade que pode não ser detectada por formação de grupos
especificamente por este método, onde as diferenças podem estar próximas ao ruído da
técnica. Isso em termos geométricos faz com que a função das componentes principais
não consiga descrever a variação ou espalhamento entre os pontos por meio de menores
números possíveis de eixos, não conseguindo ser detectados pelos “loadings” e “scores”
das combinações lineares das variáveis originais.
2° Podemos também ter estruturalmente nas amostras de soja, uma composição
binárias simples que muitas vezes obtêm bons resultados para amostras utilizadas para
calibração das técnicas analíticas mencionadas acima (por exemplo convencionais), no
entanto, quando se passa para análises com amostras reais “transgênicas” (sem ser
amostras utilizadas para desenvolver a curva de calibração do método para soja), podem
ocorrer problemas proveniente de interferências espectrais e desconhecimento da real
identidade do composto de interesse. Para esses casos, a curva de calibração analisada já
não possui uma alta resolução simultânea que forneça resultados precisos e por isso é
recomendado a utilização de outros métodos para resolver este tipo de problema ou
modifica-la para modelos mais robustos. Muito provável que a detecção de “outliers”
junto as componentes principais empregadas no modelo são baixas e isso podemos
observar bem junto as grandezas complementares como “leverage” e “resíduos de
student”, que são medidas de influências de uma amostra no modelo de regressão
utilizada para os cálculos.

4) Sobre pré-tratamentos (até 2 páginas):


a) Quando devemos e quando não devemos utilizar derivadas?
b) O que é auto escalonamento e quando devemos ou não utilizá-lo?
c) Por que é importante sempre centrarmos os dados na média?

a) Devemos utilizar derivadas quando temos como objetivo remover


matematicamente fontes de variação indesejáveis que não serão removidas naturalmente
durante a análise de dados, ou seja, que possuem em suas fontes alguma variação
sistemática que pode mascarar a informação de interesse e comprometer a interpretação
e eficácia do modelo. Em outras palavras as derivadas se trata uma das alternativas de
pré-tratamento de dados por transformações, onde aplicamos no sentido das amostras
(linhas da matriz X) uma correção de dados.
Essas amostras quando analisadas, naturalmente elas são provenientes de um
conjunto de sinal medido que é uma somatória de uma contribuição determinística (Sinal
verdadeiro) + contribuição estocástica (ruído aleatório).
Essas contribuições indesejadas, podemos corrigir derivando os dados espectrais
deslocando de uma quantidade constante (Offsets na linha de base), corrigindo os
resultados através da primeira derivada.

No entanto, se possuímos por exemplo, alguns espectros que apresentam um


problema de inclinação na linha de base (também chamado de bias), podemos corrigi-lo
tomando em consideração a segunda derivada que mede a concavidade de uma curva.
Esta característica é muito útil principalmente para identificar picos sobrepostos.

Porém é necessário ter muito cuidado e critérios bem estabelecidos para saber
quando usar as derivadas, pois em alguns casos ela não é recomendada principalmente
em algoritmos que quando aplicados podem introduzir mais ruídos nos resultados.
Portanto a escolha adequada do pré-tratamento é essencial para o sucesso de
qualquer análise, nas derivadas por exemplo, é crucial que o analista decida se o offset e
bias podem ou não ser eliminados através da verificação das contribuições indesejáveis
que possam diminuir ou não o ruído introduzido.
b) Um auto escalonamento se trata nada mais que uma normalização, onde damos
a cada variável a mesma chance de contribuir para o modelo desenvolvido, em outras
palavras, é dar o mesmo “peso” para todas as variáveis quantificadas dividindo os dados
centrados na média pelo desvio padrão. Na maioria das vezes nossos modelos que
desenvolvemos, nós estamos interessados nas diferenças dos objetos e não nos seus
valores absolutos, sendo assim, centralizamos os dados na média e auto escalamos os
dados pelo seu desvio padrão. Ou seja, através de um auto escalonamento podemos definir
quantos componentes principais podemos utilizar em nosso modelo, pois com poucos CP
podemos obter alguma variação sistemática que deixa de ser descrita pelo modelo fazendo
com que ele não consiga descrever os dados completamente. Já com muitas CP, muito
provável que os últimos CP descrevam apenas ruído da sua técnica, fazendo com que este
modelo não seja tão robusto quando aplicado a novos dados.
Devemos usá-lo ou não quando a faixa de variação dos dados é grande. Assim,
conseguimos minimizar o efeito (influência) de uma variável dominante sobre as demais
em cálculos posteriores. Em outras palavras, realizamos gráficos de autovalores, onde
selecionamos os CP que explicam bastante porcentagem do modelo e estão acima do nível
de ruído, que normalmente são oriundos de amostras anômalas “outliers” que se diferem
bastante do resto dos dados. Caso eles não sejam removidos, eles podem ter um efeito
grande no modelo e na CP. Portanto, o propósito dessa transformação é permitir que todas
as variáveis possam exercer influências equitativas nos resultados além de torná-las
adimensionais.
c) Centralizamos os dados sempre na média para prever que os pontos mais
distantes do centro dos dados possam ter uma influência maior que os dados mais
próximos. Em outras palavras, quando realizamos este procedimento, a direção da
primeira componente principal que explica boa parte do modelo é coincidente com a
direção da maior variância intrínseca do conjunto de dados. Isto é, conseguimos descrever
com uma CP a menos a maior variabilidade dos dados, calculando a média das
intensidades para cada comprimento de onda e subtraindo-o para cada uma das
intensidades do valor médio. Assim podemos mover as coordenadas para o centro dos
dados (passará a ter média zero) e sendo mais fácil visualização como mostra a foto
abaixo
5) Seja abaixo o resultado de um PCA onde foram analisadas diferentes amostras
de vinhos, e as variáveis: Teor de Álcool, Intensidade de Cor, Matiz da cor (Hue),
Teor de flavonoides, de não flavonoides, de ácido málico, de prolina e de cinzas. (até
3 páginas)

Considerando que as duas primeiras componentes principais apresentam ao redor


de 90 % de variância explicada, quais informações você pode tirar:
a) Dos scores;
b) Dos loadings;
c) Da análise simultânea de escores e loadings;

a) Os scores representam quimiometricamente as coordenadas das amostras em um


sistema de eixos formados por componentes principais (CP), ou seja, as relações
de similaridade entre as amostras. Matematicamente para explicar os scores,
devemos representar os pesos como cossenos dos ângulos entre as variáveis
originais e suas componentes principais, isto é, o que cada variável contribui para
uma determinada componente principal. No gráfico acima podemos ver que a CP1
sempre será traçada no sentido da maior variação do conjunto de dados, já a CP2
será no sentido ortogonal da primeira, com objetivo de descrever a maior variação
não explicada pelo primeiro conjunto.
Ou Seja, para interpretar graficamente o que está ocorrendo, se olharmos o
conjunto de dados somente dos scores, será possível concluir até o momento que
as amostras vermelhas são similares entre elas, as verdes entre elas e as pretas
entre elas e que temos 3 grupos diferentes grupos de amostras dentro do conjunto
de dados. No entanto, também podemos interpretar que por mais que temos três
clusters diferentes entre si, o conjunto de amostras vermelhas possui parte dos
seus resultados bem similares com as amostras pretas, podendo ser confundidas
como um único cluster por possivelmente por terem características similares.

b) Os loadings quimiometricamente permitem entender quais variáveis mais


contribuem para os agrupamentos observados no gráfico dos scores, ou seja nesse
exemplo mostrado acima, temos dois conjuntos de gráficos para as amostras de
vinhos com diversas características diferentes, mostrando que cada componente
principal foi determinada através de um método não supervisionado PCA, sendo
constituído pela combinação linear das variáveis originais e os seus respectivos
loading (coeficientes de combinações) para conseguir compreender melhor quais
variáveis mais contribuíam para os sub agrupamentos analisados.
Isto é, no próprio gráfico podemos observar que a CP1 ela consegue explicar bem
a separação do teor ou não de flavonoides e concentrações de prolina e ácido
málico nos vinhos estudados, porém para explicar com maior precisão as demais
caraterísticas como Teor de Álcool, Intensidade de Cor e matiz de cor é necessário
a CP2 para obter 90% das variações explicadas das interações das amostras com
esses parâmetros.
c) Considerando a análise conjunta dos dois gráficos, é possível verificar quais são
as variáveis responsáveis pelas diferenças observadas entre as amostras. Por
exemplo, quando olhamos somente os scores podemos observar que as amostras
vermelhas e pretas formam cluster separados, porém parte de seus conjuntos se
encontram bem próximos não conseguindo ser explicado somente por esse
conjunto de dados. Isso poderá ser interpretado de forma mais clara somente pelos
gráficos de loading, onde explicamos que o fator crucial para diferenciar as
amostras vermelhas e pretas são os parâmetros de Prolina, Teor de Álcool e Matiz
de cor, que aparecem em grande intensidade para uma matriz e não para outra.
Todas essas matrizes que diferem ambos grupos são explicadas de forma mais
precisa pela CP2 que nos gráficos dos scores não se podem ser observados, pois
nesse tipo de gráficos não se leva em consideração combinação linear das
variáveis originais e os seus respectivos pesos. O conjunto de amostras vermelhas
e pretas que podem aparentemente ser confundidas nos scores, é proveniente ao
parâmetro de teor de flanoides que em ambos grupos apresentam concentrações
próximas.
Já o conjunto de amostras verdes, podemos interpretar que os parâmetros
principais que explicam a formação do seu cluster e a presença ou não das
características marcantes desse grupo, são as concentrações de Ácido Málico,
Teor não flavonoide e Intensidade de cor. Esses apresentam altas quantidades
desse grupo que diferem de forma marcante sua presença.
Outro fator bem interessante e que possivelmente poderia ser explicado através de
uma terceira componente principal é o parâmetro de cinza. Esse dado apresenta
em baixa quantidade nos três grupos através das CP1 e CP2 identificados nos
gráficos de scores e loading. Caso quiséssemos explicá-lo de forma mais precisa,
é muito provável que seria necessária uma terceira ou mais componentes
principais que explicasse com uma variação de intervalo de confiança maior que
90%.
6) Métodos de calibração multivariada devem conter muito mais amostras na curva
de calibração do que métodos univariados, como aqueles por espectroscopia UV-Vis
ou cromatografia. (até 3 páginas).
a) Por que tais métodos de calibração multivariada precisam de muito mais
amostras para realizar a calibração?

b) Quais as vantagens e limitações de se utilizar um método de calibração


multivariada como o infravermelho próximo, por exemplo?

c) Descreva os passos para desenvolver um modelo de calibração multivariado


para determinar o teor de açúcar em caldo de cana através de espectroscopia NIR.

a) Os métodos de calibrações multivariadas precisam de muito mais amostras para


realizar a calibração, pois são métodos baseados na redução de variáveis que
caracterizam a informação contida no sinal analítico registrado sem perder a
informação relevante, isto é, as regressões das respostas não é realizada nos dados
originais, e sim em dados de novas variáveis, simplificando o modelo e a
interpretação de resultados. Por meio dessa técnica podemos diminuir o custo e
tempo envolvido nas análises, sem perder a seletividade das nossas análises,
podendo reduzir custos e otimizando toda a informação para um maior controle
com poucas variáveis
Durante o avanço tecnológico na Quimiometria, a história impulsionou muito os
desenvolvimentos de técnicas analíticas que tem como princípio principal a
utilização massiva de coordenadas ordenadas em medições instrumentais. Nas
calibrações multivariadas por exemplo, foram deixados em segundo plano a
realização de medições instrumentais pontuais de uma longitude de onda por
exemplo (univariados) à medidas espectrais (multivariadas) com grande conteúdo
de informações, isto é, aplicações de novos métodos de calibração que faz com
que possamos extrair a maior informação química da análise por meio de sinais
ou respostas instrumentais com pouca seletividade. Em outras palavras, as
calibrações univariadas por exemplo, são medidas onde obtemos unicamente um
valor numérico/escalar, como por exemplo técnicas de UV-Vis ou pH que
trabalhamos com uma única longitude de onda. Nas técnicas multivaridas, nós
conseguimos obter um vetor de dados (espectros) ao analisar cada amostra,
através de análises e estatística multivariadas de dados, onde não é necessário
eliminar explicitamente ruído ou interferências provenientes da técnica ao obter a
informação química desejada. Por este motivo, as técnicas multivariadas não
necessariamente precisam de matriz de dados de primeira ou segunda ordem para
obter um modelo de calibração que seja adequado para o seu material de estudo,
eles podem ser de ordem superiores como por exemplo espectroscopia de
fluorescência, onde podemos proporcionar uma variação espectral com o passar
do tempo, podendo obter uma estrutura tridimensional de cada análise,
aumentando a sensibilidade da detecção de resultados sem perder informações
relevantes. Para modelos de regressão multivariados, possuímos vários tipos de
regressões que podem ser utilizados de acordo com a necessidade e a forma de
seleção das variáveis. As mais conhecidas na indústria são as MLR (Multiple
Linear Regression), PCR (Principal Component Regression), PLS (Partial Least.
Squares), etc. No entanto, existem outras que podem ser usadas que poucas
pessoas utilizam, tais como, CLS (Classical Least Squares), ILS (Inverse Least
Squares), ANN (Artificial Neural Networks).

b) As vantagens e limitações de utilizar calibrações multivariadas como o NIR por


exemplo são:
Vantagens: É um instrumento rápido, robusto de fácil manipulação operacional, onde
é classificado como instrumento de tecnologia verde por não necessitar de reagentes
químicos para quantificação de resultados, pode realizar diversos parâmetros físico
químicos ao mesmo tempo, desde que cumpra os intervalos de longitudes de onda
do range espectrais que possui a tecnologia. Em outras palavras, ele pode prever
múltiplos parâmetros em uma mesma matriz a partir de uma única medição;
capacidade de analisar uma grande variedade de amostra; requer pouca preparação
de amostra; e se trata de uma análise não destrutiva.
Desvantagens: Com este tipo de instrumentos não é possível resolver ainda de
forma completa o problema das interferências e o sinal de ruído de fundo, ainda que
com tratamentos prévios de informações analíticas podemos diminuir muito essa
interferência. Como é um instrumento rápido, é necessário ser validado com certa
frequência versus instrumentos de referências, a fim de diminuir resultados outliers
que poderão ser apresentados com o passar do tempo. Essa calibração se deve
muito, desde o ponto de vista que sua matriz original cujo modelo foi desenvolvido,
sofreu alguma alteração não contemplada na curva original, fazendo com que
possamos ter informações que estejam foram do seu limite de detecção e
seletividade.

c) Para o desenvolvimento de um modelo de calibração multivariado para


determinar o teor de açúcar (exemplificado no exercício) em uma determinada
matriz por NIR, se deve realizar os seguintes passos:
1) Definir o conjunto da calibração
Nessa etapa é onde determinamos a propriedade que queremos analisar, onde o
conjunto de calibração para realizar as análises quantitativas do parâmetro a ser
analisado deve ser representativo em todo intervalo de concentrações, assim
como, as possíveis interferências e outros componentes presentes nas amostras.
Para essa definição é recomendado sempre considerar fontes de variação química
como as físicas (origem das amostras, tratamentos recebidos, etc), as quais podem
afetar o espectro registrado. Para o caso de Teor de Açúcar por exemplo, é
importante definir qual técnica analítica de referência será utilizada para obter
resultados que servirão como valores de referências para desenvolver os modelos
de regressão através da obtenção espectrais de cada amostra que compõem a curva
de calibração proposta. Na indústria de alimentos por exemplo, dependendo do
parâmetro Físico Químico que deseja obter do teor de açúcar, recomenda-se a
utilização de métodos oficiais IMCUSA para esse tipo de matriz.
2) Registro da informação analítica
Nessa etapa após definir qual a propriedade a ser analisada e o método de
referência que servirá como quantificação padrão para os resultados obtidos, é
importante determinar qual a técnica espectrométrica será utilizada. Por exemplo:
NIR, FTIR, UV-Vis, Fluorescência etc.
3) Pré tratamento de dados
É importante nessa etapa realizar um pré tratamento de dados com objetivo de
minimizar as contribuições não desejadas presentes nos sinais analíticos que
podem diminuir a reprodutibilidade, causando dentro do sistema comportamentos
que poderiam estimar dados errôneos dos parâmetros desejados, como por
exemplo HCA, PCA, SIMCA, etc.
4) Seleção do modelo multivariado a ser utilizado
Nessa etapa determinamos qual modelo de regressão multivariada utilizaremos
para construir o modelo de regressão, tais como, as quantidades de amostras que
serão utilizadas para esta etapa, e separando as amostras da etapa de validação e
predição citadas abaixo. Em esta seleção é crucial, pois ela é fundamental para o
estudo complexo entre as matrizes de dados e o sinal analítico a ser obtido. Por
exemplo, podemos utilizar modelos MLR, PCR, PLS, etc.
5) Validação do modelo
Em esta etapa, implica a aplicação dos dados pré-determinados acima com a
aplicação de um conjunto de amostras das quais conhecemos a propriedade a ser
determinada e que não foram utilizadas na etapa de construção do modelo. De esta
forma é possível verificar se o modelo construído constitui uma correta descrição
do sistema em estudo.
6) Predição de novas amostras
Com o modelo já construído e validado, é importante definir quantidades de
amostras necessárias para calcular a propriedade estudada com adições de novas
amostras, a fim de robustecer o modelo com dados com valor conhecidos e sinal
analítico específicos.
7) Descreva com suas palavras o que é validação cruzada e porque ela é tão
importante para definição do número de variáveis latentes a serem utilizadas em um
modelo de calibração.
A validação cruzada é uma metodologia utilizada para a escolha do número de
componentes principais baseada na avaliação da magnitude dos erros de previsão de um
dado modelo de calibração. Em outras palavras, é o método mais amplamente usado em
modelos de regressão linear, pois divide os dados em duas partes: um conjunto de dados
de calibração e um conjunto de dados de validação, isto é, o primeiro conjunto é usado
para estimar os coeficientes de regressão linear, enquanto o segundo é usado para medir
a capacidade preditiva do modelo versus outras amostras aleatórias não utilizadas para a
construção da curva de calibração.
Nesse tipo de validação, existem vários tipos de regressões lineares que podem ser
utilizados, tais como, a análise de regressão linear múltipla, regressão por componentes
principais e regressão por quadrados mínimos parciais, onde podemos estabelecer a
relação que ocorre entre uma variável dependente Y e um conjunto de variáveis
independentes (X1, X2, X3...Xn) entre duas técnicas diferentes. Em este tipo de análise
de regressão linear múltipla, ao contrário da simples, podemos replicar situações mais
próximas a realidade de análises, por meio de uma série de variáveis que, diretamente ou
indiretamente, contribuem para criações de níveis de matrizes que possam replicar
diferentes processos ou níveis físico-químicos de parâmetros analíticos a serem
estudados.
Para estas construções de níveis de matrizes que irão se desenvolver em uma equação
correspondente dessa validação, é necessário selecionar as variáveis em estudo uma a
uma, com objetivo que todos os dados possíveis variáveis possam explicar de forma mais
significativa a variável dependente sem que nenhuma delas seja uma combinação linear
do restante.
Dentro da análise, existem duas estatísticas mais comuns que são analisados nesses tipos
de validação:
Primeira é a R2, onde medimos a capacidade explicativa da variável X sobre a variável
Y, isto é, ao introduzir outra variável independente no modelo, o nível explicativo desta
segunda variável será maior ou igual a primeira, não diminuindo a primeira variável
explicativa, pois o R2 não deve considerar não apenas a amostra, mas também o número
de variáveis explicativas incluídas no modelo.
Segundo o RMSECV (raiz quadrada do erro médio da validação cruzada) que mede a
qualidade do modelo de regressão e é definida como a soma dos quadrados dos erros de
previsão da variável que representa o desvio ao quadrado entre o valor observado e o
estimado, ou seja, permite uma avaliação da robustez do modelo calculado para número
de variáveis latentes empregado. É por meio dessa técnica que se estabelece o número de
variáveis latentes ideal para o modelo e quais amostras tem perfis atípicos às outras.
Portanto, este tipo validação é importante para determinação do número de variáveis
latentes, uma vez que sem ela, podemos obter o risco de escolher um número além do
necessário de fatores a serem estudos, podendo gerar um modelo super ajustado, ou eleger
um número insuficiente de fatores que pode acarretar um modelo sub ajustado.

B Massart, D. L.; Vandeginste, B. G. M.; Buydens, L. M. C.; De Jong, S.; Lewi P.


J.; Smeyers-Verbeke. J, HANDBOOK OF CHEMOMETRICS AND
QUALIMETRICS; Data Handling In Science and Technology, Volumes 20A e.;
Ed. Elsevier, Amsterdam, 1997.
E. R. Malinowski, FACTOR ANALYSIS IN CHEMISTRY, 3rd edition, John Wiley
& Sons Ltd. (2002).
F.H. DE OLIVEIRA “Dissertação de Mestrado – Consolidação de Análise
Cromatográfica e Aplicação de Ferramentas à Análise de Alcaloides Minoritários
em Amostras de Cocaína”, Brasília 2008, UnB.
https://repositorio.unb.br/bitstream/10482/32913/1/2018_FillipeHerbertdeOliveira.pdf
A.D. MORALES “Desarrollo de un Modelo SIMCA para la Clasificación de
Kerosinas Mediante el empleo de la Espectroscopia Infrarroja”, Química Nova,
Vol.31, N°6, 2008
https://www.researchgate.net/publication/268441193_Desarrollo_de_un_modelo_SIMCA_pa
ra_la_clasificacion_de_kerosinas_mediante_el_empleo_de_la_espectroscopia_infrarroja
FERREIRA, M.M.C. Quimiometria: Conceitos, Métodos e aplicações[online].
Campinas,SP: Editora da Unicamp. 2015, p.121
GEISSER, S. “The predictive sample reuse method with applications”. J. Am. Stat.
Assoc, 2015, ed.70, pag.320-328.

Você também pode gostar