Teoria Quimiometria

Fundamentos tericos
___________________________________________________________________________________________________________
Quimiometra y anlisis de datos

La quimiometra es la aplicacin de mtodos estadsticos y matemticos a
los problemas qumicos con el objetivo de extraer la mxima y ms til informacin
de los mismos. La definicin exacta de quimiometra segn la ICS (Internacional
Chemometrics Society) es la ciencia que permite relacionar las medidas realizadas
en un sistema qumico o proceso con el estado del mismo mediante la aplicacin de
mtodos matemticos o estadsticos. El desarrollo de la instrumentacin qumica
ha llevado a la necesidad de utilizar mtodos avanzados de diseo de
experimentos, calibracin y anlisis de los datos resultantes. Durante muchos aos,
ha existido la preponderante idea de que si se necesitaban mtodos ingeniosos de
tratamiento de datos es porque los experimentos no haban sido correctamente
planeados, sin embargo, hoy se reconoce que la mayora de los sistemas tienen
naturaleza multivariante y que las metodologas univariantes son incapaces de
proporcionar soluciones ptimas. En este captulo se recoge un resumen de las
principales tcnicas quimiomtricas y estadsticas aplicadas para el tratamiento de
los datos en el desarrollo de esta tesis doctoral.
1. Mtodos de pretratamiento de datos

El pretratamiento de los datos es un paso fundamental antes de realizar
cualquier otro clculo, ya sea de regresin o clasificacin. En el caso de trabajar con
datos espectroscpicos NIR, los espectros recogidos estn influenciados por las
propiedades fsicas de la muestras. En las muestras lquidas, la temperatura o la
turbidez son relevantes y deben ser consideradas antes de la etapa de procesado
de los datos. En estas situaciones, el pretratamiento de los datos se utiliza para
minimizar dichas contribuciones de variables fsicas que incorporan informacin
irrelevante en los espectros, de manera que se puedan construir modelos ms
simples y robustos.
Algunos de los pretratamientos ms comunes y utilizados a lo largo de la
presente tesis doctoral se describen brevemente a continuacin.
1.1. Centrado de columna
Consiste en cambiar el origen de la nueva escala de variables por la media

de la variable antes del centrado. Para cada valor xi,m de una columna m el nuevo
valor es:
x' i , m = x i , m x m
siendo xi,m el dato centrado, xi,m el dato de la fila i y la columna m antes del
centrado, x m media de la columna m ( x m = x i , m / I ) [1]. La propiedad
i
fundamental de los datos centrados es que el valor medio de cada una de las
Fundamentos tericos
___________________________________________________________________________________________________________
variables es igual a cero. Este pretratamiento no modifica la varianza de los datos

[2].
1.2. Autoescalado
El autoescalado consiste en un centrado seguido de una normalizacin:

x' i , m =
xi ,m xm
sm
donde xi,m es el dato autoescalado, xi,m es el dato antes del autoescalado, x m la

media de la columna m y sm la desviacin estndar de la columna m. De esta
forma, la media y la varianza de las nuevas variables autoescaladas es de 0 y 1
respectivamente [2].
1.3. Derivadas (primera y segunda) y suavizado
Mediante el suavizado se intenta reducir el ruido aleatorio existente en la

seal instrumental. La tcnica ms utilizada es la propuesta por Savitzky y Golay
[3]. El principio en el que se basa este mtodo es que, para un pequeo intervalo
de longitudes de onda, se puede ajustar un polinomio del grado adecuado. Los
nuevos valores tras el ajuste son una mejor estima que los valores medidos ya que
se ha eliminado parte del ruido que los afectaba.
La diferenciacin o clculo de derivadas permite acentuar las diferencias
existentes en los datos espectrales. Tanto la primera como la segunda derivada se
utilizan a menudo para el tratamiento de los datos. La segunda derivada elimina el
ruido de fondo lineal y constante. Los dos principales algoritmos de diferenciacin
son el de Savitzky-Golay y el de Norris. El primero, permite calcular derivadas de
primer orden o mayor incluyendo un factor de suavizado que determina el nmero
de variables adyacentes que se usarn en la estimacin de la aproximacin
polinmica utilizada en la derivacin. El algoritmo de Norris, a diferencia del
anterior, solo permite el clculo de derivadas de primer orden.
Una desventaja del uso de las derivadas es que disminuyen el valor de la
relacin seal-ruido, por esta razn, se recomienda realizar un suavizado de la
seal antes de la diferenciacin de los datos. Otra desventaja es que en ocasiones
los modelos de calibracin obtenidos mediante datos espectrales tratados con
primera o segunda derivada, son menos robustos frente a cambios instrumentales,
como por ejemplo derivas de la longitud de onda, que ocurren a lo largo del tiempo,
por lo que habra que revisar las calibraciones [4].
Fundamentos tericos
___________________________________________________________________________________________________________
1.4. Standard normal variate (SNV)
Es una transformacin que se propone para eliminar las interferencias

multiplicativas producidas por la difraccin y por las diferencias del tamao de
partcula [5, 6]. SNV opera sobre cada espectro de manera individual, centra el
espectro y lo escala con su propia desviacin estndar.
x' i , m =
xi ,m xi
si
donde xi,m es la absorbancia del espectro i a la longitud de onda m, x i es la

absorbancia media del espectro i y si la desviacin estndar de los valores de
absorbancia de cada muestra. Cada espectro tratado de esta manera tiene media 0
y varianza igual a 1 y es, por tanto, independiente de los valores de absorbancia
originales.
1.5. Orthogonal signal correction (OSC)
El uso de OSC se ha extendido rpidamente durante los ltimos aos como

mtodo de pretratamiento de datos espectrales antes de la etapa de calibracin o
clasificacin. Desde que fue introducido por Wold et al. [7] como una tcnica novel
de tratamiento de datos espectrales, han aparecido un gran nmero de diferentes
estrategias intentando modificar y mejorar el mtodo original [8-12]. El objetivo de
OSC es corregir la matriz X eliminando informacin ortogonal a la matriz respuesta
Y, o lo que es lo mismo, se trata de eliminar informacin no relacionada con la
respuesta de inters. OSC fue desarrollado como un mtodo para eliminar los
efectos de dispersin de la luz adems de otras interferencias de carcter general
que afectan las medidas espectrales.
La idea detrs de este pretratamiento es que permanezca en el espectro
solamente la informacin directamente relacionada con la respuesta Y de inters y
eliminar la informacin no correlacionada con dicho valor de referencia. El primer
paso del algoritmo consiste en calcular el vector de pesos
de forma que el vector
de los scores
t = X
, describe de manera correcta la varianza en la matriz X de
las variables espectrales con la restriccin de que no est correlacionada con Y,
t lo ms ortogonal posible a Y. De esta forma, se calculan unas matrices
haciendo
de scores y loadings que contienen la informacin no relacionada con la respuesta
de referencia. Cada una de estas variables latentes calculadas, elimina una parte de
la varianza presente en X. Cuanto mayor sea la varianza a eliminar, mayor ser el
nmero de variables latentes a calcular y usar en el modelo de OSC. Una vez que
toda la informacin no correlacionada con la respuesta Y (ortogonal) se modela, se
resta a los datos espectrales originales.
X OSC = X
Ti P' i
i =1
Fundamentos tericos
___________________________________________________________________________________________________________
donde T son los scores ortogonales a la respuesta, P las matrices de loadings y n

el nmero de factores o veces que se aplica el tratamiento. Normalmente son
necesarios un nmero reducido de componentes ortogonales para obtener buenos
resultados en las etapas posteriores. La correccin propuesta para la matriz de
calibracin es entonces aplicada sobre el conjunto externo de datos de validacin lo
que permite testar el modelo construido.
En el desarrollo de esta tesis se utiliz el mtodo original propuesto por
Wold [7] e implementado en la funcin osccal de la PLS Toolbox de Matlab [13].
1.5. Multiplicative signal correction (MSC)
Multiplicative Signal (o Scatter) Correction es un pretratamiento propuesto

para datos espectrales en el que se estiman los efectos de la dispersin de la
radiacin o los cambios en el paso ptico en relacin a una muestra ideal que se
introduce como referencia (m). En principio, esta estimacin se debera hacer en
zonas del espectro que no contengan informacin qumica, sin embargo, en la
prctica se corrige el espectro completo. El modelo de MSC se puede escribir:
zi ai + bi z i ,quim
donde ai y bi representan la correccin de la lnea base (ai) y el paso ptico (bi),
ambos referidos al espectro de referencia m.
MSC asume que la totalidad de la informacin qumica contenida en un
espectro se encuentra recogida en el espectro de referencia m y otro trmino
denominado i que representa el conjunto de variacin desconocida e irrelevante
del espectro.
z i , quim m + i
A la hora de estimar los dos parmetros de correccin ai y bi, i se ignora y

el modelo bsico de MSC se puede escribir:
z i ai + bi m + i
Por lo que la correccin del espectro original es muy sencilla y se reduce a:

z i , correg =
( z i ai )
bi
Esta correccin puede llevar a cometer algunos errores y a la eliminacin de

informacin de inters del espectro en algunos casos como se tratar a
continuacin.
1.6. Extended multiplicative signal correction (EMSC)
EMSC es una variacin de MSC que permite estimar y separar los efectos
fsicos multiplicativos (longitud de paso ptico, dispersin de la radiacin) de los
Fundamentos tericos
___________________________________________________________________________________________________________
efectos qumicos aditivos (absorcin de analitos e interferentes) y los efectos fsicos

aditivos (temperatura, variaciones de la lnea base). Puede adems identificar y
remover aquella informacin fsica y qumica conocida pero no deseable
(absorciones de las interferencias), dejando en el espectro, aquellos efectos
deseados y aquellos no identificados. Fue desarrollado por Martens et al. [14-16]
como una metodologa para identificar y separar varios efectos en medidas
multivariantes haciendo las medidas ms apropiadas para acometer una posterior
calibracin multivariante, reduciendo el nmero de componentes necesarios e
incrementando la robustez y la capacidad predictiva de los modelos.
En ocasiones los efectos producidos por la dispersin de la radiacin tienden
a producir contribuciones multiplicativas a los datos espectrales y, por ello, los
mtodos de pretratamiento puramente aditivos (como por ejemplo MSC) no
funcionan bien [17].
El uso de informacin previa sobre el sistema y sus componentes es muy
til y puede generar muy buenos resultados. La manera ms sencilla de utilizar
informacin previa en el pretratamiento es utilizar los espectros de los
constituyentes puros. Sin embargo, un mtodo ms ambicioso de utilizar la
informacin previa es extender el modelo de MSC para incluir nuevos parmetros
que contengan informacin sobre distintos fenmenos fsicos y qumicos que
puedan afectar el espectro de absorbancia recogido. Uno de estos mtodos es el de
EMSC [14].
El mtodo de MSC convencional, como se sealaba en el punto anterior,
asume que toda la informacin qumica est capturada en el espectro de referencia
m y otro trmino denominado i que representa el conjunto de variacin
desconocida e irrelevante del espectro. En la estimacin de los parmetros de MSC
para la correccin de los espectros, este trmino, i, es simplemente ignorado. Por
tanto, MSC puede, en numerosas ocasiones, producir una buena correccin de los
efectos de dispersin en los espectros, porque las contribuciones qumicas no
conocidas contenidas en i no estn correlacionadas con m y no afectan apenas a la
estimacin de los parmetros. Sin embargo, si i contiene efectos espectrales
significativos debidos a grandes cambios en la composicin qumica de las
muestras, la correccin MSC puede dar resultados completamente nefastos.
La correccin EMSC incluye cuatro coeficientes distintos que dan cuenta del
efecto de la lnea base (ai), la longitud del paso ptico (bi) y otros dos coeficientes
que contienen informacin desconocida y variaciones espectrales dependientes de
la longitud de onda de muestra a muestra (di y ei).
z i ai + bi zi, quim + d i + ei 2
Si los coeficientes se estiman de manera correcta, los espectros corregidos

pueden contener nicamente la informacin qumica del componente de inters.
Desafortunadamente, la estimacin de estos parmetros debe realizarse a partir de
los espectros medidos disponibles, y por tanto, el xito de EMSC depende de las
estimas estadsticas obtenidas a partir de los espectros recogidos [16].
z i , correg =
(z i ai d i ei 2 )
bi
Fundamentos tericos
___________________________________________________________________________________________________________
La correccin EMSC es aplicable a distintos tipos de datos espectroscpicos

(UV, VIS, NIR, IR, Raman), cromatogrficos, electroforticos y datos sensoriales.
Para realizar esta correccin sobre los datos se utiliz la EMSC-Toolbox de Matlab
programada por Harald Martens.
2. Calibracin multivariante
En muchos estudios, la concentracin de una o ms especies tiene que ser
estimada en base a diversas propiedades medidas del sistema. Por ejemplo, la
absorcin del espectro electromagntico a una determinada longitud de onda puede
relacionarse con la concentracin de un determinado analito a travs de la Ley de
Lambert-Beer. Para muestras multicomponente el problema se complica ya que
existen diferentes especies que absorben a una determinada longitud de onda. Los
mtodos de calibracin multivariante se aplican de manera general en numerosos
mtodos analticos para la determinacin mltiple y simultanea de diferentes
parmetros. Estos mtodos incluyen la regresin por componentes principales
(PCR) [18], la regresin por mnimos cuadrados parciales (PLSR) [17, 19],
simulated annealing (SA) [20, 21], algoritmos genticos (GA) [22] y redes
neuronales artificiales (ANN) [23, 24]. A continuacin se realizar una breve
descripcin de los mtodos utilizados en la presente tesis doctoral remitiendo a la
literatura citada para ms informacin sobre los mismos o sobre aquellos no
tratados.
2.1. Regresin por Componentes Principales (PCR)
PCR es una tcnica de calibracin multivariante que consta de dos pasos. El

primero de ellos consiste en un Anlisis de Componentes Principales (PCA) sobre la
matriz de datos X [25-27]. Este anlisis genera un conjunto de vectores
ortogonales no correlacionados (scores o componentes principales (PCs)). La nueva
matriz de datos centrados puede escribirse:
X c = TP t + e
donde T es la matriz de los scores de los A componentes principales ms

dominantes, Pt la correspondiente matriz de loadings y e la matriz de residuos que
representa el ruido o la informacin no relevante.
El segundo paso consiste en una Regresin Lineal Mltiple (MLR) [18] entre
las nuevas variables obtenidas y el parmetro de referencia Y que se desea
modelar.
Y = Tb + e
donde T es la matriz de los scores, b es la matriz de los coeficientes y e los

residuos.
Fundamentos tericos
___________________________________________________________________________________________________________
El anlisis de componentes principales maximiza la varianza explicada del

sistema, sin embargo, no maximiza necesariamente la calidad de los resultados de
prediccin del parmetro modelado para muestras desconocidas.
2.2. Regresin por mnimos cuadrados parciales (PLSR)
Este tipo de regresin es, probablemente, la ms utilizada en su aplicacin

al tratamiento de datos multivariantes [17]. Se basa en las llamadas variables
latentes como PCA y PCR [18], sin embargo, en este caso la descomposicin de la
matriz X durante la regresin est guiada por la variabilidad en Y: la covarianza
explicada entre X e Y es maximizada, por tanto se extrae la variacin en X
directamente correlacionada con Y. La direccin del primer componente PLS se
calcula maximizando el criterio de la covarianza, se obtiene as el vector w1 y se
calculan los scores sobre ese primer componente como:
t1 = Xw 1
El vector de loadings p1 se obtiene mediante la regresin de las variables

de la matriz X frente a este vector t1 y los coeficientes de regresin b1 mediante la
regresin de Y frente a t1. El siguiente paso consiste en restar este primer
componente a las matrices iniciales X e Y:
X 1 = X t1 p1
Y1 = Y t1 b1
La direccin del segundo componente se obtiene de manera similar al

primero pero utilizando la matriz de datos resultante tras la sustraccin del primer
componente (X1) en vez de la matriz original (X). El proceso se puede repetir de
igual manera hasta la extraccin de los A componentes deseados.
Una de las ventajas que presenta frente a otros mtodos como la Regresin
Lineal Mltiple (MLR) [18] es que, al estar basada en variables latentes, se puede
utilizar para el tratamiento de datos altamente correlacionados como son los datos
espectroscpicos. El modelo lineal entre el vector Yc que contiene los datos
centrados de la variable de referencia y la matriz Xc conteniendo los datos
espectrales centrados se puede describir como:
Yc = X c b + e
donde b es un vector que contiene los coeficientes de regresin determinados

durante la calibracin y e es el residuo. Para obtener la mejor estima del vector b,
el modelo de PLSR debe ser calibrado con muestras que abarquen perfectamente la
variacin existente en Y y que, al mismo tiempo, sean representativas de las
futuras muestras a determinar. Dependiendo de la complejidad de dichas muestras,
esto puede requerir un gran nmero de objetos en el conjunto de calibracin.
Fundamentos tericos
___________________________________________________________________________________________________________
2.3.
Regresin no lineal
Expectations)
ACE
(Alternating
Condicional
ACE es un mtodo de regresin no lineal con caractersticas nicas que

puede aplicarse cuando la relacin entre el nmero de objetos y el nmero de
variables es muy elevado (por lo menos 10 veces) [28]. Mientras que en los
mtodos de regresin no lineal ordinarios se aaden a la matriz de predictores los
cuadrados de los mismos y sus productos cruzados, en ACE se trabaja con un
nmero determinado de componentes principales calculados a partir de los
predictores originales, sus cuadrados y los productos cruzados de dichos
componentes.
En la regresin lineal normal, la variable respuesta Y es la suma pesada de
las variables predictoras, y los pesos son los coeficientes de regresin:
Y = b0 +
bn
n =1
Xn + e
En ACE, la variable respuesta es la suma de funciones suavizadas de los

predictores:
Y = b0 +
Las funciones suavizadas
t n (X n ) + e
n =1
no son funciones explcitas de los
tn (X n )
predictores sino el resultado del algoritmo ACE y se obtienen mediante seleccin

piecewise de funciones lineales de los mismos.
ACE genera una regresin lineal en un corto intervalo del predictor. El
suavizado se caracteriza mediante un parmetro denominado SPAN que vara de
0.1 a 1 y es la fraccin de puntos usados en la regresin local. Cuando SPAN=1, el
modelo de regresin es lineal y a medida que dicho parmetro disminuye, el
modelo de regresin se aleja de la linealidad [29].
3.3. Validacin de un proceso de calibracin

Despus de calcular la ecuacin para una determinada calibracin es
esencial determinar la capacidad de la misma para predecir valores y desconocidos.
Uno de los procedimientos ms utilizados es el clculo del error medio en prediccin
basado en el cuadrado de las diferencias entre los valores de referencia y los
predichos por el modelo de calibracin.
En todo modelo de calibracin se puede definir la raz cuadrada de la media
del error de calibracin al cuadrado (RMSEC) como:
c
(y i
RMSEC =
i =1
y i )2
nc
Fundamentos tericos
___________________________________________________________________________________________________________
donde yi es el valor de referencia de la respuesta,

y i es el valor de la respuesta
predicho por el modelo y nc es el nmero total de muestras en el conjunto de
calibracin. El error de calibracin puede expresarse tambin como porcentaje si se
divide el valor de RMSEC por el rango de valores del conjunto de calibracin:
RMSEC(%) =
RMSEC
100
y i,max y i,min
Un modelo de calibracin se puede validar mediante cross-validacin o

mediante un conjunto externo de muestras de validacin.
3.1. Validacin mediante cross-validacin
La cross-validacin [30] consiste en la utilizacin de los datos del conjunto

de calibracin para validar el modelo. En la cross-validacin, el conjunto de
calibracin inicial se divide en diferentes grupos de cancelacin. Cada vez que se
calcula el modelo se deja un grupo de cancelacin fuera y se calcula la ecuacin de
la regresin con los dems datos. Una vez realizada la calibracin se testa el
modelo con los datos del grupo de cancelacin excluido. Se repite el proceso de
manera sucesiva dejando cada vez un grupo de cancelacin fuera del proceso de
clculo. Si el nmero de grupos de cancelacin es igual al nmero de objetos en el
conjunto de calibracin, cada vez quedar un objeto fuera del clculo del modelo y
el proceso de denomina full-cross-validacin o leave-one-out. Cuando se utiliza la
cross-validacin para validar un modelo se puede definir la raz cuadrada de la
media del error en cross-validacin al cuadrado (RMSECV) como:
c
(y i
RMSECV =
i =1
y CV , i )2
nc
Al igual que en el caso anterior, el valor de RMSECV se puede expresar en

porcentaje procediendo de manera similar a la Ecuacin 3.3.20.
3.2. Validacin mediante conjunto de validacin externo
La validacin mediante un conjunto de datos externo consiste en dividir

inicialmente el conjunto de muestras en dos grupos: calibracin y validacin. El
modelo de regresin se calcula a partir de los datos del conjunto de calibracin y, el
modelo calculado, se testa con los datos del conjunto de validacin que no han sido
utilizados para calcular la ecuacin de calibracin del modelo. En este caso se
puede definir la raz cuadrada de la media del error de prediccin al cuadrado
(RMSEP) para el conjunto de validacin.
Fundamentos tericos
___________________________________________________________________________________________________________
np
(y i
RMSEP =
i =1
y i )2
np
donde np es el nmero de muestras en el conjunto de validacin. Si se quiere

expresar en tanto por ciento se puede hacer como en los casos anteriores.
Otro parmetro muy utilizado en el caso de la espectroscopa NIR para
evaluar la calidad de un proceso de regresin es el parmetro SESGO o BIAS que
se define como [19]:
np
yi
(
SESGO =
i =1
yi )
np
4. Mtodos de reconocimiento de patrn, clasificacin y modelado

Uno de los problemas ms importantes en quimiometra es la identificacin
de relaciones entre objetos qumicamente caracterizados. Los mtodos de
reconocimiento de patrn, la clasificacin y el modelado de clase son tcnicas muy
empleadas por los qumicos. Dentro de los mtodos de reconocimiento de patrn
existen dos modalidades dependiendo del conocimiento a priori que se tenga del
sistema. Si se tiene una serie de objetos que pertenecen a diversas categoras
conocidas, ser necesario establecer un modelo de clasificacin que permita
clasificar futuros objetos desconocidos dentro de una u otra categora. Este proceso
se denomina tcnica de reconocimiento de patrn supervisada. Si, por el contrario,
no se tiene informacin a priori de la categora a la que pertenece ninguno de los
objetos, se debe utilizar una tcnica de reconocimiento de patrn no supervisada
para determinar la estructura existente en el conjunto de los datos y encontrar
entre ellos grupos de composicin o comportamiento similar.
4.1. Mtodos de reconocimiento de patrn no supervisados
Entre ellos se pueden sealar el anlisis de grupo [18, 31], los mtodos
basados en los eigenvectores [32] y los basados en las redes neuronales [33].
Dentro de estos ltimos podemos distinguir las redes de Kohonen [34] y support
vector machines [35, 36].
4.1.1. Anlisis de grupo (anlisis cluster)

Es el ms extendido y usado de los mtodos de reconocimiento de patrn
[31]. Las tcnicas de agrupamiento tienen como objetivo detectar grupos o clusters
Fundamentos tericos
___________________________________________________________________________________________________________
de objetos similares dentro de la matriz de datos estudiada. Los grupos detectados

pueden constituir categoras de objetos para futuros estudios.
Estas tcnicas dependen de la distancia entre objetos y del parmetro
inversamente relacionado con ella denominado similaridad. La similaridad entre dos
objetos (i y j) o entre dos variables viene definida por la siguiente ecuacin:
S ij = 1
d ij
d MAX
donde dij es la distancia entre los objetos y dMAX es la distancia mxima entre dos
objetos en el conjunto de datos. Los dos objetos a mxima distancia tienen valor de
similaridad cero. Las tcnicas de agrupamiento dependen de la medida de la
distancia entre objetos y por ello la mtrica utilizada juega un papel de enorme
importancia.
Se pueden clasificar en dos grupos:
i)
ii)
Mtodos jerrquicos:
a.
Aglomerativos
b.
Divisivos
Mtodos no jerrquicos.
Los mtodos jerrquicos aglomerativos inician a partir de tantos grupos

como nmero de objetos hay en el conjunto de datos y, gradualmente, los objetos
se van uniendo en diferentes grupos hasta que se obtiene un nico grupo final
englobando todos los objetos. Los mtodos jerrquicos aglomerativos pueden
dividirse en cinco subgrupos:
i)
Acoplamiento medio pesado (weighted average linkage),
ii)
Acoplamiento medio no pesado (unweighted average linkage),
iii)
Acoplamiento completo (complete linkage),
iv)
Acoplamiento simple (single linkage),
v)
Mtodo de Ward.
Las tcnicas jerrquicas divisivas comienzan a partir de un solo grupo que

engloba a todos los objetos y se van obteniendo a partir de l sub-conjuntos hasta
que tenemos tantos grupos como objetos en el conjunto de datos inicial.
4.1.2. Estudio de la tendencia al agrupamiento: Minimum

spanning tree (MST)
Hopkins [37] introdujo un ndice de agrupamiento con el principal objetivo

de establecer una medida global del grado de agrupamiento en un conjunto de
muestras. Este ndice fue modificado ms tarde por Fernndez Pierna y Massart
[38] y recientemente Forina et al. [39] sugirieron una estrategia diferente para
medir la tendencia de agrupamiento a travs de un nuevo ndice y mediante la
Fundamentos tericos
___________________________________________________________________________________________________________
conexin de los objetos del conjunto de calibracin con un rbol de expansin

mnima (minimum spanning tree). MST es una nueva tcnica que puede utilizarse
para detectar grupos, medir el grado de no-uniformidad entre las muestras y
detectar outliers.
4.2. Mtodos de reconocimiento de patrn supervisados
Esta clase de tcnicas consiste en elaborar un modelo matemtico a partir

de un conjunto de muestras que forman parte del conjunto de calibracin y que
pertenecen a diversas categoras conocidas. Los modelos calculados pueden
utilizarse para la posterior clasificacin de nuevos objetos dentro de las clases o
categoras correspondientes. A menudo, las muestras adicionales que no componen
el conjunto de calibracin se encuentran formando parte del conjunto de validacin
y sirven para testar la capacidad predictiva del sistema.
Dentro de estos mtodos se encuentran las tcnicas de clasificacin y las
tcnicas de modelado que se pueden dividir en los siguientes grupos:
1) Tcnicas probabilsticas, basadas en estimas de las distribuciones de
probabilidad,
a.
Paramtricas (distribuciones definidas por su media, varianza,

covarianza),
i. Clasificacin: Anlisis Discriminante Lineal (LDA) y
Cuadrtico (QDA).
ii. Modelado: UNEQ.
b.
No paramtricas,
i. Clasificacin y modelado: mtodo de las Funciones
Potenciales.
2) Tcnicas basadas en la distancia, son posibles diferentes mtricas,

a.
Distancias entre objetos,

i. Clasificacin: K-vecinos ms prximos (KNN).
ii. Modelado: tcnicas basadas en la distancia entreobjetos.
b.
Distancias entre objetos y modelos,

i. Clasificacin y modelado: SIMCA
3) Tcnicas basadas en la experiencia, las especificaciones de la

clasificacin se obtienen mediante el procedimiento de prueba-ycorreccin,
a.
Clasificacin: redes neuronales artificiales (ANN), mquinas de

aprendizaje lineal y cuadrtico.
Fundamentos tericos
___________________________________________________________________________________________________________
4.2
.1. Tcnicas de Clasificacin
Consisten en calcular un nico modelo a partir del conjunto de calibracin

que indicar a qu categora de las existentes pertenece una determinada muestra
problema. Dentro de estas tcnicas se pueden sealar el anlisis discriminante
lineal [18] y cuadrtico [19], el mtodo de los K vecinos ms prximos [29],
discriminacin va regresin [19], mquinas de aprendizaje lineal [40] y los
mtodos de Funciones Potenciales [41].
Anlisis Discriminante Lineal (LDA)
Es la primera tcnica de clasificacin multivariante introducida por R. A.

Fisher en 1936. LDA se basa en el anlisis de componentes principales y en la
eleccin del nmero apropiado de variables latentes siguiendo el criterio de mxima
discriminacin entre categoras. Las hiptesis que establece es que los objetos de
cada categora siguen una distribucin normal o Gausiana en la cual la dispersin
viene dada por la matriz de varianza-covarianza y es igual para todas las clases o
categoras. Las variables cannicas se obtienen como una combinacin lineal de las
variables originales [18]. Los scores obtenidos sobre las variables cannicas se
pueden utilizar para realizar una clasificacin con la tcnica de KNN (K vecinos ms
prximos). El anlisis discriminante cuadrtico (QDA) se basa en un criterio similar
al de LDA, sin embargo, en este caso la dispersin viene dada por la matriz de
varianza-covarianza que puede variar de una categora a otra obtenindose
funciones curvilneas, en vez de rectilneas, para la separacin de categoras.
K vecinos ms prximos (KNN)
KNN es una tcnica de clasificacin simple y no paramtrica. Se basa en el

clculo de la distancia entre un objeto desconocido y cada uno de los objetos del
conjunto de calibracin. Una vez que se selecciona el valor de K o nmero de
muestras ms prximas a la desconocida, sta es clasificada dentro de la categora
a la que pertenecen el mayor nmero de objetos K [29].
Discriminacin va regresin
Este tipo de tcnica puede considerarse una calibracin cualitativa porque

en vez de calibrar una variable continua, se calibra un individuo perteneciente a
una categora. A partir de esta consideracin, cualquiera de los mtodos estndar
de regresin como los que se han citado anteriormente puede ser utilizado para
realizar un anlisis discriminante. En el caso de dos categoras y diversas
mediciones (i.e., variables espectroscpicas), es bastante obvia la manera de
utilizar un mtodo de regresin para realizar el anlisis de clasificacin. Se crea una
nueva variable Y (dummy o variable fantasma) con el valor 0 para la categora A y
1 para la categora B. Se realiza una regresin PLS y se calcula un modelo de
regresin a partir de los elementos del conjunto de calibracin. Esta ecuacin se
utiliza para predecir el valor de Y en las nuevas muestras desconocidas que se
clasificarn dentro de la categora A o B dependiendo de que este valor Y se
acerque a 0 o a 1 [19].
Fundamentos tericos
___________________________________________________________________________________________________________
Mtodos de Funciones Potenciales
El mtodo de las Funciones Potenciales [41] es un mtodo tanto de

clasificacin como de modelado de clase. Los mtodos basados en la densidad de
potencial se utilizan cuando no existe una distribucin normal en los datos tratados.
En vez de estimar la funcin de densidad de probabilidad a partir de la media y la
desviacin estndar, estos mtodos usan la densidad local de objetos en el
conjunto de calibracin para calcular una funcin de densidad de probabilidad. Esta
funcin se calcula como suma de contribuciones individuales de los objetos del
conjunto de calibracin [41]. Cada contribucin individual puede tener distintas
formas entre las que la funcin Gausiana es la ms habitual. Cada funcin Gausiana
contiene un parmetro de suavizado u que determina el ancho de cada contribucin
individual. La distribucin de probabilidad en un punto x, es la suma de
contribuciones individuales y, la seleccin del parmetro de suavizado se realiza
mediante un procedimiento de optimizacin (i.e., leave-one-out) [42]. En el caso
de datos multivariantes, el potencial individual en un punto x debe tener en cuenta
las V variables. El parmetro de suavizado es sustituido por el producto de un
factor de suavizado k por la desviacin estndar de cada variable, de forma que
solo el parmetro k debe ser optimizado. Cuando se estudian diversas categoras, el
factor de suavizado k se calcula para cada una de ellas [42].
Desde la aparicin de los mtodos de Funciones Potenciales como tcnicas
de clasificacin en qumica analtica (1950s), han aparecido numerosos mtodos de
clasificacin y tcnicas de agrupamiento basados en el mismo concepto [43, 44]
que se han aplicado tanto para problemas de clasificacin como para la seleccin de
muestras de calibracin [42].
4.2.2. Mtodos de Modelado de Clase
Los mtodos de modelado se distinguen de los anteriores porque solo

consideran una categora, a menudo la nica categora del problema. Calculan un
modelo para cada categora que discrimina entre dicha categora y el resto del
universo. El control de calidad es la principal fuente de problemas de modelado de
clase. Dentro de estas tcnicas podemos resaltar SIMCA [45] y UNEQ [46] como los
ms representativos.
SIMCA (Soft Independent Modelling of Class Analogy)
SIMCA fue la primera tcnica de modelado de clase introducida en la

qumica por Svante Wold [45]. No realiza ninguna hiptesis sobre la distribucin de
las variables; el modelo de cada categora se calcula de manera independiente sin
informacin externa de otras categoras. El modelo matemtico se basa en los
componentes principales de cada categora; generalmente estos se obtienen como
eigenvectores de la matriz de coeficientes de correlacin de la categora, i.e.,
centrando o autoescalando los datos de cada clase de manera independiente. Los
componentes principales se calculan sobre las matrices de datos originales
mediante el algoritmo de Nipals generalmente.
Fundamentos tericos
___________________________________________________________________________________________________________
UNEQ (Unequal class models)
UNEQ es la versin de modelado del anlisis discriminante cuadrtico

propuesto por Derde y Massart [46]. Es la tcnica de modelado ms simple basada
en una distribucin normal mientras que SIMCA es una tcnica algo ms elaborada
basada en los componentes principales. Ambas tcnicas consideran cada categora
por separado. Cuando se utiliza UNEQ es preferible no escalar los datos [18] ya que
este proceso es inherente al clculo del modelo de clase llevado a cabo por UNEQ.
5. Seleccin de muestras de calibracin

El principal objetivo en un estudio analtico es la obtencin de un modelo
para la prediccin de nuevas muestras, todas las posibles fuentes de variacin que
puedan ser encontradas en el futuro deben estar incluidas en el conjunto de datos
de calibracin. Todos los componentes qumicos y parmetros fsicos han de estar
presentes en las muestras de calibracin en un rango de concentracin o valores
como mnimo tan amplio o preferentemente ms amplio que aquel esperado para
las muestras a predecir en el futuro. Por ello, para obtener un buen modelo de
calibracin multivariante se necesitan:
-
modelos estadsticos adecuados,
procedimientos de estimacin adecuados, y
buenos datos experimentales.
En el siguiente apartado se recogen las diferentes estrategias para la

seleccin de conjuntos apropiados de datos para la calibracin; las ventajas,
inconvenientes y cundo es ms adecuado utilizar cada uno de ellos.
Normalmente, cuanto mayor es el nmero de muestras utilizado para la
calibracin, mejor es la capacidad predictiva del modelo utilizado y menor el error
en prediccin [47]. Se ha demostrado que no slo es importante el nmero de
muestras sino la forma en la que son elegidas dichas muestras [48]. El anlisis NIR
es, a menudo, simple y no costoso; sin embargo, no puede decirse lo mismo del
mtodo de referencia. Debido a ello, es necesario llegar a un compromiso entre el
nmero de muestras a ser analizadas y el error en prediccin que se va a obtener.
Existen diferentes estrategias de seleccin de buenas muestras de
calibracin y es importante resaltar que no solo es importante la capacidad de
prediccin del modelo construido, sino tambin la capacidad del mismo para
detectar problemas o errores [19].
La situacin real ms simple que se puede encontrar es cuando es posible
generar artificialmente las muestras en el laboratorio. En ese caso, se tiene un
control total sobre la composicin Y de la muestra y se puede, y debe, utilizar un
diseo experimental para decidir la composicin de las muestras de calibracin [28,
49]. Los datos X se obtendrn mediante la medicin de los espectros NIR con un
espectrofotmetro NIR. Por tanto, los datos X no pueden ser diseados aunque s
es posible un control completo sobre Y. An en el caso en que es posible generar
las muestras en el laboratorio, es recomendable incluir algunas de las muestras
Fundamentos tericos
___________________________________________________________________________________________________________
reales extradas del proceso en estudio para asegurarse de que se incluyen en el

mismo todas las fuentes de variacin inesperadas [50].
Sin embargo, a menudo la situacin real es bastante diferente. En la
mayora de los casos slo se dispone de muestras reales y no es posible utilizar un
diseo de experimentos. Este es el caso de un producto natural como el vinagre,
que proviene de un proceso de produccin industrial. La creacin de muestras
artificiales en un laboratorio controlando cada uno de los parmetros Y es muy
difcil o incluso imposible. Algunos parmetros Y si que pueden modificarse en las
muestras (i.e., las variables qumicas) pero otros, como el contenido en slidos,
cenizas (variables fsicas), no pueden ser diseadas por el investigador.
En este caso, ninguna de las variables, ni las variables predictoras X ni las
variables respuesta Y, pueden ser diseadas o planificadas. La solucin ser
encontrar una estrategia en la que se utilicen principios de diseo para seleccionar
un reducido nmero de muestras de calibracin que posean tanta informacin como
una seleccin aleatoria ms amplia. Cuando se dispone de un gran nmero de
muestras, se puede medir el espectro NIR de todas ellas y seleccionar a partir de
las variables X recogidas un conjunto de muestras representativo que cubra todo el
espacio de las variables X de la mejor manera posible. Normalmente, ese conjunto
debe tambin representar bien el espacio de las variables Y, aunque esto debe ser
verificado. El anlisis qumico con el mtodo de referencia, que suele ser
habitualmente el paso ms costoso tanto en tiempo como en dinero, puede ser
restringido al conjunto de muestras seleccionadas. Existen diferentes mtodos de
seleccin de dichas muestras de calibracin, pero algunos de ellos son ms
apropiados que otros.
5.1 Seleccin aleatoria
Consiste en utilizar para la calibracin muestras seleccionadas

aleatoriamente. Este procedimiento funciona siempre y cuando se elija un nmero
adecuado de muestras, sin embargo, el coste de los anlisis de Y es tambin un
factor limitante adems de requerir tiempo de anlisis. Este es el mtodo ms
simple pero es posible que se pierda algo de variabilidad de la variable de
referencia.
5.2 Conocimiento previo del sistema
Si todas las fuentes de variacin son suficientemente conocidas, las

muestras pueden ser seleccionadas en base al conocimiento previo del sistema. Sin
embargo, esta situacin es bastante rara y es muy probable que se olvide alguna
de las fuentes de variacin.
Fundamentos tericos
___________________________________________________________________________________________________________
5.3. Mtodo basado en el concepto D-optimal.
El criterio D-optimal minimiza la variancia de los coeficientes de regresin.

Puede demostrarse que esto es equivalente a maximizar la matriz de covarianzas.
El criterio proviene de la regresin multivariante y del diseo de experimentos. En
el contexto de seleccin de muestras de calibracin, la maximizacin de la varianza
lleva a la seleccin de las muestras con caractersticas relativamente extremas y
localizadas en los lmites del dominio de calibracin [51, 52].
5.4. Algoritmo de Kennard-Stone
Kennard y Stone propusieron un mtodo secuencial que debe cubrir la

regin experimental de manera uniforme que es lo que se pretende al utilizar un
diseo de experimentos [53]. El procedimiento consiste en seleccionar como
siguiente muestra (objeto candidato) aquel que se encuentra a mayor distancia de
los objetos previamente seleccionados (objetos de calibracin). La distancia
utilizada normalmente es la distancia Euclidea aunque es tambin posible, y
probablemente es mejor, utilizar la distancia de Mahalanobis. En un primer
momento, se seleccionan los dos objetos que se encuentran a mayor distancia
dentro del espacio experimental. De todos los puntos candidatos, se selecciona
aquel que est ms alejado de los dos primeros previamente seleccionados y se
aade al conjunto de las muestras de calibracin. Para ello, se determina la
distancia entre cada punto candidato i0 y cada punto i que ha sido ya seleccionado
y se determina cul es la menor distancia ( min (d i,i0 )) . De entre estos valores se
i
selecciona
aquel
para
el
que
la
distancia
sea
mxima
d seleccionado = max(min(d i , i0 )) . En ausencia de fuertes irregularidades en el factor
i0
espacio, el procedimiento comienza con la seleccin del conjunto de puntos

prximos a aquellos seleccionados mediante el mtodo D-optimal, i.e., en los
lmites del conjunto de datos (ms el punto central). Entonces se procede a rellenar
el espacio de calibracin. Kennard y Stone denominaron a su procedimiento
algoritmo de trazado uniforme; proporciona una distribucin plana de datos que,
como se explic antes, es la ms adecuada para el modelo de regresin.
El programa DIOPT dentro del software V-Parvus [54] del profesor Forina et
al. permite realizar la seleccin del conjunto de datos de calibracin ptimo para
problemas de regresin. Ofrece tres opciones, dos basadas en el diseo D-optimal,
para un modelo lineal y cuadrtico, y uno basado en el algoritmo de KennardStone. El algoritmo del programa de Forina trabaja con las distancias Euclideas. Por
tanto, el pretratamiento de los datos es muy importante a la hora de seleccionar las
muestras. En el caso de una calibracin multivariante, normalmente el primer
eigenvector obtenido con los datos centrados contiene gran parte de la varianza del
sistema, por tanto, el uso de estos eigenvectores en el algoritmo de Kennard-Stone
lleva a la seleccin de muestras slo en base a su posicin sobre el primer
componente. Por esta razn, se sugiere un autoescalado de los datos.
Fundamentos tericos
___________________________________________________________________________________________________________
5.5. Metodologa de Ns e Isaksson
Ns propuso un procedimiento basado en el anlisis de grupos. Se propone

llevar a cabo un anlisis de grupos hasta que el nmero de grupos coincida con el
nmero de muestras de calibracin que se quieren seleccionar [55]. De cada grupo,
se selecciona el objeto que est ms alejado del punto central. De esta forma, se
cubren de manera adecuada los extremos pero no necesariamente el centro del
dominio de los datos. En uno de sus trabajos, Ns e Isaksson [56] tratan e ilustran
con ejemplos el problema de seleccionar muestras para la calibracin cuando la
variable Y puede ser diseada o no. Del trabajo se pueden extraer los tres
principios siguientes:
a.
Todos los tipos de combinaciones de variables deben estar representados.
b.
La variacin en todas las direcciones debe ser la mayor posible, pero

limitada a la regin de inters.
c.
Las muestras de calibracin deben estar lo mas homogneamente

distribuidas posible a lo largo de la regin definida por los dos principios
anteriores.
Los pasos a seguir son los siguientes:

1. Realizar el anlisis de componentes principales (PCA) sobre el conjunto de
datos X inicial y decidir cuantos componentes (de 3 a 7 normalmente)
son relevantes para el constituyente de inters.
2. Realizar un anlisis de grupo sobre los scores obtenidos del PCA y parar
el anlisis cuando haya tantos grupos como el nmero de muestras que
se pretende seleccionar. En este paso se pueden utilizar las diversas
tcnicas de agrupamiento existentes.
3. Seleccionar una muestra de cada grupo. Estas muestras seleccionadas
son las muestras de calibracin y existen diferentes formas de elegirlas.
Una posibilidad es elegir aquella muestra de cada grupo que se encuentra
ms alejada del centro de los datos, sin embargo, existen otras
posibilidades de hacerlo.
5.6 Mtodos basados en las Funciones Potenciales y los

Algoritmos Genticos
Pizarro et al. [42] desarrollaron dos nuevos mtodos para extraer

subconjuntos de muestras representativos a partir de un conjunto de datos mayor,
basados en la teora de las Funciones Potenciales [41] y los Algoritmos Genticos
[22]. El primero de ellos est basado en el uso de la estima de la probabilidad de
densidad de distribucin multivariante a travs de la tcnica de las Funciones
Potenciales. El primer objeto es seleccionado del subconjunto en el cual la densidad
de probabilidad es mxima. Entonces se resta de la distribucin inicial la
contribucin de dicho objeto multiplicada por un factor de seleccin y se calcula una
nueva distribucin corregida. Este procedimiento se repite hasta seleccionar el
nmero de muestras deseado.
Fundamentos tericos
___________________________________________________________________________________________________________
El segundo procedimiento utiliza los Algoritmos Genticos para seleccionar

el subconjunto de muestras que reproduce la matriz de varianzas-covarianzas con
el mnimo error posible [42].
En estudios desarrollados por Pizarro et al. [42] los resultados obtenidos
con el mtodo basado en las Funciones Potenciales fueron generalmente ms
satisfactorios cuando el conjunto de datos original posea una distribucin de
probabilidad muy regular, sin embargo, cuando se trabajaba con conjuntos de
datos reales con distribuciones complejas, se observ que el mtodo de los
Algoritmos Genticos seleccionaba los objetos prximos a los lmites del dominio
mientras que el mtodo de las Funciones Potenciales seleccionaba un porcentaje
demasiado elevado de objetos en el centro del dominio.
5.7. Mtodo de Puchwein
En el mtodo propuesto por Puchwein [57], el primer paso consiste en

clasificar las muestras de acuerdo con su distancia de Mahalanobis al centro del
conjunto de datos y seleccionar el punto ms extremo. Se elige una distancia lmite
y se excluyen todas las muestras que estn a menor distancia del punto inicial que
la fijada. Se selecciona entonces, entre los puntos que quedan, la muestra que est
a mayor distancia del centro, y el procedimiento anterior se repite, se eliminan las
muestras que quedan cerca de la segunda muestra elegida y se elige un nuevo
punto extremo hasta que no quedan ms puntos. El nmero de puntos
seleccionados depende del tamao del conjunto de datos y de la distancia lmite
fijada: si es pequea, se seleccionarn muchos puntos y si es grande, muy pocos.
El procedimiento debe repetirse varias veces con diferentes valores de distancia
lmite hasta que se elige la distancia lmite para la cual el nmero de muestras
seleccionadas es el deseado.
5.8. Mtodo Duplex
El paso de validacin del modelo requiere la creacin de diferentes

subconjuntos a partir del conjunto de datos inicial. Generalmente se necesitan dos
subconjuntos: el conjunto de calibracin y el de validacin. A primera vista,
podramos utilizar uno de los algoritmos anteriormente descritos para dividir el
conjunto de datos en estos dos subconjuntos. Sin embargo, debido al paso de
seleccin de muestras, los subconjuntos no seran independientes de no ser que
aplicsemos una seleccin aleatoria de muestras. La validacin en estas
circunstancias podra llevar a una subestima del error en prediccin [58]. El mtodo
de seleccin que parece solucionar este problema es una modificacin del mtodo
de Kennard-Stone hecha por Snee, llamado mtodo Duplex [59]. En el primer paso,
los dos puntos que se encuentran ms alejados se seleccionan para el conjunto de
calibracin. De los puntos restantes, los dos objetos que se encuentran ms
alejados entre s se seleccionan para el conjunto de validacin. En el tercer paso, el
punto que se encuentra ms alejado de los puntos elegidos para el conjunto de
calibracin se selecciona y se incluye en el mismo. El procedimiento se repite
seleccionando esta vez un punto para el conjunto de validacin, el punto que se
Fundamentos tericos
___________________________________________________________________________________________________________
encuentra ms alejado de los puntos pertenecientes a ese conjunto. Los puntos se

van asignando alternativamente a los conjunto de calibracin y validacin
repitiendo el mismo procedimiento. Este sistema selecciona conjuntos de
calibracin y validacin representativos y de igual tamao.
5.9. Otros procedimientos manuales
Otros procedimientos basados en los mismos principios pero utilizados de

manera manual tambin pueden ser vlidos a la hora de seleccionar muestras de
calibracin. Uno de ellos est basado en la inspeccin visual de los objetos y la
seleccin de las muestras a partir del diagrama de scores de, por ejemplo, los tres
primeros componentes principales.
5.10. Parmetro de evaluacin de la seleccin del conjunto de

muestras ms representativo
A partir de todas las metodologas anteriormente propuestas, los mtodos

de Kennard-Stone, Duplex y Puchwein, necesitan un mnimo conocimiento a priori
sobre el conjunto de datos. Adems, proporcionan un conjunto de datos de
calibracin homogneamente distribuido en el espacio (distribucin bidimensional).
Sin embargo, el mtodo de Puchwein debe ser aplicado varias veces hasta dar con
el valor de la distancia lmite apropiado. El mtodo Duplex parece ser el ms idneo
para la eleccin de los conjuntos de datos de calibracin y validacin ya que genera
subconjuntos independientes entre s.
Se defini un parmetro concreto para evaluar lo bueno que es el
subconjunto de datos seleccionado y lo bien que representa el conjunto de datos
inicial. El parmetro se calcul para cada uno de los subconjuntos de calibracin
seleccionados mediante los mtodos anteriores y es el siguiente:
R=
1
sum(sum(cov (Matrix) cov (Submatrix))2 )
donde Matrix es la matriz inicial de datos y Submatrix es el subconjunto de datos

seleccionado a partir de la matriz inicial.
Esta respuesta R debe ser mxima, lo cual significa que el subconjunto de
datos seleccionado contiene gran parte de la variabilidad contenida en el conjunto
de datos inicial ya que en esta variabilidad se encuentra toda la informacin fsica y
qumica contenida en el sistema.
5.11. Nmero de muestras que deben seleccionarse
El nmero de muestras que deben ser incluidas en el conjunto de datos de

calibracin es normalmente elegido por el analista. Este nmero est relacionado
Fundamentos tericos
___________________________________________________________________________________________________________
con la complejidad final del modelo. El trmino complejidad debe ser entendido
como el nmero de componentes principales elegido. Un estndar de la ASTM
(American Society for Testing and Materials) establece que, si la complejidad es
menor que tres, como mnimo deben usarse 24 muestras en el conjunto de datos
de calibracin. Si es igual o mayor que cuatro, como mnimo son necesarios seis
objetos por grado de complejidad [50, 60, 61]. Sin embargo, el nmero de objetos
seleccionados por componente puede ser variable segn el sistema de que se trate,
los resultados que se pretendan obtener y lo costosos que sean los anlisis de
referencia que se deban realizar. Por todo ello, el profesor Forina seala que tres
muestras por componente capturado para describir el sistema en estudio seran
suficientes para obtener un conjunto de muestras de calibracin representativo del
conjunto de muestras de una categora.
6. Mtodos de seleccin de variables

Las estrategias de seleccin de variables intentan encontrar las variables
ms importantes y relevantes con el fin de basar el proceso de calibracin en dichas
variables seleccionadas en vez de en el conjunto total de datos [19]. Esta seccin
recoge los principales mtodos de seleccin de variables y una breve discusin
sobre sus aspectos computacionales y base estadstica.
6.1. Mtodos de seleccin stepwise, forward y backward
La estrategia forward, est basada en la seleccin consecutiva de las

variables que proporcionan los mejores resultados en la regresin. En el caso de
seleccin de variables NIR, cada variable de manera individual proporciona pobres
resultados de ajuste del modelo y, por ello, la primera variable a seleccionar se
elige de manera aleatoria. A partir de esta primera variable se van aadiendo otras
variables hasta conseguir un conjunto de ellas que den buenos resultados de
calibracin. Existen adems distintos procedimientos para eliminar variables que no
contribuyen positivamente a la regresin (stepwise multiple linear regresin) o
alguna modificacin del mismo. La estrategia de eliminacin backward consiste en
lo contrario que la anterior. Se parte del conjunto total de variables y se van
eliminando las menos interesantes hasta llegar al nmero de variables que se
desea seleccionar.
Ambos mtodos estn basados en el test de la F de Fisher para juzgar la
importancia de las variables [28].
6.2. Seleccin de variables mediante Algoritmos Genticos
La idea detrs de los Algoritmos Genticos es copiar la evolucin, donde

variaciones aleatorias en la informacin gentica de una poblacin combinada con
la seleccin de los mejores individuos, llevan a un progresivo perfeccionamiento de
Fundamentos tericos
___________________________________________________________________________________________________________
una raza o especie. Holland [62] fue el pionero en el uso de esta tcnica. La clave
de este procedimiento es la codificacin del problema o individuos a estudiar, de
forma que se puedan dar generaciones y mutaciones de las mismas de una manera
natural y midiendo un parmetro de adecuacin en funcin de la solucin que se
pretenda obtener; el objetivo final ser seleccionar los individuos ms apropiados.
Para el problema de seleccin de variables, la forma natural de codificar la
secuencia es mediante el uso de ceros (0) y unos (1) formando un cdigo binario.
Cada posible subconjunto de variables se puede representar como una serie de
ceros y unos apareciendo 1 si la variable en dicha posicin est presente y 0 si no
est presente. La longitud de la serie codificada ser igual al nmero de variables.
Mediante la combinacin, seleccin de los mejores individuos (elitistas) y la
mutacin de las series en un porcentaje fijado, se seleccionar el subconjunto de
variables ms apropiado para el problema a resolver o el que proporcione mejor
ajuste del modelo o prediccin en la regresin [19, 63, 64].
6.3. Jack-knife para la seleccin de variables en la regresin PLS
Mtodo propuesto por Westad y Martens [65, 66] para estimar la

variabilidad de las estimas de los valores de los parmetros en diferentes tipos de
modelos. En el contexto de PLSR, el principio de jack-knifing se usa para estimar
los errores estndar de las estimas de los coeficientes de regresin del modelo PLS.
Esas estimas son muy difciles de calcular analticamente, sin embargo, la tcnica
emprica de jack-knifing hace que se puedan obtener estas estimas de una forma
ms fcil. El principio de jack-knife es una tcnica muy verstil que est basada en
un principio similar al de la cross-validacin. Elimina una (o varias muestras) de
una vez y calcula los coeficientes del modelo para cada subconjunto de variables
seleccionadas. El conjunto de vectores de coeficientes de regresin proporciona
informacin sobre la variabilidad de los mismos y puede utilizarse para obtener
estimas de los errores estndar de los mismos. En Westad y Martens [65], el
mtodo de jack-knife est aplicado mediante eliminacin backward, sin embargo,
se puede usar tambin con ciertos tipos de seleccin forward. Debe mencionarse
que en dicho trabajo, en vez de eliminar las variables de una en una, se eliminan
en grupos haciendo la estrategia ms rpida que la eliminacin backward normal.
Estas variables se eliminan en funcin a un parmetro crtico t, lo cual acelera el
proceso de seleccin en el caso de existir un gran nmero de variables como en el
caso de los datos espectroscpicos. A pesar de todo, las implicaciones prcticas de
esta estrategia tan simple, deben investigarse en cada caso concreto antes de
llegar a conclusiones generales [19].
6.4. SELECT
SELECT es un programa existente dentro del software quimiomtrico VParvus [54] que genera un conjunto de variables decorrelacionadas basndose en
sus coeficientes de correlacin con una respuesta y. SELECT busca la variable con
el mximo valor de coeficiente de correlacin con una variable respuesta
determinada, la selecciona y la decorrelaciona con respecto a las otras variables. A
Fundamentos tericos
___________________________________________________________________________________________________________
continuacin, SELECT busca entre las otras variables otra con el mximo valor de
coeficiente de correlacin con y y as sucesivamente hasta que se selecciona el
nmero deseado de variables [29].
7. Mtodos de calibracin robusta (ensemble methods)

Actualmente existe una creciente atencin en la literatura por el uso de los
llamados mtodos en conjunto (ensemble methods) tanto en regresin
multivariante como en clasificacin. La idea detrs de estos mtodos es la
generacin de un gran nmero de predictores alternativos obtenidos a partir de
datos perturbados y la posterior combinacin de dichos predictores mediante
estrategias de promediado o seleccin de los ms idneos [67]. Entre este tipo de
tcnicas, el mtodo ms conocido es quizs bootstrap aggregating (bagging o
empaquetado) [67]. Esta tcnica consiste en generar un gran nmero de conjuntos
de datos perturbados mediante muestreo y reemplazado a partir de los datos
originales. Otro modo sencillo de generar un gran nmero de predictores es la
adicin de distintos tipos de ruido a los datos originales. Esto puede hacerse de
muy diversas formas y el objetivo es simular los posibles cambios que puedan
darse en un futuro en la estructura de los datos. Dichos cambios pueden deberse a
cambios en la preparacin de la muestra, derivas instrumentales u otras
perturbaciones que puedan afectar las medidas de manera substancial. Los
mtodos ensemble parecen poseer propiedades interesantes en ambos campos:
regresin y clasificacin. Existen diferentes ejemplos en la literatura en lo referente
a estas tcnicas usadas en conexin con otras tcnicas de clasificacin y regresin
[67-72].
8. Tests de hiptesis y herramientas estadsticas

8.1. Comparacin de modelos de clasificacin: Test de McNemar
El test de McNemar [73] es un caso particular del test de Fisher [74]. El

objetivo es aplicar un procedimiento estadstico para decidir si dos mtodos tienen
la misma precisin. Dos algoritmos A y B se construyen y validan con el mismo
conjunto de datos. La hiptesis nula es que ambos algoritmos A y B tengan el
mismo error, en otras palabras, que proporcionen el mismo porcentaje de muestras
bien predichas. El estadstico de McNemar se calcula a partir de la siguiente
expresin:
Indice de McNemar =
( n01 n10 1 )2
n01 + n10
donde n01 es el nmero de muestras mal clasificadas solamente por el algoritmo A

y n10 es el nmero de muestras mal clasificadas solamente por el algoritmo B.
Fundamentos tericos
___________________________________________________________________________________________________________
El test de McNemar est basado en una distribucin 2 con un grado de

libertad (si el nmero de muestras es mayor de veinte). El valor crtico de 2 con
un nivel de significacin 0.05 (: error de tipo I), escrito (21 ,0.95 ) , es 3.8414. Si se
cumple la hiptesis nula, la probabilidad de tener un valor del estadstico mayor
que (21 ,0.95 ) es menor del 5%. Si el valor del estadstico de McNemar es mayor
que el valor crtico, la hiptesis nula es falsa y, por tanto, los dos algoritmos son
significativamente diferentes.
8.2. Comparacin de modelos de regresin
Cuando se comparan mtodos de calibracin y se quiere determinar si la

diferencia observada entre los errores en prediccin reportados por cada uno de los
diferentes modelos es real o simplemente aparente, se debe utilizar una ANOVA.
Existen dos posibles situaciones a tratar:
-
Cuando los modelos han sido validados con el mismo conjunto de datos
(ya sea mediante cross-validacin o mediante conjunto de datos de
validacin externo).
Cuando los modelos han sido construidos sobre los mismos datos de
calibracin y validados con conjuntos de datos de validacin
independientes.
En el primero de los casos anteriores, la situacin que se presenta es la

siguiente: se tienen dos modelos de calibracin para predecir una variable y a partir
de un conjunto de variables x. La calibracin puede haberse realizado sobre las
mismas o distintas muestras de calibracin. Lo que importa es que se hayan
validado con los mismos datos y, para un x dado, cada mtodo produzca una
prediccin estimada de y (
y ). Supongamos que los mtodos se han validado a
partir de un conjunto externo de muestras de validacin Nvalidacion de x e y
conocidas, mediante la prediccin de y (
y ) utilizando cada uno de los mtodos.
Como y se conoce, se puede obtener un conjunto de errores de prediccin
(
y y) para cada mtodo [19].
Una forma de expresar los resultados de cada modelo de calibracin es a
travs de la media (SESGO, Ec. 3.3.23), la desviacin estndar (SEP) o la raz
cuadrada del error medio de prediccin al cuadrado (RMSEP, Ec. 3.3.22). La idea
bsica en la comparacin de dos mtodos de calibracin a travs del RMSEP es que
los cuadrados de los errores para cada muestra y modelo de calibracin constituyen
una tabla de dos dimensiones con una estructura similar a una tabla de ANOVA de
dos vas [75]. El modelo para el cuadrado de los errores se asume como:
(
y ij y ij )2 = + i + j + ij + eij
donde el ndice j hace referencia al mtodo e i a la muestra. El smbolo i es el

efecto de la muestra i, i es el efecto del mtodo de calibracin j, ij es la
Fundamentos tericos
___________________________________________________________________________________________________________
interaccin entre muestra y mtodo y eij es el error aleatorio. Los efectos de la

muestra i engloban el efecto de que los mtodos estn validados con las mismas
muestras. Sin la existencia de rplicas en el modelo, los trminos eij y ij son
indistinguibles y, por tanto, la ecuacin puede escribirse:
(
y ij y ij )2 = + i + j + eij
Si las muestras de validacin se han tomado de manera aleatoria partir de

una poblacin de muestras, i y ij deben tratarse como efectos de ANOVA
aleatorios y, por ello, i y eij en la segunda ecuacin (Ec. 3.3.27) pueden
considerarse variables aleatorias. En un modelo de mezclas sin interacciones,
comprobar la hiptesis de los efectos fijos j s es lo mismo que comprobarla en un
modelo regular de efectos fijos. Por tanto, una ANOVA estndar de dos vas y
efectos fijos sin interacciones puede usarse para testar las diferencias entre esos
mtodos de calibracin.
Si, por el contrario, los modelos de regresin han sido calculados a partir de
los mismos datos de calibracin y validados en diferentes conjuntos de datos de
validacin independientes entre s, la comparacin de los errores en prediccin se
realizar mediante una ANOVA de una va.
Resumiendo, la comparacin de dos mtodos de calibracin se realizar a
partir de una ANOVA de dos vas de la diferencia entre las respuestas predichas
y
y el valor y de referencia si los modelos han sido validados con el mismo conjunto
de datos de validacin, y mediante una ANOVA de una va si han sido calibrados
con el mismo conjunto de datos pero validados con conjuntos de datos de
validacin independientes.
En el caso en que los modelos hayan sido validados por cross-validacin, en
vez de con un conjunto de validacin externo, el procedimiento de comparacin de
los modelos es similar al primero de los casos anteriores y se denomina CVANOVA
[76]. La CVANOVA est basada en un anlisis de varianza de dos vas de los
resultados de prediccin, el tipo de mtodo empleado corresponde con la primera
va y el nmero de muestra con la segunda. Las muestras de calibracin se
consideran representativas del conjunto de la poblacin y, por tanto, el efecto de la
muestra se considera aleatorio.
8.3. Comparacin de la exactitud de dos mtodos
La exactitud del mtodo de referencia y el mtodo espectroscpico se

compara a travs del test de Student de la t para las diferencias entre el valor de
referencia y el estimado para (n-1) grados de libertad y nivel de significacin para
un grupo n de muestras. Con este test se determinar si el valor de la media para
las diferencias de las muestras pareadas es estadsticamente igual a cero, lo cual
indicar si los dos mtodos miden igual. Si el valor de la tcalculada es menor que el
valor de la tcritica entonces se cumple la hiptesis nula (la media de las diferencias es
Fundamentos tericos
___________________________________________________________________________________________________________
igual a cero) y se podr afirmar que ambos mtodos poseen la misma exactitud
[77].
Fundamentos tericos
___________________________________________________________________________________________________________
REFERENCIAS
[1] Forina, M., Introduzione alla Chimica Analitica con elementi di Chimiometra. ECIG
(Edizioni Culturali Internazionali Genova), 1 edizione, 1993.
[2] Todeschini, R., Introduzione alla Chimiometria. EdiSES, Napoli, 1998.
[3] Savitzky, A., Golay, M.J.E. (1964), Smoothing and differentiation of data by simplified
least squares procedure. Anal. Chem., 36: 1627-1639.
[4] Bouveresse, E., Maintenance and Transfer of Multivariate Calibration Models Based on
Near-Infrared Spectroscopy, doctoral thesis, Vrije Universiteit Brussel, 1997.
[5] Barnes, R.J., Dhanoa, M.S., Lister, S.J. (1989), Standard normal variate transformation
and de-trending of near-infrared diffuse reflectance spectra. Appl. Spectrosc., 43: 772777.
[6] Barnes, R.J., Dhanoa, M.S., Lister, S.J. (1993), Correction of the description of
Standard Normal Variate (SNV) and De-Trend transformations in Practical Spectroscopy
with Applications in Food and Beverage Analysis - 2nd. Edition. J. Near Infrared
Spectrosc., 1: 185-186.
[7] Wold, S., Antic, H., Lindgren, F., hman, J. (1998), Orthogonal signal correction of
near-infrared spectra. Chemom. Intell. Lab. Syst., 44(1-2): 175-185.
[8] Svensson, O., Kourti, T., MacGregor, J.F. (2002), A Comparison of Orthogonal Signal
Correction Algorithms and Characteristics. J. Chemometr., 16: 176-188.
[9] Blanco, M., Coello, J., Montoliu, I., Romero, M.A. (2001), Orthogonal signal correction
in near infrared calibration. Anal. Chim. Acta, 434(1), 125-132.
[10] Sjblom, J., Svensson, O., Josefson, M., Kullberg, H., Wold, S. (1998), An
evaluation of orthogonal signal correction applied to calibration transfer of near infrared
spectra. Chemom. Intell. Lab. Syst., 44: 229-244,
[11] Andersson, C.A. (1999), Direct orthogonalization, Chemometr. Intell. Lab., 47: 51-63.
[12] Fearn, T. (2000), On orthogonal signal correction. Chemom. Intell. Lab. Syst., 50: 4752.
[13] Wise, B.M., Gallagher, N.B.,http://www.eigenvector.com/MATLAB/OSC.html
[14] Martens, H., Stark, E. (1991), Extended multiplicative signal correction and spectral
interference subtraction: New preprocessing methods for near infrared spectroscopy. J.
Pharmaceut. Biomed., 9(8): 625-635.
[15] Pedersen, D.K., Martens, H., Pram Nielsen, J., Balling Engelsen, S. (2002), Light
absorbance and light scattering separated by Extended Inverted Multiplicative Signal
Correction (EIMSC). Analysis of NIT spectra of single wheat seeds. Appl. Spectrosc.,
56(9): 1206-1214.
[16] Martens, H., Pram Nielsen, J., Balling Engelsen, S. (2003), Light Scattering and
Light Absorbance Separated by Extended Multiplicative Signal Correction. Application to
Near. Infrared Transmission Analysis of Powder Mixtures. Anal. Chem., 75(3): 394-404.
[17] Martens, H.; Ns, T., Multivariate Calibration, Wiley, Chichester, England, 1989.
[18] Massart, D.L., Vandeginste, B.G.M., Deming, S.N., Michotte, Y., Kaufman, L., Data
Handling in Science and Technology, volume 2. Chemometrics: a textbook. Elsevier
Science Publishers, Amsterdam, The Netherlands, 1988.
Fundamentos tericos
___________________________________________________________________________________________________________
[19] Ns, T., Isaksson, T., Fearn, T., Davies, T., A User-Friendly Guide to Multivariate
Calibration and Classification. NIR Publications, Chichester UK, 2002.
[20] Van Laarhoven, P.J.M., Aarts, E.H.L., Simulated Annealing: Theory and Applications.
Reidel, Dordrecht, 1987.
[21] Kalivaas, J.H. (1992), Optimization using variations of simulated annealing. Chemom.
Intell. Lab. Syst., 15: 1-12.
[22] Goldberg, D.E., Genetic Algorithms in Search, Optimization, and Machine Learning,
Addison-Wesley, Reading, MA, 1989.
[23] Zupan, J., Gasteiger, J., Neural Networks for Chemist. An introduction. VCH eds.
Weinheim, Germany, 1993.
[24] Long, J.R., Gregoriou, V.G., Gemperline, P.J. (1990), Spectroscopic calibration and
quantitation using artificial neural networks. Anal. Chem., 62: 1791-1797.
[25] Jackson, J.E., A user's guide to principal components, John Wiley, New York, 1991.
[26] Malinowski, E.R., Factor analysis in chemistry, 2nd. Ed., John Wiley, New York, 1991.
[27] Wold, S., Esbensen, K., Geladi, P. (1987), Principal Component Analysis. Chemom.
[28] Massart, D.L., Vandeginste, B.M.G., Buydens, L.M.C., De Jong, S., Lewi, P.J.,
Smeyers-Verbeke, J., Handbook of chemometrics and qualimetrics: part A, Elsevier,
Amsterdam, 1997.
[29] Forina, M., Lantieri, S., Armanino, C., Cerrato-Oliveros, C., Users Manual of VPARVUS 2003: An Extendable Package of Programs for Data Explorative Analysis,
Classification and Regression Analysis, Dipartimento di Chimica e Tecnologie
Farmaceutiche ed Alimentari, Genova, Italy.
[30] Stone, M. Cross-validation choice and assessment of statistical prediction (with
discussion). J. Roy. Stat. Soc. B Met., 36: 111-147.
[31] Massart, D.L., Kaufman, L., Interpretation of Analytical Chemical Data by the Use of
Cluster Analysis, Wiley, New York, 1983.
[32] Glover, D.M., Hopke, P.K. (1992), Exploration of multivariate chemical data by
projection pursuit. Chemom. Intell. Lab. Syst., 16: 45-59.
[33] Pao, Y.-H., Adaptive Pattern Recognition and Neural Networks, Addison-Wesley,
Reading, MA, 1989.
[34] Kohonen, T., Self-organization and Associative Memory, third ed., Springer-Verlag, New
York, 1989.
[35] Cristianini, N., Shave-Taylor, J., An Introduction to Support Vector Machines,
Cambridge University Press, Cambridge, 2000.
[36] Vapnik, V., Statistical Learning Theory, Willey-Interscience, New York, 1998.
[37] Hopkins, B. (1954), A new method for determining the type of distribution of plant
individuals. Ann. Bot. London, 18: 213-227.
[38] Fernndez Pierna, J.A., Massart, D.L. (2000), Improved algorithm for clustering
tendency. Anal. Chim. Acta, 408(1-2): 13-20.
[39] Forina, M., Lantieri, S., Esteban-Dez, I. (2001), New Index for Clustering Tendency.
Anal. Chim. Acta, 446: 59-70.
Fundamentos tericos
___________________________________________________________________________________________________________
[40] Nilsson, N.J., Linear Learning Machines, McGraw-Hill, New York, 1965.
[41] Coomans D., Broeckaert, I., Potential Pattern Recognition in Chemical and Medical
Decision Making, Research Studies Press, Letchworth, 1986.
[42] Pizarro-Milln, C., Forina, M., Casolino, C., Leardi, R. (1998), Extraction of
representative subsets by potential functions method and genetic algorithms. Chemom.
[43] Forina, M., Armanino, C., Leardi, R., Drava, G. (1991), A class-modelling technique
based on potential functions. J. Chemometr., 5: 435-453.
[44] Massart, D.L., Kaufman, L., The interpretation of analytical chemical data by the use of
cluster analysis, John Wiley & Sons, New York, 1983.
[45] Wold, S. (1976), Pattern Recognition by means of disjoint principal components models.
Pattern. Recog,. 8: 127-139.
[46] Derde, M.P., Massart, D.L. (1986), UNEQ: a disjoint modeling technique for pattern
recognition based on normal distribution. Anal. Chim. Acta, 184: 33-51.
[47] Lorber, A., Kowalski, B.R. (1988), The effect of interferences and calibration design on
accuracy: implications for sensor and sample selection. J. Chemom., 2: 67-79.
[48] Ns, T., Isaksson, T., and Kowalski, B. R. (1990), Locally weighted regression and
scatter correction for near-infrared reflectance data. Anal. Chem., 62(7):664-673.
[49] Box, G. E. P., Hunter, W. G., Hunter, S. J., Statistics for Experimenters, John Wiley &
Sons, Inc., New York, NY, 1978.
[50] De Maesschalck, R., Estienne, F., Verd-Andrs, J., Candolfi, A., Centner, V.,
Despagne, F., Jouan-Rimbaud, D., Walczak, B., Massart, D.L., de Jong, S., de
Noord, O.E., Puel, C., Vandeginste, B.M.G. (1999), The Development of Calibration
Models for Spectroscopic Data Using Principal Component Regression, Internet Journal of
Chemistry, 2: 19, URL: http://www.ijc.com/articles/1999v2/19/.
[51] Ferr, J., Rius, F.X. (1996), Selection of the best calibration sample subset for
multivariate regression. Anal. Chem., 68: 1565-1571.
[52] Ferr, J., Rius, F.X. (1997), Constructing D-optimal designs from a list of candidate
samples. Trends Anal. Chem., 16: 70-73.
[53] Kennard, R.W., Stone, L.A. (1969), Computer aided design of experiments.
Technometrics, 11: 137-148.
[54] V-PARVUS 2004: An Extendable Package of Programs for Data Explorative Analysis,
Classification and Regression Analysis, M. Forina, S. Lantieri, C. Armanino, C. CerratoOliveros, Dipartimento di Chimica e Tecnologie Farmaceutiche ed Alimentari, Genoa,
Italy.
[55] Ns, T. (1987), The design of calibration in NIR reflectance analysis by clustering. J.
Chemom., 1: 121-134.
[56] Ns, T., Isaksson, T., Kowalski, B. R. (1990), Locally weighted regression and scatter
correction for near-infrared reflectance data. Anal. Chem., 62(7):664-673
[57] Puchwein, G. (1988), Selection of calibration samples for near-infrared spectrometry by
factor analysis of spectra. Anal. Chem., 60: 569-573.
[58] Fearn, T. (1997), Validation, NIR news 8: 7-8.
[59] Snee, R.D. (1977), Validation of regression models: methods and examples.
Technometrics, 19: 415-428.
Fundamentos tericos
___________________________________________________________________________________________________________
[60] Rousseeuw, P.J., van Zomeren, B.C. (1990), Unmasking multivariate outliers and
leverage points, J. Am. Stat. Assoc., 85: 633-651.
[61] ASTM, Standard practices for infrared, multivariate, quantitative analysys. Doc. E165594, in ASTM Annual book of standards, vol. 03.06, West Conshohochen, PA, USA, 1995.
[62] Holland, J.H., Adaption in natural and artificial systems. University of Michigan Press,
Ann Arbor, MI, 1975, Revised Print: MIT Press, Cambridge, MA, 1992.
[63] Goldberg, D.E., Ded, K., A comparative analysis of selection schemes used in genetic
algorithms, in: Foundations of Genetic Algorithms, pp. 69.93, G.J.E. Rawlins (Ed.),
Morgan Kaufmann, San Mateo, 1991.
[64] Davis, L. (Ed.), Handbook of Genetic Algorithms. Van Nostrand Reinhold, New York,
1991.
[65] Westad, F., Martens, H. (2000), Variable selection in near infrared spectroscopy based
on significance testing in partial least squares regression. J. Near Infrared Spectrosc., 8:
117124.
[66] Efron, B., Gong,G. (1983), A leisurely look at the bootstrap, the jackknife and
crossvalidation. Amer. Stat., 37: 36-48.
[67] Breiman, L. (1996), Bagging predictors. Mach. Learn., 24: 123-140.
[68] Bauer, E., Kohavi, R. (1999), An empirical comparison of voting classification
algorithm: Bagging, boosting and variants. Mach. Learn., 36: 105-142.
[69] Ho, T.K. (2000), Complexity of classification problems and comparative advantages of
combined classifiers. Lect. Notes Comput. Sc., 1857: 97-106.
[70] Borra, S., Di Caccio, A. (2002), Improving nonparametric regression methods by
bagging and boosting. Comput. Stat. Data An., 38: 407-420.
[71] Kim, H.C., Pang, S., Je, H.M., Kim, D., Bang, S.Y. (2003), Constructing support
vector machine ensemble. Pattern Recogn., 36(12): 2757-2767.
[72] Valentini, G., Muselli, M., Ruffino, F. (2004), Cancer recognition with bagged
ensembles of Suppor Vector Machines. Neurocomputing, 56: 461-466.
[73] Everitt, B., The Anlisis of Contingency Tables, Chapman and Hall, London, 1977.
[74] Fisher, R., The Design of Experiments, Oxford University Press, Oxford, 1935.
[75] Searle, S.R., Linear Models. Wiley, New York, 1971.
[76] Indahl, U.G., Ns, T. (1998), Evaluation of alternative spectral feature extraction
methods of textural images for multivariate modelling. J. Chemom., 12: 261-278.
[77] Blanco, M., Romero, M.A., Alcal, M. (2004), Strategies for constructing the
calibration set for a near infrared spectroscopic quantitation method. Talanta, 64: 597602.

Teoria Quimiometria

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Teoria Quimiometria

Enviado por

Direitos autorais:

Formatos disponíveis

Fundamentos tericos

Quimiometra y anlisis de datos

1. Mtodos de pretratamiento de datos

1.1. Centrado de columna

Consiste en cambiar el origen de la nueva escala de variables por la media

variables es igual a cero. Este pretratamiento no modifica la varianza de los datos

El autoescalado consiste en un centrado seguido de una normalizacin:

donde xi,m es el dato autoescalado, xi,m es el dato antes del autoescalado, x m la

1.3. Derivadas (primera y segunda) y suavizado

Mediante el suavizado se intenta reducir el ruido aleatorio existente en la

1.4. Standard normal variate (SNV)

Es una transformacin que se propone para eliminar las interferencias

donde xi,m es la absorbancia del espectro i a la longitud de onda m, x i es la

1.5. Orthogonal signal correction (OSC)

El uso de OSC se ha extendido rpidamente durante los ltimos aos como

donde T son los scores ortogonales a la respuesta, P las matrices de loadings y n

1.5. Multiplicative signal correction (MSC)

Multiplicative Signal (o Scatter) Correction es un pretratamiento propuesto

A la hora de estimar los dos parmetros de correccin ai y bi, i se ignora y

Por lo que la correccin del espectro original es muy sencilla y se reduce a:

Esta correccin puede llevar a cometer algunos errores y a la eliminacin de

1.6. Extended multiplicative signal correction (EMSC)

efectos qumicos aditivos (absorcin de analitos e interferentes) y los efectos fsicos

Si los coeficientes se estiman de manera correcta, los espectros corregidos

La correccin EMSC es aplicable a distintos tipos de datos espectroscpicos

2.1. Regresin por Componentes Principales (PCR)

PCR es una tcnica de calibracin multivariante que consta de dos pasos. El

donde T es la matriz de los scores de los A componentes principales ms

donde T es la matriz de los scores, b es la matriz de los coeficientes y e los

El anlisis de componentes principales maximiza la varianza explicada del

2.2. Regresin por mnimos cuadrados parciales (PLSR)

Este tipo de regresin es, probablemente, la ms utilizada en su aplicacin

El vector de loadings p1 se obtiene mediante la regresin de las variables

La direccin del segundo componente se obtiene de manera similar al

donde b es un vector que contiene los coeficientes de regresin determinados

ACE es un mtodo de regresin no lineal con caractersticas nicas que

En ACE, la variable respuesta es la suma de funciones suavizadas de los

Las funciones suavizadas

no son funciones explcitas de los

predictores sino el resultado del algoritmo ACE y se obtienen mediante seleccin

3.3. Validacin de un proceso de calibracin

donde yi es el valor de referencia de la respuesta,

Un modelo de calibracin se puede validar mediante cross-validacin o

3.1. Validacin mediante cross-validacin

La cross-validacin [30] consiste en la utilizacin de los datos del conjunto

Al igual que en el caso anterior, el valor de RMSECV se puede expresar en

3.2. Validacin mediante conjunto de validacin externo

La validacin mediante un conjunto de datos externo consiste en dividir

donde np es el nmero de muestras en el conjunto de validacin. Si se quiere

4. Mtodos de reconocimiento de patrn, clasificacin y modelado

4.1. Mtodos de reconocimiento de patrn no supervisados

4.1.1. Anlisis de grupo (anlisis cluster)

de objetos similares dentro de la matriz de datos estudiada. Los grupos detectados

Los mtodos jerrquicos aglomerativos inician a partir de tantos grupos

Acoplamiento medio pesado (weighted average linkage),

Acoplamiento medio no pesado (unweighted average linkage),

Acoplamiento completo (complete linkage),

Acoplamiento simple (single linkage),

Las tcnicas jerrquicas divisivas comienzan a partir de un solo grupo que

4.1.2. Estudio de la tendencia al agrupamiento: Minimum

Hopkins [37] introdujo un ndice de agrupamiento con el principal objetivo

conexin de los objetos del conjunto de calibracin con un rbol de expansin

4.2. Mtodos de reconocimiento de patrn supervisados