Escolar Documentos
Profissional Documentos
Cultura Documentos
___________________________________________________________________________________________________________
siendo xi,m el dato centrado, xi,m el dato de la fila i y la columna m antes del
centrado, x m media de la columna m ( x m = x i , m / I ) [1]. La propiedad
i
fundamental de los datos centrados es que el valor medio de cada una de las
Fundamentos tericos
___________________________________________________________________________________________________________
1.2. Autoescalado
xi ,m xm
sm
Fundamentos tericos
___________________________________________________________________________________________________________
xi ,m xi
si
Ti P' i
i =1
Fundamentos tericos
___________________________________________________________________________________________________________
zi ai + bi z i ,quim
donde ai y bi representan la correccin de la lnea base (ai) y el paso ptico (bi),
ambos referidos al espectro de referencia m.
MSC asume que la totalidad de la informacin qumica contenida en un
espectro se encuentra recogida en el espectro de referencia m y otro trmino
denominado i que representa el conjunto de variacin desconocida e irrelevante
del espectro.
z i , quim m + i
( z i ai )
bi
EMSC es una variacin de MSC que permite estimar y separar los efectos
fsicos multiplicativos (longitud de paso ptico, dispersin de la radiacin) de los
Fundamentos tericos
___________________________________________________________________________________________________________
(z i ai d i ei 2 )
bi
Fundamentos tericos
___________________________________________________________________________________________________________
2. Calibracin multivariante
En muchos estudios, la concentracin de una o ms especies tiene que ser
estimada en base a diversas propiedades medidas del sistema. Por ejemplo, la
absorcin del espectro electromagntico a una determinada longitud de onda puede
relacionarse con la concentracin de un determinado analito a travs de la Ley de
Lambert-Beer. Para muestras multicomponente el problema se complica ya que
existen diferentes especies que absorben a una determinada longitud de onda. Los
mtodos de calibracin multivariante se aplican de manera general en numerosos
mtodos analticos para la determinacin mltiple y simultanea de diferentes
parmetros. Estos mtodos incluyen la regresin por componentes principales
(PCR) [18], la regresin por mnimos cuadrados parciales (PLSR) [17, 19],
simulated annealing (SA) [20, 21], algoritmos genticos (GA) [22] y redes
neuronales artificiales (ANN) [23, 24]. A continuacin se realizar una breve
descripcin de los mtodos utilizados en la presente tesis doctoral remitiendo a la
literatura citada para ms informacin sobre los mismos o sobre aquellos no
tratados.
Fundamentos tericos
___________________________________________________________________________________________________________
Fundamentos tericos
___________________________________________________________________________________________________________
2.3.
Regresin no lineal
Expectations)
ACE
(Alternating
Condicional
bn
n =1
Xn + e
t n (X n ) + e
n =1
tn (X n )
(y i
RMSEC =
i =1
y i )2
nc
Fundamentos tericos
___________________________________________________________________________________________________________
RMSEC
100
y i,max y i,min
(y i
RMSECV =
i =1
y CV , i )2
nc
Fundamentos tericos
___________________________________________________________________________________________________________
np
(y i
RMSEP =
i =1
y i )2
np
yi
(
SESGO =
i =1
yi )
np
Entre ellos se pueden sealar el anlisis de grupo [18, 31], los mtodos
basados en los eigenvectores [32] y los basados en las redes neuronales [33].
Dentro de estos ltimos podemos distinguir las redes de Kohonen [34] y support
vector machines [35, 36].
Fundamentos tericos
___________________________________________________________________________________________________________
d ij
d MAX
donde dij es la distancia entre los objetos y dMAX es la distancia mxima entre dos
objetos en el conjunto de datos. Los dos objetos a mxima distancia tienen valor de
similaridad cero. Las tcnicas de agrupamiento dependen de la medida de la
distancia entre objetos y por ello la mtrica utilizada juega un papel de enorme
importancia.
Se pueden clasificar en dos grupos:
i)
ii)
Mtodos jerrquicos:
a.
Aglomerativos
b.
Divisivos
Mtodos no jerrquicos.
ii)
iii)
iv)
v)
Mtodo de Ward.
Fundamentos tericos
___________________________________________________________________________________________________________
b.
No paramtricas,
i. Clasificacin y modelado: mtodo de las Funciones
Potenciales.
b.
Fundamentos tericos
___________________________________________________________________________________________________________
4.2
Discriminacin va regresin
Fundamentos tericos
___________________________________________________________________________________________________________
Fundamentos tericos
___________________________________________________________________________________________________________
Fundamentos tericos
___________________________________________________________________________________________________________
Fundamentos tericos
___________________________________________________________________________________________________________
selecciona
aquel
para
el
que
la
distancia
sea
mxima
d seleccionado = max(min(d i , i0 )) . En ausencia de fuertes irregularidades en el factor
i0
Fundamentos tericos
___________________________________________________________________________________________________________
b.
c.
Fundamentos tericos
___________________________________________________________________________________________________________
Fundamentos tericos
___________________________________________________________________________________________________________
1
sum(sum(cov (Matrix) cov (Submatrix))2 )
Fundamentos tericos
___________________________________________________________________________________________________________
con la complejidad final del modelo. El trmino complejidad debe ser entendido
como el nmero de componentes principales elegido. Un estndar de la ASTM
(American Society for Testing and Materials) establece que, si la complejidad es
menor que tres, como mnimo deben usarse 24 muestras en el conjunto de datos
de calibracin. Si es igual o mayor que cuatro, como mnimo son necesarios seis
objetos por grado de complejidad [50, 60, 61]. Sin embargo, el nmero de objetos
seleccionados por componente puede ser variable segn el sistema de que se trate,
los resultados que se pretendan obtener y lo costosos que sean los anlisis de
referencia que se deban realizar. Por todo ello, el profesor Forina seala que tres
muestras por componente capturado para describir el sistema en estudio seran
suficientes para obtener un conjunto de muestras de calibracin representativo del
conjunto de muestras de una categora.
Fundamentos tericos
___________________________________________________________________________________________________________
una raza o especie. Holland [62] fue el pionero en el uso de esta tcnica. La clave
de este procedimiento es la codificacin del problema o individuos a estudiar, de
forma que se puedan dar generaciones y mutaciones de las mismas de una manera
natural y midiendo un parmetro de adecuacin en funcin de la solucin que se
pretenda obtener; el objetivo final ser seleccionar los individuos ms apropiados.
Para el problema de seleccin de variables, la forma natural de codificar la
secuencia es mediante el uso de ceros (0) y unos (1) formando un cdigo binario.
Cada posible subconjunto de variables se puede representar como una serie de
ceros y unos apareciendo 1 si la variable en dicha posicin est presente y 0 si no
est presente. La longitud de la serie codificada ser igual al nmero de variables.
Mediante la combinacin, seleccin de los mejores individuos (elitistas) y la
mutacin de las series en un porcentaje fijado, se seleccionar el subconjunto de
variables ms apropiado para el problema a resolver o el que proporcione mejor
ajuste del modelo o prediccin en la regresin [19, 63, 64].
6.4. SELECT
SELECT es un programa existente dentro del software quimiomtrico VParvus [54] que genera un conjunto de variables decorrelacionadas basndose en
sus coeficientes de correlacin con una respuesta y. SELECT busca la variable con
el mximo valor de coeficiente de correlacin con una variable respuesta
determinada, la selecciona y la decorrelaciona con respecto a las otras variables. A
Fundamentos tericos
___________________________________________________________________________________________________________
continuacin, SELECT busca entre las otras variables otra con el mximo valor de
coeficiente de correlacin con y y as sucesivamente hasta que se selecciona el
nmero deseado de variables [29].
( n01 n10 1 )2
n01 + n10
Fundamentos tericos
___________________________________________________________________________________________________________
Cuando los modelos han sido validados con el mismo conjunto de datos
(ya sea mediante cross-validacin o mediante conjunto de datos de
validacin externo).
Cuando los modelos han sido construidos sobre los mismos datos de
calibracin y validados con conjuntos de datos de validacin
independientes.
Fundamentos tericos
___________________________________________________________________________________________________________
Fundamentos tericos
___________________________________________________________________________________________________________
igual a cero) y se podr afirmar que ambos mtodos poseen la misma exactitud
[77].
Fundamentos tericos
___________________________________________________________________________________________________________
REFERENCIAS
[1] Forina, M., Introduzione alla Chimica Analitica con elementi di Chimiometra. ECIG
(Edizioni Culturali Internazionali Genova), 1 edizione, 1993.
[2] Todeschini, R., Introduzione alla Chimiometria. EdiSES, Napoli, 1998.
[3] Savitzky, A., Golay, M.J.E. (1964), Smoothing and differentiation of data by simplified
least squares procedure. Anal. Chem., 36: 1627-1639.
[4] Bouveresse, E., Maintenance and Transfer of Multivariate Calibration Models Based on
Near-Infrared Spectroscopy, doctoral thesis, Vrije Universiteit Brussel, 1997.
[5] Barnes, R.J., Dhanoa, M.S., Lister, S.J. (1989), Standard normal variate transformation
and de-trending of near-infrared diffuse reflectance spectra. Appl. Spectrosc., 43: 772777.
[6] Barnes, R.J., Dhanoa, M.S., Lister, S.J. (1993), Correction of the description of
Standard Normal Variate (SNV) and De-Trend transformations in Practical Spectroscopy
with Applications in Food and Beverage Analysis - 2nd. Edition. J. Near Infrared
Spectrosc., 1: 185-186.
[7] Wold, S., Antic, H., Lindgren, F., hman, J. (1998), Orthogonal signal correction of
near-infrared spectra. Chemom. Intell. Lab. Syst., 44(1-2): 175-185.
[8] Svensson, O., Kourti, T., MacGregor, J.F. (2002), A Comparison of Orthogonal Signal
Correction Algorithms and Characteristics. J. Chemometr., 16: 176-188.
[9] Blanco, M., Coello, J., Montoliu, I., Romero, M.A. (2001), Orthogonal signal correction
in near infrared calibration. Anal. Chim. Acta, 434(1), 125-132.
[10] Sjblom, J., Svensson, O., Josefson, M., Kullberg, H., Wold, S. (1998), An
evaluation of orthogonal signal correction applied to calibration transfer of near infrared
spectra. Chemom. Intell. Lab. Syst., 44: 229-244,
[11] Andersson, C.A. (1999), Direct orthogonalization, Chemometr. Intell. Lab., 47: 51-63.
[12] Fearn, T. (2000), On orthogonal signal correction. Chemom. Intell. Lab. Syst., 50: 4752.
[13] Wise, B.M., Gallagher, N.B.,http://www.eigenvector.com/MATLAB/OSC.html
[14] Martens, H., Stark, E. (1991), Extended multiplicative signal correction and spectral
interference subtraction: New preprocessing methods for near infrared spectroscopy. J.
Pharmaceut. Biomed., 9(8): 625-635.
[15] Pedersen, D.K., Martens, H., Pram Nielsen, J., Balling Engelsen, S. (2002), Light
absorbance and light scattering separated by Extended Inverted Multiplicative Signal
Correction (EIMSC). Analysis of NIT spectra of single wheat seeds. Appl. Spectrosc.,
56(9): 1206-1214.
[16] Martens, H., Pram Nielsen, J., Balling Engelsen, S. (2003), Light Scattering and
Light Absorbance Separated by Extended Multiplicative Signal Correction. Application to
Near. Infrared Transmission Analysis of Powder Mixtures. Anal. Chem., 75(3): 394-404.
[17] Martens, H.; Ns, T., Multivariate Calibration, Wiley, Chichester, England, 1989.
[18] Massart, D.L., Vandeginste, B.G.M., Deming, S.N., Michotte, Y., Kaufman, L., Data
Handling in Science and Technology, volume 2. Chemometrics: a textbook. Elsevier
Science Publishers, Amsterdam, The Netherlands, 1988.
Fundamentos tericos
___________________________________________________________________________________________________________
[19] Ns, T., Isaksson, T., Fearn, T., Davies, T., A User-Friendly Guide to Multivariate
Calibration and Classification. NIR Publications, Chichester UK, 2002.
[20] Van Laarhoven, P.J.M., Aarts, E.H.L., Simulated Annealing: Theory and Applications.
Reidel, Dordrecht, 1987.
[21] Kalivaas, J.H. (1992), Optimization using variations of simulated annealing. Chemom.
Intell. Lab. Syst., 15: 1-12.
[22] Goldberg, D.E., Genetic Algorithms in Search, Optimization, and Machine Learning,
Addison-Wesley, Reading, MA, 1989.
[23] Zupan, J., Gasteiger, J., Neural Networks for Chemist. An introduction. VCH eds.
Weinheim, Germany, 1993.
[24] Long, J.R., Gregoriou, V.G., Gemperline, P.J. (1990), Spectroscopic calibration and
quantitation using artificial neural networks. Anal. Chem., 62: 1791-1797.
[25] Jackson, J.E., A user's guide to principal components, John Wiley, New York, 1991.
[26] Malinowski, E.R., Factor analysis in chemistry, 2nd. Ed., John Wiley, New York, 1991.
[27] Wold, S., Esbensen, K., Geladi, P. (1987), Principal Component Analysis. Chemom.
Intell. Lab. Syst., 2: 37-52.
[28] Massart, D.L., Vandeginste, B.M.G., Buydens, L.M.C., De Jong, S., Lewi, P.J.,
Smeyers-Verbeke, J., Handbook of chemometrics and qualimetrics: part A, Elsevier,
Amsterdam, 1997.
[29] Forina, M., Lantieri, S., Armanino, C., Cerrato-Oliveros, C., Users Manual of VPARVUS 2003: An Extendable Package of Programs for Data Explorative Analysis,
Classification and Regression Analysis, Dipartimento di Chimica e Tecnologie
Farmaceutiche ed Alimentari, Genova, Italy.
[30] Stone, M. Cross-validation choice and assessment of statistical prediction (with
discussion). J. Roy. Stat. Soc. B Met., 36: 111-147.
[31] Massart, D.L., Kaufman, L., Interpretation of Analytical Chemical Data by the Use of
Cluster Analysis, Wiley, New York, 1983.
[32] Glover, D.M., Hopke, P.K. (1992), Exploration of multivariate chemical data by
projection pursuit. Chemom. Intell. Lab. Syst., 16: 45-59.
[33] Pao, Y.-H., Adaptive Pattern Recognition and Neural Networks, Addison-Wesley,
Reading, MA, 1989.
[34] Kohonen, T., Self-organization and Associative Memory, third ed., Springer-Verlag, New
York, 1989.
[35] Cristianini, N., Shave-Taylor, J., An Introduction to Support Vector Machines,
Cambridge University Press, Cambridge, 2000.
[36] Vapnik, V., Statistical Learning Theory, Willey-Interscience, New York, 1998.
[37] Hopkins, B. (1954), A new method for determining the type of distribution of plant
individuals. Ann. Bot. London, 18: 213-227.
[38] Fernndez Pierna, J.A., Massart, D.L. (2000), Improved algorithm for clustering
tendency. Anal. Chim. Acta, 408(1-2): 13-20.
[39] Forina, M., Lantieri, S., Esteban-Dez, I. (2001), New Index for Clustering Tendency.
Anal. Chim. Acta, 446: 59-70.
Fundamentos tericos
___________________________________________________________________________________________________________
[40] Nilsson, N.J., Linear Learning Machines, McGraw-Hill, New York, 1965.
[41] Coomans D., Broeckaert, I., Potential Pattern Recognition in Chemical and Medical
Decision Making, Research Studies Press, Letchworth, 1986.
[42] Pizarro-Milln, C., Forina, M., Casolino, C., Leardi, R. (1998), Extraction of
representative subsets by potential functions method and genetic algorithms. Chemom.
Intell. Lab. Syst., 40: 33-52.
[43] Forina, M., Armanino, C., Leardi, R., Drava, G. (1991), A class-modelling technique
based on potential functions. J. Chemometr., 5: 435-453.
[44] Massart, D.L., Kaufman, L., The interpretation of analytical chemical data by the use of
cluster analysis, John Wiley & Sons, New York, 1983.
[45] Wold, S. (1976), Pattern Recognition by means of disjoint principal components models.
Pattern. Recog,. 8: 127-139.
[46] Derde, M.P., Massart, D.L. (1986), UNEQ: a disjoint modeling technique for pattern
recognition based on normal distribution. Anal. Chim. Acta, 184: 33-51.
[47] Lorber, A., Kowalski, B.R. (1988), The effect of interferences and calibration design on
accuracy: implications for sensor and sample selection. J. Chemom., 2: 67-79.
[48] Ns, T., Isaksson, T., and Kowalski, B. R. (1990), Locally weighted regression and
scatter correction for near-infrared reflectance data. Anal. Chem., 62(7):664-673.
[49] Box, G. E. P., Hunter, W. G., Hunter, S. J., Statistics for Experimenters, John Wiley &
Sons, Inc., New York, NY, 1978.
[50] De Maesschalck, R., Estienne, F., Verd-Andrs, J., Candolfi, A., Centner, V.,
Despagne, F., Jouan-Rimbaud, D., Walczak, B., Massart, D.L., de Jong, S., de
Noord, O.E., Puel, C., Vandeginste, B.M.G. (1999), The Development of Calibration
Models for Spectroscopic Data Using Principal Component Regression, Internet Journal of
Chemistry, 2: 19, URL: http://www.ijc.com/articles/1999v2/19/.
[51] Ferr, J., Rius, F.X. (1996), Selection of the best calibration sample subset for
multivariate regression. Anal. Chem., 68: 1565-1571.
[52] Ferr, J., Rius, F.X. (1997), Constructing D-optimal designs from a list of candidate
samples. Trends Anal. Chem., 16: 70-73.
[53] Kennard, R.W., Stone, L.A. (1969), Computer aided design of experiments.
Technometrics, 11: 137-148.
[54] V-PARVUS 2004: An Extendable Package of Programs for Data Explorative Analysis,
Classification and Regression Analysis, M. Forina, S. Lantieri, C. Armanino, C. CerratoOliveros, Dipartimento di Chimica e Tecnologie Farmaceutiche ed Alimentari, Genoa,
Italy.
[55] Ns, T. (1987), The design of calibration in NIR reflectance analysis by clustering. J.
Chemom., 1: 121-134.
[56] Ns, T., Isaksson, T., Kowalski, B. R. (1990), Locally weighted regression and scatter
correction for near-infrared reflectance data. Anal. Chem., 62(7):664-673
[57] Puchwein, G. (1988), Selection of calibration samples for near-infrared spectrometry by
factor analysis of spectra. Anal. Chem., 60: 569-573.
[58] Fearn, T. (1997), Validation, NIR news 8: 7-8.
[59] Snee, R.D. (1977), Validation of regression models: methods and examples.
Technometrics, 19: 415-428.
Fundamentos tericos
___________________________________________________________________________________________________________
[60] Rousseeuw, P.J., van Zomeren, B.C. (1990), Unmasking multivariate outliers and
leverage points, J. Am. Stat. Assoc., 85: 633-651.
[61] ASTM, Standard practices for infrared, multivariate, quantitative analysys. Doc. E165594, in ASTM Annual book of standards, vol. 03.06, West Conshohochen, PA, USA, 1995.
[62] Holland, J.H., Adaption in natural and artificial systems. University of Michigan Press,
Ann Arbor, MI, 1975, Revised Print: MIT Press, Cambridge, MA, 1992.
[63] Goldberg, D.E., Ded, K., A comparative analysis of selection schemes used in genetic
algorithms, in: Foundations of Genetic Algorithms, pp. 69.93, G.J.E. Rawlins (Ed.),
Morgan Kaufmann, San Mateo, 1991.
[64] Davis, L. (Ed.), Handbook of Genetic Algorithms. Van Nostrand Reinhold, New York,
1991.
[65] Westad, F., Martens, H. (2000), Variable selection in near infrared spectroscopy based
on significance testing in partial least squares regression. J. Near Infrared Spectrosc., 8:
117124.
[66] Efron, B., Gong,G. (1983), A leisurely look at the bootstrap, the jackknife and
crossvalidation. Amer. Stat., 37: 36-48.
[67] Breiman, L. (1996), Bagging predictors. Mach. Learn., 24: 123-140.
[68] Bauer, E., Kohavi, R. (1999), An empirical comparison of voting classification
algorithm: Bagging, boosting and variants. Mach. Learn., 36: 105-142.
[69] Ho, T.K. (2000), Complexity of classification problems and comparative advantages of
combined classifiers. Lect. Notes Comput. Sc., 1857: 97-106.
[70] Borra, S., Di Caccio, A. (2002), Improving nonparametric regression methods by
bagging and boosting. Comput. Stat. Data An., 38: 407-420.
[71] Kim, H.C., Pang, S., Je, H.M., Kim, D., Bang, S.Y. (2003), Constructing support
vector machine ensemble. Pattern Recogn., 36(12): 2757-2767.
[72] Valentini, G., Muselli, M., Ruffino, F. (2004), Cancer recognition with bagged
ensembles of Suppor Vector Machines. Neurocomputing, 56: 461-466.
[73] Everitt, B., The Anlisis of Contingency Tables, Chapman and Hall, London, 1977.
[74] Fisher, R., The Design of Experiments, Oxford University Press, Oxford, 1935.
[75] Searle, S.R., Linear Models. Wiley, New York, 1971.
[76] Indahl, U.G., Ns, T. (1998), Evaluation of alternative spectral feature extraction
methods of textural images for multivariate modelling. J. Chemom., 12: 261-278.
[77] Blanco, M., Romero, M.A., Alcal, M. (2004), Strategies for constructing the
calibration set for a near infrared spectroscopic quantitation method. Talanta, 64: 597602.