Escolar Documentos
Profissional Documentos
Cultura Documentos
QUIMIOMETRA II
Anlisis Multivariado
El anlisis de datos multivariantes comprende el estudio estadstico de varias variables medidas en elementos de una poblacin con los siguientes objetivos:
Resumir los datos mediante un pequeo conjunto de nuevas variables, construidas como transformaciones de las originales, con la mnima prdida de la informacin. Encontrar grupos en los datos. Clasificar nuevas observaciones en grupos definidos. Relacionar dos conjuntos de variables.
Grupos de datos
Reduccin de variables
Component Plot in ot ted Space
1.5 olor acido
1.0
.5
pulpa visc
0.0
transp
color
Com ponent 2
-.5
Component 1
Dependencia
Interdependencia
Entre variables
Entre Casos
Anlisis de correlacin
Regresin Mltiple
Anlisis Discriminante
Anlisis Factorial
Anlisis de Cluster
OBJETIVO
Mtodos No Supervisados
120
DENDOGRAMA
100
80
60
40
(Dlink/Dmax)*100
20 1 2 3 4 5 6 7
Mtodos Supervisados
Datos incompletos: - media columna (optimstico) - nmero al azar (pesimstico) Eliminacin de factores (objetos): - correlacionados - redundantes - constantes
Pre-procesamiento
Centrado a la media : x ik ! x ik x k
1 n , xk ! xik n i !1
Escalamiento
rango:
ik
auto:
x ik x k x ! sk
ik
sk !
(x
i !1
ik
xk )
n 1
Normalizacin:
x ik !
x ik xk
xk !
2 2 2 x 1k x 2k ... x nk
Pre-procesamiento
Demostracin de procedimientos de traslacin y escalamiento: A muestra los datos originales, B:datos centrados, C: austoescalados.
Transformaciones
Correcciones de lnea base
Deslocamiento > primera derivada
Concavidad de una curva -> segunda derivada (til cuando hay sobre posicin de picos)
antes
despus
Anlisis de Componentes Principales Es la principal herramienta del reconocimiento de patrones. El anlisis de componentes principales trata de definir, a partir de un conjunto inicial de variables (observables), otro conjunto de variables (no observables), obtenido por combinacin lineal de las variables originales entre s, siendo posible extraer de ellas una informacin discriminada de algunas caractersticas del sistema de estudio. Con esto se elimina la informacin redundante y reduce la contribucin del ruido.
Varianza explicada y residual en un vector cualquiera que pasa por el centroide de los puntos.
rimer componente principal, donde es mxima la varianza explicada (el autovalor) y mnima la residual.
s
Varianza explicada acumulada !
p !1 m
2 p
P
v 100% !
p !1 m
v 100%
p
2 p
P
p !1
p !1
Interpretacin Geomtrica
Matriz de Datos
Datos objetos-variable genricos
Variable Objetos Nombre 1 Nombre 2 ............... Nombre i ............... Nombre n No. 1 2 ... i ... n
Nombre 1
1 x11 x21 ... xi1 ... xn1
Nombre 2, ...
2, ... x12, ... x22, ... ... xi2, ... ... xn2, ...
Nombre j, ...
j, ... x1j, ... x2j, ... ... xij, ... ... xnj, ...
Nombre m
m x1m x2m ... xim ... xnm
Matriz de Datos
x12 x22 . xi 2 . xn 2
. . . . . .
x1 j x2 j . xij . xnj
. . . . . .
Interpretacin Matemtica
X
Matriz n x m de las variables manifiestas
0
X
Matriz diagonal m x m de los autovalores (eingevalues)
VT
X
Matriz m x m de las cargas (scores)
P
p !1
PP ! v1 tr(0 )
Interpretacin Matemtica
Reduccin de Dimensiones
La reduccin de dimensiones contiene solo la informacin estructural o importante, y la informacin irrelevante mas el ruido aleatorio quedan eliminados. El espacio reducido queda descrito por:
Las k primeras columnas de U, que contienen las puntuaciones normalizadas. Las k primeras filas de V, que dan infor-macin sobre las variables manifiestas que construyen los componentes retenidos. Los k primeros autovalores, que indican el peso o longitud de cada componente rete-nido, y que permiten calcular la cantidad de varianza explicada o porcentaje de informacin retenida por cada compo-nente, y por el modelo formado por los k primeros componentes, o por cualquier otra combinacin de vectores.
Grfico de Puntuaciones
Agrupaciones entre los objetos. Objetos que estn fuera del modelo (outliers)
p=1 i=1
Matriz n x m de las puntuaciones (loadings)
Componente k
Componente 1
Grfico de Cargas
El anlisis de la matriz V se realiza de dos modos:
por filas, mediante la observacin directa o grfica (diagrama de barras) de los elementos de la fila o cargas correspondientes a un componente determinado. por columnas (desde su primer elemento hasta el k), mediante diagramas de dispersin en los que las coordenadas de los puntos son parejas de cargas tomadas de la misma columna de V (primer y segundo elementos de cada columna, primer y tercero, segundo y tercero, etc.), por lo que cada punto representa a una determinada variable manifiesta.
Grfico de Cargas de un Componente El estudio de las primeras filas de la matriz V permite saber qu variables manifiestas contribuyen en mayor medida a la varianza de cada componente, y tambin indica si el componente tiene carcter de cantidad o de contraste. Varias cargas altas sobre un determinado componente indican correlacin entre las variables manifiestas implicadas entre s y con el componente.