Você está na página 1de 35

UNIVERSIDAD NACIONAL DE INGENIERA

QUIMIOMETRA II

ANLISIS DE COMPONENTES PRINCIPALES (PCA)

Anlisis Multivariado
El anlisis de datos multivariantes comprende el estudio estadstico de varias variables medidas en elementos de una poblacin con los siguientes objetivos:

 Resumir los datos mediante un pequeo conjunto de nuevas variables, construidas como transformaciones de las originales, con la mnima prdida de la informacin.  Encontrar grupos en los datos.  Clasificar nuevas observaciones en grupos definidos.  Relacionar dos conjuntos de variables.

Grupos de datos

Reduccin de variables
Component Plot in ot ted Space
1.5 olor acido

1.0

.5

pulpa visc

0.0

transp

color

Com ponent 2

-.5

-1.0 -1.5 -1.0 -.5

dulce 0.0 .5 1.0 1.5

Component 1

Clasificacin de los Mtodos Multivariantes

Qu tipo de relaciones estn siendo examinadas

Dependencia

Interdependencia

Varias variables dependientes

Una variable dependiente

Entre variables

Entre Casos

Anlisis de correlacin

Regresin Mltiple

Anlisis Discriminante

Anlisis Factorial

Anlisis de Cluster

Clasificacin de los Mtodos Multivariantes


TECNICA
Tcnicas de reconocimiento de patrones no supervisado Anlisis de clster, Mapeo no lineal, anlisis de componentes principales Tcnicas de reconocimiento de patrones supervisado Anlisis multivariado de la varianza (MANOVA), anlisis discriminante, K-vecinos prximos (kNN), maquina de aprendizaje lineal, clasificacin de Bayes, SIMCA, clasificacin UNE Mtodos factoriales Anlisis de factores, anlisis de componentes principales, anlisis de correlacin cannica Correlaciones y regresiones Regresin lineal mltiple, regresin de componentes principales, regresin en mnimos cuadrados (PLS) Descripcin cuantitativa de relaciones entre las variables las Encontrar factores o relaciones entre las variables y/o objetos cuantitativamente Demarcacin cuantitativa de las clases a priori, relacin entre propiedades de clases y variables Encontrar relaciones y semejanzas ( grupos o clases) en los datos

OBJETIVO

Mtodos No Supervisados

120

DENDOGRAMA

100

80

60

40

(Dlink/Dmax)*100

20 1 2 3 4 5 6 7

NUMERO DE INDI IDUO

Mtodos Supervisados

Anlisis de datos multivariados


1. . . . . . . . 9.
Definicin del problema Organizacin de los datos Validacin de los datos Visualizacin de datos originales Transformacin y re-procesamiento de datos Anlisis exploratorio de los datos Construccin de modelos de clasificacin y calibracin Validacin de los modelos Uso de los modelos para predicciones

Pre-procesamiento de datos multivariados

Datos incompletos: - media columna (optimstico) - nmero al azar (pesimstico) Eliminacin de factores (objetos): - correlacionados - redundantes - constantes

Pre-procesamiento

 Centrado a la media : x ik ! x ik  x k

1 n , xk ! xik n i !1

Escalamiento
rango:
 ik

xik  xk (min)  0 exik e 1 x ! x k (max)  xk (min)


n

auto:


x ik  x k x ! sk
 ik

sk !

(x
i !1

ik

 xk )

n 1

Normalizacin:
x ik !


x ik xk

xk !

2 2 2 x 1k  x 2k  ... x nk

Pre-procesamiento

Demostracin de procedimientos de traslacin y escalamiento: A muestra los datos originales, B:datos centrados, C: austoescalados.

Transformaciones
Correcciones de lnea base
Deslocamiento > primera derivada

Concavidad de una curva -> segunda derivada (til cuando hay sobre posicin de picos)

Correccin multiplicativa de seal (M C)


- Corregir efectos de dispersin de luz en ,medidas de reflectancia, debido a la diferencia en el tamao de partculas en la muestra.

antes

despus

Anlisis de Componentes Principales Es la principal herramienta del reconocimiento de patrones. El anlisis de componentes principales trata de definir, a partir de un conjunto inicial de variables (observables), otro conjunto de variables (no observables), obtenido por combinacin lineal de las variables originales entre s, siendo posible extraer de ellas una informacin discriminada de algunas caractersticas del sistema de estudio. Con esto se elimina la informacin redundante y reduce la contribucin del ruido.

Pretratamiento de los Datos


Centrado en la media: Escalado del rango: Autoescalado: Normalizacin de la longitud:

Varianza Explicada y Residual

Varianza explicada y residual en un vector cualquiera que pasa por el centroide de los puntos.

rimer componente principal, donde es mxima la varianza explicada (el autovalor) y mnima la residual.

Varianzas en Funcin del Nmero de Vectores

s
Varianza explicada acumulada !
p !1 m

2 p

P
v 100% !
p !1 m

v 100%
p

2 p

P
p !1

p !1

Interpretacin Geomtrica

Matriz de Datos
Datos objetos-variable genricos

Variable Objetos Nombre 1 Nombre 2 ............... Nombre i ............... Nombre n No. 1 2 ... i ... n

Nombre 1
1 x11 x21 ... xi1 ... xn1

Nombre 2, ...
2, ... x12, ... x22, ... ... xi2, ... ... xn2, ...

Nombre j, ...
j, ... x1j, ... x2j, ... ... xij, ... ... xnj, ...

Nombre m
m x1m x2m ... xim ... xnm

Matriz de Datos

x11 x21 . X! xi1 . x n1

x12 x22 . xi 2 . xn 2

. . . . . .

x1 j x2 j . xij . xnj

. . . . . .

x1m . . xim . xnm

Descomposicin de una Matriz


 La matriz para m variables manifiestas:

 La forma matricial es: U0 = XV

Interpretacin Matemtica

X
Matriz n x m de las variables manifiestas

Matriz n x m de las puntuaciones (loadings)

0
X
Matriz diagonal m x m de los autovalores (eingevalues)

VT
X
Matriz m x m de las cargas (scores)

 U y V son ortonormales entre s.  La matriz 0 es la matriz de covarianzas, donde:


tr(0) !
m

P
p !1

Varianza explicada por u

PP ! v1 tr(0 )

Interpretacin Matemtica

Reduccin de Dimensiones
 La reduccin de dimensiones contiene solo la informacin estructural o importante, y la informacin irrelevante mas el ruido aleatorio quedan eliminados.  El espacio reducido queda descrito por:
  

Las k primeras columnas de U, que contienen las puntuaciones normalizadas. Las k primeras filas de V, que dan infor-macin sobre las variables manifiestas que construyen los componentes retenidos. Los k primeros autovalores, que indican el peso o longitud de cada componente rete-nido, y que permiten calcular la cantidad de varianza explicada o porcentaje de informacin retenida por cada compo-nente, y por el modelo formado por los k primeros componentes, o por cualquier otra combinacin de vectores.

Seleccin del Nmero ptimo de Componentes


 Por el nmero de fuentes significativas de varianza. El nmero de vectores que es necesario retener en el modelo no es mayor que el nmero de fuentes significa-tivas de varianza presentes en los datos.  Por el porcentaje satisfactorio de varian-za explicada acumulada, tal como, por ejemplo, el % o el %.  Mediante el estudio grfico de los autova-lores, o de las varianzas explicada acumu-lada y residual.  Mediante el estudio grfico de cocientes de autovalores sucesivos. Para exaltar la diferencia entre las zonas de cada brusca y gradual se representa cada autovalor dividido por el que le sigue: P1/ P2, P2 / P , P / P , etc.

Seleccin del Nmero ptimo de Componentes

Grfico de Puntuaciones
Agrupaciones entre los objetos. Objetos que estn fuera del modelo (outliers)
p=1 i=1
Matriz n x m de las puntuaciones (loadings)

Componente k

Componente 1

Grfico de Cargas
El anlisis de la matriz V se realiza de dos modos:
 por filas, mediante la observacin directa o grfica (diagrama de barras) de los elementos de la fila o cargas correspondientes a un componente determinado.  por columnas (desde su primer elemento hasta el k), mediante diagramas de dispersin en los que las coordenadas de los puntos son parejas de cargas tomadas de la misma columna de V (primer y segundo elementos de cada columna, primer y tercero, segundo y tercero, etc.), por lo que cada punto representa a una determinada variable manifiesta.

Grfico de Cargas de un Componente El estudio de las primeras filas de la matriz V permite saber qu variables manifiestas contribuyen en mayor medida a la varianza de cada componente, y tambin indica si el componente tiene carcter de cantidad o de contraste. Varias cargas altas sobre un determinado componente indican correlacin entre las variables manifiestas implicadas entre s y con el componente.

Grfico de Cargas de un Componente

Grfico de Cargas sobre dos Componentes


 Si el punto se halla a gran distancia del centroide, esto es, si las cargas de xp sobre u1, sobre u2 o sobre ambos son altas, xp cede casi toda su varianza al plano u1u2, o lo que es igual, ya no le queda varianza relevante que ceder a otros componentes.  Los ngulos que forma xp con u1 y u2 indican a cul de los dos cede preferentemente su varianza, esto es, con cul de los dos est ms fuertemente correlacionada.  Por el contrario, si xp se encuentra cerca del centroide, no cede varianza al plano u1u2, y por tanto su varianza se encuentra cedida a u , o tal vez est repartida entre varios componentes, incluyendo u1, u2, u , etctera

Grfico de Cargas sobre dos Componentes

El diagrama doble (biplot)


Se obtiene superponiendo los diagramas de puntuaciones y cargas para un mismo plano. El diagrama doble informa sobre las relaciones entre los objetos y los grupos formados por las variables manifiestas, y por ello permite extraer conclusiones acerca de las relaciones entre los objetos y las variables fundamentales.

El diagrama doble (biplot)

Você também pode gostar