Análisis de Componentes Principales

Análisis de componentes principales
En estadística, el análisis de componentes principales (en español ACP, en inglés,

PCA) es una técnica utilizada para reducir la dimensionalidad de un conjunto de
datos.
Técnicamente, el ACP busca la proyección según la cual los datos queden mejor
representados en términos de mínimos cuadrados. Esta convierte un conjunto de
observaciones de variables posiblemente correlacionadas en un conjunto de valores
de variables sin correlación lineal llamadascomponentes principales.
El ACP se emplea sobre todo en análisis exploratorio de datos y para construir

modelos predictivos. El ACP comporta el cálculo de la descomposición en
autovalores de la matriz de covarianza, normalmente tras centrar los datos en la
media de cada atributo. ACP de una distribución normal
multivariante centrada en (1,3) con
Debe diferenciarse del análisis factorial con el que tiene similaridades formales y en desviación estándar 3 en la dirección
el cual puede ser utilizado como un método de aproximación para la extracción de aproximada (0,866, 0,5) y desviación
estándar 1 en la dirección
factores.
perpendicular a la anterior. Los
vectores muestran los autovectores
de la matriz de correlación escalados
mediante la raíz cuadrada del
Índice correspondiente autovalor, y
desplazados para que su origen
Fundamento coincidan con la media estadística.
Matemáticas del ACP
Método basado en correlaciones
Método basado en las covarianzas
Limitaciones
Ejemplos
Referencia
Enlaces externos
Fundamento
El ACP construye una transformación lineal que escoge un nuevo sistema de coordenadas para el conjunto original de datos en el
cual la varianza de mayor tamaño del conjunto de datos es capturada en el primer eje (llamado el Primer Componente Principal), la
segunda varianza más grande es el segundo eje, y así sucesivamente. Para construir esta transformación lineal debe construirse
primero la matriz de covarianza o matriz de coeficientes de correlación. Debido a la simetría de esta matriz existe una base completa
de vectores propios de la misma. La transformación que lleva de las antiguas coordenadas a las coordenadas de la nueva base es
precisamente la transformación lineal necesaria para reducir la dimensionalidad de datos. Además las coordenadas en la nueva base
dan la composición en factores subyacentes de los datos iniciales.
Una de las ventajas del ACP para reducir la dimensionalidad de un grupo de datos, es que retiene aquellas características del conjunto
de datos que contribuyen más a su varianza, manteniendo un orden de bajo nivel de los componentes principales e ignorando los de
alto nivel. El objetivo es que esos componentes de bajo orden a veces contienen el aspecto "más importante" de esa información.
Matemáticas del ACP

Supongamos que existe una muestra conn individuos para cada uno de los cuales se han medidom variables (aleatorias) El ACP
permite encontrar un número de factores subyacentes p < m que explican aproximadamente el valor de las m variables para cada
individuo. El hecho de que existan estos p factores subyacentes puede interpretarse como una reducción de la dimensionalidad de los
datos: donde antes necesitabamos m valores para caracterizar a cada individuo ahora nos bastan p valores. Cada uno de los p
encontrados se llama componente principal, de ahí el nombre del método.
Existen dos formas básicas de aplicar el ACP:
1. Método basado en la matriz de correlación, cuando los datos no son dimensionalmente homogéneos o el orden de
magnitud de las variables aleatorias medidas no es el mismo.
2. Método basado en la matriz de covarianzas, que se usa cuando los datos son dimensionalmente homogéneos y
presentan valores medios similares.
Método basado en correlaciones

El método parte de la matriz de correlaciones, consideremos el valor de cada una de las m variables aleatorias . Para cada uno de
los n individuos tomemos el valor de estas variables y escribamos el conjunto de datos en forma de matriz:
Obsérvese que cada conjunto
puede considerarse una muestra aleatoria para la variable . A partir de los datos correspondientes a las m variables
aleatorias, puede construirse la matriz de correlación muestral, que viene definida por:
Puesto que la matriz de correlaciones essimétrica entonces resulta diagonalizable y sus valores propios verifican:
Debido a la propiedad anterior estos m valores propios reciben el nombre de pesos de cada uno de los m componentes principales.
Los factores principales identificados matemáticamente se representan por la base de vectores propios de la matriz . Está claro
que cada una de las variables puede ser expresada como combinación lineal de los vectores propios o componentes principales.
Método basado en las covarianzas

El objetivo es transformar un conjunto dado de datos X de dimensión n x m a otro conjunto de datos Y de menor dimensión n x l con
la menor perdida de información útil posible utilizando para ello la matriz de covarianza.
Se parte de un conjunton de muestras cada una de las cuales tienem variables que las describen y el objetivo es que, cada una de esas
muestras, se describa con solo I variables, donde l < m. Además, el número de componentes principales l tiene que ser inferior a la
menor de las dimensiones de X.
Los datos para el análisis tienen que estar centrados a media 0 (restándoles la media de cada columna) y/o autoescalados(centradosa
media 0 y dividiendo cada columna por su desviación estándar).
Los vectores son conocidos como scores y contienen la información de cómo las muestras están relacionadas unas con otras
además, tienen la propiedad de ser ortogonales. Los vectores se llaman loadings e informan de la relación existente entre las
variables y tienen la cualidad de ser ortonormales. Al coger menos componentes principales que variables y debido al error de ajuste
del modelo con los datos, se produce un error que se acumula en la matriz .
El PCA se basa en la descomposición en vectores propios de la matriz de covarianza. La cual se calcula con la siguiente ecuación:
Donde es el valor propio asociado al vector propio . Por último,
Esta ecuación la podemos entender como que son las proyecciones de X en , donde los valores propios miden la cantidad de
varianza capturada, es decir, la información que representan cada uno de los componentes principales. La cantidad de información
que captura cada componente principal va disminuyendo según su número es decir, el componente principal número uno representa
más información que el dos y así sucesivamente.
Limitaciones
1
La aplicación del ACP está limitada por varios supuestos
Suposición de linealidad: Se asume que los datos observados soncombinación lineal de una cierta base.
Importancia estadística de la media y la covarianza: el ACP utiliza losvectores propios de la matriz de covarianzas y
sólo encuentra las direcciones de ejes en el espacio de variables considerando que los datos se distribuyen de
manera gaussiana.
Ejemplos
Un análisis consideró las calificaciones escolares n = 15 estudiantes en m = materias (lengua, matemáticas, física,
inglés, filosofía, historia, química, gimnasia). Los dos primeros componentes principales explicaban juntos el 82,1%
de la varianza. El primer de ellos parecía fuertemente correlacionado con las materias de humanidades (lengua,
inglés, filosofía, historia) mientras que el segundo aparecía relacionado con las materias de ciencias (matemáticas,
física, química). Así parece que existe un conjunto de habilidades cognitivas relacionadas con las humanidades y un
segundo relacionado con las ciencias, estos dos conjuntos de habilidades son estadísticamente independientes por
lo que un alumno puede puntuar alto en sólo uno de ellos, en los dos o en ninguno. 2
Una análisis de 11 indicadores socieconómicos de 96 países, reveló que los resultados podían explicarse en alto
grado a partir de sólo dos componentes principales, el primero de ellos tenía que ver con el nivel de PIB total del
país y el segundo con el índice deruralidad.3
Referencia
1. Jonathon Shlens.A Tutorial on Principal Component Analysis. (http://www.cs.otago.ac.nz/cosc453/student_tutorials/p
rincipal_components.pdf)
2. Ejemplos de PCA (www.uoc.edu) (http://www.uoc.edu/in3/emath/docs/Componentes_principales.pdf)
3. Universidad Carlos III de Madrid (http://halweb.uc3m.es/esp/Personal/personas/agrane/ficheros_docencia/MUL TIVA
RIANT/slides_comp_reducido.pdf)
Enlaces externos
Matemáticas del ACP y ejemplos (Universidad Carlos III de Madrid)
Obtenido de «https://es.wikipedia.org/w/index.php?title=Análisis_de_componentes_principales&oldid=101716561
»
Se editó esta página por última vez el 7 sep 2017 a las 21:13.
El texto está disponible bajo laLicencia Creative Commons Atribución Compartir Igual 3.0 ; pueden aplicarse cláusulas
adicionales. Al usar este sitio, usted acepta nuestrostérminos de uso y nuestra política de privacidad.
Wikipedia® es una marca registrada de laFundación Wikimedia, Inc., una organización sin ánimo de lucro.

Análisis de Componentes Principales

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análisis de Componentes Principales

Enviado por

Direitos autorais:

Formatos disponíveis

Análisis de componentes principales

En estadística, el análisis de componentes principales (en español ACP, en inglés,

El ACP se emplea sobre todo en análisis exploratorio de datos y para construir

Matemáticas del ACP

Existen dos formas básicas de aplicar el ACP:

Método basado en correlaciones

Obsérvese que cada conjunto

Método basado en las covarianzas

Donde es el valor propio asociado al vector propio . Por último,

Você também pode gostar