Você está na página 1de 23

TRIMESTRE 1:

ANÁLISIS MULTIVARIADO
PARA RIESGOS

PROFESOR: LUIS E. NIETO BARAJAS

EMAIL: lnieto@itam.mx

URL: http://allman.rhon.itam.mx/~lnieto

Maestría en administración de riesgos


PROFESOR: LUIS E. NIETO BARAJAS

Análisis Multivariado para riesgos

¾ OBJETIVO: Presentar los principales métodos del análisis multivariado,


haciendo énfasis en el área de administración de riesgos. Discutir casos
prácticos que involucren el tratamiento de grandes bases de datos.

¾ TEMARIO (EXTENDIDO):
1. Introducción.
1.1 Aplicaciones de los métodos multivariados
1.2 Organización de los datos
1.3 Variables, vectores y matrices aleatorias
1.4 Repaso de álgebra matricial
2. Análisis exploratorio multivariado
2.1 Estadística multivariadas descriptivas
2.2 Análisis gráfico
3. La distribución normal multivariada
3.1 Propiedades
3.2 Estimación máximo verosímil
3.3 Validación del supuesto de normalidad
3.4 Transformaciones para conseguir normalidad
4. Análisis de componentes principales
4.1 Componentes principales poblacionales
4.2 Reducción de la variabilidad muestral con CP
4.3 Gráficas de los componentes principales
4.4 Inferencias asintóticas para λi y ei.
5. Análisis de clasificación (discriminante)
5.1 Clasificación de dos poblaciones

2
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

5.2 Análisis discriminante de Fisher


5.3 Modelo logístico
5.4 Árboles de clasificación
5.5 Redes neuronales
6. Análisis de cúmulos
6.1 Medidas de similaridad
6.2 Métodos jerárquicos
6.3 Métodos no jerárquicos
7. Temas opcionales
7.1 Análisis de factores
7.2 Cópulas
7.3 Análisis de correlación canónica
7.4 Escalamiento multidimensional
7.5 Análisis de correspondencias

¾ REFERENCIA BÁSICA:
9 Johnson, R. A. & Wichern, D. W. (2002). Applied Multivariate Statistical
Analysis. Prentice Hall: London.

¾ REFERENCIAS ADICIONALES:
‰ Anderson, T.W. (2003). An Introduction to Multivariate Statistical
Analysis. Wiley: New York.
‰ Bluhm, C., Overbeck, L. & Wagner, C. (2003). An Introduction to Credit
Risk Modelling. Chapman & Hall: London.
‰ Elizondo, A. (2003). Medición integral del riesgo de crédito. Limusa:
México.
‰ Hand, D. J. & Jacka, S. D. (1998). Statistics in Finance. Wiley: New York.

3
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

‰ Jobson, J. D. (1991). Applied Multivariate Data Analysis. Springer: New


York.
‰ Johnson, D. E. (2000). Métodos multivariados aplicados. ITP International
Thomson Editores: México.
‰ Mardia, K., Kent, J.T. & Bibby, J.M. (1980). Multivariate Analysis.
Academic Press.
‰ Morrison, D. F. (1978). Multivariate Statistical Methods. McGraw-Hill:
Japan.
‰ Press, S. J. (1982). Applied Multivariate Analysis. Krieger Publishing
Company: Florida.
‰ Venables, W. N. & Ripley, B. D. (1998). Modern Applied Statistics with
S-PLUS. Springer: New York.
‰ Seber, G.A.F. (1984). Multivariate Observations. Wiley: New York.

¾ PAQUETES ESTADÍSTICOS: En el curso habrá un paquete estadístico básico,


el cual servirá como herramienta para comprender mejor los conceptos
presentados en clase. Este paquete básico no es exclusivo, si el alumno así
lo desea, puede auxiliarse de cualquier otro paquete estadístico.
9 Paquete básico: R
‰ Paquetes auxiliares: Splus, SPSS, Statgraphics, Minitab, Matlab

¾ EVALUACIÓN: El curso se avaluará de la siguiente manera:


ƒ Examen Parcial - 40%
ƒ Trabajo Final - 20%
ƒ Examen Final - 40%
ƒ Tareas

4
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

1. Introducción

¿Qué es el análisis multivariado?

¾ Definición: Análisis Multivariado. Es la parte de la Estadística que se


dedica al estudio de mediciones simultáneas de varias variables. Provee
una metodología para el análisis de este tipo de datos.

¾ El análisis multivariado es mucho más complicado que el análisis


univariado y muchas veces no existe una generalización directa.

¾ Generalmente en análisis multivariado el investigador se dedica a analizar


una base de datos ya existente sin haber controlado el proceso de obtención
de los datos ni la elección de variables a analizar (diseño de experimentos y
diseño muestral).

¾ Algunos de los métodos multivariados están basados en un modelo


probabilístico (normal multivariada), sin embargo existen algunos otros
que sólo están basados en argumento intuitivos.

1.1 Aplicaciones de los métodos multivariados

¾ Las aplicaciones de los métodos multivariados se han incrementado


tremendamente en los últimos años y han expandido las áreas de
aplicación.

5
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

¾ Los objetivos para los cuales se han usado los métodos multivariados más
comúnmente son:
1) Reducción de datos o simplificación estructural
2) Clasificación y agrupación: tanto individuos como variables
3) Investigar la dependencia entre variables
4) Predicción
5) Pruebas de hipótesis

¾ Aplicaciones de los métodos multivariados al análisis de riesgos:


1) Z−Score: Análisis de clasificación o análisis discriminante.
Se usa para determinar cuando una empresa es sana o tiene alta
probabilidad de quiebra.
Ref: Elizondo (2003), Cap. 1.
2) Scoring: Componentes principales.
Se usa para evaluar (calificar) el riesgo de una empresa o una cartera o
un individuo.
Ref: Elizondo (2003), Cap. 3.
3) Probabilidad de incumplimiento: Modelos logísticos.
Se usa para modelar la probabilidad de incumplimiento en carteras de
crédito.
Ref: Elizondo (2003), Cap. 2.
4) Modelos de correlaciones (CreditMetrics, KMV-Model): Análisis de
factores.
Se usa para determinar factores comunes en un grupo de variables.
Ref: Bluhm, et al. (2003).
5) Distribuciones de pérdida conjuntas: Cópulas.
Expresar pérdidas conjuntas en términos de pérdidas marginales.

6
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

Ref: Bluhm, et al. (2003).

1.2 Organización de los datos

¾ Los datos multivariados surgen cuando un investigador selecciona un


número p≥1 de variables o características a medir.

¾ Los valores de estas variables están medidas para cada individuo, elemento
o unidad experimental.

¾ NOTACIÓN:
p = número de variables
n = número de individuos
Xij = j-ésima variable del i-ésimo individuo
xij = valor observado de la j-ésima variable del i-ésimo individuo
⇒ Si tenemos n mediciones de p variables, es decir, i=1,...,n y j=1,....,p
 x11 x12 L x1p 
 
 x 21 x 22 L x 2p 
X=
M M O M 
 
x x n2 L x np 
 n1
X=matriz de datos

¾ Los renglones de la matriz X corresponden a las medicines de las p


variables para cada individuo i, , i=1,...,n. Es decir,
x i' = (x i1 , x i 2 ,..., x ip ).

Nota: Todos los vectores son vectores columna.

7
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

¾ A lo largo de este curso usaremos dos (o más) bases de datos financieras


para ilustrar los métodos multivariados:

1) Datos de precios de acciones (Stock-Price data):


Consiste de tasas de retorno semanales para 5 acciones que cotizan en la
bolsa de Nueva York, de enero de 1975 a diciembre de 1976.
Xij = Tasas de retorno en la semana i de la acción j
Yij = Precio de cierre de la acción j en la semana i (en viernes)
Yij − Yi−1, j
⇒ X ij =
Yi−1, j

2) Datos financieros de compañías de servicio (Public Utility Data):


Consiste de mediciones financieras de 22 compañías de servicio público
en E. U. en 1975.

3) Datos de “Credit Scoring” (Credit Data):


Consiste de 113 observaciones de 10 características para el
otorgamiento de crédito hipotecario.

o Nota: Las observaciones de datos multivariados deben de ser


independientes de un individuo a otro.

1.3 Variables, vectores y matrices aleatorias

¾ Recordemos:
o X es una variable aleatoria si X es una función medible con dominio en el
espacio muestral (Ω) y contradominio en los números reales (ℜ ), i.e.,

8
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

(Ω, ℑ ,P)→X( ℜ ,ß,Px)


X es medible ⇔ Para todo B ∈ ß, X −1 (B) = {ω ∈ Ω : X(ω) ∈ B}∈ ℑ

o X es un vector aleatorio de dimensión p si X' = (X1 ,K, X p ): Ω → ℜ p

medible.

¾ En Estadística, generalmente obtenemos una muestra aleatoria de la


variable de interés. Si la variable de interés es un vector aleatorio, entonces
una m.a. es una colección (X1,…,Xn) de vectores aleatorios independientes
e idénticamente distribuidos tal que X i ' = (X i1 , X i 2 ,K, X ip ), i=1,…,n.

En forma matricial, la m.a. se puede expresar como:


 X11 X12 L X1p 
 
 X 21 X 22 L X 2p 
X= ,
M M O M 
 
X Xn2 L X np 
 n1
donde cada Xij es una v.a., i=1,…,n, j=1,…,p.

¾ NATURALEZA de las v.a.’s:


Sabemos que una v.a. X puede ser tanto continua como discreta. En el caso
ultivariado los vectores aleatorios X' = (X1 ,K, X p ) pueden ser:

I. Continuos: Si Xj es una v.a. continua para todo j=1,…,p


II. Discretos: Si Xj es una v.a. discreta para todo j=1,…,p
III. Mixtos: Si Xj es una v.a. continua para algún j’ y Xj es discreta para j≠j’

o Nota: El término mixto también se usa en el contexto de una sola v.a. en


donde una parte es discreta y otra parte es continua.

9
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

¾ DISTRIBUCIONES DE VECTORES Y MATRICES ALEATORIAS:

o Sea X' = (X1 ,K, X p ) un vector aleatorio de dimensión p×1, entonces

f X1 ,K,X p (x1 ,K, x p ) es la función de densidad conjunta

FX1 ,K,X p (x1 ,K, x p ) = P(X1 ≤ x1 ,K, X p ≤ x p ) es la función de distribución

conjunta

o Independencia: X1,…,Xp son v.a. independientes si y solo si


f X1 ,K,X p (x1 ,K, x p ) = f X1 (x1 )Lf Xp (x p ) , ó

FX1 ,K,X p (x1 ,K, x p ) = FX1 (x1 )L FXp (x p )

 X1 ' 
 
 X2 '
o Sea X =  una matriz aleatoria tal que X i ' = (X i1 , X i 2 ,K, X ip ) son
M 
 
X
 n '

vectores aleatorios independientes, entonces la función de densidad


conjunta es

f X (x ) = ∏ f Xi ' (x i ') = ∏ f Xi1 ,K,Xip (x i1 ,K, x ip )


n n

i =1 i =1

y la función de distribución conjunta es


n
FX (x ) = ∏ FXi ' (x i ')
i =1

10
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

¾ VALORES ESPERADOS Y VARIANZAS:

o Recordemos: Sea X una v.a. de dimensión 1×1, entonces


∞
 ∫ xf ( x )dx , si X es continua
µ X = E(X ) = −∞
∑ xf ( x ), si X es discreta
 x

∞
 ∫ (x − µ ) f (x )dx, si X es continua
2

σ 2X = Var(X ) = −∞
∑ (x − µ )2 f (x ), si X es discreta
 x

{
Nota: Var(X ) = E (X − µ ) = E X 2 − µ 2
2
} ( )
o Sea X' = (X1 , X 2 ) un vector aleatorio de dimensión 2×1, entonces
Covarianza:
σ12 = Cov(X1 , X 2 ) = E{(X1 − µ1 )(X 2 − µ 2 )} = E(X1X 2 ) − µ1µ 2 ,
donde, µ j = E (X j ) , j=1,2

∞
 ∫ (x1 − µ1 )(x 2 − µ 2 )f X1 ,X 2 (x1 , x 2 )dx1dx 2 , si X1 y X 2 son continuas
σ12 = −∞
∑ (x1 − µ1 )(x 2 − µ 2 )f X ,X (x1 , x 2 ), si X1 y X 2 son discretas
 x 1 2

¿Qué pasa cuando X1 es continua y X2 es discreta?


Coeficiente de correlación:
σ12
ρ12 = , con ρ12 ≤ 1
σ11σ 22

o Si X1 y X2 son v.a.’s independientes ⇒ Cov(X1 , X 2 ) = 0 ( ρ12=0 )

11
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

Nota: La implicación inversa no es cierta generalmente, sólo en el caso


normal bivariado.

o Sea X' = (X1 ,K, X p ) un vector aleatorio de dimensión p×1, entonces

Vector de medias:
 E (X1 )   µ1 
   
 E (X 2 )   µ 2 
µ = E (X) =  =
M   M 
   
 E (X )   µ 
 p   p

Matriz de varianzas y covarianzas:


 X1 − µ1  
  
 X 2 − µ 2 
Σ = E 
M  (X 1 − µ1 , X 2 − µ 2 ,..., X p − µ p )

  
 
 X p − µ p  
 

 (X 1 − µ1 )2
(X1 − µ1 )(X 2 − µ 2 ) L (X1 − µ1 )(X p − µ p ) 
 (X − µ 2 )(X1 − µ1 ) (X 2 − µ 2 )2 L (X 2 − µ 2 )(X p − µ p )
Σ = E 2 
 M M O M 
 (X − µ )(X − µ ) (X p − µ p )(X 2 − µ 2 ) L (X p − µ p )2 
 p p 1 1 

 σ11 σ12 L σ1p 


 
 σ 21 σ 22 L σ 2p 
Σ=
M M O M 
 
σ L σ pp 
 p1 σ p 2
Nota: Σ=Var(X) =Cov(X,X) y Σ’ =Σ

o Es importante reescribir la información dada por Σ en términos


estandarizados

12
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

σ ii = Var (X i ) y σ ij = Cov(X i , X j )

σ ij
⇒ ρ ij = Corr (X i , X j ) = , i,j=1,...,p.
σ ii σ jj

Esta información se puede escribir en una matriz:


Matriz de correlaciones:
 1 ρ12 L ρ1p 
 
 ρ 21 1 L ρ 2p 
Ρ = Corr (X) = 
M M O M 
 
ρ L 1 
 p1 ρ p 2

o Si definimos a V1/2, la matriz de desviaciones estándar, como


 σ11 0 L 0 
 
 0 σ 22 L 0  Σ = V1 / 2 ΡV1 / 2
V1 / 2 = ⇒
 M M O M  Ρ = V −1/ 2 ΣV −1/ 2
 0 0 L σ pp 

¾ PROPIEDADES DE ESPERANZAS Y VARIANZAS:


Sean X y Y dos vetores aleatorios de dimensión p×1 y sean A y B
matrices constantes de dimensión p×p, entonces
1) E(A)=A
2) E(AX+BY) =AE(X)+BE(Y)
3) E(AXb’) =AE(X)b’, b=vector de constantes de dimensión p×1
4) E(X’AX)=E(X)’AE(X)+tr{AVar(X)}
5) Var(A) =0
6) Var(AX) =AVar(X)A’
7) Cov(AX,BY) =ACov(X,Y)B’

13
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

1.4 Repaso de álgebra matricial

¾ Sugerencia: Ver apéndice de conocimientos básicos de álgebra matricial


(Suplemento 2A de Jonson & Wichern, 2002).

¾ Algunos resultados importantes que necesitaremos a lo largo del curso son:

o Descomposición espectral de una matriz: A(p×p)


p
A = ΡΛΡ ' = ∑ λ i e i e i ' ,
i =1

donde Ρ = (e1 , e 2 ,K, e p ) , ei = i-ésimo eigenvector de A

ΡΡ ' = Ρ' Ρ = I (i.e., Ρ es ortonormal)


 λ1 0 L 0
 
 0 λ2 L 0
Λ= , λi=i-ésimo eigenvalor de A
M M O M 
 
0 0 L λ p 

o Inverso de una matriz: A(p×p)


p
1
A −1 = ΡΛ−1Ρ' = ∑ ei ei '
λ
i =1 i

( )
debido a que A −1A = ΡΛ−1Ρ' (ΡΛΡ ') = Ρ(I )Ρ' = ΡΡ' = I
Nota: Otra forma de calcular A−1 es:
1
A −1 = Adj(A) , donde Adj(A) = Cofac(A)'
det(A)

14
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

o Raíz cuadrada de una matriz: A(p×p), λi > 0, para i=1,...,p (i.e., A definida
positiva)
p
A 1/ 2
= ΡΛ Ρ' = ∑ λ i e i e i '
1/ 2

i =1

( )(
tal que A1/ 2 A1/ 2 = ΡΛ1/ 2 Ρ' ΡΛ1/ 2 Ρ' = Ρ(Λ )Ρ' = A )

o Desigualdad de Cauchy Schwartz: Sean x, y dos vectores de dimensión


p×1, entonces
(x ' y )2 ≤ (x ' x )(y' y )
con igualdad si y solo si x=cy, para algun c escalar.
DEM...

o Teorema: Maximización de formas cuadráticas en la esfera unitaria.


Sea B(p×p) una matriz definida positiva con eigenvalores λ1 ≥ λ 2 ≥ Lλ p > 0

y correspondientes eigenvectores e1,e2,...,ep. Entonces,


x ' Bx
max = λ1 (se alcanza cuando x=e1)
x ≠0 x' x
x ' Bx
min = λ p (se obtiene cuando x=ep)
x ≠0 x' x
Más aún,
x ' Bx
max = λ k +1 (se obtiene cuando x=ek+1, k=1,...,p−1)
x ⊥e1 ,K,ek x ' x

donde ⊥=ortogonal (perpendicular).


DEM...

15
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

x x
o Nota: Para un x≠0, si x 0 = = , i.e. x0 es el vector normalizado de x
x x' x

x ' Bx
(x0 se encuentra en el círculo unitario) ⇒ = x 0 ' Bx 0
x' x

16
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

2. Análisis exploratorio multivariado

2.1 Estadísticas multivariadas descriptivas

¾ Las estadísticas multivariadas descriptivas sirven para apreciar la


información contenida en un conjunto de datos mediante el cálculo de
ciertos números resumen (estadísticas).

¾ Nos concentraremos en estadísticas descriptivas de localización, dispersión


y de relación lineal.

¾ Formalmente, un conjunto de datos es una realización de una muestra


aleatoria X1 , X 2 ,..., X n de tamaño n de una distribución multivariada. Es
decir,
X i' = (X i1 , X i 2 ,..., X ip ) para i=1,...,n.

Cada Xi es un vector aleatorio de dimensión p×1.

o Finalmente, el conjunto de datos X se puede escribir como:


 X11 X12 L X1p 
 
 X 21 X 22 L X 2p 
X= ,
M M O M 
 
X Xn2 L X np 
 n1
donde X es una matriz aleatoria.

17
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

¾ MEDIA MUESTRAL: Vector de dimensión p×1


1 n
X= ∑ Xi ,
n i=1
es decir,

 X1   X11   X n1  
     
 X 2  1  X12   X n 2 
X =   =  +L+  .
M n M  M 
     
 Xp  X   X 
   1p   np 
Esto implica que, para j=1,...,p
1 n
Xj = ∑ X ij .
n i=1
‰ Propiedades:
E(X ) = µ ,
donde µ es el vector de medias poblacional de dimensión p×1
1 1
Var (X ) = Var(X i ) = Σ ,
n n
donde Σ es la matriz de varianzas y covarianzas de Xi.
DEM...

™ R: mean, colMeans, apply−mean

¾ VARIANZA MUESTRAL: Matriz de dimensión p×p


1 n '
S= ∑ (X i − X )(X i − X )  ,
n − 1  i=1 
que en términos matriciales se puede escribir como:

18
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

1
S= (X − 1X')' (X − 1X'),
n −1
donde 1'n×1 = (1,K,1) . Alternativamente,

 S11 S12 L S1p 


 
 S21 S22 L S2 p 
S= ,
M M O M 
 
S L Spp 
 p1 Sp 2

donde, S jj =
1 n
∑ (X ij − X j )2 , para j=1,2,...,p, y
n − 1 i=1

∑ (X ik − X k )(X ij − X j ), para k≠j=1,2,...,p.


1 n
Skj =
n − 1 i=1

‰ Propiedades:
E(S) = Σ ,
donde Σ es la matriz de varianzas y covarianzas poblacional
DEM...

™ R: var

o Varianza generalizada: Existen dos formas para resumir la información de


la matriz S:
1) S = det(S)
2) tr(S)
Casos particulares:
a) Si n≤p ⇒ |S|=0
b) Si Var(a’X)>0 para todo a≠0 y p<n ⇒ Rango(S)=p y |S|>0, c.p.1

19
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

¾ CORRELACIÓN MUESTRAL: La correlación muestral no tiene una expresión


en forma de producto de matrices, pero
1 r12 L r1p 
 
 r21 1 L r2 p 
R =
M M O M 
 
r rp 2 L 1 
 p1
Skj
donde, rkj = , para k≠j=1,2,...,p.
Skk S jj

‰ Propiedades:
1) -1 ≤ rkj ≤ 1
2) E(R ) ≠ Ρ .

™ R: cor

¾ OTRAS ESTADÍSTICA DESCRIPTIVAS: Cuantiles, cuartiles, coeficientes de


variación, etc. pueden ser calculados para cada una de las variables como
en el caso univariado.

™ R: summary

20
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

2.2 Análisis gráfico

¾ DIAGRAMAS DE DISPERSIÓN (bidimensional).


Este tipo de diagrama consiste en graficar simultáneamente en dos
dimensiones diagramas de dispersión entre todas las posibles parejas de
variables.
™ R: plot, pairs

¾ DIAGRAMAS DE DISPERSIÓN (tridimensional)


Este tipo de diagrama consiste en graficar en tres dimensiones tres
variables simultáneamente.
™ R: brush, Graph > 3D Plot > 3D Scatter Plot

¾ DIAGRAMA DE BURBUJAS (tridimensional)


Este tipo de diagrama consiste en graficar en dos dimensiones tres
variables en forma de burbujas de la siguiente manera: El eje de las X's
corresponde a una de las variables, el eje de las Y's corresponde a otra de
las variables, y la tercer variable quedará representada por el tamaño de la
burbuja.
™ R: symbols

¾ DIAGRAMA DE ESTRELLAS (multidimensional)


Suponga que los datos toman valores no negativos con p≥2. En dos
dimensiones se pueden construir círculos (imaginarios) de una radio fijo
con p rayos igualmente espaciados saliendo del centro del círculo. Las
longitudes de los rayos representan el valor de las variables. Los rayos
pueden ser conectados para formar una estrella. Cada estrella representa

21
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

una observación multivariada. El orden de las variables es en contra de las


manecillas del reloj empezando a las 3 horas (esto varia dependiendo del
paquete). Es recomendable estandarizar las variables antes de hacer el
diagrama:
X ij − X j
X ij → Zij = , i=1,...,n, j=1,...,p.
S jj

™ R: stars

¾ CARAS DE CHERNOFF (multidimensional)


Chernoff sugirió representar observaciones p−variadas como una cara
bidimensional, cuyas características (forma de la cara, curvatura de la boca,
largo de la nariz, tamaño del ojo, posición de la pupila, etc.) están
determinadas por los valores de las p variables. Distinto ordenamiento de
las variables dan una representación diferente.
™ R: faces

¾ DIAGRAMA DE ANDREWS (multidimensional)


Este tipo de diagrama consiste en representar a la observación i-ésima de
un vector aleatorio p-variado x i' = (x i1 , x i 2 ,..., x ip ) como una función, i.e.,

x i1
f i (t ) = + x i 2 sen ( t ) + x i 3 cos( t ) + x i 4sen (2 t ) + x i 5 cos(2 t ) + L
2
para − π < t < π .
El diagrama de Andrews se construye graficando las n funciones fi(t),
i=1,...,n sobre una misma gráfica en dos dimensiones. Es recomendable
estandarizar las variables. Distintos ordenamientos de las variables dan
representaciones diferentes.

22
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

¾ NOTAS FINALES:
Los diagramas de estrellas, las caras de Chernoff y el diagrama de
Andrews nos sirven para resolver los siguientes objetivos:
o Encontrar una agrupación inicial de individuos
o Detectar observaciones multivariadas extremas
o Verificar o validar una agrupación obtenida por algún método de obtención
de cúmulos (cluster analysis).

23
Maestría: Administración de riesgos Análisis multivariado para riesgos

Você também pode gostar