Você está na página 1de 41

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

(Universidad del Per, DECANA DE AMERICA)

FACULTAD DE CIENCIAS MATEMTICAS

Mg. Mara Estela Ponce Aruneri


ESCUELA ACADMICO PROFESIONAL DE ESTADSTICA
DEPARTAMENTO ACADMICO DE ESTADSTICA
SEMESTRE 2009-II

QU ES EL ANLISIS MULTIVARIANTE?
Es el conjunto de mtodos estadsticos cuya finalidad es
analizar
simultneamente
conjuntos
de
datos
multivariantes en el sentido de que hay varias variables
medidas para cada individuo objeto estudiado.
Su razn de ser radica en un mejor entendimiento del
fenmeno objeto de estudio obteniendo informacin que
los mtodos estadsticos univariantes y bivariantes no
pueden proporcionar.

As, como Hair et al. (1999) dicen:


Las mujeres y hombres de negocios de hoy no pueden
seguir aproximaciones ya pasadas en las que los
consumidores eran considerados homogneos y
caracterizados por un nmero pequeo de variables
demogrficas. En su lugar, deben desarrollar estrategias
que atraigan a numerosos segmentos de clientes con
caractersticas demogrficas y psicogrficas diversas en
un mercado con mltiples restricciones (legales,
econmicas, competitivas, tecnolgicas, etc). Slo a
travs del anlisis multivariante las relaciones mltiples
de este tipo podrn ser examinadas adecuadamente para
obtener un entendimiento ms completo y real del entorno
que permita tomar las decisines ms adecuadas.

Es una metodologa estadstica

sofisticada,
mucho ms potente, que utiliza los mtodos
del
lgebra
lineal,
matricial,
clculo
numrico, geometra lineal, entre otras.

Los mtodos de anlisis multivariante se

diferencian unos de otros, segn su rea de


aplicacin se refiera a una o ms problemas
y segn se requiera uno o ms grupo de
variables.

Objetivos del Anlisis Multivariante

Pueden sintetizarse en dos:


1) Proporcionar mtodos cuya finalidad es
el
estudio
conjunto
de
datos
multivariantes
que
el
anlisis
estadstico uni y bidimensional no
pueden conseguir.
2)

Ayudar al analista o investigador a


tomar decisiones ptimas en el contexto
en el que se encuentre teniendo en
cuenta la informacin disponible por el
conjunto de datos analizado.

TIPOS DE TECNICAS MULTIVARIANTES


Se pueden clasificar en tres grandes grupos:
1)Mtodos de dependencia
Suponen que las variables analizadas estn divididas en dos
grupos:
las
variables
dependientes
y
las
variables
independientes. El objetivo de los mtodos de dependencia
consiste en determinar si el conjunto de variables independientes
afecta al conjunto de variables dependientes y de qu forma.

2) Mtodos de interdependencia
Estos mtodos no distinguen entre variables dependientes e
independientes y su objetivo consiste en identificar qu variables
estn relacionadas, cmo lo estn y por qu.

3) Mtodos estructurales
Suponen que las variables estn divididas en dos grupos: el de
las variables dependientes y el de las independientes. El objetivo
de estos mtodos es anlizar, no slo como las variables
independientes afectan a las variables dependientes, sino
tambin cmo estn relacionadas las variables de los dos grupos
entre s.

CLASIFICACIN DE LAS TCNICAS MULTIVARIANTES


El tipo de relacin que est
siendo examinadas es de:

Interdependencia.
La estructura de la
relacin es entre:

Dependencia

Varias Variables
dependientes

Mtricas.
Manova.
Correlacin
Cannica.

una Variable
dependiente

Mtrica.
Regresin
Mltiple.
Anlisis de
supervivencia.

Variables.
C.P.
Anlisis Factorial
Modelos loglineal.

No mtrica.
Anlisis Discriminante.
Modelos de Regresin
Logstica.
Anlisis Conjunto.

Casos.
Anlisis Cluster

Objetos.
Escalamiento
multidimensional.
Anlisis de
Corresponden
-cias

FASES PRINCIPALES DE UNA INVESTIGACIN MULTIVARIANTE

Definir el problema de Investigacin


Objetivos; diseo e hiptesis
Tcnica Multivariante a utilizar.

Desarrollo del Proyecto de Anlisis

Evaluacin de los supuestos de la


Tcnica Multivariante

Estimacin del modelo Multivariante.


Valoracin del Ajuste del Modelo.

Interpretacin de los valores Tericos

Validacin del Modelo Multivariante

APLICACIONES DE LAS TCNICAS


MULTIVARIANTES
Medicina
Evaluar la presencia o ausencia de determinados sntomas
clnicos para diagnosticar la enfermedad de un paciente
(anlisis discriminante).
Para estimar la probabilidad de que la sintomatologa de una
determinada enfermedad reaparezca antes de un perodo
determinado, conocidos el tiempo de respuesta al tratamiento
y los distintos hbitos del paciente, (Regresin logstica).
Se tabula las frecuencias de ciertos estmulos y sus respuestas.
Interesa obtener una representacin bidimensional de las
correspondencias entre estmulos y respuestas (Anlisis
Factorial de Correspondencia).

Biologa:
Se miden diferentes variables biomtricas

en los individuos de una misma especie. Se


desea detectar componentes de tamao y
forma
(Anlisis
de
Componentes
Principales).

Las

observaciones
de
p
variables
biomtricas
representativas
de
los
individuos de una especie, se obtienen para
estudiar la variabilidad entre diferentes
especies o razas geogrficas (Anlisis
Cannicos).

Sociologa:
Con referencia a determinadas caractersticas sociales,
polticas y geogrficas se mide la similaridad de un
grupo de naciones. (Escalamiento Multdimensional).
Psicologa:
Los resultados de un test de inteligencia de n tems
basados en una muestra. Para detectar los factores de la
inteligencia (Anlisis Factorial).

Investigacin de Mercados:
1.Se
quiere
determinar
los
beneficios
subyacentes que buscan los consumidores en
la compra de una pasta dental. (Anlisis
Factorial).
2. Para el anlisis de percepciones y
preferencias del consumidor (Escalamiento
Multidimensional).

TAREA
El estudiante realizar un resumen
sobre las clases de variable y los tipos
de escala de medida, con sus
respectivos ejemplos.

MATRIZ DE DATOS
Llamaremos X a la matriz de datos y xij a su elemento genrico
que representa el valor de la variable j sobre el individuo i.
donde i = 1, ..., n y j = 1, ..., p.
La matriz de datos X tendr dimensiones n p y puede
representarse de dos formas distintas. Por filas como:

x11

x12

..........

x21

.
x n1

x22

........... x 2p
........... .
........... x np

.
x n2

x1p

X1'
'
X 2

.
'
Xn

donde cada variable Xi es un vector fila p 1 que representa


los valores de las p variables sobre el individuo i.

Alternativamente podemos representar la matriz X por


columnas:

X = X1

X2

....... Xp

donde ahora cada variable Xj es un vector columna n 1 que


representa la variable j, medida en los n elementos de la
poblacin.

ESTADSTICOS MULTIVARIADOS
Vector de Medias muestral
Es la medida de centralizacin ms utilizada para
describir datos multivariantes, tiene dimensin p y
recoge las medias de cada una de las p variables.
Se calcula fcilmente mediante:
X1

X 2
1 '

X X1
.
n

X p

Ejemplo: Se obtuvo la siguiente informacin de


un grupo de PEC que atienden a nios y nias de
cero a dos aos, mediante una ficha de
observacin de desempeo en el aula en la regin
de Apurimac.
ESTADSTICAS

n
Media
Mediana

PUNTAJE DE
ESTRATEGIAS
METODOLGICAS
6
11,00

PUNTAJE DE
PROTAGONISMO
Y PARTICIPACIN
6
7,67

PUNTAJE DE
DIVERSIDAD
CULTURAL Y
LINGSTICA EN
LOS PROCESOS
PEDAGGICOS
6
6,67

11,00

8,00

5,50

PUNTAJE DE
RECURSOS
INSUMO Y
ESPACIOS
6
21,17

PUNTAJE DE
ACTITUDES
EN SU
LABOR
COTIDIANA
6
13,67

PUNTAJE DE
CAPACIDADES
DE
COMUNICACIN
6
11,00

PUNTAJE DE
EMPATA Y
RESOLUCIN
DE
PROBLEMAS
6
8,00

21,50

14,50

11,00

8,00

Matriz de varianzas-covarianzas muestral, es una


medida de dispersin
La variabilidad de los datos y la informacin relativa a las
relaciones lineales entre las variables se resumen en la matriz de
varianzas y covarianzas. Esta matriz es cuadrada y simtrica de
orden p, donde los trminos diagonales son las varianzas y los
no diagonales, las covarianzas entre las variables. Llamando S a
esta matriz, tendremos que, por definicin:
s12

s12

s21

2
2

s p1

s p2

..........

s1p

........... s 2p

........... .
........... s 2p

Se calcula:

'
1 n
S Xi - X Xi - X
n i 1

EJEMPLO:
MATRIZ DE VARIANZAS-COVARIANZAS

PUNTAJE DE
ESTRATEGIAS
METODOLGICAS

PUNTAJE DE
PROTAGONISMO
Y
PARTICIPACIN

PUNTAJE DE
DIVERSIDAD
CULTURAL Y
LINGSTICA
EN LOS
PROCESOS
PEDAGGICOS

PUNTAJE DE
RECURSOS
INSUMO Y
ESPACIOS

PUNTAJE DE
ACTITUDES
EN SU
LABOR
COTIDIANA

PUNTAJE DE
CAPACIDADES
DE
COMUNICACIN

PUNTAJE DE
EMPATA Y
RESOLUCIN
DE
PROBLEMAS

PUNTAJE DE ESTRATEGIAS
METODOLGICAS

9,200

9,000

8,000

14,000

10,800

8,000

5,200

PUNTAJE DE PROTAGONISMO Y
PARTICIPACIN

9,000

10,667

6,867

14,067

12,867

7,000

6,800

PUNTAJE DE DIVERSIDAD CULTURAL Y


LINGSTICA EN LOS PROCESOS
PEDAGGICOS

8,000

6,867

10,267

15,667

11,667

7,600

5,800

14,000

14,067

15,667

31,367

27,667

13,800

10,000

10,800
8,000
5,200

12,867
7,000
6,800

11,667
7,600
5,800

27,667
13,800
10,000

28,267
10,000
9,600

10,000
8,000
3,600

9,600
3,600
6,400

PUNTAJE DE RECURSOS INSUMO Y


ESPACIOS
PUNTAJE DE ACTITUDES EN SU LABOR
COTIDIANA
PUNTAJE DE CAPACIDADES DE
COMUNICACIN
PUNTAJE DE EMPATA Y RESOLUCIN DE
PROBLEMAS

Tarea: Qu es una matriz definida positiva?

MEDIDAS GLOBALES DE VARIABILIDAD


1)Varianza Total, es una medida global de dispersin
para un conjunto de variables medidas en escala
mtrica.
p

VT tr (S) s 2j
j 1

2)Varianza media, es una medida de dispersin promedio de


un conjunto de variables medidas en escala mtrica.
p
1
S 2 s 2j
p i 1

Inconveniente: no considera la estructura de dependencia de


las variables y las unidades de medida de las variables.

Ejemplos
7

VT tr (S) s 2j 104.168
j 1

p
1
S 2 s 2j 14.88
p i 1

3) Varianza Generalizada

VG S

Una medida global escalar de la variabilidad


conjunta de k variables es la varianza generalizada,
que es el determinante de la matriz de varianzas y
covarianzas. Su raz cuadrada se denomina
desviacin
tpica
generalizada,
y
tiene
las
propiedades siguientes:
(i) Est bien definida, ya que el determinante de la

matriz de varianzas y covarianzas es siempre mayor


o igual que 0.

(ii) Es una medida del rea (para p = 2), volumen (para p


= 3) o hipervolumen (para k > 3) ocupado por el
conjunto de datos.

Cuando p =2

s12
S
r12 s1s2

r12 s1s2

s22

VG s12 s22 (1 r122 )


DTG VG s1s2 (1 r122 )

Interpretacin geomtrica:

Area d1 d 2 sen ( n 1) s12 ( n 1) s22 1 cos 2 ( n 1) s12 s22 (1 r122 )

( Area ) 2
S
s12 s22 (1 r122 )
(n 1)

La varianza generalizada en p

Volumen 2
S
(n 1) p 1
Observacin:
No es til para comparar conjuntos de datos con diferentes
nmeros de variables.
Debido a que la VG se incrementa o decrece montonamente
al incrementar el nmero de variables.

4) Varianza Efectiva, Pea y Rodrguez (2003) propusieron la


siguiente medida global de variabilidad:

VE VG

DE VG

1/ p

1/ 2 p

1/ p

1/ 2 p

No presenta los inconvenientes de la varianza generalizada.

EJEMPLO
MATRIZ DE VARIANZAS-COVARIANZAS

PUNTAJE DE
ESTRATEGIAS
METODOLGICAS

PUNTAJE DE
DIVERSIDAD
CULTURAL Y
LINGSTICA EN
PUNTAJE DE
LOS
PROTAGONISMO
PROCESOS
Y PARTICIPACIN PEDAGGICOS

PUNTAJE DE
ESTRATEGIAS
METODOLGICAS

9,200

9,000

8,000

PUNTAJE DE
PROTAGONISMO Y
PARTICIPACIN

9,000

10,667

6,867

PUNTAJE DE DIVERSIDAD
CULTURAL Y
LINGSTICA EN LOS
PROCESOS
PEDAGGICOS

8,000

6,867

10,267

VT 30.1340
VM 10.0447
VG 48.2671
VE = 3.6410
DE =1.9081

Variabilidad y Distancias
Dados dos vectores xk , xl p , la funcin d es una
distancia o mtrica con las siguientes propiedades:
i) d: p x p + ; es decir d(xk , xl )0
ii) d(xk , xk )= 0
iii) d(xk , xl ) = d(xl , xk )
iv) d(xk , xl ) = d(xk , xm ) + d(xm , xl ) (desigualdad
triangular)

xy

d ( x, y) x y
x

Una familia de medidas de distancias muy conocidas en p son


las distancias de Minkowski:

(r )
kl

(x
j 1

r 2d

(2)
kl

1/ r

xlj )

kj

(x
j 1

kj

1/ 2

xlj )

Cuando r =2 se tiene la distancia eucldea, que es la ms utilizada,


pero depende de las unidades de medida.

Ejemplo: Para los datos de las PEC

Proximity Matrix

1
1
2
3
4
5
6

2
12,530
,000
10,050
16,155
26,134
22,605

,000
12,530
6,928
7,483
14,000
11,576

Euclidean Distance
3
4
6,928
7,483
10,050
16,155
,000
8,602
8,602
,000
17,664
12,884
15,362
11,136

5
14,000
26,134
17,664
12,884
,000
8,124

6
11,576
22,605
15,362
11,136
8,124
,000

This is a dissimilarity matrix

(2)
kl

( x k xl ) M ( x k xl )
'

1/ 2

Para eliminar el efecto de las unidades de medida de las


variables se utiliza la familia de mtricas eucldeas ponderadas:

M es una matriz diagonal, aunque no es necesario, pero debe ser


no singular y definida positiva.
1) Distancia de Mahalanobis, se define como:
di (xi x ) S (xi x )
'

1/ 2

i 1, 2,...n

Esta libre de unidades de medidas y mide la distancia de cada


individuo con respecto a su vector de medias.

EJEMPLO:
Consideremos las primeras cuatro variables de las PEC

MATRIZ DE VARIANZAS-COVARIANZAS

PUNTAJE DE
ESTRATEGIAS
METODOLGICAS

PUNTAJE DE
DIVERSIDAD
CULTURAL Y
PUNTAJE DE
LINGSTICA EN
PROTAGONISMO
LOS
Y
PROCESOS
PARTICIPACIN PEDAGGICOS

PUNTAJE DE
RECURSOS
INSUMO Y
ESPACIOS

PUNTAJE DE
ESTRATEGIAS
METODOLGICAS

9,200

9,000

8,000

14,000

PUNTAJE DE
PROTAGONISMO Y
PARTICIPACIN

9,000

10,667

6,867

14,067

PUNTAJE DE DIVERSIDAD
CULTURAL Y
LINGSTICA EN LOS
PROCESOS
PEDAGGICOS

8,000

6,867

10,267

15,667

PUNTAJE DE RECURSOS
INSUMO Y ESPACIOS

14,000

14,067

15,667

31,367

VT 61.5
VM 15.3750
VG 249.3765
VE = 3.9739
DE = 1.9935

Los resultados de las


Distancias de mahalanobis
son:

d1 = 1,3128
d2 =1,7670
d3 = 1,9849
d4 =1,9535
d5=1,8501
d6 =1,9939

Medidas de Dependencia lineal


Permite evaluar la estructura de dependencia
entre las variables bajo estudio.
Matriz de Correlacin; el grado de asociacin
lineal entre dos variables se estudia mediante el
coeficiente de correlacin simple.

1 r12

r21 1

R
M M

rp1 rp 2

L
L
O
L

r1 p

r2 p
,

rjk

s jk
s

2
j

2
k

1 rjk 1

R es una matriz simtrica, cuadrada y definida positiva.

Ejemplo:
MATRIZ DE CORRELACIONES

PUNTAJE DE ESTRATEGIAS METODOLGICAS


PUNTAJE DE PROTAGONISMO Y PARTICIPACIN
PUNTAJE DE DIVERSIDAD CULTURAL Y
LINGSTICA
EN LOS PROCESOS
PUNTAJE
DE RECURSOS
INSUMO PEDAGGICOS
Y ESPACIOS

PUNTAJE DE
ESTRATEGIAS
METODOLGICAS
1
,909
,823
,824

PUNTAJE DE
DIVERSIDAD
CULTURAL Y
PUNTAJE DE
LINGSTICA EN
PROTAGONISMO LOS PROCESOS
Y PARTICIPACIN PEDAGGICOS
,909
,823
1
,656
,656
1
,769
,873

PUNTAJE DE
RECURSOS
INSUMO Y
ESPACIOS
,824
,769
,873
1

2) Correlacin Mltiple, permite evaluar el grado de asociacin


de una variable j con el resto de variables.
Para calcular, seguir los siguientes pasos:
Tomar el j-simo elemento de la diagonal de la matriz de
varianza-covarianzas, al que se denotara por sjj.

Tomar el j-simo elemento de la diagonal de la inversa de la


matriz de varianza-covarianzas, al que se denotara por sjj.

Rj 1

s jj s jj

R1 = 0.9584
R2 =0.9379
R3 = 0.9263
R4=0.9139

3) Correlaciones Parciales; mide el grado de asociacin entre


dos variables controlando el efecto de las otras variables.
Trabajamos con la matriz inversa de la matriz de varianzascovarianzas.
rjk .1,2,...., p

s jk
s jj s kk

(1) D (S1 )

1 / 2

D (S )

EJEMPLO:

-1.0000 0.8394 0.6339 -0.1789


0.8394 -1.0000 -0.5526 0.4352

P
0.6339 -0.5526 -1.0000 0.6946

-0.1789 0.4352 0.6946 -1.0000

1 / 2

4)Coeficiente de Dependencia efectiva; es una medida global


de la dependencia de los datos:

CDE 1 R p

1
p 1

Si las variables estn todas incorrelacionadas, se tiene que


R = 1 y si las variables estn correlacionadas R = 0
Ejemplo: Para las 4 variables medidas a las PEC, se tiene :
CDE = 0.8009
Globalmente la dependencia lineal explica el 80.09% de la
variabilidad de los puntajes de las variables consideradas.

5) Matriz de precisin, es la inversa de la matriz de varianzascovarianzas, y contiene la siguiente informacin:


Los elementos fuera de la diagonal (sij) son los elementos de
esta matriz.; y es el cociente del coeficiente de regresin de la
variable j para explicar i y la varianza residual de la
regresin.
En la diagonal se encuentran las inversas de las varianzas
residuales de la regresin de cada variable conel resto de ellas.
Si se estandarizan los elementos de esta matriz , los elementos
fuera de la diagonal son las correlaciones parciales.

ij
ij
s 2
sr (i )

1
ii
s 2
sr (i )

rij .R

s ij
s ii s jj

Ejemplo:

1.3353
-0.8560
S 1
-0.6068

0.0909

-0.8560
0.7787
0.4040
-0.1689

-0.6068
0.4040
0.6863
-0.2531

0.0909
-0.1689
-0.2531

0.1935

Bibliografa

1] ANDERSON T.W.: An Introduction to Multivariate Analysis. 2 nd Edition.


John Wiley & Sons.
[2] BERNARD FLURY. 1997. A First Course in Multivariate Statistics.
Editorial Springer Verlag. New York Inc.
[3] CASTRO POSADA. 2000. Estadstica Multivariante. Anlisis de
Correlaciones Amaru Ediciones Melendez 21. Salamanca. Espaa.
[4] CARLES M. CUADRAS, 2007. Nuevos Mtodos de Anlisis
Multivariante . CMC EDITIONS. Espaa
[5] DANIEL PEA, 2002. Anlisis de Datos Multivariados. McGRAW-HILL/
Interamericana de Espaa.
[6] URIEL, EZEQUIEL, ALDAS JOAQUIN. 2005 Anlisis Multivariante
Aplicado. Editorial Thompson Editores. Espaa.
7] JOHNSON, R.; WICHERN, D. 1982. Applied Multivariate Statistical
Analysis. Editorial Prentice Hall Inc.Englewood Cliffs. New Jersey.
[8] MARDIA, KENT AND BIBBY. 1982. Multivariate Analysis. Academic
Press. London.
[

Textos de Consulta:
[1] DALLAS E. JOHNSON. 2000. Mtodos Multivariados Aplicados al
Anlisis de Datos. International Thomson Editores.
[2] HAIR J., ANDERSON R., TATHAM R., BLACK W. 2001. Anlisis
Multivariante. Prentice Hall.

Você também pode gostar