Você está na página 1de 84

Mtodos Multivariados - Clase 1

Sindy Daz Hernndez


U.T.B
Departamento de Ciencias Bsicas

II semestre,2017
Cartagena - Bolivar

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 1 / 79


Outline

1 Estructura y notacin de datos multivariados


Forma de los datos

2 Algunos conjuntos de datos

3 Medidas estadstica
Vector de medias
Matriz de Covarianza
Correlacin

4 Grficas para datos multivariados


Anlisis exploratorio de datos
Grficas de una dimension

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 2 / 79


Estructura y notacin de datos multivariados Forma de los datos

Matriz de Datos

Inputs
Una matriz de datos M.
Las filas de la matriz son los individuos.
Las columnas de la matriz son las variables.

Matriz de Datos
A B C D E
x1 2 2 2 2 2
G : x2 0 1 2 1 0
x3 1 0 0 1 2
x4 0 2 2 0 0
Observacin: Al utilizar un texto verificar como estn considerados
los datos

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 3 / 79


Estructura y notacin de datos multivariados Forma de los datos

Matriz de datos

Supongase que se han observado p variables numricas en un


conjunto de datos de n elementos. Definamos la matriz X de
dimension n p como la matriz de datos: Donde

x11 x12 x13 . . . x1p
x21 x22 x23 . . . x2p
X = {xij } = .

. .. .. .. ..
. . . . .
xn1 xn2 xn3 . . . xnp

Donde i = 1, . . . , n representa los individuos


j = 1, . . . , p representan las variables

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 4 / 79


Estructura y notacin de datos multivariados Forma de los datos

La matriz de datos, X , puede representarse de dos formas distintas.


Por filas, como:

x1,1 x1,2 x1,p x1
x2,1 x2,2 x2,p x
2
X= . .. = ..

.. ..
.. . . . .
xn,1 xn,2 xn,p xn

donde cada variable xi es un vector fila, p 1,

xi = (xi,1 , xi,2 , , xi,p )


que representa los valores de las p variables sobre el individuo i.

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 5 / 79


Estructura y notacin de datos multivariados Forma de los datos

Matriz de datos

Alternativamente, podemos representar la matriz X por columnas:



x1,1 x1,2 x1,p
x2,1 x2,2 x2,p 
X= . .. = x(1) x(2) x(p)

. .. . .
. . . .
xn,1 xn,2 xn,p
donde ahora cada variable x(j) es un vector columna, n 1,

x1,j
x2,j
x(j) = .

.
.
xn,j
Llamaremos x = (x1 , , xp ) a la variable multivariante formada por
las p variables escalares donde x1 , , xn , son los n elementos
observados.
Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 6 / 79
Estructura y notacin de datos multivariados Forma de los datos

Medidas para datos univariante

Recordemos algunas definiciones para datos univariante:


Media:
n
1X
xj = xij (1)
n
i=1

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 7 / 79


Estructura y notacin de datos multivariados Forma de los datos

Medidas para datos univariante

Recordemos algunas definiciones para datos univariante:


Media:
n
1X
xj = xij (1)
n
i=1

Desviacin estndar:
s
Pn
i=1 (xij xj )2
Sj = (2)
n

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 7 / 79


Estructura y notacin de datos multivariados Forma de los datos

Medidas para datos univariante

Recordemos algunas definiciones para datos univariante:


Media:
n
1X
xj = xij (1)
n
i=1

Desviacin estndar:
s
Pn
i=1 (xij xj )2
Sj = (2)
n

Varianza:
n
X dij2
Sj2 = (3)
n
i=1

donde dij = xij xj


Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 7 / 79
Estructura y notacin de datos multivariados Forma de los datos

Medidas para datos univariante

Recordemos algunas definiciones para datos univariante:


Media:
n
1X
xj = xij (1)
n
i=1

Desviacin estndar:
s
Pn
i=1 (xij xj )2
Sj = (2)
n

Varianza:
n
X dij2
Sj2 = (3)
n
i=1

donde dij = xij xj


Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 7 / 79
Estructura y notacin de datos multivariados Forma de los datos

Medidas para datos univariante

Recordemos algunas definiciones para datos univariante:


Coeficiente de Variacin:
v
u 2
u sj

CVj = t (4)
x2 j

xj 6= 0

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 8 / 79


Estructura y notacin de datos multivariados Forma de los datos

Medidas para datos univariante

Recordemos algunas definiciones para datos univariante:


Coeficiente de Variacin:
v
u 2
u sj

CVj = t (4)
x2 j

xj 6= 0
Simetra de los datos con respecto al centro:
Pn
1 i=1 (xij xj )3
Aj = (5)
n sj3

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 8 / 79


Estructura y notacin de datos multivariados Forma de los datos

Medidas para datos univariante

Recordemos algunas definiciones para datos univariante:


Coeficiente de Variacin:
v
u 2
u sj

CVj = t (4)
x2 j

xj 6= 0
Simetra de los datos con respecto al centro:
Pn
1 i=1 (xij xj )3
Aj = (5)
n sj3

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 8 / 79


Estructura y notacin de datos multivariados Forma de los datos

Software a utilizar es R Studio

Ventajas:
Es gratuita
Es el software de mayor uso en estadstica actualmente
R studio hace mas fcil el poder utilizar R.

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 9 / 79


Algunos conjuntos de datos

Base de datos USair pollution

La primera base de datos que vamos a utilizar esta en la base de


datos USairpollution, el cual se refiere a un estudio de 41 ciudades
de USA de la polucin del aire. Son 7 variables las cuales significan:
S20: Contenido de SO2 del aire en microgramos por metros
cbico
temp: Temperatura promedio anual en grado Fahrenheith
manu: Tamao de la poblacin de 1970 en miles
wind: Velocidad anual del viento en miles por horas
precip: Promedio de precipitacin anual en pulgadas
predays: nmero promedio de dias con precipitaciones por aos

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 10 / 79


Algunos conjuntos de datos

Utilizando comando en R studio

data("USairpollution", package = "HSAUR2")

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 11 / 79


Algunos conjuntos de datos

USairpollution

Segn los datos:

Table: USairpollution
SO2 temp manu popul wind precip predays
Albany 46 47.60 44 116 8.80 33.36 135
Albuquerque 11 56.80 46 244 8.90 7.77 58
Atlanta 24 61.50 368 497 9.10 48.34 115
Baltimore 47 55.00 625 905 9.60 41.31 111
Buffalo 11 47.10 391 463 12.40 36.11 166
Charleston 31 55.20 35 71 6.50 40.75 148
Chicago 110 50.60 3344 3369 10.40 34.44 122
Cincinnati 23 54.00 462 453 7.10 39.04 132
Cleveland 65 49.70 1007 751 10.90 34.99 155
Columbus 26 51.50 266 540 8.60 37.01 134
Dallas 9 66.20 641 844 10.90 35.94 78
Denver 17 51.90 454 515 9.00 12.95 86
Des Moines 17 49.00 104 201 11.20 30.85 103
Detroit 35 49.90 1064 1513 10.10 30.96 129
Hartford 56 49.10 412 158 9.00 43.37 127
Houston 10 68.90 721 1233 10.80 48.19 103
Indianapolis 28 52.3 361 746 9.7 38.74 121
Jacksonville 14 68.4 136 529 8.8 54.47 116
Kansas City 14 54.5 381 507 10.0 37.00 99
Little Rock 13 61.0 91 132 8.2 48.52 100

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 12 / 79


Algunos conjuntos de datos

Continuacin
Continuando con los datos anteriores

Table: USairpollution
SO2 temp manu popul wind precip predays
Louisville 30 55.6 291 593 8.3 43.11 123
Memphis 10 61.6 337 624 9.2 49.10 105
Miami 10 75.5 207 335 9.0 59.80 128
Milwaukee 16 45.7 569 717 11.8 29.07 123
Minneapolis 29 43.5 699 744 10.6 25.94 137
Nashville 18 59.4 275 448 7.9 46.00 119
New Orleans 9 68.3 204 361 8.4 56.77 113
Norfolk 31 59.3 96 308 10.6 44.68 116
Omaha 14 51.5 181 347 10.9 30.18 98
Philadelphia 69 54.6 1692 1950 9.6 39.93 115
Phoenix 10 70.3 213 582 6.0 7.05 36
Pittsburgh 61 50.4 347 520 9.4 36.22 147
Providence 94 50.0 343 179 10.6 42.75 125
Richmond 26 57.8 197 299 7.6 42.59 115
Salt Lake City 28 51.0 137 176 8.7 15.17 89
San Francisco 12 56.7 453 716 8.7 20.66 67
Seattle 29 51.1 379 531 9.4 38.79 164
St. Louis 56 55.9 775 622 9.5 35.89 105
Washington 29 57.3 434 757 9.3 38.89 111
Wichita 8 56.6 125 277 12.7 30.58 82
Wilmington 36 54.0 80 80 9.0 40.25 114

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 13 / 79


Algunos conjuntos de datos

DATA EXAM

En este conjunto de datos se presentan los resultados de 5 individuos


en examen que miden distintas reas.

Table: exam
subject maths english history geography chemistry physics
1 60 70 75 58 53 42
2 80 65 66 75 70 76
3 53 60 50 48 45 43
4 85 79 71 77 68 79
5 45 80 80 84 44 46

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 14 / 79


Algunos conjuntos de datos

exam <-
structure(list(subject = 1:5, math = c(60L, 80L, 53L, 85L, 45L
), english = c(70L, 65L, 60L, 79L, 80L), history = c(75L, 66L,
50L, 71L, 80L), geography = c(58L, 75L, 48L, 77L, 84L), chemistry = c(53L,
70L, 45L, 68L, 44L), physics = c(42L, 76L, 43L, 79L, 46L)), .Names = c("subject",
"maths", "english", "history", "geography", "chemistry", "physics"
), class = "data.frame", row.names = c(NA, -5L))

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 15 / 79


Algunos conjuntos de datos

Data:Pottery

Consiste en el resultado de anlisis qumico sobre las cermicas


Romano-britnica hecho en tres diferentes regiones, pero teniendo en
cuenta los tipos de hornos.
Region 1: contiene un horno 1
Region 2: contiene los hornos 2 y 3
Region 3: contiene los hornos 4 y 5

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 16 / 79


Algunos conjuntos de datos

Llamando el conjunto de datos Pottery

data("pottery", package = "HSAUR2")

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 17 / 79


Algunos conjuntos de datos

Data:pottery

Los datos de cermica vienen dados por:

Table: pottery
Al2O3 Fe2O3 MgO CaO Na2O K2O TiO2 MnO BaO kiln
18.8 9.52 2.00 0.79 0.40 3.20 1.01 0.077 0.015 1
16.9 7.33 1.65 0.84 0.40 3.05 0.99 0.067 0.018 1
18.2 7.64 1.82 0.77 0.40 3.07 0.98 0.087 0.014 1
16.9 7.29 1.56 0.76 0.40 3.05 1.00 0.063 0.019 1
17.8 7.24 1.83 0.92 0.43 3.12 0.93 0.061 0.019 1
18.8 7.45 2.06 0.87 0.25 3.26 0.98 0.072 0.017 1
16.5 7.05 1.81 1.73 0.33 3.20 0.95 0.066 0.019 1
18.0 7.42 2.06 1.00 0.28 3.37 0.96 0.072 0.017 1
15.8 7.15 1.62 0.71 0.38 3.25 0.93 0.062 0.017 1
14.6 6.87 1.67 0.76 0.33 3.06 0.91 0.055 0.012 1
13.7 5.83 1.50 0.66 0.13 2.25 0.75 0.034 0.012 1
14.6 6.76 1.63 1.48 0.20 3.02 0.87 0.055 0.016 1
14.8 7.07 1.62 1.44 0.24 3.03 0.86 0.080 0.016 1
17.1 7.79 1.99 0.83 0.46 3.13 0.93 0.090 0.020 1
16.8 7.86 1.86 0.84 0.46 2.93 0.94 0.094 0.020 1
15.8 7.65 1.94 0.81 0.83 3.33 0.96 0.112 0.019 1
18.6 7.85 2.33 0.87 0.38 3.17 0.98 0.081 0.018 1
16.9 7.87 1.83 1.31 0.53 3.09 0.95 0.092 0.023 1
18.9 7.58 2.05 0.83 0.13 3.29 0.98 0.072 0.015 1
18.0 7.50 1.94 0.69 0.12 3.14 0.93 0.035 0.017 1

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 18 / 79


Algunos conjuntos de datos

continuacin
Continuando con los datos de cermica
Table: pottery
Al2O3 Fe2O3 MgO CaO Na2O K2O TiO2 MnO BaO kiln
17.8 7.28 1.92 0.81 0.18 3.15 0.90 0.067 0.017 1
14.4 7.00 4.30 0.15 0.51 4.25 0.79 0.160 0.019 2
13.8 7.08 3.43 0.12 0.17 4.14 0.77 0.144 0.020 2
14.6 7.09 3.88 0.13 0.20 4.36 0.81 0.124 0.019 2
11.5 6.37 5.64 0.16 0.14 3.89 0.69 0.087 0.009 2
13.8 7.06 5.34 0.20 0.20 4.31 0.71 0.101 0.021 2
10.9 6.26 3.47 0.17 0.22 3.40 0.66 0.109 0.010 2
10.1 4.26 4.26 0.20 0.18 3.32 0.59 0.149 0.017 2
11.6 5.78 5.91 0.18 0.16 3.70 0.65 0.082 0.015 2
11.1 5.49 4.52 0.29 0.30 4.03 0.63 0.080 0.016 2
13.4 6.92 7.23 0.28 0.20 4.54 0.69 0.163 0.017 2
12.4 6.13 5.69 0.22 0.54 4.65 0.70 0.159 0.015 2
13.1 6.64 5.51 0.31 0.24 4.89 0.72 0.094 0.017 2
11.6 5.39 3.77 0.29 0.06 4.51 0.56 0.110 0.015 3
11.8 5.44 3.94 0.30 0.04 4.64 0.59 0.085 0.013 3
18.3 1.28 0.67 0.03 0.03 1.96 0.65 0.001 0.014 4
15.8 2.39 0.63 0.01 0.04 1.94 1.29 0.001 0.014 4
18.0 1.50 0.67 0.01 0.06 2.11 0.92 0.001 0.016 4
18.0 1.88 0.68 0.01 0.04 2.00 1.11 0.006 0.022 4
20.8 1.51 0.72 0.07 0.10 2.37 1.26 0.002 0.016 4
17.7 1.12 0.56 0.06 0.06 2.06 0.79 0.001 0.013 5
18.3 1.14 0.67 0.06 0.05 2.11 0.89 0.006 0.019 5
16.7 0.92 0.53 0.01 0.05 1.76 0.91 0.004 0.013 5
14.8 2.74 0.67 0.03 0.05 2.15 1.34 0.003 0.015 5
19.1 1.64 0.60 0.10 0.03 1.75 1.04 0.007 0.018 5
Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 19 / 79
Algunos conjuntos de datos

Data:hypo

Un conjunto de datos con valores faltantes, que normalmente se usa


de ejemplo

Table: hypo
individual sex age IQ depression health weight
1 Male 21 120 Yes Very good 150
2 Male 43 NA No Very good 160
3 Male 22 135 No Average 135
4 Male 86 150 No Very poor 140
5 Male 60 92 Yes Good 110
6 Female 16 130 Yes Good 110
7 Female NA 150 Yes Very good 120
8 Female 43 NA Yes Average 120
9 Female 22 84 No Average 105
10 Female 80 70 No Good 100

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 20 / 79


Algunos conjuntos de datos

hypo <-
structure(list(individual = 1:10, sex = structure(c(2L, 2L, 2L,
2L, 2L, 1L, 1L, 1L, 1L, 1L), .Label = c("Female", "Male"), class = "factor"),
age = c(21L, 43L, 22L, 86L, 60L, 16L, NA, 43L, 22L, 80L),
IQ = c(120L, NA, 135L, 150L, 92L, 130L, 150L, NA, 84L, 70L
), depression = structure(c(2L, 1L, 1L, 1L, 2L, 2L, 2L, 2L,
1L, 1L), .Label = c("No", "Yes"), class = "factor"), health = structure(c(3L,
3L, 1L, 4L, 2L, 2L, 3L, 1L, 1L, 2L), .Label = c("Average",
"Good", "Very good", "Very poor"), class = "factor"), weight = c(150L,
160L, 135L, 140L, 110L, 110L, 120L, 120L, 105L, 100L)), .Names = c("individual",
"sex", "age", "IQ", "depression", "health", "weight"),
class = "data.frame", row.names = c(NA, -10L))

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 21 / 79


Algunos conjuntos de datos

Data: measure

Este conjunto de datos consiste en medidas de hombres y mujeres

Table: measure
chest waist hips gender chest waist hips gender
34 30 32 male 36 24 35 female
37 32 37 male 36 25 37 female
38 30 36 male 34 24 37 female
36 33 39 male 33 22 34 female
38 29 33 male 36 26 38 female
43 32 38 male 37 26 37 female
40 33 42 male 34 25 38 female
38 30 40 male 36 26 37 female
40 30 37 male 38 28 40 female
41 32 39 male 35 23 35 female

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 22 / 79


Algunos conjuntos de datos

measure <-
structure(list(V1 = 1:20, V2 = c(34L, 37L, 38L, 36L, 38L, 43L,
40L, 38L, 40L, 41L, 36L, 36L, 34L, 33L, 36L, 37L, 34L, 36L, 38L,
35L), V3 = c(30L, 32L, 30L, 33L, 29L, 32L, 33L, 30L, 30L, 32L,
24L, 25L, 24L, 22L, 26L, 26L, 25L, 26L, 28L, 23L), V4 = c(32L,
37L, 36L, 39L, 33L, 38L, 42L, 40L, 37L, 39L, 35L, 37L, 37L, 34L,
38L, 37L, 38L, 37L, 40L, 35L)), .Names = c("V1", "V2", "V3",
"V4"), class = "data.frame", row.names = c(NA, -20L))
measure <- measure[,-1]
names(measure) <- c("chest", "waist", "hips")
measure$gender <- gl(2, 10)
levels(measure$gender) <- c("male", "female")

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 23 / 79


Algunos conjuntos de datos

Para pensar....

Que le llamaria la atencion de cada uno de los conjuntos de datos?


Que relacionaria usted?

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 24 / 79


Medidas estadstica Vector de medias

Vector de medias

Cuando hablamos de datos multivariados, la medida que


frecuentemente se utiliza como medida de centralizacin es el vector
de media. Imagine que usted esta midiendo las estatura, el peso, el
largo del brazo, el largo del pie , de las personas que desean
pertenecer a la polica nacional. Imagnese que son 20 individuos, con
cuatro variables. Que tiene mejor razonamiento estadstico? tomar la
media de cada individuo o tomar la media de cada variable?

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 25 / 79


Medidas estadstica Vector de medias

Vector de medias

Definimos el vector de medias para un conjunto de datos de n


individuos y de p variables como el vector de dimension px1 tal que
cada componente de ese vector es la media de cada variable:

x1
x = (6)
xp
Es fcil probar que:
1
X1 X =
n
Donde 1 representa un vector de 1s de la dimension adecuada
(probar)

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 26 / 79


Medidas estadstica Vector de medias

Ejemplo vector de medias

Hagamos un ejemplo: diga su edad,la cantidad de aos de estudio


hasta ahora, genero.

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 27 / 79


Medidas estadstica Vector de medias

Ejemplo sobre el vector de medias


Podemos hallar el vector de medias, de hecho lo podemos hacer
usando una de las bases de datos, que antes habamos hablado, por
ejemplo si consideramos el conjunto de datos measure

summary(measure)

Y el resultado queda de la siguiente forma:

chest waist hips gender


1 Min. :33.00 Min. :22.0 Min. :32.00 male :10
2 1st Qu.:35.75 1st Qu.:25.0 1st Qu.:35.75 female:10
3 Median :36.50 Median :28.5 Median :37.00
4 Mean :37.00 Mean :28.0 Mean :37.05
5 3rd Qu.:38.00 3rd Qu.:30.5 3rd Qu.:38.25
6 Max. :43.00 Max. :33.0 Max. :42.00

vm=c(mean(measure$chest),mean(measure$waist),mean(measure$hips))

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 28 / 79


Medidas estadstica Matriz de Covarianza

Covarianza entre dos variables

Si queremos medir la variabilidad de los datos y las relaciones lineales


entre las variables se utiliza la matriz de varianzas-covarianzas.
En particular, si hablamos de la covarianza entre dos variables es la
medida de su dependencia lineal. Si consideramos la covarianza de
dos variables Xi ,Xj entonces:

Cov(Xi , Xj ) = E [(Xi )(Xj )] (7)


donde en la ecuacin 9 se refiere al valor esperado E (Xi ) = i y
E (Xj ) = j . Adicionalmente podemos notar que si i = j que sucede?

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 29 / 79


Medidas estadstica Matriz de Covarianza

Observaciones sobre la covarianza

Dado lo anterior no es necesario definir varianza y covarianza por


separados en el caso multivariado
si Xi ,Xj son independientes, entonces su covarianza es cero. Pero
el recproco no es necesariamente cierto (prubelo)
La covarianza de Xi ,Xj es denotada por ij es claro que ij = ji y
que la varianza de XI es i2
Valores grandes de la covarianza implican un mayor grado de
dependencia entre dos variables
La covarianza depende de la escala de la variables, es decir si
usamos kilos en lugar de libra puede que el valor disminuya,
entonces erradamente, podemos concluir erroneamente.

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 30 / 79


Medidas estadstica Matriz de Covarianza

Covarianza de dos variable

La covarianza muestral esta definida como:


Pn
(xi x)(yi y )
sxy = i=1 (8)
n1
Se puede demostrar que
Pn
nx y
i=1 xi yi
sxy = (9)
n1

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 31 / 79


Medidas estadstica Matriz de Covarianza

Ntese que (9) mide la relacin lineal entre las dos variables . Para ver
que sxy mide la relacin lineal , ntese que la pendiente de la linea de
una regresin lineal simple es:
Pn
(x x)(yi y ) sxy
1 = i=1 Pn i 2
= 2
i=1 (xi x) sx
Esto es sxy es proporcional a la pendiente, esto muestra solo la
relacin lineal entre y y x.

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 32 / 79


Medidas estadstica Matriz de Covarianza

Usando R

Por lo tanto podemos usar lo siguiente para hallar la covarianza de


dos variables en R

cov(measure$chest,measure$waist)
measure$chest
measure$waist

Tenemos que la covarianza es positiva, significa que cuando el pecho


aumenta , la cintura tambien. Pero no necesariamente sabemos que
esto es cierto, por eso la relacin no es tan fuerte.

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 33 / 79


Medidas estadstica Matriz de Covarianza

Si X es un vector aleatorio tomado de todos los posibles valores en


una poblacin multivariado matriz de covarianza poblacional est
definido como:
2
1 12 1p
21 2 2p
2
= cov(X) .

.. .. ..
.. . . .
p1 p2 2
pp
Tenemos que la matriz de covarianza es ampliamente usada,
algunos autores coinciden como la varianza de los datos
multivariados.

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 34 / 79


Medidas estadstica Matriz de Covarianza

Matriz de covarianza(subconjunto de variables)

La matriz de covarianza entre un subconjunto de variables viene dada


por:
2
s1 s12 s1k
s21 s2 s2k
2
S= .

. .. . . ..
. . . .
2
sk 1 sk 2 skk
Siempre que k p
1 Pn
Esta matriz la podemos redefinir como: S = n1 i=1 (xi x)(xi x)
n
Donde xiT = (xi1 , xi12 , . . . , xip ) y x = n1 i=1 xi
P
El cual es el vector de medias de las observaciones

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 35 / 79


Medidas estadstica Matriz de Covarianza

Interpretacin de la covarianza

Si la covarianza es negativa, significa que si una variable aumenta


la otra disminuye, es decir que hay una dependencia inversa
Si la covarianza es cero significa que no existe relacin entre las
dos variables
Si la covarianza es positiva, significa que si la variable disminuye
la otra disminuye o si aumenta la otra aumenta, esto es
dependencia directa.

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 36 / 79


Medidas estadstica Matriz de Covarianza

Calculando la matriz de covarianza

Si usamos el conjunto de datos measure, calculamos la matriz de


covarianza de las primeras tres variables, ya que la ultima es nominal

cov(measure[,c("chest","waist","hips")])

chest waist hips


chest 6.63 6.37 3.00
waist 6.37 12.53 3.58
hips 3.00 3.58 5.94

Recuerde que la diagonal es la varianza. Mientras que como la


covarianza es positiva, en todo caso, la asociacin es directa.Pero las
magnitudes no nos dice nada he all para que usaramos la correlacin

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 37 / 79


Medidas estadstica Matriz de Covarianza

Covarianza de un subconjunto de variables

Si queremos hallar la matriz de covarianza de un subconjunto de los


datos, por ejemplo en nuestro caso en especifico obtendremos el
subconjunto con respecto al genero:
cov(subset(measure,gender=="female")[,c("chest","waist","hips")])

chest waist hips


chest 2.28 2.17 1.56
waist 2.17 2.99 2.76
hips 1.56 2.76 3.07

Hgalo con respecto a el genero hombre.

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 38 / 79


Medidas estadstica Matriz de Covarianza

Covarianza de forma manual

Hallar de forma manual la matriz de covarianza del siguiente conjunto


de datos:

X1 X2
6 3
10 4
12 7
12 6

E (X1 ) = 10, E (X2 ) = 5


(6 10)(3 5) + (10 10)(4 5)
s12 =
4
(12 10)(7 5) + (12 10)(6 5)
+ = 3.5
4

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 39 / 79


Medidas estadstica Correlacin

Correlacin de dos variables

La covarianza depende de la escala de medida de las variables, pero


sabemos que podemos cambiar la escala, por ejemplo de cm a m o
del pulg a cm, esto implicara obtener valores mayores o menores, con
eso podramos cambiar la interpretacin. Ahora el objetivo es hallar
una medida de la relacin lineal entre las variables pero que no
dependa de las unidades de medidas

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 40 / 79


Medidas estadstica Correlacin

Correlacin de dos variables

jk
jk =
j k
Podemos estimar la correlacin sustituyendo los anteriores valores por
la desviacin estndar y la covarianza muestral:
sjk
rjk =
sj sk

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 41 / 79


Medidas estadstica Correlacin

Tenemos que la correlacin esta entre -1 y 1. Lo podemos interpretar


de la siguiente manera:

jk = 0 : Indica que las dos variables no estan correlacionadas


jk = 1 : (o cerca)indica una dependencia positiva fuerte
jk = 1 : (o cerca)indica que la dependencia negativa fuerte

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 42 / 79


Medidas estadstica Correlacin

Matriz de correlacin

Dada las correlaciones entre variables, podemos definir la siguiente


matriz usando las correlaciones entre variables

1 12 1p
21 1 2p
= cor (X) .

. .. . . ..
. . . .
p1 p2 1

La matriz de correlacin de un subconjunto de variables se denota con


la letra: R

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 43 / 79


Medidas estadstica Correlacin

Usamos en R para el mismo conjunto con el que hemos estado


trabajando de esta forma:

cor(measure[,c("chest","waist","hips")])

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 44 / 79


Medidas estadstica Correlacin

ejemplo con measure

chest waist hips


chest 1.00 0.70 0.48
waist 0.70 1.00 0.41
hips 0.48 0.41 1.00

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 45 / 79


Medidas estadstica Correlacin

Pruebe

Si tenemos la matriz D a la matriz diagonal de orden p, en cuya


diagonal van las desviaciones estndar de cada una de las variables,
pruebe que:

= D 1 D 1
Lo cual equivale a probar (realcelo)

= DD

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 46 / 79


Medidas estadstica Correlacin

Observacin

La medida de la correlacin siempre debe ir acompaada de una


grfica de una variable contra la otra. Ya que la grafica puede mostrar
que tipo de relacin tenga aunque no sea lineal. Por ejemplo,
podemos obtener la correlacin cercana a cero, pero la relacin entre
las variables puede ser cuadrtica.

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 47 / 79


Grficas para datos multivariados Anlisis exploratorio de datos

Algunas frases sobre las grficas multivariadas

De acuerdo a Chambers, Cleveland,Kleiner y Turkey (1995)

There is no statistical tool that is powerful as a well-chosen graph

Tuffe 1993
Data graphics visually display measured quantities by means of the
combined use of points, lines, a coordinate system, numbers, symbols,
words, shading and color

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 48 / 79


Grficas para datos multivariados Anlisis exploratorio de datos

Popularidad de las grficas

Normalmente en un ao se imprimen 900 billones y 2 trillones de


grficas estadstica.
Algunas razones por las cuales son populares las grficas:
Para descubrir modelos que no son esperados( El sistema visual
humano es muy poderoso para hallar modelos)
Atraen al lector, mas que las tablas
Relacin entre variables son mas fciles de encontrar
Es mas fcil recordar la relacin entre las variables

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 49 / 79


Grficas para datos multivariados Anlisis exploratorio de datos

Objetivos que podemos obtener al hacer una grfica

Para proveer una vision general


Para contar una historia
Sugiere una hiptesis
Para criticar un modelo

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 50 / 79


Grficas para datos multivariados Anlisis exploratorio de datos

Intentando hacer grficas

Lo primero que debemos hacer al querer hacer una grfica y de


hecho, estudiar un conjunto de datos es usar el comando: str(data)
Por ejemplo si usamos los datos de

data("USairpollution")
#Usamos el sgte comando para saber la estructura
interna de un objeto
str(USairpollution)

Nos dice que es un data frame de 41 observaciones y de 7 variables,


nos enumera la de tipo entero (int) y la real(num)

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 51 / 79


Grficas para datos multivariados Anlisis exploratorio de datos

Usando mfrow

Cuando queremos hacer varias grficas en un mismo grfico, el


comando que debemos usar, para utilizarlo es el siguiente:

par(mfrow=c(2,2))

Significa que la pantalla de las grficas se va a partir de 2 en 2 (


Pueden aparecer 4 grficos en una pantalla). Adems row es que se
acomoden las grficas por filas. Mientras que si usamos

par(mfcol=c(3,2))

significa que una sola pantalla de las grficas la vamos a partir en 6


pedazos 3 filas dos columnas, pero al tener col, ella van
acomodndose por columnas.

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 52 / 79


Grficas para datos multivariados Anlisis exploratorio de datos

Uso de mfrow

Realicemos lo siguiente en nuestra consola de R:

data("USairpollution")
str(USairpollution)
par(mfrow=c(2,2))
plot(USairpollution$SO2,USairpollution$temp)
plot(USairpollution$SO2,USairpollution$manu,
col="red")
plot(USairpollution$SO2,USairpollution$popul,
col="blue")
plot(USairpollution$SO2,USairpollution$wind,
col="yellow")

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 53 / 79


Grficas para datos multivariados Anlisis exploratorio de datos

USairpollution$manu
USairpollution$temp

75

2000
60
45

0
20 40 60 80 100 20 40 60 80 100

USairpollution$SO2 USairpollution$SO2
USairpollution$popul

USairpollution$wind

11
2000

6 8
0

20 40 60 80 100 20 40 60 80 100

USairpollution$SO2 USairpollution$SO2

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 54 / 79


Grficas para datos multivariados Anlisis exploratorio de datos

Uso de mfcol

Ordenar las grficas por columnas:

data("USairpollution")
str(USairpollution)
par(mfrow=c(2,2))
plot(USairpollution$SO2,USairpollution$temp)
plot(USairpollution$SO2,USairpollution$manu,
col="red")
plot(USairpollution$SO2,USairpollution$popul,
col="blue")
plot(USairpollution$SO2,USairpollution$wind,
col="yellow")

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 55 / 79


Grficas para datos multivariados Anlisis exploratorio de datos

USairpollution$popul
USairpollution$temp

75

2000
60
45

0
20 40 60 80 100 20 40 60 80 100

USairpollution$SO2 USairpollution$SO2
USairpollution$manu

USairpollution$wind

11
2000

6 8
0

20 40 60 80 100 20 40 60 80 100

USairpollution$SO2 USairpollution$SO2

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 56 / 79


Grficas para datos multivariados Grficas de una dimension

Diagrama de dispersion

En este diagrama lo que podemos observar es que tan


correlacionadas estn ambas variables, organizamos una en el eje X y
otra variables en el eje Y. Mientras mas lineal se vea la tendencia, se
podra pensar que la correlacin entre las dos variables es alta, pero
siempre debemos tener presente como se relacionan las otras
variables con ella. Si se aplica al crear el anlisis, el grfico de
dispersion puede mostrar informacin adicional en lneas de
referencia o varios tipos distintos de curvas.

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 57 / 79


Grficas para datos multivariados Grficas de una dimension

Anlisis de manu y popul de Usairpollution

win.graph()
plot(USairpollution$manu,USairpollution$popul,
main="Grafico de dispersion manu vs popul",xlab="manu",ylab="popul")
abline(lm(USairpollution$popul~USairpollution$manu),col=3)

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 58 / 79


Grficas para datos multivariados Grficas de una dimension

Ejemplo de manu vs popul

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 59 / 79


Grficas para datos multivariados Grficas de una dimension

Matriz de dispersion

Estas lneas o curvas podran, por ejemplo, mostrar si los puntos de


los datos se adaptan bien a un ajuste de curva polinmica
determinado, o resumir un conjunto de puntos de datos de muestra
ajustndolos a un modelo que describir los datos y mostrar una
curva o una lnea recta sobre la visualizacin. La curva normalmente
cambia su aspecto en funcin de los valores que se hayan filtrado del
anlisis. Al pasar por encima el ratn, una sugerencia sobre
herramienta mostrar la forma en que se calcula la curva. Si tenemos
p variables, entonces el numero de graficos de variables que podemos
esperar es p(p1)
2

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 60 / 79


Grficas para datos multivariados Grficas de una dimension

Dispersion de polucion en USA


45 60 75 0 1500 3500 10 30 50

SO2

20
45 70

temp

3000
manu

0
3000

popul
0

11
wind

6
10 50

precip

160
predays

40
20 60 100 0 1500 6 8 10 40 100 160

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 61 / 79


Grficas para datos multivariados Grficas de una dimension

Comandos en R

Para obtener el grfico de dispersion utilizamos el siguiente comando

plot(USairpollution,main="Dispersion polucin en USA")

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 62 / 79


Grficas para datos multivariados Grficas de una dimension

Interpretacin

Podemos ayudarnos, adems del grfico con la matriz de correlacin,


para observar la relacin lineal, entre las variables. Por lo tanto:

Table: USairpollution
SO2 temp manu popul wind precip predays
SO2 1 -0.4336 0.6448 0.4938 0.0947 0.0543 0.3696
temp -0.4336 1 -0.19 -0.0627 -0.3497 0.3863 -0.4302
manu 0.6448 -0.19 1 0.9553 0.2379 -0.0324 0.1318
popul 0.4938 -0.0627 0.9553 1 0.2126 -0.0261 0.0421
wind 0.0947 -0.3497 0.2379 0.2126 1 -0.013 0.1641
precip 0.0543 0.3863 -0.0324 -0.0261 -0.013 1 0.4961
predays 0.3696 -0.4302 0.1318 0.0421 0.1641 0.4961 1

Tenemos que uno los valores que mas se resaltan son las
correlaciones entre manu y popul. Podemos observar la grfica de
dispersion en la matriz, pero tambin podemos hacerlo en particular el
grfico de dispersion entre manu y popul

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 63 / 79


Grficas para datos multivariados Grficas de una dimension

Otros tipos de matriz de dispersion

# Usando histogramas
scatterplotMatrix(~manu+popul+precip+predays+SO2+temp, reg.line=FALSE,
smooth=FALSE, spread=FALSE, span=0.5, ellipse=FALSE, levels=c(.5, .9),
id.n=0, diagonal = histogram, data=USairpollution)
#boxplot
scatterplotMatrix(~manu+popul+precip+predays+SO2+temp, reg.line=FALSE,
smooth=FALSE, spread=FALSE, span=0.5, ellipse=FALSE, levels=c(.5, .9),
id.n=0, diagonal = boxplot, data=USairpollution)

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 64 / 79


Grficas para datos multivariados Grficas de una dimension

Multiples boxplot

Podramos comparar las medidas mas usadas o comnmente usadas


en estadstica para comparar cada una de las variables. Para ello
vamos hacer una figura que contenga los boxplot de cada uno de las
variables:

boxplot(USairpollution,col=c(2,3,4,5,6,7,8),
main="Boxplot de Usairpollution")

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 65 / 79


Grficas para datos multivariados Grficas de una dimension

Boxplot para Usairpollution


3500
2500
1500
500
0

SO2 temp manu popul wind precip predays

variable

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 66 / 79


Grficas para datos multivariados Grficas de una dimension

Logaritmo de los datos

los diagramas de caja y bigotes anteriores llaman la atencin, ya que


en ellos podemos observar que estan condensados y algunos tienen
outliers, una forma de saber si estan en la misma escala, es
realizando un resumen de los datos:

summary(USairpollution)

Dado los resultados, anteriores observamos que el poder transformar


los datos obtenemos el logaritmo de los datos, hacemos esto en R

summary(log(USairpollution))

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 67 / 79


Grficas para datos multivariados Grficas de una dimension

log de Boxplot de Usairpollution


8
7
6
5
4
3
2

SO2 temp manu popul wind precip predays

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 68 / 79


Grficas para datos multivariados Grficas de una dimension

Identificar los valores atpicos( boxplot)

Boxplot para manu

3000
2000 Chicago
manu

Philadelphia
500 1000

Detroit
Cleveland
0

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 69 / 79


Grficas para datos multivariados Grficas de una dimension

Las caras de Chernoff

Investadas por Herman Chernoff


Visualizan datos en forma de rostro
Cada parte del rostro representa una variable
La idea principal es que los seres humanos estamos
acostumbrados a observar las diferencias en los rostros
Se pueden observar hasta 18 variables

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 70 / 79


Grficas para datos multivariados Grficas de una dimension

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 71 / 79


Grficas para datos multivariados Grficas de una dimension

Desventajas en las caras de Chernoff

Cantidad limitada de variables que se pueden representar


La lectura es muy subjetiva
As como hay una boca sonriente puede haber una ceja fruncida
en el mismo rostro
Es necesario hacer otros grficos para validar

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 72 / 79


Grficas para datos multivariados Grficas de una dimension

Caras de Chernoff para USairpollution

library(aplpack)
faces(USairpollution,main="Caras de chernoff para USairpollution")
#Obtenemos lo siguiente en R
effect of variables:
modified item Var
"height of face " "SO2"
"width of face " "temp"
"structure of face" "manu"
"height of mouth " "popul"
"width of mouth " "wind"
"smiling " "precip"
"height of eyes " "predays"
"width of eyes " "SO2"
"height of hair " "temp"
"width of hair " "manu"
"style of hair " "popul"
"height of nose " "wind"
"width of nose " "precip"
"width of ear " "predays"
"height of ear " "SO2"

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 73 / 79


Grficas para datos multivariados Grficas de una dimension

Grafica Caras de chernoff

Caras de chernoff para USairpolltion

Albany Albuquerque Atlanta Baltimore Buffalo Charleston Chicago

Cincinnati Cleveland Columbus Dallas Denver Des Moines Detroit

Hartford Houston IndianapolisJacksonvilleKansas City Little Rock Louisville

Memphis Miami Milwaukee Minneapolis Nashville New Orleans Norfolk

Omaha Philadelphia Phoenix Pittsburgh Providence RichmondSalt Lake City

San Francisco Seattle St. Louis Washington Wichita Wilmington

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 74 / 79


Grficas para datos multivariados Grficas de una dimension

Diagramas estrellas

Se construyen los rayos, donde cada longitud de estos es


proporcional al valor de la variable que representa
Se unen los rayos en un punto central
Se van formando los rayos en el sentido de las manecillas del reloj

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 75 / 79


Grficas para datos multivariados Grficas de una dimension

Grfico estrella para USairpollution

stars(USairpollution, len = 0.6, key.loc = c(16,1),


main = "Grfico estrella USairpollution", draw.segments = FALSE,
frame.plot = TRUE, nrow = 6, cex = .7)
palette(rainbow(12, s = 0.6, v = 0.75))
stars(USairpollution, len = 0.6, key.loc = c(16,1),
main = "Grfico estrella USairpollution", draw.segments = TRUE,
frame.plot = TRUE, nrow = 6, cex = .7)

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 76 / 79


Grficas para datos multivariados Grficas de una dimension

Grafica Estrella para USairpollution

Grafico estrella USairpollution

Albuquerque Baltimore Charleston


Albany Atlanta Buffalo Chicago

Cincinnati Columbus Denver Detroit


Cleveland Dallas Des Moines

Houston Jacksonville Little Rock


Hartford Indianapolis Kansas City Louisville

Memphis Milwaukee Nashville Norfolk


Miami Minneapolis New Orleans

Philadelphia Pittsburgh Richmond


Omaha Phoenix Providence Salt Lake City

San Francisco St. Louis Wichita manu temp


Seattle Washington popul
Wilmington
SO2
wind
Sindy Daz Hernndez (UTB) Mtodos Multivariados precip predays
Noviembre, 2017 77 / 79
Grficas para datos multivariados Grficas de una dimension

Grafica Estrella para USairpollution

Grafico estrella USairpollution

Albuquerque Baltimore Charleston


Albany Atlanta Buffalo Chicago

Cincinnati Columbus Denver Detroit


Cleveland Dallas Des Moines

Houston Jacksonville Little Rock


Hartford Indianapolis Kansas City Louisville

Memphis Milwaukee Nashville Norfolk


Miami Minneapolis New Orleans

Philadelphia Pittsburgh Richmond


Omaha Phoenix Providence Salt Lake City

San Francisco St. Louis Wichita manu temp


Seattle Washington Wilmington SO2
popul
predays
Sindy Daz Hernndez (UTB) Mtodos Multivariados wind Noviembre,
precip 2017 78 / 79
Grficas para datos multivariados Grficas de una dimension

Otros tipos de graficos multivariados

Existen otro tipo de graficos para datos multivariados, por ejemplo:


Grficas de Andrew
Investigue
Investigue

Sindy Daz Hernndez (UTB) Mtodos Multivariados Noviembre, 2017 79 / 79

Você também pode gostar