Estadistica Descriptiva

ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL
ESTADÍSTICA DESCRPTIVA BIDIMENSIONAL.
1.- INTODUCCIÓN.
La estadística descriptiva bidimensional nos permite el estudio

simultáneo de dos caracteres, los cuales se podrían estudiar por separado,
pero que lo que realmente tiene interés es conseguir poner de manifiesto las
coincidencias de determinados valores o categorías de uno de ellos con
determinados valores o categorías del otro. Mediante dicho estudio conjunto
se podrá determinar si se da algún tipo de dependencia estadística entre
ellos.
Es necesario hacer hincapié en el carácter estadístico de dicha

dependencia, sin que de forma alguna se pueda afirmar una relación causal
entre ellos. Ninguna herramienta estadística permite afirmar relaciones de
causalidad; otra cosa es que la dependencia estadística entre ambos
caracteres pueda sugerir una posible relación causal.
Existe un lenguaje propio de cada tipo de caracteres. Así, se designan

como categorías las modalidades de un carácter cualitativo, reservando el
término de atributo para designar al propio carácter cualitativo. Cuando el
carácter es cuantitativo, se hará referencia a él como variable. Si las
variables son discretas, las modalidades son los diferentes valores que
toman, mientras que si las variables son continuas, las modalidades son los
intervalos de clase.
2.- TABLAS DE CONTINGENCIA.
Si denominamos X e Y a los dos caracteres observados, la distribución

bidimensional será (xi,yi,nij). Cada frecuencia corresponde a un par de valores o
modalidades: el primer elemento del par corresponde al valor de la primera
característica observada, el segundo hace referencia a la segunda de tales
características y el tercero a la frecuencia conjunta. Es posible realizar un
estudio por separado de la distribución X e Y, y resumir sus caracteres por
Pedro Murcia Santos 1

medio de sus medidas de posición y dispersión; tales distribuciones reciben el

nombre de distribuciones marginales. Nos centraremos en el análisis
simultáneo de ambas características, es decir, en la distribución conjunta de las
mismas, para establecer si existe relación entre ellas y el grado de la misma.
Los pares que contienen los valores de las variables junto con sus
correspondientes frecuencias suelen disponerse en una tabla de doble entrada
llamada tabla de correlación cuando ambos caracteres son cuantitativos y tabla
de contingencia cuando son cualitativos.
Consideremos una población de n individuos descrita según dos

caracteres cuantitativos X e Y, es decir, según dos variables estadísticas: el par
(X e Y) constituye una variable estadística bidimensional.
Si las variables X e Y son discretas, sea {xi} el conjunto de valores

posibles de X (i = 1, 2, …, k) e {yi} el conjunto de valores posibles de Y (j = 1, 2,
…, p), la tabla estadística que describe la población da la frecuencia absoluta nij
de individuos que representan a la vez al valor xi de la variable X y al valor yi de
la variable Y.
Y
y1 … Yj … yp Total
X
X1 n11 n1j n1p n1.
. . … . … . .
xi ni1 nij nip nk.
. . … . … . .
Xk nk1 … nkj … nkp ni.
Total n.1 … n.j … n.p n..
Si la variable X (y/o la variable Y) es continua, xi (y/o yi) designará la

marca de clase nºi (o j), de tal manera que se reducirá el caso continuo al caso
discreto como en el caso de las variables estadísticas de una dimensión.
Es frecuente tener que estudiar 2 ó más variables simultáneamente

sobre una misma población resultando las llamadas variables multivariantes o
multidimensionales. La tabla recibe el nombre de tabla de doble entrada

Y
B1 … Bj … Bp Total
X
A1 n11 n1j n1p n1.
. . … . … . .
Ai ni1 nij nip nk.
. . … . … . .
Ak nk1 … nkj … nkp ni.
Total n.1 … n.j … n.p n..
Suponemos que la variable univariante X se ha clasificado en las clases

A1…Ak y la variable univariante Y en las clases B1….Bp. en tal caso, las n
coordenadas de la muestra se agrupan del siguiente modo:
fij representa la frecuencia muestral absoluta de la clase bidimensional

AixBj, es decir:
f ij
hi j =
n
3.- DISTRIBUCIONES MARGINALES Y CONDICIONALES
Distribuciones marginales:
A) Distribuciones marginales según el carácter X
Fijándonos en el número de veces que aparece la modalidad xi del

carácter X, con independencia de las modalidades que presenta el carácter
Y, tenemos la frecuencia marginal de X, cuyo valor puede calcularse
sumando las frecuencias que aparecen en la i-ésima fila de la tabla. Vamos
a representar la frecuencia absoluta marginal de X por n1. y será:
q
ni. = ∑ nij = ni1 + ni 2 + ...nij + ... + niq
j =1

Por cada i, los valores de n1. se obtienen de sumar las frecuencias

absolutas de cada fila de la tabla. Los n1. se situan en la columna marginal
de la derecha y definen la distribución marginal del carácter X.
La frecuencia relativa marginal de la modalidad xi es:
ni.
f i. =
N
Propiedades:
La suma de las frecuencias marginales según el carácter X es igual

al número total de individuos de la población.
La suma de las frecuencias relativas marginales según el carácter X
es igual a la unidad.
B) Distribuciones marginales según el carácter Y
Análogamente se define la distribución marginal del carácter Y. la

frecuencia absoluta de la modalidad yj del carácter Y, con independencia de
las modalidades que presente el carácter X viene dada por la suma de las
frecuencias que aparecen en la columna j de la tabla. Se representa como
n.j y será:
p
n. j = ∑ nij = n1 j + n2 j + ...nij + ... + n pq
i =1
Por cada j, los valores de n.j. se obtienen de sumar las frecuencias

absolutas de cada una de las columnas de la tabla. Los n1. se sitúan en una
fila marginal en la parte inferior de la tabla y definen la distribución marginal
del carácter Y.
La frecuencia relativa marginal de la modalidad yj es:
n. j
f. j =
N
Propiedades:

Las frecuencias absolutas y relativas marginales del carácter Y

cumplen propiedades análogas a las del carácter X.
La tabla estadística de doble entrada se completa añadiendo dos

columnas y dos filas con las frecuencias absolutas y relativas marginales.
Y F.a.m. F.r.m.
Y1 … Yj … Yq
X
X1 n11 n1j n1q n1. f1.
. . . . . .
… …
. . . . . .
Xi ni1 nij niq ni. fi .
. . . . . .
… …
. . . . . .
Xp np1 … npj … npq np. fp.
F.a.m. n.1 … n.j … n.q N 1
F.r.m. f.1 … f.j … f.q 1
Distribuciones condicionadas:
Fijémonos ahora en los n.j individuos de la población que presentan la

modalidad yj del carácter Y, y observemos la columna j-ésima de a tabla;
figuran en ella:
- los n1j individuos que, teniendo la modalidad Yj, poseen la x1
- los n2j individuos que, teniendo la modalidad Yj, poseen la x2
- ….
- los npj individuos que, teniendo la modalidad Yj, poseen la xp
Estos n.j individuos forman una población que es un subconjunto de la

población total. Sobre este subconjunto se define la distribución de X
condicionada por Yj , a cuyas frecuencias vamos a denotar por f i j , para i
=1,2…p, siendo:
n
f i j = ij
n. j
Se trata de una distribución, ya que el cociente nij/n.j representa la

proporción de individuos de la población que presentan la modalidad Xi del
carácter X, de entre los individuos que ya tienen la modalidad Yj.

Habrá q distribuciones de X condicionadas por cada una de las Yj.

La tabla correspondiente que proporciona la distribución del carácter X
condicionada por Yj tiene la forma:
X nij fi j
X1 n1j f1 j
. .
…
. .
Xi nij fi j
. .
…
. .
Xp npj f pj
Total n.j 1
De modo análogo se definen las distribuciones de Y condicionadas por

cada una de las Xi. Así tendremos la frecuencia relativa de Yj condicionada por
nij
Xi: f j = n
i
i.
Habrá p distribuciones de Y condicionadas por cada una de las Xi.

La tabla correspondiente que proporciona la distribución del carácter Y
condicionada por Xi tiene la forma:
Y Y1 … Yj … Yq Total
Xi ni1 nij … niq ni.
f ji f1i … f ji … f qi 1
Propiedades:
p q
∑ fi j = 1
i =1
y ∑f
j =1
j
i
=1
f ij = f i. f ji = f. j f i j
Cuando la información que se desea analizar viene dispuesta en una

tabla de correlación, el cálculo de las medidas de posición y dispersión se

complica ligeramente respecto al caso de una dimensión. Las medias,

varianzas y desviaciones típicas de las marginales, se calculan como caso
particular de los momentos bidimensionales.
El momento bidimensional de orden (r,s) centrado en el origen, se define

como:
h k
1
ars =
N
∑∑ x
i =1 j =1
r
i yis nij
El momento bidimensional de orden (r,s) centrado en las medias se

define como:
h k
mrs = ∑∑ ( xi − x) r ( yi − y ) s nij
i =1 j =1
Los momentos de la distribución marginal de X se calculan como ar0 (los

centrados en el origen) y mr0 (los centrados en la media). Concretamente a10 es
la media de X, y mr0 es la varianza de X. de la misma forma, los momentos de
las distribuciones marginales de Y se calculan como a0s (los centrados en el
origen) y mos (los centrados en la media). Concretamente, a01 es la media de Y,
y m02 es la varianza de Y.
4.- DIAGRAMAS DE DISPERSIÓN.
Los métodos para determinar la existencia y el grado de relación entre

dos variables cuantitativas deben ser capaces también de discriminar entre los
tipos generales de relación que hay:
a) Se dice que dos variables cuantitativas X e Y mantienen una relación

directa cuando los valores altos en Y tienden a emparejarse con valores
altos en X, los valores intermedios en Y tienden a emparejarse con
valores intermedios en X, y los valores bajos en Y tienden a emparejarse
con valores bajos en X.

b) Se dice que dos variables cuantitativas X e Y mantienen una relación

inversa cuando los valores altos en Y tienden a emparejarse con valores
bajos en X, los valores intermedios en Y tienden a emparejarse con
valores intermedios en X, y los valores bajos en Y tienden a emparejarse
con valores altos en X.
c) Se dice que no hay relación entre dos variables cuantitativas cuando

no existe un emparejamiento sistemático entre ellas en función de sus
valores.
En una buena representación gráfica conjunta de dos variables

estadísticas cuantitativas debe apreciarse fácilmente si existe relación entre las
variables y de qué tipo es. Una representación gráfica que cumple esta
condición es el diagrama de dispersión, que también se puede llamar nube de
puntos.
* Si los datos no están agrupados en intervalos (como en la tabla

siguiente), entonces el diagrama de dispersión se hace como se muestra
en la Figura 9.1.
xi 61 118 57 123 125 122 122 85 85 85 83 78 76 76 73 70 97 107

yi 15 28 15 30 31 30 30 23 22 22 23 23 23 21 21 21 25 29

* Si los datos están agrupados en intervalos (como en la tabla siguiente),

entonces el diagrama de dispersión se hace como se muestra en la
figura siguiente:
X \\ Y (0,10] (10,20] (20,30] (30,40] (40,50] Suma

(25,75] 13 3 16
(75,125] 4 9 5 1 19
(125,175] 11 16 4 31
(175,225] 2 11 9 22
(225,275] 1 5 3 1 10
(275,325] 5 6
suma 17 26 38 22 1 104
5.- COOVARIANZA Y COEFICIENTE DE CORRELACIÓN.
A) Covarianza:
Se hace necesario introducir medidas que hagan relación a la
distribución conjunta. De entre ellas, la de mayor interés en todo análisis
estadístico es la covarianza Sxy, que se define como m11, siendo su fórmula:
h k
1
S xy =
N
∑∑ ( x − x) ( y − y) n
i =1 j =1
i i ij

La covarianza es una medida de gran importancia por su signo más que

por el valor que pueda alcanzar; indicando el mismo el sentido de la variación
conjunta de las variables que estamos considerando. Así, si la covarianza es
positiva quiere decir que ambas variables varían en el mismo sentido alrededor
de sus medias, mientras que si tiene valores negativos, la variación de las
mismas tiene lugar en sentido contrario.
En ocasiones suelen utilizarse las cuasivarianzas debido a sus
propiedades muestrales .Siendo su expresión:
Λ
1 h k
S xy
= ∑∑ ( xi − x)( yi − y)nij
N − 1 i=1 j =1
B) Coeficientes de correlación lineal entre dos variables. Regresión

simple.
Se llama correlación al grado de dependencia mutua entre dos variables.

El coeficiente de correlación intenta medir la intensidad con que dos variables
están relacionadas. Mediante la regresión se expresa la estructura funcional de
la relación existente entre las variables, ajustando la nube de puntos dada por
los pares de valores de las dos variables a una curva de la forma mejor posible.
El ajuste será de la forma Y = f(x) +e o X = f(y) + e, donde e denota el error
cometido. El coeficiente de correlación mide la calidad de ese ajuste. Cuando la
curva es una recta, la regresión se llama lineal, y por ende el coeficiente de
correlación se llama coeficiente de correlación lineal y mide el grado de
asociación lineal que existe entre las variables. El ajuste será de la forma Y = a
+ bX + e (recta de regresión de Y sobre X), o de la forma X = c + dY + e (recta
de regresión de X sobre Y); donde:
a = y − xSxy / Sx 2
b = Sxy / Sx 2
c = x − ySxy / Sy 2
d = Sxy / Sy 2

A los parámetros a y b se les denomina coeficientes de regresión de Y

sobre X, y a los parámetros c y d se les llama coeficientes de regresión de X
sobre Y. también se pueden expresar las rectas de regresión de y sobre X y X
sobre y de la forma:
y − y = ( x − x) Sxy / Sx 2 y x − x = ( y − y ) Sxy / Sy 2
La expresión del coeficiente de correlación lineal entre las variables X e

Y viene dado por la expresión:
h k
S xy ∑∑ ( x − x)( y
i =1 j =1
i j − y )nij
r= =
SxS y h h
∑ (x
i =1
i − x) 2 ∑ ( y − y ) 2
i =1
Si r=1 existe correlación perfecta positiva, y la variación funcional entre

ambas variables ex exacta y positiva, variando las dos en el mismo sentido. Si r
= -1 existe correlación perfecta negativa, y la relación funcional entre ambas
variables es exacta y negativa, variando las dos en sentido opuesto. Si r = 0 la
correlación es nula y las variables no están asociadas, siendo imposible
encontrar una relación funcional entre ellas. Si 0 < r < 1 la correlación es
positiva, pero el grada de asociación entre las dos variables será mayor a
medida que r se acerca más a 1 y será menor a medida que r se acerca más a
0. Si -1 <r < 0 la correlación es negativa, pero el grado de asociación entre las
dos variables será mayor a medida que r se acerca más a -1, y será menor a
medida que r se acerca más a 0.
C) Coeficientes de correlación por rangos:
En las variables cualitativas es muy típico considerar el coeficiente de

correlación entre los rangos de los valores de las variables. Se entiende por
rango de un valor de una variable el lugar que ocupa dicho valor en el conjunto
total de los valores de la variable, suponiendo una ordenación de menor a
mayor. Sean Ai y Bi las diferentes modalidades de dos variables cualitativas X.

Sean xi e yi los rangos o números de orden que les corresponden a Ai y Bi

supuestas ordenadas estas modalidades, con la escala que se determine, y de
menor a mayor. Se define el coeficiente de correlación por rangos de
Spearman para las variables cualitativas X e Y como el coeficiente de
correlación lineal de las variables cuyos valores son xi e yi. este valor se utiliza
para medir el grado de asociación de las variables cualitativas X e Y
basándonos en la concordancia o en la discordancia de las clasificaciones por
rangos de sus modalidades.
El coeficiente de correlación por rangos también se utiliza para variables

cuantitativas, con la aclaración que el rango de asociación obtenido no es el de
los valores de las variables, sino el de las clasificaciones por rangos de dichos
valores. Viene dado por:
6∑ d i2
ρ = 1− i
N3 − N
Donde d i = X i − Yi A este coeficiente también se le conoce como
coeficiente de correlación ordinal; por ser un coeficiente de correlación varia

entre -1 y 1. Cuando la concordancia entre los rangos es perfecta, di = xi - yi =
0 y ρ = 1 . Cuando la discordancia es perfecta, ρ = −1 ; cuando no hay
concordancia ni discordancia, ρ = 0 .
D) Variables independientes:
Para detectar la no presencia de asociación entre dos caracteres

analizados sobre la misma población, se procede a elaborar la tabla de
correlación (para variables cuantitativas) o de contingencia (para variables
cualitativas), y se calculan las respectivas distribuciones conjuntas, marginales
y condicionadas. Las variables son independientes si se cumple cualquiera de
las dos siguientes condiciones equivalentes:

Las frecuencias relativas condicionadas coinciden con sus respectivas

frecuencias relativas marginales, lo que nos indica que el condicionamiento, en
cuanto tal, no existe. Ha de cumplirse que fij = ni / N y fj/i = nj /N para todo ij.
La frecuencia relativa conjunta es igual al producto de las frecuencias

relativas marginales, es decir, nij / N = (ni /N)*( nj /N) para todo ij.
Cuando las dos variables son independientes, la covarianza es 0,

aunque el recíproco no es siempre cierto (es decir, la covarianza nula no
implica necesariamente que ambas variables sean independientes).
También se observa que al definir el coeficiente de correlación lineal

S xy
como r = , si las variables son independientes, estarán incorrelacionadas,
SxS y
ya que r=0 ya que Sxy es 0 cuando hay independencia. Ahora bien, el

reciproco no es necesariamente cierto, ya que dos variables pueden estar
incorrelacionadas linealmente y ser dependientes, puesto que al ser r=0, lo
único que podemos decir es que la asociación lineal es nula, pero estas
variables pueden depender según otro tipo de asociación ( parabólica,
exponencial, etc.).
6.- RECTA DE REGRESION.
Hay casos en los que parece razonable intentar resumir toda la nube de
puntos obtenida mediante una recta, con la que se trataría de formalizar la idea
de que existe una cierta relación lineal entre los valores de X y de Y. Una de las
variables jugará el papel de la variable independiente (X) y la otra
desempeñará el papel de dependiente de la primera (Y). La recta de regresión
de Y sobre X es la recta y= a + bx que minimiza el error cuadrático medio
(E.C.M.):
1 n
E.C.M . = ∑ ( yi − a − bxi ) 2
n i=1
Con la recta de regresión se intentar encontrar la recta que mejor
representa la nube de puntos, en el sentido de minimizar la media de los

cuadrados de las distancias verticales de los diferentes puntos de la nube a la

recta. Técnicamente consiste en minimizar una función (E.M.C.) de dos
variables (a y b)
1 n 1⎛ 2 n n n n
⎞
E.C.M . = ∑
n i=1
( yi − a − bxi ) 2
= ⎜
n⎝
y i + na 2
+ b 2
∑
i =1
xi
2
− 2 a ∑
i =1
y i − 2b ∑
i =1
x y
i i + 2 ab ∑
i =1
xi ⎟
⎠
Derivando con respecto a cada variable e igualando a cero, obtenemos

el siguiente sistema de ecuaciones:
∂ ( E.M .C.) 1 ⎛ n n
⎞
= ⎜ 2na − 2∑ yi + 2b∑ xi ⎟ = 0
∂a n⎝ i =1 i =1 ⎠
∂ ( E.M .C.) 1 ⎛ n n n
⎞
= ⎜ 2b∑ xi2 − 2b∑ xi yi + 2a ∑ xi ⎟ = 0
∂b n ⎝ i=1 i =1 i =1 ⎠
cov x , y cov x , y
Siendo la solución al mismo: a = y − x ; b=
υx υx
Esta solución se corresponde con un mínimo de la función, por lo que la

cov x , y cov x , y
recta de regresión de Y sobre x es: y = a + bx = y − x+ que se puede
υx υx
cov x , y
expresar del siguiente modo: y − y = ( x − x)
υx
Según como sea la nube de puntos, la recta de regresión la representará mejor o
peor. Esto vendrá medido por el error cuadrático medio cometido. La varianza residual
es el error cuadrático medio cometido con la recta de regresión de Y sobre X.
2
1 n ⎛ cov x , y cov x ,i ⎞
El valor de la varianza residual es = ∑ ⎜⎜ yi − y + x− x⎟ =
n i=1 ⎝ υx υ x i ⎟⎠
1 n ⎛⎜ ⎞
2
⎛ cov x , y ⎞ n cov x ,i n
= ∑ ( yi − y ) + ⎜⎜
n i=1 ⎜
2
⎟⎟ ∑ ( xi − x) 2 − 2 ∑ (x − x)( y − y) ⎟⎟ =
⎝ υ x ⎠ i=1 υx i i
⎝ i =1
⎠
(cov x , y ) 2 ⎛ (cov x , y ) 2 ⎞
= υy − = υ y ⎜1 − ⎟
υx ⎜ υ υ ⎟
⎝ x y ⎠

El coeficiente que aparece en la última expresión recibe un nombre

cov x , y
específico: coeficiente de correlación muestral entre X e Y: r= . La
υ xυ y
varianza residual puede escribirse de la siguiente manera:

Varianza − residual = υ y (1 − r 2 )
El coeficiente de correlación muestral toma siempre un valor entre -1 y 1

(ya que la varianza no puede ser nunca negativa, puesto que es una suma de
cuadrados). Al igual que con la covarianza, hay una cierta asociación entre el
valor de r y la orientación de la nube de puntos.
10 10
8 8
6 6
4 4
2 2
0 0
0 50 100 150 0 5 10 15
r próximo a 1 r próximo a -1
10
9
8
7
6
5
4
3
2
1
0
0 50 100 150
r =0

9
8
7
6
5
y = 0,8301x
4
R2 = 0,9903
3
2
1
0
20 29 35 42 55 64 71 86 94 101
Hay ocasiones en que la nube de puntos se puede aproximar mejor a una función
logarítmica (y= ln x) o a una función exponencial ( y = aebx ) con lo que tendremos bien
una regresión logarítmica o bien una regresión exponencial.
7.- FUNCIONES DE EXCEL PARA CORRELACIÓN Y REGRESIÓN SIMPLE.
Excel dispone de varias funciones que permiten trabajar con coeficientes

de correlación, regresión y otros conceptos sobre variables multidimensionales.

Funciones de excel para correlación, regresión y variables

multidimensionales para el ejemplo dado:
COVAR(x;y) COVAR (A2:A11;B2:B11)

Devuelve la covarianza de x e y definida por :
1 n
Cov( X , Y ) = ∑ ( x j − μ x )( y j − μ y )
n j =1
COEF.DE.CORREL(x;y) COEF.DE.CORREL(A2:A11;B2:B11)
Devuelve el coeficiente de correlación de x e y

Cov( X , Y )
ρ xy =
σ xσ y
COEFICIENTE R2(Y;X) COEFICIENTE R2(B2:B11;A2:A11)
Da el coeficiente R2 de la regresión de y en x

n(∑ XY ) − (∑ X )(∑ Y )
r=
n ∑ X 2 − (∑ X ) 2 n ∑ Y 2 − (∑ Y ) 2
PENDIENTE (y;x) PENDIENTE (B2:B11;A2:A11)

Da la pendiente de la línea de regresión de y sobre x
n(∑ XY ) − (∑ X )(∑ Y )
r=
n ∑ X 2 − (∑ X ) 2
INTERSECCION.EJE(y;x) INTERSECCION.EJE(B2:B11;A2:A11)
Da la ordenada en el origen de la línea de regresión de y sobre x; es
decir: a = Y − b X
PRONOSTICO(z;y;x) PRONOSTICO(2;B2:B11;A2:A11)
Halla la predicción según la línea de regresión de y sobre x para el valor
z de la variable independiente
TENDENCIA(y;x;z:constante) TENDENCIA (A2:A8;B2:B8;B9:B11)

Halla las predicciones según la línea de ajuste de x e y por mínimos
cuadrados para los valores de la variable independiente expresados en
la variable z. Constante es 1 ó 0 según se considere constante o no el
modelo. Si no se especifica, vale1.
CRECIMIENTO(y;x;z:constante)CRECIMIENTO(A2:A8;B2:B8;B9:B11;0)
Halla las predicciones según según la línea de ajuste de x e y
exponencial (y = bmx) para los valores de la variable independiente
expresados en la variable z. constante es 1 ,o 0 según se considere
constante o no el modelo. Si no se especifica vale 1.
ERROR.TIPICO.XY(y;x) ERROR.TIPICO(B2:B11;A2:A11)
Devuelve el error típico del valor de y previsto para cada x de la
regresión. El error típico es una medida de la cuantía de error en el
pronóstico del valor de y para un valor individual de x. su valor viene
dado por:

⎡ 1 ⎤⎡ [ ]
n(∑ xy ) − (∑ x )(∑ y ) ⎤
2
⎥ ⎢n∑ y − (∑ y ) −
2
S yv = ⎢ 2
⎥
⎣ n(n − 2 ) ⎦ ⎢⎣ n∑ x 2 − (∑ x )
2
⎥⎦
Correlación múltiple mediante herramientas de análisis.
Excell proporciona herramientas de análisis para medir la relación entre

dos conjuntos de datos. El cálculo de la correlación devuelve la covarianza de
dos conjuntos de datos dividida por el producto de sus desviaciones estándar.
Se puede utilizar la herramienta coeficiente de correlación para determinar si
dos conjuntos de datos varían conjuntamente, es decir si los valores altos de
un conjunto están asociados con los valores altos del otro (correlación positiva),
si los valores bajos de un conjunto están asociados con los valores bajos del
otro (correlación negativa), o si los valores de ambos conjuntos no están
relacionados (correlación con tendencia a cero). Cuando se consideran más de
dos variables, esta herramienta devuelve la matriz de correlaciones entre ellas.
Excell también permite hallar el promedio del producto de desviaciones de
variables respecto de sus medias (covarianza) mediante la herramienta
covarianza. La coovarianza es una medida de la relación entre dos rangos de
datos, y también se puede utilizar para determinar si dos rangos de datos
varían conjuntamente. Cuando se consideran más de dos variables, esta
herramienta devuelve la matriz de covarianzas entre ellas.
Correlación y matriz de correlaciones.
La opción análisis de datos del menú herramientas, nos lleva al cuadro

de diálogo análisis de datos. Si en la lista de funciones para análisis elegimos
coeficiente de correlación, se obtiene el cuadro de diálogo que permite calcular
la matriz de correlaciones de las variables especificadas en el campo rango de
entrada. En dicho campo rango de entrada se introduce la referencia de celda
del rango de datos que se pretenden analizar (rango que contiene las variables
cuya correlación o matriz de correlaciones se va a calcular). La referencia
deberá contener dos o más rangos adyacentes organizados en filas o en
columnas. En el campo agrupado por se hace clic en el botón filas o columnas

para indicar si los datos del rango de entrada están organizados en filas o en
columnas. Si la primera fila del rango de entrada contiene rótulos, hay que
activar de verificación rótulos en la primera fila o viceversa si se hayan en la
primera columna. En cuanto a las opciones de salida, en el rango campos de
salida hay que introducir la referencia correspondiente a la celda superior
izquierda de la tabla de resultados (matriz de correlaciones). Microsoft Excell
sólo completará media tabla, ya que la correlación entre dos rangos de datos
es independiente del orden en que se procesen dichos rangos. Las celdas de la
tabla de resultados con coordenadas de filas y de columnas iguales contendrán
el valor 1, ya que cada conjunto está perfectamente correlacionado consigo
mismo. Los resultados se pueden insertar en la hoja actual, en una hoja nueva
del libro actual o en un libro nuevo según se desee.
VARIABLES COEFICIENTE DE CORRELACIÓN
X Y Z X Y Z
2 4 2 X 1
3 5 4 Y 0,9899319 1
6 10 6 Z 0,98021232 0,98302129 1
8 11 7
10 15 10
Covarianza y matriz de covarianzas.

Para calcular la matriz de correlaciones de las variables del campo de

rango de entrada, elegimos covarianza de la lista la lista de funciones del
cuadro de diálogo análisis de datos del menú de herramientas de Excell.
En el cuadro rango de entrada se introduce la referencia de la celda del rango
de datos a analizar. Dicha referencia debe contener dos o más rangos
adyacentes organizados en filas o columnas. En el campo agrupado por se
marca filas o columnas, según corresponda. Si en la primera fila del rango de
entrada hay rótulos, se debe marcar la casilla de verificación rótulos en la
primera fila o viceversa para el caso de que estén en la primera columna. En
cuanto a las opciones de salida, en el rango campos de salida hay que
introducir la referencia correspondiente a la celda superior izquierda de la tabla
de resultados (matriz de covarianzas). Microsoft Excell sólo completará media
tabla de resultados, ya que la covarianza entre dos rangos de datos es
independiente del orden en que se procesen dichos rangos. Las celdas de la
tabla de resultados con coordenadas de filas y de columnas iguales contendrán
el valor de la varianza de las variables. Los resultados se pueden insertar en la
hoja actual, en una hoja nueva del libro actual o en un libro nuevo según se
desee.
VARIABLES
COVARIANZA
X Y Z
2 4 2 X Y Z
3 5 4 X 5,6875
6 10 6 Y 12 9,25
8 11 7 Z 7,96 10,8 3,6875
10 15 10

BIBLIOGRAFÍA.
Problemas para aprobar estadística descriptiva. Pedro Antonio Luna López .

CEBAS (CSIC ) MURCIA. Mundi Prensa 1997.
Estadística aplicada. Julián de la Horra Navarro. ED. Díaz de Santos. 1995
Curso de estadística descriptiva . Gerard Calot. Paraninfo 1988
Estadistica descriptiva e inferencial. Edidiones de la Universidad de Castilla –

La Mancha. Antonio vargas Sabadías. 1998
Estadistica aplicada a través de Excel. César Pérez. Pearson – Prentice Hall.

2002

Estadistica Descriptiva

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estadistica Descriptiva

Enviado por

Direitos autorais:

Formatos disponíveis

ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL

ESTADÍSTICA DESCRPTIVA BIDIMENSIONAL.

La estadística descriptiva bidimensional nos permite el estudio

Es necesario hacer hincapié en el carácter estadístico de dicha

Existe un lenguaje propio de cada tipo de caracteres. Así, se designan

2.- TABLAS DE CONTINGENCIA.

Si denominamos X e Y a los dos caracteres observados, la distribución

Pedro Murcia Santos 1

medio de sus medidas de posición y dispersión; tales distribuciones reciben el

Consideremos una población de n individuos descrita según dos

Si las variables X e Y son discretas, sea {xi} el conjunto de valores

Si la variable X (y/o la variable Y) es continua, xi (y/o yi) designará la

Es frecuente tener que estudiar 2 ó más variables simultáneamente

Pedro Murcia Santos 2

Suponemos que la variable univariante X se ha clasificado en las clases

fij representa la frecuencia muestral absoluta de la clase bidimensional

3.- DISTRIBUCIONES MARGINALES Y CONDICIONALES

A) Distribuciones marginales según el carácter X

Fijándonos en el número de veces que aparece la modalidad xi del

Pedro Murcia Santos 3

Por cada i, los valores de n1. se obtienen de sumar las frecuencias

La suma de las frecuencias marginales según el carácter X es igual

B) Distribuciones marginales según el carácter Y

Análogamente se define la distribución marginal del carácter Y. la

Por cada j, los valores de n.j. se obtienen de sumar las frecuencias

Pedro Murcia Santos 4

Las frecuencias absolutas y relativas marginales del carácter Y

La tabla estadística de doble entrada se completa añadiendo dos

Fijémonos ahora en los n.j individuos de la población que presentan la

Estos n.j individuos forman una población que es un subconjunto de la

Se trata de una distribución, ya que el cociente nij/n.j representa la

Pedro Murcia Santos 5

Habrá q distribuciones de X condicionadas por cada una de las Yj.

De modo análogo se definen las distribuciones de Y condicionadas por

Habrá p distribuciones de Y condicionadas por cada una de las Xi.

Cuando la información que se desea analizar viene dispuesta en una

Pedro Murcia Santos 6

complica ligeramente respecto al caso de una dimensión. Las medias,

El momento bidimensional de orden (r,s) centrado en el origen, se define

El momento bidimensional de orden (r,s) centrado en las medias se

Los momentos de la distribución marginal de X se calculan como ar0 (los

4.- DIAGRAMAS DE DISPERSIÓN.

Los métodos para determinar la existencia y el grado de relación entre

a) Se dice que dos variables cuantitativas X e Y mantienen una relación

Pedro Murcia Santos 7

b) Se dice que dos variables cuantitativas X e Y mantienen una relación

c) Se dice que no hay relación entre dos variables cuantitativas cuando

En una buena representación gráfica conjunta de dos variables

* Si los datos no están agrupados en intervalos (como en la tabla

xi 61 118 57 123 125 122 122 85 85 85 83 78 76 76 73 70 97 107

Pedro Murcia Santos 8

* Si los datos están agrupados en intervalos (como en la tabla siguiente),

X \\ Y (0,10] (10,20] (20,30] (30,40] (40,50] Suma

5.- COOVARIANZA Y COEFICIENTE DE CORRELACIÓN.

Pedro Murcia Santos 9

La covarianza es una medida de gran importancia por su signo más que

B) Coeficientes de correlación lineal entre dos variables. Regresión

Se llama correlación al grado de dependencia mutua entre dos variables.

Pedro Murcia Santos 10

A los parámetros a y b se les denomina coeficientes de regresión de Y

La expresión del coeficiente de correlación lineal entre las variables X e

Si r=1 existe correlación perfecta positiva, y la variación funcional entre

C) Coeficientes de correlación por rangos: