Você está na página 1de 8

COEFICIENTE DE CORRELACION LINEAL

,y
,
Sean ( x1 x 2 ) ( x k k ) Valores de la Variable estadstica Bidimensional (X,Y), con
frecuencias absolutas f1,f2,,fk, respectivamente el coeficiente de correlacin esta dado por:

s
r=
ss

f ( x x )( y y )
i =1

xy

f i ( xi x)
k

f i ( yi y)
k

i =1

i =1

Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La
correlacin es tanto ms fuerte cuanto ms se aproxime a 1.(Fig a)
Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable disminuye el de la
otra). La correlacin negativa es tanto ms fuerte cuanto ms se aproxime a -1. (Fig. b)
Si "r" = 0, no existe correlacin lineal entre las variables. (Fig c)

Una Formula equivalente para calcular el coeficiente de correlacin es:


k

f x y nx y
f x n x f y
i =1

i =1

i =1

Esta formula tiene la ventaja de utilizar menos operaciones para su calculo.

-1
Correlacin perfecta negativa

0
No hay Correlacin

1
Correlacin Perfecta positiva

Se prueba que el coeficiente de correlacin es un nmero comprendido entre -1 y 1, Por tanto los
valores que puede tomar el coeficiente de correlacin r son: 1 r 1

COVARIANZA.- En probabilidad y estadstica, la covarianza es un valor que indica el grado de


variacin conjunta de dos variables aleatorias. Es el dato bsico para determinar si existe una
dependencia entre ambas variables y adems es el dato necesario para estimar otros
parmetros bsicos, como el coeficiente de correlacin lineal o la recta de regresin
k

Sxy = COV[x,y] =

f ( x x )( y y )
; la covarianza es la medida de
n
i =1

asociacin lineal ms simple

Ejemplo.- La siguiente tabla de distribucin de frecuencias presenta la informacin obtenida


sobre 20 estudiantes de sexo femenino, a cada una de ellas se les tomo su peso y altura.
Se pide:
a) Representar la informacin en un diagrama de dispersin de datos
b) Hallar el coeficiente de correlacin entre X y Y
Peso(kgr.)

20.4

21.4

21.4

22

22.6

24.6

24.8

25.2

25.8

26

26.6

26.6

27.2

27.2

27.8

28

28

31.6

33.4

111

111

114

118

119

121

123

124

122

122

121

127

124

131

128

116

120

133

140

Altura(cm)

y
f

i
i

SOLUCION calculamos los valores que requeriremos.


xi
20.4
21.4
21.4
22
22.6
24.6
24.8
25.2
25.8
26
26.6
26.6
27.2
27.2
27.8
28
28
31.6
33.4
Total

yi
111
111
114
118
119
121
123
124
122
122
121
127
124
131
128
116
120
133
140

fi
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
20

fixi
40.8
21.4
21.4
22.0
22.6
24.6
24.8
25.2
25.8
26.0
26.6
26.6
27.2
27.2
27.8
28.0
28.0
31.6
33.4
511

fiyi
222
111
114
118
119
121
123
124
122
122
121
127
124
131
128
116
120
133
140
2436

fixi2
832.32
457.96
457.96
484.00
510.76
605.16
615.04
636.04
665.64
676.00
707.56
707.56
739.84
739.84
772.84
784.00
784.00
998.56
1115.56
13289.64

fiyi2
24642
12321
12996
13924
14161
14641
15129
15376
14884
14884
14641
16129
15376
17161
16384
13456
14400
17689
19600
297794

fixiyi
4528.8
2375.4
2439.6
2596.0
2689.4
2976.6
3050.4
3124.8
3147.6
3172.0
3218.6
3378.2
3372.8
3563.2
3558.4
3248.0
3360.0
4202.8
4676.0
62678.6

Remplazando en tenemos:

s
r=
ss

i =1

xy

f ( x x )( y y )

f i ( xi x)
k

i =1

f i ( yi y)
k

i =1

= +0.87
Interpretacin sabiendo que r = 0.87 este valor no debe interpretarse como se hace
corrientemente, en el sentido de que 87% de las variaciones en la altura son causadas por las
variaciones en el peso. Para una interpretacin ms correcta debe tomarse r2. En este ejemplo
r2 = (0.87)2 = 0.7569, nos indica que un 76% de los cambios en la altura se explican por las
Variaciones en el peso
2

EJERCICIOS:
1.- He aqu los gastos de publicidad (como porcentaje de gastos totales) y los beneficios de
operacin netos (como porcentaje de ventas ) en una muestra de 10 pequeas joyeras
Gastos de
1.2
Publicidad(X)
Beneficios
2.7
(Y)

0.7

1.5

1.8

0.5

3.4

1.0

3.0

2.8

2.5

2.4

2.7

3.3

1.1

5.8

2.2

4.2

4.4

3.8

a) Representar los datos en un diagrama de dispersin


b) Hallar el coeficiente de correlacin entre X y Y
2.- Se hace un estudio para determinar la relacin entre las edades de un gran grupo de
mquinas en una fbrica y las eficiencias de las maquinas. Los datos se dan en la siguiente tabla
Edad(X)
2
Eficiencia(Y) 90

4
65

11
25

9
40

4
80

6
60

7
35

8
50

a) Representar los datos en un diagrama de dispersin


b) Calcule el coeficiente de correlacin entre X y Y(interprete el resultado)

VARIABLE ESTADISTICA BIDIMENCIONAL


Introduccin
En muchas ocasiones, a la hora de realizar un estudio estadstico nos interesa estudiar dos
aspectos concretos de la poblacin; por ejemplo, si se pretende analizar el rendimiento de ciertos
alumnos sera interesante estudiar el nmero de horas que estudia cada alumno y la nota que
obtiene en cada examen. Para este tipo de estudios, se utilizarn variables estadsticas
bidimensionales.
La variable estadstica bidimensional (x,y) se puede clasificar segn la naturaleza de sus
variables: cuantitativos, cuantitativos discretos y cuantitativos continuos. Se obtienen los tipos de
distribuciones de dos caracteres, los cuales pueden ser:
- Los dos caracteres cuantitativos. Por ejemplo: Nivel de educacin y religin
- uno cualitativo, otro cuantitativo. Estos pueden ser:
a) (Cualitativo, cuantitativo discreto). Por ejemplo: Nivel de educacin y numero de
Hijos de las personas
b) (Cualitativos, cuantitativo continuo). Por ejemplo: estado civil y altura
- dos caracteres cuantitativo.
Cuando son observados mas de 2 caracteristicas, hablamos de variables estadisticas ndimencionales, convirtiendose entonces en el analisis en multivariante
PRESENTACION DE TABLAS ESTADISTICAS BIDIMENCIONALES
Considere un conjunto de n observaciones descritos simultneamente, segn dos variables o
caractersticas x e y designaremos por:
X1 , X2 , X3 , XK : los k valores de la variable X
Y1 , Y2 , Y3 , Yl : los l valores de la variable Y

Sean

ij

el nmero de observaciones que presentan a la vez el valor de Xi de la variable X y el

valor de Yi de la variable Y. la suma de las frecuencias absolutas

ij

es igual a la totalidad de

las observaciones.
k

n
i =1

j =1

ij

La tabla estadstica que describe a las n observaciones, es una tabla de doble entrada llamada:
tabla de distribucin de frecuencias bidimensional, donde figuran las filas o valores de la
caracterstica X, y las columnas o valores de la caracterstica Y (tabla de k filas y de l columnas)
DISTRIBUCION BIDIMENCIONAL DE FRECUENCIAS ABSOLUTAS

Valores de Y
2

12

Totales horizontales
l
= j =1 nij = ni.

11

1j

2j

Valores de X

21

22

1l

1.

2l

2.

ij

kj

.j

Totales Verticales
k
= i =1 nij = n. j

i1

k1

.1

i2

k2

.2

il

i.

kl

.l

k.

i =1

j =1

n = n =n
..

Donde: se designa por un punto el total segn el ndice i o el ndice j, es decir ni. es la suma total
de las frecuencias absolutas nij segn el ndice j esto es:
l
ni. = j =1 nij
n.j = es la suma total de las frecuencias absolutas nij segn el ndice i o sea
4

ij

n = n
.j

i =1

ij

n..(igual a n), es la suma total de las frecuencias absolutas nij segn los ndices i y j, as como
tambin la suma total de los totales ni. segn j o de los totales de n.j segn i, esto es:
k

i =1

j =1

n = n = n = n =n
..

ij

i =1

i.

j =1

.j

La frecuencia absoluta ni. es el numero de observaciones que presenta el valor


caracterstica

NOTA:
- Si la variable

y
x

, independientemente de los valores de la caracterstica(variable)

anlogamente de n.j es el numero de observaciones que corresponden al valor


caracterstica

independientemente de los valores de la variable


(y/o la variable

) es continua

x (y/o y
i

de la

de la

) representara la marca de clase

numero i j , de tal manera que se reducir el caso continuo al caso discreto: como al estudiar
las variables estadsticas de una dimensin.
- Si las variables x y y son cualitativas la tabla de distribucin bidimensional se llama Tabla
de contingencia
FRECUENCIAS RELATIVAS
Se llama frecuencia relativa o simplemente frecuencia de la pareja de valores

x y y (o bien
i

frecuencia total) a la proporcin de observaciones que presentan simultneamente los valores de

y , es decir: h

ij

n
n

ij

La tabla de distribucin de frecuencias relativas es la siguiente:

Valores de Y

12

Totales horizontales
l
= j =1 hij = hi.

11

1j

2j

Valores de X

21

22

1l

2l

1.

2.

i1

i2

ij

il

i.

Totales Verticales
k
= i =1 hij = h. j

k1

.1

k2

.2

kj

.j

kl

k.

i =1

j =1

h = h =1

.l

..

La suma de las frecuencias relativas de todos los pares de valores es igual a la unidad, es decir:
k

i =1

j =1

h =1
ij

Las sumas parciales se designan igualmente por un punto(.) en lugar del ndice, que hace la
funcin de la sumatoria

h = h =n
n
n
h = h =
n
h = h =1
l

i.

j =1

.j

i =1

i.

ij

.j

ij

i =1

i.

j =1

.j

En algunas situaciones de acuerdo a objetivos especficos, podr definirse las frecuencias


relativas con relacin al total de cada columna o de cada fila. Es decir se tendr:

n yn
n n
ij

ij

i.

.j

; i=1,2,k ; j=1,2,,l

DISTRIBUCIONES MARGINALES
Distribucin marginal de

.- consideremos la columna marginal (Columna de los totales

Horizontales) de la tabla de doble entrada. Las frecuencias absolutas


llama distribucin marginal de la variable

i.

definen lo que se

(es una distribucin de una sola caracterstica)

n = n
i.

La frecuencia relativa marginal del valor

j =1

ij

x es igual a h
i

i.

es decir,
6

ij

h =n
n

i.

i.

Como ya hemos visto, la suma de las frecuencias absolutas marginales es n


k

n =n =n
i =1

i.

..

Y tambin la suma de las frecuencias relativas marginales, como hemos visto es igual a la
unidad
k
i =1 hi. = 1
Distribucin marginal de X
Frec. Absol

Valores de X

x
x

i.

distribucin marginal de Y
Frec. Rel.

n
n

Valores de Y

i.

h
h

1.

y
y

1.
2.

Frec. Rel.

.j

n
n

h
h

.1

.1

.2

.2

2.

Frec. Absol

.j

.j

i.

i.

n
n

n
n

Total

k.
..

Distribucin marginal de

k.

Total

.l

.l

..

anlogamente, la distribucin marginal de la variable Y esta

definida por las frecuencias absolutas marginales

La frecuencia marginal relativa de la variable

.j

.j

es:

n
n

.j

EJEMPLO: Suponga que la poblacin masculina de 7 ciudades se ha clasificado en casados y


solteros, obtenindose la siguiente tabla:
Y
X
CASADOS
SOLTEROS

133
36

164
57

155
40

106
37

153
55

123
39

146
36

CALCULAR:
a) la tabla de distribucin de frecuencias relativas
b) la distribucin marginal de X y Y
c) el porcentaje de casados y el porcentaje de solteros
d) la tabla de distribucin de frecuencias acumuladas absolutas
7

.j

Solucin:

n
h n
ij

ij

; n=1280=

Y
X
CASADOS
SOLTEROS
Total

i =1

ij

j =1

Total

0.104
0.028
0.132

0.128
0.045
0.173

0.121
0.031
0.152

0.083
0.029
0.112

0.120
0.043
0.163

0.096
0.030
0.126

0.114
0.028
0.142

0.766
0.234
1.00

b) las distribuciones marginales para X se obtiene por la sumatoria de las filas (SUB TOTALES)
y para Y se obtiene por la sumatoria de las columnas (SUB TOTALES)
DISTRIBUCION MARGINAL DE X
Estado(X)
CASADO
SOLTERO
Total

ni.
980
300
1280

DISTRIBUCION MARGINAL DE Y
Ciudades(Y)
A
B
C
D
E
F
G
Total

hi.
0.766
0.234
1.00

n.j
169
221
195
143
208
162
182
1280

h.j
0.132
0.173
0.152
0.112
0.163
0.126
0.142
1.00

c) El porcentaje de casados es 76.6% , el porcentaje de solteros es 23.4%


d) la tabla de distribucin de frecuencias acumuladas absolutas
Y
X
CASADOS
SOLTEROS

133
169

297
390

452
585

558
728

711
936

834
1098

980
1280

Ejemplo.- en una muestra de 20 pacientes, se obtuvo los resultados de recuperacin y muerte


en cierta enfermedad, los cuales se muestran en la tabla siguiente
Y
X
Tratados
No tratados
total

Recuperados

Muertos

Total

10
1
11

2
7
9

12
8
20

Você também pode gostar