Escolar Documentos
Profissional Documentos
Cultura Documentos
ALEXANDER AMEZQUITA O.
DISTRIBUCIONES BIDIMENSIONALES
Cuando queremos describir conjuntamente dos variables estadsticas, el primer
paso ser (al igual que en el caso de la estadstica univariada), representar los
datos en una tabla de frecuencias. Ahora, a cada caso le corresponde no un valor
sino dos (uno para cada una de las variables). As, en el caso de que intentemos
relacionar el peso y la altura de las personas, a cada persona le asociamos un par
de valores (peso, altura).
j=1 j=2 .. J ni
i =1 n11 n12 .. n1J n1
i =2 n21 n22 .. n2J n2
i =3 n31 n33 .. n3J n3
.. .. .. .. ..
I nI1 nI2 .. nIJ nI
nj n1 n2 nJ N
1
Ejemplo
Tabaquismo Yj
Gnero Fumador No fumador Exfumador ni
Xi Varn 30 50 20 100
Mujer 30 10 10 50
nj 60 60 30 150
Dnde
N=150 sujetos ( 100 varones y 50 mujeres) ;
60 fumadores, 60 no fumadores y 30 exfumadores
con 50 varones no fumadores n12,
frente a 10 mujeres no fumadoras n22
Donde:
N es el total de sujetos de la muestra
Las casillas de la tabla contienen la distribucin de frecuencias conjuntas ( nij)
Los laterales derecho e inferior de la tabla contienen la distribucin de frecuencias
marginales ( ni y nj).
Tabaquismo Yj
Gnero Fumador No fumador Exfumador pi
Xi Varn 0,20 0,33 0,13 0,66
Mujer 0,20 0,07 0,07 0,34
pj 0,40 0,40 0,20 1
Tabaquismo Yj
Gnero Fumador No fumador Exfumador pi
Xi Varn 0,30=30/100 0,50=50/100 0,20=20/100 1
Mujer 0,60=0,30/50 0,20=10/50 0,20=10/50 1
2
De los varones un 30% fuma, un 50% no fuma y un 20% es exfumador
Tabaquismo Yj
Gnero Fumador No fumador Exfumador
Xi Varn 0,50=30/60 0,83=50/60 0,67=20/30
Mujer 0,50=30/60 0,17=10/60 0,33=10/30
pj 1 1 1
De los fumadores un 50% son hombres y un 50% son mujeres; de los no fumadores
el 83% son varones, y el 17% son mujeres; de los exfumadores el 67% son varones
y el 33% son mujeres.
REPRESENTACIN GRFICA
60 60
50 50
40 40
Fumador
Varn
30 No fumador 30
Mujer
Exfumador
20 20
10 10
0 0
Varn Mujer Fumador No fumador Exfumador
3
Relacin Nota media-Nivel de Ansiedad
9
8 Nivel de ansiedad Nota media
7
6 Bajo 8
5
4 Medio 7
Alto 4
3
2
1
0
Bajo Medio Alto
Calificacin Final
1-3 4-6 7-9 ni
Nivel de 1-5 1 4 2 7
ansiedad 6-10 7 0 0 7
nj 8 4 2 14
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9
4
MEDIDAS DE RELACIN ENTRE VARIABLES
CUANTITATIVAS
Covarianza (Sxy)
Mide la relacin lineal entre dos variables y se expresa mediante la siguiente
frmula:
Propiedades:
5
El Coeficiente de Correlacin de Pearson mide la relacin lineal entre dos variables
y se define como el cociente entre la covarianza y el producto de las desviaciones
tpicas de ambas variables. Toma la siguiente expresin para el clculo:
Propiedades:
-1 rxy 1
Interpretacin:
Interpretacin grfica:
6
MEDIDAS DE RELACIN ENTRE VARIABLES
ORDINALES
Coeficiente de correlacin de Spearman
Cuando los datos no se distribuyen segn una normal bivariada o bien estn
medidos con una escala ordinal, una de las posibles medidas de asociacin lineal es
el coeficiente de correlacin de Spearman (1904). Este coeficiente se define de
igual manera que el de Pearson, slo que en lugar de utilizar los valores de las
variables, utiliza los rangos asociados a estos valores.
En el caso de que una variable sea ordinal y la otra cuantitativa, se analizarn los
datos como si las dos fuesen ordinales.
Propiedades:
- 1 rs +1
Si rs = +1, hay correlacin directa mxima.
Si rs = -1, hay correlacin inversa mxima.
Si rs = +1, la correlacin es nula.
Por lo tanto, cuando decimos que dos variables nominales X e Y estn relacionadas,
queremos decir que las proporciones de X (gnero: hombre, mujer) son diferentes
en cada categora de Y (ideologa poltica: izquierda, derecha). Si X e Y no estn
7
relacionadas, entonces las proporciones de X sern iguales en las distintas
categoras de Y.
Ji- Cuadrado ( )
Calcula la diferencia entre las frecuencias observadas y las frecuencias esperadas
si las variables fuesen independientes entre s. Para calcular ji-cuadrado se emplea
la siguiente frmula:
donde:
Interpretacin:
8
REGRESIN LINEAL SIMPLE
INTRODUCCIN
Como comprobamos en el grfico anterior cuando representamos un grfico de
nube de puntos, podemos observar de manera intuitiva cierto grado de asociacin
o correlacin lineal entre las dos variables. Incluso se podra trazar una recta,
llamada recta de regresin, que se ajustase a la nube de puntos.
Una vez encontrada la funcin que representa esta dependencia de las variables,
podremos predecir los valores de una variable (variable dependiente o explicada) a
partir de los valores de las otras (variables independientes o explicativas). Adems,
podremos calcular la fiabilidad de esta prediccin.
Asimismo, diremos que una regresin lineal es simple cuando solamente exista una
variable independiente. Cuando sean ms de una las variables independientes
diremos que la regresin lineal es mltiple .
Teora de la Regresin
9
Estimacin de la ecuacin de regresin por el
mtodo de mnimos cuadrados
Con este mtodo se trata de seleccionar aquella recta que hace mnimo el resultado
de sumar el cuadrado de cada una de las distancias de los puntos de la nube a la
recta. Es el mtodo ms frecuente, aunque como hemos visto en el apartado
anterior no es el nico.
donde:
Una vez obtenida la recta, debemos medir la exactitud de ese ajuste o fiabilidad de
sus predicciones:
10
HIPOTESIS
Como vimos, las medidas de relacin entre variables, son as mismo hiptesis que podemos
lanzar sobre esas relaciones que estamos midiendo, y dichas hiptesis pueden ser de 4
diferentes tipos:
Existen adems otras hiptesis en las ciencias sociales, que nos permiten no ya establecer
relaciones entre variables, sino indicar dos aspectos:
1. Si al agrupar los datos de forma tal que la variacin de una variable se segmente segn
otra variable de tipo nominal, existen diferencias entre medias.
2. Si al existir diferencias entre medias, podemos identificar la fuente de esa diferencia,
ya sea que los datos son muy diversos, o que en realidad la segmentacin que hemos
construido si diferencia a los datos.
Teniendo en cuenta que una hiptesis es una relacin potencial entre dos o ms variables, por
ejemplo, los alumnos que utilizan calculadora de bolsillo obtienen un mayor rendimiento
acadmico que aquellos que no lo hacen, podemos afirmar que el contraste de hiptesis es el
procedimiento que nos permite verificar y confirmar si esa relacin potencial es verdadera o
no y con qu margen de error.
11
Existe un consenso ms o menos extendido a la hora de formular dichas hiptesis, que se
resume de la siguiente forma:
Bilateral:
Unilateral:
El proceso final del contraste de hiptesis es un resultado que sirve para aceptar o rechazar la
hiptesis nula con un cierto grado de error. Este resultado se denomina valor emprico o
terico y se compara con un valor crtico o tabular (valores de tabla) asumiendo un
determinado nivel de error (generalmente 5% o = 0.05) y en algunas ocasiones unos
determinados grados de libertad. La norma general, es que si el valor emprico de la prueba
calculada (el que se produce como resultado de aplicar una expresin matemtica) es menor
que el crtico se acepta la hiptesis nula, ya que entrara dentro de la regin de aceptacin de
la misma.
12
El esquema general de las pruebas de hiptesis es el siguiente:
13
2. Consideracin de muestras independientes o relacionadas.
Los aspectos uno y tres no necesitan mayor aclaracin, sin embargo, el aspecto dos necesita
de una aproximacin conceptual. En este sentido, las muestras independientes, sin aparear o
no relacionadas son aquellas en las que los datos de una muestra no se pueden relacionar con
lo de la otra. Se trata, por tanto, de dos conjuntos de datos independientes entre s y cuyos
tamaos de muestras pueden ser diferentes. Por otra parte, las muestras apareadas,
relacionadas o dependientes son aquellas en las que cada dato de una muestra se puede
asociar de manera unvoca con otro de otro grupo debido, fundamentalmente, a que las
observaciones de ambos se realizan sobre las mismas unidades muestrales.
Si las diferencias entre las varianzas de cada grupo (fuente de variacin inter) son mayores
que las intragrupales (fuente de variacin intra), seguramente se reportarn diferencias
estadsticamente significativas entre los grupos que no son debidas al azar. As, mientras en
las pruebas de significacin para dos grupos obtenemos valores empricos t y z en el
ANOVA la cifra estadstica obtenida se denomina razn F de Snedecor. Al ser F el resultado
de dividir la media cuadrtica inter entre la media cuadrtica intra
Cuanto mayor sea el dividendo mayor ser el cociente y mayor, por ende, la probabilidad de
14
que existan diferencias estadsticamente significativas.
15