Você está na página 1de 15

ESTADSTICA INFERENCIAL

ALEXANDER AMEZQUITA O.

La estadstica descriptiva bivariada aborda el estudio de los sucesos en los que


intervienen dos variables simultneamente.

DISTRIBUCIONES BIDIMENSIONALES
Cuando queremos describir conjuntamente dos variables estadsticas, el primer
paso ser (al igual que en el caso de la estadstica univariada), representar los
datos en una tabla de frecuencias. Ahora, a cada caso le corresponde no un valor
sino dos (uno para cada una de las variables). As, en el caso de que intentemos
relacionar el peso y la altura de las personas, a cada persona le asociamos un par
de valores (peso, altura).

Los pares de valores as formados constituyen la distribucin bidimensional. La


tabla de frecuencias consiste en una tabla de doble entrada en la que se recogen
tanto las frecuencias de cada una de las variables por separado como los pares de
puntuaciones que cada caso obtiene en ambas variables (frecuencia conjunta).

Las puntuaciones pueden aparecer sin agrupar o agrupadas en intervalos, no


teniendo por qu ser el nmero de intervalos de las dos variables iguales entre s,
as como la amplitud de los mismos.

Organizacin y representacin de los datos con ms de una variable

Los datos se organizan en tablas de contingencia

Para representar ,por ejemplo, dos variables cualitativas la variable Xi (con I


categoras) y la variable Yj (con J categoras) se construir una tabla de doble
entrada con I filas y J columnas. Dentro cada casilla de la tabla se encontrarn las
frecuencias conjuntas de las dos variables (nij).

j=1 j=2 .. J ni
i =1 n11 n12 .. n1J n1
i =2 n21 n22 .. n2J n2
i =3 n31 n33 .. n3J n3
.. .. .. .. ..
I nI1 nI2 .. nIJ nI
nj n1 n2 nJ N

1
Ejemplo

Tabaquismo Yj
Gnero Fumador No fumador Exfumador ni
Xi Varn 30 50 20 100
Mujer 30 10 10 50
nj 60 60 30 150

Tenemos dos variables:


La variable Xi : Gnero con I=2 categoras
La variable Yj : Tabaqusmo con J=3 categoras

Dnde
N=150 sujetos ( 100 varones y 50 mujeres) ;
60 fumadores, 60 no fumadores y 30 exfumadores
con 50 varones no fumadores n12,
frente a 10 mujeres no fumadoras n22

Donde:
N es el total de sujetos de la muestra
Las casillas de la tabla contienen la distribucin de frecuencias conjuntas ( nij)
Los laterales derecho e inferior de la tabla contienen la distribucin de frecuencias
marginales ( ni y nj).

Las distribuciones de frecuencias conjuntas tambin pueden expresarse en trminos


relativos
pij= nij/n

Tabaquismo Yj
Gnero Fumador No fumador Exfumador pi
Xi Varn 0,20 0,33 0,13 0,66
Mujer 0,20 0,07 0,07 0,34
pj 0,40 0,40 0,20 1

Adems de las frecuencias absolutas y relativas tambin aparece el concepto de


distribucin condicionada.

Distribucin de tabaquismo dado que se es varn nj/i=1


Distribucin de gnero dado que se es fumador ni/j=1

Las frecuencias relativas tambin pueden estar condicionadas por ejemplo:

Tabaquismo Yj
Gnero Fumador No fumador Exfumador pi
Xi Varn 0,30=30/100 0,50=50/100 0,20=20/100 1
Mujer 0,60=0,30/50 0,20=10/50 0,20=10/50 1

2
De los varones un 30% fuma, un 50% no fuma y un 20% es exfumador

Tabaquismo Yj
Gnero Fumador No fumador Exfumador
Xi Varn 0,50=30/60 0,83=50/60 0,67=20/30
Mujer 0,50=30/60 0,17=10/60 0,33=10/30
pj 1 1 1

De los fumadores un 50% son hombres y un 50% son mujeres; de los no fumadores
el 83% son varones, y el 17% son mujeres; de los exfumadores el 67% son varones
y el 33% son mujeres.

REPRESENTACIN GRFICA

La representacin grfica conjunta de dos variables cualitativas puede verse en las


siguientes grficas.

Para dos variables cualitativas la representacin grfica podra ser un diagrama de


barras.

60 60

50 50

40 40
Fumador
Varn
30 No fumador 30
Mujer
Exfumador
20 20

10 10

0 0
Varn Mujer Fumador No fumador Exfumador

En el caso de de una variable cualitativa y otra cuantitativa

Se describe la variable cuantitativa condicionada a las categoras de la cualitativa.


Relacionamos la nota media de un grupo de alumnos en una asignatura con su
nivel de ansiedad ante los exmenes

3
Relacin Nota media-Nivel de Ansiedad

9
8 Nivel de ansiedad Nota media
7
6 Bajo 8
5
4 Medio 7
Alto 4
3
2
1
0
Bajo Medio Alto

En el caso de la representacin de dos variables cuantitativas las categoras de las


variables suelen ofrecerse agrupadas en intervalos.

Calificacin Final
1-3 4-6 7-9 ni
Nivel de 1-5 1 4 2 7
ansiedad 6-10 7 0 0 7
nj 8 4 2 14

Grficamente la representacin que se realiza con este tipo de datos es un


diagrama de dispersin

Relacin ansiedad-nota exmenes

7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9

4
MEDIDAS DE RELACIN ENTRE VARIABLES
CUANTITATIVAS
Covarianza (Sxy)
Mide la relacin lineal entre dos variables y se expresa mediante la siguiente
frmula:

Propiedades:

Sxy es un valor que vara entre - y +

Si Sxy es positivo, entonces la correlacin es directa (a mayor valor de X, mayor


valor de Y) y, por tanto, la recta de regresin es ascendente.

Si Sxy es negativo, entonces la correlacin es inversa (a mayor valor de X, menor


valor de Y) y, por tanto, la recta de regresin es descendente.

Si Sxy es cero, entonces no hay correlacin entre X e Y.

Coeficiente de correlacin de Pearson (rxy)


La covarianza depende de los valores de las variables y por tanto de sus unidades.
Para tener una medida adimensional se utiliza el coeficiente de correlacin de
Pearson (r xy) que nos indica qu tipo de relacin existe entre dos variables, as
como la magnitud de dicha correlacin, siendo invariante frente a transformaciones
lineales (cambio de origen y escala) de las variables.

El coeficiente de correlacin de Pearson fue construido bajo el supuesto de que los


datos siguen una distribucin normal bivariada y la escala de medicin es al menos
de intervalo.

5
El Coeficiente de Correlacin de Pearson mide la relacin lineal entre dos variables
y se define como el cociente entre la covarianza y el producto de las desviaciones
tpicas de ambas variables. Toma la siguiente expresin para el clculo:

Propiedades:

Es un coeficiente adimensional. Es decir, que es independiente de las


unidades en que estn expresadas las variables. Por ello sirve de valor de
comparacin aunque la variables vengan expresadas en unidades diferentes.

-1 rxy 1

Si rxy =1 rxy = -1, la relacin es funcional. Una variable depende


matemticamente de la otra ( puede expresarse mediante una frmula en la
que intervenga la otra, por ejemplo la longitud de una circunferencia depende
del radio mediante la frmula L=2r).

Interpretacin:

Si rxy est prximo a 1 -1 la correlacin es fuerte (por encima de 0.8).


Si rxy est prximo a 0, la correlacin es dbil.
Si rxy >0 la correlacin es directa. Hay relacin lineal positiva.
Si rxy <0 la correlacin es inversa. Hay relacin lineal negativa.
Si Sxy = 0 y por tanto rxy = 0 la correlacin es nula. La relacin lineal es
nula.

Interpretacin grfica:

Si rxy = 1 los puntos (x,y) forman una lnea ascendente.


Si rxy = -1 los puntos (x,y) forman una lnea descendente.
Si rxy > 0 los puntos (x,y) forman una nube ascendente ms cercana a una
recta cuanto ms cercano sea este valor a 1.
Si rxy < 0 los puntos (x,y) forman una nube descendente ms cercana a una
recta cuanto ms cercano sea este valor a -1.
Si rxy = 0 la nube de puntos sigue una distribucin totalmente aleatoria
(circular).

6
MEDIDAS DE RELACIN ENTRE VARIABLES
ORDINALES
Coeficiente de correlacin de Spearman
Cuando los datos no se distribuyen segn una normal bivariada o bien estn
medidos con una escala ordinal, una de las posibles medidas de asociacin lineal es
el coeficiente de correlacin de Spearman (1904). Este coeficiente se define de
igual manera que el de Pearson, slo que en lugar de utilizar los valores de las
variables, utiliza los rangos asociados a estos valores.

En el caso de que una variable sea ordinal y la otra cuantitativa, se analizarn los
datos como si las dos fuesen ordinales.

donde di es la diferencia entre el rango del caso i en la variable X, y en la variable Y.

Propiedades:

- 1 rs +1
Si rs = +1, hay correlacin directa mxima.
Si rs = -1, hay correlacin inversa mxima.
Si rs = +1, la correlacin es nula.

MEDIDAS DE RELACIN ENTRE VARIABLES


NOMINALES
En muchos casos la relacin entre determinadas variables no pueden medirse con
una escala cuantitativa. Por ejemplo: la relacin entre el gnero y la ideologa
poltica.

Al no cuantificarse numricamente las variables no se puede hablar de una


correlacin directa o inversa.
Por ejemplo: decir que a mayor gnero, mayor ideologa poltica no tiene sentido.

Por lo tanto, cuando decimos que dos variables nominales X e Y estn relacionadas,
queremos decir que las proporciones de X (gnero: hombre, mujer) son diferentes
en cada categora de Y (ideologa poltica: izquierda, derecha). Si X e Y no estn

7
relacionadas, entonces las proporciones de X sern iguales en las distintas
categoras de Y.

A las frecuencias que esperaramos obtener si X e Y estuvieran relacionadas se les


denomina frecuencias observadas.

A las frecuencias que esperaramos obtener si X e Y no estuvieran relacionadas se


les denomina frecuencias esperadas.

Ji- Cuadrado ( )
Calcula la diferencia entre las frecuencias observadas y las frecuencias esperadas
si las variables fuesen independientes entre s. Para calcular ji-cuadrado se emplea
la siguiente frmula:

donde:

Oij es la frecuencia conjunta observada en la fila i y columna j de la tabla (son


las frecuencias que aparecen en los datos de nuestra investigacin).
Eij es la frecuencia conjunta esperada en la fila i y columna j de la tabla,
suponiendo independencia entre las variables.

Eij se calcula como sigue:

Eij = ( frecuencia marginal de la fila i) x (frecuencia marginal de la columna j) / n

Interpretacin:

Si ji-cuadrado vale cero, las variables son independientes.

Si ji-cuadrado es mayor que cero, las variables estn relacionadas entre s.

8
REGRESIN LINEAL SIMPLE

INTRODUCCIN
Como comprobamos en el grfico anterior cuando representamos un grfico de
nube de puntos, podemos observar de manera intuitiva cierto grado de asociacin
o correlacin lineal entre las dos variables. Incluso se podra trazar una recta,
llamada recta de regresin, que se ajustase a la nube de puntos.

No obstante, tambin la apreciacin visual de la existencia de correlacin no es


suficiente. Vamos a proceder ahora a estudiar el procedimiento de seleccin de
esta recta y los parmetros de medida que debemos usar.

Una vez encontrada la funcin que representa esta dependencia de las variables,
podremos predecir los valores de una variable (variable dependiente o explicada) a
partir de los valores de las otras (variables independientes o explicativas). Adems,
podremos calcular la fiabilidad de esta prediccin.

Antes de continuar debemos advertir que la regresin puede o no representarse por


una recta. En el caso de que elijamos un recta para ajustarla a la nube de puntos,
estaremos hablando de regresin lineal. En otro caso, diremos que la regresin es
no lineal.

Asimismo, diremos que una regresin lineal es simple cuando solamente exista una
variable independiente. Cuando sean ms de una las variables independientes
diremos que la regresin lineal es mltiple .

Teora de la Regresin

A partir de la observacin de la nube de puntos se elige el tipo de funcin o curva


que mejor relaciona las dos variables. Se obtiene as la ecuacin de la recta o de la
curva que mejor se adapta al conjunto de puntos y que sirve para predecir el valor
de una de las variables.

Obtener la ecuacin de la recta que mejor se adapte al conjunto de puntos, de entre


las infinitas de dicho tipo que hay en el plano es lo que se conoce como el problema
del ajuste y se pueden emplear diferente mtodos matemticos para ello:

Mtodo de los mnimos cuadrados


Mtodo de los polinomios ortogonales
Mtodo de los momentos
Mtodo de la curva logstica

9
Estimacin de la ecuacin de regresin por el
mtodo de mnimos cuadrados
Con este mtodo se trata de seleccionar aquella recta que hace mnimo el resultado
de sumar el cuadrado de cada una de las distancias de los puntos de la nube a la
recta. Es el mtodo ms frecuente, aunque como hemos visto en el apartado
anterior no es el nico.

La ecuacin de la recta de regresin lineal simple responde a la frmula:

donde:

es la puntuacin pronosticada en la variable Y para el caso i-simo.

es la ordenada en el origen. Es el valor de Y cuando X = 0 (grficamente el


punto donde la recta cruza el eje de ordenadas).

es el Coeficiente de regresin o pendiente de la recta y representa su


inclinacin.

es la variable predictora. Conociendo la puntuacin en X del caso i-simo


podremos pronosticar la puntuacin en Y.

Yi es el criterio (puntuacin real obtenida en la variable Y por el caso i-simo de


nuestra investigacin.

En el mtodo de mnimos cuadrados, los valores de bo y b1 son los siguientes:

Una vez obtenida la recta, debemos medir la exactitud de ese ajuste o fiabilidad de
sus predicciones:

10
HIPOTESIS
Como vimos, las medidas de relacin entre variables, son as mismo hiptesis que podemos
lanzar sobre esas relaciones que estamos midiendo, y dichas hiptesis pueden ser de 4
diferentes tipos:

1. Hiptesis de existencia, como las pruebas Ji-Cuadrado o Chi-Cuadrado (depende de la


nomenclatura que utilice cada texto). Estas pruebas sirven solo para saber si existe
algn tipo de relacin entre dos variables estudiadas.
2. Hiptesis de direccin, como las pruebas de Covarianza o la de Spearman, que
adems de la existencia, nos indican la direccin de la relacin, en el caso de variables
ordinales o de intervalo.
3. Hiptesis de intensidad, como las pruebas de Pearson, que adems de la existencia y a
direccin, nos indican la intensidad de la relacin en una escala que va de -1 a 1 y que
conforme se acerca a los extremos indica una mayor intensidad.
4. Hiptesis de naturaleza, como la regresin simple, que ya supone, adems de todo lo
anterior, un tipo particular de relacin, la de causa efecto, y da como resultado una
funcin que expresa una variable dependiente en trminos de una variable
independiente.

Existen adems otras hiptesis en las ciencias sociales, que nos permiten no ya establecer
relaciones entre variables, sino indicar dos aspectos:

1. Si al agrupar los datos de forma tal que la variacin de una variable se segmente segn
otra variable de tipo nominal, existen diferencias entre medias.
2. Si al existir diferencias entre medias, podemos identificar la fuente de esa diferencia,
ya sea que los datos son muy diversos, o que en realidad la segmentacin que hemos
construido si diferencia a los datos.

A estos dos tipos de pruebas de hiptesis se los denomina pruebas de significacin


estadstica.

1. PRUEBAS DE SIGNIFICACION ESTADISTICA


El propsito fundamental de los anlisis estadsticos de tipo inferencial es el conocimiento de
poblaciones a partir del estudio de muestras o subconjuntos representativos y suficientes de
dichas poblaciones. Las pruebas de significacin se refieren a los procedimientos
estadsticos mediante los cuales aceptamos o rechazamos una hiptesis nula (Ho) lo que
automticamente nos habilita para rechazar o aceptar otra hiptesis denominada hiptesis
alternativa (H1).

Teniendo en cuenta que una hiptesis es una relacin potencial entre dos o ms variables, por
ejemplo, los alumnos que utilizan calculadora de bolsillo obtienen un mayor rendimiento
acadmico que aquellos que no lo hacen, podemos afirmar que el contraste de hiptesis es el
procedimiento que nos permite verificar y confirmar si esa relacin potencial es verdadera o
no y con qu margen de error.

11
Existe un consenso ms o menos extendido a la hora de formular dichas hiptesis, que se
resume de la siguiente forma:

Hiptesis nula (Ho): no se postulan diferencias estadsticamente significativas entre las


medidas y si las hay se deben al azar

Existen entonces dos tipos de hiptesis sobre las medias

Bilateral:

- Contraste con ms de una muestra (Ho): 1 = 2 o tambin 1 - 2 = 0

Unilateral:

- Contraste con ms de una muestra Ho): 1 2 y tambin H1): 1 2

Hiptesis alternativa (H1):

Bilateral: se postulan diferencias estadsticamente significativas entre las medidas, pero se


desconoce a favor de cual de ellas:

- Contraste con ms de una muestra (H1): 1 2 o tambin 1 - 2 0

Unilateral: se postulan diferencias estadsticamente significativas entre las medidas y,


adems, se contemplan a favor de alguna de ellas:

- Contraste con ms de una muestra (H1): 1 < 2 o tambin 1 > 2

El proceso final del contraste de hiptesis es un resultado que sirve para aceptar o rechazar la
hiptesis nula con un cierto grado de error. Este resultado se denomina valor emprico o
terico y se compara con un valor crtico o tabular (valores de tabla) asumiendo un
determinado nivel de error (generalmente 5% o = 0.05) y en algunas ocasiones unos
determinados grados de libertad. La norma general, es que si el valor emprico de la prueba
calculada (el que se produce como resultado de aplicar una expresin matemtica) es menor
que el crtico se acepta la hiptesis nula, ya que entrara dentro de la regin de aceptacin de
la misma.

12
El esquema general de las pruebas de hiptesis es el siguiente:

Pruebas relacionadas con la igualdad de medias


entre grupos
Cuando se desea determinar si las medias tericas de dos grupos son iguales, o por el
contrario diferentes, en definitiva, si las medias muestrales de ambos grupos difieren
estadsticamente entre s o no lo hacen, podemos utilizar los contrastes de hiptesis
paramtricos para dos grupos materializados en las diversas tipologas de la prueba t.
Suele ser sta, pues, una situacin ms habitual de lo que a priori podemos pensar en el
campo de la investigacin social en general y educativa en particular. Ahora bien, se manejan
diversas expresiones dependiendo de algunos aspectos:

1. Varianzas iguales o diferentes entre los grupos.

13
2. Consideracin de muestras independientes o relacionadas.

3. Nmero de participantes que constituyen el estudio (N 30 N > 30).

Los aspectos uno y tres no necesitan mayor aclaracin, sin embargo, el aspecto dos necesita
de una aproximacin conceptual. En este sentido, las muestras independientes, sin aparear o
no relacionadas son aquellas en las que los datos de una muestra no se pueden relacionar con
lo de la otra. Se trata, por tanto, de dos conjuntos de datos independientes entre s y cuyos
tamaos de muestras pueden ser diferentes. Por otra parte, las muestras apareadas,
relacionadas o dependientes son aquellas en las que cada dato de una muestra se puede
asociar de manera unvoca con otro de otro grupo debido, fundamentalmente, a que las
observaciones de ambos se realizan sobre las mismas unidades muestrales.

Ejemplo (PRUEBA T PARA MUESTRAS INDEPENDIENTES): Un educador y


su grupo de investigacin estn interesados en verificar la superioridad del mtodo de
lectura silbico frente al fonolgico. Para ello ensean a 16 alumnos de una clase con el
primer mtodo (silbico) y a otros 16 de otra clase con el segundo (fonolgico). Tras un
periodo prudencial miden la variable dependiente, rendimiento lector , y comparan los
resultados de los dos grupos.

Ejemplo (PRUEBA T PARA MUESTRAS RELACIONADAS): Un educador ha


medido el nmero de palabras correctamente ledas (de 10 posibles) por 10 alumnos con
n.e.e. (necesidades educativas especiales) despus de haber sido instruidos mediante una
ACI (Adaptacin Curricular Individual). Se comparan los resultados de los mismos
alumnos antes y despus de la ACI

Pruebas relacionadas con la igualdad de varianzas


entre grupos
En esencia, el anlisis de varianza intenta determinar las variaciones que se generan entre los
participantes u observaciones de cada grupo (fuente de variacin entre o inter) y entre los
sujetos de un mismo grupo y las achacables al error (fuente de variacin intra o de error). El
ANOVA, pues, es una prueba semejante a las pruebas t y z en cuanto a la prctica, pero
la comparacin entre grupos no se basa en las diferencias entre las medias, sino entre la
varianza de la variable numrica y o dependiente en cada grupo o nivel de variable
categrica x, tambin llamada independiente.

Si las diferencias entre las varianzas de cada grupo (fuente de variacin inter) son mayores
que las intragrupales (fuente de variacin intra), seguramente se reportarn diferencias
estadsticamente significativas entre los grupos que no son debidas al azar. As, mientras en
las pruebas de significacin para dos grupos obtenemos valores empricos t y z en el
ANOVA la cifra estadstica obtenida se denomina razn F de Snedecor. Al ser F el resultado
de dividir la media cuadrtica inter entre la media cuadrtica intra
Cuanto mayor sea el dividendo mayor ser el cociente y mayor, por ende, la probabilidad de

14
que existan diferencias estadsticamente significativas.

Ejemplo (ANOVA simple): Un profesor est interesado en verificar si el uso de


diferentes metodologas de enseanza (M1, M2, M3) resulta determinante en la
consecucin de un mayor o menor rendimiento escolar en la asignatura de ingls.
Durante un semestre implementa las tres metodologas en tres grupos diferentes de
alumnos midiendo el rendimiento escolar en ingls en los tres grupos, y comparando
entonces sus varianzas.

La prueba de significacin funciona exactamente igual en las pruebas de diferencias entre


medias. As, cuendo F sea mayor que un valor terico o tabular (de tabla) se rechazar la
hiptesis nula y se aceptar la hiptesis alternativa. En el caso contrario se aceptar la
hiptesis nula.

15

Você também pode gostar