Você está na página 1de 5

Material de Lecturas de ME

Semana 13

4.4 La Prueba de Levene

Esta prueba de hipótesis está diseñada para determinar si las varianzas de un grupo de
poblaciones son iguales o no. Es una prueba no paramétrica, es decir, no se pide requisito
alguno de la distribución poblacional.

Suponer que se consideran k poblaciones. Se toma una muestra aleatoria de cada población
de tamaño ni (donde ni ≥ 5 ) para i = 1, 2, 3,..., k. Las hipótesis para contrastar son:
H 0 : σ 12 = σ 22 =  = σ k2 vsH 1 : Al menos hay un par σ 2p ≠ σ q2 . Para realizar esta
prueba de hipótesis se hace lo siguiente.

Sea xij el j-ésimo elemento de la muestra i (i = 1,2,..., k; j = 1,2,..., ni ) y sea ~


xi la mediana
de la muestra i. Luego se aplica una transformación a los datos originales obteniendo wij
donde

wij = xij − ~
xi (4.1)

finalmente se aplica una anova a los valores wij . Es importante comentar que hay
diferentes versiones de la prueba de Levene, nosotros usaremos la versión más sencilla.

Ejemplo 4.8. Consideremos el caso del ejemplo 4.7 para aplicar la prueba de Levene para
determinar si las varianzas de las calificaciones son iguales o no. La tabla 4.4 muestra los
datos que son calificaciones de un examen de inglés que fue aprendido con tres métodos
diferentes.

metodo 1 metodo 2 metodo 3


x w x w x w
94 4.5 85 5 89 17
88 1.5 82 2 67 5
91 1.5 79 1 72 0
74 15.5 84 4 76 4
87 2.5 61 19 69 3
97 7.5 72 8
80 0
mediana 89.5 80 72
Tabla 4.4 Datos del ejemplo 4.8.

Sea σ 12 la varianza de las calificaciones obtenidas con el método 1, σ 22 la varianza de las


calificaciones obtenidas con el método 2 y σ 32 la varianza de las calificaciones obtenidas
con el método 3. Las hipótesis son: H 0 : σ 12 = σ 22 = σ 32 contra
H 1 : Al menos hay un par σ 2p ≠ σ q2 .

En la tabla 4.4 vemos en las columnas “x” los datos originales y en las columnas “w” las
transformaciones aplicadas a los datos originales con la fórmula (4.1). Al final de la tabla se
da la mediana de cada muestra, de tal manera que ~ x1 = 89.50, ~
x 2 = 80 y ~
x3 = 72. Entonces,
considerando los datos de la muestra 1 se tiene que para 94 su w correspondiente es
[aplicando la fórmula (4.1)] w = | 94−89.50| = 4.50, para 88 su valor w se obtiene w =
|88−89.50| = 1.50, etc. Similarmente se obtienen los valores w para los valores de las
muestras 2 y 3. Finalmente se le aplica una anova (ver material de lecturas de la semana 11)
a los valores w obteniendo el resultado de la tabla 4.5.

Source of Variation SS df MS F P-value F crit


Between Groups 0.263492 2 0.131746 0.00346 0.99654 3.6823
Within Groups 570.5143 15 38.03429

Total 570.7778 17
Tabla 4.5. Tabla de anova del ejemplo 4.8

De la tabla 4.5 vemos que el estadístico de prueba es F = 0.003 y considerando α = 0.05 el


valor crítico es F0.05, 2,15 = 3.682 y como F < F0.05, 2,15 se acepta H0, es decir hay evidencia
estadística de que las varianzas de las calificaciones de los tres métodos son iguales. En la
tabla 4.5 también se muestra el p-valor de la anova que es 0.997, si el p-valor es menor que
α entonces se rechaza H0, de lo contrario se acepta H0. Este criterio del p-valor para
rechazar H0 es el mismo para cualquier prueba de hipótesis.

4.5 Tablas de Contingencia

La prueba de hipótesis que denominaremos “Tablas de contingencia” tiene como objetivo


determinar la independencia de renglones y columnas en una tabla de datos. El escenario en
el que se aplica esta prueba de hipótesis es el siguiente. Suponer que un investigador desea
estudiar la relación entre dos variables digamos X1 y X2, pero la variable X1 tiene c
categorías que vamos a colocar en las columnas de una tabla. Similarmente la variable X2
tiene r categorías que vamos a colocar en los renglones de una tabla (como se muestra en la
tabla 4.6.

Columna 1 Columna 2  Columna c


Renglón 1 
Renglón2 
    
Renglón r 
Tabla 4.6 Descripción de una tabla de contingencia.

El objetivo de esta prueba es determinar si hay o no independencia entre los renglones


(categorías de la variable X2) y columnas (categorías de la variable X1) de la tabla. En
resumen, el objetivo es determinar si son independientes un par de variables categóricas,
El procedimiento para aplicar esta prueba de hipótesis es el siguiente. De la población se
toma una muestra aleatoria de tamaño f. A cada elemento de la muestra se le va a ubicar en
una y solo una de las casillas de la tabla de contingencia y sea fij el número de elementos de
la muestra ubicados en la celda ij (i es el número del renglón y j es el número de la
columna) como se ilustra en la tabla 4.7.

Columna 1 Columna 2  Columna c


Renglón 1 f11 f12  f1c
Renglón2 f21 f22  f2c
    
Renglón r fr1 fr2  frc
Tabla 4.7 Tabla de contingencia con sus frecuencias por celda..

Para obtener el estadístico de prueba se necesita calcular las frecuencias totales por
columna y por renglón, por tal razón se debe ampliar la tabla de contingencia como se
ilustra en la tabla 4.8.

Columna 1 Columna 2  Columna c suma


Renglón 1 f11 f12  f1c f1•
Renglón2 f21 f22  f2c f 2•
     
Renglón r fr1 fr2  frc f r•
suma f •1 f •2  f •c f
Tabla 4.8 Tabla de contingencia ampliada a los totales por renglón y columna.

El símbolo f i• es la suma de las frecuencias del renglón i, además el símbolo f • j es la


suma de las frecuencias de la columna j como se ilustra en la tabla 4.8. La hipótesis nula
afirma que en todas las celdas hay independencia en el renglón y la columna de la celda.
Por ejemplo, para una celda cualquiera digamos la celda ij, sea pij la probabilidad de que
un elemento de la muestra quede ubicado en la celda ij, sea pi• la probabilidad de que un
elemento de la muestra quede ubicado en el renglón i, sea p• j la probabilidad de que un
elemento de la muestra quede ubicado en la columna j.

Entonces si en la celda ij hay independencia entre su renglón y columna se tiene de la teoría


de probabilidad que pij = pi• p• j , pero como estas probabilidades son desconocidas se
f ij f i• f• j
deben estimar de la muestra de la siguiente manera; pˆ ij = , pˆ i• = y pˆ • j = .
f f f

Luego, el número esperado de elementos ubicados en la celda ij si hay independencia entre


el renglón y columna es fpij = fpi• p• j de tal manera que su frecuencia esperada estimada
queda
 f  f • j  f i• f • j
( )
eij = f ( pˆ i• ) pˆ • j = f  i•  =
 (4.2)
 f  f  f

Para obtener el estadístico de prueba debemos calcular la frecuencia esperada para cada
celda, es decir aplicar la fórmula (4.2) a cada celda. Recordemos que la hipótesis nula
afirma que: H0: En todas las celdas hay independencia entre renglón y columna vs la
hipótesis alternativa H1: No en todas las celdas hay independencia entre renglón y columna.

Las hipótesis se pueden expresar matemáticamente de la siguiente manera:


H 0 : pij = pi• p• j para todas las celdas ij vs H 1 : Al menos para una celda pij ≠ pi• p• j .
El estadístico de prueba es;

( f ij − eij )2
χ = ∑∑
2
(4.3)
i j eij

es decir, se deben sumar los cocientes formados por el cuadrado de la diferencia de la


frecuencia observada menos la frecuencia esperada, entre la frecuencia esperada (con
eij ≥ 5 ). Regla de decisión: Se rechaza H0 con nivel de significancia α si
χ 2 > χ α2 ,( r −1)(c −1) . Además, en Excel p-valor = DISTR.CHICUAD.CD( χ 2 , (r − 1)(c − 1) ).

Ejemplo 4.9. Se desea probar que las ventas de frituras son independientes del tamaño de la
ciudad y del tipo de fritura. Usar un nivel de significancia del 5% y la información de la
siguiente tabla.

Tamaño de cd. Fritura 1 Fritura 2 Fritura 3


Cd. grande 520 150 310
Cd. regular 110 80 100
Cd. chica 50 60 50

De la tabla del ejemplo 4.9 se tiene que hay dos variables de interés, X1 = tipo de fritura y
X2 = tamaño de ciudad. Vemos además que la variable X1 se divide en tres categorías:
fritura tipo 1, 2 y 3 (columnas de la tabla). la variable X2 se divide también en tres
categorías de acuerdo con el tamaño de la ciudad: Cd. Grande, regular y pequeña
(renglones de la tabla), luego c = 3 y r = 3. De los consumidores muestreados se tiene que
520 compraron fritura tipo 1 en la cd. Grande, 150 compraron fritura tipo 2 en la cd.
Grande, etc que son las frecuencias indicadas en cada celda de la tabla. Al ampliar la tabla
de contingencia para incluir los totales de renglón y columnas se obtiene la tabla 4.9.

Las hipótesis son: H0: La venta es independiente del tamaño de la cd. y tipo de fritura
contra H1: La venta no es independiente del tamaño de la cd. y tipo de fritura. De la tabla
4.9 vemos que f1• = 980, f 2• = 290, f 3• = 160, f •1 = 680, f •2 = 290, f •3 = 460 y f =
1430. la tabla 4.10 muestra las frecuencias esperadas de cada celda si la hipótesis nula fuera
cierta.
Fritura 1 Fritura 2 Fritura 3 suma
Cd. grande 520 150 310 980
Cd. regular 110 80 100 290
Cd. chica 50 60 50 160
suma 680 290 460 1430
Tabla 4.9. Tabla de contingencia ampliada del ejemplo 4.9.

Fritura 1 Fritura 2 Fritura 3 suma


Cd. grande 466.014 198.741 315.245 980
Cd. regular 137.902 58.811 93.287 290
Cd. chica 76.084 32.448 51.469 160
suma 680 290 460 1430
Tabla 4.10 Frecuencias esperadas del ejemplo 4.9.

De la tabla 4.10 vemos que la frecuencia esperada de la celda 1,1 es [aplicando la fórmula
(4.2)] e11 = 980(680) / 1430 = 466.014 , para la celda 1,2, e12 = 980(290) / 1430 = 198.741 ,
etc. Luego al calcular el estadístico de prueba [fórmula (4.3)], obtenemos:

(520 − 466.014) 2 (150 − 198.741) 2 (310 − 315.245) 2


χ2 = + + +
466.014 198.741 315.245
(110 − 137.902) 2 (80 − 58.811) 2 (100 − 93.287) 2
+ + +
137.902 58.811 93.287
(50 − 76.084) 2 (60 − 32.448) 2 (50 − 51.469) 2
+ + = 64.44
76.084 32.448 51.469

Usando α = 0.05, se tiene que el valor crítico es χ 02.05, 4 = INV.CHICUAD.CD(0.05,4) =


9.488 y como χ 2 > χ 02.05, 4 se rechaza H0, es decir hay evidencia estadística de que la venta
no es independiente del tamaño de ciudad y tipo de fritura [Observe que hay 4 grados de
libertad ya que r = c = 3 y se tiene (3−1)(3−1) = 4]. Además p-valor =
DISTR.CHICUAD.CD(64.44,4) = 3.4 × 10 −13 .

Você também pode gostar