Escolar Documentos
Profissional Documentos
Cultura Documentos
=
2 / 1 2 /
2 /
2
)
2
( 2
1
0
) (
x r
r
e x
r
r
X
X o
casos otros
x
< <
,
0 ,
Donde r representa la funcin gama.
Observe que los valores que toma la variable aleatoria chi- cuadrado, son todos
los reales positivos, debido a que es una suma de cuadrados.
Grado de libertad r, es el nmero de variables aleatorias independientes que se
suman. Tambin el grado de libertad se puede concebir como un parmetro
asociado con la distribucin de probabilidad o como al nmero de variables que
pueden variar libremente.
NOTACION: Cuando una variable aleatoria X tiene una distribucin chi
cuadrado con r grados de libertad, escribiremos abreviadamente que X es
2
r
X ,
La media y la varianza de la variable aleatoria chi cuadrado con r grados de
libertad son:
r x Var
r x E
2 ) (
) (
2 2
2
= =
= =
o
Es decir, la media es igual al nmero de grados de libertad y su varianza es igual
a dos veces el nmero de grados de libertad. En otras palabras estos momentos
se expresan en trminos de los grados de libertad.
Figura: funcin de densidad de la variable aleatoria chi - cuadrado
Observe que la distribuciones chi cuadrado son una familia de distribuciones
continuas positivamente asimtricas; sin embargo cuando r, (r=grados de libertad)
aumenta la chi cuadrado se aproxima a una distribucin normal, por esta razn,
es que en la prctica, cuando r es grande (r > 30), la probabilidad de la chi
cuadrado puede calcularse empleando aproximacin normal como veremos
posteriormente.
Debido a que la distribucin chi cuadrado es importante en las aplicaciones,
principalmente en inferencia estadstica algunas de las cuales citaremos
posteriormente; la funcin de distribucin F(x) estn preparadas en tablas, para
valores seleccionados de r y
2
x . Por lo tanto se puede encontrar en la tabla, la
probabilidad que la variable aleatoria X que tiene una distribucin ) 30 1 (
2
s s r x
r
sea menor o igual a un valor constante
2
o
x , representado por:
| | 1 0 .
2
< < = < o o
o
X X P
Obsrvese, puesto que existe una distribucin chi cuadrado diferente para cada
valor de r, resulta imprctico proporcionar tablas de reas completas. En lugar de
esto, la tabla representa un resumen de la informacin ms escanciar a cerca de
la distribucin.
Note que la columna de la izquierda de esta tabla tiene como encabezado grados
de libertad. Cada fila en la tabla contiene informacin sobre la distribucin chi
cuadrado correspondiente a los grados de libertad indicados, r. Es decir, cada fila
de esta tabla corresponde a una distribucin chi cuadrado particular.
Por ejemplo, si r=5, 61 . 1
2
0
= x , por lo tanto:
| | | | 10 . 0 61 . 1
2
10 . 0
= s = s x P x x P
PRUEBAS DE BONDAD DE AJUSTE
Las pruebas que se han discutido hasta ahora se aplican en problemas donde se
asume o se conoce la distribucin de la variable aleatoria y la hiptesis se refieren
a los parmetros de la distribucin. Existe, sin embargo, otra clase de problemas
en los que se desea verificar si el conjunto de datos de que se dispone proviene
de una distribucin de probabilidad particular o especifica. A este tipo de pruebas
se les llama pruebas de bondad de ajuste, y se caracterizan por ser aplicables a
datos de nivel nominal (sus frecuencias) y por emplear la distribucin X
2
; un
aspecto distinto ms es que son fciles de plantear, ya que las hiptesis siguen
casi siempre el mismo modelo estadstico.
Las pruebas de bondad de ajuste responden a una pregunta (de investigacin)
genrica:
El conjunto de datos de que se dispone proviene de una poblacin con una
distribucin de probabilidad especificada?
El modelo estadstico correspondiente a esta pregunta, planteada en trminos de
frecuencias, queda, de manera general, como sigue:
La hiptesis nula se refiere a que las diferencias (propias de cualquier
experimento) son atribuirles al azar, exclusivamente. Su aceptacin significa que
la poblacin en estudio de la distribucin especificada.
Modelos estadstico general para las pruebas de bondad de ajuste
H
0
: No hay diferencia entre el conjunto de frecuencias observadas (obtenidas a partir de
una muestra aleatoria) y el conjunto de frecuencias esperadas (obtenidas tericamente con
base en una distribucin especificada).
H
1
: Hay diferencia entre el conjunto de frecuencias observadas (obtenidas tericamente a
partir de una muestra aleatoria) y el conjunto de frecuencias esperadas (obtenidas
tericamente con base en una distribucin especificada)
La hiptesis alterna, en cambio, indica que las diferencia son estadsticamente
significativas y, por lo tanto, debidas a otros factores. El rechazo de la hiptesis
nula significa que la distribucin de la poblacin no sigue la distribucin
especificada.
La toma de la muestra y su distribucin en frecuencias para las pruebas de esta y
la siguiente seccin, debern seguir los lineamientos del experimento multinomial
descrito en seguida. Obsrvese que trata de una generalizacin de la distribucin
binomial.
Una vez que se tiene la distribucin de frecuencias ( distribucin multinomial), se
contrastan los valores observados con los valores esperados, y si las diferencias,
de acuerdo con el estadstico de prueba X
2
, son pequeas, se puede considerar
que la poblacin de donde proviene la muestra tiene la distribucin especificada;
en caso contrario, se rechazara la hiptesis nula.
El estadstico de prueba se designa con la letra griega X (se pronuncia ji) elevada
al cuadrado, por lo que a esta prueba suele llamrsela prueba de ji cuadrada: X
2
.
Experimento multinomial
- Consta de n ensayos independientes e idnticos
- El resultado de cada ensayos cae en una de k categora posibles, k 2
- Hay una probabilidad asociada a cada categora, constante de un ensayo a otro
- Las categoras son mutuamente excluyentes y exhaustivas (el resultado de cada
ensayo pertenece a una y solo una categora).
En las pruebas de bondad y ajuste y de independencia:
- Las frecuencias resultantes del experimento para cada categora suelen llamarse
frecuencias observadas y denotarse como O
i
, para i=1,2,., k.
- Las frecuencias para cada categora, de acuerdo con un modelo particular, suelen
llamarse frecuencias esperadas y denotarse como E
i
, para i=1,2,, k.
Se define como:
Donde k es el nmero de categoras empleadas, y O
i
y E
i
son las frecuencias
observada y esperada, respectivamente, en la categora i.
Debido a que se manejan los cuadrados de las diferencias de frecuencias, la
distribucin X
2
toma solo valores positivos. La grafica de la distribucin X
2
es
sesgada a la derecha y, al igual que la distribucin t de Student, es una familia de
curvas cuya forma y valores depende de los grados de libertad (gl) cuyo clculo
responde a la expresin:
gl= k- q 1
Donde q es el nmero de parmetros poblacionales que se estiman.
Conforme los grados de libertad aumentan, la grfica de la distribucin tiene a
verse como una distribucin acampanada; no olvidar, sin embargo, que solo toma
valores positivos.
Los encabezados de las filas corresponden a los grados de libertad, y los
encabezados de las columnas, a las reas de la cola derecha de la distribucin.
Por ejemplo de acuerdo con la tabla, si se tiene 4 grados de libertad y el rea de la
cola derecha es 0.050, el valor crtico es X
2
= 9.49. Si tiene 6 grados de libertad y
el area de la cola derecha es 0.050, el valor critic es X
2
= 12.59
Frecuencias esperadas pequeas
La prueba de bondad de ajuste puede utilizarse tambin cuando el nmero de
categoras k es igual a 2 (gl=1). Deber, sin embargo, cuidarse que a frecuencia
esperada E de cada una de las dos categoras sea por lo menos 5. Cumplido este
requisito podr aplicarse la expresin con una correccin denominada correccin
por continuidad.
Si k > 2, podra aceptarse que hasta 20% de las E, sean por lo menos 5. En caso
contrario, puede intentarse combinar categoras adyacentes para formar una sola
categora con una frecuencia esperada mayor. Esto es recomendable solamente si
las combinaciones resultantes tiene sentido. Por ejemplo, una muestra de
personas se clasifica de acuerdo con su respuesta a una declaracin de opinin
DISTRIBUCION X
2
PARA DIFERENTES GRADOS DE LIBERTAD
como apoyo total, apoyo, indiferente, oposicin una oposicin total. Con el fin de
aumentar las frecuencia, podran combinarse las categoras apoyo total y apoyo,
pero no oposicin y apoyo
Si se tiene dos categoras y una frecuencia esperada menor que 5, o si despus
de combinar las categoras adyacentes se termina con dos categoras y una de
ellas aun es menor que 5, puede acudirse a la distribucin binomial
Test Chi Cuadrado Aplicado en los Contrastes de Significacin:
La Distribucin Chi Cuadrado, al igual que ocurre con cualquier otra distribucin
de la probabilidad, simplemente suministra un modelo ideal sobre la manera
como probablemente debera ocurrir la variable X segn un determinado Grado
de Libertad o de independencia que se le puede atribuir a esa variable aleatoria
frente a otras variables similares dentro de un mismo conjunto de datos. El
denominado Test Chi Cuadrado toma como referente y fundamento los valores
de probabilidad que establece la Distribucin Chi Cuadrado, y a partir de esos
valores ideales permite calcular qu tan marcadas o qu tan relevantes son las
diferencias existentes entre los resultados tericos que proporciona ese modelo
de probabilidad y los resultados empricos observados en la realizacin de un
determinado experimento, teniendo en cuenta el Grado de Libertad atribuible a
las variables que conforman ambos conjuntos de datos.
Para poder aplicar el Test Chi-Cuadrado es necesario en primer lugar tener de
antemano seleccionado un modelo ideal sobre los resultados
tericosesperados que debera arrojar un determinado experimento
aleatorio, modelo que sirve como referente para establecer cul debera ser el
comportamiento perfecto esperado en la aparicin de los resultados de ese
experimento aleatorio cuando no se encuentra sometido a interferencias
desconocidas o incontrolables. En segundo lugar, es necesario tener una
muestra estadstica conformada por una serie de resultados observados
que hayan ocurrido en el mundo real y que hayan sido producidos por un
experimento aleatorio analizado. Usando estos dos grupos de datos el Test Chi
Cuadrado permite realizar un Contraste de Significacin mediante el cual
con cierto grado de certeza matemtica el cientfico puede concluir que los
resultados aleatorios observados s responden o no responden a las
expectativas tericas esperadas.
A continuacin se mencionan los pasos bsicos que se deben aplicar para
lograr un Contraste de Significacin utilizando el Test ChiCuadrado.
a) En primer lugar, respecto de la ocurrencia de una serie numerable de
eventos (E) que pueden ser producidos por un experimento aleatorio, resulta
conveniente organizar los resultados tericos esperados (e) frente a los
resultados observados (o) del experimento, incluyendo ambos dentro de una
tabla de contraste como la siguiente:
b) En segundo lugar, una vez que se ha establecido que para una determinada
cantidad de eventos que produce el experimento aleatorio existe una misma
cantidad de resultados esperados y una misma cantidad de resultados
observados que pueden ser contrastados, entonces se procede a aplicar el
Test Chi-Cuadrado con el propsito de llegar a un Valor Chi (
2
), el cual en
ltimas expresa el valor X que le corresponde al contraste existente entre los
dos grupos de datos, valor X que luego debe ser incluido y analizado dentro de
los valores ideales propuestos por la Distribucin Chi Cuadrado. En tal caso el
Test Chi Cuadrado consiste en elevar al cuadrado las diferencias existentes
entre los resultados esperados (e) y los resultados observados (o), y luego el
valor obtenido en cada caso es dividido por el correspondiente resultado
esperado, y al final se suman todos los valores as obtenidos para llegar al
Eventos que produce el
experimento:
E
1
E
2
E
3
E
n
Resultados tericos
Esperados:
e
1
e
2
e
3
e
n
Resultados reales
Observados:
o
1
o
2
o
3
o
n
Valor Chi de todos los datos analizados. Estas sencillas operaciones
matemticas se resumen en la siguiente frmula:
2
=
(o
1
e
1
)
2
+
(o
2
e
2
)
2
+
(o
3
e
3
)
2
+ +
(o
n
e
n
)
2
e
1
e
2
e
3
e
n
c) Finalmente, la anterior frmula matemtica siempre debe arrojar un
determinado valor positivo ubicado entre cero (0) y el infinito (), valor que es
denominado como Valor Chi (
2
), el cual equivale a uno cualquiera de los
infinitos valores que podra asumir una variable X sobre el eje horizontal de
coordenadas de la grfica que representa la Distribucin Chi Cuadrado. Ese
Valor Chi por s slo no permite concluir si existe o no una diferencia
relevante o significativa entre los resultados observados y los resultados
tericos esperados, y por consiguiente eso nicamente se puede saber al tener
en cuenta cul es el Grado de Libertad de los resultados que fueron
analizados, y con fundamento en esa informacin se puede establecer si al
Valor Chi obtenido le corresponde o no un porcentaje de probabilidad de
ocurrencia relevante dentro del Grado de Libertad antes mencionado.
Valores Crticos y Lmites de Confianza en la aplicacin del Test Chi
Cuadrado:
Ahora bien, para establecer si es o no relevante y significativo el porcentaje de
probabilidad que le corresponde a un Valor Chi dentro de un determinado
Grado de Libertad segn el modelo de la Distribucin Chi Cuadrado, los
matemticos han propuesto la aplicacin de los denominados Lmites o
Niveles de Confianza.
Un Lmite de Confianza simplemente establece unos Valores Crticos de
probabilidad a partir de los cuales se considera que es relevante o irrelevante
la diferencia existente entre unos resultados observados y unos resultados
tericos esperados. Si al comparar una muestra de resultados observados en
un experimento frente a unos resultados tericos esperados ocurre que ambos
coinciden plenamente, entonces se puede afirmar que la probabilidad de
coincidencia entre ambos grupos de datos tiene un valor de 1 (equivalente a
Muy Probable), es decir, hay un cien por ciento (100%) de coincidencia entre
ambos grupos de datos. En cambio, si al efectuar esta comparacin se
constata que existen grandes discrepancias entre los resultados observados y
los resultados tericos esperados, entonces la probabilidad de coincidencia
entre ambos datos debe comenzar a alejarse por defecto del mximo valor que
es 1 (Muy Probable) y puede llegar eventualmente a descender hasta cero
(equivalente a Improbable), dependiendo de qu tan grande sea la
discrepancia existente, es decir, paulatinamente se vuelve improbable la
coincidencia entre los dos grupos de datos analizados. En consecuencia,
para determinar si son relevantes o no las discrepancias existentes entre los
resultados observados y los resultados tericos, el asunto se resuelve
estableciendo qu tanto alejamiento entre el porcentaje de probabilidad de una
serie de datos y el mximo valor de la probabilidad representado por 1 puede
tolerar la comunidad cientfica.
Al respecto hay que sealar que la comunidad cientfica generalmente
admite dos Lmites de Confianza en cuanto al porcentaje de probabilidad
aplicable a los Contrastes de Significacin entre dos grupos de datos. As,
habitualmente se admiten como Niveles de Confianza los valores de
probabilidad 0,01 y 0,05 respecto del mximo valor de la probabilidad (1 = Muy
Probable), es decir, si en la conocida escala de la probabilidad que va desde 0
(Improbable) hasta 1 (Muy Probable) se observa que el 1 representa el 100%
de probabilidad de coincidencia entre los dos datos y el 0 representa el 0% de
probabilidad de coincidencia entre los dos datos, entonces respecto de esos
valores la comunidad cientfica est dispuesta a admitir que dos grupos de
resultados contrastados que slo tengan hasta un 0,01 o hasta un 0,05 de
probabilidad de coincidencia revelan que existe un alejamiento significativo
respecto de las expectativas sealadas por el modelo terico. En otras
palabras, si al aplicar el Test Chi Cuadrado se obtiene un Valor Chi (
2
) al que
segn el respectivo Grado de Libertad le corresponde una probabilidad inferior
o igual a 0,01, eso equivale a que los resultados esperados y los resultados
observados que fueron evaluados por el test slo tienen un 1% de probabilidad
de coincidencia (0,01100 = 1%), es decir, en sentido contrario se tiene la
confianza de que al menos existe un 99% de probabilidad de no coincidencia
entre los resultados analizados, y eso es suficiente para declarar que la
diferencia es realmente significativa.
Por supuesto, se puede tomar como referente el segundo Lmite de Confianza
equivalente a 0,05 que es ms drstico que el anterior, y si al aplicar el Test
Chi Cuadrado se obtiene un Valor Chi (
2
) al que segn el respectivo Grado de
Libertad le corresponde una probabilidad inferior o igual a 0,05, eso equivale a
que los resultados esperados y los resultados observados que fueron
evaluados por el test slo tienen un 5% de probabilidad de coincidencia
(0,05100 = 5%), es decir, en sentido contrario se tiene la confianza de que al
menos existe un 95% de probabilidad de no coincidencia entre los resultados
analizados, y eso sera suficiente para declarar que la diferencia es
significativa y que por tanto los resultados observados ya no responden a los
expectativas del modelo terico.
Como al aplicar el Test Ji Cuadrado es habitual que los cientficos hablen de
trabajar con un Nivel de Confianza del 95% o del 99%, que se corresponden
con los valores de probabilidad de coincidencia de 0,05 y 0,01
respectivamente, y como tales porcentajes de probabilidad deben ser
calculados para todos los posibles Valores Chi teniendo en cuenta todos los
posibles Grados de Libertad que son aplicables, entonces tradicionalmente
para facilitar la labor de clculo se han elaborado tablas de referencia en las
que se incluyen los principales Valores Crticos y los Grados de Libertad a
partir de los cuales la probabilidad de coincidencia entre los resultados
observados y los resultados esperados se torna inferior a 0,05 o inferior a 0,01.
Actualmente el lector puede utilizar esas tablas de referencia de los Lmites de
Confianza que fcilmente se pueden conseguir en la Web o puede utilizar la
til funcin PRUEBA.CHI de la hoja de clculo Excel que directamente le
suministra el valor de la probabilidad de coincidencia entre los resultados
esperados y los resultados observados, tal como se explica ms adelante.
Aplicacin del Test Chi Cuadrado a los resultados de un Experimento
Cientfico:
Teniendo en cuenta la anterior informacin, es muy fcil calcular el Valor Chi
para el contraste entre dos series de resultados (los observados y los
esperados).
Por ejemplo, supongamos que una fbrica de productos lcteos va a lanzar al
mercado 10 tipos diferentes de yogurt de distinto sabor (manzana, mora,
melocotn, pia, frambuesa, durazno, mandarina, limn, banana y cereza), y
segn las expectativas calculadas mediante un modelo terico ideal que se
basa en el anlisis de los conservantes y de la composicin qumica de los 10
yogures, se concluye que stos sometidos a un buen estado de refrigeracin
deberan durar hasta 20 das sin descomponerse. La fbrica realiza diferentes
pruebas antes de lanzar el novedoso producto al mercado, con el propsito de
evaluar si los conservantes y los componentes qumicos usados durante la
produccin del yogurt se ajustan al modelo terico ideal y permiten que el
producto final dure sin descomponerse hasta 20 das sometido a buen estado
de refrigeracin. As, se obtiene una primera muestra de los 10 diferentes
yogures que son colocados inmediatamente en refrigeracin, y se descubre
que estos 10 tipos de yogures entraron en descomposicin despus de
transcurridos los siguientes das: 20, 19, 20, 20, 20, 20, 20, 20, 21 y 20. En
este caso el contraste entre los resultados ideales esperados y los resultados
observados respecto de la duracin de los yogures sometidos a refrigeracin
se puede expresar en una tabla como la siguiente:
Para aplicar el Test Chi Cuadrado a estos resultados y obtener su Valor Chi
(
2
) respectivo, se procede a desarrollar la siguiente frmula en la cual las
diferencias entre los valores observados (o) y los valores ideales esperados (e)
son elevadas al cuadrado y luego divididas por el valor de los resultados
esperados (e), para luego sumar todos los valores as obtenidos:
2
=
(o
1
e
1
)
2
+
(o
2
e
2
)
2
+
(o
3
e
3
)
2
+ +
(o
n
e
n
)
2
e
1
e
2
e
3
e
n
2
=
(20
20)
2
+
(19 20)
2
+
(20
20)
2
+
(20
20)
2
+
(20
20)
2
20 20 20 20 20
Tipo de
yogur:
Manzana Mora Melocotn Pia Frambuesa Mandarina Limn Cereza
Das que
dur
(resultados
reales
Observados):
20 19 20 20 20 20 20 21
Das que
debera
durar
(resultados
ideales
Esperados):
20 20 20 20 20 20 20 20
+
(20
20)
2
+
(20 20)
2
+
(20
20)
2
+
(21
20)
2
+
(20
20)
2
20 20 20 20 20
2
=
0
2
+
1
2
+
0
2
+
0
2
+
0
2
+
0
2
+
0
2
+
0
2
+
1
2
+
0
2
20 20 20 20 20 20 20 20 20 20
2
=
0
+
1
+
0
+
0
+
0
+
0
+
0
+
0
+
1
+
0
20 20 20 20 20 20 20 20 20 20
2
= 0 + 0,05 + 0 + 0 + 0 + 0 + 0 + 0 + 0.05 + 0
2
= 0,1
En este caso el Valor Chi obtenido para los dos tipos de resultados que fueron
contrastados es:
2
= 0,1. Este Valor Chi por s slo no dice nada en cuanto a
si existe o no una diferencia significativa entre los dos tipos de resultados
analizados, y por tanto eso slo se puede saber al tomar como referente un
Nivel de Confianza 0,05 o un Nivel de Confianza 0,01, teniendo en cuenta los
Grados de Libertad aplicables a los resultados que fueron analizados. As,
tenemos que tanto los resultados observados (o) como los resultados ideales
esperados (e) estn conformados por un conjunto de 10 datos independientes
entre s, y por tanto el respectivo Grado de Libertad segn la frmula aplicable
(G.L. = k1) es igual a: G.L. = 101 = 9. Al consultar la tabla de los valores
crticos para los Lmites de Confianza, se observa que para un Nivel de
Confianza 0,05 con 9 grados de libertad el valor crtico que podra asumir X es
de 16,92. Como el Valor Chi obtenido sobre la muestra de los 10 yogures fue
de 0,1, entonces es claro que ese valor es bastante menor que 16,92 (0,1 <
16,92), y esto indica que los resultados observados tienen ms de un 5% de
probabilidad de coincidencia respecto de los resultados esperados, es decir, la
diferencia existente entre los resultados observados y los resultados ideales no
es significativa o relevante, y por tanto se puede concluir que los resultados
observados en la muestra de los 10 yogures demuestran que la
descomposicin de esos yogures se sigue produciendo dentro de los
parmetros ideales previstos por el modelo terico.
Supongamos que al da siguiente por algn motivo se realiz un ajuste en el
proceso productivo de la fbrica de productos lcteos, y como resultado se
obtuvo una segunda muestra de los 10 yogures de diferente sabor producidos
ese da, que al ser refrigerados entraron en descomposicin a los siguientes
das: 26, 14, 15, 25, 15, 26, 25, 14, 26 y 12. En este caso el contraste entre los
resultados ideales esperados y los resultados observados respecto de la
duracin de esta segunda muestra de yogures sometidos a refrigeracin se
puede expresar en una tabla como la siguiente:
Tipo de
yogur:
Manzana Mora Melocotn Pia Frambuesa Mandarina Limn Cereza
Das que
dur
(resultados
reales
Observados):
26 14 15 25 15 26 25 26
Das que
debera
durar
(resultados
ideales
Esperados):
20 20 20 20 20 20 20 20
Claramente a simple vista se ven grandes fluctuaciones entre los resultados
ideales esperados (e) y los resultados observados (o) en las muestras
empricas de los yogures, pero para calcular con exactitud matemtica si esas
diferencias son significativas es necesario aplicar la frmula ya comentada:
2
=
(o
1
e
1
)
2
+
(o
2
e
2
)
2
+
(o
3
e
3
)
2
+ +
(o
n
e
n
)
2
e
1
e
2
e
3
e
n
2
=
(26
20)
2
+
(14 20)
2
+
(15
20)
2
+
(25
20)
2
+
(15
20)
2
20 20 20 20 20
+
(26
20)
2
+
(25 20)
2
+
(14
20)
2
+
(26
20)
2
+
(12
20)
2
20 20 20 20 20
2
=
6
2
+
6
2
+
5
2
+
5
2
+
5
2
+
6
2
+
5
2
+
6
2
+
6
2
+
8
2
20 20 20 20 20 20 20 20 20 20
2
=
36
+
36
+
25
+
25
+
25
+
36
+
25
+
36
+
36
+
64
20 20 20 20 20 20 20 20 20 20
2
= 1,8 + 1,8 + 1,25 + 1,25 + 1,25 + 1,8 + 1,25 + 1,8 + 1,8 + 3,2
2
= 17,2
Para esta segunda muestra de los resultados de los yogures contrastada frente
a los resultados del modelo terico el Valor Chi fue de:
2
= 17,2. Teniendo en
cuenta que para 9 Grados de Libertad dentro de un Nivel de Confianza del
0,05 el valor lmite crtico es de 16,92, entonces es evidente que en este caso
el Valor Chi obtenido es superior a ese valor crtico (17,2 > 16,92), y esto
indica que los resultados observados en la segunda muestra de yogures tienen
menos de un 5% de probabilidad de coincidencia respecto de los resultados
tericos esperados, es decir, en este caso la diferencia existente es
significativa dentro de un Nivel de Confianza del 0,05 y se puede concluir que
los resultados observados demuestran que la descomposicin de los yogures
de esa segunda muestra ya no se est produciendo dentro de los parmetros
ideales previstos por el modelo terico.
En la anterior grfica se observa claramente que el valor 16,92, representado
por la lnea recta de color lila, es el Valor Crtico que intercepta con la lnea roja
curva representativa de 9 Grados de Libertad justo en el comienzo del lmite
establecido por el valor de probabilidad 0,05 que corresponde al Nivel de
Confianza del 5% de coincidencia. En cambio, el valor 17,2, representado por
la lnea recta de color azul, intercepta con la lnea roja curva representativa de
9 Grados de Libertad justo dentro del rea sombreada de color verde que
corresponde a valores de probabilidad inferiores al Nivel de Confianza del 0,05
de coincidencia, y esto indica que existe menos de un 5% de probabilidad de
coincidencia entre los resultados observados y los resultados ideales
esperados que fueron analizados.En otras palabras, en el ejemplo comentado
es evidente que el Valor Chi de la primera muestra de yogures analizada es de
0,1 y eso equivale a que es inferior al Valor Crtico 16,92 para 9 Grados de
Libertad, lo que obviamente significa que hay mucho ms de 5% de
coincidencia entre los resultados observados de esa muestra y los resultados
ideales esperados. En cambio, el Valor Chi de la segunda muestra de yogures
analizada es de 17,2 y eso equivale a que es superior al Valor Crtico 16,92
para 9 Grados de Libertad, lo que significa que hay menos de 5% de
coincidencia entre los resultados observados de esa segunda muestra y los
resultados tericos esperados.
6) EJEMPLOS PLANTEADOS:
1) Una compaa deseaba saber si sus obreros, sus empleados de
oficina, sus empleadores de ventas y sus otros empleados se
diferenciaban en cuanto as u opinin, a cerca de su conveniencia de
ser empleado en la compaa. Se tom una muestra aleatoria de
personas de cada uno de los cuatro grupos y a cada uno se le solicita
que diera su opinin sobre la compaa como lugar de trabajo, en
comparacin con otras compaas que le fueran familiares.
OPINION OBREROS EMPLEADOS
OFICINA
VENDEDORES OTROS
EMPLEADOS
POR
ENCIMA
DEL
PROMEDIO
68 45 70 60
POR
DEBAJO
DEL
PROMEDIO
57 30 30 15
Proporcionan estos datos suficiente evidencia como para indicar una
falta de homogeneidad entre los cuatro grupos respecto de su opinin
acerca de la convencin de ser empleado de la compaa?
2) El nmero de reclamos recibidos en cinco establecimientos, por
concepto de mercanca defectuosa en cierto mes del ao es la
siguiente:
ESTABLECIMIENTO
A B C D E TOTAL
RECLAMOS
50 65 72 47 52 286
Con un nivel del 5% Podemos afirmar que el nmero de reclamos que
recibe cada establecimiento es aproximadamente el mnimo?
3) El nmero de activacin de computadores vendidos en una tienda
presentan la siguiente distribucin:
NDE
COMPUTADORAS
0 1 2 3
NDE DIAS 1 16 55 228
Probar en el nivel del 5% si se puede considerar como valores de una
variable aleatoria binomial.
7) CONCLUSIONES:
- La Chi-cuadrado permite al investigador comprobar una hiptesis acerca
de una relacin entre dos medidas nominales.
- La lgica 2 es la siguiente:el nmero total de observaciones en cada
columna (puede ser de tratamiento o control) y el nmero total de
observaciones en cada rengln (positivo o negativo) son considerados
dados o fijados y se conoce como frecuencia marginal.
- Si nosotros asumimos que columnas y renglones son independientes,
podemos calcular el nmero de observaciones esperadas que ocurran al
azar y se conoce como frecuencia esperada. Este tipo de estadstica
compara la frecuencia observada y la esperada de cada celda despus de
multiplicar columnas y renglones para encontrar si existe o no una
relacin.
- La Chi-cuadrado es recomendable para distribuciones discretas o
continuas cuando existe gran cantidad de datos por tanto se recomienda
trabajar con datos agrupados.
Bibliografa
http://www.cm.colpos.mx/2010/images/tesis/tesis_de_vicentefernandez.pdf
http://www.gastrocancerprev.com.mx/Documentos/MetodoINV/1%20_6_.pdf
http://www.slideshare.net/mgarcianaranjo/pruebas-de-bondad-de-ajuste-vfinal