Você está na página 1de 9

Pruebas de bondad de ajuste

En la construccin del modelo de simulacin es importante decidir si un conjunto de


datos se ajusta apropiadamente a una distribucin especfica de probabilidad. Al
probar la bondad del ajuste de un conjunto de datos, se comparan las frecuencias
observadas FO realmente en cada categora o intervalo de clase con las frecuencias
esperadas tericamente FE.

Prueba Ji cuadrada
La prueba Ji cuadrada hace uso de la distribucin del mismo nombre para probar la
bondad del ajuste al comparar el estadstico de prueba Xo2 con el valor en tablas de la
mencionada distribucin Ji cuadrada con v grados de libertad y un nivel de
significancia alfa. En la siguiente seccin aplicaremos esta prueba para probar la
hiptesis nula de que los nmeros aleatorios (provenientes de un generador) se
ajustan a la distribucin terica uniforme continua.
Sea X una variable aleatoria discreta con valores x1, x2,......., xn Se propone la
hiptesis nula H0, de que la distribucin de donde proviene la muestra se comporta
segn un modelo terico especfico tal como la uniforme, la exponencial, la normal,
etc. Entonces FOi, representa el nmero de veces que ocurre el valor xi mientras
que FEi, es la frecuencia esperada proporcionada por el modelo terico propuesto. A
menudo ocurre que muchas de las frecuencias FEi, (y tambin las FOi) son muy
pequeas, entonces, como regla prctica adoptamos el criterio de agrupar los valores
consecutivos de estas frecuencias esperadas hasta que su suma sea de al menos
cinco. La medida estadstica de prueba para la hiptesis nula es

Para n grande este estadstico de prueba tiene una distribucin X2 aproximada


con V grados de libertad dados por
V = (k 1) (nmero de parmetros estimados)
As, si se estiman dos parmetros como la media y la varianza, la medida estadstica
tendr (k 3) grados de libertad.
Se puede aplicar esta prueba a variables continuas agrupando adecuadamente los
valores en un nmero adecuado de subintervalos o clases k. Una regla emprica para
seleccionar el nmero de clases es:

EJEMPLO. La siguiente muestra de tamao 50 ha sido obtenida de una poblacin que


registra la vida til (en unidades de tiempo) de bateras alcalinas tipo AAA. Prubese la
hiptesis nula de que la variable aleatoria vida til de las bateras sigue una
distribucin exponencial negativa. Considrese un nivel de significancia alpha de 5%.

8.223 0.836 2.634 4.778 0.406 0.517 2.330 2.563 0.511 6.426
2.230 3.810 1.624 1.507 2.343 1.458 0.774 0.023 0.225 3.214
2.920 0.968 0.333 4.025 0.538 0.234 3.323 3.334 2.325 7.514
0.761 4.490 1.514 1.064 5.088 1.401 0.294 3.491 2.921 0.334
1.064 0.186 2.782 3.246 5.587 0.685 1.725 1.267 1.702 1.849

SOLUCIN. Calculamos los valores min = 0.023 y max = 8.223. Resultando ser el
rango o recorrido igual a 8.2. El valor promedio es de 2.3. A continuacin ordenamos
los valores de manera ascendente y construimos el histograma de frecuencias
relativas con seis clases cada una de longitud 1.5. (Esto es debido a que 8.2 / 6 = 1.3)
k

Clase

FO
FO
absoluta relativa

0.0 - 1.15

21

0.42

1.15 - 3.0

15

0.30

3.0 - 4.5

0.16

4.5 - 6.0

0.06

6.0 - 7.5

0.02

7.5 - 9.0

0.04

Re agrupamos las clases de modo que la FO sea de al menos 5


k

Clase

FO absoluta

FO relativa

0.0 - 1.15

21

0.42

1.15 - 3.0

15

0.30

3.0 - 4.5

0.16

4.5 - 9.0

0.12

Como nuestra hiptesis nula es que los datos se ajustan a la funcin de probabilidad
exponencial negativa, emplearemos tal funcin para calcular mediante integracin el
porcentaje de probabilidad esperado para cada subintervalo. Ya vimos que el valor
promedio es de 2.3, sin embargo para fines prcticos lo consideraremos como 2.0. El
clculo de la integral para la primera clase es:

k Clase

FO relativa

FE terica

(FO-FE)2FE

1 0.0 - 1.5

0.42

0.528

0.022

2 1.5 - 3.0

0.30

0.249

0.010

3 3.0 - 4.5

0.16

0.118

0.015

4 4.5 - 9.0

0.12

0.105

0.002

Entonces se tiene el valor

Ahora compararemos este valor calculado contra el valor tabulado de la distribucin Ji


cuadrada con un nivel de significancia alpha de 5% y el nmero de grados de
libertad
V = (k 1) 1 = (4 1) 1 = 2. (Obsrvese que se estim el parmetro promedio?).
Entonces

Como vemos el valor calculado es menor que el valor tabulado, por tanto la conclusin
es que no se puede rechazar la hiptesis nula de que la muestra proviene de una
distribucin exponencial con media 2.0.

Prueba de datos categricos


El anlisis de datos categricos se ocupa del estudio de variables que no son
medibles (color, nacionalidad, enfermedades, sexo, afiliacin poltica, etc.),
denominadas tambin atributos o caracteres cualitativos. Podemos distinguir
entre datos en escala nominal (sexo, estado civil, distintas ramas de actividad
econmica, profesin, ideologa poltica,...) y datos en escala ordinal (nivel de
estudios, estratificacin de familias por su capacidad de consumo, nivel de
autoestima,..), cuando podemos establecer un determinado orden o rango
entre las observaciones.
En estos casos no tiene sentido el empleo de promedios, tales como la media
aritmtica. Cuando las observaciones se nos ofrecen en una escala nominal,
solo la moda puede utilizarse como medida resumen; y si estas responden a
una escala ordinal, podra determinarse, adems del valor modal, tambin la
mediana.
Una cuestin ms interesante es el estudio de la existencia o no de asociacin
entre dos atributos, y de medidas similares a las de correlacin para los casos
en que variables no numricas estn relacionadas entre s.

Para atributos en escala nominal estableceremos los llamados coeficientes de


contingencia. Cuando los caracteres estudiados pueden ordenarse de acuerdo
con una cierta escala, es posible definir unos coeficientes de correlacin que
midan el grado de asociacin entre ellos de manera parecida a como se mide
la asociacin entre variables cuantitativas. Estos coeficientes estn basados en
los rangos u rdenes de las observaciones.

Pruebas de independencia
El objetivo es verificar si existe una dependencia entre las variables cualitativas
que definen filas y columnas, es decir, si para todo i = 1, ..., k y j = 1, .., m se
verifica que la probabilidad del resultado correspondiente a la
combinacin Ai Bj es el producto de las probabilidades marginales
correspondientes. P(Ai) es la probabilidad del resultado i para la variable fila
y P(Bj) la del resultado j para la variable columna.
P(Ai Bj) = P(Ai) P(Bj)
Utilizaremos generalmente la notacin ms simplificada:
P(Ai Bj) = pij
P(Ai) = pi
P(Bj) = pj
Los valores de pi y pj se estimarn, a partir de los valores observados en la
tabla de contingencia, por ni/N y nj/N respectivamente.
Hiptesis nula de independencia: para toda combinacin de resultados de las
variables fila y columna (i, j).
H0: pij = pi pj

para todo

i = 1, ..., k

j = 1, .., m

La hiptesis alternativa, que implica dependencia, se puede formular diciendo


que alguna de las igualdades de la hiptesis nula es falsa.
Los valores observados son nij. Los valores esperados bajo la hiptesis nula de
independencia se calculan de la manera siguiente:
eij = N pij = N pi pj = N (ni/N ) (nj/N ) = (ni nj )/N
El estadstico de contraste se calcula de la manera habitual:

Los valores de pi y pj se estimarn, a partir de los valores observados en la


tabla de contingencia, por ni/N y nj/N respectivamente.
Hiptesis nula de independencia: para toda combinacin de resultados de las
variables fila y columna (i, j).
H0: pij = pi pj

para todo

i = 1, ..., k

j = 1, .., m

La hiptesis alternativa, que implica dependencia, se puede formular diciendo


que alguna de las igualdades de la hiptesis nula es falsa.
Los valores observados son nij. Los valores esperados bajo la hiptesis nula de
independencia se calculan de la manera siguiente:
eij = N pij = N pi pj = N (ni/N ) (nj/N ) = (ni nj )/N
El estadstico de contraste se calcula de la manera habitual:

La distribucin asinttica bajo la hiptesis nula es una 2 con (k 1) (m 1)


grados de libertad. Los grados de libertad pueden entenderse, de manera
intuitiva, entendiendo que el nmero de parmetros que se estiman son (k 1)
y (m 1), ya que queda fijada la probabilidad de la ltima clase de cada
caracterstica una vez estimadas las restantes. Por tanto, aplicando la frmula
para los grados de libertad se obtiene:
grados de libertad = nmero de clases nmero de parmetros estimados 1
grados de libertad = k m (k 1) (m 1) 1 = (k 1) (m 1)
El criterio de decisin es el mismo que en el caso general:
Rechazamos la hiptesis nula si

Donde el ltimo trmino es el valor crtico asociado con una distribucin 2,


con (k 1) (m 1) grados de libertad, tal que deja a su derecha una
probabilidad igual a .
La condicin de validez es que las frecuencias esperadas eij sean mayores que
5.

Pruebas de homogeneidad
El objetivo es comprobar si en k poblaciones (A1, ..., Ak), es idntica la
distribucin de probabilidad de una variable cualitativa con m posibles
resultados (B1, ..., Bm). Es decir, si se verifica que
P(Bj/A1) = P(Bj/A2) = ... = P(Bj/Ak) = P(Bj)

per a tot j = 1, ..., m

La diferencia respecto del caso de independencia es que los totales de las


filas ni son valores fijos y no aleatorios y corresponden al nmero de individuos
seleccionados en la muestra que pertenencen a la poblacin i. La estimacin
de los valores P(Bj) bajo la hiptesis de homogeneidad se obtiene a partir de la
tabla de contingencia a travs de nj/N.

Hiptesis nula de homogeneidad: dadas dos poblaciones cualesquiera i y i se


verifica que
H0: pij = pij

para todo j = 1, ..., m

Donde pij es la probabilidad del resultado j en la poblacin i.


La hiptesis alternativa (alguna igualdad no es cierta) implica la nohomogeneidad de las poblaciones.
Los valores observados son nij. Los valores esperados bajo la hiptesis nula de
homogeneidad se calculan de la manera siguiente:
eij = ni P(Bj) = ni (nj/N) = (ni nj)/N
Este resultado es idntico al obtenido en el caso del contraste de
independencia.
El estadstico de contraste se calcula de manera anloga:

La distribucin asinttica bajo la hiptesis nula es una 2 con (k 1)


(m 1) grados de libertad. Los grados de libertad pueden entenderse de
manera intuitiva entendiendo que el nmero de parmetros que se estiman son
(m 1), ya que queda fijada la probabilidad de la ltima clase Bj una vez
estimadas las restantes y al considerar que existen k restricciones de los
valores esperados debido a que tenemos fijados los totales de cada poblacin.
Por tanto, aplicando la frmula para los grados de libertad, se obtiene:
Grados de libertad = nmero de clases nmero de parmetros
estimados nmero de restricciones
Grados de libertad = (k m) (m 1) k = (k 1) (m 1)
El criterio de decisin es el mismo que en el contraste de independencia.
La condicin de validez es que las frecuencias esperadas eij sean mayores que
5.

Prueba de proporciones
Las pruebas de proporciones son adecuadas cuando los datos que se estn
analizando constan de cuentas o frecuencias de elementos de dos o ms
clases. El objetivo de estas pruebas es evaluar las afirmaciones con respecto a
una proporcin (o Porcentaje) de poblacin. Las pruebas se basan en la
premisa de que una proporcin muestral (es decir, x ocurrencias en n
observaciones, o x/n) ser igual a la proporcin verdadera de la poblacin si se
toman mrgenes o tolerancias para la variabilidad muestral. Las pruebas
suelen enfocarse en la diferencia entre un nmero esperado de ocurrencias,
suponiendo que una afirmacin es verdadera, y el nmero observado
realmente. La diferencia se compara con la variabilidad prescrita mediante
una distribucin de muestreo que tiene como base el supuesto de que
realmente verdadera.

es

En muchos aspectos, las pruebas de proporciones se parecen a las pruebas de


medias, excepto que, en el caso de las primeras, los datos muestrales se
consideran como cuentas en lugar de como mediciones. Por ejemplo, las
pruebas para medias y proporciones se pueden utilizar para evaluar
afirmaciones con respecto a:

1) Un parmetro de poblacin nico


(prueba de una muestra)
2) La igualdad de parmetros de dos
poblaciones (prueba de dos muestras), y
3) La igualdad de parmetros de ms de
dos poblaciones (prueba de k muestras).
Adems, para tamaos grandes de
muestras, la distribucin de muestreo
adecuada para pruebas de proporciones
de una y dos muestras es
aproximadamente normal, justo como
sucede en el caso de pruebas de medias
de una y dos muestras.

Instituto Tecnolgico de la Laguna

Estadstica inferencial I
Unidad IV
Nombre del docente: Ing. Jos Pamanes Guerrero
Nombre del alumno: Issac Alvarez Castro
Numero de control: 14130252

Fecha: 01 Junio 2016

Você também pode gostar