Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Introduccin
El objetivo de esta prctica es asignar un modelo de probabilidad a un conjunto de datos, de
forma que el modelo elegido pueda interpretarse como la poblacin de la que proceden esos
datos. A esta bsqueda de un modelo de probabilidad a partir de una muestra de datos se le
denomina ajuste de una distribucin. Para que un modelo de probabilidad pueda considerarse
que es un modelo razonable para explicar los datos, han de realizarse pruebas estadsticas. La
realizacin de estas pruebas se denomina diagnosis o crtica del modelo. Por tanto, diremos que
un modelo tendr un buen ajuste a nuestros datos si supera con xito la diagnosis.
La forma habitual para hacer ajuste de modelos es la siguiente. A partir del anlisis de la muestra
se comparar su distribucin con la de algn modelo conocido (Normal, Poisson, Exponencial,
etc) . Para evaluar si un modelo tiene un buen ajuste realizaremos el test de la Chi cuadrado.
Se utilizarn dos ficheros: TiempoaccesoWeb.sf3 y AlumnosIndustriales.sf3. Empezaremos
analizando la variable Ordenador_Uni del fichero TiempoaccesoWeb.sf3. Esta variable tiene 55
medidas del tiempo, en segundos, que se tarda en acceder a la pgina Web de la Universidad
desde un ordenador de su biblioteca. Veremos, como a partir de esta muestra, podemos
encontrar un modelo de probabilidad que se ajuste a esos datos y que sirva como modelo
poblacional del tiempo que tardamos cada vez que abrimos la pgina Web de la Universidad con
ordenadores de su biblioteca. En segundo lugar analizaremos la variable Tiempo del fichero
AlumnosIndustriales.sf3. Esta variable contiene el tiempo que tardan unos estudiantes en llegar a
la Universidad.
Se abre entonces la ventana para introducir la variable a la que queremos ajustar una
distribucin. Seleccionamos Ordenador_Uni.
Seleccionamos ahora el modelo de distribucin escogido. Para eso nos colocamos en cualquier
ventana y pulsamos el botn derecho, y pulsamos Analysis Options.
Los parmetros de la normal estimados son entonces = 1.42; 2 = 0.125 2 que corresponden con
los obtenidos anteriormente al describir las variables. El modelo estimado es por tanto
X N (1.42, 0.1252 )
Este ejercicio de estimacin no nos informa de si la normal es o no un modelo apropiado. Para
hacer la diagnosis del modelo seleccionamos primeramente Frequency Histogram entre las
Opciones Grficas. El resultado obtenido es
Este grfico nos presenta nuestro histograma junto con la funcin de densidad del modelo
terico. Cunto ms se aproxime la curva a nuestros datos, mejor ser el ajuste. Esta figura es
muy til pues nos permite visualizar el ajuste. Finalmente hacemos el Test de bondad de ajuste
de la Chi-cuadrado. Vamos a Tabular Options y seleccionamos GOODNESS-OF-FIT-TEST (Test de
bondad del ajuste)
El resultado es el siguiente:
p_value =0.5504 (p valor). Probabilidad que queda a la derecha el valor del estadstico
calculado en la distribucin de referencia. En nuestro caso, es el rea que queda a la
derecha del valor 5.9088 en la distribucin k2v 1 .
La teora estadstica nos dice que cuanto peor es el ajuste del modelo elegido, el estadstico 2
dar un valor mayor, y que la referencia para evaluar cmo de grande es ese estadstico en cada
caso es la distribucin k2v 1 . Una forma sencilla de valorar la bondad del ajuste es calcular el
rea que queda a la derecha del valor del estadstico 2 en la distribucin k2 v 1 . Ese rea es
precisamente el p-valor. La figura siguiente ilustra este resultado para nuestro caso.
p-valor=0.5504
5.9088
Si el p-valor es inferior a 0.05 se considera que el estadstico est ya en zonas de muy poca
probabilidad, y por tanto concluimos que el ajuste no es satisfactorio. Por el contrario, si el pvalor es mayor de 0.05 consideramos que el ajuste es suficientemente bueno, y que el modelo
elegido puede usarse como modelo para la poblacin. En nuestro caso, el p-valor es 0.55 por lo
que concluimos que la normal es un modelo razonable para explicar la distribucin de nuestros
datos.
El Statgraphics realiza otros tests de bondad de ajuste. Los resultados de todos ellos pueden
interpretarse tambin a travs de sus p-valores de la misma forma que con el tests de la chicuadrado. Por ejemplo, puede observar que en el test de Kolmogorov-Smirnov el p-valor es
0.7674, tambin mayor de 0.05.
Los datos son unimodales, con asimetra positiva. La zona de la moda tiene un apuntamiento en
forma de campana. Tenemos dos opciones bara asignar un modelo de probabilidad a esta
variable. En primer lugar probaremos ajustar un modelo con asimetra positiva como la
distribucin Weibull, o una distribucin lognormal. En segundo lugar, intentaremos ajustar una
normal a una transfromacin de los datos que corrijan su asimetra. Por ejemplo a la raz
cuadrada (ajustar una normal al logaritmo de una variable es lo mismo que ajustar una lognormal
a la variable original).
En Analysis Options (botn derecho del ratn) accedemos a la ventana para elegir la distribucin.
Elegimos Weibull.
El Statgraphics nos proporciona entonces las estimaciones de los parmetros de esta distribucin
Tanto el histograma con la Weibull superpuesta como el p-valor del test de la Chi-cuadrado nos
muestran que el ajuste es bastante satisfactorio. Por tanto podemos utilizar la distribucin
Weibull para modelizar los tiempos de llegada a la universidad.
Ahora el ajuste no es bueno. El p-valor del test de la chi-cuadrado es ya muy bajo. El histograma
nos muestra el motivo, y es que la lognormal es ms apuntada que nuestros datos. La lognormal
no es un modelo adecuado para esta variable.
que presenta un ajuste casi tan bueno como el de la Weibull. En Tabular Options seleccionamos
Analysis Sumary para ver los parmetros estimados para este modelo.
shape = = 1.70898
scale = = 46.3503
Vamos entonces a calcular la probabilidad deseada para esa distribucin (ver guin sobre modelos
de distribucin). En Statgraphics no vamos a Plot/Probability Distributions y all seleccionamos la
Weibull.
Una vez seleccionada la Weibull introducimos los parmetros que hemos estimado pulsando el
botn derecho del ratn y Analysis Options
Ahora seleccionamos Pane Options (botn derecho del ratn) y all ponemos los 60 minutos, que
es el suceso en el que estamos interesados. El resultado es el siguiente
Por tanto podemos concluir que la probabilidad de que un alumno viva a ms de una hora de la
universidad es del 21,1%.
4.2 Clculo con la Normal y la variable transformada
Como vimos antes, la raz cuadrada del tiempo se ajusta muy bien a la Normal. Para calcular
probabilidades debemos hacerlas sobre la variable transformada. Por tanto la probabilidad de
tardar ms de 60 minutos ser equivalente a tardar ms de
60 = 7.746 en unidades
transformadas. Vimos ms arriba que la distribucin normal ajustada a los datos tiene los
siguientes parmetros estimados
= 6.11693
= 2.01167
Por tanto, con este otro modelo, la probabilidad de que acudan alumnos que vivan a ms de una
hora de distancia es de 20,9% y que, como era de esperar, es casi lo mismo que con el otro
modelo.