Você está na página 1de 11

Diagnosis y Crtica del modelo

-Ajuste de distribuciones con StatgraphicsFicheros de datos: TiempoaccesoWeb.sf3 ; AlumnosIndustriales.sf3

1. Introduccin
El objetivo de esta prctica es asignar un modelo de probabilidad a un conjunto de datos, de
forma que el modelo elegido pueda interpretarse como la poblacin de la que proceden esos
datos. A esta bsqueda de un modelo de probabilidad a partir de una muestra de datos se le
denomina ajuste de una distribucin. Para que un modelo de probabilidad pueda considerarse
que es un modelo razonable para explicar los datos, han de realizarse pruebas estadsticas. La
realizacin de estas pruebas se denomina diagnosis o crtica del modelo. Por tanto, diremos que
un modelo tendr un buen ajuste a nuestros datos si supera con xito la diagnosis.
La forma habitual para hacer ajuste de modelos es la siguiente. A partir del anlisis de la muestra
se comparar su distribucin con la de algn modelo conocido (Normal, Poisson, Exponencial,
etc) . Para evaluar si un modelo tiene un buen ajuste realizaremos el test de la Chi cuadrado.
Se utilizarn dos ficheros: TiempoaccesoWeb.sf3 y AlumnosIndustriales.sf3. Empezaremos
analizando la variable Ordenador_Uni del fichero TiempoaccesoWeb.sf3. Esta variable tiene 55
medidas del tiempo, en segundos, que se tarda en acceder a la pgina Web de la Universidad
desde un ordenador de su biblioteca. Veremos, como a partir de esta muestra, podemos
encontrar un modelo de probabilidad que se ajuste a esos datos y que sirva como modelo
poblacional del tiempo que tardamos cada vez que abrimos la pgina Web de la Universidad con
ordenadores de su biblioteca. En segundo lugar analizaremos la variable Tiempo del fichero
AlumnosIndustriales.sf3. Esta variable contiene el tiempo que tardan unos estudiantes en llegar a
la Universidad.

2. Ajuste del modelo. Variable Ordenador_Uni


2.1 Anlisis descriptivo de los datos
Lo primero que haremos, ser un estudio descriptivo de los datos (Medidas caractersticas,
histograma). As podemos hacernos una idea de la distribucin de los datos.
Nos vamos a DESCRIBE/NUMERIC DATA/ONE VARIABLE ANALYSIS. Hacemos click en Summary
Statistics y Frecuency Histogram. En Summary Statistics seleccionamos las medidas
caractersticas ms habituales (en Pane Options botn derecho del ratn-)

Vemos que el histograma


se parece a una Normal. Es unimodal y bastante simtrico
(Skewness=0.08) aunque menos apuntado que la normal (Kurtosis=-0.29). Esto nos conduce a
pensar que una normal podra proporcionar un ajuste suficientemente bueno a estos datos y ser
utilizada para explicar las distribuciones de tiempos de acceso.
2.2 Diagnosis del modelo elegido
Para evaluar el ajuste de un modelo vamos a DESCRIBE/DISTRIBUTION FITTING/UNCESORED DATA

Se abre entonces la ventana para introducir la variable a la que queremos ajustar una
distribucin. Seleccionamos Ordenador_Uni.

Seleccionamos ahora el modelo de distribucin escogido. Para eso nos colocamos en cualquier
ventana y pulsamos el botn derecho, y pulsamos Analysis Options.

Aparece entonces la ventana para seleccionar el modelo de probabilidad. Seleccionamos la


Normal (es la que aparece seleccionada por defecto)

La estimacin de los parmetros del modelo la enconrtamos en las Opciones Tabulares


Analysis Summary.

Los parmetros de la normal estimados son entonces = 1.42; 2 = 0.125 2 que corresponden con
los obtenidos anteriormente al describir las variables. El modelo estimado es por tanto

X N (1.42, 0.1252 )
Este ejercicio de estimacin no nos informa de si la normal es o no un modelo apropiado. Para
hacer la diagnosis del modelo seleccionamos primeramente Frequency Histogram entre las
Opciones Grficas. El resultado obtenido es

Este grfico nos presenta nuestro histograma junto con la funcin de densidad del modelo
terico. Cunto ms se aproxime la curva a nuestros datos, mejor ser el ajuste. Esta figura es
muy til pues nos permite visualizar el ajuste. Finalmente hacemos el Test de bondad de ajuste
de la Chi-cuadrado. Vamos a Tabular Options y seleccionamos GOODNESS-OF-FIT-TEST (Test de
bondad del ajuste)

El resultado es el siguiente:

El resultado del Test de la Chi-cuadrado se resume en los tres valores siguientes:

Chi-square = 5.9088, que representa el valor del estadstico calculado en el test

Este estadstico resume la discrepancia entre el histograma y la curva de la normal.


Cuanto mayor sea este valor, peor es el ajuste de nuestros datos al modelo elegido.

d.f (degrees of freedom)= 7, que son grados de libertad de la distribucin Chi-Cuadrado


que se usa de referencia para valorar el ajuste de la distribucin. Los grados de libertad
se calculan como df= k- -1, donde:
k= nmero de intervalos, en este caso 10
= nmero de parmetros del modelo escogido, en este caso 2 (media y varianza)

p_value =0.5504 (p valor). Probabilidad que queda a la derecha el valor del estadstico
calculado en la distribucin de referencia. En nuestro caso, es el rea que queda a la
derecha del valor 5.9088 en la distribucin k2v 1 .

La teora estadstica nos dice que cuanto peor es el ajuste del modelo elegido, el estadstico 2
dar un valor mayor, y que la referencia para evaluar cmo de grande es ese estadstico en cada
caso es la distribucin k2v 1 . Una forma sencilla de valorar la bondad del ajuste es calcular el
rea que queda a la derecha del valor del estadstico 2 en la distribucin k2 v 1 . Ese rea es
precisamente el p-valor. La figura siguiente ilustra este resultado para nuestro caso.

p-valor=0.5504

5.9088

Si el p-valor es inferior a 0.05 se considera que el estadstico est ya en zonas de muy poca
probabilidad, y por tanto concluimos que el ajuste no es satisfactorio. Por el contrario, si el pvalor es mayor de 0.05 consideramos que el ajuste es suficientemente bueno, y que el modelo
elegido puede usarse como modelo para la poblacin. En nuestro caso, el p-valor es 0.55 por lo
que concluimos que la normal es un modelo razonable para explicar la distribucin de nuestros
datos.
El Statgraphics realiza otros tests de bondad de ajuste. Los resultados de todos ellos pueden
interpretarse tambin a travs de sus p-valores de la misma forma que con el tests de la chicuadrado. Por ejemplo, puede observar que en el test de Kolmogorov-Smirnov el p-valor es
0.7674, tambin mayor de 0.05.

3. Ajuste de un modelo para la variable Tiempo


Vamos a repetir el estudio anterior, con la variable Tiempo del fichero AlumnosIndustriales.sf3.
Esta variable es el tiempo que tardan unos estudiantes en llegar a la Universidad. El tamao de la
muestra es 95.
3.1 Anlisis descriptivo de los datos
Despus de cargar el fichero AlumnosIndustriales.sf3 en Statgraphics procedemos a hacer un
resumen estadstico de nuestra variable. La descripcin estadstica de la variable se realiza como
antes en Describve/Numeric Data/One Variable Analysis. El resultado se muestra en la siguiente
figura. En la construccin del histograma se ha puesto que el lmite inferior sea 0, ya que se trata
de valores de tiempo que son no negativos.

Los datos son unimodales, con asimetra positiva. La zona de la moda tiene un apuntamiento en
forma de campana. Tenemos dos opciones bara asignar un modelo de probabilidad a esta
variable. En primer lugar probaremos ajustar un modelo con asimetra positiva como la
distribucin Weibull, o una distribucin lognormal. En segundo lugar, intentaremos ajustar una
normal a una transfromacin de los datos que corrijan su asimetra. Por ejemplo a la raz
cuadrada (ajustar una normal al logaritmo de una variable es lo mismo que ajustar una lognormal
a la variable original).

3.2 Ajuste de una Weibull


Como en el ejemplo anterior, vamos a Describe/Distributions/Distribution Fitting (Uncensored
data), y alli seleccionamos la variable Tiempo.

En Analysis Options (botn derecho del ratn) accedemos a la ventana para elegir la distribucin.
Elegimos Weibull.

El Statgraphics nos proporciona entonces las estimaciones de los parmetros de esta distribucin

seleccionamos Goodness-of-Fit Test, y en


Graphical Options
En Tabular Options
seleccionamos Frequency Histogram. Obtenemos el siguiente resultado (de nuevo poniendo 0
como origen del histograma)

Tanto el histograma con la Weibull superpuesta como el p-valor del test de la Chi-cuadrado nos
muestran que el ajuste es bastante satisfactorio. Por tanto podemos utilizar la distribucin
Weibull para modelizar los tiempos de llegada a la universidad.

3.2 Ajuste de una Lognormal


Pulsando el botn derecho del ratn, seleccionamos Analysis Options y elegimos ahora la
distribucin Lognormal

obtenindose los siguientes resultados.

Ahora el ajuste no es bueno. El p-valor del test de la chi-cuadrado es ya muy bajo. El histograma
nos muestra el motivo, y es que la lognormal es ms apuntada que nuestros datos. La lognormal
no es un modelo adecuado para esta variable.

3.3 Ajuste de una Normal a una transformacin


La variable tiempo es asimtrica positiva, sin embargo su raz cuadrada es ya bastante
simtrica. Si ajustamos una Normal a la raz cuadrada obtenemos los siguientes
resultados

que presenta un ajuste casi tan bueno como el de la Weibull. En Tabular Options seleccionamos
Analysis Sumary para ver los parmetros estimados para este modelo.

4. Ejemplo de aplicacin del modelo ajustado


El disponer de un modelo que sea adecuado para representar a la poblacin de la que hemos
obtenido los datos observados es muy til. Permite, entre otras cosas, calcular probabilidades de
sucesos de forma ms precisa que utilizando la frecuencia de aparicin de dicho suceso en la
muestra observada.
En esta seccin vamos a calcular la probabilidad de que un alumno viva a ms de una hora de la
Universidad. Lo podemos hacer tanto con la distribucin Weibull como con la Normal aplicada a
la raz cuadrada de la variable. Ambos modelos no darn los mismos resultados, pero esperaremos
que no sean muy diferentes.
4.1 Clculo con la Weibull
Como hemos visto anteriormente, la Weibull que hemos ajustado a los datos ha producido las
siguientes estimaciones de los parmetros:

shape = = 1.70898
scale = = 46.3503
Vamos entonces a calcular la probabilidad deseada para esa distribucin (ver guin sobre modelos
de distribucin). En Statgraphics no vamos a Plot/Probability Distributions y all seleccionamos la
Weibull.

Una vez seleccionada la Weibull introducimos los parmetros que hemos estimado pulsando el
botn derecho del ratn y Analysis Options

En Tabular Options seleccionamos la Funcin de distribucin (Cumulative Distribution)

Ahora seleccionamos Pane Options (botn derecho del ratn) y all ponemos los 60 minutos, que
es el suceso en el que estamos interesados. El resultado es el siguiente

Por tanto podemos concluir que la probabilidad de que un alumno viva a ms de una hora de la
universidad es del 21,1%.
4.2 Clculo con la Normal y la variable transformada

Como vimos antes, la raz cuadrada del tiempo se ajusta muy bien a la Normal. Para calcular
probabilidades debemos hacerlas sobre la variable transformada. Por tanto la probabilidad de
tardar ms de 60 minutos ser equivalente a tardar ms de
60 = 7.746 en unidades
transformadas. Vimos ms arriba que la distribucin normal ajustada a los datos tiene los
siguientes parmetros estimados

= 6.11693
= 2.01167

Calculamos entonces la probabilidad deseada para esa distribucin. Vamos a Plot/Probability


Distributions y all seleccionamos la Normal. Introducimos las estimaciones de los parmetros.

y ahora calculamos la probabilidad deseada P(X>7.746), obtenindose el siguiente resultado

Por tanto, con este otro modelo, la probabilidad de que acudan alumnos que vivan a ms de una
hora de distancia es de 20,9% y que, como era de esperar, es casi lo mismo que con el otro
modelo.

Você também pode gostar