Escolar Documentos
Profissional Documentos
Cultura Documentos
1. ndice
1. Introduccin
2. Identificacin
grfica
de
distribuciones
de
probabilidad
adecuadas
2.1. Histogramas
2.2. Q-Q
Plot
2.3. P-P
Plot
3. Pruebas
de
bondad
de
ajuste
3.1. Prueba
Chi
Cuadrado
3.2. Prueba
Kolmogorov-Smirnov
Interpretacin
P-Value
2. Introduccin
El
propsito
del
presente
documento
es
presentar
a
los
estudiantes
las
herramientas
grficas
y
analticas
para
llevar
a
cabo
un
correcto
anlisis
de
los
datos
de
entrada,
donde
se
tenga
muy
presente
que
son
estos
los
que
alimentarn
el
modelo
de
simulacin
a
construir
y,
que
por
lo
tanto,
tendrn
una
alta
influencia
en
los
resultados
que
se
reporten
despus
de
haber
corrido
la
simulacin.
Por
otra
parte,
teniendo
en
cuenta
que
el
objetivo
general
del
mdulo
es
que
los
estudiantes
desarrollen
las
capacidades
necesarias
para
llevar
a
cabo
un
estudio
completo
de
simulacin,
en
esta
unidad
se
presentarn
las
herramientas
fundamentales
para
realizar
el
anlisis
de
entrada,
as
como
herramientas
computacionales
que
permite
su
realizacin
casi
de
forma
automtica.
Finalmente,
se
presentar
al
estudiante
una
serie
de
ejercicios
relacionados
para
reforzar
los
conocimientos
adquiridos
en
el
desarrollo
del
mdulo.
3. Objetivo
general
Al
finalizar
el
mdulo,
los
estudiantes
sabrn
cules
son
las
herramientas
grficas
para
llevar
a
cabo
un
anlisis
de
datos
de
entrada,
as
como
sabrn
emplear,
de
forma
adecuada,
las
pruebas
analticas
para
alimentar
el
modelo
de
simulacin
que
se
est
construyendo.
Al
finalizar
la
tercera
semana
de
aprendizaje:
2
[ POLITCNICO GRANCOLOMBIANO]
4. Desarrollo
temtico
4.1
Recomendaciones
acadmicas
[ SIMULACIN ] 3
2.1. Histogramas
4
[ POLITCNICO GRANCOLOMBIANO]
Al
igual
que
los
histogramas,
los
grficos
Cuantil
Cuantil
o
Q-Q
plot
dan
una
idea
grfica
del
posible
comportamiento
que
pueden
seguir
los
datos
de
entrada
que
se
estn
analizando.
La
diferencia
principal
de
un
histograma
y
un
Q-Q
plot
es
que
los
segundos
no
muestran
propiamente
el
comportamiento
de
la
distribucin,
si
no
que
muestra
la
relacin
de
los
cuantiles
de
la
distribucin
que
se
sospecha
siguen
los
datos
con
la
distribucin
real,
y
a
partir
de
dicha
relacin
es
posible
realizar
conclusiones.
Estrictamente
hablando,
un
cuantil
se
define
de
la
siguiente
manera:
Sea
X
es
una
variable
aleatoria
(VA)
con
funcin
acumulada
de
probabilidad
Fx(x),
entonces
el
q-cuantil
de
X
es
aquel
valor
!
tal
que
! ! = ! ! ! = !.
Luego,
! = ! !! (!).
Ahora
bien,
al
partir
de
este
concepto,
se
presenta
a
continuacin
el
algoritmo
(metodologa)
a
desarrollar
para
obtener
los
cuantiles
y,
por
lo
tanto,
la
grfica
que
propone
la
herramienta
debe
realizarse:
[ SIMULACIN ] 5
! 0.5
!! ! !!
!
!!!.!
4. Graficar
yj
v.s.
! !! !
Supngase
que
se
ha
escogido
una
distribucin
con
funcin
F
como
una
posible
representacin
de
la
distribucin
de
X.
Si
F
es
un
miembro
de
una
familia
apropiada
de
distribuciones,
entonces
la
grfica
de
yj
versus
F-1
ser
aproximadamente
una
lnea
recta.
Ejemplo
Se
tienen
los
siguientes
diez
datos
y
se
sospecha
que
siguen
una
distribucin
normal
con
media
=
100
y
desviacin
estndar
=
13
105
91
103
83
71
120
100
135
123
9
0
Con
base
en
la
metodologa
anterior,
el
primer
paso
consiste
en
ordenarlos
de
menor
a
mayor,
as:
j
Yj
1
71
2
83
3
90
4
91
5
100
6
103
7
105
8
120
9
123
10
135
El
segundo
paso
es
asignarle
una
probabilidad
de
acuerdo
a
la
expresin
(j-0.5)/n:
j
Yj
Probabilidad
1
71
0,05
2
83
0,15
3
90
0,25
4
91
0,35
5
100
0,45
6
[ POLITCNICO GRANCOLOMBIANO]
6
103
0,55
7
105
0,65
8
120
0,75
9
123
0,85
10
135
0,95
El
tercer
paso
es
calcular
la
funcin
inversa
para
cada
una
de
las
probabilidades
asignadas
en
el
paso
anterior.
Como
en
este
caso
se
sospecha
que
los
datos
siguen
una
distribucin
normal
con
media
=
100
y
desviacin
estndar
=
13,
debe
calcularse
la
inversa
de
una
distribucin
normal.
Probabilid Funcin
j
Yj
ad
inversa
1
71
0,05
78,616903
2
83
0,15
86,526366
3
90
0,25
91,231633
4
91
0,35
94,990834
5
100
0,45
98,366402
6
103
0,55
101,633598
7
105
0,65
105,009166
8
120
0,75
108,768367
9
123
0,85
113,473634
10
135
0,95
121,383097
Nota:
si
por
ejemplo,
se
hubiese
dicho
que
se
sospechaba
que
los
datos
seguan
una
distribucin
exponencial,
los
pasos
1
y
2
se
deban
haber
realizado
de
la
misma
forma,
pero
en
el
paso
tres
debera
haberse
calculado
la
inversa
de
una
distribucin
exponencial
y
no
de
la
normal,
es
decir,
la
funcin
inversa
se
calcula
con
base
en
la
distribucin
de
probabilidad
que
se
sospecha
siguen
los
datos.
[ SIMULACIN ] 7
140
120
100
80
60
40
20
0
0 20 40 60 80 100 120 140 160
La
columna
denominada
Probabilidad,
corresponde
al
clculo
del
cuantil
respectivo.
Por
!!!/!
ejemplo,
para
j
=
1,
al
reemplazar
en
la
expresin
! ,
da
como
resultado
0,05,
para
n
=
10.
La
columna
de
Funcin
Inversa,
se
puede
calcular
utilizando
Excel,
mediante
la
funcin
DISTR.NORM.INV,
con
parmetros:
media
=
100;
desviacin
estndar
=
13;
probabilidad
=
la
recin
calculada
para
cada
uno
de
los
datos.
Cabe
anotar
que
la
decisin
de
aceptar
o
rechazar
la
hiptesis
es
subjetiva,
por
cuanto
la
apreciacin
de
la
grfica
y
el
ajuste
de
los
puntos
a
una
lnea
recta
parten
de
simple
observacin.
Al
igual
que
con
el
diagrama
Q-Q,
el
diagrama
P-P
permite
evaluar
un
conjunto
de
datos
mediante
la
comparacin
de
una
distribucin
terica
de
probabilidad.
Su
principal
diferencia
con
respecto
al
diagrama
anteriormente
descrito,
radica
en
que
los
valores
a
contrastar
corresponden
al
cuantil
calculado
versus
la
funcin
de
distribucin
acumulada.
Si
los
datos
corresponden
a
la
distribucin
terica
que
se
est
probando,
la
nube
de
puntos
debe
aproximarse
a
una
lnea
recta.
Ahora
bien,
a
partir
de
lo
anterior,
se
presenta,
a
continuacin,
el
algoritmo
(metodologa)
a
desarrollar
para
obtener
los
percentiles
y,
por
lo
tanto,
la
grfica
que
propone
la
herramienta
debe
realizarse:
8
[ POLITCNICO GRANCOLOMBIANO]
2. Asignar
una
probabilidad
de
ocurrencia
a
cada
uno
de
los
datos
recolectados,
dicha
probabilidad
es
asignada
de
acuerdo
a
la
expresin
(j-0.5)/n
3. Calcular
la
probabilidad
real
de
que
se
de
cada
uno
de
los
valores
de
los
datos
que
se
recolectaron.
En
otras
palabras:
!! !!
!!!.!
4. Graficar
!
v.s.
!! !!
Ejemplo
Se
tienen
los
siguientes
diez
datos,
y
se
sospecha
que
siguen
una
distribucin
normal
con
media
=
100
y
desviacin
estndar
=
13
105
91
103
83
71
120
100
135
123
9
0
Con
base
en
la
metodologa
anterior,
el
primer
paso
consiste
en
ordenarlos
de
menor
a
mayor,
as:
j
Yj
1
71
2
83
3
90
4
91
5
100
6
103
7
105
8
120
9
123
10
135
El
segundo
paso
es
asignarle
una
probabilidad
de
acuerdo
a
la
expresin
(j-0.5)/n:
j
Yj
Probabilidad
1
71
0,05
2
83
0,15
3
90
0,25
4
91
0,35
5
100
0,45
6
103
0,55
[ SIMULACIN ] 9
7
105
0,65
8
120
0,75
9
123
0,85
10
135
0,95
El
tercer
paso
es
calcular
la
probabilidad
real
para
cada
uno
de
los
valores
de
los
datos
ordenados
en
el
paso
1.
Como
en
este
caso
se
sospecha
que
los
datos
siguen
una
distribucin
normal
con
media
=
100
y
desviacin
estndar
=
13,
debe
calcularse
la
probabilidad
de
los
yj
con
esta
distribucin.
Probabilida
j
Yj
d
Acumulada
1
71
0,05
0,01284821
0,0954888
2
83
0,15
5
3
90
0,25
0,22087816
0,2443720
4
91
0,35
6
5
100
0,45
0,5
6
103
0,55
0,59125296
7
105
0,65
0,6497388
8
120
0,75
0,9380321
9
123
0,85
0,96157231
0,9964520
10
135
0,95
3
Nota:
si
por
ejemplo
se
hubiese
dicho
que
se
sospechaba
que
los
datos
seguan
una
distribucin
exponencial,
los
pasos
1
y
2
se
deban
haber
realizado
de
la
misma
forma,
pero
en
el
paso
tres
debera
haberse
calculado
la
probabilidad
con
una
distribucin
exponencial
y
no
de
la
normal,
es
decir,
la
probabilidad
se
calcula
con
base
en
la
distribucin
de
probabilidad
que
se
sospecha
siguen
los
datos.
10
[ POLITCNICO GRANCOLOMBIANO]
1,2
0,8
0,6
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1
Las
pruebas
de
bondad
de
ajuste
son
pruebas
de
hiptesis
que
permiten
evaluar
la
idoneidad
de
un
conjunto
de
datos,
dada
una
distribucin
terica
de
probabilidad
donde
se
podran
ajustar.
Como
toda
prueba
de
hiptesis,
esta
comienza
con
el
enunciado
de
la
hiptesis
nula
y
alternativa.
La
hiptesis
nula
afirma
que
la
variable
aleatoria
que
describe
el
conjunto
de
datos,
se
distribuye
segn
la
funcin
de
probabilidad
propuesta,
mientras
que
la
hiptesis
alternativa
contradice
tal
afirmacin.
Nota:
Las
pruebas
de
hiptesis
corresponden
a
procesos
de
toma
de
decisin
estadsticos.
El
modelador
formula
dos
hiptesis
complementarias,
llamadas
la
hiptesis
nula
(denotada
por
H0)
y
la
hiptesis
alternativa
(denotada
por
H1).
Generalmente,
una
decisin
se
asocia
a
la
hiptesis
nula,
la
cual
puede
ser
aceptada
o
rechazada.
Consecuentemente,
se
pueden
generar
dos
tipos
de
error:
El
objetivo
de
las
pruebas
de
hiptesis
es
rechazar
(o
aceptar
H0)
de
tal
manera
que
si
H0
es
en
realidad
verdadera,
entonces
la
probabilidad
de
rechazarla
errneamente
(error
tipo
I),
no
exceda
un
valor
de
probabilidad
previamente
definido,
,
el
cual
es
llamado
nivel
de
confianza
o
nivel
de
significancia.
Mientras
ms
pequeo
es
,
ms
alta
es
la
confianza
en
la
decisin
de
rechazo
correspondiente.
[ SIMULACIN ] 11
Para
realizar
esta
prueba
se
disponen
los
datos
en
una
tabla
de
frecuencias.
Para
cada
valor
o
intervalo
de
valores
se
indica
la
frecuencia
absoluta
observada
(Oi).
A
continuacin,
y
suponiendo
que
la
hiptesis
nula
es
cierta,
se
calculan
para
cada
valor
o
intervalo
de
valores,
la
frecuencia
esperada
(Ei=npi,
donde
n
es
el
tamao
de
la
muestra
y
pi
la
probabilidad
del
i-
simo
valor
o
intervalo
de
valores
segn
la
hiptesis
nula).
Para
emplear
esta
metodologa
que
es
analticamente
ms
confiable
que
los
histogramas
o
grficos
P-P
y
Q-Q,
es
necesario
calcular
un
estadstico
de
prueba.
Dicho
estadstico
se
calcula
con
base
en
la
frecuencia
observada
y
frecuencia
esperada,
as:
!
!! !! !
!=
!!
!!!
Este
estadstico
tiene
una
distribucin
Chi-cuadrado
con
k-1
grados
de
libertad
si
n
es
suficientemente
grande,
es
decir,
si
todas
las
frecuencias
esperadas
son
mayores
que
5.
Si
existe
concordancia
perfecta
entre
las
frecuencias
observadas
y
las
esperadas,
el
estadstico
tomar
un
valor
igual
a
0;
por
el
contrario,
si
existe
una
gran
discrepancia
entre
estas
frecuencias,
el
estadstico
tomar
un
valor
grande
y,
en
consecuencia,
se
rechazar
la
hiptesis
nula.
As
pues,
la
regin
crtica
estar
situada
en
el
extremo
superior
de
la
distribucin
Chi-cuadrado
con
k-1
grados
de
libertad.
Ejemplo
La
distribucin
de
los
ingresos
anuales
en
dlares
de
una
muestra
de
100
familias,
que
habitan
en
cierta
poblacin
present
los
siguientes
resultados:
Ingresos
anuales
en
miles
de
Frecuencia
Observada
dlares
(Oi)
40
x
60
12
60
<
x
80
8
80
<x
100
25
100
<x
120
30
120
<x
140
25
Puede
admitirse
que
los
ingresos
de
las
familias
que
habitan
en
dicha
poblacin
sigue
una
distribucin
uniforme
en
el
intervalo
[40.000
140.000]
con
un
nivel
de
significancia
del
5%.
Dado
que
ya
se
tienen
las
frecuencias
observadas,
el
siguiente
paso
es
calcular
la
frecuencia
esperada
Ei,
se
debe
que
esta
siempre
ser
igual
a
pin,
donde
n
es
el
nmero
total
de
12
[ POLITCNICO GRANCOLOMBIANO]
[ SIMULACIN ] 13
Al
tener
los
valores
de
la
frecuencia
observada
y
de
la
frecuencia
esperada,
es
posible
realizar
el
clculo
del
estadstico
recordando
que
este
es
igual
a
!
!! !! !
!=
!!
!!!
Se
obtienen,
entonces,
los
siguientes
resultados:
Ingresos
anuales
Frecuencia
Probabilida Frecuencia
(Oi-Ei)2/Ei
en
miles
de
Observada
d
Esperada
(Ei)
dlares
(Oi)
40
x
60
12
0,2
20
3.2
60
<
x
80
8
0,2
20
7.2
80
<x
100
25
0,2
20
1.25
100
<x
120
30
0,2
20
5
120
<x
140
25
0,2
20
1.25
Y
=
17.9
Una
vez
obtenido
el
estadstico,
este
deber
compararse
con
el
valor
Chi2
de
la
tabla
Chi2.
Para
calcular
este
valor,
recuerde
que
debe
tenerse
presente
el
nivel
de
significancia
con
que
se
realiz
la
prueba
y
los
grados
de
libertad.
Para
este
ejemplo
en
especfico
se
sugiri
que
alfa
fuera
igual
a
0.05
y
los
grados
de
libertad
siempre
sern
iguales
al
nmero
de
clases
menos
1,
es
decir,
que
para
el
ejercicio
los
grados
de
libertad
seran
df
=
5-1
=
4
Al
observar
la
tabla
de
la
Chi2
,
apreciamos
que
el
resultado
es:
Finalmente,
para
concluir,
si
se
rechaza
o
no
la
hiptesis
de
que
la
distribucin
de
los
ingresos
anuales
de
dichas
familias
siguen
una
distribucin
entre
[40.000
140.000],
se
deben
comparar
los
valores
del
estadstico
calculado
Y
y
los
de
la
tabla
Chi2,
as:
14
[ POLITCNICO GRANCOLOMBIANO]
Para
este
ejemplo
en
particular,
dado
que
Y
=
17.9
no
es
menor
a
9.48,
entonces
se
debe
rechazar
la
hiptesis
nula
y,
por
lo
tanto,
se
concluye
que
el
ingreso
anual
de
las
familias
no
sigue
una
distribucin
uniforme
ente
[40.000
140.000].
[ SIMULACIN ] 15
Se
quiere
comprobar
la
hiptesis
de
que
este
tiempo
sigue
una
distribucin
uniforme
con
parmetros
(10,
20)
segundos,
con
un
nivel
de
confianza
del
95%.
De
manera
similar
a
la
elaboracin
de
los
diagramas
Q-Q
y
P-P,
resulta
bastante
til
la
elaboracin
de
una
tabla
para
completar
la
prueba.
D+
=
0,07
D-
=
0,33
Entonces,
el
estadstico
de
la
prueba
corresponde
a
0,33.
Se
procede
ahora
a
consultar
la
tabla
de
valores
crticos
de
la
prueba
Kolmogorov-Smirnov,
la
cual
se
muestra
a
continuacin:
Se
puede
observar
que
el
valor
crtico
equivale
a
0,40925,
para
un
tamao
de
muestra
n
=
10,
y
un
nivel
de
significancia
del
5%.
Como
este
valor
es
mayor
al
estadstico
de
la
prueba,
no
16
[ POLITCNICO GRANCOLOMBIANO]
existe
suficiente
evidencia
estadstica
para
rechazar
la
hiptesis
de
que
los
datos
se
distribuyen
uniformemente.
4. Interpretacin P-Value
Otra
forma
de
determinar
si
se
rechaza
o
no
una
hiptesis
sin
emplear
directamente
los
estimadores,
es
a
travs
del
concepto
de
P-value
(esta
metodologa
es
la
que
suelen
emplear
la
gran
mayora
de
software
estadsticos
capaces
de
realizar
anlisis
de
entrada).
El
P-Value
corresponde
al
rea
superior
derecha
a
partir
del
estadstico
de
prueba,
es
decir,
es
la
probabilidad
acumulada
que
existe
despus
del
estadstico
de
prueba.
Por
ejemplo,
para
el
caso
de
la
prueba
Chi2
realizada
en
el
ejemplo,
podemos
ver
que
el
p-value
corresponde
al
rea
amarilla
+
rea
azul:
Con
base
en
este
anlisis,
las
conclusiones
se
tomaran
as:
[ SIMULACIN ] 17