Xxii Foro

Presentacin
El XXII Foro Nacional de Estadstica fue organizado por el Instituto Tecnolgico Autnomo
de Mxico (ITAM) y se llev a cabo en la Ex-Hacienda de Jrica en Quertaro, Qro. del 17
al 20 de octubre de 2007. Esta memoria presenta resmenes extendidos de algunas contribu-
ciones libres presentadas en este evento.
Por una iniciativa de transformar nuestras memorias en una publicacin con reconocimien-
to acadmico, a partir de este volumen la Mesa Directiva de la Asociacin Mexicana de
Estadstica ha comenzado un proceso de revisin del contenido de los trabajos tomando en
cuenta criterios mnimos de originalidad en los resultados y/o aplicaciones presentadas. Por
lo tanto, los trabajos incluidos en esta memoria fueron sometidos a una revisin de forma y
contenido.
Aprovechamos este espacio para agradecer a la comunidad estadstica mexicana por su
apoyo como rbitros en el proceso de revisin acadmica de estos trabajos. Adicionalmente,
a nombre de la Asociacin Mexicana de Estadstica agradecemos al Instituto Tecnolgico
Autnomo de Mxico por el apoyo otorgado para la realizacin de este foro y al Instituto
Nacional de Estadstica y Geografa el apoyo para la edicin e impresin de esta memoria.
El Comit Editorial:
Elida Estrada Barragn
Asael F. Martnez Martnez
Ramss H. Mena Chvez
Luis E. Nieto Barajas
ndice general
Estimacin con el algoritmo EM estocstico de modelos de espacios de estados
con observaciones censuradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Francisco J. Ariza Hernndez, Gabriel A. Rodrguez Yam
Modelado conjunto de frecuencias y severidades . . . . . . . . . . . . . . . . . . 7
Gabriel Escarela
Desempeo en muestras complejas de tres estimadores de regresin . . . . . 13
Flaviano Godnez Jaimes, Ignacio Mndez Ramrez
Una generalizacin de la prueba de Shapiro-Wilk para normalidad
multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Elizabeth Gonzlez Estrada, Jos A. Villaseor Alva
Ecuaciones diferenciales en la modelacin de datos funcionales . . . . . . . . 25
Mara Guzmn Martnez, Eduardo Castao Tostado
Modelo de decremento mltiple semiparamtrico para datos de
supervivencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Anglica Hernndez Quintero, Jean Franois Dupuy, Gabriel Escarela
Modelado atmosfrico para determinar niveles mximos diarios de ozono en
la ciudad de Guadalajara . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Lorelie Hernndez Gallardo, Gabriel Escarela
v
vi ndice general
Regresin por mnimos cuadrados parciales aplicada al estudio de emisiones
de dixido de carbono en suelos de Veracruz, Mxico . . . . . . . . . . . . . . 47
Gladys Linares Fleites, Jos Adrin Saldaa Munive, Luis G. Ruiz Surez
Discriminacin lineal y discriminacin logstica en estudios de calidad de
suelos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Gladys Linares Fleites, Miguel ngel Valera Prez, Maribel Castillo Morales
Anlisis bivariado de extremos para evaluar los niveles de ozono troposfrico
en la zona metropolitana de Guadalajara . . . . . . . . . . . . . . . . . . . . . 61
Tania Moreno Ziga, Gabriel Escarela
Contraste de una hiptesis nula central compuesta frente una hiptesis alter-
nativa bilateral en la distribucin normal . . . . . . . . . . . . . . . . . . . . . 69
Leonardo Olmedo
Anlisis de sendero como herramienta conrmatoria en un experimento de
campo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Emilio Padrn Corral, Ignacio Mndez Ramrez, Armando Muoz Urbina
Comparacin de poblaciones normales asimtricas. . . . . . . . . . . . . . . . 83
Paulino Prez Rodrguez, Jos A. Villaseor Alva
Anlisis espectral aplicado al electroencefalograma . . . . . . . . . . . . . . . 89
Vernica Saavedra Gastlum, Thala Fernndez Harmony, Eduardo Castao Tostado, Vctor
Manuel Castao Meneses
Software que trata las principales causas de la diabetes. . . . . . . . . . . . . 99
Brbara Emma Snchez Rinza, Jessica Giovanna Huerta Lpez, Jazmin Jimnez Bedolla, M.
Bustillo Daz, A. Rangel Huerta
Comparacin de algunas pruebas estadsticas asintticas de no-inferioridad
para dos proporciones independientes . . . . . . . . . . . . . . . . . . . . . . 109
David Sotres Ramos, Flix Almendra Arao
ndice general vii
Procedimientos para analizar los datos no detectados en contaminacin
ambiental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Fidel Uln Montejo, Humberto Vaquera Huerta
Evaluating cluster solutions with reference to data generation processes - a
simulation study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Alexander von Eye, Patrick Mair
Estimacin con el algoritmo EM estocstico de
modelos de espacios de estados con
observaciones censuradas
Francisco J. Ariza Hernndez
a
Colegio de Postgraduados
Gabriel A. Rodrguez Yam
b
Universidad Autnoma Chapingo
1. Introduccin
Los modelos de espacios de estados (SSM, por sus siglas en ingls) son una clase de mode-
los que permiten describir y modelar series de tiempo en una gran variedad de disciplinas.
En algunas aplicaciones, las observaciones pueden estar incompletas, por ejemplo en cien-
cias ambientales cuando se monitorea algn tipo de contaminante, los equipos utilizados
para registrar los valores de la variable de inters pueden presentar ciertas restricciones en la
medicin provocando que algunas de las observaciones estn censuradas. Adems, estas obser-
vaciones, registradas de manera secuencial, pueden presentar un cierto grado de correlacin.
Los datos con estas caractersticas pueden ser analizados como un SSM; sin embargo, an en
el caso simple del SSM lineal gaussiano, los parmetros no se pueden estimar directamente
con las recursiones de Kalman. En este trabajo se implementar el algoritmo EM estocstico
para estimar los parmetros de un SSM con observaciones censuradas.
En la Seccin dos se formula el SSM con observaciones censuradas y en la Seccin tres
se describe el algoritmo EM estocstico como una alternativa al EM clsico para calcular
aproximaciones del estimador de mxima verosimilitud (EMV) del SSM con censura. En la
Seccin cuatro se presenta un ejemplo con datos simulados del SSM lineal gaussiano con
observaciones censuradas por la izquierda, bajo diferentes porcentajes de censura.
a
arizahfj@colpos.mx
b
grodrigu@correo.chapingo.mx
1
2 Estimacin con el algoritmo EM de modelos de espacios de estados con observaciones censuradas
2. Modelo de espacio de estados con censura
Sea y
1
, y
2
, . . . , y
n
una realizacin de un modelo de espacios de estados. Es decir,
p(y
t
; [ y
t1
, . . . , y
1
,
t
, . . . ,
1
) := p(y
t
; [
t
), (1)
que pertenece a cierta familia de distribuciones, donde la variable de estado
t+1
tiene la
funcin de densidad condicional
p(
t+1
; [
t
,
t1
, . . . ,
1
, y
t
, . . . , y
1
) := p(
t+1
; [
t
). (2)
Se asume que Y
1
, Y
2
, . . . , son condicionalmente independientes dadas las variables de
estado, y que algunas de las observaciones y
1
, y
2
, . . . , y
n
estn censuradas. Sea Z
t
la variable
latente dada por
Z
t
=
_
Y
t
, si
t
= 1,
valor de la observacin no registrada en el tiempo t, si
t
= 0,
donde
t
es una variable indicadora que toma el valor de 0 si la observacin y
t
est censurada
por la izquierda y 1 de otro modo. Se sigue que
p(z
t
; [
t
, y
t
,
t
) =
_
p
Yt|t
(z
t
; [
t
), si
t
= 1,
p
Y
t
|
t
(zt;|t )
P[Ytyt;|t ]
1
(,yt)
(z
t
), si
t
= 0.
Sea y
0
:= (y
1
, . . . , y
n
o
)
t
el vector de datos observados de tamao n
o
, z
m
:= (z
1
, . . . , z
mo
)
t
el vector de datos censurados de tamao m
o
y := (, ) el vector de parmetros. Entonces,
la funcin de verosimilitud de este modelo de espacio de estados est dada por
L(; y
0
) =
_
A
_
R
n
L(; y
0
, z
m
, ) d dz
m
(3)
donde A = z
m
: z
j
y
j
,
m
= 0. Calcular explcitamente la expresin en (3) puede ser
imposible, de aqu que el estimador de mxima verosimilitud de sea difcil de obtener. En
este trabajo, se utiliza el algoritmo EM estocstico para obtener una aproximacin de este
estimador.
3. Algoritmo EM estocstico 3
3. Algoritmo EM estocstico
El algoritmo EM estocstico es una alternativa cuando el clculo del paso E del algoritmo EM
es difcil de obtener. Este algoritmo consta de dos pasos que se realizan de forma iterativa:
el Paso-S, donde los valores perdidos son reemplazados por valores simulados, dados los
valores observados y, el paso M, donde
(i)
es el EMV del modelo completo obtenido. Este
proceso alternado del paso-S y el paso-M genera una cadena de Markov,
(i)
, i = 1, 2, . . .,
la cual converge a su distribucin estacionaria bajo condiciones de regularidad. Diebolt e Ip
(1996) mencionan que esta distribucin estacionaria est aproximadamente centrada en el
EMV de y que su varianza depende de la razn de cambio de
(i)
en las iteraciones del
algoritmo.
4. Distribucin predictiva
Para llevar a cabo el Paso-S, en cada iteracin se obtiene una muestra de p(z [y,
(i)
), lo
que implica conocer a p(
t
[z
(t)
, y
(t)
,
(t)
) y p(
t
[z
(t1)
, y
(t)
,
(t)
). Aplicando el teorema de
Bayes y la suposicin de que la distribucin de Z
t
dado (
t
, z
(t1)
, y
(t)
,
(t)
) no depende de
(z
(t1)
, y
(t1)
,
(t1)
) se tiene que
p(
t
[z
(t)
, y
(t)
,
(t)
) =
p(z
t
[
t
, y
t
,
t
)p(
t
[z
(t1)
, y
(t)
,
(t)
)
p(z
t
[z
(t1)
, y
(t)
,
(t)
)
, (4)
y
p(
t+1
[z
(t)
, y
(t+1)
,
(t+1)
) =
_

p(
t+1
[
t
)p(
t
[z
(t)
, y
(t)
,
(t)
)d
t
. (5)
El denominador en (4) es una constante de normalizacin. Entonces la densidad condi-
cional de Z
t
dado (z
(t1)
, y
(t)
,
(t)
) puede ser calculada de (5) como
p(z
t
[z
(t1)
, y
(t)
,
(t)
) =
_

p(z
t
[
t
, y
t
,
t
)p(
t
[z
(t1)
, y
(t)
,
(t)
) d
t
(6)
Finalmente, la densidad condicional de Z dado (y, , ) puede ser expresada como
p(z [y, , ) =
n
t=1
p(z
t
z
(t1)
, y
(t)
,
(t)
) (7)
donde p(z
1
[z
0
, y
1
,
1
) = p(z
1
[y
1
,
1
).
4 Estimacin con el algoritmo EM de modelos de espacios de estados con observaciones censuradas
5. Ejemplo
Considere el siguiente SSM lineal gaussiano
Y
t
= +
t
+
t
(8)
donde es la media general y
t
iidN(0,
2
), t = 1, 2, . . . , n representa los errores del
modelo (8). Adems, el proceso de estados es un modelo AR(1), i. e.
t
=
t1
+
t
(9)
donde
t
iidN(0,
2
), t = 1, 2, . . . , n, adems
t
y
t
, t = 1, 2, . . . , n son independientes.
En este ejemplo := (,
2
, ,
2
) es el vector de parmetros del modelo (8)(9). En la
Figura 1, se muestra una realizacin de este SSM de tamao n = 500 y := (30, 2, 0.9, 1).
Considere una observacin censurada aquella que sea menor a L
j
, j = 1, 2, 3, donde L
1
= 23.7,
L
2
= 27.09 y L
3
= 29.77. De esta forma, se obtienen el 5, 20 y 50 % de censura en los datos
simulados.
Time
O
b
s
0 100 200 300 400 500
2
0
3
0
Figura 1: Serie de tiempo simulada
Note que para el modelo en (8)(9) la log-verosimilitud de los datos pseudo-completos es
l (; z) =
n
2
log(2)
1
2
n
t=1
log(
t
+
2
)
1
2
n
t=1
(z
t

t
)
2
(
t
+
2
)
donde
t
, t = 1, . . . , n son la predicciones de un paso y
t
es la varianza del error, los cuales
son obtenidos a partir de las recursiones de prediccin de Kalman (Brockwell y Davis, 2002).
5. Ejemplo 5
En este trabajo se realizaron 1600 iteraciones de acuerdo con el criterio de Raftery y Lewis
(Raftery y Lewis 1996) y se eliminaron las primeras 200 iteraciones (burn-in). El resto de la
secuencia generada, da un comportamiento aproximadamente estacionario. En la Figura 2
se observa una convergencia rpida de la cadena generada an con porcentajes de censura
altos. En la Tabla 1 se presentan los estimadores de los parmetros y sus errores estndar
(en parntesis) bajo los diferentes porcentajes de censura.
Figura 2: Grca de autocorrelaciones de ,
2
, y
2
( 5 %, 20 % y 50 % de censura)
6 Referencias
Censurados
2

2
0 % 29.503 2.070 0.921 1.233
(0.027) (0.011) (0.001) (0.011)
5 % 29.573 1.970 0.919 1.156
(0.007) (0.019) (0.001) (0.011)
20 % 29.877 1.809 0.910 0.803
(0.030) (0.089) (0.004) (0.040)
50 % 30.434 1.369 0.863 0.690
(0.074) (0.158) (0.016) (0.102)
Tabla 1: Estimadores y desviaciones estndar para una realizacin del SSM en (8)(9) con por-
centajes de censura en los datos de 5 %, 20 % y 50 %.
6. Conclusin
Se ha implementado el algoritmo EM estocstico para obtener estimadores aproximados de
los estimadores de mxima verosimilitud del modelo de espacios de estados lineal gaussiano
cuando se tienen observaciones censuradas por la izquierda. Con este procedimiento itera-
tivo se obtienen buenos estimadores bajo diferentes porcentajes de censura. Las cadenas de
Markov generadas convergen rpidamente an con porcentajes de censura altos.
Referencias
Brockwell, P. J. y Davis, R. A. (2002) Introduction to Time Series and Forecasting. Second
Edition. Springer, NY.
Dempster A. P., Laird N.M. y Rubin D.B. (1977) Maximun Likelihood from Incomplete Data
Via EM Algorithm. J. R. Stat. Soc. Ser. B, 39, 138.
Diebolt, J. e Ip, E. H. S. (1996) Stochastic EM: Method and Application. En Markov Chain
Monte Carlo in Practice. (eds Gilks, W.R., Richardson, S. y Spiegelhalter, D.J.) London:
Chapman & Hall, pp. 259-273.
Raftery, A.E. y Lewis, S.M. (1996) Implementing MCMC. En Markov Chain Monte Carlo
in Practice. (eds Gilks, W.R., Richardson, S. y Spiegelhalter, D.J.) London: Chapman &
Hall, pp. 115 - 130.
Modelado conjunto de frecuencias y severidades
Gabriel Escarela
a
Universidad Autnoma Metropolitana Iztapalapa
1. Introduccin
En un anlisis de portafolios de seguros el inters se puede centrar en la estimacin de
la distribucin conjunta de los montos correspondientes a dos coberturas de la pliza. En
situaciones prcticas estos datos - conocidos en la literatura de habla inglesa como loss data
- vienen con informacin concomitante de la que se cree que tiene inuencia sobre frecuencia
y severidad de los montos.
Sean X e Y las variables aleatorias correspondientes a los montos de dos tipos de cober-
tura de la pliza. La funcin de distribucin conjunta se dene como
F(x, y) = PrX x, Y y, x, y 0.
La meta de este estudio es la de modelar esta distribucin bivariada en presencia de variables
explicativas.
Como los asegurados pueden no ser indemnizados por alguna de las dos coberturas o
ambas, es necesario denir las siguientes probabilidades de frecuencia:
p
00
= PrX = 0, Y = 0, p
01
= PrX = 0, Y > 0,
p
10
= PrX > 0, Y = 0 y p
11
= PrX > 0, Y > 0.
Ntese que p
00
+p
01
+p
10
+p
11
= 1. Las distribuciones de severidad son:
F
01
(y) = PrY y [ X = 0, Y > 0,
F
10
(x) = PrX x [ X > 0, Y = 0, y
F
11
(x, y) = PrX x, Y y [ X > 0, Y > 0
a
ge@xanum.uam.mx
7
8 Modelado conjunto de frecuencias y severidades
En este estudio se supondr que F
01
, F
10
y F
11
son absolutamente continuas con funciones
de densidad f
01
, f
10
y f
11
respectivamente.
Si x 0 e y 0, se puede demostrar que
F(x, y) = p
00
+p
01
F
01
(y) +p
10
F
10
(x) +p
11
F
11
(x, y).
De esta forma, la estimacin de F(x, y) se reduce a la estimacin conjunta de los modelos
de severidad y frecuencia. En prctica, cuando los asegurados contratan este tipo de plizas
lo hacen con la certidumbre de que recibirn cierto benecio, i.e. hay pocas observaciones
de asegurados a los que no se les indemniza en ninguna de las dos coberturas, por lo que es
conveniente suponer que p
00
= 0.
2. Inferencia y modelado
Sean x
k
e y
k
los montos indemnizados por la k-sima pliza, k = 1, ..., n, y sea z
T
k
=
(1, z
k1
, z
k2
, ..., z
kp
) el vector de variables explicativas correspondiente el cual incluye a la
ordenada al origen. Defnanse los vectores indicadores de esttus como:
c
01,k
= I(x
k
= 0, y
k
> 0), c
10,k
= I(x
k
> 0, y
k
= 0) y c
11,k
= I(x
k
> 0, y
k
> 0),
donde I(A) = 1 si A es verdad y I(A) = 0 de otra forma.
La funcin de verosimilitud es:
L =
n
k=1
[p
01,k
f
01
(y
k
)]
c
01,k
[p
10,k
f
10
(x
k
)]
c
10,k
[p
11,k
f
11
(x
k
, y
k
)]
c
11,k
=
n
k=1
[p
01,k
]
c
01,k
[p
10,k
]
c
10,k
[p
11,k
]
c
11,k
k=1
[f
01
(y
k
)]
c
01,k
[f
10
(x
k
)]
c
10,k
[f
11
(x
k
, y
k
)]
c
11,k
= L
f
L
s
.
De esta forma es posible modelar y analizar a los modelos de frecuencia y severidad en forma
separada.
La presencia de efectos de variables explicativas en las probabilidades de las frecuencias
pueden modelarse usando un modelo logstico multinomial :
p
ij,k
= exp(
T
ij
z
k
)
_
[exp(
T
01
z
k
) + exp(
T
10
z
k
) + exp(
T
11
z
k
)] ,
2. Inferencia y modelado 9
donde ij = 01, 10, 11, y
01
,
10
y
11
son los vectores de coecientes correspondientes. Para
evitar redundancia,
11
= 0.
Cuando se trata de modelar las distribuciones de severidad es importante considerar que
las observaciones apareadas positivamente pueden poseer cierta dependencia. La construccin
de F
11
(x, y) debe de tomar en consideracin cierta asociacin de las variables aleatorias.
El uso de la cpula C
es atractivo para modelar F

11
(x, y) (ver e.g. Klugman y Parsa, 1999).
Una cpula bivariada es una funcin de distribucin conjunta de una pareja aleatoria la
cual toma valores en el cuadro unitario. La denicin de F
11
(x, y) con marginales dadas
F
21
(x) = F
11
(x, ) y F
12
(y) = F
11
(, y) se puede dar por:
F
11
(x, y) = C
[F
21
(x), F
12
(y)] .
Hay situaciones - como la actual - para las cuales es ms fcil encontrar expresiones
analticas para la funcin de supervivencia bivariada:
S
11
(x, y) = PrX > x, Y > y [ X > 0, Y > 0
= C
[S
21
(x), S
12
(y)] .
Aqu S
21
(x) = 1F
21
(x) y S
12
(y) = 1F
12
(y) son las funciones de supervivencia marginales.
La funcin de densidad conjunta f
11
(x, y) correspondiente puede obtenerse fcilmente al
diferenciar S
11
(x, y) con respecto a x e y.
Una cpula conveniente para el presente estudio es la descrita por Frees y Valdez (1998)
como de cola derecha pesada, cuya representacin est dada por:
C
(u, v) = u +v 1 + [(1 u)
1/
+ (1 v)
1/
1]
, > 0. (1)
La aplicacin de sta cpula es atractiva pues tiene poca correlacin en la cola izquierda pero
alta en la derecha; intuitivamente se esperara que entre ms severa sea la indemnizacin de
un tipo de cobertura, la indemnizacin correspondiente al otro tipo tambin.
Para evaluar el grado de concordancia entre los riesgos es posible usar la de Kendall,
cuyo valor para esta cpula es
= 1/(2 + 1).
Para modelar las distribuciones univariadas F
01
, F
10
, F
21
y F
12
es conveniente usar la
familia de distribuciones Burr de tres parmetros cuya funcin de supervivencia es S(t) =
[1 + (t)
]
1/
, donde t > 0 y , , > 0. La eleccin de esta forma paramtrica para
10 Modelado conjunto de frecuencias y severidades
este estudio se debe a su cola derecha pesada. Cuando se usa la cpula en la ecuacin (1) y
marginales Burr para construir la funcin de distribucin conjunta se obtiene la distribucin
Burr descrita por Frees y Valdez (1998), cuya distribucin condicional es Burr tambin.
Para permitir los efectos de las variables explicativas y para asegurar que los parmetros
, y permanezcan positivos, es posible usar una liga log, en forma anloga a como se hace
con los modelos lineales generalizados, de manera tal que = exp
_
a
T
z
_
, = exp
_
b
T
z
_
y = exp
_
c
T
z
_
; aqu, z
T
= (1, z
1
, z
2
, ..., z
p
) es el vector de variables explicativas la cual
incluye a la ordenada, y a, b y c son los vectores de parmetros correspondientes.
Los modelos de frecuencia y severidad no son lineales, por esto es necesario aplicar tcnicas
numricas para encontrar los estimadores de mxima verosimilitud.
Para criticar el ajuste de los modelos de severidad univariados y los condicionales de F
11
cuando sta distribucin es Burr bivariada es posible usar mtodos empleados en el anlisis
de supervivencia. Si T se distribuye Burr entonces log S(T) = (1/) log[1 + (T)
] se
distribuye exponencial con parmetro igual a 1; de esta forma, es posible ordenar los valores
de u = (1/) log[1 +(t)
] en la forma de u
(j)
y entonces gracar
m + 1 j
m + 1
contra exp(u
(j)
), para j = 1, ..., m,
donde m es el nmero de observaciones en cada una de las especicaciones de severidad.
Bsicamente esta es una grca de cuantil contra cuantil.
En general, las severidades que son simultneamente positivas pueden ser evaluadas al
considerar
G(v, w) = PrX > v [ Y < w
=
S
21
(v) S
11
(v, w)
1 S
12
(w)
,
y entonces ordenar v para obtener los estadsticos de orden v
(j)
y as gracar
m + 1 j
m + 1
contra
1
n
m
i=1
G(v
(j)
, w
i
), para j = 1, ..., m,
donde m es el nmero de observaciones donde ambas severidades son estrctamente positivas.
3. Ilustracin 11
edad
f(
e
d
a
d
)
20 30 40 50 60 70
-
2
0
2
4
01
edad
f(
e
d
a
d
)
20 30 40 50 60 70
-
2
0
2
4
10
edad
f(
e
d
a
d
)
30 40 50 60 70
-
1
.0
-
0
.5
0
.0
0
.5
a21
edad
f(
e
d
a
d
)
30 40 50 60 70
-
1
.0
-
0
.5
0
.0
0
.5
a12
edad
f(
e
d
a
d
)
30 40 50 60 70
-
2
-
1
0
1
2
b21
edad
f(
e
d
a
d
)
30 40 50 60 70
-
2
-
1
0
1
2
b12
edad
f(
e
d
a
d
)
30 40 50 60 70
-
0
.4
0
.0
0
.2
0
.4
c21
edad
f(
e
d
a
d
)
30 40 50 60 70
-
0
.4
0
.0
0
.2
0
.4
c12
Figura 1: Estimadores de f(edad) para el modelo de frecuencia y para las marginales de S
11
.
3. Ilustracin
En este estudio se analiz una serie de N = 19827 plizas de gastos mdicos. Los benecios
se clasicaron en medicina y otros gastos. Las variables explicativas son edad y GNERO
(masculino=0; femenino=1). Para visualizar y evaluar los efectos de edad en los dos modelos
de frecuencia y severidad se usaron bases de polinomios ortogonales de edad y as estimar
f(edad) en vez de un slo parmetro el cual supone linealidad.
Se encontr que el gnero es importante y que la regresin polinomial de edad mejora
considerablemente el ajuste en ambos modelos. La Figura 1 muestra las curvas estimadas.
A pesar de que el grado de concordancia en S
11
es modesto (
= 0.1), la inclusin de es
estadsticamente signicativa y el ajuste resultante mejora al de un modelo ms simple como
el que supone independencia. Los diagnsticos indicaron un ajuste relativamente bueno.
12 Referencias
Referencias
Frees, E.W. y Valdez, E.A. (1998). Understanding relationships using copulas, North Amer-
ican Actuarial Journal, 2, 1-25.
Klugman, S.A. y Parsa, R. (1999). Fitting bivariate loss distributions with copulas, Insur-
ance: Mathematics and Economics, 24, 139-148.
Desempeo en muestras complejas de tres
estimadores de regresin del total
Flaviano Godnez Jaimes
a
Unidad Acadmica de Matemticas, Universidad
Autnoma de Guerrero
Ignacio Mndez Ramrez
b
Instituto de Investigaciones en Matemticas Aplicadas y en
Sistemas, UNAM
1. Introduccin
En muchas encuestas la variable de inters, Y , depende de las caractersticas de las unidades
individuales, X
1
, X
2
, . . . , X
p
. Es natural considerar el modelo de regresin lineal (MRL) para
explicar la relacin entre Y y X
1
, X
2
, . . . , X
p
el cual se expresa matricialmente:
E
M
(Y) = X, var
M
(Y) = V
donde X, Y, V y , son matrices de Nxp, Nx1, NxN y px1 de los valores poblacionales de las
variables explicatorias, de la variable respuesta, varianzas y parmetros. Los estimadores de
regresin del total aprovechan la relacin lineal entre Y y X
1
, X
2
, . . . , X
p
y que se conoce X
o al menos los totales poblacionales, 1
T
X. Los principales enfoques de inferencia en muestreo
son: Basado en Modelo (BM) y Asistido por Modelo (AM). En el enfoque BM, el MRL se
usa para motivar el estimador y evaluar sus propiedades (Valliant et al. 2000). En el enfoque
AM, el MRL se usa para motivar el estimador pero sus propiedades se evalan con respecto
al diseo (Srndal, et al. 1992).
Consideremos una poblacin formada por L estratos y cada estrato esta formado por
N
h
conglomerados con N
h
i
elementos h = 1, . . . , L e i = 1, . . . , N
h
. Raj (1968) propuso dos
esquemas de muestreo apropiados para esta poblacin. En el Esquema A de Raj las unidades
a
fgodinezj@gmail.com
b
imendez@servidor.unam.mx
13
14 Desempeo en muestras complejas de tres estimadores de regresin del total
primarias de muestreo (UPM) se toman dentro de cada estrato por muestreo aleatorio sim-
ple sin reemplazo (MASSR) y dentro de las UPM seleccionadas se usa cualquier forma de
muestreo incluso diferente. Es decir, se eligen con MASSR n
h
de las N
h
UPM (
Ii
=
n
h
N
h
y
Iij
=
n
h
(n
h
1)
N
h
(N
h
1)
i, j = 1, . . . , n
h
)) y en cada UPM en la muestra se seleccionan con MASSR n
h
i
de los N
h
i
individuos (
k|i
=
n
h
i
N
h
i
y
kl|i
=
n
h
i
(n
h
i
1)
N
h
i
(N
h
i
1)
k, l = 1, . . . , n
h
i
). En el estrato h, el vector
de probabilidades de inclusion
h
= (
i
)
h
= (
Ii
k|i
)
h
de n = n
h
n
h
i
es [
n
h
N
h
n
h
i
N
h
i
. . .
n
h
N
h
n
h
i
N
h
i
]
T
.
En el Esquema B de Raj las UPM dentro de los estratos se seleccionan con probabilidad
proporcional al tamao con reemplazo (PPT) y cada vez que se extrae una UPM se realiza
el muestreo dentro de ella. Es decir, se seleccionan n
h
de las N
h
UPM con PPT del conglo-
merado con reemplazo y en cada UPM en la muestra se seleccionan n
h
i
de los N
h
i
individuos
con MASSR (
Ii
=
N
h
i
N
(h)
y
Iij
=
N
h
i
(N
h
j
)
N
(h)
(N
(h)
)
con N
(h)
=
N
h
i=1
N
h
i
). En el estrato h, el vector
h
de n
h
n
h
i
es [
n
h
i
N
(h)
. . .
n
h
i
N
(h)
]
T
.
1.1. Estimador de regresin del total basado en modelo
El predictor ptimo para bajo este modelo es

= (X
T
s
V
T
s
X
s
)
1
X
T
s
V
T
s
Y
s
, donde el
subindice s hace referencia a las n observaciones en la muestra correspondientes a X, V
y Y. El total estimado es

T
BM
= 1
T
s
Y
s
+1
T
r
X
r
= g
T
s
Y
s
, donde r indica las Nn observa-
ciones de la poblacion que no estan en la muestra y g
T
s
= 1
T
s
+ 1
T
r
X
r
(X
T
s
V
1
s
X
s
)
1
X
T
s
V
1
s
es el vector de pesos. Valliant et al. (2000) presentan siete aproximaciones de

V (
T
BM
), pero
en este trabajo solo se estudian dos: V
1
(
T
BM
) =
n
h
i=1
g
T
i
(r
i
r
T
i
)g
i
y V
2
(
T
BM
) =
n
h
i=1
a
T
i
(r
i
r
T
i
)a
i
,
donde g
i
, r
i
y a
i
son la parte correspondiente al cluster i en la muestra de g
s
, r
s
= Y
s
X
s
y a
s
= V
1
s
X
s
(X
T
s
V
1
s
X
s
)
1
X
T
r
1
T
r
. Estos estimadores se denotan por VBM1 y VBM2.
1.2. Estimador de regresin del total asistido por modelo
Dado el modelo de trabajo E
M
(Y) = X, var
M
(Y) = V = diag(
2
1

2
N
), el estimador
del total en este enfoque es el estimador de regresin generalizado (GREG) y est dado
por

T
GREG
= 1
T
s
1
s
Y
s
+
_
1
T
X1
T
s
1
s
X
s
_

B donde

B = A
1
s
X
T
s
V
1
s

1
s
Y
s
, A
s
=
X
T
s
V
1
s

1
s
X
s
, V
s
= diag (v
ii
),
s
= diag (
i
), g
isB
= 1 +
_
1
T
X1
T
s
1
s
X
s
_
T
A
1
s
x
i
_
v
ii
.
2. Simulacin y resultados 15
La varianza aproximada estimada es
V (
T
GREG
) =
n
h
i=1
n
h
j=1
_
Iij
Ii
Ij
Iij
_
t
Ei
Ii
t
Ej
Ij
n
h
i=1
1
Ii
_
1
Ii
1
_

V
BEi
+
n
h
i=1
V
BEi
2
Ii
con

V
BEi
=
n
h
i
k=1
n
h
i
l=1
_
kl|i
k|i
l|i
kl|i
_
g
ksB
e
ks
k|i
g
lsB
e
ls
l|i
,

t
Ei
=
n
h
i
k=1
g
ksB
e
ks
_
k|i
y e
ks
= y
k
x
B. Este
estimador se denotar como VAM.
1.3. Estimador de regresin cosmticamente calibrado
Los estimadores calibrados buscan asegurar la consistencia con totales de variables auxiliares
especicadas por el usuario y los estimadores cosmticos se construyen de manera que posean
caractersticas de los estimadores basado en diseo y asistido por modelo. El estimador
cosmticamente calibrado es
T
C
= 1
T
s
1
s
Y
s
+
_
1
T
X1
T
s
1
s
X
s
_ _
X
T
s
Z
1
s
_
1
s
I
s
_
X
s
1
X
T
s
Z
1
s
_
1
s
I
s
_
Y
s
= 1
T
s
Y
s
+
_
1
T
X1
T
s
X
s
_ _
X
T
s
Z
1
s
_
1
s
I
s
_
X
s
1
X
T
s
Z
1
s
_
1
s
I
s
_
Y
s
donde Z
s
es una matriz diagonal de nxn tal que Z
s
1
s
= X
s
. Brewer (2002) aproxima
V (
T
c
) mediante la varianza en diseo del estimador de Horvitz-Thompson y mediante la
varianza en diseo del GREG. En ese libro se sugiere que el mejor estimador de la varianza
es

V (
Y
GREG
) =
n
np
n
i=1
1
i
_
1
i
1
_
_
Y
i
Y
_
2
, al cual denotamos por VCC.
2. Simulacin y resultados
Los datos usados son tomados de Valliant et al. (2000). La variable de inters es la calicacin
de matemticas en tercer grado (Total =1159 382.6) y se consideran 8 variables auxiliares:
sexo, lengua de la prueba hablada en casa (siempre, algunas veces, nunca), etnia (blanco no
hispano, negro, hispano, asitico, nativo americano u otro), inscripcin en la escuela. Los
datos estn distribuidos en cuatro estratos (Regiones: noreste, sur, centro y oeste) y cada
estrato esta formado por conglomerados (135 escuelas distribuidas en 24, 37, 23, 51 en los
estratos). El nmero total de individuos (estudiantes) es de 2 427 distribuidos en las regiones
en 469, 663, 438 y 857.
16 Desempeo en muestras complejas de tres estimadores de regresin del total
Se estudia el efecto del esquema de muestreo (A o B), nmero de UPM (C1, C2 o C3) y
nmero de USM (2 o 6). C1, C2 y C3 se diferencian por el nmero de UPM que se seleccionan
de cada una de las cuatro regiones, en C1 se seleccionan 2, 3, 2 y 3 UPM, mientras que en
C2 se seleccionan 6, 8, 6 y 10 UPM y en C3 se seleccionan 8, 12, 8 y 17. Para comparar los
estimadores se utilizan cuatro criterios: porcentaje de sesgo relativo (PSR)
100

E
_
(
T T)
_
T
_
,
raz de error cuadrtico medio relativo (RECMR)
(
_
E
_
(
T T)
2
_
_
T,
varianza estimada y cubrimiento (bajo normalidad y 1-=0.95).
Se obtuvieron 10 000 muestras con los esquemas estudiados y se calcularon los esti-
madores de regresin estudiados adems de sus estimadores de varianza. En poblaciones con
clusters V
s
no es conocida y/o es difcil de estimar. En la simulacin se supuso que V = I
lo cual es incorrecto pero usual en programas estadsticos no especializados.
Los estimadores estudiados tuvieron menor porcentaje de sesgo relativo y raz de error
cuadrtico medio relativo en el esquema A. En el esquema A, el estimador AM tiene menor
PSR y el estimador BM en el esquema B. El estimador BM tiene ligeramente menor RECMR
que los otros estimadores en ambos esquemas. Como era de esperarse, los estimadores com-
plejos son ms sesgados y tienen mayor RECMR en el Caso 1 que en los otros casos. En el
mismo sentido, siempre es mayor el RECMR de los estimadores con 2 USM que con 6 USM
al igual que el PSR. Los estimadores complejos AM y CC tienen menor PSR con 2 USM en
C2 y C3.
Los estimadores AM y BM generalmente tienen menor varianza estimada con el esquema
B. En el esquema A los mejores estimadores son VBM cuando se usan 2 USM y VCC cuando
se usan 6. En el esquema B es mejor el VAM. Los estimadores tienen mayor varianza en C1.
Siempre es mayor la varianza de los estimadores cuando se toman 2 USM.
Los estimadores AM y BM generalmente tienen mayor cubrimiento con el Esquema A,
esto se explica porque tienen mayor varianza en este esquema. En el Esquema B, el estimador
CC tiene cubrimiento de 1 en C2 y C3 pero esto se debe a que su varianza estimada es muy
3. Conclusiones 17
grande. El mejor estimador es BM, pues tiene mayor cubrimiento y mas cercano al nominal
de 0.95 (ver Tabla 1).
3. Conclusiones
Los datos usados para la simulacin favorecen al esquema A pues el nmero de USM varia
poco (entre 7 y 29), esto causa que las probabilidades de inclusin denidas por el PPT sean
muy semejantes a las de MASSR. Para estos datos, se puede decir que el mejor estimador
es el basado en modelo en el Esquema B donde tuvo menor sesgo relativo, menor raz de
error cuadrtico medio relativo y estimacin moderada de la varianza y cubrimiento. La
comparacin se hace suponiendo que V = I, lo cual es falso. Otras opciones son V = W
1
,
esto es, con la matriz de factores de expansin, o estimando a V mediante las ecuaciones de
estimacin generalizadas.
Referencias
Brewer, K. (2002). Combined Survey Sampling Inference, Weighing Basus Elephants. Lon-
don: Arnold.
Raj, D. (1968). Sampling Theory. McGraw-Hill: New York.
Srndal, C.E., Swensson, B., and Wretman, J. (1992). Model Assisted Survey Sampling. New
York: Springer Verlag.
Valliant, R., Dorfman, A.H. and Royall, R.M. (2000). Finite Population Sampling and In-
ference: A Prediction Approach. New York: John Wiley & Sons, Inc.
18 Referencias
Caso USM A B A/B
a
C1
2 VAM 0.72 0.31 2.33
VBM1 0.71 0.69 1.04
VBM2 0.71 0.68 1.04
VCC 0.80 0.99 0.81
6 VAM 0.80 0.35 2.28
VBM1 0.80 0.78 1.03
VBM2 0.80 0.77 1.03
VCC 0.72 0.99 0.73
C2
2 VAM 0.90 0.70 1.28
VBM1 0.90 0.87 1.04
VBM2 0.90 0.86 1.04
VCC 0.90 1.00 0.90
6 VAM 0.92 0.73 1.25
VBM1 0.94 0.90 1.04
VBM2 0.92 0.88 1.05
VCC 0.80 1.00 0.80
C3
2 VAM 0.93 0.83 1.11
VBM1 0.94 0.88 1.06
VBM2 0.93 0.87 1.06
VCC 0.93 1.00 0.93
6 VAM 0.94 0.88 1.06
VBM1 0.96 0.92 1.04
VBM2 0.93 0.89 1.05
VCC 0.82 1.00 0.82
a
Cubrimiento A/Cubrimiento B
Tabla 1: Cubrimiento con las varianzas estudiadas en ambos esquemas
Una generalizacin de la prueba de
Shapiro-Wilk para normalidad multivariada
Elizabeth Gonzlez Estrada
a
, Jos A. Villaseor Alva
b
1. Introduccin
En la literatura se encuentra un nmero considerable de formas de valorar la hiptesis de
normalidad multivariada. Algunas referencias recientes son Szkely y Rizo (2005) y Farrell et
al. (2007) y la revisin hecha por Mecklin y Mundfrom (2005). Mecklin y Mundfrom (2005)
y Farrell et al. (2007) recomiendan la prueba de Henze y Zirkler (1990) como prueba formal
para normalidad multivariada. Las pruebas de Mardia (1970) son las pruebas clsicas para
normalidad multivariada.
Es bien conocido que la prueba de Shapiro-Wilk es una de las mejores pruebas para nor-
malidad univariada. Con el propsito de obtener una prueba para normalidad multivariada
que herede las buenas propiedades de potencia de la prueba de Shapiro-Wilk, en este trabajo
usamos la estadstica de Shapiro-Wilk como base para construir una prueba de bondad de
ajuste para la distribucin normal multivariada despus de estandarizar empricamente las
observaciones.
2. Prueba de Shapiro-Wilk (SW)
Sean x
1
, ..., x
n
las observaciones de una muestra aleatoria (m.a.) de tamao n y sean x
(1)
<
x
(2)
< ... < x
(n)
las estadsticas de orden correspondientes.
a
eliza_ge@yahoo.com.mx
b
jvillasr@colpos.mx
19
20 Una generalizacin de la prueba de Shapiro-Wilk para normalidad multivariada
Para probar normalidad univariada, Shapiro y Wilk (1965) proponen la estadstica
W
X
=
_
n
i=1
a
i
x
(i)
_
2
/
n
i=1
(x
i
x)
2
(1)
donde x =
1
n
n
i=1
x
i
y a
i
, i = 1, 2, ..., n, son ciertas constantes.
Se rechaza normalidad con un tamao de prueba si W
X
< k
, donde k
denota el
percentil 100% de la distribucin de W
X
bajo la hiptesis nula.
Usando simulacin, Royston (1992) encuentra que bajo la hiptesis de normalidad la cola
superior de la distribucin de log(1 W
X
) se puede ajustar con una distribucin normal con
parmetros
n
= 1.5861 .31082y 0.083751y
2
+.0038915y
3
,
n
= exp
_
.4803 .082676y +.0030302y
2
_
donde y = log n y el tamao de muestra n es tal que 11 < n < 2000.
3. Generalizacin de la prueba de Shapiro-Wilk para nor-
malidad multivariada
Sea X
1
, X
2
, ..., X
n
una m.a. pvariada de tamao n > p 1. Sea N
p
(, ) la funcin
de densidad normal pvariada con parmetros vector de medias y matriz de varianzas y
covarianzas .
Aqu se propone una prueba para el juego de hiptesis
H
0
: X
1
, X
2
, ..., X
n
es m.a. de N
p
(, ) contra H
1
: X
1
, X
2
, ..., X
n
no es m.a. de N
p
(, ) ,
donde y son desconocidos, con base en la siguiente caracterizacin de la distribucin
normal multivariada.
Proposicin 1.1. X N
p
(, ) si y slo si Z =
1/2
(X) N
p
(0, I), donde 0 es
el vector de ceros de orden p e I es la matriz identidad de orden p p.
Sean X y S el vector de medias y la matriz de covarianzas muestrales. Adems, sea S
1/2
la matriz raiz cuadrada positiva denida simtrica de S
1
, la matriz inversa de S.
4. Estudio de potencia 21
Cuando X
1
, X
2
, ..., X
n
es una m.a. de N
p
(, ), se espera que los vectores aleatorios
Z
j
= S
1/2
_
X
j
X
_
, j = 1, 2, ..., n, (2)
tengan distribucin cercana a la N
p
(0, I), por lo que se espera que las coordenadas de Z
j
,
denotadas por Z
1j
, ..., Z
pj
, sern aproximadamente independientes con distribucin normal
estndar univariada.
Para probar normalidad multivariada se propone la estadstica
W
=
1
p
p
i=1
W
Z
i
, (3)
donde W
Z
i
es la estadstica de Shapiro-Wilk evaluada en la isima coordenada de las
observaciones transformadas en (2).
Bajo H
0
, se espera que W
tome valores cerca de 1 ya que tambin se espera que cada

W
Z
i
, i = 1, ..., p, tomar valores cercanos a uno.
Se rechaza H
0
con un tamao de prueba si W
< c
;n,p
, donde c
;n,p
es tal que:
= P W
< c
;n,p
[ H
0
es verdadera .
La distribucin de W
bajo H
0
no depende de (, ) ya que es una funcin de las obser-
vaciones estandarizadas (Henze y Zirkler, 1990) y se puede obtener usando simulacin de
Monte Carlo.
3.1. Ajuste de la distribucin de W
La cola superior de la distribucin de W
1
= log (1 W
) se puede ajustar por una distribu-

cin normal con varianza
2
1
= log
_
p 1 +e
2
n
p
_
y media
1
=
n
+
1
2
2
n
1
2
2
1
.
Por lo tanto, c
;n,p
= 1 exp
1
+
1
1
(1 ), en donde
1
denota la inversa de la
funcin de distribucin normal estndar (Villaseor-Alva y Gonzlez-Estrada, 2008).
4. Estudio de potencia
La prueba propuesta se compar con las pruebas MS y MK de Mardia (1970), T
.5
de Henze
y Zirkler (1990), W
F
de Mudholkar, Srivastava y Lin (1995) y M
1
Srivastava y Hui (1987).
22 Referencias
La potencia de las pruebas se estim usando simulacin de Monte Carlo. Se simularon
5 000 muestras pseudo aleatorias de tamao n = 20, 50 de dimensin p = 2, 5 de cada
distribucin alternativa. Se eligi un tamao de prueba = 0.05.
En el Cuadro 1 se consideraron distribuciones alternativas p-variadas con marginales in-
dependientes con distribucin f, denotadas como f
p
, donde f es alguna de las distribuciones
siguientes: logstica, sum-estable, t de Student, beta, doble exponencial, gama y chi cuadra-
da las cuales se denotan como Logistic, S-Stab(, ), t
k
, B(, ), Dexp(, ), G(, ),
2
v
,
respectivamente.
Tambin se incluyeron alternativas de la forma f
pk
1
f
k
2
, la cual denota una distribucin
pvariada con p k marginales con distribucin f
1
y k marginales con distribucin f
2
,
k = 1, 2. Adems, se consideraron distribuciones alternativas esfricas con generador g,
denotada como SPH(g), Pearson tipo VII (PSVII
p
(a)) y mezclas de distribuciones normales
pvariadas de la forma N
p
(0, R
1
) y N
p
(, R
2
) donde = (1, 1, ..., 1)
, ', y R
i
es una
matriz con elementos de la diagonal iguales a uno y elementos fuera de la diagonal iguales a
r
i
, i = 1, 2 con parmetro de mezcla igual a k y se denota como NMIX(k, , r
1
, r
2
).
5. Conclusiones
La generalizacin propuesta de la prueba de Shapiro-Wilk (W
) para probar normalidad

multivariada es fcil de usar porque se pueden calcular los valores crticos para cualquier n
y p usando la distribucin univariada normal estndar.
En muchos casos W
resulta ser ms potente que las pruebas recomendadas para probar

normalidad multivariada.
La distribucin de W
no depende de y .
En dimensin 1, W
se reduce a la estadstica W de Shapiro-Wilk.

Referencias
Farrell, P. J., Salibian-Barrera, M. and Naczk, K. (2007). On tests for multivariate normality
and associated simulation studies. Journal of Statistical Computation and Simulation
(77), 12: 1065-1080.
Referencias 23
Henze, N. and Zirkler, B. (1990). A class of invariant consistent tests for multivariate nor-
mality. Communications in Statistics: Theory and Methods 19 (10):3595-3617.
Mardia, K.V. (1970). Measures of multivariate skewness and kurtosis with applications.
Biometrika 57: 519-530.
Mecklin, C.J. and Mundfrom, D.J. (2005). A Monte Carlo comparison of the Type I and
Type II error rates of tests of multivariate normality. Journal of Statistical Computation
and Simulation, 75 (2): 93-107.
Mudholkar, G., Srivastava, D. and Lin, C. (1995). Some p-variate adaptations of the Shapiro-
Wilk test of normality. Communications in Statistics: Theory and Methods, 24 (4): 953-
985.
Royston, P. (1992). Approximating the Shapiro-Wilk W test for non-normality. Statistics
and Computing 2:117-119.
Shapiro, S.S. and Wilk, M.B. (1965). An analysis variance tests for normality (complete
samples). Biometrika 52(3): 591-611.
Srivastava, M.S. and Hui, T.K. (1987). On assessing multivariate normality based on Shapiro-
Wilk W statistic. Statistics and Probability Letters, 2, 263-267.
Szkely, G.J. and Rizzo, M.L. (2005). A new test for multivariate normality. Journal of
Multivariate Analysis, 93 (1): 58-80.
Villaseor-Alva, J.A. and Gonzlez-Estrada, E. (2008). A generalization of Shapiro-Wilks
test for multivariate normality. Comm. in Stat.: Theory and Methods (por aparecer).
24 Referencias
Alternativa T
0.5
MS MK M
1
W
F
W
N(0,1)
5
5 4 2 1 5 5
N(100,.0001)*N(100,10)
4
6 4 2 1 42 5
Dexp
5
74 68 81 38 91 93
Logistic
5
28 30 31 10 40 42
t
5
5
58 61 64 34 73 75
S-stab(1.75)
5
89 89 91 NA 93 94
B(1,1)
5
2 0 39 1 99 100
G(5,1)
5
80 68 28 30 96 98
(
2
15
)
5
61 47 18 17 83 86
N(0,1)
4
*S-Stab(1.5) 60 59 55 NA 67 71
N(0,1)
4
*t
5
16 16 12 12 20 23
N(0,1)
4
*B(1,1) 4 2 1 4 16 19
N(0,1)
4
*
2
5
33 25 10 45 48 61
N(0,1)
3
*S-Stab(1.5)
2
85 82 84 NA 91 93
N(0,1)
3
t
2
5
27 27 24 19 37 40
N(0,1)
3
*B(1,1)
2
4 1 1 4 38 48
N(0,1)
3
*(
2
5
)
2
65 51 20 61 85 93
SPH(G(5,1)) 60 57 69 21 29 28
SPH(B(1,1)) 88 59 93 46 65 66
SPH(B(1,2)) 100 98 100 93 97 96
PSVII(5) 88 87 92 63 62 60
PSVII(10) 28 30 30 10 14 15
NMIX(.5,2,0,0) 6 2 1 38 5 5
NMIX(.75,2,0,0) 26 7 1 67 9 5
NMIX(.75,2,.9,0) 100 100 100 96 95 98
NMIX(.75,2,0,.9) 91 89 20 94 37 39
Tabla 1: Potencia de las pruebas para NMV en % (p=5, n=50, =0.05)
Ecuaciones diferenciales en la modelacin de
datos funcionales
Mara Guzmn Martnez
a
, Eduardo Castao Tostado
Universidad Autnoma de Quertaro
1. Introduccin
Datos funcionales son resultado de experimentos u observaciones en mltiples contextos. Un
dato funcional se conceptualiza a partir de un conjunto de observaciones del que es factible
suponer que surge del registro (discreto) de una funcin subyacente en el fenmeno de inters.
El presente trabajo expone una aplicacin de la teora y de los programas de cmputo
para modelar datos funcionales, en particular en casos en que pueden ser descritos por medio
de una ecuacin diferencial ordinaria. Esta teora y sus programas computacionales genricos
fueron desarrollados por Ramsay y Silverman (2005).
La aplicacin se realiza sobre el Indicador Global de la Actividad Econmica Mexicana,
a partir del adecuamiento especco de los programas de cmputo disponibles.
En las secciones dos y tres se describe la metodologa de utilizada y en la seccin cuatro
se da la aplicacin de sta. Este trabajo es parte de la tesis para obtener el ttulo de Licen-
ciatura en Matemticas Aplicadas del primer autor.
a
marnezmar@yahoo.com.mx
25
26 Ecuaciones diferenciales en la modelacin de datos funcionales
2. Ecuaciones diferenciales ordinarias en el anlisis de
datos funcionales
Una ecuacin diferencial ayuda a entender el comportamiento dinmico de una funcin da-
da x(t); as, teora bsica puede sugerir que bajo ciertas condiciones un fenmeno debe ser
aproximadamente regido por una ecuacin diferencial en particular. Sin embargo en mu-
chos casos, x(t) no es conocida sino slo a travs de datos del fenmeno x
j
= x (t
j
) + (t
j
),
j = 1, . . . , n; en tales circunstancias, en primer lugar se debe estimar x (t); en segundo lugar
estimar los coecientes de la ecuacin diferencial sugerida por la teora, y nalmente diag-
nosticar el grado de ajuste de x (t) estimada a la ecuacin diferencial. Este tipo de anlisis
recibe el nombre de Anlisis Diferencial Principal de datos funcionales (ADP).
3. Estimacin de operadores diferenciales en el anlisis
de datos funcionales
Una ecuacin diferencial ordinaria de orden m, con coecientes variables es
D
m
x(t) +
m1
(t)D
m1
x(t) + +
1
(t) Dx(t) +
0
(t) x(t) = 0, (1)
donde D
m
(x(t)) =
d
m
x(t)
dt
m
.
Si se denota por L = D
m
+
m1
(t)D
m1
+ +
1
(t) D+
0
(t), la ecuacin (1) se reduce
a
Lx(t) = 0
Sabemos que si
1
,
2
, ...,
m
son las m soluciones linealmente independientes de Lx(t) = 0,
entonces c
1
1
(t) +c
2
2
(t) + +c
m
m
(t) es tambin una solucin de Lx(t). El conjunto de
todas las funciones para el cual L
j
= 0, es llamado el espacio nulo de L y se denota con
ker L; de hecho las funciones forman una base para este espacio.
La ecuacin (1) tambin puede ser escrita como
D
m
x(t) =
m1
j=0
j
(t)D
j
x(t)
3. Estimacin de operadores diferenciales en el anlisis de datos funcionales 27
En muchas circunstancias prcticas al aplicar L a x(t) se obtiene Lx(t) = f(t) ,= 0; la
funcin f(t) recibe el nombre de funcin forzada o residual funcional.
En aplicaciones se cuenta con datos x
1
, . . . , x
n
, que bajo el paradigma del anlisis de datos
funcionales, provienen de un modelo subyacente
x
j
= x (t
j
) + (t
j
) .
Entonces, antes de un ADP es requerido estimar x (t); con tal n es til pensar en que
x(t) =
K
k=1
a
k
k
(t)
donde
k
(t) es un conjunto dado de funciones base; entonces obtener x (t) es equivalente
a estimar a
k
. Una vez hecho lo anterior, lo que se busca es estimar un operador diferencial
L de orden m de inters en la aplicacin, tal que bajo condiciones ideales
L x(t) = 0.
En general se tienen N observaciones funcionales x
i
(t) generadas de un conjunto de datos
x
ij
, i = 1, ..., N y j = 1, ..., n; y las funciones
j
pueden ser estimadas usando el criterio de
ajuste para cada t
mn
L
PSSE
L
(t) =
N
i=1
|L x
i
(t)|
2
=
N
i=1
__
m1
j=0
j
(t)D
j
+D
m
_
x
i
(t)
_
2
(2)
el problema se resuelve por mnimos cuadrados. Denimos un vector de coecientes de di-
mensin m
(t) = (
0
(t), ...,
m1
(t))
;
tambin se dene la matriz de diseo Z para cada t, de orden N (m + 1) con renglones
z
i
(t) = x
i
(t), ..., D
m1
x
i
(t);
por ltimo denimos el vector y de dimensin N con elementos
y
i
(t) = D
m
x
i
(t)
Con estas deniciones podemos expresar el criterio (2) en trminos matriciales como
mn
PSSE
L
(t) = [y(t) Z(t)(t)]
[y(t) Z(t)(t)].
28 Ecuaciones diferenciales en la modelacin de datos funcionales
As
(t) = [Z(t)
Z(t)]
1
Z(t)
y(t).
4. Aplicacin
El ndice Econmico Global de Mxico permite monitorear la evolucin del nivel de desarrollo
econmico de Mxico. Los datos mensuales de este ndice de 1993 al 2005 se muestran como
puntos en la grca de la Figura 1. De la observacin de esta grca, se pueden apreciar un
Figura 1: Grca de los valores discretos
componente de largo plazo, un componente estacional anual y variaciones propias de cada
ao observado. El ADP de este conjunto de datos result en lo siguiente:
1. x(t) estimada a partir de los datos discretos se muestra en la Figura 1. En este caso x(t)
fue estimado mediante un spline generado por segmentos de polinomios de grado 7.
4. Aplicacin 29
2. Lo que se busca es una ecuacin diferencial lineal de la forma
0
(t)x(t) +... +
m1
(t)D
m1
x(t) +D
m
x(t)
a partir de la funcin x(t). Como se mencion, del ndice bajo estudio se pueden
observar tres componentes de variacin, por lo que se propone el siguiente operador
diferencial, despus de algo de experimentacin
D
3
x(t) =
0
(t)x(t)
1
(t)x(t)
2
D
2
x(t)
es decir con dos coecientes variables y uno constante.
3. Se estiman los

j
; estos se muestran en la Figura 2.
Figura 2: Coecientes estimados
4. A partir de los

j
, se construye la ecuacin
L =

0
(t)x(t) +

1
(t)x(t) + 1.19D
2
x(t) +D
3
x(t).
30 Referencias
Al hacer L = 0 y dado que este operador es de orden 3, se tienen tres soluciones
linealmente independientes, que se muestran en la Figura 3.
De stas generamos una combinacin lineal, para obtener la funcin x
L
(t) como la funcin
estimada de la regresin lineal
x
L
(t) = c
1
1
(t) +c
2
2
(t) +c
3
3
(t) +;
as x
L
(t) mejora a la funcin x(t), tal y como lo podemos ver en la Figura 4.
1. Dado que L x
L
(t) = f ,= 0, se tiene un residual" funcional f que se muestra en la
Figura 5.
Como se puede apreciar el ADP abre posibilidades de trabajar estadsticamente en el
estudio de comportamientos dinmicos de fenmenos de inters.
Referencias
INEGI, Indicador Global de la Actividad Econmica. Revisado Octubre 7, 2007 de
http://dgcnesyp.inegi.gob.mx/cgi-win/bdieintsi.exe/Consultar.
Ramsay J.O. and Silverman B.W. (2005). Functional Data Analysis. United States of Amer-
ica: Springer.
Shepley R.L.(1984) Introduccin a las Ecuaciones Diferenciales. Interamericana, tercera edi-
cin.
Referencias 31
Figura 3: Soluciones estimadas
Figura 4: Modelo diferencial estimado
32 Referencias
Figura 5: Residual funcional
Modelo de decremento mltiple
semiparamtrico para datos de supervivencia
*
Anglica Hernndez Quintero
b
Jean Franois Dupuy
c
Universit Paul Sabatier 3, Francia
Gabriel Escarela
d
1. El modelo de mezclas semiparamtricas
En varias disciplinas tales como la bioestadstica y la ciencia actuarial es comn encontrar
datos de decremento mltiple, los cuales consisten de observaciones de duraciones de un punto
origen a la ocurrencia de un evento en particular que -a su vez- puede ser clasicado en J
categoras mutuamente excluyentes; es posible que los datos tambin incluyan observaciones
censuradas por la derecha, las cuales son duraciones que no han alcanzado la ocurrencia del
evento al nal del seguimiento. El anlisis de datos de decremento mltiple provee un marco
general para la prediccin de la ocurrencia de cierto evento en el tiempo t en presencia de
otros tipos de eventos.
El propsito de este trabajo es el estudiar las propiedades asintticas de un mode-
lo semiparamtrico de mezclas el cual extiende las ideas del modelo de Cox de una sola
clasicacin del evento para datos de supervivencia. Sea T
j
el tiempo de ocurrencia del
evento de tipo j, j = 1, ...J, y T = mn(T
1
, T
2
, ..., T
J
) el tiempo de la primera ocur-
rencia del evento por cualquier causa. Es posible especicar a la funcin de superviven-
cia global, denida como S
T
(t) = PrT > t, en trminos de una mezcla de las fun-
ciones de supervivencia condicionales, las cuales pueden ser especicadas con el modelo
*
Trabajo realizado con el auspicio del proyecto CONACYT-ANUIES-ECOS, No. M06-M01
b
angyka302@gmail.com
c
dupuy@cict.fr
d
ge@xanum.uam.mx
33
34 Modelo de decremento mltiple semiparamtrico para datos de supervivencia
de riesgos proporcionales de Cox de manera tal que S
T
(t; x) =
J
j=1
p
j
S
j
(t; x), donde
S
j
(t; x) = PrT > t [ T = T
j
; x = exp
_
j0
(t)e
j
x
_
, x = (x
1
, x
2
, ..., x
p
) es el vector
de variables explicativas,
j
su vector de coecientes y p
j
= PrT = T
j
es la probabilidad
de que el evento sea de tipo j, donde
J
j=1
p
j
= 1; una forma conveniente para modelar esta
probabilidad es suponer que la causa de muerte especca tiene distribucin multinomial
siguiendo el modelo, p
j
(z) = exp(
j
z)
_
J
l=1
exp(
l
z), donde z = (1, z
1
, ..., z
q
) es el vector
de variables explicativas y
j
es el correspondiente vector de coecientes para la causa j (Cox
and Snell, 1989). Para evitar redundancia se toma
J
igual a cero. Obsrvese que el vector
z puede contener algunas o todas las variables explicativas del vector x, as como tambin
otras variables que no estn incluidas en x.
1.1. Inferencia a travs del algoritmo EM
Sea T
ij
el tiempo de supervivencia del j-simo tipo de evento para el i-simo individuo,
i = 1, ..., n. El conjunto de datos a analizar es X
i
, c
ij
, donde X
i
= mn(T
i
, C
i
), T
i
es el
tiempo de ocurrencia del primer evento para el i-simo individuo, C
i
es el tiempo de censura,
c
ij
es la matriz indicadora de estatus denida como c
ij
= I(T
i
= T
ij
) y c
i.
=
J
j=1
c
ij
. Para
evitar ambigedad, se asumir que para todo j ,= k, T
ij
,= T
ik
.
Como existen observaciones incompletas, debido a que existen individuos que presenta
censura, defnase una nueva variable
ij
la cual toma el valor de 1 si el individuo i muere
de la causa j y en cualquier otro caso toma el valor 0. Obsrvese que si c
i
= 1 entonces
ij
= c
ij
para todo j; sin embargo, si c
i
= 0, entonces
ij
es indenida para toda j. Por lo
tanto p
ij
= p
j
(z
i
) = Pr
ij
= 1 [ z
i
y la matriz G = [
ij
], son parcialmente observadas lo
que permite usar el algoritmo EM, como lo propone Dempster et al., (1997). La funcin de
verosimilitud completa para n individuos puede ser escrita como,
L
C
=
n
i=1
__
J
j=1
[p
ij
f
j
(t
i
)]
c
ij
ij
_
_
J
j=1
[p
ij
S
j
(t
i
)]
(1c
i.
)
ij
__
.
El paso E, calcula la esperanza de log L
C
, la cual es igual a l
p
+l
S
denidas como,
2. Normalidad asinttica 35
l
p
=
n
i=n
J
j=1
g
ij
log(p
ij
) y
l
S
=
n
i=n
J
j=1
c
ij
_
log(
j0
(t
i
)) +
j
x
i
g
ij
j0
(t) exp
j
x
i
, (1)
donde g
ij
es la esperanza de
ij
dadas las estimaciones de p
ij
y S
ij
y cuyo valor es g
ij
=
c
ij
+ (1 c
i
)w
ij
; aqu, w
ij
= Pr
ij
[ T > t
i
= p
ij
S
j
(t
i
)
_
J
l=1
p
il
S
l
(t
i
). Para cada causa
j sean t
j,1
< ... < t
j,k
j
los distintos tiempos de muerte observados. Una aproximacin de la
ecuacin (1) puede ser la propuesta por Breslow (1974):
l
S
log
_
_
_
J
j=1
k
j
l=1
exp
_
j
s
j,l
_
_
mR
j,l
g
mj
exp
_
j
x
m
_
_
d
j,l
_
_
_
, (2)
donde s
j,l
=
x
i
es la suma de las covariables de individuos que mueren de la causa j
al tiempo t
j,l
, d
j,l
denota el nmero de muertes por la causa j al tiempo t
j,l
y R
j,l
denota
el conjunto de individuos en riesgo antes de t
j,l
. El paso M involucra la maximizacin de
la funcin log-verosimilitud en la ecuacin (2). Usando el estimador de producto lmite,
entonces el estimador de la funcin de supervivencia condicional es expresada como:
S
j0
(t) = exp
_
_
_
m:t
j,(m)
<
d
jm
mR
jm
g
mj
exp(
j
x
m
)
_
_
_
.
2. Normalidad asinttica
Sea

=
_
(
j
,
j
,

j
), j = 1, ..., J
_
el vector de estimadores. Para demostrar la normalidad
asinttica, es posible basarse en la idea propuesta por Murphy (1995) y en la teora de pro-
cesos empricos. En primera instancia, considrense submodelos unidimensionales respecto a
los estimadores; esto es, el nuevo vector de parmetros toma la forma
t
=
_
(
j
+th
j
,
j
+th
j
,
_

0
(1 +th
j
(s))d
j
(s), j = 1, ..., J
_
,
con (h
j
, h
j
, h
j
) H = (h
j
, h
j
, h
j
)[h
j
R
p
, h
j
R
q
, y h
j
es una funcin de
variacin acotada en [0, ], donde es el tiempo nal de observacin del estudio.
36 Modelo de decremento mltiple semiparamtrico para datos de supervivencia
Proposicin 2.1. La derivada emprica puede ser expresada como
S
n
=
J
j=1
_
S
n
j
()(h
j
) +h
j
S
n
j
+h
j
S
n
j
_
,
donde, S
n
(h) =
1
n
t
L
n
(
t
)[
t=0
y
S
n
j
()(h
j
)(s) = P
n
_
c
j
h
j
()
_

0
h
j
(s)d
j
(s)e
x
E
[g
j
]
_
,
S
n
j
() = P
n
_
c
j
x xe
j
x
E
[g
j
]
j
()
_
,
S
n
j
() = P
n
_
E
[g
j
]z
J
k=1
E
[g
j
]ze
k
z
J
l=1
e
l
x
_
.
Defnase la siguiente norma:
|h|
H
=
J
j=1
_
_
_h
j
_
_
_ +
_
_
h
j
_
_
+
_
_
h
j
_
_
V
,
donde
_
_
h
j
_
_
V
=
j
(0)
+
_
dh
j
(0)
y || es la norma Euclidiana. El siguiente resultado

conrma que los estimadores son asintticamente normales.
Teorema 2.1. Sea 0 < r < , la sucesin
__
n(
j,n
j
),
n(
j,n
j
),
n(
j,n
j
)
_
, j = 1, ..., J
_
converge en
(H
r
) a un proceso gaussiano centrado G con covarianza
Cov[G(g), G(g
)] =
J
j=1
__

0
g
j
(u)
1
j
,
0
(g
)(u)d
j
(u) +
1
j
,
0
(g
)g
j
+
1
j
,
0
(g
)g
j
_
,
donde
1
0
=
_
(
1
j,
0
,
1
j,
0
,
1
j,
0
), j = 1, ..., J
_
es un operador lineal continuamente invert-
ible de
0
, el cual va de H
a H
y est denido por
j,
0
(h) =
_

0
h
j
(s)d
j,0
(s)e
j,0
x
xE
0
[g
j
] +xe
j,0
x
x
0
[g
j
]
j,0
()h
j
,
j
,
0
(h) =
J
k=1
E
0
[g
k
]
_
ze
j,0
z
z
_
h
J
l=1
e
l,0
z
J
l=1
h
l
e
l,0
z
__
_
J
l=1
e
l,0
z
_
2
,
j
,
0
(h)(u) = h
j
(u)I
{uT}
e
j,0
x
E
0
[g
j
] +xe
j,0
x
E
0
[g
j
]h
j
I
{uT}
.
2. Normalidad asinttica 37
La demostracin de este resultado est basado en el teorema dado por Van der Vaart
y Wellner (1996); aqu slo es necesario que las condiciones de ste sean satisfechas por los
estimadores. Los siguientes lemas demuestran que cada una de las condiciones se cumplen.
Lema 2.1. Para cualquier r nito existe un operador lineal continuo

S
0
(
0
) : lin
(H
r
) tal que
_
_
_S
0
() S
0
(
0
)

S
0
(
0
)(
0
)
_
_
_
r
= o
r
(|
0
|
r
)
cuando |
0
|
r
0. Adems, la derivada emprica

S
0
(
0
) puede ser expresada como:
0
(
0
)()(h) =
J
j=1
_
_

0
j
,
0
(h)(u)d
j
(u)
j
,
0
(h)
j
,
0
(h)
_
.
La demostracin del Lema 2.1 se basa en la caracterizacin de la diferenciabilidad de
Frchet y en el desarrollo de S
0
(
0
+) en serie de Taylor de primer orden alrededor
0
x.
Lema 2.2. Para cualquier r nito

n
_
S
n,
0
(
0
) S
0
(
0
)
_
converge en ley a un proceso
gaussiano centrado G sobre
(H
r
) con covarianza
Cov[G(h), G(h
)] =
J
j=1
__

0
h
j
(u)
j
,
0
(h
j
)d
j
(u) +
j
,
0
(h
j
)h
j
+
j
,
0
(h
j
)h
j
_
.
Para demostrar el Lema 2.2 es posible vericar que

n
_
S
n,
0
(
0
) S
0
(
0
)
_
se puede
expresar como:
1
n
n
i=1
J
j=1
_
h
j
S
(i)
n
j
(
0
) +h
j
S
(i)
n
j
(
0
) +c
ij
h
j
() +
_

0
h
(s)
d
j
(s)e
j
x
i
E
n
[g
ij
]
_
,
la cual es una clase Donsker y por lo tanto
nS
n,

n
(
n
) converge en distribucin a un proceso
gaussiano G con media cero en
(H
r
). Adems,
Cov (G(h), G(h
)) = E
0
_

2
st
L
0
(
0,s,t
)[
s=t=0
_
=

s
S
0
(
0,s
)(h) =
0
(
0
)(h
)(h),
donde
0,s
= (
0,s
,
0,s
,
0,s
) con
0,s
=
0
+ sh
,
0,s
=
0
+ sh
y
0,s
() =
_
0
(1 +
sh
(u))d
0
(u)
Lema 2.3. Para cualquier r nito

S
0
(
0
) es continuamente invertible sobre su rango.
38 Referencias
La demostracin de que

S
0
(
0
) sea continuamente invertible equivale a demostrar que
existe algn l > 0 tal que
nf
_
_
_
0
(
0
)()
_
_
_
r
||
r
> l.
Como
0
es un operador continuamente invertible de H
en H
, y como
0
es un operador
inyectivo el cual puede ser expresado como suma de un operador continuamente invertible y
un operador compacto, la continuidad invertible queda demostrada.
Referencias
Breslow, N.E.(1974). Covariance analysis of censored survival data, Biometrics, 30, 89-100.
Cox, D.R and Snell, E.J. (1989). Analysis of Binary Data, 2nd ed., Chapman and Hall
London.
Dempster, A.; Laird, N.M., and Rubin, D. B. (1997). Maximum likelihood from incomplete
data via the EM algorithm (with discussion). Journal of the Royal Statistical Society, 39,
1-38.
Murphy, S.A. (1995). Asymptotic theory for the frailty model. The Annals of Statistics, 23,
182-198.
Van der Vaart, A.W. and Wellner, J.A. (1996) Weak convergence and empirical processes.
Springer, New York.
Modelado atmosfrico para determinar niveles
mximos diarios de ozono en la ciudad de
Guadalajara
Lorelie Hernndez Gallardo
a
, Gabriel Escarela
b
1. Introduccin
En trminos de la Organizacin Mundial de la Salud, niveles de ozono superiores a 100 g/m
3
(microgramos de ozono por metro cbico de aire) pueden ser riesgosos a la salud. Para
poder predecir una concentracin peligrosa de contaminantes y as proteger a la poblacin
vulnerable con cierta anticipacin, es necesario crear una metodologa que pueda indicar
cuan probable es que ocurra dicha concentracin. Los mecanismos qumicos que controlan
la formacin del ozono troposfrico son complejos y las voltiles condiciones meteorolgicas
contribuyen a la dicultad de predecir periodos de ozono alto con exactitud. Es bien sabido
que la variacin de los niveles de contaminantes corresponde a varias razones, entre las ms
importantes se encuentran los cambios anuales de condiciones meteorolgicas y el incremento
de diversas fuentes contaminantes; tambin se sabe que temperaturas altas junto con bajas
velocidades de viento estn asociadas con niveles altos de ozono. El propsito del presente
estudio es proponer una tcnica estadstica que pueda usar tanto informacin no estacionaria
como atmosfrica para la prediccin de los mximos diarios de ozono; en particular, se
extienden ideas bien establecidas en la literatura de la teora del valor extremo y se ilustra
con el ajuste de datos de la ciudad de Guadalajara.
a
heilerol@yahoo.com.mx
b
ge@xanum.uam.mx
39
40 Modelado atmosfrico para determinar niveles mximos diarios de ozono en la ciudad de Guadalajara
2. Denicin del modelo
Este estudio considera el problema de extender series de tiempo gaussianas autorregresivas
a un marco de respuestas de valor extremo. Especcamente, se adopta la metodologa prop-
uesta por Zeger y Qaqish (1988), la cual consiste en especicar el modelo autorregresivo en
forma de distribucin condicional cuya parametrizacin pertenece a la familia exponencial
de distribuciones; al igual que con los modelos lineales generales, a sta distribucin se le
incluyen trminos autorregresivos en forma de variables explicativas pasadas y presentes.
De manera anloga al modelo de Zeger y Qaqish (1988), se propone denir un modelo au-
torregresivo de orden p para respuestas de valor extremo de tal manera que la distribucin
condicional pertenece a la familia de distribuciones de valor extremo cuyo parmetro de
localizacin est ligado a una componente lineal que se forma de variables explicativas que
contienen a la historia presente y pasada de los ltimos p periodos y de un vector de coe-
cientes de regresin; esto es, la distribucin condicional de cada respuesta Y
t
dado el conjunto
de informacin presente y pasada H
t
= x
t
, ..., x
tp
, y
t1
, ..., y
tp
, donde x
t
es el vector de
variables explicativas en el tiempo t y y
t
es la respuesta observada en el tiempo t, est dada
por la siguiente distribucin de Valor Extremo Generalizado:
F(y
t
[ H
t
) = exp
_
_
1 +
_
y
t
__
1/
+
_
, para y
t
>
t
, (1)
donde
t
, y son respectivamente los parmetros de localizacion, escala y forma, con
<
t
< , > 0, < < y h
+
= max(h, 0); aqu,
t
est relacionado con la
historia presente y pasada a travs de una componente lineal de manera tal que
t
=
T
z
t
,
donde z
t
es un vector de variables explicativas seleccionadas de H
t
, que incluye a la ordenada,
y es el vector de coecientes correspondiente.
La especicacin del modelo en la ecuacin (1) es una generalizacin del modelo para
series de mximos no estacionarias propuesto por Smith (1989), el cual slo considera a t en
H
t
; en sta formulacin se propone no slo modelar la no estacionalidad sino adems incluir
respuestas y variables explicativas presentes y pasadas que expliquen la dependencia entre las
respuestas. Entre los benecios de la especicacin propuesta aqu, se puede mencionar que la
funcin de verosimilitud tiene forma explcita, se pueden comparar modelos y se pueden llevar
a cabo los diagnsticos correspondientes a travs de los residuales estandarizados propuestos
3. Los mximos de ozono en Guadalajara 41
por Dunn y Smyth (1996).
Aunque el modelo propuesto puede estar mal especicado debido a que no hay una dis-
tribucin multivariada de valor extremo que tenga una distribucin condicional de valor
extremo, contrario a las series de tiempo gaussianas donde la condicional es gaussiana tam-
bin, Dupuis y Tawn (2001) encontraron que para correlaciones de orden 1 las distribuciones
ajustadas del modelo condicional correcto y del mal especicado eran casi idnticas para
dependencias relativamente altas.
La funcin de verosimilitud de un modelo de transicin de orden p para y
m+1
, ..., y
n
condicional a las primeras m respuestas puede expresarse como L() =
n
k=m+1
f(y
k
[ H
k
),
donde representa al vector de parmetros y f denota la funcin de densidad correspon-
diente a F. En el presente estudio se us la biblioteca evd del paquete estadstico R, cuya
funcin fgev proporciona el estimador de mxima verosimilitud para la distribucin de la
ecuacin (1); el proceso optimizador que usa esta funcin se basa en el mtodo quasi-Newton
(tambin conocido como el algoritmo de mtrica variable), el cual usa evaluaciones de la
funcin objetivo y sus gradientes para generar una fotografa de la supercie por optimizar
y as buscar el punto estacionario donde el gradiente es 0.
Como en este tipo de datos generalmente se cuenta con un tamao de muestra grande,
las pruebas de cociente de verosimilitud para encontrar un modelo parsimonioso no son muy
conables pues tienden a presentar signicancias importantes a variables cuya contribucin
a la explicacin del fenmeno es muy modesta o nula (ver Raftery, 1995), en este estudio se
propone usar el BIC (Bayesian Information Criterion), pues determina con mayor grado de
precisin el modelo ms parsimonioso penalizando tanto al nmero de parmetros como al
tamao de la muestra. Si n
p
es el nmero de parmetros en el modelo, entonces, el criterio del
BIC consiste en escoger el modelo para el cual 2 ln L(
) +n
p
ln n tiene el valor ms pequeo.
3. Los mximos de ozono en Guadalajara
En este estudio se analizan los niveles mximos diarios de ozono y
t
medidos en partes por
millon (ppm) registrados por siete estaciones de monitoreo en el rea metropolitana de
Guadalajara del 6 de enero de 1997 al 31 de diciembre de 2006. Debido a que la concentracin
de ozono es mayor a media tarde se tom el valor mximo entre las 12 y 17 horas de toda
D I A
M

A

X

I

M

O

S

D

I

A

R

I

O

S
1998 2000 2002 2004 2006
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
0
.
3
0
Figura 1: Mximos diarios de ozono en el rea metropolitana de Guadalajara del 6 de enero de
1997 al 31 de diciembre de 2006
la red de monitoreo de cada da; de manera anloga, las variables atmosfricas empleadas se
restringieron a ste horario.
La grca de la serie de tiempo correspondiente se muestra en la Figura 1; en sta es
posible notar un comportamiento peridico y cierta variabilidad a lo largo del tiempo, lo que
sugiere un grado importante de no estacionalidad.
Las variables atmosfricas consideradas son: promedio del mnimo de velocidad de viento
(vv), promedio del mximo de temperatura (tem), promedio del mnimo de humedad (h),
rango de velocidad de viento (rvv), rango de temperatura (rtem) y rango de humedad (rh);
para poder incluir a la direccin del viento (dv) se consideran los siguientes vectores de
viento:
wu = vv sin(2 dv/360) y wv = vv cos(2 dv/360)
La variable wu es la componente este-oeste del viento, la cual es positiva cuando el viento
viene del oeste; de igual forma, wv es la componente norte-sur, que es positiva cuando el
viento viene del sur. Para ajustar efectos no lineales del tiempo se procedi a usar bases
3. Los mximos de ozono en Guadalajara 43
de polinomios ortogonales de t; mientras que para incluir efectos semestrales se incluyen
los trminos cos(2t/182.5) y sin(2t/182.5). Tambin se incluyeron efectos anuales, sin
embargo, stos no resultaron signicativos.
Al emplear la distribucin de Valor Extremo Generalizado se pudo comprobar que el
parmetro de forma no tiene efectos signicativos en presencia de las variables explicativas;
cuando se us la distribucin Gumbel, la cual se obtiene cuando 0 en la ecuacin (1)
y la cual se especica con:
F(y
t
[ H
t
) = exp
_
exp
_
_
y
t
___
, para < y
t
< ,
se obtuvieron prcticamente las mismas inferencias; de esta forma, se opt por usar la dis-
tribucin Gumbel para el anlisis. Usando seleccin progresiva (forward selection en ingls)
y el criterio BIC ya mencionado, se escogi un modelo autorregresivo de orden 6 cuya for-
mulacin es:
t
7
+y
t1
+ semestrales + tem
t
+ rtem
t
+ v
t
+ rvv
t
+ wu
t
+ wv
t
+ tem
t1
+
h
t1
+ v
t1
+ rtem
t2
+ rvv
t4
+ rh
t5
+ rtem
t6
+ v
t6
+ rvv
t6
+ wu
t7
aqu, el superndice denota el orden del polinomio.
La Figura 2 muestra el ajuste del polinomio de grado 7 del tiempo t en el mejor modelo
con bandas de conanza de 95 %. Es notoria la baja en la severidad de los mximos de
ozono los primeros mil das; sin embargo, el comportamiento es generalmente irregular, lo
que corrobora la alta no estacionalidad de la serie de tiempo.
La Tabla 1 muestra el valor de los coecientes lineales en el modelo de localizacin y el
estimador del parmetro de escala para el modelo elegido. Es posible notar que los coe-
cientes correspondientes al promedio de mxima temperatura son muy signicativos; estos
indican que un da caluroso incrementa la severidad de los mximos de ozono; sin embargo,
si el da que precede tambin es caluroso, los mximos pueden ser aminorados. Un efecto
inverso ocurre con la velocidad de viento. Como es bien sabido, un da con viento dispersa
los contaminantes; adems, si el da anterior tuvo viento, es posible que sea susceptible ob-
servar un incremento en el mximo. Un incremento de humedad mnima en el da anterior
tambin contribuye a disminuir la severidad del mximo de ozono. Como es de esperarse, los
vectores de velocidad tambin juegan un papel preponderante tanto en la dispersin de los
contaminantes como en la concentracin de ellos.
0 1000 2000 3000
0
.
0
1
0
.
0
0
0
.
0
1
0
.
0
2
0
.
0
3
t i e m p o
f

(
t

i

e

m

p

o
)
Figura 2: Efecto ajustado de tiempo en presencia de variables atmosfricas
(a)
Residuals
D
e
n
s
it
y
8 6 4 2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
2 0 2
2
0
2
4
(b)
Theoretical Quantiles
R
e
s
id
u
a
l
Q
u
a
n
t
ile
s
0 1000 2000 3000
2
0
2
4
(c)
t i e m p o
R
e
s
id
u
a
ls
Figura 3: Grcas de diagnsticos de los mximos diarios de ozono
La Figura 3 muestra algunas grcas del anlisis de residuales, que son: (a) densidad
estimada de los residuales, (b) cuantil contra cuantil y (c) residuales contra tiempo. A pesar
de que hay cinco observaciones atpicas, las cuales se ubican en la cola izquierda, las grcas
muestran que los residuales estandarizados se distribuyen aproximadamente normal, como
Referencias 45
Parmetro Estimador Error Estndar
Ordenada 0.0727 0.0004
y
t1
0.3859 0.0264
cos(2t/182.5) 0.0021 0.0006
sin(2t/182.5) 0.0025 0.0006
tem
t
0.7206 0.0508
rtem
t
0.1567 0.0292
v
t
0.7471 0.0354
rvv
t
0.1820 0.0352
wu
t
0.2522 0.0331
wv
t
0.0819 0.0230
tem
t1
0.3332 0.0502
h
t1
0.2774 0.0334
v
t1
0.1981 0.0300
rtem
t2
0.0802 0.0249
rvv
t4
0.0644 0.0296
rh
t5
0.0504 0.0232
rtem
t6
0.0941 0.0308
v
t6
0.0686 0.0257
rvv
t6
0.1114 0.0320
wu
t7
0.0925 0.0291
0.0216 0.0003
Tabla 1: Coecientes estimados y errores estndar del mejor modelo
era de esperarse; por tanto, el ajuste del modelo ms parsimonioso es relativamente bueno.
Referencias
Dunn, P.K. y Smyth, G.K. (1996). Randomized Quantile Residuals, Journal of Computa-
tional and Graphical Statistics, 5, 236-244.
Dupuis, D. J. y Tawn, J. A. (2001). Eects of Mis-Specication in Bivariate Extreme Value
Problems, Extremes, 4, 315-330.
46 Referencias
Raftery A. E. (1995). Bayesian Model Selection in Social Research. Sociological Methodology,
25 111-163.
Smith, R. L. (1989). Extreme Value Analysis of Environmental Time Series: An Application
to Trend Detection in Ground-Level Ozone. Statistical Science, 4, 367-393.
Zeger, S. L. y Qaqish, B. (1988). Markov Regression Models for Time Series: A Quasi-
Likelihood Approach, Biometrics, 44, 1019-1032.
Regresin por mnimos cuadrados parciales
aplicada al estudio de emisiones de dixido de
carbono en suelos de Veracruz, Mxico
Gladys Linares Fleites
a
, Jos Adrin Saldaa Munive
Departamento de Investigaciones en Ciencias Agrcolas. Instituto de Ciencias de la
Benemrita Universidad Autnoma de Puebla
Luis G. Ruiz Surez Centro de Ciencias de la Atmsfera. Universidad Nacional
Autnoma de Mxico
1. Introduccin
La Regresin Mnimo Cuadrtica Parcial es una de las extensiones menos restrictivas del
modelo de Regresin Lineal Mltiple. Su exibilidad permite utilizarla en situaciones donde
existen pocas observaciones y puede ser una herramienta de anlisis exploratorio muy til
para seleccionar variables predictoras convenientes. Con el propsito de estudiar asociaciones
entre las emisiones de dixido de carbono (CO
2
) y diversas propiedades de suelos perturba-
dos en el Parque Ecolgico Jaguaroundi en Coatzacoalcos, Veracruz, Mxico, se utiliza este
modelo como herramienta exploratoria.
En la seccin 2 se explican las principales caractersticas numricas de la Regresin Mnimo
Cuadrtica Parcial (Partial Least Square, PLS, en ingls). En la seccin 3 se muestra la
aplicacin de la regresin PLS al estudio de las emisiones de CO
2
en suelos de Veracruz y
se comparan los resultados con la Regresin Mnimo Cuadrtica Ordinaria. Finalmente se
brindan conclusiones y recomendaciones.
a
gladys.linares@icbuap.buap.mx
47
48 Regresin aplicada al estudio de emisiones de dixido de carbono en Veracruz
2. Regresin por mnimos cuadrados parciales
El PLS es un mtodo para modelar relaciones entre conjuntos de variables observadas por
medio de variables subyacentes o latentes (Rosipal y Krmer, (2006)). PLS puede extenderse
de manera natural a problemas de regresin, aunque la regresin PLS es considerada todava,
por muchos estadsticos, como un algoritmo y no como un modelo estadstico riguroso.
La Regresin Por Mnimos Cuadrados Parciales que generaliza y combina hechos de la Re-
gresin con Componentes Principales, puede utilizarse en regresiones donde se presenta el
problema de multicolinealidad. (Abdi, H. (2003))
Para la estimacin de los parmetros del modelo de regresin existen diferentes mtodos
(Montgomery et al. (2004)). Si se usa el mtodo de los mnimos cuadrados ordinario(OLS,
siglas en ingls) hay que resolver el sistema de las ecuaciones normales
X
j
= X
Y
j
, (1 j q)
Si en la matriz X
X, estn presente problemas de multicolinealidad y mal condicionamiento

desde el punto de vista numrico, esto origina severos problemas de precisin en la estimacin
de los coecientes
j
s del modelo de regresin, y por ende, malas predicciones cuando la
dimensin del sistema es grande. Recientemente han surgido otros mtodos para la determi-
nacin del modelo de regresin que evitan los problemas antes mencionados, manejando en
forma ms efectiva, con respecto a la calidad de las predicciones, los problemas de multicol-
inealidad. Entre los mtodos que logran la estabilizacin de los coecientes en la regresin,
se encuentran el de mnimo cuadrados parciales (PLS).
La regresin por mnimos cuadrados parciales se basa en resolver los sistemas lineales sobre-
determinados
X
j
= Y
j
, (1 j q),
evitando la formacin de la matriz X
X, y de esta manera el mal condicionamiento de las

ecuaciones normales. Aqu se usa una descomposicin de X en factores T y P
que conservan
el rango, los cuales estn afectados por la interaccin entre las matrices X y Y , que logra
una mayor capacidad predictiva del modelo sin eliminar informacin. Se han desarrollado
diferentes algoritmos para el PLS (Lohninger (1999)), pero uno de los ms populares es el
3. Aplicacin al estudio de las emisiones de CO
2
en suelos de Veracruz 49
llamado algoritmo NIPALS que lo ha implementado el paquete de programas MINITAB
Release 15 (2005) y que utilizamos para procesar la informacin en el presente trabajo.
2
en suelos
de Veracruz
El dixido de carbono (CO
2
) es uno de los llamados gases de efecto invernadero. Estos
gases son continuamente emitidos y removidos en la atmsfera por proceso naturales sobre
la Tierra, pero las actividades antropognicas causa cantidades adicionales de los mismos
incrementando sus concentraciones en la atmsfera, lo que tiende a sobrecalentarla. El dixido
de carbono (CO
2
), es el principal gas de efecto invernadero, responsable del calentamiento
global. (Saldaa y Ruiz (2007).)
3.1. Caso de estudio
Con el propsito de estudiar asociaciones entre las emisiones de dixido de carbono (CO
2
) y
diversas propiedades de suelos perturbados en el Parque Ecolgico Jaguaroundi en Coatza-
coalcos, Veracruz, Mxico, se midieron las emisiones de CO
2
y las propiedades del suelo en
determinados sitios de muestreo. Para medir las emisiones de CO
2
se utiliz el mtodo de
cmara esttica. Se colocaron las cmaras en los sitios seleccionados, ubicando 3 cmaras
por sitio, buscando homogeneidad en el terreno, considerando un mismo plano por altitud y
cubierta vegetal. Las emisiones se analizaron con un Detector de Ionizacin de Flama. Las
propiedades fsicas y qumicas de las muestras de suelo fueron analizadas por el Grupo de
Edafologa del Instituto de Geologa de la UNAM.
3.2. Resultados
Los datos fueron analizados en dos pocas: la de lluvia y la de secas, obtenindose los modelos
de Regresin PLS para cada una de esas pocas. Previamente se obtuvieron modelos OLS,
constatndose la existencia de multicolinealidad, por lo que no se consideraron recomend-
ables.
3.2.1. Resultados: poca de lluvia
La tabla 1 muestra los coecientes de regresin del modelo de regresin con dos componentes.
La prueba F (F = 20.98) del modelo result signicativa con un valor de p aproximadamente
igual a cero. El coeciente determinacin fue del 66.6 % y el estadstico PRESS fue 626890,
ms pequeo que el obtenido en la regresin OLS. En la regresin OLS se obtuvo un valor
F = 3.49 que result no signicativo al 5 % y un coeciente de determinacin de 88.8 %.
La primera componente destaca el hecho de que cuando se incrementa la materia orgnica
disminuye la densidad aparente (D. Ap. g/cc). Esto se expresa con la oposicin entre la ma-
teria orgnica, el carbono, el nitrgeno total y la conductividad elctrica (CE) y la densidad
aparente. La segunda componente expresa la oposicin entre salinidad y respiracin basal,
esto es, indica la "potencialidad de la actividad orgnica". Los supuestos de normalidad y
homogeneidad de varianza del modelo se corroboraron a travs de grcos de residuos y de
normalidad.
3.2.2. Resultados: poca de secas
La tabla 2 muestra los coecientes de regresin del modelo de regresin con dos componentes
para la poca de secas. La prueba F (F = 9.62) del modelo result signicativa con un valor
de p igual a 0.001. El coeciente determinacin fue del 40.8 % y el estadstico PRESS fue
603000, ms pequeo que el obtenido en la regresin OLS que alcanz un valor de ocho cifras
enteras. En esta ltima (regresin OLS) la prueba F(F = 2.57) no fue signicativa al 5 % y
el coeciente de determinacin fue de 87.9 %.
La primera componente, al igual que en el caso de la poca de lluvia, destaca el hecho de
que cuando se incrementa la materia orgnica disminuye la densidad aparente (D. Ap. g/cc).
La segunda componente expresa la oposicin entre salinidad y temperatura, lo que explica
el fenmeno de que cuando aumenta la temperatura la actividad de los microorganismos se
incrementa.
Los supuestos de normalidad y homogeneidad de varianza del modelo se corroboraron a
travs de grcos de normalidad y de residuos.
2
en suelos de Veracruz 51
Coecientes de regresin
FE ug
CO2/m2h
FE ug
CO2/m2h
estandarizado
Constante -665.238 0.000000
T. Cmara 10.016 0.135797
T. Amb. 9.000 0.116188
T. Suelo 5.764 0.087625
Altitud msnm -0.387 -0.025519
Salinidad -122.791 -0.140703
N Total % 139.655 0.232672
Carbono mg/g 1.537 0.225887
Materia orgnica 0.892 0.226057
P Mg/kg -6.103 -0.025929
pH 5.962 0.018252
CE mS/cm 109.473 0.111550
D. Ap. g/cc -48.954 -0.106694
CMRA 0.673 0.100786
Respiracin Basal 0.082 0.127452
% arcilla -0.643 -0.036606
% arena -0.854 -0.071823
Tabla 1: Regresin PLS (con 2 componentes) para la poca de lluvia
Coecientes de regresin
FE ug
CO2/m2h
FE ug
CO2/m2h
estandarizado
Constante 175.719 0.000000
(1) T. Cmara

C -3.278 -0.115291
(2) T. Amb.

C -2.955 -0.047282
(3) T. Suelo

C -2.544 -0.072007
(4) Humedad prom. % 0.904 0.143442
(5) Altitud msnm -3.057 -0.163050
(6) Salinidad 108.244 0.066471
(7) N Total % 85.585 0.115477
(8) Carbono mg/g 0.263 0.031254
(9) Materia orgnica 0.152 0.031296
(10) P Mg/kg 13.083 0.045021
(11) pH 31.035 0.054646
(12) CE mS/cm 82.481 0.083419
(13) D. Ap. g/cc -20.653 -0.036455
(14) CMRA 1.002 0.122284
(15) Respiracin Basal -0.075 -0.087606
(16) % arcilla 1.635 0.075420
(17) % arena 1.133 0.077135
Tabla 2: Regresin PLS (con 2 componentes) para la poca de seca
4. Conclusiones 53
4. Conclusiones
Se obtuvieron dos modelos de regresin PLS, uno para la poca de lluvia, con 24 muestras
de suelo y 16 propiedades y, otro, para la poca de secas, con igual nmero de muestras
y 17 propiedades. Las muestras fueron tomadas en el Parque Ecolgico Jaguaroundi en
Coatzacoalcos, Veracruz, Mxico.
Los modelos de regresin de las emisiones de CO
2
, obtenidos por PLS mostraron mayor
capacidad predictiva que los modelos estimados por la regresin OLS, para los periodos de
lluvia y secas. La regresin PLS, tomada como herramienta exploratoria, permiti destacar
las propiedades del suelo ms importantes que explican las emisiones de CO
2
en la zona. En
ambos modelos se destaca, entre otros aspectos, que el nitrgeno total del suelo tiene fuerte
inuencia sobre la variable respuesta (emisiones de CO
2
).
Es necesario continuar profundizando en el estudio de predicciones de las emisiones de gases
efecto invernadero (en particular el CO
2
), por ser una de las causas del calentamiento global,
fenmeno ambiental de importancia capital para la humanidad.
Referencias
Abdi, H. (2003). Partial Least Square Regression. In M.Lewis-Bech, A. Bryman, T. Futing
(Eds): Encyclopedia for research methods for the social sciences. Thousand Oaks (CA):
Sage. Pp.729-795.
Lohninger, H. (1999). Teach/Me Data Analysis. Libro Electrnico. Springer - Verlag. Berlin-
New York-Tokyo ISSBN 3-540-14743-8.
MINITAB Release 15 (2005). Statistical Software. Minitab. Inc.
Montgomery, D.C., Peck, E.A. and Vining G.G. (2004) Introduccin al Anlisis de Regresin
Lineal. Mxico: Compaa Editorial Continental.
Rosipal R. and Krmer, N. (2006). Overview and Recent Advances in Partial Least Squares,
In SLSFS 2005 LNCS3940, (eds. Saunders et al.) pp. 34-51 Springer-Verlag Berlin Hei-
delberg.
Saldaa, M.J.A. y Ruiz Surez, L. G. (2007). Emisiones de gases de efecto invernadero en
suelos perturbados con diferente cobertura vegetal en Coatzacoalcos, Veracruz, Mxico.
(Artculo por publicar).
Discriminacin lineal y discriminacin logstica
en estudios de calidad de suelos
Gladys Linares Fleites
a
, Miguel ngel Valera Prez
Departamento de Investigaciones en Ciencias Agrcolas. Instituto de Ciencias de la
Benemrita Universidad Autnoma de Puebla
Maribel Castillo Morales Estudiante del Postgrado en Ciencias Ambientales, ICUAP
Benemrita Universidad Autnoma de Puebla, Mxico
1. Introduccin
Actualmente, uno de los retos ms importantes que enfrenta la ciencia del suelo es desarrollar
criterios de Calidad del Suelo (CS) que puedan utilizarse en una evaluacin objetiva de riesgos
ambientales. Debido a la inquietud existente con respecto a la degradacin del suelo y a la
necesidad de un manejo sostenible de los agro- ecosistemas, ha resurgido el estudio de las
propiedades del suelo enfatizndose hacia una funcin especca del uso del suelo (Carter et
al. (1997)). Este enfoque ecolgico del suelo reconoce las interacciones suelo - ser humano y
de esta manera la CS es inseparable del concepto de sostenibilidad del sistema y de su uso.
La CS se clasica en Calidad Inherente (CI) y Calidad Dinmica (CD). La CI se conforma
con las propiedades innatas del suelo, tales como textura, mineraloga, color, etc., mientras
que la CD son las propiedades de la CI modicadas por las actividades antropognicas.
Es de gran importancia identicar las propiedades del suelo que establezcan la diferencia entre
CI y CD y que permitan predecir la CS. Ahora bien, si desarrollar criterios de Calidad de
Suelos que puedan utilizarse en una evaluacin objetiva de riesgos ambientales es actualmente
un reto, tambin lo es, buscar procedimientos de clasicacin ecaces. A este ltimo aspecto
a
gladys.linares@icbuap.buap.mx
55
56 Discriminacin lineal y discriminacin logstica en estudios de calidad de suelos
va dirigido el presente trabajo. Para desarrollar este objetivo se seleccionaron tres problemas
de los propuestos por la NRSC(Natural Conservation Service) (2001), a saber:
Problema 1 Contenidos de materia orgnica y residuos en los suelos,
Problema 2 La reaccin pH del suelo, y
Problema 3 La fertilidad natural del suelo.
Para cada uno de estos problemas se compararon, a travs de ciertos criterios, dos enfo-
ques de discriminacin: el modelo de discriminacin lineal y el modelo de regresin logstico,
utilizando la informacin obtenida en una zona de Teziutln, del estado de Puebla, Mxico.
A continuacin se exponen brevemente los enfoques de discriminacin comparados y pos-
teriormente se muestran los resultados obtenidos en la comparacin, utilizando el criterio
tradicional de error de mala clasicacin, y otros tres criterios obtenidos de las tablas de
confusin elaboradas para cada problema.
2. Discriminacin lineal y regresin logstica
2.1. Discriminacin lineal
Dado que existen diferentes enfoques en el problema de la discriminacin, decidimos utilizar
el anlisis discriminante clsico, basado en la normalidad multivariada de las variables con-
sideradas y que es ptimo bajo dicho supuesto (Pea (2002)). En este enfoque se construye
una funcin de clasicacin para cada una de las poblaciones consideradas (suelos con CI
y suelos con CD) y se establece la regla de clasicacin que coloca el individuo a clasicar
en la poblacin con valor mximo de la funcin de clasicacin. Dado que la utilidad de la
regla de clasicacin depende de los errores esperados, estos se calcularon aplicando la regla
discriminante a las 25 observaciones y clasicndolas. Este mtodo tiende a subestimar las
probabilidades de error de mala clasicacin ya que los mismos datos se utilizan para estimar
los parmetros y para evaluar la regla resultante. Un procedimiento mejor es clasicar cada
elemento (muestra de suelo) con una regla que no se ha construido usndolo. Para ello, se
construyeron n=25 funciones discriminantes con las muestras que resultan al eliminar uno a
uno cada elemento de la poblacin y clasicar despus cada dato en la regla construida sin
3. Estudio comparativo 57
l. Este mtodo se conoce como validacin cruzada y conduce a una mejor estimacin del
error de clasicacin. En el estudio se utilizan ambos procedimientos de estimacin de ese
error.
2.2. Regresin logstica
Una posibilidad para resolver problemas de clasicacin es construir un modelo que explique
los valores de clasicacin. En nuestro caso, como deseamos discriminar entre suelos de CI
y suelos de CD, utilizamos la variable y con los valores 1 (suelo con CI) y 0 (suelo con CD)
y el problema se convierte en prever el valor de la variable y en un nuevo elemento del que
conocemos el vector de variables X (propiedades de los suelos).
Para modelar este tipo de relaciones se utilizan los modelos de respuesta cualitativa, del que
el modelo logstico es uno de los ms utilizados ya que puede aplicarse a una amplia gama
de situaciones donde las variables explicativas no tienen una distribucin conjunta normal
multivariada. (Linares (2007)). Las propiedades de los suelos que intervienen en la explicacin
de su calidad fueron exploradas previamente y tienen distribuciones muy asimtricas, por lo
que la regresin logstica es una buena opcin para la modelacin.
Obsrvese que estamos suponiendo que la variable respuesta y
i
es una variable aleatoria con
distribucin Bernoulli con probabilidades P(y
i
= 1) =
i
y P(y
i
= 0) = 1
i
, 0 i 1
Para contrastar si una variable, o grupo de variables, de la ecuacin es signicativa, podemos
construir un contraste de la razn de verosimilitudes comparando los mximos de la funcin
de verosimilitud para los modelos con y sin estas variables. Sin embargo, es ms habitual para
comprobar si un parmetro es signicativo comparar el parmetro estimado con su desviacin
estndar. A estos cocientes se les denomina estadsticos de Wald y en muestras grandes se
distribuyen, si el verdadero valor del parmetro es cero, como una normal estndar.
3. Estudio comparativo
Los datos utilizados para la comparacin de los enfoques de discriminacin considerados,
se tomaron de la zona denominada Caldera de Teziutln, del estado de Puebla, Mxico.
(Valera et al. (2001)). Utilizaremos el problema 2 de la reaccin del pH del suelo para
ilustrar la metodologa empleada. Las funciones discriminantes lineales son mostradas en la
58 Discriminacin lineal y discriminacin logstica en estudios de calidad de suelos
Tabla 1. La proporcin de clasicacin correcta es slo del 68 % con el primer procedimiento
de estimacin del error de mala clasicacin y del 64 % con el procedimiento de validacin
cruzada. El modelo de regresin logstica, mostrado en la Tabla 2, predijo correctamente el
72 % de los casos, luego la proporcin del error de mala clasicacin asciende la 28 %, lo que
es un error ligeramente menor al del modelo de discriminacin lineal.
Constante Constante
Constante -27.105 -26.413
pH-H20 9.991 7.936
pH-KCI -0.053 2.199
Tabla 1: Anlisis discriminante lineal de la reaccin pH del suelo
Predictor Coeciente SE Coeciente Z P
Constante 1.45473 3.88273 0.37 0.708
pH-H20 -2.52533 1.70054 -1.49 0.138
pH-KCI 2.65172 1.64087 1.62 0.106
Tabla 2: Regresin logstica: la reaccin pH del suelo
Los datos fueron procesados con MINITAB 15 (2005).
3.1. Resultados de la comparacin por otros criterios
Adems de la medida tradicional de error de mala clasicacin dada anteriormente en cada
problema, se calcularon otros criterios que surgen de las matrices de confusin o de contin-
gencias de cada problema.(Hernndez, 2004). Una matriz de confusin en estos problemas
puede expresarse como:
Real
Predicha CI CD
CI TP FP
CD FN TN
3. Estudio comparativo 59
Los valores de TP(verdadero positivo), FN(falso negativo) y TN(verdadero negativo)son
frecuencias. A partir de estos valores se denen algunos criterios, como los siguientes:
Macro-Media: (Sensitividad+Especicidad)/2
Sensitividad = P(CI
pred
/CI
real
)
Especicidad= P(CD
pred
/CD
real
)
El problema 1 clasic correctamente el 100 % de los casos en ambos procedimientos de
discriminacin, luego el valor de los tres criterios anteriores es 1 y ambos procedimientos
de discriminacin se consideraron adecuados para este problema. La Tabla 3 muestra las
matrices de confusin del problema 2 para ambos modelos. La parte izquierda corresponde
al modelo de discriminacin lineal y la derecha al modelo de regresin logstica.
Predicha CI CD Predicha CI CD
CI 9 4 CI 10 4
CD 4 8 CD 3 8
Tabla 3: Matrices de confusin para el problema 2: La reaccin pH del suelo
En el modelo de discriminacin lineal los criterios tomaron los valores siguientes: sensi-
tividad 0.692, especicidad 0.666 y macro-media 0.679.
En el modelo de regresin logstica los criterios fueron: sensitividad 0.769, especicidad:
0.666 y macro-media: 0.717.
Puede observarse que en dos de esos criterios, el modelo de regresin logstica tuvo un
comportamiento ligeramente mejor que el modelo de discriminacin lineal. En el problema
3 de fertilidad natural del suelo, los criterios en el modelo de discriminacin lineal tomaron
los siguientes valores: sensitividad 0.769, especicidad 0.916 y macro-media 0.84.
El modelo de regresin logstica predijo correctamente en el 100 % de los casos, luego
obtuvo el valor 1 en sensibilidad, especicidad y macro- media y puede considerarse superior
al discriminante lineal en este problema.
60 Referencias
4. Conclusiones
En los problemas de calidad de suelo considerados, el comportamiento de la Regresin Logs-
tica, como tcnica de clasicacin, se comport mejor que el Discriminante Lineal en dos
de los problemas considerados: el de la reaccin pH del suelo y el de la fertilidad natural
del suelo. En el problema de los contenidos de materia orgnica y residuos en el suelo am-
bos procedimientos de clasicacin fueron adecuados. Es necesario realizar otros estudios de
calidad de suelos que permitan validar el resultado anterior.
Referencias
Carter, M.R., Gregorich, E.G., Anderson, D.W., Doran, J.W., Janzen, H.H. y F.J. Pierce.
(1997). Concepts of Soil Quality and their Signicance , In Soil Quality for Crop Pro-
duction and Ecosystem Health. Developments in Soil Science. , (eds. Gregorich, E.G. and
Carter, M.R.) 25. Elsevier Sc.
Hernndez Orallo, J. (2004). Evaluacin de Clasicadores en Minera de Datos. Universidad
Politcnica de Valencia, Espaa.
Linares, G. (2007). Anlisis de Datos Multivariados. Mxico. : Editorial Benemrita Uni-
versidad Autnoma de Puebla. Facultad de Computacin. 277p.
MINITAB Release 15 (2005). Statistical Software. Minitab. Inc.
Natural Resources Conservation Service, (NRSC) (2001)). Guidelines for Soil Quality As-
sessment in Conservation Planning. United States Department of Agriculture and Soil
Quality Institute. USA.
Pea, D. (2002). Anlisis de Datos Multivariantes. Madrid, Espaa. : Mc. Graw
Hill/Interamericana de Espaa, S.A.U. MAdrid, Espaa. 539p.
Valera, M.A., Tenorio. M.G., Linares, G., Ruiz, J. y Tamariz, J.V. (2001). Aplicacin de
indicadores qumicos de degradacin para suelos cidos de la Sierra Negra de Puebla., En
Memorias COLOQUIOS Cuba-Mxico sobre manejo sostenible de los suelos. , Benemrita
Universidad Autnoma de Puebla. pp 57-64.
Anlisis bivariado de extremos para evaluar los
niveles de ozono troposfrico en la zona
metropolitana de Guadalajara
Tania Moreno Ziga
a
, Gabriel Escarela
b
1. Introduccin
La ciudad de Guadalajara ha experimentado una expansin en la industria y en el comercio
desde 1934. Dicha expansin ha trado como consecuencia contaminacin atmosfrica cuyas
concentraciones alcanzaron niveles riesgosos para la salud frecuentes a mediados de los 90s.
Para revertir las tendencias de deterioro de la calidad del aire y as proteger la salud de
la poblacin que habita la zona metropolitana de Guadalajara, las autoridades ambientales
responsables implementaron el Programa para el mejoramiento de la calidad del aire en la
zona metropolitana de Guadalajara 1997-2001.
Hasta la fecha se carece de un estudio que evale los benecios reales de la implementacin
de dicho programa el cual pueda diagnosticar la tendencia de los niveles de polucin de la
zona. El propsito del presente estudio es el de llenar este vaco al analizar los mximos
locales semanales de ozono de las estaciones de monitoreo ambiental ubicadas en Vallarta
y Tlaquepaque en el perodo 1997-2006 usando un modelo con la capacidad de evaluar los
efectos de la tendencia en presencia de variables peridicas y atmosfricas. La justicacin
de usar los mximos locales de dos estaciones, en vez de encontrar el mximo global en
la zona, se basa en la hiptesis de que los niveles de ozono y las tendencias pueden variar
a
tania_8304@hotmail.com
b
ge@xanum.uam.mx
61
62 Anlisis de extremos para evaluar los niveles de ozono en Guadalajara
0 100 200 300 400 500
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
0
.
3
0
0
.
3
5
Semana
M
x
i
m
o
Ozono Vallarta
0 100 200 300 400 500
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
0
.
3
0
0
.
3
5
Semana
M
x
i
m
o
Ozono Tlaquepaque
Figura 1: Mximos semanales de concentraciones de ozono del 1 de enero de 1997 al 31 de diciembre
de 2006 en la estaciones de monitoreo ubicadas en Vallarta y Tlaquepaque
dependiendo de la localidad; un estudio conjunto de las dos localidades provee un anlisis
ms informativo.
La Figura 1 muestra los mximos semanales locales para cada estacin, los cuales estn
medidos en partes por billon (ppb). En las grcas se sobrepone una lnea horizontal que
indica el lmite de 110 ppb, el cual es el mximo diario permitido por la organizacin mundial
de salud. Es posible observar en las grcas que los mximos tienen una tendencia a la baja
para las primeras 150 semanas y el comportamiento es ms irregular para las semanas sub-
secuentes. Es entonces importante encontrar una forma funcional de la tendencia adecuada
para cada localidad.
2. Modelado para valores extremos bivariados
Supngase que (X
1i
, X
2i
), para i = 1, ..., n, son parejas aleatorias independientes e idntica-
mente distribuidas cuya funcin de distribucin conjunta es G. Sean Y
1
= m ax(X
11
, ..., X
1n
)
y Y
2
= m ax(X
21
, ..., X
2n
). La meta principal de este estudio es la de modelar la distribucin
conjunta de (Y
1
, Y
2
) denotada F(y
1
, y
2
). De la teora univariada del valor extremo, se sabe
que Y
j
tiene asintticamente la distribucin de valor extremo generalizada, para j = 1, 2.
Bajo ciertas condiciones de regularidad (e.g Resnick, 1987), la distribucin conjunta de los
2. Modelado para valores extremos bivariados 63
mximos converge a una clase multivariada de distribuciones de valor extremo.
Una forma vlida y conveniente de construir F(y
1
, y
2
) es a travs del modelo de cpu-
la (e.g. Dupuis, 2005) de manera tal que:
F(y
1
, y
2
) C[F
1
(y
1
), F
2
(y
2
)],
donde C es la funcin cpula, la cual es una distribucin bivariada con dominio en el cuadro
unitario, y F
j
es la funcin de distribucin marginal de Y
j
, j = 1, 2. En este estudio se
emplear la cpula positiva estable la cual est dada por:
C
(v
1
, v
2
) = exp
_
_
(log v
1
)
1/
+ (log v
2
)
1/
_
, (0, 1).
Esta cpula es til para modelar dependencias positivas; cuando 0 se obtiene la cpula
superior de Frchet, mientras que valores de cercanos a 1 proveen estructuras de depen-
dencia cercanas a la independencia, i.e. lm
1
C
(u
1
, u
2
) = u
1
u
2
.
Para medir la concordancia de Y
1
y Y
2
es posible usar la de Kendall cuyo valor es
= 1 cuando se usa la cpula positiva estable. Dicha cpula exhibe dependencia en la

cola superior, por lo que una forma de cuanticar a la dependencia entre eventos extremos
es a travs del coeciente de dependencia de la cola superior dado por:
u
= lm
u1
PrY
2
> F
1
2
(u) [ Y
1
> F
1
1
(u) = 2 2
, (0, 1).
Las marginales se toman de la siguiente familia generalizada de distribuciones de valor
extremo:
F
j
(z
j
) = exp
_
_
1 +

j
(z
j
j
)
j
_
1/
j
+
_
, para z
j
>
j
, (1)
donde
j
,
j
y
j
son los parmetros de locacin, escala y forma respectivamente, j = 1, 2;
aqu, <
j
< ,
j
> 0, <
j
< y h
+
= m ax(h, 0). La clase de distribuciones
dada por la ecuacin (1) contiene varias distribuciones importantes tiles para ajustar mx-
imos tales como la Gumbel, la cual se obtiene cuando 0, la Frchet, la cual se obtiene
cuando > 0, y la Weibull, la cual se obtiene cuando < 0.
Para tomar en cuenta a la tendencia y otras variables explicativas en ambas marginales,
uno puede especicar al parmetro de locacin de cada marginal de la siguiente forma:
j
=
T
j
x
jt
, j = 1, 2, (2)
donde x
jt
es un vector de variables explicativas del componente j, el cual incluye a la ordenada
y es observado en el tiempo t, y
j
es el vector de coecientes de regresin correspondientes.
La funcin de verosimilitud es L =
n
i=1
f(y
1i
, y
2i
), donde f es la funcin de densidad
correspondiente a F. Para la aplicacin en la siguiente seccin se utiliz el paquete evd
del lenguaje R para minimizar 2 log L, la deviancia. Una caracterstica importante del
modelado bivariado es que el proceso para encontrar un modelo parsimonioso puede seguir
ideas del cociente de verosimilitud, anlogo a los modelos lineales generalizados.
3. Anlisis de los datos de Guadalajara
La respuesta de inters es la pareja cuyas entradas son los mximos de ozono registrados por
las dos estaciones de monitoreo en cada semana. La justicacin de tomar mximos semanales
es que stos son aproximadamente independientes. Para capturar la dependencia remanente,
la cual se debe a la no estacionalidad y a las variables atmosfricas, se incluyen combinaciones
de las siguientes variables en el componente lineal de los modelos de locacin especicados en
la ecuacin (2): tiempo, el nmero de semana; maxTemp, la temperatura mxima; rangoTemp,
el rango de la temperatura; minHum, la humedad mnima; rangoHum, el rango de la humedad;
minVel, el mnimo de velocidad; rangoVel, el rango de velocidad; anual, periodicidad anual;
semestral, periodicidad semestral; vientouLunes y vientovLunes son vectores de viento
registrados en lunes; y vientouSabado y vientovSabado son vectores de viento registrados
en sbado.
Debido a que la suposicin lineal de la no estacionalidad es cuestionable, se incluy a
la variable tiempo en trminos de bases ortogonales de una regresin polinomial; la misma
idea fue implementada para las variables atmosfricas. Todas las variables atmosfricas y el
tiempo fueron incluidas en la forma de un polinomio de grado ocho y entonces se procedi a
usar el algoritmo de eliminacin recursiva (backward elimination, en ingls) para encontrar
el modelo ms parsimonioso. Dicho algoritmo se bas en el criterio BIC, el cual consiste
en escoger el modelo para el cual 2 log L + n
p
log n es el ms chico; aqu n
p
representa el
nmero de parmetros en el modelo.
Las frmulas obtenidas en el mejor modelo para cada marginal quedaron como:
Marginal 1 (Vallarta) tiempo
5
+maxTemp
2
+rangoTemp+rangoHum
2
+anual+semestral.
3. Anlisis de los datos de Guadalajara 65
0 100 200 300 400 500
0
.
0
4
0
.
0
2
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
Tiempo
f
(
T
i
e
m
p
o
)
Vallarta
0 100 200 300 400 500
0
.
0
4
0
.
0
2
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
Tiempo
f
(
T
i
e
m
p
o
)
Tlaquepaque
Figura 2: Ajuste de los polinomios de tiempo en el componente lineal de las marginales correspon-
dientes a Vallarta y Tlaquepaque
Marginal 2 (Tlaquepaque) tiempo
8
+maxTemp
5
+minVel+rangoVel
3
+minHum
5
+rangoHum
5
+
vientouLunes
4
+ vientouSabado
4
+ anual + semestral.
La Figura 2 muestra la funcin de tiempo ajustada con las bases ortogonales de los poli-
nomios obtenidos en el mejor modelo. Las lneas punteadas corresponden a bandas de con-
anza de 95 % calculadas con la aproximacin

j
NMV(
j
,

V(
j
)), donde NMV denota la
funcin de distribucin normal multivariada,

j
es el estimador de mxima verosimilitud de
j
y

V(
j
) es la matriz de covarianzas estimada correspondiente. Aunque las curvas dieren
signicativamente, es posible observar que en las primeras 200 semanas hay una tendencia
a la baja, y que este comportamiento se repite entre las semanas 350 y 450.
La Figura 3 muestra los polinomios ajustados de las variables atmosfricas en el mejor
modelo y la Tabla 1 muestra los estimadores puntuales de los coecientes lineales y los
parmetros restantes. Ntese que los lmites del eje Y son los mismos para todas las grcas
y que se incluye un localizador de los datos observados. En ambas estaciones las temperaturas
altas tienden a incrementar la posibilidad de que se incremente la severidad de los niveles
de ozono, un hecho bien conocido en la ciencia atmosfrica. Aunque en grado diferente, el
incremento del rango de humedad parece favorecer la creacin de ozono en ambas estaciones.
Mientras que el incremento de humedad mnima tiende a disminuir la magnitud de los
mximos de ozono en Tlaquepaque, un efecto parecido se encuentra con la velocidad mnima
20 25 30 35
0
.0
4
0
.0
2
0
.0
0
0
.0
2
0
.0
4
0
.0
6
maxTemp
f(m
a
x
T
e
m
p
)
maxTemp para Vallarta
10 20 30 40 50
0
.0
4
0
.0
2
0
.0
0
0
.0
2
0
.0
4
0
.0
6
rangoHum
f(ra
n
g
o
H
u
m
)
rangoHum para Vallarta
20 25 30 35
0
.0
4
0
.0
2
0
.0
0
0
.0
2
0
.0
4
0
.0
6
maxTemp
f(m
a
x
T
e
m
p
)
maxTemp para Tlaquepaque
5 10 15 20 25 30 35
0
.0
4
0
.0
2
0
.0
0
0
.0
2
0
.0
4
0
.0
6
rangoHum
f(ra
n
g
o
H
u
m
)
rangoHum para Tlaquepaque
10 20 30 40 50 60 70
0
.0
4
0
.0
2
0
.0
0
0
.0
2
0
.0
4
0
.0
6
minHum
f(m
in
H
u
m
)
minHum para Tlaquepaque
0 1 2 3 4 5
0
.0
4
0
.0
2
0
.0
0
0
.0
2
0
.0
4
0
.0
6
rangoVel
f(ra
n
g
o
V
e
l)
rangoVel para Tlaquepaque
10 5 0 5 10
0
.0
4
0
.0
2
0
.0
0
0
.0
2
0
.0
4
0
.0
6
vientouLunes
f(v
ie
n
to
u
L
u
n
e
s
)
vientouLunes para Tlaquepaque
5 0 5
0
.0
4
0
.0
2
0
.0
0
0
.0
2
0
.0
4
0
.0
6
vientouSabado
f(v
ie
n
to
u
S
a
b
a
d
o
)
vientouSabado para Tlaquepaque
Figura 3: Polinomios con bandas de conanza de 95 % para las variables atmosfricas en el mejor
modelo
3. Anlisis de los datos de Guadalajara 67
Vallarta Tlaquepaque
Parmetro Estimador Error Estndar Parmetro Estimador Error Estndar
Ordenada 0.0739 0.0010 Ordenada 0.0833 0.0011
MinVel 0.1219 0.0356 RangoTemp 0.1100 0.0411
sin
_
tiempo
26
_
0.0079 0.0023 cos
_
tiempo
26
_
0.0118 0.0024
sin
_
tiempo
13
_
0.0060 0.0016 sin
_
tiempo
26
_
0.0089 0.0020
sin
_
tiempo
13
_
0.0075 0.0018
1
0.2455 0.0008
2
0.0194 0.0007
2
0.1201 0.0333
Tabla 1: Estimadores y errores estndares de los coecientes lineales y de los parmetros de escala
y forma en el mejor modelo
del viento en Vallarta. El efecto del viento en Tlaquepaque se puede valorar con las grcas
correspondientes a la direccin del viento; a diferencia de Vallarta, esta localidad tiene sus
mximos de ozono inuenciados por la velocidad y la direccin del viento simultneamente.
El efecto del rango de temperatura emula a la turbulencia vertical, en el caso de Talquepaque
el incremento de esta variable tiende a incrementar los mximos de ozono.
La inclusin de los efectos de periodicidad resultaron ser signicativos y -de hecho- ab-
sorvieron informacin a la que los polinomios de tiempo hubieran sido sensitivos; esto es,
en ausencia de la periodicidad se obtendra un polinomio de mayor orden en el mejor mod-
elo. Tambin se encontr que el parmetro de forma fue estadsticamente signicativo para
Tlaquepaque pero no para Vallarta; adicionalmente, el parmetro de dependencia estimado
es 0.723 (con error estndar 0.029), lo cual indica una moderada concordancia entre los
mximos de ambas estaciones de monitoreo.
El presente estudio refuerza la conclusin de que la implementacin de un programa
global para reducir los niveles de contaminacin en el rea metropolitana de Guadalajara no
se ve reejada en una clara y estable mejora de la calidad del ire a largo plazo.
68 Referencias
Referencias
Dupuis, D.J. (2005). Ozone concentrations: A robust analysis of mutivariate extremes. Tech-
nometrics, 47, 191-201.
Resnick, S.I. (1987). Extreme Values, Point Processes and Regular Variation, New York:
Springer-Verlag.
Contraste de una hiptesis nula central
compuesta frente una hiptesis alternativa
bilateral en la distribucin normal
Leonardo Olmedo
a
1. Introduccin
Una de las pruebas de hiptesis que con mayor frecuencia se presenta en situaciones de
investigacin reales, dada la naturaleza de los datos, y comnmente enseadas por su facilidad
en la prctica acadmica es: H
0
: = K contra H
a
: ,= K. Sin embargo, en esta prueba
existe un detalle que diculta a un investigador aplicado, all donde la hiptesis nula de
igualdad se rechaza segn el procedimiento seguido pero la signicacin estadstica no reeja
una diferencia con la igualdad que sea de inters al investigador.
La causa de la aparente contradiccin entre la conclusin estadstica y la recomendacin
del investigador no est en el procedimiento de prueba, ni en los valores que usualmente se
establecen para el nivel de signicacin. Pudiera pensarse que se encuentra en el tamao
de la muestra, si es que ste es grande, ya que a medida que el tamao de muestra crece
tambin lo hace la potencia de la prueba, dando rechazos para diferencias de medias cada vez
menores, pero esto tambin conduce a una aparente contradiccin, ya que indica que conviene
usar muestras pequeas para que el resultado estadstico de lugar a una recomendacin
basada en l. Los estudios de tamao de muestra producen un valor que se reere al menor
tamao de muestra que permite rechazar cuando ocurre una diferencia mayor que un valor
previamente establecido como mnimo para recomendar por las modalidades dadas por la
hiptesis alternativa.
El problema radica en el establecimiento de las hiptesis nula y alternativa. Por ejemplo,
es difcil pensar que el tiempo promedio en que un paciente tarda en reaccionar favorable-
a
leonardo_olmedo@hotmail.com
69
70 de una hiptesis nula central compuesta frente una hiptesis alternativa bilateral
mente a cierta sustancia, sea exactamente el mismo para diferentes pacientes. En realidad,
el investigador debera estar interesado en la prueba de hiptesis de la forma: c
1
c
2
frente < c
1
> c
2
; prueba que permitir al investigador, determinar si la media est
en el intervalo deseado o no. Si se rechaza la hiptesis nula, la media se separa del intervalo
de valores aceptables en la prctica y el rechazo de la hiptesis nula permite la recomen-
dacin prctica de diferencia relevante, es decir, el investigador puede con toda naturalidad
recomendar la sustancia o suspenderla.
La prueba de esta pareja de hiptesis no se presenta en los cursos porque el mtodo
requiere solucin iterativa. Por ello, consideramos de inters presentar la metodologa y su
solucin, con base en unas grcas, que dan la pauta para la obtencin de las cuantas para
la prueba convencional, ; que hagan factible que esta prueba se ensee a nivel licenciatura.
2. Contraste de hiptesis nula central compuesta y alter-
nativa bilateral en la distribucin normal
El planteamiento de hiptesis es:
H
0
: c
1
c
2
, vs H
a
: < c
1
> c
2
> , con conocida.
El punto angular para solucionar la prueba del tipo anteriormente descrita es, obtener el
contraste Uniformemente Ms Potente Insesgado (UMPI).
Denicin 2.1. Un contraste ser insesgado cuando la probabilidad de rechazar la hiptesis
nula siendo cierta es siempre menor igual que la de rechazarla siendo falsa,
m ax
0
P(rechazar H
0
) mn
a
P(rechazar H
0
).
Teorema 2.1. Sea x
1
, x
2
, ..., x
n
una muestra aleatoria de x N(; ) con > 0 conocida
y para probar H
0
: c
1
c
2
frente H
a
: < c
1
> c
2
, con nivel de signicacin ,
la razn verosimilitud para el contraste produce la prueba UMPI
ZR = (T(x) k
1
) (T(x) k
2
)
con k
1
< k
2
, donde T(x) = x y P
=c
1
(ZR) = P
=c
2
(ZR) =

2
.
3. Resultados 71
El Teorema 2.1 establece la zona de rechazo de la prueba anteriormente descrita. Para
ello, utiliza los conceptos de: razn de verosimilitud para una prueba de tamao , da
probabilidad de rechazo igual a alfa en la frontera de c
1
, c
2
, los extremos del intervalo para
en H
0
, de donde resulta que la prueba es UMP de entre todas las de tamao , y tambin,
el de hiptesis insesgada, de donde se deriva, que la potencia de la prueba ser mayor o
igual a fuera de H
0
, es decir, para fuera de [c
1
, c
2
] (Denicin 1.1). En su prueba se usa
que la funcin de verosimilitud de la prueba es convexa respecto a T(x), con base en ello,
la prueba resulta ser Uniformemente Ms Potente Insesgada (UMPI). La demostracin de
Teorema 2.1 pueden seguirse en Borovkov (1988) o Lehmann (1986).
La zona de rechazo, ZR, se compone de dos intervalos (T(x) k
1
) (T(x) k
2
).
3. Resultados
Para determinar P(T(x) k
1
) P(T(x) k
2
) se implement un mtodo numrico para
aproximarnos a la solucin de los valores, k
1
y k
2
. Para dar una solucin que no dependa de
los valores de K y , se toma (c
2
c
1
)/ = 2. La prueba se hace comparando Z calculado
igual a ( x (K + ))/
_
(n) si x > K y, con Z = ( x (K ))/
_
(n); si x < K se
compara con el 100(
1
) %, si x < K y con el percentil 100(1
2
) % si x > K, y
1
=
2
.
Las grcas dan la solucin para
2
a partir de los valores de y n.
Se realiza la prueba hacia el lado donde quede x usando una prueba unilateral con nivel
de signicacin, ya sea,
1
si x < K o
2
si x > K, esto produce de signicacin, vea la
gura 1(a). En la gura se muestra Alfa_2 (
2
), valor de probabilidad a la derecha, que ja
al percentil 100(1
2
) % de la Normal estndar que se debe usar para realizar la prueba
hacia la derecha cuando x > K, est dado por 2 = (c
2
c
1
)/, el nivel de signicacin
es = 0.05 y x > K, la prueba se har hacia la derecha. Si x < K se har prueba a la
izquierda con el percentil 100(
2
) % de Z como valor crtico.
Procedimiento para usar la grca. Para cada valor de y n, tome la lnea vertical que
cruce a la curva de n, en el punto de cruce tome la lnea horizontal que lo llevar al valor
de
2
(en la grca Alfa_2), que le indica que deber comparar el valor de Z calculado con
el percentil 100(1
2
) % de la Normal estndar.
72 de una hiptesis nula central compuesta frente una hiptesis alternativa bilateral
(a) (b)
Figura 1: Mtodo grco para determinar la probabilidad
2
hacia la derecha, en la prueba con
hiptesis nula compuesta [ K[ < y [0, 0.85] y tamaos de muestra de n =
5, 10, 15, 20, 30, 60, 120
Ejemplo 3.1. Si x > K y Z = ( x (K +))/
_
(n), para 0.6 y n > 5, se debe usar
el percentil 95 % de Z, como la prueba convencional de nivel 5 % unilateral a la derecha.
Si n = 5 y = 0.15, se debe usar
2
= 0.035 lo que produce una prueba unilateral a la
derecha con el percentil 96.5 % de Z y, si n = 5 y = 0.25 tenemos,
2
= 0.04 con la prueba
unilateral a la derecha con el percentil 96 % de Z.
Ejemplo 3.2. Para n = 20 y = 0.15, entonces
2
= 0.0425, que produce una prueba
unilateral a la derecha con el percentil 95.75 % de Z y, n = 20 y = 0.25, entonces
2
=
0.0475, que produce una prueba unilateral a la derecha con el percentil 95.25 % de Z.
Ejemplo 3.3. Si n = 10 y = 0.1, tenemos
2
= 0.035, prueba unilateral a la derecha con
el percentil 96.5 % de Z, si n = 60 y = 0.15, obtenemos
2
= 0.0475, que produce una
prueba unilateral a la derecha con el percentil 95.25 % de Z; etc.
Ejemplo 3.4. Si x < K y Z = ( x(K))/
_
(n), la prueba se har hacia la izquierda
y se usa el percentil 100(
1
) % de la Normal estndar. En el grco, si = 0.15 y n = 15, la
zona de rechazo sera,
2
= 0.035 y
1
= 0.015; = 0.15 y n = 30 la zona de rechazo sera,
2
= 0.045 y
1
= 0.005 (ver gura 1(b)).
Ejemplo 3.5. Si = 0.2 y n = 30, la zona de rechazo ser,
2
= 0.0475 y
1
= 0.0025; si
= 0.2 y n = 120, la zona de rechazo ser,
2
= 0.05, unilateral a la izquierda.
4. Conclusiones 73
Ejemplo 3.6. Si fuese = 0.1 y n = 30 obtendramos una zona de rechazo de
2
= 0.04
y
1
= 0.01; y para = 0.1 y n = 120, el valor de ser
2
= 0.0475 y
1
= 0.0025.Para el
caso cuando = 0.05 y n = 120, produce una prueba unilateral a la izquierda cuyos valores
de
2
y
1
, sern 0.04 y 0.01, respectivamente, ver gura 1(b).
4. Conclusiones
Se ha propuesto un mtodo grco que da los percentiles de la normal estndar que se
deben usar como valores crticos para la prueba de de hiptesis nula central compuesta con
alternativa bilateral en la distribucin Normal, H
0
: c
1
c
2
versus H
a
: < c
1
>
c
2
. El valor calculado de Z es x < K y las prueba es hacia la izquierda y es si x > K y
la prueba es hacia la derecha. A diferencia de las conclusiones en prueba convencional con
nula puntual, donde el rechazo de la hiptesis nula de igualdad no necesariamente lleva a una
recomendacin prctica, en este contraste la signicacin estadstica reeja una diferencia con
la igualdad que es de inters al investigador, adquiriendo sentido prctico, pues se enfoca en
probar si la media diere menos que delta de el valor K o la diferencia es mayor que delta por
lo que, al rechazar la hiptesis nula el investigador puede con toda naturalidad recomendar
que el valor de la media diere de K ms que delta, una diferencia mayor que aquella que
estableci como criterio para la comparacin.
Referencias
Borovkov, A. A., Estadstica Matemtica; Editorial Mir, Mosc,1988.
Lehmann, E.L., Testing Statistical Hypotheses, 3rd.. ed.,New York; John & Wiley Sons, Inc.,
1986.
Mood, A. M., The Theory of Statistics, 2nd ed., New York, McGraw Hill Book Company,
Inc., 1963.
Anlisis de sendero como herramienta
conrmatoria en un experimento de campo
Emilio Padrn Corral
a
Universidad Autnoma de Coahuila
Ignacio Mndez Ramrez
b
Universidad Nacional Autnoma de Mxico
Armando Muoz Urbina Universidad Autnoma Agraria Antonio Narro
1. Introduccin
La especie arbrea Ciran (Crescentia alata H.B.K) se utiliza como tratamiento medici-
nal para controlar enfermedades, es originaria de Mxico y se cultiva en los estados de:
Michoacn, Colima, Guerrero, Jalisco y Nayarit; los datos se obtuvieron de un trabajo que
se realiz en el rea denominada, El Llano, Municipio de Coahuayana, Michoacn, Mxico;
Avila (1999), formando 30 cuadrantes en una supercie de 120 hectreas, con 279 rboles
muestreados. Las variables a medir fueron: altura del rbol , nmero de ramas, dimetro de
ramas, cobertura, dimetro ecuatorial, dimetro polar, nmero de frutos, peso de frutos y
rendimiento. El objetivo es desarrollar un anlisis de coecientes de sendero para estudiar
las relaciones entre las componentes del rendimiento.
2. Metodologa
Los coecientes del anlisis de sendero con efectos directos e indirectos, fueron estimados de
acuerdo a Wright (1934), los que posteriormente fueron descritos por Dewey y Lu (1959)
y por Li (1975). Wright, ide la manera de interpretar ecuaciones normales para resolver
coecientes de regresin estandarizados en problemas de regresin mltiple. El anlisis de
sendero o mtodo de coecientes de sendero, es una forma de anlisis de regresin estruc-
turado, varios modelos de regresin ligados, y considerando variables estandarizadas a media
a
epadron@mate.uadec.mx
b
imendez@servidor.unam.mx
75
76 Anlisis de sendero como herramienta conrmatoria en un experimento de campo
cero y varianza uno, en un sistema cerrado. Se establecen varias ecuaciones que determinan
todas las correlaciones entre las variables observadas. Es prcticamente indispensable pro-
poner un diagrama o modelo grco, donde se especique las cadenas causales propuestas
por el investigador. Lo que se obtiene es el grado de cercana de las observaciones empricas
con las cadenas causales propuestas por el investigador, es decir se apoya o no la hiptesis
resumida en la estructura causal propuesta, y adems se evala el peso de cada relacin, va
los llamados coecientes de sendero. Tambin se obtienen los efectos directos e indirectos de
entre variables. Los efectos directos son los coecientes de regresin estandarizados de una
variable dependiente sobre otra dependiente. Los efectos indirectos son la inuencia sumada
de una variable independiente sobre otra dependiente va las correlaciones o senderos que
llevan a la dependiente de manera indirecta. Es decir, los efectos directos son coecientes
de regresin estandarizados que aplicados al mejoramiento de plantas permite un avance
ms rpido en la seleccin de genotipos sobresalientes en la variable de estudio, los cuales
son denominados coecientes de sendero (b), (denotado por una lnea con una echa); cada
variable predictora tiene un efecto directo y un efecto indirecto para cada una de las otras
variables asociadas. El efecto indirecto es aquel que se obtiene a traves de otras variables
y se estima del producto del coeciente de correlacin y su respectivo efecto directo y nos
permite detectar su efecto correspondiente en la variable de estudio. (denotado por una lnea
con dos echas). Figura 1, Los datos se analizaron con el paquete computacional MATLAB.
En el sistema de ecuaciones (*) el primer efecto indirecto en la primera ecuacin normal
[1], es dado por r
12
b
25
, es decir, la serie de expresiones que comprenden todas las vas para la
primera variable predictora forman una ecuacin normal [1], cuando se sumarizan igualan el
coeciente de correlacin entre la variable de respuesta X
5
y la primera variable predictora
X
1
, (efecto directo negreado).
b
15
+r
12
b
25
+r
13
b
35
+r
14
b
45
= r
15
[1]
r
12
b
15
+b
25
+r
23
b
35
+r
24
b
45
= r
25
[2]
r
13
b
15
+r
23
b
25
+b
35
+r
34
b
45
= r
35
[3]
r
14
b
15
+r
24
b
25
+r
34
b
35
+b
45
= r
45
[4]
(*)
Sustituyendo las matrices y ecuaciones siguientes en el paquete computacional MAT-
LAB, obtenemos los coecientes de sendero, el residual y el coeciente de determinacin
correspondientes.
2. Metodologa 77
Figura 1: Diagrama o modelo grco de sendero mostrando las correlaciones () y los efectos
directos () entre variables de rbol y fruto en el cultivo del Cirin.
A =
_
_
_
_
_
_
1 r
12
r
13
r
14
r
21
1 r
23
r
24
r
31
r
32
1 r
34
r
41
r
42
r
43
1
_
_
_
_
_
_
vector de correlaciones nales
B =
_
_
_
_
_
_
r
15
r
25
r
35
r
45
_
_
_
_
_
_
los coecientes de sendero (b)
b = A
1
B
el residual E
E =
_
1 b
B
78 Anlisis de sendero como herramienta conrmatoria en un experimento de campo
y el coeciente de determinacin
R
2
= 1 E
2
3. Resultados y discusin
En el Cuadro 1, se puede observar que al correlacionar los caracteres con nmero de frutos,
es la cobertura la que nos indica la mayor asociacin con un 99 porciento de conanza, esto
indica que a medida que se incrementa la cobertura se incrementa el nmero de frutos, igual-
mente para peso de fruto tanto dimetro ecuatorial como dimetro polar tienen asociacin
signicativa con peso de fruto, es decir, a medida que se incrementa el dimetro ecuatorial
como dimetro polar, se incrementa el peso de fruto con un 99 porciento de conanza; en
lo referente a la correlacin entre nmero de frutos y peso de fruto contra rendimiento, es-
ta fu de buena calidad, pero es nmero de frutos el que mayor sobresali con respecto a
rendimiento, con un 99 porciento de conanza.
Los efectos directos e indirectos se muestran en el Cuadro 2, se observa que el efecto
directo de mayor ponderacin es de 0.8938, debido a que ninguno excede la unidad se puede
concluir que la multicolinealidad no ha producido coecientes de sendero inados. de los
efectos directos sobre nmero de frutos; cobertura fue la ms sobresaliente con un valor de
0.7273, de los efectos indirectos dimetro de ramas present el valor ms alto a travs de
cobertura con un valor de 0.3338; el anlisis de sendero para nmero de frutos no explic
en gran proporcin la variacin del nmero de frutos como se indica por el bajo valor del
coeciente de determinacin R
2
= 0.59 y por el correspondiente efecto del residual (Res =
0.6391). Se observa que los componentes dimetro ecuatorial y dimetro polar inuyeron
en el peso de fruto directa e indirectamente, los efectos indirectos fueron sobresalientes, sin
embargo, los efectos directos tuvieron mayor impacto sobre el peso de fruto y fueron casi de
igual magnitud; el efecto del residual fue alto (Res = 0.5581) y el coeciente de determinacin
fue bajo R
2
= 0.69 por lo que el dimetro ecuatorial y el dimetro polar no explicaron en
gran proporcin la variacin en el peso de fruto. En el anlisis de sendero para rendimiento
de fruto, se observa que los efectos directos e indirectos de nmero de frutos y peso de fruto
tambin fueron todos positivos, nmero de frutos present el efecto directo ms alto (0.8938)
por otra parte, los efectos indirectos fueron relativamente bajos comparados con los efectos
3. Resultados y discusin 79
Caracter Altura Nmero Dimetro Cobertura Nmero
de rbol de ramas de ramas de frutos
a)
Altura de rbol 1.000 -0.041 0.389
0.356
0.333
Nmero de ramas 1.000 -0.475
0.320 0.298
Dimetro de ramas 1.000 0.459
0.313
Cobertura 1.000 0.763
Nmero de frutos 1.000

b) Dimetro Dimetro Peso de
ecuatorial polar fruto
Dimetro
ecuatorial 1.000 0.668
0.748
Dimetro polar 1.000 0.767
Peso de fruto 1.000

c) Nmero Peso de Rendimiento
fruto fruto de fruto
Nmero de frutos 1.000 0.169 0.943
Peso de fruto 1.000 0.442
Rendimiento de fruto 1.000
Signicativo al 5 %
Signicativo al 1 %
Tabla 1: Coecientes de correlacin entre varios caracteres relacionados con: a) nmero de frutos;
b) peso de fruto; c) rendimiento de fruto, en rbol de Cirin
80 Referencias
directos; el efecto del residual fue bajo (Res=0.1689) y el coeciente de determinacin fue
alto R
2
= 0.97, por lo que nmero de frutos y peso de fruto explicaron el 97 porciento de la
variacin en el rendimiento de fruto.
4. Conclusiones
1. El anlisis de coecientes de sendero mostr que la cobertura fue un factor importante
para determinar el nmero de frutos.
2. Los efectos directos de dimetro ecuatorial y dimetro polar sobre peso de fruto, man-
ifestaron buena relacin, y explicaron en un 69 porciento la variacin en el peso de
fruto.
3. El anlisis de sendero para rendimiento de fruto, muestra que el incremento en el
nmero de frutos es el factor ms importante para mejorar el rendimiento de fruto por
rbol. El coeciente de determinacin fue alto y muestra que el nmero de frutos y el
peso de fruto explicaron en un 97 porciento la variacin en el rendimiento de fruto.
Referencias
Avila, R.A. (1999). Ecologa y Evaluacin del Fruto del Cirin (Crescentia alata H.B.K.)
Como Recurso Forrajero en la Localidad el Llano, Municipio de Coahuayana, Michoacn,
Mxico. Tesis de Maestra, Universidad Autnoma Agraria Antonio Narro, Buenavista,
Saltillo, Coahuila, Mxico. p. 1-71.
Dewey, D.R. y Lu, K.H. (1959). A Correlation and Path Coecient Analysis of Components
of Crested Wheatgrass Seed Production. Agronomy Journal, 51, 515-518.
Li, C.C. (1975). Path Analysis: A Primer. Boxwood Press, Pacic Grove, C.A. MATLAB; The
Language of Technical Computing. Version 7.0.0. 19920 (R14). Copyright (1984-2004).
The MathWorks. Inc.Wright, S. (1934). The Method of Path Coecients. Ann. Math. Stat.,
5, 161-215.
Referencias 81
Caracter Altura Nmero Dimetro Cobertura Nmero
de rbol de ramas de ramas de frutos
a)
Altura de rbol 0.0875 -0.0023 -0.0111 0.2589 0.333
Nmero de ramas -0.0036 0.0552 0.0136 0.2327 0.298
Dimetro de ramas 0.0340 -0.0262 -0.0282 0.3338 0.313
Cobertura 0.0311 0.0177 -0.0131 0.7273 0.763
Residual=0.6391
R
2
= 1 (0.6391)
2
= 0.59
b) Dimetro Dimetro Correlacin
ecuatorial polar con
peso de fruto
Dimetro
ecuatorial - 0.4255 0.3225 0.748
Dimetro polar 0.2842 0.4828 0.767
Residual=0.5581
R
2
= 1 (0.5581)
2
= 0.69
c) Nmero Peso de Correlacin con
fruto fruto rendimiento
de fruto
Nmero de frutos 0.8938 0.0.492 0.943
Peso de fruto 0.1511 0.2909 0.442
Residual=0.1689
R
2
= 1 (0.5581)
2
= 0.69
Tabla 2: Efectos directos (negreado) e indirectos del anlisis de coecientes de sendero para: a)
nmero de frutos; b) peso de fruto; c) rendimiento de fruto, en rbol de Cirin
Comparacin de poblaciones normales
asimtricas
Paulino Prez Rodrguez
a
, Jos A. Villaseor Alva
b
1. Introduccin
Las distribuciones normales asimtricas constituyen una familia de distribuciones de tres
parmetros: localidad, escala y forma, la cual contiene a la familia normal cuando el parmetro
de forma es 0 y a la distribucin media-normal cuando dicho parmetro tiende a innito.
Esta familia de distribuciones tiene algunas de las propiedades de la familia normal, lo que
la hace atractiva desde el punto de vista de aplicaciones. Esta familia apareci de forma in-
dependiente varias veces en la literatura estadstica (ver Roberts (1966), OHagan y Leonard
(1976)); sin embargo, fue Azzalini (1985) quien estudi sus principales propiedades, propuso
algunas generalizaciones y le dio el nombre con el cual se le conoce actualmente. Una revisin
completa sobre esta distribucin se encuentra en Azzalini (2005).
En este trabajo se presenta una solucin al problema de comparacin de dos poblaciones
normales asimtricas, la cual utiliza una prueba de razn de verosimilitudes generalizada con
respecto a mezclas de normales asimtricas.
a
perpdgo@colpos.mx
b
jvillasr@colpos.mx
83
84 Comparacin de poblaciones normales asimtricas
2. La distribucin normal asimtrica
Denicin 2.1. Una v.a. Z tiene distribucin normal asimtrica con parmetro de forma
si su funcin de densidad es:
f
Z
(z; ) = 2(z) (z)I
(,)
(z), (1)
donde () y () denotan la funcin de densidad y de distribucin normal estndar, R.
Si Z tiene la funcin de densidad (1) entonces usualmente se escribe Z SN(). Si
Y = +Z con R y R
+
, entonces Y SN(, , ) y su funcin de densidad es:
f
Y
(y; , , ) = 2
1
_
y
_
y
__
I
(,)
(y).
3. Comparacin de poblaciones
Sea X
1
, . . . , X
n
una m. a. de SN(
1
,
1
, ) y Y
1
, . . . , Y
m
una m.a. de SN(
2
,
2
, ) y se supone
que las muestras son independientes. Se desea saber si las observaciones vienen de una
distribucin normal asimtrica o de una mezcla de dos distribuciones normales asimtricas.
Si los datos son de una mezcla, es de inters conocer los parmetros y la proporcin de los
componentes individuales que forman la misma. La funcin de densidad de la mezcla est
dada por
f
W
(w; ,
1
,
1
,
2
,
2
, ) = f
Z
1
(w;
1
,
1
, ) + (1 )f
Z
2
(w;
2
,
2
, ),
donde Z
1
SN(
1
,
1
, ), Z
2
SN(
2
,
2
, ), [0, 1].
Se plantea el siguiente juego de hiptesis:
H
0
:
1
=
2
= ,
1
=
2
= > 0, [0, 1], R vs H
1
:
1
,=
2

1
,=
2
, [0, 1], R.
Para probar este juego de hiptesis se propone usar una prueba de razn de verosimili-
tudes generalizada.
3. Comparacin de poblaciones 85
Estimadores de mxima verosimilitud en todo el espacio de parmetros
En este caso es necesario calcular 6 parmetros, i.e. = (,
1
,
1
,
2
,
2
, )
. Para estimar los

parmetros se utiliza el algoritmo Esperanza-Mazimizacin Generalizado (GEM). Se parte
del hecho de que se tiene una sola muestra Z
1
, . . . , Z
n+m
de una mezcla de dos normales
asimtricas f
W
(w; ,
1
,
1
,
2
,
2
, ). Sea
i
= 1 si la observacin i-sima viene del primer
componente de la mezcla y
i
= 0 en caso contrario. Entonces la verosimilitud para los datos
completos W
1
, . . . , W
n+m
con W
i
= (Z
i
,
i
) est dada por:
f(w
1
, . . . , w
n+m
; ) =
n+m
i=1
i
(1 )
1
i
(f
Z
1
(z
i
;
1
,
1
, ))
i
(f
Z
2
(z
i
;
2
,
2
, ))
1
i
(2)
Etapa E
Al tomar el logaritmo de (2) se obtiene:
l()
n+m
i=1
(1
i
) log(1 )
n+m
i=1
i
_
log
1
+
1
2
_
z
i
1
_
2
log
_
z
i
1
_
_
n+m
i=1
(1
i
)
_
log
2
+
1
2
_
z
i
2
_
2
log
_
z
i
2
_
_
+
n+m
i=1
i
log .
Como el operador esperanza es lineal, la funcin
Q(;
(j1)
) = E
_
log f(w
1
, . . . , w
n+m
; )[z
1
, . . . , z
n+m
,
(j1)
_
es la log-verosimilitud de los datos completos, pero se sustituye
i
por su valor esperado, es
decir, p
i
= E
i
[z
1
, . . . , z
n+m
,
(j1)
= P(
i
= 1[z
1
, . . . , z
n+m
,
(j1)
). Luego por el teorema
de Bayes:
p
i
=
P(
i
= 1)P(z
i
,
(j1)
[
i
= 1)
P(
i
= 0)P(z
i
,
(j1)
[
i
= 0) +P(
i
= 1)P(z
i
,
(j1)
[
i
= 1)
.
86 Comparacin de poblaciones normales asimtricas
Etapa M
Hay que maximizar
Q(;
(j1)
)
n+m
i=1
p
i
_
log
1
+
1
2
_
z
i
1
_
2
log
_
z
i
1
_
_
n+m
i=1
(1 p
i
)
_
log
2
+
1
2
_
z
i
2
_
2
log
_
z
i
2
_
_
+
n+m
i=1
p
i
log + (1 p
i
) log(1 ).
La etapa de maximizacin no se puede hacer de manera analtica, por lo cual no se podr
aplicar el algoritmo EM de forma directa y ser necesario recurrir al algoritmo GEM. Es
necesario ser muy cuidadosos al momento de calcular , hay que recordar que [0, 1],
lo cual podra causar inestabilidades numricas al momento de implementar el algoritmo
GEM. El problema anterior puede evitarse reduciendo la dimensionalidad de la funcin a
maximizar, si se considera que
1
,
1
,
2
,
2
, son jos y entonces Q(;
(j1)
) es solo funcin
de , empleando la tcnica de derivadas podemos conocer el valor de que maximiza la
funcin, es decir:
Q(;
(j1)
)
=
n+m
i=1
p
i

1 p
i
1
= 0.
De donde se obtiene = (n + m)
1
n+m
i=1
p
i
. Una vez que conocemos el valor del
parmetro se buscan
1
,
1
,
2
,
2
, tal que Q(;
) Q(
). Sea H(;
(j1)
) =
Q(;
(j1)
) entonces el problema de buscar tal que Q(;
) Q(
) es equivalente
a buscar tal que H(;
) H(
). Para resolver este problema se emplea el mtodo

del descenso ms rpido. Las etapas de Esperanza-Maximizacin se realizan de manera alter-
nada hasta que se alcanza la convergencia. El algoritmo GEM fue programado en el paquete
R.
Estimadores de mxima verosimilitud bajo la hiptesis nula
El clculo de los estimadores bajo la hiptesis nula se realiza de la manera usual.
Referencias 87
Prueba de razn de verosimilitudes generalizada
Para probar la hiptesis de inters, se utiliza la estadstica dada por el cociente de razn
de verosimilitudes (Z). Se rechaza la hiptesis nula al nivel de signicancia si y solo si
2 log (Z)
2
2,1
.
Potencia de la prueba
Con la nalidad de estudiar la potencia de la prueba descrita en la seccin anterior, se
consideran algunas alternativas. En la tabla 1 se presentan las potencias estimadas mediante
simulacin Monte Carlo con B = 1, 000 rplicas de los tamaos indicados, = 0.05.
El algoritmo GEM result ser herramienta efectiva para la obtencin de los estimadores
de mxima verosimilitud requeridos para la solucin del problema de comparacin de pobla-
ciones normales asimtricas. En la tabla 1, se observa que a medida que la distancia entre
parmetros de localidad se hace ms grande la potencia se incrementa, como era de esperarse.
Referencias
Azzalini, A. (1985). A class of distributions which includes the normal ones. Scandinavian
Journal of Statistics, 12, 171-178.
Azzalini, A. (2005). The skew normal distribution and related multivariate families. Scandi-
navian Journal of Statistics, 32, 159-188.
OHagan, A. y Leonard, T. (1976). Bayes Estimation Subject to Uncertainty About Param-
eters Constraints. Biometrika, 63, 201-203.
Roberts, C. (1966). A correlation model useful in the study of twins. Journal of the American
Statistical Association, 61, 1184-1190.
88 Referencias
Tamao de Diferencia entre parmetros de loc.
muestra(n)
2
1
= 2
2
1
= 3
2
1
= 4
= 0.5
50 0.210 0.633 0.781
100 0.265 0.921 0.952
150 0.371 0.981 0.988
= 0.6
50 0.258 0.657 0.912
100 0.403 0.739 0.984
150 0.439 0.988 0.988
= 0.7
50 0.240 0.711 0.937
100 0.394 0.977 0.995
150 0.484 0.997 0.998
= 0.8
50 0.162 0.399 0.772
100 0.239 0.716 0.985
150 0.281 0.894 0.986
= 0.9
50 0.102 0.162 0.614
100 0.119 0.267 0.923
150 0.119 0.313 0.970
Tabla 1: Potencia de la prueba de razn de verosimilitudes para mezclas de poblaciones SN, obteni-
da mediante simulacin Monte Carlo con B = 1, 000, = 1,
1
=
2
= 1
Anlisis espectral aplicado al
electroencefalograma
Vernica Saavedra Gastlum
a
Universidad Autnoma de Quertaro
Thala Fernndez Harmony Universidad Nacional Autnoma de Mxico
Eduardo Castao Tostado Universidad Autnoma de Quertaro
Vctor Manuel Castao Meneses Universidad Nacional Autnoma de Mxico
1. Introduccin
Una serie de tiempo puede analizarse en el dominio del tiempo o en el dominio de las frecuen-
cias. El anlisis espectral permite describir el comportamiento de la seal en el dominio de
las frecuencias. El mtodo ms comn para describir el dominio de las frecuencias es realizar
el anlisis espectral de la serie a travs de la transformada de Fourier, (Evans, 1999) para
obtener el espectro de potencias, el cual contribuye el diagnstico neurolgico o psiquitrico
de un sujeto. Sin embargo, la transformada de Fourier presenta problemas en su aplicacin
a datos reales en los que el supuesto de estacionariedad no se cumpla. El presente trabajo
pretende describir este problema aplicndolo a un ElectroEncefaloGrama (EEG) y proponer
una manera de anlisis espectral va Ondeletas.
2. Mtodo
El EEG es una grca del voltaje en funcin del tiempo que representa la actividad elc-
trica cerebral en diferentes regiones del cuero cabelludo. El registro del EEG se realiz de
acuerdo a la norma internacional 10/20 propuesta por Henri Jasper en 1958 la cual incluye
19 derivaciones monopolares: Fp1, Fp2, F3, F4, C3, C4, P3, P4, O1, O2, F7, F8, T3, T4,
T5, T6, Fz, Cz, y Pz. Adems se utilizaron dos electrodos cortocircuitados, A1 y A2, en las
a
veroclessg@yahoo.com.mx
89
90 Anlisis espectral aplicado al electroencefalograma
orejas como referencia. Las derivaciones reciben su nombre de acuerdo a su localizacin, los
nmeros pares indican que el electrodo est localizado en el hemisferio derecho del cerebro
y los nmeros nones indican el hemisferio izquierdo. Fp1 y Fp2 corresponden a la regin
Prefrontal, F3, F4, F7, F8 y Fz corresponden a la regin Frontal, C3 y C4 corresponden a
la regin Central, P3, P4 y Pz a la regin Parietal, O1 y O2 a la regin Occipital, T3, T4,
T5 y T6 a la parte Temporal y Cz corresponde al Vertex o Rolndico.
2.1. Densidad espectral
La densidad espectral se obtiene aplicando la transformada de Fourier a la funcin de auto-
covarianza (ACF) de la serie que se desea analizar; siempre y cuando la serie sea estacionaria
al menos de segundo orden. Se obtiene mediante:
f () =
(n1)
h=(n1)
(h) exp 2ih (1)
(h) = n
1
nh
t=1
(x
t+h
x) (x
t
x) (2)
donde h se dene como el retraso de la serie y es la frecuencia fundamental. Aplicando la
frmula de Euler, la densidad espectral se puede rescribir para cada frecuencia fundamental
k
como sigue:
X
C
(
k
) = n
1/2
n
t=1
x
t
cos (2
k
t) , y (3)
X
S
(
k
) = n
1/2
n
t=1
x
t
sen(2
k
t) (4)
Con lo que es posible obtener el periodograma, el cual permite estimar la potencia en la
frecuencia fundamental
k
como:
I (
k
) = X
2
C
(
k
) +X
2
S
(
k
) . (5)
La aplicacin de la transformada de Fourier, es vlida siempre y cuando la serie sea
estacionaria al menos de segundo orden y satisfaga
h=
[ (h)[ < (6)
2. Mtodo 91
Por construccin, la transformada de Fourier no permite estudiar qu frecuencias estn
presentes a qu tiempos especcos.
2.2. Transformada de ondeleta
La transformada de ondeleta puede pensarse como una operacin lineal que descompone en
el tiempo una seal en bloques elementales que aparecen en diferentes escalas o resoluciones.
Al descomponer una seal en escala-tiempo, permite determinar escalas de frecuencias dom-
inantes a tiempos especcos. Los bloques elementales se analizan de manera individual.
La transformada de ondeleta utiliza una funcin base, tambin llamada ondeleta madre,
la cual debe ser oscilatoria y decaer rpidamente a cero. La transformada de ondeleta de una
seal continua se dene como
CWT
x (a, b) = W
x
(a, b) =
x (t)
a,b
(t) dt (7)
donde la funcin base se dene como
a,b
(t) = [a[
1/2
_
t b
a
_
(8)
Donde a representa un parmetro de escala (o resolucin que corresponde al inverso de
la frecuencia) y b un parmetro de corrimiento. Una vez que la funcin base es seleccionada,
el procedimiento consiste en dilatar (o contraer) y trasladar la funcin base a partir de los
parmetros a y b. El resultado de la transformada de ondeleta es un conjunto de seales
a diferentes escalas o resoluciones. A esto se le conoce como Anlisis de Multirresolucin
(MRA) (Walker, 1999).
Para el caso discreto, la traslacin y dilatacin de la funcin base generan informacin
redundate, para eliminarla es necesario redenir los parmetros de escala y traslacin como:
a = 2
j
(factor de dilatacin) y b = 2
j
k (factor de localizacin).Lo que convierte a (8) en:
j,k
(t) = 2
j/2
_
t 2
j
k
2
j
_
(9)
Con la MRA es posible reconstruir la seal a travs de una suma de la seal promediada y
seales de detalle como sigue:
x (t) = A
k
+D
k
+... +D
2
+D
1
(10)
siempre y cuando la seal sea divisible k veces por 2. A
k
es k-sima seal promediada, y
D
k
, ..., D
2
, D
1
son las seales de detalle. A partir de (9):
x (t)
k
s
J,k
J,k
(t) +
k
d
J,k
J,k
(t) +... +
k
d
1,k
1,k
(t) (11)
donde J es el nmero de componentes en multiresolucin (o escales), k toma valores entre 1
y el nmero de coecientes en cada componente, s
J,k
es el k-simo coeciente promediado y
d
J,k
, ..., d
1,k
son los coecientes de detalle.
Entre las ventajas que ofrece la transformada de ondeleta, es que permite trabajar con
series no-estacionarias.
3. Aplicacin al EEG transformada de ondeleta
Se realizaron dos EEGs en el cuero cabelludo de dos nios en reposo entre 6 y 11 aos
de edad, uno de ellos considerado como nio sano, es decir, sin trastorno de aprendizaje y
el segundo, un nio con trastorno de aprendizaje. El EEG fue editado por expertos para
remover todo artefacto derivado de cualquier actividad elctrica cuyo origen no es cerebral,
como son el parpadeo, la sudoracin, etc. Los datos fueron registrados cada dos milisegundos.
En la toma de un EEG, se posicionan electrodos en lugares diferentes del cuero cabelludo
conocidas como derivaciones. Se decidi analizar la derivacin llamada Cz debido a que es
la menos afectada por artefactos. De acuerdo con Kavale (1988), el cual reere al trastorno
de aprendisaje como una disfuncin del cerebro, para efectos de simplicidad en este artculo
llamaremos al nio que presenta trastorno de aprendizaje como sujeto con dao cerebral y
sin dao cerebral al nio sin problemas de aprendizaje. La Figura 1 muestra un segmento
del EEG libre de artefactos registrado por la derivacin Cz, tanto para el nio con dao y
sin dao cerebral. Como se puede observar en la Figura 1, el EEG del nio sin dao oscila
ms lento que el EEG del nio con dao cerebral.
La obtencin del Periodograma se realiza para conocer los ritmos electroencefalogrcos
de una persona, denidos como las bandas de frecuencia delta [1,3.5]Hz, theta (3.5,7.5]Hz, alfa
(7.5,12.5]Hz y beta (12.5,20]Hz. Existen normas extranjeras ya establecidas para determinar
si un sujeto puede considerarse como normal o con dao cerebral, dependiendo de los valores
obtenidos en las bandas de frecuencia dea acuerdo con Thatcher (1998). Este mtodo se
3. Aplicacin al EEG transformada de ondeleta 93
Tiempo
C
z
0 200 400 600 800 1000
-
6
0
-
2
0
0
2
0
4
0
6
0
Tiempo
C
z
0 100 200 300 400 500
-
6
0
-
2
0
0
2
0
4
0
6
0
Tiempo (5ms)
Tiempo (5ms)
Cz Sin Dao Cerebral
Cz Con Dao Cerebral
Figura 1: Representacin grca del EEG registrado por Cz contra el tiempo, para el nio con
dao y sin dao cerebral
realiza con base en la transformada Rpida de Fourier (FFT), por lo que es necesario primero
vericar los supuestos inherentes al mtodo.
Para corroborar el supuesto de estacionariedad de una serie de tiempo es necesario que su
funcin de autocorrelacin decaiga rpidamente a cero, sin embargo como se puede observar
en la Figura 2, no slo no decae rpido sino que muestra un comportamiento cclico. Siendo
ms evidente en la persona con dao cerebral.
Debido a la falta de estacionariedad en las dos series, no tiene sentido aplicar FFT en el
anlisis espectral, por lo que se realiz dicho anlisis aplicando la transformada de ondeleta,
con la funcin base Daub4.
Para ambas series se calcularon (usando el paquete S plus) los coecientes de niveles
de resolucin d1, d2, d3, d4, d5 y d6 obtenidos al aplicar la transformada ondeleta, donde
d1 representa la escala ms na y d6 la escala ms rugosa. Mientras que el coeciente s6
representa al vector de coecientes del comportamiento dominante suavizado de cada EEG.
En la Figura 3 se puede observar que la persona con dao cerebral es mejor representada por
coecientes de escala rugosa, mientras que la persona sin dao cerebral, presenta coecientes
Figura 2: Funcin de autocorrelacin del EEG registrado por Cz, para el nio con dao y sin dao
cerebral
4. Conclusiones 95
en escalas ms nas. Adems es posible observar en qu tiempo ocurren los detalles.
Transformada Discreta de Ondeleta Sin Dao Cz
Transformada Discreta de Ondeleta Con Dao Cz
0 100 200 300 400 500
s6
d6
d5
d4
d3
d2
d1
idwt
0 100 200 300 400 500
s6
d6
d5
d4
d3
d2
d1
idwt
Figura 3: Transformada discreta de ondeleta del EEG registrado por Cz, para el nio sin dao y
con dao cerebral
Al realizar un anlisis de la energa capturada por los coecientes de cada EEG, la cual nos
proporciona la varianza de la seal, se puede notar que el EEG de la persona con dao queda
mejor representada con el coeciente de detalle d5, mientras que la persona sin dao, por el
coeciente de detalle d4; es decir, la ondeleta que mejor representa la actividad cerebral de
los individuos con dao, es ms rugosa que la ondeleta utilizada para representar la actividad
cerebral de los individuos sin dao cerebral.
En la Figura 4, se puede observar el comportamiento de las ondeletas en los dos niveles
de detalle. La ondeleta en el coeciente de detalle d4 es ms suave y ms amplia, mientras
que en el detalle d5, se vuelve ms rugosa y ms corta.
4. Conclusiones
El mtodo utilizado para calcular la Potencia en las bandas de frecuencia denidas previ-
amente presenta varias deciencias en su aplicacin. Por un lado, supone que la serie es
Figura 4: Porcentaje de energa de los coecientes de ondeleta en Cz
`d4' mother, psi(5,0)
-20 0 20 40 60
-
0
.
1
0
0
.
0
0
.
0
5
0
.
1
0
`d4' mother, psi(4,0)
-20 0 20 40 60
-
0
.
1
0
0
.
0
0
.
0
5
0
.
1
0
Detalle d5 en Cz Con Dao
Detalle d4 en Cz Sin Dao
Figura 5: Ondeleta representativa de los detalles d4 y d5 del EEG registrado por Cz, para el nio
sin dao y con dao cerebral
Referencias 97
estacionaria, cuando en realidad existen segmentos en donde dicho supuesto no se cumple,
como el que se mostr en la Figura 2. En la actualidad cualquier actividad cerebral que no
se comporte de manera estacionaria es eliminada del anlisis, lo que implica una prdida de
informacin que podra ser importante para la valoracin de un sujeto.
La transformada de ondeleta provee mayor informacin y es posible utilizarlas con series
no estacionarias. Adems el tiempo no se pierde al realizar el Anlisis Espectral y adems
es posible reconstruir la seal con un menor nmero de datos.
Cabe mencionar que diversos autores han utilizado las ondeletas en datos donde la no
estacionariedad es evidente, como es el caso de pacientes epilpticos. Lo que se pretende es
encontrar una manera nueva de establecer normas para Mxico con base en la transformada
de Ondeleta y as discriminar de una manera correcta a los sujetos.
Este estudio fue realizado slo con dos sujetos, en un solo segmento y una sola derivacin,
por lo que se pretende ampliarlo a un grupo, analizar las derivaciones ms importantes, con
el mayor nmero de segmentos posibles libres de artefacto.
Agradecimientos
Nuestro ms preciado agradecimiento a la Universidad Nacional Autnoma de Mxico, por
proporcionarnos los EEGs, as como a la Dra. Lourdes Daz por la creacin del programa
que permite tener los registros en formato texto.
Referencias
Bruce, A. y Gao, H.Y. (1996). Applied Wavelet Analysis with S-Plus, pp. 11-62. New York:
Springer.
Evans, J. R. (1999). Introduction to Quantitative EEG and Neurofeedback, pp. 3-23, USA:
Academic Press.
Kavale, K. A. (1988). Learning Disability and Cultural-Economic Disadvantage: The Case
for a Relationship.Learning Disability Quarterly. XI, 3, 195-210
98 Referencias
Saavedra-Gastlum, V., Fernndez Harmony, T., Harmony-Baillet, T. y Castao Meneses,
V. M. (2006). Ondeletas en Ingeniera, Principios y Aplicaciones. Ingeniera Investigacin
y Tecnologa, VII, 3, 185-190.
Shumway, R. H. y Stoer, D. S. (2000). Time series analysis and its applications, pp. 213-289.
New York: Springer.
Thatcher, R.W., (1998). Normative EEG Databases and EEG Biofeedback. Journal of Neu-
rotherapy, II, 4, 8 39.
Walker, J. S., (1999). A primer on wavelets and their scientic applications, pp. 2-49.USA:
Chapman & Hall.
Software que trata las principales causas de la
diabetes
Brbara Emma Snchez Rinza
a
, Jessica Giovanna Huerta Lpez
*
, Jazmin
Jimnez Bedolla
*
, M. Bustillo Daz, A. Rangel Huerta
Universidad Autnoma de Puebla Facultad de Ciencias de la Computacin
1. Introduccin
La diabetes junto con enfermedades del corazn y cncer son las tres principales causas de
muerte en Mxico, estas tambin forman parte de los problemas graves de ndole pblica,
junto con la obesidad. Actualmente en nuestro pas la enfermedad de la Diabetes es un asunto
preocupante, ya que hasta hace 31 aos las principales causas de muerte en nuestro pas era
la diarrea, neumona, e infecciones respiratorias agudas. La diabetes ocupaba el sptimo
lugar, mientras que ahora la diabetes mellitus es una de las principales causas de muerte
en nuestro pas. Para ser ms exacto hasta la fecha ocupa el tercer lugar de mortalidad en
nuestro pas. Mxico se encuentra ubicado a nivel mundial como uno de los pases con el
mayor nmero registrado de casos de diabetes. Y se espera un incremento a futuro de este
nmero de casos de personas diabticas. De acuerdo con organismos mundiales de la salud
en 1995, Mxico ocupaba el dcimo lugar en casos de diabetes, pero se espera que para el ao
2025, ocupar el sptimo con 10 millones de personas diabticas. Esto se podra armar con
el siguiente dato, en Mxico por cada ao mueren aproximadamente 40 000 personas a causa
de la diabetes. En Mxico, 11 % de la poblacin entre 20 y 69 aos padece diabetes, la cual
en la ltima dcada se ha ubicado como la enfermedad crnico-degenerativa con mayor carga
de mortalidad y discapacidad entre quienes la padecen esta enfermedad. Ahora se describir
a
brinza@cs.buap.mx
*
Estudiante de la BUAP
99
100 Software que trata las principales causas de la diabetes
un poco acerca de la Diabetes Mellitus que es una enfermedad crnico-degenerativa esta
surge por la falta de insulina, una hormona cuya funcin principal es permitir la entrada de
glucosa a las clulas, as por falta de esta hormona es que se genera un incremento en los
niveles de azcar en la sangre (glucosa sangunea), condicin denominada Hiperglicemia (la
Hiperglicemia sucede cuando el azcar en la sangre alcanza un nivel de 180 mg/dl o ms).
2. Desarrollo del trabajo
A continuacin se mostrarn pantallas de una base de datos que fue diseada para mostrar
encuestas hechas a personas diabticas, la mayora de edad avanzada. En la imagen anterior
Figura 1: Muestra las tablas de la encuesta
se muestran las 7 tablas que abarca nuestra tabla de datos. En datos generales se almacenan
los datos personales de la poblacin encuestada, como se muestra en la Figura 2. Como
se mencion anteriormente en esta tabla se almacenan los datos generales de la persona,
como lo son su sexo, edad, estatura, y peso. Cada persona va a tener un id, este id servir
en las siguiente tablas para saber qu es lo que contest la persona en cada pregunta. EL
software tiene una base de datos de personas enfermas, de esa base de datos se sacan algunas
preguntas claves que fueron elaboradas por mdicos especialistas en el cuidado de enfermos
de diabetes. Una vez que el sistema tiene las preguntas cualquier persona puede resolver
este cuestionario y el software le dar un porcentaje de padecer la enfermedad o no, pero es
importante recalcar que la ultima palabra la tiene un medico y unos anlisis hechos en un
laboratorio clnico.
3. Secciones de la encuesta 101
Figura 2: Datos generales de las personas encuestadas
3. Secciones de la encuesta
Tipo de personalidad
Factores de stress
Factores de ingestin
Factores hereditarios
Seccin para contestar nicamente si es mujer
Para cada una de estas secciones se cre una tabla, esta tabla va a contener todas las
preguntas hechas por seccin. Por ejemplo:
En la Figura 3 se muestra que con el Id de la persona va a contestar las preguntas de
la seccin de tipo de personalidad, dentro de esta enfermedad es muy importante el tipo
de personalidad ya que puede existir que varios hermanos pueden tener la misma tendencia
gentica y alimenticia, pero solo algunos la padecen por el tipo de personalidad que tienen.
Como podemos apreciar en la graca las personas A. Son las que tienden a aislarse cuando
Figura 3: Grca del consumo de carne en su dieta
tienen problemas, el caso B es a veces se aslan cuando tienen problemas y el caso C es
nunca. Y predomina ms en los diabticos el aislamiento.
Figura 4: Grca del tipo de personalidad
4. Factores de stress
Otro de los factores que se analiza es si las personas con diabetes han estado sometidas a
factores de stress por periodos prolongados y podemos observar lo siguiente: A es durante un
largo periodo de su vida, B durante un tiempo medio de su vida y C nunca, donde podemos
apreciar que las personas con diabetes han estado expuestas a factores de stress por largo
tiempo
5. Factores de ingestin 103
Figura 5: Grca de factores de stress
5. Factores de ingestin
Otro factor que se analiza es si son comedores compulsivos cuando tienen problemas, y se
encuentra que A) si, B) no, en los enfermos de diabetes es que si son comedores compulsivos.
Otro factor fue el consumo de carne en su alimentacin A) mucho B) frecuentemente C)
nunca, con mayor ndice fue la B) regularmente. El Consumo de Alcohol entre los diabticos
es el siguiente: dio como resultado que antes de padecer la enfermedad la mayora de los
enfermos consuman poco alcohol. El sedentarismo fue otro de los factores que se analiz y
se concluy que las personas realizaron poco ejercicio fsico durante su vida.
6. Factores de herencia
Los factores de herencia son muy importantes en este tipo de enferemedades. Se pudo obser-
var en la grca que la enfermedad se transmite de padres a hijos, y tambin que existe un
gran nmero de personas que no tuvieron factores de herencia lo cual indica que por otros
factores se est incrementando el nmero de enfermos.
Figura 6: Si los enfermos son comedores compulsivos
Figura 7: Grca del consumo de carne en su dieta
6. Factores de herencia 105
Figura 8: Grca del consumo de alcohol de los encuestados antes de padecer la enfermedad
Figura 9: Grca de la actividad fsica que realizaban los enfermos de diabetes antes de padecer
la enfermedad
106 Referencias
Figura 10: Grca de factores hereditarios relacionados con el parentesco
7. Conclusiones
Podemos apreciar mediante este estudio los principales factores de riesgos de los diabticos
y darles algunos tips en lnea, e.g. cuidados con una dieta sana y apta para ellos, ejercicio
fsico adecuado, formas de manejo del stress, entre otras.
Referencias
Carretero Prez, Jess, Garca Carballeira, Flix, Prez Lobato, Jos M., Prez Menor, Jos
M. Problemas Resueltos de Programacin en Lenguaje Java. Paraninfo.
Ceballos Atienza, Rafael. Novedades En Diabetes: Atencin Integral Y Tratamiento. Forma-
cin Alcal, S.L.
Diabetes De La A A La Z. Todo Lo Que Necesita Saber Acerca De La Diabetes, Explicado
Con Claridad Y SencillezAmerican Diabetes Association. Paidos.
Eckel, Bruce THINKING IN JAVA. Prentice Hall.
Referencias 107
Milton, J. Susan y Arnold, Jesse C. Probabilidad Y Estadstica Con Aplicaciones Para
Ingeniera Y Ciencias Computacionales. Editorial Mcgraw-Hill.
Walker, Rose M. Diabetes. H. Blume.
Comparacin de algunas pruebas estadsticas
asintticas de no-inferioridad para dos
proporciones independientes
David Sotres Ramos
a
Flix Almendra Arao
b
UPIITA del Instituto Politcnico Nacional
1. Introduccin
Las pruebas estadsticas asintticas de no-inferioridad se utilizan muy frecuentemente en
ensayos clnicos. Estas pruebas sirven para demostrar que una terapia nueva (con mnimos
efectos secundarios o bajo costo) no es sustancialmente inferior en ecacia a la terapia es-
tndar, ver Farrington-Manning (1990). El principal objetivo de este trabajo es comparar
las pruebas asintticas para no-inferioridad para dos proporciones independientes de Black-
welder, Farrington-Manning, Bhning-Viwatwongkasen, Hauck-Anderson, la prueba de razn
de verosimilitudes y dos variantes de estas pruebas con base en sus niveles de signicancia y
en sus potencias reales y para los tamaos de muestra 25 n 100.
2. Pruebas estadsticas consideradas
Sean X
1
y X
2
dos variables aleatorias independientes con distribucin binomial y con parmet-
ros (n
1
,p
1
) y (n
2
,p
2
) respectivamente, donde p
1
y p
2
representan las probabilidades de
respuesta de los tratamientos estndar y nuevo, respectivamente. La hiptesis de inters
(hiptesis de no-inferioridad) a ser probada es la alternativa (H
a
) en el siguiente juego de
hiptesis:
[H
0
: p
1
p
2
d
0
] Vs. [H
a
: p
1
p
2
< d
0
] (1)
a
sotres.davida@kendle.com
b
falmendra@ipn.mx
109
110 Comparacin de algunas pruebas estadsticas asintticas para dos proporciones independientes
donde d
0
es el llamado lmite de no-inferioridad, el cual es una constante positiva y conocida.
En el contexto de ensayos clnicos los valores usuales para d
0
son 0.10, 0.15 y 0.20.
Seis de las estadsticas de prueba consideradas son del tipo
T(X
1
, X
2
) =
p
1
p
2
d
0

(2)
donde X
1
=
X
1j
, X
2
=
X
2j
, y p
i
=
X
i
n
i
es el estimador de mxima verosimilititud de
p
i
para i = 1, 2 y es un estimador consistente de la desviacin estndar de

d= p
1
- p
2
; la
sptima estadstica es aquella correspondiente a la prueba de razn de verosimilitudes,
(X
1
, X
2
) =
sup
0
L(d[(X
1
, X
2
))
sup
L(d[(X
1
, X
2
))
(3)
La diferencia entre las seis estadsticas del tipo (2) radica en la estimacin que se elige
para la desviacin estndar de

d . Se consideran los siguientes seis estimadores

1
=
_
p
1
(1 p
1
)
n
1
+
p
2
(1 p
2
)
n
2
_
1/2
,
4
=
_
p
1
(1 p
1
)
n
1
1
+
p
2
(1 p
2
)
n
2
1
_
1/2
,

2
=
_
p
1
(1 p
1
)
n
1
+
p
2
(1 p
2
)
n
2
_
1/2
,
5
=
_
p
1
(1 p
1
)
n
1
1
+
p
2
(1 p
2
)
n
2
1
_
1/2
,

3
=
_
p
1
(1 p
1
)
n
1
+
p
2
(1 p
2
)
n
2
_
1/2
,
6
=
_
p
1
(1 p
1
)
n
1
1
+
p
2
(1 p
2
)
n
2
1
_
1/2
,
donde p
i
=
X
i
n
i
es el estimador de mxima verosimilitud de p
i
, p
i
es el estimador de mxi-
ma verosimilitud restringida bajo la hiptesis nula de p
i
, ver Farrington y Manning(1990);
adems, p
i
=
X
i
+1
n
i
+2
, ver Bhning y Viwatwongkasen(2005).
La estadstica T en (2) tiene distribucin asinttica normal estndar para cualquier es-
timador consistente de la desviacin estndar de

d; para la estadstica , la distribucin
asinttica de 2 ln es
1
2
+
1
2
F
2
1
donde F
2
1
denota la funcin de distribucin acumulada de
una variable aleatoria ji-cuadrada con un grado de libertad. Las pruebas asintticas corre-
spondientes a las estadsticas del tipo (2), para un nivel de signicancia nominal , tienen
regin de rechazo de la forma
R
T
() = (x
1
, x
2
) 0, ..., n
1
0, ..., n
2
: T(x
1
, x
2
) < z
donde z
es el percentil superior de la distribucin normal estndar, es decir, (z
) = 1,
donde es la funcin de distribucin acumulativa de una variable aleatoria normal estndar.
3. Clculo del nivel de signicancia real 111
La regin de rechazo para la prueba asinttica correspondiente a la estadstica (3) es
R
T
() =
_
(x
1
, x
2
) : 2 ln (x
1
, x
2
) >
2
12
(1)
_
;
donde
2
12
(1) es el percentil superior 1 2 de la distribucin ji-cuadrada con un grado
de libertad, en otras palabras P(
2
1
>
2
12
(1)) = 1 2.
Las correcciones por continuidad que se consideran aqu son C
0
= 0, C
1
=
1
4 mn(n
1
,n
2
)
,
C
2
= 2C
1
, C
3
=
1
2n
1
+
1
2n
2
, C
4
=
3
2 mn(n
1
,n
2
)
, C
5
=
2
mn(n
1
,n
2
)
. C
0
, C
2
, y C
3
, son consideradas
por Hauck y Anderson(1986) para el caso de las estadsticas T
1
y T
4
. El anlisis se realiz
para n
1
= n
2
= n. As las estadsticas de prueba consideradas son para i = 1, 2, 3, 4, 5, 6 y
j = 0, 1, 2, 3, 4, 5,
T
iCj
(X
1
, X
2
) =
p
1
p
2
d
0
+C
j

i
(4)
T
7Cj
(X
1
, X
2
) = (X
1
, X
2
) +C
j
=
sup
0
L(d [(X
1
, X
2
))
sup
L(d [(X
1
, X
2
))
+C
j
(5)
Las pruebas T
iCj
fueron propuestas en los siguientes artculos: T
1C
0
en Blackwelder(1982),
T
2C
0
en Farrington y Manning(1990), T
3C
0
en Bhning y Viwatwongkasen(2005), T
4C
0
en
Hauck y Anderson(1986). T
5C
0
es una combinacin de T
2C
0
y T
4C
0
, mientras que T
6C
0
es
una combinacin de T
3C
0
y T
4C
0
. Finalmente T
7C
0
es la conocida estadstica de razn de
verosimilitudes, ver Casella y Berger(2002). El nivel de signicancia nominal usado en todo
este trabajo fue = 0.05. Las pruebas estadsticas sern simbolizadas de la misma forma
que sus correspondientes estadsticas de prueba.
3. Clculo del nivel de signicancia real
En virtud de que X
i
tiene distribucin Binomial con parmetros (n
i
, p
i
) para i = 1, 2, se
tiene que la funcin de verosimilitud conjunta es
L(p
1
, p
2
; x
1
, x
2
) =
_
n
1
x
1
_
p
x
1
1
(1 p
1
)
n
1
x
1
_
n
2
x
2
_
p
x
2
2
(1 p
2
)
n
2
x
2
y la funcin de potencia es
T
(p
1
, p
2
) =
(x
1
,x
2
)R
T
()
L(p
1
, p
2
; x
1
, x
2
),
112 Comparacin de algunas pruebas estadsticas asintticas para dos proporciones independientes
adems, el espacio nulo es
0
= (p
1
, p
2
) : p
1
p
2
d
0
y el nivel de signicancia queda dado por

sup
(p
1
,p
2
)
0
T
(p
1
, p
2
) y con = (p
1
, p
2
) : (p
1
, p
2
) [0, 1] [0, 1] .
Chan(1998) calcul el nivel de signicancia para la prueba de Farrington-Manning (T
2C
0
)
tomando el supremo no en todo el espacio nulo (
0
) sino calculando el mximo nicamente en
0
= (p
1
, p
2
) : p
1
p
2
= d
0
, el cual es solamente una parte de la frontera del espacio
nulo. Computacionalmente sto representa una inmensa ventaja, pues el tiempo de cmputo
se reduce aproximadamente al 0.22 % del tiempo original. Sin embargo, el autor mencionado
no justic formalmente la validez de este argumento. Fue hasta 2005 cuando Rhmel(2005)
presenta una prueba formal que justica el procedimiento utilizado por Chan(1998). En
este trabajo se sigui la misma estrategia de Chan(1998), para lo cual en lo que resta de
esta seccin se verica la validez de la llamada condicin de convexidad de Barnard y de la
condicin de simetra en la misma cola (ver deniciones abajo) para todas las pruebas.
Denicin 3.1. Se dice que una prueba estadstica, para el problema en (1), con regin de
rechazo R
T
cumple la condicin de convexidad de Barnard (C) si satisface las dos propiedades:
a) (x, y) R
T
=(x 1, y) R
T
1 x n
1
, 0 y n
2
b) (x, y) R
T
=(x, y + 1) R
T
0 x n
1
, 0 y n
2
1
Denicin 3.2. Si n
1
= n
2
= n, se dice que una regin de rechazo R, para el problema en
(1), cumple la condicin de simetra en la misma cola si (x, y) R =(n y, n x) R.
Proposicin 3.1. Sean n
1
= n
2
= n y R()una regin crtica para el problema de prueba
de hiptesis en (1), si R() cumple la condicin de convexidad de Barnard y la condicin de
simetra en la misma cola, entonces el nivel de signicancia exacto de la prueba R() est
dado por
m ax
p
2
=p
1
d
0
p
1
[d
0
,
1d
0
2
]
n
1
x
1
=0
n
2
x
2
=0
_
n
1
x
1
_
p
x
1
1
(1 p
1
)
n
1
x
1
_
n
2
x
2
_
p
x
2
2
(1 p
2
)
n
2
x
2
I
[(x
1
,x
2
)R()]
(6)
4. Resultados y conclusiones 113
d
0
Prueba Porcentaje d
0
Prueba Porcentaje
0.10 T
2C1
97.37 0.15 T
2C1
97.53
T
5C1
93.42 T
5C1
91.36
T
7C4
93.42 0.20 T
2C1
95.06
T
5C1
95.06
Tabla 1: Porcentaje de niveles de signicancia reales que caen dentro del intervalo [.045, .055], en
base a los 76 tamaos de muestra en el rango 25 n 100.
Demostracin. Se omite por razones de espacio.
Proposicin 3.2. Todas las pruebas asintticas T
iCj
, i = 1, 2, . . . , 7; j = 0, 1, . . . , 5, con
estadsticas de prueba denidas en (4) y (5) satisfacen la condicin de convexidad de Barnard
y la condicin de simetra en la misma cola.
Demostracin. Se omite por razones de espacio.
Con base en las proposiciones 3.1 y 3.2, el clculo del nivel de signicancia de las pruebas
consideradas se hizo aplicando la frmula en (6) y particionando el intervalo [d
o
, (1 d
0
) /2]
en subintervalos de longitud 0.001. Esto quiere decir que aproximamos el nivel de signicancia
exacto reemplazando en la frmula (6) el intervalo continuo [d
o
, (1 d
0
) /2] por el conjunto
de valores nito p
1
[d
0
](0.001)[(1 d
0
)/2], y a esta aproximacin la llamamos el nivel de
signicancia real y la denotamos por
R
.
4. Resultados y conclusiones
Para c/u de las 42 pruebas estadsticas consideradas en este trabajo ( T
iCj
con 1 i 7
y 0 j 5) se evalu la aproximacin de su correspondiente nivel de signicancia real
(
R
) al nivel de signicancia nominal (), calculando para los 76 tamaos de muestra en el
rango 25 n 100, el porcentaje de niveles de signicancia reales de la prueba que caen
dentro del intervalo [0.045, 0.055]. Las pruebas con los mejores porcentajes se reportan en el
Cuadro 1.
Adicionalmente se compararon las potencias de las pruebas del Cuadro 1 para aquellos
tamaos de muestra donde la mxima diferencia entre los niveles de signicancia reales re-
114 Referencias
sult menor o igual que 0.0001 y donde al menos una de las potencias a comparar fuera
mayor o igual que 0.7. En ms del 94 % de los puntos evaluados, las potencias de las pruebas
resultaron idnticas y en aquellos puntos dnde las potencias resultaron distintas, las difer-
encias observadas fueron de centsimas. Conjugando este resultado sobre las potencias con
los resultados sobre los niveles de signicancia reales reportados en el Cuadro 1, se puede
armar que la prueba de Farrington-Manning con el factor de correccin C
1
(T
2C1
) es la mejor
de las pruebas.
Referencias
Blackwelder, W. (1982). Proving the null hypothesis in clinical trials. Controlled Clinical
Trials, 3, 345-353
Bhning, D. y Viwatwongkasen, C. (2005). Revisiting proportion estimators. Statistical meth-
ods in medical research, 14, 1-23.
Casella, G., y Berger, L. (2002). Statistical Inference. Duxbury, USA.
Chan, I. (1998). Exact tests of equivalence and ecacy with a non zero lower bound for
comparative studies.Statistics in Medicine,17,1403-1413.
Farrington, C. y Manning,G. (1990).Test statistics and sample size formulae for compara-
tive binomial trials with null hypothesis of non-zero risk dierence or non-unity relative
risk.Statistics in Medicine,9,1447-1454.
Hauck, W., y Anderson,S. (1986). A comparison of large-sample condence interval methods
for the dierence of two binomial probabilities. The American Statistician, 40, 318-322.
Rhmel, J. (2005).Problems with existing procedures to calculate exact unconditional p-
values for noninferiority and condence intervals for two binomials and how to resolve
them. Biometrical Journal, 47, 37-47.
Procedimientos para analizar los datos no
detectados en contaminacin ambiental
Fidel Uln Montejo
a
Matemticas, Div. Acad. de Ciencias Bsicas, Universidad Jurez
Autnoma de Tabasco
Humberto Vaquera Huerta Estadstica, Campus Montecillo, Colegio de
Postgraduados
1. Introduccin
Los datos no detectados son pequeas seales producidas por los contaminantes, que no
pueden ser cuanticadas por los instrumentos. Tales observaciones son datos censurados
por la izquierda, siendo el lmite de deteccin (LD) el punto de referencia, (Helsel, 2005).
En algunos estudios (Gilbert, 1987; Millard y Deverel, 1988; EPA, 1992 ), se comparan las
poblaciones mediante sus medianas, donde los datos no-detectados son omitidos o substitu-
idos por el LD; sin embargo, con esta tcnica, los alcances y resultados son limitados. Los
organismos de regulacin ambiental requieren que los riesgos sean caracterizados en trminos
de la concentracin media (El-Shaarawi y Viveros, 1997). En este sentido, este trabajo abor-
da el problema de comparacin de concentraciones medias de poblaciones lognormales desde
un enfoque paramtrico, reparametrizando el modelo lognormal con variables indicadoras.
El criterio de comparacin se establece mediante regiones de conanza aproximada. El algo-
ritmo EM (Flury y Zopp, 2001), la verosimilitud y el mtodo de Wald (Meeker y Escobar,
1998) son empleados para la inferencia necesaria. El procedimiento fue implementado en R
(2006) y se desarroll un ejemplo con datos ambientales. El mtodo result eciente para
dos poblaciones, sin embargo puede extenderse a ms de dos poblaciones con covariables.
a
fidel.ulin@basicas.ujat.mx
115
116 Procedimientos para analizar los datos no detectados en contaminacin ambiental
2. Metodologa
El mtodo de mxima verosimilitud (MV) provee herramientas verstiles para ajustar mode-
los y pueden ser aplicados a modelos paramtricos con datos censurados, el ajuste considera
combinacin de parmetros y de modelos para las cuales la probabilidad sea alta.
2.1. Funcin de verosimilitud
La funcin de verosimilitud es proporcional a la probabilidad conjunta de los datos. Para
un conjunto de datos y un modelo especicado F(y;), la verosimilitud es vista como una
funcin de los parmetros desconocidos . Para una muestra censurada por la izquierda, de
n observaciones independientes, la verosimilitud muestral se dene como
L() = C
n
i=1
L
i
(; y
i
) = C
n
i=1
[f (y
i
; )]
i
[F (y
i
; )]
1
i
(1)
donde L
i
(;y
i
) es la probabilidad de los datos y
i
para la i-sima observacin ,
i
= 1 para
una observacin detectada y
i
= 0 para una no-detectada; C es una constante independiente
de . El valor de que maximiza L() provee un estimador de MV y se denota por

.
2.2. El algoritmo EM
El algoritmo EM , es una herramienta poderosa para calcular estimadores de MV con datos
incompletos (faltantes, censurados, etc.). Sean y los datos observados y x los datos descono-
cidos, el parmetro de inters y
c
(; y, x) la log-verosimilitud de los datos completos.
Iniciando con
(0)
el algoritmo EM repite los siguientes dos pasos hasta la convergencia.
E: calcular
(j)
() = E
x|y ,
(j1) [
c
(; Y, X)].
M: encontrar
(j)
que maximize
(j)
().
2.3. Matriz de informacin va el algoritmo EM
El algoritmo EM no genera estimadores para la matriz de covarianzas de los EMVs, por lo
que se ha modicado para resolver este problema. Una modicacin simple y muy y til fue
3. Procedimiento de comparacin de medias 117
hecha por (Oakes, 1999), quien logr demostrar que, si log L(y; ) es la log-verosimilitud de
la muestra, entonces la varianza aproximada de

se calcula con
V ar(
)
_
(j)
()
(j1)2
+

2
(j)
()
(j1)
_
1
(2)
Con lo que es posible obtener regiones e intervalos de conanza aproximados.
2.4. Regiones e intervalos de conanza aproximados
La aproximacin normal para la distribucin de estimadores de MV puede ser usada para
obtener regiones de conanza aproximadas para . Esto se conoce como el Mtodo de Wald
o metodo de aproximacin normal. En particular, una regin aproximada del 100(1-) % de
conanza para es el conjunto de los valores de en el elipsoide
W() = (
)
1
(
)
2
1,r
, (3)
donde r es la dimensin de = (
1
,
2
,. . . ,
r
),

es la matriz de varianzas y covarianzas,

estimada por (2),
2
(1;r)
es el 1- cuantil de la variable aleatoria
2
r
. Entonces, un intervalo
de conanza de aproximacin-normal para
i
es obtenido de la formula familiar
_
i
,
i
i
z
(1/2)
se
(4)
donde se
i
es la raz cuadrada de la ii -sima entrada en (2), z
(1/2)
es el 1 /2 cuantil
de la distribucin normal estndar. Este intervalo puede verse como una aproximacin para
la logverosimilitud marginal de
i
en

i
.
3. Procedimiento de comparacin de medias
Empleando los mtodos y la teoria descritos anteriormente, se desarroll el procedimiento
de comparacion para muestras de datos no detectados de poblaciones lognormales.
En estudios ambientales se ha reportado que las concentraciones de contaminantes en
aire y suelo, y de metales en ros, tienen distribucin lognormal (Gilbert, 1987; Ott, 1995).
Si y es una variable aleatoria lognormal, tiene funcin de densidad de probabilidad,
118 Procedimientos para analizar los datos no detectados en contaminacin ambiental
f(y; , ) =
1
y
2
e
[log(y)]
2
2
2
, 0 < y < , < < , > 0. (5)
La mediana de Y , e
, depende solo de . En cambio, su media e

+
2
2
depende de y ,
por lo que es necesario un anlisis simultneo para ambos parmetros al comparar medias.
La funcin logcuantil del modelo de regresin de log-localizacin y escala para la dis-
tribucin lognormal, involucrando la variable indicadora x para comparar dos muestras es,
t
p
(x) = log[y
p
(x)] = (x) +
1
(p) =
0
+
1
(x) +
1
(p) (6)
es la funcin de distribucin de la normal estndar; x = 0 para una muestra y x = 1
para la otra.
3.1. Modelo bajo homogeneidad del parmetro
La funcin de verosimilitud para dos muestras lognormales independientes, de tamao n
i
,
i= 1,2; con observaciones exactas y censuradas por la izquierda tiene la forma
L(
0
,
1
, ) =
2
i=1
n
i
j=1
_
1
y
ij
_
log(y
ij
)
i
__
ij
_
_
log(y
ij
)
i
__
1
ij
. (7)
Donde es la funcin de densidad para la normal estndar,
i
= (x) =
0
+
1
(x).
Luego, para cada muestra,
1
= (0) =
0
y
2
= (1) =
0
+
1
, de donde t
p
(1) t
p
(0) =
(1) (0) =
1
, que no depende de ningn cuantil. Entonces, si un intervalo aproximado
del (1 ) % de conanza para
1
contiene al cero, se concluye que no existe diferencia
signicativa entre las dos medias poblacionales.
3.2. Modelo bajo heterogeneidad del parmetro
La comparacin se realiza agregando variables indicadoras en los modelos de regresin para
ambos parmetros, reescribiendo (6) y optimizando (7) con
i
=
0
+
1
(x), log(
i
) =
0
+
1
(x). Entonces,
1
=
0
, log(
1
) =
0
para la primera muestra y
2
=
0
+
1
,
log(
2
) =
0
+
1
para la segunda. Una regin de conanza permite, simultneamente, analizar
si
1
y
1
son ceros, y aseverar respecto a la diferencia entre las medias poblacionales. Esto
es, las poblaciones tienen concentraciones medias iguales si
4. Ejemplo 119
Alluvial Fan Zone <1, <1, <1, <1, <5, <5, <5, <5, <5, <5, <5, <20, <20, 1, 1, <5,
<10, <10, <10, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4 4, 4, 5, 5, 5, 7, 7, 7, 8, 9, 10, 11, 12, 16, 20
Basin-Trough Zone <1, <1, <2, <2, <5, <5, <5, <5, <5, <10, <10,<10, <10, <15,
1, 1, 1, 1, 1, 1,1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 6, 6,
8, 9, 9,12, 14, 15, 17, 23
Tabla 1: Datos de concentraciones de cobre
W(0) =

)
1

2
1
. (8)
4. Ejemplo
En ocasiones, puede sospecharse que un grupo contiene concentraciones de contaminates
altas y para probar esta sospecha se compara con un grupo control. Otras veces, solo se
desea saber si un grupo es mejor o peor que el otro. En todo caso, el inters es saber si los
niveles de contaminantes son iguales o diferentes en ambos grupos.
Millard y Deverel (1988) reportan niveles de cobre en mantos freticos, muestreados en
dos zonas del valle San Joaqun en California, la Zona Alluvial Fan y la Zona Basin-Trough,
presentados en el Cuadro 1. Cerca del 20 % de los datos son no-detectados, denotados por el
signo <. Se desea comparar las concentraciones medias.
4.1. Homogeneidad del parmetro
Al optmizar (7) se encuentra que

1
= 0.116,

0
= 1.050, = 0.800 y el intervalo del 95 %
de conanza aproximado para
1
es (0.413, 0.181). De la estimacin de
1
y de su intervalo
se concluye que la diferencia en el nivel de cobre en las dos zonas es practicamante nula. As,
a la luz de los datos, las concentraciones medias de cobre son iguales.
120 Referencias
4.2. Heterogeneidad del parmetro
La comparacin de medias se realiz a travs de una regin de conanza aproximada para
1
y
1
. De los resultados,

1
= 0.038 y se
1
= 0.137; mientras que para
1
, su EMV fue
de 0.102 y su error estndar igual a 0.124. Adems,
1
= 0.944,
2
= 0.906,
1
= 0.817 y

2
= 0.738. Con lo anterior W(0) = 1.816 10
4
5.991 =
2
(0.95;2)
; por lo tanto, al 95 % de
conanza, las concentraciones medias de cobre no dieren signicativamente.
5. Conclusiones
El mtodo propuesto se bas en la funcin de mxima verosimilitud y en el algoritmo EM,
el cual result verstil y simple para comparar poblaciones mediante modelos de regresin
lognormal. En el ejemplo se compararon dos poblaciones bajo los supuestos de homogenei-
dad y heterogeneidad de , con una reparametrizacin para los parmetros del modelo. El
criterio de comparacin result eciente al observar un intervalo de conanza aproximado y
el estadstico de Wald. El algoritmo EM desempe un papel sustancial en la optimizacin
de las funciones de verosimilitud. Debido a que la implementacin del mtodo no es difcil,
ste puede extenderse a tres o ms poblaciones.
Referencias
El-Shaarawi, A. H., and Viveros, R. (1997). Inferences about the mean in log-regression with
environmental applications. Environmetrics, 8, 569582.
EPA (1992). Statistical Training Course for Ground-Water Monitoring Data Analysis.
EPA530-R-93-003. Oce of Solid Waste. U.S. Environmental Protection Agency, Wash-
ington, DC.
Flury, B., and Zopp, A. (2001). Exercise in EM. The Am. Statist, 54, pp. 207 - 209.
Gilbert, R.O. (1987). Statistical Methods for Environmental Pollution Monitoring. New York:
Wiley
Helsel, D. R. (2005). Nondetects And Data Analysis. New York: Wiley
Referencias 121
Meeker, W. Q., and Escobar, L. A. (1998). Statistical Methods for Reliability Data, New
York: Wiley
Millard, S. P., and Deverel, S. J. (1988). Nonparametric statistical methods for comparing
two sites. Water Resources Research, 24, 2087-2098.
Oakes, D. (1999). Direct calculation of the information matrix via the EM algorithm. Journal
of the Royal Statistical Society. Series B, 61 , 479 - 482.
Ott, W. R. (1995). Environmental Statistics and Data Analysis, FL: CRC Press.
R Development Core Team. (2006). R: A language and environment for statistical computing.
R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, www.R-
project.org.
Evaluating cluster solutions with reference to
data generation processes - a simulation study
Alexander von Eye
a
Michigan State University
Patrick Mair Wirtschaftsuniversitt Wien
1. The four steps of testing for absence of structure
In earlier papers, four steps were proposed for the process of determining whether an existing
cluster solution contradicts hypotheses about the absence of a structure that can be detected
using cluster analytic methods (von Eye, 2008, von Eye and Mair, 2007). These steps are
1. Clustering cases. Cluster methods are selected based on the decisions discussed by von
Eye et al. (2004). For the purposes of the methods used and the simulations reported in
this paper, we select clustering methods that create compact, that is, convex clusters.
2. Circumscribing clusters. In the present work, we use spheroids and ellipsoids to cir-
cumscribe the subregion that is dened by a cluster. The hull of an ellipsoid or spheroid
is, in p-space, x
d
R
V Rx
d
= 1, where x
d
is the p 1 vector of the dierences of a point
on the hull from the centroid of the hull, R is the p p matrix of the orientation of
the ellipse, and V is the inverse of the p p matrix that contains the squared lengths
of the semi-axes of the ellipsoid in its diagonal. If the semi-axes are equal in length,
the hull circumscribes a spheroid, otherwise an ellipsoid. For an optimal description
of clusters, we create Lwner ellipsoids which minimize both the volume of the region
that is constituted by a cluster and the possible overlap between clusters.
3. Determining the expected number of cases in a cluster. Two data generation processes
are considered. The rst is a homogeneous Poisson process. For the second process,
we assume that the data are multinormally distributed (for details, see von Eye, 2008,
von Eye and Mair, 2007).
a
voneye@msu.edu
123
124 Evaluating cluster solutions with reference to data generation processes - a simulation study
4. Testing against hypotheses of lack of cluster structure. Exact tests, e.g., the binomial
test, or asymptotic tests, e.g., the
2
-test, can be considered for testing hypotheses of
lack of cluster structure.
2. Simulating data generation processes
We now ask whether clusters from hierarchical agglomerative methods still stand out when
examined under the homogeneous Poisson and the multinormality models. We do this for
both spherical and ellipsoid cluster hulls. To answer this question, we perform a simulation
whose basic 2 2 design results from crossing the variables Model of Pattern Analysis and
Shape of Cluster Hull.
The simulation proceeded as follows. Three to seven variables were created using the ran-
dom number generators named below. The variables were generated one after the other, thus
creating independent variables. These generators yielded either normally distributed random
numbers or uniformly distributed random numbers. The uniformly distributed numbers were
then transformed as described below so that the had the desired disributional characteristics.
After these transformations, some of the variables were transformed again so that they were
correlated to the degrees specied below. The result of these three steps were data sets with
the characteristics needed for the simulation. The simulation was written in FORTRAN and
executed under Windows XP. In addition, the following variables were used as factors of the
simulation design.
Shape of distribution: The following ve distribution shapes were realized (cf. von Eye
et al., 2008):
1. Normal distribution: The generator GASDEV from the Numerical Recipes FORTRAN
collection (Press et al., 1989) was used to create N(0, 1)- distributed data.
2. Uniform distribution: The generator RANDOM, available in the Power Stations
PortLib function pool, was used to create pseudo random numbers, z from the in-
terval 0 z < 1.
3. Logarithmic distribution: Uniform variates x were subjected to the logarithmic trans-
formation log(x). The resulting data were expected to exhibit some skewness and
2. Simulating data generation processes 125
elevated kurtosis.
4. Inverse Laplace-transformed: The Laplace probability distribution, also known as dou-
ble exponential distribution, has a mean, a skewness, and a kurtosis of 0. A uniform
distribution has no skew but exhibits increased kurtosis. Performing an inverse Laplace
transformation on a uniform distribution should, therefore, result in a distribution with
reduced kurtosis and possibly elevated skewness. Because the Laplace function has no
inverse, the transformation introduced by von Eye et al. (2008) was performed. This
transformation to the uniformly distributed random numbers results in a distribution
with both a slightly elevated skewness and an elevated kurtosis. The kurtosis of the
transformed uniform distribution has a positive sign. The kurtosis of the uniform dis-
tribution was negative. Thus, this transformation changed the distribution from being
heavy-tailed to heavy around the belt line.
5. Cube root transformation: This transformation was used to create y = 0.5x
1/3
from the
uniform x scores. Considering that the uniform scores that were cube root-transformed
had no skewness and an only slightly elevated kurtosis, the resulting scores should have
elevated skewness and elevated kurtosis.
Method of clustering: Six methods of clustering were used: Wards method, complete
linkage, average linkage, McQuittys method, median linkage, and the centroid method.
The following variables were used as covariates:
Sample size (N): The sample size in the simulation runs varied from 70 to 150 objects,
in increments of 20.
Number of variables (NVAR): the number of variables varied from 3 to 7, in increments
of one.
Cluster size (CLUSIZE): The size of each cluster was taken into account.
Number of clusters (NCLUSTER): The number of clusters considered ranged from 2
to 9, increasing in steps of 1. For each of the created data sets, all eight hierarchical
cluster solutions were analyzed.
Finally, it was counted whether a cluster contained more or fewer objects than expected
under a probability model. The resulting variable, EGTK, was clearly data driven. How-
ever, it was assumed that clusters with fewer objects than expected might display dierent
characteristics.
The resulting design was thus a 5 (TRANSFOR; type of distribution) 6 (CLUSMETH;
method of clustering) 2 (POISSNOR; Poisson versus multinormaliy model) 2 (CIR-
CELLI; spherical versus ellipsoid cluster hull) 2 (EGTK; more versus fewer cases than
expected for a cluster) design. The total number of observations considered was 466.664.
This number is smaller than the number of 480.000 data sets that had been created in the
simulation. However, clusters with fewer than 3 members were excluded from analysis be-
cause they occupy spaces with volumes of zero, and, therefore, the number of objects that
is estimated based on volume would have led to an expected cluster size of zero. Note that
clusters that contain three or more objects that are exactly aligned or have exactly the same
coordinates also occupy spaces with zero volume, and would, therefore, have been excluded
also. However, these cases did not occur. The probability of a cluster under the two proba-
bility models was used as dependent measure. The binomial test was used to calculate this
probability.
The version of the binomial test used in the simulations can be described as follows. Let
p be the probability and q = 1 p. Let N be the sample size, n the observed frequency of
an event, and e the expected frequency. Then, the probability that n or a larger number of
cases was observed under p is
B(p) =
N
i=n
_
N
i
_
p
i
q
Ni
. (1)
3. Results
In Table 3, the results of an ANOVA of the design described above are summarized. This
table was created using SAS. Overall, the model explained 18.45% of the variance of the
dependent measure, and the mean of the dependent measure was 0.07.
As expected based on the large number of data sets, all eects are signicant, with
the POISSNOR*CIRCELL*EGTK interaction being the only exception. As could also be
3. Results 127
Source DF Type III SS MSQ F Value Pr < F
N 1 0.339 0.339 22.37 < .0001
NVAR 1 10.318 10.318 680.89 < .0001
NCLUSTER 1 2.301 2.301 151.81 < .0001
CLUSIZE 1 131.956 131.956 8707.27 < .0001
TRANSFOR 4 9.804 2.451 161.73 < .0001
CLUSMETH 5 0.888 0.178 11.72 < .0001
POISSNOR 1 0.982 0.982 64.78 < .0001
CIRCELLI 1 0.813 0.814 53.70 < .0001
EGTK 1 30.615 30.615 2020.20 < .0001
CLUSMETH*CIRCELLI 5 0.298 0.060 3.93 0.0015
CIRCELLI*EGTK 1 0.112 0.112 7.38 0.0066
POISSNOR*CIRCELLI 1 0.955 0.955 63.04 < .0001
TRANSFOR*CIRCELLI 4 2.487 0.622 41.03 < .0001
CLUSMETH*EGTK 5 0.464 0.093 6.13 < .0001
CLUSMETH*POISSNOR 5 1.109 0.222 14.64 < .0001
TRANSFOR*CLUSMETH 20 7.967 0.398 26.29 < .0001
POISSNOR*EGTK 1 3.311 3.311 218.47 < .0001
TRANSFOR*EGTK 4 7.610 1.902 125.53 < .0001
TRANSFOR*POISSNOR 4 9.131 2.283 150.64 < .0001
CLUSMET*CIRCELL*EGTK 5 0.261 0.052 3.45 0.0041
CLUSME*POISSNOR*CIRCEL 5 0.332 0.066 4.38 0.0005
TRANSF*CLUSME*CIRCEL 20 1.394 0.070 4.60 < .0001
POISSNOR*CIRCELL*EGTK 1 0.020 0.020 1.35 0.2452
TRANSFO*CIRCELL*EGTK 4 2.226 0.556 36.71 < .0001
TRANSF*POISSNOR*CIRCEL 4 1.823 0.456 30.07 < .0001
CLUSMET*POISSNOR*EGTK 5 4.191 0.838 55.31 < .0001
TRANSFO*CLUSMET*EGTK 20 4.217 0.210 13.91 < .0001
TRANSF*CLUSME*POISSNOR 20 3.071 0.154 10.13 < .0001
TRANSFO*POISSNOR*EGTK 4 2.177 0.544 35.91 < .0001
CLUS*POIS*CIRCE*EGTK 5 0.338 0.068 4.46 0.0005
TRAN*CLUS*CIRCE*EGTK 20 1.107 0.055 3.65 < .0001
TRAN*CLUS*POIS*CIRCE 20 1.937 0.097 6.39 < .0001
TRAN*POIS*CIRCE*EGTK 4 2.129 0.532 35.13 < .0001
TRAN*CLUS*POISSNOR*EGTK 20 4.598 0.230 15.17 < .0001
TRA*CLU*POI*CIR*EGTK 19 1.581 0.083 5.49 < .0001
Table 1: ANOVA of the simulation study
expected based on the nature of the random data which do not contain a pre-engineered
cluster structure, the average probability for a cluster is above the signicance threshold.
However, the majority of the signicance values was close to zero. Most of the eects sizes are
very small. In fact, 26 of the 32 partial
2
had zeros as their rst three decimals. Therefore,
in the following paragraphs, we illustrate a selection of the stronger eects graphically.
Figure 1: Eects of cluster size and EGTK
The strongest eect was that of cluster size. This is illustrated in Figure 1 (left panel).
We see that the probability of a cluster decreases as its size increases. The number of
clusters with high probabilities is much smaller for larger clusters than for smaller clusters.
This result reects the increased statistical power of larger cluster sizes. However, it also
suggests that larger clusters are created in particular if they represent local density maxima.
This result does not vary with shape of cluster hull and EGTK (not shown here).
The second largest eect was observed for the variable EGTK, that is, for the variable
that distinguishes between cluster sizes above and cluster sizes below expectation. Figure 1
(right panel) displays this eect. Figure 2 shows that for those cases in which the observed
cluster size is larger than expected, the average probability is 0.05. This covers 78.5% of the
simulated cases. For those clusters that contain fewer objects than expected, the average
probability is about 0.15. This covers 21.5% of the simulated cases.
3. Results 129
The transformation the data were subjected to also had a strong eect. This is shown in
the left panel of Figure 2. The right panel shows the interaction with EGTK.
Figure 2: Bar chart of the eect of variable transformation (the transformations are 1 = normal
distribution, 2 = uniform, 3 F= logarithmic, 4 = inverse Laplace, and 5 = cube root)
without (left panel) and with (right panel) consideration of the eect of EGTK
The two panels in Figure 2 show that the transformations have eects on the probability
of clusters. Specically, on average (left panel of Figure 2), the average probabilities of the
logarithmic transformation lead to data structures far away from the uniform and the multi-
normal distributions. We thus can conclude that the tests employed here are particularly
sensitive when the underlying distributions are far from the uniform or the multinormal.
Accordingly and as expected, the average probability of clusters is the highest for the multi-
nornmal and uniform distributions.
The interaction of the transformations with EGTK, displayed in the right panel of Figure
2, suggests that just the opposite is observed for those clusters that contain fewer cases
than expected. Here, the clusters from the log-transformed data come with the highest
probability, and the cluster from the multinormal data with the lowest. Overall, however,
these probabilities are much higher than for the cases in which the clusters contain more
cases than expected (see Figure 1).
The variable Clustering Method (CLUSMETH) had only minimal eects (not depicted
here). The probabilities of the clusters from median linkage and the centroid method were
130 References
slightly below those for the other four methods. The probabilities for the clusters with fewer
objects than expected were much higher than those for the clusters with more objects than
expected. The rank orders of probabilities varied only minimally in the interactions with
the transformation and the EGTK variables, as well as in the three-way interaction of these
variables.
4. Discussion
The results of the present simulations are interesting in a number of respects. First, the six
methods of hierarchical clustering used here seem to identify clusters even in uniform distri-
butions. The methods proposed for testing whether clusters indeed contradict hypotheses
that are derived from data generation models, therefore, ll an important gap in the arsenal
of statistical methods. Second, the simulation shows that deviations from uniform distribu-
tions come with an increased probability that clusters will be identied. This is not a surprise
and conrms well known earlier results. Third, and most importantly, the simulations show
that some of the sectors that clustering methods identify as density centers are, in the light
of hypotheses derived from data generation methods, just the opposite. They contain fewer
cases than expected.
In a recent article by Bauer (2007), the issue is raised that clustering methods may
present clusters even if the population does not contain any taxonic structure to be found.
Therefore, the methods discussed here add tools to the user who, without these tools would
have a hard time making decisions about the existence of clusters.
References
Bauer, D. J. (2007). Observations on the use of growth mixture models in psychological
research. Multivariate Behavioral Research, 42:757786.
Hand, D. J. and Bolton, R. J. (2004). Pattern discovery and detection: A unied statistical
methodology. Journal of Applied Statistics, 31:885924.
References 131
Press, W. H., Flannery, B. P., Teukolsky, S. A., and Vetterling, W. T. (1989). Numerical
recipes. The art of scientic computing (FORTRAN version). Cambridge University
Press, Cambridge.
von Eye, A. (2008). Did you expect this cluster here? Distributional characteristics of
clusters. Under editorial review.
von Eye, A. and Mair, P. (2007). Examining distributional characteristics of clusters. In J. A.
Dominguez Molina, A. V. Gonzalez Fragoso, and J. H. Sierra Cavazos, editors, Memo-
rias del XXI Foro Nacional de Estadistica, pages 16. Instituto Nacional de Estadistica,
Geographia e Informatica, Aguascalientes, Ags., Mexico.
von Eye, A., Mun, E. Y. and Indurkhya, A. (2004). Classifying developmental trajectories:
A decision making perspective. Psychology Science, 46:6598.
von Eye, A., von Eye, M. and Bogat, G. A. (2008). Multinormality and symmetry: A
comparison of two statistical tests. Psychology Science, 48:419435.
Lista de autores
Almendra Arao, Flix <falmendra@ipn.mx>. UPIITA del Instituto Politcnico Nacional, 109
Ariza Hernndez, Francisco J. <arizahfj@colpos.mx>. Colegio de Postgraduados, 1
Bustillo Daz, M. Universidad Autnoma de Puebla Facultad de Ciencias de la Computacin, 99
Castao Meneses, Vctor Manuel. Universidad Nacional Autnoma de Mxico, 89
Castao Tostado, Eduardo <ecastano@uaq.mx>. Universidad Autnoma de Quertaro, 25, 89
Castillo Morales, Maribel. Estudiante del Postgrado en Ciencias Ambientales, ICUAP Benemrita
Universidad Autnoma de Puebla, Mxico, 55
Dupuy, Jean Franois <dupuy@cict.fr>. Universit Paul Sabatier 3, Francia, 33
Escarela, Gabriel <ge@xanum.uam.mx>. Universidad Autnoma Metropolitana Iztapalapa, 7, 33,
39, 61
Fernndez Harmony, Thala. Universidad Nacional Autnoma de Mxico, 89
Godnez Jaimes, Flaviano <fgodinezj@gmail.com>. Unidad Acadmica de Matemticas, Univer-
sidad Autnoma de Guerrero, 13
Gonzlez Estrada, Elizabeth <eliza_ge@yahoo.com.mx>. Colegio de Postgraduados, 19
Guzmn Martnez, Mara <marnezmar@yahoo.com.mx>. Universidad Autnoma de Quertaro, 25
Hernndez Gallardo, Lorelie <heilerol@yahoo.com.mx>. Universidad Autnoma Metropolitana
Iztapalapa, 39
Hernndez Quintero, Anglica <angyka302@gmail.com>. Universidad Autnoma Metropolitana
Iztapalapa, 33
Huerta Lpez, Jessica Giovanna. Universidad Autnoma de Puebla Facultad de Ciencias de la
Computacin, 99
133
134 Lista de autores
Jimnez Bedolla, Jazmin <akasha_jajibe@hotmail.com>. Universidad Autnoma de Puebla
Facultad de Ciencias de la Computacin, 99
Linares Fleites, Gladys <gladys.linares@icbuap.buap.mx>. Departamento de Investigaciones en
Ciencias Agrcolas. Instituto de Ciencias de la Benemrita Universidad Autnoma de Puebla,
47, 55
Mair, Patrick <pmair@stat.ucla.edu>. Wirtschaftsuniversitt Wien, 123
Mndez Ramrez, Ignacio <imendez@servidor.unam.mx>. Instituto de Investigaciones en Matemti-
cas Aplicadas y en Sistemas, UNAM, 13, 75
Moreno Ziga, Tania <tania_8304@hotmail.com>. Universidad Autnoma Metropolitana Izta-
palapa, 61
Muoz Urbina, Armando. Universidad Autnoma Agraria Antonio Narro, 75
Olmedo, Leonardo <leonardo_olmedo@hotmail.com>. Universidad Autnoma Metropolitana Iz-
tapalapa, 69
Padrn Corral, Emilio <epadron@mate.uadec.mx>. Universidad Autnoma de Coahuila, 75
Prez Rodrguez, Paulino <perpdgo@colpos.mx>. Colegio de Postgraduados, 83
Rangel Huerta, A. Universidad Autnoma de Puebla Facultad de Ciencias de la Computacin,
99
Rodrguez Yam, Gabriel A. <grodrigu@correo.chapingo.mx>. Universidad Autnoma Chapingo,
1
Ruiz Surez, Luis G. Centro de Ciencias de la Atmsfera. Universidad Nacional Autnoma de
Mxico, 47
Saavedra Gastlum, Vernica <veroclessg@yahoo.com.mx>. Universidad Autnoma de Quertaro,
89
Saldaa Munive, Jos Adrin. Departamento de Investigaciones en Ciencias Agrcolas. Instituto
de Ciencias de la Benemrita Universidad Autnoma de Puebla, 47
Snchez Rinza, Brbara Emma <brinza@cs.buap.mx>. Universidad Autnoma de Puebla Fac-
ultad de Ciencias de la Computacin, 99
Sotres Ramos, David <sotres.davida@kendle.com>. Colegio de Postgraduados, 109
Uln Montejo, Fidel <fidel.ulin@basicas.ujat.mx>. Matemticas, Div. Acad. de Ciencias Bsi-
cas, Universidad Jurez Autnoma de Tabasco, 115
Lista de autores 135
Valera Prez, Miguel ngel. Departamento de Investigaciones en Ciencias Agrcolas. Instituto de
Ciencias de la Benemrita Universidad Autnoma de Puebla, 55
Vaquera Huerta, Humberto <hvaquera@colpos.mx>. Estadstica, Campus Montecillo, Colegio de
Postgraduados, 115
Villaseor Alva, Jos A. <jvillasr@colpos.mx>. Colegio de Postgraduados, 19, 83
von Eye, Alexander <voneye@msu.edu>. Michigan State University, 123

Xxii Foro

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Xxii Foro

Enviado por

Direitos autorais:

Formatos disponíveis

Presentacin

es atractivo para modelar F

tome valores cerca de 1 ya que tambin se espera que cada

La cola superior de la distribucin de W

) se puede ajustar por una distribu-

) para probar normalidad

resulta ser ms potente que las pruebas recomendadas para probar

se reduce a la estadstica W de Shapiro-Wilk.

y || es la norma Euclidiana. El siguiente resultado

y est denido por

condicional a las primeras m respuestas puede expresarse como L() =

X, estn presente problemas de multicolinealidad y mal condicionamiento

X, y de esta manera el mal condicionamiento de las

= 1 cuando se usa la cpula positiva estable. Dicha cpula exhibe dependencia en la

Nmero de frutos 1.000

Dimetro polar 1.000 0.767

Peso de fruto 1.000

Peso de fruto 1.000 0.442

Rendimiento de fruto 1.000

Dimetro polar 0.2842 0.4828 0.767

Peso de fruto 0.1511 0.2909 0.442

. Para estimar los

). Para resolver este problema se emplea el mtodo

es el percentil superior de la distribucin normal estndar, es decir, (z

y el nivel de signicancia queda dado por

es la matriz de varianzas y covarianzas,

, depende solo de . En cambio, su media e

Você também pode gostar