Modelos Lineales Melo

MODELOS LINEALES
NOTAS DE CLASE
Luis Alberto Lpez Prez

Oscar Orlando Melo Martnez
26 de agosto de 2016
2
Contenido
1. Introduccin 1
1.1. Motivacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1. Modelos de regresin . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2. Modelos de anlisis de varianza . . . . . . . . . . . . . . . . . 7
1.2. Uso de transformaciones lineales . . . . . . . . . . . . . . . . . . . . . 14
1.2.1. Resultados importantes . . . . . . . . . . . . . . . . . . . . . . 17
1.3. Distribucin marginal . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Y1 . . . . . . . . . . . . . . . .
1.3.1. Distribucin condicional de Y 2 |Y 22
1.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2. Distribuciones muestrales 25
2.1. Distribucin Chi-Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2. Distribucin F no central . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
i
ii CONTENIDO
3. Distribucin de formas lineales y cuadrticas 33
3.1. Formas cuadrtica en variables normales . . . . . . . . . . . . . . . . 34
3.2. Independencia entre una forma lineal y una forma cuadrtica . . . . . 37
3.3. Independencia entre formas cuadrticas . . . . . . . . . . . . . . . . . 38
3.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4. Modelo lineal particionado en k-partes ordenadas 45
4.1. Teorema de Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5. Modelos de regresin 55
5.1. Mtodos de estimacin . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.1.1. Mnimos cuadrados ordinarios . . . . . . . . . . . . . . . . . . 56
5.1.2. Mtodo de mxima verosimilitud . . . . . . . . . . . . . . . . 58
5.1.3. Mnimos cuadrados ponderados (MCP) . . . . . . . . . . . . . 61
5.2. Medida de bondad de ajuste: coeficiente de determinacin . . . . . . 63
5.3. Propiedades de los estimadores bajo normalidad . . . . . . . . . . . . 64
5.4. Prueba de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.5. Modelo de regresin con restriccin . . . . . . . . . . . . . . . . . . . 68
5.5.1. Hiptesis de la forma A = m . . . . . . . . . . . . . . . . . . 71
5.6. Intervalos y regiones de confianza . . . . . . . . . . . . . . . . . . . . 72

CONTENIDO iii
5.6.1. Regiones de confianza A . . . . . . . . . . . . . . . . . . . . 72
5.6.2. Intervalos de confianza para c t . . . . . . . . . . . . . . . . . 72
5.6.3. Intervalos de confianza para los parmetros del modelo . . . . 73
5.7. Prediccin de nuevas observaciones . . . . . . . . . . . . . . . . . . . 76
5.7.1. Prediccin de una nueva observacin . . . . . . . . . . . . . . 76
5.7.2. Prediccin de un vector de observaciones . . . . . . . . . . . . 77
5.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6. Estimacin e hiptesis en modelos particionados 85
6.1. Polinomios ortogonales . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.1.1. Prueba de falta de ajuste . . . . . . . . . . . . . . . . . . . . . 97
6.1.2. Hiptesis de la forma A = 0 . . . . . . . . . . . . . . . . . . 101
6.2. Prueba de Hiptesis de la forma A = m . . . . . . . . . . . . . . . . 104
6.3. Comparacin de dos modelos lineales . . . . . . . . . . . . . . . . . . 107
6.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
7. Modelos de anlisis de varianza 112
7.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
7.2. Conceptos bsicos de modelos lineales . . . . . . . . . . . . . . . . . . 112
7.2.1. Modelo superparametrizado (Modelo S) . . . . . . . . . . . . . 113
7.2.2. Modelo de medias de celdas . . . . . . . . . . . . . . . . . . . 116

iv CONTENIDO
7.3. Estimabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
7.3.1. Estimadores lineales insesgados (ELIS) . . . . . . . . . . . . . 119
7.3.2. Transformaciones lineales y estimabilidad en modelos superparametrizados127
7.4. Modelos lineales particionados y sumasde cuadrados asociadas . . . . 129
7.4.1. Modelo particionado en dos partes . . . . . . . . . . . . . . . 129
7.4.2. Modelo particionado en tres partes . . . . . . . . . . . . . . . 134
7.4.3. Modelo particionado en K partes ordenadas . . . . . . . . . . 136
7.5. Sumas de cuadrados y funciones estimables . . . . . . . . . . . . . . . 140
7.5.1. Sumas de cuadrados y funciones estimables tipo I . . . . . . . 140
7.5.2. Sumas de cuadrados y funciones estimables tipo II . . . . . . . 142
7.5.3. Sumas de cuadrados y funciones estimables tipo III . . . . . . 143
7.5.4. Sumas de cuadrados y funciones estimables tipo IV . . . . . . 145
7.6. Hiptesis ms comunes sobre filas y columnas . . . . . . . . . . . . . 146
7.7. Implementacin en SAS . . . . . . . . . . . . . . . . . . . . . . . . . 154
7.8. Implementacin en R . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
7.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8. Estimabilidad en el modelo lineal 163
8.1. Mejores Estimadores Lineales Insesgados (MELIS) . . . . . . . . . . . 165
8.2. Transformaciones Paramtricas Lineales . . . . . . . . . . . . . . . . 168

CONTENIDO v
8.3. Estructura General de la Matriz de Covarianza . . . . . . . . . . . . . 172
8.4. Solucin de las Ecuaciones normales . . . . . . . . . . . . . . . . . . . 174
8.5. Modelo con Restriccin en los Parmetros . . . . . . . . . . . . . . . 180
8.6. Restricciones Estimables en los Parmetros y Sumas de Cuadrados del Residuos181
8.7. Mtodo del Modelo Reducido . . . . . . . . . . . . . . . . . . . . . . 184
8.8. Regiones e Intervalos de Confianza . . . . . . . . . . . . . . . . . . . 186
8.8.1. Regiones de Confianza . . . . . . . . . . . . . . . . . . . . . . 186
8.9. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . 187
8.10. Regresin Secuencial en Factores . . . . . . . . . . . . . . . . . . . . 188
8.11. Anlisis de Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . 191
8.12. Prueba de Hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
9. Diagnstico del modelo de regresin 194
9.1. Residuales y deteccin de outliers . . . . . . . . . . . . . . . . . . . 195
9.1.1. Medida y varianza del vector de residuales . . . . . . . . . . . 195
9.1.2. Diagnstico para detectar outliers y punto de leverage alto . 196
9.1.3. Residuales estudentizados internamente . . . . . . . . . . . . . 198
9.1.4. Outliers, puntos de leverage alto y valores influyentes . . . . 198
9.1.5. Residuales estudentizados externamente . . . . . . . . . . . . 200
9.2. Diagnstico de la influencia . . . . . . . . . . . . . . . . . . . . . . . 201

vi CONTENIDO
9.2.1. Nivel de un punto . . . . . . . . . . . . . . . . . . . . . . . . . 202
9.2.2. Influencia en los coeficientes de regresin . . . . . . . . . . . . 202
9.2.3. Influencia en las predicciones . . . . . . . . . . . . . . . . . . . 204
9.3. Validacin de supuestos . . . . . . . . . . . . . . . . . . . . . . . . . 206
9.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
10.Clculos basados en el mtodo de Cholesky 210
10.0.1. Mtodo de Cholesky . . . . . . . . . . . . . . . . . . . . . . . 211
10.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216

Captulo 1
Introduccin
1.1. Motivacin
En muchas reas de la estadstica aplicada, gran parte del anlisis de los datos
se hace bajo la teora de los modelos lineales y no lineales; en este tipo de estudio
se busca determinar la relacin entre una variable respuesta (Y ) y un conjunto de
variables asociadas (variables explicativas, X1 , . . . , Xp ). Si existe esta relacin, sta
por lo general es desconocida, pero usualmente asume una forma particular la cual se
conoce como modelo postulado o propuesto. En esta lnea de trabajo se incluyen reas
tales como: anlisis de series de tiempo, anlisis multivariado, anlisis de regresin,
anlisis longitudinales de datos, anlisis de datos categricos, anlisis de varianza y
modelos jerrquicos, entre otros.
Las reas de regresin (donde por lo general hay una medicin en escala continua)
y anlisis de la varianza (donde los factores de clasificacin generalmente se miden en
escala discreta) constituyen los tpicos ms usados por los investigadores que traba-
jan en investigacin aplicada, motivados tal vez por la relativa facilidad en el anlisis
y en la interpretacin de la informacin. Sin embargo, los desarrollos relativamente
recientes de los modelos lineales generalizados, los modelos de sobredispersin y los
modelos generalizados mixtos, permiten el abordaje de datos de conteo, de escala de
proporcin continua, de escala ordinal, entre otras.
1
2 CAPTULO 1. INTRODUCCIN
Las bases tericas de estos modelos las dieron Gauss y Legendre a comienzos del
siglo XIX, ellos describen el mtodo de los mnimos cuadrados desarrollado bajo el
supuesto de la normalidad de los errores. Sin embargo, la metodologa basada en la
mxima verosimilitud (MV) propuesta por Fisher en el primer cuarto del siglo XX,
da credibilidad a la teora de los mnimos cuadrados. Fisher present inicialmente el
procedimiento de MV en 1912 y se considera uno de los desarrollos ms importantes
del siglo XX en la estadstica.
Fisher en 1912 propuso el criterio absoluto que fue derivado inicialmente del
principio de la probabilidad inversa. En 1921 desarroll el principio del ptimo
el cual se asociaba con la nocin de verosimilitud. El mtodo de MV propuesto
en 1922 produce estimadores que satisfacen los criterios de suficiencia y eficiencia o
cuando se hace MV se llega a un mundo de ideas y nomenclatura estadstica, tales
como parmetros, estadstica, verosimilitud, suficiencia, consistencia, eficiencia e in-
formacin. El mtodo de MV constituye una herramienta importante en el desarrollo
de estimacin tanto en los modelos lineales clsicos como en la estructura de los mo-
delos lineales generalizados (MLG) y los modelos de dispersin, y en general, de casi
todas las reas del conocimiento cientfico.
Para visualizar en forma rpida del concepto de MV, de acuerdo a Khuri (2009),
se tiene que si Y es una variable aleatoria (v.a.), cuya distribucin depende de al-
gunos parmetros desconocidos = (1 , . . . , p )t , sea g(y, ) la funcin densidad de
probabilidad (fdp) de Y con y un valor de Y . Se supone que se tiene una mues-
tra aleatoria (m.a.) de observaciones independientes de Y , denotadas por Y1 , . . . , Yn ,
entonces la fdp de Y = (Y1 , . . . , Yn )t esta dada por
n
Y
h(y, ) = g(Y1, . . . , Yn ) (1.1)
i=1
con y = (y1 , . . . , yn )t , siendo yi un valor dado de Yi (i = 1, . . . , n). Por definicin la

funcin de verosimilitud L(Y , ) para la muestra Y1 , . . . , Yn es una funcin de , la
cual para un valor dado en y de Y va a ser igual a h(y, ) luego
L(y, ) = h(y, ) (1.2)
Se observa en (1.2) que la funcin de verosimilitud es vista como una funcin de

para un valor y de Y . El EMV estima el valor de que maximiza L(y, ) sobre
cierto espacio de parmetros de para cada y en algn conjunto S.
1.1. MOTIVACIN 3
Ejemplo 1.1. Como un ejemplo simple, supngase que Yi Bernulli() o sea

(
si yi = 1
P (Yi = yi ) =
1 si yi = 0
Si (0.1, 0.7) y si se supone que se seleccion una m.a. de tamao 3 (n = 3),

con los siguientes resultados (1,0,1), estas muestras van a ser independientes. Por lo
tanto,
P (Y1 = 1, Y2 = 0, Y3 = 1) = P (Y1 = 1)P (Y2 = 0)P (Y3 = 1) = 2 3
entonces L(y, ) = 2 3 con esto se sigue que L(y, = 0.1) = 0.009, L(y, =
0.7) = 0.147. Estos resultados significan que lo ms probable es que = 0.7.
El valor que maximiza L(y, ) se satisface al derivar la funcin L(y, ), o sea

L
= 0 entonces b = 2/3. Adems,
2 L(y, )
<0
2
y as L(y, = 2/3) = 0.148. Luego en b = 2/3 se tiene una respuesta mxima como
se observa en la figura 1.1
l(y,)
Si ahora se obtiene el logaritmo de la funcin de verosimilitud
= 0 entonces
se obtiene que b = 2/3. Adems,
2 l(y, )
<0
2
luego en b = 2/3 se tiene un mximo, como se ilustra en la figura 1.2.
En los libros clsicos tales como Draper & Smith (1966), Scheffe (1959) y Graybill
(1961), se sintetizan los desarrollos tericos de los modelos lineales alcanzados en la
primera mitad del siglo XX.
Despus de la segunda guerra mundial, se desarrollaron los computadores de alta

velocidad y con stos vino un amplio desarrollo de los modelos lineales, basados
principalmente en procedimientos numricos y grficos.
0.15
0.10
L
0.05
0.00
0.0 0.2 0.4 0.6 0.8 1.0
Figura 1.1: Funcin de verosimilitud para en y = (1, 0, 1).
Existen dos clases generales de modelos que tienen como soporte terico la dis-
tribucin normal: los modelos de regresin y los modelos de anlisis de varianza,
cada uno de estos modelos pueden ser vistos como modelos super parametrizados
y/o modelo de medias de celdas, introducido por Hocking & Speed (1975)
El modelo de medias de celdas resuelve algunas confusiones asociadas con el

anlisis de varianza (especialmente en la caracterizacin de las hiptesis lineales y
las funciones paramtricas); sin embargo, este modelo tambin es usado en modelos de
regresin cuando se hace uso de variables cualitativas, o variables Dummy (Hocking
2003).
Definicion 1.1. El modelo de medias de celdas es definido como un caso especial del
modelo lineal para el cual Y = W + e, donde W = Diag 1nj , t = (1 , . . . , p )
vector de parmetros de las medias de las celdas, nj las frecuencias de las celdas,
j = 1, . . . , p y 1nj es un vector de unos de tamao nj .
Observacin 1.1. Un caso especial de este modelo es cuando n1 = = np = n,
se habla de un caso balanceado de datos, y en este caso W = I p 1n , siendo el
1.1. MOTIVACIN 5
0.0
0.5
1.0
1.5
2.0
L
2.5
l=log L
0.0 0.2 0.4 0.6 0.8 1.0
Figura 1.2: Distribucin de la funcin de verosimilitud y log-verosimilitud para los

datos del ejemplo 1.1.
producto kronecker de matrices, I p una matriz idntica de orden p y 1n un vector de

unos orden n.
1.1.1. Modelos de regresin
La respuesta de una variable de inters conocida como variable de prediccin,

va a depender de unas variables conocidas como regresoras, predictoras, o variables
independientes, tpicamente estas variables son cuantitativas, pero tambin variables
cualitativas pueden ser consideradas en el conjunto de las variables predictoras, esto
lleva al estudio de modelos de regresin tipo Poisson, Gamma, Beta, etc., segn se
la naturaleza de los datos.
Los modelos de regresin tienen cuatro tipos de uso fundamental: descripcin y

aplicacin, control, prediccin y calibracin. Brevemente se puede afirmar que:
i) Los modelos de regresin son valiosos para describir el tipo de asociacin entre
la variable respuesta yi y las variables predictoras (xi1 , xi2 , . . . , xij , . . . , xip ),
i = 1, . . . , n. En este caso, lo que se persigue es resumir las tendencias de los
datos y encontrar la forma de asociacin entre las variables.
ii) Un uso importante de los modelos de regresin es que se tiene la posibilidad de
predecir el valor que tendra yi , o la media de la poblacin del conjunto de yi
(E (Yi )) cuando se especifican las condiciones del proceso mediante los valores
de xij , i = 1, . . . , n, j = 1, . . . , p.
iii) Un modelo de regresin puede servir para encontrar cules son los valores de los
xj (j = 1, . . . , p) que pueden optimizar, de acuerdo con algn criterio los valores
de la variable dependiente yi . Este sistema de control es usado ampliamente en
ensayos con fertilizantes, funciones de produccin y curvas de crecimiento.
iv) La regresin es empleada tambin en problemas de calibracin, en donde Yi
es una caracterstica aleatoria, fcil de medir que depende de una variable no
aleatoria difcil de medir. En este caso, la relacin de dependencia se puede
medir mediante una regresin del tipo
p
X
yi = j gj (xi ) + ei i = 1, ..., n.
j=1
Este modelo se usa para predecir el valor de xj que ha producido un valor

determinado para yi .
Definicion 1.2. Dadas n observaciones, sobre una respuesta Y , con p regresores
(x1 , x2 , . . . , xp ), el modelo que expresa la media de Y como una funcin de estos
regresores, es llamado un modelo de regresin lineal mltiple y es escrito como
p
X
yi = 0 + j xij + ei , i = 1, ..., n,
j=1
o en forma matricial
y = X + e
donde y = (y1 , . . . , yn )t , la i-sima fila de la matriz X es (1, xi1 , xi2 , . . . , xip ), el vector
de parmetros t = (0 , 1 , . . . , p ), y por lo general, se asume que e N (0, 2 I).
1.1. MOTIVACIN 7
En algunas, aplicaciones las variables regresoras pueden ser variables discretas

tales como cero o uno, las cuales son usadas para indicar la presencia o ausencia de
una caracterstica cualitativa. En los ajustes de modelos de regresin se les conoce
como variables indicadoras o variables Dummy. Este tipo de modelos tambin es
usado para estudiar los modelos de clasificacin a travs de los modelos de regresin.
Tambin es frecuente que las variables regresoras se midan en una escala ordinal, no-
minal y/o otra escala de medicin, esto conlleva a caracterizar diferentes estructuras
del modelo de regresin.
Ejemplo 1.2. Suponga un experimento en una empresa de manufactura de madera

que emplea dos diferentes tipos de pegante (Hocking 1996). Un modelo que combina
las medias de las celdas representado por el tipo de pegante y el efecto de la tempe-
ratura (tij ) puede ser escrito como un modelo de regresin de la forma
yij = i + tij + eij (1.3)
donde yij es la respuesta de la j-sima temperatura (j = 1, . . . , n) cuando se usa el

i-simo tipo de pegante (i = 1, 2).
En (1.3) si = 0, se tiene simplemente el modelo de medias de celdas basado

en los dos tipos de pegante, y si adems 1 = 2 , se tiene simplemente un modelo
de regresin lineal el cual tiene como variable independiente a la temperatura. En
este modelo, el efecto de temperatura se asume que es la misma para los dos tipos
de pegante. Si la funcin de medias describe dos lneas paralelas, se dice que no
hay efecto de interaccin entre los dos factores (pegante y temperatura). Cuando el
inters es inicialmente en la variable cuantitativa (temperatura) se puede usar el
trmino regresin con variables indicadoras. Cuando las variables cualitativas son el
centro del experimento, el anlisis de informacin se hace va anlisis de varianza.
1.1.2. Modelos de anlisis de varianza
El anlisis de varianza (trmino introducido por Fisher) es un instrumento bas-

tante delicado que se debe usar cuando se requiere presicin, pero a la vez se necesita
de habilidad y entusiasmo para que se aplique con el mximo de ventajas. En esta
clase de modelos, los factores descritos por las poblaciones son tpicamente cuali-
tativos, sin embargo pueden ser incluidos factores cuantitativos (caso frecuente en
estudios con arreglos factoriales y superficies de respuesta). Cuando el factor se define
como un tratamiento cuantitativo, los tratamientos son caracterizados por los niveles
del factor. En experimentos ms complejos los tratamientos son caracterizados por
la combinacin de niveles de varios factores. En este caso, el modelo de medias de
celdas puede ser aplicado directamente pero teniendo en cuenta un conveniente uso
de ms de un subndice para describir la poblacin que va a ser examinada.
En el anlisis de varianza, se tiene modelos de efectos fijos, los cuales se aplican en

el caso que V = 2 I. Este tipo de modelos se usan principalmente para comparacin
de medias, estudio de efectos y estimacin de parmetros poblacionales. Tambin
se estudia el modelo de efectos mixtos, los cuales son usados cuando se tiene una
estructura ms general con la matriz de covarianzas, entrndose en la estimacin de
los componentes de varianza y en prediccin.
En los modelos de efectos fijos, el inters se centra en las medias de las celdas, en
tanto que en los modelos de efectos mixtos el inters se centra tanto en los compo-
nentes de varianza como en las medias de las celdas. Tambin pueden estudiarse los
modelos de efectos aleatorios, los cuales describen un caso especial donde las medias
son todas las mismas y el inters se centra en los componentes de varianza y en las
predicciones.
Entre los modelos de efectos fijos se estudian tpicamente los modelos de efectos
cruzados con n-vas de clasificacin y con efectos de la interaccin, los modelos anida-
dos y jerrquicos, y los modelos con restriccin de medias de celdas. Sin embargo,
de acuerdo a la naturaleza de los datos, se puede tener un espectro ms amplio de
trabajo desde el punto de vista de los modelos de efectos mixtos.
Definicion 1.3. : Un modelo de medias de celdas con restricciones es escrito como
Y = W + e
s.a. G = g
donde W es la matriz diseo, G y g dependen de la naturaleza del problema.
Ejemplo 1.3. Considere un experimento en agricultura en donde se desea examinar

el rendimiento obtenido al usar cuatro tipos diferentes de fertilizantes en cada una
de tres variedades de algodn (Hocking 1996) como se ilustra en la tabla 1.1. Se tiene
un conocimiento a-priori del comportamiento de estos factores y se asume que hay
diferencia en la respuesta media de las variedades 1 y 2, la cual se mantiene en todos
los 4 fertilizantes.
1.1. MOTIVACIN 9
Tabla 1.1: Ilustracin del modelo de medias de celdas 3 4.

Fertilizante
Variedad 1 2 3 4
1 11 12 13 14
2 21 22 23 24
3 31 32 33 34
El supuesto es escrito como 11 21 = 12 22 = 13 23 = 14 24 , si

esta restriccin es apropiada se dice que no hay interaccin entre los fertilizantes y
las variedades de tipo 1 y 2. Si la restriccin se aplica por pares de fertilizantes y
variedades, la restriccin es escrita como
ij i j = ij i j (1.4)
Para toda combinacin i 6= i y j 6= j , la cual se conoce como restriccin de no

interaccin.
En el caso de los modelos de efectos mixtos se tiene una estructura no escalar de

covarianza. Un ejemplo de estos modelos es el siguiente:
Ejemplo 1.4. Suponga que se est interesado en aplicar cada variedad a n parcelas
experimentales. Idealmente se puede tener na parcelas homogneas las cuales pueden
ser aleatoriamente asignadas a los tratamientos, con n parcelas para cada variedad.
Un modelo a una va de clasificacin puede ser usado, teniendo en cuenta la estruc-
tura lineal: yij = i + eij ; en donde yij hace referencia al rendimiento de la j-sima
unidad experimental en la i-sima variedad y i denota la respuesta media de la
i-sima variedad. Frecuentemente, por cuestiones de tiempo y dinero no es posible
tener un nmero suficientemente grande de unidades experimentales, pero se pueden
tener grupos de unidades tales que, dentro de grupos, las unidades se espera que res-
pondan en forma similar (lleva al concepto de bloque); sin embargo, puede adems
haber diferencias entre grupos causadas por diferencias entre fertilizantes.
Si ahora se supone que se tienen b diferentes campos en los cuales se puede se-
leccionar a parcelas, se debe ser cuidadoso en asignar cada una de las variedades
aleatoriamente para una parcela en cada campo. Con este diseo se obtienen b ob-
servaciones en cada variedad y dentro de campo, se obtiene una comparacin de
variedades, las cuales estn libres de las diferencias entre los campos.
El modelo experimental propuesto en este problema es:
yij = i + bj + eij , i = 1, ..., a, j = 1, ..., b
donde Var(bj ) = b2 , Var(eij ) = e2 y se asume que los errores eij tienen media cero
y son independientes entre si e independientes de los bj s, los cuales tienen tambin
media cero.
Utilizando los anteriores supuestos, se puede demostrar que la estructura de co-

varianzas entre los yij y yi j es la siguiente:

2 2

b + e i = i , j = j
Cov(yij , yi j ) = b2 i 6= i , j = j

0 i 6= i , j 6= j o i = i , j 6= j
En este caso, la matriz de varianza y covarianzas es escrita como
V = e2 I ab + b2 J a I b
donde J b es una matriz cuadrada de orden a con todos sus elementos iguales a uno.
El modelo de medias de de celdas a una va de clasificacin es escrito matricialmente
como
Y = (I a 1b ) + .
donde ij = bj + eij y Var() = V . El inters en stos modelos se centra en la
estimacin y el anlisis de e2 y b2 . Adems, como e2 y b2 son varianzas positivas,
entonces V es definida positiva. El estudio de modelos de componentes de varianza
puede estudiarse en detalle en Henderson (1984) y Searle et al. (1992).
El propsito de este captulo es pues, dar una visin general sobre los conceptos de
modelos lineales, los cuales van a ser estudiados bajo el supuesto de normalidad, en
primera instancia en los primeros captulos y en los captulos siguientes, se abordaran
los modelos bajo distribuciones distintas a la normal.
En los modelos de regresin, en las tres ltimas dcadas se ha avanzado en el desa-

rrollo de tcnicas para el estudio de puntos influyentes, deteccin de problemas con
colinealidad entre variables y anlisis de informacin con presencia de observaciones
faltantes (ver Little & Rubin (1987)).
1.1. MOTIVACIN 11
El anlisis de varianza es una tendencia estadstica desarrollada por Fisher en

1920, con el propsito de facilitar el anlisis y la interpretacin de datos en ensayos
experimentales de laboratorio o de campo (experimentos agrcolas). Inicialmente, sin
embargo su uso se ha extendido a todas las reas del conocimiento.
En el anlisis de la varianza, muchos de los problemas causados por la formulacin

apropiada del modelo matemtico, se resuelve en forma ms sencilla con el llamado
modelo de media de celda. La forma de ste modelo es especialmente usado para
presentar las estructuras desbalanceadas en los modelos de clasificacin (ver Hocking
(1985), Hocking (1996)). Tambin puede estudiarse los modelos de medias de celdas
en Searle (1987) y cuando la respuesta es no normal, por ejemplo Binomial o Poisson,
se pueden utilizar las ideas presentadas en Myers et al. (2002).
Definicion 1.4. Modelo lineal (ML). Para motivar la definicin de ML, se con-
sidera que se hacen observaciones con respuestas determinadas por distribuciones de
probabilidad. Las distribuciones dependen del conocimiento de los parmetros y de las
caractersticas de la poblacin. El objetivo de esta lnea del conocimiento, es desarro-
llar modelos apropiados y poder estimar y hacer inferencia acerca de los parmetros
de las distribuciones dependiendo de la naturaleza de los datos.
El modelo se puede entender como una salida que ha sido procesada y depende
por supuesto de varias variables de entrada. Esquemticamente se puede decir que
en general en el estudio de ML se estructura la siguiente estructura:
Variables de entrada Proceso Salida

(Cuantitativas - Cualitativas)
Ac se debe especificar (Modelo)
una distribucin
Observacin 1.2. En particular, los modelos especifican supuestos acerca de la me-
dia, la varianza y la covarianza de los datos observados.
El trmino ML se aplica a aquellas situaciones en las cuales la media, las varian-

zas y las covarianzas pueden ser descritas como una funcin lineal del conjunto de
parmetros desconocidos.
Para desarrollar este concepto, se asume que se tienen n observaciones denotadas

por Yi (i = 1, 2, . . . , n). Si los datos siguen un modelo lineal, entonces la estructura
sobre las medias puede describirse en trminos del valor esperado como:
p
X
E(Yi ) = j xij i = 1, . . . , n. (1.5)
j=1
donde los xij denotan la j-sima variable de entrada asociada con la i-sima respuesta
y j es el parmetro desconocido, j = 1, 2, . . . , p.
Nota 1.1. El trmino lineal se refiere nicamente a la estructura de los parmetros.
Es conveniente en el desarrollo de este curso asumir la notacin matricial. Se

asume Y t = (Y1 , Y2 , . . . , Yn ). En el desarrollo de esta teora, Y es visto como un
vector aleatorio. El modelo (1.5), notado en forma matricial es:
p
!
X
E(Y ) = E j xj (1.6)
j=1
donde xtj = (x1j , x2j , . . . , xnj ), j = 1, . . . , p. Este modelo se puede simplificar an

ms como:
E(Y ) = X (1.7)
donde X = (x1 , x2 , . . . , xp ) es una matriz N p, conocida como matriz de diseo, o
ms generalmente, tambin conocida como matriz de variables de entrada o variables
explicativas.
El segundo momento de los elementos de Y , conocido como matriz de covarianzas

de Y y denotada por V = Var(Y ) = (vij ), es una matriz simtrica cuyos elementos
en la diagonal principal vjj V (j = 1, 2, . . . , p) son las varianzas de los elementos
en Y y vij hacen referencia a la covarianza entre pares de elementos.
Por definicin la matriz V es escrita como:

Var(Y ) = V = E (Y E(Y )) (Y E(Y ))t (1.8)
la matriz obtenida en (1.8) puede escribirse en forma ms general como
c
X
V = t V t (1.9)
t=1
donde V t es una matriz simtrica conocida, con elementos vtij , la cual se conoce
como matriz de componentes de varianza y t es el componente de varianza asociado
a V t.
1.1. MOTIVACIN 13
Ejemplo 1.5. En un modelo de una va de clasificacin superparametrizado, sea

yij = + i + eij con i = 1, . . . , a, j = 1, . . . , n
donde i N (0, 2 ), eij N (0, e2 ), Cov(i , eij ) = 0, los eij s son independientes
y los i s son independientes.
Por (1.9), V = e2 (I a I n )+2 (I a J n ) = e2 V 1 +2 V 2 , donde V 1 = I a I n

y V 2 = I a J n.
El inters en este curso es estudiar el caso donde el nmero de parmetros en

sea relativamente menor que n, y simultneamente, el modelo es descrito en trminos
de un nmero pequeo de componentes de varianza.
En el caso ms simple, las observaciones son no correlacionadas y tienen la mis-

ma varianza, o sea V = 2 I n , donde I n es una matriz idntica de orden n. Esta
estructura de V es tpica en modelos de regresin, modelos de efectos fijos y muchos
modelos de anlisis de varianza.
Definicion 1.5. El vector P aleatorio Y se dice que es un modelo lineal general si
E(Y ) = X, Var(Y ) = ct=1 t V t . Se llama un modelo lineal simple si Var(Y ) =
2 I, la cual es conocida como regresin lineal estndar. Dependiendo de la estructura
X y V , el modelo tiene diferentes denominaciones en la literatura estadstica. Si
X = (X 1 , X 2 ), donde X 1 se asocia con efectos fijos y X 2 con efectos aleatorios y
V = X 2 X t2 + R, donde y R son matrices de covarianzas, entonces el modelo
y = X 1 1 + X 2 2 + e se conoce como modelo lineal de efectos mixtos (MLEM). Si
Lp
ahora X = X j = Diag(X j ) y V = I n se conoce como modelo de diseo
j=1
multiple multivariado.
Observacin 1.3. Es posible estimar los parmetros del modelo lineal propuesto sin
establecer ningn tipo de supuestos sobre la distribucin de probabilidad. Sin embargo,
cuando se desea hacer inferencia, como llevar a cabo pruebas de hiptesis, interva-
los de confianza o predicciones, se hace necesario especificar el tipo de distribucin
de donde proceden los resultados. El supuesto ms frecuente es que los elementos
de Y siguen una distribucin normal. Este supuesto distribucional de Y conlleva a
resultados tericos bastante elegantes.
Ejemplo 1.6. En el caso donde Yi N(, 2 ), entonces la fdp es:

1 1 2
fYi (yi ) = exp 2 (yi ) yi R, R, 2 > 0 (1.10)
2 2
Esta distribucin hace parte de la familia exponencial (FE), la cual se puede escribir
de la forma cannica de acuerdo a McCullagh & Nelder (1989) como:

1
f (yi , , ) = exp [yi b() + c(yi , )] I(yi ) (1.11)
a()
con b() y c() funciones conocidas y el parmetro de dispersion que se supone

conocido ( > 0).
Teniendo en cuenta la fdp de la distribucin normal, se sigue que (1.10) escrito

como (1.11) se expresa como

1 2 y2 1
2
f (yi , , ) = exp 2 yi i 2 ln(2 2 )
2 2 2
h i
2 yi2
Luego = , b() = 2
, 2
a() = y c(yi , ) = 12 2
2
+ ln(2 ) entonces si
2 2
Yi N(, ) con desconocido y > 0 conocido forma parte de la FE unipara-
metrizada. Sin embargo, esta distribucin puede extenderse a la familia exponencial
multivariada.
1.2. Uso de transformaciones lineales
Sea X = (X1 , . . . , Xn )t vector aleatorio continuo con fdp f (X) la cual es positiva
en un dominio DX Rn . Sea Y = (Y1 , . . . , Yn )t un vector n-dimensional. Sea
Yi = gi (X1 , . . . , Xn ) i = 1, . . . , n
donde un n-valor real evaluado en una transformacin uno a uno de las n-variables
con transformacin inversa
Xi = gi (Y1, . . . , Yn ) i = 1, . . . , n
asumiendo que la funcin es diferenciable, entonces la fdp de Y es
f (yy ) = f (x
x)|J
J (Y
Y )|
1.2. USO DE TRANSFORMACIONES LINEALES 15
J (Y
donde |J Y )| denota el determinante Jacobiano de la transformacin, la cual esta
dado por: X X
X1
Y1
1
Y2
1
Yn
..
Y ) = ...
J (Y ..
.
..
. .
Xn Xn Xn
Y1 Y2
Yn
Si A y B son matrices de orden p n y q m, respectivamente, entonces

Cov(AX, BY ) = E [AX E(AX)][BY E(BY )]t = A Cov(X, Y )B t
Observacin 1.4. Ahora, si Y 1 , . . . , Y n son n vectores aleatorios k-dimensionales

con matrix de varianzas y covarianzas comn . Sea Y = (Y t1 , . . . , Y tn )t =
vec(Y 1 , . . . , Y n ), entonces la matriz de varianzas y covarianzas es

0 0
0 0

Cov(Y ) = .. .. . . . = In
. . . ..
0 0
esto es muy til en estudios de modelos lineales multivariados incluyendo datos lon-
gitudinales y series de tiempo multivariadas.
Bajo el supuesto ms general, se asume que Y N (, V ) y por la importancia

de esta distribucin en el desarrollo de estas notas, en este curso es conveniente llevar
acabo su desarrollo terico.
Suponga Z t = (Z1 , Z2, . . . , Zp ), un vector de variables aleatorias (vs as) inde-

pendientes, tales que Zi N(0, 1), i = 1, 2, . . . , p, luego
p
Y
1 1 t
fZ (z) = fZi (zi ) = exp z z (1.12)
i=1
(2)p/2 2
se dice que Z N (0, I).
Resultado 1.1. Sea P una matriz n m. Sea A una matriz n n definida no-
negativa y r(P ) < m entonces la matriz P t AP es definida no-negativa. Si A es
definida positiva y r(P ) = m entonces P t AP es definida positiva.
Sea ahora
Y un vector de vs as independientes, definiendo que satisface
E(Y1 )
..
E(Y ) = . = , Cov(Y ) = V = E(Y Y t ) t . Ya que V es una matriz
E(Yp )
positiva definida, existe A una matriz no-singular tal que V = AAt . Sea entonces
la transformacin:
Y = AZ + (1.13)
A continuacin se va a encontrar la funcin de densidad de probabilidad para el vector
aleatorio Y . Teniendo en cuenta los resultados sobre transformaciones, se satisface
que
Z1 Z1 Z1

Y1 Y2 Yp
.. .. .. ..
J| =
|J . . . .

Zp Zp
Zp
Y1 Y2 Yp
Pero de (1.13), Z = A 1 (Y Y ) y Z
Yi
i
= aij A 1 pues se observa que Zi =
Zi Zi
ai1 (Y1 1 ) + + aip (Yp p ) de tal forma que Y 1
= ai1 , , Y p
= aip , y as
J | = |A 1
A |; entonces:
|J

fY (yy ) = A 1 fZ (A
A1 (Y
Y ))
1 n t 1 o
= A 1 exp A 1
Y
(Y ) A Y
(Y )
(2)p/2
A1 |
|A h i
t 1 t 1
= exp Y
(Y ) A A Y
(Y )
(2)p/2
Pero t 1
A 1 A 1 = AA t = V 1
y
1 1/2
A = |A A|1/2 = AA t
A|1/2 |A V |1/2
= |V
Por lo tanto,

V |1/2
|V 1 t 1
fY (yy ) = exp (YY ) V (YY )
(2)p/2 2
y se conoce como una distribucin normal multivariada con media y matriz de
, V ).
covarianza V y es denotada como Y N (
1.2.1. Resultados importantes

R
i) exp 21 x2 dx = 2.

R
ii) x exp 12 x2 dx = 0.

R
iii) x2 exp 12 x2 dx = 2.

Resultado 1.2. Integral de Aitken. Sea A nn una matriz definida positiva y sim-
trica, sea x = (x1 , . . . , xn )t un vector n-dimensional, entonces
Z Z
1 t
exp x Ax dx A|1/2
x = (2)n/2 |A
2

Demostracin. Ver Ravishanker & Dey (2002, p. 142).
Resultado 1.3. Resultado general de integracin. Sean a0 y b0 escalares, a y b vecto-

res n-dimensionales de constantes, A una matriz simtrica de constantes y B una ma-
triz definida positiva de constantes. Para un vector n-dimensional x = (x1 , . . . , xn )t
la integral
Z Z

I= x tAx + x ta + a0 exp x tBx + x tb + b0 dxx

es evaluada como
n/2
1 1/2 1 1
I= B|
|B AB
traz(AB ) b B a + b tB 1AB 1b + 2a0
t 1
2 2

1 t 1
exp b B b b0
4
Definicion 1.6. Si Y N ( , V ), entonces Y (tt) = E [exp (itttY )] se conoce como

la funcin caracterstica de la distribucin normal multivariada.
Para la construccin de esta funcin en el caso de la distribucin normal multi-

variada, se considera la transformacin Y = AZ + , y de esa manera,
t
AZ + ) = eitt Z A tt
Y (tt) = E exp ittt (AZ
luego simplemente se trabaja con Z (tt).
Por facilidad de clculo, se trabaja con

t Z
1 t 1 t
Z (tt) = E eitt Z = p/2
eitt Z e
dZZ 2
Z Z
(2) p
Z
1 1 t t

= exp Z Z 2itt Z dZ Z (1.14)
(2)p/2 p 2
donde
1 t 1
Z Z 2itttZ = Z tZ 2itttZ + (itt)t (itt) (itt)t (itt)
2 2
1 1
= (ZZ itt)t (Z
Z itt) t t iitt
2 2
al reemplazar en (1.14), se sigue que:
Z
1 1 t t
1 t
Z (tt) = exp (Z Z itt) (Z
Z itt) t t d (Z
Z itt) = exp tt
(2)p/2 p 2 2
Entonces

t 1 t t t 1 t t 1 t
Z A t = exp A t A t = exp t AA t = exp t Vt
2 2 2
y finalmente
t 1 t
Y (tt) = exp itt + t V t
2
que es la funcin caracterstica de la distribucin normal multivariada.
Teorema 1.1. Si Y N(
, V ) entonces la funcin generadora de momentos (fgm)
es
1 t
MY (t) = exp t + t V t , t Rp
t
2
R t
Demostracin. De la definicin de la fgm, MY (tt) = Rn
et Y fY (yy )dY
Y , entonces
Z
1 t 1 t 1
MY (tt) = Y ) V (Y
exp t Y (Y Y ) dY
Y (1.15)
(2)p/2 |V
V |1/2 Rp 2
Yt
Y
Sea X = Y V t de tal forma que X
X
= I p entonces
Z
1 t 1 t 1 t 1
MY (tt) = exp t + t V t X V X dX X
(2)p/2 |V
V |1/2 Rp 2 2
Z
1 t 1 t 1 t 1
= exp t + t V t exp X V X dXX (1.16)
V |1/2
(2)p/2 |V 2 Rp 2
Ahora tomando la ltima parte del lado derecho de la expresin (1.16) y haciendo
Z = V 1/2X , se encuentra
Z Z
1 t 1 1 t dXX t
exp X V X dX X= exp Z Z Z
dZ
Rp 2 Rp 2 Z
dZ
Z
1 t
= exp Z Z V 1/2 dZ Z
Rp 2
p Z
1/2
Y 1 2
V|
= |V e 2 Zi dZi
i=1
Siempre que V sea definida positiva, pero por resultados de la integral de Aitken:
Z Z
1 2
e 2 Zi dZi = (2)1/2 , i = 1, . . . , n

Luego Z
1 t 1
exp X V X dX V |1/2
X = (2)p/2 |V (1.17)
Rp 2
sustituyendo (1.17) en (1.16), entonces claramente

t 1 t
MY (tt) = exp t + t V t
2
Resultado 1.4. Sea Z = (Z1 , . . . , Zp )t un vector aleatorio definido en Rp . Si Z

Np (0, I ) entonces MZ (tt) = exp 12 t tt para t = (t1 , . . . , tp )t Rp .
Demostracin. Teniendo en cuenta la definicin de la fgm entonces

Z Z
MZ (tt) = exp(tttZ )fZ (zz )dZ
Z

Z Z
1 t 1 t
= Z
exp t Z Z Z dZ
(2)p/2 2

Aplicando la integral de Aitkens (ver resultado anterior), sumando y restando

1/2(tttt ) se sigue que
Z Z
1 1 t
1 t
MZ (tt) = exp (ZZ t ) (Z
Z t ) + t t d(Z
Z t)
(2)p/2 2 2

1 t
= exp tt
2
con t Rp .
Observacin 1.5. La clase de transformaciones lineales no singulares juega un papel
importante en la teora de los modelos lineales. As si X es un vector aleatorio con
fdp fX (x), sea T una matriz no singular y sea Y = T X X, con Y = (Y1 , . . . , Yn )t ,
1
entonces X = T 1Y , |J
J | = |TT | y la fdp de Y es
T 1y )|J
hY (y) = fX (T J |.
Si adems X y Y son de dimensiones n y m, respectivamente, entonces la matriz de

covarianza entre X y Y esta definida como

Cov(XX , Y ) = E [X
X E(X
X )][Y Y )]t .
Y E(Y
Resultado 1.5. Suponga que X N( , V ), sea A una matriz de constantes de

orden m n y ran(AA) = m ( n) siendo n el nmero de elementos de X , entonces
AX N(AA, AV A t ).
A
1.3. DISTRIBUCIN MARGINAL 21
Demostracin. Si Y = AX entonces la fgm de Y es

t
MY (tt) = E et AX = MX (A A tt )

t 1 t t
= exp t A + t AV A t
2
A, AV At ).
entonces Y N(A
A
1.3. Distribucin marginal
En muchas situaciones prcticas, se est interesado en la distribucin marginal

de un conjunto de variables aleatorias del vector Y . Para ello si se asume que Y
, V ) y al considerar la transformacin Z = AY , se sigue que Z N (A
N ( A, AV A t ).
A
Sean las particiones apropiadas

Y 1(p1 1) 1(p1 1) V 11 V 12
Y = ; = ; V = .
Y 2(p2 1) 2(p2 1) V 21 V 22

I 0
Sea A una matriz tal que A = .
V 21V 1
V 11 I
Y ), teniendo en cuenta la estructura de la matriz A , entonces

Sea Z = A (Y
V 21V 1
Z 1 = Y 1 1 ; Z 2 = V Y 1 1 ) + (Y
11 (Y Y 2 2)
, V ), es claro entonces que

y como adems Y N (

Z ) = AV A t y Z N 0, AV A t
Z ) = 0, Var(Z
E(Z
donde
t V 11 0
AV A =
0 V 22 V 21V 1
11 V 12

De esta forma Z 1 N (0, V 11 ) y Z 2 N 0, V 22 V 21V 1 11 V 12 . Como la
Z 1 , Z 2 ) = 0 entonces la funcin de densidad conjunta es
Cov (Z
fZ (zz ) = f(ZZ 1 ,ZZ 2 ) (zz 1 , z 2 ) = fZ 1 (zz 1 ) fZ 2 (zz 2 )

1 entonces Y 1 = 1 +Z
Adems, como Z 1 = Y 1 Z 1 , y por lo tanto, Y 1 N (
1 , V 11 )
conocida como la marginal de Y 1 .
Para determinar la marginal de Y 2 , como
Y 2 2 ) V 21V 1
Z 2 = (Y Y 1 1)
11 (Y
entonces
Y 2 = Z 2 + 2 + V 21V 1 Y 1 1 )
11 (Y
Y 2 ) = 2 y Var (Y
con E (Y Y 2 ) = V 22 . Por lo tanto, Y 2 N (
2 , V 22 ) es conocida como
la marginal de Y 2 .
1.3.1. Y1
Distribucin condicional de Y 2 |Y
f(YY 1 ,YY 2 ) (yy 1 , y 2 )

fY 2 |YY 1 (yy 2 |yy 1 ) =
fY 1 (yy 1 )
Se demuestra una vez se hagan las sustituciones respectivas que

Y 1 N 2 + V 21V 1
Y 2 |Y Y 1 1 ) , V 22 V 21V 1
11 (Y 11 V 12 . (1.18)
1.4. Ejercicios
1. Presente la estructura de V para los siguientes modelos, donde solo se considera
fijo el efecto de la media poblacional :
a) Yij = + i + j + ij , i = 1, ..., a, j = 1, ..., b.

b) Yijk = + i + j(i) + ijk , i = 1, ..., a, j = 1, ...b, k = 1, ...n.
c) Yijk = + i + j + ()ij + ijk , i = 1, ..., a, j = 1, ...b, k = 1, ...n.
2. Suponga que todas las varianzas son iguales Var(Yi ) = 1 y todas las covarian-
zas son iguales Cov(Y
Pi , Yi ) = 2 verifique que V 1 = I y V 2 = J I teniendo
en cuenta que V = t tV t .
1.4. EJERCICIOS 23
3. Sea {Xi , i = 1 . . . , N} un conjunto de variables aleatorias independientes nor-

malmente distribuidas con medias ( + Zi ) y varianza 2 , donde los Zi s son
PN
constantes, i = 1 . . . , N y Zi = 0.
i=1
a) Encuentre la distribucin conjunta de (X1 , X2 , . . . , Xn ).

PN PN
i=1 Xi Zi
b) Encuentre la distribucin conjunta de X = N1 Xi y P N 2 para
i=1 i=1 Zi
PN 2
i=1 Zi > 0.

4. Sea X i , i = 1, 2, 3, 4, 5 distribuciones independientes de la forma Np (i) , ,
P5 P
3
donde es definida positiva. Definiendo Y 1 = biX i y Y 2 = ciX i , con bi
i=1 i=1
y ci constantes.
a) Use la funcin caracterstica de una distribucin normal para encontrar la
distribucin de Y 1 .
b) Encuentre la distribucin condicional de Y 1 dada por Y 2 = y 2 , (Y
Y 1 /Y
Y2 =
y 2 ).
a) Bajo qu condiciones Y 1 y Y 2 son independientes?.
5. Sean X , = 1 . . . , N, vectores aleatorios independientes distribuidos como
Np (c , ); los c s son constantes.
N
P
cX
=1
a) Pruebe que la distribucin de = N
P
es
c2
=1

1
Np
,
.

P
N
c2
=1
P
N
b) Demuestre que T = (X X c )t se distribuye como
X c ) (X
=1
NP
1
Z Z t donde los Z s se distribuyen independientemente como
=1
Np (0, ).
c) Demuestre que y T son independientes.
6. Si X N(, ), obtenga la fdp de T X probando que es normal (Searle 1971,

Cap 2, No 11). Qu condiciones deben satisfacerse para que la prueba pueda
darse? Cul es la distribucin de T X cuando las condiciones no son satisfechas?
7. Sea X1 , . . . , Xi , . . . , X10 i.i.d. N(; 2 ). Sea ahora
X1 + X2
Y1 =
2
X2 + X3
Y2 =
2
X3 + X4
Y3 =
2
..
.
X9 + X10
Y9 =
2
obtenga la distribucin de Y = (Y1 , . . . , Y9 )t .
, I 4 ) con = (1, 2, 3, 4)t .

8. Si X N4 (

Y1
a) Cul es la distribucin de Y = donde Y1 = X1 + X2 + X3 y
Y2
Y 2 = X2 + X3 + X4 .
b) Cul es la distribucin de (Y1 | Y2 = y2 ).

X 0 1 0.5
9. Sea N , . Sean (X1 , Y1 ), . . . , (Xn , Yn ) una
Y 0 0.5 1
X
muestra aleatoria de . Obtenga:
Y
a) La distribucin de 2X 10 Y 10 .

b) P 2X 10 Y 10 < 0.1 .
c) La funcin generadora de momentos de 2X 10 Y 10 .
Captulo 2
Distribuciones muestrales
En esta seccin se lleva a cabo el desarrollo terico para las distribuciones Chi-
cuadrado, F y t, las cuales son de gran relevancia en el anlisis inferencial (prueba
de hiptesis e intervalos de confianza) a travs de la teora de modelos lineales.
2.1. Distribucin Chi-Cuadrado
Inicialmente, se parte del hecho conocido que si una v.a. X (, ), la funcin

caracterstica asociada es X (t) = (1 it) . Si X y Y son variables aleatorias
independientes entonces:

X+Y (t) = E eit(X+Y ) = E eitX eitY ,
teniendo en cuenta que
eit(X+Y ) = cos [t (X + Y )] + i sin [t (X + Y )]
= [cos(tX) cos(tY ) sin(tX) sin(tY )] + i[cos(tX) sin(tY ) + cos(tY ) sin(tX)]
Si ahora se suponen X1 , X2 , . . . , Xn variables aleatorias independientes Xi
(j , ), j = 1, 2, . . . , n, entonces
n
Y n
Y
P P
P
j Xj
it
(t) = E e j Xj = itXj
E e = (1 it)j = (1 it) j j
j=1 j=1
25
26 CAPTULO 2. DISTRIBUCIONES MUESTRALES
significa esto que

n n
!
X X
Xj j , (2.1)
j=1 j=1

Teniendo en cuenta que una distribucin chi-cuadrado es 2v es una v2 , 2 , se sigue
de (2.1) con = 2, que las sumas de chi-cuadrados independientes, constituye una
mezcla de variables que tambin se distribuye como chi-cuadrado.

Observacin 2.1. Si X N (0, 1) entonces X 2 12 , 2 , es decir X 2 2(1) . Si
P
ahora se supone que Xj N (0, 1), j = 1, 2, . . . , n, entonces nj=1 Xj2 2(n) .
En seguida se presentan resultados tericos donde se mezclan funciones de den-

sidad de probabilidad. Sea:
i) f1 , f2 , . . . , fm , densidades correspondientes a variables aleatorias continuas en

.
ii) P1 , P2 , . . . , Pm > 0 densidades correspondientes a variables aleatorias discretas.
iii) f : .
iv) fi (x) > 0 o Pi > 0 para todo i.

R Pm
v)
fi (x)dx = 1 o i=1 Pi = 1.
Teniendo en cuenta estos resultados, se considera la variable aleatoria Y

N ( , I ), donde se tiene inters en la distribucin de Y tY . Usando la funcin ge-

neradora de momentos, es decir,
Z Z
y ty 1 t 1 t
MY tY (t) = e ty
fY (yy )dyy = p/2
etyy y e 2 (yy ) (yy ) dyy
p (2) p
Z
1 2 [(yy
1 t
) (yy y ty ]
)2ty
= e dyy
(2)p/2 p
2.1. DISTRIBUCIN CHI-CUADRADO 27
Por simplicidad, se utiliza

Q = (yy )t (yy ) 2tyy ty = y ty 2tyy ty 2yy t + t
=yy t (1 2t)yy 2(1 2t)1/2y t (1 2t)1/2
+ (1 2t)1t + t (1 2t)1t
=(1 2t)1/2y t (1 2t)1/2y 2(1 2t)1/2y t (1 2t)1/2
+ (1 2t)1 t + t (1 2t)1 t
Sea ahora la siguiente transformacin:
T : z = (1 2t)1/2y entonces T 1 : y = (1 2t)1/2z
y sea = (1 2t)1/2 . Ahora teniendo en cuenta Q, se sigue que
2t
Q = z tz 2zz t + t t
(1 2t)
2t
= (zz )t (zz ) t
(1 2t)
Adems, el Jacobiano es

(1 2t)1/2 0 0

0 (1 2t)1/2 0

J| =
|J .. .. .. .. = (1 2t)p/2
. . . .

0 0 (1 2t)1/2
Entonces
Z
1 1 t 2t t
MY tY (t) = exp (zz ) (zz ) |JJ | dzz
(2)p/2 p 2 (1 2t)
Z
p/2 t t
= (1 2t) exp fZ (zz )dzz
1 2t p

p/2 t t
= (1 2t) exp (2.2)
1 2t
Observacin 2.2. : Si = 0 entonces

MY tY = (1 2t)p/2
Por lo tanto, p
Y tY , 2 = 2(p)
2
t
Si ahora se hace = 2
, entonces en (2.2) se tiene que

MY tY (t) = (1 2t)p/2 exp[2t(1 2t)1 ] = (1 2t)p/2 exp (1 2t)1
y as (2.2) es escrito como:

MY tY (t) = (1 2t)p/2 e e (12t)
X X
p/2 j p+2j e j
= (1 2t) e = (1 2t) 2
j=0
(1 2t)j j! j=0
j!
Finalmente, se tiene que Y tY 2 (p+2j) , j = 0, 1, . . . , conocida como chi-cuadrado

j
no central j = 0, 1, . . . , con pesos iguales a e j! , donde = 12 t , conocido como
parmetro de no centralidad.
Ahora si Z = Y tY , entonces
j
X p+2j
1
e z 2
fZ (z) = p+2j ez/2
j=0
j! p+2j
2 2
2
y se dice que Z 2
(p,) .
Nota 2.1. Si W1 2 2
(p1 ,1 ) y W2 (p2 ,2 ) , y W1 y W2 son independientes, entonces
W1 + W2 2
(p1 +p2 ,1 +2 ) .
Ejemplo 2.1. Si se tiene una distribucin Chi-cuadrado no central, se satisface que

Y tY ) = p + 2 y Var (Y
E (Y Y tY ) = 2p + 8. Para la demostracin tenga en cuenta
que si Z = Y tY y X son vs as donde la distribucin marginal de X es poisson con
parmetro y la distribucin condicional de Z/X es 2(n+2X) , entonces la distribucin
marginal de Z es una Chi-cuadrado no central. Luego
E(Z) = E[E(Z | X)] = E(p + 2X) = p + 2
Var(Z) = E[Var(Z | X)] + Var[E(Z | X)]
= E[2(p + 2X)] + Var(p + 2X)
= 2p + 8
2.2. DISTRIBUCIN F NO CENTRAL 29
Y tY

, 2I ) entonces
Observacin 2.3. Si Y N ( 2
2 p, 21 2 t .
Observacin 2.4. Si Y N ( , V ), donde V = (AAtA )1 entonces Z = AY
A, AV At ), pero como AV At = I , entonces Z N (A
A
N (A A, I ) y Z tZ 2p, 1 tV 1 .
A
( 2 )
A continuacin se comprobara lo anterior, si Y N ( AtA)1 ,

, V ), donde V = (A
entonces V 1 = A tA . Ahora si Z = AY , es claro que Z N (A A, AV A t ), pero
A
como AV A t = I entonces Z N (A A, I ). Adems como Z tZ = Y tV 1Y entonces
A
t 1 2
Y V Y p, 1 tV 1 .
( 2 )
2.2. Distribucin F no central
Esta distribucin tiene gran inters en la teora de potencias de prueba, las cuales
son frecuentes en estudios de regresin, anlisis de varianza, estudios multivariados
de datos, entre otras reas del conocimiento estadstico.
Para el desarrollo de la distribucin, se parte de la definicin de la distribucin

F de Snedecor, donde se considera que si X y Y son vs as, tales que X 2(m) y
Y 2(n) , respectivamente, y adems son vs as independientes entonces el cociente
X/m
U= Y /n
F (m, n) y la fdp es
m+n

m m/2 m
2
u 2 1
n
fU (u) = m+n , u>0
m2 n2 1 + m
n
u 2
Si ahora se supone que X 2 2

(m,) y Y (n) con X y Y vs as independientes,
X/m
entonces el cociente Y /n
F(m,n,) .
Para obtener la distribucin de probabilidad se debe tener en cuenta el siguiente

procedimiento:
i) Hallar fX,Y (x, y).

(
U=XY
ii) Definir una transformacin T : . De esta forma, la transformacin
V =X
(
X=V
inversa es: T 1 : . Una vez obtenida la transformacin inversa se
Y = VU
debe obtener fU,V (u, v).
iii) Obtener la marginal fU (u).
n m m
iv) Transformar T : Z = m
U entonces T 1 : U = n
Z con |J| = n
.
X/m
v) Encontrar la densidad de Z = Y /n
.
Siguiendo con estos pasos entonces:

n
X j m+2j
y 2 1 y/2 e x 2 1 x/2
fX,Y (x, y) = n
e m+2j e
2 2 n/2
j=0
j! m+2j
2 2 2
y del punto (ii) se tiene que

x x 0 1 v
J | =
|J u
y
v
y
= v
2 1 = 2
u v u u u
entonces
n2 1 v m+2j v
v X e j uv e 2u v 2
1
e 2
fU,V (u, v) = 2 m+n+2j
u j=0 j! n
2 2 m+2j
2 2

X e j u 2 n
2
+1
v
n+m+2j
2
1
e (v+ uv )
12
= m+n+2j .
j=0
j! n
2 2 m+2j
2 2
n
m+n+2j m+2j

Entonces haciendo k = 2
2 2 2
se obtiene

X e j 1 n+m+2j v
fU,V (u, v) = u 2 (n+2) v 2
1
e 2[u/(u+1)] .
j=0
j!k
De esta forma, la marginal es:

Z n+m+2j " # n+m+2j 1
X e j
u 2
1
v v
2
12 (n+2) 2[u/(u+1)]
fU (u) = u e u
dv
j=0
j!k 0 u+1 u+1
n+m+2j 1
n+m+2j
u
n+m+2j 1 v
2

X 1 Z 2
e j u 2 (n+2) 2 u+1 ( u+1
u
)
= v dv
n2 m+2j
n+m+2j
j=0
j! 2 0 n+m+2j
2 2 e 2[u/(u+1)]
2
2.2. DISTRIBUCIN F NO CENTRAL 31
ya que se tiene la funcin de densidad de una chi-cuadrado, entonces observe que

n+m+2j
2
1
v
2[u/(u+1)] v
Z e
( u+1
u
)
n+m+2j
n+m+2j dv = 1
u
0
u+1
2
2 2
Obteniendo as finalmente que

m+2j 1
X e j n+m+2j u 2
2
fU (u) = n+m+2j
j=0
j! n2 m+2j (1 + u) 2
2
Ahora de (iv) se sigue que
m+2j 1 m+2j
m X e j
n+m+2j m
2
z 2 1 n
2
fZ (z) = n+m+2j
n j=0 j! n
m+2j
1 + m
z 2
2 2 n
m+2j 1 m m+j
X e j
n+m+2j
z 2 2
2 n
=
j=0
j! n m+2j 1 + m z 2 n+m+2j
2 2 n
A esta funcin de densidad de probabilidad de Z se le denomina F no central y se

denota por F(m,n,) .
Observacin 2.5. El parmetro de no centralidad es cero ( = 0) si y solo si H0 :

es cierta (ver captulo sobre prueba de hiptesis).
Observacin 2.6. . Las tablas de la distribucin chi-cuadrado no central y F no

central no se encuentran comnmente en los textos de estadstica. Adems estas
tablas pueden ser impracticables debido al gran nmero de parmetros involucrados.
La prueba F no central puede usarse nicamente para calcular el poder del estadstico
de prueba. Para este propsito, la distribucin F no central puede aproximarse por
una F central, y esta aproximacin puede usarse para evaluar aproximadamente estas

probabilidades. Para calcular las probabilidades de las colas de una F(m,n,) , se calcula
(m + 2 )
F = m/ m + 2 F y m = ,
m + 22
siendo F un valor de tablas de la F central con m y n grados de libertad.
2.3. Ejercicios
1. Suponga el modelo Yij = i + eij , i = 1, . . . , a, j = 1, . . . , n donde eij
P
a P
n Pa 2
N (0, 2 ). Obtenga la distribucin de Yij2 y de Yi Y .
i=1 j=1 i=1
, V ).
2. Si Y es un vector aleatorio, tal que Y N(
a) Halle la MY (tt).

1 0 0
b) Si = 1 0 2 y V = 0 2 1 y suponiendo que Y se distri-
0 1 1
buye como en 2a). Sea
Z1 =Y1 + Y2 Y3
Z2 =Y1
Z3 =Y1 Y2
Obtenga la distribucin conjunta de Z1 , Z2 y Z3 .
3. Suponga
que , V ) con t = (10, 12, 14, 16) y adems V
Y N4 (
=
2 1 1 1
1 2 1 1
.
1 1 2 1
1 1 1 2

1 1 1 1
C tY
a) Obtenga la distribucin de Z = C Y donde C = Ct .
1 1 1 1
Y , Z ).
b) Obtenga la matriz de Cov(Y

4. Obtenga la media y la varianza de una distribucin F(n,m,) .
5. A partir de la funcin generadora de momentos de una 2

(n,) , obtenga el r-simo
cumulante de esta distribucin.
Captulo 3
Distribucin de formas lineales y

cuadrticas
En este captulo se desarrolla la distribucin de funciones lineales y ciertas fun-

ciones cuadrticas bajo el supuesto de normalidad.
Definicion 3.1. Sea Y t = (Y1 , Y2 , . . . , YN ) un vector de N vs as, y sean A y B
matrices de dimensin N N y t N, respectivamente, donde los elementos de A y
B son constantes y A simtrica, entonces:
i) L = BY se llama una funcin lineal de Y .

ii) q = Y tAY es llamada una funcin cuadrtica de Y .
B ) = mn (t, n).
Observacin 3.1. En la prctica se asume que t n y que r(B
As por ejemplo si Yi , i = 1, . . . , N es una muestra aleatoria (m.a.) de una

distribucin normal con media y varianza 2 . Los estimadores de estos parmetros
son la media y la varianza muestral, respectivamente, dados por:
1 t
Y = 1Y (funcin lineal)
N
2 1 t 1
S = Y I J Y (funcin cuadrtica)
N 1 N
33
34 CAPTULO 3. DISTRIBUCIN DE FORMAS LINEALES Y CUADRTICAS
Sin prdida de generalidad, la simetra de A es vista algebraicamente como

N X
X N
q= aij yi yj
i=1 j=1
donde aij = aji .
Si A no es simtrica entonces aij 6= aji ; sin embargo, siempre se puede escribir q

de tal forma que aij = aji con aij A (matriz simtrica). En este caso, aij = aji =
(aij + aji )/2. Siguiendo con el supuesto de normalidad, es decir que Y NN ( , V ),
y asumiendo que E(Y Y ) = y Var(Y Y ) = V , entonces
BY ) = B
E(BY

BY ) = E (BY
Var(BY BY B B)t = BV B t
BY B
B)(BY
B 1Y , B 2Y ) = B 1V B t2 .
Si L 1 = B 1Y y L 2 = B 2Y entonces Cov(B
Este resultado es de gran utilidad en estudios de contrastes lineales de medias,

cuando se hacen las comparaciones planeadas en el anlisis de varianza.
, 2I ) entonces
Ejemplo 3.1. Si Y NN (
1 1 t1
E Y = 1t = =
N N
1 1 2
Var Y = 1t 2I 1=
N N N
3.1. Formas cuadrtica en variables normales
Teorema 3.1. Si Y N ( , V ) la forma cuadrtica q = Y tAY tiene funcin gene-

radora de momentos

1/2 1 t 1 1
Mq (t) = |II 2tAV
AV | exp I (II 2tAVAV ) V (3.1)
2
para todo t < t0 el menor autovalor de la matriz AV .

3.1. FORMAS CUADRTICA EN VARIABLES NORMALES 35
Demostracin. De la distribucin normal

Z Z
n/2 1/2 1 t 1
(2) |V V| = Y ) V (Y
exp (Y Y ) dY1 dYn
2
Entonces la funcin generadora de momentos de q = Y tAY ,
Z Z
1 t 1 t 1
Mq (t) = exp tY Y AY (Y Y ) V (Y Y ) dYY
(2)n/2 |V
V |1/2 2

1/2 1 t 1 1
=|II 2tAV
AV | exp a) V
( n/2 1/2
2 (2) |V AV |1/2
V | |II 2tAV
Z Z n o
1
exp (Y Y a )t V (II 2tAV
AV )1 Y a ) dY
(Y Y

AV )1V 1. Como en la parte derecha de la anterior expresin

donde a = V (II 2tAV
AV )1 ) entonces se obtiene la funcin
se tiene una funcin de densidad N(aa, V (II 2tAV
generadora de momentos dada en (3.1).
, V ) entonces
Teorema 3.2. Si Y NN (
Y tAY ) = tr(AV
a) E(Y AV ) + tA
A.

Y tAY ) = 4
b) Var(Y AV )2 .
tAV A + 2tr (AV
c) El r-cumulante de Y tAY es

Y tAY ) = 2r1 (r 1)! tr(AV
K r (Y AV )r + r
tA (V
VAA)r1 .
Y , Y tAY ) = 2V
d) Cov(Y V A
A.
BY , Y tAY ) = 2BV
e) Cov(BY BV A
A.
Demostracin. a)

Y tAY ) = E tr(AY
E(Y AY Y t ) = tr E AY Y t

=tr AE Y Y t = tr A V + t
AV ) + tA
=tr(AV
d)
n t o
Y , Y tAY ) = E (Y
Cov(Y Y ) Y tAY E Y tAY

Y ) Y tAY tA tr (AV
= E (Y AV )

= E (Y Y )tA (Y
Y ) (Y Y ) + 2(YY )tA tr(AV
AV )
Y ) son ceros, entonces
Debido a que el primer y el tercer momento de (Y
Y , Y tAY ) =2V
Cov(Y V A
La prueba de b), c) y e) se deja al lector como ejercicio.

, V ), q1 = Y tA 1Y y q2 = Y tA 2Y , entonces
Corolario 3.1. Si Y NN (
Cov(q1 , q2 ) = 2tr (A tA 1V A 2
A1V A 2V ) + 4 (3.2)
Demostracin. Sea A = A 1 + A 2 y q = q1 + q2 con qi = Y tA iY (i = 1, 2) entonces

Var(q) = Var(q1 ) + Var(q2 ) + 2 Cov(q1 , q2 )
1
Cov(q1 , q2 ) = [Var(q) Var(q1 ) Var(q2 )] (3.3)
2
donde
A1 + A 2 )V
Var(q) =2tr [(A V (A
A1 + A 2 )V t (A
V ] + 4 A1 + A 2 )V
V (A
A1 + A 2 )

t
A1V A 1V ) + 4
Var(q1 ) =2tr (A A 1V A 1
A2V A2V ) + 4
Var(q2 ) =2tr (A tA 2 V A 2
Reemplazando estos resultados en (3.3) se obtiene (3.2).

, 2I ) y como
Ejemplo 3.2. Si Y NN (
N
2 1 X 2 1 t 1
S = Yi Y = Y I J Y
N 1 i=1 N 1 N
entonces

2
1 2 1 1 1
E S = tr I J + 1 I J 1 = 2
2 t
N 1 N N 1 N
donde = 1.
3.2. INDEPENDENCIA ENTRE UNA FORMA LINEAL Y UNA FORMA CUADRTICA37
3.2. Independencia entre una forma lineal y una for-

ma cuadrtica
Teorema 3.3. Si Y N tal que Y NN ( , I ), sea A N N , una matriz semi

definida positiva y B tN (t N) de rango mximo, entonces Y tAY y BY son inde-
pendientes si y solo si BA = 0.
Demostracin. ) Por ser A simtrica, entonces se puede expresar como A = LL t ,

para alguna matriz L de rango columna completo, as BA = 0 entonces BLL t = 0 =
BLL tL (L LtL )1 = 0. Por lo tanto BL = 0, y teniendo en cuenta la distribucin de
Y , es claro que BY N (B B, BB t ) y L tY N (L
B Lt , L tL ) y as Cov (BY
BY , L tY ) =
B Var (YY ) L = BL BY , L tY ) = 0, y por consiguiente, BY y
BL. Por lo tanto, Cov (BY
t
Y AY son independientes.
) Suponiendo independencia entre BY y Y tAY entonces se satisface que

BY , Y tAY ) = 0. Adems, E (Y
Cov (BY Y Y t ) = I + t , por propiedades de traza y
teniendo en cuenta que Y tAY es un escalar, entonces E (Y Y tAY ) = tr [A Y Y t )] =
A E (Y
t
A) + A
tr(A A, as que

Cov BY , Y tAY = E B (Y Y ) Y tAY tr(A A) + tA

= B E (YY ) (YY )t A (Y Y )t A tr(A
Y ) + 2 (Y A)
BA
= 2BA
6= 0.
Por lo tanto, BA = 0
Teorema 3.4. Si Y N (, V ), una condicin necesaria y suficiente para que BY y
t
Y AY sean independientes es que BV A = 0, siendo A una matriz positiva definida.
Demostracin. Si A es definida positiva, entonces A = LL t , para alguna matriz L de

rango columna completo. Por lo tanto, si BV A = 0 entonces BV LL t = 0, como L
LtL )1 y as BV LL tL (L
es de rango completo, entonces existe (L LtL )1 = 0 entonces
BV L = 0.
BY , L tY ) = BV L = 0, BY N (B
Adems Cov (BY B, BV B t ), LY N (L
B L, LV L t )
L
y la conjunta tambin se distribuye en forma independientemente normal. Adems
Y tAY = Y tLL tY es una funcin de L tY ; por lo tanto BY y Y tAY son independien-
tes.
3.3. Independencia entre formas cuadrticas
Con el siguiente teorema se prueba esta independencia:

Teorema 3.5. Sea Y n , tal que si Y N ( , I ) y si A y B son matrices sim-
tricas semidefinidas positivas, entonces q1 = Y tAY y q2 = Y tBY son independientes
si y solo si AB = 0.
Demostracin. ) Por teorema de descomposicin espectral si A es una matriz si-

mtrica semidefinida positiva, entonces existe una matriz n n, P ortogonal tal
que 2
t Dr 0
P AP = D =
0 0

1/2 1/2
siendo D r = Diag 1 , . . . , r A) =
con j > 0, j = 1, 2, . . . , r. Por lo tanto, r(A

Dr
r entonces A = P D r 0 P t = LL t . Adems, existe (L LtL )1 ya que
0
LtL ) = r.
r (L
En forma semejante por ser B simtrica y semidefinida positiva, entonces existe

B = MM t con r (M
M tM ) = r y tambin existe (MM tM )1 .
Entonces si AB = 0 implica que q1 es independiente de q2 porque AB =

0 = LL tMM t = 0 = LL tMM tM (M M tM )1 entonces LL tM = 0 y adems
LtL )1 L tLL tM = 0. Por lo tanto, L tM = 0.
(L
Como Y N ( , I ) entonces L tY N (LLt , L tL ) y M tY N (M

M t , M tM ) y
t t t t t
L Y , M Y ) = L M = 0. Por lo tanto, L Y y M Y son independientes,
adems Cov (L
LtY k2 = q1 y kM
y adems, kL M tY k2 = q2 son independientes.
Si q1 y q2 son independientes entonces AB = 0. Por la independencia

Var (q1 + q2 ) = Var (q1 ) + Var (q2 ) .
, I ) el
En Searle (1971) y Hocking (1996) se demuestra que cuando Y N (
t
r-simo cumulante de Y AY es:

Kr Y tAY = 2r1 (r 1)! tr(A
A)r + r AI)r1
tA (AI
AI
3.3. INDEPENDENCIA ENTRE FORMAS CUADRTICAS 39
Y tAY ] = 2tr(A
Si r = 2 entonces Var [Y A)2 + 4
tAA
AA. Ahora si

Var Y t (A
A + B ) Y = 2tr (AA + B )2 + 4
t (A
A + B ) (A
A + B) (3.4)
Pero por independencia

Var Y t (A
A + B ) Y = Var Y t (A Y + Var Y t (B
A)Y B )Y
Y (3.5)
A + B )2 + 4
2tr (A t (A
A + B ) (A A)2 + 4
A + B ) =2tr(A t (A
A)2 + 2tr(B
B )2 + 4
tB 2
Se observa que
tBA = 0
4 (3.6)
AB
Como tr(AB
AB) = tr(ABAB t
AB ) = tr(B B tA tBA
BA) entonces
B A ) = tr(BA
tBA =tr(
tBA
BA) = tr[( tBA
BA)t ]
tA tB t ) = tr(
=tr( tAB
AB).
Entonces (3.4) puede escribirse como

AB
4tr(AB
AB) + 8tAB =0
AB
4[tr(AB ABt )] =0
AB) + 2tr(AB
AB
4tr[AB t )] =0,
AB(II + 2 6= 0

AB
lo anterior implica que tr(AB
AB) = 0 para todo 6= 0 entonces AB = 0.
1 t
Teorema 3.6. Si Y N ( , V ) y q = Y tAY entonces q 2 A ),) con = 2 A
(r(A
si y solo si AV es idempotente.
Demostracin. Suficiencia: Asuma que AV es idempotente, sea V = C tC donde C

es una matriz no-singular, y definase B = CAC t . Por consiguiente, r(B
B ) = r y B es
idempotente ya que
BB = CAC tCAC t = CAV AV V 1C t = CAV V 1C t = B .
Recuerde que los valores propios de una matriz idempotente son ceros o unos. Por
lo tanto, si P es una matriz ortogonal conformada por los vectores propios de B
entonces
t Ir 0
= P BP =
0 0
t
Bajo la transformacin X = (C C 1 ) Y , se puede ver que X N( , I ) donde
t
C 1 ) . Haciendo Z = P tX se obtiene que Z N( , I ) con = P t . Bajo la
= (C
anterior secuencia de transformaciones, la forma cuadrtica toma la siguiente forma
q = Y tAY = X tBX = X tP P tX = Z tZ = Z t1Z 1
donde Z 1 son las r primeras componentes de Z , as Z 1 N( 1 , I r ) con media

1 = (II r | 0) . Por lo tanto, q 2(r,) con
2 = t1 1 = t (II r | 0)t (II r | 0)

= t = tB = tA A.
Necesidad: Bajo la misma transformacin, pero sin el supuesto de idempotencia,

se tiene que
X r
q = Z tZ = iZ 2i
i=1
donde es una matriz diagonal con los valores propios de B , denotados por i y
Z 2i 2(1,2 ) . De los grados de libertad de una chi-cuadrado no central se sigue que
i
i = 1, i = 1, . . . , r. Por lo tanto, B es idempotente y adems, AV tiene la esta
misma propiedad.
Ejemplo 3.3. Sea , 2I ), L = BY con B = n1 1t y q1 = Y tA 1Y con
Y N(
A 1 = 12 I n1 J

1 1 2 1
A 1V = 2 I J I = I J = (A A1V )(AA 1V )
n n
luego es idempotente. Entonces por teorema anterior, se sigue que
q1 2tr(A 2
A 1V ) = (n1)
Teorema 3.7. Si Y N ( , V ), q1 = Y tA 1Y y q2 = Y tA 2Y entonces q1 y q2 son

independientes si y solo si A 1V A 2 = 0.
Demostracin. Ver (Hocking 1996, p. 52).

Teorema 3.8. Sea Z = (Z1 , . . . , Zn )t tal que Z N ( , I ), entonces si A es simtrica
se satisface que Z tAZ 2 tA
A ),1/2
(r(A A) si y solo si A es idempotente de r(A A) = k.
3.3. INDEPENDENCIA ENTRE FORMAS CUADRTICAS 41
Demostracin. ) Si A es idempotente de rango k, entonces existe una matriz P

ortogonal tal que
t Ik 0
P AP = =D
0 0
Sea W p1 = P tZ entonces W N (P
P t , I ) pues como adems
Z tAZ = W tP tAP W = W tDW

t
W 1(k1) P1
al hacer la particin W = y Pt = es claro que
W 2(pk)1 P t2
t
W1 P 1
N ,I (3.7)
W2 P t2
Como Z tAZ = W tDW = W t1W 1 de (3.7) se observa que W 1 N (P

P t1 , I ).
Por lo tanto W t1W 1 2

tP t1 P 1
, ya que
k, 2
P tAP = D
entonces A = P DP t = P 1P t1 y como
Z tAZ = W t1W 1 2

tP t P 1
= 2k, 1 tA
k, 1
2
( 2 )
con A = P t1P 1 .
X, 2I ) con Y n para una matriz A idempotente de
X
Ejemplo 3.4. Si Y N (X
rango k
Y tAY
2
(k, 212 tX tAX )
2
1
X tX )
as por ejemplo A = I X (X X t , AX = 0 y entonces
Y tAY
2(k)
2
Ejemplo 3.5. Supongamos el modelo Yij = +i +j +eij , i = 1, . . . , t, j = 1, . . . , b,
P Y2 2
con eij N (0, 2 ) se demuestra que SCtrts = ti=1 bi. Ytb.. = Y tT Y con
1 1
T = (II t J b ) (JJ t J b)
b tb
se verifica que
b b b tb
T 2 =T
TT = 2
(II t J b ) 2 (J J t J b ) 2 (J
J t J b ) + 2 2 (J
J t J b)
b tb tb tb
1 1
= (II t J b ) (J J t J b) = T
b tb
Luego
Y tT Y 2
2
(r(T
T ),)

tb
T ) = tr(T
donde r(T T) = b
1 = t 1 y el parmetro de no-centralidad es
X t
1
= 2 tX tT X
X = b (i )2
2 i=1
con = (, 1 , . . . , t , 1 , . . . , b )t . Obteniendo finalmente que
Y tT Y
2t1, 1 b Pt ( )2
2 ( 22 i=1 i )
3.4. Ejercicios
1. Si X Nn (, I ) encuentre la distribucin de Y = AX + b con A una matriz de
dimensin apropiada de constantes y b un vector de constantes. Adems, halle
la distribucin de Y = n1 1tY .
, V ), donde V = (1 r)II n + r1n 1tn .

2. Sea X Nn (
a) Para n = 2 y n = 3 determine la distribucin de Z = AX

AX.
b) Generalice para n > 3.
, ) Sean B mn y A matrices definidas no negativas pruebe

3. a) Si Y Nn (
que una condicin suficiente para que BY y Y AY sean independientes es
que AB = 0.
b) Use el resultado en 3a) para probar la independencia entre Y y S 2 .
3.4. EJERCICIOS 43
, 2I ) y sea qi = 12 Y tA iY donde
4. Sea Y Nn (

1 1 0 1 1 2
1 1 1
A 1 = 11t , A 2 = 1 1 0 , A3 = 1 1 2
3 2 6
0 0 0 2 2 4
Determine la distribucin de los qi y verifique la independencia de esas formas
cuadrticas.
5. Suponga que Y NN (W W, 2I ) donde
W = I a 1m , N = an. Sea qi = Y tA iY ,
i = 1, 2 con A 1 = 12 I n1 W W t y A 2 = 12 n1 W W t an
1
11t .
a) Determine la distribucin de q1 y q2 .
b) Verifique la independencia.
.
q2 q1
c) Determine la distribucin de r2 r1
donde r1 y r2 son los rangos de A 1 y
A2 , respectivamente.
d) Defina M i = 12 A i , i = 1, 2 y M = M 1 + M 2 , determine la distribucin
conjunta de q1 y q2 .
6. Suponga que Y Nn ( , V ) donde V = 0 (II a I n ) + 1 (II a J n ) con 0 > 0
y 0 + n1 > 0.
h i
a) Determine la distribucin de q1 = Y t 10 I n1 W W t Y y q2 =
h i
t 1 1 t 1 t
Y 0 +n1 n W W an 11 Y con W definido como en el ejercicio 5.
.
b) Determine la distribucin de la razn qr22 qr11 .
7. Sea Y Nn ( , 2I ). Sea H la matriz de Helmert definida como sigue: la

primera fila de H es 1n 1t y la r-sima fila, r = 2, . . . , n, esta dada por

1 1tr1 r1 0tnr
r(r1) r(r1)
a) Muestre que H es una matriz ortogonal.

b) Determine la distribucin de Z = HY .
c) Use esta transformacin para determinar la distribucin conjunta de Y y

2 1 t 1 t
S = Y I 11 Y
n1 n
8. Con Y N (, V ), cules son las condiciones necesarias y suficientes para que

q1 = Y A 1Y + b t1Y + c1 y q2 = Y tA 2Y + b t2Y + c2 sean independientes?
t
9. Si X Nk (0, 2I ) y sea Y = P X donde P es una matriz ortogonal k k.

Muestre que Y Nk (0, 2I ).
10. Si Y Nk (0, ), muestre que Y tAY 2m si y solo si A es una matriz

idempotente con r(AA) = m.
11. Sea Y Nn (, QA
QA) con A matriz positiva definida y Q matriz simtrica e
Q) = m, halle la distribucin de U = Y tA 1Y .
idempotente con tr(Q
, ) con r(
12. Si Y = (Y1 , . . . , Yn ) Nn ( ) = n
a) Muestre que
Z
1 t 1
Y ) (Y
exp (Y Y ) dY1 dYn = (2)n/2 |
|1/2 .
2
Rn
b) Evale Z Z

exp (x21 + 2x1 x2 + 4x22 ) dx1 dx2 .

donde xi = yi , i = 1, 2.
Captulo 4
Modelo lineal particionado en

k-partes ordenadas
Considere el modelo particionado Y = X 1 1 + X 2 2 + + X k k + e . Se satisface

que:
1. X t1X 1B 1 = X t1 y P 1 = X 1B 1 .
t t
2. X1 X2 X1 X2 B 12 = X1 X2 y P 12 = X1 X2 B 12
t t
3. X 1 X 2 X 3 X 1 X 2 X 3 B 123 = X1 X2 X3 y con P 123 =
X 1 X 2 X 3 B 123
..
.
t t
k. X1 X2 Xk X 1 X 2 X k B 12,...,k = X1 X2 Xk
y P 12,...,k = X 1 X 2 X k B 12,...,k
donde las matrices P 1 , P 12 , . . . , P 12...k son simtricas e idempotentes, y adems, P 12...i

(i = 1, . . . , k) es el proyector ortogonal en el espacio columna de X 1 , X 2 , . . . , X i
X 1 , X 2 , . . . , X i )).
(C (X
45
46CAPTULO 4. MODELO LINEAL PARTICIONADO EN K-PARTES ORDENADAS
Teorema 4.1. En la descomposicin:

P 1Y + (P
Y =P P 12 P 1 ) Y + (P
P 123 P 12 ) Y + + (P
P 12k P 12...k1 ) Y
+ (II P 12...k ) Y (4.1)
En el lado derecho de (4.1), cada trmino es ortogonal a todas las dems componentes
de la descomposicin y adems la matriz asociada a cada componente es simtrica e
idempotente.
Demostracin. Se demuestra que P 12j P 12i = P 12i para cada pareja (i < j)
X 1 , X 2 , . . . , X i )B 12i = (X
P 12j P 12i = P 12j (X X 1 , X 2 , . . . , X i ) B 12i = P 12i ahora
si i 2 , entonces P 12i P 12(i1) P 1 = P 1 P 1 = 0.
Se considera la componente P 12j P P 12(j1) , j 2, y se verifica que es ortogonal

a todas las otras componentes. Como i < j entonces

P 12j P 12(j1) P 12i P 12(i1) =P P 12j P 12i P 12j P 12(i1)
P 12(j1)P 12i + P 12(j1)P 12(i1)
=PP 12i P 12(i1) P 12i + P 12(i1) = 0
Adems P 12j P 12(j1) es simtrica y

P 12j P 12(j1) P 12j P 12(j1) =PP 12j P 12(j1) P 12(j1) + P 12(j1)
P 12j P 12(j1)
=P
En el lenguaje de espacios de columna el teorema dice que
n = C(P
P 1 ) C (P
P 12 P 1 ) C (II P 12k )
El anlisis de varianza asociado con el modelo particionado es:
C de V g.l SC
X 1 1 r(XX) Y tP 1Y
X 2 2 | X 1 1 X 1 , X 2 ) r(X
r (X X 1) Y t (P
P 12 P 1 ) Y
X 3 3 | X 1 1 + X 2 2 X 1 , X 2 , X 3 ) r (X
r (X X 1, X 2) Y t (P
P 123 P 12 ) Y
.. .. ..
. . .
X k k | X 1 1 + + X k1 k1 X 1 , . . . , X k ) r (X
r (X X 1 , . . . , X k1 ) Y t P 12k P 12(k1) Y
Error n r (X X 1, . . . , X k) Y t (II P 12...k ) Y
Total n Y tY
4.1. TEOREMA DE COCHRAN 47
Desde el punto de vista computacional las sumas de cuadrados se obtienen se-

cuencialmente ajustando los modelos:
Y =X X 1 1 + e 1
Y =X X 1 1 + X 2 2 + e 2
..
.
Y =X X 1 1 + X 2 2 + + X k k + e k
Observacin 4.1. Cada modelo tiene k! anlisis de varianza, uno para cada orden
posible en el que se arreglan las k-componentes. Si hay ortogonalidad, o sea X tiX j = 0
se tiene un nico anlisis de varianza.
4.1. Teorema de Cochran
En muchas aplicaciones estadsticas se debe considerar ms de dos formas cua-

drticas las cuales dependen de las particiones que se hagan del modelo. El siguiente
teorema establece condiciones para obtener independencia mutua de formas cuadr-
ticas. Este teorema lo propuso Cochran (1934) y por supuesto que es conocido como
teorema de Cochran.
Inicialmente se prueba el siguiente lema:

Lema 4.1. Sea B una matriz simtrica e idempotente y Q una matriz simtrica y
definida no negativa. Si I B Q es definida no negativa entonces BQ = QB = 0.
Demostracin. Sea X un vector arbitrario y sea Y = BX BX, entonces Y tBY =

t t 2 t t t I
Y BBX = Y B X = Y BX = Y Y . Adems Y [I B Q ] Y es definida no ne-
gativa entonces YY tQY 0 y entonces Y tQY 0, pero tambin Q es definida no
negativa, entonces Y tQY 0 para todo Y . Por lo tanto, Y tQY = 0.
Por ser Q simtrica, existe P ortogonal tal que

2
t Dr 0 Dr
P QP = = Dr 0
0 0 0

Dr
y entonces Q = P D r 0 P t = L tL con L = D r 0 P t .
0
Entonces Y tQY = 0 implica que Y tL tLY = 0 y por lo tanto, LY = 0. De esta

forma L tLY = QY = QBX = 0 para todo X 6= 0, por tanto QB = 0, y adems, se
QB)t = B tQ t = BQ = 0.
QB
cumple que (QB
Teorema 4.2.Pk Sean A 1 , A 2 , . . . , A k matrices

Pk simtricas con r(A Ai ) = ri , i = 1, . . . , k
y sea A = A) = r =
i=1 A i con r(A i=1 ri , entonces cualquiera dos de las tres
condiciones siguientes implica la tercera:
a) A 1 , A 2 , . . . , A k idempotentes.
b) A iA j = 0 para todo i 6= j, i, j = 1, . . . , k.
Pk
c) i=1 A i = A es idempotente.
Demostracin. i) a) y b) c). Sea
k
!2 k
X X X
2
A = Ai = A 2i + A iA j
i=1 i=1 i6=j
Entonces por b) y por a) se obtiene
k
X k
X
A 2i = Ai = A
i=1 i=1
luego se satisface c).
ii) a) y c) b). Sea I n entonces por c) se obtiene que I A es idempotente

puesto que (II A ) (II A ) = I A con r (II A ) = n r < n P entonces
I A es semidefinida positiva. Ahora, considrese A A i A j = A k es
k6=i6=j
!
P P
idempotente por a) con r A k = r ri rj < r, entonces A k es
k6=i6=j k6=i6=j
semidefinida positiva.
Por consiguiente se satisface la hiptesis del lema 4.1, y por lo tanto, A iA j = 0
para todo i 6= j, con lo cual se satisface b).
4.1. TEOREMA DE COCHRAN 49
iii) b) y c) a). Sea una raz caracterstica de A 1 y sea su correspondiente

vector caracterstico, entonces A 1 = para 6= 0. Por consiguiente, =
1
A . Tomando A i tal que i 6= 1 entonces por b) A i = A iA 1 1 = 0.
1
P
De esta forma, como A = ki=1 A i entonces por b) y c), se encuentra que
A 2 =A
A
k
X k
X
A 2i = A i
i=1 i=1
k
X Xk
1 1
A 2i A 1 = A iA 1
i=1
i=1

A 31 A21
=A
Por lo tanto, A 1 es idempotente, es decir se satisface a). El proceso debe repe-

tirse hasta considerar A 2 , A 3 , . . . , A k .
Teorema 4.3. Teorema de Cochran. Pk Cuando Y Nr (0, I ) y A i es simtrica de

Ai ) = ri , (i = 1, . . . , k) con i=1 A i = I entonces las Y tA iY se distribuyen inde-
r(A
P
pendientemente como 2(ri ) si y solo si ki=1 ri = r.
Una extensin del teorema anterior es la siguiente:

Teorema 4.4. Fisher-Cochran. PSea Y Nr ( , I ), A 1 , . . . , A k matrices reales si-
k
mtricas no nulas, tales que i=1 A i = I con A ) = ri entonces Y tA iY
r(A
2 Pk i
r(A y son independientes si y solo si i=1 ri = r adems se satisface el
( Ai ), 21 tA i )
lema 4.1.

Demostracin. : ) Si Y tA iY 2r , 1 tA y son independientes, entonces
(i2 i )
k
X k
X
Y tA iY = Y t A iY = Y tY (2r, 1 t )
2
i=1 i=1
, I ) entonces
Lo anterior es cierto por el hecho que si Y N (

Y tY 2r, 1 t
( 2 )
Pk
entonces r = i=1 ri .
P P
) Si r = ki=1 ri = ki=1 r(AAi ), por lema 4.1 A i es idempotente, y por consi-
Ai ) = ri . Entonces
guiente r(A
Y tA iY 2
(r(A
A i ), 21 tA i )
.
Teorema 4.5.P Sea Y N ( , V ) y A i , i = 1, . . . , k matrices simtricas

P Ai ) =
con r(A
ri , sea A = ki=1 A i con r = r(A
A) si AV es idempotente y r = ki=1 ri , entonces las
formas cuadrticas qi = Y tA iY , i = 1, . . . , k son variables aleatorias mutuamente

independientes no centrales con qi 2r , 1 tA
(i2 i )
Demostracin. Ver Hocking (1996, p. 53).
Ejemplo 4.1. Si Y NN ( , 2I ), se tiene que E(Y

Y ) = = 1, V = 2I . La
forma lineal es B = (1/N)1t y la forma cuadrtica es q1 = Y tA 1Y con A 1 =
1
2
I N N1 J N . Como A 1V = I N N1 J N es idempotente, entonces q1 2(N 1,0)

porque I N N1 J N 1 = 0, as el parmetro de centralidad es cero.
Alternativamente se puede considerar la forma cuadrtica

1 2
q2 = 2
NY = Y tA 2Y

donde A 2 = J N /(N 2 ). Como A 2V es idempotente entonces
q2 2
2

1, N2
2
Adems, q1 y q2 son independientes. La distribucin conjunta de q1 y q2 se siguen

J N + I N N1 J N y N = 1 + (N 1).
del teorema de Cochran, al expresar I = 1/nJ
Observe que de las dos formas cuadrticas se obtiene la suma de cuadrados total
Y tY , la cual se puede expresar como la suma cuadrados del residual 2 q1 ms la
suma de cuadrados de la media 2 q2 .
Y ) = 1N donde N = an y
Ejemplo 4.2. Considere el modelo lineal definido por E(Y
Y ) = V = 0 (II a I n ) + 1 (II a J n )
Var(Y
4.2. EJERCICIOS 51
Sean las formas cuadrticas, qi = Y tA iY , definidas por las matrices

1 1
A1 = Ia In Jn
0 n

1 1 1
A2 = Ia Ja Jn
0 + n1 a n

1 1
A3 = J a J n)
(J
0 + n1 an
Observe que A = A 1 + A 2 + A 3 entonces

1 1
AV = I a I n J n [0 (II a I n ) + 1 (II a J n )]
0 n

1 1 1
+ I a J a J n [0 (II a I n ) + 1 (II a J n )]
0 + n1 a n

1 1
+ J a J n ) [0 (II a I n ) + 1 (II a J n )] = I a I n
(J
0 + n1 an
Por lo tanto, A es la inversa de la matriz de varianzas y covarianzas, V . Adems, la

condicin del rango del teorema de Cochran tambin se satisface, por lo que
q1 2(a(n1),0)
q2 2((a1),0)
q3 2
2

1, 2(an
+n
0 1)
4.2. Ejercicios
1. Suponga que se tiene el modelo Y = X +ee caracterizado por Yij = + i + eij
i = 1, . . . , a, j = 1, . . . , b. Si se supone que i N(0, 2 ) y eij N(0, 2 ).
a) Obtenga la matriz V .
b) Obtenga E(SC()), E(SC(T rts)) y E(SC(Error)).
c) Muestre las formas cuadrticas asociadas a las respectivas sumas de cua-
drados, y muestre adems, que las matrices son simtricas e idempotentes.
d) Encuentre la distribucin de las formas cuadrticas asociadas a las sumas

de los cuadrados.
2. Suponga que Y N(0, ) con = 2 [(1 )II k + J
J k ], 0 1.
a) Defina A 1 = I k k1 J k y A 2 = k1 J k , muestre que A 1 y A 2 son idempotentes,

A 1A 2 = 0 y entonces
A1 + [1 + (k 1)] A 2 } 2
= {(1 )A
1 1
b) Sea qi = Y tB iY , i = 1, 2, con B 1 = 2 (1) A 1 y B 2 = 2 [1+(k1)] A 2 . Mues-
tre que q1 y q2 son independientes y se distribuyen como chi-cuadrados, y
encuentre los parmetros de la distribucin.
3. Analice la siguiente informacin a travs del uso del procedimiento IML del
SAS y comprela luego con los resultados obtenidos con el uso del procedi-
miento GLM del SAS:
/* ANLISIS MEDIANTE EL USO DEL PROCEDIMIENTO IML DEL SAS */

DATA EJERCICIO43;
INPUT Y A1 A2 A3 B1 B2 @@;
CARDS;
450 1 0 0 1 0 460 1 0 0 0 1 420 0 1 0 1 0 410 0 0 1 1 0 400 0 0 1 0 1 480 0 1 0 0 1
;
PROC PRINT DATA=EJERCICIO43;
RUN;
PROC IML; RESET NOPRINT;

USE EJERCICIO43;
READ ALL VAR {Y} INTO Y;
READ ALL VAR {A1 A2 A3 B1 B2} INTO X;
/* AJUSTE SECUENCIAL */
X1=J(6,1,1);
X2=X[ ,1:3];
X12=X1 || X2;
X123=X1 ||X ;
PRINT X1 X12 X123;
/* MATRICES DE PROYECCIN */
P1=X1*(INV(t(X1)*X1))*t(X1);
P12=X12*(GINV(t(X12)*X12))*t(X12);
4.2. EJERCICIOS 53
P123=X123*(GINV(t(X123)*X123))*t(X123);
PRINT P1 P12 P123;
B1=P12-P1;
B2=P123-P12;
B3=I(6)-P123;
/* ORTOGONALIDAD ENTRE MATRICES DE PROYECCIN */

C1=P1*B1;
C2=P1*B2;
C3=P1*B3;
C4=B1*B2;
C5=B1*B3;
C6=B2*B3;
PRINT C1 C2 C3 C4 C5 C6;
/* IDEMPOTENCIA DE LAS MATRICES DE PROYECCIN */

D1=P1*P1;
D2=B1*B1;
D3=B2*B2;
D4=B3*B3;
PRINT P1 D1 B1 D2 B2 D3 B3 D4;
/* OBTENCIN DE LAS SUMAS DE CUADRADOS */

SCMEDIA=t(Y)*P1*Y;
SCA=t(Y)*B1*Y;
SCB=t(Y)*B2*Y;
SCMODELO=t(Y)*P123*Y;
SCMODELOCOR=t(Y)*(P123-P1)*Y;
SCE=t(Y)*B3*Y;
SCTOTAL=t(Y)*Y;
SCTOTALCOR=t(Y)*(I(6)-P1)*Y;
/* OBTENCIN DE LOS GRADOS DE LIBERTAD */

RANMEDIA=TRACE(P1);
RAN1=TRACE(P12);
RANMODELO=TRACE(P123);
RANE=TRACE(I(6))-TRACE(P123);
RANTOTAL=TRACE(I(6));
RANMODELOCOR=RANMODELO-RANMEDIA;
RANTOTALCOR=TRACE(I(6))-TRACE(P1);
RANA=RAN1-RANMEDIA;
RANB=RANMODELO-RAN1;
/* OBTENCIN DE LOS CUADRADOS MEDIOS */

CMMODELO=SCMODELO/RANMODELO;
CMMODELOCOR=SCMODELOCOR/RANMODELOCOR;
CME=SCE/RANE;
CMA=SCA/RANA;
CMB=SCB/RANB;
/* OBTENCIN DE LAS ESTADSTICAS F */

F1=CMMODELO/CME;
F2=CMMODELOCOR/CME;
FA=CMA/CME;
FB=CMB/CME;
/* TABLA DE ANLISIS DE VARIANZA */

/* ANLISIS DE VARIANZA SIN CORREGIR POR LA MEDIA */
PRINT SCMODELO SCE SCTOTAL RANMODELO RANE RANTOTAL;
PRINT CMMODELO CME F1;
/* ANLISIS DE VARIANZA CORRIGIENDO POR LA MEDIA */

PRINT SCMODELOCOR SCE SCTOTALCOR RANMODELOCOR RANE
RANTOTALCOR;
PRINT CMMODELOCOR CME F2;
/* ANLISIS DE VARIANZA CORRIGIENDO POR LA MEDIA PARA CADA UNO DE

LOS EFECTOS PRESENTE EN EL MODELO */
PRINT SCA SCB SCE SCTOTALCOR RANA RANB RANE RANTOTALCOR;
PRINT CMA CMB CME FA FB;
RUN;
/* ANLISIS MEDIANTE EL USO DEL PROCEDIMIENTO GLM DEL SAS */

PROC GLM DATA=EJERCICIO43;
CLASS A B;
MODEL Y= A B;
RUN;
Captulo 5
Modelos de regresin
Se tiene en investigacin experimental como objetivo determinar una relacin

funciona entre una variable respuesta Y y un conjunto de variables controladas
X1 , . . . , Xk . Y se asume que es continua (aunque no necesariamente) y las Xi s va-
riables no aleatorias, las cuales pueden ser controladas o determinadas por el expe-
rimentador Khuri (2009).
En general la relacin entre Y y (X1 , . . . , Xk ) es desconocida por se puede postular

una relacin de la forma
k
X
Yi = 0 + j Xj + ei
j=1
Y = X + e (5.1)
donde = (0 , . . . , k )t es el vector de parmetros desconocidos pero fijos, e el error

experimental, bajo estas condiciones (5.1) se le conoce como un modelo de regresin
multiple y si k = 1 se le conoce como modelo de regresin simple. Una forma ms
general de escribir (5.1) es
Y = f (x
x)
+e
X ) = [f0 (x
donde f (X x), f1 (x
x), . . . , fk (x x) = (1, . . . , 1)t , como un ejemplo se
x)] con f0 (x
55
56 CAPTULO 5. MODELOS DE REGRESIN
tiene un desarrollo de la forma

x x 0 )2
(x
g(x x0 ) + g (x
x) =g(x x x 0 ) + g (x
x0 )(x x0 ) + +
2!
x x 0 )k
(x
g k (x
x0 ) x)
+ R(x
k!
Se puede aproximar esta respuesta mediante un modelo lineal de la forma
x x 0 )2
(x x x 0 )k
(x
x) = + (x
f (x x x 0 )1 + 2 + + k + e
2! k!
5.1. Mtodos de estimacin
5.1.1. Mnimos cuadrados ordinarios
Si el modelo (5.1) es considerado de forma tal que X = X p (p = k +1) es de rango

completo r(XX ) = mn {n, p}, y adicionalmente, se supone que = E(Y Y ) = X
X. En
este caso no se necesita ningn supuesto sobre Y . Por mnimos cuadrados ordinarios
(MCO), se busca minimizar
e te =Q( ) = kY
Y XXk2
Y tY tX tY Y tX + tX tX
=Y
Y tY 2
=Y tX tY + tX tX
X,
La filosofa de los MCO, es hallar un estimador de , tal que el tamao de los errores
sea mnimo, es decir, minimizar los errores. Entonces al derivar e igualar a cero, se
obtiene
Q()
X tY + 2X
= 2X X tX = 0

X tX =XX tY
las cuales son conocidas como las ecuaciones normales (EN).
Por ser (r(X X tX ) = p, entonces existe (X

X )) = r(X X tX )1 la cual es nica; por
tanto, la solucin de MCO para es
b = (X
X tX )1X tY (5.2)
5.1. MTODOS DE ESTIMACIN 57
h i

y claramente con este vector se minimiza Q( ) puesto que t

X tX

Q( )

= 2X
que es una matriz definida positiva. Por lo tanto, Q(b) es un mnimo absoluto puesto
que 2

Y X b kY Xk2
Y X
y t
b b
Q = Y X b
Y X = Y t (II H )Y
Y = SCE
con H = X (X X tX )1X t matriz conocida como el proyector ortogonal en el espacio
columna de C(X X ), esta matriz satisface que H = H t y HH = H . Si M = I H
pertenece al espacio ortogonal de (C (X
X )), entonces r(SCE) = r(II ) r(H
H ) = n p.
La estimacin de la respuesta media Yb = b = X b y R = be R = Y Yb =P(II H

H )YY
n
conocido como el vector de residuales. En particular ri = bei = yi yi = yi j=1 hij yj
2 2
t
con hii H y adems Yb (YY Yb ) = 0. A Yb = X b = Y tHY se le conoce como
suma de cuadrados de la regresin.
Algunas propiedades de los estimadores de MCO
Para el modelo (5.1) con los supuestos propuestos se va a tener que

i) E b = .

ii) Var b = 2 (X
X tX )1 .
SCReg
iii) Si CMReg = p
entonces
1 1 1
E(CMReg) = Y tHY ) = tX tX + 2
E(SCReg) = E(Y
p p p
SCE
iv) Si CME = np
entonces
1
E(CME) = E Y t (II H )Y
Y
np
1
= X + e )t (II H )(X
E (X X + e )
np
1 t t
E(CME) = X + e t )(II H )(X
E ( X + e )
np
1 t t
= X + E[eet (II H )ee]
X (II H )X
np
2 tr(II H )
= = 2
np
5.1.2. Mtodo de mxima verosimilitud
Si ahora en el modelo (5.1) se supone que e N(0, 2I ), entonces Y

X, 2I ). El mtodo consiste en hallar dentro del espacio paramtrico p un
X
N(X
valor de tal que maximice la funcin de verosilimitud
, 2 ) =f (Y
L( Y , , 2)
!2
n p
Y 1 1 X
= exp 2 yi xij j
i=1
2 2 j=1

1 1 2
= n exp kYY X
Xk (5.3)
(2)n/2 2
Al tomar el logaritmo natural (ln) en la expresin anterior se obtiene
n n 1
, 2 ) = ln(2) ln 2
ln L( Xk2
Y X
kY
2 2 2
Para encontrar el mximo, se hacen las respectivas derivadas y se iguala a cero, es
decir:
, 2)
ln L( 1 1 2
= 2 Y X
kY Xk n = 0
2 2 2
entonces
1
2
1
b2 = Y X b = Q b
(5.4)
n n
y por otro lado
, 2)
ln L( 1
X tY + 2X
= 2 2X X tX = 0

2
Por tanto
X tX =X
X tY
b =(X
X tX )1X tY
Al valor Yb = X b se le conoce como el valor de prediccin. Yb = X (X

X tX )1 X tY =
HY siendo H = X (X X tX )1 X t conocida como matriz Hat (Tukey 1977) o tambin
conocida como la matriz que transforma a Y en Yb .
Observacin 5.1. H 2 = H , H t = H y adems

h 1 t i
t
H ) = tr X X X
r(H X = tr(II p ) = p
Observacin 5.2. Al vector de las diferencias entre Y y Yb se conoce como vector

de residuales
e = Y Yb = (II H )Y
b Y (5.5)

Se tiene que Q b = b e tb
e y se conoce como suma de cuadrados de los residuales o
e N (0, 2 (II H )).
errores. Se verifica que b
X tX ).
X ) = r(X
Teorema 5.1. r(X
Demostracin. Como X np y X tX entonces las filas de X n , y las filas de X tX

p ya que una fila de X tX es una combinacin lineal de las filas de X , entonces

X ) F X tX r(X
F(X X tX ) r(X
X)
X ) es el espacio fila de la matriz X .

en donde F(X
Por otro lado, si F (X

X ) F (X
X tX ) entonces se completa la prueba. Sea t
F (X
X tX ) si y solo si
Xtk2 = 0 Xt = 0 t F (X
X tXt = 0 t tX tXt = 0 kXt
Xt X)
X tX ). Por lo tanto, r(X

X ) r(X
Por consiguiente, r(X X tX ) = r(X
X ), y ms generalmente,
X ) = F (X t
X X ).
F(X
Unicidad de los Estimadores
Bajo rango completo b y 2 obtenidos en (5.2) y (5.4), respectivamente, son

X ) = m < p, es decir no es
nicos. Sin embargo, existen infinidad de soluciones si r(X
de rango completo. En este ltimo caso se debe tener en cuenta el siguiente resultado:
Resultado 5.1. Para , cualquier solucin de las EN, entonces X tX 1 = X tX 2 ,

es decir X tX ( 1 2 )t X tX (
1 2 ) = 0 entonces ( 1 2 ) = 0. Por lo tanto,
2
1 2 )k = 0 y finalmente X 1 = X 2 .
X (
kX
Los estimadores b y 2 satisfacen el siguiente teorema.
Teorema 5.2. Para el modelo lineal Y = X + e donde e N (0, 2I ) y X np de

rango p, los estimadores insesgados de mnima varianza (EIMV ) de y 2 son:
b = (X
X tX )1X tY
y
1 1 t
s = 2
Q b = b
ebe
np np
y se distribuyen independientemente como

b N 0, 2 (X
X tX )1
Adems se satisface que

2 2
s2
n p (np)
Corolario 5.1. El vector de valores de prediccin y el valor de residuales se distri-
buyen independientemente como

Yb N XX, 2H
y
e N 0, 2 (II H )
b
Demostracin. Sea
Yb H
BY = = Y
b
e I H
Se observa que

H HX X
BX = X = =
I H (II H ) X 0
Adems
t H 0
BB =
0 I H

Luego Cov Yb b
e
, = 0.
5.1.3. Mnimos cuadrados ponderados (MCP)
En muchos estudios de regresin no existe igualdad en la varianza de las ob-

servaciones en el modelo (5.1), es decir Var(ee) 6= 2I . Por lo tanto, E(ee) = 0 y
Var(ee) = V 2 , y si adems, e N(0, 2V ), con V matriz definida positiva, entonces
existe una matriz P tal que P P t = V .
Sea U = P 1e tal que E(UU ) = 0, entonces

Var(U UU t ) = E P 1ee t (P
U ) = E(UU P 1 )t
= P 1 Var(ee)(P
P 1 )t 2
= P 1V P 1 2 = P 1P P t (P
P t )1 2
= 2I
Luego U N(0, 2I ), si al modelo (5.1) se le premultiplica por P 1 , se obtiene
P 1Y =P
P 1X + P 1e
W + U
Z =W
donde Z = P 1Y , W = P 1X . Adems, E(U U ) = 2I . Por consiguiente,

U ) = 0 y Var(U
U tU =eetV 1e = (Y X)tV 1 (Y
Y X Y X
X)
t
=(ZZ W ) (ZZ W )
=ZZ tZ 2
tW tZ + tW tW
De este modo, se llega a las ecuaciones normales
U tU
U
W tZ + 2W
= 2W W tW = 0

W tW b =W
W tZ
o en forma equivalente
X tP 1P 1X b =X
X tP 1P 1Y
X tV 1X b =X
X tV 1Y
de donde se sigue que

1
b = X tV 1X X tV 1Y (5.6)
Observe que el estimador presentado en (5.6) tiene media y varianza, respectiva-

mente,
1 t 1
E b = X tV 1X X V X =
1 t 1 1 2
Var b = X tV 1X X V V V 1X X tV 1X
1 2
= X tV 1X
Por consiguiente, se puede realizar la siguiente descomposicin

t
b W tZ + Z t (II H W )Z
Z tZ = Z
1 1 t 1
Y tV 1Y =YY tV 1X X tV 1X X tV 1Y + Y tV 1 [II X X tV 1X X V ]YY
SCT otal =SCReg + SCE
t
W tW )1W t , SCT otal = Z tZ , SCReg = b W tZ y SCE = Z t (II
donde H W = W (W
Z.
H W )Z
Observacin 5.3. Los residuales son R = (II H W )P P 1Y . Una aplicacin de

MCP ocurre cuando las observaciones son independientes pero V 2 = diag (i2 ),
i = 1, . . . , n, donde algunas observaciones pueden tener igual varianza.
5.2. MEDIDA DE BONDAD DE AJUSTE: COEFICIENTE DE DETERMINACIN63
5.2. Medida de bondad de ajuste: coeficiente de de-

terminacin
En esta seccin, se mostrar el desarrollo algebraico del coeficiente de determi-

nacin (R2 ) y sus falencias. En el modelo de regresin lineal mltiple Y = X + e ,
Y se puede escribir como: Y = Y Yb + Yb = Yb + (Y Y Yb ) = Yb + b
e . Entonces,
t t
Y tY = (Yb + b
e )t (Yb + b
e ) = Yb Yb + 2Yb b e tb
e +b e (5.7)
t
A continuacin se probara que Yb b
e = 0.
e = Y Yb = Y X b = Y X (X
b X tX )1X tY = (II X (X
X tX )1X t )Y
Y
t t
As, Yb b X b)t (II X (X
e = (X Y = b X t (II X (X
X tX )1X t )Y X tX )1X t )Y
Y = 0.
t b tYb + b t t
Pn 2 b t b Pn 2
Retornando
Pn 2 (5.7), Y Y = Y e b
e , pero Y Y = i=1 y i , Y Y = bi y
i=1 y
t
b
ebe = i=1 bei .
De lo anterior,
n
X n
X n
X
yi2 = ybi2 + e 2i
b (5.8)
i=1 i=1 i=1
Luego, se tiene que Yb = X b = X (X

X tX )1X tY y multiplicando por X t a lado y
lado se tiene X tYb = X tY .
As (5.8) se transforma en
n
X n
X n
X
yi2 ny 2 = ybi2 ny 2 + eb2i
i=1 i=1 i=1
n
X n
X n
X
(yi y)2 = yi y)2 +
(b eb2i (5.9)
i=1 i=1 i=1
P
Dividiendo (5.9) por ni=1 (yi y)2 se tiene que:
Pn Pn 2
yi y)2
(b SCRegCM b
e
2
R = Pn i=1
2
= = 1 Pn i=1 i 2 (5.10)
i=1 (yi y) SCTCM i=1 (yi y)
Pn P n
donde SCRegCM = i=1 (b yi y)2 y SCECM = i=1 (yi y)2 .
El coeficiente de determinacin presenta gran debilidad en el momento de ser

usado para comparar la bondad de ajuste de dos o ms modelos, en particular cuando
uno de los modelos posee todas las variables independientes del otro y ms, pues el
R2 crece a medida que se introducen nuevas variables predictoras en el modelo, no
importando si la variable aporta nueva informacin en la explicacin de la variable
yi .
Por lo anterior, algunos autores proponen R2 alternos que penalizan la entrada

de nuevas variables en el modelo. Una de las propuestas es:
2 CME n1
Rajus =1 =1 1 R2
CMT n (k + 1)
donde p = k + 1 es el nmero de parmetros (o variables predictoras en el modelo).
5.3. Propiedades de los estimadores bajo normali-

dad
i) En el modelo (5.1) si suponemos que e N(0, 2I ), entonces b =
X tX )1X tY = BY con r(B
(X B ) = mn{n, p}, entonces por propiedades vis-
tas en secciones anteriores (sobre normal multivariada) entonces BY
B, BB t 2 ) con
B
N(B
B = BX =
BB t = (X
X tX )1X tX (X
X tX )1 = (X
X tX )1
entonces b N( X tX )1 2 ).
, (X
ii)
SCE 1
2
= 2 Y t (II H )Y
Y 2(np)

1 t t
X (II H )X
X
X)
2 2
5.3. PROPIEDADES DE LOS ESTIMADORES BAJO NORMALIDAD 65
Claramente tX t (II H )X
X = 0, entonces
SCE
2(np) = ( np ,2)
2 2
Luego
SCE = Y t (II H )Y
Y ( np ,22 )
2
iii) b = BY y SCE = Y t (II H )Y

Y = Y tAY son independientes. Claramente
X tX )1X t (II H ) = 0
B = X (X
1
iv) 2
SCReg 2p, 1 tX tX .
( 22 )
v) Los estimadores de MCO o MV del modelo (5.1), son de varianza mnima (sa-
tisfacen el teorema de Gauss Markov, Khuri (2009)). Si c t es una funcin lineal
de con c el vector de constantes distinto de cero. Si e N(0, 2I ), entonces
c tb (soluciones de MCO) tiene la menor varianza entre todos los estimadores
insesgados.
Demostracin. Siguiendo a Khuri (2009), c tb = c t (X

X tX )1X tY se tiene una
combinacin lineal de Y , tal que

E c = c E b = c t
tb t
Entonces c tb es insesgado.
Sea tY otro estimador lineal insesgado para c t , es decir, E(tY ) = c t en-
tonces tX = c t , de donde se sigue que tX = c t . La varianza de tY es
tY ) = t 2
Var(
y la
Var c tb = 2c t (X
X tX )1c ,

como c t = tX entonces Var c tb = 2 tX (X X tX )1X t . Haciendo las dife-
rencias de varianzas, es decir
tY ) Var(cct ) =
Var( t 2 2 tX (X
X tX )1X t
2 t (II H )
0 (5.11)
Por ser (II H ) idempotente y semi-definida positiva, entonces

Var c tb Var(
tY )

La igualdad en (5.11) se logra si y slo si c t = tY y Var(tY ) = Var c tb
= 0 o equivalentemente t = tH . Luego
en (5.11). Si (II H )
X tX )1X tY = c tb
tY = tHY = tX (X
vi) Como R = e = (II H )Y

Y , entonces
E(eee) =(II H ) E(Y Y)

=(II H )X
X = 0
Var(eee) =(II H ) 2
y entonces e N(0, (II H ) 2 ).
5.4. Prueba de hiptesis
Inicialmente se considera la prueba de hiptesis general
H0 : 1 = = k = 0 vs Ha : al menos un j 6= 0, j = 1, ..., k
o equivalentemente
H0 : = 0 vs Ha : 6= 0 ; 2 > 0 (5.12)
Bajo H0 en (5.12) se tiene una familia de distribuciones, una para cada valor de
2 , para llevar a cabo el desarrollo de la prueba, se parte de la funcin de verosimilitud
dada en (5.3). La prueba de hiptesis, se har utilizando la razn de verosimilitud
5.4. PRUEBA DE HIPTESIS 67
generalizada
Y , , 2 )
Sup L (Y
=0
H0 :
=
Y , , 2 )
Sup L (Y

h i
1 1
n/2 exp 2
2H
Y tY
(2H2 0 ) 0
= h i (5.13)
1 1 t
(22 )n/2
exp 22 (Y Y X
) (Y
Y X
)
2
donde H 0
= n1 Y tY entonces nH2
0
= Y tY y
1 h 1 t i
2 = Y t I X X tX X Y
n
1 t
n 2 =YY tY Y tX X tX XY (5.14)
Al hacer los reemplazos respectivos en (5.13) se llega a que

1
= 2 n/2
H0
2
por lo que
1
2/n = 2 (5.15)
H0
2
Se observa en (5.14) que n 2 = nH 2

0
Y tX (XX tX )1 X tY , y finalmente,
2 2 t t
1 t
nH 0
= n + Y X X X XY
Al sustituir en (5.13), se tiene que
1
2/n =
X tX )1X tY
tX (X
1+ Y n2
SCE
Adems, al reemplazar por el estimador mximo verosmil de 2 = n
entonces
1
2/n = (5.16)
X t X )1 X t Y
Y t X (X
1+ SCE
1
2/n Y tX (X tX ) X tY
Observacin 5.4. i) es pequea si SCE
es grande.
ii) En (5.16) se tiene una funcin montona, este hecho, permite utilizar a
1
Y tX (X tX ) X tY
SCE
para llevar a cabo la prueba de hiptesis en (5.12).
Aplicando los resultados dados en el captulo sobre distribuciones se tiene que

1 t t
1 t
2
Y X X X X Y 2
(p,)

1 t t
con = 2
X X
X, adems se ha comprobado que
1
2
SCE 2(np)

h i
X tX )1 X t I (X
y se demuestro que X (X X tX )1 X t = 0. De esta manera, entonces
el cociente
(n p) Y tX (XX tX )1 X tY
F = F(p,np,) (5.17)
Y t I X (X
pY X tX )1 X t Y
El valor de la F en (5.17) se distribuye como una F central si y solo si H0 en (5.12)
es cierta.
5.5. Modelo de regresin con restriccin
Hasta ahora se ha pensado que toda la informacin de importancia esta contenida

, 2 ) = ln L(
en Y , X 1 , X 2 , ..., X k , y por ende en la funcin de verosimilitud l( , 2 ),
pero existe otra fuente de informacin sobre el fenmeno.
, 2 ) contiene toda informacin experimental, pero no se puede

La funcin l(
olvidar los conocimientos y la experiencia de un experto o del investigador en el
tema de trabajo. Por ejemplo, en la estimacin de la funcin log-lineal de produccin
Yi = 0 + 1 Xi1 + 2 Xik + ei , sea Xi1 el logaritmo del capital y Xi2 es el logaritmo
de la mano de obra, es posible pensar que se esta trabajando bajo la condicin de
retornos constantes, esto es 1 + 2 = 1. Lo que se ha introducido es una restriccin
al modelo.
5.5. MODELO DE REGRESIN CON RESTRICCIN 69
Otras causas para imponer restricciones en los parmetros es el hecho de que estos
no pueden tomar cualquier valor. Como sta, se pueden imponer otras condiciones
(restricciones) lineales que en general se pueden plantear de la forma:
A = m (5.18)
donde A y m son matrices y vectores de constantes conocidas, respectivamente, de

orden q (k + 1) y q 1, respectivamente, con rango de la matriz q (< k + 1). En
la restriccin de retornos constantes la matriz A = (0 1 1) y m = 1.
Un segundo ejemplo es dado el modelo: Yi = 0 +1 Xi1 +2 Xi2 +3 Xi3 +ei , donde

Yi es el logaritmo del ingreso laboral, Xi1 es la escolaridad, Xi2 es la experiencia, Xi3
es el logaritmo del ingreso medio de los padres y la poblacin de estudio son las
personas con 9 grado de escolaridad o ms. Para el ajuste de este modelo es factible
suponer que 1 , 2 , 3 , son positivos y se desea imponer las siguientes restricciones
0 = 616000 (SMLV ), y 1 + 2 + 3 = 1, restricciones que dicen el salario ms bajo
es el mnimo legal y que se puede descomponer el crecimiento del ingreso laboral
en trminos de la educacin, la experiencia y la base familiar (medida a travs de
ingreso de los padres).
La matriz
1 0 0 0
A=
0 1 1 1
y el vector
616000
m=
1
La pregunta es cmo combinar la informacin del modelo con la informacin en

(5.18). Recordando los criterios de de maxima verosimilitud y de MCO, los cuales
tienen como objetivo comn minimizar la expresin:
S = (Y X)t (Y
Y X Y X
X)
m = 0.
pero ahora se sujeta a la restriccin dada en (5.18), que es equivalente a A m
Este problema se puede solucionar va multiplicadores de Lagrange. De lo ante-

rior, se tiene que la funcin lagrangiana es:
L = (Y X)t (Y
Y X Y X t (A
X) 2 A m )
donde es un vector de tamao q 1, el 2 es simplemente un artificio para hacer

ms fcil la manipulacin algebraica. Derivando se obtiene:
L
i. X tY + 2X
= 2X X tX 2A
At (5.19)

L
ii. A m )
= 2(A (5.20)

Igualando a cero se obtiene br , es decir el estimador de restringido. De (5.19)

se encuentra X tX br = X tY + A t , si se multiplica esta ltima expresin a lado y
X tX )1 , se obtiene que:
lado por (X
br =(XX tX )1 (X
X tY + A t ) = (X
X tX )1X tY + (X
X tX )1A t
=b + (X
X tX )1A t (5.21)
donde b es el estimador de sin restricciones. De (5.21), se tiene
Abr = m
Multiplicando (5.21) por la matriz A se llega a:
Abr = Ab + A (X
X tX )1A t =m
m
1
X tX )1A t
= A (X m Ab)
(m
Reemplazando en (5.21) se tiene que el estimador de mximo verosmil o MCO

restringido es:
1
br = b + (X
X tX )1A t A (X
X tX )1A t m Ab)
(m (5.22)
Algunas propiedades de br son
i. Es insesgado, es decir
1
E(br ) = E(b) + (X
X tX )1A t A (X
X tX )1A t m A E(b)) =
(m
5.5. MODELO DE REGRESIN CON RESTRICCIN 71
ii. Su matriz de varianza-covarianza esta dada por:

n 1 o t 1
Var(br ) = 2 I (X
X tX )1A t A (X
X tX )1A t X X)
A (X
Sin embargo, si la restriccin A = m no se cumple en la naturaleza, se tiene:
a. El estimador br no es insesgado.
b. Su matriz de varianza es desconocida.
c. Y por los puntos anteriores, toda inferencia sobre los parmetros y predicciones
es incorrecta.
5.5.1. Hiptesis de la forma A = m
Teniendo en cuenta la solucin de MCO o de mxima verosimilitud para ,

Ab m N(A X tX )1A t 2 )
A m ; A (X
Por lo tanto, la hiptesis H0 : A = m tiene como estadstico

t
Ab m [A Ab m
1
X tX )1A t ]
A(X

F = F(q,nk1,)
qCME
1 1
donde = 22
A
(A m)t [A X tX )1A]
A(X A m)
(A
Observe que
n 1 o
E (A Ab m )t A (X
X tX )1A t Ab m ) =
(A
1 n 1 o
A m )t A (X
(A X tX )1A t A m ) + tr A (X
(A X tX )1A t X tX )1A t 2
A (X
1
A m )t A (X
= (A X tX )1A t A m ) + q 2
(A
Por lo tanto, 1
A m )t A (X
(A X tX )1A t A m ) > 0
(A
X tX )1A t es definida positiva. Luego valores grandes de F conllevan a rechazar
y A (X
H0 : A = m .
5.6. Intervalos y regiones de confianza
5.6.1. Regiones de confianza A
En general el problema se puede plantear con una matriz general A qx(k+1) , con
A) = q, es decir, se desea una regin de confianza (un subconjunto
q (k + 1) y r(A
A
de q ) donde se mueven las combinaciones lineales de los parmetros. Sea

a00 a01 . . . a0k
a10 a11 . . . a1k

A = .. .. . . ..
. . . .
aq0 aq1 . . . aqk
b N(A
Se tiene que A A, 2A(X
A X tX )1At ) y
t
Ab A [A A(X At ]1 Ab A
X tX )A
L1 = 2q
2
Ahora si se divide dos variables aleatorias chi cuadrado se tiene una variable
L1 /q
aleatoria F ; utilizando esto, se puede dividir SCE/[n(k+1)] obteniendo:
Ab R
(A R)t [A X tX )A
A(X Ab A
At ]1 (A A)
F(q,n(k+1))
qCME
SCE
donde CME = nk1
.
Entonces si se desea una regin de confianza con una confiabilidad de (1 ),

esta ser
Ab A
(A A)t [A X tX )A
A(X Ab A
At ]1 (A A)
F(q,n(k+1),1) (5.23)
qCME
5.6.2. Intervalos de confianza para c t
Sea c t una combinacin lineal como en (5.1) bajo el supuesto de normalidad

c t
N c t , 2c t (X
X tX )1c
5.6. INTERVALOS Y REGIONES DE CONFIANZA 73
c t
cct
Se tiene adems que t(nk1) , por lo que un intervalo de confianza
CM Ecct (X
X tX )1c
para estimar a c t es
h p p i
P c t X tX )1c c t c t + t(nk1,/2) CMEcc t (X
t(nk1,/2) CMEcc t (X X tX )1c
=1
5.6.3. Intervalos de confianza para los parmetros del modelo
Teniendo en cuenta (5.1) y bajo el supuesto que Y N(X X, 2I ), y que b

X
X tX )1 2 ), entonces bj N(j ; cjj 2 ) y el cociente
, (X
N(
bj j

cjj
q t(nk1) , j = 1, ..., k
1 SCE
nk1
y tambin

b b
b cjj < j < j + t(nk1,/2)
P j t(nk1,/2) b cjj = 1
Ejemplo 5.1. En la Tabla 5.1 aparecen los datos de variables artificialmente creadas.
El modelo ajustado es yi = 0 + 1 x1i + 2 x2i + 3 x3i + ei .
Tabla 5.1: Datos simulados

Obs X1 X2 X3 Y Obs X1 X2 X3 Y
1 0.95 4.78 0.04 6.1858 14 0.57 7.44 1.95 7.2817
2 2.26 2.83 2.10 5.1478 15 2.30 0.38 3.71 1.9516
3 2.47 9.59 3.28 11.6616 16 1.92 8.37 3.19 9.6490
4 2.89 4.32 4.10 6.6394 17 0.19 2.07 2.67 1.0673
5 2.24 6.80 2.45 8.8855 18 0.53 5.17 1.39 5.1704
6 1.64 8.87 1.14 10.7539 19 0.09 4.95 3.01 3.6217
7 0.91 4.66 0.95 5.5284 20 1.89 9.44 1.69 11.4263
8 1.23 2.86 4.93 2.2242 21 1.30 6.75 3.51 6.8980
9 1.43 4.74 4.18 4.8380 22 2.16 9.05 3.60 10.4338
10 2.86 8.98 2.05 12.2698 23 0.06 9.12 2.16 8.1362
11 0.91 0.87 1.49 1.4665 24 0.61 1.61 4.86 0.0577
12 0.79 9.28 1.89 9.5388 25 1.34 7.57 0.25 9.4958
13 2.48 9.54 0.78 12.8752
La Tabla 5.2 presenta el anlisis de varianza. El objetivo de ste es verificar la

hiptesis de linealidad del modelo, es decir, H0 : 1 = 2 = 3 = 0 contra Ha : j 6= 0
para algn j = 1, 2, 3. De acuerdo a esta tabla, la hiptesis nula no se rechaza usando
la regla sobre el valor de p (0.0001). Adems de acuerdo a la Tabla 5.3, todos los
parmetros son estadsticamente diferentes de cero al 5 % de significancia (valores
p = 0.0001).
Tabla 5.2: Anlisis de varianza

Causa GL Suma de Cuadrados Cuadrado medio F Prob> F
Model 3 324.09239 114.03080 77108.792 0.0001
Error 21 0.03106 0.00148
Total 24 342.12345
Root MSE 0.03846 R-square 0.9999

Dep Mean 8.92817 Adj R-sq 0.9999
C.V. 0.43072
Tabla 5.3: Parmetros estimados

Parmetro Error t
Variable DF Estimado Estndar Parmetro=0 Prob > |t|
Inter 1 1.980 0.0272 72.692 0.0001
X1 1 1.501 0.0095 157.443 0.0001
X2 1 1.002 0.0029 347.198 0.0001
X3 1 -0.499 0.0062 -79.830 0.0001
Se tiene que = (0 , 1 , 2 , 3 )t , si se desea realizar un intervalo de confianza

para 2 la matriz c t = (0, 0, 1, 0), entonces
p
b2 t(254,0.975)
b c t (X
X tX )1c
donde,
0.502 0.034 0.037 0.079
0.034 0.061 0.006 0.009
X tX )1
(X =
0.037 0.006

0.006 0.004
0.097 0.009 0.004 0.026
De esta el intervalo de confianza ser:
1.0015 2.08(0.0385)(0.0775) = (0.9953, 1.0077)

5.6. INTERVALOS Y REGIONES DE CONFIANZA 75
Y una regin de confianza para 1 y 3 , usando la ecuacin (5.23), donde la

matriz

0 1 0 0 t t
A= , A = 1 3 , Ab = 1.5013 0.4987 ,
0 0 0 1

t 1 t 0.061 0.009 1 17.06 5.62
X X) A =
A (X X tX )1A t
y A (X =
0.009 0.026 5.62 39.74
Usando la ecuacin (5.23), se obtiene
Ab A
(A A)t [A X tX )A
A(X Ab A
At ]1 (A A)
2
F(2,21,0.95)
2
17.06(1.5013 1 )2 2(5.62)(1.5013 1 )(0.4987 + 3 ) + 39.74(0.4987 + 3 )2
3.49
2(0.0385)2
17.0612 + 39.7432 + 11.2413 45.621 + 22.763 + 39.91 0
En la Figura 5.1 se presenta la elipse rotada y trasladada del origen correspon-

diente a la regin de confianza del 95 % para los parmetros conjuntos 1 y 3 .
0.485
0.490
0.495
3
0.500
0.505
0.510
0.515
1.48 1.49 1.50 1.51 1.52
Figura 5.1: Regin de confianza del 95 % para 1 y 3

5.7. Prediccin de nuevas observaciones
5.7.1. Prediccin de una nueva observacin
Si se necesita realizar prediccin (o estimacin) usando el modelo de regresin

lineal simple, basta conocer xp y aplicar la siguiente ecuacin
ybp = b0 + b1 xp
Para obtener una prediccin o estimacin de yp , donde p indica el perodo para

el cual se desea calcular el valor. Las bondades de esta prediccin son:
i)
h i
E(yp yp ) = E b0 + b1 xp (0 + 1 xp + ep )
= E(b0 ) + E(b1 )xp 0 1 xp E(ep )
=0 + 1 xp 0 1 xp E(ep ) = E(ep ) = 0
As la prediccin apunta en valor esperado al verdadero valor, es decir, la

prediccin es insesgada.
ii)
2
2 b b
Var(yp ) = E (yp yp ) = E 0 + 1 xp 0 1 xp ep
h i2
b b
= E (0 0 ) + (1 1 )xp ep
h i
= E(b0 0 )2 + E(b1 1 )2 x2p + E(e2p ) + 2 E (b0 0 )(b1 1 ) xp
h i h i
2 E (b0 0 )ep + 2 E (b1 1 )ep xp
= Var(b0 ) + Var(b1 )x2p + 2 + 2 Cov(b0 , b1 )xp
5.7. PREDICCIN DE NUEVAS OBSERVACIONES 77
Recordando:
1 2
+ Sxxx Sxxx
Var(b) = 2 n
Sxxx 1
Sxx
Pn
donde Sxx = i=1 (xi x)2 .
Reemplazando por esta expresin, se obtiene finalmente que:

2
2 1 (xp x)2
Var(yp ) = E (b
yp yp ) = 1+ +
n Sxx
5.7.2. Prediccin de un vector de observaciones
Pensar en tener predicciones para el siguiente ao, o el siguiente mes, o para

un individuo fuera del rango de estudio es comn, pero en varios casos se necesita
predecir el comportamiento de la variable de inters para los siguientes doce meses,
o los siguientes cinco aos, o para un grupo de individuos. Un camino es realizar
la prediccin para cada uno por separado, usando la tcnica que vista en la seccin
5.7.1. En esta seccin se introducir la forma de realizar prediccin de varios aos,
meses o individuos de forma simultanea, haciendo uso de matrices.
Se tiene un conjunto de valores para las variables independientes, para los cuales
se desconoce el valor de Y 0 . Sea

1 x011 . . . x01k
1 x0 . . . x0
21 2k
X 0 = .. .. . . ..
. . . .
1 x0p1 . . . x0pk
Estimado b se puede pensar en predecir Yb 0 = (y1 , y2, ..., yp )t mediante la ecuacin:
Yb 0 = X 0b (5.24)
Las propiedades de la prediccin dada en (5.24) son:

X 0b X 0 e 0 ) = E(X
E(Yb 0 Y 0 ) = E(X X 0b) E(X
X 0 ) E(ee0 )
X 0 E(b) X 0 = 0
=X
es decir, la prediccin obtenida es insesgada.
t h ih it
Var(Yb 0 ) = E b b
Y 0 Y 0 Y 0 Y 0 b
= E X 0 e0 X 0 e0 b
t h i
X 0 E b b
=X X t0 + E(ee0e t0 ) X 0 E b e t0
t
E e 0 b X t0 = 2X 0 (XX tX )1X t0 + 2I p = P
donde P tiene la siguiente forma:

P11 P12 . . . P1p
P12 P22 . . . P2p

P = . .. .. .
.. . . ..
P1p P2p . . . Ppp
Adems, cada prediccin tiene distribucin normal, es decir, ybi N(yi , Pii ), per-
mitiendo esto ltimo realizar estimaciones por intervalo para las predicciones de
inters.
5.8. Ejercicios
1. Para el modelo de regresin lineal simple, se va a suponer que (yi , xi ), i =
1, . . . , t
a) Determine el producto 1 x .
b) Suponga que wi = xi x, con la media muestral x la media muestral de los
xi s. Considere el modelo E(yi ) = 0 + 1 wi , relacione los coeficientes para
0 y 1 en el modelo yi = 0 + 1 xi + ei
5.8. EJERCICIOS 79
c) Obtenga 1 tw .
d) Suponga que las variables de entrada son igualmente espaciadas, xi+1 =
xi+c , i = 1, . . . , 5. Encuentre x, y sea wi = xi x, encuentre 1 tw y w tw .
2. Sean X N(1 , 2 ), Y N(2 , 2 ) variables independientes. En muestras de

extensin n1 de X, n2 de Y . Plantear la hiptesis nula H0 : 1 = 2 mediante
el concepto de hiptesis lineal contrastable y deducir el test t de Student de
comparacin de medias como una consecuencia del test F .
3. Una variable Y depende de otra x (variable control no aleatoria) que toma los
valores x1 = 1, x2 = 2, x3 = 3, x4 = 4 de acuerdo con el modelo lineal normal
yi = 0 + 1 xi + 2 x2i + ei . Encontrar la expresin del estadstico F para la
hiptesis H0 : 2 = 0. Estudiar la expresin del estadstico F para contrastar
la hiptesis H0 : 1 = 2 .
4. El desplazamiento Si del isimo objeto al tiempo ti esta dado por la expresin

Si = vti + i , i = 1, 2, . . . , N, N es el nmero de objetos que se someten a igual
velocidad. Asuma que E(i ) = 0, Var(i ) = 2 , encuentre el estimadores de
mnimos cuadrados de la velocidad desconocida v y estime la varianza de este
estimador.
5. Sea Y = X + e con e N(0, 2I ), un vector pdimensional con n = 10 y

p = 3. Se conoce adems que Y tY = 58 y se tienen las siguientes ecuaciones
normales
4b1 + 2b2 2b3 = 4

2b1 + 2b2 + b3 = 7
2b1 + b2 + 6b3 = 9
a) Encuentre el estimador de mnimos cuadrados de y 2 .

b) Encuentre los estimadores de 1 2 y 1 3 y sus varianzas (expresadas
en trminos de 2 ).
t
b2 = 200, b = 3 5 2 , Var(
6. Suponga la siguiente informacin: d b1 ) = 28,
d b2 ) = 24, Var(
Var( d b3 ) = 18, Cov(
d b1 , b2 ) = 16, Cov(
d b1 , b3 ) = 14 y
d b3 , b2 ) = 12.
Cov(
a) Muestre que el estadstico F para probar la hiptesis 1 = 2 + 4 = 3 + 7

es uno, en un modelo sin intercepto.
b) Estime el vector de parmetros b, bajo la hiptesis nula dada en a), en el

modelo sin intercepto.
7. Para el modelo Yij = +i+ij con i = 1, . . . , a y j = 1, . . . , r. Si ij N(0, 2 )
a) Encuentre el estimador mximo verosmil para y para .

b = Y 21 (a + 1).
b) Muestre que
c) Lleve a cabo la prueba de la hiptesis H0 : = 0.
8. Se tiene la informacin siguiente acerca de un modelo de regresin mltiple: Y es

la produccin promedio de maz en bushels por acre, X1 es la cantidad de lluvia,
X2 es el promedio diario de horas-tractor en la hacienda y X3 es la cantidad
de fertilizante por acre. La muestra esta constituida por las observaciones de
10 cosechas y los resultados obtenidos fueron los siguientes:
yi = 16 + 75xi1 + 6xi2 + 48xi3 , i = 1, 2, . . . , 10
b2 = 400,
bb0 = 10,
bb1 = 25,
bb2 = 4,
bb3 = 8 y CMTCM = 1600.
a) El modelo global es estadsticamente til para predecir la produccin pro-

medio de maz en bushels por acre?
b) Pruebe la hiptesis de que existe relacin entre cantidad de fertilizante por
acre y la produccin promedio de maz en bushels por acre.
c) Establezca un intervalo de confianza del 95 % para el parmetro 2 . Inter-
prete el resultado.
9. Se utiliza un modelo de regresin mltiple para relacionar y = viscosidad de

un producto qumico con x1 = temperatura y x2 = tiempo de reaccin. El
conjunto de datos contiene n = 15 observaciones.
a) Los coeficientes de regresin estimados son b0 = 300, b1 = 0.85 y b2 = 10.4.

Calcule la estimacin de la viscosidad promedio cuando x1 = 1000 C y x2 = 2
hr.
b) Las sumas de cuadrados son SCT = 1230.5 y SCE = 120.3. Pruebe la
significancia de la regresin al 5 %. Qu conclusiones pueden obtenerse?
c) Qu proporcin de la variabilidad total en la viscosidad est explicada por
las variables que aparecen en este modelo?
5.8. EJERCICIOS 81
d) Suponga que se aade otra variable de regresin al modelo, x3 = velocidad

de agitacin. El nuevo valor de la suma de cuadrados del error es 117.2. La
adicin de una variable ms al modelo da como resultado un valor menor
de CME? Discuta la significancia de este resultado.
e) Calcule un estadstico F para evaluar la contribucin al modelo de x3 en d.
Al 5 %, a qu conclusiones puede llegarse?
10. El modelo
yi = 0 + 1 xi1 + 2 xi2 + 3 xi3 + ei
Se estim por el mtodo de mnimos cuadrados ordinarios a partir de 26 ob-
servaciones. Los resultados fueron
ybi =2 + 3.5xi1 0.7xi2 + 2xi3

(1.9) (3.2) (1.5)
las relaciones t se encuentran entre parntesis y R12 = 0.982. El mismo modelo

se estim con la restriccin 1 = 2 . Los resultados fueron:
ybi =1.5 + 3(xi1 + xi2 ) 0.6xi3

(2.7) (2.4)
con R22 = 0.876.
a) Pruebe la significancia de la restriccin 1 = 2 . Establezca las suposiciones

bajo las cuales es vlida la prueba.
b) Suponga que xi2 se elimina de la ecuacin, aumentar o disminuir el R2 ?

1 1 1
11. La matriz de diseo reducida de un modelo normal es X R = 1 0 1 .
0 1 0
Se sabe adems que: y 1 = 10, y 2 = 12, y 3 = 17, n1 = n2 = n3 = 10, s21 =
1 P
(yi1 y 1 )2 = 2.8, s22 = 4.2 y s23 = 4.0.
n1
a) Hallar la expresin general de las estimaciones MC de los parmetros .
b) Calcular SCE. Estimar la varianza del diseo 2 .
c) Estudiar si la hiptesis nula H0 : 2 = 3 puede ser aceptada.
12. Considere el modelo lineal
yi = 0 + 1 xi1 + + m xim + ei , i = 1, . . . , n.
Sean b0 , b1 , . . . , bm las estimaciones MC de los parmetros y sea
ybi = b0 + b1 xi1 + + bm xim , i = 1, . . . , n.

P
n P
n
Probar que (yi ybi ) = ebi = 0.
i=1 i=1
13. La matriz
de diseo reducida correspondiente a un modelo lineal normal es
1 0 1
X = 1 1 0 . Se sabe adems que: y 1 = 11, y2 = 10, y3 = 15, n1 =
0 1 1
P
n2 = n3 = 10, s21 = n11 (yi1 y 1 )2 = 4.5, s22 = 6.0 y s23 = 4.3. Se pide:
a) Hallar la expresin general de las estimaciones MC de .
b) Calcular SCE Se ajustan los datos al modelo definido por X? (nivel de
significacin del 5 %).
c) Dada la funcin paramtrica estimable = 1 + 2 , contrastar la hiptesis
H0 : = 3, al 5 % de significancia, en los casos:
i. 2 varianza del diseo desconocida.
ii. 2 = 5 varianza del diseo conocida.
d) Hallar la funcin paramtrica estimable tal que b = c1 y 1 + c2 y 2 + c3 y 3
verifica c21 + c22 + c23 = 1 y adems b es mximo.
14. Suponga que se realizan n replicaciones en k diferentes valores de la variable
predictora. Los datos son obtenidos en parejas (yij , xi ), para i = 1, 2, ..., k y
j = 1, 2, ..., n. Sea y i que denota la media de las observaciones en xi .
a) Demuestre que los coeficientes de regresin estimados en los siguientes mo-
delos son idnticos:
yij = 0 + 1 xi + eij y i = 0 + 1 xi + di
Y ) = X
b) Para cada modelo presentado en a) escriba E(Y X, especificando X y
.
c) Compare la suma de cuadrados de los residuales en los dos modelos dados
en a).
5.8. EJERCICIOS 83
d) Cul modelo de los dos modelos dados en a) debera usarse para la infe-
rencia y prediccin?
e) Obtenga la varianza del valor estimado de la media de yi para un nuevo
valor xi , denotado por x .
15. Considere el modelo lineal en el cual se supone normalidad de los yij , con
yij = i + i + eij , i = 1, . . . , a, j = 1, . . . , b. Use los resultados del modelo
particionado y responda las siguientes preguntas:
a) Determine va mximo verosimilitud los estimadores de i , y 2 .
b) Encuentre la media y la varianza de los estimadores encontrados en a) y su
distribucin.
c) Determine el estadstico de prueba para la prueba de hiptesis H0 : = 0.
16. Considere el modelo lineal
yij = i + xij + eij i = 1, . . . , a, j = 1, . . . , n
Use los resultados del modelo particionado y responda las siguientes preguntas:
a) Determine el estimador de i , y 2 .
b) Determine el estadstico de prueba para la hiptesis H0 : = 0.
1 t
1
X 2
17. Para el modelo Y N(XX, I ), considere: H e = N .
At
a) Determine la distribucin de Z = H eY .
b) Usando la distribucin marginal Z 2 = A tY donde A satisface las condicio-
nes:
AtA = I N p y AAt = I X (X
X tX )1X t
Demuestre que el estimador mximo verosmil de 2 basado en la distribu-
cin de Z 2 es insesgado.
18. Pruebe los siguientes resultados para b e en un modelo con intercepto. Cules son
los anlogos en un modelo sin intercepto? Cov(b e , Y ) = (II H e , Yb ) =
H X ) 2 , Cov(b
P P
0, Cov(ee, Yb ) = 2H X , Cov(ee, b) = X (X
X tX )1 2 , ebi Yi = SCE y b ei Ybi = 0.
19. Para el modelo yij = + i + j + eij , i = 1, 2, . . . , k, j = 1, 2, . . . , r. Si
adems Y N(XX, 2I ), encuentre la prueba de mxima verosimilitud para
X
las hiptesis:
a) H0 : 1 = 2 = = k .
b) H0 : 1 = 2 = = r .
20. Sea Y = 0 + 1 X1 + 2 X2 + 3 X3 + 4 X4 + e versus Y = 0 + 1 X1 + e. Enuncie

la hiptesis nula y la alterna, construya una tabla de ANOVA para probar la
hiptesis presentada y calcule la prueba estadstica apropiada e interprete los
resultados de la prueba de hiptesis.
Captulo 6
Estimacin e hiptesis en modelos

particionados
En este captulo se llevan a cabo los desarrollos tericos a partir de los cuales se
llegan a la realizacin de hiptesis para modelos lineales particionados. Considerando
el modelo particionado en dos partes
Y = X 1 1 + X 2 2 + e (6.1)
con 1 de orden p1 1 y 2 de orden (p p1 ) 1. Sea adems, una particin

conformable de X , con estas particiones se tiene el siguiente conjunto de EN
i)
X t1X 1 1 + X t1X 2 2 = X t1Y (6.2)
ii)
X t2X 1 1 + X t2X 2 2 = X t2Y (6.3)
1 = (X
De (6.2), se sigue que X t1X 1 )1 (X
X t1Y X t1X 2 2 ) y al sustituir en (6.3),
se tiene
h 1 t i
t t t
X 2X 1 X 1X 1 X 1Y X 1X 2 2 + X t2X 2 X t2Y
2 =X
1 t 1 t
XX t2X 1 X t1X 1 2 + X t2X 2
X 1X 2 X t2Y X t2X 1 X t1X 1
2 =X X 1Y
85
86CAPTULO 6. ESTIMACIN E HIPTESIS EN MODELOS PARTICIONADOS
h 1 t i h 1 t i
X t2 I X 1 X t1X 1 X 1 X 2 X t2 I X 1 X t1X 1
2 =X X1 Y (6.4)
X t2 [II H 1 ] X 2 X t2 [II H 1 ] Y
2 =X
X t2P 1X 2 X t2P 1Y
2 =X (6.5)
donde
1
P 1 = I X 1 X t1X 1 X t1 = I H 1 (6.6)
Teniendo en cuenta que ee = (II H ) Y , se sigue de (6.5) que P 1Y es el vector de
residuales cuando se ajusta el modelo Y = X 1 1 , en tanto que las columnas de P 1X 2
en (6.5) son los vectores de residuales si se ajustan las columnas de X 2 como vector
de respuestas. En el modelo anterior se observa que
Y ) = P 1X 2 2 = X 2 ,
P 1Y ) = P 1 E(Y
E (P X = P 1X 2
conocido como modelo reducido cuando se ajusta la regresin de los residuales de Y

sobre los residuales de X 2 . La estimacin de 2 para este modelo de residuales se
obtiene a partir de la expresin (6.5), donde.
1
b2 = X t2P 1X 2 X t2P 1Y
y adems, la suma de cuadrados de residuales est dada por

h 1 t i
b t t
SCE 2 = Y P 1 P 1X 2 X 2P 1X 2 X 2P 1 Y (6.7)
X t2P 1X 2 )1 X t2P 1Y son las sumas de cua-

En la ecuacin (6.7), Y tP 1Y y Y tP 1X 2 (X
drados total y las sumas de cuadrados del modelo dado en (6.5), respectivamente.
Teniendo en cuenta (6.1), (6.3) y (6.4) se sigue que

1 h t 1 t i
b1 = X t1X 1 X 1Y X t1X 2 X t2P 1X 2 X 2P 1Y
1 t 1 t 1 t
= X t1X 1 X 1Y X t1X 1 X 1X 2 X t2P 1X 2 X 2P 1Y
1
=e1 X t1X 1 X t1X 2
2
Es claro que e1 es el estimador de 1 para el modelo reducido E(Y

Y ) = X 1 1 .
87
El vector de residuales puede escribirse como

h 1 t i
b b b e t
Y X 1 1 X 1X 1
e = Y X 1 1 X 2 2 =Y X 1X 2 2 X 2b2
b
1 t
Y X 1e1 + X 1 X t1X 1
=Y X 1X 2b2 X 2b2
Y X 1e1 (II H 1 ) X 2b
=Y 2
Y X 1e1 P 1X 2b2 = P 1Y P 1X 2b2

=Y
h 1 t i
= P 1 P 1X 2 X t2P 1X 2 X 2P 1 Y
Comparando este resultado con (6.6) se nota que la suma de cuadrados del residuo
es h 1 t i
SCE b1 , b2 = Y t P 1 P 1X 2 X t2P 1X 2 X 2P 1 Y
que corresponde al modelo (6.5), el cual es idntico a la suma de cuadrados del
residual en el modelo (6.1).
Cuando X t1X 2 = X t2X 1 = 0 y teniendo en cuenta el modelo (6.1), se tiene inters

en plantear ahora el siguiente juego de hiptesis:
H0 : 1 = 0, 2 > 0
Ha : 1 6= 0, 2 > 0
Usando la razn de verosimilitud generalizada se debe encontrar

Y , 1, 2, 2)
Sup L (Y
1 =0
H0 :
= (6.8)
Y , 1, 2 , 2)
Sup L (Y

1 , 2 )t p , 2 > 0, entonces
donde = t = (
1
Sup L = en/2
(2)n/2 ( 2 )n/2
Luego el problema se reduce entonces a encontrar

Sup L Y , 1 , 2 , 2 = Sup L Y , 2 , 2
1 =0
H0 : 1 =0,2 >0
y as bajo H0 : 1 = 0, el modelo (6.1) se reduce al modelo

Y = X 2 2 + e (6.9)
Entonces los estimadores que hacen mxima la funcin en el modelo (6.9) son:
1 t 1
2
b
b2 = X t2X 2 2
X 2Y y H = Y X 2 2
0
n
1
As al sustituir se sigue que Sup L = n/2 en/2 , luego al reemplazar en
H0 (2)n/2 (
bH2
)
0
(6.9) se encuentra que
2
n/2 n/2
2H 0
en/2 ( 2 )
= = n/2
(2 2 )n/2 en/2 2
H 0
Por lo tanto,
1 1
2/n = 2
= 2
(6.10)
H 0
/ 2 nH 0
/n 2
Se verifica que h
2 t t
1 t i
nH 0
= Y I X 2 X X
2 2 X2 Y (6.11)
y adems se sabe que
h 1 t i
n 2 = Y t I X X tX X Y (6.12)
Luego al sustituir (6.12) y (6.11) en (6.10), entonces

1
2/n = h 1
i
t X 2 (X t2X 2 ) X t2 Y
Y I X
Y t [I X X t X )1 X t ]Y
X (X
1
= h 1
i h 1
i h 1
i
X 2 (X t2X 2 ) X t2 Y +Y
Y t I X Y t X (X X 2 (X t2X 2 ) X t2 Y Y
X tX )1X t X X 2 (X t2X 2 ) X t2 Y
X tX )1X t X
Y t X (X
Y t [I X X tX )1X t ]Y
X (X
1
= h 1
i (6.13)
t
Y X (X X 2 (X t2X 2 ) X t2 Y
X tX )1X t X
1+ Y t [I X X tX )1X t ]Y
X (X
Utilizando el hecho que

1 t
X X tX X X =X X
1 . .
X X tX X 1 .. X 2 ) =(X
X t (X X 1 .. X 2 )
89
1
X tX )
Luego X (X X tX 2 = X 2 y en forma similar se muestra que
1 t
X t2X X tX X = X t2 (6.14)
Se verifica adems que

h 1 t 1 t i2 1 t 1 t
t t
X X X X X 2 X 2X 2 X 2 = X X tX X X 2 X t2X 2 X 2 (6.15)
con lo cual se sigue que

h 1 t 1 t i h 1 t i h 1 t i
r X X tX X X 2 X t2X 2 X 2 = tr X X tX X tr X 2 X t2X 2 X2
=p p2 = p1
De tal forma que

1 th t
1 t t
1 t i
2
Y X XX X X 2 X 2X 2 X 2 Y 2
(p1 ,)

donde el parmetro de no centralidad es
h
1 t .. t t t
1 t t
1 t i 1
= 2 1 . 2 X X X X X X 2 X 2X 2 X2 X
2 2
Teniendo en cuenta (6.14) y (6.15) se sigue que

1 h 1 t i
= 2 t1X t1 I X 2 X t2X 2 X 2 X 1 1
2
Por otro lado, se sabe que

SCE 1 th t
1 t i
= Y I X X X X Y 2(np)
2 2
Adems
h 1 t i h 1 t 1 t i
I X X tX X X X tX X X 2 X t2X 2 X2 = 0
y volviendo a (6.13), entonces 2/n para llevar a cabo la prueba de hiptesis es

pequea si h i
t t 1 t t 1 t
Y X (X X X ) X X 2 (X X 2X 2 ) X 2 Y

X tX )1 X t Y
Y t I X (X
es grande. Por consiguiente, 2/n es montona, pudiendo as emplearse la razn de

formas cuadrticas para probar la hiptesis H0 : 1 = 0 y as
h i
X tX )1 X t X 2 (X
Y t X (X
(n p)Y X t2X 2 )1 X t2 Y
1 F(p 1 ,np,) (6.16)
t
p1Y I X (X t
X X) X Y t
con = 0 si y solo si H0 es cierta. La estadstica (6.16) es la que se utiliza en el

anlisis de varianza.
6.1. Polinomios ortogonales
Sea el modelo dado en (6.1), se dice que 1 es ortogonal a 2 si y solo si X t1X 2 =

0. Este problema de ortogonalidad tiene una relacin estrecha con las pruebas de
hiptesis que se hacen sobre el conjunto de parmetros, as se obtiene la Tabla 6.1.
Tabla 6.1: Anlisis de varianza para el modelo (6.1)

C de V gl SC
R() p Y tX (X X tX )1 X tY
2)
R( p2 Y tX X t2X 2 )1 X t2Y
h 2 (X i
t t 1 t t 1 t
1 | 2)
R( p1 Y X (X X X ) X X 2 (X X 2X 2 ) X 2 Y
h i
Error n p Y t I X (X X tX )1 X t Y
T otal n Y tY
Se sigue que en el caso de ortogonalidad la hiptesis H0 : 1 = 0, 2 > 0 se

prueba con
(n p) R ( 1 /
2)
F(p 1 ,np,)
p1 SCE
h i
X t2X 2 )1 X t2X 1 1 . Sin embargo, si se desea llevar
donde = 21 2 t1 X t1X 1 X t1X 2 (X
a cabo la hiptesis H0 : 2 = 0 y hay ortogonalidad, no es necesario construir otra
tabla de ANOVA puesto que
1 t 1 t 1 t
X X tX X = X 1 X t1X 1 X 1 + X 2 X t2X 2 X2
2 /
y entonces R ( 1 ) = R (
) R (
1 ).
6.1. POLINOMIOS ORTOGONALES 91
1 /
Observacin 6.1. Si 1 es ortogonal a 2 se satisface que R ( 2 ) = R (
1) y
2 /
R ( 1 ) = R (
2 ).
Ejemplo 6.1. Suponga el modelo
Yi = 0 + Xi 1 + ei

n P0 1 t 2
X tX
La matriz X X = 2 , R(0 ) = n Y JY = nY . Por otro lado, R (1 /0 ) =
0 Xi
1 P 2
P 2
t X X ) X Y = P X 2 ( Xi Yi )2 y R(0 , 1 ) = nY + ( PXXi Y2i ) .
Y X (X t t 1
i i
La idea anterior puede extenderse al modelo polinomial
Yi = 0 + 1 X1 + 2 X22 + + k Xkk + ei (6.17)
Para efectos de este curso los valores de X sern igualmente espaciados (Xi =
a + ih). El modelo (6.17) puede reemplazarse por
Yi = 0 + P0 (Xi ) + 1 P1 (Xi ) + + k Pk (Xi ) + ei (6.18)
donde los Pr (X)s (r = 1, ..., k) son coeficientes que se calculan para obtener polino-
mios ortogonales. Estos deben satisfacer
P
i) Pr (Xi ) = 0.
P
ii) Pr (Xi )Pr (Xi ) = 0, r 6= r .
Si se supone que X = {1, 2, 3, 4, 5}, entonces
P0 (Xi ) P1 (Xi )
1 a+b
1 a + 2b
1 a + 3b
1 a + 4b
1 a + 5b
P
i) P1 (Xi ) = 5a + 15b = 0.
P
ii) P0 (Xi )P1 (Xi ) = 5a + 15b = 0.
La solucin puede ser a = 1 y b = 1/3, que al sustituir se tiene
Xi P0 (Xi ) P1 (Xi ) P1 (Xi )

1 1 2/3 2
2 1 1/3 1
3 1 0 0
4 1 -1/3 -1
5 1 2/3 -2
Tomando ahora P2 (Xi ) = c + dXi + eXi2 , entonces:
P2 (Xi )
c+d+e
c + 2d + 4e
c + 3d + 9e
c + 4d + 16e
c + 5d + 25e
Para que haya ortogonalidad se debe satisfacer

X
P0 (Xi ) P2 (Xi ) =5c + 15d + 55e = 0
X
P1 (Xi ) P2 (Xi ) = 10d 60e = 0
Al solucionar el sistema anterior
Xi P0 (Xi ) P1 (Xi ) P2 (Xi )

1 1 2 20
2 1 1 10
3 1 0 20
4 1 1 10
5 1 2 20
En el modelo (6.18) la matriz de prediccin es

P0 (X1 ) P1 (X1 ) Pk (X1 )
P0 (X2 ) P1 (X2 ) Pk (X2 )

X = .. .. .. ..
. . . .
P0 (Xn ) P1 (Xn ) Pk (Xn )
y as P
P02 (Xi ) P 0
P12 (Xi )

X tX = ..
.
P
0 Pk2 (Xi )
Por otro lado, P
P0 (Xi ) Yi
P P1 (Xi ) Yi

X tY = ..

P .
Pk (Xi ) Yi
Por lo tanto, la solucin es
P
P (X )Y

P 02 i i
P0 (Xi )
1 ..
b = X tX X tY =
.

P
P (X )Y
P k2 i i
Pk (Xi )
La suma de cuadrados debida a la regresin es

P 2 P
t [ P (X )Y ] [ Pk (Xi )Yi ]2
SCReg = b X Y = P 2
t 0 i i
++ P 2 (6.19)
P0 (Xi ) Pk (Xi )
y finalmente, en la tabla 6.2 se presenta el ANOVA para la descomposicin ortogonal.
Ejemplo 6.2. Khuri & Cornell (1987) citan un experimento, en el cual se tomaron
12 ratones de igual tamao y edad, a los cuales se les suprima el alimento excepto
durante una hora por da durante 10 das. En el da 11, cada ratn fue inoculado
con una droga que disminua el hambre (en dosis de 0.3 y 0.7 mg/kg) despus de un
tiempo especfico (tiempos 1, 5 y 9 horas). Cada combinacin dosis tiempo se les
aplic a dos ratones. El peso, en gramos, de la comida ingerida por cada ratn fue
Tabla 6.2: Tabla de anlisis de varianza para la descomposicin ortogonal

C de V gl SC
t
)
R( k X Y
P
[ P0 (Xi )Yi ]2
R(0 ) 1 P 2
P (Xi
P 0
[ P1 (Xi )Yi ]2
R(1 /0 ) 1 P 2
P1 (Xi )
.. .. ..
. . .P
[ P (X )Y ]2
R(k /0 , . . . , k1) 1 Pk 2 i i
Pk (Xi )
t
Error n k Y tY
X
XY
T otal n Y tY
medido. El propsito del experimento fue determinar si el cambio en los niveles de

las dosis de la droga y la longitud del tiempo entre la inoculacin tiene algn efecto
en los ratones en trminos de la cantidad de alimento consumido.
Los datos obtenidos se presentan en la tabla 6.3.
Tabla 6.3: Peso por alimento consumido en ratones para los datos de Khuri y Cornell.
Dosis Droga Tiempo
(mg/kg) 1 5 9 Total
0.3 5.63 6.42 11.57 12.16 12.68 13.31 61.77
0.7 1.38 1.94 5.72 4.69 8.28 7.73 29.74
Total 15.37 34.14 42.00 91.51
El modelo propuesto para esta ensayo es
yi = 0 + 1 xi1 + 2 xi2 + 12 xi1 xi2 + 22 x2i2 + ei , i = 1, . . . , 12. (6.20)
En la figura 6.1 se ilustran los pesos promedios, con la finalidad de determinar la

posible interaccin entre tiempo y dosis de la droga. En dicha figura no se encuentran
indicios de esta interaccin, por consiguiente, es posible que en el modelo (6.20) la
misma (medida a travs de 12 ) no sea significativa. Para tal fin a continuacin se
realizar el proceso de estimacin de los parmetros involucrados en el modelo va
anlisis de varianza.
0.3
0.3
0.7
12
0.7
10
Peso de la comida ingerida
8
6
4
2
2 4 6 8
Tiempo
Figura 6.1: Interaccin entre el tiempo y la dosis de la droga segn el peso por
alimento consumido por los ratones.
En forma matricial, el modelo (6.20) se puede expresar como

5.63 1 0.3 1 0.3 1
6.42 1 0.3 1 0.3 1

1.38 1 0.7 1 0.7 1

1.94 1 0.7 1 0.7 1
0
11.57 1 0.3
5 1.5 25

12.16 1 0.3 5 1.5 25 1
2 + e
5.72 = 1 0.7 5 3.5 25
3
4.69 1 0.7 5 3.5 25
4
12.68 1 0.3 9 2.7 81

13.31 1 0.3 9 2.7 81

8.28 1 0.7 9 6.3 81
7.73 1 0.7 9 6.3 81
Al emplear mnimos cuadrados se obtienen los estimadores de los diferentes par-

metros involucrados en el modelo (6.20). En la tabla 6.4 se presentan los coeficientes
estimados, junto con las desviaciones estndar.
Tabla 6.4: Coeficientes estimados al ajustar el modelo (6.20).

Efecto gl Coeficiente Desv. Coef. t Valor p
Constante 1 8.427 1.172 7.19 0.00
Dosis 1 12.369 2.031 6.09 0.00
Tiempo 1 1.782 0.347 5.14 0.00
Dosis*Tiempo 1 0.195 0.340 0.57 0.58
Tiempo*Tiempo 1 0.085 0.029 2.89 0.02
A partir de los resultados de la tabla de anlisis de varianza 6.5, la razn F para

juzgar la hiptesis H0 : 1 = 2 = 12 = 22 = 0 es
44.82
F = = 75.73.
4.14
Este valor de la F conlleva a la no aceptacin de la hiptesis nula (Valor p = 0.00),
con lo cual se concluye que esta hiptesis se rechaza. Adicionalmente, con base en
los resultados obtenidos en las tablas, se concluye que la interaccin no es un efecto
significativo en el modelo, es decir, que la dosis y el tiempo no interactan conjun-
tamente sobre la cantidad de alimento consumido por los ratones, lo cual corrobora
lo observado en la figura 6.1.
Tabla 6.5: Anlisis de varianza para el peso por alimento consumido en los ratones.
C. de V. GL SC(Secue) SC(ajus) CM(ajus) F Valor p

Regresin 4 179.29 179.29 44.82 75.73 0.00
Lineal 2 174.14 63.52 31.76 53.65 0.00
Cuadrtica 1 4.96 4.96 4.96 8.38 0.02
Interaccin 1 0.20 0.20 0.20 0.33 0.58
Error 7 4.14 4.14 0.59
Total 11 183.44
2
Como Rajus = 0.9644, se puede concluir entonces que el total de la variacin de
la cantidad de alimento ingerida por los ratones es explicada en un 96.44 % por las
variables dosis y tiempo. Los valores de prediccin y los residuales se presentan en
la tabla 6.6.
Tabla 6.6: Predicciones y residuales al ajustar el modelo (6.20).

Dosis Tiempo Peso Obs. Prediccin Residual
0.3 1 5.63 6.36 -0.73
6.42 6.36 0.06
0.7 1 1.38 1.33 0.05
1.94 1.33 0.61
0.3 5 11.57 11.20 0.37
12.16 11.20 0.96
0.7 5 5.72 5.87 -0.15
4.69 5.87 -1.18
0.3 9 12.68 13.33 -0.65
13.31 13.33 -0.02
0,7 9 8.28 7.67 0.61
7.73 7.67 0.06
Como en esta seccin en el anlisis de regresin se ajusta una respuesta a travs

de un modelo polinomial, en el cual se tiene diferentes valores en la respuesta para
los mismos valores en las variables explicativas, se hace necesario realizar una prueba
de falta de ajuste del modelo, para determinar si el mismo es apropiado o no para
describir los datos. El procedimiento de evaluacin de la adecuacin del modelo se
desarrolla a continuacin.
6.1.1. Prueba de falta de ajuste
En la prueba de falta de ajuste del modelo se puede presentar una de las siguientes
causas:
Se omiten factores del modelo propuesto que afectan la respuesta.

La omisin de trminos de mayor orden involucrando factores en el modelo
propuesto, los cuales son necesarios para explicar adecuadamente el comporta-
miento de la respuesta.
Para detectar si el modelo ajustado es inadecuado, se debe tener en cuenta lo

siguiente:
Si la forma apropiada de la superficie puede representarse con los trminos adicio-

nales X q q al modelo propuesto, entonces la superficie verdadera puede expresarse
como
Y ) = X + X q q
E(Y (6.21)
donde X q es la matriz de trminos en x1 , x2 , . . . , xl de orden mayores a los de X .
Observacin 6.2. Alternativamente, X q puede tener las variables xl+1 , xl+2 , . . . , xm

no contenidos en X .
Dados los modelos E(Y Y ) = X y (6.21) para la superficie de respuesta propuesta

y la superficie verdadera, respectivamente, entonces la inhabilidad del modelo ajus-
tado Yb = Xb para determinar la adecuada variacin en los valores de la respuesta
observada, est reflejada en la porcin de la variacin total llamada varianza resi-
dual, dada por el modelo ajustado. Al aislar la varianza residual de aquella atribuida
directamente al modelo (6.21) con el modelo ajustado, se hace necesario una prueba
de ajuste del modelo.
La prueba para el ajuste del modelo apropiado requiere dos condiciones que de-
penden de la naturaleza de los datos:
1. El nmero de puntos distantes del diseo n, puede exceder el nmero de trmi-

nos en el modelo ajustado, si el modelo ajustado contiene l trminos, entonces
n > l.
2. Una estimacin de la varianza del error experimental no requiere de la forma

del modelo ajustado. Esta puede ser obtenida cuando se hace al menos dos
rplicas por tratamiento y puede ser obtenida calculando la variacin entre las
replicaciones para cada tratamiento.
Cuando lo anterior sucede, la SCE se particiona en dos fuentes de variacin:
i. La variacin dentro de replicaciones para aquellos puntos del diseo donde se

ha tomado informacin.
ii. La variacin debida a la falta de ajuste del modelo.

A la suma de cuadrados de las observaciones replicadas se les llama suma de

cuadrados del error puro (SCEP ) y la diferencia entre SCE SCEP = SCF A es
la suma de cuadrados de la falta de ajuste.
Para una mejor ilustracin se supone que se tiene un total de n observaciones de

la variable respuesta Y , tales que
y11 , y12 , . . . , y1n1 , con n1 observaciones en el punto 1 del diseo

y21 , y22 , . . . , y2n2 , con n2 observaciones en el punto 2 del diseo
.. ..
. .
ym1 , ym2 , . . . , ymnm , con nm observaciones en el punto m del diseo
P
m
donde n = ni y m es el nmero de grupos diferentes que se pueden formar con
i=1
los mismos xs.
La suma de cuadrados del error puro es una parte de la suma de cuadrados del
error. Se puede escribir el error para la j-sima observacin en el i-simo grupo como
yij yi = (yij yi ) (yi yi ).
Utilizando el hecho que todas las observaciones replicadas en el i-simo grupo

tendran el mismo valor predicho yi , elevando al cuadrado a ambos lados y sumando
sobre i y j, se obtiene
P
m P
ni P
m P
ni P
m P
ni
(yij yi )2 = (yij yi )2 + (yi yi )2
i=1 j=1 i=1 j=1 i=1 j=1

Suma de cuadrados Suma de cuadrados Suma de cuadrados
del error del error puro de la falta de ajuste
P
m P
ni
La igualdad se mantiene por el hecho que la suma del producto cruzado (yij
i=1 j=1
yi )(yi yi ) es cero.
Los grados de libertad de cada una de las sumas de cuadrados anteriores son,
respectivamente,
m
X m
X
n l 1, (ni 1) = ni m = n m y m l 1
i=1 i=1
Con estos resultados, se tiene que el cuadrado medio del error puro es
m P
P ni
(yij yi )2
i=1 j=1
CMEP =
nm
el cual es un estimador de 2 indistintamente si el modelo que esta siendo ajustado

es correcto o no. Con esta descomposicin del error, se procede a construir la tabla
6.7 de anlisis de varianza.
Tabla 6.7: Anlisis de varianza para la falta de ajuste en el modelo de regresin

Y ) = X
E(Y X.
C. de V. gl SC CM
P
m
Regresin l ni (yi y )2 CMR
i=1
Pm Pni
Error n (l + 1) (yij yi )2 CME
i=1 j=1
P
m
Falta de Ajuste ml1 ni (yi yi )2 CMEF A
i=1
Pm Pni
Error Puro nm (yij yi )2 CMEP
i=1 j=1
P
m Pni
Total n1 (yij y )2
i=1 j=1
Y ) = X
En este caso se plantea la hiptesis H0 : El modelo ajusta los datos (E(Y X),
se debe asumir que sta es cierta y como
(1) E(CMEP ) = 2
m
P
Y )X
ni | E(Y X
X|
(2) E(CMEF A) = 2 + i=1
ml1
Entonces bajo H0 se tiene que E(CMEF A) = 2 , obteniendo as dos estimadores de

varianza residual 2 , y por lo tanto, el estadstico de prueba es:
CMEF A
F = F(ml1;nm) bajo H0
CMEP
Si el valor de la estadstica es cercana a uno no se tendr evidencia para rechazar la
hiptesis nula.
Ejemplo 6.3. Para ilustrar el uso de la prueba de falta de ajuste del modelo de
segundo orden, se tiene en cuenta los datos de la cantidad de alimento consumido
por los ratones, presentado en el ejemplo 6.2. Se sabe que SCE = 4.14 con 7 grados
de libertad. Por consiguiente,
SCEP =(5.63 6.025)2 + (6.42 6.025)2 + + (8.28 8.005)2

+ (7.73 8.005)2 = 1.52
con glEP = 12 6 = 6, y
SCEF A = 4.14 1.52 = 2.62
con glEF A = 7 6 = 1. Por lo tanto, el estadstico de prueba es F = 10.32 >

F(1,6,0.05) = 5.98, concluyendo que hay suficiente evidencia de falta de ajuste en el
modelo propuesto. Cuando esto sucede, se debe proponer otro modelo que solucione
tal problema, con la finalidad de realizar inferencias validas.
6.1.2. Hiptesis de la forma A = 0
Se parte inicialmente de un modelo de rango completo como (5.1) y el inters se

centra en llevar a cabo pruebas de hiptesis de la forma
H0 : A = 0 (6.22)
A) = k.
con A matriz k p (k p), r(A
Observacin 6.3. . Es necesario que A sea de rango completo por fila (sean lineal-
mente independientes) y as no se va a tener hiptesis redundantes.
Para llevar a cabo la prueba en (6.22) se va a considerar que existe B(pk)p , y

as se construye
A
W =
B
donde W es una matriz no-singular, as el modelo Y = X +ee se puede escribir como
Y = XW 1W + e

Si W 1 = .. entonces (6.22) se escribe como
Ct
C . Dt

A
. + e
X
Y =X C t .. D t
B
XC tA + XD tB + e
=XC (6.23)
Al hacer XC t = Z 1 , XD t = Z 2 , A = 1 y B = 2 , entonces (6.23) queda escrito

de la forma
Y = Z 1 1 + Z 2 2 + e (6.24)
Observe que el modelo (6.24) tiene una estructura similar al modelo (6.1). Por
lo tanto, el resultado de la prueba de hiptesis de ese modelo es aplicable a (6.24),
o sea para realizar la prueba H0 : A = 0 se debe usar la razn de verosimilitud
generalizada
1
2/n = h 1
i
t
Y Z (Z t 1 t
Z Z ) Z Z Z 2 (Z t2Z 2 ) Z t2 Y
1+ Y t [I Z Z tZ )1Z t ]Y
Z (Z
o usar la monotona de 2/n que en este caso es

h i
(n p) Y t Z (ZZ tZ )1 Z t Z 2 (Z
Z t2Z 2 )1 Z t2 Y

1 t F(k,np,) (6.25)
kY t
Y I Z (Z t
Z Z) Z Y
.
Z 1 .. Z 2 ) = p.
Z ) = r(Z
En (6.25) se considera que r(Z
Z tZ )1 Z t en trminos de (6.25), entonces

Ahora expresando Z (Z

..
Z = Z 1 . Z 2 = X C t ... D t = XW 1
Por lo tanto,

t

1 t t 1 X tX ) C t C (X
C (X X tX ) D t
ZZ= W X XW =
X tX ) C t D (X
D (X X tX ) D t
y su inversa es

t
1 t
1 t X tX )1 A t A (X
A (X X tX )1 B t
ZZ =W X X W = (6.26)
X tX )1 A t B (X
B (X X tX )1 B t
y finalmente
1 1 1
Z Z tZ Z t =XW
XW 1W X tX Wt Wt Xt
1 t
X X tX
=X X
Z ) = r(X
verificndose de esta manera que r(Z X) = p
Por otro lado , la suma de cuadrados del error es invariante a la transformacin,

o sea h 1 t i h 1 t i
Y t I Z Z tZ Z Y = Y t I X X tX X Y
X tX )1 B = 0 , entonces en (6.26)
Si B se construye de tal forma que A (X

t
1 X tX )1 A t
A (X 0
ZZ =
0 X tX )1 B t
B (X
y as

t X tX ) C t
C (X 0 Z t1Z 1 0
ZZ= =
0 X X ) Dt
D (X t
0 t
Z 2Z 2
ortogonalizando de esta forma el modelo (6.23).
Adems como W 1W = I = C tA + D tB , se obtiene que
D tB = I C tA
X tX ) D t = 0 y de esta forma (6.23) es escrito como

y por la ortogonalidad C (X

0 = C X tX D tB = C X tX I C tA = C X tX C X tX C tA
X tX ) = C (X
as C (X X tX )1 entonces
X tX ) C tA y postmultiplicando por (X
1
C = C X tX C tA X tX (6.27)
y nuevamente, por la ortogonalidad se encuentra que
h 1 t 1 t i h 1 t i
Y t Z Z tZ Z Z 2 Z t2Z 2 Z 2 Y = Y t Z 1 Z t1Z 1 Z1 Y
entonces 1 1
Z 1 Z t1Z 1 Z t1 = XC t C X tX C t CX t
Reemplazando el valor de C encontrado en (6.27), se obtiene
1 t 1 t 1 t
Z 1 Z t1Z 1 Z 1 = X X tX A C X tX C tA X tX X
y volviendo a reemplazar C por el valor encontrado en (6.27), se satisface
h i1
t t t 1 t
C (XX X ) C = A (X X X) A y as
h
t t
1 t i t t
1 t h t
1 t i1 t
1 t
Y Z 1 Z 1Z 1 Z1 Y = Y X X X A A XX A A XX X Y
y el cociente
h i1
t t 1 t t 1 t t 1 t
X X ) A A (X
(n p) Y X (X X X) A X X) X Y
A (X

F(k,np,)
X tX )1 X t Y
Y t I X (X
kY
6.2. Prueba de Hiptesis de la forma A = m
Al considerar nuevamente el modelo (1.7) cuando X es de rango mximo, en

muchas situaciones prcticas se tiene inters en llevar a cabo pruebas de hiptesis de
la forma
H0 : A = m (6.28)
A) = k.
con A kp , k p y r(A
en el desarrollo anterior se considera que existe B (pk)p tal que W =

Como
A
con W no singular y como tambin va a existir W 1 , con la cual se puede
B
construir el modelo
Y = Z 1 1 + Z 2 2 + e
6.2. PRUEBA DE HIPTESIS DE LA FORMA A = M 105
como 1 = A es claro que el modelo anterior se puede escribir como Y = Z 1m +

Z 2 2 + e o tambin Y Z 1m = Z 2 2 + e y as la funcin de verosimilitud bajo la
hiptesis (6.28) es
Y
L 2, 2 = f Y Z 1m , 2 , 2

2
n/2 1 2
= 2 exp k(Y Y Z 1m ) Z 2 2 k
2 2
Esta funcin se maximiza con
1
2 = Z t2Z 2 Z t2 (Y
Y Z 1m )
y
1
2
H Y Z 1m ) Z 2 2 k2
= k(Y
n
1 h 1 t i
Y Z 1m )t I Z 2 Z t2Z 2
= (Y Y Z 1m )
Z 2 (Y (6.29)
n
Por otro lado, tambin se puede verificar que cuando p y 2 > 0, la funcin
de verosimilitud se maximiza con
1 t
= Z tZ ZY
2 1 2 1 t t
1 t
Y Z
= kY k = Y I Z Z Z Z Y (6.30)
n n
y de esta forma la razn de verosimilitud es
Sup Y , 2 ; 2)
L (Y n/2
1 m;2 >0
=m 2
= = 2
Y , 2 ; 2)
Sup L (Y H
p ;2 >0
y entonces
1
n/2 = 2
(6.31)
H / 2
utilizando (6.29) y (6.30) y reemplazando en (6.31), se obtiene
1
n/2 = h
t 1
i
Y Z
(Y Z 2 (Z t2Z 2 ) Z t2 (Y
Z 1m ) I Z Y Z
Z 1m )
Y t [I Z Z tZ )1Z t ]Y
Z (Z
1
= h 1
i
Y Z
(Y t
Z 2 (Z t2Z 2 ) Z t2 (Y
Z 1m ) I Z Y Z Y t [I Z
Z 1m )Y Z tZ )1Z t ]Y
Z (Z
Y t [I Z Z tZ )1Z t ]Y
Z (Z
y as
1
n/2 = h 1
i (6.32)
Y Z
(Y t
Z 2 (Z t2Z 2 ) Z t2 (Y
Z 1m ) I Z Y Z Y t [I Z
Z 1m )Y Z tZ )1Z t ]Y
Z (Z
Z (Z
h i h i
pero como I Z (Z Z tZ )1 Z t Z = 0 entonces I Z (Z
Z tZ )1 Z t Z 1 = 0 y al susti-
tuir en (6.32), entonces
1
n/2 = h 1
i
(Y Z 1m )t I Z
Y Z Z 2 (Z t2Z 2 ) Z t2 (Y
Y Z
Z 1m )(Y Z 1m )t [I Z
Y Z Z tZ )1Z t ](Y
Z (Z Y Z
Z 1m )
Z (Z
1
= h 1
i (6.33)
Y Z
(Y t
Z 1m ) Z (Z Z 2 (Z t2Z 2 ) Z t2 (Y
Z tZ )1Z t Z Y Z
Z 1m )
Z (Z
pero ya se mostr que
Z tZ )1 Z t = X (X
i) Z (Z X tX )1 X t .
h i h i
t t 1 t t 1 t t t 1 t
Z Z ) Z Z 2 (Z
ii) Y Z (Z Z 2Z 2 ) Z 2 Y = Y Z 1 (Z
Z 1Z 1 ) Z 1 Y .
entonces (6.33) es escrito como
1
n/2 = t 1
(Y Z 1m ) Z 1 (Z t1Z 1 )
Y Z Z t1 (Y
Y Z 1m )
Z
1+ Y t
[ Z (Z
I Z t 1 t
Z Z) Z Y ]
como Z 1 = XC t , entonces para la hiptesis H0 : A = m puede usarse como

estadstico de prueba
h i1
t t t 1 t t 1 t t 1 t
(Y XC m ) X (X X ) A A (X X ) A A (X X ) X (Y XC tm )

F(k,np,)
k
np
Yt I X (X tX )1 X t Y
con = 0 si y solo si H0 : A = m es cierto.

6.3. COMPARACIN DE DOS MODELOS LINEALES 107
6.3. Comparacin de dos modelos lineales
Considrese dos modelos
X 1 1 + e 1
Y 1 =X (6.34)
X 2 2 + e 2
Y 2 =X (6.35)
donde Y i es un vector de variables observadas de tamao ni 1 (i = 1, 2), X i es una

matriz de k variables explicativas de tamao ni k y e N(00, i2I ni ) de tamao
ni 1.
Se tiene inters en la hiptesis
H0 : 1 = 2 vs Ha : 1 6= 2
La hiptesis H0 se conoce como hiptesis de concurrencia, as se van a tener que

si e 1 y e 2 se distribuyen en forma independiente; cuando se satisface este supuesto,
entonces los modelos (6.34) y (6.35) se pueden escribir como
Y = X + e
con Y = (YY t1 , Y t2 )t , X = diag(X t1 , t2 )t y e = (eet1 , e t2 )t . Bajo norma-

X 1 , X 2 ), = (
lidad e N(0, ) con = diag (12I n1 , 22I n2 ), entonces
H0 : 1 = 2 o equivalentemente H0 : A = 0
con A = (II k I k ) bajo H0 cierta

t h 1 i1
b
A t 1
A X X Ab 2(k) (6.36)
donde
1 t
t t
b = X t 1X X t 1Y = b1 , b2
con bi = (X
X tiX i )1X tiY i , con esto se tiene que (6.36) es reescrita como
t 1
b1 b2 12 (X
X t1X 1 )1 + 22 (X
X t2X 2 )1 b1 b2 2(k)
Por otro lado, se sabe que

(ni k)CMEi
2
2(ni k) , i = 1, 2
i
donde CMEi = ni1k Y ti (II ni H i )Y Y i , con H i = X i (X X tiX i )1X ti , i = 1, 2. Adems
(II ni H i )X X tiX i ) = 0 , entonces
X i (X

1 b b 2 Xt 1 2 Xt 1 1 b b
k
1 2 [1 (X 1X 1 ) + 2 (X 2X 2 ) ] 1 2
F = h i F(k,n2k)
1 (n1 k)CM E1 (n2 k)CM E2
n2k 2 + 2
1 2
donde n = n1 + n2 .
Si se observa que F depende de 12 /22 y entonces no puede usarse como estadstico

2
en la prueba de H0 , pero si 12 = c (c > 0), entonces
2

n2k
b b [c(XX t
X ) 1
+ X
(X t
X ) 1 1 b
] b

k 1 2 1 1 2 2 1 2
F = (6.37)
(n1 k)CME1 /c + (n2 k)CME2
bajo H0 , F F(k,n2k) .
Observacin 6.4. En general 12 y 22 son desconocidos, y en consecuencia, tambin
12
22
. En este caso, en (6.37) puede utilizarse CMEi (i = 1, 2) y entonces la prueba es
aproximada Ali & Silver (1985).
6.4. Ejercicios
1. Para el modelo particionado Y = X 1 1 + X 2 1 + d se le asocian dos anlisis de
varianza, pruebe que si X t1X 2 = 0, estos dos anlisis de varianza son idnticos.
2. Mltiples regresiones basadas en 60 individuos de Y en X1 , X2 , X3 , X4 ,
X5 y X6 , generan las siguientes sumas de cuadrados: SCTCM = 19306,
SCR(X1 /X0 ) = 6291, SCR(X2 /X0 ,X1 ) = 997, SCR(X3 ,X4 /X0 ,X1 ) = 1420,
SCR(X3 ,X4 /X0 ,X1 ,X2 ) = 2283 y SCR(X1 ,X2 ,X3 ,X4 ,X5 ,X6 |X0 ) = 11064. Usando los
mismos datos anteriores, realice una prueba estadstica que compare los dos
siguientes modelos:
Y = 0 + 1 X1 + 2 X2 + 3 X3 + 4 X4 + 5 X5 + 6 X6 + e
6.4. EJERCICIOS 109
versus
Y = 0 + 1 X1 + 2 X2 + 3 X3 + 4 X4 + e
a) Enuncie la hiptesis nula y la alterna.

b) Construya una tabla de ANOVA para probar la hiptesis presentada en a).
c) Calcule la prueba estadstica apropiada e interprete los resultados de la
prueba de hiptesis a).
3. Mltiples regresiones basadas en 60 individuos de Y en X1 , X2 , X3 ,

X4 y X5 , generan las siguientes sumas de cuadrados: SCTCM = 19306,
SCR(X1 /X0 ) = 62.92, SCR(X2 ,X3 /X0 ,X1 ) = 99.75, SCR(X3 ,X4 /X0 ,X1 ) = 154.21,
SCR(X4 /X0 ,X1 ,X2 ,X3 ) = 223.68 y SCR(X1 ,X2 ,X3 ,X4 ,X5 /X0 ) = 556.86. Usando los
mismos datos anteriores, realice una prueba estadstica que compare los dos
siguientes modelos:
Y = 0 + 1 X1 + 2 X2 + 3 X3 + 4 X4 + 5 X5 + e versus Y = 0 + 1 X1 + e
a) Enuncie la hiptesis nula y la alterna.

b) Construya una tabla de ANOVA para probar la hiptesis presentada en a).
c) Calcule la prueba estadstica apropiada e interprete los resultados de la
prueba de hiptesis a).
4. Un problema econmico y demogrfico de inters es el efecto de la alta tasa de

fertilidad en el ingreso per-capita. Se desea evaluar su relacin con el porcentaje
de la poblacin menor de 15 aos en Latino Amrica. Los investigadores pre-
sumen una relacin lineal y una cuadrtica y reportan los siguientes modelos
y el anlisis de varianza:
Grado 1 de ajuste: Yb = 893.53 17.276X
Grado 2 de ajuste: Yb = 732.05 9.203X 0.0996X 2
Fuente gl SC CM
RegresinCM
X 1 153784.8 153784.8
X 2 /X 1 88.3 88.3
Residuo
Bondad de Ajuste 15 2773.9 184.9
Error Puro 8 911.5 113.9
TotalCM 25 157558.5
a) Pruebe la significancia estadstica del modelo de regresin lineal y la bondad

del ajuste de la misma.
b) Pruebe la significancia estadstica de la adicin del trmino X 2 al modelo.
c) Cul es el modelo ms apropiado? El modelo lineal o el modelo polino-
mial? Qu criterio uso?
2
d) Calcule e interprete el Rajus para el modelo planteado.
5. Un modelo de regresin mltiple basado en 12 observaciones de Y en X1 , X2

y X3 gener el modelo Yb = 5 + 16X1 + 3X2 4X3 , el cual tiene las sumas de
cuadrados asociadas SCR(X1 ,X2 ,X3 |X0 ) = 700, SCTCM = 1100.
a) Pruebe la hiptesis global de este modelo y enuncie la hiptesis nula y

alterna.
b) Cul es el valor predictivo de Y cuando X1 = 3, X2 = 4 y X3 = 1?
Construya e interprete un intervalo de confianza para el valor predictivo Y
obtenido en este caso (djelo indicado).
6. Para el modelo particionado E(YY ) = X 1 1 + X 2 2 , considere el modelo super-

parametrizado con E(yij ) = + i con i = 1, ..., a y j = 1, ..., ni .
a) Exprselo en la forma del modelo particionado.

Pa
b) Con la apropiada particin del modelo, demuestre R(i /) = i=1 (yi
y )2 .
7. Se desea saber cul es la dosis/Ha de Nitrgeno que se le debe aplicar a un

terreno para maximizar la produccin de una leguminosa, con la finalidad lograr
tal objetivo se aplicaron Dosis/Ha en los niveles 20, 40 y 60, y se realizaron 4
rplicas de cada tratamiento. Los datos obtenidos fueron los siguientes:
Dosis/Ha
20 40 60
54 70 65
45 80 58
52 75 60
39 82 55
a) Proponga el modelo lineal adecuado para realizar este anlisis realizando

los supuestos sobre el mismo.
6.4. EJERCICIOS 111
b) Estime los parmetros, obtenga el anlisis de varianza para este modelo,

pruebe las hiptesis pertinentes y seleccione el modelo adecuado.
c) Con base en b), cunto esta explicando el tratamiento a la produccin? y
en qu nivel se encuentra la dosis que maximiza la produccin?
8. Suponga el siguiente conjunto de datos
T1 T2 T3
2 4 6
3 2 7
2 5 8
a) Determine dos soluciones de las ecuaciones normales.

b) Construya la base de las funciones estimables y determine al menos una
combinacin lineal de las observaciones.
c) Proponga dos funciones estimables de inters y obtenga su MELI.
d) Cmo quedara estructurado el modelo particionado en k partes, presente
en una tabla de Anlisis de Varianza.
9. Considere el siguiente conjunto de datos:
1 2 3
1 4 6 8
9 6
5
2 5 4 3
7
Si los datos estn caracterizados por el modelo yijk = + i + j + ij + eijk .
a) Construya la base de las funciones estimables.

b) Muestre en forma explcita las ecuaciones normales.
c) Calcule R(, ), R(, ), R(, , ) y R(, , , ) en todos los casos ca-
racterice muy bien la proyeccin.
Captulo 7
Modelos de anlisis de varianza
7.1. Introduccin
Dada la importancia de los modelos lineales como herramienta para el anlisis

estadstico de los ensayos experimentales, en este captulo se lleva a cabo una bre-
ve revisin, se presentan inicialmente algunas ideas bsicas sobre modelos lineales
superparametrizados, modelos de medias de celdas y modelos con restricciones .
As mismo se presentan los diferentes tipos de sumas de cuadrados y el concepto de
funciones estimables, resultados relevantes en el desarrollo de la metodologa de este
texto.
7.2. Conceptos bsicos de modelos lineales
En experimentacin se plantea en general el siguiente modelo:
Y = X + e (7.1)
donde Yn1 es un vector de variables aleatorias, Xnp una matriz de efectos conocida
(matriz de diseo) de rango k mn{n, p}, p1 un vector de parmetros desco-
nocidos y en1 un vector de variables aleatorias no observables, se supone adems
112
7.2. CONCEPTOS BSICOS DE MODELOS LINEALES 113
que en1 N(0, 2 Inn ), con 0 un vector de ceros y una matriz identidad Inn de
tamao n.
En el caso concreto de modelos de clasificacin, el modelo (7.1) se puede obser-

var desde diferentes escenarios: el modelo superparametrizado (modelo S) presentado
por Searle (1971). El uso de este modelo facilita la interpretacin de las sumas de
cuadrados obtenidas a partir de la notacin R(/) introducida por (Searle 1987); el
modelo de medias de celda (modelo M) propuesto por Hocking & Speed (1975) ayuda
a simplificar la interpretacin de algunas hiptesis y el modelo restringido, el cual
es esencial para la interpretacin de ciertos tipos de sumas de cuadrados de rango
completo, el estudio de estos modelos se describen en forma general en la siguiente
seccin, brevemente se estudian a continuacin.
7.2.1. Modelo superparametrizado (Modelo S)
El modelo superparametrizado presentado en Searle (1971), muestra en forma

explcita todo el conjunto de parmetros para los diferentes factores involucrados en
el modelo. El modelo se puede expresar como en (7.1) y se conoce en la literatura
como modelo S.
Estimacin de parmetros
Para la estimacin del conjunto de parmetros en el modelo (7.1), se minimiza

la suma de cuadrados del error, la cual conlleva al sistema de ecuaciones normales
(X t X0 = X t Y ). La estimacin del vector de variables aleatorias e, depende de
la caracterizacin de las ecuaciones X t X0 = X t Y la cual es consistente, con 0
una aproximacin de mnimos cuadrados para Y = X inconsistente, esto lleva
a que cualquier solucin 0 del sistema de ecuaciones normales, genere un vector
Y = X0 invariante para toda solucin de las ecuaciones normales, el cual es una
aproximacin de mnimos cuadrados para el vector Y de observaciones (ver ms
detalles en Searle 1987).
Si la matriz X es de rango columna completo, entonces X t X es definida positiva

y por tanto es no singular, en este caso el sistema X t X0 = X t Y tiene solucin nica
dada por = (X t X)1 X t Y y la solucin aproximada de mnimos cuadrados para
114 CAPTULO 7. MODELOS DE ANLISIS DE VARIANZA
Y = X coincide con el estimador de mnimos cuadrados para , esto garantiza que

cada componente del vector es estimable en forma nica.
Por otro lado, si X no es de rango columna completo, entonces X t X no es definida

positiva y por lo tanto es singular. Con estas condiciones, el sistema de ecuaciones
normales es indeterminado y tiene como solucin 0 = (X t X) X t Y , siendo una
solucin aproximada de mnimos cuadrados para Y = X inconsistente y (X t X)
una inversa generalizada de X t X. En este caso 0 no es ms el estimador de mnimos
cuadrados para , por lo tanto, los componentes del vector no son individualmente
estimables.
Anlisis de varianza
En el modelo de rango incompleto, como Y = X0 es invariante para todo 0

solucin de las ecuaciones normales, entonces Y puede ser expresado de la forma
Y = P Y , siendo P = X(X t X) X t = XX + = XX l , el proyector ortogonal de Y en
el espacio generado por las columnas de X, (X C(X)), con X l y X + las inversas ge-
neralizadas de mnimos cuadrados y Moore-Penrose, respectivamente (Iemma 1993).
En la figura 7.1, se muestra una descomposicin de Y Rn en la suma de dos

subespacios ortogonales; Y = P Y que pertenece a C(X) y e = Y Y = (I P )Y
perteneciente al complemento ortogonal del espacio columna de X, (e C (X)).
Y Rn
e C (X) Y C(X)
Figura 7.1: Descomposicin de la proyeccin ortogonal del vector Y , en el espacio

columna de X (C(X)).
En base en la figura 7.1 se satisface la siguiente desigualdad
||Y ||2 = ||Y ||2 + ||e||2 (7.2)
P 2
donde ||Y ||2 = Y t Y = Yi hace referencia a la suma de cuadrados total no co-
rregida; ||Y || = ||P Y || = Y t P Y hace referencia a la suma de cuadrados de los
2 2
parmetros (suma de cuadrados del modelo) y ||e||2 = ||(I P )Y ||2 = Y t (I P )Y

la suma de cuadrados de los residuales.
Las sumas de cuadrados asociados al modelo (7.1) pueden ser descritas a travs
de la notacin R (Speed et al. 1978), la cual es til en la caracterizacin de la suma
de cuadrados en los modelos S.
La notacin R(/), para el modelo dado en (7.1) es definida por
R() = (0 )t X t Y (7.3)
donde 0 es una solucin al sistema de ecuaciones normales X t X = X t Y . En el

ejemplo (7.1) se presentan los resultados para este modelo.
Ejemplo 7.1. Considrese el conjunto de datos de la tabla 7.1. En este caso, cada
observacin se puede caracterizar mediante el modelo
yijk = + i + j + ij + eijk , i = 1, 2, j = 1, 2, 3, k = 1, . . . , nij (nij 0)
Tabla 7.1: Arreglo factorial 23 para un conjunto de datos ficticios.

j=1 j=2 j=3
i=1 Y111 = 7 Y121 = 8 Y131 = 2
Y112 = 9 Y132 = 4
11 12 13
i=2 Y211 = 5 Y221 = 14
Y212 = 7 Y222 = 15
Y223 = 19
21 22
En trminos del modelo 7.1 se estructura de la siguiente forma

Y111 7 1 1 0 1 0 0 1 0 0 0 0 e111
Y112 9 1 1 0 1 0 0 1 0 0 0 0 1 e112

Y121 8 1 1 0 0 1 0 0 1 0 0 0 2 e121

Y131 2 1 1 0 0 0 1 0 0 1 0 0 1 e131

Y132 4 1 1 0 0 0 1 0 0 1 0 0 2 e132

Y211 = 5 = 1 0 1 1 0 0 0 0 0 1 0 3 + e211

Y212 7 1 0 1 1 0 0 0 0 0 1 0 11 e212

Y221 14 1 0 1 0 1 0 0 0 0 0 1 12 e221

Y222 15 1 0 1 0 1 0 0 0 0 0 1 13 e222
21
Y223 19 1 0 1 0 1 0 0 0 0 0 1 e223
22
Si se supone que los errores se distribuyen con media 0 y varianza constante 2 ,

la solucin de mnimos cuadrados 0 es
[, 1 , 2 , 1 , 2 , 3 , 11 , 12 , 13 , 21 , 22 ]t = [11, 8, 0, 5, 5, 0, 10, 0, 0, 0, 0]t
para este conjunto de datos, la descomposicin de la suma de cuadrados y el ANOVA

se muestra en la tabla 7.2. Con base en los resultados obtenidos en dicha tabla, si
se desea probar H0 : X = 0 en el modelo (7.1) se encuentra que sta se rechaza
(valor p = 0.0054), con lo cual al menos uno de los dos factores tiene algn efecto
significativo con la variable respuesta.
Tabla 7.2: Tabla de anlisis de varianza para los datos del ejemplo 7.1.
C de V gl Sumas de Cuadrados Valor F Pr>F
Cuadrados Medios
Modelo 4 240 60 15 0.0054
Error 5 20 4
TotalCM 9 260
7.2.2. Modelo de medias de celdas
Los modelos superparametrizados, han sido de gran utilidad, ya que ellos mues-
tran explcitamente cada uno de los parmetros del modelo. Sin embargo, Speed
et al. (1978), Hocking (1985), Searle (1987), entre otros, afirman que estos modelos
presentan algunos inconvenientes como por ejemplo el de poseer ms parmetros que
medias de celda para estimarlos; este problema se acenta an ms con la presencia
de celdas vacas. Por lo anterior, proponen los modelos de medias de celdas, los cuales
presentan la ventaja de describir hiptesis con gran simplicidad, en comparacin con
el modelo S.
En Speed et al. (1978), se define el modelo de medias de celda o modelo M, como
Y = W + e (7.4)
donde Wnk es una matriz conocida, k1 es un vector de medias poblacionales de

las cuales han sido extradas las muestras aleatorias que componen las celdas y, Yn1
y en1 son definidos como en el modelo lineal superparametrizado (modelo (7.1)).
Ecuaciones normales
El sistema de ecuaciones normales W t W = W t Y es en general mucho ms simple

que las ecuaciones normales asociadas al modelo (7.1) esto porque en la ecuacin (7.4)
W tiene rango columna completo. En este contexto, el sistema tiene solucin nica,
esto es
= (W t W )1 W t Y (7.5)
la cual coincide con la estimacin de mnimos cuadrados para .
De la solucin (7.5) se satisface que el mejor estimador lineal insesgado (MELI)

de ij...k es Yij...k , es decir, MELI (t ) = t , solucin de las ecuaciones normales
W t W = W t Y y la aproximacin por mnimos cuadrados para el vector de observa-
ciones Y , esta dada por Y = W .
Retomando los datos de la tabla 7.1, el modelo lo podemos escribir como yijk =
ij + eijk , con ij = + i + j + ij , se observa que el vector de parmetros se reduce
a las medias de las celdas en trminos del modelo (7.4). Para ilustrar este modelo,
volvemos a los datos del arreglo presentado en la tabla 7.1.
En forma matricial cada una de las observaciones se pueden resumir en el siguiente

modelo:

Y111 7 1 0 0 0 0
Y112 9 1 0 0 0 0 e111
e112
Y121 8 0 1 0 0 0
11 e121
Y131 2 0 0 1 0 0
12 e131
Y132
= 4 = 0 0 1 0 0 13 + e132
Y211 5 0 0 0 1 0
21 e211
Y212 7 0 0 0 1 0
22 e212
Y221 14 0 0 0 0 1
e221
Y222 15 0 0 0 0 1
e222
Y223 19 0 0 0 0 1
Bajo el supuesto de que los errores tengan media 0 y varianza constante, se llega
a la siguiente solucin de mnimos cuadrados
[11 , 12 , 13 , 21 , 22 ]t = [8, 8, 3, 6, 16]t.
Al realizar el anlisis de varianza para el modelo (7.4), se encuentran los mismos

resultados a los obtenidos en el caso del modelo superparametrizado, para probar en
este caso la hiptesis de igualdad de medias.
7.3. Estimabilidad
Las funciones estimables para la obtencin de proyectores ortogonales asociados a

hiptesis dadas, cualquiera sea el nivel de desbalanceamiento de los datos, se presenta
en la siguiente definicin:
Definicion 7.1. Una funcin lineal de los parmetros t es estimable en el modelo
(7.1) si y solo si existe una combinacin lineal de las observaciones at Y , tal que
E(at Y ) = t .
De la definicin anterior se sigue que t es estimable si at X = t y se puede

tomar el sistema de ecuaciones lineales X t a = , donde a = (X + )t es una solucin
puesto que t pertenece al espacio de X, (t C(X)).
7.3. ESTIMABILIDAD 119
Si t es estimable, con t de rango fila completo, entonces se puede plantear la

hiptesis lineal H0 : t = 0, la cual tiene como suma de cuadrados asociada
SCH0 = (t 0 )t t (X t X) 1 (t 0 ) (7.6)
que en trminos de proyectores ortogonales, se puede expresar como
SCH0 = Y t a(at a)1 at Y = Y t PH0 Y (7.7)
la cual constituye una forma simple y prctica para el clculo de sumas de cuadrados
asociados a una hiptesis lineal, resultados que pueden verse en Iemma et al. (1999).
Sea el modelo lineal (7.1), donde se satisface que E(Y ) = X, el inters inicial,
es estimar parmetros de o alguna combinacin lineal de estos, notados por t , a
partir de una combinacin lineal de los componentes del vector Y que tengan como
valor esperado t , la cual es estimable si y solo si existe una combinacin lineal de
los componentes del vector Y cuyo valor esperado es t (Rao & Mitra 1971).
De esta manera las filas de X forman un conjunto generador del cual un t

puede ser estimado. Como X puede ser construida de las filas de X t X, esto es,
X = X(X t X) (X t X), las filas de X t X forman tambin un conjunto generador a
partir del cual la base de las funciones estimables t pueden ser construidas, de
la misma manera las filas de la forma escalonada reducida (X t X) (X t X) = H
constituyen un conjunto generador para t .
Una vez determinado el conjunto generador de t , donde t tiene rango fila com-
pleto, t puede ser estimado por t 0 , con 0 solucin de las ecuaciones normales
X t X = X t Y .
7.3.1. Estimadores lineales insesgados (ELIS)
Al considerar el modelo (7.1), se esta interesado en un estimador lineal insesgado

de o de una combinacin lineal de , por ejemplo, t ; por Gauss-Markov, se
satisface que E(at Y ) = t y si t puede ser estimado insesgadamente, entonces
es llamado un estimador lineal insesgado (ELI). Se nota de la definicin 7.1 que
E(at Y ) = at X, luego t es estimable.
A continuacin se presentan algunos mtodos, a travs de un ejemplo, para ve-

rificar si un conjunto de funciones paramtricas es estimable, esto puede verificarse
con ms detalle en Henderson (1984).
Ejemplo 7.2. Considere la siguiente matriz diseo:

1 1 2
1 2 4
X= 1 1 2
con t = 0 , 1 , 2
1 3 6
i) Es 0 estimable?, es decir, t1 = (1 0 0) es estimable?
ii) 1 + 22 es estimable?, es decir, t2 = (0 1 2) es estimable?
iii) 1 es estimable?, es decir, (0 1 0) es estimable?
Mtodo 1.
Para que sea estimable se debe satisfacer que at X = t . Por consiguiente reali-
zando este procedimiento matricialmente se llega:
En i)
1 1 2
1 2 4
(2 1 0 0)X = (2 1 0 0)
1
= (1 0 0) = t1
1 2
1 3 6
En ii)
1 1 2
1 2 4
(1 1 0 0)X = (1 1 0 0)
1
= (0 1 2) = t .
1 2 2
1 3 6
Luego 0 y 1 + 22 son estimables.
En iii), como t3 = (0 1 0), se nota que no es una funcin estimable, pues no

existe t tal que satisfaga t X = t3 .
Mtodo 2.
.
Este mtodo consiste en particionar X en X = [X1 .. X1 D], donde X1 tiene r
funciones columnas linealmente independientes y D es de dimensin (p r). t es
.
estimable si y slo si t = [K t .. K t D], donde K t tiene r elementos y K t D tiene
1 1 1 1
(p r) elementos.
Retomando el ejemplo, para el primer caso si

1 1
1 2
X1 =
1 1 ; D t = (0 2)
1 3
t1 = (1 0 0) es estimable si

0
K1t = (1 0), K1t D = (1 0) = 0.
2
..
Como t1 = [K1t . K1t D], entonces t1 es estima-
t t
ble. En el segundo caso 2 = (0 1 2) si K1 = (0 1) y
.
K1t D = (0 1)(0 2)t = 2, se observa que t2 = [K1t .. K1t D] luego es estimable.
En el tercer caso t3 = (0 1 0), se observa que K1t = (0 1) y K1t D = (0 1)(0 2)t = 2,
.
teniendo en cuenta que t es diferente de [K t .. K t D], encontrndose as que esta
3 1 1
funcin no es estimable.
Mtodo 3.
Consiste en encontrar una matriz Cp(pr) , de rango completo, es decir r(C) =

(p r) tal que XC = 0, entonces t es estimable si y slo si t C = 0.
Retomando el ejemplo,

1 1 2
0
1 0
2 4
2 = 0
XC =
1

1 2 0
1
1 3 6 0
Observe que:
i) [1 0 0][0 2 1]t = 0, luego es estimable.
ii) [0 1 2][0 2 1]t = 0, luego es estimable.
iii) [0 1 0][0 2 1]t = 2 es diferente de 0, entonces no es estimable.
Mtodo 4.
Consiste en obtener una g-inversa de X t X denotada por (X t X)g , entonces t

es estimable si y solo si t (X t X)g (X t X) = t , es decir, t H = t siendo H =
(X t X)g (X t X) = X l X = X + X, en donde X l es la inversa de mnimos cuadrados y
X + es la inversa de Moore-Penrose de la matriz X.
Este ltimo procedimiento es el ms conocido dentro de los diferentes mtodos

presentados. Por su importancia, a continuacin se realiza la prueba que soporta el
mtodo anterior.
Prueba.
) Si t es estimable entonces t = at X para algn a y t H = t (X t X)g (X t X) =
at X(X t X)g (X t X) = at PX X = at X = t .
) Si t H = t entonces t = t (X t X)g (X t X) = at X, donde at = t (X t X)g X t

entonces t pertenece al espacio fila de X(t R(X)) luego t es estimable.
Retomando el ejemplo,

4 7 14
(X t X) = 7 15 30
14 30 60
una g-inversa es
15 7 0
1
(X t X)g = 7 4 0
11
0 0 0
obtenindose entonces que
i) (1 0 0)(X t X)g (X t X) = (1 0 0) entonces es estimable.
ii) (0 1 2)(X t X)g (X t X) = (0 1 2) entonces es estimable.
iii) (0 1 0)(X t X)g (X t X) es diferente de (0 1 0) por lo tanto no es estimable.
Observacin 7.1. Si r(X) = p, entonces la nica g-inversa de (X t X) es (X t X)1 .

De esta forma t (X t X)1 (X t X) = t I = t luego t es estimable cualquiera sea la
solucin de .
Definicion 7.2. Si t es estimable y at Y es el estimador lineal insesgado (ELI)

el cual posee menor varianza entre todos los ELIS entonces at Y es el mejor ELI
(MELI) de t .
De la anterior definicin se sigue que,
MELI(E(at Y )) = MELI(at X) = MELI(t ) = at Y,
observando que el espacio de estimacin coincide con el que contiene todos los
MELIS, es decir, at Y pertenece al espacio de estimacin si y slo si at Y es el
MELI de su esperanza.
Observacin 7.2. MELI(t ) = q t X t Y para algn q, luego MELI(t ) = at Y

entonces at pertenece al espacio fila de (X t ) (a R(X t )) si y solo si at = q t X t para
algn q.
Observacin 7.3. E(MELI(t )) = E(q t X t Y ) = t para todo si y solo si

q t X t X = t para todo , luego q t X t X = t resultado conocido como ecuacio-
nes normales conjugadas (ENC). Si q t satisface las ENC entonces MELI(t )) =
qtX tY .
Teorema 7.1. Si t es estimable entonces MELI(t ) = t 0 para todo solucin

de las ecuaciones normales X t X = X t Y .
Prueba.
Si t es estimable entonces existe q t tal que q t X t X = t y teniendo en cuenta

las observaciones 7.2 y 7.3 se satisface que MELI(t ) = q t X t Y .
Sea una solucin al sistema de las ecuaciones normales (EN), X t X = X t Y

entonces q t X t Y = q t X t X = t , la cual satisface las ENC por lo que
MELI(t ) = t 0 = t (X t X)g X t Y
como t pertenece a R(X t ) entonces t = at X y as
MELI(t ) = at X(X t X)g X t Y = at PX Y = at Y
y
V ar(MELI(t )) = V ar(t ) = t V ar(0 )= t (X t X)g 2 = q t 2 .
Ejemplo 7.3. Suponga el modelo yij = + i + eij , i = 1, 2, 3 y j = 1, . . . , ni , con

n1 = 3, n2 = 2 y n3 = 1, con el supuesto de eij N(0, 2 ).
Para este conjunto de datos la matriz diseo esta dada por

1 1 0 0
1 1 0 0

1 1 0 0
X = 1

0 1 0
1 0 1 0
1 0 0 1
El modelo lineal expresado en forma matricial es

y11 1 1 0 0 e11
y12 1 1 0 0 e12
1
y13 1
= + 1 0 0 2 + e13
y21 1 0 1 0 e21
3
y22 1 0 1 0 e22
y31 1 0 0 1 e31
Las ecuaciones normales generadas a partir del anterior modelo son

6 3 2 1 Y.. Y.. 504
3 3 0 0 1 Y1.
= , X t Y = Y1. = 300
2 0 2 0 2 Y2. Y2. 172
1 0 0 1 3 Y3. Y3. 32
Dos g-inversas para este sistema son

0 0 0 0 1 1 1 0
0 1 0 0 1 4
1 0
(X t X)g1 =
0 0
3 , (X t
X) g
= 3
1
2
0 2 1 1 3
2
0
0 0 0 1 0 0 0 0
Entonces, las dos soluciones son

0 32
100 68
10 = (X t X)g1 X t Y =
86 y 20 = (X t X)g2 X t Y
54

32 0
Se observa que X10 = X20 . Si 1 2 es estimable, entonces 1 2 = (0 1

1 0)[ 1 2 3 ]t = t .
De las EN
6 +31 +22 +3 = Y..
3 +31 = Y1.
(7.8)
2 +22 = Y2.
+3 = Y3.
Del sistema (7.8), en la ecuacin dos se observa que

Y1.
+ 1 = . (7.9)
3
Del mismo sistema, en la ecuacin tres se obtiene

Y2.
+ 2 = . (7.10)
2
Restando (7.9) de (7.10) se encuentra 1 2 = Y31. Y22. , de tal forma que

t t 1 1 Y1. Y2.
MELI(1 2 ) = 1 2 = q X Y = 0 0 X tY =
3 2 3 2
= Y1. Y2.
V ar(MELI(1 2 )) = V ar(1 2 ) = q t 2
= q t X t Xq = V ar(q t X t Y ) = q t 2

1 1 t 2 5
= 0 0 [0 1 1 0] = 2 .
3 2 6
La suma de cuadrados asociada de esta diferencia, esta dada por:
(at Y )2 (Y1. Y2. )2

SC(MELI(1 2 )) = SC(q t X t Y ) = SC(at Y ) = = 5
at a 6
Por otro lado, si

Y1. 2
Y1.2
Y1. 1 3 9 Y1.2
SC = SC (1 1 1 0 0 0)Y = = 1 =
3 3 at a 3
3
entonces

Y1. 2 Y1. (3 + 31 )2
E SC = + SC = 2 + = 2 + 3( + 1 )2 .
3 3 3
Se observa de este resultado que la hiptesis de inters es: H0 : + 1 = 0. La

forma directa de encontrar el valor esperado de la respectiva suma de cuadrados se
obtiene haciendo Y1. = Y11 + Y12 + Y13 = + 1 + e11 + + 1 + e12 + + 1 + e13 =
3 + 31 + e1. y Y1.2 = (3 + 31 + e1. )2 = 9( + 1 ) + 6e1. ( + 1 ) + e21. .
Calculando el valor esperado de Y1.2 y suponindose que E(e2ij ) = 2 se encuentra

que

Y1.
E SC = 2 + 3( + 1 )2 .
3
7.3.2. Transformaciones lineales y estimabilidad en modelos

superparametrizados
Modelo con restriccin paramtrica tipo
El modelo es un modelo lineal superparametrizado con restriccin paramtrica

de tipo suma igual a cero y se presenta como
Y = Z + e (7.11)
donde Znk es una matriz conocida de rango completo k1 es un vector de parme-

tros desconocidos y, Yn1 y en1 se definen en el modelo lineal superparametrizado
(7.1).
P
Se concentrara la atencin en el modelo con restriccin del tipo presentado
anteriormente, el cual es una representacin alternativa del modelo superparametri-
zado, esta reparametrizacin, busca transformaciones lineales de los parmetros de
tal forma que el espacio columna de la matriz Znk (C(Z)) en (7.11) sea idntico al
espacio columna de la matriz Xnp en (7.1), denotado por C(X).
Las transformaciones que conllevan a la superparametrizacin del modelo, se

soportan tericamente en los siguientes teoremas:
Teorema 7.2. Si Z es una matriz tal que el espacio columna de Z es idntico

con el espacio columna de X del modelo general Y = X + e, entonces un modo
alternativo de expresar el modelo (7.1) es Y = Z + e. Adems, la correspondencia
entre funciones paramtricas insesgadas de las correspondientes funciones estimables,
son funciones lineales idnticas de las observaciones en los dos modelos.
Teorema 7.3. Si en el modelo (7.1) se introduce la transformacin paramtrica

= , donde la matriz es tal que los espacios columnas de las matrices X y
X son idnticos, con la matriz no singular, entonces las siguientes condiciones se
cumplen:
a) El modelo (7.1) puede reescribirse de la siguiente forma:
Y = X + e = (X ) + e. (7.12)
b) Hay una correspondencia uno a uno entre las funciones estimables de los mo-
delos (7.1) y (7.12).
c) Los MELI de las correspondientes funciones estimables son idnticos.
Teorema 7.4. Un modelo de las hiptesis lineales que no sea de rango comple-
to, puede expresarse siempre como uno de rango completo sobre cualquier conjunto
deseado de k funciones estimables linealmente independientes, donde k es el rango
de la matriz asociada al modelo.
Las pruebas de los teoremas anteriores se pueden consultar en ?. Basados en las

anteriores ideas sobre estimabilidad, es posible considerar algunos mtodos alterna-
tivos para la construccin de un conjunto generador L de funciones estimables, los
cuales son presentados a partir de los datos del ejemplo 7.1.
Ejemplo 7.4. Para los datos del ejemplo (7.1), = (, 1 , 2 , 1 , 2 , 3 , 11 ,
12 , 13 , 21 , 22 ) R11 . Si la reparametrizacin consiste en eliminar las columnas
de X correspondientes a los parmetros 2 , 3 , 12 , 13 , 21 y 22 (equivale a colocar
2 = 3 = 12 = 13 = 21 = 22 = 0), entonces la matriz diseo presentada en el
ejemplo 7.1 se puede escribir como:

1 1 1 0 1
1 1 1 0 1

1 1 0 1 0

1 1 0 0 0

1 1 0 0 0
Z= 1 0 1 0 0

1 0 1 0 0

1 0 0 1 0

1 0 0 1 0
1 0 0 1 0
Y el modelo asociado es (7.11), en donde = (1 , 2 , 3 , 4 , 5 ) R5 . En este caso

1 y
10 5 4 4 2
5 5 2 1 2 y1
y1
= (Z t Z)1 Z t Y =
4 2 4 0 2 y2

4 1 0 4 0
y11
2 2 2 0 2
7.4. MODELOS LINEALES PARTICIONADOS Y SUMASDE CUADRADOS ASOCIADAS129

11/6 4/3 11/6 3/2 4/3 90 11
4/3 4/3 4/3
1 4/3 30 8

11/6 4/3 7/3 3/2 11/6 =
28 5
3/2 1 3/2 3/2 1 56
5
4/3 4/3 11/6 1 7/3 16 10
pero como Y = X + e = ZT + e = Z + e, entonces X = ZT , donde

1 0 1 0 0 1 0 1 1 0 1
0 1 1 0 0 0 0 1 0 0 1

t 1 t
T = (Z Z) Z X = 0 0 0 1 0 1 0 1 1 1 1

0 0 0 0 1 1 0 1 1 0 0
0 0 0 0 0 0 1 1 0 1 1
Finalmente se observa que el vector de parmetros en el modelo reparametrizado se
puede escribir en trminos de los parmetros del modelo superparametrizado, reali-
zando la siguiente transformacin:

+ 2 + 3 12 + 13 + 22
1 2 + 12 22

= T =
1 3 + 12 13 + 21 22

2 3 + 12 13
11 12 21 + 22
7.4. Modelos lineales particionados y sumas

de cuadrados asociadas
En esta seccin se parte del modelo particionado en k partes ortogonales para

obtener, a partir de estas particiones, los diferentes tipos de hiptesis y sumas de
cuadrados asociadas.
7.4.1. Modelo particionado en dos partes
Si se supone que Y = F (X11 , . . . , Xp1 ; X12 , . . . , Xq2 ) se tiene inters en evaluar

si X1 = (X11 , . . . , Xp1 ) contribuyen a explicar a Y una vez que se tiene a X2 =
(X12 , . . . , Xq2 ) en el modelo, o tambin si Y = F (X1 /X2 ), es decir que si X11 , . . . , Xp1
explican a Y dado que estn incluidos en el modelo X12 , . . . , Xq2 . En ste caso se puede
ajustar los modelos
Y = X1 1 + X2 2 (7.13)
o
Y = X2 2 + X1 1 . (7.14)
El orden en que se escribe el modelo es bien importante. Los rdenes de los

respectivos valores de parmetros son: 1 de tamao
p 1 y 2 de tamao q 1. Si
. .
X y son particionados de la forma X1 .. X2 y t = [t .. t ], respectivamente, y
1 2
se considera el modelo,
Y = X2 2 + e (7.15)
entonces
R(2 ) = (20 )t X2t Y, (7.16)
donde 20 es una solucin al sistema X2t X2 2 = X2t Y .
De la misma manera se define
R(1 /2 ) = R(1 , 2 ) R(2 ) (7.17)
el modelo (7.13) tiene las siguientes ecuaciones normales:
X1t X1 1 + X1t X2 2 =X1t Y (7.18)

X2t X1 1 + X2t X2 2 =X2t Y (7.19)
De la ecuacin (7.18) se sigue que 1 = (X1t X1 ) (X1t Y X1t X2 2 ), sustituyendo este

resultado en la ecuacin (7.19), se tiene
h i
X2 X1 (X1 X1 ) (X1 Y X1 X2 2 ) + X2t X2 2 = X2t Y
t t t t
(7.20)
Haciendo los desarrollos algebraicos apropiados entonces (7.20) se puede escribir
X2t X1 (X1t X1 ) X1t X2 2 + X2t X2 2 = X2t Y X2t X1 (X1t X1 ) X1t Y

X2t [I X1 (X1t X1 ) X1t ]X2 2 = X2t [I X1 (X1t X1 ) X1t ]Y
X2t (I P1 )X2 2 = X2t (I P1 )Y (7.21)
donde P1 = X1 (X1t X1 ) X1t .
Las ecuaciones normales obtenidas en (7.21) se conocen como ecuaciones normales

reducidas (ENR) asociadas con X2 2 despus de tener X1 1 en el modelo. Observe
que [I P1 ]Y es el vector de residuales cuando se ajusta el modelo E(Y ) = X1 1
y adems las columnas [I P1 ]X2 en (7.21) son vectores de residuales cuando se
ajustan las columnas de X2 como vector de respuestas. Las estimaciones de 2 en el
modelo reducido se obtienen con:
2 = [X2t (I P1 )X2 ]1 X2t [I P1 ]Y
la suma de cuadrados de los residuales es
SCE(2 ) = Y t (I P1 )Y 2t X2t (I P1 )Y (7.22)
En (7.22), Y t (I P1 )Y es la mnima suma de cuadrados para ajustar el modelo

Y = X1 1 . La tabla 7.3 resume el anlisis de varianza para este modelo.
Tabla 7.3: Tabla de ANOVA para el modelo particionado Y = X1 1 + X2 2 .

Causas de Variacin gl SC
X 1 : X 1 1 r1 Y t P1 Y
X2 /X1 : X2 2 despus de X1 1 r12 r1 Y t (P12 P1 )Y
I/X1 X2 : Residual n r12 Y t (I P12 )Y
Total n Y tY
.
donde r1 = ran(X1 ) y r12 = ran(X1 ..X2 ).
Observacin 7.4. Si hay ortogonalidad se satisface que
Y t (P12 P1 )Y = Y t P2 Y, Y
y
Y t (P12 P2 )Y = Y t P1 Y, Y
luego P12 = P1 + P2 o tambin X1t P12 X2 = X1t P1 X2 + X1t P2 X2 , lo cual implica que
X1t X2 = 0.
Observacin 7.5. Un caso particular del modelo particionado es considerar el

modelo Y = 1 + X donde 1t = (1, 1, . . . , 1), luego el modelo tiene la forma
Y = X1 1 + X2 2 , con P1 = 1(1t 1)1 1t = n1 11t = n1 Jn .
Las ENR estn dadas por

t 1 t 1
X I Jn X 2 = X I Jn Y (7.23)
n n
La SC() = Y t n1 Jn Y , esta suma de cuadrados es conocida como el factor de correc-

cin.
Ejemplo 7.5. Para los datos del ejemplo 7.3 se tiene el modelo: Y = X1 + X2 + .
. . .
Haciendo X = [X1 ..X2 ] y t = [t ..t ] = [..1 , 2 , 3 ], las ENR quedan de la forma
1 2
X2t (I P1 )X2 2 = X2t (I P1 )Y
donde 2t = (1 , 2 , 3 )t se estima solucionando el siguiente sistema:

8 4 4 1 32
3 3
4 7 3 2 = 6
10 10
4 3 7 3 26

0
Luego 2 = [X2 (I P1 )X2 ] X2 (I P1 )Y = 3.
0 t t
5
Las sumas de cuadrados asociadas a cada una de las causas de variacin y con la
finalidad de obtener la tabla de anlisis de varianza asociada a los datos del ejemplo
7.3, se debe tener en cuenta el siguiente procedimiento:
i. Con base en el modelo particionado se encuentra que: r1 = ran(X1 ) = 1 y

r12 = ran(X12 ) = 3.
ii. Se obtienen las sumas de cuadrados realizando los siguientes clculos

!2
1 1 XX
Y t P1 Y =Y t J66 Y = yij
n n i j
y..2 (50.4)2
= = = 423.36
6 6
P3
con n = i=1 ni , la cual se conoce como suma de cuadrados asociado a la
media.
De forma anloga se obtienen la suma cuadrados asociada a los tratamientos

ajustados por la media, o sea

t t t t 1
SCM = Y (P12 P1 )Y = Y (X12 (X12 X12 )) X12 Jnn Y
n
1 1 1
3 3 3
0 0 0
1 1 1 0 0 0
13 31 31

t 3 0 0 0 y..2
=Y 3 3 Y
1 1
0 0 0 12 21 0 6
0 0 0 0
2 2
0 0 0 0 0 1
X3
1 2 y..2
SCM = y
i=1
ni i. 6
1 1 (50.4)2
= (300)2 + (172)2 + (32)2 = 45932.64
3 2 6
Finalmente se obtiene la suma de cuadrados residual
SCRes = Y t (I P12 )Y = Y t Y Y t P12 Y

X ni
3 X X3
1 2
= yij2 y
i=1 j=1 i=1
ni i.
Por lo tanto, la tabla 7.4 corresponde al anlisis de varianza para el modelo

propuesto en el ejemplo 7.3.
Observacin 7.6. Como se satisface que (I P1 ) = (I X1 (X1t X1 ) X1t ) es idem-
potente, por lo tanto se puede escribir
X2t [I P1 ][I P1 ]X2 2 = X2t [I P1 ]Y. (7.24)
Haciendo A = X2t (I P1 ), se tiene en (7.24) el sistema de At A = At Y , que tiene

las caractersticas de las ecuaciones normales, por tanto es un sistema consistente.
Teorema 7.5. Una funcin lineal paramtrica t 2 se dice que es estimable en el
modelo Y = X1 1 + X2 2 si y solamente si t C(X2t (I P1 )X2 ).
Tabla 7.4: Tabla de anlisis de varianza del modelo particionado para los datos del
ejemplo 7.3.
2
y..
Media (X1 1 ) 1 6 = 423.36
P3
1 2
2
y..
Modelo (X2 2 /X1 1 ) 2 ni yi. 6 = 45392.64
i=1
P3 Pni
2
P
3
1 2
Residual 3 yij ni yi.
i=1 j=1 i=1
P3 P ni
2
Total 6 yij
i=1 j=1
7.4.2. Modelo particionado en tres partes
Considere el modelo Y = X1 1 + X2 2 + X3 3 en donde se tie-

nen 3! = 6 posibles anlisis de varianza, los cuales dependen de la for-
ma como se ordenen los trminos que entran en el modelo; estas son:
X1 X1 X2 X2 X3 X3
X2 /X1 X3 /X1 X1 /X2 X3 /X2 X1 /X3 X2 /X3
X3 /X1 X2 X2 /X1 X3 X3 /X1 X2 X1 /X2 X3 X2 /X1 X3 X1 /X2 X3
I/X1 X2 X3 I/X1 X2 X3 I/X1 X2 X3 I/X1 X2 X3 I/X1 X2 X3 I/X1 X2 X3
Cualquier suma de cuadrados es obtenida usando la reduccin en suma de cua-

drados como por ejemplo
SC(X3 /X1 , X2 ) = R(3 /1 , 2 )

= R(1 , 2 , 3 ) R(1 , 2 )
= Y t (P123 P12 )Y
donde, por ejemplo,

. . . . . . . .
P123 = (X1 ..X2 ..X3 )[(X1 ..X2 ..X3 )t (X1 ..X2 ..X3 )] (X1 ..X2 ..X3 )t
Ejemplo 7.6. Hinkelman & Kempthorne (1994) consideran un modelo a dos vas
de clasificacin sin interaccin, es decir
Yijk = + i + j + ijk (7.25)
donde i = 1, . . . , r, j = 1, . . . , c y k = 1, . . . , ij con ij 0. Matricialmente se puede

escribir:
Y = 1 + Xr + Xc (7.26)
donde Xr y Xc son matrices de incidencia. En el modelo (7.26) se tienen nicamente

dos anlisis de varianza
1 1
Xr /1 Xc /1
y
Xc /1, Xr Xr /1, Xc
I/1, Xr , Xc I/1, Xr , Xc
En el clculo de las sumas de cuadrados se satisface
SC(Xc /1, Xr ) = SC(1, Xc , Xr ) SC(1, Xr ) = SC(Xc /1)
El anterior resultado es equivalente a
SC(Xr /1, Xc ) = SC(Xr /1).
Las sumas de cuadrados en trminos de proyectores ortogonales son obtenidas

como
Y t (Prc Pr )Y = Y t (Pc P1 )Y (7.27)
donde P1 = 1(1t 1)1 1t es el proyector ortogonal en el espacio columna de 1 (C(1)),

. .
Pr es el proyector ortogonal en el espacio columna de (1 .. Xr ), (C(1 .. Xr )) y Prc es
. . . .
el proyector ortogonal en el espacio columna de (1 .. Xr .. Xc ), (C(1 .. Xr .. Xc )).
En (7.27) para que la igualdad se satisfaga para todo Y se necesita: Pcr Pr =

Pc P1 , dando
Xrt (Pcr Pr )Xc = Xrt (Pc P1 )Xc
Xrt Pcr Xc Xrt Pr Xc = Xrt Pc Xc Xrt P1 Xc (7.28)
Reemplazando por las matrices asociadas al proyector, se satisface que el lado iz-
quierdo en (7.28) es Xrt Xc Xrt Xc = 0 y el lado derecho es Xrt Xc Xrt P1 Xc . De esta
manera, Xrt Xc = n1 (Xrt 1)(1t Xc ) es el nmero de observaciones para cada combinacin
fila-columna, entonces se dice que hay una nica ANOVA si hay proporcionalidad en
las celdas.
7.4.3. Modelo particionado en K partes ordenadas
Al particionar el modelo (7.1) se satisface que
X1t X1 B1 = X1t y P1 = X1 B1 = X1 (X1t X1 ) X1t

t t t
X12 X12 B12 = X12 y P12 = X12 B12 = X12 (X12 X12 ) X12 t
t t t
X123 X123 B123 = X123 y P123 = X123 B123 = X123 (X123 X123 ) X123 t
..
.
t t t
X1k X1k B1k = X1k y P1k = X1...k B1k = X1k (X1k X1k ) X1k
t
donde P1 , P12 , . . . , P12...k son matrices simtricas e idempotentes y, adems, P12...i es

el proyector ortogonal en el espacio columna de X12...i (C(X12...i )), i = 1, 2, . . . , k.
De esta manera el modelo se puede escribir como:
Y = P1 Y + (P12 P1 )Y + + (P12...k P12...k1 )Y + (I P12...k )Y (7.29)
donde cada trmino de (7.29) es ortogonal a todas las dems componentes de la

descomposicin y, adems, la matriz asociada a cada componente es simtrica e
idempotente.
El anlisis de varianza asociado con el modelo particionado se presenta en la tabla

7.5.
Tabla 7.5: Tabla de anlisis de varianza asociada al modelo particionado (7.29).

X 1 1 r(X1 ) Y t P1 Y
X2 2 /X1 1 r(X12 ) r(X1 ) Y t (P12 P1 )Y
X3 3 /X1 1 + X2 2 r(X123 ) r(X12 ) Y t (P123 P12 )Y
.. .. ..
. . .
Xk k /X1 1 + + Xk1 k1 r(X12...k ) r(X12...k1 ) Y t (P12...k P12...k1 )Y
I/X1 1 + + Xk k n r(X12...k ) Y t (I P12...k )Y
Total n Y tY
Desde este punto de vista, computacionalmente las sumas de cuadrados se obtie-

nen secuencialmente ajustando los modelos:
Y = X1 1 + d
Y = X1 1 + X2 2 + d
..
.
Y = X1 1 + X2 2 + + Xk k + d
Observacin 7.7. Cada modelo va a tener k! anlisis de varianza, una para cada
orden posible en el que se arreglan las k-componentes. Si hay ortogonalidad o sea si
Xit Xj = 0 se va a tener un nico anlisis de varianza.
Ejemplo 7.7. Suponga el siguiente conjunto de datos de la tabla 7.6, donde se ca-
racteriza un modelo a dos vas sin interaccin.
Tabla 7.6: Datos ficticios para un modelo de clasificacin a dos vas sin interaccin.
Factor B
Factor A 1 2 3 4
1 3.5 2.6 2.9 3.6
2 2.8 1.9 2.1 3.4
3 3.8 2.9 3.2 3.2
4 4.1 4.9 4.2 4.3
5 2.7 1.6 1.8 2.5
La matriz diseo para este conjunto de datos asociada al modelo (7.1) esta dada
por
. . . .
X = [X1 .. X2 .. X3 ] = [120 .. I5 14 .. 15 I4 ].
Para este arreglo se ajusta secuencialmente los siguientes modelos:
1. Yij = + eij ; i = 1, 2, . . . , 5; j = 1, 2, 3, 4.
En este caso, Y = [3.5, 2.6, 2.9, 3.6, 2.8, 1.9, 2.1, 3.4, 3.8, 2.9, 3.2, 3.2, 4.1, 4.9, 4.2,
4.3, 2.7, 1.6, 1.8, 2.5]t,
1
P1 = X1 (X1t X1 ) X1t = J20
20
con J20 es una matriz de unos de tamao 20 20 y X1 = 120 es un vector de
unos de tamao 20 1.
La suma de cuadrados asociada a este modelo es
R() = Y t X1 (X1t X1 ) X1t Y = 192.2
y la suma de cuadrados del error asociada en este caso es
SCE = SCT otal R() = 207.42 192.2 = 15.22
2. Yij = + i + eij , i = 1, 2, . . . , 5, j = 1, 2, 3, 4, con
t 1
P12 = X12 (X12 X12 ) X12
t
= (I5 J4 )
4
donde I5 una matriz identidad de tamao 55, J4 una matriz de unos de
.
tamao 4 4 y X12 = [120 .. I5 14 ].
La suma de cuadrados asociada a este modelo es
R(, ) = Y t X12 (X12

t
X12 ) X12
t
Y = 203.66
y la suma de cuadrados asociada al efecto (factor A) es
R( /) = R(, ) R() = 203.66 192.2 = 11.46.
En este caso, la suma de cuadrados asociada al error para este modelo esta
dada por
SCE = SCT otal R(, ) = 207.42 203.66 = 3.76.
Finalmente se puede ajustar el modelo

3. Yij = + i + j + eij , i = 1, 2, . . . , 5, j = 1, 2, 3, 4, con
t
P123 = X123 (X123 X123 ) X123
t
. .
donde, X123 = [120 .. I5 14 .. 15 I4 ]. La suma de cuadrados asociada a este
modelo esta dada por
R(, , ) = Y t X123 (X123

t
X123 ) X123
t
Y = 205.35
y la suma de cuadrados asociada al efecto (factor B) es
R(/, ) = R(, , ) R(, ) = 205.35 203.66 = 1.69

Tabla 7.7: Anlisis de varianza para los datos del ejemplo 7.7 con el modelo completo.
C de V gl SC CM F Valor p
Modelo Correg. 7 13.15 1.8786 10.87 0.0002
Error 12 2.07 0.1727
Total correg. 19 15.22
4. SCE = Y t Y R(, , ) = 207.42 205.35 = 2.07.
Con estos resultados, se construye la tabla 7.7 de ANOVA para el modelo completo
sin interaccin.
Los grados de libertad (gl) y la suma de cuadrados del modelo asociados a la tabla
7.7 se descompone en los efectos que aparecen en la tabla 7.8.
Tabla 7.8: Suma de cuadrados tipo I para los datos del ejemplo 7.7.
C de V gl SC CM F Valor p
A 4 11.46 2.86 16.58 0.0001
B 3 1.69 0.56 3.26 0.0593
Error 12 2.07 0.17
Con esta descomposicin se caracteriza las sumas de cuadrados tipo I (Searle

1987). De los resultados de la tabla 7.8, se concluye que para la hiptesis nula
(1)
H0 : 1 = 2 = 3 = 4 = 5
o equivalentemente,
(1)
H0 : 1 = 2 = 3 = 4 = 5
se rechaza (valor p=0.0001).
En tanto que la hiptesis nula

(2)
H0 : 1 = 2 = 3 = 4
o equivalentemente,
(2)
H0 : 1 = 2 = 3 = 4 = 5
no se rechaza a un nivel de significancia del 5 % (valor p=0.0593).
7.5. Sumas de cuadrados y funciones estimables
En esta seccin se lleva a cabo el desarrollo de cada una de las sumas de cuadrados
presentadas, siguiendo la lgica del procedimiento GLM del paquete estadstico SAS
(2014).
El procedimiento GLM genera la base de las funciones estimables usando cada

fila no nula linealmente independiente de (X t X) (X t X) para representar la forma
general de las funciones estimables, involucra todos los parmetros del modelo y a
cada fila no nula, linealmente independiente de (X t X) (X t X), le asocia un smbolo
L. El nmero de smbolos libres en L, representa el rango mximo asociado a la
matriz diseo del modelo de inters.
Cada suma de cuadrados tiene caractersticas estadsticas, condiciones de uso

y manejo de acuerdo al modelo lineal planteado, segn la naturaleza de los datos
(balanceados y no balanceados).
A partir del modelo (7.1), al realizar una particin de la matriz diseo, de la

. .
forma: X = (X1 .. X2 .. X3 ), se obtiene
t
X1
X X = X2t X1 ... X2 ... X3
t
X3t
t (7.30)
X1 X1 X1t X2 X1t X3
= X2t X1 X2t X2 X2t X3
X3t X1 X3t X2 X3t X3
A partir de esta particin se generan las diferentes sumas de cuadrados, las cuales se
trabajarn con ms detalle en las siguientes secciones.
7.5.1. Sumas de cuadrados y funciones estimables tipo I
Sumas de cuadrados tipo I
Las sumas de cuadrados Tipo I miden la reduccin en la sumas de cuadrados del

error, cuando se adicionan nuevos parmetros al modelo.
7.5. SUMAS DE CUADRADOS Y FUNCIONES ESTIMABLES 141
Estas sumas de cuadrados son particularmente tiles en regresin lineal mltiple,

modelos polinmicos, diseos anidados, en ciertas pruebas que involucran homoge-
neidad de coeficientes de regresin, como tambin suministran informacin acerca
del efecto de la carencia de balance (multicolinealidad).
Funciones estimables tipo I
Las funciones estimables tipo I, definen las hiptesis a probar cuando la reduc-
cin en suma de cuadrados es calculada para cada efecto ajustado por los efectos
precedentes.
Las funciones estimables tipo I son obtenidas haciendo una debida particin en la
matriz X como en (7.30), de acuerdo con los parmetros del modelo. Las funciones
estimables se obtienen segn sea el inters de entrada de los diferentes trminos al
modelo; por ejemplo el modelo (7.1) se puede expresar como Y = X1 +X2 +X3 +e,
entonces para obtener las funciones estimables tipo I, se construyen las siguientes
matrices iniciales asociadas a cada uno de los efectos:
. .
G1 =(X1t X1 .. X1t X2 .. X1t X3 )
. .
G2 =(0 .. X2t M1 X2 .. X2t M1 X3 )
. .
G3 =(0 .. 0 .. X3t M2 X3 )
siendo M1 = I X1 (X1t X1 ) X1t y M2 = M1 M1 X2t (X2t M1 X2 ) X2t M1 .
Con el procedimiento GLM de SAS, las funciones estimables tipo I, se obtienen

con la opcin E1 ; las funciones obtenidas en esta opcin se encuentran a travs de
las siguientes matrices:
G1 =(X1t X1 ) G1
G2 =(X2t M1 X1 ) G2
G3 =(X3t M2 X3 ) G3
Las funciones estimables tipo I y sus respectivas hiptesis asociadas, se encuentran

. .
colocando valores arbitrarios a los smbolos L, donde L = (Gt ..Gt ..Gt )t .
1 2 3
Las funciones estimables tipo I y sus respectivas sumas de cuadrados, dependen

del orden en que los efectos son adicionados al modelo. Esta propiedad es inmedia-
ta de verificar, basta tomar la matriz de diseo, la cual se obtiene cambiando las
columnas correspondientes a los efectos reordenados en la matriz original.
Alguna de las funciones estimables tipo I dependen de la frecuencia de las cel-

das (nmero de observaciones). Adems, para el caso de diseos desbalanceados,
cada hiptesis involucra los parmetros de los efectos a probar ms todos los dems
parmetros del modelo propuesto.
7.5.2. Sumas de cuadrados y funciones estimables tipo II
Corresponden a la reduccin en las sumas de cuadrados del error obtenida al

adicionar un trmino despus de que todos los dems han sido adicionados al mode-
lo; excepto trminos que contengan el efecto a probar.
Como la contenencia entre efectos es un concepto muy importante, se hace nece-

saria la siguiente definicin.
Definicion 7.3. Dados los efectos E1 y E2 , entonces E1 est contenido en E2 si:
i) Ambos efectos involucran el mismo nmero de variables continuas y si el n-

mero es positivo entonces los nombres de las variables coinciden.
ii) Si E2 tiene ms variables que E1 y si E1 tiene variables de tal forma que todas
las de E1 estn en E2 .
Funciones estimables tipo II
La forma general de las funciones estimables puede ser manejada para obtener
pruebas de hiptesis que involucren solo el efecto en cuestin.
Goodnight (1978) describe un proceso reversible para obtener las funciones esti-
mables tipo II basado en la siguiente definicin:
Definicion 7.4. Las funciones estimables tipo II para un efecto E1 , tienen un L de

la siguiente forma:
i) Todas las columnas de L asociadas con los efectos que no contengan a E1

(excepto E1 ) se anulan.
ii) La submatriz de L asociada con el efecto E1 es de la forma
(X1t M X1 ) (X1t M X1 ) (7.31)
siendo M = I X0 (X0t X0 ) X0t .
iii) Cada una de las submatrices restantes de L asociadas con un efecto E2 que
contiene a E1 son de la forma
(X1t M X1 ) (X1t M X2 ) (7.32)

donde X0 son las columnas de X cuyos efectos asociados no contienen a E1 , X1 son
las columnas de X asociadas con E1 y X2 son las columnas de X asociadas con el
efecto E2 , las cuales contienen a E1 .
De la misma forma, se dan valores arbitrarios a los smbolos L correspondientes

a cada fila linealmente independiente de la matriz generadora L, obtenindose las
hiptesis tipo II.
Goodnight (1978) recomienda el uso de las funciones estimables tipo II en algunos

de los siguientes casos: en diseos balanceados, modelos de efectos principales, diseos
puramente anidados y en algunos modelos que no involucren variables de clasificacin.
7.5.3. Sumas de cuadrados y funciones estimables tipo III
El anlisis tipo III est asociado con las sumas de cuadrados parciales, llama-
do anlisis completo de mnimos cuadrados, el cual equivale al anlisis de medias
cuadrticas de Yates. Se aplica principalmente cuando se requiere comparar efectos
principales, an en presencia de interaccin. Cada efecto es ajustado por los dems,
lo que implica que si el modelo contiene slo efectos principales, entonces el anlisis
tipo II es igual al anlisis tipo III.
Funciones estimables tipo III
En la mayora de los diseos desbalanceados es posible planear las mismas hip-

tesis (funciones estimables), que se probaran en diseos balanceados. En diseos con
celdas que tienen informacin faltante por efecto de la eliminacin de las celdas sin
informacin, estas funciones estimables se construyen como si la informacin fuera
balanceada. Con la siguiente definicin se caracterizan estas funciones.
Definicion 7.5. Un conjunto de funciones estimables, una para cada efecto en el
modelo, son funciones estimables tipo III si y solo si cada una de ellas constituye
una hiptesis de rango mximo, es decir la matriz L de la hiptesis H0 : L = 0 tiene
rango igual al de la matriz X. Cada hiptesis involucra nicamente parmetros del
efecto en cuestin y los parmetros de los efectos que lo contienen. Adems, cada L
es ortogonal a todos los L de efectos que contienen al efecto de inters.
La definicin anterior implica que las funciones estimables tipo II pueden ser
transformadas a las funciones estimables tipo III, haciendo que cada L de orden in-
ferior sea ortogonal a los L de todos los efectos que contienen al efecto de inters.
Adicionalmente, si un efecto no esta contenido en otro, entonces las funciones esti-
mables tipo II y tipo III coinciden. Las funciones estimables tipo III se construyen
de la siguiente forma:
En primer lugar se construye una base para el efecto E1 con la notacin de

la forma general de las funciones estimables, si ningn coeficiente libre (un nico
smbolo) existe fuera del factor E1 , entonces estas son las funciones estimables tipo
III para E1 .
Si existen coeficientes libres fuera del factor E1 , entonces cada uno de estos coe-
ficientes se iguala a una funcin de los coeficientes libres de E1 , de esta manera se
construyen las funciones estimables tipo III, para el efecto E1 , ortogonales a cada
una de las dems funciones estimables tipo III que contienen E1 .
Otra alternativa para la construccin de las funciones estimables tipo III consiste
en encontrar un conjunto de vectores linealmente independientes, asignando un vector
a cada coeficiente libre y anulando los dems coeficientes. El nmero de vectores
fila generado, corresponde al nmero de coeficientes libres. Se inicia con el primer
vector fila, anulando todos los parmetros asociados con E1 ; los dems vectores
se hacen ortogonales al primer vector por medio de operaciones entre filas, de tal
forma que el primer factor se anule. El proceso contina hasta anular todos los
parmetros asociados con E1 . Los parmetros resultantes son expresados nuevamente
en la notacin inicial y de esta manera, se obtienen las funciones estimables tipo III
asociadas a E1 .
7.5.4. Sumas de cuadrados y funciones estimables tipo IV
Se conocen como sumas de cuadrados parciales. Originalmente fueron diseadas

para arreglos donde haya presencia de celdas vacas. En el caso que no haya celdas va-
cas las sumas de cuadrados tipo III y IV coinciden. En la construccin, simplemente
se considera un conjunto de datos donde no ocurran celdas vacas: Si estas existen,
las sumas de cuadrados tipo IV pueden no ser nicas, pues estas van a depender de
la ubicacin de los datos en las celdas.
Funciones estimables tipo IV
Para algn efecto E1 , si E1 no est contenida en algn otro efecto entonces las
funciones estimables tipo II, III y IV son iguales. Cuando E1 est contenida en otros
efectos entonces las funciones estimables tipo IV asignan la misma ponderacin a los
niveles altos de los contrastes lineales asociados a los parmetros de E1 .
Las funciones estimables tipo IV, para un efecto E1 pueden ser construidas de la
base de funciones estimables, tomando los smbolos asociados a E1 de la siguiente
forma: considere que el efecto E1 est contenido en otros efectos de acuerdo con
un orden determinado (segn el nmero de efectos que componen una interaccin).
Cuando hay celdas vacas, los coeficientes de efectos intermedios (de acuerdo al orden)
no tendrn siempre una asignacin igual a los coeficientes asignados para los efectos
de orden bajo, as siempre se determinan primero los coeficientes de ms alto orden.
Una vez que los coeficientes de orden superior son hallados, los coeficientes de efectos
intermedios quedan determinados.
Para la construccin de las funciones estimables tipo IV, se desarrolla el siguiente

proceso para un efecto E1 .
i) Se selecciona un coeficiente libre de algunos de los niveles del factor E1 y se

anulan los dems coeficientes de ste.
ii) Si alguno de los niveles del factor E1 tiene como coeficiente el cero, entonces
se igualan a cero todos los coeficientes de orden superior que contengan dicho
nivel.
iii) Si un coeficiente de algn nivel superior es cero y el coeficiente del nivel asociado
para E1 es diferente de cero, entonces las funciones estimables para este efecto
no son nicas.
iv) Para cada nivel siguiente en E1 , si el coeficiente es distinto de cero, entonces se

cuenta el nmero de veces que aparece ste en los niveles de efectos superiores,
y posteriormente, se iguala cada uno de los coeficientes de ste nivel dividiendo
por el nmero de coeficientes encontrados.
Los pasos anteriores corresponden a operaciones hechas sobre el espacio vectorial

generado por la base de E1 , las cuales son equivalentes a operaciones elementales
entre filas.
7.6. Hiptesis ms comunes sobre filas y columnas
En el siguiente ejemplo, se ilustra de manera sencilla las diferentes sumas de

cuadrados para un modelo a dos vas con interaccin, caracterizando las hiptesis
ms comunes sobre filas y columnas, en modelos superparametrizados y de medidas
de celda.
A partir del ejemplo 7.1, se obtienen las diferentes hiptesis, no pretendiendo

presentar una generalizacin de los diferentes tipos de funciones estimables.
Ejemplo 7.8. Retomando el ejemplo 7.1, la inversa de Moore Penrose de la matriz

7.6. HIPTESIS MS COMUNES SOBRE FILAS Y COLUMNAS 147
de indicadores en el modelo de medias de celda es (Iemma et al. 1999)

1
2
0 0 0 0
1 0 0 0 0
2 1
0 0 0
1 01
0 0 0 0
2
0 0 1 0 0
+
W = 2
0 0 0 1
0
2
0 0 0 1
0
2
0 0 0 0 31

0 0 0 0 13
0 0 0 0 13
Dentro de los varios tipos de hiptesis existentes, el procedimiento GML del SAS,
incorpora, en relacin con el modelo en estudio, cuatro tipos de funciones y sumas
de cuadrados para probar efectos de filas, cuatro para probar efectos de columnas y
uno para el efecto de interaccin. Aqu solamente se considera un tipo en cada caso.
a) Hiptesis Tipo I. Las hiptesis tipo I, igualdad entre los efectos de filas, se
verifica a travs de las medias ponderadas. Utilizando el modelo (7.4), se tiene
(1) 211 + 12 + 213 221 + 322

H0 : =
5 5
y para el modelo (7.1), notando que ij = + i + j + ij , se tiene
(1) 2 2 2 1 2 2 3
H0 : 1 2 2 + 3 + 11 + 12 + 13 21 22 = 0
5 5 5 5 5 5 5
que sin duda no es una hiptesis simple de ser interpretada y que es bien
diferente de la hiptesis H0 : 1 = 2 (o H0 : 1 2 = 0) que en general, un
investigador cree estar probando.
Utilizando el modelo (7.4), la hiptesis nula se puede escribir de la forma:
(1)
H0 : t1 = 0, donde t1 = [ 25 , 15 , 25 , 25 , 35 ]. En este caso, a1 = W + 1 , entonces
E(at1 Y ) = t1 , donde

t 1 1 1 1 1 1 1 1 1 1
a1 = , , , , , , , , ,
5 5 5 5 5 5 5 5 5 5
De manera simple se obtiene P1 = a1 (at1 a1 )1 at1 ,

1 I5 I5
P1 =
10 I5 I5
encontrndose
(1)
SCH0 = R(t /) = Y t P1 Y
= (t1 )t [t1 (W t W )1 1 ]1 (t1 ) = 90.
En el modelo superparametrizado, se tiene

(1)
SCH0 = R(/) = Y t P1 Y = 90.
b) Hiptesis Tipo II. Con las hiptesis Tipo II, se prueban los efectos de co-
lumnas a travs de medias ponderadas de columnas ajustadas por filas. Para
los datos utilizados se tiene, conforme Searle (1987) y Iemma et al. (1999)
(
211 +221
(6) 4
= 2F1 +2
4
F2
H0 12 +322
4
= F1 +3
4
F2
donde
211 + 12 + 213 221 + 322
F1 = y F2 = .
5 5
Obtenindose finalmente

3 1 1 3 3

10 11 10 12 5 13 + 10 21 10 22 = 0
(6)
H0

1
10 11 + 15 12 10
1 3
13 10 3
21 + 10 22 = 0
y en trminos del modelo (7.1),

(
(6) 1 3 + 11 + 14
14 11
3 3
12 13 + 14 3
21 14 22 = 0
H0 3 4 3 3
2 3 + 7 11 + 7 12 13 7 21 + 7 22 = 0
la cual no contiene los efectos de fila, pues en esta hiptesis los efectos de
columnas estn ajustados por filas.
(6)
En el modelo (7.4), la hiptesis a probar se puede escribir como H0 : t2 = 0,
donde 3
1
10
10 15 3
10
3
10
t2 =
1 1 1 3 3
10 5
10 10 10
y para la obtener la suma de cuadrados asociada a la hiptesis, se construye

at2 como
3 3 1 1 1 3 3 1 1 1

20 20
10 10 10 20 20
10 10 10
at2 = t2 (W + )t =
1 1 1 1 1 3 3 1 1 1
20 20 5
20 20 20 20 10 10 10
De forma directa se tiene P2 = a2 (at2 a2 )1 at2 , entonces

27 27 2 28 28 15 15 10 10 10
27 27 2 28 28 15 15 10 10 10

2 2 52 28 28 30 30 20 10 10

28 28 28 42 42 0 0 0 0 0

1 28 28 28 42 42 0 0 0 0 0

P2 =
140
15 15 30 0 0 27 27 18 18 18

15 15 30 0 0 27 27 18 18 18

10 10 20 0 0 18 18 12 12 12

10 10 20 0 0 18 18 12 12 12
10 10 20 0 0 18 18 12 12 12
(6)
Luego SCH0 = R(i,j /i ) = R(/, ) = Y t P2 Y = 107.14.
c) Hiptesis Tipo III. Con esta hiptesis, la igualdad entre efectos de fila es
verificada a travs de sus medias no ponderadas. En este caso las frecuencias
de celdas no son importantes. Continuando con el ejemplo de inters se tiene
(3) 11 + 12 21 + 22
H0 : =
2 2
Se observa que para esta hiptesis no se utiliza la informacin de la celda (1,3).
En trminos del modelo (7.1), la hiptesis de inters es
(3) 1 1 1 1
H0 : 1 2 + 11 + 12 21 22 = 0.
2 2 2 2
(3)
En el modelo (7.4), la hiptesis nula se puede expresar como H0 : t3 = 0,
donde t3 = [ 12 , 12 , 0, 12 , 12 ], realizando las respectivas operaciones, se encuen-
tra
t 1 1 1 1 1 1 1 1
a3 = , , , 0, 0, , , , ,
4 4 2 4 4 6 6 6

9 9 18 0 0 9 9 6 6 6
9 9 18 0 0 9 9 6 6 6

18 18 36 0 0 18 18 12 12 12

0 0 0 0 0 0 0 0 0 0

1 0 0 0 0 0 0 0 0 0 0
P3 =
84 9 9 18 0 0 9 9 6 6 6

9 9 18 0 0 9 9 6 6 6

6 6 12 0 0 6 6 4 4 4

6 6 12 0 0 6 6 4 4 4
6 6 12 0 0 6 6 4 4 4
y entonces,
(3)
SCH0 = R(ij /j,ij ) = R(/, , ) = Y t P3 Y = 15.43
d) Hiptesis tipo IV. Con las hiptesis tipo IV, la igualdad entre factores de
columnas se verifica a travs de medias no ponderadas. En este contexto, stas
pueden ser semejantes a las tipo III. Si existen celdas vacas y ms de dos
niveles de cada factor, en general, las hiptesis tipo III y IV son diferentes.
Las hiptesis tipo IV no son nicas, en general, cuando hay celdas vacas, estas
dependen de la cantidad y la posicin de las celdas. Las hiptesis tipo IV
pueden ser obtenidas construyendo contrastes entre medias de celdas que estn
en la misma columna, despus de cambiar las filas por columnas en el tabla
7.1, inicindose el proceso siempre por la ltima fila. De esta forma, se obtiene
la tabla 7.9.
Tabla 7.9: Arreglo de la informacin del tabla 7.1 para construir de las funciones
estimables tipo IV.
i=1 i=2
j=1 Y111 = 7 Y112 = 9 11 Y211 = 5 Y212 = 7 21
j=2 Y121 = 8 12 Y221 = 14 Y222 = 15 Y223 = 19 22
j=3 Y131 = 2 Y132 = 4 13

Entonces la hiptesis de inters es

(
(8) 11 = 13
H0 :
12 = 13
Se puede observar, en este caso, que esta hiptesis no considera ninguna ob-
servacin de la fila 2. En trminos del modelo (7.1), esta hiptesis se puede
escribir como (
(8) 1 3 + 11 13 = 0
H0
2 3 + 12 13 = 0
En el modelo de medias de celdas, se quiere probar

(8)
H0 : t4 = 0
donde
0 1 1 0 0
t4 =
1 0 1 0 0
y entonces
1 1
0 0 1 0 0 0 0 0
at4 = 2 2
21 12 0 1
2
1
2
0 0 0 0 0
y as,
3 3 2 2 2 0 0 0 0 0
3 3 2 2 2 0 0 0 0 0

2 2 8 2 2 0 0 0 0 0

2 2 2 3 3 0 0 0 0 0
1

P4 = 2 2 2 3 3 0 0 0 0 0
10

0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
(8)
encontrndose SCH0 = Y t P4 Y = 30.
e) Hiptesis sobre la interaccin. Si hay celdas vacas, se debe tomar para

el modelo de inters 1/4ab(a 1)(b 1) posibles interacciones, de las cuales
(a 1)(b 1) son linealmente independientes. En presencia de celdas vacas,
esa regla deja de ser vlida. En el ejemplo se tiene apenas una interaccin que
puede ser estimada
=11 + 22 12 21
y no (a 1)(b 1) = (1)(2) = 2 interacciones estimables en el caso de no

haber celdas vacas. En este contexto, la nica hiptesis que puede probarse es
(9)
H0 : 11 + 22 12 21 = 0.
(9)
El no rechazar la hiptesis H0 , no puede ser aceptado como un criterio vlido
para escoger un modelo sin interaccin, puesto que no se estn incluyendo todas
las interacciones posibles.
(9) (10)
En trminos del modelo (7.1), la hiptesis H0 es H0 : 11 +22 12 21 = 0.
Con los datos del ejemplo en el modelo de medias de celdas, se obtiene
t5 = [1 1 0 1 1],

1 1 1 1 1 1 1
at5 = t5 (W + )t = , , 1, 0, 0, , , , ,
2 2 2 2 3 3 3
y
9 9 18 0 0 9 9 6 6 6
9 9 18 0 0 9 9 6 6 6

18 18 36 0 0 18 18 12 12 12

0 0 0 0 0 0 0 0 0 0

1
0 0 0 0 0 0 0 0 0 0

P5 =
84
9 9 18 0 0 9 9 4 4 4
9 9 18 0 0 9 9 4 4 4

6 6 12 0 0 4 4 4 4 4

6 6 12 0 0 4 4 4 4 4
6 6 12 0 0 4 4 4 4 4
De esta forma se obtiene, la suma de cuadrados asociada

(9)
SCH0 = R(ij /i,j ) = R(/, , ) = Y t P5 Y = 42.86.
En la tabla 7.10 se presentan las diferentes sumas de cuadrados obtenidas con

los datos del ejemplo, y se destacan en trminos de la notacin R(/) las diferentes
sumas de cuadrados obtenidas mediante el procedimiento de proyectores ortogonales.
Tabla 7.10: Resumen de las diferentes sumas de cuadrados.

(a) Suma de cuadrados Tipo I
C. de V. G.L. H0 R( ) SCI CMI F Valor p

(1)
A (no ajustado) 1 H0 R(i /) 90.00 90.00 22.50 0.0051
(6)
B (ajustado) 2 H0 R(ij /) 107.14 53.57 13.39 0.0098
(9)
AB 1 H0 R(i,j /i,j ) 42.86 42.86 10.71 0.0221
(b) Suma de cuadrados Tipo II.
C. de V. G.L. H0 R( ) SCII CMII F Valor p

(2)
A (ajustado) 1 H0 R(i,j /j ) 9.14 9.14 2.29 0.1910
(6)
B (ajustado) 2 H0 R(i,j /i ) 107.14 53.57 13.39 0.0098
(9)
AB 1 H0 R(ij /i,j ) 42.86 42.86 10.71 0.0221
(c) Suma de cuadrados Tipo III
C. de V. G.L. H0 R( ) SCIII CMIII F Valor p

(3)
A 1 H0 R(ij /j,ij ) 15.43 15.43 3.86 0.1067
(7)
B 2 H0 R(ij /i,ij ) 61.05 30.53 7.63 0.0302
(9)
AB 1 H0 R(ij /i,j ) 42.86 42.86 10.71 0.0221
(d) Suma de cuadrados Tipo IV
C. de V. G.L. H0 R( ) SCIV CMIV F Valor p

(4) (4)
A 1 * H0 SCH0 15.43 15.43 3.86 0.1067
(8) (8)
B 2 * H0 SCH0 30.00 15.00 3.75 0.1012
(9)
AB 1 H0 R(ij /i,j ) 42.86 42.86 10.71 0.0221
* Esta sumas de cuadrados no son nicas
7.7. Implementacin en SAS
El programa en el paquete estadstico SAS a travs del cual se obtuvieron los

resultados expuestos en el conjunto de datos para el ejemplo 7.1 es el siguiente:
DATA EJEMPLO31;/*archivo del ejemplo 3.1*/
INPUT A B R Y @@;
CARDS;/*ingreso de datos*/
1 1 1 7 1 1 2 9 1 2 1 8 1 3 1 2 1 3 2 4
2 1 1 5 2 1 2 7 2 2 1 14 2 2 2 15 2 2 3 19
;
PROC PRINT DATA=EJEMPLO31;/*Se imprimen los datos*/
/* Anlisis a travs del modelo superparametrizado*/
PROC GLM DATA=EJEMPLO31;/*Invocacin del procedimiento GLM*/
CLASS A B;/*Se clasifica por A y B*/
/* Obtencin del anlisis de varianza, funciones estimables y sumas de cuadrados */
MODEL Y= A | B/XPX E E1 E2 E3 E4 SS1 SS2 SS3 SS4; RUN;
/* Anlisis a travs del modelo de medias de celdas*/
PROC GLM DATA=EJEMPLO31;
CLASS A B;
MODEL Y= A*B/XPX;
RUN;
7.8. Implementacin en R
El programa en el software libre R a travs del cual se obtuvieron los resultados

expuestos en el conjunto de datos para el ejemplo 7.1 es el siguiente:
#Lectura de los datos del ejemplo 3.1

Datos <- read.table("Ejemplo31.txt", header=TRUE, sep="",
na.strings="NA", dec=".", strip.white=TRUE)
Datos #Se imprimen los datos
#Anlisis a travs del modelo superparametrizado

glm.D93 <- glm(Y ~ A+B+A*B, data=Datos)
7.9. EJERCICIOS 155
anova(glm.D93)
summary(glm.D93)
aov(Y ~ A+B+A*B, data=Datos)

LinearModel.2 <- lm(Y ~ A+B+A*B, data=Datos)
summary(LinearModel.2)
7.9. Ejercicios
1. Escriba los supuestos que se hacen sobre el error experimental en los modelos
y diga qu importancia tienen en el anlisis estadstico.
2. Dado el modelo lineal

y1 2 1
= +
y2 1 2
halle la estimacin de mnimos cuadrados de y la suma de cuadrados residual.
3. Sean X N(1 , 2 ), Y N(2 , 2 ) variables independientes. En muestras de
tamao n1 de X, n2 de Y , plantear la hiptesis nula H0 : 1 = 2 mediante
el concepto de hiptesis lineal contrastable y deducir el test t de Student de
comparacin de medias a partir del test F .
4. Para el modelo particionado E(Y ) = X1 1 + X2 2 , considere el modelo super-
parametrizado E(yij ) = + i con i = 1, . . . , a y j = 1, . . . , ni .
a. Exprselo en la forma del modelo particionado.

b. Con la apropiada particin del modelo, demuestre
Pa
R(/) = ni (y i. y .. )2 .
i=1
5. Suponga el modelo yij = + i + eij ; i = 1, . . . , 6; j = 1, . . . , r.

a. Deduzca las Ecuaciones Normales por el mtodo de mnimos cuadrados y
estime los parmetros y i .
b. Encuentre la varianza asociada a los estimadores hallados en a., es decir
) y V ar(b
V ar(b i ).
c. Construya la base de las funciones estimables e identifique cules de las

siguientes funciones paramtricas son estimables:
L1 = 21 2 3 , L2 = 1 + 2 + 3 44 , L3 = 1 5 y L4 = 2 6 .
d. A partir de las ecuaciones normales, encuentre los estimadores para las
funciones paramtricas estimables halladas en c. y diga adems cules de
los contrastes son ortogonales.
e. Suponga que y 1. = 7, y 2. = 9, y 3. = 14, y 4. = 16, y 5. = 10, y 6. = 20,
CME = 26 con r = 4. Lleve a cabo la prueba para los Ls del punto c
que sean estimables.
6. Dado el sistema de ecuaciones lineales con incgnitas y
+ x1 = y1
+ x2 = y2
+ x3 = y3
+ x4 = y4
a. Escriba en forma matricial X = Y con = [, ] .

b. Verifique que la matriz X tiene rango columna completo.
c. Verifique que para i = 1, 2, 3, 4, . . . , n
P P
n xi yi
t
i. X X = P P i ; ii. X t Y = Pi
xi x2i xi yi
i i i
d. Usando c. encuentre las ecuaciones normales.

e. Pruebe que b y que
b = y x
X X
X xi yi
xi yi
b = n ,
P 2 (P xi )2
xi n

P
xi
P
yi b b

donde x = n ; y = n ; = b .

10 100
20
f. Considere X = ; Y = 90 y determine:
30 150
40 160
7.9. EJERCICIOS 157
b y b a travs de e.
i.
ii. M = bt X t Y
iii. M = Y t P Y ; P = X(X t X)1 X t
iv. R = Y t Y bt X t Y .
7. Para el modelo yij = + i + bj + eij i = 1, 2, . . . , A; j = 1, 2, . . . , B.
a. Obtenga el conjunto de funciones estimables.

P
b. Muestre que SC(A) = B (yi y.. )2 .
8. Considere el conjunto de datos
t1 t2
b1 2 4
b2 3 6
b3 5 5
y el modelo yij = + ti + bj + eij , donde i = 1, 2 = n ndice de tratamientos,

j = 1, 2, 3 = p ndice de bloques. Considere la siguiente igualdad
Y t AT Y = Y t Ab Y + Y t At Y + Y t AR Y
donde
1

Ab = np
E(n) p.I(p) E(p)
1

At = np n.I(n) E(n) E(p)
1

AR = np nI(n) E(n) p.I(p) E(p)
AT = Ab + At + AR
en este caso se tienen 6 observaciones y adems I y E son matrices identidades
y matrices cuadradas con todos los elementos iguales a 1, respectivamente.
a. Encuentre la tabla de anlisis de varianza.

b. Pruebe con base en la informacin las hiptesis pertinentes en este caso.
9. Considere el modelo
E(Yij ) = + i i = 1, 2, ..., m; j = 1, 2, ..., ni
y los contrastes
m
X m
X
(1) (2)
C1 = ai i y C2 = ai i
i=1 i=1
Establezca la condicin necesaria y suficiente para que C1 y C2 sean ortogo-

nales.
10. Considere el modelo (Y, X, 2I) donde

1 1 0 0
1 1 0 0

1 0 1 0
X=

1 0 0 1
1 0 0 1
1 0 0 1
Y t = [3, 2, 9, 10, 3, 1] , t = [, 1 , 2 , 3 ] y suponga que N(0, 2 I). En el

modelo se desean probar no simultneamente los siguientes juegos de hiptesis:

(1) (2) 1 = 2 +
2
3
Ho : 1 = 2 + 2 ; Ho :
2 = 3
a. Muestre si estas hiptesis son posibles de probar estadsticamente.

b. Pruebe aquella(s) hiptesis que segn lo obtenido en a. son estimables.
11. Considere el modelo E(yij ) = + i + j ; i = 1, 2, . . . , 5;

j = 1, 2, . . . , b.
a. Obtenga estimadores para

1 = 21 2 + 4 + 25
2 = 21 2 23 4 + 25
3 = 1 + 22 24 + 5
4 = 1 42 + 63 44 + 5
7.9. EJERCICIOS 159
diga si son MELIS, justificando su respuesta.

b. Muestre que Ho : 2 = 3 = 4 = 0 es equivalente a la hiptesis Ho :
i = a + bi ; i = 1, 2, ..., 5 y explique en detalle cmo probar esta ltima
hiptesis.
12. Suponga que se tiene el modelo (1): Y = X + e, sea P una matriz no singular
tal que se tiene el modelo (2) P 1 Y = P 1X + P 1 e. Pruebe que t es
estimable en el modelo (1) si y solo si es estimable en el modelo (2).
13. Considere el modelo E(yij ) = + i con i = 1, ..., m, j = 1, ..., k

P (1) P (2)
a. Si ai = 0 y a = 0 encuentre:
P (1) i P (2)
Cov[MELI( ai i ),MELI( ai i )].
P
b. Encuentre SC(MELI( ai i )); SC(Yi. /k) y SC(Y.. /mk).
14. Considere el modelo de medias de celdas yij = i + ij con i = 1, ..., p y

j = 1, ..., ni
a. Determine el test estadstico para la hiptesis H0 : 1 = ... = p .

b. Pruebe que i es estimable y obtenga su MELI y su varianza.
c. Proponga tres conjuntos de contrastes que sean ortogonales (suponga pa-
ra este caso que p = 5) y obtenga la varianza y la covarianza de estos
contrastes.
15. Suponga el modelo yij = + i + j + eij con i = 1, ..., m, j = 1, ..., k. Obtenga

las siguientes sumas de cuadrados usando sumatorias: SCT otal; SCModelo;
y SC(E), encuentre los grados de libertad y sus esperanzas al suponer que
eij N(0, 2 ).
16. Suponga el siguiente conjunto de datos:
T1 T2 T3
2 4 6
3 2 7
2 5 8
a. Determine dos soluciones de las ecuaciones normales.

b. Construya la base de funciones estimables y determine al menos una com-

binacin lineal de las observaciones.
c. Proponga dos funciones estimables de inters y obtenga su MELI.
d. Como quedara estructurado el modelo particionado en K partes, presente
esta particin en una tabla de Anlisis de Varianza.
17. Considere un experimento completamente aleatorizado, donde se obtuvo los

siguientes resultados:
1 2 3
4 3 10
5 4 14
9 2 11
Caracterizndose el modelo yij = + i + eij

a. Escriba el sistema en forma matricial
b. Determine
i. 10 = (X t X)01 X t Y
ii. 20 = (X t X)02 X t Y
c. Verifique cules, entre el siguiente conjunto de funciones paramtricas, son
estimables.
i. 1 = 1 2
ii. 2 =
iii. 3 = i ; i = 1, 2, 3
P3
iv. 4 = i
i=1
v. 5 = + 21 2
vi. 6 = + i ; i = 1, 2, 3
vii. 7 = 21 2 3
d. Para el conjunto de funciones estimables, determine combinaciones de las
observaciones tales que E(t Y ) = t .
e. Para el conjunto de funciones estimables, encontrar el MELI y su varianza.
f. Para el conjunto de funciones estimables compare V ar(t ) con
V ar(t Y ) y comente.
7.9. EJERCICIOS 161
g. Calcule Y t Y, Y t PX Y, Y t (I PX )Y ; con PX = X(X t X) X t .

Pt
h. Verifique que (ni 1)Si2 = Y t (1 PX )Y .
i=1
i. Si I = Y P1 Y obtenga Y t (PX P1 )Y ; con

t
P1 = X1 (X1t X1 )1 X1t .
j. Verifique que PX y (I PX ) son simtricas, idempotentes y si hay orto-

gonalidad.
t t
Y (PX P1 )Y Y (IPX )Y
k. Determine E ran(PX P1 ) y E ran(IPX ) .
l. Obtenga estimaciones puntuales y por intervalos para el conjunto de fun-
ciones estimables.
18. Para el modelo yi = + i(xi x) + i , i = 1, . . . , n, donde i NI(0, 2 ), en-

cuentre los estimadores mnimos cuadrados de y de . Obtenga un estimador
de 2 .
19. Considere el siguiente conjunto de datos:
1 2 3
1 4 6 8
9 6
5
2 5 4 3
7
Si los datos estn caracterizados por el modelo yijk = + i + j + ()ij + ijk .
a. Construya la base de las funciones estimables.

b. Muestre en forma explcita las ecuaciones normales.
c. Calcule R(, ); R(, ); R(, , ) y R(, , , ) en todos los casos
caracterice muy bien la matriz de proyeccin.
20. Para el modelo yij = + i + j + ij ; i = 1, 2, . . . , k, j = 1, 2, . . . , r. Si ade-

ms Y N(X, 2 I) encuentre la prueba de mxima verosimilitud para las
hiptesis:
a. H0 : 1 = 2 = = k .
b. H0 : 1 = 2 = = r .
21. Suponga un modelo de dos vas de clasificacin con dos filas y dos columnas,
pruebe que
n1. n2. (y1.. y2.. )2
R(/) = n..
(y1. n11 y1.. n21 y2.. )2
R(/, ) = n11 n12
+ 21
n n22
n 1. n 2.
(y11. y12. y21. +y22 )2

R(/, , ) = P 1
nij
Captulo 8
Estimabilidad en el modelo lineal
Definicion 8.1. Bajo el modelo lineal (Y X; 2I ) se dice que una funcin lineal
Y , X
paramtrica es estimable, si existe un vector a t = (a1 , ..., an ) tal que E(aatY ) = t .
t
Si la funcin a tY no existe, entonces se dice que t no es linealmente estimable.

Teorema 8.1. Bajo el modelo lineal Y = X + e , la funcin t es estimable si y
solo si t F(X
X ), es decir t es una combinacin lineal de las filas de X .
P
Demostracin. =) suponiendo que t F(XX ), se tiene que t = aiX i = at X y
t t t t
de esa forma = a X = a E(Y ) = E(a Y ).
=)Suponiendo que t es estimable ,entonces existe a tal que E(at Y ) = t para
todo , entonces E(at Y ) = at X = t ,por lo tanto at X = t y as t
R(X).
Observacin 8.1. Si t es estimable ,se va a satisfacer que Ran(X t ) = Ran(X t :
).
Corolario 8.1. : El nmero de funciones paramtricas estimables t es igual al
ran(X).
Corolario 8.2. Cualquier funcin lineal de funciones estimables es estimable.
Definicion 8.2. Un conjunto de funciones paramtricas (t 1 , t2 , ....., tm ) son
independientemente estimables si t1 , t2 , ....., tm son estimables y 1 , 2 , ..., m
son linealmente independientes.
163
164 CAPTULO 8. ESTIMABILIDAD EN EL MODELO LINEAL
Corolario 8.3. :Cualquier combinacin lineal (con coeficientes conocidos) de fun-

ciones paramtricas estimables es estimable.
t t
Demostracin. : Supongamos tm , son estimables y consideremos
P1 , t 2 , .....,P P una
combinacin lineal de estas: i ai (i ) = ( ai i ) que es estimable pues ai i
R(X).
Corolario 8.4. : Si el rango de Xnxp es p ,entonces cualquier funcin paramtrica
lineal es estimable.
Obsrvese que es contrario a lo que sucede en modelos de rango incompleto. En

particular cada componente i (i = 1, 2, ..., p) es estimable.
Observacin 8.2. . Si X no es de rango columna completo entonces las solucio-

nes 0 no tienen solucin por si solo, pero si a travs de X ya que X0 = Y =

X (X t X) X t Y = P Y.
Definicion 8.3. Las funciones estimables t1 y t2 se dirn ortogonales si
cov (t1 0 ; t2 0 ) = 0
Demostracin. .Sean l1 y l2 que satisfacen que (X t X) l1 = 1 y (X t X) l2 = 2

entonces
t1 0 = l1t X t X0 = l1t X t Y
t2 0 = l2t X t X0 = l2t X t Y
En ambos casos t1 0 es una funcin de una variable normal por lo que a su vez son
normales adems
h t i
Cov t1 0 , t2 0 = E t1 0 t1 t2 0 t2
h t t t i
t t t t
= E l1 X Y 1 l2 X Y 2
h t i
= E l1t X t Y l1t X t X0 l2t X t Y l2t X t X0
h t t i
t t 0 0 t
= E l1 X Y X l2 X Y X
t t t
= E l1 X l l Xl2

= l1t X t E eet Xl2 = 2 l1t X t Xl2
= 2 l1t 2 = 2 t1 l2
de ac que si 2 l1t 2 = 2 t1 l2 = 0 se sigue que t1 0
8.1. MEJORES ESTIMADORES LINEALES INSESGADOS (MELIS) 165
8.1. Mejores Estimadores Lineales Insesgados (ME-

LIS)
En el ajuste de modelos lineales, si b es solucin de las ecuaciones normales, este

vector tiene la propiedad que va a minimizar la norma independientemente de la
naturaleza de las variables. Pero si Y es un vector aleatrio tal que E(Y ) = X y
V ar(Y ) = 2 I, entonces t b es el mejor estimador lineal de mnima varianza de la
funcin lineal paramtrica t .
Definicion 8.4. Si t .una funcin paramtrica estimable en el modelo lineal
(Y, X; 2 ), se dice que at Y es el mejor estimador lineal insesgado (MELI) de t .
si para cualquier combinacin at Y tal que E(at Y ) = t . se tiene que V ar(at Y )
V ar(at Y ).
Lema 8.1. Bajo el modelo lineal (Y, X; 2 ), t es estimable si y solo si
C(X t X)
Demostracin. Sabemos que t es estimable si y solo si C(X t ) = C(X t X) por

tanto t es estimable si y solo si existen vectores g y a tales que X t Xg = X t a =
las cuales se conocen como ecuaciones normales conjugadas (ENC), estas son de tipo
normal y adems siempre son consistentes y si g1 y g2 son dos soluciones, entonces
Xg1 = Xg2 ,de aca que si t es estimable existe a = Xg con g solucin de las
ecuaciones X t Xg = t
Teorema 8.2 (De Gauss-Markov). Si t es una funcin lineal paramtrica esti-
mable, entonces MELI (t ) = at Y = g t X t Y , con g solucin de las ecuaciones
normales conjugadas X t Xg = y es nico
Demostracin. La existencia de a se sigue del hecho que t es estimable y de la

consistencia de las ecuaciones normales conjugadas X t Xg = se satisface entonces
que a = Xg C(X) y ademas E(at Y ) = g t X t X = t .
Sea at Y un estimador insesgado de t , o sea E(at Y ) = t , notese que E(at Y

at Y ) = (a at )X = 0 o sea (a at )X = 0 [CX)] por el hecho que a C(X)
y (a a )t a = 0, por lo tanto
Cov(at Y ) = V ar[at Y + (a a )t Y ] = var(at Y ) + V ar[(a a )t Y ]

= V ar(at Y ) + (a a )t (a a ) 2 V ar(at Y )
Esta desigualdad y el hecho de ser at Y un estimador lineal insesgado (ELI) de t
completan la prueba.
Teorema 8.3. . Si t es estimable en el modelo (Y, X, 2 I) , entonces su
MELI (t ) = t = g tX t Y, es nico, con g solucin de las ecuaciones norma-
les conjugadas. X t Xg = .
Se verifica
1. E (g t X t Y ) = g t X t X = g t X t Y = t pues de la E.N.C X t Xg = .
2. g t X t Y tiene la menor varianza entre todos los estimadores insesgados de t

V ar g t X t Y = g t X t V ar (Y ) Xg = g t X t Xg 2 = t g 2 (8.1)
Sea ahora g t X t Y Y otro estimador insesgado entonces at Y = (g t X t ) Y

V ar at Y = g t X t V ar (Y ) g t X t

= g t X t Xg g t X t t Xg t 2 (8.2)
por otro lado E (at Y ) = t (g t X t t ) X = t de donde se sigue g t X t Xg
g t X = t t t X = t t X = 0 t X = 0 y as (8.2) queda

V ar at Y = g t X t Xg + t 2

= t g + t 2

V ar at Y V ar g t XY
g t XY = t
Teorema 8.4. . Si t es estimable en el modelo Y = X + e E (t ) = t 0
con 0 solucin de las E.N.
Demostracin. Si t es estimable entonces g tal que X t Xg = como t = lt X t X

posmultiplicando por 0

t 0 = lt X t X0 = lt X t XX t Y = lt X t X X t X X t Y = lt X t Y = t 0
8.1. MEJORES ESTIMADORES LINEALES INSESGADOS (MELIS) 167
t 0 = lt X t Y = t

E t 0 = t E 0

= t E X t X X t Y

= t X t X X t X
= gt
y

V ar t 0 = V ar t X t X X t Y

= t X t X X t X X t X 2

= t X t X 2
Corolario 8.5. at Y (con a = Xg y g solucin de las ecuaciones normales

conjugadas (XXg = ) es el nico estimador insesgado de t con coeficientes
a C(X).
Teorema 8.5 (TEOREMA GAUSS MARKOV). El mejor estimador lineal inses-

gado de una funcin paramtrica estimable .t , es el vector nico t b donde es
cualquier vector que hace mnima la expresin (Y X)t (Y X) , siendo b cual-
quier solucin de las ecuaciones normales X t X = X t Y.
Demostracin. Por el teorema anterior, el nico MELI de t es g t X t Y en donde g

es tal que X t Xg = si adems es solucin de las E.N. X t X = X t Y, entonces
MELI(t ) = g t X t Y = g t X t X = t b
Corolario 8.6. Una condicin necesaria y suficiente para que una funcin param-
trica t sea linealmente estimable es que exista un vector que satisfaga g t X t X = t ,
si tal g existe el MELI (t ) = g t X t Y
Corolario 8.7. La varianza del MELI , de una funcin paramtrica estima-

ble t , es dada por V ar (MELI (t )) = 2 g t X t Xg = 2 g t . Por Gauss

t
Markoff V ar = V ar t (X t X) X t Y = t (X t X) X t X (X t X) 2 =

t (X t X) 2 . La covarianza del MELI (g1t X t Y ; g2t X t Y ) de dos funciones para-
mtricas linealmente estimables t1 y t2 es dada por

Cov g1t X t Y ; g2t X t Y = 2 g1t X t Xg2 = 2 g1t 2 = 2 g2t 1 .
Corolario 8.8. Si una f.l.p.e. puede ser expresada como una combinacin lineal
de un conjunto de f.l.p.e, entonces su MELI, puede ser expresado como la misma
combinacin lineal de los correspondientes MELIS del conjunto de f.l.p.e
P P P
Demostracin.
MELI { ci (ti )} = MELI {( ci ti ) } = ( ci ti ) =
P
ci ti
Corolario 8.9. Si el modelo lineal es de rango completo, MELI (j ) = j ; donde

j es la componente j; (j = 1, , p) del vector que satisface X t X = X t Y.
Teorema 8.6. Las ecuaciones normales X t X = X t Y contienen toda la informa-
cin relativa a los MELIS, de las f.l.p.e. t , en el sentido que
i) t es estimable si y solo si existe una g tal que t = g t X t X

ii) Si t es estimable, entonces su MELI (t ) = t = g t X t X = g t X t Y
8.2. Transformaciones Paramtricas Lineales
Se busca encontrar representaciones alternativas del modelo lineal, que tengan en

cuenta transformaciones lineales de los parmetros.
Consideremos una matriz S de nxk cuyo espacio columna sea idntico al espacio
columna de la matriz X de nxp, denotada por
Sea el modelo (1.7), entonces correspondiendo a cada vector v0 , de tamao nx1

tal que v0 va a existir un vector S(px1) y un vector g(kx1) tal que
v0 = XS = Sg (8.3)
8.2. TRANSFORMACIONES PARAMTRICAS LINEALES 169
como E(Y ) es un vector desconocido que pertenece a , se deduce que existen

vectores y tal que
E(Y ) = X = S (8.4)
de tal forma que el modelo (1.7) lo podemos expresar como
Y = X + e = S + e (8.5)
ac es un vector de parmetros desconocidos.
Si en el modelo (1.7) consideramos una funcin lineal paramtrica estimable X t

, donde por ser estimable se satisface t = at X , adems sean a1 y a2 dos vectores
que satisfacen que t = at1 X = at2 X , usando (8.4) se sigue que
at1 S = at1 E(Y ) = at1 X = t = at2 X = at2 E(Y ) = at2 S (8.6)
se observa que la funcin t en el modelo Y = X + e , conduce a la funcin nica

at X estimable en el modelo Y = S + e
Adems sin prdida de generalidad se sigue que
X = S (8.7)
y el MELI (t ) = t = at X = at S = MELI de la funcin estimable at S que
corresponde a t con el modelo expresado como Y = S + e
Los resultados expuestos se resumen en el siguiente teorema:
Teorema 8.7. Si S es una matriz tal que el espacio columna de S es idntico al

espacio columna de la matriz X en el modelo Y = X + e , entonces un modo
alternativo de expresar el modelo (3), es Y = S + e . Adems, la correspondencia
entre funciones paramtricas estimables en cada forma del modelo es uno a uno y los
mejores estimadores lineales insesgados de las correspondientes funciones estimables,
son funciones lineales idnticas de las observaciones.
Corolario 8.10. Si en el modelo Y = X + e se introduce la transformacin para-

mtrica = T g donde la matriz T es tal que los espacios columna de las matrices
X y XT son idnticos entonces
a) Expresiones alternativas para el modelo de las hiptesis lineales son

Y = X + e = XT g +e (8.8)
b) Hay una correspondencia uno a uno entre las funciones estimables en ambas for-
mas del modelo.
c) Los MELI de las correspondientes funciones estimables son idnticos.
Teorema 8.8. Si en el modelo Y = X + e se introduce la transformacin param-
trica = T g , donde la matriz T es no singular, entonces las condiciones (a), (b) y
(c) del corolario anterior se cumplen.
Teorema 8.9. Un modelo lineal que no sea de rango completo, puede expresarse
siempre como uno de rango completo sobre cualquier conjunto deseado de rango g
de funciones estimables linealmente independientes donde g = ran(X).
idea de la prueba. Si en el modelo Y = S + e, la matriz S(nxg) con

ran (S) = mn {n, g} , se llega a un modelo de rango completo. Bajo esa condi-
cin, cada componente de es estimable, y en consecuencia t es estimable, por
la correspondencia uno a uno entre las funciones papamtricas estimables que in-
volucran a y , se concluye que cualquier conjunto de g funciones linealmente
independientes en pueden expresarse como un conjunto de g funciones estimables
linealmente independientes que comprenden a .
As = t es cualquier conjunto de funciones estimables linealmente indepen-

dientes, con t(gxp) , entonces existe T no singular (gxg) tal que
= t = T (8.9)
luego
= T 1 = T 1 t (8.10)
y as
Y = X + e = S + e = ST 1 t + e
Ejemplo 8.1. . Consideremos el modelo lineal de clasificacin Y = + ai + bj + eij
i = 1, 2 j = 1, 2, la matriz de diseo

1 1 0 1 0
1 1 0 0 1
X = 1 0 1 1 0
(8.11)
1 0 1 0 1
8.2. TRANSFORMACIONES PARAMTRICAS LINEALES 171
= (, a1 , a2 , b1 , b2 ) 5
Si la reparametrizacin consiste en eliminar las columnas de X correspondientes

a los parmetros a2 y b2 (equivale a colocar a2 = 0 , b2 = 0) entonces (8.11) queda

1 1 1
1 1 0
W =
1

0 1
1 0 0
y el modelo asociado es Y = W + e en donde = (0 , 1 , 2 ) 3
Todo el anlisis se hace sobre el modelo reparametrizado
Si Y = (Y11 , Y12 , Y21 , Y22 ) se observa que

1
4 2 2 Y. 3 2 2 Y.
1
= 2 2 1 Y1 = 2 4 0 Y1
4
2 1 2 Y2 2 0 4 Y2
MELI (a1 a2 ) = Y1 Y2 = 1 MELI (b1 b2 ) = Y1 Y2 = 2

h i
1
Se observa que X = W T , con T = (W t W ) W t X Se sigue del ejemplo que

1 1 1
1 1 0 1 0 1
1 0
X=
1 0 1 1 0 0
0 1
0 0 0 1 1
1 0 0
y

+ a2 + b2 0
= T = a1 a2 = 1
b1 b2 2
Observacin 8.3. La forma de reparametrizar el modelo no es nica, siguiendo con

el ejemplo, otra reparametrizacin se hara imponiendo las restricciones
X X
ai = 0 , bj = 0 (a2 = a1 , b2 = b1 )
y entonces la matriz W queda

1 1 1
1 1 -1 + a + b

W =
1 -1 1 y = a1 a

1 -1 -1 b1 b
8.3. Estructura General de la Matriz de Covarianza
Supongamos el modelo (1.7), donde se satisface que E (e) = 0, V ar (e) = 2 V en

donde 2 es conocida y V una matriz positiva definida y conocida.
Por ser V p.d, va a existir una matriz D no singular tal que DV D t = I, de

tal forma que al efectuar la transformacin Z = DY en el modelo (3) se obtiene
Z = A + f , con A = DX y f = De
Se observa que E(f ) = 0, V ar(f ) = 2 DV D t = 2 I
Luego
Z = A + f (8.12)
es equivalente al modelo (1.7).
Adems como A = DX y D es no singular es claro entonces que X = D 1 A

Observacin 8.4. El espacio de funciones estimables es el mismo en el modelo (1.7)
y en el modelo (8.12)
Las E.N bajo el modelo(8.12) son:

At A = At Z X t D t DX = X t D t DY X t V 1 X = X t V 1 Y
1
debido al hecho que V = D 1 (D t ) y V 1 = D t D entonces

MELI t = MELI g tX t V 1 X = g tX t V 1 X (8.13)
satisface la E.N X t V 1 X = X t V 1 Y al sustituir en (8.13) se sigue que
1 t 1
MELI t = g t X t V 1 X X t V 1 X X V Y = g t X t V 1 XY
8.3. ESTRUCTURA GENERAL DE LA MATRIZ DE COVARIANZA 173
Observacin 8.5. El MELI (t ) 6= EMC (t ) , en donde EMC: Estimador Medio

Cuadrtico. Es obtenido como EMC (t ) = t , con solucin de las E.N X t X =
X t X Para el modelo (8.12) el EMC (t ) = EMC (g t X t V 1 X) = g t X t V 1 X , con
solucin de las ecuaciones normales X t X = X t X, resultando asi que

MELI t = g t X t V 1 X 6= EMC t = g t X t V 1 X
por el hecho que y son soluciones a conjuntos de ecuaciones normales diferentes.

Teorema 8.10. Bajo el modelo Y = X + e con E (e) = 0 y V ar (e) = 2 V con
V matriz positiva definida; una condicin necesaria y suficiente para que los MELIS
y los EMC sean iguales es que V t X C (X) , osea que exista una matriz Q tal que
V 1 X = XQ
Demostracin. ) Sea t una f.l.p.e, entonces
t
MELI t = MELI g t X t V 1 X = g t X t V 1 XY = g t V 1 X Y
t
= g t V 1 X X
t
EMC t = g t X t V 1 X = g t V 1 X X = g t (XQ)t X

= g t X t X = g t QX t Y = MELI t
)MELI (t ) = EMC (t ) t f.l.p.e entonces

MELI g t X t V 1 X = EMC ht X t X
para toda pareja (g,h) y para todo Y . Esto se satisface en vista que

C X t V 1 X = C At A = C At = C (X) = C X t X
asi que X t V 1 Xg C (X t V 1 X) = C (X t X) , luego va a existir un h tal que

X t V 1 Xg = X t Xh = significa la igualdad anterior que g tiene su correspondiente
h osea
g t X t V 1 X = ht X t X (g, h) , Y
g t X t V 1 Y = ht X t Y (g, h) , Y
g t X t V 1 = g tX t (g, h)
V 1 Xg = Xg (g, h)
sustituyendo sucesivamente los vectores
g1t = (1, 0, , 0) , g2t = (0, 1, , 0) , , gpt = (0, 0, , 1)
se obtiene que
V 1 X (g1 , g2, , gp ) = X (h1 , h2 , , hp )
V 1 X = XQ
8.4. Solucin de las Ecuaciones normales
Dada la importancia que tienen las E.N. en la estimacin de las funciones pa-
ramtricas estimables (t ) , es conveniente presentar algunos mtodos para resol-
ver este sistema de ecuaciones. Las soluciones propuestas son para el caso donde
ran (X) < mn {n, p} . Bsicamente consideraremos las siguientes situaciones:
i) Aumentar a las E.N, ecuaciones de la forma C = c , de tal manera que se force

al vector solucin de las E.N a satisfacer C = c
ii) Usar un conjunto apropiado de condiciones

C = c , para construir un nuevo
t
modelo Y = X + e donde X X sea una matriz invertible. Este procedi-
miento no es ms que una reparametrizacin la cual puede hacerse de diferentes
formas.
iii) Usar las ecuaciones C = c como condiciones aplicadas al modelo inicial, de tal
forma que el nuevo modelo es Y = X + e sujeto a (s.a) la condicin C = c.
Inicialmente vamos a trabajar con el caso (i).
Definicion 8.5. Un conjunto consistente de ecuaciones C = c , se dice que son

conjuntamente no estimables si no existe g tal que g t C es estimable. En otras pala-
bras, si existe g tal que g t C = at X, entonces g t C = 0 y at X = 0.
8.4. SOLUCIN DE LAS ECUACIONES NORMALES 175
Teorema 8.11. Consideremos las ecuaciones
X t X = X t Y (8.14)
s.a C = c
donde las funciones C son no estimables entonces las ecuaciones (8.4) son consis-
tentes

X tX X tY
Demostracin. = son consistentes sii
C C

at X t X + bt C = 0 at X t Y + bt C = 0
Observe que
at X t X = bt C at X t X = 0
y
bt C = 0
at X t Xa = 0 at X t = 0 at X t Y = 0
y adems bt C = bt C = 0 y finalmente at X t Y + bt C = 0
Teorema 8.12. Teniendo en cuenta el teorema anterior, si adems ran (C) = p r

entonces el sistema (8.4) tiene solucin nica.
Demostracin. Sea Qpxp no singular que lleva a X t X a su forma ECHELON por

filas, es decir
Q1 X t X = Q1 Y
luego en este caso se particion Qt = [Q1 Q2 ] ; Q1(rxr) y Q2((nr)x(nr)) entonces

t Q1 X t X
QX X = = Q1 X t Y Q1 X t X = Q1 X t Y

que es el mismo sistema de E.N pero sin ecuaciones redundantes, luego el sistema
(8.4) es equivalente al sistema

Q1 X t X Q1 X t Y
= (8.15)
C c
Un sistema de r-ecuaciones no redundantes y as de (8.15) se sigue que

1
Q1 X t X
= Q1 X t Y (8.16)
C
La solucin de en () es nica y satisface las E.N.
Ejemplo 8.2. Consideremos el modelo Yij = + i + j + eij i = 1, , a ;

j = 1, b

ab b b a a
b
.
. bIa J
.
t
X X= b

a
.
.. J aIb
a
donde Ia (Ib ) es una matriz idntica de orden a (b) y J una matriz de elemento uno,
observe que ran(X) = a + b 1
Sea 1 + 2 + + a = 0 y 1 + 2 + + b = 0 un conjunto de funciones

conjuntamente no estimables, de tal forma que (100) es reescrito como

X t X = X t Y 0 1 1 1 0 0 0
con C=
C = 0 0 0 0 0 1 1 1
Al resolver el sistema se tiene

= Y
1 = Y1 Y

..
.

= a = Y a Y (8.17)

1 = Y1 Y

..
.
b = Yb Y
Esto no significa que , i , j sean estimables puesto que en efecto

i j
(1, 0, 0, , 0) , 0, 0, 0, 1, 0, 0, , 0 y 0, 0, 0, 1, 0, 0, , 0
no estan en R(X).
Luego las estimaciones obtenidas en (103) estn estimando a sus esperanzas que,
resultan ser funciones lineales paramtricas estimables.
Este tipo de soluciones son muy tiles y se prefieren a soluciones de la forma

C C
= (X t X) X t Y , siendo (X t X) una inversa condicional de X t X
0
La solucin anterior se conoce como solucin explcita de las ecuaciones normales,

en donde la interpretacin de los estimadores resulta mucho ms clara. As por
ejemplo t = (0, 0, 0, 1, 1, 0, 0, , 0) = 1 2
MELI (1 2 ) = Y1 Y2 es ms inmediato que trabajar con una inversa con-

C
dicional o sea MELI (1 2 ) = 0 = t (X t X) X t Y
Teorema 8.13. Considere el sistema de ecuaciones
X t X + C t m = X t Y (8.18)
C t = c
si las restricciones C = c son consistentes, entonces el sistema (8.18) es consistente.
t
1 X tX C t
Demostracin. = (0, 0) se observa al solucionar el sistema
2 C 0
que
t1 X t X1 = 0 t1 X t X = 0 t1 C = 0
Adems X1 = 0 t1 X t Y = 0 y como 0 = t2 C = t2 C = 0 entonces
t
1 X tY
=0
2 c
Teorema 8.14. Si C es de orden (p r) xp , de rango (p r) y C = c son con-

sistentes
y conjuntamente
no estimables, entonces el teorema en (104) tiene solucin
t t
nica , m y adems satisface
X t X = X t Y
C = c
Teorema 8.15. Si C = c , es un sistema consistente conjuntamente no estimable

y de rango (p r), la nica solucin al sistema X t X = X t Y coincide con la nica
solucin de
X t X + C t C = X t Y + ct c
Observacin 8.6. Si C = c, son consistentes conjuntamente no estimables y de

rango (p r) y de orden (p r) xp los siguientes sistemas tienen solucin nica y
es la misma en los tres casos:

X t X = X t Y
1.
C = c
t t
X X Ct XY
2. =
C 0 m C
3. [X t X + C t C] = [X t Y + C t C]
Ejemplo 8.3. si el modelo Y = X + e lo caracterizamos por
1 2
2 5
3 4
y se impone la restriccin 1 + 2 = 0 teniendo en cuenta el sistema

t
X X + C tC = X tY + C tC
se llega a la solucin:

4 2 2 0 0 0 14
2 2 0 + 0 1 1 1 = 5

2 0 2 0 1 1 2 9

4 2 2 14
= 2 3 1 1 = 5 (8.19)
2 1 3 2 9
Teniendo asi una matriz no singular. La solucin en (8.19) es : t = [3.5; 1.0; 1.0]
. Luego = 3.5 y 1 + 2 = 0, el Sistema de Ecuaciones Normales con Restriccin
en la Solucin (S.E.N.R.S) es:
0
5 3 2 14
3 3 0 10 = 5
2 0 2 20 9
se observa que no se completo el rango de la matriz X puesto que C t es una funcin

paramtrica estimable y C t C (X)

Observacin 8.7. Se verifica que X t X [X t X + C t C] X t X = X t X, osea

[X t X + C t C] es una inversa condicional no singular de X t X y entonces
t
X t X = X t X X t X + C t C X t Y = X t XX + Y = X t Y

entonces Y = X = X0 es invariante. Adems E t = X t [X t X + C t C] X t X
teniendo en cuenta las E.N.C X t Xg = entonces

E t = g t X t X X t X + C t C X t X = g t X t X = t
y adems t = g t X t Y

V ar t = t X t X + C t C X t X X t X + C t C 2

= g t X t X X t X + C t C X t X X t X + C t C X t Xg 2
= g t X t Xg 2 = t g 2
Otra forma:
1
Como = [X t X + BB t ] [X t Y + BC]
h t i
t t t t 1 t
E = E X X + BB X Y +B C
1
= t X t X + BB t X t X + B t C
1 t
= t X t X + BB t X X + BB t BB t + B t C
1 1
= t X t X + BB t X t X + BB t t X t X + BB t BB t B t C
1 t
= t t X t X + BB t B C BtC
= t
n 1 o
V ar t = t V ar X t X + BB t X t X + BC
1 t t 1 2
= t X t X + BB t X X X X + BB t
1
= t X t X + BB t 2

Esto garantiza que Y = X = X0 y por lo tanto toda la teora de estimabilidad es
aplicable.
8.5. Modelo con Restriccin en los Parmetros
El problema ahora es ajustar el modelo Y = X + e con la condicin C t = c

sobre los parmetros.
Se busca minimizar kY Xk2 con respecto a sujeta a C t = c
Sea entonces la funcin Lagrangiana L (, m) = (Y X)t (Y X)

2mt (C t c) donde m es el vector de multiplicadores de Lagrange desconocidos
L (, m)
= 2t X t Y + 2t X t X + 2t cm = 0

L (, m)
= 2mt C t 2mt c
m
teniendo asi
X tX C X tY
= (8.20)
Ct 0 m c
8.6. RESTRICCIONES ESTIMABLES EN LOS PARMETROS Y SUMAS DE CUADRADOS DEL RES
conocidas como Ecuaciones Normales con Restriccin en los Parmetros (E.N.R.P)

Teorema 8.16. Si 1 , m1 y 2 , m2 son dos soluciones al sistema E.N.R.P,
entonces X 1 = X 2 y C t m1 = C t m2

t
Demostracin. C 1 = C 2 C 1 2 = 0 X X 1 2 + C (m1 m2 ) = 0

1 2 X t X 1 2 = 1 2 X t X (m1 m2 )
t
pero como C 1 2 = 0 1 2 X t X 1 2 = 0 X 1 2 = 0
X 1 = X 2 y C t m1 = C t m2
8.6. Restricciones Estimables en los Parmetros y

Sumas de Cuadrados del Residuos
. Sea el sistema (106) donde ahora C t es un conjunto de funciones estimables,

C t es de rango completo entonces la solucin del sistema es
X t X + Cm = X t Y (8.21)
C t = C (8.22)
t
Por ser C estimable, va a existir W tal que
X tW = C (8.23)
sustituyendo (8.21) en (8.22) y (8.23)
X t X + X t W m = X t Y (8.24)
W t X = c (8.25)
premultiplicando (8.22) por X + se sigue que
X + P W m = P Y (8.26)
t
donde P = XX + es el proyector de Y en el espacio columna de X (C (X))
Luego X = P (Y W m) y lo sustituimos en (8.25) teniendo as

W tP Y W tP W m = c (8.27)
t
por (109) y tomando W = X + C y sustituyendo en (113) , se premultiplica X t W = c
t t t
X + X t W = X + c W = X + c, se tiene

+t +t +t +t
t t
C X XX Y C X XX X + Cm = c
recuerde que XX t = P
t +t
C tX + Y C t X tX Cm = c (8.28)
G
por ser C una funcin paramtrica estimable entonces C t (X t X) C es invariante

para toda G-inversa pudiendo as usar (X t X) que es menos exigente.
t
Adems teniendo la solucin al sistema irrestricto 0 = X + Y se tiene en (8.28)

C t X t X Cm = C t 0 c
por ser C de rango completo, se garantiza la existencia de una nica inversa
h i1 t
m = C t X t X C C c (8.29)
2
2
El error del ajuste debido a la aproximacin Y = X es kek = Y X por
(8.26) entonces
kek2 = [Y P (Y W m)]t [Y P (Y W m)]
= Y t Y Y t P Y + mt W t P W m
al sustituir se llega a la expresin
t
t h t t
t 0
1 i1 t 0
Y (I P ) Y + C c C X X C C c (8.30)
luego
SC R = SCR + SCHo (8.31)
Donde SCHo es el incremento en la suma de cuadrados del residual al imponerse la
restriccin estimable C t = c en los parmetros del modelo y corresponde a la suma
de cuadrados de la hiptesis Ho : C = c
8.6. RESTRICCIONES ESTIMABLES EN LOS PARMETROS Y SUMAS DE CUADRADOS DEL RES
Ejemplo 8.4. Continuando con el ejemplo anterior, se impone ahora la restriccin

C t = 0 con 1 2 = 0
..
4 2 2 . 0
. Y
t 2 2 0 .. 1
1 Y1
XX C .
= 2 0 2 .
. 1 . 2
= Y2

Ct
.
..
. m 0
0 1 1 .. 0

0 0 0 0

1 0 1 1 2
=
m 4 0 1 1 2
0 1 2 4
Con

Y1j Y2j 0
2 5 3.5
=

3 4 m 3.5
5 9 20

0
cm = 1 (2) 6= 0
1
m = 2
SCU = SC(e) +
con
t h t i1
t = mW t P W m = SCH0 = C0 C C X tX C C0 C
siendo H0 : C t = C
Note adems que


1 1 0 3.5
1 0
1 0 3.5
Y = X =
1
3.5 =
0 1 3.5
3.5
1 0 1 3.5

1.5
0.5
e = Y X =
1.5

0.5
SC(e) = kek2 = 5.0

SCH0 = 4
Nota: Cheqear con la restriccin 2 + 22 = 5 + 2 = 5

..
4 2 2 . 1
.. 14
2 2 0 . 1
.. 1 5
=
2 0 2 . 0 2 9

m 5
..
1 1 0 . 0
8.7. Mtodo del Modelo Reducido
Considere el modelo
(39)
con ran (c) = q, sea Cq una submatriz no singular, de
.
tal forma que C = Cr ..Cq , donde Cr(qxr)
Particionado conformablemente, la restriccin la podemos escribir como:
Cr r + Cq q = c (8.32)
Al solucionar q en (116), se sigue
q = Cq1 (c Cr r ) (8.33)
8.7. MTODO DEL MODELO REDUCIDO 185
Ahora particionando X = Xr r + Xq q y reemplazando el resultado obtenido en

(8.33), entonces
X = Xr r + Xq Cq1 (c Cr r )

X = Xr Xq Cq1 Cr r + Xq Cq1 c (8.34)
y del modelo Y = X + e, y teniendo en cuenta que Xq Cq1 c es conocido, es claro
que
Y Xq Cq1 c = Xr Xq Cq1 Cr r + e (8.35)
YR = XR r + e (8.36)
donde YR = Y Xq Cq1 c

XR = Xr Xq Cq1 Cr
El modelo (8.36) se conoce como modelo reducido. La estimacin de parmetros

en el modelo anterior son obtenidos a partir de la expresin
1 t
r = XRt XR XR Y R (8.37)
2 1
2
1
S = Y X R = QR R (8.38)
N r N r
1 t
SCE = QR R = YRt I XR XRt XR XR Y R
los dems parmetros del modelo original se estiman teniendo en cuenta la particin
de y (8.33) osea

r r 0 Ir
= = = + r
q Cq1 (c Cr r ) Cq1 c Cq1 Cr
Teorema 8.17. Para el modelo lineal Y = X + e sujeto a la restriccin C = c

con e N (0, 2 I) , el Estimador Mximo Verosmil de , (E.M.V ()) es

r
=
q
Adems
N , V ar
donde
2 Ir 1 I
V ar = XRt XR
Cq1 Cr Cq1 Cr
y

EMV 2 = s2

2
Donde s2 N r
2(N r) y adems y Q son independientes
8.8. Regiones e Intervalos de Confianza
Es importante para muchas investigaciones, que la inferencia se base en interva-

los o regiones de estimacin de los parmetros en vez de las pruebas de hiptesis.
Este anlisis es a menudo ms informativo cuando se sugiere un conjunto de valores
plausibles para la funcin paramtrica = A. Esta tcnica sirve para rechazar la
hiptesis si los valores hipotetizados no estn en la regin. Una buena regin de
confianza es sugerida por la funcin pivotal del estadstico de prueba.
8.8.1. Regiones de Confianza
Una regin de confianza sobre un vector de parmetros , es definida para la

regin en el espacio de parmetros, digamos R(Y ) , la cual es una funcin de los
datos y tiene la propiedad que
Pr [ R (Y )] = 1 (8.39)
con verdadero vector de parmetros. La regin definida por R(Y ), tiene una
probabilidad (1 ) de contener a .
El coeficiente de confianza, usualmente expresado como porcentaje, es dado por
100 (1 ) .
Para la construccin de las regiones de confianza se parte del modelo lineal normal
con restriccin. La regin de aceptacin para la hiptesis H0 : A = c, da como regin
de confianza un elipsoide centrado por = A, el cual est definido por
8.9. INTERVALOS DE CONFIANZA 187
t 1 t 1 t
t t
A A XX A A qCME F(,q,N p) (8.40)

1 1
con q = ran(A); CME = N p
Yt I X (X t X) X t , Cuadrado Medio del
Error.
La regin de confianza tiene la misma apariencia que la regin de aceptacin. La

diferencia est en que la regin de confianza est definida en el espacio de parmetros
de y est centrada por .
Observacin 8.8. Cuando A = I se define una regin de confianza para el vector

de parmetros original .
8.9. Intervalos de Confianza
. En el caso especial que q = 1,
se tiene que A = at y entonces (8.40) es

2
at F(;1,N p) V ar at

1
donde V ar at = CMEat (X t X) a , recordando la relacin entre los puntos
porcentuales de la t y la F , el intervalo es escrito como
r

at t(/2;N p) V ar at (8.41)
Observacin
8.9. Si en (127) se construye a de la forma a =
i
0, 0, , 0, 1, 0, 0 , se va a obtener un intervalo de confianza para i y

i j
para a = 0, 0, , 0, 1, 1, 0, 0 se obtiene un intervalo para la diferencia
i j
8.10. Regresin Secuencial en Factores
Partimos del modelo particionado como en (39), donde en este caso Y = X +

Z +e un modelo particionado con Ynx1 , Xnxp , Znxq , ran(X) = Min {n, p} y adems
ran (X : Z) = ran (X) + ran (Z) , y no se supone nada respecto al rango de Z.
Suponemos tambin que e N (0, 2 I) .
Definicion 8.6. Entenderemos por ajuste de un modelo a la obtencin de la SCE

y sus grados de libertad.
Esta definicin es una condicin suficiente para llevar acabo pruebas de hiptesis.
Buscamos en esta seccin ajustar el modelo
Y = X + Z + e (8.42)
contando con el ajuste del modelo Y = X + e y el conocimiento de la forma de los

residuales asociados con el modelo anterior.
El ajuste del modelo (8.42), consiste en la evaluacin de

2

2
=
! (Y )
SCE = Y 6 Y Y P .

C X ..Z

.. ..
donde C X .Z hace referencia al espacio columna generado por la matriz X .Z ,
n
y en consecuencia P .. ! (Y ) , hace referencia a la proyeccin ortogonal de Y
C X .Z

..
en el espacio columna de X .Z .
Para la obtencin de la suma de cuadrados del error, es suficiente con conocer

P . ! (Y ). El inters es que conociendo la forma de los residuales Y = X + e se
C X ..Z
puede evaluar P .. ! (Y ) .
C X .Z
8.10. REGRESIN SECUENCIAL EN FACTORES 189
Conocer los residuales del modelo
Y = X + e (8.43)
significa que estamos en posibilidad de evaluar para cualquier vector Y n su

residual es decir U = Y PC(X) (Y ) .

Observe que el residual en el modelo (129) es Y t I X (X t X) X t Y, siendo

(X t X) cualquier inversa generalizada.

..
Descomponiendo C X .Z en la suma directa de dos espacios vectoriales orto-

..
gonales, i.e si z C X .Z z = V + W, con V C (X) , W C (Z) sin embargo
V y W no son ortogonales.

Definicion 8.7. Sea Z = Z 1 , Z 2 , Z q y sea Z M = I X (X t X) X t X con
Z j = Zj luego Z M es la matriz de residuales de Z con respecto a X

.. .. M
Lema 8.2. C X .Z = C X .Z

..
Demostracin. Sea z C X .Z z = V + W, podemos escribir
n o n o
(W ) (W )
z = V PC(X) + W PC(X) = h + m
(W )
ntese que PC(X) C (X) y V C (X) h C (X), por otro lado, por construccin
Pq
m C (X) y adems como W C (X) , W = j Z j , pero el operador proyeccin
es lineal por lo que
X X X
(W )
m = w PC(X) = j Zj PC(X) j Z j = j Zj C Z M

.. .. M
osea z C X .Z z C X .Z
Lema 8.3. . P . ! (Y ) = PC(X) (Y ) + PC(Z M ) (Y )

C X ..Z

.. .. M
Demostracin. Dado que C X .Z = C X .Z es claro que P . ! (Y ) =
C X ..Z
P . ! (Y ) luego basta con demostrar que

C X ..Z M
P .. M ! (Y ) = PC(X) (Y ) + PC(Z M ) (Y )
C X .Z
Teniendo en cuenta que

( t ) t
.
. M .
. M .
. M .
. M
P . ! (Y ) = X .Z X .Z X .Z X .Z Y
C X ..Z M
t
.. Y XX 0 Xt
= X .Z t t Y
0 ZM ZM ZM
t
t
= X X tX X tY + Z M Z M Z M Z M Y
= PC(X) (Y ) + PC(Z M ) (Y )
con los resultados de los lemas se tiene lo siguiente:
i) El resultado buscado Y P . ! (Y ) = Y PC(X) (Y ) PC(Z M ) (Y )

C X ..Z

ii) Dado que PC(X) (Y ) C (X) entonces PC(Z M ) PC(X) (Y ) = 0 ya que Z M X

iii) Y P .. ! (Y ) = Y PC(X) (Y ) PC(Z M ) Y PC(X) (Y ) .
C X .Z
Si llamamos Y M al residual obtenido cuando se ajusta el modelo (129), la expresin

del residual del modelo completo (128), estar dado por el residual del modelo Y M =
Z M + e.
Para analizar los grados de libertad vamosa considerar el siguiente lema.

M ..
Lema 8.4. ran(Z) = ran(Z ) si y solo si ran X .Z = ran(X) + ran(Z)
8.11. ANLISIS DE COVARIANZA 191

Demostracin. Z M = I X (X t X) X t X, luego cada fila de Z M , es una combi-

nacin particular de las filas de Z, luego f Z M f (Z) , y entonces ran Z M
ran (Z) , pero teniendo en cuenta el lema anterior

.. M ..
ran X .Z = ran X .Z

= ran (X) + ran Z M
ran (X) + ran (Z)
por lo que podemos concluir que dada la forma del residual en el modelo (8.43), con
grados de libertad del error n ran (X) = n r y si definimos
h t i
M t
Y = I X X X X Y (8.44)
h t i
M t
X = I X X X X Z (8.45)
el residual del modelo (128) es el mismo que el del modelo Y M = Z M + e

t 1 t M M
= Z M Z M Z Y se convierte en un sistema que va a depender del nmero
de covariables, o sea
2
SCE = Y M PC(Z M ) Y M
con grados de libertad v = n r q.
Observacin 8.10. El procedimiento descrito es la base del procedimiento forward

stepwise regression con la particularidad de que el ajuste adicional (q), vale 1 en cada
etapa del ajuste.
8.11. Anlisis de Covarianza

t
. ..
. En el anlsis clsico de covarianza, se hace necesario invertir X ..Z X .Z ,
sin embargo con el procedimiento citado anteriormente para obtener el residual y la
suma de cuadrados del error (SCE), solo es necesario resolver un sistema q q del
orden del nmero de covariables.
8.12. Prueba de Hiptesis
. A partir del modelo (8.43), calcule Y M y Z M como en (8.44) y (8.45), luego

evalue la suma de cuadrados del error como
t 1
Mt M M M Mt
SCE = Y I Z Z Z Z YM
con n r q grados de libertad.
Considere la hiptesis sobre , osea H0 : = 0 y use el modelo
Y = X0 0 + Z + e
calcule
h i h i
Y MR = I X0 X0t X0 X0 Y, Z M = I X0 X0t X0 X0 Z
y as

2
SCE0 = Y MR PC(X MR ) Y MR
y
v0 = n ran (X0 ) q
La estadstica de prueba
(SCE0 SCE) / (v0 v) bajoH0

F(v0 v,v) (8.46)
SCE/v
Ejemplo 8.5. Suponga el modelo yij = +i +j +xij +eij , i = 1, ..., t ; j = 1, ..., b;

: peso de la covariable.
Sea la hiptesis de inters H0 : 1 = 2 = = t = 0
Sea yij = yij yi yj + y el residual habiendo ajustado el diseo es:

h i
Y M = I X X tX X t Y
= Yij Yij ; para todo i, para todo j
8.12. PRUEBA DE HIPTESIS 193

Yij = + i + j
donde
= Y
i = Yi Y
j = Yj Y
y sea adems xij = xij xi xj + x X M debemos asi ajustar el modelo de

regresin
yij = xij + eij
con P
xij yij
ij
= P 2
xij
ij
luego la suma de cuadrados del error es:

" #2
P
xij yij
X 2 ij
SCE = yij P 2
ij
xij
ij
con g.l = n ran(X) ran(Z) = bt (b + t 1) 1 = b (t 1) t
La suma de cuadrados del error en el modelo reducido por la hiptesis, es decir

en el modelo yij = + j + xij + eij es:
Captulo 9
Diagnstico del modelo de regresin
En este captulo se estudiarn diversos procedimientos de diagnstico de regre-

sin que permitirn detectar si las suposiciones del modelo de regresin se cumplen.
Algunos de estos diagnsticos estn basados en medidas de residuales y otros en gr-
ficos de los residuales. Si k = 1 cuando se hace el grfico de ee vs yb o ee vs X entonces
se puede obtener outliers (|ei | grandes) y puntos extremos (|X X X| grande); sin
embargo, cuando hay varias variables predictoras los grficos anteriores no siempre
revelan problemas con los datos o con el modelo.
El diagnstico numrico son funciones de los datos, cuyos valores pueden detectar
respuestas yi que son anormales (grandes o pequeos outliers) o valores Xj extremos
y pueden tener alta influencia o leverage. En el diagnstico se debe incluir una com-
binacin de mtodos numricos y grficos. Los mtodos numricos de diagnstico,
estn basado en el anlisis de residuales ee, la matriz hat (H H = X (X X tX )1X t ), la su-
ma de cuadrados y productos cruzados (X X tX ) y su inversa (X
X tX )1 ) y el cuadrado
2 t
medio del error o residual (s = CME = ee ee/(n p)). En este tipo de anlisis es
de inters obtener (b(i) ) y eet(i)ee(i) /(n p) que son las estimaciones de y 2 sin la
i-sima, respectivamente.
194
9.1. RESIDUALES Y DETECCIN DE OUTLIERS 195
9.1. Residuales y deteccin de outliers
Se considera el modelo de regresin lineal mltiple Y = X + e, donde E(ee) =

0 y Var(ee) = 2I . Luego Yb = X b, pero como b = (X X tX )1X tY , se tiene que
Yb = X (X X tX )1X tY = HY . Esta es la razn por la que a H se le llama matriz
hat (sombrero),
Pn ya que acta como una transformacin de Y a Yb . En particular,
ybi = j=1 hij yj donde hij es el elemento de la matriz H que est en la i-sima fila y
j-sima columna. Luego,P e = Y Yb = Y HY = (II H )Y
el vector de residuales b Y.
n
En particular, bei = yi j=1 hij yj .
9.1.1. Medida y varianza del vector de residuales
Note que
e ) =(II H ) E(Y
E (b Y ) = (II H )X
X = X HX
X X (X
=X X tX )1X tX = X X = 0
Adems,
e ) = Var[(II H )Y
Var (b Y ] = (II H ) Var(Y Y )(II H )t
= 2 (II H )(II H t ) = 2 (II H )2 = 2 (II H )
Aqu se ha usado que I H H es simtrica e idempotente, como se vio en la seccin

anterior. En particular, Var (b ei ) = 2 (1 hii ). Esta varianza es estimada por 2 (1
ej ) = hij 2 .
ei , b
hii ). As mismo, Cov (b
Observe que:
a) Tanto los errores ei como los residuales tienen media 0.
b) La varianza de los errores es constante, pero la de los residuales no lo es.
c) Los errores no estn correlacionados, pero los residuales si lo estn.

196 CAPTULO 9. DIAGNSTICO DEL MODELO DE REGRESIN
9.1.2. Diagnstico para detectar outliers y punto de levera-

ge alto
Ahora se considerar el diagnstico basado en medidas y que servirn para detec-

tarse si una observacin es un outlier o un punto de leverage alto. Los diagnsticos
ms bsicos son:
1. Si |hii | > 2p/n (algunos usan 3p/n. Aqu p es le nmero de parmetros) entonces
la i-sima observacin es considerada un punto leverage y puede ser influyente.
2. Definiendo
ebi
rs i = (9.1)
b 1 hii

o para hacer independiente el numerador del denominador, se puede considerar
e
ti = i (9.2)
b(i) 1 hii

donde b = CME y
b(i) es la raz cuadrada del CME sin incluir la i-sima
observacin.
Entonces si |ti | > 2 (o si |rsi | > 2) entonces la i-sima observacin es conside-

rada un outliery tambin puede ser influyente.
Si los datos estn centrados al rededor de la media, es decir,
k
X
y i = 0 + j (xij xj ) + ei , i = 1, ..., n (9.3)
j=1
Y = 0 1 + X c c + e
X tcX c )1X tc . Por lo tanto, se sigue que

X c ) = k, entonces se obtiene H c = X c (X
con r(X
el vector de predicciones es
Yb =10 + X cb c
1
= 11tY + X c (XX tcX c )1X tcY
n
1
= JY + H cY
n

1
= J + H c Y = HY
n
El i-simo valor de prediccin es escrito en trminos de la fila de H (F(H

H ), his H
o hcis H c ) como
Xk Xk
yi = his ys = y + hcis ys
s=1 s=1
Si los elementos en la diagonal de H (hii ) son cercanos a 1 los dems elementos en
la fila son cercanos a cero. Adems, los elementos en la diagonal de H y H c estn en
los siguiente limites, respectivamente,
1
hii 1
n
0 hcii 1
Las matrices hat (HH y H c ) no se ven afectadas por transformaciones no singulares

en los predictores, es decir que si existe una matriz T no singular, al hacer Z = XT
entonces
H Z =Z Z tZ )1Z t
Z (Z
XT (T
=XT T tX tXT )1T tX
XT
=XT
XTT T 1 (X
X tX 1 (T
T t )1T tX
X tX )1X = H
X (X
=X
Observacin 9.1. Valores grandes de hii sugieren que las i-sima observacin tiene
un alto leverage (punto de apalancamiento). Hoaglin & Welsch (1978) sugieren que
2(k + 1)
si hii > entonces ese punto tiene un alto leverage. Huber (1981) sugiere que
n
si hii > 0.5 independiente de p = k + 1 o n, indica un alto punto Leverage: en la
practica se debe ponder atencin en los puntos de hii que sean grandes. En el caso
de usar hc , se considera Leverage si hcii > 2k/n.
9.1.3. Residuales estudentizados internamente
Para reducir el efecto de las varianzas de los residuos es ms conveniente trabajar

con versiones estandarizadas de ellos. As, el residual estudentizado internamente
se define mediante la expresin (9.1). Por lo tanto, la covarianza de los residuales
estudentizados es igual a
!
b
ei b
ej
Cov(rsi , rsj ) = Cov , p
1 hii 1 hjj
Cov (b ei , b
ej )
= p
(1 hii ) (1 hjj )
hij
=p
(1 hii ) (1 hjj )
En algunos programas estadsticos los rsi son llamados residuales estandarizados.
9.1.4. Outliers, puntos de leverage alto y valores influyentes
Una observacin y , x1 , . . . , xp es considerado un outliers si esta bastante alejado

de la mayora de los datos sea en la direccin vertical o en la horizontal. Sin embargo,
la mayora de los textos llaman outliers a un valor alejado solamente en la direccin
vertical y punto de leverage alto a una observacin alejada en la direccin horizontal.
Una observacin y , x1 , . . . , xp es considerado un valor influyente si su presencia

afecta tremendamente el comportamiento del modelo. Por ejemplo, en el caso de
regresin simple remover un valor influyente podra cambiar dramticamente el valor
de la pendiente. En el grfico de la figura 9.1 el punto O es un outliers y un punto de
leverage alto, pero no es un valor influyente. Observe que O es un punto de leverage
alto e influyente.
Efecto de eliminar observaciones
Cuando se detecta que una observacin es influyente, se debe considerar qu va a

pasar con el ajuste del modelo. Se podia hacer n regresiones con n 1 datos de cada
70
O O
60
50 O
40
C2
30
20
10
0
0 5 10 15 20 25 30 35
C1
Figura 9.1: Conjunto de observaciones
una de las observaciones, as la influencia de cada observacin; esto por supuesto es

costoso computacionalmente, afortunadamente existe medidas que miran el cambio
en las estimaciones, los residuales y los valores de prediccin a partir de la informacin
disponible en la regresin inicial.
Para encontrar estos cambios se parte de hechos que si X denota la matriz original
de prediccin, x ti = (xi1 , . . . , xik ). Sea X (i) que denota la matriz de prediccin cuando
se remueve la i-sima observacin, entonces
k
X
t
XX = x j x tj = X t(i)X (i) + x ix ti
j=1
X t(i)X (i) X X xixti

=X t
(9.4)
X tX )1 la ecuacin (9.4) entonces

Premultiplicando por (X
X t(i)X (i) =X
X tX (II (X
X tX )1x ix ti )
1
X t(i)X (i) X tX )1x ix ti )1 (X
=(II (X X tX )1
X tX )1xixti (1 xti (X
=[II + (X X tX )x
xi )1 ](X
X tX )1

1 t 1 t
= I+ X X ) x ix i (X
(X X tX )1 (9.5)
1 hii
Con este resultado se sigue que
X tY = X t(i)Y (i) + x i yi
y entonces
b(i) =(XX t(i)X (i) )1X t(i)Y (i)
1 1
=b + X tX )1x ix tib (X
(X X tX )1x i yi X tX )1x ix ti (X
(X X tX )1x i yi
1 hii 1 hii

b t 1 1 hii
= + (X X X ) xi ybi yi yi
1 hii 1 hii
ei
=b X tX )1x i
(X (9.6)
1 hii
donde ei es el i-simo residual en la regresin completa.
9.1.5. Residuales estudentizados externamente
Supngase que la i-sima observacin es eliminada del conjunto de datos y que

se ajusta el modelo lineal con las n 1 observaciones que quedan. Sean b(j) y (i)
2
las
estimaciones de los parmetros del modelo y de la varianza de los errores, respecti-
vamente. De (9.5) se obtiene
1
X t(i)X (i) )1 = (X
(X X tX )1 + X tX )1x ix ti (X
(X X tX )1
1 hii
Se puede establecer las siguientes relaciones entre b y b(i) y entre s2 y s2(i) , respecti-
vamente
X tX )1x i ebi
i) b(i) = b (X
1hii
.
ii) Si s2(i) es la estimacin de 2 as obtenida, se demuestra que

2 (n k 1)s2 e2i /(1 hii ) 2 n k 1 rs2i
s(i) = =s
nk2 nk2
Si yei presenta el valor estimado de la variable de respuesta para la i-sima ob-

servacin entonces yei = x tib(i) . Como la i-sima observacin no fue tenida en cuenta
en la estimacin del modelo, entonces Cov (yi , yei ) = 0 son independientes. Luego la
varianza del residual yi yei est dada por
yi ) = 2 + 2x ti (X
Var (yi yei ) = Var(yi ) + Var (e X t(i)X (i) )1x i
9.2. DIAGNSTICO DE LA INFLUENCIA 201
Estimado 2 por s2(i) y considerando que si yi no es un outlier entonces

E (yi yei ) = 0 se obtiene
yi yei
ti = q
s(i) 1 + x ti (X
X t(i)X (i) )1x i
donde ti es llamado un residual estudentizado externamente y tiene n p 2 grados

de libertad.
Propiedad. Relacin entre el residual usual y el residual usando un modelo

eliminando la i-sima observacin
b
ei
e(i) = yi yi(i) = yi yei = (9.7)
1 hii
donde yei = yi(i) .
Prueba. Sustituyendo b(i) = (X

X t(i)X (i) )1X t(i)y (i) en
e(i) = yi yei = yi x tib(i)

Luego utilizando la expresin (9.6) se obtiene

t b ei t 1
e(i) = yi yei =yi x i (XX X ) xi
1 hii
hii ei hii ei ei
=yi yi + = ei + =
1 hii 1 hii 1 hii
lo cual concluye la prueba.
Asimismo, se puede establecer la siguiente relacin entre los distintos tipo de

residuales
b
ei nk2
ti = = rs i (9.8)
s(i) 1 hii n k 1 rs2i
9.2. Diagnstico de la influencia
Ocasionalmente se halla que algn dato o un pequeo subconjunto de datos ejerce

una desproporcionada influencia en el ajuste del modelo de regresin. Esto es, los es-
timadores de los parmetros o las predicciones pueden depender ms del subconjunto
influyente que de la mayora de los datos. Se desea localizar estos puntos influyentes y
medir su impacto en el modelo. Si por alguna razn concreta son puntos malos"se
eliminaran, pero si no ocurre nada extrao, su estudio puede da algunas claves del
modelo.
9.2.1. Nivel de un punto
Casi siempre los puntos definidos por las variables regresoras o explicativas forman
una nube y estn razonablemente repartidos alrededor del punto medio. Sin embargo,
alguno de ellos o un pequeo grupo puede aparecer muy alejado del resto. Estos
valores son potencialmente peligrosos, puesto que pueden afectar excesivamente al
ajuste del modelo. Se defini el concepto de nivel de un punto y se sealarn los que
tengan un nivel muy alto (leverage points).
El nivel de un punto es una medida de la distancia del punto al centroide del

conjunto de datos. Existen varias propuestas pero la ms extendida se basa en los
elementos hii de la diagonal de la matriz proyeccin H X .
Como
n
X
H X ) = r(H
hii = tr(H HX) = k + 1
i=1
el tamao medio de cada hii es (k + 1)/n. As cuando un punto verifique hii >
2(k + 1)/n se dir que dicha observacin es un punto de alto nivel. Estos puntos se
deben marcar para su posterior estudio ya que son potencialmente influyentes.
9.2.2. Influencia en los coeficientes de regresin
Entre las medidas de influencia sobre los coeficientes de regresin, la ms emplea-

da es la distancia de Cook (1977,1979)
t
b b(i) (XX tX ) b b(i)
Ci = , i = 1, ..., n (9.9)
(k + 1) 2
donde b son las estimaciones de mnimos cuadrados en el modelo con todos los puntos,
mientras que b(i) son las estimaciones sin el i-simo punto. Esta medida calcula la
distancia cuadrtica entre b y b(i) , relativa a la geometra fija de X tX .
Otra versin equivalente de esta distancia es

t
b b
Y Y (i) b b
Y Y (i)
Ci =
(k + 1) 2
ya que Yb = X b y Yb (i) = X b(i) .
Sin embargo, para el clculo de esta distancia es mejor utilizar la frmula

hii rs2i
Ci =
(k + 1)(1 hii )
donde la primera parte depende del ajuste al modelo de la i-sima prediccin, mien-
tras que el segundo factor es una funcin de la distancia del punto x i al centroide
del conjunto de observaciones de las variables explicativas.
La bsqueda de puntos influyentes se puede iniciar con la identificacin de puntos

con distancia de Cook elevada. Sin embargo, se desconoce la distribucin exacta de
este estadstico y no hay reglas fijas para la determinacin de los puntos con valor
de Ci grande. Los puntos con distancias de Cook grandes pueden ser influyentes y
podemos extraerlos del anlisis para ver si los cambios son apreciables.
Otra medida de influencia sobre cada coeficiente de regresin por separado fue
propuesta por Belsley et al.[6] y consiste en la diferencia estandarizada entre la
estimacin de mnimos cuadrados de dicho parmetro con todas las observaciones y
la estimacin de mnimos cuadrados del mismo sin la i-sima:
j j(i)
Df betasj(i) = q (9.10)
s2(i) cjj
para j = 0, 1, ..., k y i = 1, ..., n, donde cjj es el j-simo elemento de la diagonal de

X tX )1 y s2(i) la estimacin de la varianza 2 sin la i-sima observacin.
la matriz (X
Obsrvese que s2(i) cjj es una estimacin de la varianza Var(j ) = 2 cjj .
Un valor absoluto desmesurado de esta medida indica una gran influencia de la

observacin i-sima sobre la estimacin del coeficiente j . En la prctica se considera
una observacin influyente

cuando |Df betas| > 1 para un pequeo conjunto de datos
y |Df betas| > 2/ n en general.
9.2.3. Influencia en las predicciones
Como hemos visto, la distancia de Cook es tambin una medida de la influencia de

un punto sobre el conjunto de predicciones. Otra medida de influencia de la i-sima
observacin sobre la prediccin de la propia observacin i es el estadstico
|yi yi(i) |
Df f itsi = q
s2(i) hii
donde se estandariza la diferencia entre las predicciones de la i-sima observacin

con y sin ella misma.
A partir de las ecuaciones (9.2) y (9.7) se demuestra que

r
hii
Df f itsi = |ti | (9.11)
1 hii
donde ti son los residuos estudentizados externamente. p En general, se considera que

la influencia es notable si el Df f its es superior a 2 (k + 1)/n, mientras que para
un conjunto de datos reducido basta que sea mayor que uno.
De acuerdo a Hocking (1983) en la tabla 9.1 se resume algunas de las funcio-

nes ms comunes para el diagnstico numrico. Estas funciones estn ligeramente
relacionadas entre si.
Cuando 2 es conocido entonces rsi N(0, 1), esta aproximacin es razonable en

tamao de muestra grande y del hecho ya conocido que si
ei
ti = q t(nk2)
s2(i) (1 hii )
conocido como el residual estudentizado, entonces t2i F(1,nk2) y adems teniendo

Tabla 9.1: Resumen de medidas de diagnstico

Nombre Formula Criterio
Matriz Hat H = X (X X tX )1X t = (hij ) hii > 2p
n
(n p) rsi
Cuadrado medio residual s1
(i)
= s2
eliminando la observacin i (n p 1) (n p 1)(1 hii )
ei
Residual estudentizado rsi = Aprox N (0, 1)
s 1 hii
ei
Residual estudentizado sin ti = prox. t(np1)
inclir el dato i s(i) 1 hii
2
rs hii
Distancia de Cook Ci = p(1hr
i
Ci > F(p,np,)
ii )
hii p
DF estadstica Df f itsi = ti |Df f itsi | > 2 p/n
1 hii
j
Df betasj(i) = q 2 j(i) |Df betasj(i) | > 2/ n
s(i) cjj
2 p.
s(i) 3p
Covratio Covratio = s2
(1 hii ) |Covratio 1| > n
!
s2(i)
Andrews-Pregibon APi = np1
np
(1 hii ) Pequea
s2
!2
k
P bj (xij xj )
Distancia estandarizada W SSDi =
ponderada al cuadrado j=1 sy
W SSDi es una medida de la distancia del caso i al centro de los datos.
en cuenta que
n
X
SCE(i) = e2j(i) e2i(i)
j=1
Xn 2 2
ei ei
= ej + hij
j=1
1 hii 1 hii
n 2 n
! n
X ei X 2ei X
2
= ej 1 h2ij + ej hij
j=1
1 hii j=1
1 hii j=1
n
X e2i
= e2j
j=1
1 hii
ya que
e2i
(n k 1)s2 1hii
s2(i) =
nk2
entonces
e2i
rs2i =(n k 1)
(1 hii )SCE
e2i
=(n k 1)
(1 hii ) SCE(i) + e2i /(1 hii )
1
t2i
=(n k 1) n k 2
1
1+ t2
nk2 i
y se sigue de la relacin de la F y la distribucin beta que

2 1 nk2
rsi (n k 1)Beta ;
2 2
y el cociente

s2(i) nk1 1 nk2 1
= 1 r2 Beta ;
s2 nk2 n k 1 si 2 2
Observacin 9.2. Con base en este resultado, observe que la relacin entre el esta-
dstico Df f itsi y la distancia de Cooks es
s2
(Df f itsi )2 = (k + 1) Ci
s2(i)
9.3. Validacin de supuestos
Toda la inferencia que se puede realizar (estimacin por intervalo de parmetros y

predicciones, y prueba de hiptesis) sobre el modelo de regresin lineal esta basado en
los supuestos; si alguno de estos no se cumple los procesos de inferencia son errados.
El objetivo de este captulo es mostrar los posibles problemas que se presentan cuando
alguno de los supuestos no se cumple, y formas de corregir o lograr que el supuesto
se cumpla.
Los supuestos que se tienen en el modelo

yi = 0 + 1 xi1 + 2 xi2 + + k xik + ei , i = 1, . . . , n
son:
9.4. EJERCICIOS 207
i. E(ei ) = 0 para todo i.

ii. E(e2i ) = 2 para todo i (Homocedasticidad ).
iii. E(ei ei ) = 0 para todo i 6= i (no presentan correlacin).
iv. ei Normal.
Otros implcitos en los desarrollos
v. X tX es no singular (las columnas de X son linealmente independientes, no hay
multicolinealidad).
vi. E(XX j , e ) = 0 (las variables explicativas X j , j = 1, . . . , k, son independientes de
los errores e ).
Se tiene para cada supuesto:
i. Es de fcil cumplimiento, puesto que el promedio de los errores por construccin

es cero.
ii. Lo contrario a homocedsticidad es la heterocedsticidad, que consiste en que
la varianza cambia a travs de las observaciones.
iii. y iv. Los problemas contrarios a estos supuestos son la autocorrelacin y la no nor-
malidad.
v. Este problema se presenta en el momento que X tX sea no invertible, es decir,
singular.
vi. Este problema se presenta cuando los errores se relacionan con las variables
explicatorias.
9.4. Ejercicios
1. Considere un experimento en el cual r tratamientos deben deben ser compara-
dos con un control (grupo de tratamientos r + 1). Las ecuaciones del modelo
pueden escribirse de la siguiente forma:
yij = i + eij
con i = 1, 2, , r + 1; j = 1, 2, , ni
a) Si el nmero total de unidades experimentales en N, cmo escogera usted

n1 , n2 , , nr , nr+1 ?
b) Si r + 1 = 6 y N = 100 cul sera su eleccin de n1 , n2 , , n6 . (Recuerde
que los ni deben ser enteros).
2. En un experimento Los resultados obtenidos de la calibracin de un instru-
mento, por mtodos elctricos, para medir el contenido de humedad de cierto
material fueron:
x 6.0 6.3 6.5 6.8 7.0 7.1 7.5 7.5 7.6 7.8 8.0 8.2 8.4 8.4 8.9
y 39 58 49 53 80 86 115 124 104 131 147 160 156 172 180
a) Grafique los datos.

b) Ajuste una linea recta por mnimos cuadrados y grafique. Parece que la
linea ajusta?
c) Evale cuando una parbola ajusta significativamente mejor.
d) Asumiendo que E(yi ) = 0 + 1 (xi x, encuentre un intervalo exacto de
confianza para xn+1 , si xn+1 denota el valor verdadero de x correspondiente a
una nueva observacin independiente yn+1 . Aproxime este intervalo cuando
x x
P n+1
(xi x)2
es pequeo. Interprete este intervalo.
3. Los siguientes datos proceden de un experimento concerniente a la biodegra-

dacin de la polucin utilizando un tipo de bacteria particular.
Las mediciones se realizaron espaciadas cada cierto intervalo de tiempo (una
semana). Se sabe que este tipo de bacteria muta, y que el grado de biodegra-
dacin es diferente despus de la mutacin. En este experimento la mutacin
ocurri en algn momento entre la observacin 10 y 11. Ajuste estos datos y
estime el momento de mutacin. Construya unos lmites tipo Scheff a partir
del conocimiento del modelo de regresin. Asuma la variable de error constante
para todas las medidas.
Tiempo 1 2 3 4 5 6 7 8 9 10
Y 95 93 93 91 90 88 86 85 86 82
Tiempo 11 12 13 14 15 16 17 18 19 20
Y 81 75 63 55 42 32 25 16 7 3
9.4. EJERCICIOS 209
4. Suponga
Y1j = 0 + 1 X1j + 1j j = 1, 2 , n1
Y2j = 0 + 1 X2j + 2j j = 1, 2 , n2
donde los errores se asumen independientes N(0, 2 ). Denote por (, ) el punto

de interseccin de las dos lneas de regresin. Derive un intervalo de confianza
para .
Captulo 10
Clculos basados en el mtodo de

Cholesky para un modelo lineal de
regresin
Una alternativa atractiva para llevar a cabo el anlisis de modelos de regresin

(estimacin y pruebas de hiptesis), es hacer uso de la matriz de descomposicin
triangular, haciendo uso del algoritmo de Cholesky. Se parte del modelo (Y, X, 2 I)
Ynx1 = Xnxp px1 + nx1
i) n (0nx1 , 2 I)
Y n (X, 2 I) X t X = X t Y (Ecuaciones Normales)

t
2 1 1 t t t
= np Y X Y X = np
Y Y X Y
ii) n (0nx1 , 2 V ) ; V conocida
transformar al nuevo modelo Yv = Xv + v por el mtodo de Cholesky aplicado

a [V | X | Y ] donde v n (0nx1 , 2 I)
210
211
1
OBJETIVO. , , l , var lt = 2 lt (X t X) l (estimadores puntuales e
2 t
intervalos de confianza).
Para probar la hiptesis:

H0 : H = h
Ha : H 6= h
h i1
1
donde Hqxp es de rango q, se necesita: H h, H (X t X) H t , 2 donde la
estadstica
t h i1
H h H (X t
X)
1
H t
H h
1
W = F(q,np)
q 2
10.0.1. Mtodo de Cholesky
.
Teorema 10.1. : Sea Sp p una matriz definida positiva, entonces existe una
matriz T de rango p tal que S = T t T, donde T es una matriz triangular superior y
tal que tii > 0 para i = 1, 2, p. La matriz T es nica.
Cmo hallar T
? S = [sij ] T = [tij ]

1. t11 = s11
s1j
2. t1j = t11
s
P
i1
3. tii = sii t2ki i = 2, 3, , p
k=1

1
P
i1
4. tij = tii
sij tki tkj j>i i = 2, 3, , p 1
k=1
212 CAPTULO 10. CLCULOS BASADOS EN EL MTODO DE CHOLESKY
5. tij = 0 i>j i = 2, 3, , p
6. Para obtener T 1 = [tij ] tenemos
P
j
Sij tik t1
kj
k=i+1
tij = i = 1, 2, , j 2, j 1, j.
tii

1 si i = j
Sij =
0 si i 6= j
Basndonos en las ecuaciones normales X t X = X t Y y escribindolas como

S = M T t T = M y debido a que se realizan operaciones en las filas,
1 1
lo cual es equivalente a multiplicar por la izquierda por T t T = T t M dado
que T es triangular, el sistema para es fcil de resolver.
Ejemplo 10.1. . Sea

16 -8 12 8
-8 8 -8 6
S=
12 -8 19 -5
8 6 -5 49

1. Por 1. t11 = s11 = 16 = 4
s12 8 s13 12 s14 8
2. Por 2. t12 = t11
= 4
= 2 t13 = t11
= 4
=3 t14 = t11
= 4
=2
p q
3. Por 3. t22 = s22 t212 = 8 (2)2 = 2
1
4. Por 4. t23 = t22
[s23 t12 t13 ] = 12 [8 (2)(3)] = 1
1 1
t24 = t22
[s24 t12 t14 ] = 2
[6 (2)(2)] = 5
p p
5. Por 3. t33 = s33 t213 t223 = 19 (3)2 (1)2 = 3
1
6. Por 4. t34 = t33
[s34 t13 t14 t23 t24 ] = [5 (3) (2) (1) (5)] = 2
213
p q
7. por 3. t44 = s44 t214 t224 t234 = 49 (2)2 (5)2 (2)2 = 4

4 -2 3 2
0 2 -1 5
T =
0 0 3 -2
0 0 0 4
Ejemplo 10.2 (Ejemplo aplicado a regresin). Sea el modelo
yi = 0 + 1 xi1 + 2 xi2 + 3 xi3 + ei i = 1, 2, , 16
con las siguientes ecuaciones normales:
160 81 + 122 + 83 = 72
80 + 81 82 + 63 = 14
120 81 + 192 53 = 43
80 + 61 52 + 493 = 139
Y t Y = 1177
1. Encontrar 4x1
2. Encontrar donde = 80 + 61 + 102 + 273
3. Encontrar un intervalo del 95 % de confianza para
4. Probar la hiptesis H0 : 2 = 3 = 0
1
5. Encontrar (X t X)
Redefiniendo
2. lt = donde lt = [8, 6, 10, 27]

0
0 0 1 0 0 1
4. H0 : H = h donde H = h= =
2
0 0 0 1 0
3
Aplicando ahora el mtodo de Cholesky a la matriz particionada:

X tX | X tY | l | H t | I
lo cual es equivalente a
1 h 1
i
Tt X t X | X t Y | l | H t | I = T | t | a | Gt | T t
donde
1 1 1 1 1
i) T = T t(X t X) = T t (T t T ) = T (X t X) =T Tt

t1 t t1 t
ii) t = T X Y = T X X = T resolvemos el sistema T = t
1
para = T t
1 1 1
iii) tt t = t T Tt (X t Y ) = X t Y 2 = np
(Y t Y tt t)
1 1 1 1
iv) a = T t l at a = lt T T t l = lt (X t X) l

V ar lt = 2 at a
1 1 1
v) at t = lt T T t (X t Y ) = lt (X t X) (X t Y ) = lt = at t
1 1
vi) Gt = T t H t Gt = HT t = H
Definimos
g = Gt h = H h
y aplicamos nuevamente el mtodo de Cholesky a la matriz particionada: [GGt | g]
1
lo cual es equivalente a T0t [GGt | g] = [T0 | t0 ] donde :
1 1 1 1 1
a) T0 = T0t (GGt ) = T0t (T0t T0 ) = T0 (GGt ) = T0 T0t
1 1 1 1 1
donde GGt = HT T t H t = H (X t X) H t T0 T0t =
h i1
1
H (X t X) H t
215
1 1 1
b) t0 = T0t g tt0 t0 = g t T0 T0t g =
t h i1
1 tt0 t0
H h H (X t X) H t H h W = 2 q
X tX X tY l Ht I Gt G g
16 -8 12 8 72 8 0 0 1 0 0 0
5 1
-8 8 -8 6 14 6 0 0 0 1 0 0 36 24
2
1 1
12 -8 19 -5 43 10 1 0 0 0 1 0 24 16
3
8 6 -5 49 139 27 0 1 0 0 0 1
1
4 2 3 2 18 2 0 0 4
0 0 0
1 1 5 1 12

0 2 1 5 11 5 0 0 4 2
0 0 6

4 5 5
1 1 1 1 1
0 0 3 2 0 3 3
0 6 6 3
0 0 24 5
1 1 25 13 1 1 2 5 5
0 0 0 4 12 1 6 4 48 24 6 4
1
T t a Gt T t
T0 t0

977 874 -328 -300
1 1 1
874 1316 -80 -312
T Tt =
(48)2 -328 -80 320 96
-300 -312 96 144
1
1) t = tt T t = [1, 1, 2, 3]
2) = at t = 103
1 1
3) tt t = 589 2 = np (Y t Y tt t) = 164
(1177 589) = 49 at a =

39 V ar = 2 at a = 49 (39) = 1911 luego
r

t( ,(np)) V ar = 103 2.179 1911
2
El intervalo del 95 % de confianza para es :
(7.745; 198.255)
tt t 144
4) tt0 t0 = 144 W = 02 q0 = 49(2) = 1.469 rechazamos H0 a un nivel de
significancia del 5 % dado que F(.05,2,12) = 3.89
1 1 1
5) (X t X) =T Tt
10.1. Ejercicios
Los enunciados de los ejercicios pueden consultarse en el captulo 1 del

libro de Diseo de Experimentos del profesor Lpez.
1. (Ejercicio 2)
2. (Ejercicio 3)
3. (Ejercicio 4)
4. (Ejercicio 5)
5. (Ejercicio 6)
6. (Ejercicio 8)
7. (Ejercicio 9)
8. (Ejercicio 11)
9. (Ejercicio 13)
10. (Ejercicio 14)
11. (Ejercicio 15)
12. (Ejercicio 17)
13. (Ejercicio 19)
14. (Ejercicio 20)
15. (Ejercicio 22)

10.1. EJERCICIOS 217
16. (Ejercicio 23)
17. (Ejercicio 25)

Bibliografa
Ali, M. & Silver, J. L. (1985), Tests for Equality Between Sets of Coefficients in
Two Linear Regressions Under Heteroscedasticity, Journal of the American
Statistical Association 80(391), 730735.
Cochran, W. G. (1934), The distribution of cuadratic forms in a normal system

with the applications to the analysis of variance, Mathematical Proceedings of
the Cambridge Philosophical Society 30(2), 178191.
Draper, N. & Smith, H. (1966), Applied Regresion Analysis, John Wiley and Sons,
New York.
Goodnight, J. H. (1978), Test of Hypotheses in Fixed Effects Linear Model SAS,

Technical report, SAS institute, R 101 Carry N.C.
Graybill, F. A. (1961), An introduction to linear statistical models, McGraw Hill,

New York.
Henderson, C. R. (1984), Applications of linear models in animal breeding, University

of Guelph, Guelph, Ontario.
Hinkelman, K. & Kempthorne, O. (1994), Design and Analisys of Experiments Vol

I. Introduction to Experimental Design, John Wiley & Sons, New York.
Hoaglin, D. C. & Welsch, R. E. (1978), The Hat Matrix in Regression and ANOVA,
The American Statistician 32(1), 1722.
Hocking, R. R. (1983), Developments in Linear Regression Methodology: 1959-1982,

Technometrics 25(3), 219230.
218
BIBLIOGRAFA 219
Hocking, R. R. (1985), The Analysis of Linear Models, Belmont,CA: Brooks/Cole

Publishing Co, Monterrey.
Hocking, R. R. (1996), Methods and applications of linear models, John Wiley and
Sons, New York.
Hocking, R. R. (2003), Methods and Applications of Linear Models, segunda edn,

John Wiley and Sons, New Jersey.
Hocking, R. R. & Speed, F. M. (1975), A Full Rank Analysis of Some Linear Model
Problems, American Statistical Association 70(351), 706712.
Huber, P. J. (1981), Robust Statistics, John Wiley and Sons, New York.
Iemma, A. F. (1993), Anlisis de Varianza de Experimentos con Celdas Vacas,

Escuela Superior De Agricultura Luiz De Queiroz. Universidade De Sao Paulo.,
S. P-Brasil, chapter II, III, V.
Iemma, A. F., Lpez, L. A. & Rincn, L. F. (1999), Proyectores Ortogonales Espe-

rados, Revista Investigacin Operacional 20, 107114.
Khuri, A. (2009), Linear Model Methodology, CRC Press - Chapman and Hall Book,
New York.
Khuri, A. I. & Cornell, J. A. (1987), Response Surfaces: Designs an Analysis, Marcel

Dekker, New York.
Little, R. J. A. & Rubin, D. (1987), Statistical Analysis with Missing Data, John
Wiley & Sons, New York.
McCullagh, P. & Nelder, J. (1989), Generalized Linear Models, Chapman Hall, Lon-
don.
Myers, R. H., Montgomery, D. C. & Vinning, G. G. (2002), Generalized Linear Mo-

dels. With Applications in Engineering and the Sciences, John Wiley & Sons,
New York.
Rao, C. R. & Mitra, S. K. (1971), Generalized Inversa of Matrices and Its Applica-
tions, John Wiley & Sons, New York.
Ravishanker, N. & Dey, D. K. (2002), A First Course in Linear Model Theory,

Chapman & Hall/CRC., New York.
220 BIBLIOGRAFA
SAS (2014), Statistical Analysis Sistem-SAS Users.
Scheffe, H. (1959), Analysis of Variance, John Wiley and Sons, New York.
Searle, S. R. (1971), Linear Models, John Wiley and Sons, New York.
Searle, S. R. (1987), Linear Models for Unbalanced Data, John Wiley and Sons, New
York.
Searle, S. R., Casella, G. & McCulloch, C. (1992), Variance Components, John Wiley
and Sons, New York.
Speed, F. M., Hocking, R. R. & Hackney, O. P. (1978), Methods of Analysis of

Linear Models with Unbalanced Data, The American Statistical Association
73, 105112.
Tukey, J. W. (1977), Exploratory data analysis, Addison-Wesley, Massachusetts.

Modelos Lineales Melo

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Modelos Lineales Melo

Enviado por

Direitos autorais:

Formatos disponíveis

MODELOS LINEALES

Luis Alberto Lpez Prez

1.1.1. Modelos de regresin . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.2. Modelos de anlisis de varianza . . . . . . . . . . . . . . . . . 7

1.2. Uso de transformaciones lineales . . . . . . . . . . . . . . . . . . . . . 14

1.2.1. Resultados importantes . . . . . . . . . . . . . . . . . . . . . . 17

1.3. Distribucin marginal . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.1. Distribucin Chi-Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . 25

2.2. Distribucin F no central . . . . . . . . . . . . . . . . . . . . . . . . 29

3. Distribucin de formas lineales y cuadrticas 33

3.1. Formas cuadrtica en variables normales . . . . . . . . . . . . . . . . 34

3.2. Independencia entre una forma lineal y una forma cuadrtica . . . . . 37

3.3. Independencia entre formas cuadrticas . . . . . . . . . . . . . . . . . 38

4. Modelo lineal particionado en k-partes ordenadas 45

4.1. Teorema de Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.1. Mtodos de estimacin . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.1.1. Mnimos cuadrados ordinarios . . . . . . . . . . . . . . . . . . 56

5.1.2. Mtodo de mxima verosimilitud . . . . . . . . . . . . . . . . 58

5.1.3. Mnimos cuadrados ponderados (MCP) . . . . . . . . . . . . . 61

5.2. Medida de bondad de ajuste: coeficiente de determinacin . . . . . . 63

5.3. Propiedades de los estimadores bajo normalidad . . . . . . . . . . . . 64

5.4. Prueba de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.5. Modelo de regresin con restriccin . . . . . . . . . . . . . . . . . . . 68

5.5.1. Hiptesis de la forma A = m . . . . . . . . . . . . . . . . . . 71

5.6. Intervalos y regiones de confianza . . . . . . . . . . . . . . . . . . . . 72

5.6.1. Regiones de confianza A . . . . . . . . . . . . . . . . . . . . 72

5.6.2. Intervalos de confianza para c t . . . . . . . . . . . . . . . . . 72

5.6.3. Intervalos de confianza para los parmetros del modelo . . . . 73

5.7. Prediccin de nuevas observaciones . . . . . . . . . . . . . . . . . . . 76

5.7.1. Prediccin de una nueva observacin . . . . . . . . . . . . . . 76

5.7.2. Prediccin de un vector de observaciones . . . . . . . . . . . . 77

6. Estimacin e hiptesis en modelos particionados 85

6.1. Polinomios ortogonales . . . . . . . . . . . . . . . . . . . . . . . . . . 90

6.1.1. Prueba de falta de ajuste . . . . . . . . . . . . . . . . . . . . . 97

6.1.2. Hiptesis de la forma A = 0 . . . . . . . . . . . . . . . . . . 101

6.2. Prueba de Hiptesis de la forma A = m . . . . . . . . . . . . . . . . 104

6.3. Comparacin de dos modelos lineales . . . . . . . . . . . . . . . . . . 107

6.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

7. Modelos de anlisis de varianza 112

7.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

7.2. Conceptos bsicos de modelos lineales . . . . . . . . . . . . . . . . . . 112

7.2.1. Modelo superparametrizado (Modelo S) . . . . . . . . . . . . . 113

7.2.2. Modelo de medias de celdas . . . . . . . . . . . . . . . . . . . 116

7.3. Estimabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

7.3.1. Estimadores lineales insesgados (ELIS) . . . . . . . . . . . . . 119

7.3.2. Transformaciones lineales y estimabilidad en modelos superparametrizados127

7.4. Modelos lineales particionados y sumasde cuadrados asociadas . . . . 129

7.4.1. Modelo particionado en dos partes . . . . . . . . . . . . . . . 129

7.4.2. Modelo particionado en tres partes . . . . . . . . . . . . . . . 134

7.4.3. Modelo particionado en K partes ordenadas . . . . . . . . . . 136

7.5. Sumas de cuadrados y funciones estimables . . . . . . . . . . . . . . . 140

7.5.1. Sumas de cuadrados y funciones estimables tipo I . . . . . . . 140

7.5.2. Sumas de cuadrados y funciones estimables tipo II . . . . . . . 142

7.5.3. Sumas de cuadrados y funciones estimables tipo III . . . . . . 143

7.5.4. Sumas de cuadrados y funciones estimables tipo IV . . . . . . 145

7.6. Hiptesis ms comunes sobre filas y columnas . . . . . . . . . . . . . 146

7.7. Implementacin en SAS . . . . . . . . . . . . . . . . . . . . . . . . . 154

7.8. Implementacin en R . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

7.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

8. Estimabilidad en el modelo lineal 163

8.1. Mejores Estimadores Lineales Insesgados (MELIS) . . . . . . . . . . . 165

8.2. Transformaciones Paramtricas Lineales . . . . . . . . . . . . . . . . 168