Datos Espaciales

21.1.
CONCEPTOS BÁSICOS DE PROBABILIDAD Y PROCESOS ESTOCÁSTICOS

Definition 1.3. Sea (Ω, F) un espacio medible. P : F → [0, 1] se llama medida de proba-
bilidad si satisface
1. P (A) ≥ 0, ∀A ∈ F
2. P (Ω) = 1
Capı́tulo 1 Sn Pn
3. Si A1 , · · · , An ∈ F con Ai ∩ Aj = ∅, ∀i 6= j ⇒ P ( i=1 Ai ) = i=1 P (Ai ).
Propiedades de P
Datos Espaciales y Análisis
1. P (∅) = 0
Exploratorio 2. P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
3. Si A ⊆ B ⇒ P (A) ≤ P (B).
En este capı́tulo se presentan conceptos básicos de probabilidad que permiten poste-
4. P (A) = 1 − P (Ac ).
riormente enmarcar las áreas de la estadı́stica espacial dentro del contexto de los procesos
estocásticos. Se definen algunas medidas de autocorrelación espacial y se dan dos ejemplos Definition 1.4. La tripla (Ω, F, P ), donde Ω 6= ∅, F σ-álgebra sobre Ω y P es una medida
de como la dependencia espacial afecta la inferencia estadı́stica. de probabilidad sobre (Ω, F), se denomina espacio de probabilidad.
Definition 1.5. Sea (Ω, F, P ), un espacio de probabilidad. X : Ω → R se llama variable
1.1. Conceptos básicos de probabilidad y procesos es- aleatoria.
tocásticos Definition 1.6 (Proceso Estocástico). Es una familia de variables aleatorias {Z(s) :
s ∈ D ⊂ RP } definida sobre un espacio de probabilidad (Ω, F, P ). El conjunto D deı́ndices
Definition 1.1. Sea Ω 6= ∅. Un sistema F de subconjuntos de Ω se llama σ-álgebra si del procesos se denomina espacio de parámetros. Los valores que toma Z(s) se llaman
satisface las siguientes condiciones estados y el conjunto de todos los posibles valores de Z(s) se llama espacio de estados.
1. Ω ∈ F Los procesos estocásticos son clasificados de acuerdo con el espacio de parámetros (discreto
2. Si A ∈ F ⇒ Ac ∈ F y continuo) y el espacio de estados (discreto y continuo). Algunos ejemplos de procesos
Sn estocásticos no espaciales son los siguientes
3. Si A1 , · · · , An ∈F ⇒ i=1 Ai ∈ F.
1. Espacio de parámetros discreto y espacio de estados discreto
Definition 1.2. Sea Ω 6= ∅, F una σ-álgebra de subconjuntos de Ω. La pareja (Ω, F) se
llama espacio medible. Z(n): Preferencia del consumidor en el n-ésimo mes, con n ∈ N.
1
CAPÍTULO 1. DATOS ESPACIALES Y ANÁLISIS EXPLORATORIO 3 4 1.2. DATOS ESPACIALES Y ÁREAS DE LA ESTADÍSTICA ESPACIAL
Z(n): Número de individuos de la n-ésima generación de una población, con n El proceso estocástico {Z(s) : s ∈ D ⊂ RP }, en el que s es sitio del espacio, también
∈ N. se denomina proceso aleatorio o campo aleatorio.
2. Espacio de parámetros continuo y espacio de estados discreto El proceso estocástico {Z(s) : s ∈ D ⊂ RP }, en el que Z(s) es un vector aleatorio se
denomina en el contexto espacial proceso aleatorio multivariable o campo aleatorio
Z(t): Número de partı́culas de una sustancia acuosa de volumen t, con t ∈ T ⊂
multivariable
R.
Z(t): Número de individuos que esperan el bus por periodo de tiempo t, con t El proceso estocástico {Z(s) : s ∈ D ⊂ RP } en el que tanto el espacio de estados
∈ T ⊂ R. como el espacio de parámetros es continuo (es decir que las variables aleatorias Z(s)
son continuas y D ⊂ RP es un conjunto continuo) se denomina variable regionalizada.
3. Espacio de parámetros discreto y espacio de estados continuo Este término es particularmente usado en aplicaciones de la estadı́stica espacial en
ingenierı́a y geologı́a.
Z(n): Tiempo de espera hasta que el n-ésimo estudiante arribe a la parada de
bus, con n ∈ N. Cuando se tiene una observación del proceso estocástico {Z(s) : s ∈ D ⊂ RP } se
Z(n): Utilidad en pesos de un jugador después del n-ésimo lanzamiento de una dispone de una muestra de tamaño {Z(s) = (Z(s1 ), Z(s2 ), · · · , Z(sn ))} (con n el
moneda, con n ∈ N. número de sitios donde se hace la medición de la variable aleatoria Z(s)) y no de
una muestra de tamaño n de una variable aleatoria. Por ello puede ser carente de
4. Espacio de parámetros continuo y espacio de estados continuo
sentido práctico hacer inferencia estadı́stica clásica (intervalos de confianza, pruebas
Z(t): Contenido de un embalse sobre un periodo de tiempo t, con t ∈ T ⊂ R. de normalidad, etc) con los datos obtenidos. Desconocer esto hace que se cometan
errores intentando validar los supuestos necesarios para la aplicación de métodos
Z(t): Temperatura en el instante t, con t∈ T ⊂ R.
estadı́sticos espaciales. En general en estadı́stica espacial, como en el caso clásico,
es deseable tener normalidad para hacer inferencia. Sin embargo lo que se asume
1.2. Datos espaciales y áreas de la estadı́stica espacial en este contexto es que la muestra corresponde a la observación de vector aleato-
rio con distribución normal multivaluada y no que se tiene una muestra n-variada
Estadı́stica espacial es la reunión de un conjunto de metodologı́as apropiadas para el
de una variable aleatoria con distribución normal. Usar una prueba de normalidad
análisis de datos que corresponden a la medición de variables aleatorias en diversos sitios
univariada (por ejemplo la de Shapiro-Wilk) para comprobar si los datos siguen una
(puntos del espacio o agregaciones espaciales) de una región. De manera más formal se
distribución normal es ciertamente equivocado en el contexto espacial, puesto que
puede decir que la estadı́stica espacial trata con el análisis de realizaciones de un proceso
además de desconocer que no se tiene una muestra iid (puesto que hay dependencia
estocástico {Z(s) : s ∈ D ⊂ RP }, en el que s es la ubicación en el espacio Euclidiano
espacial), lo que en realidad habrı́a que probar es normalidad multivariada.
P -dimensional y Z(s) es una variable aleatoria en la ubicación s.
La estadı́stica espacial se subdivide en tres grandes áreas. La pertinencia de cada una de
Observaciones ellas está asociada a las caracterı́sticas del conjunto D de ı́ndices del proceso estocástico
CAPÍTULO 1. DATOS ESPACIALES Y ANÁLISIS EXPLORATORIO 5 6 1.2. DATOS ESPACIALES Y ÁREAS DE LA ESTADÍSTICA ESPACIAL
de interés. A continuación se mencionan dichas áreas y se describen las propiedades de D
en cada una de éstas.
Geoestadı́stica: Estudia datos de procesos estocásticos en los que el espacio de paráme-
tros D ⊂ RP es continuo. Algunos ejemplos de datos espaciales que son tratados con
métodos geoestadı́sticos son
{Z(s) : s ∈ D ⊂ RP }, donde Z(s) mide el contenido de nitrógeno en sitios de un
7 30' W
parcela experimental. En este caso los sitios pertenecen a D ⊂ R2 .
MAR CARIBE
Boca de la
Barra
{Z(s) : s ∈ D ⊂ RP }, donde Z(s) corresponde a la precipitación en sitios de
C. Clarín
Colombia.
En los dos ejemplos anteriores hay infinitos sitios donde medir y por ello el conjunto de
parámetros es continuo. Sin embargo en la practica es potestad del investigador seleccionar R. Sevilla
en que sitios de la región de interés hace la medición de las variables, es decir, el inves- C. Grande
tigador puede hacer selección de puntos del espacio a conveniencia o puede seleccionar
R
los sitios bajo algún esquema de muestreo probabilı́stico. En este sentido se dice que el . A ra
ca
ta
conjunto D ⊂ RP es fijo. Un ejemplo de un conjunto de datos analizado con métodos geo- ca 10 45' N
R. Fundacion
estadı́sticos es presentado en la Figura 1.1. Es importante resaltar que en geoestadı́stica
el propósito esencial es la interpolación y si no hay continuidad espacial pueden hacerse
predicciones carentes de sentido. Figura 1.1: Distribución espacial de clorofila en la Ciénaga Grande de Santa Marta (costa
norte de Colombia). Datos medidos en un jornada de muestreo realizada en marzo de 1997.
Datos de áreas o regionales: En este caso el proceso estocástico tiene espacio de paráme-
tros D ⊂ RP discreto y la selección de los sitios de medición depende del investigador (D
fijo). Las ubicaciones de muestreo pueden estar regular o irregularmente espaciadas. Dos
ejemplos de datos regionales son
{Z(s) : s ∈ D ⊂ RP }, donde Z(s) es la variable aleatoria correspondiente a la tasa
de mortalidad y los sitios son departamentos de Colombia, es decir D es el conjunto
discreto formado por los departamentos del paı́s.
CAPÍTULO 1. DATOS ESPACIALES Y ANÁLISIS EXPLORATORIO 7 8 1.3. MEDIDAS DE DEPENDENCIA ESPACIAL
técnicas geoestadı́sticas y el análisis de datos de áreas radica en el hecho de que el conjun-
to D ⊂ RP es aleatorio, es decir que la decisión al respecto de donde se hace la medición no
depende del investigador. Dicho conjunto puede ser discreto o continuo, pero la ubicación
de los sitios donde ocurre el fenómeno a estudiar es dada por la naturaleza. En general
el propósito de análisis en estos casos es el de determinar si la distribución de los indi-
viduos dentro de la región es aleatoria, agregada o uniforme. Algunos ejemplos de datos
correspondientes a patrones puntuales son dados a continuación
Ubicación de nidos de pájaros en una región dada.
Localización de imperfectos en una placa metálica
Sitios de terremotos en Colombia
Municipios de Colombia con mayorı́as negras
Figura 1.2: Mapa cloroplético de la tasa de delitos en Colombia en el año 2003. En los tres primeros ejemplos D ⊂ RP es continuo y en el último es discreto. Cuando
en cada sitio se hace medición de alguna variable (por ejemplo del número de huevos en los
{Z(s) : s ∈ D ⊂ RP }, donde Z(s) corresponde a la producción cafetera (en kilogra-
nidos, de la forma del imperfecto en la placa o de la tasa de analfabetismo de los municipios
mos) y D es el conjunto de todas las fincas productoras de café del paı́s.
de mayorı́as negras) se dice que ese tiene un patrón espacial marcado. Dos ejemplos de
Nuevamente el investigador puede decidir donde (en que departamentos o en que fincas datos correspondientes a patrones espaciales son dados en la Figura 1.3.
en los ejemplos) hace la medición de las variables de interés, es decir en datos de áreas
también el conjunto D ⊂ RP es fijo. En la Figura 1.2 se presenta un ejemplo de un conjunto
1.3. Medidas de dependencia espacial
de datos que corresponde a la observación de un proceso aleatorio de datos regionales. Un
ejemplo de datos de área con sitios regularmente espaciados es el de colores de pixeles en La dependencia espacial hace referencia a la estructura de correlación de las variables
interpretación de imágenes de satélite. En ese caso el conjunto de ubicaciones de interés es aleatorias del proceso {Z(s) : s ∈ D ⊂ RP }. Cuando hay dependencia espacial los si-
discreto y estas corresponden a agregaciones espaciales más que a un conjunto de puntos tios cercanos tienen valores más similares que los distantes. Por el contrario la ausencia
del espacio. Es obvio que la interpolación espacial puede ser carente de sentido con este de correlación espacial se refleja en el hecho de que la distancia entre los sitios no tiene
tipo de datos. Sus principales aplicaciones se encuentran en el campo epidemiológico. influencia en la relación de sus valores. A continuación se presentan algunos test y funcio-
nes que permiten establecer estadı́sticamente o de manera empı́rica si existe dependencia
Patrones Puntuales: La diferencia central del análisis de patrones puntuales con las (correlación) espacial.
encuentran las n! posibles asignaciones de sitios a valores y con cada una de ellas se cal-
cula M , obteniéndose por consiguiente su distribución bajo H0 . También en el caso de n
grande puede usarse un test de Monte Carlo en el que solo se toman k de las asignacio-
1500000
1500000
nes aleatorias de sitios a valores de la variable. En ambos casos (permutaciones, Monte

Carlo) podrı́a usarse una aproximación a la normal estimando E(M ) y V (M ) a través de
1000000
1000000
Pn 2
Pn 2
M̄ = 1/n i=1 Mi y sM = 1/(n − 1) i=1 (Mi − M̄ ) . En el caso de asumir normalidad y
Norte
Norte
aleatoriedad, es decir si Z(s1 ), · · · .Z(sn ) son iid, con Z(si ) ∼ N (µ, σ 2 ), pueden obtenerse
500000
500000
expresiones para E(M ) y V (M ) y establecer el nivel de significancia basándose en un test

normal.
0
400000 600000 800000 1000000 1400000 1800000 400000 750000 1100000 1450000 1800000
Este Este
1.3.2. Test de Moran
Figura 1.3: Ubicación de deslizamientos en el corredor Caño Limón-Coveñas en 2008 (panel Este test es especialmente usado en datos de áreas. Sean Z(s1 ), · · · , Z(sn ), las variables
izquierdo) y ubicación de sismos de baja magnitud en Colombia en el periodo Julio a medidas en las n áreas. La noción de autocorrelación espacial de estas variables está aso-
Diciembre de 2008 (panel derecho). ciada con la idea de que valores observados en áreas geográficas adyacentes serán más
similares que los esperados bajo el supuesto de independencia espacial. El ı́ndice de auto-
1.3.1. Test de Mantel correlación de Moran considerando la información de los vecinos más cercanos es definida
como
Permite comprobar estadı́sticamente si las observaciones provienen de un proceso es- n P
P n
Wij (Z(si ) − Z̄)(Z(sj ) − Z̄)
tocástico en el que las variables son correlacionadas espacialmente. n i=1 j=1
I= P n
n P n (1.1)
Hipótesis Wij
P
(Z(si ) − Z̄)2
H0 : Hay aleatoriedad espacial i=1 j=1 i=1
Ha : Hay correlación espacial Valores positivos (entre 0 y 1) indican autocorrelación directa (similitud entre valores
Estadı́stica de prueba cercanos) y valores negativos (entre -1 y 0) indican autocorrelación inversa (disimilitud
n X
n
X entre las áreas cercanas). Valores del coeficiente cercanos a cero apoyan la hipótesis de
M= Wij Uij ,
i=1 i=1 aleatoriedad espacial.
2
donde W ij = ksi − sj k y Uij = (Z(si ) − Z(sj )) . La estadı́stica de mantel está rela- Para el cálculo del ı́ndice de Moran es necesario definir la proximidad entre las áreas.
cionada con la pendiente del modelo de regresión simple Uij = βWij + eij a través de Lo anterior se lleva a cabo por medio del cálculo de una matriz de proximidad espacial.
Pn Pn
β = M/ i=1 i=1 Wij2 , es decir que intuitivamente se tiene que a mayor M , mayor de- Dado un conjunto de n áreas (A1 , · · · An ) se construye una matriz W (1) de orden (n × n)
pendencia espacial positiva. La significancia de la prueba puede establecerse por varios donde cada uno de los elementos Wij representa una medida de proximidad entre Ai y
caminos. Puede emplearse un test de permutaciones en el que asumiendo aleatoriedad se Aj j. Dicha medida puede ser calculada con alguno de los siguientes criterios:
Wij = 1 si el centro de Ai se encuentra a una distancia determinada de Aj o Wij = 0 1.3.3. Variograma
en caso contrario.
El variograma, denotado por 2γ(h), se define como la varianza de la diferencia entre
Wij = 1 si Ai comparte frontera con Aj y en caso contrario Wij = 0. variables separadas por una distancia h = ksi − sj k. Asumiendo que E(Z(s)) = µ se tiene
Wij = Iij /Ii , donde Iij es la longitud de la frontera entre Ai y Aj y Ii es el perı́metro 2γ(h) = V(Z(s + h) − Z(s))
de Ai . = E(Z(s + h) − Z(s))2 . (1.2)
Wij = dij , con dij la distancia entre los centros de las dos áreas.
La mitad del variograma se llama semivariograma y caracteriza las propiedades de depen-
En todos los casos anteriores Wii = 0. La idea de la matriz de proximidad espacial puede dencia espacial de un fenómeno espacial. Esta función es usualmente empleada para tratar
ser generalizada a vecinos de mayor orden (vecinos de vecinos) construyéndose ası́ las datos de un fenómeno con continuidad espacial (datos geoestadı́sticos). Usando el método
matrices W (2) , · · · , W (n) . Se acostumbra a normalizar las filas de la matriz, es decir que de momentos se tiene que un estimador del semivariograma es
la suma por fila de los Wij sea igual a uno. n(h)
1 X
Una vez obtenido el valor del coeficiente es necesario evaluar su significancia estadı́sti- γ̄(h) = (Z(s + h) − Z(s))2 , (1.3)
n(h)
ca. En otras palabras se requiere probar la hipótesis de aleatoriedad espacial con base en
donde n(h) representa el número de parejas de sitios (si , sj ) que se encuentran separados
el valor observado. Para llevar a cabo esto es necesario establecer la correspondiente distri-
por una distancia h. En la práctica, debido a irregularidad en el muestreo y por ende en las
bución de probabilidad de la estadı́stica de prueba I. Bajo normalidad, es decir asumiendo
distancias entre los sitios, se toman intervalos de distancia {[0, h], (h, 2h], (2h, 3h], · · · } y el
que Z(s1 ), · · · , Z(sn ) son iid con Z( si ) ∼ N (µ, σ 2 ), la estadı́stica
I − E(I) semivariograma experimental corresponde a una distancia promedio entre parejas de sitios
Z= p dentro de cada intervalo y no a una distancia h especı́fica. Obviamente el número de parejas
V(I)
sigue una distribución normal estándar, en la que el valor esperado y la varianza están de puntos n dentro de los intervalos no es constante. Para interpretar el semivariograma
dados por experimental se parte del criterio de que a menor distancia entre los sitios mayor similitud
1 n2 S1 − n2 S2 + 3S02 1 o correlación espacial entre las observaciones. Por ello en presencia de autocorrelación se
E(I) = − , V(I) = − ,
(n + 1) (n2 − 1)S02 (n − 1)2 espera que para valores de h pequeños el semivariograma experimental tenga magnitudes
donde menores a las que este toma cuando las distancias se incrementan.
n n n
X X X Como se verá en el capı́tulo 4 la solución del problema de predicción espacial requiere
S0 = Wij , S1 = (Wij + Wji )2 , S2 = (Wi0 + W0i )2 ,
i6=j i6=j i=1 del conocimiento de la estructura de autocorrelación para cualquier posible distancia en-
n n
X X tre sitios dentro del área de estudio. De la ecuación (1.3) es claro que el semivariograma
Wi0 = Wij , W0i = Wji .
j=1 j=1 muestral es calculado sólo para algunas distancias promedios particulares. Por ello se ha-
Otra posibilidad para establecer la significancia estadı́stica, con menos supuestos, es llevan- ce necesario el ajuste de modelos que generalicen la dependencia espacial para cualquier
do a cabo un test de permutación o de Monte Carlo como los descritos para la estadı́stica distancia (Figura 1.3. Existen diversos modelos teóricos de semivarianza que pueden ajus-
de Mantel. tarse al semivariograma muestral. En Cressie (1993) se presenta una discusión respecto
CAPÍTULO 1. DATOS ESPACIALES Y ANÁLISIS EXPLORATORIO 13 14 1.4. EFECTOS DE LA CORRELACIÓN EN INFERENCIA ESTADÍSTICA
2,0 2 a la distancia para la cual el semivariograma alcanza el 95 % de la meseta (sill ).
Sill ( σ )
1,6
Semivarianza
1,2 SEMEXP
MODELO
0,8
1.4. Efectos de la correlación en inferencia estadı́stica
0,4 Rango ( φ )
Nugget ( τ )
0,0 Muchas métodos estadı́sticos están basados en el supuesto de que las variables aleato-
0 10000 20000 30000
rias involucradas en la muestra son independientes. La violación de dicho supuesto tiene
Distancia
consecuencias en todos los procesos inferenciales. En esta sección se ilustra como la corre-
Figura 1.4: Comportamiento tı́pico de un semivariograma acotado con una representa- lación entre las variables (por consiguiente la no independencia entre las mismas) afecta
ción de los parámetros básicos. SEMEXP corresponde al semivariograma experimental y la estimación y la predicción en el modelo de regresión simple (sin covariables).
MODELO al ajuste de un modelo teórico.
1.4.1. Efecto en la estimación
a las caracterı́sticas y condiciones que éstos deben cumplir. En general dichos modelos
pueden dividirse en no acotados (lineal, logarı́tmico, potencial) y acotados (esférico, expo- Sea Y1 , · · · , Yn una muestra aleatoria de Y ∼ N (µ, σ 2 . El estimador de µ es Ȳ =
1
Pn 2
nencial, Gaussiano) (Samper and Carrera, 1993). Los del segundo grupo garantizan que n i=1 Yi . El valor esperado y la varianza de este estimador son µ y σ /n, respectivamente.
la covarianza de los incrementos es finita, por lo cual son ampliamente usados cuando hay Ahora suponga que las variables Y1 , · · · , Yn son correlacionadas y que Cov(Yi , Yj ) = σ 2 ρ.
1
Pn
evidencia de que presentan buen ajuste. La mayorı́a de modelos empleados para ajustar el En este caso nuevamente el estimador de µ es Ȳ = n i=1 Yi y su valor esperado es µ, sin
semivariograma muestral, tienen tres parámetros en común (Figura 1.4) que son descritos embargo la correlación aumenta (en este caso) la varianza del estimador. Veamos
a continuación: n
1X
V (Ȳ ) = V ( Yi )
n i=1
Nugget (τ ): Representa una discontinuidad puntual del semivariograma en el origen Ã !
n
n X
(Figura 1.3). Puede ser debido a errores de medición en la variable o a la escala de 1 X
= Cov(Yi , Yj
n2
la misma. En algunas ocasiones puede ser indicativo de que parte de la estructura i=1 j=1
espacial se concentra a distancias inferiores a las observadas. 1 £ 2
(σ + σ 2 ρ, · · · , +σ 2 ρ), · · · , (σ 2 + σ 2 ρ, · · · , +σ 2 ρ)
¤
= 2
n
1
nσ 2 + (n − 1)σ 2 ρ, · · · , (n − 1)σ 2 ρ
¡ ¢
Sill (σ 2 ): Es un estimador de la varianza de las variables del proceso. También puede = 2
n
definirse como el limite del semivariograma cuando la distancia h tiende a infinito. 1
nσ 2 + n(n − 1)σ 2 ρ
¡ ¢
= 2
n
Rango(φ). En términos prácticos corresponde a la distancia a partir de la cual dos σ2
= (1 + (n − 1)ρ) . (1.4)
observaciones son independientes. El rango se interpreta como la zona de influencia. n
Existen algunos modelos de semivariograma en los que no existe una distancia finita Si ρ > 0 en (1.4), V (Ȳ ) > σ 2 /n, es decir la varianza del estimador de µ cuando hay
para la cual dos observaciones sean independientes; por ello se llama rango efectivo correlación es mayor que la de este mismo cuando las variables son independientes.
1.4.2. Efecto en la predicción Se tiene que Cov(Y, Y0 ) = σ 2 ρ1. Desarrollando la varianza e incluyendo un multiplicador
de Lagrange para la condición de insesgadez la función a optimizar es
Sean Y1 , · · · , Yn variables aleatorias tales que Yi ∼ N (µ, σ 2 ) y Cov(Yi , Yj ) = σ 2 ρ. Un
n
modelo lineal para representar este escenario es X
mı́nV(Y0∗ ) + V(Y0 ) − 2Cov(Y0∗ , Y0 ) − 2m( λi − 1)
λ,m
      i=1
Y1 µ ²1
mı́nV(λT Y) + σ 2 − 2Cov(λT Y, Y0 ) − 2m(λT 1 − 1)
 ...  =  ...  +  ... 
      λ,m
Y=       
Yn µ ²n σ2ρ
mı́nλT Σλ + σ 2 − 2λT c − 2m(λT 1 − 1), c =  ... 2
 
 = σ ρ1.
 
= µ1 + ², (1.5) λ,m
σ2ρ
donde
Tomando derivadas respecto a λ y m se obtiene el siguiente sistema
 
1 ρ ··· ρ
  Σλ − c − m1 = 0
 ρ 1 ··· ρ 
 
V (²) = Σ = σ 2  . . . . λT 1 − 1 = 0. (1.7)
 . . . . ... 
 . . 
ρ ρ ··· 1
Despejando λ en la primera ecuación del sistema (1.7), se obtiene
Suponga que se quiere predecir una nueva observación Y0 . Definiendo el predictor por
λ = Σ−1 (c + m1). (1.8)
n
X
Y0∗ = λi Yi , (1.6)
i=1 Reemplazando esta expresión en la segunda ecuación del sistema (1.7) se encuentra
los pesos λi se obtienen de tal forma que se minimice la esperanza de una función de
(Σ−1 (c + m1))T 1 = 1
pérdida. Bajo pérdida cuadrática, el mejor predictor (lineal en este caso), será el que
(Σ−1 c + Σ−1 m1)T 1 = 1
minimiza la función
1T (Σ−1 c) + 1T (Σ−1 m1) = 1
mı́n E(Y0∗ − Y0 )2 , sujeto a E(Y0∗ ) = E(Y0 ). 1T (Σ−1 m1) = 1 − 1T (Σ−1 c)
λ1 ,...,λn
m = 1 − 1T (Σ−1 c) (1T Σ−1 1)−1
¡ ¢
De acuerdo con lo anterior, la función objetivo es 1 − 1T (Σ−1 c)
m= (1.9)
n
1T Σ−1 1
X
mı́nV(Y0∗ − Y0 ), sujeto a λi = 1.
λ,m
i=1
Sustituyendo (1.9) en la ecuación (1.8) se obtiene
(1.8) y (1.9), se encuentra que m = (1T (σ 2 I)−1 1)−1 y que
1 − 1T (Σ−1 c)
µ ¶
λ = Σ−1 c + 1 λ = (σ 2 I)−1 (1T (σ 2 I)−1 1)−1 1
1T Σ−1 1     
µ ¶T
1 − 1T (Σ−1 c) 1/σ 2 · · · 0 σ 2 /n 1/n
λT = c+1 (Σ−1 )T . .. . .    .
.. .. ..   .
  
1T Σ−1 1 =
 . 
 =  . .
 (1.13)
¶T
1 − 1T (Σ−1 c) 1/σ 2 σ 2 /n
µ
0 ··· 1/n
λT = c+1 Σ−1 . (1.10)
1T Σ−1 1
Al sustituir (1.13) en (1.6) se obtiene
De acuerdo con la solución obtenida en (1.10), el predictor en (1.6) es definido por
n
X
n
X Y0∗ = λ i Yi
Y0∗ = λ i Yi i=1
n
i=1 1X
= Yi = Ȳ . (1.14)
= λT Y n i=1
"µ ¶T #
1 − 1T (Σ−1 c)
= c+1 Σ−1 Y Tomando Σ = σ 2 I y c = 0 en (1.12) se obtiene que σp2 = σ 2 (1 + 1/n), es decir la varianza
1T Σ−1 1
de predicción del modelo bajo independencia.
Haciendo algunas manipulaiones de álgebra se obtiene que
Y0∗ = µ̂ + cT Σ−1 (Y − 1µ̂) , (1.11)
donde µ̂ es el estimador de mı́nimos cuadrados generalizados de µ en la ecuación (1.5). La
varianza del predictor en (1.11) está dada por
(1 − 1T Σ−1 c)2
σp2 = σ 2 − cT Σ1 c + . (1.12)
(1T Σ−1 1)
Observación
Del modelo lineal general Y = Xβ+² se tiene que el estimador de mı́nimos cuadrados
¡ ¢−1 ¡ T −1 ¢
generalizados del vector de parámetros es β = XT Σ−1 X X Σ Y . Definiendo
¡ ¢−1 ¡ T −1 ¢
X = 1 y β = µ, se obtiene que µ̂ = 1T Σ−1 1 1 Σ Y .
Ahora considérese el caso de predicción teniendo una muestra aleatoria. Sean Y1 , · · · , Yn
variables aleatorias independientes e idénticamente distribuidas, con Yi ∼ N (µ, σ 2 ). Plan-
teando el mismo predictor dado en (1.6) y reemplazando Σ = σ 2 I y c = 0 en las ecuaciones

Datos Espaciales

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Datos Espaciales

Enviado por

Direitos autorais:

Formatos disponíveis

21.1.

CONCEPTOS BÁSICOS DE PROBABILIDAD Y PROCESOS ESTOCÁSTICOS

nes aleatorias de sitios a valores de la variable. En ambos casos (permutaciones, Monte

expresiones para E(M ) y V (M ) y establecer el nivel de significancia basándose en un test

Você também pode gostar