Escolar Documentos
Profissional Documentos
Cultura Documentos
1500000
1000000
Pn 2
Pn 2
M̄ = 1/n i=1 Mi y sM = 1/(n − 1) i=1 (Mi − M̄ ) . En el caso de asumir normalidad y
Norte
Norte
aleatoriedad, es decir si Z(s1 ), · · · .Z(sn ) son iid, con Z(si ) ∼ N (µ, σ 2 ), pueden obtenerse
500000
500000
400000 600000 800000 1000000 1400000 1800000 400000 750000 1100000 1450000 1800000
Este Este
1.3.2. Test de Moran
Figura 1.3: Ubicación de deslizamientos en el corredor Caño Limón-Coveñas en 2008 (panel Este test es especialmente usado en datos de áreas. Sean Z(s1 ), · · · , Z(sn ), las variables
izquierdo) y ubicación de sismos de baja magnitud en Colombia en el periodo Julio a medidas en las n áreas. La noción de autocorrelación espacial de estas variables está aso-
Diciembre de 2008 (panel derecho). ciada con la idea de que valores observados en áreas geográficas adyacentes serán más
similares que los esperados bajo el supuesto de independencia espacial. El ı́ndice de auto-
1.3.1. Test de Mantel correlación de Moran considerando la información de los vecinos más cercanos es definida
como
Permite comprobar estadı́sticamente si las observaciones provienen de un proceso es- n P
P n
Wij (Z(si ) − Z̄)(Z(sj ) − Z̄)
tocástico en el que las variables son correlacionadas espacialmente. n i=1 j=1
I= P n
n P n (1.1)
Hipótesis Wij
P
(Z(si ) − Z̄)2
H0 : Hay aleatoriedad espacial i=1 j=1 i=1
Ha : Hay correlación espacial Valores positivos (entre 0 y 1) indican autocorrelación directa (similitud entre valores
Estadı́stica de prueba cercanos) y valores negativos (entre -1 y 0) indican autocorrelación inversa (disimilitud
n X
n
X entre las áreas cercanas). Valores del coeficiente cercanos a cero apoyan la hipótesis de
M= Wij Uij ,
i=1 i=1 aleatoriedad espacial.
2
donde W ij = ksi − sj k y Uij = (Z(si ) − Z(sj )) . La estadı́stica de mantel está rela- Para el cálculo del ı́ndice de Moran es necesario definir la proximidad entre las áreas.
cionada con la pendiente del modelo de regresión simple Uij = βWij + eij a través de Lo anterior se lleva a cabo por medio del cálculo de una matriz de proximidad espacial.
Pn Pn
β = M/ i=1 i=1 Wij2 , es decir que intuitivamente se tiene que a mayor M , mayor de- Dado un conjunto de n áreas (A1 , · · · An ) se construye una matriz W (1) de orden (n × n)
pendencia espacial positiva. La significancia de la prueba puede establecerse por varios donde cada uno de los elementos Wij representa una medida de proximidad entre Ai y
caminos. Puede emplearse un test de permutaciones en el que asumiendo aleatoriedad se Aj j. Dicha medida puede ser calculada con alguno de los siguientes criterios:
CAPÍTULO 1. DATOS ESPACIALES Y ANÁLISIS EXPLORATORIO 11 12 1.3. MEDIDAS DE DEPENDENCIA ESPACIAL
Wij = 1 si el centro de Ai se encuentra a una distancia determinada de Aj o Wij = 0 1.3.3. Variograma
en caso contrario.
El variograma, denotado por 2γ(h), se define como la varianza de la diferencia entre
Wij = 1 si Ai comparte frontera con Aj y en caso contrario Wij = 0. variables separadas por una distancia h = ksi − sj k. Asumiendo que E(Z(s)) = µ se tiene
Wij = Iij /Ii , donde Iij es la longitud de la frontera entre Ai y Aj y Ii es el perı́metro 2γ(h) = V(Z(s + h) − Z(s))
de Ai . = E(Z(s + h) − Z(s))2 . (1.2)
Wij = dij , con dij la distancia entre los centros de las dos áreas.
La mitad del variograma se llama semivariograma y caracteriza las propiedades de depen-
En todos los casos anteriores Wii = 0. La idea de la matriz de proximidad espacial puede dencia espacial de un fenómeno espacial. Esta función es usualmente empleada para tratar
ser generalizada a vecinos de mayor orden (vecinos de vecinos) construyéndose ası́ las datos de un fenómeno con continuidad espacial (datos geoestadı́sticos). Usando el método
matrices W (2) , · · · , W (n) . Se acostumbra a normalizar las filas de la matriz, es decir que de momentos se tiene que un estimador del semivariograma es
la suma por fila de los Wij sea igual a uno. n(h)
1 X
Una vez obtenido el valor del coeficiente es necesario evaluar su significancia estadı́sti- γ̄(h) = (Z(s + h) − Z(s))2 , (1.3)
n(h)
ca. En otras palabras se requiere probar la hipótesis de aleatoriedad espacial con base en
donde n(h) representa el número de parejas de sitios (si , sj ) que se encuentran separados
el valor observado. Para llevar a cabo esto es necesario establecer la correspondiente distri-
por una distancia h. En la práctica, debido a irregularidad en el muestreo y por ende en las
bución de probabilidad de la estadı́stica de prueba I. Bajo normalidad, es decir asumiendo
distancias entre los sitios, se toman intervalos de distancia {[0, h], (h, 2h], (2h, 3h], · · · } y el
que Z(s1 ), · · · , Z(sn ) son iid con Z( si ) ∼ N (µ, σ 2 ), la estadı́stica
I − E(I) semivariograma experimental corresponde a una distancia promedio entre parejas de sitios
Z= p dentro de cada intervalo y no a una distancia h especı́fica. Obviamente el número de parejas
V(I)
sigue una distribución normal estándar, en la que el valor esperado y la varianza están de puntos n dentro de los intervalos no es constante. Para interpretar el semivariograma
dados por experimental se parte del criterio de que a menor distancia entre los sitios mayor similitud
1 n2 S1 − n2 S2 + 3S02 1 o correlación espacial entre las observaciones. Por ello en presencia de autocorrelación se
E(I) = − , V(I) = − ,
(n + 1) (n2 − 1)S02 (n − 1)2 espera que para valores de h pequeños el semivariograma experimental tenga magnitudes
donde menores a las que este toma cuando las distancias se incrementan.
n n n
X X X Como se verá en el capı́tulo 4 la solución del problema de predicción espacial requiere
S0 = Wij , S1 = (Wij + Wji )2 , S2 = (Wi0 + W0i )2 ,
i6=j i6=j i=1 del conocimiento de la estructura de autocorrelación para cualquier posible distancia en-
n n
X X tre sitios dentro del área de estudio. De la ecuación (1.3) es claro que el semivariograma
Wi0 = Wij , W0i = Wji .
j=1 j=1 muestral es calculado sólo para algunas distancias promedios particulares. Por ello se ha-
Otra posibilidad para establecer la significancia estadı́stica, con menos supuestos, es llevan- ce necesario el ajuste de modelos que generalicen la dependencia espacial para cualquier
do a cabo un test de permutación o de Monte Carlo como los descritos para la estadı́stica distancia (Figura 1.3. Existen diversos modelos teóricos de semivarianza que pueden ajus-
de Mantel. tarse al semivariograma muestral. En Cressie (1993) se presenta una discusión respecto
CAPÍTULO 1. DATOS ESPACIALES Y ANÁLISIS EXPLORATORIO 13 14 1.4. EFECTOS DE LA CORRELACIÓN EN INFERENCIA ESTADÍSTICA
2,0 2 a la distancia para la cual el semivariograma alcanza el 95 % de la meseta (sill ).
Sill ( σ )
1,6
Semivarianza
1,2 SEMEXP
MODELO
0,8
1.4. Efectos de la correlación en inferencia estadı́stica
0,4 Rango ( φ )
Nugget ( τ )
0,0 Muchas métodos estadı́sticos están basados en el supuesto de que las variables aleato-
0 10000 20000 30000
rias involucradas en la muestra son independientes. La violación de dicho supuesto tiene
Distancia
consecuencias en todos los procesos inferenciales. En esta sección se ilustra como la corre-
Figura 1.4: Comportamiento tı́pico de un semivariograma acotado con una representa- lación entre las variables (por consiguiente la no independencia entre las mismas) afecta
ción de los parámetros básicos. SEMEXP corresponde al semivariograma experimental y la estimación y la predicción en el modelo de regresión simple (sin covariables).
MODELO al ajuste de un modelo teórico.
1.4.1. Efecto en la estimación
a las caracterı́sticas y condiciones que éstos deben cumplir. En general dichos modelos
pueden dividirse en no acotados (lineal, logarı́tmico, potencial) y acotados (esférico, expo- Sea Y1 , · · · , Yn una muestra aleatoria de Y ∼ N (µ, σ 2 . El estimador de µ es Ȳ =
1
Pn 2
nencial, Gaussiano) (Samper and Carrera, 1993). Los del segundo grupo garantizan que n i=1 Yi . El valor esperado y la varianza de este estimador son µ y σ /n, respectivamente.
la covarianza de los incrementos es finita, por lo cual son ampliamente usados cuando hay Ahora suponga que las variables Y1 , · · · , Yn son correlacionadas y que Cov(Yi , Yj ) = σ 2 ρ.
1
Pn
evidencia de que presentan buen ajuste. La mayorı́a de modelos empleados para ajustar el En este caso nuevamente el estimador de µ es Ȳ = n i=1 Yi y su valor esperado es µ, sin
semivariograma muestral, tienen tres parámetros en común (Figura 1.4) que son descritos embargo la correlación aumenta (en este caso) la varianza del estimador. Veamos
a continuación: n
1X
V (Ȳ ) = V ( Yi )
n i=1
Nugget (τ ): Representa una discontinuidad puntual del semivariograma en el origen à !
n
n X
(Figura 1.3). Puede ser debido a errores de medición en la variable o a la escala de 1 X
= Cov(Yi , Yj
n2
la misma. En algunas ocasiones puede ser indicativo de que parte de la estructura i=1 j=1
espacial se concentra a distancias inferiores a las observadas. 1 £ 2
(σ + σ 2 ρ, · · · , +σ 2 ρ), · · · , (σ 2 + σ 2 ρ, · · · , +σ 2 ρ)
¤
= 2
n
1
nσ 2 + (n − 1)σ 2 ρ, · · · , (n − 1)σ 2 ρ
¡ ¢
Sill (σ 2 ): Es un estimador de la varianza de las variables del proceso. También puede = 2
n
definirse como el limite del semivariograma cuando la distancia h tiende a infinito. 1
nσ 2 + n(n − 1)σ 2 ρ
¡ ¢
= 2
n
Rango(φ). En términos prácticos corresponde a la distancia a partir de la cual dos σ2
= (1 + (n − 1)ρ) . (1.4)
observaciones son independientes. El rango se interpreta como la zona de influencia. n
Existen algunos modelos de semivariograma en los que no existe una distancia finita Si ρ > 0 en (1.4), V (Ȳ ) > σ 2 /n, es decir la varianza del estimador de µ cuando hay
para la cual dos observaciones sean independientes; por ello se llama rango efectivo correlación es mayor que la de este mismo cuando las variables son independientes.
CAPÍTULO 1. DATOS ESPACIALES Y ANÁLISIS EXPLORATORIO 15 16 1.4. EFECTOS DE LA CORRELACIÓN EN INFERENCIA ESTADÍSTICA
1.4.2. Efecto en la predicción Se tiene que Cov(Y, Y0 ) = σ 2 ρ1. Desarrollando la varianza e incluyendo un multiplicador
de Lagrange para la condición de insesgadez la función a optimizar es
Sean Y1 , · · · , Yn variables aleatorias tales que Yi ∼ N (µ, σ 2 ) y Cov(Yi , Yj ) = σ 2 ρ. Un
n
modelo lineal para representar este escenario es X
mı́nV(Y0∗ ) + V(Y0 ) − 2Cov(Y0∗ , Y0 ) − 2m( λi − 1)
λ,m
i=1
Y1 µ ²1
mı́nV(λT Y) + σ 2 − 2Cov(λT Y, Y0 ) − 2m(λT 1 − 1)
... = ... + ...
λ,m
Y=
Yn µ ²n σ2ρ
mı́nλT Σλ + σ 2 − 2λT c − 2m(λT 1 − 1), c = ... 2
= σ ρ1.
= µ1 + ², (1.5) λ,m
σ2ρ
donde
Tomando derivadas respecto a λ y m se obtiene el siguiente sistema
1 ρ ··· ρ
Σλ − c − m1 = 0
ρ 1 ··· ρ
V (²) = Σ = σ 2 . . . . λT 1 − 1 = 0. (1.7)
. . . . ...
. .
ρ ρ ··· 1
Despejando λ en la primera ecuación del sistema (1.7), se obtiene
Suponga que se quiere predecir una nueva observación Y0 . Definiendo el predictor por
λ = Σ−1 (c + m1). (1.8)
n
X
Y0∗ = λi Yi , (1.6)
i=1 Reemplazando esta expresión en la segunda ecuación del sistema (1.7) se encuentra
los pesos λi se obtienen de tal forma que se minimice la esperanza de una función de
(Σ−1 (c + m1))T 1 = 1
pérdida. Bajo pérdida cuadrática, el mejor predictor (lineal en este caso), será el que
(Σ−1 c + Σ−1 m1)T 1 = 1
minimiza la función
1T (Σ−1 c) + 1T (Σ−1 m1) = 1
mı́n E(Y0∗ − Y0 )2 , sujeto a E(Y0∗ ) = E(Y0 ). 1T (Σ−1 m1) = 1 − 1T (Σ−1 c)
λ1 ,...,λn
m = 1 − 1T (Σ−1 c) (1T Σ−1 1)−1
¡ ¢
De acuerdo con lo anterior, la función objetivo es 1 − 1T (Σ−1 c)
m= (1.9)
n
1T Σ−1 1
X
mı́nV(Y0∗ − Y0 ), sujeto a λi = 1.
λ,m
i=1
Sustituyendo (1.9) en la ecuación (1.8) se obtiene
CAPÍTULO 1. DATOS ESPACIALES Y ANÁLISIS EXPLORATORIO 17 18 1.4. EFECTOS DE LA CORRELACIÓN EN INFERENCIA ESTADÍSTICA
(1.8) y (1.9), se encuentra que m = (1T (σ 2 I)−1 1)−1 y que
1 − 1T (Σ−1 c)
µ ¶
λ = Σ−1 c + 1 λ = (σ 2 I)−1 (1T (σ 2 I)−1 1)−1 1
1T Σ−1 1
µ ¶T
1 − 1T (Σ−1 c) 1/σ 2 · · · 0 σ 2 /n 1/n
λT = c+1 (Σ−1 )T . .. . . .
.. .. .. .
1T Σ−1 1 =
.
= . .
(1.13)
¶T
1 − 1T (Σ−1 c) 1/σ 2 σ 2 /n
µ
0 ··· 1/n
λT = c+1 Σ−1 . (1.10)
1T Σ−1 1
Al sustituir (1.13) en (1.6) se obtiene
De acuerdo con la solución obtenida en (1.10), el predictor en (1.6) es definido por
n
X
n
X Y0∗ = λ i Yi
Y0∗ = λ i Yi i=1
n
i=1 1X
= Yi = Ȳ . (1.14)
= λT Y n i=1
"µ ¶T #
1 − 1T (Σ−1 c)
= c+1 Σ−1 Y Tomando Σ = σ 2 I y c = 0 en (1.12) se obtiene que σp2 = σ 2 (1 + 1/n), es decir la varianza
1T Σ−1 1
de predicción del modelo bajo independencia.
Haciendo algunas manipulaiones de álgebra se obtiene que
Y0∗ = µ̂ + cT Σ−1 (Y − 1µ̂) , (1.11)
donde µ̂ es el estimador de mı́nimos cuadrados generalizados de µ en la ecuación (1.5). La
varianza del predictor en (1.11) está dada por
(1 − 1T Σ−1 c)2
σp2 = σ 2 − cT Σ1 c + . (1.12)
(1T Σ−1 1)
Observación
Del modelo lineal general Y = Xβ+² se tiene que el estimador de mı́nimos cuadrados
¡ ¢−1 ¡ T −1 ¢
generalizados del vector de parámetros es β = XT Σ−1 X X Σ Y . Definiendo
¡ ¢−1 ¡ T −1 ¢
X = 1 y β = µ, se obtiene que µ̂ = 1T Σ−1 1 1 Σ Y .
Ahora considérese el caso de predicción teniendo una muestra aleatoria. Sean Y1 , · · · , Yn
variables aleatorias independientes e idénticamente distribuidas, con Yi ∼ N (µ, σ 2 ). Plan-
teando el mismo predictor dado en (1.6) y reemplazando Σ = σ 2 I y c = 0 en las ecuaciones