Escolar Documentos
Profissional Documentos
Cultura Documentos
1
Introducción
En muchos casos es necesario tomar decisiones basadas en
la propia experiencia:
Está claro que los datos de esta estación muestran un error
sistemático a partir de 1975 (después de compararla con otras
estaciones)
Es evidente la influencia del grado de urbanización en la rápida
respuesta de la cuenca
Se comprueba el efecto de los cambios de usos de suelo en la
generación de escorrentía
Cómo de claro, cuánta evidencia hay
Estadística: los datos tienen variabilidad y errores de
medida
2
Ejemplos
¿hay suficiente información en la muestra de datos
para desestimar la hipótesis de homogeneidad?
Planteamiento en hipótesis sencillas como:
¿Las series son homogéneas?
¿Hay cambio en la media?
¿Hay cambio en la desviación típica?
¿Hay tendencias en los datos?
¿La muestra pertenece o se comporta como una
distribución dada?
¿Los datos son independientes?
3
Estadístico de contraste y regiones de
aceptación y rechazo (crítica)
T se estima a partir de la muestra
FD: da el criterio de aceptación/rechazo de la H0
Región de aceptación: el valor del estadístico permite
aceptar la hipótesis sobre la población
Aceptar Ho si T pertenece a la región de aceptación
Región crítica: el valor del estadístico es “raro”/Ho cierta y
se desestima la hipótesis sobre la población
Rechazar Ho si T pertenece a la región crítica
0,65
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
Media poblacional
4
Errores y nivel de significación
Se pueden cometer dos tipos de errores
rechazar una hipótesis nula Ho cierta (error tipo I)
aceptar una hipótesis nula Ho falsa (error tipo II)
Ho es verdadera Ho es falsa
Aceptación P(decisión correcta)=1-α Error tipo II
P(error tipo II)=β
Rechazo Error tipo I
P(error tipo I)=α P(decisión correcta)=1-β
Nivel de significación Potencia del test
Región crítica
RECHAZO
Región de aceptación
Variable
ACEPTO
5
Potencia del test
Probabilidad de detectar una tendencia cuando está
presente. P(rechazar Ho/T); probabilidad de rechazar la
hipótesis nula cuando es falsa
Al disminuir el nivel de significación, aumenta el error tipo
II, pero no son exactamente complementarios
Alfa (eI); definición del dominio de aceptación y crítico;
P(xalfa pertenezca a la R Aceptación / T)
Disminuir la probabilidad de ambos errores: aumentar el tamaño
muestral
Para cada valor del parámetro tenemos una probabilidad de
detectar esa evidencia
Curva de potencia
6
Ejemplo
Cálculo del nivel de significación asociado a una muestra y
un estadístico sin depender de una función de distribución
previa (Kundzewicz, 2000)
Aplicación de un número s
entre 100 y 2000, en un número suficientemente grande
permutaciones o muestreo con reemplazamiento
De la muestra original se calcula el valor del estadístico T
Para cada serie generada se calcula el estadístico Ti, i=1,s
Se ordenan de menor a mayor los Ti calculados y se obtiene el
valor de k tal que Tk<To<Tk+1
Por tanto, a la muestra original le corresponde un nivel de
significación asociado a la probabilidad p:
k k + 0,5 k +1
p= p= p=
s s +1 s+2
Teoremas de Fisher
Si x1, ...xn es una muestra aleatoria simple de una
población N(µ,σ), se cumple
Primero x ∈ N (µ , σ )
n n
∑ (x − x )
2
2 i
(n − 1)·s
Segundo 2
∈ χ n2−1 s2 = i =1
σ (n − 1)
7
Distribución χ2 (chi-cuadrado) de Pearson
Si x1, ..., xn son:
variables aleatorias independientes
con distribución N(0,1)
la variable aleatoria suma de los cuadrados de las n variables sigue
la distribución chi-cuadrado de Pearson.
n −1 −y
2 2
y ·e
2
y = x + ... + x 2 f ( y) = n
1 n
2 2 ·Γ n ( 2)
y>0
el número de sumandos n, ÚNICO PARÁMETRO de la
distribución, se denomina grados de libertad
Distribución t de Student
Dadas n+1 variables aleatorias independientes, x,
x1, ..., xn
con distribución idéntica N(0,σ)
Gosset planteó la siguiente variable aleatoria:
x
tn =
1 n 2
·∑ xi
n i =1
depende del número de grados de libertad, n, ÚNICO
PARÁMETRO de la distribución
8
Aplicación
Criterio para contrastes cuando la desviación
típica de la población es conocida
x−µ
∈ N (0,1)
σ n
9
Ejemplo
Problema:
Se tiene caracterizada una serie de caudales anuales de una cuenca
A mediante una distribución normal de media 3,56 m3/s y
desviación típica 2,14 m3/s
Durante un periodo reciente (27 años) se ha bombeado en una
cuenca próxima B y no se conoce si han afectado o no a la
hidrología de A. La media de caudales anuales en A durante los
últimos 27 años es de 1,51 m3/s
Se pide contrastar si hay o no un cambio significativo en la
media (si hay suficiente evidencia para descartar la
hipótesis nula de homogeneidad en la serie)
Ejemplo
Ho: no hay cambio en la media
H1 hay cambio en la media
1.00
0.95
0.90
0.85
0.80
0.75
Función de densidad
0.70
0.65
0.60
0.55 1,51 − 3,56
0.50
0.45 = 4,96 >
0.40 2,14
0.35
0.30
0.25
27
0.20
0.15
0.10
> 1,96 = z 2,5%
0.05
0.00
-4 -3 -2 -1 0 1 2 3 4
Variable
10
Contrastes/varianza de una población
normal
Título Muestra Población
Contraste sobre la varianza de una x1,...xn N(µ,σ)
población
Contraste Condiciones Región crítica
Bilateral. Ho: σ= σ o; H1 σ <> σ o µ desconocida
(n − 1)·s 2 2
C= ∉ χ n −1,1−α , χ n2−1,α
σ 2
o
2 2
µ desconocida
Unilateral. Ho: σ 2 ≤ σ o2 ; (n − 1)·s 2
2 2
C= 2
< χ n2−1,α
H1 σ >σ o σo
µ desconocida
σ ≥ σ o2 ; ( n − 1)·s 2
2
Unilateral. Ho: 2
2 2
C= 2
< χ n −1,1−α
H1 σ < σ o σ o
Ejemplo
Si las series siguen distribuciones normales, una forma de
valorar si hay cambios significativos en la media entre dos
periodos distintos es plantear el siguiente contraste de
hipótesis 2
2
S S
H o : µ1 = µ 2 ; H 1 : µ1 ≠ µ 2 ⇒ C = µ1 − µ 2 ≥ t f ,α ⋅ 1 + 2
2 n 1 n2
siendo tf α/2, la distribución t de Student para f grados de libertad
dados por la aproximación de Welch, el entero más próximo a
2
S12 S22
+
f = n1 n2 −2
2 2
1 S12 1 S22
⋅ + ⋅
n1 + 1 n1 n2 + 1 n2
Con muestras grandes se puede simplificar y tomar la distribución
normal estándar zα/2
11
Ejemplo
Año Estación Año Estación
pluviométrica pluviométrica Estación pluviométrica C.
C (mm) C (mm) Periodo de medidas 1941-1976.
1941 31 1959 34 Número total de datos: 36
1942 20 1960 29 40
1941
1944
1947
1950
1953
1956
1959
1962
1965
1968
1971
1974
1955 12 1973 35
1956 33 1974 36
1957 22 1975 25 Tiempo (años)
1958 27 1976 24
Ejemplo
t25,α/2 =2,06
µ1 − µ 2
= 2,6
S12 S 22
+
n1 n2
12
Test de bondad de ajuste
El test de χ2 se utiliza para valorar la bondad del
ajuste de unos datos a una función de distribución
Compara las frecuencias de la muestra clasificada con
las de la distribución teórica
Aplicable a variables discretas o continuas
Hipótesis nula, Ho: la variable x sigue una función
de distribución teórica F(x)
λ =∑
k
n ni k
· − pi = ∑ i
(n − n· pi )2 = k ni2 − n =
i =1 pi n i =1 n· pi
∑
i =1 n· pi
=∑
k
(Observadasi − Teóricasi )2
i =1 Teóricasi
k el número total de clases
ni el número de elementos por clase de la muestra
n el total de la muestra
pi la probabilidad teórica correspondiente a ese intervalo de clase
Cuanto mayor sea λ, menos se parecerán las distribuciones
muestral y teórica
13
Distribución del estadístico
Distribución χ2 con k-1 grados de libertad
Región crítica:
{
C = λ > χ k2−1,α }
Si los datos de la muestra se utilizan para calcular
m parámetros, el número de grados de libertad
será k-m-1
14
Aplicación del test chi-cuadrado
El número de clases afecta a la aplicación del test
Mínimo de 5 ó 6 clases, con un número similar de datos en las
clases y como mínimo entre 3 y 10 datos por clase.
El tamaño muestral debe ser grande, n > 25, 30 elementos
El estadístico es sensible a los extremos
Revisar los sumandos parciales (frecuencias observadas menos
teóricas al cuadrado)
En realidad se está contrastando el ajuste de la función de
distribución teórica al histograma muestral
Si las frecuencias son pequeñas y no se pueden reagrupar
las clases, se aplica la corrección de Yates
λ=∑
k
( ni − n· pi − 0,5)
2
i =1 n· pi
15
Histograma de frecuencias
Histograma inicial
40%
35% % Observado
30% % Teórico-Normal
25%
Frecuencia
20%
15%
10%
5%
0%
menor - 40-55 55-70 70-85 85-100 100-y
40 mayor...
Clase
0.09% 16.593
Número Total 53
No cumple
de elementos
Referencia chi-cuadrado 5.00% 7.815
16
Ejemplo: aplicación chi-cuadrado
Histograma y probabilidades asociadas a cada
intervalo. Preparar las columnas de cálculo
Clases Observadas Probabilidad Probabilidad
acumulada parcial
λ=∑
k
(ni − n· pi )2
i =1 n· pi
Número de grados de libertad
Número total de clases
Parámetros calculados
k-p-1
Aplicar DISTR.CHI(número grados de libertad;
cuantil)
17
Test de Kolmogorov-Smirnov
Test aplicable a:
conocer si unos datos siguen una función de
distribución determinada
contrastar cambios en la distribución de los datos, por
ejemplo detectar heterogeneidades entre dos periodos
La función de distribución debe ser continua
Hipótesis nula, la muestra sigue la FT
n ·max ( FO ( x) − FT ( x) )∈ Kolmogorov
18
Bondad de ajuste. Aplicación de
Kolmogorov-Smirnov
Si el estadístico calculado es mayor que el
correspondiente a las tablas, se rechaza la
hipótesis de comportamiento de la muestra según
la distribución seleccionada
dividir los siguientes valores por n
para contrastar con el máximo valor
absoluto de las diferencias de frecuencias
n 90% 95% 99%
10 1,05 1,14 1,29
20 1,10 1,22 1,42
30 1,12 1,24 1,46
40 1,13 1,26 1,50
50 1,14 1,27 1,52
100 1,17 1,29 1,55
∝ 1,22 1,36 1,63
Corrección de Lilliefors
Cuando se contrasta la normalidad de una muestra
y con la misma muestra se calculan los
parámetros, los valores de la tabla de referencia se
corrigen por los de Lilliefors, bastante más
restrictivos
La correspondiente distribución se denomina
Kolmogorov-Smirnov-Lilliefors
19
Heterogeneidades y el test de Kolmogorov-
Smirnov
Calcular las diferencias, yi, entre los valores de la estación
a comprobar y los de la estación de referencia (yi=xi-xref_i)
Calcular la serie de desviaciones acumuladas
estandarizadas por la desviación típica tal como se indica:
k
1 n S
S k = ∑ ( yi − y ) S2 =⋅ ∑ ( yi − y ) 2 S ka = k
i =1 n i =1 S
Hay falta de homogeneidad si se alcanzan valores
demasiado altos
El estadístico de referencia: máximo de los valores
absolutos alcanzados
P = máx S ka
0≤ k ≤ n
20
Test del coeficiente de Spearman
Basado en los rangos para determinar si la
correlación entre dos variables es significativa
Estadístico: coeficiente de Spearman de las series
Estadístico estandarizado:
rRxy · n − 1
Región de aceptación y región crítica:
se considera que, con muestras de más de 20 valores, el
estadístico estandarizado sigue una normal de media
nula y desviación típica unidad
Test de rachas
Se aplica para conocer si la muestra está constituida por
datos aleatorios e independientemente distribuidos
Se contrasta el número de rachas existentes en una serie
Racha: una sucesión de valores por encima o por debajo de un
determinado nivel, por ejemplo la mediana
Estadístico: número de rachas de la serie
Si n es el número total de datos en la serie, los valores de la media
y varianza son los siguientes
n n·(n − 2 ) n −1 (n − 1)(· n − 3)
µ =1+ σ2 = µ = 1+ σ2 =
2 4·(n − 1) 2 4·(n − 2)
Hipótesis nula: independencia de los registros
21
Test de rachas
¿Las presas construidas en cabecera a mediados de
los 60 tienen influencia en la reducción de
avenidas?. Análisis serie de máximos anuales
1200,0
1000,0
800,0
m3 /s
600,0
400,0
200,0
0,0
1948-49
1949-50
1951-52
1952-53
1955-56
1958-59
1961-62
1962-63
1964-65
1965-66
1968-69
1971-72
1972-73
1974-75
1975-76
1977-78
1978-79
1981-82
1984-85
1985-86
1987-88
1988-89
1946-47
1947-48
1950-51
1953-54
1954-55
1956-57
1957-58
1959-60
1960-61
1963-64
1966-67
1967-68
1969-70
1970-71
1973-74
1976-77
1979-80
1980-81
1982-83
1983-84
1986-87
1989-90
1990-91
Test de rachas
Año m3/s Racha Año m3/s Racha Año m3/s Racha
1946-47 464,2 + 1962-63 207,4 - 1978-79 87,0 -
1947-48 447,0 + 1963-64 128,3 - 1979-80 226,2 -
1948-49 880,0 + 1964-65 1980-81 87,0 -
1949-50 181,0 - 1965-66 362,0 + 1981-82 45,5 -
1950-51 860,0 + 1966-67 161,0 - 1982-83
1951-52 315,0 + 1967-68 154,7 - 1983-84
1952-53 92,9 - 1968-69 161,4 - 1984-85 270,1 -
1953-54 375,0 + 1969-70 460,5 + 1985-86 311,4 +
1954-55 134,2 - 1970-71 133,6 - 1986-87 413,0 +
1955-56 177,3 - 1971-72 556,5 + 1987-88 800,1 +
1956-57 954,0 + 1972-73 377,5 + 1988-89 208,2 -
1957-58 440,4 + 1973-74 163,2 - 1989-90 372,7 +
1958-59 800,0 + 1974-75 70,9 - 1990-91 221,1 -
1959-60 302,0 + 1975-76 347,8 +
1960-61 114,0 - 1976-77 319,5 +
1961-62 143,5 - 1977-78 524,2 +
•El total de datos disponibles es de 42; mediana de 270,1 m3/s; Núm. Rachas: 20
•Valor crítico para n. s. del 2,5% es (4,72 ;17,25); unilateral al 5% 5,75
•Los datos son aleatorios y las presas no tienen una influencia significativa
22
Aplicabilidad del test de rachas
¿El cambio introducido es suficientemente
importante respecto a la variabilidad de otros
componentes aleatorios?
Ejemplo: lluvias en caudales máximos.
¿Cómo se introducen los cambios?
Forma gradual y durante un periodo largo respecto al
total disponible: más difícil identificar su efecto
Manera repentina y centrados en el periodo temporal de
estudio: es esperable que sus efectos sean más claros en
la serie
23
Test o ratio de Von Neumann
Con información regional o de estaciones de referencia
Aplicación (Singh):
Calcular la serie de residuos yi=xi-xref_i con i=1..n, siendo xref_i la
serie correspondiente a la estación de referencia
n −1
Calcular el estadístico ∑( y
i =1
i − yi +1 )2
V= n
∑( y
i =1
i − µ y )2
Test de Alexandersson
Se contrasta la homogeneidad identificando el año de
ruptura entre las series
Aplicación:
Obtener la serie de residuos yi=xi/xref_i con i=1..n, siendo xref_i la
serie correspondiente a la estación de referencia y xi la serie
correspondiente a la estación en sí.
Estandarizar los valores de la serie yi obtenida anteriormente tal
como se indica a continuación 2 2
1 n
2
1 k 1 n
S = ⋅ ∑ ( yi − y )
2
zi =
yi − y tk = ⋅ ∑ zi + ⋅ ∑ zi
n i =1 S k i =1 n − k i =k +1
Valores demasiado altos indican una probabilidad alta de falta de
homogeneidad entre series; seleccionar el punto de ruptura k en el
valor más alto Valores críticos. Alexandersson.
Nivel de confianza 95%
24