Escolar Documentos
Profissional Documentos
Cultura Documentos
Curso 2012-2013
Pedro Faraldo, Beatriz Pateiro
.
.
.
.
1
2
3
3
5
6
6
7
7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 Estimacin puntual
En este tema se trata el problema de la estimacin de parmetros. Para ello, comenzamos recordando algunos
conceptos bsicos de la inferencia estadstica que ya fueron introducidos en el tema anterior, y que sern necesarios
para la construccin y el estudio de los estimadores:
Poblacin: conjunto homogneo de individuos sobre los que se estudian caractersticas observables con el
objetivo de extraer alguna conclusin. Por abuso de notacin, en ocasiones nos referimos a la distribucin
que sigue la variable de inters en vez de al conjunto de individuos. As, se dice que estamos ante una
poblacin Normal indicando que la variable que nos interesa sigue una distribucin normal.
Parmetro: caracterstica de la poblacin, como la media y la varianza (o desviacin tpica) en la distribucin
Normal o la probabilidad de xito en la Binomial son parmetros. Si conocemos su valor (o si somos capaces
de aproximarlo con suficiente precisin) podremos responder a cualquier pregunta sobre la distribucin.
Estadstico: cualquier funcin de la muestra. Por ejemplo, la media o la varianza muestrales son estadsticos.
Estimadores: son estadsticos independientes de los parmetros de la poblacin, y que se utilizan para
En el caso de una poblacin
aproximarlos. Si es el parmetro de inters, el estimador se denotar por .
Normal, podemos considerar la media muestral como estimador de la media poblacional (es decir, X = ) y
la varianza muestral como estimador de la varianza poblacional (s2 = 2 ). Para una distribucin Bi(m, p),
donde m denota el nmero de pruebas de Bernoulli, la proporcin p se puede estimar a partir de la
proporcin poblacional (que denotaremos por p ). Por tanto, X , s2 y p son estimadores puntuales de , 2
(en distribucin Normal) y p (en distribucin Binomial), respectivamente.
Mtodo de muestreo: procedimiento para seleccionar una muestra. Si en una poblacin queremos obtener
una muestra de un cierto tamao n (siendo n menor que el tamao de la poblacin), la manera de obtener
esta muestra no es nica. En este tema, consideraremos muestras aleatorias simples (m.a.s.).
Tema 4
Las estimaciones puntuales de los parmetros se obtienen a partir de una muestra aleatoria simple X1 , . . . , Xn de
la variable X . Si calculamos el valor del estimador a partir de distintas muestras, los resultados que obtendremos
sern diferentes. Es decir, los estimadores, al estar construidos a partir de muestras aleatorias, son aleatorios y en
consecuencia, tienen una distribucin. La distribucin de los estimadores se denomina distribucin en el muestreo.
Describimos a continuacin los estimadores para la proporcin (en distribucin Binomial) y para la media y la
varianza (en distribucin Normal) y sus respectivas distribuciones en el muestreo, que sern tenidas en cuenta a
la hora de construir los intervalos de confianza.
Pgina 2 de 8
Tema 4
0.55
0.60
0.65
0.70
0.75
0.80
0.85
Figura 1: Distribucin de la proporcin muestral p , a partir de 500 muestras de tamao n = 100. Distribucin
normal de media p = 0.7 y varianza p(1 p)/n.
Estimacin de la media .
Supongamos que disponemos de X1 , . . . , Xn una m.a.s. de X N(, 2 ). La media poblacional se puede estimar
n
1X
con la media muestral X =
Xi , cuya distribucin en el muestreo tambin es Normal:
n
i=1
2
X N ,
n
Adems, dado que tenemos una Normal, podramos tipificarla y obtener una N(0, 1):
X
N(0, 1).
/ n
(1)
La distribucin es consecuencia de que la suma de variables Normales es tambin una variable Normal. Este
resultado es vlido si la varianza poblacional 2 es conocida. Esta distribucin se puede interpretar de la siguiente
forma:
X se distribuye simtricamente (ya que su distribucin es Normal) alrededor de su media, que es E(X ) =
la media poblacional o terica.
El tamao muestral aparece dividiendo en la varianza, con lo que, al aumentar n, la distribucin de X se
concentra ms alrededor de , como se puede observar en la Figura 2. Los histogramas y las correspondientes
densidades normales, estn centrados en la media real de la poblacin de la poblacin, pero se puede
apreciar que la concentracin alrededor de este valor aumenta con el tamao muestral.
Pgina 3 de 8
Tema 4
Error tpico: la media muestral X es un estimador simtrico para , por lo que podemos calcular su error
tpico, que viene dado por:
ET (X ) =
n
n=100
n=500
4.5
5.0
5.5
0.0
0.5
1.0
1.5
n=20
4.5
5.0
5.5
4.5
5.0
5.5
Figura 2: Distribucin de la media muestral X , a partir de 500 muestras de tamao n = 20, n = 100, n = 500.
Distribucin normal de media = 5 y varianza 1/n.
Si la varianza 2 es desconocida no podemos utilizar la distribucin obtenida en (1), y debemos substituir 2 por
un estimador. La varianza 2 puede ser estimada por la varianza muestral:
n
s2 =
1X
(Xi X )2
n
(2)
i=1
o por la cuasivarianza:
1 X
S =
(Xi X )2
n1
2
(3)
i=1
Estos estimadores se vern con ms detalle en la siguiente seccin. Entonces, si queremos estimar la media a
partir de una m.a.s. X1 , . . . , Xn y no conocemos la varianza, en la expresin (1) substituimos 2 (equivalentemente,
) por un estimador de la siguiente manera:
X
X
=
S/ n
s/ n 1
tn1
N(0, 1)
si n 30,
si n > 30,
donde tn1 denota una distribucin T-Student, con (n 1) grados de libertad. Esta distribucin es simtrica y se
aproxima a la N(0, 1) para n suficientemente grande (vase Figura 3).
Al igual que en el caso anterior (con varianza conocida), seguimos teniendo un estimador simtrico, pero el error
tpico vendr ahora dado por:
S
s
=
ET (X ) =
n
n1
Pedro Faraldo, Beatriz Pateiro
Pgina 4 de 8
Tema 4
0.0
0.1
0.2
0.3
0.4
TStudent
Figura 3: Distribucin t de Student con distintos grados de libertad. Azul: n = 1 (Cauchy); roja: n = 5; verde:
n = 10; negra: N(0, 1).
En resumen, cuando queremos estimar la media en una poblacin Normal, debemos distinguir los siguientes
casos:
X
1. Si la varianza 2 es conocida, entonces: N(0, 1)
/ n
2. Si la varianza 2 es desconocida y n > 30:
3. Si la varianza 2 es desconocida y n 30:
1.2.2
X
X
= N(0, 1)
S/ n
s/ n 1
X
X
= tn1
S/ n
s/ n 1
Estimacin de la varianza 2
En la estimacin de la media se hace necesario utilizar un estimador de la varianza 2 , en caso de que esta no
sea conocida. Para ello podemos utilizar la varianza muestral s2 o la cuasivarianza muestral S 2 , que vienen dadas
por (2) y (3), respectivamente. Es fcil ver la relacin entre ellas, ya que:
s2 =
n1 2
S ,
n
o bien
S2 =
n 2
s.
n1
Estos dos estimadores slo se distinguen en su denominador, y para n grande, no hay diferencias importantes entre
ellos. Como la varianza muestral o la cuasivarianza proporcionarn valores (aleatorios) positivos, su distribucin
tendr como soporte [0, ). Esta distribucin ser la distribucin Chi-cuadrado 2 (distribucin ji-cuadrado).
Si X1 , . . . , Xn es una m.a.s. de variables normales con varianza 2 , entonces:
ns2
2
n1
,
2
o bien
(n 1)S 2
2
n1
,
2
2
donde n1
es una distribucin Chi-cuadrado con (n 1) grados de libertad. Esta distribucin es asimtrica y
con soporte la semirrecta real positiva, como puede verse en la Figura 4.
Esta distribucin es necesaria cuando el tamao de la muestra es pequeo. Para n suficientemente grande,
podemos aproximar una distribucin n2 (Chi-cuadrado con n grados de libertad) por una N(n, 2n).
Pgina 5 de 8
Tema 4
0.00
0.00
0.02
0.05
0.04
0.06
0.10
0.08
0.15
0.10
n=10
10
15
20
25
30
35
10
20
30
40
(4)
De este modo, obtendremos intervalos de confianza centrados en el estimador, y cuya amplitud vendr determinada
por su error tpico (donde interviene el tamao de la muestra) y por el cuantil de la distribucin correspondiente,
que estar relacionado con la cobertura del intervalo.
Pgina 6 de 8
Tema 4
q
p)
IC para p al 95 %: p 1.96 p(1
n
q
p)
IC para p al 99 %: p 2.57 p(1
n
ya que para una cobertura 1 = 0.9 = 90 % ( = 0.1), el cuantil z1/2 = 1.64. Del mismo modo, para
una cobertura del 1 = 0.95 = 95 % ( = 0.05) el cuantil es z1/2 = 1.96 y para un cobertura del
1 = 0.99 = 99 % ( = 0.01) el cuantil es z1/2 = 2.57.
X z1/2
n
donde z1/2 es el cuantil de una N(0, 1) que tomar valores 1.64 para cobertura del 90 %, 1.96 para
cobertura del 95 % y 2.57 para cobertura del 99 % (al igual que en los intervalos para la proporcin que
vimos en la seccin anterior).
2. La varianza 2 es desconocida pero n es grande. Cuando la varianza no es conocida, la distribucin de
la media X es una T-Student, que para tamao muestral n 30 se puede aproximar por una N(0, 1). En
este caso, se debe aproximar el error tpico obteniendo el siguiente intervalo de confianza:
s
,
X z1/2
n1
o bien
S
X z1/2
n
o bien
S
X tn1,1/2
n
donde tn1,1/2 son los correspondientes cuantiles de una distribucin T-Student con (n 1) grados de
libertad. Estos cuantiles estn tabulados.
En el caso de los intervalos de confianza para , se puede observar que para un nivel de significacin fijo, a
mayor varianza, mayor longitud del intervalo. El efecto contrario se produce a medida que aumenta el tamao
muestral. En ese caso, se reduce la longitud del intervalo. Cuando no conocemos la varianza, obtenemos tambin
intervalos ms amplios que en el caso de 2 conocida, ya que los cuantiles de la distribucin t son ms extremos
que para la N(0, 1).
Pgina 7 de 8
Tema 4
4z 2 p (1 p )
p (1 p )
n = 1/2 2
n
L
L = 2z1/2 n = 1/2
L2
n
Longitud de un IC de nivel (1 ) para , con 2 desconocida y n grande:
4z 2 S 2
S
L = 2z1/2 n = 1/2
L2
n
4z 2 s2
s
+1
n = 1/2
L = 2z1/2
L2
n1
Estadstico
X
N(0, 1)
/ n
Intervalo de nivel (1 )
X z1/2
n
X
N(0, 1)
S/ n
S
X z1/2
n
N(0, 1)
s/ n 1
s
X z1/2
n1
X
tn1
S/ n
S
X tn1,1/2
n
tn1
s/ n 1
s
X tn1,1/2
n1
Estadstico
Intervalo de nivel (1 )
p p
p
N(0, 1)
p(1 p)/n
p z1/2
p (1 p )
n
Pgina 8 de 8