Capitulo10-Ae - Estimacion Puntual-Propiedades de Los Estimadores

Capı́tulo 10
Estimación Puntual:
Propiedades de los Estimadores
10.1. Introduccı́on
La mayorı́a de las veces al obtener una muestra el problema es que no cono-
cemos con exactitud la distribución de donde proviene. Algunas veces seremos
capaces de determinar el tipo de distribución que tiene, sin embargo, podrı́amos
no conocer los parámetros de esta distribución. Pues bien, la Estadı́stica Inferen-
cial se encarga de dar estimaciones para estos parámetros.
10.2. Concepto de estimador

Sea fX (x|θ) una f.(d.)p. con un parámetro θ desconocido. El objetivo de la In-
ferencia Estadı́stica es la obtención de un valor que pueda se asignado al parámetro.
Para esto obtenemos una muestra de la población. Además establecemos una fun-
ción de los valores muestrales, i.e. un estadı́stico 1 , llamado estimador 2 , y le
asignamos al parámetro el valor que tome este estimador, valor denominado esti-
mación puntual.
Definición 10.1 Un estimador es un estadı́stico que intenta estimar el valor de
un parámetro de la población.
Definición 10.2 Llamamos estimador puntual de un parámetro al valor del
estadı́stico que estima un parámetro de la población. Y el proceso se llama esti-
mación puntual.
1
Recordemos que un estadı́stico no contiene ningún parámetro de la distribución.
2
Un estimador es un estadı́stico
236
10. Estimación Puntual: Propiedades de los Estimadores 237
En resumen, obtenemos una m.a.s. de la población, X = (X1 , . . . , Xn ), de

tamaño n y un estadı́stico θ̂ = θ̂(x1 , . . . , xn ), llamado estimador del parámetro.
Obviamente esperamos que estos valores sean aproximados al parámetro θ de-
sconocido.
De lo anterior dicho, vemos que a cada muestra le corresponde una estimación
puntual, pues el estimador es una función de la m.a.s. Del mismo modo podemos
construir tantos estimadores como queramos.
Y dado que el número de estimadores que podemos construir es elevado (in-
clusive infinito) habrá unos que sean mejores que otros. Un modo en como nos
podemos ayudar para determinar cual es mejor es conociendo la distribución de
probabilidad del estimador. 3 y estableciendo condiciones para determinar cual es
mejor que el otro.
10.2.1. Criterios de selección de los estimadores

Sea un estimador θ̂, esperamos que proporcione un valor aproximado a θ. El
error que cometemos al tomar θ̂ como valor del parámetro θ es θ̂ − θ.
Consideremos los dos estimadores θ̂1 y θ̂2 de θ. Preferimos a θ̂1 sobre θ̂2 si
cumple:
Pr(|θ̂1 − θ| ≤ |θ̂2 − θ|) = 1.
Para h función continua
• E[h(θ̂1 − θ)] ≤ E[h(θ̂2 − θ)].

• E[h(|θ̂1 − θ|)] ≤ E[h(|θ̂2 − θ|)].
Para todo
Pr(|θ̂1 − θ| > ) ≤ Pr(|θ̂2 − θ| > ).
Pr(|θ̂1 − θ| ≤ |θ̂2 − θ|) ≥ Pr(|θ̂1 − θ| > |θ̂2 − θ|).
E[(θ̂1 − θ)2 ] ≤ E[(θ̂2 − θ)2 ].
Siendo más utilizado el último.
Definición 10.3 Llamamos error cuadrático medio del estimador θ̂ a
ECM (θ̂) := E[(θ̂ − θ)2 ] .

3
Nótese que un estimado puntual es un valor del campo de variación de la v.a. estimador.
Y por supuesto, siempre esperamos que el ECM sea lo más pequeño posible.
Ahora veremos el desarrollo de ECM
ECM (θ̂) = E[(θ̂ − θ)2 ]

= E[θ̂ − θ + E(θ̂) − E(θ̂)]2
= E{[θ̂ − E(θ̂)] − [θ − E(θ̂)]}2
= E[θ̂ − E(θ̂)]2 + E[θ − E(θ̂)]2 − 2E{[θ̂ − E(θ̂)][θ − E(θ̂)]}
= Var(θ̂) + [θ − E(θ̂)]2 − 2[θ − E(θ̂)]E[θ̂ − E(θ̂)]
| {z }
=0
2
= Var(θ̂) + [E(θ̂) − θ] (10.1)
Ası́, hemos descompuesto el ECM en dos partes; la primera es la varianza del

estimador y la segunda es el cuadrado de la diferencia entre el valor esperado de
este estimador y el parámetro en si4 .
Cuando para un mismo parámetro tenemos dos estimadores, se puede presentar
el caso de que el ECM de uno de ellos sea menor en algunos valores de θ y mayor
en otros. Es decir, estarı́a variando en función de los valores de θ.
10.3. Propiedades de los estimadores

Algunas de las propiedades de los estimadores son:
Insesgadez,
Eficiencia,
Consistencia,
Suficiencia,
Invarianza,
Robustez.
Las tres primeras propiedades están relacionadas con el ECM.

A continuación una sencilla explicación de lo que consiste cada una de estas
propiedades:
4
Al valor [E(θ̂) − θ] le llamamos sesgo del estimador.
Insesgadez. E(θ̂) − θ es mı́nimo cuando E(θ̂) = θ. Y de este modo, el ECM es

la varianza del estimador.
Eficiencia. Dado un tamaño de muestra fijo, se busca, entre los estimadores, el

que menor varianza tenga.
Consistencia. Nos dice que, cuando el tamaño de las muestra se incrementa, el

estimado puntual debe estar próximo al parámetro con probabilidad alta.
Suficiencia. El estimador puntual debe de resumir la informaición proporcionada

por la m.a. Además no debe haber pérdida de esta.
Invarianza. Si θ̂ es el estimador de θ, esta propiedad nos dice que g(θ) tiene

como estimador a g(θ̂).
Robustez. Se presenta cuando la distribución del estimador no se ve seriamente

afectada por violaciones en los supuestos.
10.4. Insesgadez
Antes demos esta definición
Definición 10.4 El sesgo de un estimador θ̂ está definido por

b(θ̂) := E(θ̂) − θ .
Cuando b(θ̂) > 0, en promedio el estimador sobreestima el valor del parámetro

a estimar; si b(θ̂) < 0 en promedio el estimador subestima el valor de este parámetro
desconocido. Es evidente que cuando el sesgo es nulo, el valor esperado del esti-
mador será igual al parámetro. Es entonces cuando el estimador se dice insesgado.
Definición 10.5 Un estimador θ̂ se dice insesgado si

E(θ̂) = θ .
Para saber cuando un estimador es insesgado resta calcular la esperanza del

estimador mediante
Z ∞
E(θ̂) = θ̂fθ̂ (θ̂) dθ̂
−∞
Z ∞ Z ∞
= ··· θ̂(x1 , . . . , xn )fX (x1 |θ) · · · fX (xn |θ) dx1 · · · dxn
−∞ −∞
Z
= θ̂(x)L(θ) dx.
x
Y para distribuciones discretas el proceso es similar.

Generalmente el sesgo de un estimador es no nulo.
Recuérdese, la insesgadez es propiedad de una v.a. estimador y no de un valor
concreto de éste.
Definición 10.6 Un estimador es asintóticamente insesgado si el sesgo b(θ̂) →

0 cuando n → ∞.
Propiedades de los estimadores insesgados

1. Sean θ̂1 y θ̂2 estimadores insesgados, y además c ∈ h0, 1i y θ̂ combinación
lineal convexa de los dos primeros, ası́ θ̂ es insesgado.
E(θ̂) = E[cθ̂1 + (1 − c)θ̂2 ]

= cE(θ̂1 ) + (1 − c)E(θ̂2 )
= cθ + (1 − c)θ
= θ
2. Sean θ̂1 y θ̂2 estimadores con el mismo sesgo, entonces existen infinidad de
estimadores con este sesgo.
Por hipótesis
E(θ̂1 ) = E(θ̂2 ) = θ + b0 (θ) ,
y consideremos
θ̂ = cθ̂1 + (1 − c)θ̂2 ,
ası́
E(θ̂) = cE(θ̂1 ) + (1 − c)E(θ̂2 )

= c[θ + b0 (θ̂)] + (1 − c)[θ + b0 (θ̂)]
= θ + b0 (θ̂) .
n
X
3. Sea ci ∈ h0, 1i para i = 1, n y ci = 1, además (x1 , . . . , xn ) una m.a.,
i=
entonces
n
X
µ̂ = ci xi
i=1
es un estimador insesgado del parámetro media poblacional µ.

n n n
!
X X X
E(µ̂) = E ci xi = ci E(xi ) = ci µ = µ .
i=1 i=1 i=1
Un caso particular lo encontramos en la media muestral al ser insesgada.
4. La varianza de una m.a.s. es un estimador sesgado de la varianza poblacional

σ 2 , ya que
n−1 2
E(s2 ) = σ .
n
Si en su lugar tomamos la cuasivarianza muestral
n 2
s21 = s
n−1
tenemos un estimador insesgado

2 n 2 n n−1 2
E(s1 ) = E s = σ = σ2
n−1 n−1 n
n
Multiplicando por el factor a la varianza muestral es como obtuvimos
n−1
un estimador insesgado.
5. Los momentos muestrales con respecto al origen, ak , son estimadores inses-

gados de los correspondientes momentos poblacionales. Los momentos mues-
trales respecto a la media no son estimadores insesgados de sus correspon-
dientes poblacionales en general.
En las distribuciones bidimensionales el más usado es la covarianza muestral,
m11 , cuya esperanza es

1 n−1 µ11
E(m11 ) = µ11 + O = µ11 = µ11 − .
n n n
Es decir, tenemos en m11 un estimador sesgado de la covarianza poblacional.

n
Para convertir éste en un estimador insesgado, sólo multiplicamos por
n−1
a la covarianza muestral. Ası́

0 n n n−1
E(m11 ) = E m11 = µ11 = µ11
n−1 n−1 n
10.5. Eficiencia
Al definir un estimador pretendemos que este se acerque lo más posible al
verdadero valor del parámetro desconocido. O bien, buscamos que el ECM sea
mı́nimo.
Definición 10.7 El mejor estimador insesgado5 es aquel que además de ser

insesgado tiene la varianza más pequeña posible.
De un conjunto de estimadores hemos de escoger aquél que tenga varianza

mı́nima, independientemente de si son o no insesgados. Además, si son sesgados,
deberán tener el mismo sesgo para poder hacer una elección.
Definición 10.8 La eficiencia relativa de θ̂1 con respecto a θ̂2 , e(θ̂1 , θ̂2 ), está da-
da por
ECM (θ̂2 )
e(θ̂1 , θ̂2 ) :=
ECM (θ̂1 )
donde los ECM no dependen del parámetro a estimar. Y según su valor:
Si e(θ̂1 , θ̂2 ) < 1, entonces θ̂1 es menos eficiente que θ̂2 .
Si e(θ̂1 , θ̂2 ) > 1, entonces θ̂1 es más eficiente que θ̂2 .
Si e(θ̂1 , θ̂2 ) = 1, entonces θ̂1 es igual de eficiente que θ̂2 .
Vemos que e(θ̂1 , θ̂2 ) > 0 pues los ECM > 0.

Si θ̂1 y θ̂2 son insesgados, entonces
Var(θ̂2 )
e(θ̂1 , θ̂2 ) =
Var(θ̂1 )
Ahora supongamos que queremos el estimador que tenga varianza mı́nima
de entre todos los posibles estimadores. Pues bien, es necesario antes estudiar el
concepto de cota de Cramér-Rao.
5
También llamado estimador insesgado uniforme de varianza mı́nima, Uniform Minimum
Variance Unbiased Estimator (UMVUE).
Cota de Cramér–Rao
Tenemos una población definida por la f.(d.)p. fX (x|θ) con parámetro descono-
cido θ, estimado por θ̂. Este estimador contiene la información que proporciona la
m.a. X de tamaño n. La función de verosimilitud de la muestra es
L(θ) = fX (x1 , x2 , . . . , xn |θ)
verificándose
Z
L(θ) = 1.
x
Definición 10.9 La v.a. score está dada por
∂ ln L(X|θ)
SC(θ) = .
∂θ
De ahı́

∂ ln L(X|θ)
E[SC(θ)] = E =0
∂θ
( )
∂ ln L(X|θ) 2

∂ ln L(X|θ)
Var[SC(θ)] = Var =E = I(θ)
∂θ ∂θ
donde
Definición 10.10 La cantidad de información que la m.a. contiene respecto
al parámetro θ es
( )
∂ ln L(X|θ) 2
I(θ) := E ,
∂θ
cumpliéndose las condiciones de regularidad de Fisher–Wolfowitz.
Definición 10.11 Las condiciones de regularidad de Fisher–Wolfowitz:

1. El campo de variación de las variables que componen la muestra no depende
del parámetro θ.
2. La función ln L(X|θ) admite, por lo menos, las dos primeras derivadas re-
specto a θ.
3. Las operaciones de derivación e integración (o suma en el caso de distribu-

ciones discretas) son intercambiables.
Teorema 10.1 Para un estimador θ̂ de θ se tiene

[1 + b0 (θ̂)]2 [1 + b0 (θ̂)]2
Var(θ̂) ≥ = h i2 .
I(θ) ∂ ln L(X |θ)
E ∂θ
Esta última expresión llamada cota de Cramér–Rao.
Demostración. Sea θ̂ un estimador de θ y

Z
E(θ̂) = θ̂L(x|θ) dx = θ + b(θ̂) ,
x
obtenemos la primera derivada
Z
∂L(x|θ)
θ̂ dx = 1 + b0 (θ̂). (10.2)
x ∂θ
Teniendo ahora en cuenta la distribución conjunta del estimador θ̂ y la v.a.

score, SC(θ), por la desigualdad de Schwartz se tiene

2 ∂ ln L(X|θ) ∂ ln L(X|θ)
Cov θ̂, ≤ Var(θ̂)Var (10.3)
∂θ ∂θ
pero

∂ ln L(X|θ) ∂ ln L(X|θ) ∂ ln L(X|θ)
Cov θ̂, = E θ̂ − E(θ̂) E
∂θ ∂θ ∂θ
| {z }
=0

∂ ln L(X|θ)
= E θ̂
∂θ
Z
∂ ln L(x|θ)
= θ̂ L(x|θ) dx
x ∂θ
Z
1 ∂L(x|θ)
= θ̂ L(x|θ) dx
x L(x|θ) ∂θ
Z
∂L(x|θ)
= θ̂ dx
x ∂θ
= 1 + b0 (θ̂) ,
obsérvemos que en la última parte hicimos uso de la relación (10.2).
Sabemos que
( )
∂ ln L(X|θ) 2

∂ ln L(X|θ)
I(θ) = Var =E
∂θ ∂θ
y de (10.3) tenemos
[1 + b0 (θ̂)]2 ≤ Var(θ̂)I(θ)
ası́
[1 + b0 (θ̂)]2 [1 + b0 (θ̂)]2
Var(θ̂) ≥ = h i2 .
I(θ) ∂ ln L(X |θ)
E ∂θ
Este resultado dice que la varianza de un estimador, para un tamaño de muestra

dado, debe ser por lo menos un valor igual al de la cota. /
La cota anterior es válida, independientemente de si la muestra es simple o no.
Definición 10.12 Un estimador θ̂ se dice eficiente cuando su varianza es igual

a la cota de Crámer–Rao.
Además:
Si la muestra es simple
( 2 ) ( 2 )
∂ ln L(X|θ) ∂ ln f (x|θ)
E = nE
∂θ ∂θ
y la cota es
[1 + b0 (θ̂)]2
Var(θ̂) ≥ h i2 .
∂ ln f (x|θ)
nE ∂θ
Si b(θ̂) = 0, la cota es
1
Var(θ̂) ≥ h i2
∂ ln L(X |θ)
E ∂θ
y para m.a.s.
1
Var(θ̂) ≥ h i2 .
∂ ln f (x|θ)
nE ∂θ
Para estimadores UMVUE cuanto menor es la varianza mayor es la cantidad

de información de la muestra que se obtiene por θ̂.
Observemos que
No se debe concluir que hay un estimador que alcance la cota de Crámer–

Rao.
La cota es un lı́mite inferior para el valor de las varianzas de los estimadores,

mas no el valor mı́nimo que puede alcanzar una varianza, que es cero.
Un estimador eficiente no necesariamente es insesgado.
Definición 10.13 Un estimador es asintóticamente eficiente si
lı́m Var(θ̂) = Cota de Cramér–Rao.

n→∞
Propiedades de los estimadores eficientes

1. El estimador eficiente es único.
2. Si el estimador θ̂ de un parámetro θ es insesgado, la condición para que sea

de varianza mı́nima es que
∂ ln L(x|θ)
= A(θ)(θ̂ − θ).
∂θ
10.6. Consistencia
Ahora estudiaremos el comportamiento de los estimadores cuando el tamaño
de muestra aumenta.
En lo siguiente consideraremos una sucesión de estimadores {θ̂n }n≥1 , donde θ̂n
es un estimador que toma como argumento una muestra aleatoria de tamaño n,
es decir
θ̂1 = θ̂1 (x1 )

θ̂2 = θ̂2 (x1 , x2 )
..
.
θ̂n = θ̂n (x1 , x2 , . . . , xn )
Definición 10.14 Una secuencia de estimadores {θ̂n }n≥1 es consistente en

probabilidad si se verifica
lı́m Pr(|θ̂n − θ| ≥ ) = 0 .
n→∞
Lo anterior es equivalente a que se verifique:

lı́m Pr(|θ̂n − θ| ≤ ) = 1 .
n→∞
La anterior definición habla de la convergencia en probabilidad de la sucesión

{θ̂n }n≥1 a la constante θ. Tal convergencia se denota por
p
θ̂n → θ o plı́m θ̂n = θ.
Consideremos la desigualdad de Chebyshev
E[(θ̂n − θ)2 ]
Pr(|θ̂n − θ| ≥ ) ≤ ,
2
ahora tomando lı́mites, tenemos
E[(θ̂n − θ)2 ]
lı́m Pr(|θ̂n − θ| ≥ ) ≤ lı́m ,
n→∞ n→∞ 2
vemos que la condición para que el primer término de la desigualdad sea cero es
que se cumpla
lı́m E[(θ̂n − θ)2 ] = lı́m Var(θ̂n ) + lı́m b2 (θ̂n ) = 0 .
n→∞ n→∞ n→∞
Es decir, se debe verificar simultáneamente

lı́m Var(θ̂n ) = 0 y lı́m b(θ̂n ) = 0 .
n→∞ n→∞
En resumen, hablamos de un estimador consistente cuando, al aumentar el

tamaño de la muestra, el sesgo y varianza se hacen nulos.
Propiedades de los estimadores consistentes en probabilidad

1. Si plı́m θ̂n = θ y g es una función continua, entonces
plı́m g(θ̂n ) = g(θ).
2. Si plı́m θ̂1,n = θ1 y plı́m θ̂2,n = θ2
plı́m (θ̂1,n ± θ̂2,n ) = θ1 ± θ2

plı́m (θ̂1,n · θ̂2,n ) = θ1 · θ2
plı́m (θ̂1,n /θ̂2,n ) = θ1 /θ2 , siempre que θ2 6= 0.
3. Los momentos muestrales en torno a cero son estimadores consistentes de

los correspondientes poblacionales. Es decir,
lı́m Pr(|ak − αk | ≥ ) = 0.
n→∞
4. Los momentos muestrales centrales, mk , son estimadores consistentes de los

correspondientes poblacionales, µk . Es decir,
lı́m Pr(|mk − µk | ≥ ) = 0 .
n→∞
Teorema 10.2 Si {θ̂}n≥1 es una sucesión de estimadores insesgados del parámetro

θ y si Var(θ̂n ) → 0 conforme n → 0, entonces {θ̂}n≥1 es consistente de θ.
Definición 10.15 Un estimador θ̂ de un parámetro θ presenta la propiedad de

consistencia casi segura si

Pr lı́m θ̂ = θ = 1.
n→∞
Si un estimador es consistente casi seguro, entonces lo es en probabilidad.
10.7. Suficiencia
Se suele decir que un estadı́stico es suficiente cuando resume toda la informa-
ción que proporciona la muestra. Dicho de otro modo, da lo mismo conocer cada
uno de los valores de la muestra que conocer el valor de θ̂.
Un estadı́stico T (X) define una partición del espacio muestral si lo divide en
una colección de sucesos disjuntos Si tales que
k
[
Si = S
i=1
Si ∩ Sj = ∅ ∀ i 6= j
siendo cada una de las muestras X ∈ S.

De lo anterior, tenemos la siguiente
Definición 10.16 Un estadı́stico es suficiente respecto al parámetro θ si basta

con conocer a que conjunto de la partición generada por él conduce la muestra
obtenida, no añadiendo más información el saber cuál es el punto muestral (o
muestra en concreto) que corresponda a esa partición.
Para nuestros propósitos tal estidı́stico es un estimador de θ.

Una definición que se suele utilizar para la suficiencia es
Definición 10.17 El estidı́stico θ̂ es un estimador suficiente del parámetro θ

si y sólo si para cada valor de θ̂ la distribución de probabilidad condicional de la
muestra aleatoria X1 , X2 , . . . , Xn , dado un valor de θ̂, es indendiente de θ. Es
decir,
FX (X|θ̂) no depende de θ.
La anterior definición implica cálculos muy tediosos al determinar la distribu-

ción condicional de la muestra. Es por ello que aplicamos el siguiente teorema de
factorización de Fisher–Neyman.
Teorema 10.3 (Criterio de factorización) Sea X1 , . . . , Xn una m.a. de una

distribución continua o discreta cuya f.(d.)p. es fX (x|θ), donde el valor de θ es
desconocido y pertenece a un espacio paramétrico Θ concreto. Un estadı́stico T =
T (X) = T (X1 , . . . , Xn ) es un estadı́stico suficiente para θ si, y sólo si, la función
de verosimilitud L(θ) = fn (x|θ) de X1 , . . . , Xn se puede factorizar como sigue para
todos los valores de x = (x1 , . . . , xn ) ∈ Rn y todos los valores de θ ∈ Θ:
L(θ) = fn (x|θ) = g[T (x), θ] · h(x).
Aquı́ las funciones g y h son no negativas; la función h puede depender de x

pero no de θ y la función g dependerá de θ pero depende del valor observado x
únicamente a través del valor del estadı́stico T (x).
De nuevo, para nuestros propósitos, tal estadı́stico es un estimador de θ.

Para determinar si un estimador de θ, θ̂, es suficiente sólo tenemos que asegu-
rarnos que la factorización según el criterio de Fisher–Neyman se cumpla.
Definición 10.18 Un estadı́stico complementario6 es aquél que no proporciona

información directa sobre el parámetro θ, pero que combinado con un estadı́stico
relativo a θ lo convierte en suficiente.
Teorema 10.4 Si un estimador es insesgado y eficiente, entonces también es

suficiente.
6
O auxiliar.
10.8. Invarianza
Antes definamos el concepto de invarianza.
Definición 10.19 (Estimador invariante) Diremos que un estimador θ̂ es in-

variante frente a la transformación f (·), si se verifica que el estimador de esa
función del parámetro θ, es igual al propio estimador del parámetro, es decir cuan-
do se verifica que:
θ̂(f (X1 , . . . , Xn )) = θ̂(X1 , . . . , Xn )
Estudiaremos cuatro tipos de estimadores invariantes:
Estimador invariante a cambios de origen.
Estimador invariante a cambios de escala.
Estimador invariante a cambios de origen y de escala.
Estimador invariante a permutaciones.
Definición 10.20 Sea una muestra aleatoria de tamaño n, (X1 , . . . , Xn ) y un

estimador θ̂(X1 , . . . , Xn ) del parámetro θ, entonces si realizamos un cambio de
origen en los datos de la muestra, sumando una constante κ, la muestra se trans-
forma en (X1 + κ, . . . , Xn + κ), y diremos que el estimador θ̂ es invariante a
cambios de origen o de localización si y solamente si se verifica que:
θ̂(X1 + κ, . . . , Xn + κ) = θ̂(X1 , . . . , Xn ) ∀ κ∈R
es decir, el estimador es el mismo para los datos transformados.
Ejemplo 10.1 La media muestral no es invariante a cambios de origen, la vari-

anza muestral y desviación tı́pica muestral si lo son y el coeficiente de correlación
lineal si es invariante a cambios de origen. J
Definición 10.21 Considerando una muestra aleatoria (X1 , . . . , Xn ) y un esti-

mador θ̂(X1 , . . . , Xn ) del parámetro θ, entonces si realizamos un cambio de escala
en los datos de la muestra, multiplicando por una constante c, c 6= 0, la muestra
se transforma en (cX1 , . . . , cXn ), y diremos que el estimador θ̂ es invariante a
cambios de escala si y solamente si se verifica que:
θ̂(cX1 , . . . , cXn ) = θ̂(X1 , . . . , Xn ), c 6= 0, c ∈ R
es decir el estimador es el mismo para los datos transformados.

Ejemplo 10.2 Los estimadores media y varianza muestral no son invariantes

frente a cambios de escala, y sin embargo, el coeficiente de correlación si lo es.
J
Definición 10.22 Diremos que para que un estimador θ̂ sea invariante a cam-
bios de origen y de escala se tiene que verificar
θ̂(cX1 + κ, . . . , cXn + κ) = θ̂(X1 , . . . , Xn ), c 6= 0, c, κ ∈ R
Ejemplo 10.3 Se puede comprobar que el coeficiente de correlación lineal es in-

variante a cambios de origen y de escala. J
Definición 10.23 Diremos que un estimador es invariante frente a permuta-

ciones si se verifica que
θ̂(Xi1 , . . . , Xin ) = θ̂(X1 , . . . , Xn )
para todas las permutaciones (i1 , . . . , in ) de 1, . . . , n.
Ejemplo 10.4 Los estimadores media y varianza muestrales son invariantes frente
a permutaciones. J
10.9. Robustez
Hay métodos inferenciales que se ven seriamente afectados cuando violamos
algunos de los supuestos en los cuales se sustentan. Otros sufren pequeños efectos,
nos referiremos a estos como los que tienen la propiedad de robustez.
Definición 10.24 Diremos qeu un estimador es robusto cuando pequeños cam-

bios en las hipótesis de partida del procedimiento de estimación considerado no
producen variaciones significativas en los resultados obtenidos.
Este término de robustez sigue en investigación, pues es muy relativa la defini-

ción. Pues cuando decimos pequeños cambios, variaciones significativas no estamos
especificando qué tanto.

Capitulo10-Ae - Estimacion Puntual-Propiedades de Los Estimadores

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Capitulo10-Ae - Estimacion Puntual-Propiedades de Los Estimadores

Enviado por

Direitos autorais:

Formatos disponíveis

Capı́tulo 10

10.2. Concepto de estimador

En resumen, obtenemos una m.a.s. de la población, X = (X1 , . . . , Xn ), de

10.2.1. Criterios de selección de los estimadores

Pr(|θ̂1 − θ| ≤ |θ̂2 − θ|) = 1.

Para h función continua

• E[h(θ̂1 − θ)] ≤ E[h(θ̂2 − θ)].

Pr(|θ̂1 − θ| > ) ≤ Pr(|θ̂2 − θ| > ).

Pr(|θ̂1 − θ| ≤ |θ̂2 − θ|) ≥ Pr(|θ̂1 − θ| > |θ̂2 − θ|).

E[(θ̂1 − θ)2 ] ≤ E[(θ̂2 − θ)2 ].

Siendo más utilizado el último.

Definición 10.3 Llamamos error cuadrático medio del estimador θ̂ a

ECM (θ̂) := E[(θ̂ − θ)2 ] .

ECM (θ̂) = E[(θ̂ − θ)2 ]

Ası́, hemos descompuesto el ECM en dos partes; la primera es la varianza del

10.3. Propiedades de los estimadores

Las tres primeras propiedades están relacionadas con el ECM.

Insesgadez. E(θ̂) − θ es mı́nimo cuando E(θ̂) = θ. Y de este modo, el ECM es

Eficiencia. Dado un tamaño de muestra fijo, se busca, entre los estimadores, el

Consistencia. Nos dice que, cuando el tamaño de las muestra se incrementa, el

Suficiencia. El estimador puntual debe de resumir la informaición proporcionada

Invarianza. Si θ̂ es el estimador de θ, esta propiedad nos dice que g(θ) tiene

Robustez. Se presenta cuando la distribución del estimador no se ve seriamente

Definición 10.4 El sesgo de un estimador θ̂ está definido por

Cuando b(θ̂) > 0, en promedio el estimador sobreestima el valor del parámetro

Definición 10.5 Un estimador θ̂ se dice insesgado si

Para saber cuando un estimador es insesgado resta calcular la esperanza del

Y para distribuciones discretas el proceso es similar.

Definición 10.6 Un estimador es asintóticamente insesgado si el sesgo b(θ̂) →

Propiedades de los estimadores insesgados

E(θ̂) = E[cθ̂1 + (1 − c)θ̂2 ]

E(θ̂1 ) = E(θ̂2 ) = θ + b0 (θ) ,

E(θ̂) = cE(θ̂1 ) + (1 − c)E(θ̂2 )

es un estimador insesgado del parámetro media poblacional µ.

Un caso particular lo encontramos en la media muestral al ser insesgada.

4. La varianza de una m.a.s. es un estimador sesgado de la varianza poblacional

5. Los momentos muestrales con respecto al origen, ak , son estimadores inses-

Es decir, tenemos en m11 un estimador sesgado de la covarianza poblacional.

Definición 10.7 El mejor estimador insesgado5 es aquel que además de ser

De un conjunto de estimadores hemos de escoger aquél que tenga varianza

Si e(θ̂1 , θ̂2 ) < 1, entonces θ̂1 es menos eficiente que θ̂2 .

Si e(θ̂1 , θ̂2 ) > 1, entonces θ̂1 es más eficiente que θ̂2 .

Si e(θ̂1 , θ̂2 ) = 1, entonces θ̂1 es igual de eficiente que θ̂2 .

Vemos que e(θ̂1 , θ̂2 ) > 0 pues los ECM > 0.

cumpliéndose las condiciones de regularidad de Fisher–Wolfowitz.

Definición 10.11 Las condiciones de regularidad de Fisher–Wolfowitz:

3. Las operaciones de derivación e integración (o suma en el caso de distribu-

Teorema 10.1 Para un estimador θ̂ de θ se tiene

Esta última expresión llamada cota de Cramér–Rao.

Demostración. Sea θ̂ un estimador de θ y

Teniendo ahora en cuenta la distribución conjunta del estimador θ̂ y la v.a.

Este resultado dice que la varianza de un estimador, para un tamaño de muestra

Definición 10.12 Un estimador θ̂ se dice eficiente cuando su varianza es igual

Para estimadores UMVUE cuanto menor es la varianza mayor es la cantidad

No se debe concluir que hay un estimador que alcance la cota de Crámer–

La cota es un lı́mite inferior para el valor de las varianzas de los estimadores,

Un estimador eficiente no necesariamente es insesgado.

Definición 10.13 Un estimador es asintóticamente eficiente si

lı́m Var(θ̂) = Cota de Cramér–Rao.

Propiedades de los estimadores eficientes

2. Si el estimador θ̂ de un parámetro θ es insesgado, la condición para que sea

θ̂1 = θ̂1 (x1 )

Pr(|θ̂1 − θ| > ) ≤ Pr(|θ̂2 − θ| > ).