Escolar Documentos
Profissional Documentos
Cultura Documentos
Estimación Puntual
Introducción
Métodos para la obtención de estimadores
Propiedades de los estimadores
Estimadores de la media, la varianza y de una proporción
Intervalos de Confianza
Introducción
Intervalos de confianza para poblaciones Normales
Intervalos de confianza para muestras grandes
Intervalos de confianza para proporciones
Contrastes de Hipótesis
Introducción
Como realizar un contraste. Estadístico de contraste y p-valor
Contrastes para muestras de poblaciones normales
Contrastes de Hipótesis para proporciones
1
INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA. MUESTREO
2
La Inferencia Estadística puede definirse como el conjunto de
métodos mediante los cuales podemos extraer información sobre
distintas características de interés de una cierta distribución de
probabilidad de la cual se ha observado una serie de datos y por lo
tanto condicionada a una medida de riesgo.
3
Conceptos generales
Se denomina población a un conjunto homogéneo de individuos sobre
los que se estudian una o varias características que son, de alguna
forma, observables.
Un parámetro es cualquier característica medible (normalmente
numérica) de la población
Una muestra es un subconjunto de la población, y el tamaño muestral
es el número de elementos de la muestra, que denotaremos
habitualmente por {𝑥1, 𝑥2, ⋯ , 𝑥𝑛}, siendo 𝑛 el tamaño muestral.
Lo deseable es que la muestra sea lo más representativa posible de la
población de la que se ha extraída.
Un método de muestreo no es más que el procedimiento empleado para
la obtención de la muestra, y la teoría que estudia los métodos
adecuados a cada modelo es la teoría del muestreo o técnicas de
muestreo.
4
TÉCNICAS DE MUESTREO
Existen varias técnicas de muestreo, y según la población y el estudio
que queramos realizar, son más apropiadas unas que otras. Podemos
destacar:
5
Los resultados obtenidos del estudio de una muestra no son del todo
fiables, pero sí en buena medida.
Los parámetros que se obtienen de una muestra (estimadores) nos
permitirán arriesgarnos a PREDECIR O INFERIR una serie de
resultados para toda la población.
De estas predicciones y del riesgo que conllevan se ocupa la
Inferencia Estadística.
Muestra 1
muestreo
Muestra 2
Población
……………. …….
Muestra k
6
EJEMPLOS:
7
Cuando aplicamos la técnica de muestreo aleatorio simple se obtiene
una serie de datos que son resultado de medir la variable que nos
interesa sobre la muestra.
Por ejemplo: para conocer el porcentaje de españoles que son del
Madrid, no preguntamos a todos los españoles, sino que seleccionamos
una muestra.
El conjunto de todos los españoles sería la población.
Si seleccionamos una muestra, por ejemplo de tamaño 1000, y les
preguntamos si son del Madrid o no, tenemos 1000 valores distintos de
la variable SER DEL MADRID (si o no), y podemos CALCULAR el
porcentaje de “Madridistas” de esa muestra.
Pero podemos seleccionar otra muestra distinta de tamaño 1000, y
obtendremos otro valor para el porcentaje.
8
Muestra 1 𝑝1 = 0.35
muestreo
Población
todos los Muestra 2 𝑝2 = 0.25
españoles
……………. …..
Muestra k 𝑝𝑘 = 0.49
𝑋 = "𝐸𝑠 𝑑𝑒𝑙 𝑀𝑎𝑑𝑟𝑖𝑑 𝑜 𝑁𝑜"
10
ESTIMACION PUNTUAL
OBJETIVO:
11
Como decíamos en el tema anterior, para denotar una muestra
aleatoria, como no sabemos qué valores nos van a salir, se denota a
dicha muestra como “copias idénticas a la variable”
𝑋1 , 𝑋2 , … , 𝑋𝑛
𝑋1 , 𝑋2 , … , 𝑋𝑛 𝑥1 , 𝑥2 , … , 𝑥𝑛
Muestra aleatoria: “copias de la Valores de la muestra
variable aleatoria
p. ejemplo: {5,8,25,98,0.25,236}
𝑇 𝑋1 , 𝑋2 , … , 𝑋𝑛 : Estadístico
𝑇(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) : Valor del
Es una función de variables Estadístico en una determinada
aleatorias ⇒ es una nueva muestra.
variable aleatoria.
13
Se está interesado en el estudio de una variable aleatoria 𝑋 cuya
función de distribución es 𝐹𝜃 (𝑥) y que depende de un parámetro
desconocido 𝜃. El objetivo de la estimación puntual es emplear una
muestra para calcular un número que represente en algún sentido el
verdadero valor de ese parámetro.
Ejemplo: 𝑋 puede ser una variable Normal y los parámetros
desconocidos pueden ser la media 𝜇 y la varianza 𝜎 2 de dicha
variable.
El proceso consiste en seleccionar una función llamada estadístico o
estimador que nos permita estimar el valor del parámetro a partir de
los valores obtenidos de la muestra.
Ejemplo: la media muestral
Por tanto, un estadístico o estimador es cualquier función
𝑇 𝑋1 , 𝑋2 , … , 𝑋𝑛 de la muestra 𝑋1 , 𝑋2 , … , 𝑋𝑛 . Por tanto, es también una
variable aleatoria con una distribución de probabilidad llamada
distribución en el muestreo de 𝑇.
14
Algunos ejemplos de estadísticos:
𝑛
1
Media muestral: 𝑋 = 𝑋𝑖
𝑛
𝑖=1
𝑛
1
Varianza muestral: 𝑆𝑋 =
2
𝑋𝑖 − 𝑋 2
𝑛
𝑖=1
𝑛
1
Cuasivarianza muestral: 𝑆𝑋2 = 𝑋𝑖 − 𝑋 2
𝑛−1
𝑖=1
Máximo:𝑋 𝑛 = max 𝑋1 , 𝑋2 , … , 𝑋𝑛
Etc.
15
Los estadísticos, como son funciones de variables aleatorias, también
son variables aleatorias.
Uno de los problemas más importantes de la inferencia estadística es
saber cuál es la distribución de dichos estadísticos. ¿Qué variable
aleatoria siguen? Para así saber, en el caso de tener varios, ¿Cuál se
comporta mejor?
Por ejemplo, si estamos calculando la media muestral de variables
aleatorias normales, bajo ciertas condiciones, la media muestral es una
nueva variable normal.
Pero esto ocurre muy pocas veces, y generalmente el proceso para
conocer la distribución del estadístico es complejo.
En este tema nos centraremos en estadísticos basados en muestras de
una variable Normal.
Existen varias variables aleatorias que están muy relacionadas con los
principales estadísticos que vamos a ver. Por ello veremos primero
estas variable y a continuación los estadísticos.
16
17
18
n2,
19
Cálculo de Cuantiles de la distribución Chi cuadrado
con R-commander:
2
𝑃 𝜒10 ≤ 𝑎 = 0.95
𝑎 = 18,30704
20
Cálculo de Probabilidades de la distribución Chi cuadrado con
R-commander:
21
La forma de la densidad de una distribución Chi cuadrado de Pearson
varía según los grados de libertad.
22
𝑍
23
La función de densidad de una distribución 𝑡 de Student es muy
parecida a la de la distribución Normal con media 0.
Es simétrica en torno al cero.
Verifica las hipótesis de simetría que verifica la normal.
Es decir :
𝑃 𝑋 > 0 = 0.5
𝑃 𝑋 < 𝑎 = 𝑃(𝑋 > −𝑎)
24
𝛼
𝑡𝑛,𝛼
𝑃 𝑡5 ≤ 0.9195 = 𝑃 𝑡5 ≥ −0.9195 = 0.8
25
Cálculo de Cuantiles de la distribución T-Student con
R-commander:
𝑃 𝑡5 ≤ 𝑎 = 0.8
𝑎 = 0,9195438
26
Cálculo de Probabilidades de la distribución T-Student con
R-commander:
27
28
𝛼 𝐹𝑛,𝑚,𝛼
29
𝑃 𝐹3,2 < 9.16 = 0.9
𝑃 𝐹3,2 > 9.16 = 1 − 0.9 = 0.1
30
Cálculo de Cuantiles de la distribución F de Fisher
Snedecor con R-commander:
𝑃 𝐹4,2 ≤ 𝑎 = 0.9
𝑎 = 9,243416
31
Cálculo de Probabilidades de la distribución F de Fisher
Snedecor con R-commander:
33
MÉTODO DE LOS MOMENTOS
Momentos Momentos
poblacionales muestrales
Centrados en el
origen
Centrados en la
media
𝛼𝑗 𝜃1 , 𝜃2 , … , 𝜃𝑘 = 𝑎𝑗
34
Ejemplo: Dada una m.a.s. {𝑋1 , … , 𝑋𝑛 } de una v.a. 𝑋 ∼ 𝑈 0, 𝑏 , estimar
el parámetro b por el método de los momentos. Calcular su valor
exacto para la muestra 2, 3, 4, 10, 1.
35
MÉTODO DE MÁXIMA VEROSIMILITUD
Este método consiste en buscar los valores de los parámetros que
hacen que la muestra observada sea lo más creíble posible.
Para ello necesitamos saber qué es la Función de Verosimilitud.
Se define la función de verosimilitud, como
• Si 𝑋 es discreta:
𝐿 𝑋1 = 𝑥1 , … , 𝑋𝑛 = 𝑥𝑛 , 𝜃 = 𝑃𝜃 𝑋1 = 𝑥1 ⋅ 𝑃𝜃 𝑋2 = 𝑥2 ⋅ … ⋅ 𝑃𝜃 𝑋𝑛 = 𝑥𝑛
• Si 𝑋 es continua:
𝐿 𝑋1 = 𝑥1 , … , 𝑋𝑛 = 𝑥𝑛 , 𝜃 = 𝑓𝜃 𝑥1 ⋅ 𝑓𝜃 𝑥2 ⋅ … ⋅ 𝑓𝜃 𝑥𝑛
37
Ejemplo: La vida de una impresora sigue una distribución 𝐸𝑥𝑝 𝜃 . Se ha
observado una muestra de 10 impresoras con los siguientes resultados de
vida media en años:
2, 4, 3, 5, 6, 4, 3, 4, 5, 7
Estimar 𝜃 por el método de máxima verosimilitud.
𝑛 10
𝜃𝑀𝑉 = 𝑛 = = 0.2325
𝑥
𝑖=1 𝑖 2 + 4 + 3 + 5 + 6 + 4 + 3 + 4 + 5 + 7
39
Propiedades de los estimadores
Dado que existen varios métodos para calcular los estimadores, qué
pasa si tenemos varios estimadores para el mismo parámetro, ¿con cual
nos quedamos?
A continuación veremos algunas propiedades de los estimadores y
estableceremos criterios para saber con qué estimador quedarnos si
tenemos más de uno.
40
SESGO
𝑆𝑒𝑠𝑔𝑜 𝑇 = 𝐸 𝑇 𝑋1 , … , 𝑋𝑛 −𝜃
lim 𝑆𝑒𝑠𝑔𝑜 𝑇 = 0
𝑛→∞
41
La propiedad de que un estimador sea centrado es deseable.
T2
T1
0
Los dos estadísticos 𝑇1 y 𝑇2 estiman el valor 𝜃 = 0
El primer estimador se observa que es centrado (función de densidad
simétrica con respecto al 0) mientras que
el segundo tiene un sesgo de -0.2
Pero, a simple vista, ¿cuál parece mejor?
42
A continuación se muestran de nuevo dos estadísticos 𝑇1 y 𝑇2 que estiman
el valor 0. El primero sigue siendo centrado pero ahora el segundo tiene
un sesgo de -1. Ahora, ¿cuál parece mejor?
T2
T1
43
Estimadores eficientes
Se denomina precisión o eficiencia del estimador 𝑇 𝑋1 , … , 𝑋𝑛 como
estimador de 𝜃 a la inversa de la varianza, es decir:
1
𝐸𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑖𝑎 𝑇 =
𝑉𝑎𝑟 𝑇 𝑋1 , … , 𝑋𝑛
Estimadores consistentes
Se dicen que el estimador es Consistente si
lim 𝑉𝑎𝑟 𝑇 𝑋1 , … , 𝑋𝑛 =0
𝑛→∞
44
¿Qué nos interesa más, un estimador con poco sesgo o con poca
varianza?
¿Qué pasa si uno de los estimadores es mejor en cuanto sesgo y el
otro es mejor en cuanto a varianza? ¿Con cuál nos quedamos?
Una medida que engloba los dos criterios es el ERROR CUADRÁTICO
MEDIO
45
Estimador de la media poblacional
𝑛
𝑖=1 𝑋𝑖
𝑋=
𝑛
46
Se verifican las siguientes propiedades:
Es un estimador insesgado
𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑋𝑖 1 1 1 1
𝐸 𝑋 =𝐸 = 𝐸 𝑋𝑖 = 𝐸 𝑋𝑖 = 𝜇= 𝑛𝜇 = 𝜇
𝑛 𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1
𝑆𝑒𝑠𝑔𝑜 𝑋 = 𝐸 𝑋 − 𝜇 = 𝜇 − 𝜇 = 0
Es un estimador consistente
𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑋𝑖 1 1 1 1
𝑉𝑎𝑟 𝑋 = 𝑉𝑎𝑟 = 2 𝑉𝑎𝑟 𝑋𝑖 = 2 𝑉𝑎𝑟 𝑋𝑖 = 2 𝜎2 = 2 𝑛𝜎 2
𝑛 𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1
𝜎2
=
𝑛
𝜎2
𝑉𝑎𝑟 𝑋 = 0
𝑛 𝑛→∞
𝑛
𝑖=1 𝑋𝑖 𝜎2
𝑋= 𝑛 Sigue una distribución Normal de media 𝜇 y varianza , es
𝑛
decir,
𝜎
𝑋 ∼ 𝑁 𝜇,
𝑛
48
Teorema 2:
Sea 𝑋1 , 𝑋2 , … , 𝑋𝑛 una muestra aleatoria de una variable 𝑋 que sigue una
distribución F (cualquiera), con media poblacional 𝐸 𝑋 = 𝜇 y varianza
poblacional Var 𝑋 = 𝜎 2 , es decir, 𝑋 ∼ 𝑁(𝜇, 𝜎). Entonces,
𝑛
𝑖=1 𝑋𝑖
𝑋= 𝑛
se aproxima a una distribución Normal de media 𝜇 y varianza
𝜎2
, es decir,
𝑛
𝜎
𝑋 𝑁 𝜇,
𝑛→∞ 𝑛
49
Estimador de la varianza poblacional.
Sea 𝑋1 , 𝑋2 , … , 𝑋𝑛 una muestra aleatoria de una variable 𝑋, con media
poblacional 𝐸 𝑋 = 𝜇 y varianza poblacional 𝑉𝑎𝑟 𝑋 = 𝜎 2 .
Es decir, 𝐸 𝑋𝑖 = 𝜇 y 𝑉𝑎𝑟 𝑋𝑖 = 𝜎 2 para todos los índices 𝑖 y además
son todas independientes.
𝑛 𝑛 2
1 𝑖=1 𝑋𝑖
𝑆𝑋2 = 𝑋𝑖 − 𝑋 2 = − 𝑋2
𝑛 𝑛
𝑖=1
50
Sin embargo, se verifica
1 n 2 n 1
2
E S E X i X
2
n
2 2
n i 1 n
2 NO ES INSESGADO
Sesgo S E S
2 2 2
n
Pero si consideramos
n
Sˆ 2 S2
n 1
Luego
n n n n 1 2
E Sˆ 2 E S2 E S 2 2
n 1 n 1 n 1 n
Entonces el estimador más adecuado para la varianza poblacional es
la CUASIVARIANZA MUESTRAL
X
n 2
X
i
n 2 n 1 n
2
Sˆ 2 S i 1
Xi X
n 1 n 1 n n 1 i 1
51
Se verifica que la CUASIVARIANZA MUESTRAL ES INSESGADO Y
CONSISTENTE.
En cuanto a la distribución asintótica se verifica:
Teorema 3 (Fisher)
Sea X1 , X 2 ,..., X n una muestra aleatoria de una variable X que sigue
una distribución Normal con media poblacional E X y varianza
poblacional Var X , es decir, N ,
2
Entonces,
X
n
i X
i 1
sigue una distribución Chi Cuadrado con n -1 grados de libertad
2
X
n
X
i
n 1 ˆ 2 n 2
i 1
S 2 S n2-1
2 2
52
Corolario:
Si la media poblacional es conocida, la varianza muestral podemos
estimarla por
Xi
2
i 1
n 1
n
X i
2
i 1
sigue una distribución Chi Cuadrado con n grados de libertad
2
Xi
2
i 1
n2
2
53
¿Qué ocurre cuando queremos estimar la media pero no conocemos la
varianza poblacional?. Hemos visto antes que
X
X N , o equivalentemente n N 0,1
n
Si la varianza poblacional es desconocida, σ2, este resultado no nos
sirve para estimar y hacer inferencia sobre la media, μ. Así pues
tenemos que estimar la varianza.
Hemos visto antes que para estimar la varianza, el mejor estimador es
n
n 1
2
Sˆ
2
S
2
Xi X
n 1 n 1 i 1
Por lo tanto vamos a considerar un nuevo estadístico
X X
n n
Sˆ
Estadístico para la Estadístico para la
media con varianza media con varianza
conocida desconocida
54
Como se verifica : Entonces
n
Sˆ 2 S2
n 1 X X
n n-1
Sˆ
n
S Sˆ S
n 1
Teorema 4
Sea 𝑋1 , 𝑋2 , … , 𝑋𝑛 una muestra aleatoria de una variable 𝑋 que sigue una
distribución Normal con media poblacional 𝐸 𝑋 = 𝜇 y varianza
poblacional 𝑉𝑎𝑟 𝑋 = 𝜎 2 , es decir, 𝑁 𝜇, 𝜎 . Entonces,
𝑋−𝜇 𝑋−𝜇
𝑛 𝑆 = 𝑛−1 𝑆
sigue un distribución 𝑡 de Student con 𝑛 − 1 grados
de libertad,
𝑋−𝜇 𝑋−𝜇
𝑛 = 𝑛−1 ∼ 𝑡𝑛−1
𝑆 𝑆
55
Estimación de una proporción para muestras grandes
EX p
Var X p 1 p
56
El estimador más razonable para la proporción p, es la proporción
MUESTRAL, es decir, número de individuos de la muestra que verifican
una condición, dividido por el número total de individuos de la muestra.
Ejemplo:
Población:
Empresas de
España
N: nº Empresas Muestra: 2000
de España Empresas
españolas
p=PROPORCIÓN escogidas al
de Empresas azar
españolas
endeudadas en más n: 2000
de 1 millón de €
X X 2 ... X n 1 1
E pˆ E 1
n E X 1 X 2 ... X n np p
n n
Luego es un estimador insesgado
X X 2 ... X n 1 1 1
Var pˆ Var 1
n2 Var X 1 X 2 ... X n np 1 p p 1 p
2
n n n
Luego es un estimador consistente
La distribución asintótica
p 1 p
pˆ N p,
n n
58