Você está na página 1de 26

UNIDAD

Inferencia estadstica:
2
estimacin.
UNIDAD 2
Inferencia estadstica: estimacin.

2.1 Conceptos bsicos.


Puede definirse la Inferencia Estadstica como:

El conjunto de mtodos estadsticos que permiten deducir (inferir)como se


distribuye la poblacin en estudio o las relaciones estocsticas entre varias
variables de inters a partir de la informacin que proporciona una muestra.

Para que un mtodo de inferencia estadstica proporcione buenos resultados debe


de:
Basarse en una tcnica estadstico-matemtica adecuada al problema y
suficientemente validada.
Utilizar una muestra que realmente sea representativa de la poblacin y de un
tamao suficiente.

Conceptos bsicos que se utilizarn en este texto son los siguientes:

Poblacin: es un conjunto homogneo de individuos sobre los que se estudia


una o varias caractersticas que son, de alguna forma, observables.
Muestra: es un subconjunto de la poblacin. El nmero de elementos de la
muestra se denomina tamao muestral.
Muestreo aleatorio simple: es aquel en el que todos los individuos de la
poblacin tienen la misma probabilidad de ser elegidos.
Muestra aleatoria simple, de una variable aleatoria X, con distribucin F, de
tamao n, es un conjunto de n variables aleatorias X1,X2,...,Xn,independientes
e igualmente distribudas (i.i.d.) con distribucin F.
Espacio muestral: es el conjunto de muestras posibles que pueden obtenerse
al seleccionar una muestra aleatoria, de tamao n, de una cierta poblacin.
Parmetro: es cualquier caracterstica medible de la funcin de distribucin de
la variable en estudio (media, varianza,..).
Estadstico: es una funcin de la muestra T . Por tanto, es una
variable aleatoria que tiene una funcin de distribucin que se denomina
distribucin en el muestreo de T. Los estadsticos independientes del
parmetro a estimar se denominan estimadores.

2.2 Distribuciones de muestreo.


DEFINICIN

La distribucin de todos los valores posibles que puede asumir un estadstico


muestral, calculados a partir de muestras del mismo tamao y extrado en forma
aleatoria de la misma poblacin, se llama distribucin muestral de ese estadstico.
La distribucin por muestreo de un estadstico muestral es la distribucin de
probabilidad del mismo, calculado en cada una de las muestras posibles extradas
aleatoriamente de la poblacin.

2.- Muestreo Aleatorio:

Para comenzar, empezaremos distinguiendo entre las dos clases de poblaciones,


Poblaciones finitas y poblaciones infinitas.

Una poblacin es finita si consta de un nmero finito o fijo de elementos, medidas


u observaciones. Por ejemplo los pesos netos de 2000 latas de atn, las
calificaciones de todos los estudiantes del instituto...

A diferencia de las poblaciones finitas, las poblaciones infinitas contienen una


infinidad de elementos. Este es el caso de cuando observamos una variable
continua y hay una infinidad de resultados distintos. Tambin es el caso del
lanzamiento indefinido de dos dados,...

Para ver la idea de muestreo aleatorio en una poblacin finita de tamao N,


primero veamos cuantas muestras distintas se pueden tomar de tamao n. El
N 12 12 11
nmero de muestras distintas es Por ejemplo si N=12 y n= 2 66
n 2 2!
muestras distintas.

N
Con base en el resultado de que hay muestras distintas de tamao n de una
n
poblacin finita de tamao N, podemos definir como muestra aleatoria o muestra
aleatoria simple de una poblacin finita:

Una muestra de tamao n de una poblacin finita de tamao N es una variable


N
aleatoria si se selecciona de manera tal que cada una de las muestras
n
1
posibles tienen la misma probabilidad de ser seleccionada.
N

n

Por ejemplo si una poblacin consistente en lo N= 5 elementos a,e,i, o, u (que


podran ser los ingresos anuales de cinco personas, los pesos de 5 vacas,.....) hay
5
10 muestras posibles de tamao n = 3 . Estas constan de los elementos:
3

aei aeo aeu aio aiu aou eio eiu eou iou
Si seleccionamos una de esas muestras de forma que esta muestra tenga
probabilidad 1/10 de ser elegida, decimos que dicha muestra es aleatoria.

En la prctica el describir todas las posibles muestras seria complicado si N y n


son grandes. Por ejemplo si n = 4 y N = 200 tendramos 64, 684,950 muestras
distintas.

Por suerte podemos realizar una muestra aleatoria, sin necesidad de describirlas
todas. Basta con numerar los N elementos de la poblacin y retirar una a una
hasta completar los n- elementos de la muestra. Este procedimiento tambin da
1
una probabilidad de de ser seleccionada la muestra por los que sera
N

n
aleatoria.

Ahora bien si la poblacin es infinita: diremos que:

Una muestra de tamao n de una poblacin infinita es aleatoria si consta de


valores de variables aleatorias independientes que tienen la misma distribucin.

Por ejemplo si lanzamos un dado 12 veces y obtenemos 2, 5, 5, 3, 3, 3, 5, 1, 6,


1,4, 1. Estos nmeros constituyen una variable aleatoria si son valores aleatoria
independientes que tienen la misma distribucin de probabilidad f(x) = 1/6 para x=
1,2,3,4,5,6

3- Diseos de muestras:

La nica clase de muestras estudiadas hasta ahora son las aleatorias, y no hemos
considerado siquiera la necesidad de que en ciertas condiciones pueda haber
muestras que sean mejores (digamos ms fciles de obtener, ms econmicas o
mas formativas) que las aleatorias, y no hemos entrado en detalles sobre la
pregunta de cuando un muestreo aleatorio es imposible.

En estadstica un diseo de una muestra es un plan definitivo, determinado por


completo antes de recopilar cualquier dato, para tomar una muestra de una
poblacin de referencia.

4.- Muestreo Sistemtico:

En algunos casos la manera ms prctica de realizar un muestreo consiste en


seleccionar, un primer elemento al azar y luego ir cogiendo cada x-trmino de una
lista, o dejar pasar a x- individuos y preguntar al que sigue y as sucesivamente.
Aunque un muestreo sistemtico puede no ser aleatorio de acuerdo con la
definicin, a menudos es razonable tratar las muestras sistemticas como si
fueran aleatorias.

El riesgo de los muestreos sistemticos es el de las periodicidades ocultas.


Supongamos que queremos testar el funcionamiento de una mquina, para lo cul
vamos a seleccionar una de cada 15 piezas producidas. Si ocurriera la desgracia
de que justamente 1 de cada 15 piezas fuese defectuosa y el error de la mquina
fuera defectuoso peridicamente, tendramos dos posibles resultados muestrales:

- Que falla siempre

- Que no falla nunca.

5.- Muestreo Estratificado:

Si tenemos informacin acerca de una poblacin (es decir de su composicin) y


esta es importante para nuestra investigacin, podemos mejorar el muestreo
aleatorio por medio de la estratificacin. Este es un procedimiento que consiste en
estratificar o dividir la poblacin en un numero de subpoblaciones o estratos. Y
seleccionamos de cada estrato una muestra aleatoria.

Este procedimiento se conoce como muestreo aleatorio (simple) estratificado.

Supongamos una poblacin de tamao N que se divide en k estratos cuyos


tamaos son:

N1, N2, .....,Nk (N1 +N2 +.....+Nk =N) Para obtener una distribucin proporcional
hemos de tener en cuenta que :

n 1

n 2
.......
n
k

n N
n i

N n
de donde se obtiene que para
N 1 N 2 N k N i

y=1,2,3,4,.... k donde n= tamao de la muestra.

Esta sera una distribucin proporcional, pero hay otras formas de distribuir
porciones de una muestra entre los distintos estratos, que seran:

- Distribucin ptima.

- Estratificacin cruzada.

- Muestreo por cuotas.

Distribucin ptima:
En la Distribucin optima, no slo se maneja el tamao del estrato, como en la
distribucin proporcional, sino que tambin se maneja la variabilidad (o cualquier
otra caracterstica pertinente) del estrato.

La idea de la Distribucin ptima, trata de jugar no slo con el tamao del estrato,
sino que tambin pretende jugar con la variabilidad del mismo, de forma que
parece lgico que los estratos de mayor variabilidad le correspondan muestras
mayores. Si 1, 2, 3, ...., k son las desviaciones tpicas de los k-estratos
podemos explicar tanto los tamaos de los estratos, as como su variabilidad.

n 1

n 2

n 3
........
n k

N
1 1 N
2 2 N 3 3 N k 1k

de donde se obtienen los tamaos muestrales de la distribucin ptima o


Distribucin de Neyman (su inventor) que se obtienen por la frmula:

n N
ni N N ....... N
i i
para y=1,2,...., k
1 1 2 2 k k

n= n1+n2+.......+nk

Estratificacin cruzada:

La estratificacin no se limita a una variable nica de clasificacin o una


caracterstica y las poblaciones a menudo se estratifican atendiendo a diversos
criterios de ordenacin o clasificacin. As por ejemplo si queremos realizar un
estudio entre los alumnos de distintos centros de EE. MM. podramos estratificar
la muestra atendiendo al nivel de estudios, al sexo, a la especialidad,.... As parte
de la muestra se dedicara a los alumnos de sexo femenino del 1 de Bachillerato
tcnico, otra parte a los alumnos de sexo masculino de 1 Bachillerato artstico, y
as sucesivamente. As y hasta cierto punto una estratificacin de este tipo,
llamada estratificacin cruzada, incrementar la precisin de las estimaciones y
otras generalizaciones que se usan comnmente en el muestreo de opinin y las
investigaciones de mercado.

Muestreo por cuotas:

En el muestreo estratificado, el costo de la toma de muestras aleatorias de los


estratos individuales es tan alto, que a los encuestadores slo se les dan cuotas
que deben cubrir de los diferentes estratos, con alguna restricciones (si no es que
ninguna) Por ejemplo si se quiere hacer un sondeo sobre la mejora de los
servicios de salud, por ejemplo se le pide que encueste a 10 mujeres de entre 35 y
45 aos que sean asalariadas, 20 hombres de entre 30 y 45 aos que vivan en
pisos de 3 o 4 habitaciones, a 3 hombres de mas de 60 aos que estn
jubilados.... esto es lo que se determina un muestreo por cuotas y es relativamente
econmico, lo nico es que las muestras resultantes no cumplen las
caractersticas esenciales de las muestras aleatorias. Por tanto estos muestreos,
por cuotas en esencia son muestras de opinin, pero no son vlidos para realizar
un estudio estadstico formal.

6- Muestreo Por Conglomerados:

Para ilustrar esta clase de muestreo, supongamos que una gran empresa quiere
estudiar los patrones variables de los gastos familiares de una ciudad como
Sevilla. Al intentar elaborar los programas de gastos de una muestra de 1200
familias, nos encontramos con la dificultad de realizar un muestreo aleatorio
simple, (es complicado tener una lista actualizada de todos los habitantes de una
ciudad). Una manera de tomar una muestra en esta situacin es dividir el rea
total (Sevilla en este caso) en reas ms pequeas que no se solapen (Por
ejemplo Distritos postales, manzanas etc..) En este caso seleccionaramos
algunas reas al azar y todas las familias (o muestras de stas) que residen en
estos distritos postales o manzanas, constituiran la muestra definitiva.

En este tipo de muestreo, llamado muestreo por conglomerados, se divide la


poblacin total en un nmero determinado de subdivisiones relativamente
pequeas y se seleccionan al azar algunas de estas subdivisiones o
conglomerados, para incluirlos en la muestra total. Si estos conglomerados
coinciden con reas geogrficas, este muestreo se llama tambin muestreo por
reas.

Aunque las estimaciones basadas en el muestreo por conglomerados, por lo


general no son tan fiables como las obtenidas por muestreos aleatorios simples
del mismo tamao, son ms baratas. Volviendo al ejemplo anterior, es mucho ms
econmico visitar a familias que viven en el mismo vecindario, que ir visitando a
familias que viven en un rea muy extensa.

En la prctica se pueden combinar el uso de varios de los mtodos de muestreo


que hemos analizados para un mismo estudio.

7.- Distribuciones Muestrales:

Veamos ahora el concepto de distribucin muestral de una estadstica, que quiz


es el concepto mas importante de la inferencia estadstica.
Para introducir el concepto de distribucin muestral, elaboraremos la de la media
de una muestra aleatoria de tamao n=2 tomada sin remplazo de la poblacin
finita de tamao N=5, cuyos elementos son: 3,5,7,9,11.

3 5 7 9 11
La media de esta poblacin es: 7 y su desviacin tpica es:
5

(3 7) (5 7) (7 7) (9 7) (11 7)
2 2 2 2 2

8
5
Ahora si tomamos una muestra aleatoria de tamao n = 2 de esta poblacin hay
5
10 posibilidades:
2

n Muestras x
nuestra

1 3 5 4

2 3 7 5

3 3 9 6

4 3 11 7

5 5 7 6

6 5 9 7

7 5 11 8

8 7 9 8

9 7 11 9

10 9 11 10
Media Probabilidad

4 1/10

5 1/10

6 2/10

7 2/10

8 2/10

9 1/10

10 1/10

Un anlisis de esta distribucin muestral revela cierta informacin relacionada con


el problema de la estimacin de la media de la poblacin de referencia con una

muestra aleatoria de tamao n=2. Por ejemplo para x = 6,7 u 8 la probabilidad de


que la media poblacin ( 7) no difiera por ms de 1 de la muestral es de 6/10. Sin

embargo para x = 5,6,7,8 0 9 la media de una muestra no difiera en mas de 2


unidades es 8/10. Por consiguiente si no conociramos la media de la poblacin
de referencia y quisiramos estimarla con la media de una muestra aleatoria de
tamao n=2, el procedimiento anterior nos da alguna idea del posible tamao del
error.

Si calculamos la media y la desviacin tpica de la distribucin de las medias


obtenemos que: x = 7 y x = 3 , luego la media x coincide con la media de
la poblacin y la desviacin tpica ha disminuido.

Evidentemente este proceso realizado con una muestra pequea no es lo


suficientemente explicativo. si tomsemos para n=10 y N=100 sera necesario
una lista de mas de 17 billones de muestras.. por lo que para realizar el proceso
sera necesario hacer una simulacin por computadora.

8.- El error Estndar de la media:

En la mayora de las situaciones reales, no podremos numerar todas las muestras


posibles, o simular una distribucin del muestreo para determinar cunto puede
aproximarse la media a la media de la poblacin de la muestra. No obstante
normalmente podemos obtener la informacin que necesitamos a partir de dos
teoremas que expresan hechos esenciales sobre las distribuciones en el muestreo
de la media:

El primero nos expresa formalmente lo que descubrimos en el ejemplo anterior .


La media de la distribucin del muestreo es igual a la media de la poblacin y la
desviacin tpica de la distribucin del muestreo es menor que la desviacin tpica
de la poblacin.

Esto se puede expresar de la siguiente forma:

En el caso de variables aleatorias de tamao n tomadas de una poblacin con la

media y desviacin tpica la distribucin del muestreo de x tiene la media:


Media de la distribucin muestral de x x

Error estndar de la media (desviacin tpica N n
de la muestra)
x
x

n

N 1
n

Dependiendo de que la poblacin de infinita o de tamao N

Es comn referirse a x como el error estndar de la media donde se utiliza


estndar en el sentido de desviacin tpica de la distribucin muestral. Su funcin
es fundamental en la estadstica pues mide el grado en el que se puede esperar
que flucten o varen las medias de una muestra como consecuencia del azar. si
x es baja, hay buenas posibilidades de que la media de una muestra se aproxime
a la media de la poblacin si x alta, es ms probable que obtengamos una
muestra que difiera considerablemente de la media de la poblacin.

A partir de las dos frmula anteriores se puede apreciar lo que determina el


tamao de x . Ambas frmulas demuestran (para poblaciones finitas e infinitas)

x se incrementa conforme aumenta la variabilidad de la poblacin y que se


reduce conforme el tamao de la muestra es mayor. De hecho es directamente
proporcional a e inversamente proporcional a n ( en las poblaciones finitas se
N n
reduce an ms rpido ya que aparece el factor )
N 1

N n
El factor de la segunda frmula de x se conoce como factor de
N 1
correccin de la poblacin finita. En la prctica, este se omite a menos de que la
muestra constituya al menos un 5% de la poblacin, pues en otro caso se
aproxima tanto a 1 que es despreciable (es decir si la muestra no llega al 5% del
tamao de la poblacin, no es necesario usar el factor de correccin)

9- El Teorema Central del Lmite:

Antes de introducir este teorema, sin duda de los mas importantes dentro de la
estadstica moderna, vamos a estudiar un teorema previo. El Teorema de
Chebyshev.

El Teorema de Chebyshev.

Para cualquier conjunto de datos (de una poblacin o una muestra) y cualquier
constante k mayor que 1, el porcentaje de los datos que debe caer dentro de k-
veces la desviacin tpica de cualquier lado de la media es de por lo menos:
1
1 2
k
El teorema de Chebyshev se aplica a cualquier tipo de datos, pero slo nos indica
por lo menos que porcentaje debe caer entre ciertos lmites. Pero para casi todos
los datos, el porcentaje real de datos que cae entre esos limites es bastante mayor
que el que especifica el teorema de Chebyshev.

Para las distribuciones que tienen forma de campana puede hacerse una
aseveracin ms fuerte:

(1) alrededor del 68% de los valores caern dentro de una desviacin tpica
de la media esto es: entre X , X ;

(2) aproximadamente el 95% de los valores caern dentro de dos


desviaciones tpicas de la media, esto es : X 2, X 2 ;

(3) aproximadamente el 99,7% de los valores caern dentro de dos


desviaciones tpicas de la media, esto es : X 3, X 3 ;

Basndonos en el teorema de Chebyshev con k=2 Qu podemos decir del


tamao de nuestro error, si vamos a usar la media de una muestra aleatoria
de tamao n=64 para estimar la media de una poblacin infinita con =20?

Sustituyendo n=64 y =20 en la frmula apropiada para el error estndar de la


20
media, obtenemos que : x 2,5 y por el teorema de Chebyshev podemos
64
afirmar que como mnimo 1 - 1/22 = 0,75 que el error ser menor que kx = 22,5=
5.
Es decir que tenemos una garanta de que en el 75% de los casos la media de la
poblacin estar entre la media calculada 5 .

Pero esto no es suficiente, cuando la probabilidad real de este caso puede estar
entre 0,98 y el 0,999

Teorema Central del Lmite.

Para muestras grandes, se puede obtener una aproximacin cercana de la


distribucin muestral de la media con una distribucin normal.

Teniendo en cuenta que ya sabemos la media y desviacin tpica de la distribucin


muestral, podemos decir que:


x = y x
para muestras aleatorias infinitas con media y desviacin
n
tpica y n grande, entonces:

X
Z es un valor de una variable N(0,1)
/ n
Este teorema es muy importante, puesto que justifica el uso de los mtodos de la
curva normal en una gran cantidad de problemas. se utiliza para poblaciones
infinitas y para poblaciones finitas cuando n a pesar de ser grande representa una
porcin muy pequea de la poblacin.

Es difcil sealar con precisin qu tan grande debe ser n de modo que podamos
aplicar el Teorema Central del lmite, pero a no ser que la distribucin sea muy
Inusual, por lo general se considera que n =30 es lo suficientemente alto.

Veamos el mismo ejemplo anterior aplicando el Teorema Central del Lmite.


La probabilidad se obtiene por medio del rea marcada de la zona gris,
especficamente por medio del rea de la N(0,1) entre:

5 5
z 2 y z 2
20 / 64 20 / 64
Lo que consultando en las tablas da una probabilidad de 0,9544. As sustituimos la
afirmacin de que la probabilidad es como mnimo 0,75 por una aseveracin ms
firme de que la probabilidad es aproximadamente de 0,95 ( de que la muestra
aleatoria de tamao n=64 de la poblacin de referencia difiera de la de la
poblacin menos de 5 unidades)

Tambin se puede usar el teorema Central del lmite para poblaciones finitas, pero
una descripcin precisa de las situaciones en que se puede hacer esto, sera ms
bien complicada. El uso apropiado ms comn es en el caso en que n es grande y
n/N es pequea. Este es el caso de la mayora de las encuestas polticas.

Veamos a continuacin un ejemplo de la importancia de la seleccin adecuada


de la muestra.

Para ello vamos a suponer una poblacin de tamao 60 elementos en el que se


ha medido una determinada caracterstica. De esta poblacin vamos a realizar 25
muestras aleatorias y vamos a comprobar las diferencias existentes entre los
valores estimados y los valores poblacionales.

111 539 216 128 462 283 413 237 193 177

406 257 290 213 325 306 184 168 310 266

279 393 450 92 241 302 319 193 281 313

295 402 183 310 257 257 302 315 353 128

244 116 127 348 418 232 400 166 451 315

335 707 266 91 703 380 618 79 588 199

Media 298,87

Desviacin 139,42
Tpica 78
2.3 Estimacin puntual.

Obtenida una muestra representativa el siguiente paso es conocer parmetros de


la poblacin a partir esa muestra. Llamaremos estadstico a cualquier funcin
determinada a partir de los datos muestrales y llamaremos estimador de un
parmetro al estadstico que aproxima a ese parmetro.

Para estimar un parmetro de la poblacin con un estadstico, hemos de exigirle a


ste ltimo una serie de condiciones para aceptar la estimacin como buena,
estos requisitos son:

El estadstico tiene que ser insesgado, es decir, la media de la distribucin


muestral del estadstico ha de coincidir con el parmetro poblacional.
Suficiencia, la muestra posee toda la informacin necesaria para acerca del
parmetro.
Consistencia, dado un estadstico diremos que es consistente si al
aumentar el tamao de la muestra, el estditico converge en probabilidad al
parmentro. Dicho de otro modo, cuando la muestra se hace muy grande la
probabilidad de que el estimador est muy cerca del parmetro es casi uno.
Eficiencia, de todos los estadsticos consistentes ser mejor aquel que
converja ms rpidamente al parmetro. Esto lo sabremos por la varianza,
a menor varianza menor dispersin.

Consideremos una muestra x1 ,x2 ,...,xn de una poblacin, los estimadores ms


usados son:

1. Estimador de la media poblacional, es la media muestral

2. Estimador de la varianza poblacional, es la cuasivarianza muestral

La cuasivarianza muestral es un estimador insesgado de la varianza poblacional,


cosa que no ocurre con la varianza muestral.

Si a partir de las observaciones de una muestra se calcula un solo valor como


estimacin de un parmetro de la poblacin desconocido, el procedimiento se
denomina estimacin puntual.
Por ejemplo queremos estimar la nota media de los alumnos de bachiller en la
asignatura de matemticas que notaremos. Sea X la variable aleatoria que indica
la nota obtenida por cada estudiante. Tomamos una muestra de tamao n y
denotamos la nota media de la muestra. Si al tomar una muestra de 100
estudiantes obtenemos que la media es 62, este nmero lo tomaramos como
estimativo de. Decimos que 62 es una estimacin puntual de.
Un estimador puntual T de un parmetro es cualquier estadstica que nos permita
a partir de los datos mustrales obtener valores aproximados del parmetro.
Para indicar que T es un estimador del parmetro escribimos =T.
Con esto queremos decir que empleamos la expresin dada mediante T para
obtener valores prximos al valor del parmetro.
Es muy probable que haya error cuando un parmetro es estimado. Es cierto que
si el nmero de observaciones al azar se hace suficientemente grande, stas
proporcionaran un valor que casi sera semejante al parmetro; pero a menudo
hay limitaciones de tiempo y de recursos y se tendr que trabajar con unas
cuntas observaciones. Para poder utilizar la informacin que se tenga de la mejor
forma posible, se necesita identificar las estadsticas que sean buenos
estimadores. Hay cuatro criterios que se suelen aplicar para determinar si una
estadstica es un buen estimador: Insesgamiento, eficiencia, consistencia y
suficiencia

* PROPIEDADES DESEABLES DE LOS ESTIMADORES PUNTUALES

a) Estimador insesgado

Si tenemos un gran nmero de muestras de tamao n y obtenemos el valor del


estimador en cada una de ellas, sera deseable que la media de todas estas
estimaciones coincidiera con el valor de .

Se dice que un estimador es insesgado si su esperanza matemtica coincide con


el valor del parmetro a estimar.

b) Estimador eficiente

Se dice que los estimadores son eficientes cuando generan una distribucin
muestral con el mnimo error estndar, es decir, entre dos estimadores insesgados
de un parmetro dado es ms eficiente el de menor varianza.

c) Estimador consistente

Un estimador se dice consistente cuando su valor tiende hacia el verdadero valor


del parmetro a medida que aumenta el tamao de la muestra. Es decir, la
probabilidad de que la estimacin sea el verdadero valor del parmetro tiende a 1.

d) Estimador suficiente

Se dice de un estimador que es suficiente cuando es capaz de extraer de los


datos toda la informacin importante sobre el parmetro.
Esencialmente son tres los parmetros de inters:

En el caso de que investiguemos una variable cuantitativa:


o Para la media de la poblacin tomaremos como aproximacin la
media de la muestra.

o Para la varianza de la poblacin tomaremos la cuasivarianza de la


muestra.

Si el estudio se centra en el estudio de un carcter cualitativo el parmetro


de inters ser la proporcin de elementos de la poblacin que pertenecen
a cierta categora C que lo aproximaremos con la correspondiente
proporcin en la muestra.

2.4 Estimacin de intervalo.


Con la estimacin puntual se estima el valor del parmetro poblacional
desconocido, a partir de una muestra. Para cada muestra se tendr un valor que
estima el parmetro. Esta estimacin no es muy til si desconocemos el grado de
aproximacin de la estimacin al parmetro. Es deseable conocer un mtodo que
nos permita saber dnde se encuentra el parmetro con un cierto grado de
certeza. Este mtodo va a ser la determinacin de un intervalo donde estar el
parmetro con un nivel de confianza.

El intervalo se construye a partir de una muestra, entonces, para cada muestra se


tendr un intervalo distinto. Llamaremos al error que se permite al dar el
intervalo y el nivel de confianza ser 1- . Un intervalo tiene un nivel de confianza
1- cuando el 100 (1- ) % de los intervalos que se construyen para el parmetro lo
contienen.
Es deseable para un intervalo de confianza que tenga la menor amplitud posible,
esta amplitud depender de:

El tamao de la muestra, mientras mayor sea el tamao mejor ser la


estimacin, aunque se incurre en un aumento de costes
Nivel de confianza, si se pide mayor nivel de confianza, el intervalo ser
mayor.

La estimacin por intervalos consiste en establecer el intervalo de valores donde


es ms probable se encuentre el parmetro. La obtencin del intervalo se basa en
las siguientes consideraciones:

a) Si conocemos la distribucin muestral del estimador podemos obtener


las probabilidades de ocurrencia de los estadsticos muestrales.
b) Siconociramos el valor del parmetro poblacional, podramosestablecer
la probabilidad de que el estimador se halle dentro de los intervalos de la
distribucin muestral.
c) El problema es que el parmetro poblacional es desconocido, y por ello
el intervalo se establece alrededor del estimador. Si repetimos el muestreo
un gran nmero de veces y definimos un intervalo alrededor de cada valor
del estadstico muestral, el parmetro se sita dentro de cada intervalo en
un porcentaje conocido de ocasiones. Este intervalo es denominado
"intervalo de confianza".

2.5 Intervalos de confianza para medias.

De una poblacin de media y desviacin tpica se pueden


tomar muestras de elementos. Cada una de estas muestras tiene a su vez una
media ( ). Se puede demostrar que la media de todas las medias muestrales
coincide con la media poblacional:2
Pero adems, si el tamao de las muestras es lo suficientemente grande,3 la
distribucin de medias muestrales es, prcticamente, una distribucin
normal (o gaussiana) con media y una desviacin tpica dada por la siguiente

expresin: . Esto se representa como

sigue: . Si estandarizamos, se sigue

que:
En una distribucin Z ~ N(0, 1) puede calcularse fcilmente un intervalo dentro del
cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo
hallar z1 y z2 tales que P[z1 z z2] = 1 - , donde (1 - )100 es el porcentaje
deseado (vase el uso de las tablas en una distribucin normal).
Se desea obtener una expresin tal que
En esta distribucin normal de medias se puede calcular el intervalo de confianza
donde se encontrar la media poblacional si slo se conoce una media muestral (
), con una confianza determinada. Habitualmente se manejan valores de
confianza del 95 y del 99 por ciento. A este valor se le llamar (debido a
que es el error que se cometer, un trmino opuesto).

Para ello se necesita calcular el punto o, mejor dicho, su versin


estandarizada o valor crtico junto con su "opuesto en la
distribucin" . Estos puntos delimitan la probabilidad para el intervalo, como
se muestra en la siguiente imagen:

Dicho punto es el nmero tal que:

Y en la versin estandarizada se cumple que:

As:

Haciendo operaciones es posible despejar para obtener el intervalo:

De lo cual se obtendr el intervalo de confianza:


Obsrvese que el intervalo de confianza viene dado por la media muestral el

producto del valor crtico por el error estndar .


Si no se conoce y n es grande (habitualmente se toma n 30):4

, donde s es la desviacin tpica de una muestra.


Aproximaciones para el valor para los niveles de confianza estndar son 1,96
para y 2,576 para .5

2.6 Intervalos de confianza para diferencia entre medias.

Cuando se dispone de dos muestras procedentes de poblaciones normales se


puede calcular un intervalo de conanza para la diferencia de medias 1 2.
Para ello, es importante distinguir si las dos muestras son independientes o si los
datos son emparejados. Veamos cmo llevar a cabo el anlisis en cada uno de
estos casos.

Criterios:
-1>2
-1=2
- 1<2

Ejemplo:
Se lleva acabo las pruebas de la resistencia a la tensin sobre dos diferentes
clases de largueros de aluminio utilizados en la fabricacin de alas de aeroplanos
comerciales de la experiencia pasada con el proceso de fabricacin de largueros y
del procedimiento de prueba, se supone que las desviaciones estndar de las
resistencias a tensin son conocidas. Los datos de la siguiente tabla son resultado
de las pruebas hechas.

Clase de larguero Tamao de la Media Desviacin


muestra Muestral(kg/mm2) estndar(kg/mm2)

1 n1=10

2 n2=12

Si 1 y 2 denotan los promedios verdaderos, encuentre el intervalo de confianza


del 40% para la diferencia de medias

1-=
=1-.9=0.1
0.1/2=0.05

2.7 Intervalos de confianza para proporciones.

El intervalo de confianza para estimar una proporcin p, conocida una proporcin


muestral pn de una muestra de tamao n, a un nivel de confianza del (1-)100%
es:

En la demostracin de estas frmulas estn involucrados el Teorema Central del


Lmite y la aproximacin de una binomial por una normal.

Dada una variable aleatoria con distribucin Binomial B(n, p), el objetivo es la
construccin de un intervalo de confianza para el parmetro p, basada en una
observacin de la variable que ha dado como valor x. El mismo caso se aplica si
estudiamos una Binomial B(1, p) y consideramos el nmero de veces que ocurre
el suceso que define la variable al repetir el experimento n veces en condiciones
de independencia.

Existen dos alternativas a la hora de construir un intervalo de confianza para p:


Considerar la aproximacin asinttica de la distribucin Binomial en la
distribucin Normal.

Utilizar un mtodo exacto.

Aproximacin asinttica

Tiene la ventaja de la simplicidad en la expresin y en los clculos, y es la ms


referenciada en la mayora de textos de estadstica. Se basa en la aproximacin

que, trasladada a la frecuencia relativa, resulta

Tomando como estadstico pivote

que sigue una distribucin N(0, 1), y aadiendo una correccin por continuidad al
pasar de una variable discreta a una continua, se obtiene el intervalo de confianza
asinttico:

donde z/2 es el valor de una distribucin Normal estndar que deja a su derecha
una probabilidad de /2 para un intervalo de confianza de (1 ) 100 %. Las
condiciones generalmente aceptadas para considerar vlida la aproximacin
asinttica anterior son:

El intervalo obtenido es un intervalo asinttico y por tanto condicionado a la validez


de la aproximacin utilizada. Una informacin ms general sobre los intervalos de
confianza asintticos puede encontrase aqu.
Intervalo exacto

Aun cuando las condiciones anteriores no se verifiquen, es posible la construccin


de un intervalo exacto, vlido siempre pero algo ms complicado en los clculos.
Es posible demostrar que un intervalo exacto para el parmetro p viene dado por
los valores siguientes:

donde F/2,a,b es el valor de una distribucin F de Fisher-Snedecor con a y b


grados de libertad que deja a su derecha una probabilidad de /2 para un intervalo
de confianza de (1 ) 100 %.

2.8 Intervalos de confianza para diferencias entre proporciones.

Los lmites para el intervalo de una diferencia de proporciones correspondientes a


dos muestras independientes son:

Donde el smbolo z/2 es el mismo valor crtico que antes, prob(Z > z/2) = /2, y
corresponde a un intervalo de confianza 1 %.

Este intervalo puede utilizarse de manera alternativa al contraste de hiptesis para


decidir (con nivel de significacin %) si hay igualdad de los dos grupos. Se
decidir por la igualdad de los grupos si el valor 0 queda incluido en cualquier
posicin en el intervalo.

Aunque se haga el contraste de dos proporciones, en primer lugar, es aconsejable


obtener el intervalo de confianza de la diferencia de medias, si ste ha resultado
significativo, puesto que ayudar a interpretar si existe significacin aplicada
adems de la estadstica.

Si se dispone de alguna informacin previa y slo quiere calcularse alguno de los


dos intervalos unilaterales, bastar sustituir z/2 por z y descartar el lmite superior
o inferior del intervalo segn el caso. Por ejemplo, el intervalo unilateral derecho
corresponde a:
2.9 Intervalos de confianza para varianzas.

Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la

siguiente propiedad de la distribucin :

Consideremos dos cuantiles de esta distribucin que nos dejen una


probabilidad en la ``zona central'' de la distribucin (cf. figura 8.7):

Figura: Cuantiles de la distribucin .


Entonces un intervalo de confianza al nivel para la varianza de una
distribucin gaussiana (cuyos parmetros desconocemos) lo obtenemos teniendo
en cuenta que existe una probabilidad de que:

Por tanto el intervalo que buscamos es

Ejemplo

En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad,


obtenindose en una muestra de tamao 25 los siguientes valores:
Calcular un intervalo de confianza con para la varianza de la altura de
los individuos de la ciudad.

Solucin:

Para estimar un intervalo de confianza para (varianza poblacional) el


estadstico que nos resulta til es:

Entonces el intervalo de confianza que buscamos lo obtenemos mediante (cf.


figura 8.8)

Figura: Percentiles del 2,5% y del 97,5%

para la distribucin .

Por tanto, para el valor poblacional de la desviacin tpica tenemos que


con una confianza del 95%, que por supuesto contiene a las estimaciones

puntuales y calculados sobre la muestra.

2.10 Intervalos de confianza para razones de dos varianzas.

Você também pode gostar