Você está na página 1de 25

Estimacin

Agenda 1. Error de muestreo 2. Teorema de lmite central 3. Estimacin puntual 4. Media muestral (x) 5. Varianza muestral S2

6. Media muestral con T 7. Intervalos de confianza

Recuerden que el objetivo de la inferencia estadstica es determinar algo acerca de una poblacin con base en una muestra. La poblacin es un grupo completo de individuos u objetos en estudio, y la muestra es una parte o subgrupo de esa poblacin. As, una muestra es un medio utilizado para inferir algo acerca de una poblacin. En captulos anteriores se ha supuesto que se cuenta con ciertos datos acerca de la poblacin, como la media, la desviacin estndar o la forma de la poblacin. Es por eso que el propsito del muestreo es estimar estos valores. As por ejemplo, se toma una muestra de una poblacin y se usa la media de la muestra (x) para estimar la media de la poblacin () o se toma la varianza muestral (S2) para estimar la varianza poblacional (), 2). (

La importancia de seleccionar una muestra de manera aleatoria es que cada elemento o individuo de la poblacin tenga una probabilidad real de ser escogido. Para lograr esto, pueden elegirse diferentes tipos de muestreos (aleatoria simple, sistemtico, estratificado, por conglomeracin, o bien una combinacin). Sin embargo, es poco probable que una media muestral (x) sea idntica a la media poblacional (). De igual forma, la desviacin estndar (S) u otra medida calculada a partir de la muestra, probablemente no sera exactamente igual al valor correspondiente de la poblacin. Por tanto, podemos esperar que haya alguna diferencia entre un valor estadstico de muestra, como la media muestral o la desviacin estndar respectiva y el correspondiente respectiva, parmetro de la poblacin. La diferencia entre un valor estadstico de muestra y un parmetro de poblacin se denomina error de muestreo. Por lo tanto, para hacer una buena estimacin es conveniente considerar este error de muestreo (o de estimacin) al realizar los clculos correspondientes. Adems, hay que considerar un teorema que nos ayudar a entender el proceso de Estimacin, y las propiedades que de ste se derivan.

Teorema de Lmite Central El teorema de lmite central (TLC) establece que, para muestras aleatorias grandes (n>30), la forma de la distribucin de medias muestrales se acerca a la de la distribucin del tipo normal. La aproximacin es ms exacta para muestras grandes que para pequeas. sta es una de las conclusiones ms tiles en Estadstica. Se puede razonar acerca de la distribucin de las medias muestrales sin contar con alguna informacin respecto de la forma de la distribucin original de la cual se toma la muestra. En otras palabras, el teorema de lmite central es cierto para todas las distribuciones. distribuciones

Estimacin Puntual Una estimacin puntual es un valor que se usa para estimar un valor poblacional. Por ejemplo se toma una muestra de 50 ejecutivos y se les pregunta cuntas horas trabajaron la semana pasada. Se calcula la media en esta muestra de 50 y se utiliza el valor de la media muestral (x), como una estimacin puntual de la media poblacional (que no se conoce). Para lo cual se puede usar la frmula: x=1/n xi Donde n es el tamao de la muestra Nota: Fjense que es un promedio simple El valor de un estimador (x) ser diferente para cada muestra en el que se aplique, es decir hay variabilidad muestral. Dado que el valor del estimador cambia con la muestra, podemos decir que es una variable aleatoria. Es decir, si el estimador es una funcin de variables aleatorias, entonces el estimador mismo es una variable aleatoria. Por lo tanto, hay una funcin de Distribucin Muestral del Estadstico.

Veamosladistribucinmuestral de2estadsticos: MediaMuestral (x) VarianzaMuestral (S2) Ladistribucinmuestral deXsepuedeaproximarsinesgrande(n>30).A medidancreceladistribucindelamediamuestral converge enuna distribucinNormalEstndar,esdecir:Z=x//n Esdecir,quelamediadelestadsticoXes ylavarianzadeXesiguala/n, porloqueladesviacinestndardeXes:/n por lo que la desviacin estndar de X es: /n Observenquelafrmulaanterioresmuyparecidaalaquededujimoscuando analizamoslaestandarizacindeladistribucinnormal. Nota:Esteresultadotanimportanteseobtuvodelteoremadellmitecentral

La varianza muestral (S2) es el estadstico (o estimador) puntual para estimar la varianza poblacional (2), y su frmula es la siguiente: S2 = (Xi-X)2 / (n-1) Nota: En Excel, como ya hemos mencionado, se puede obtener el clculo de la varianza, solo que para este caso habr que especificar que es para una varianza muestral. El problema que se tiene para la distribucin exacta para S2 es que es difcil derivarla cuando n es grande. Adems, no existe un teorema anlogo al TLC por el que podamos aproximar la distribucin de S2. Pero s podemos derivar la distribucin de S2 para los casos en los que la(s) muestra(s) sea(n) tomada(s) de una poblacin que se asuma como normal. Entonces, si a S2 le hacemos un pequeo arreglo matemtico: (n-1)/2 S2 Sabremos que el producto resultante se distribuir como una distribucin 2. La distribucin jicuadrada tiene una curva suave pero que tiene un sesgo positivo y cuenta con sus propias tablas de probabilidad.

Ahora bien, si tomamos una muestra proveniente de una distribucin normal pero no conocemos la varianza poblacional 2 (o n es menor a 30) y queremos saber cmo se comporta la media muestral (X), an lo podemos saber: estimando la varianza poblacional (2) a travs de la varianza muestral (S2), en estos casos se har uso de la distribucin T de student: t=X-/ (S/n) Donde: S es la Desviacin Estndar Muestral o S2

Propiedades de los Estimadores Aunque los estimadores son variables aleatorias, como ya vimos, nos interesa que stos estn los ms cercanos posible del verdadero parmetro poblacional. Esto se verifica a travs de 2 propiedades del estimador: Sesgo Varianza El sesgo mide la exactitud promedio de un estimador, mientras menor sea el sesgo, ms exacto es el estimador Un estimador cuyo sesgo es cero se denomina estimador insesgado estimador. insesgado. As como es deseable que un estimador sea insesgado, tambin es deseable que tenga la menor varianza posible, ya que a menor varianza implicar una mayor precisin.

10

Intervalos de Confianza Una estimacin puntual es un slo valor por lo que no da mucha informacin. Una estimacin en la que se da ms informacin implica dar un intervalo de valores, en el que se espera se encuentre el parmetro poblacional. A ste intervalo de valores se le llama intervalo de confianza. Como se espera que la estimacin puntual est cerca del parmetro poblacional, sera deseable saber qu tan cerca est en realidad. El intervalo de confianza (I de C) cumple este propsito. Una estimacin por intervalo es una regla para calcular dos nmeros o lmites (superior e inferior) para crear un intervalo del cual se tiene una cierta confianza que contenga el parmetro poblacional de inters. El trmino de confianza significa con muy alta probabilidad. Esta probabilidad se mide mediante el coeficiente (o nivel) de confianza, designado por 1-. Donde a se le conoce como nivel de significancia. Los investigadores a menudo construyen intervalos de confianza del 95%. Esto significa que el coeficiente de confianza, o la probabilidad de que el intervalo contenga el parmetro estimado es de .95 (1.05). En otras palabras, se tiene un intervalo con un 5% de significancia. Ustedes pueden aumentar o disminuir su certeza al cambiar el coeficiente de confianza. Algunos valores, que tambin son usuales para los intervalos son .90, .98, .99.

11

Intervalo de Confianza para la Media Por ejemplo, se estima que en determinada obra pblica el ingreso medio de los trabajadores de la construccin por la totalidad del proyecto es de $65,000. Se puede indicar qu tan seguro se est de que el parmetro poblacional se encuentre en este intervalo dando una probabilidad. Si se tienen muestras razonablemente grandes (n>30), el teorema del lmite central permite establecer lo siguiente: - 95% de las medias muestrales obtenidas de una poblacin se encuentran a no ms de 1.96 desviaciones estndar de la media poblacional . - 99% de las medias muestrales se encentran a no ms de 2.58 desviaciones estndar de la media poblacional. Aqu la desviacin estndar, de la que se trata, es la desviacin estndar de la media muestral. A sta desviacin estndar se le llama generalmente error estndar. Pero Cmo se obtienen los valores 1.96 y 2.58? Recuerden que el 95% y el 99% son el porcentaje de las veces que los intervalos obtenidos de manera semejante comprendern el parmetro que se est estimando. El 95% (1-), por ejemplo, se refiere al 95% central de las observaciones. Por tanto, el 5% () restante queda repartido en dos partes iguales (/2) entre las dos colas de la distribucin.

12

Ya que hemos supuesto que nuestro tamao de la muestra es mayor a 30, la frmula para el intervalo de confianza para la media poblacional (n30) ser: X+Z (S/n) Donde X es la media muestral,S es la desviacin estndar muestral (S), n es el tamao de muestra y Z depender del nivel de confianza que se requiera. Para nuestro ejemplo, el I de C del 95% nos quedar: 65,000 + 1.96 S/n Supongamos que la muestra fue de n=53 y S=3,500, por lo que nos quedar: 65,000 + 1.96 (3,500/53) 65,000 + 942.29 Los intervalos de confianza se componen de dos valores: el lmite superior de confianza (LSC) y el lmite inferior de confianza (LIC), por lo que: LIC=65,000-942.29=64,057.71 LSC=65,000+942.29=65,942.29 Es decir, entre $64,057 y $65,942, se tendr una confianza del 95% de contener el verdadero parmetro poblacional (), por lo que se puede esperar que el 5% (Nivel de significancia) de los intervalos de confianza as obtenidos no contengan la media de los ingresos de la poblacin, es decir que fallemos en nuestra estimacin.

13

Si ahora deseamos calcular el I de C del 99% se tendrn los siguientes valores: Por lo que: LIC=65,000 1240 = 63,760 LSC=65,000 + 1240 = 66,240 Noten que la amplitud para el I de C del 99% es ms grande que para el de 95%, es decir que a un nivel mayor de confianza se pierde precisin en la estimacin. Otro aspecto a resaltar es que conforme aumenta el tamao de la muestra, el error estndar disminuye, disminuye indicando esto que hay menos variabilidad en la distribucin muestral de la media muestral. La conclusin es lgica, porque una estimacin obtenida de una muestra grande ser ms precisa que una estimacin obtenida de una muestra pequea.

14

Por el contrario, si la muestra que tuviramos fuera menor a 30, el intervalo de confianza no se calculara con la distribucin Z, su clculo sera con la ayuda de la distribucin T. Entonces la frmula del intervalo de confianza para la media poblacional cuando n<30 sera: X+ T (S/n) Supongamos que para el ejemplo de los trabajadores de la construccin slo dispondramos de n=16, es decir tendramos 15 (n-1=16-1) grados de libertad, por lo que el valor para T sera 2.131 para un nivel de confianza del 95% y del 2.947 para un nivel de confianza del 99%. Recuerden que =0.05 en el primer caso y =0.01 en el segundo caso quedan repartidos en dos partes iguales (/2) entre las dos colas de la distribucin distribucin. Para el I de C del 95 realizamos: 65,000+2.131 (3,500/15) Para el I de C del 99 realizamos: 65,000+2.947(3,500/15) Noten que estos intervalos son ms amplios, o menos precisos para estimar la media de ingresos de los trabajadores de la construccin, esto se debe a dos razones: -El tamao de la muestra es ms pequeo -La distribucin T es ms achatada al centro

15

El siguiente cuadro les puede ayudar a decidir qu distribucin utilizar, dependiendo las circunstancias que se les presenten:

16

Intervalo de Confianza para la diferencia entre medias Para analizar este tipo de Intervalo de Confianza veamos un ejemplo. Supongamos que el municipio de Puebla est interesado en estimar la diferencia en las medias (1-2) en el rendimiento entre dos marcas de focos, medido por las horas de uso, que son utilizados en el alumbrado pblico. Para esto se registra la duracin promedio, los tamaos de muestra y desviaciones estndar para ambas marcas de focos: Marca A Marca B = 45 = 61 =15,285 =14,991 =484 =633 Como el tamao de muestra es grande ([n1+n2-2]>30), la distribucin a utilizar ser la normal estndar. Como las muestras son obtenidas de dos poblaciones (o marcas de focos) distintas, es sensato asumir que tambin son diferentes las varianzas poblacionales (12), por lo que la frmula para calcular este tipo de I de C ser: (X-Y)+ZS1/n1+S2/n2 p ( ) Sustituyendo los valores de la tabla anterior, y considerando un nivel de confianza del 90% se tiene: = (294)+1.645 . (108.5) LIC=(295)(15,285-14,991)+1.645 484/45+633/61 178.5=115.5 LSC=(294)+178.5=472.5 Es decir, la diferencia en el rendimiento entre las dos marcas de focos podr estar entre 115.5 y 472.5 horas de uso, esto lo podemos decir con un 90% de confianza.

17

Por otro lado, si tuviramos ambas muestras provenientes de una misma poblacin, es decir 1=2, entonces se utilizara la siguiente frmula:
(X-Y)+Z.S(1/n1)+(1/n2)

18

Otro ejemplo La secretara de turismo est interesada en estimar la diferencia en la ocupacin media (1 2) de (1-2) hoteles del centro de puebla en temporada alta, para antes y despus de la contingencia sanitaria del 2009. Para tal efecto ha recabado la siguiente informacin: 2008 2010 = 12 = 12 = 83% = 75% = 4.4% = 6.3% Las muestras para los dos aos (2008 y 2010) provienen de una misma poblacin, por lo que podemos asumir que 1=2. Sin embargo, sumando los tamaos de muestra no son mayores a 30, por lo que tendremos que recurrir al uso de la distribucin T para estimar el I de C, con la siguiente frmula: (XY)+T.Sp (1/n1)+(1/n2) Donde primero debemos calcular: Sp= (n1-1) S1+(n2-1) S2/(n1+n2-2) Por lo que: Sp=Sp=29.5=5.4 Una vez que ya sabemos el valor de , procedemos a calcular el I de C con un nivel de significancia () del 1%, es decir, 99% (1 - ) de confianza y 22 (n1+n2-2=12+12-2) grados de libertad La operacin quedar de la siguiente manera:(83-75)2.819 . 5.4 1/12+1/12 dando por resultado 82.819 . 2.2 Asi el limite inferior de confianza sera 8-6.2 es decir 1.8. Y el limite superior de confianza sera 8+6.2 es decir 14.2 Lo que quiere decir que la diferencia entre las medias de ocupacin de los hoteles del centro de puebla entre el 2008 y 2010, puede estar entre 1.8 y 14.2% en el 99% de los intervalos de confianza calculados de sta manera.

19

Ahora bien, si tuviramos muestras provenientes de diferentes poblaciones, es decir 12, entonces se utilizara la siguiente frmula: (X-Y)+T(S1/n1)+(S2/n2)

20

Intervalo de Confianza para la Varianza Este intervalo de confianza es el nico que versar sobre la varianza poblacional (), y tiene una forma particular de estimar su I de C, es por ello que tenemos que utilizar una distribucin diferente a las de los otros I de C. La distribucin Ji-cuadrada (Xn-1) Algunas propiedades de sta distribucin son: Los valores de 2 son mayores o iguales a cero Las distribuciones 2 no son simtricas tienen colas estrechas que se extienden a la derecha simtricas, derecha; esto es, tienen sesgo positivo. La forma de una distribucin 2 depende de los g.l.= n-1. En consecuencia hay un nmero infinito de distribuciones 2 Por tal motivo, cuentan con sus propias tablas de probabilidad. Las tablas de probabilidad tienen una forma similar de leerlas a las de la T de student, ya que tambin se deben considerar los grados de libertad (n-1) para encontrar la probabilidad requerida.

21

Ejemplo Suponga que la SCT tiene un programa para verificar la precisin en los tiempos de coordinacin, (medido en segundos) de los semforos de las principales avenidas de la ciudad de Puebla, una cuadrilla de tcnicos han recabado los siguientes datos muestrales: N = 19 S2 = 5.4 Las frmulas para calcular los lmites de los intervalos son los siguientes: LIC=(n-1) S2/X2/2 LSC=(n-1) LSC (n 1) S2/X21 (/2) 1-(/2) Si quisiramos calcular un I de C del 90%, es decir, con un nivel significancia () del 10%, tendramos que buscar primero, en tablas, los valores correspondientes: Nota: Recuerda que , el nivel de significancia, quedar repartido en dos partes iguales entre las dos colas de la distribucin (/2). 0.90 0.05 0.05

22

Con 18 grados de libertad (n-1 = Por lo que los lmites del intervalo LIC LSC 3.36 10.35 En palabras, la variabilidad () noventa de cada cien intervalos de

19-1) sern:

de los semforos estar entre los 3.36 y 10.35 segundos en confianza calculados de sta manera manera.

23

El siguiente cuadro resume los tipos de I de C vistos y las caractersticas de estos:

24

El siguiente cuadro resume los tipos de I de C vistos y las caractersticas de estos:

25

Você também pode gostar