Você está na página 1de 44

Estadstica I I

Monica Gerber
Facultad de Sociologa - Universidad de Chile
Repaso para Prueba 1, 30 de abril, 2013
a. Estadstica inferencial
b. Estimacin puntual e intervalar de medias y proporciones
c. Pruebas de hiptesis para una muestra nica (medias y proporciones)

Repaso para prueba 1
Estadstica inferencial
Distincin entre descripcin e inferencia

Estadstica inferencial: obtener
conclusiones sobre las caractersticas de una
poblacin en base a observaciones hechas
de una muestra

Desde muestras probabilsticas resulta
pertinente inferir a la poblacin

Lo fundamental de la inferencia es que si
bien no podemos evitar un error en la
estimacin, podemos conocer el error y
buscar formas de reducirlo



Poblacin
Muestra
Muestreo
I nferencia
Estadstica
Estadstica inferencial
Poblacin
Es un conjunto de elementos del que se pretende obtener informacin.
Su tamao se define con la letra N.
Los estadsticos de la poblacin son llamados parmetros.
Media:
Proporcin: P


Desviacin estndar:

Muestra
Una muestra hace referencia a una parte de la poblacin.
Su tamao se define con la letra n.
Los datos obtenidos en la muestra se denominan estadsticos.
Media: x
Proporcin: P
s

Desviacin estndar: s



Estadstica inferencial
El diseo de muestras tiene como objetivo obtener mtodos de seleccin y
estimacin para sustituir la informacin que suministra una poblacin por la
que suministra una muestra

Muestras:
Probabilsticas: cuando todo sujeto perteneciente a la poblacin tiene una
probabilidad conocida y distinta de 0 1 de ser elegidos

No probabilstica: cuando no se conoce la probabilidad de seleccin de los
componentes

En el muestreo probabilstico se puede conocer el error en la estimacin (y
por lo tanto se puede inferir a la poblacin). No es posible calcular el error e
inferir en el caso de muestras no probabilsticas




Estadstica inferencial
Error de muestreo

Los estadsticos que se calculan desde las muestras permiten estimar el
parmetro poblacional

Sin embargo, los estadsticos de algunas muestras estarn ms cerca del
valor real del parmetro poblacional

La teora de la probabilidad nos otorga herramientas para
Determinar la probabilidad de obtener distintos estadsticos (y que tan
seguido un estadstico har una prediccin equivocada)
La confianza con la que podemos hacer una estimacin sobre la
poblacin




Distribucin Normal
Curva de distribucin de frecuencias con forma de campana
Mayor probabilidad de ocurrencia de los valores cercanos a la media,
mientras que las probabilidades van decreciendo hacia los extremos
Media, la mediana y la moda de una variable son iguales entre s
Fenmenos sociales frecuentemente se distribuyen normalmente: altura,
puntajes en una prueba








Puntuaciones estandarizadas (puntuaciones
Z)
Puntuaciones estandarizadas Z: Distancia estandarizada de un valor X
hacia la media. Distancia de un valor X dividida por por desviacin estndar
de esa distancia
La puntuacin Z indica la direccin de la puntuacin ( - +) y la distancia
hacia la media
Proporciona una medida para comparar variables y muestras en una unidad
comn




Donde:
s
x
= desviacin estndar para la variable x de intervalo/ razn
X = una puntuacin individual
X

=
X
n
= Media de x


Z =
X X

s
x

Curva normal y puntuaciones estandarizadas
Sabemos, por ejemplo que:
El 68% de los casos se encuentran entre -1 y +1 desviaciones estndar
de la media
El 95.5% de los casos se encuentran entre -2 y +2 desviaciones
estndar de la media
El 99.7% de los casos se encuentran entre -3 y +3 desviaciones
estndar de la media







-1 -2 -3 1 2 3
99,7 %
95,5 %
68 %

Curva normal y puntuaciones estandarizadas
El clculo de reas bajo la curva normal considera tres elementos:

Puntaciones X: corresponden a las puntuaciones brutas, por ejemplo,
una nota de 6.0 en una escala de 1 a 7

Puntuaciones Z: corresponden a las puntuaciones estandarizadas y
representadas en unidades de desviacin estndar. En el ejemplo
anterior una nota 6.0 corresponda a 0.67 unidades estndar por sobre la
media (es decir, a Z=0.67)

p (proporciones): corresponden a las proporciones de rea bajo la
curva normal. Por ejemplo, podemos calcular la proporcin de individuos
que obtuvieron una nota bajo 6.0 o bajo 0.67 desviaciones estndar
sobre la media.




z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.000 0.004 0.008 0.012 0.016 0.020 0.024 0.028 0.032 0.036
0.1 0.040 0.044 0.048 0.052 0.056 0.060 0.064 0.068 0.071 0.075
0.2 0.079 0.083 0.087 0.091 0.095 0.099 0.103 0.106 0.110 0.114
0.3 0.118 0.122 0.126 0.129 0.133 0.137 0.141 0.144 0.148 0.152
0.4 0.155 0.159 0.163 0.166 0.170 0.174 0.177 0.181 0.184 0.188
0.5 0.192 0.195 0.199 0.202 0.205 0.209 0.212 0.216 0.219 0.222
0.6 0.226 0.229 0.232 0.236 0.239 0.242 0.245 0.249 0.252 0.255
0.7 0.258 0.261 0.264 0.267 0.270 0.273 0.276 0.279 0.282 0.285
0.8 0.288 0.291 0.294 0.297 0.300 0.302 0.305 0.308 0.311 0.313
0.9 0.316 0.319 0.321 0.324 0.326 0.329 0.332 0.334 0.337 0.339
1.0 0.341 0.344 0.346 0.349 0.351 0.353 0.355 0.358 0.360 0.362
1.1 0.364 0.367 0.369 0.371 0.373 0.375 0.377 0.379 0.381 0.383
1.2 0.385 0.387 0.389 0.391 0.393 0.394 0.396 0.398 0.400 0.402
1.3 0.403 0.405 0.407 0.408 0.410 0.412 0.413 0.415 0.416 0.418
1.4 0.419 0.421 0.422 0.424 0.425 0.427 0.428 0.429 0.431 0.432
1.5 0.433 0.435 0.436 0.437 0.438 0.439 0.441 0.442 0.443 0.444

reas bajo la distribucin normal estndar de probabilidad
entre la media y un valor z determinado
Tablas de distribucin normal
z=1.00,
p=0.341
z=1.44, p=0.425
En las tablas de distribucin normal la primera columna presenta las
unidades y dcimas de las puntuaciones Z mientras que las dems columnas
especifican las centsimas








Divisin de reas bajo la curva normal
Pasos (basado en Ritchey, 2008):

1. Revisa los requisitos: variable es de nivel de medicin intervalar/ razn y las
puntuaciones se distribuyen normalmente
2. Calcula la media y desviacin estndar de X (a menos que estn dadas)
3. Dibuja la curva normal y marca el rea buscada segn especificado en el
ejercicio
4. Calcula las puntuaciones Z correspondientes
5. Consulta la tabla de curva normal para obtener la proporcin p que
corresponde al Z calculado





Distribucin muestral
Distribucin muestral: "A partir del muestreo repetido, una distribucin
muestral es una descripcin matemtica de todos los resultados posibles del
muestreo y la probabilidad de cada uno " (Ritchey, 2008, p. 209)

Se obtienen (tericamente) las medias (u otro estadstico) de todas las
muestras posibles de tamao n

La distribucin muestral es la distribucin de estas medias








Distribucin muestral
Observacin 1: la mayora de las medias muestrales caen cerca del valor
de la poblacin y el nmero de medias muestrales decrece a medida que
uno se aleja del promedio poblacional

Observacin 2: La media de todas las medias posibles corresponde a la
media poblacional

Observacin 3: Entre mayor sea el tamao de la muestra, menor es el
rango de los errores en las muestras repetidas



I nferencia Estadstica
Teorema del Lmite Central
I ndependiente de la distribucin de la variable, si el tamao de la muestra
es relativamente grande (n>30), las medias muestrales se distribuyen
aproximadamente segn la ley normal

Esto se evidencia cuando el tamao de la muestra es grande

Ley de los Grandes Nmeros
Si se extraen diversas muestras (n) al azar de una poblacin, a medida que
n crece, la distribucin muestral de las medias de todas las muestras se
aproxima a la normalidad

Es decir, a medida que crece el tamao de la muestra, menor ser el error
estndar



a. Estadstica inferencial
b. Estimacin puntual e intervalar de medias y proporciones
c. Pruebas de hiptesis para una muestra nica (medias y proporciones)

Repaso para prueba 1
Mtodos de inferencia
Inferencia
Estadstica
Estimacin
Puntual
Intervalar
Pruebas de
Hiptesis
Estimacin puntual
Estimacin puntual

Es la inferencia que se realiza directamente desde la muestra a la poblacin

Se estima que el valor del estimador corresponde exactamente al valor del
parmetro (=x ; =s)

Sin embargo, los resultados pueden ser distintos de una muestra a la otra y
solamente podemos estimar el valor de una variable en la poblacin

En una estimacin puntual no se calcula el error de la estimacin por lo que
no es til como procedimiento de inferencia





Estimacin por intervalo
I ntervalo de confianza: rango de valores posibles de un parmetro
expresado con un grado de confianza especfico (Ritchey, 2008: 238)

Se parte de la estimacin puntual y se le suma y resta un valor que
contempla el error de la estimacin

Este clculo da lugar a un intervalo entre cuyos valores se estima pertenece
el parmetro poblacional

El error asociado a la estimacin por intervalos es conocido por el
investigador






Medias y proporciones
Medias: Para variables de intervalo o razn (u ordinal con al menos 5
categoras) una buena forma de resumir las respuestas es obteniendo el
promedio

Proporciones: Para una variable dicotmica (nominal de dos categoras
de respuesta) una buena forma de resumir las respuestas es obteniendo el
porcentaje de personas que seleccion la categora 0 y el porcentaje de
personas que seleccion la categora 1

Podemos construir intervalos de confianza en torno a una media y a una
proporcin

Sin embargo, los clculos sern un poco distintos





Clculo de intervalo de confianza para la
media
El intervalo de confianza para la media se calcula de la siguiente forma:


Estimacin Puntuacin Z
puntual de asociada al nivel Error estndar
la media de confianza estimado


X


s
X





Margen de error



Error estndar de la distribucin muestral de
medias
El error estndar corresponde a la desviacin estndar de una distribucin
muestral

Es decir, el error estndar corresponde a la la variabilidad que existe entre
las posibles muestras de tamao n de una poblacin

Estimamos el error estndar utilizando la desviacin estndar de la muestra:


s
x

=
s
x
n



Donde:
s
x

= error estndar de medias estimado


s
x
= desviacin estndar de la muestra
n = tamao de la muestra

Nivel de confianza
Nivel de confianza
Nivel de
significacin
2
Valor crtico
Z

2

90% 10% 1,65
95% 5% 1,96
99% 1% 2,58
Niveles de confianza y valores crticos frecuentemente utilizados:
Clculo de intervalo de confianza para
proporciones
El intervalo de confianza para proporciones se calcula de la siguiente
forma:


Estimacin Puntuacin Z
puntual de la asociada al nivel Error estndar
proporcin de confianza estimado

P Z


s
Ps





Margen de error



Clculo del error estndar de la distribucin
muestral para proporciones
Al igual que en el caso de las medias, utilizamos la informacin de las
proporciones en la muestra para estimar el error estndar de una
distribucin muestral de proporciones:






Donde:

s
Ps

= error estndar de proporciones
P
s
= proporcin de la categora de xito/ presencia en la muestra

s
= proporcin de la categora de fracaso/ ausencia en la muestra
n = Tamao de la muestra

s
Ps
=
P
s

s
n

Clculo del tamao de la muestra
Frmula para calcular el tamao de la muestra:

n =
(Ps
s
) (Z

2
)
2
morgcn Jc crror
2


Donde
n = Tamao de la muestra necesario
P
s
= Proporcin de presencia de un atributo si no se cuenta
con datos previos, utilizamos 0.5
Q
s
= Proporcin de presencia de un atributo si no se cuenta
con datos previos, utilizamos 0.5
Z

2
= Puntuacin Z asociada al nivel de confianza deseado
Margen de error = La mitad de la amplitud deseada del intervalo de
confianza

a. Estadstica inferencial
b. Estimacin puntual e intervalar de medias y proporciones
c. Pruebas de hiptesis para una muestra nica (medias y
proporciones)

Repaso para prueba 1
Pruebas de hiptesis de muestra nica
Prueba de hiptesis que determina si un estadstico (media o proporcin)
poblacional es igual a un valor objetivo

Ejemplos de valor objetivo:
Grupos de comparacin
Parmetros de un perodo anterior
Ideales estadsticos
Parmetros conocidos de una poblacin muestrada (para determinar la
representatividad de la muestra)

Solamente considera una variable de intervalo/ razn (X

o Ps) y un valor
objetivo (p
0
o P
0
)

Distintos estadsticos de prueba dependiendo de si corresponde a una
prueba de medias o de proporciones y si el tamao de la muestra es
pequeo o grande



Pruebas de hiptesis de muestra nica
Hemos considerado dos situaciones:
1. Queremos comparar un estadstico en la muestra a un valor objetivo para
concluir si en la poblacin es probable que el estadstico sea
significativamente distinto al valor objetivo o no
Por ejemplo, preguntamos: Obtuvieron los/ las estudiantes del colegio
un puntaje en la PSU significativamente distinto a 450 puntos?
Planteamos dos hiptesis:
E
0
: p
x
=450
E
1
: p
x
450 o E
1
: p
x
>450
Definimos la distribucin muestral en torno al valor objetivo (450
puntos) y evaluamos qu tan probable sera encontrar una media
muestral de 470 si en la poblacin el puntaje promedio fuera realmente
450 puntos


Pruebas de hiptesis de muestra nica
Hemos considerado dos situaciones:
1. Queremos comparar un estadstico en la muestra a un valor objetivo para
concluir si en la poblacin es probable que el estadstico sea
significativamente distinto al valor objetivo o no
Definimos un nivel de significacin y un valor crtico de Z o t
Calculamos un estadstico de prueba y evaluamos si este valor es mayor
o menor al valor crtico establecido
Si el estadstico de prueba calculado es mayor al puntaje Z o t crtico,
rechazamos la hiptesis nula y concluimos que en la poblacin el
promedio es significativamente diferente a 450 puntos a un determinado
nivel de confianza
Si el estadstico de prueba calculado es menor al puntaje Z o t crtico,
fallamos en rechazar la hiptesis nula y concluimos que el valor en la
poblacin no es significativamente diferente a 450 puntos a un
determinado nivel de confianza




Pruebas de hiptesis de muestra nica
Hemos considerado dos situaciones:
2. Queremos saber si la muestra que obtuvimos es representativa de la
poblacin y para esto evaluamos si existen diferencias significativas entre
los estadsticos para una variable en la muestra y en la poblacin.
Por ejemplo, preguntamos: Existen diferencias significativas en el
porcentaje de hombres en la muestra y en la poblacin?
En este caso el valor objetivo corresponde al valor poblacional obtenido
de otra fuente (ej. Censo)
Planteamos dos hiptesis:
E
0
: P

=0,48
E
1
: P

0,48
Definimos la distribucin muestral en torno al valor objetivo (0,48) y
evaluamos qu tan probable sera encontrar una proporcin muestral de
0,44 si en la poblacin la proporcin fuera realmente 0,48


Pruebas de hiptesis de muestra nica
Hemos considerado dos situaciones:
2. Queremos saber si la muestra que obtuvimos es representativa de la
poblacin y para esto evaluamos si existen diferencias significativas entre
los estadsticos para una variable en la muestra y en la poblacin.
Definimos un nivel de significacin y un valor crtico de Z o t
Calculamos un estadstico de prueba y evaluamos si este valor es mayor
o menor al valor crtico establecido
Si el estadstico de prueba calculado es mayor al puntaje Z o t crtico,
rechazamos la hiptesis nula y concluimos que el valor muestral es
significativamente diferente al valor objetivo (en este caso, al valor
poblacional) a un determinado nivel de confianza. Concluimos que la
muestra no es representativa de la poblacin
Si el estadstico de prueba calculado es menor al puntaje Z o t crtico,
fallamos en rechazar la hiptesis nula y concluimos que el valor en la
muestra no es significativamente diferente al valor objetivo (en este
caso, al valor poblacional) a un determinado nivel de confianza.
Concluimos que la muestra si es representativa de la poblacin



Prueba de muestra nica
Pasos (Ritchey, 2008)

1. Considerar los datos y si se cumplen los supuestos
Nivel de medicin de la variable, tamao de la muestra, muestra
probabilstica
En base a estos criterios definidos si debemos utilizar una prueba para
medias o proporciones y si debe ser para muestras pequeas o grandes
2. Enunciar pregunta de investigacin
Pregunta sobre diferencias significativas entre valor objetivo y valor en la
poblacin
Por ejemplo: Obtuvieron los/ las estudiantes del colegio un promedio
significativamente diferente a 450 puntos en la PSU?

Pregunta sobre diferencias significativas entre valor en la muestra y valor
poblacional (datos censales)
Por ejemplo: Existen diferencias significativas entre el promedio de
edad en la muestra y en la poblacin (datos censales)?


Prueba de muestra nica
Pasos (Ritchey, 2008)

3. Formular hiptesis nula e hiptesis alternativa. Definir la direccin de la
prueba

Hiptesis nula (no hay diferencias en la poblacin)
E
0
: p
x
=450 o E
0
: P

=0,48

Hiptesis alternativa para prueba de una cola (un valor es mayor o
menor al otro)
E
1
: p
x
>450 o E
1
: P

>0,48

Hiptesis alternativa para prueba de dos colas
E
1
: p
x
450 o E
1
: P

0,48




Prueba de muestra nica
Pasos (Ritchey, 2008)

4. Describir la distribucin muestral
Para una prueba de medias y una muestra grande (n>121), utilizamos
la distribucin normal centrada en torno al valor objetivo
Para una prueba de medias y una muestra pequea (n<121), utilizamos
la distribucin t que adopta distintas formas dependiendo de los grados
de libertad (n-1)
Para una prueba de proporciones y una muestra grande (n> 5/ pmenor),
utilizamos la distribucin normal acotacin: si muestra es menor a
n=121, debemos utilizar distribucin t
5. Definir el nivel de significacin y el valor crtico de la prueba
Nivel de significacin (0,01, 0,05 o 0,10)
Valor crtico de la prueba (Z o t) depende del nivel de significacin, si la
prueba es de una o dos colas y de los grados de libertad (en el caso de
t)


z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.000 0.004 0.008 0.012 0.016 0.020 0.024 0.028 0.032 0.036
0.1 0.040 0.044 0.048 0.052 0.056 0.060 0.064 0.068 0.071 0.075
0.2 0.079 0.083 0.087 0.091 0.095 0.099 0.103 0.106 0.110 0.114
0.3 0.118 0.122 0.126 0.129 0.133 0.137 0.141 0.144 0.148 0.152
0.4 0.155 0.159 0.163 0.166 0.170 0.174 0.177 0.181 0.184 0.188
0.5 0.192 0.195 0.199 0.202 0.205 0.209 0.212 0.216 0.219 0.222
0.6 0.226 0.229 0.232 0.236 0.239 0.242 0.245 0.249 0.252 0.255
0.7 0.258 0.261 0.264 0.267 0.270 0.273 0.276 0.279 0.282 0.285
0.8 0.288 0.291 0.294 0.297 0.300 0.302 0.305 0.308 0.311 0.313
0.9 0.316 0.319 0.321 0.324 0.326 0.329 0.332 0.334 0.337 0.339
1.0 0.341 0.344 0.346 0.349 0.351 0.353 0.355 0.358 0.360 0.362
1.1 0.364 0.367 0.369 0.371 0.373 0.375 0.377 0.379 0.381 0.383
1.2 0.385 0.387 0.389 0.391 0.393 0.394 0.396 0.398 0.400 0.402
1.3 0.403 0.405 0.407 0.408 0.410 0.412 0.413 0.415 0.416 0.418
1.4 0.419 0.421 0.422 0.424 0.425 0.427 0.428 0.429 0.431 0.432
1.5 0.433 0.435 0.436 0.437 0.438 0.439 0.441 0.442 0.443 0.444

reas bajo la distribucin normal estndar de probabilidad
entre la media y un valor z determinado
Tablas de distribucin normal
z=1.00,
p=0.341
z=1.44, p=0.425
Podemos encontrar los valores crticos (o el puntaje p exacto) buscando en
la tabla








Tablas de distribucin normal
O podemos revisar una tabla de puntajes crticos..








Tabla de Puntajes Crticos de la Distribucin Normal para una y dos colas
Nivel de significacin () 0.10 0.05 0.01
Valores crticos de Z para pruebas de una cola -1.28 1.28 -1.64 1.64 -2.33 2.33
Valores crticos de Z para pruebas de dos colas -1.64 y 1.64 -1.96 y 1.96 -2.58 y 2.58


Tabla de Puntajes Crticos de la Distribucin T para una y dos colas
Buscamos el valor crtico
de t dependiendo de los
grados de libertad (n-1), el
nivel de signiciacin y si la
prueba es de una o dos
colas










Prueba de muestra nica
Pasos (Ritchey, 2008)

6. Observar los resultados, calcular los efectos de la prueba y el estadstico de
la prueba











Prueba de hiptesis para medias de una muestra nica (muestras grandes)

Z
X

=
X

p
0
s
x
s
x
=
s
x
n

Prueba de hiptesis para medias de una muestra nica (muestras pequeas)
t
X

=
X

p
0
s
x
s
x
=
s
x
n

Prueba de hiptesis para proporciones de una muestra nica (muestras grandes)

Z
Ps
=
P
s
P
0

Ps

Ps
=
_
P
0

0
n
Prueba de muestra nica
Pasos (Ritchey, 2008)

7. Tomar la decisin de rechazo
Si el valor del estadstico de prueba es mayor al valor crtico, rechazamos la
hiptesis nula y concluimos que existen diferencias significativas a un nivel
de confianza determinado
Si el valor del estadstico de prueba es menor al valor crtico, fallamos en
rechazar la hiptesis nula y concluimos que no existen diferencias
significativas a un nivel de confianza determinado

Prueba de muestra nica
Pasos (Ritchey, 2008)

8. I nterpretar los resultados en lenguaje comn
I nterpretacin sustancial y haciendo referencia a las variables en cuestin
Es importante describir el nivel de confianza
Por ejemplo: Los estudiantes del colegio obtuvieron un puntaje promedio en
la PSU que no es significativamente distinto a 450 puntos, a un 95% de
confianza
Otro ejemplo: Existen diferencias significativas en el porcentaje de hombres
en la muestra y el porcentaje de hombres de los datos censales, a un 95%
de confianza. Por lo tanto, podemos concluir que la muestra no es
representativa en relacin a la distribucin del sexo de los encuestados.
Relacin entre intervalos de confianza y
pruebas de hiptesis
Dos formas de generar inferencias a la poblacin: intervalos de confianza y
pruebas de hiptesis

Existe consistencia entre los resultados de ambos mtodos

Ejemplo:
Estamos interesados en conocer le nivel de satisfaccin de los chilenos con
la economa del pas (en una escala de 1 a 10)
Obtenemos un promedio de 5,5
Construimos el siguiente intervalo de confianza: En promedio, los chilenos le
asignan un puntaje de entre 5,1 y 5,9 a la economia del pas, a un 95% de
confianza
Si realizamos una prueba de hiptesis (al 95% de confianza) para evaluar:
Si la satisfaccin con la economa es igual a 5: rechazaremos la hiptesis
nula (el valor 5 queda fuera del intervalo de confianza)
Si la satisfaccin con la economa es igual a 5,5: fallamos en rechazar la
hiptesis nula (el valor 5,5 queda dentro del intervalo de confianza)

Gua de ejercicio para la prueba
1 acotacin

Ejercicio Seccin B 1b, cambiar valor de 190 a 185


Prueba 1
Lunes 7 de mayo a las 14:30 horas
Recuerden traer calculadora que funcione bien y que sepan usar
No pueden utilizar celular ni computador durante la prueba
Pueden traer apuntes
Recuerden traer formulario que se les entreg hoy da

Você também pode gostar