Você está na página 1de 7

SEGUNDO TRABAJO - ESTADISTICA I Pruebas de Hipótesis

La base de datos con la que le corresponde trabajar se obtiene como una muestra
aleatoria de una gran base de datos. La base original corresponde a la información
de 200 estudiantes de la Universidad Nacional Sede Medellín. Dicha base contiene
las variables: MASA (en kg), ESTATURA (en cm. del estudiante), EDAD (en años),
GENERO (HOMBRE o MUJER), ESTRATO y FUMA (SI o NO).

Cada pareja debe generar una base de datos, que corresponderá a una muestra de
tamaño 80 de la base original. Los datos originales están en el archivo: “base.txt”, el cual
está disponible en Moodle. Para hacerlo debe seguir los siguientes pasos:

# Procedimiento para generar archivo de datos para el trabajo


# Primero leer el archivo de datos.

uno <- read.table(file.choose(), header=T)

# Copiar el siguiente código en R

genera <- function(cedula){


set.seed(cedula)
data <- uno[sample(1:200,80),]
data
}

# Para crear la base de datos con la cual trabajara, debe ejecutar la siguiente línea:

datos <- genera(cedula)

# cedula representa el número de cedula de uno de los dos integrantes. En el trabajo


debe indicar cuál número de cédula usó. Este debe escribirse en la parte superior
unoderecha de esta página
Con la base ya creada debe resolver las siguientes preguntas:

1. Se tiene la creencia de que la Masa media de los estudiantes es inferior a 60


kg. ¿Es esto cierto? Justifique su respuesta. (PH media)

2. ¿Puede afirmarse que la Estatura media de los hombres es superior a la


Estatura media de las mujeres? Justifique su respuesta (PH dif medias)

3. ¿Se puede afirmar que el porcentaje de personas que fuman es superior al 6%?
Justifique su respuesta. (PH proporción)

4. ¿Puede afirmarse que la distribución de estudiantes por estrato es la que se


muestra en la siguiente tabla? Justifique su respuesta.

Estrato 1 2 3 4 5 6
Proporción 0.07 0.15 0.38 0.28 0.08 0.04
Consideraciones sobre el trabajo.

1. Para la solución de cada pregunta se deben plantear todas las hipótesis de


interés, definir claramente los parámetros a ser utilizados y probar los
supuestos que se requieran. Finalmente, la conclusión debe hacerse SOLO
usando el valor P.
2. El trabajo debe contener máximo 7 páginas incluyendo estas dos páginas de
instrucciones.
3. El trabajo debe ser entregado impreso al profesor el día 22 de marzo antes de
las 4:00 pm.
4. La solución a las preguntas debe hacerse SOLO en R (con comandos o usando
R-Commander).

Solución.
Vamos a trabajar con un nivel de significancia α=0.05
1. Se tiene la creencia de que la Masa media de los estudiantes es inferior a
60 kg. ¿Es esto cierto? Justifique su respuesta.

El primer paso consiste en plantear las hipótesis posibles. Para este caso en particular existen dos hipótesis: la
media sea igual a 60 kg (hipótesis nula), o la media sea inferior a 60 kg (hipótesis alternativa). Para dar paso a
evaluar dichas hipótesis, primero se debe verificar el comportamiento de la variable y posteriormente
verificar cual hipótesis es correcta. La prueba de hipótesis para comprobar que el comportamiento de una
variable sea normal consta de la hipótesis nula (comportamiento normal) y la hipótesis alternativa
(comportamiento no normal).
La prueba utilizada para analizar la variable fue la de Shapiro Wilk.

Se puede concluir que como el valor P es considerablemente menor al nivel de significancia escogido,
podemos descartar la hipótesis nula. Y por lo tanto la variable no tiene un comportamiento normal. Por
consiguente, el estadístico de prueba debe ser realizado a mano.

El estadístico de prueba con estas condiciones (variable no normal, con más de 30 datos y varianza
desconocida) es 1.71494. Con esto calculamos el valor de P el cual es P(X<1,71)=0,956367. Como este p es
considerablemente mayor al nivel de significancia no podemos descartar la hipotesís nula y por lo tanto la
masa media debe ser mayor o igual a 60 kg.

2. ¿Puede afirmarse que la Estatura media de los hombres es superior a la


Estatura media de las mujeres? Justifique su respuesta (PH dif medias)

De nuevo, lo primero es comprobar el comportamiento de las dos variables.


Mujeres. Hombres.

Dado que ambos valores de P son considerablemente mayores que el nivel de significancia escogido, se puede
concluir que ambas variables poseen un comportamiento normal. Por lo tanto podemos hacer el calculo del
estadistico de prueba para el problema en R comander.
La hipotesis nula para esta afirmación es que la media de las estaturas entre hombres y mujeres sean iguales
(µH = µM) y la hipotesis alternativa es que la media de la estatura de los hombres sea superior a la de las
mujeres (µH > µM). Para poder calcular el estadistico de prueba necesitamos saber si las varianzas al cuadrado
de las dos variables son iguales o distintas. Para esto realizamos un test F para dos varianzas. Nuestra hipotesis
nula para este test es que las varianzas al cuadrado sean iguales, y la alternativa que sean diferentes.

Como el valor p es mucho mayor al nivel de significancia, no podemos descartar la hipotesis nula. Por lo tanto
las varianzas al cuadrado de ambas variables deben ser iguales. Procedemos con esta información a calcular el
estadistico de prueba para la diferencia de medias y llegar así a una conclusión (con un test t para muestras
independientes).
Como el valor de p es exageradamente menor al nivel de significancia (por muchos ordenes de magnitud)
podemos descartar con total seguridad la hipotesis nula (Estatura media de hombres y mujeres igual) y
aseguramos con total confianza que la Estatura media de los hombres es superior a la estatura media de las
mujeres.

3. ¿Se puede afirmar que el porcentaje de personas que fuman es superior al


6%? Justifique su respuesta

Para confirmar esta afirmación debemos realizar una prueba de hipótesis para una proporción. En este caso
planteamos la hipótesis nula (Porcentaje de personas que fuman es igual a 6%) y una hipótesis alternativa
(Porcentaje de personas que fuman es superior a 6%). Realizamos un test de proporciones para una muestra.
Hay que tener cuidado con el análisis que se hace en R para esta prueba, debido a que R organiza las variables
en orden alfabético. Como entre No y Si, R pone primero el No debido al orden alfabético, el test se realizará
para la proporción de las personas que NO fuman. Por esto, evaluaremos, no el porcentaje 6% sino el 94%, y
la hipótesis alternativa como que el porcentaje de personas que no fuman es menor al 94%.

Como el valor p da un número menor al nivel de significancia escogido, podemos descartar la hipótesis nula y
concluir que el porcentaje de personas que no fuman efectivamente es menor al 94%. Lo que significaría que
el porcentaje de personas que fuman es superior al 6% con un valor aproximado de dicho porcentaje en
11,25%.

4. ¿Puede afirmarse que la distribución de estudiantes por estrato es la que


se muestra en
la Estrato 1 2 3 4 5 6 siguiente
Proporción 0.07 0.15 0.38 0.28 0.08 0.04
tabla?
Justifique su respuesta.

Para realizar esta prueba de hipótesis debemos realizar un test t Chi-cuadrado de bondad de ajuste para la
distribución dada. Aquí hay que tener en cuenta un dato importante y es el que en la muestra de datos
aleatoria formada para este
trabajo, no hay Estrato 1 2 3 4 5 y 6 datos para el estrato 6
(frecuencia=0), Proporción 0.07 0.15 0.38 0.28 0.12 por lo tanto, uniremos
en una nueva organización, los estratos 5 y 6 y sus respectivas distribuciones, dando como resultado una tabla
del siguiente tipo.

Realizamos entonces el test:


En este caso, nuestra hipótesis nula se basa en que las proporciones permanecen iguales a las dadas por el problema
(La distribución se comporta de dicha manera) y la hipótesis alternativa se basa en que dicha distribución cambió (o
no se comporta de dicha manera). Como el valor p que se halló con el test es extremadamente menor al valor de
significancia escogido, se descarta la hipótesis nula, y podemos concluir que efectivamente la distribución de los datos
(sus frecuencias) son diferentes a las planteadas en el problema, con una estimación de distribuciones presentada en
la imagen anterior.

Você também pode gostar