Escolar Documentos
Profissional Documentos
Cultura Documentos
La base de datos con la que le corresponde trabajar se obtiene como una muestra
aleatoria de una gran base de datos. La base original corresponde a la información
de 200 estudiantes de la Universidad Nacional Sede Medellín. Dicha base contiene
las variables: MASA (en kg), ESTATURA (en cm. del estudiante), EDAD (en años),
GENERO (HOMBRE o MUJER), ESTRATO y FUMA (SI o NO).
Cada pareja debe generar una base de datos, que corresponderá a una muestra de
tamaño 80 de la base original. Los datos originales están en el archivo: “base.txt”, el cual
está disponible en Moodle. Para hacerlo debe seguir los siguientes pasos:
# Para crear la base de datos con la cual trabajara, debe ejecutar la siguiente línea:
3. ¿Se puede afirmar que el porcentaje de personas que fuman es superior al 6%?
Justifique su respuesta. (PH proporción)
Estrato 1 2 3 4 5 6
Proporción 0.07 0.15 0.38 0.28 0.08 0.04
Consideraciones sobre el trabajo.
Solución.
Vamos a trabajar con un nivel de significancia α=0.05
1. Se tiene la creencia de que la Masa media de los estudiantes es inferior a
60 kg. ¿Es esto cierto? Justifique su respuesta.
El primer paso consiste en plantear las hipótesis posibles. Para este caso en particular existen dos hipótesis: la
media sea igual a 60 kg (hipótesis nula), o la media sea inferior a 60 kg (hipótesis alternativa). Para dar paso a
evaluar dichas hipótesis, primero se debe verificar el comportamiento de la variable y posteriormente
verificar cual hipótesis es correcta. La prueba de hipótesis para comprobar que el comportamiento de una
variable sea normal consta de la hipótesis nula (comportamiento normal) y la hipótesis alternativa
(comportamiento no normal).
La prueba utilizada para analizar la variable fue la de Shapiro Wilk.
Se puede concluir que como el valor P es considerablemente menor al nivel de significancia escogido,
podemos descartar la hipótesis nula. Y por lo tanto la variable no tiene un comportamiento normal. Por
consiguente, el estadístico de prueba debe ser realizado a mano.
El estadístico de prueba con estas condiciones (variable no normal, con más de 30 datos y varianza
desconocida) es 1.71494. Con esto calculamos el valor de P el cual es P(X<1,71)=0,956367. Como este p es
considerablemente mayor al nivel de significancia no podemos descartar la hipotesís nula y por lo tanto la
masa media debe ser mayor o igual a 60 kg.
Dado que ambos valores de P son considerablemente mayores que el nivel de significancia escogido, se puede
concluir que ambas variables poseen un comportamiento normal. Por lo tanto podemos hacer el calculo del
estadistico de prueba para el problema en R comander.
La hipotesis nula para esta afirmación es que la media de las estaturas entre hombres y mujeres sean iguales
(µH = µM) y la hipotesis alternativa es que la media de la estatura de los hombres sea superior a la de las
mujeres (µH > µM). Para poder calcular el estadistico de prueba necesitamos saber si las varianzas al cuadrado
de las dos variables son iguales o distintas. Para esto realizamos un test F para dos varianzas. Nuestra hipotesis
nula para este test es que las varianzas al cuadrado sean iguales, y la alternativa que sean diferentes.
Como el valor p es mucho mayor al nivel de significancia, no podemos descartar la hipotesis nula. Por lo tanto
las varianzas al cuadrado de ambas variables deben ser iguales. Procedemos con esta información a calcular el
estadistico de prueba para la diferencia de medias y llegar así a una conclusión (con un test t para muestras
independientes).
Como el valor de p es exageradamente menor al nivel de significancia (por muchos ordenes de magnitud)
podemos descartar con total seguridad la hipotesis nula (Estatura media de hombres y mujeres igual) y
aseguramos con total confianza que la Estatura media de los hombres es superior a la estatura media de las
mujeres.
Para confirmar esta afirmación debemos realizar una prueba de hipótesis para una proporción. En este caso
planteamos la hipótesis nula (Porcentaje de personas que fuman es igual a 6%) y una hipótesis alternativa
(Porcentaje de personas que fuman es superior a 6%). Realizamos un test de proporciones para una muestra.
Hay que tener cuidado con el análisis que se hace en R para esta prueba, debido a que R organiza las variables
en orden alfabético. Como entre No y Si, R pone primero el No debido al orden alfabético, el test se realizará
para la proporción de las personas que NO fuman. Por esto, evaluaremos, no el porcentaje 6% sino el 94%, y
la hipótesis alternativa como que el porcentaje de personas que no fuman es menor al 94%.
Como el valor p da un número menor al nivel de significancia escogido, podemos descartar la hipótesis nula y
concluir que el porcentaje de personas que no fuman efectivamente es menor al 94%. Lo que significaría que
el porcentaje de personas que fuman es superior al 6% con un valor aproximado de dicho porcentaje en
11,25%.
Para realizar esta prueba de hipótesis debemos realizar un test t Chi-cuadrado de bondad de ajuste para la
distribución dada. Aquí hay que tener en cuenta un dato importante y es el que en la muestra de datos
aleatoria formada para este
trabajo, no hay Estrato 1 2 3 4 5 y 6 datos para el estrato 6
(frecuencia=0), Proporción 0.07 0.15 0.38 0.28 0.12 por lo tanto, uniremos
en una nueva organización, los estratos 5 y 6 y sus respectivas distribuciones, dando como resultado una tabla
del siguiente tipo.