Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTADÍSTICA
PROYECTO:
CONTRASTES DE HIPÓTESIS
GRUPO
INTEGRANTES:
Ballén Gavilánez Elías León
Malavé Hernández Jenifer Allison
Mero Cheme Viviana Jaritza
Toala Chancay César Luis
Vergara Bazán Juan Carlos
Paralelo Nº2
GUAYAQUIL – ECUADOR
I. INTRODUCCIÓN AL TEMA DE ESTUDIO
Tamaño de la Muestra
El tamaño de una muestra puede calcularse de dos formas, lo que dependerá
del tipo de variable y de la población con que se vaya a trabajar.
1. Con variable cualitativa (Estimación de porcentajes). Esto es cuando
las variables con que se trabaja no pueden expresarse numéricamente,
ya que se refieren a características o cualidades no medibles, de las
cuales lo único que puede obtenerse son resultados porcentuales.
Figura 1. Ejemplo de Tabla de Frecuencias – Obtenido de Libro de Probabilidad y Estadística Básica de Luis
Rodríguez.
Histograma
Es un gráfico que permite representar la distribución de frecuencia de los datos.
Se construye dibujando rectángulos cuya base corresponde a cada clase y
altura a la frecuencia relativa de la clase correspondiente.
Medidas de Dispersión
Son valores numéricos que proveen información sobre el comportamiento de
los datos. Las principales son:
Rango. Es la diferencia entre el valor mayor y menor de los datos de la
muestra.
Varianza. Cuantificación de las distancias de los datos respecto a la
media aritmética.
Desviación Típica o Estándar. Es la raíz cuadrada positiva de la
varianza.
Medidas de Posición
Son números que dividen al conjunto de datos ordenados, en otros grupos de
aproximadamente igual cantidad con el objetivo de resaltar su ubicación.
Cuartiles. Números que dividen la muestra en 3 grupos iguales, cada
uno acumula el 25% de la información.
Deciles. Números que dividen la muestra en 10 grupos iguales, cada
uno acumula el 10% de la información.
Percentiles o Porcentiles. Números que dividen la muestra en 100
grupos iguales, cada uno acumula el 1% de la información.
Intervalos de Confianza
Los intervalos de confianza son rangos dentro de los que se puede esperar que
se encuentre un parámetro a estimar.
Los más comunes son:
Muestras grandes (n≥30)
Parámetro: μ
Intervalo de Población con Distribución
desconocida, varianza 𝜎 2 𝜎 𝜎
Confianza para la 𝑥̅ − 𝑍𝛼⁄2 ≤ μ ≤ 𝑥̅ + 𝑍𝛼⁄2
Parámetro: √𝑛 √𝑛
Media
Muestra grande, por TLC, el
𝑥̅ −μ
estadístico 𝑍 = 𝜎/√𝑛 tiene D.
Normal Estándar aprox.
Figura 3. Gráfico de Distribución Normal Estándar con los intervalos de confianza para la media.
Muestras pequeñas (n<30)
Parámetro: μ 𝜎 𝜎
Intervalo de 𝑥̅ − 𝑍𝛼⁄2 ≤ t ≤ 𝑥̅ + 𝑍𝛼⁄2
Población con Distribución √𝑛 √𝑛
Confianza para la
Normal, varianza 𝜎2
Media 𝑣 = 𝑛 − 1 𝑔. 𝑙.
desconocida
Parámetro:
Intervalo de 𝜎 𝜎
Confianza para la (n − 1) − 𝑆 2 ≤ 𝜎 2 ≤ (n − 1) + 𝑆 2 2
𝑥𝛼2⁄2 𝑥1−𝛼⁄2
Varianza
Prueba de Hipótesis
Es una técnica que consiste en suponer cierto valor para el parámetro de
interés y aceptar o rechazar dicha información utilizando los datos de la
muestra.
Para su realización se necesitarán dos hipótesis, una hipótesis nula (Ho) que
es la propuesta para el parámetro de estudio y una hipótesis alternativa (Ha)
que es propuesta en oposición a Ho y que es aceptada únicamente cuando se
rechace Ho.
Cuando se realizan estas pruebas es muy común que se cometan errores.
Siendo Ho la hipótesis propuesta para el parámetro de interés y suponiendo
que la prueba estadística ha sido realizada, se pueden tomar dos decisiones
que incurrirán a errores:
1. Rechazar Ho sin conocer que era verdadera. (Error Tipo I)
2. No rechazar Ho sin conocer que esta es falsa. (Error Tipo II)
Estos errores pueden cuantificarse de acuerdo a la probabilidad de cometerlos:
Medida del Error Tipo I:
𝛼 = 𝜃𝑃(𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻𝑜 𝑑𝑎𝑑𝑜 𝑞𝑢𝑒 𝐻𝑜 𝑒𝑠 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑎)
Medida del Error Tipo II:
𝛽 = 𝑃(𝑁𝑜 𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻𝑜 𝑑𝑎𝑑𝑜 𝑞𝑢𝑒 𝑜𝑡𝑟𝑎 ℎ𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝑒𝑠 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑎)
* 𝛼 es el nivel de significancia de la prueba, comúnmente es dado como dato
para realizar la prueba, siendo por lo general 1%, 2%, 5%, 10%.
Tipos de Prueba:
Prueba de 1 cola: 𝐻𝑜 = 𝜃 𝑦 𝐻𝑎: 𝜃 < 𝜃𝑜 𝑜 𝐻𝑜 = 𝜃 𝑦 𝐻𝑎: 𝜃 > 𝜃𝑜
Prueba de 2 colas: 𝐻𝑜 = 𝜃 𝑦 𝐻𝑎: 𝜃 < 𝜃𝑜 v 𝜃 > 𝜃𝑜
Región de Rechazo de la Prueba
Constituye la zona o región en la que se rechaza la hipótesis nula y se obtiene
en base al valor del nivel de confianza 𝛼. Para las pruebas de una cola existe
una región de rechazo, mientras que para las de dos colas se tienen dos
regiones de rechazo.
Cuando en la prueba no se cuenta con un asociado, se recurre al valor p de
la prueba, el cual constituye el valor más pequeño de nivel de significancia a
partir del cual se rechaza Ho.
No se rechaza Ho: p>0.1
Se rechaza Ho: p<0.05
Zona de indecisión: p>0.05 y p<0.1
Tabla de Contingencia
Las tablas de contingencia (también llamadas a veces tablas dinámicas, tablas
cruzadas, tablas de control o crosstabs) son posiblemente la técnica estadística
más utilizada en análisis de datos.
Estas tablas se componen de dos variables y se basan en el cálculo de
porcentajes. Donde el objetivo es descifrar si tales dos variables están
relacionadas, lo cual se averigua mediante la distribución de porcentajes. Es
decir, se trata de analizar si la distribución de porcentajes de una variable se
repite por igual en las categorías de la otra variable. Debido a que se estudia
una variable en función de otra, el investigador ha de distinguir entre la variable
dependiente (o a explicar) y la variable independiente (o explicativa). Esta
distinción entre variable independiente y dependiente es importante porque la
variable independiente se sitúa en columnas, y la variable dependiente en filas.
El investigador es el que decide cuál variable es independiente (o explicativa) y
cuál dependiente (o a explicar). Veamos un ejemplo paso a paso.
Condiciones para análisis de tablas de contingencia:
Sólo se pueden relacionar dos variables.
Las variables a analizar deben ser nominales u ordinales. Las variables
nominales son las que no tienen orden interno establecido (como género
o estado civil), y las variables ordinales en cambio sí tienen un orden
interno establecido y el paso de una categoría a otra no es igual (p.ej.
nivel educativo, interés en la política (alto-medio-bajo-ninguno).
Las tablas de contingencia no se usan para analizar relaciones de variables
escalares como la edad de muchas categorías ya que si se usara la tabla
sería inmensa e ilegible. Si se quiere usar un escalar como variable en una
tabla de contingencia se debe recodificarla por rangos. Ya que al hacer esto,
deja de ser escalar y pasa a ser ordinal, y por tanto sí se puede incluir un
análisis de tablas de contingencia. Ejemplo: interés en la política según grupos
de edad.
Figura 6. Ejemplo de tabla de contingencia para analizar el interés en la política según grupos de edad
POBLACIÓN Y MUESTRA
La población a considerar es el número de estudiantes de la carrera de
Ingeniería Industrial que ingresaron a la ESPOL en el I Término 2017, es decir,
los que se encuentran actualmente en primer semestre.
Esta información fue obtenida mediante papel certificado en la Secretaría
Académica de la ESPOL, tal como se muestra en la fotografía 1. Donde se
observa que la población (N) para dicha carrera tiene un valor de 41.
Fotografía 1. Número de estudiantes por carrera, Año 2017 – I Término
3.2. CUESTIONARIO
__ Masculino
__ Femenino
2. ¿Cuántas materias está cursando este semestre?
__1 __4 __7 __10
__2 __5 __8
__3 __6 __9
4. Si su respuesta fue Sí. ¿Cuál es su promedio del primer parcial para dicha
materia según consta en el Académico en Línea? Por favor, escriba su
respuesta con sinceridad y con letra legible.
Promedio ____
1. Se creó en Excel una lista con los datos de todos los estudiantes
de la población objetivo. Los cuales fueron obtenidos en la
secretaría de la Facultad de Ingeniería Mecánica y Ciencias de la
Producción, como se muestra en la fotografía 2.
Fotografía 2. Listado de los estudiantes novatos de la carrera de Ingeniería Industrial I Término
2017
Tabla 1. Tabla de Frecuencias para la variable Número de Materias de acuerdo a los datos de
estudiantes de género femenino. Puede observarse que de 12 estudiantes, la mayor parte (8) ven 4
materias en este semestre.
Promedio
Tabla 2. Tabla de Frecuencias para la variable Horas de Estudio de acuerdo a los datos de
estudiantes de género femenino. Puede observarse que el 33.3% de estudiantes estudia la materia
Cálculo de una variable un tiempo promedio de entre 5,31 y 7,6 horas semanales, mientras que
apenas el 8.3% y el 16.7% estudian en promedio 3 o menos horas y de 9.91 a 12.2 horas semanales
respectivamente.
Horas de Estudio
Tabla 3. Tabla de Frecuencias para la variable Promedio de acuerdo a los datos de estudiantes de
género femenino. Puede observarse que el promedio para la materia de interés de la mayoría de
estudiantes (41,7%) se encuentra entre 6.61 y 7.7.
Horas de Sueño
Tabla 4. . Tabla de Frecuencias para la variable Promedio de acuerdo a los datos de estudiantes de
género femenino. Se aprecia que el 33.3% de estudiantes duerme en promedio de 6,35 a 7,12
horas diarias y apenas un 16,7% duerme 4 o menos horas diarias.
Datos Estadísticos
Tabla 5. Medidas de orden, dispersión y posición de las variables analizadas de estudiantes de género
femenino.
Tabla 6. Tabla de Frecuencias para la variable Número de Materias de acuerdo a los datos de estudiantes de
género masculino. Puede observarse que de 25 estudiantes el 64% ve 4 materias en este semestre.
Promedio
Tabla 7. Tabla de Frecuencias para la variable Promedio de acuerdo a los datos de estudiantes de género
masculino. Puede observarse que de 25 estudiantes el 32% tiene un promedio entre 6.83 y 7.56.
Horas de sueño
Tabla 8. Tabla de Frecuencias para la variable Horas de Sueño de acuerdo a los datos de estudiantes
de género masculino. Puede observarse que de 25 estudiantes el 40% (la mayoría) duerme entre 4,71
y 7,4 horas diarias.
Horas de Estudio
Tabla 9. Tabla de Frecuencias para la variable Horas de Estudio de acuerdo a los datos de
estudiantes de género masculino. Puede observarse que de 25 estudiantes el 32% (la mayoría)
estudia entre 4,71 y 5,4 horas a la semana la materia de interés.
Datos Estadísticos:
Tabla 10. Medidas de orden, dispersión y posición de las variables analizadas de estudiantes de género
masculino.
HISTOGRAMAS (MUJERES)
Número de Materias
Horas de Estudio
Figura 11. Histograma para la Variable Horas de Estudio con los datos de
estudiantes mujeres.
Horas de Sueño
Figura 12. Histograma para la Variable Horas de Sueño con los datos de estudiantes
mujeres.
HISTOGRAMAS (HOMBRES)
Número de Materias
Figura 13. Histograma para la Variable Número de Materias con los datos de
estudiantes del género masculino.
Promedio
Figura 14. Histograma para la Variable Promedio con los datos de estudiantes del
género masculino.
Horas de Estudio
Figura 15. Histograma para la Variable Hora de Estudio con los datos de estudiantes
del género masculino.
Horas de sueño
Figura 16. Histograma para la Variable Número de Horas de Sueño con los datos de
estudiantes del género masculino.
TABLAS DE CONTINGENCIA
Género - Horas de Estudio
Tabla 11. Tabla de Contingencia para la variable nominal género y ordinal horas de estudio.
Género – Horas de Sueño
Tabla 12. Tabla de Contingencia para los estudiantes por género y para el total. Para el Género Femenino se aprecia que de 12 el
16.7% duerme menos de 4 horas, mientras que la mayor parte, el 33.3% duerme entre 5 ,3 y 6 horas diarias en promedio. En cambio
para el género masculino, se tiene que de 25 el 32% duerme entre 4,68 y 5,43 horas, mientras que apenas un 4% duerme 4 o menos
horas. Y en general, de las muestra de 37 estudiantes, la mayoría (29.7%) duerme de 5,3 a 6 horas al día, mientras que apenas un
8,1% (3personas) duermen 4 horas o menos.
Género – Promedio
Tabla 13. Tabla de Contingencia para la variable nominal género y ordinal promedio. Para el Género Femenino se aprecia que
de 12 el 41,7% tiene un promedio entre 6,69 y 7,44, siguiéndole un 16.7% cuyo promedio es de 5,93 a 6,68 y un 8,3% para los
de más rangos. En cambio para el género masculino, se tiene que de 25 el 36% tiene un promedio entre 5,93 y 6,68 para la
materia de interés, mientras que apenas un 4% tiene un promedio entre 4,41 y 5,16. Y en general, de las muestra de 37
estudiantes, la mayoría (29.7%) tiene un promedio de 5,93 a 6,68 horas al día, mientras que apenas un 2,7% (2 personas)
tienen un promedio inferior o igual a 4,4.
Género – Número de Materias
Tabla 14. Tabla de Contingencia para la variable nominal género y ordinal promedio.
DIAGRAMA DE BARRAS
Género – Horas de Estudio
Toda la muestra
Hombres
Mujeres
INTERVALOS DE CONFIANZA PARA LA VARIANZA
Calculado en excel
Para número de materias
S2=0.234
0.154 ≤ 𝜎 2 ≤ 0.395
Interpretación:
Para el promedio
S2= 1.218
0.805 ≤ 𝜎 2 ≤ 2.055
Interpretación:
Hipótesis 1
ℎ0 : μ = 6
ℎ𝑎 : μ > 6
Hipótesis 2
ℎ0 : μ = 5
ℎ𝑎 : μ < 5
Hipótesis 3
µ= promedio de la calificación de Cálculo de una variable durante el primer
semestre del primer término 2017-2018 para los Estudiantes de la Escuela
Superior Politécnica del Litoral de la facultad de Ingeniería Mecánica y Ciencias
de la producción de la carrera de Ingeniería industrial.
x͞= estimador del promedio obtenido de la encuesta de 37 estudiantes.
ℎ0 : μ = 7
ℎ𝑎 : μ > 7
Primero hay que comprobar que proviene de una población con Distribución
Normal. Usaremos el SPSS para obtener el valor P de esta prueba Kolmogorov
Smirnoff
ℎ0 : la muestra proviene de una poblacion con distribución normal
ℎ𝑎 : negación de ℎ0
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
*
Promedio de la materia ,117 37 ,200 ,960 37 ,197
*. Esto es un límite inferior de la significación verdadera.
Como el valor P es 0.20 que es mayor que 0.1 entonces no rechazo ℎ0 por lo cual la población sigue una
Distribución normal y podemos utilizar la prueba T de nuestra hipótesis
El resultado es el Siguiente
Estadísticas de Muestra Única
Desviación Media de error
N Media
estándar estándar
Promedio de la materia 37 6,9924 1,10383 ,18147
Prueba de Valor
muestra única = 7
de prueba
90% de intervalo de
Valor de prueba = 5
confianza de la diferencia
VII. BIBLIOGRAFÍA
López, P. (2013). Población, Muestra y Muestreo. Revista Punto Cero, vol. 09,
(N° 8). Recuperado desde:
http://www.scielo.org.bo/scielo.php?script=sci_arttext&pid=S1815-
02762004000100012
Barón J., Téllez F. (2013). Apuntes de Bioestadística. Recuperado desde:
https://www.bioestadistica.uma.es/baron/apuntes/ficheros/cap02.pdf