Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTADÍSTICA INFERENCIAL
INTEGRANTES:
“INVESTIGACIÓN”
3º B – LICENCIATURA EN PSICOLOGÍA
Prueba Ji Cuadrado………………………………………………………………………………………………03
Prueba Mann-Whitney…………………………………………………………………………………………08
Prueba de Wilcoxon………………………………………………………………………………...…………24
Análisis Factorial…………………………………………………………………………………………………28
Regresión Múltiple………………………………………………………………………….….…….……….30
Bibliografía…………………………………………………………………………………………………………32
PRUEBA JI CUADRADO = χ2
Esta prueba puede utilizarse incluso con datos medibles en una escala nominal. La hipótesis
nula de la prueba Chi-cuadrado postula una distribución de probabilidad totalmente
especificada como el modelo matemático de la población que ha generado la muestra.
Para realizar este contraste se disponen los datos en una tabla de frecuencias. Para cada
valor o intervalo de valores se indica la frecuencia absoluta observada o empírica (Oi). A
continuación, y suponiendo que la hipótesis nula es cierta, se calculan para cada valor o
intervalo de valores la frecuencia absoluta que cabría esperar o frecuencia esperada
(Ei=n·pi, donde n es el tamaño de la muestra y pi la probabilidad del i-ésimo valor o intervalo
de valores según la hipótesis nula). El estadístico de prueba se basa en las diferencias entre
la Oi y Ei y se define como:
Este estadístico tiene una distribución Chi-cuadrado con k-1 grados de libertad si n es
suficientemente grande, es decir, si todas las frecuencias esperadas son mayores que 5. En
la práctica se tolera un máximo del 20% de frecuencias inferiores a 5.
Analizar
Pruebas no paramétricas
Chi-cuadrado
En el cuadro de diálogo Prueba chi-cuadrado se indica la variable a analizar en Contrastar
variables.
En Valores esperados se debe especificar la distribución teórica activando una de las dos
alternativas. Por defecto está activada Todas las categorías iguales que recoge la hipótesis
de que la distribución de la población es uniforme discreto. La opción Valores requiere
especificar uno a uno los valores esperados de las frecuencias relativas o absolutas
correspondientes a cada categoría, introduciéndolos en el mismo orden en el que se han
definido las categorías.
El recuadro Rango esperado presenta dos opciones: por defecto está activada Obtener de
los datos que realiza el análisis para todas las categorías o valores de la variable; la otra
alternativa, Usar rango especificado, realiza el análisis sólo para un determinado rango de
valores cuyos límites Inferior y Superior se deben especificar en los recuadros de texto
correspondientes.
El cuadro de diálogo al que se accede con el botón Opciones ofrece la posibilidad de calcular
los Estadísticos Descriptivos y/o los Cuartiles, así como seleccionar la forma en que se desea
tratar los valores perdidos.
Sea una muestra aleatoria de tamaño n tomada de una población con una distribución
especificada f0(x) que es de interés verificar.
Con el modelo especificado f0(x) se puede calcular la probabilidad pi que un dato cualquiera
pertenezca a una clase i.
Con este valor de probabilidad se puede encontrar la frecuencia esperada ei para la clase
i, es decir, la cantidad de datos que según el modelo especificado deberían estar incluidos
en la clase i:
ei = pi n, i = 1, 2, ..., k
Verificar con 5% de significancia que la duración en años de las baterías producidas por este
fabricante tiene duración distribuida normalmente con media 3.5 y desviación estándar 0.7
Solución:
2) Ha: no H0
3) α = 0.05
p3 = P(2.45≤X≤2.95) = P ((2.45 – 3.5) /0.7 ≤Z≤ (2.95 – 3.5) /0.7) = 0.135 ... (etc.)
Resumen de Resultados:
Es necesario que se cumpla la condición ∀i, ei ≥ 5 por lo que se deben agrupar clases
adyacentes. Como resultado se tienen cuatro clases k=4
Decisión:
Como 3.05 no es mayor a 7.9815, se dice que no hay evidencia suficiente para rechazar el
modelo propuesto para la población.
Ejemplo:
En cierta máquina Expendedora de Refrescos existen 4 canales que expiden el mismo tipo
de bebida. Estamos interesados en averiguar si la elección de cualquiera de estos canales
se hace de forma aleatoria o por el contrario existe algún tipo de preferencia en la selección
de alguno de ellos por los consumidores. La siguiente tabla muestra el número de bebidas
vendidas en cada uno de los 4 canales durante una semana. Contrastar la hipótesis de que
los canales son seleccionados al azar a un nivel de significación del 5%.
Solución:
Para realizar el contraste de Bondad de Ajuste debemos calcular las frecuencias esperadas
de cada suceso bajo la hipótesis de uniformidad entre los valores. Si la selección del canal
fuera aleatoria, todos los canales tendrían la misma probabilidad de selección y por lo tanto
la frecuencia esperada de bebidas vendidas en cada uno de ellos debería ser
aproximadamente la misma. Como se han vendido en total 70 refrescos, la frecuencia
esperada en cada canal es
Este valor debemos compararlo con el valor crítico de la distribución 2 χ con (4-1) =3
grados de libertad. Este valor es: 0.95 (3) 7.81
Puesto que el valor del estadístico (2.34) es menor que el valor crítico, no podemos
rechazar la hipótesis de que los datos se ajustan a una distribución uniforme. Es decir, que
los canales son seleccionados aleatoriamente entre los consumidores.
PRUEBA MANN-WHITNEY
La prueba de Mann-Whitney es una prueba no paramétrica que permite comparar dos
muestras independientes.
Tres investigadores, Mann, Whitney y Wilcoxon, perfeccionaron por separado una prueba
no paramétrica muy similar que puede determinar si las muestras pueden considerarse
idénticas o no sobre la base de sus rangos.
Esta prueba se puede utilizar únicamente para estudiar las posiciones relativas de las
muestras. Por ejemplo, si generamos una muestra de 500 observaciones tomadas de una
distribución N (0,1) y una muestra de una distribución de 500 observaciones de una
distribución N (0,4), la prueba de Mann-Whitney no encontrará ninguna diferencia entre las
muestras.
Una vez hemos hecho clic en el botón, aparece el cuadro de diálogo. Podemos seleccionar
los datos en la hoja de Excel. Seleccionamos una columna por variable debido a que
tenemos 4 columnas de datos y una columna que corresponde a los identificadores de las
especies.
En la pestaña Opciones, suponemos que la diferencia entre las muestras es igual a 0. Note
que con XLSTAT podemos calcular el valor p exacto.
Una vez hemos hecho clic en el botón OK, se muestran los resultados en una nueva hoja de
Excel (ya que hemos seleccionado una nueva hoja de Excel para los resultados).
Interpretación de una prueba de Mann-Whitney sobre dos muestras independientes
Los primeros resultados son los estadísticos de las diferentes muestras. Obtenemos un
resultado de la prueba para cada variable.
Podemos ver que en el caso de la primera variable queda rechazada la hipótesis nula de
igualdad. Podemos considerar, por tanto, que la longitud del sépalo es significativamente
diferente de una especie a otra.
Mediana. La mediana es el punto medio del conjunto de datos. El valor de este punto medio
es el punto en el cual la mitad de las observaciones está por encima del valor y la otra mitad
está por debajo del valor. La mediana se determina jerarquizando las observaciones y
hallando la observación que ocupe el número [N + 1] / 2 en el orden jerarquizado. Si el
Puesto que la diferencia se basa en los datos de una muestra y no en toda la población, es
improbable que la diferencia en las muestras sea igual a la diferencia en las poblaciones.
Para estimar mejor la diferencia en las poblaciones, utilice el intervalo de confianza.
Un borde superior define un valor en comparación con el cual es probable que la diferencia
de población sea menor. Un borde inferior define un valor en comparación con el cual es
probable que la diferencia de población sea mayor.
IC para la Confianza
Hipótesis nula e hipótesis alternativa. Las hipótesis nula y alternativa son dos enunciados
mutuamente excluyentes acerca de una población. Una prueba de hipótesis utiliza los datos
Hipótesis nula. La hipótesis nula indica que un parámetro de población (tal como la media,
la desviación estándar, etc.) es igual a un valor hipotético. La hipótesis nula suele ser una
afirmación inicial que se basa en análisis previos o en conocimiento especializado.
muestra.
Valor p. El valor p es una probabilidad que mide la evidencia en contra de la hipótesis nula.
Un valor p más pequeño proporciona una evidencia más fuerte en contra de la hipótesis
nula.
Valor p > α: La diferencia entre las medianas no es estadísticamente significativa (No puede
rechazar H0)
Si el valor p es mayor que el nivel de significancia, la decisión es que no se puede rechazar
la hipótesis nula. Usted no tiene suficiente evidencia para concluir que la diferencia entre
las medianas de las poblaciones es estadísticamente significativa. Debe asegurarse de que
su prueba tenga suficiente potencia para detectar una diferencia que es significativa desde
el punto de vista práctico.
Un empate ocurre cuando el mismo valor está en ambas muestras. Si sus datos tienen
empates, Minitab muestra un valor p ajustado para empates y un valor p no ajustado. El
valor p ajustado por lo general es más exacto que el valor p sin ajustar. Sin embargo, el
valor p sin ajustar es el cálculo más conservador, porque siempre es mayor que el valor p
ajustado para un determinado par de muestras.
Cálculo estadístico:
Para calcular el estadístico U se asigna a cada uno de los valores de las dos muestras su
rango para construir
Los cálculos tienen que tener en cuenta la presencia de observaciones idénticas a la hora
de ordenarlas. No obstante, si su número es pequeño, se puede ignorar esa circunstancia.
La prueba calcula el llamado estadístico U, cuya distribución para muestras con más de 20
observaciones se aproxima bastante bien a la distribución normal.
La aproximación a la normal, z, cuando tenemos muestras lo suficientemente grandes viene
dada por la expresión:
La fórmula es la siguiente:
Dónde:
U1 y U2 = valores estadísticos de U Mann-
Whitney.
n1 = tamaño de la muestra del grupo 1.
n2 = tamaño de la muestra del grupo 2. R1 =
sumatoria de los rangos del grupo 1.
R2 = sumatoria de los rangos del grupo 2.
Pasos:
Determinar el tamaño de las muestras (n1 y n2). Si n1 y n2 son menores que 20, se
consideran muestras pequeñas, pero si son mayores que 20, se consideran muestras
grandes.
Arreglar los datos en rangos del menor al mayor valor. En caso de que existan ligas o
empates de rangos iguales, se deberán detectar para un ajuste posterior.
Calcular los valores de U1 y U2, de modo que se elija el más pequeño para comparar con
los críticos de U Mann-Whitney de la tabla de probabilidades asociadas con valores
pequeños como los de U en la prueba de Mann-Whitney.
En caso de muestras grandes, calcular el valor Z, pues en estas condiciones se distribuye
normalmente.
Decidir si se acepta o rechaza la hipótesis.
Ejemplo muestras pequeñas:
Planteamiento de la hipótesis:
Nivel de significación. Para todo valor de probabilidad igual o menor que 0.05, se acepta
Ha y se rechaza Ho.
Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza
Ha.
Aplicación de la prueba estadística. De acuerdo con los pasos, las observaciones se deben
ordenar en rangos del menor al mayor. Rangos de lectura de la tabla anterior.
Calculamos la U:
De los dos valores de U calculados, se elige el más pequeño (4) y se comparan con los valores
críticos de U Mann-Whitney.
U = n1n2 - U'
Decisión:
Hipótesis alterna (Ha). Las calificaciones aportadas por el método reciente, ideado por el
experimentador, son diferentes y con valores más altos.
Hipótesis nula (Ho). Las diferencias entre las calificaciones dadas por ambos métodos se
deben al azar.
Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.
Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza
Ha.
Población de niños de 6 años a los cuales se les aplicó dos métodos de enseñanza.
Tomando en cuenta los pasos, nos menciona que cuando la muestra es mayor que 25, se
distribuye normalmente, por lo cual se determina el valor Z para conocer la probabilidad.
Dónde:
Z = valor estadístico de la curva normal.
U = cualquier valor de U calculado (ya sea U1 o U2).
= valor promedio de U.
sU = desviación estándar de U.
Dónde:
sU = desviación estándar de U.
n1 y n2 = tamaño de la muestra de los grupos 1
y 2.
N = tamaño total de la muestra (la suma de n1 y
n2).
Li = sumatoria de las ligas o empates.
Para obtener la probabilidad del valor Z de 1.95, se debe consultar la tabla de tamaño de la
muestra en función de los valores d y buscar la hilera 1.9, en cuya columna 0.05 se localiza
el número 0.0256, que corresponde a la probabilidad del valor de U con respecto al
promedio. Esto quiere decir que es menor que el nivel de significancia.
Decisión.
A la cifra de Z de 1.95 le corresponde una probabilidad menor que 0.05, por lo cual se
acepta Ha y se rechaza Ho (tabla de probabilidades asociadas en valores extremos como los
de 2 en la distribución normal).
Interpretación.
El experimentador, al aumentar su muestra, confirma la investigación preliminar con una
muestra pequeña, con lo cual da a entender que los resultados logrados con el método
ideado por él son diferentes de los obtenidos con el método de enseñanza de lectura
tradicional; además, este último revela calificaciones más bajas y es menos efectivo que el
otro.
Una dirección estatal de vialidad utiliza dos marcas de pintura para pintar las rayas en las
carreteras. Un funcionario de esa dirección desea saber si la durabilidad de las dos marcas
de pintura es diferente. Para cada pintura, el funcionario registra el número de meses que
la pintura se mantiene en la carretera.
La hipótesis nula indica que la diferencia entre las dos marcas con respecto a la mediana del
número de meses que persiste la pintura es 0. Puesto que el valor p es 0.0019, que es menor
que el nivel de significancia de 0.05, el funcionario rechaza la hipótesis nula. El funcionario
concluye que la diferencia entre las dos marcas con respecto a la mediana del número de
meses que persiste la pintura no es 0. El IC de 95.5 por ciento indica que es probable que la
mediana de la población de la marca B sea mayor que la de la marca A.
Método:
Diferencia: η₁ - η₂
Estadísticas descriptivas:
Muestra N Mediana
Marca A 11 36.0
Marca B 10 37.6
Estimación de la diferencia:
IC para la Confianza
Prueba:
Prueba Signo-Rango
Se usa: Para comparar dos muestras relacionadas; es decir, para analizar datos obtenidos
mediante el diseño antes-después (cuando cada sujeto sirve como su propio control) o el
diseño pareado (cuando el investigador selecciona pares de sujetos y uno de cada par, en
forma aleatoria, es asignado a uno de dos tratamientos). Pueden existir además otras
formas de obtener dos muestras relacionadas.
Ejemplo:
Los datos corresponden a una muestra de 8 pacientes varones de 45 a 55 años de edad. Son
lecturas de colesterol total tomadas tras 12 horas de ayuno y repetida una hora después de
comer. ¿Hubo un incremento significativo de los niveles de colesterol después de la
comida?
Solución:
Hipótesis:
T = 33,5 (o T = 2,5)
Cálculo de zT:
Valor de p:
p = 1 – 0,9850 p = 0,015
Decisión y Conclusión:
Siendo p = 0,015 (< 0,05), se rechaza la hipótesis nula. Se concluye que hubo un incremento
estadísticamente significativo de los niveles de colesterol después de la comida (p = 0,015).
Ejemplo:
¿La población de universitarias, tiene actitud más positiva que los universitarios frente a la
Iglesia católica?
Solución:
Hipótesis:
En otros términos:
H0: Las mujeres no tienen actitudes más positivas que los varones frente a la Iglesia Católica.
H1: Las mujeres tienen actitudes más positivas que los varones frente a la Iglesia Católica.
Suma de Rangos:
W = suma de rangos.
W = 74,5
Cálculo de Z:
Valor de p:
Decisión y Conclusión:
Conclusión: Las mujeres tienen actitudes más positivas que los varones frente a la Iglesia
Católica (p = 0,0104)
ANÁLISIS FACTORIAL
Es una técnica estadística de reducción de datos usada para explicar las correlaciones entre
las variables observadas en términos de un número menor de variables no observadas
llamadas factores.
El análisis factorial se utiliza para identificar factores que expliquen una variedad de
resultados en diferentes pruebas.
Por ejemplo, investigación en inteligencia halla que la gente que obtienen una nota alta en
una prueba de habilidad verbal también se desempeña bien en pruebas que requieren
habilidades verbales. Los investigadores explican esto mediante el uso de análisis factorial
para aislar un factor a menudo llamado inteligencia cristalizada o inteligencia verbal, que
representa el grado en el cual alguien es capaz de resolver problemas usando habilidades
verbales.
Análisis factorial en psicología se asocia frecuentemente con la investigación sobre la
inteligencia. Sin embargo, también se ha utilizado en un amplio rango de dominios, tales
como personalidad, actitudes, creencias, etc. Está asociado a la psicometría, debido a que
puede evaluar la validez de un instrumento estableciendo si el instrumento de verdad mide
los factores postulados.
Ejemplo:
Se estudia una muestra de consumo de drogas entre 1634 estudiantes de Los Ángeles. Se
consideraron 13 tipos de sustancias y, así, 13 variables con 5 niveles de respuesta (desde
consumo nulo hasta consumo habitual). Se obtiene la matriz de correlaciones.
REGRESIÓN MÚLTIPLE
Cuando existe una posible relación entra varias variables independientes y otra
dependiente se hace necesario el uso de la REGRESIÓN MULTIPLE.
Ejemplo:
Una Empresa de desarrollo de software establece relacionar sus Ventas en función del
número de pedidos de los tipos de software que desarrolla (Sistemas, Educativos y
Automatizaciones Empresariales), para atender 10 proyectos en el presente año.
En la Tabla representa Y (Ventas miles de S/.) X (Nº pedidos de sistemas), W (Nº de
pedidos de Aplicaciones Educativas) y Z (Nº de pedidos de Automatizaciones
empresariales).
Y 440 455 470 510 506 480 460 500 490 450
X 50 40 35 45 51 55 53 48 38 44
Z 75 68 70 64 67 72 70 73 69 74
Para poder resolver se puede utilizar programas informáticos como AD+, SPSS y
Minitab y Excel.
REFERENCIAS BIBLIOGRÁFICAS
http://www.ub.edu/aplica_infor/spss/cap5-2.htm
http://www.bioingenieria.edu.ar/academica/catedras/metestad/PRUEBAS_DE_
BONDAD_DE_AJUSTE-1.pdf
https://www.uoc.edu/in3/emath/docs/Chi_cuadrado.pdf
https://help.xlstat.com/customer/es/portal/articles/2062371-prueba-de-mann-
whitney-tutorial-en-excel
https://support.minitab.com/es-mx/minitab/18/help-and-how-
to/statistics/nonparametrics/how-to/mann-whitney-test/interpret-the-
results/all-statistics/
https://support.minitab.com/es-mx/minitab/18/help-and-how-
to/statistics/nonparametrics/how-to/mann-whitney-test/before-you-
start/example/
Downie, N. (1973) Métodos estadísticos aplicados. Harper & Row Publisher Inc.
Standard Book Number 06-3100746
Farfán, J. (2013) Apuntes de estadística en investigación educativa. Universidad
Nacional Enrique Guzmán y Valle. Lima. Perú
http://www.rincondepaco.com.mx/rincon/Inicio/Apuntes/Proyecto/archivos/Docu
mentos/Wilcoxon.pdf
https://es.slideshare.net/pei.ac01/pruebas-no-parametricas-de-wilcoxon-
2007?from_action=save
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/AMult/tema4a
m.pdf
http://estadisticauazteca.blogspot.mx/2010/07/regresion-multiple.html