Você está na página 1de 105

qwertyuiopasdfghjklzxcvbnmqwertyuio

pasdfghjklzxcvbnmqwertyuiopasdfghjkl
zxcvbnmqwertyuiopasdfghjklzxcvbnmq
wertyuiopasdfghjklzxcvbnmqwertyuiop
Bioestadística
asdfghjklzxcvbnmqwertyuiopasdfghjklzx
Investigación Documental

cvbnmqwertyuiopasdfghjklzxcvbnmqwe
06/11/2017

Daniel Zamora Ponce

rtyuiopasdfghjklzxcvbnmqwertyuiopasd
fghjklzxcvbnmqwertyuiopasdfghjklzxcvb
nmqwertyuiopasdfghjklzxcvbnmqwerty
uiopasdfghjklzxcvbnmqwertyuiopasdfgh
jklzxcvbnmqwertyuiopasdfghjklzxcvbnm
qwertyuiopasdfghjklzxcvbnmqwertyuio
pasdfghjklzxcvbnmqwertyuiopasdfghjkl
zxcvbnmrtyuiopasdfghjklzxcvbnmqwert
yuiopasdfghjklzxcvbnmqwertyuiopasdfg
hjklzxcvbnmqwertyuiopasdfghjklzxcvbn
mqwertyuiopasdfghjklzxcvbnmqwertyui
Prueba de Kolmogorov-Smirnov
Tipo de método: no paramétrico
Descripción: La prueba de Kolmogorov-Smirnov (también prueba K-S) determina la
bondad de ajuste de dos distribuciones de probabilidad entre sí.
Es una alternativa para probar que una muestra “proviene” de una distribución
continua (normal). Esta prueba se basa en la comparación entre la función
distribución acumulada de una distribución teórica con la función distribución
acumulada de la muestra.
Si las funciones de distribución acumulada teorica y muestral no son
significativamente diferentes, entonces decimos que la muestra proviene de la
distribución cuya función distribución acumulada es Ft(x). Sin embargo, si las
diferencias entre las funciones distribución acumuladas son muy grandes como para
que no sean debidas solamente al azar, rechazamos Ho.
Hipótesis: H0: F (X) = Fs (X) H1: F (X) ≠ Fs (X)
Muestra: n observaciones independientes.
Estadístico de contraste: │Dn│ = máxima │Fs (X) – S (X)│
Estadistico:

Para dos colas el estadistico viene dado por:

Donde F(x) es la distribución presentada como hipótesis.

Los pasos a seguir en la prueba de bondad de ajuste de Kolmogorov-Smirnov son


los siguientes:
 Plantear la hipótesis: Ho: Fm(X)=Ft(X) para todo X E R; Ha: Fm(X)=Ft(X), por
lo menos para un X.
 Calcular todos los valores Fm(X) de la muestra X1,X2,….,Xn.
 Determinar la desviación maxima, que está dada por el supremo de los
valores absolutos de las diferencias entre los valores de la función acumulada
teórica y de la muestra.
 Escoger un nivel de significación
 De acuerdo al resultado se toma la decisión
Las suposiciones en la prueba de bondad de ajuste de Kolmogorov-Smirnov son:
1. Muestras Aleatorias
2. La población deber ser continua en la variable observada
3. La prueba no es validad si se tiene que estimar uno o mas parámetros
usando los datos de la muestra.
Ventajas
 Mas poderosa que la Chi cuadrada
 Facil de calcular y usar, no requiere de agrupación de datos
 El estadistico es independiente de la distribución con frecuencias esperada,
solo depende del tamaño de la muestra

Ejemplo 1:

Las puntuaciones obtenidas por una muestra de sujetos en una prueba de habilidad
han sido las siguientes:
48,1; 47,8; 45.1; 46,3; 45,4; 47,2; 46,6; y 46.
Sabiendo que la media en dicha prueba es 40 y su desviación típica es 3,
¿podemos afirmar que la distribución de las puntuaciones sigue una normal, con un
α = 0,01?
Solución:
1. Hipótesis: H0: F (X) = Fs (X) de una N(µ, σ) H1: F (X) ≠ Fs (X) de una N(µ, σ)
2. Muestra: 8 observaciones indep.
3. Tipificamos las puntuaciones para poder trabajar con una N (0,1).

4. Ordenamos las puntuaciones, obtenemos Fs (X) y S (X) y calculamos la diferencia entre ambas
para cada valor de X.

Para α = 0,01 y n = 8 en la tala encontramos un valor de 0,543, por tanto, se rechaza H0

Ejemplo 2:

Determinar si los valores de la primera columna se conforman a una distribución normal:


(media: 4.1 varianza: 1.82)

Como el valor D = 0.216 < 0.262, no se rechaza H0 y se acepta que los datos se distribuyen
normalmente.

Ejemplo 3:

Se ha realizado una muestra a 178 municipios al respecto del porcentaje de


población activa dedicada a la venta de ordenadores resultando los siguientes
valores:

queremos contrastar que el porcentaje de municipios para cada grupo establecido


se distribuye uniformemente con un nivel de significación del 5%.
Bajo la hipótesis nula cada grupo debiera de estar compuesto por el 10% de la
población dado que existen diez grupos. Así podemos establecer la tabla:
siendo la máxima diferencia =0,0607 y por tanto el
estadístico de K-S que compararemos con el establecido en la tabla que será para

un nivel de significación de 5% y una muestra de 178


dado que el estadístico es menor (0,0607) que el valor de la tabla (0,1019) no
rechazamos la hipótesis de comportamiento uniforme de los grupos establecidos al
respecto de la población activa dedicada a la venta de ordenadores.
PRUEBA DE LEVENE

Tipo de método (paramétrico o no paramétrico)

No paramétrico

Descripción del método

En estadística, la prueba de Levene1 es una prueba estadística inferencial utilizada para evaluar la
igualdad de las varianzas para una variable calculada para dos o más grupos. Algunos
procedimientos estadísticos comunes asumen que las varianzas de las poblaciones de las que se
extraen diferentes muestras son iguales. La prueba de Levene evalúa este supuesto. Se pone a
prueba la hipótesis nula de que las varianzas poblacionales son iguales (llamado homogeneidad de
varianza ú homocedasticidad). Si el P-valor resultante de la prueba de Levene es inferior a un cierto
nivel de significación (típicamente 0.05), es poco probable que las diferencias obtenidas en las
variaciones de la muestra se hayan producido sobre la base de un muestreo aleatorio de una
población con varianzas iguales. Por lo tanto, la hipótesis nula de igualdad de varianzas se rechaza y
se concluye que hay una diferencia entre las variaciones en la población.

Algunos de los procedimientos que asumen normalmente homocedasticidad, para lo cual uno puede
utilizar las pruebas de Levene, incluyen análisis de varianza y pruebas t.

La prueba de Levene se utiliza a menudo antes de que una comparación de medias. Cuando la
prueba de Levene muestra significación, se debe cambiar a pruebas generalizadas (pruebas no
paramétricas), libre de supuestos de homocedasticidad.
Formula o estadísticos de prueba que lo define

Procedimientos paso a paso

1. Calcular la diferencia entre cada valor y la media de su grupo

Dij = |Xij – Xj|

Donde Xij es la puntuación del sujeto i perteneciente al grupo j

Xj es la media del grupo j

2. Calcular la media de las diferencias de cada grupo

Dj = ∑ Dij /nj

Donde ∑ Dij es la suma de las puntuaciones D en el grupo j

Nj es el tamaño del grupo j

3. Calcular la media total de las diferencias


4. Calcular la suma de cuadrados intragrupo
5. Calcular la suma de cuadrados intergrupo
6. Calcular los grados de libertad
7. Calcular la media cuadrática intergrupos
8. Calcular la media cuadrática intragrupos
9. Calcular la F

Decisión sobre aceptar/rechazar HO

Para α = 0.05, α/2, 1- α/2 = 0.975, resulta que F = 0.118 y F = 3.268. Con estos indicadores, la
hipótesis nula Ho se rechazará si Fcal < 0.118 o Fcal > 3.265, y se aceptara si 0.118 < Fcal < 3.268.

Ventajas

 La prueba de dos muestras independientes exige que ambas tengan la misma varianza
 La Prueba Levene testa si las varianzas de dos grupos son iguales entre sí.
 La tabla de la prueba de Levene es muy extensa para traerla.
 La hipótesis nula de la Prueba Levene sostiene que las varianzas de los grupos son iguales
entre sí; la hipótesis alternativa, supone que las variables son diferentes entre sí.
 Una de las ventajas del test Levene es que no exige normalidad en las distribuciones y es
usado antes de una comparación entre medias.
 Cuando el test de Levene es significante, se usa procedimientos que no asumen varianzas
iguales; por eso es que el SPSS realizó dos tests de la diferencia entre los dos grupos.
 El nivel Sig cuando se asume que la varianza de los grupos es igual, es 0.276, valor superior a
0.05, lo que nos indica que la varianza es similar en ambos grupos.
 Si bien el SPSS testó para “se ha asumido varianzas iguales” nada nos dice sobre el segundo
test, el que debería testear “No se han asumido varianzas iguales”

Ejemplo

1.
2. Por ejemplo, supongamos que las respuestas están en C1 y los tratamientos en C2, y C3-C6
están vacías.

C1 C2

RESPUESTAS TRATAMIENTOS

10 1

8 1

6 1

4 1
3 1

16 2

14 2

10 2

6 2

C1 C2 C3 C4 C5

Respuestas Tratamientos PorVar1 Mediana1 Medianas de


tratamientos

10 1 1 6 6

8 1 2 10 6

6 1 6

4 1 6

3 1 6

16 2 10

14 2 10

10 2 10

6 2 10

Hipótesis nula H₀: σ₁ / σ₂ = 1

Hipótesis alterna H₁: σ₁ / σ₂ ≠ 1

Nivel de significancia α = 0.05

Estadística

Método de prueba GL1 GL2 Valor p

Levene 2.20 1 8 0.176

Prueba de shapiro-wilk.
1. Este método se considera no paramétrico, ya que se usa para contrastar la normalidad
de un conjunto de datos, proviene de una población normalmente distribuida, sobre todo
para muestras pequeñas (n<50).
2. Descripción del método: Para efectuarla se calcula la media y la varianza muestral, S2, y
se ordenan las observaciones de menor a mayor. A continuación se calculan las
diferencias entre: el primero y el último; el segundo y el penúltimo; el tercero y el
antepenúltimo, etc. y se corrigen con unos coeficientes tabulados por Shapiro y Wilk.
3. Formula o estadístico de prueba que lo define:

Donde
an-i+1= cuantiles esperados de x

i
xn-i+1= dato mayor de la muestraordenada
xi = dato menor de la muestra ordenada
x = dato de la muestra ordenada
x = media de la muestra

4. Procedimiento: EJEMPLO

En un centro de investigación sobre trastornos de la alimentación se llevó acabo un


estudio para probar una nueva terapia en mujeres anoréxicas. Losefectos benéficos
de la intervención se observarían en el peso ganado (enkg.) por las mujeres al
término de tres meses. El estudio se realizó con una muestra aleatoria de siete
mujeres y los datos obtenidos son lossiguientes.6,1, -4, 8, -2, 5, 0.
Paso 1.
Establecer las hipótesis a probar
Ho: La distribución de la muestra es normal.
Hi: La distribución de la muestra no es normal.
Paso 2.
Especificar alfa
Se empleará un
a= 0.05
Paso 3.
Región de Rechazo
Todos los valores menores o iguales a W t
con un alfa de .05
Paso 4. Decisión
Para obtener el valor observado de W y tomar la decisión estadística se aplica el
procedimiento con la fórmula de W.

4.1.
Obtener el estadístico
Calcular n: El número de coeficientes a emplear se determina dividendo la muestra
a la mitad, si n es par la mitad es exacta (n=2k), si n es impar se considera el
número inmediato superior (n=2k+1). El valor de cada coeficiente se obtiene
intersectando el tamaño de n
con el de i (número de coeficiente). En el ejemplo n = 7, la mitad sería 3.5, por lo
tanto, se considerará 4 como el número de coeficientes a obtener.

4.2. Obtener W de tablas.


El valor de W t se obtiene intersectando el tamaño de n con el nivel de significancia
especificado.
4.3 Comparar el valor observado y el valor esperado aplicando la regla dedecisión
Si Wo≤Wt,α ∴ Rechazamos Ho.
9530 > .803
Dado que Wo > Wt , α
0.05; podemos aceptar Ho
5. Decisión estadística:
Dado que aceptamos Ho podemos decir que la distribución de la muestra es normal.
Conclusión:
Existe suficiente evidencia estadística para decir que los datos de la muestra se
distribuyen de manera normal, por lo tanto, se puede asumir que se cumple el
supuesto de normalidad y se puede proceder a analizar los datos con estadística
paramétrica.

5. Obtener estadístico critico:

El número de coeficientes a emplear se determina dividendo la muestra a la


mitad, si n es par la mitad es exacta (n=2k), si n es impar se considera el
número inmediato superior (n=2k+1). El valor de cada coeficiente se obtiene
intersectando el tamaño de n con el de i (número de coeficiente).

6. Decison sobre aceptar o rechazar.

Región de Rechazo Todos los valores menores o iguales a W t con un valor


de alfa determinado con anterioridad.
7. Ventajas:
 Se utiliza para comprobar si unos datos determinados han sido extraídos de una población
normal.
 Se usa para comprobar si con base en la información suministrada por una muestra se
puede aceptar que la población de origen sigue una determinada distribución de
probabilidad.
8. Limitaciones o restrincciones: esta prueba se usa sobre todo para muestras
pequeñas (n<50).

9. Ejemplos:
 Contrastaremos la normalidad de los siguientes datos muestrales (n=10) 0.93 – 1.20 –
1.10 – 1.26 – 1.38 – 1.24 – 1.32 – 1.14 – 1.24 – 1.18
Con los cálculos pertinentes obtenemos el valor de b=0.3653 y de la
cuasivarianza Sc2=0.01561.
Al final tenemos que W=0.9498.
La región crítica es 0.9498 10,α.
Vamos a variar el valor de α para obtener distintos valores de W10,α.

Para α=0.1 tenemos que W10,0.1=0.869, para α=0.05 tenemos que


W10,0.05=0.842 y para α=0.01 tenemos que W10,0.01=0.781.
En todos los casos se acepta H0, es decir, los datos muestrales siguen una
distribución normal.

 Se han medido los tiempos de ejecución de cierta tarea por parte de seis operarios, con los
siguientes resultados en horas: 6.55, 5.58, 4.33, 2.53, 5.49, 8.64. Se quiere saber si las
mediciones provienen de una población normal.

x = c(6.55, 5.58, 4.33, 2.53, 5.49, 8.64)


W = 0.9827.
Región critica = 0.9643

El test nos devuelve una probabilidad crítica muy grande, 0.9643, lo que no nos
da evidencias suficientes para rechazar la hipótesis de normalidad.

 En un centro de investigación sobre trastornos de la alimentación se llevó


acabo un estudio para probar una nueva terapia en mujeres anoréxicas. Los
efectos benéficos de la intervención se observarían en el peso ganado
(enkg.) por las mujeres al término de tres meses. El estudio se realizó con
una muestra aleatoria de siete mujeres y los datos obtenidos son los
siguientes.6, -4, 8, -2, 5, 0.
a= 0.05
Wo= 9530.
Wt= .803.
Rechazamos Ho. 9530 > .803

Test de Rachas
1. Tipo de método: no paramétrico

2. Descripción del método:


El contraste de rachas permite verificar la hipótesis nula de que la muestra es aleatoria, es
decir, si las sucesivas observaciones son independientes.
Este contraste se basa en el número de rachas que presenta una muestra. El número de
elementos en una racha se llama longitud.
Una racha se define como una secuencia de valores muestrales con una característica
común precedida y seguida por valores que no presentan esa característica. Así, se
considera una racha la secuencia de k valores consecutivos superiores o iguales a la media
muestral (o a la mediana o a la moda, o a cualquier otro valor de corte) siempre que estén
precedidos y seguidos por valores inferiores a la media muestral (o a la mediana o a la
moda, o a cualquier otro valor de corte).
El principio fundamental de la prueba de rachas puede establecerse brevemente como
sigue:
Rechace la aleatoriedad si el número de rachas es muy bajo o muy alto

3. Fórmula o estadístico de prueba que lo define:

Donde,
n1 es el número de elementos de una clase
n2 es el número de elementos de la otra clase
n es el número total de observaciones
Para muestras pequeñas y a = 0.05: si n1

20 y n2

20 y el nivel de significancia es a = 0.05, el estadístico de prueba es el número de rachas
G. Los valores críticos se encuentran en la tabla de valores críticos para el número de
rachas G.
4.

Estadístico crítico
Valores críticos de la prueba R de rachas.

5. Decisión sobre aceptar o rechazar hipótesis HO:


 Si n1 y n2
 ≤

 20:

Se determinan valores mínimos (r1) y máximo (r2) de rachas en tablas


para un nivel de significación α dado. Si se cumple que
r1 < r < r2, aceptamos H0 y la hipótesis de aleatoriedad se cumple.

 Si n1 o n2 > 20
Se hace una transformación de r en z mediante la fórmula:
Si Z𝑜𝑏 < Z𝛼 [Símbolo] acepto H0

Si Z𝑜𝑏 > Z𝛼 [Símbolo] rechazo H0 de aleatoriedad


Con pruebas bilaterales: Z𝑜𝑏 > Z𝛼/2, o bien, Z𝑜𝑏 < - Z𝛼/2

6. Ventajas
i. El procedimiento es relativamente fácil de entender y de aplicar
ii. Su uso es apropiado para muestras de tamaño mayor o igual a 25
iii.No se afectan significativamente en presencia de observaciones atípicas u
outliers
iv. Si uno o más de los supuestos distribucionales en una prueba paramétrica no
se cumplen, la correspondiente prueba no paramétrica es más eficiente
v. Tienen un gran campo de aplicación

7. Limitaciones
i. Será menos eficiente que el procedimiento paramétrico correspondiente
cuando se pueden aplicar ambos métodos. Es decir, si se puede utilizar una
prueba paramétrica y se usa una paramétrica, entonces hay una pérdida de
información
ii. Son menos eficientes si las muestras son menores que 25

8. 3 ejemplos donde se haya aplicado


I. Una empresa investigadora de mercadeo desarrolló un modelo para predecir
las ventas mensuales de un nuevo producto. Después de 17 meses, se
calcularon los errores y se probó que tenían los siguientes signos:

1 ++++++

2 -----
3 ++++
4 --

Al nivel del 5 %, ¿parece haber aleatoriedad en los términos error?

Existen n1 = 10 signos +, n2 = 7 -, y r = 4 rachas.


Las tablas M1 y M2 revelan los números mínimo y máximo críticos de rachas,
respectivamente como 5 y 14.

Las hipótesis son:


H0: La aleatoriedad prevalece
HA: La aleatoriedad no prevalece

Regla de decisión: “No rechazar la hipótesis nula si 5 < r < 14. Rechazar si r

5or


14”.

Debido a que r = 4, la hipótesis nula debería rechazarse al nivel de 5 %.

II. Suponga que se seleccionan los empleados para un programa de


entrenamiento. Si la selección no depende de si el empleado es de sexo
masculino (m) o femenino (f), se esperaría que el género fuera un evento
aleatorio. Sin embargo, si se detecta algún patrón en el género, se puede
asumir que la aleatoriedad está ausente y que la selección se hizo, por lo
menos en parte, con base en el género de un trabajador. Si existe un número
inusualmente grande o inusualmente pequeño de rachas, se sugiere un
patrón. Así, por ejemplo

_____________________________________________
mmm ffffff mmm

_____________________________________________
1 2 3
Tres rachas existen en esta muestra. Tres hombres, seguidos de seis
mujeres y luego tres hombres. Aparentemente existe ausencia de
aleatoriedad. Consideremos ahora que el orden de selección es

_______________________________________
m f m f m f m f m f m f m f m f
_______________________________________
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
_______________________________________

De nuevo, parece existir un patrón que produce un número


inusualmente grande de 16 rachas independientes.

Detección de un patrón. Si se presentan muy pocas o demasiadas


rachas, puede estar ausente la aleatoriedad.
Un conjunto de hipótesis para probar es:

H0: Existe aleatoriedad en la muestra.


H1: No existe aleatoriedad en la muestra.

Para probar la hipótesis se debe determinar si el número de rachas r


es demasiado grande o demasiado pequeño. Las Tablas de valores
críticos de r en la prueba de rachas muestran el número de rachas
si[Símbolo] es 5%. Supongamos ahora que las selecciones fueron:
__________________________________________
m fff mmm ff mmm
1 2 3 4 5
__________________________________________

Las selecciones parecen más aleatorias porque no existe patrón


evidente. Se nota que n1 = 7 es el número de hombres y n2 = 5 es el
número de mujeres.
La tabla M1 muestra el número crítico mínimo de rachas para un
valor de [Símbolo] de 5%.. Si el número de rachas es igual o menor
que el valor mostrado en la tabla M1, se sugiere que al nivel del 5%
hay muy pocas rachas como para confirmar la hipótesis nula de
aleatoriedad. Debido a que n1 = 7 y n2 = 5, se halla el valor
críticamente bajo que es 3. Debido a que el número de rachas excede
este mínimo, entonces no hay un número significativamente bajo de
rachas como para garantizar el rechazo de la hipótesis nula. La tabla
M2 proporciona valores críticamente altos para r. si el número de
rachas en una muestra es igual o mayor que estos valores, se puede
concluir que existe un número extremadamente grande de rachas, lo
que sugiere la ausencia de aleatoriedad. Para n1 = 7 y n2 = 5, la tabla
M2 revela que el número máximo de rachas es 11. Si el número de
rachas es superior a 11, existen demasiadas como para sustentar la
hipótesis de aleatoriedad. Debido a que el número de rachas es menor
que 11, no es significativamente alto y no se rechaza la hipótesis nula
al nivel del 5%.

T-STUDENT PARA MUESTRAS INDEPENDIENTES


Prueba donde se utiliza análisis paramétrico

-Evalúa la diferencia significativa entre las medias de dos grupos o dos categorías dentro de una
misma variable dependiente.

- la comparación de las 2 medias se da solo si las dos muestras se han sacado de manera
independiente entre sí.

 Formula
 Procedimiento

-Paso 1

Plantear hipótesis Nula (Ho) e Hipótesis Alternativa (Hi)

o La hipótesis alternativa plantea matemáticamente lo que se quiere demostrar


o La hipótesis nula plantea exactamente lo contrario

-Paso 2

Determinar Nivel de significancia (Rango de aceptación de hipótesis alternativa)

-Paso 3

Evidencia maestral. Se calcula la media y la desviación estándar a partir de la muestra

-Paso 4

Se aplica la distribución t-student para calcular la probabilidad de error (P) por medio de la formula
escrita anteriormente.

-Paso 5

En base a la evidencia disponible se acepta o se rechaza la hipótesis alternativa.

 Ejemplo

1
Se desea comparar a dos grupos de estudiantes respecto de su habilidad de lectura
después de haber impartido a uno de ellos un programa instrucciones.
De acuerdo con el diseño empleado, los alumnos del primer grupo deberían tener
una ejecución inferior a la mostrada por los estudiantes del segundo grupo.

Datos

Grupo Grupo
1 2
11 10 14 14 13
11 16 9 10 9 14 18 14 11 14
14 19 18 16 17 8 19 22 16 18
19 9 9 9 16 14 24 15
9 22 21

Las hipótesis estadísticas serían las siguientes:

H1 : < ---o H1 : - <0 Se


también→ espera
una
diferencia
negativa
H0 : ≥ ---o H0: - ≥0 La
también→ diferencia
será
positiva o
mínima

Para proceder a la prueba comenzamos por anotar el número de datos, la media y


la varianza de cada grupo, obteniendo los siguientes resultados:

Resultados por grupo


Cálculo Grupo 1 Grupo 2
n 18 18
13.2222 15.7778

S2 13.1242 22.4183
S 3.6227 4.7348
EE de la media 0.8539 1.116
En primer lugar debemos ver si la relación que aparece entre los valores de
nuestras medias coincide con la predicción que hace la hipótesis alterna o con la
que hace la hipótesis de nulidad.

Como se puede ver, la media de la primera muestra es menor que la media de la


segunda muestra, como lo propone la hipótesis alterna, por lo que procedemos a
medir qué tan grande es la diferencia entre las medias. Como primer paso
obtendremos los intervalos de confianza del 95% para las medias de ambos grupos:

Resultados por grupo


Calculo Grupo 1 Grupo 2
13.2222 15.7778

IC 11.5486 13.5905
14.8958 17.9651

Se puede observar en esta tabla que ambos IC se traslapan. Sin embargo cada
media cae fuera del intervalo de confianza de la media del otro grupo, lo cual nos
permite abrigar la esperanza de que la diferencia entre medias sea significativa.

Esta relación puede apreciarse en la siguiente gráfica. El punto central representa la


media de cada grupo y los bigotes se extienden a los límites superior e inferior del
intervalo de confianza respectivo.

En segundo lugar examinamos las varianzas para ver si se cumple la condición de


homoscedasticidad. En este caso el valor W de Levene es de 0.7856 con 1 y 34
grados de libertad. Como el valor crítico es F=4.13 podemos continuar asumiendo
que las varianzas son homogéneas y calcular el error estándar de la distribución
muestral de diferencias a partir de la combinación de varianzas con la fórmula

Y los resultados son:

Calculo Resultado
Dif -2.5556
EEdif 1.4052
t -1.8187
gl 34
Sig. p < 0.05
La diferencia entre ambos grupos es significativa con p < 0.05 para una prueba
bilateral, por lo que se puede considerar que el programa instruccional sí influyó en
la habilidad de lectura.

 Ejemplo

2
Se denotará por {X1, X2,...,Xn} e {Y1,Y2,...,Ym} al peso observado en cada uno
de los sujetos sometidos a la dieta A y a la dieta B respectivamente. En general no
se exigirá que coincida el número de observaciones en cada uno de los grupos que
se comparan, de modo que en el ejemplo n=40 y m=35.
El t test para dos muestras independientes se basa en el estadístico:

Donde e denotan el peso medio en cada uno de los grupos:

y , las cuasi varianzas muéstrales correspondientes:

Con lo cual, en este caso particular, el valor utilizado para el contraste será:

Si la hipótesis de partida es cierta el estadístico seguirá una distribución t de


Student con n+m-2 grados de libertad. De ser así, el valor obtenido debería estar
dentro del rango de mayor probabilidad según esta distribución
 Ejemplo

3
Test F de Fisher.
Esta razón F fue creada por Ronald Fisher (1890-1962), matemático británico,
cuyas teorías estadísticas hicieron mucho más precisos los experimentos científicos.
Sus proyectos estadísticos, primero utilizados en biología, rápidamente cobraron importancia y fueron
aplicados a la experimentación agrícola, médica e industrial. Fisher también contribuyó a clarificar
las funciones que desempeñan la mutación y la selección natural en la genética, particularmente en
la población humana.

La distribución F es una distribución de probabilidad continua. También se la conoce como distribución F de


Snedecor o como distribución F de Fisher-Snedecor. Una variable aleatoria de distribución F se construye como
el siguiente cociente:

donde

 U1 y U2 siguen una distribución ji-cuadrada con d1 y d2 grados de libertad respectivamente, y


 U1 y U2 son estadísticamente independientes.
La distribución F aparece frecuentemente como la distribución nula de una prueba estadística, especialmente
en el análisis de varianza. Véase el test F.

La función de densidad de una F(d1, d2) viene dada por

para todo número real x ≥ 0, donde d1 y d2 son enteros positivos, y B es la función beta.

La función de distribución es

Donde I es la función beta incompleta regularizada.

Qué hipótesis se aplican mediante el test F.

La hipótesis de que las medas de múltiples poblaciones normalmente distribuidas y con la misma desviación
estándar son iguales. Esta es, quizás la más conocida de las hipótesis verificadas el test F y el problema más
simple del nálisis son iguales.

La hipótesis de que las desviaciones estándar de dos poblaciones normalmente distribuidas son iguales.

La distribución F aparece frecuentemente como la distribución nula de una prueba estadística, especialmente
en el análisis de varianza

La fórmula de la prueba de Fisher es:

F=S12S22
Estado Crítico.

Cálculo de un valor crítico para un análisis de varianza (ANOVA)

Supongamos que usted está realizando un ANOVA de un solo factor con doce observaciones, el factor tiene
tres niveles y usted está usando un nivel de significancia de 0.05:

1. Elija Calc > Distribuciones de probabilidad > F.


2. Seleccione Probabilidad acumulada inversa.
3. En Grados de libertad del numerador, ingrese 2 (el número de niveles de los factores menos uno).
4. En Grados de libertad del denominador, ingrese 9 (los grados de libertad para el error).
5. En Constante de entrada, ingrese 0.95 (uno menos el nivel de significancia).

Esto da una probabilidad acumulada inversa (valor crítico) de 4.25649. Si el estadístico F es mayor que este
valor crítico, entonces usted puede rechazar la hipótesis nula, H 0, en el nivel de significancia de 0.05.

Intervalo de confianza para la diferencia de dos distribuciones normales, pero iguales.

Si s12 y s22 son las medias y las varianzas de dos muestras aleatorias de tamaño n 1 y n2,
respectivamente, tomadas de dos poblaciones normales e independientes con varianzas desconocidas pero
iguales, entonces un intervalo de confianza del 100( ) por ciento para la diferencia entre medias es:

En donde:

Es el estimador combinado de la desviación estándar común de la población con n 1+n2 – 2 grados de libertad.

Procedimiento y Ejemplos:

Ejemplo 1

1. Un artículo publicado dio a conocer los resultados de un análisis del peso de calcio en cemento
estándar y en cemento contaminado con plomo. Los niveles bajos de calcio indican que el mecanismo
de hidratación del cemento queda bloqueado y esto permite que el agua ataque varias partes de una
estructura de cemento. Al tomar diez muestras de cemento estándar, se encontró que el peso
promedio de calcio es de 90 con una desviación estándar de 5; los resultados obtenidos con 15
muestras de cemento contaminado con plomo fueron de 87 en promedio con una desviación
estándar de 4. Supóngase que el porcentaje de peso de calcio está distribuido de manera normal.
Encuéntrese un intervalo de confianza del 95% para la diferencia entre medias de los dos tipos de
cementos. Por otra parte, supóngase que las dos poblaciones normales tienen la misma desviación
estándar.

Solución:

El estimador combinado de la desviación estándar es:

Al calcularle raíz cuadrada a este valor nos queda que sp = 4.41

expresión que se reduce a – 0.72 1- 2 6.72

Nótese que el intervalo de confianza del 95% incluye al cero; por consiguiente, para este nivel
confianza, no puede concluirse la existencia de una diferencia entre las medias.

Ejemplo 2

2. Se realizó un experimento para comparar el tiempo promedio requerido por el cuerpo humano para
absorber dos medicamentos, A y B. Suponga que el tiempo necesario para que cada medicamento
alcance un nivel específico en el torrente sanguíneo se distribuye normalmente. Se eligieron al azar a
doce personas para ensayar cada fármaco registrándose el tiempo en minutos que tardó en alcanzar
un nivel específico en la sangre. Calcule un intervalo de confianza del 95% para la diferencia del
tiempo promedio. Suponga varianzas iguales.

Medicamento A Medicamento B
nA = 12 nB = 12

SA2= 15.57 SB2 = 17.54

Solución:
2.35 B- A 9.25

Con un nivel confianza del 95% se sabe que el tiempo promedio para alcanzar un nivel específico es mayor
para el medicamento B.

Las situaciones que más prevalecen e implican pruebas sobre dos medias son las que tienen varianzas
desconocidas. Si el científico prueba mediante una prueba F, que las varianzas de las dos poblaciones son
iguales, se utiliza la siguiente fórmula:

donde:

Los grados de libertad están dados por:

Ejemplo 3

1. Para encontrar si un nuevo suero detiene la leucemia, se seleccionan nueve ratones, todos con una
etapa avanzada de la enfermedad. Cinco ratones reciben el tratamiento y cuatro no. Los tiempos de
sobrevivencia en años, a partir del momento en que comienza el experimento son los siguientes:

Con 2.1 5.3 1.4 4.6 0.9


Tratamiento
Sin 1.9 0.5 2.8 3.1
Tratamiento

¿Se puede decir en el nivel de significancia del 0.05 que el suero es efectivo? Suponga que las dos
poblaciones se distribuyen normalmente con varianzas iguales.
Solución:

Primero se probará el supuesto de varianzas iguales con un ensayo de hipótesis bilateral utilizando la
distribución Fisher.

Datos:

Con tratamiento

s= 1.97

n=5

Sin tratamiento

s = 1.1672

n=4

Ensayo de hipótesis:

Estadístico de prueba:

La sugerencia que se hace es que el numerador sea el de valor mayor .

Entonces los grados de libertad uno será el tamaño de la muestra de la población uno menos uno.

1= 5-1 = 4 y 2 = 4-1=3.
Regla de decisión:

Si 0.10 Fc 15.1 No se rechaza Ho,

Si la Fc < 0.10 ó si Fc > 15.1 se rechaza Ho.

Cálculo:

Decisión y Justificación:

Como 2.85 está entre los dos valores de Ho no se rechaza , y se concluye con un = 0.05 que existe
suficiente evidencia para decir que las varianza de las poblaciones son iguales.

Con la decisión anterior se procede a comparar las medias:

Ensayo de Hipótesis

Ho; CT- ST=0

H1; CT- ST >0

Los grados de libertad son (5+4-2) = 7

Regla de decisión:
Si tR 1.895 No se Rechaza Ho

Si tR > 1.895 se rechaza Ho

Cálculos:

Por lo tanto sp = 1.848

U-MANN WHITNEY
(Suma de Rangos de Wilcoxon)
Es un tipo de prueba no-paramétrica que se necesita cuando no se tiene la
información sobre la composición de los datos poblacionales, cuando no se sabe la
distribución, también se utiliza este tipo de método cuando la muestra es pequeña y
falta información, esta prueba se aplica a dos muestras independientes.
Se usa para comprobar la heterogeneidad de dos muestras ordinales, Bajo la
hipótesis nula, la distribución de partida de ambos grupos es la misma y, bajo la
hipótesis alternativa, los valores de una de las muestras tienden a exceder a los de
la otra.

Para hacer el cálculo se asigna a cada uno de los valores de las dos muestras su
rango…
n1 y n2: son los tamaños respectivos de cada muestra
R1 y R2: es la suma de los rangos de las observaciones de las muestras 1 y 2.
La fórmula es la siguiente:

Pasos:
-Determinar el tamaño de las muestras (n1 y n2). Si n1 y n2 son menores que 20, se
consideran muestras pequeñas, pero si son mayores que 20, se consideran
muestras grandes.
-Arreglar los datos en rangos del menor al mayor valor. En caso de que existan ligas
o empates de rangos iguales, se deberán detectar para un ajuste posterior.
-Calcular los valores de U1 y U2, de modo que se elija el más pequeño para
comparar con los críticos de U Mann-Whitney de la tabla de probabilidades
asociadas con valores pequeños como los de U en la prueba de Mann-Whitney.
-En caso de muestras grandes, calcular el valor Z, pues en estas condiciones se
distribuye normalmente.
-Decidir si se acepta o rechaza la hipótesis.
Ejemplos:
Métodos para enseñar a leer a un grupo de 10-6 años, quienes ingresan por primera
vez a la escuela. El experimentador quiere demostrar que el procedimiento ideado
por él es más efectivo que el tradicional; para ello, mide el desempeño en la lectura
en función de la fluidez, comprensión, análisis y síntesis. El plan experimental
preliminar consiste en elegir al azar tanto una muestra de 10 niños como el método
por utilizar. Elección de la prueba estadística. Las mediciones revelan que no se
satisfacen los requisitos para utilizar una media aritmética, en razón de que uno de
los valores en cada muestra se aleja demasiado de las demás; por lo tanto, no
corresponde a una escala de intervalo, de manera que se decide usar una escala
ordinal.
-Hipótesis alterna (Ha). Las calificaciones de ejecución de lectura, según el método
de enseñanza del experimentador son más altas y diferentes que las observadas en
el método tradicional.
-Hipótesis nula (Ho). Las diferencias observadas entre las calificaciones de
ejecución de lectura mediante los dos métodos se deben al azar.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza
Ho.
*Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta Ho y
se rechaza Ha.
*Aplicación de la prueba estadística. De acuerdo con los paso, las observaciones se
deben ordenar en rangos del menor al mayor. Rangos de lectura de la tabla anterior.
Calculamos la U.
De los dos valores de U calculados, se elige el más pequeño (4) y se comparan con
los valores críticos de U Mann-Whitney.
En caso de que el valor de U calculado no se localice en las tablas
correspondientes, se transformará en la fórmula siguiente:
U = n1n2 - U'
En esta fórmula, U' corresponde al valor más alto.
-Decisión.
A la probabilidad del valor U de Mann-Whitney, calculado anteriormente,
corresponde 0.048, el cual es más pequeño que el nivel de significancia; por lo
tanto, se acepta Ha y se rechaza Ho.
-Interpretación.
Entre las calificaciones de la ejecución de lectura mediante los dos métodos de
enseñanza existe una diferencia significativa a un nivel de probabilidad de error
menor que 0.05; es decir, aun cuando las muestras son pequeñas, las calificaciones
más altas mediante el método diseñado por el experimentador señalan más
efectividad, con la probabilidad de equivocarse de 0.048 para aceptarlo.

En otro estudio hay 10 niños con el método tradicional y 25 mediante el


procedimiento ideado por él. Los datos del nuevo estudio se muestran en la tabla
más adelante.
Elección de la prueba estadística. El diseño experimental tiene dos muestras
independientes. Las mediciones en esta condición quizá no impidan utilizar una
prueba paramétrica, sin embargo, para fines de aprendizaje, se decide utilizar una
escala ordinal y continuar con la prueba de U de Mann-Whitney.
Planteamiento de la hipótesis.
-Hipótesis alterna (Ha). Las calificaciones aportadas por el método reciente, ideado
por el experimentador, son diferentes y con valores más altos.
-Hipótesis nula (Ho). Las diferencias entre las calificaciones dadas por ambos
métodos se deben al azar.

-Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza
Ho.
Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta Ho y
se rechaza Ha.

Población de niños de 6 años a los cuales se les aplicó dos métodos de enseñanza.

La muestra es mayor que 25, se distribuye normalmente, por lo cual se determina el valor Z para conocer la
probabilidad.
Dónde:
Z = valor
estadístico de la
curva normal.
U = cualquier
valor de U
calculado (ya sea
U1 o U2).
= valor
promedio de U.
sU = desviación
estándar de U.

La desviación estándar de U

Dónde:
sU = desviación
estándar de U.
n1 y n2 = tamaño
de la muestra de
los grupos 1 y 2.
N = tamaño total
de la muestra (la
suma de n1 y
n2).
Li = sumatoria de
las ligas o
empates.

-Decisión: A la cifra de Z de 1.95 le corresponde una probabilidad menor que 0.05,


por lo cual se acepta Ha y se rechaza Ho (tabla de probabilidades asociadas en
valores extremos como los de 2 en la distribución normal).

-Interpretación: El experimentador, al aumentar su muestra, confirma la


investigación preliminar con una muestra pequeña, con lo cual da a entender que
los resultados logrados con el método ideado por él son diferentes de los obtenidos
con el método de enseñanza de lectura tradicional; además, este último revela
calificaciones más bajas y es menos efectivo que el otro.
La efectividad del método ideado por el experimentador se traduce en mayor fluidez
de la lectura, mejor comprensión y análisis y síntesis superior, en razón de que las
calificaciones finales son consecuencia de estas condiciones.

Prueba de Rangos con signos de Wilcoxon


La prueba de los rangos con signo de Wilcoxon es una prueba no paramétrica para
comparar el rango medio de dos muestras relacionadas y determinar si existen
diferencias entre ellas. Se utiliza como alternativa a la prueba t-Student cuando no
se puede suponer la normalidad de dichas muestras. Es una prueba no paramétrica
de comparación de dos muestras relacionadas y por lo tanto no necesita una
distribución específica. Usa más bien el nivel ordinal de la variable dependiente. Se
utiliza para comparar dos mediciones relacionadas y determinar si la diferencia entre
ellas se debe al azar o no (en este último caso, que la diferencia sea
estadísticamente significativa). No soluciona problemas de muestras pequeñas.
Ignora valores en extremo críticos. Trabaja con datos en orden. Se pueden utilizar
más de dos variables.

Esta prueba se aplica en el caso de una distribución continua simétrica. Bajo esta
condición se puede probar la hipótesis nula = 0.

Primero se resta 0 de cada valor muestral y se descarta todas las diferencias


iguales a cero.

Se asigna un rango de 1 a la diferencia absoluta más pequeña, un rango de 2 a la


siguiente más pequeña, y así sucesivamente.

Cuando el valor absoluto de dos o más diferencias es el mismo, se asigna a cada


uno el promedio de los rangos que se asignarían si las diferencias se distinguieran.
Por ejemplo, si la quinta y sexta diferencia son iguales en valor absoluto, a cada una
se le asignaría un rango de 5.5.

Si la hipótesis = 0 es verdadera, el total de los rangos que corresponden a las


diferencias positivas debe ser casi igual al total de los rangos que corresponden a
las diferencias negativas. Se representan esos totales como w+ y w-,
respectivamente. Se designa el menor de w+ y w- con w.

Pasos:
1) Hipótesis:

HO= (w+ igual w-) la mediana de las diferencias de las mediciones de dos
muestras aleatorias e independientes iguales.
Ha= (w+ diferente w-) la mediana de las diferencias en las mediciones de dos
muestras aleatorias e independientes no son iguales.

2) Nivel de significancia α=0.05


3) Criterio de decisión: rechazar la hipótesis sí W≤ al valor correspondiente en la
tabla de Wilcoxon
4) Calcular la suma de W+ y W- donde se toma el signo de la diferencia y el
valor del rango. El resultado es el menor valor
5) Decisión: interpretación de los resultados
Ejemplos
1

Determinar si la tienda A ( ) tiene un mayor de ventas en artículos que la tienda


B ( 0) en los siguientes 10 días (n).
HO= la media de w1= a la media de w2
Ha= la media de w1 > a la media de w2

N 0 Diferencia Rango
w1-w2

1 82 84 -2 3.5

2 91 85 6 8

3 90 90 0 Nula

4 82 78 4 6

5 85 94 -9 9

6 89 88 1 1.5

7 93 96 -3 5

8 95 94 1 1.5

9 90 92 -2 3.5

10 89 84 5 7 rango wilcoxon

Para determinar el rango se anulan los valores igual a cero y se acomodan los
valores de diferencia de menor a mayor tomando en cuenta que es valor
absoluto

Cuando los valores de diferencia se repiten se suman las de la posición y se


divide entre la diferencia. Y cuando la diferencia y la posición son distintos, el
rango es igual a la posición.

Posición Diferencia Rango

1 1 1.5

2 1 1.5
3 2 3.5

4 2 3.5

5 3 5

6 4 6

7 5 7

8 6 8

9 9 9

Sumas de w+ y w-
W+ = 8+6+1.5+1.5+7 = 24
W- = 3.5+9+3.5+5= 21
Criterio de decisión wilcoxon (cuadrilla de n y rango) = 7
Por lo tanto, w (21) sobrepasó el valor de 7 y se acepta la hipótesis alternativa.

2
3
Análisis de varianza de un factor (ANOVA)
Es un método paramétrico.
Descripción del método
El análisis de varianza (ANOVA) de un factor nos sirve para comparar varios grupos
en una variable cuantitativa. Esta prueba es una generalización del contraste de
igualdad de medias para dos muestras independientes. Se aplica para contrastar la
igualdad de medias de tres o más poblaciones independientes y con distribución
normal.
Para realizar el contraste ANOVA, se requieren k muestras independientes de la
variable de interés. Una variable de agrupación denominada Factor y clasifica las
observaciones de la variable en las distintas muestras.
Suponiendo que la hipótesis nula es cierta, el estadístico utilizado en el análisis de
varianza sigue una distribución F de Fisher-Snedecor con k-1 y n-k grados de
libertad, siendo k el número de muestras y n el número total de observaciones que
participan en el estudio.
El primer concepto fundamental es que todo valor observado puede expresarse
mediante la siguiente función:

Donde:

{\displaystyle y_{ij}}Yij : sería el valor observado (variable

dependiente) [valor j-ésimo del tratamiento i ésimo], y Ti es el efecto del


tratamiento i.

µ : Es el parámetro de escala común a todos los tratamientos, llamado media


global

Ti : Es un parámetro que mide el efecto del tratamiento i.

ϵij : Es el error atribuido a la medición 𝑦𝑖j.

Para que se pueda aplicar el análisis de la varianza es preciso que se cumplan


estas tres hipótesis:
• Los datos han de ser independientes. Para asegurar esto, las muestras cuyas
medias se desea comparar han de extraerse de manera aleatoria.
• Las poblaciones base de donde proceden las muestras han de ser normales.
• Las poblaciones base de donde proceden las muestras han de tener la misma
varianza (heterocedsticidad).
Estas hipótesis implican que las perturbaciones se distribuyan según una N(0, σ 2).
Podremos estimar la varianza de la población σ 2 a través de los siguientes
estimadores:
• Estimar la varianza de la población σ2 a través de la varianza de cada una de las
muestras. Esta estimación se hace ponderando las varianzas muestrales. Si k es el
número de muestras (en adelante denominaremos a cada “muestra” “tratamiento”, ni
es el tamaño de la muestra correspondiente a tratamiento i-ésimo y N es el número
total de datos disponible en las distintas muestras, el estimador denominado
“varianza residual” se define:

• Estimar la varianza de la población σ2 suponiendo que los tratamientos no tienen


ningún efecto (es decir que todos tienen la misma media). En estas condiciones
podremos estimar σ 2 a través de la varianza de las medias muestrales:

De este modo, si se verifican la hipótesis de que los


tratamientos no tienen ningún efecto, ambas estimaciones no podrán diferir mucho.
En efecto, si la hipótesis es cierta, el estadístico cociente de ambas varianzas
muestrales se distribuye según una F. Es decir:

La metodología para realizar el análisis de la varianza puede resumirse como sigue:


 Fijar el nivel de significación para el contraste, por ejemplo α=95%.
Establecer el contraste de hipótesis:
⇒ H0: Los tratamientos son todos iguales: µ1=µ2=µ3=…=µk.
⇒ H1: Alguno de los tratamientos es diferente.
 Calcular los estimadores sR 2 y sT 2 .
 Calcular el valor del estadístico

 S2TS2R

 Calcular el valor de Fk-1, n -k para el nivel de significación prefijado. Si:


S2TS2R
> Fk-1, n –k La diferencia entre los tratamientos es estadísticamente
significativa con un nivel de significación α.

S2TS2R
< Fk-1, n –k La diferencia entre los tratamientos no es estadísticamente
significativa con un nivel de significación α.
Denominando S a la suma de los cuadrados, se tiene:
[Ecuación]
[Ecuación]

Si SD es la suma de los cuadrados con respecto a la media global, el estadístico sD2


es también un estimado de σ2 si se cumplen las hipótesis de igualdad de medias:

Es fácil comprobar que se verifica la siguiente igualdad:

[Ecuación]
En cuanto a los grados de libertad:

[Ecuación], es decir, [Ecuación]


SD se denomina también “suma corregida de cuadrados” y se calcula fácilmente
mediante la siguiente ecuación:

En general lo más cómodo es calcular SD y ST, calculando SR por diferencia. Es


costumbre presentar el análisis de la varianza en forma de tabla:
Procedimiento
En general, el procedimiento de aplicación del análisis de la varianza consta de los
siguientes pasos.

1. Representación de los datos

Como en la mayor parte de los procedimientos estadísticos debe comenzarse por


representar gráficamente los datos. Si el número de datos por grupo es menor que
10, se recomienda emplear el diagrama de puntos; si es superior a 10 se
recomiendan histogramas o diagramas de caja. En esta representación deben
buscarse valores atípicos. Si estos valores atípicos no se deben a un error o una
causa subsanable (por ejemplo, error de transcripción de datos) debe pensarse en
la necesidad de transformar los datos para que cumplan las hipótesis de
normalidad. En la siguiente tabla se dan algunas indicaciones de transformaciones
recomendadas.

Si los datos proceden de un fenómeno de tipo binomial, por ejemplo porcentaje de


unidades rechazadas, la transformación adecuada es y = arcsin(p). Si proceden de
un fenómeno de tipo Poisson, por ejemplo número de defectos, la transformación
adecuada es y = √c.

2. Construcción de la tabla ANOVA y realización del contraste

Esto puede completarse con la construcción de intervalos de confianza para las


medias de cada grupo y los contrastes múltiples.
3. Validación de las hipótesis

Es muy importante tener en cuenta en todo momento que la validez de las


conclusiones está supeditada a que las hipótesis realizadas sean ciertas. Estas
comprobaciones pueden hacerse analizando los residuos, es decir las diferencias
que existen entre lo explicado por el modelo y los valores obtenidos.

Por lo tanto es preciso realizar las siguientes comprobaciones:


• Independencia de los datos. En caso de que los datos se hayan producido
según patrones temporales, etc. se deben representar los residuos en la
secuencia que se obtuvieron y no deben observarse tendencias, rachas, etc.
• Normalidad de las perturbaciones. Los residuos deben distribuirse
normalmente. Debe representarse en un papel probabilístico.
• Heterocedasticidad. Se representan los residuos por grupos tener una
dispersión parecida. Si el número de datos es al mismo para todos los
grupos, el ANOVA es bastante robusto frente a esta hipótesis.

Ventajas de utilizar el método ANOVA


a. Permite gran flexibilidad, es decir puede usarse cualquier número de
tratamientos y repeticiones, además se puede variar el número de
repeticiones de un tratamiento a otro.
b. El análisis estadístico es sencillo, aún si el número de repeticiones no es el
mismo para cada tratamiento.
c. El análisis estadístico es fácil aun cuando los datos de algunas de las
unidades experimentales o algunos tratamientos completos se hayan perdido
o se rechacen por alguna causa.
d. Es el diseño que se basa en más grados de libertad para la estimación de los
cuadrados medios.
Desventajas de utilizar el método ANOVA
a. Para usar este diseño se necesitan unidades experimentales muy
homogéneas, porque de otra manera la variación entre ellas pasa a formar
parte del error experimental.
Ejemplos donde se utiliza ANOVA

1. COMPARACIÓN DE TERMÓMETROS

Se está realizando una comparación de cuatro termómetros. Con cada uno de


ellos se ha realizado tres ensayos de medida del punto de fusión de un
compuesto químico. Los datos obtenidos son los de la tabla siguiente:

Representación de los datos:

En este diagrama no se observan diferencias entre termómetros. Si se calculan los


estadísticos, los datos anteriores podrían encajar en una normal de media 172,58oC
y desviación 0,996oC.
Validación de las hipótesis
• Independencia de los datos
No se conoce en el orden en el que se han tomado los datos, por lo que no se
puede estudiar esta tendencia. En la figura se ha representado el residuo en función
de la temperatura, sin que se aprecien tendencias.

• Normalidad de las perturbaciones


En la figura puede verse la normalidad de los residuos.

• Heterocedasticidad
En la figura se aprecia que en los termómetros C Y D los datos están algo más
dispersos. No obstante solo son tres datos y además al tener el mismo número de
datos por termómetro, no se considera importante esta indicación.
2. Se quiere comparar la capacidad pulmonar en niños, adultos y ancianos, obteniéndose los
siguientes resultados:

• Niños: 8.4 , 7.6 , 7.9 , 8.0 y 8.1


• Adultos: 8.7 , 8.1 , 8.5 , 8.2 y 8.0
• Ancianos: 7.4 , 7.8 , 7.3 , 7.6 y 8.0

Niños Adultos Ancianos

Media 8 8.3 7.6


Error típico 0.13 0.13 0.13
Mediana 8 8.2 7.6
Desv. Típica 0.29 0.29 0.29
Cuasivarianza 0.085 0.085 0.082
Rango 0.8 0.7 0.7
Mínimo 7.6 8 7.3
Máximo 8.4 8.7 8
Suma 40 41.5 38.1
Cuenta 5 5 5
Intervalo (95’0%) 0.36 0.36 0.36

Grupos Cuenta Suma Promedio Varianza

Niños 5 40 8 0.085
Adultos 5 41.5 8.3 0.085
Ancianos 5 38.1 7.62 0.082

Variación Suma Grados Media F P-valor F-crit


Cuadrada de cuadrada
libertad

Entre 1.16 2 0.58 6.91 0.01 3.89


gpos.
Intra 1.01 12 0.084
gpos.
Total 2.17 14

Utilizamos un contraste F de análisis de la varianza unifactorial para comparar las


medias de capacidad pulmonar en los tres niveles (niños, adultos, ancianos) del
factor considerado (edad).
Los valores estimados de las medias son, respectivamente, (8'00), (8'30), (7'62).
El contraste da un estadístico F=6'91; hacemos el contraste al nivel de significación
0'05; el valor crítico de F es 3'89; se acepta por tanto la hipótesis alternativa: las tres
medias NO SON iguales.
El p-valor del contraste ha sido de (0'01). Se hace necesario comparar las medias
dos a dos. Utilizaremos el método de Bonferroni. Dado que la Varianza residual es
de 0'084 y que el diseño es equilibrado, el error típico en la estimación de la
diferencia de medias es el mismo para las tres diferencias a estudiar: (0'183).
Debemos usar una t con 12 grados de libertad y una significación en cada
comparación de (0'05/3). El valor crítico de esta t es 2'78.
A la vista de los resultados solamente se rechaza la igualdad de las medias entre
los grupos de adultos y de ancianos.
Niveles Dif T T-Crit P-valor 3 p-Valor

Niños- -0.3 1.64 2.78 0.128 0.383


Adultos
Adultos- 0.68 3.71 2.78 0.003 0.009
Ancianos
Ancianos- -0.38 2.07 2.78 0.060 0.181
Niños
3. Se forman tres grupos de 6 alumnos y a cada uno se le aplica un
método de enseñanza. Los datos del examen son:
Presencial 4,8 7,1 5,4 6,8 8,6 6,2
Internet 4,9 6,1 5,4 3,6 4,2 2,4 Autodidacta 1,5 6,4 3,9 5,3 2,4 3,1
Realizar el ANOVA con α = 0,05
J=3 T1 = 38,9
n=6 T2 = 26,6
N = Jn = (6)3 = 18 T3 = 22,6
T = 88,1

Hipótesis:
H0: µ1 = µ2 = µ3
H1: µ[Símbolo] j ≠ µ j'

Zona crítica
F ~ 0,95 F 2, 15 = 3,68 5.
Decisión
Cómo 5,21 > 3,68 rechazamos H0
No todas las medias poblacionales son iguales, aunque no sabemos dónde están
las diferencias.

Prueba de independencia (CHI cuadrada)


La prueba de independencia Chi-cuadrado, es una prueba no paramétrica, nos
permite determinar si existe una relación entre dos variables categóricas. Es
necesario resaltar que esta prueba nos indica si existe o no una relación entre las
variables, pero no indica el grado o el tipo de relación; es decir, no indica el
porcentaje de influencia de una variable sobre la otra o la variable que causa la
influencia.
El planteamiento de las hipótesis para esta prueba de independencia es;
- H0; La ocurrencia del evento X es independiente del evento Y.
- H1; La ocurrencia del evento X no es independiente del evento Y.
Procedimiento para elaborar una prueba de independencia.
1. Obtener la frecuencia observada (F.O), proveniente de una encuesta, estudio ó experimento.

2. Resumir los datos obtenidos, es decir, la frecuencia observada, en un cuadro de contingencia.

3. Calcular la frecuencia esperada (F.E), y se calcula con la siguiente formula:

4. Determinar el nivel de significancía (α), y los grados de libertad, con la siguiente formula:

5. Plantear las hipótesis. H0: independencia H1: dependencia

6. Construir las áreas de aceptación y rechazo.

7. Calcular chi cuadrada

8. Tomar una decisión y emitir una conclusión en términos del problema.

Ejemplo 1:

Una agencia de publicidad desea saber si el género de los consumidores es independiente de sus
preferencias de cuatro marcas de café. La respuesta determinará si se deben diseñar diferentes
anuncios dirigidos a los hombres y otros diferentes para las mujeres. Realice la prueba con un nivel
de significancía del 5%.

1. Los resultados obtenidos de la encuesta realizada a 139 personas fue:

2. Elaboración de la tabla de contingencia

3. Calcular la Frecuencia Esperada.


4. Calcular los grados de libertad

5. Plantear las hipótesis.

H0: La marca de café que se consume es independiente del sexo de una persona.
H1: La marca de café que se consume depende del sexo de una persona.

6. Construcción de las áreas de aceptación y rechazo.

7. Calculando chi-cuadrada.

8. Tomar una decisión y concluir.

* Aceptar Ho:

Con un nivel de confianza del 5% se encontró que la marca de café es independiente del sexo de la
persona. Por lo que se recomienda elaborar un sólo tipo de anuncio.
PRUEBA DE HOMOGENEIDAD (CHI-CUADRADO)

Tipo de método (paramétrico o no paramétrico)

No paramétrico

Descripción del método

La distribución Chi-cuadrada es una de las distribuciones más empleadas en todos los campos. Su
uso más común es cuando se quiere probar si unas mediciones que se hayan efectuada siguen una
distribución esperada. Otro de sus usos es en intervalos de confianza y pruebas de hipótesis para las
varianzas o desviaciones estándar.

Nos permite analizar este tipo de variable y tiene cuatro aplicaciones principales:

1. Probar la supuesta independencia de dos variables cualitativas de una población


2. Hacer inferencia sobre más de dos proporciones de una población
3. Hacer inferencias sobre la varianza de la población
4. Realizar pruebas de bondad de ajuste para evaluar la credibilidad de que los datos
muéstrales, vienen de una población cuyos elementos se ajustan a un tipo específico de
distribución de probabilidad.

Formula o estadísticos de prueba que lo define

X2=(n−1).s2σ2

Distribución maestral para la estadística chi-cuadrada:

Y=Y0. X2(V2−1)e−X22

Donde Y0 es una constante que depende del número de grados de libertad, X2 es el valor de chi-
cuadrada y e es el llamado numero natural de aproximadamente 2.71828

Procedimientos paso a paso

Decisión sobre aceptar/rechazar HO

El rechazo de la H0 ocurre cuando el valor calculado con los datos resulta mayor que el valor critico
de dicha medida contenida en una tabla llamada “Valores críticos de Chi-cuadrada. En el caso de que
el valor de chi-cuadrada calculada sea igual o menor al de chi-cuadrada critica se dice que no se
rechaza a la H0 y, por tanto, se concluye que la Fo es semejante a la Fe.

Ventajas

Existen algunas ventajas sobre las pruebas chi-cuadrado:

 Son accesibles a ser usadas con muestras pequeñas


 No se necesita suposiciones restrictivas de las pruebas paramétricas.
 Se usan con datos cualitativos siendo fácil de comprender.

Limitaciones o restricciones
Si solo hay dos celdas la frecuencia esperada en cada celda debe ser igual o mayor a 5. Para más de
dos celdas no debe aplicarse ji cuadrada si más de 20% de las celdas de fe tienen frecuencias
esperadas menores que 5.

Desventajas:

 Muchas de las veces no son muy eficientes como las pruebas paramétricas.
 Es posible que pierdan la información o la ignoren muchas de las veces.
 Llevan a una mayor probabilidad de no rechazar una hipótesis nula falsa (con un error de
tipo II).

Ejemplo

1. Un analista supone que el uso de cinturón de seguridad, en los conductores, está


relacionado con el género. Toma una muestra de 160 personas de las cuales 75 son mujeres
y 85 son hombres

Los resultados son los siguientes:

SI NO

F 50 25

M 40 45

Formulación de las hipótesis:

H0: el uso del cinturón de seguridad es independientemente del género.

H1: el uso del cinturón de seguridad no es independiente del género.

Se realiza una tabla con los valores:

SI NO

F 50 25 75

M 40 45 85

90 70

Fórmula para frecuencia esperada:

Fe = (total columna) (total fila) / suma total


90(75) / 160 = 42.1875 femenino SI

70 (75) / 160 = 32.8125 femenino NO

90(85) / 160 = 47.8125 masculino SI

70(85) / 160 = 37.1875 masculino NO

Chi-cuadrado calculado:

X2 = [(50-42.1875)2 / 42.1875] + [(25-32.8125)2 / 32.8125] + [(40-47.8125)2 / 47.8125] + [(45-


37.1875)2 / 37.1875] = 6.2248 (no existe homogeneidad)

2. Estamos interesados en estudiar la fiabilidad de cierto componente informático con relación


al distribuidor que nos lo suministra. Para realizar esto, tomamos una muestra de 100
componentes de cada uno de los 3 distribuidores que nos sirven el producto comprobando
el número de defectuosos en cada lote. La siguiente tabla muestra el número de
defectuosos en para cada uno de los distribuidores.

Componentes Componentes
defectuosos correctos

Distribuidor 1 16 94 100

Distribuidor 2 24 76 100

Distribuidor 3 9 81 100

49 251 300

SOLUCIÓN:

Debemos realizar un contraste de homogeneidad para concluir si entre los distribuidores


existen diferencias de fiabilidad referente al mismo componente.

Componentes Componentes
defectuosos correctos

Distribuidor 1 16 (16.33) 94 (83.66) 100


Distribuidor 2 24 (16.33) 76 (83.66) 100

Distribuidor 3 9 (16.33) 81 (83.66) 100

49 251 300

Chi-cuadrado calculado:

X2 = [(16-16.33)2 / 16.33] + [(24-16.33)2 / 16.33] + [(9-16.33)2 / 16.33] + [(94-83.66)2 / 83.66]


+ [(76-83.66)2 / 83.66] + [(81-83.66)2 / 83.66] = 8.9632 (no existe homogeneidad)

3. Estamos interesados en estudiar la relación entre cierta enfermedad y la adicción al tabaco.


Para realizar esto seleccionamos una muestra de 150 individuos, 100 individuos no
fumadores y 50 fumadores. La siguiente tabla muestra las frecuencias de enfermedad en
cada grupo

Padecen la No padecen la
enfermedad enfermedad

Fumadores 12 88

No fumadores 25 25

SOLUCIÓN:

Para considerar este contraste como un contraste de Homogeneidad suponemos que las
personas fumadoras y las personas no fumadoras constituyen dos poblaciones
diferenciadas. Un estudio similar consistiría en considerar a los fumadores y no fumadores
como una característica de una población y por lo tanto este ejemplo podría plantearse
como un contraste de independencia.

Padecen la No padecen la
enfermedad enfermedad

Fumadores 12 (26.67) 88 (75.33) 100

No fumadores 25 (12.33) 25 (37.67) 50

37 113 150
Chi-cuadrado calculado:

X2 = [(12-26.67)2 / 26.67] + [(25-12.33)2 / 12.33] + [(88-75.33)2 / 75.33] + [(25-37.67)2 /37.67]


= 25.903 (homogeneidad)

Prueba de bondad de ajuste (chi cuadrada).

1. Este método se considera no paramétrico, ya que se utiliza para discriminar


si una colección de datos o muestra se ajusta a una distribución teórica de
una determinada población.

2. Descripción del método: dicha hipótesis será evaluada para un nivel de


significancia (denotado por: alfa) definido por el evaluador (comúnmente se
consideran valores de alfa de 1%, 5% o 10%). Adicionalmente el test de chi
cuadrado permite obtener un valor p (o p-value) el cual dependerá de los
grados de libertad considerados y el nivel de significancia establecido. Si el
valor p es menor al nivel de significancia se puede rechazar la hipótesis nula.

3. Formula o estadístico de prueba que lo define:

El subíndice c corresponde a los grados de libertad, Oi corresponde al valor


observado para la clase i-ésima y Ei el valor esperado de la clase i-ésima.

4. Procedimiento: con un ejemplo:


Un total de 256 artistas visuales fueron encuestados de modo de identificar su signo
del zodiaco. Los resultados obtenidos fueron: Aries (29), Tauro (24), Géminis (22),
Cáncer (19), Leo (21), Virgo (18), Libra (19), Escorpión (20), Sagitario (23),
Capricornio (18), Acuario (20), Piscis (23). Se desea probar la hipótesis que los
signos del zodiaco están distribuidos uniformemente entre los artistas visuales.

Paso 1: tabular datos.


Paso 2: Completar la información de la columna Categoría con cada uno de los 12
signos del zodiaco proporcionados anteriormente, incluyendo en la columna
Observado Oi los valores proporcionados en el enunciado.

Paso 3: Calcular el valor esperado para cada categoría. Si los signos del zodiaco
estuviesen uniformemente distribuidos entre los 256 artistas visuales, cada categoría
debería tener: 256/12=21,333.

Paso 4: Calculamos la diferencia entre el valor observado y el valor esperado


para cada categoría.

Paso 5: El resultado obtenido en el Paso 4 lo elevamos al cuadrado para cada


categoría.
Paso 6: Finalmente para cada uno de los resultados obtenidos en el Paso 5 lo
dividimos por el valor esperado Ei de la categoría correspondiente (valores en la
columna F en la siguiente imagen). Luego realizamos la suma de dichos valores
obteniendo la estadística de chi cuadrado para este ejemplo: 5,09375.

5. Obtener estadístico critico: se obtiene al dividir (Oi-Ei)^2 por el valor esperado


Ei de la categoría correspondiente. Luego realizamos la suma de dichos
valores obteniendo la estadística de chi cuadrado.
6. Decisión sobre aceptar o rechazar.
Ho: Los datos se ajustan a una distribución dada.
H1: Los datos no se ajustan a una distribución dada.

7. Una ventaja de la prueba de bondad de ajuste chi-cuadrada es que para


valores grandes de n, la distribución límite chi-cuadrada de la estadística, es
independiente de la forma que tenga la distribución F0(x) propuesta en la
hipótesis H0.
8. Limitaciones o restricciones:

se requiere agrupar los datos obtenidos en categorías o clases.


Es necesario contar con mínimo 5 datos para hacer la comparación.
9. Ejemplos:
 Ejemplo 1.
 Ejemplo 2.

 Ejemplo 3.

Odds Ratio
1. Tipo de método: no paramétrico

2. Descripción del método:

Odds Ratio (OR) es una medida de efecto comúnmente utilizada para


comunicar los resultados de una investigación en salud. Matemáticamente un
OR corresponde a un cociente entre dos odds, siendo un odds una forma
alternativa de expresar la posibilidad de ocurrencia de un evento de interés o
de presencia de una exposición. Desde un punto de vista metodológico, los
OR pueden ser calculados en diseños prospectivos, retrospectivos y
transversales, y bajo ciertas condiciones pueden reemplazar al Riesgo
Relativo. En base a una serie de preguntas y ejemplos, el presente artículo
explica los fundamentos matemáticos y metodológicos subyacentes al
concepto de OR, con el objetivo de facilitar su interpretación a clínicos e
investigadores.

3. Fórmula o estadístico de prueba que lo define:


Intervalo de confianza del Odds Ratio:
IC = OR (1± z/xhm)
Donde OR = Odds Ratio
Z = constante dependiente del porcentaje
Xhm = Chi cuadrado de Haenszel-Mantel

Formula del Chi cuadrado de HM (Haenszel-Mantel)

4. Procedimiento paso por paso:

Paso 1: Calcular el valor de OR


Paso 2: calcular el valor del Chi cuadrado de HM
Paso 3: calcular z para un intervalo de confianza
Paso 4: calcular los límites para el intervalo de confianza (límite inferior y
límite superior)

5. Estadístico crítico:

Riesgo Odds
0.1 0.1 / 0.9 = 0.11
0.2 0.2 / 0.8 = 0.25
0.3 0.3 / 0.7 = 0.43
0.4 0.4 / 0.6 = 0.67
0.5 0.5 / 0.5 = 1.00
0.6 0.6 / 0.4 = 1.50
0.7 0.7 / 0.3 = 2.33
0.8 0.8 / 0.2 = 4.00
0.9 0.9 / 0.1 = 9.00

Riesgo = [odds / (odds + 1)]. Odds = [riesgo / (1 – riesgo)].

Los riesgos toman valores entre 0 y 1, los odds entre 0 e infinito. A mayor
magnitud de riesgo, mayor es la diferencia numérica con su respectivo odds

6. Decisión sobre rechazar o aceptar hipótesis

1) Si el objetivo es estimar la Razón de Odds (OR), o razón de disparidad, con


una precisión relativa especificada se deberá "conocer":
a. Dos de los siguientes elementos:
− Probabilidad anticipada de la exposición al factor en individuos
enfermos: a a b = + P1
− Probabilidad anticipada de la exposición en individuos sanos: c c d =
+ P2
− Razón de Odds anticipado: OR
b. Nivel de confianza: 100 (1-α % )
c. Precisión relativa: ε

Notemos que, si conocemos el valor de P1 y OR, podemos calcular, P2 mediante:


P2 = P1 / OR ( 1 – P1) + P1, análogamente podemos obtener OR por:
OR = [P1 / (1 – P1)] / [P2 / (1 – P2)]
Y P1 por: P1 = P2 / [(1 – P2) / OR + P2]
2) Si el objetivo es probar que la Razón de Odds (OR) o razón de disparidad,
difiere significativamente de 1 se deberá conocer:
a. Hipótesis nula: H0: OR = 1
b. Dos de los siguientes elementos:
i. Probabilidad anticipada de la exposición al factor en individuos
enfermos P1
ii. Probabilidad anticipada de la exposición en individuos sanos P2
iii. Razón de Odds anticipado ORa
c. Nivel de confianza: 100 (1 – α %)
d. Potencia del test: 100 (1 – β %)
e. Hipótesis alternativa: Ha: OR ≠ 1

7. Ventajas:

a. Apropiados para investigar enfermedades raras o de larga latencia


b. Relativamente rápida de iniciar y de concluir
c. En los estudios de cohorte los grupos a comparar no difieren
únicamente en su condición expuesto versus no expuesto, sino que
también en la frecuencia con que se presentan en cada grupo otros
factores de riesgo
d. Si se revierte el evento de interés en el análisis y se mira el evento
favorable, la asociación tendrá un OR recíproco

8. Desventajas:

a. Difícil de calcular e interpretar


b. Toma un largo tiempo llevar el análisis para datos secuenciales e
intermitentes

9. Ejemplos:

Ejemplo no. 1
Se evaluó la asociación entre el antecedente de migraña y el
desarrollo de síndrome hipertensivo del embarazo (SHE) utilizando un
estudio de cohorte15. Para ello siguieron a 685 embarazadas
normotensas entre 11 y 16 semanas de gestación, 264 con
antecedente de migraña y 421 sin este antecedente. En el grupo de
embarazadas con antecedente de migraña 24 desarrollaron SHE y 240
no lo hicieron; por su parte, en el grupo de embarazadas sin
antecedente de migraña 13 desarrollaron SHE y 408 no lo hicieron .
Síndrome
hipertensivo del
embarazo (SHE)

Exposición: Ocurre No ocurre Total


antecedente de
migraña
Sí 24 (a) 240 (b) 264
No 12 (c) 408 (d) 421
Total 37 648 685

RR de SHE en embarazadas expuestas versus no expuestas =


(a/a+b)/(c/c+d) = (24/264)/ (13/421) = 2,9 (IC95% 1,5-5,7).
OR de SHE en embarazadas expuestas versus no expuestas =
(a/b)/(c/d) = (24/240)/ (13/408) = 3,1 (IC95% 1,6-6,3).
Interpretación OR: “la razón entre ocurrencia versus no ocurrencia de
SHE es 3,1 veces mayor en embarazadas con antecedente de
migraña en comparación a embarazadas sin este antecedente. Esta
asociación es estadísticamente significativa”.

Ejemplo no 2:
Se evaluó la magnitud de asociación entre hiperhomocisteinemia
(HHC, definida como nivel de homocisteína mayor o igual a 15 µmol/l)
y cardiopatía isquémica crónica empleando un estudio de casos y
controles no pareados16. La muestra estuvo constituida por 114 casos
(sujetos con cardiopatía isquémica crónica) y 295 controles (sujetos
sin cardiopatía isquémica crónica). Entre los casos, 33 sujetos
presentaban HHC y 81 sujetos no la presentaban, mientras que entre
los controles 38 sujetos presentaban HHC y 257 no la presentaban.
Cardiopatía isquémica
crónica

Hiperhomocisteinemia Presente Ausente Total


(HHC) (Casos) (Controles)
Sí 33 (a) 38 (b) 71
No 81 (c) 257 (d) 338
Total 114 295 409

OR de HHC en sujetos casos versus controles = (a/c)/(b/d) =


(33/81)/(38/257) = 2,8 (IC95% 1,6-4,7).
Interpretación OR: “la razón entre presencia de HHC versus ausencia
de HHC es 2,8 veces mayor en los sujetos con cardiopatía isquémica
crónica en comparación a los sujetos sin esta patología. Esta
asociación es estadísticamente significativa”.

Ejemplo no 3
Se evaluó la asociación entre obesidad e hipertensión arterial en
escolares chilenos, empleando un estudio transversal17. La muestra
estuvo constituida por 2.980 escolares entre 6 y 14 años, de los cuales
622 eran obesos (162 hipertensos y 460 no hipertensos) y 1.593 eran
eutróficos (142 hipertensos y 1.451 no hipertensos). El resto de los
escolares (n = 765) presentaban otras categorías de diagnóstico
nutricional (bajo peso y sobrepeso).

Hipertensión
arterial (HTA)

Estado Presente Ausente Total


nutricional
Sí 162 (a) 460 (b) 622
No 142 (c) 1,451 (d) 1,593
Total 304 1,911 2,215
Razón de Prevalencia de HTA en escolares obesos versus eutróficos =
(a/a+b) / (c/c+d) = (162 / 622) / (142/1.593) = 2,9 (IC95% 2,4-3,6)
OR de prevalencia de HTA en escolares obesos versus eutróficos =
(162 / 460) / (142/1.451) = 3,6 (IC95% 2,8-4,6)
Interpretación OR de prevalencia: “la razón entre escolares
hipertensos versus no hipertensos es 3,6 veces mayor en escolares
obesos en comparación a escolares eutróficos. Esta asociación es
estadísticamente significativa”.

Coeficiente de correlación de Pearson


Es el índice estadístico que mide la relación lineal entre dos variables cuantitativas. A diferencia
de la varianza, la correlación de pearson es independiente de la escala de medida de las
variables. El cálculo del coeficiente de correlación lineal se realiza dividiendo la covarianza por el
producto de las desviaciones estándar de ambas varianzas.

 Formula

En el caso de que se esté estudiando dos variables aleatorias X y Y sobre una población; el

coeficiente de correlación de Pearson se simboliza con la letra {\displaystyle \rho _{x,y}} ,


siendo la expresión que nos permite calcularlo:

{\displaystyle \rho _{X,Y}={\sigma _{XY} \over \sigma _{X}\sigma _{Y}}={E[(X-\mu

_{X})(Y-\mu _{Y})] \over \sigma _{X}\sigma _{Y}},}

Donde:

 {\displaystyle \sigma _{XY}} es la covarianza de {\displaystyle (X,Y)}

 {\displaystyle \sigma _{X}} es la desviación típica de la variable {\displaystyle X}

 {\displaystyle \sigma _{Y}} es la desviación típica de la variable {\displaystyle Y}


De manera análoga podemos calcular este coeficiente sobre un estadístico maestral
denotado como {\displaystyle r_{xy}}

{\displaystyle r_{xy}={\frac {\sum x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{(n-1)s_{x}s_{y}}}={\frac


{n\sum x_{i}y_{i}-\sum x_{i}\sum y_{i}}{{\sqrt {n\sum x_{i}^{2}-(\sum x_{i})^{2}}}~{\sqrt

{n\sum y_{i}^{2}-(\sum y_{i})^{2}}}}}.}

El valor del índice de correlación varía en el intervalo [-1,1], indicando el signo el sentido
de la relación:

 Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia


total entre las dos variables denominada relación directa: cuando una de ellas
aumenta, la otra también lo hace en proporción constante.
 Si 0 < r < 1, existe una correlación positiva.
 Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las
variables son independientes: pueden existir todavía relaciones no lineales entre las
dos variables.
 Si -1 < r < 0, existe una correlación negativa.
 Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia
total entre las dos variables llamada relación inversa: cuando una de ellas aumenta,
la otra disminuye en proporción constante.

 Procedimiento

-Paso 1 Encontrar la media aritmética

-Paso 2 Calcular la varianza

-Paso 3 Calcular la desviación estándar

-Paso 4 Aplicar la fórmula de coeficiencia de correlación lineal.


 Ejemplo

3
Con los datos sobre las temperaturas en dos días diferentes en una ciudad, determinar el tipo de correlación que
existe entre ellas mediante el coeficiente de PEARSON.

X 18 17 15 16 14 12 9 15 16 14 16 18 SX
=180

Y 13 15 14 13 9 10 8 13 12 13 10 8 SY=
138

Solución:

Se calcula la media aritmética


Se llena la siguiente tabla:

Se aplica la fórmula:

COEFICIENTE DE CORRELACION SPEARMAN

En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una medida de


la correlación (la asociación o interdependencia) entre dos variables aleatorias
continuas. Para calcular ρ, los datos son ordenados y reemplazados por su
respectivo orden.
El estadístico ρ viene dado por la expresión:

donde D es la diferencia entre los correspondientes estadísticos de orden de x - y. N


es el número de parejas de datos. Se tiene que considerar la existencia de datos
idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal
circunstancia Para muestras mayores de 20 observaciones, podemos utilizar la
siguiente aproximación a la distribución t de Student

La interpretación de coeficiente de Spearman es igual que la del coeficiente de


correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o
positivas respectivamente, 0 cero, significa no correlación, pero no independencia.
La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos
ordenaciones de una distribución normal bivariante.
RHO DE SPEARMAN
Nombre utilizado para designar la correlación de Spearman.
¿Cuándo utilizar la prueba de correlación de rangos de Spearman?
El coeficiente de correlación no debe utilizarse para comparar dos métodos que
intentan medir el mismo evento, como por ejemplo dos instrumentos que miden la
saturación de oxígeno en sangre. El coeficiente de correlación mide el grado de
asociación entre dos cantidades, pero no mira el nivel de acuerdo o concordancia.
Si los instrumentos de medida miden sistemáticamente cantidades diferentes uno
del otro, la correlación puede ser 1 y su concordancia ser nula. El coeficiente de
correlación de Spearman es recomendable utilizarlo cuando los datos presentan
valores extremos, ya que dichos valores afectan mucho el coeficiente de correlación
de Pearson, o ante distribuciones no normales. No está afectada por los cambios en
las unidades de medida.
Coeficiente de correlación de rangos de Spearman
Como resultado de la revisión de varios autores, asumimos el siguiente concepto:
SPEARMAN (Rho de Spearman). Este coeficiente es una medida de asociación
lineal que utiliza los rangos, números de orden, de cada grupo de sujetos y compara
dichos rangos. Existen dos métodos para calcular el coeficiente de correlación de
los rangos: uno, señalado por Spearman y otro, por Kendall. El r de Spearman
llamado también rho de Spearman es más fácil de calcular que el de Kendall.
COEFICIENTE DE CORRELACION
Estadístico que cuantifica la correlación. Sus valores están comprendidos entre -1 y
1
COEFICIENTE DE DETERMINACION
Es el cuadrado del coeficiente de correlación.
Fórmula:

en donde d i = r xi – r yi es la diferencia entre los rangos de X e Y


Otra variante de la fórmula expresada es:

AL CONVERTIRLAS EN ESCALA
ORDINARIA SE OBTIENEN LOS
RESULTADOS

Talla Peso Talla Peso


1,68 68 33
1,89 70 54
1,75 80 45
1,56 45 21
1,48 48 12

Algoritmo de solución: Observando el criterio de estadísticos actuales, la mayoría


confluye en el siguiente algoritmo de trabajo: Los valores de los rangos se colocan
según el orden numérico de los datos de la variable. Por ejemplo, si tenemos las
siguientes variables:
El primer valor de talla (en este caso 1,68) se convierte en 3, porque el 1,68 es el
tercer valor más pequeño de la talla. El valor en peso de 45 se convierte en 1,
porque es el menor –Luego se calculan las diferencias de rangos.
didi2 Sustituyendo

3-3 0
5-4 1
4-5 1
2-1 1
1-2 1
--------
4
Interpretación: En la muestra observada los valores de talla y peso tienen una
correlación entre fuerte y perfecta, lo que se traduce que en la medida que
aumentan los valores de la talla también aumentan los del peso y viceversa
Presentación de la correlación
Se recomienda a los investigadores realizar primero una representación gráfica de
la correlación, con dos objetivos fundamentales:
Que visualice el tipo de relación que se establece en las variables.
Para corroborar el resultado matemático obtenido.
Correlación y asesor estadístico SPSS
Los asesores estadísticos de la actualidad, procesan grandes bases de datos, en un
tiempo extraordinariamente breve, por lo que recomendamos la utilización de los
mismos para optimizar el tiempo del que dispone el investigador para el análisis de
los datos. Proponemos el Paquete Estadístico para Ciencias Sociales (SPSS).Pasos
a seguir en el asesor
Interpretación de la correlación
En la interpretación de la prueba estadística correlación de Spearman, es necesario
tener en cuenta el objetivo de la investigación que se define en primera instancia y
la relevancia de estas relaciones en el fenómeno clínico que se estudia, no depende
en nuestras conclusiones solamente de la cifra matemática obtenida, sino basarnos
en experiencias científicas del tema de investigación, para evitar que interfiera la
casualidad. La explicación de un coeficiente de correlación como medida de la
intensidad de la relación lineal entre dos variables es puramente matemática y libre
de cualquier implicación de causa-efecto. El hecho de que las dos variables tiendan
a crecer o decrecer juntas no indica que la una tenga un efecto directo o indirecto
sobre la otra. Ambas pueden estar influidas por otras variables de modo que se
origine una fuerte relación matemática. La interpretación de rho depende
principalmente de los detalles de la investigación y la experiencia propia en el tema
de estudio. La experiencia previa sirve generalmente como base de comparación
para determinar si un coeficiente de correlación es digno de ser mencionado.
Consideraciones de la interpretación
A modo de conclusión, recomendamos que al interpretar la prueba de correlación de
rangos de Spearman debemos tener en cuenta que:
La interpretación del coeficiente rho de Spearman concuerda en valores próximos a
1; indican una correlación fuerte y positiva. Valores próximos a –1 indican una
correlación fuerte y negativa. Valores próximos a cero indican que no hay
correlación lineal. Puede que exista otro tipo de correlación, pero no lineal. Los
signos positivos o negativos solo indican la dirección de la relación; un signo
negativo indica que una variable aumenta a medida que la otra disminuye o
viceversa, y uno positivo que una variable aumenta conforme la otra también lo
haga disminuye, si la otra también lo hace.
El personal de salud que investiga debe estar atento a correlaciones que se
encuentran en los valores aproximados a +0,95 o superiores, pues en el campo
biológico y en especial con datos humanos, correlaciones tan altas, son
excesivamente buenas para ser ciertas. Si se obtienen valores mayores o menores
que 1, los cálculos deben ser revisados pues se incurrió en un error de proceso .
Una vez obtenido el coeficiente de correlación, pueden utilizarse pruebas
estadísticas y la construcción de intervalos de confianza para probar su
significación.
La significancia estadística de un coeficiente debe tenerse en cuenta conjuntamente
con la relevancia clínica del fenómeno que se estudia, ya que coeficientes de 0.5 a
0.7 tienden a ser significativos en muestras pequeñas.
La estimación del coeficiente de determinación (r 2) nos muestra el porcentaje de la
variabilidad de los datos que se explica por la asociación entre las dos variables.

VENTAJAS Y DESVENTAJAS DEL METODO SPEARMAN


VENTAJAS DESVENTAJAS

Es paramétrico (libre de distribución Es menos sensible que el coeficiente de


probabilística) Pearson para los valores muy lejos de
lo esperado
Permite medir correlación entre dos El coeficiente de correlación no debe
variables cuando las medidas se utilizarse para comparar dos métodos
realizan en escala ordinal o cuando no que intentan medir el mismo evento
existe distribución normal
Se calcula en base a una serie de
rangos asignados
Los supuestos son estrictos , permite
ciertos desvíos del patrón normal, la
manifestación de una relación causa-
efecto es posible a través de la relación
que hay en las variables y no debe
manifestarse solo por existencia de una
correlación

LIMITACIONES O RESTRINCCIONES
Una generalización del coeficiente de Spearman es útil en la situación en la cual hay
tres o más condiciones, varios individuos son observados en cada una de ellas, y
predecimos que las observaciones tendrán un orden en particular. Por ejemplo, un
conjunto de individuos puede tener tres oportunidades para intentar cierta tarea, y
predecimos que su habilidad mejorará de intento en intento. Un test de la
significación de la tendencia entre las condiciones en esta situación fue desarrollado
por E. B. Page y normalmente suele conocerse como Page's trend test para
alternativas ordenadas.

Análisis de ejemplos de la utilización del coeficiente de correlación de los


rangos de Spearman en la solución de problemas de salud

Actitud ante la muerte en los médicos de familia

Los coeficientes de correlación obtenidos en la comparación de estas medidas con


los promedios de la sub-escala o dimensiones del instrumento (se trabaja con el
coeficiente de correlación de Spearman), por lo que se anotan los rangos numéricos
de las variables sociodemográficas promediadas, y no las categorías nominales. Se
busca conocer si existe relación entre estas variables y las actitudes reflejadas en
las diferentes sub-escalas del CAM. Como puede deducirse del examen visual, la
única correlación significativa encontrada fue entre la variable Edady la sub-escala
de Temor. Esta correlación es negativa, es decir, a mayor edad de los médicos,
menos es el miedo a la muerte. Esto puede explicarse porque con la edad se
incrementa la experiencia profesional de contacto con la muerte, lo que actúa como
un mecanismo desensibilizador.

Caracterización de la mujer en la etapa del climaterio

Se analiza la edad de la menarquía y de la menopausia. Para ello, se aplicó como


método estadístico el coeficiente de correlación de rangos de Spearman y se
encontró que no existe correlación ni dependencia entre la edad de la menarquía y
la edad de la menopausia (p = 0,05 con valores críticos ± 0,31975); no se halló
significación estadística. La relación entre la edad de la menopausia y el número de
hijos, donde se aplicó también el método estadístico del coeficiente de correlación
de rangos de Spearman y en el que observamos que no existe correspondencia
entre la edad de la menopausia y el número de hijos; no se encontró significación
estadística (p = 0,05 con valores críticos ± 0,31975). 11

Rehabilitación multifactorial e intensiva en pacientes con esclerosis múltiple

Se analizó la relación entre el tiempo de tratamiento y la puntuación final en las


escalas aplicando el test de correlación por rangos múltiples de Spearman. Las
diferencias resultaron estadísticamente significativas entre las puntuaciones de las
evaluaciones iniciales y finales de las escalas de Kurztke y Hauser (Z: 3,17,
p=0,001475 y Z: 3,29, p=0,000983, respectivamente). No se identificó correlación
entre la duración total del tratamiento ni el tiempo de evolución de la enfermedad y
la puntuación final alcanzada en la escala (p< 0,05).

Ejemplo ilustrativo N° 1: La siguiente tabla muestra el rango u orden obtenido en


la primera evaluación (X) y el rango o puesto obtenido en la segunda evaluación (Y)
de 8 estudiantes universitarios en la asignatura de Estadística. Calcular el
coeficiente de correlación por rangos de Spearman.
ESTUDIANTE X Y

Diana 1 3
Elizabeth 2 4
Matias 3 1
Carolina 4 5
Juan 5 6
Esteban 6 2
Paula 7 8
Omar 8 7
Solución
Para calcular el coeficiente de correlación por rangos de Spearman de se llena la
siguiente tabla

Se aplica la fórmula:
Dibuja tu tabla. Esta organizará la información que necesitas para calcular el
coeficiente de correlación de Spearman. Necesitarás: 6 columnas con encabezados
como se muestra a continuación. Las filas necesarias para poner los pares de datos
que tengas.

Llena las primeras dos


columnas con los pares de datos.
En tu tercer columna clasifica tus datos de la primera columna del 1 hasta n (el
número de datos que tienes). Comienza con el más bajo, el cual debe tener el 1, el
siguiente número más bajo el 2 y así sucesivamente.

En tu cuarta columna haz lo mismo que en el paso 3, pero clasifica la segunda


columna en lugar de la primera. Si dos (o más) valores de de datos son iguales,
halla la media del rango que hubieran tenido normalmente y clasifícalos con este
promedio. En el ejemplo que se muestra existen 2 número 5 que deberían tener el
rango 2 y 3. Pero como son datos iguales, calcula el promedio del rango que les
correspondería. El promedio de 2 y 3 es 2,5, por lo que se asigna a ambos números
el lugar 2,5 de la clasificación.

En la columna "d" calcula la diferencia del número de clasificación para cada par de
datos. Esto quiere decir que si un dato es tiene el 1 y el otro el número 3, la
diferencia sería de 2 (no importa el signo porque el siguiente paso es elevarlo al
cuadrado).
Eleva al cuadrado cada número de la columna "d" y escribe estos valores en la
columna "d2". Suma todos los valores que hay en la columna "d2". Este resultado
es Σd2.

1.
Escoge alguna de las siguientes fórmulas:
o Si no hay ninguna relación en los pasos anteriores, introduce este valor en la
fórmula simplificada del coeficiente de correlación de Spearman

y reemplaza "n" por el número de pares de datos que tienes para calcular la
respuesta.

o Si hay alguna relación en cualquiera de los pasos anteriores, usa más bien la
fórmula estándar de coeficiente de correlación de Spearman:

Interpreta el resultado. Puede variar entre -1 y 1.

o Cercano a -1: correlación negativa


o Cercano a 0: sin correlación linear
o Cercano a 1: correlación positiva
o Recuerda dividir entre el total exacto de resultados, luego redúcelo a la mitad. A
continuación, divídelo entre Σd2.
CI HORAS DE TV A LA SEMANA

106 7

86 0

100 28

100 50

99 28

103 28

97 20

113 12

113 7

110 17

El primer paso es ordenar los datos de la primera columna. Se agregan dos


columnas 'orden(i)' y 'orden(t)'
Para el orden i, se corresponderán con el número de fila del cuadro, para 99,
orden(i) =3 ya que ocupa el 3.er lugar, ordenado de menor a mayor
para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la
semana', para no hacer otro cuadro, la secuencia ordenada quedaría
T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 }
para este caso, el orden sería para cada elemento, respectivamente:
orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }
sin embargo, el valor de orden está dado por el valor promedio de sus posiciones,
así para:
7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5
28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8
50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10
Después, se crean dos columnas más, una columna "d" que muestra las diferencias
entre las dos columnas de orden y, otra columna "d2". Esta última es sólo la columna
"d" al cuadrado.
Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo
como lo siguiente:

CI (i) Horas de TV orden(i) orden(t) d d2


a la semana
(t)

86 0 1 1 0 0

97 20 2 6 4 16

99 28 3 8 5 25

100 50 4.5 10 5.5 30.25

100 28 4.5 8 3.5 12.25

103 28 6 8 2 4

106 7 7 2.5 4.5 20.25

110 17 8 5 3 9

113 7 9.5 2.5 7 49

113 12 9.5 4 5.5 30.25

{\displaystyle \rho =-0.187878787879} .Nótese como el número de orden de


los valores que son idénticos es la media de los números de orden que les
corresponderían si no lo fueran.
Los valores de la columna d2 pueden ser sumados para averiguar
El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula.
De lo que resulta
0.187878787879}.

Método de Regresión Lineal Simple


El modelo de pronóstico de regresión lineal permite hallar el valor esperado de una variable
aleatoria a cuando b toma un valor específico. La aplicación de este método implica un supuesto de
linealidad cuando la demanda presenta un comportamiento creciente o decreciente, por tal razón,
se hace indispensable que previo a la selección de este método exista un análisis de regresión que
determine la intensidad de las relaciones entre las variables que componen el modelo.

Procedimiento

Expresándolo en forma simple, la regresión lineal es una técnica que permite cuantificar la relación
que puede ser observada cuando se grafica un diagrama de puntos dispersos correspondientes a dos
variables, cuya tendencia general es rectilínea (Figura la); relación que cabe compendiar mediante
una ecuación “del mejor ajuste” de la forma:

y = a + bx

En esta ecuación, “y” representa los valores de la coordenada a lo largo del eje vertical en el gráfico
(ordenada); en tanto que “x” indica la magnitud de la coordenada sobre el eje horizontal (absisa). El
valor de “a” (que puede ser negativo, positivo o igual a cero) es llamado el intercepto; en tanto que
el valor de “b” (el cual puede ser negativo o positivo) se denomina la pendiente o coeficiente de
regresión.

Serie de
datos para el
cálculo de
una regresión
(“a” y “b”) y
del
coeficiente de
correlación
(“r”)

Número Valores de x Valores de y Número Valores de x Valores de y

1 9,0 0,50 7 6,7 1,00

2 9,4 0,50 8 8,4 0,50

3 7,4 1,23 9 8,0 0,50

4 9,7 1,00 10 10,0 0,50

5 10,4 0,30 11 9,2 0,50

6 5,0 1,50 12 6,2 1,00

13 7,7 0,50

El procedimiento para obtener valores de “a” y “b” para una serie de pares de datos de “x” y de “y”
(tal como la presentada en la Figura 1 y/o en la Tabla 1) es como sigue:
Paso 1 Calcule, para cada par de valores de “x” e “y”,
las cantidades “x²”, “y²”, y “x.y”.

Paso 2 Obtenga las sumas (∑) de estos valores para


todos los pares de datos de “x” e “y”, así como
las sumas del total de los valores de “x” e “y”.
Los resultados de los Pasos 1 y 2 aparecerán
en forma similar a la siguiente:

Número de x x² y y² x.y
pares de
datos

1 … … … … …

2 … … … … …

3 … … … … …

n … … … … …

Monto de las ∑x ∑x² ∑y ∑y² ∑x·y


sumas

Paso 3. Estime la pendiente (b) por medio de la relación:


Paso 4 Estime el intercepto (a) por medio de la relación:

¿Cuándo utilizar un pronóstico de regresión lineal?

El pronóstico de regresión lineal simple es un modelo óptimo para patrones de demanda con
tendencia (creciente o decreciente), es decir, patrones que presenten una relación de linealidad
entre la demanda y el tiempo.

[Salto de ajuste de texto]

Existen medidas de la intensidad de la relación que presentan las variables que son fundamentales
para determinar en qué momento es conveniente utilizar regresión lineal.

Análisis de regresión

El objetivo de un análisis de regresión es determinar la relación que existe entre una variable
dependiente y una o más variables independientes. Para poder realizar esta relación, se debe
postular una relación funcional entre las variables.

Cuando se trata de una variable independiente, la forma funcional que más se utiliza en la práctica
es la relación lineal. El análisis de regresión entonces determina la intensidad entre las variables a
través de coeficientes de correlación y determinación.
Modelo de Regresión Lineal Simple

Fórmulas

Pronóstico del período t

[Salto de ajuste de texto]

Intersección de la línea con el eje

[Salto de ajuste de texto]

Pendiente (positiva o negativa)

[Salto de ajuste de texto]

Período de tiempo

[Salto de ajuste de texto]

Donde

Promedio de la variable dependiente (Ventas o Demanda)


[Salto de ajuste de texto]

Promedio de la variable independiente (Tiempo)


[Salto de ajuste de texto]

Donde ...
Hipótesis del modelo de regresión lineal simple

Linealidad: La relación existente entre X e Y es lineal, f (x) = β0 + β1x

Homogeneidad: El valor promedio del error es cero, E[ui ] = 0

Homocedasticidad: La varianza de los errores es constante, Var(ui) = σ 2

Independencia: Las observaciones son independientes, E[uiuj ] = 0

Normalidad: Los errores siguen una distribución normal, ui ∼ N(0, σ)

Ejemplos:

Ejemplo 1

Ejemplo de aplicación de un pronóstico de Regresión lineal Simple

La juguetería Gaby desea estimar mediante regresión lineal simple las ventas para el mes de Julio de
su nuevo carrito infantil "Mate". La información del comportamiento de las ventas de todos sus
almacenes de cadena se presenta en el siguiente tabulado.

[Salto de ajuste de texto]

Mes Ventas

1 Enero 7000

2 Febrero 9000

3 Marzo 5000

4 Abril 11000

5 Mayo 10000

6 Junio 13000

El primer paso para encontrar el pronóstico del mes 7 consiste en hallar la pendiente, para ello
efectuamos los siguientes cálculos:
Luego, y dado que ya tenemos el valor de la pendiente b procedemos a calcular el valor de a, para
ello efectuamos los siguientes cálculos:

Ya por último, determinamos el pronóstico del mes 7, para ello efectuamos el siguiente cálculo:
Podemos así determinar que el pronóstico de ventas para el período 7 es equivalente a 13067
unidades.

Ejemplo 2

Los estadounidenses conscientes de la salud consultan a menudo la información relacionada con


los nutrientes que aparecen en los envases de los alimentos con el fin de evitar los que contengan
grandes cantidades de grasa, sodio o colesterol. La siguiente información se tomó de ocho marcas
distintas de queso americano en rebanadas:
¿Qué pares de variables espera usted que esté fuertemente relacionadas?

El colesterol y las calorías, porque en tabla se observa que dependiendo la cantidad de


colesterol es la cantidad de calorías que contiene cada producto, o podría ser al revés que
dependiendo la cantidad de calorías es la cantidad de colesterol que contiene cada producto.

Calcule el coeficiente de correlación r para las variables de colesterol y sodio

Σ=1,896.84

Xi=Σ x/n

130/8 = 16.25

Yi = Σy /n

2700/8 = 337.5

√ ² Σ(x-xi)2 /n-1

√19.06 = 4.42

√ ² Σ (y-yi)2/n-1

√6,192.85 = 78.69

Covarianza

Sxy = Σ (xi - x)(yi - y) / n -1

1896.84/7 = 270.9771
Coeficiente de correlación

r = Sxy / SxSy

270.97/(4.42)(78.69) = 0.7790

Ejemplo 3

Consideremos el siguiente experimento controlado y aleatorizado para estudiar el efecto de una


nueva droga sobre la frecuencia cardiaca de ratas sanas.

Cinco ratas fueron asignadas aleatoriamente a una de cinco dosis y se registró la máxima
disminución observada en la frecuencia cardiaca en una hora. Los datos obtenidos son:

Dosis (mg) Máxima disminución de la FC (DFC)

0.5 5

1.0 8

1.5 12

2.0 13

2.5 16

La relación respuesta-dosis es aparentemente lineal. Parece razonable proponer

DFC = β0 + β1 * DOSIS + error

Yi = β0 + β1 * Xi + ei

Podríamos intentar ajustar una recta “a ojo”. Propuestas:


yi = 5.5 + 3.5 * xi

yi = 0.5 + 7.0 * xi

¿Cuál recta es “mejor”? ¿Cómo decidir? Veamos los gráficos.

Para decidir cuál de las dos rectas ajusta mejor estos datos consideraremos una medida de cuán
lejos está cada dato de la recta propuesta ⇒ RESIDUO.

RESIDUOS RESIDUOS

⇓ ⇓

x yobs yajus (yobs– (yobs- x yobs yajus (yobs – (yobs-


yajus) yajus) yajus) yajus)
2 2

0.5 5.0 7.3 -2.3 5.1 0.5 1.0 5.0 4.0 1.0 1.00

1.0 8.0 9.0 -1.0 1.0 1.5 8.0 7.5 0.5 0.25

1.5 12.0 10.8 1.3 1.6 2.0 12.0 11.0 1.0 1.00

2.0 13.0 12.5 0.5 0.3 2.5 13.0 14.5 -1.5 2.25

2.5 16.0 14.3 1.8 3.1 16.0 18.0 -2.0 4.00

Total= 0.3 10.9 Total= -1 8.50

⇑ ⇑

∑( yi − 5.5 ∑( yi − 5.5
− 3.5 xi ) 2 − 3.5 xi ) 2
La mejor recta sería aquella que minimice la suma de las distancias al cuadrado de los puntos a la
recta, es decir deberíamos encontrar β o y β 1 tales que

∑ (y1 − βo − β1 xi ) 2 ≤ ∑ (yi – bo – b1 xi) 2


Para cualquier elección de bo y b1 que hagamos.

REGRESIÓN LÍNEAL MÚLTIPLE


La regresión lineal múltiple trata de explicar el comportamiento de Y con más de una
variable predictor usando una función lineal, se utiliza más de una variable
explicativa, para que se pueda utilizar más información y que las estimaciones que
se hagan sean más precisas se consideran los valores de la variable dependiente
que han sido generados por una combinación lineal, de los valores de una o más
variables explicativas y un término aleatorio.
El modelo de regresión lineal múltiple con p variables predictores y basado en n
observaciones. Los coeficientes son elegidos de forma que la suma de cuadrados
entre los valores observados y los pronosticados sea mínima, es decir, que se va a
minimizar la varianza residual.
- Continuas: Las variables continuas son aquellas que llenan el espacio. Son
números reales (que pueden tener o no decimales) y servirán incluso cuando su
rango no sea desde. Suelen ser variables cuantitativas (como el peso o la edad)
pero también pueden ser consideradas continuas variables cualitativas cuando
pueden ordenarse y tienen un número no bajo de elementos (se dice que con más
de siete elementos puede considerarse cuantitativa. Ejemplos son el número de
escalones de una escalera, habitaciones de una vivienda, árboles plantados…)
Todas las variables de recuento (números enteros) siempre que su rango sea alto
(más de 7 elementos) podrían considerarse como continuas. Dentro de las variables
continuas tienen especial relevancia las conocidas como porcentajes. Estos ratios
pueden considerarse variables continuas normales cuando se mueven en un rango
central relativamente amplio pero deben considerarse de forma especial cuando se
mueven cerca de sus extremos porque sus tasas de crecimiento se ven
constreñidas al intervalo [0; - Discretas: Las variables discretas son aquellas que se
mueven “a saltos”. Además de las variables de recuento suelen ser factores
cualitativos que indican alguna característica del individuo (como el género, color,
idioma…) Si las características son sólo dos se suelen llamar dicotómicas (género,
bebedor…). Si son más de dos se suelen denominar simplemente factor.

Para que los resultados de la regresión sean “confiables” (confiable es una forma
coloquial de referirse a: insesgados, es decir que sus resultados sean parecidos a
los reales; y óptimos, es decir que su varianza sea mínima) es necesario que:
a) La relación entre las variables sea lineal. Ser lineal no significa que forzosamente
tenga que ser una línea recta sino también que pueda ser lineal con alguna
transformación.
b) Las perturbaciones (es decir los efectos provocados aleatoriamente o por
variables no incluidas en el modelo) deben ser: de media cero, homocedásticas y no
autocorrelacionadas. Se suelen resumir estos bajo la denominación de “esfericidad”
de los residuos.
El modelo de regresión lineal múltiple es idéntico al modelo de regresión lineal
simple, con la única diferencia de que aparecen más variables explicativas:
Modelo de regresión simple: y = b + b ⋅ x + u 0 1
Modelo de regresión múltiple: y b b x b x b x b x u = 0 + 1 ⋅ 1 + 2 ⋅ 2 + 3 ⋅ 3 + ... + k ⋅ k +u
Para realizar un análisis de regresión lineal múltiple se hacen las siguientes
consideraciones sobre los datos:
a) Linealidad: los valores de la variable dependiente están generados por el
siguiente modelo lineal: Y = X * B +U
b) Homocedasticidad: todas las perturbaciones tienen las misma varianza: 2 V (ui) =
σ
c) Independencia: las perturbaciones aleatorias son independientes entre sí: E u u i j
( i ⋅ j) = 0,∀ ≠
d) Normalidad: la distribución de la perturbación aleatoria tiene distribución normal:
(0, ) 2 U ≈ N σ e) Las variables explicativas Xk se obtienen sin errores de medida.
La hipótesis nula es que todos los coeficientes menos son nulos y la hipótesis
alternativa o complementaria es que existe al menos uno que es distinto de 0, puede
haber varios que sean nulos, pero al menos existe uno distinto de cero. 0 b
Se denomina contraste de regresión al estudio de la posibilidad de que el modelo de
regresión sea nulo, es decir, los valores de las variables explicativas X no van a
influir en la variable Peso.

Se estiman los gastos en alimentación de una familia (Y) en base a la


información que proporcionan las variables regresoras X1 =ingresos
mensuales” y X2 =“número de miembros de la familia”. Para ello se
recoge una muestra aleatoria simple de 15 familias cuyos resultados son
los de la tabla adjunta
(El gasto e ingreso está dado en cientos de miles de pesetas)

Gasto Ingreso Tamaño Gasto Ingreso Tamaño

0 43
'
21
'
3 1 29
'
89
'
3

0 31
'
11
'
4 0 35
'
24
'
2

0 32
'
09
'
5 0 35
'
12
'
4

0 46
'
16
'
4 0 78
'
47
'
3

1 25
'
62
'
4 0 43
'
35
'
2

0 44
'
23
'
3 0 47
'
29
'
3

0 52
'
18
'
6 0 38
'
14
'
4

0 29
'
10
'
5
Datos en forma
parcial[Salto de ajuste de texto]

Se obtiene

A partir de esta ecuación se obtienen las predicciones y los residuos asociados a las
observaciones muestrales. Para la primera observación
(x1 = 2'1; x2 = 3; y = 0'43)

Análisis de Regresión Logística


Es un método como modelo clásico de regresión lineal simple o múltiple, pero donde
la variable dependiente es binaria o dicotómica, es decir, adopta sólo dos valores
posibles: éxito o fracaso, positivo y negativo, muerto y vivo etc. Este método se
utiliza para explicar y predecir una variable en categoría binaria en función a
variables independientes que pueden ser cuantitativas o cualitativas.

Puede modelizar la probabilidad de que ocurra un evento dado, aunque la varianza


de una variable dicotómica no es constante, donde se pueden cambiar los valores
de Xi.
La dependiente dicotómica es Sí presenta el atributo = 1 y No presenta el
atributo = 0

por lo tanto, como es probabilidad los valores van de 0 a 1 y siempre positivos, de lo


contrario se anula.

Es un método probabilístico y paramétrico. Se puede utilizar con un número limitado


de categorías o variables independientes y predictoras. Es útil para modelar la
probabilidad de un evento ocurrido como función de diferentes factores. Se puede
usar como alternativa al U de Umann y Whitney. Es muy usado en las ciencias
médicas y sociales. Este método analiza atributos principalmente. Y también se
pueden emplear logaritmos. Se pueden graficar los resultados en una escala del 0 al
1 y la gráfica puede ser lineal o curva.

Desventajas es necesario el uso de programas estadísticos para su buen empleo y


obtención de resultados.
Fórmula para regresión lineal
P= B0+B1 *Xi

para que la fórmula no se sesgue por valores negativos se compone de P= e (B 0+B1


*Xi)

para que no se sesgue por números mayor a 1 se tendrá que dividir entre [1+ e
(B0+B1 *Xi)]
Donde:
P= probabilidad de éxito
B0= variable independiente 1
B1= variable independiente 2
Xi = Constante dependiente y puede ser variable
e= exponencial
Fórmula para una regresión dicotómica

En esta se conjuga con el ODDS que se define como el cociente de que tenga la
probabilidad de que ocurra un evento frente a la probabilidad de que no ocurra

ODDS= P / 1-P
Ejemplos:
1
Se escogió un grupo de 30 personas mayores de edad (75 años)
¿cuál es la probabilidad de que sufra un infarto?
Donde B0 son las mujeres y B1 son los hombres
Xi es la edad importante de estudio
P= e (B0+B1 *Xi) / [1+ e (B0+B1 *Xi)] ODDS= P / 1-P
P= 2 (10+20 * 75) / [1+ 2(2250)]
P= 2250 / 5062500= 0.00044 ODDS 0.00044 / 1-0.0044 = 0.99

El resultado es 0.99 el cual es muy cerca de 1 e identifica factor de riesgo la edad


avanzada para sufrir de infartos.

2
Tenemos una muestra aleatoria de 1000 consumidores mayores de edad en Gdl
¿Cuál es la probabilidad de que un consumidor de 35 años se suscriba a una revista
P= B0+B1*Xi
P= 17+ 4 * 35 = 157
P= 2(157) / 1- 304) = 0.33
Donde B0 es el porcentaje de mujeres y B1 es el de hombres, Xi es la edad
El resultado es el 33% de probabilidad de los consumidores de 35 años se suscriba
a una revista

Análisis de supervivencia
El análisis de datos para estudios de supervivencia requiere métodos de análisis
específicos por dos razones fundamentales:
a. Los investigadores muy frecuentemente analizan los datos antes de que todos los
pacientes hayan muerto, ya que si no habría que esperar muchos años para realizar
dichos estudios. Los datos aportados por los pacientes vivos, como se señaló
previamente, son observaciones “censuradas” y deben considerarse como tales a la
hora de analizarlas.
b. La segunda razón por la que se necesitan métodos especiales de análisis es
porque típicamente los pacientes no inician el tratamiento o entran al estudio al
mismo tiempo.
En la metodología estadística básica se señalaba la existencia de pruebas
paramétricas y no paramétricas. En el análisis de supervivencia, el análisis de los
datos puede ser realizado utilizando técnicas paramétricas y no paramétricas.
• Paramétricas: (las más frecuentes):
Distribución Exponencial.
Distribución de Weibull.
Distribución Lognormal.
• No paramétricas:
Kaplan-Meier.
Logrank.
Regresión de Cox.
Los métodos estadísticos más utilizados son los no paramétricos. Así, las curvas de
supervivencia por lo general se producen usando uno de dos métodos: el análisis
actuarial o el método del límite de producto de Kaplan-Meier.
Método Kaplan-Meier Análisis actuarial

Calcula la supervivencia cada vez Divide el tiempo en intervalos y calcula


que un paciente muere. la supervivencia en cada intervalo.
Da proporciones exactas de Da aproximaciones, debido a que
supervivencia debido a que utiliza agrupa los tiempos de supervivencia en
tiempos de supervivencia precisos intervalos

El método de Kaplan-Meier se utiliza cuando la muestra es menor de 30 y también


para muestras mayores de 30 y se conocen los tiempos individuales de los
censurados y no censurados.
Método de Kaplan-Meier
Conocido también como del “limite del producto”. La característica distintiva del
análisis con este método es que la proporción acumulada que sobrevive se calcula
para el tiempo de supervivencia individual de cada paciente y no se agrupan los
tiempos de supervivencia en intervalos. Por esta razón es especialmente útil para
estudios que utilizan un número pequeño de pacientes. El método de Kaplan-Meier
incorpora la idea del tiempo al que ocurren los eventos.
La validez de este método descansa en dos suposiciones:
1. Las personas que se retiran del estudio tienen un destino parecido a las que
quedan.
2. El período de tiempo durante el cual una persona entra en el estudio no tiene
efecto independiente en la respuesta.
Ejemplo 1
Se recogieron los intervalos libres de enfermedad (tiempos de remisión) de 20
pacientes con osteosarcoma, a los que se trataba con 3 meses de quimioterapia
después de amputación.
• 11 pacientes recayeron a los 6, 8, 10, 11, 12, 13, 13, 22, 32, 34, 36 meses.
• 8 pacientes se retiraron vivos al final del estudio contribuyendo 3, 7, 7, 11, 14,
16, 20, 20 meses de observación, sin haber sufrido recaídas.
• Un paciente rehusó continuar la terapia a los 11 meses y se retiró del estudio
libre de enfermedad.
Con estos datos se construye una tabla para calcular la proporción acumulativa que
sobreviven hasta el tiempo t, o tasa de supervivencia acumulativa, de la siguiente
forma:
Columna 1: Se hace una lista con todos los tiempos de supervivencia, censurada o
no censurada, en orden de menor a mayor.
Se coloca un signo positivo al lado de cada observación censurada. Para
observaciones censuradas y no censuradas que tienen el mismo tiempo de
supervivencia, se debe colocar la observación no censurada primero.
Columna 2: Una vez ordenados de menor a mayor los datos, en esta columna se
numeran las observaciones.
Columna 3: Colocar el número de orden (rango) de las observaciones no
censuradas (eventos, en este ejemplo recaídas).
Columna 4: Calcular la proporción de pacientes que sobrevive a cada intervalo.
n−rn−r+1

Donde:
n= es el tamaño de la muestra
r= el rango no censurado
Esta columna calcula la probabilidad de supervivencia para cada tiempo.
Columna 5: Calcular el estimador de la proporción acumulativa que sobrevive. Se
realiza multiplicando los valores de la columna anterior (0,95 · 0,94 = 0,89). De este
modo, la probabilidad de vivir un cierto período de tiempo (hasta el instante t) desde
el principio del estudio, es el producto de la probabilidad acumulada de sobrevivir
hasta el período del tiempo anterior a t, (t-1), multiplicado por la probabilidad de
sobrevivir durante el intervalo (t-1; t).
Ejemplo 2
Supongamos ahora que disponemos de los datos de supervivencia de 10 pacientes
que han sido aleatoriamente asignados a los tratamientos A y B (datos hipotéticos).
Tratamiento:
A. 3, 5, 7, 9+, 18
B. 12, 19, 20, 20+, 33+
“9+” indica dato censurado y, por tanto, no ha presentado el evento (en este caso
morir de cáncer), como tampoco lo han presentado las observaciones 20+ y 33+.
Con estos datos se construye la tabla siguiente para calcular la proporción
acumulativa que sobreviven hasta el tiempo t, o tasa de supervivencia acumulativa,
de la misma forma que se indicó en el ejemplo previo.

Una vez calculada la probabilidad de supervivencia, ésta puede representarse


gráficamente.
Bibliografías!

 Fernández, G. (29 de Abril de 2001). Investigación: Análisis de supervivencia.


Coruña, España.
 Ruiz, A. (Mayo de 2009). Herramientas Estadísticas-Comparación de más de
dos muestras: (ANOVA). Madrid: Universidad Pontificia de Madrid.
 Miller, L. H. (1956). Table of percentage points of Kolmogorov statistics.
Journal of the American Statistical Association, 51(273), 111-121.
 Guyatt G, Walter S, Cook D, Wyer P, Jaeschke R. Chapter 8. Confidence
intervals. En: Guyatt G, Rennie D, Meade M, Cook D. Users’ Guides to the
Medical Literature, Second Edition. McGraw-Hill; 2008. p. 99-108.
 Bland JM, Altman DG. Statistical notes. The odds ratio. BMJ 2000: 320: 1468.
 Jaeschke R, Walter S, El Barbary M, Guyatt G. Chapter 10.2. Understanding
the results: more about odds ratios. En: Guyatt G, Rennie D, Meade M, Cook
D. Users’ Guides to the Medical Literature, Second Edition. McGrawHill; 2008.
p. 221-9.
 Schulz K, Grimes DA. Case-control studies: research in reverse. Lancet 2002;
359: 431-4.
 Martín-Moreno JM, Banegas JR. Sobre la traducción del término inglés odds
ratio como oportunidad relativa. Salud Pública Mex 1997; 39: 72-4.
 Holcomb WL, Chaiworapongsa T, Luke DA, Burgdorf KD. An odd measure of
risk: use and misuse of the odds ratio. Obstet Gynecol 2001; 98: 685-8.
 Zocchetti C, Consonni D, Bertazzi P. Relationship between prevalence rate
ratios and odds ratios in crosssectional studies. Int J Epidemiol 1997; 26: 20-
3.
 Ronald E. Walpole y Raymond H Myers. PROBABILIDAD Y ESTADÍSTICA,
Sexta Edición. 1998.
 Valencia A. J. A.; Araujo J. J. (2008). Fundamentos de inferencia estadística.
Bogotá, Colombia. Editorial: Pontificia Universidad Javeriana.
 Gutiérrez-Pulido, H. y De la Vara Salazar, R. (2005), CONTROL
ESTADÍSTICO DE CALIDAD Y SEIS SIGMA, Primera Edición. 2005 Editorial
McGraw-Hill, México.
 Academico/materias/1ercuat2015/probabilidades_y_estadisticatabla_ts
tudent
 Clifford Blair, Richard., A. Taylor, Richard. “Rangos con signos de Wilcoxon”
“Regresión Lineal” Fundamentos de Bioestadística (2008). Editorial Pearson
Education, México
 Rafael Alvarez Caceres, Daniel W Wayne, bioestadística "base para el
análisis de las ciencias", 4ta edición (2005), Pearson Prentice Hall.
 Richard A. Taylor, R. Clifford Blair, bioestadística, 1ra (2008), Editorial
Pearson.
 Martínez Vaca. Estadística descriptiva con énfasis en Salud Pública, Editorial: La
hoguera.
 Humberto Llinás Solano, Carlos Rojas Álvarez. (2005). Estadística descriptiva
y distribuciones de probabilidad. Barranquilla, Colombia: Universidad del
Norte.

Você também pode gostar