Escolar Documentos
Profissional Documentos
Cultura Documentos
pasdfghjklzxcvbnmqwertyuiopasdfghjkl
zxcvbnmqwertyuiopasdfghjklzxcvbnmq
wertyuiopasdfghjklzxcvbnmqwertyuiop
Bioestadística
asdfghjklzxcvbnmqwertyuiopasdfghjklzx
Investigación Documental
cvbnmqwertyuiopasdfghjklzxcvbnmqwe
06/11/2017
rtyuiopasdfghjklzxcvbnmqwertyuiopasd
fghjklzxcvbnmqwertyuiopasdfghjklzxcvb
nmqwertyuiopasdfghjklzxcvbnmqwerty
uiopasdfghjklzxcvbnmqwertyuiopasdfgh
jklzxcvbnmqwertyuiopasdfghjklzxcvbnm
qwertyuiopasdfghjklzxcvbnmqwertyuio
pasdfghjklzxcvbnmqwertyuiopasdfghjkl
zxcvbnmrtyuiopasdfghjklzxcvbnmqwert
yuiopasdfghjklzxcvbnmqwertyuiopasdfg
hjklzxcvbnmqwertyuiopasdfghjklzxcvbn
mqwertyuiopasdfghjklzxcvbnmqwertyui
Prueba de Kolmogorov-Smirnov
Tipo de método: no paramétrico
Descripción: La prueba de Kolmogorov-Smirnov (también prueba K-S) determina la
bondad de ajuste de dos distribuciones de probabilidad entre sí.
Es una alternativa para probar que una muestra “proviene” de una distribución
continua (normal). Esta prueba se basa en la comparación entre la función
distribución acumulada de una distribución teórica con la función distribución
acumulada de la muestra.
Si las funciones de distribución acumulada teorica y muestral no son
significativamente diferentes, entonces decimos que la muestra proviene de la
distribución cuya función distribución acumulada es Ft(x). Sin embargo, si las
diferencias entre las funciones distribución acumuladas son muy grandes como para
que no sean debidas solamente al azar, rechazamos Ho.
Hipótesis: H0: F (X) = Fs (X) H1: F (X) ≠ Fs (X)
Muestra: n observaciones independientes.
Estadístico de contraste: │Dn│ = máxima │Fs (X) – S (X)│
Estadistico:
Ejemplo 1:
Las puntuaciones obtenidas por una muestra de sujetos en una prueba de habilidad
han sido las siguientes:
48,1; 47,8; 45.1; 46,3; 45,4; 47,2; 46,6; y 46.
Sabiendo que la media en dicha prueba es 40 y su desviación típica es 3,
¿podemos afirmar que la distribución de las puntuaciones sigue una normal, con un
α = 0,01?
Solución:
1. Hipótesis: H0: F (X) = Fs (X) de una N(µ, σ) H1: F (X) ≠ Fs (X) de una N(µ, σ)
2. Muestra: 8 observaciones indep.
3. Tipificamos las puntuaciones para poder trabajar con una N (0,1).
4. Ordenamos las puntuaciones, obtenemos Fs (X) y S (X) y calculamos la diferencia entre ambas
para cada valor de X.
Ejemplo 2:
Como el valor D = 0.216 < 0.262, no se rechaza H0 y se acepta que los datos se distribuyen
normalmente.
Ejemplo 3:
No paramétrico
En estadística, la prueba de Levene1 es una prueba estadística inferencial utilizada para evaluar la
igualdad de las varianzas para una variable calculada para dos o más grupos. Algunos
procedimientos estadísticos comunes asumen que las varianzas de las poblaciones de las que se
extraen diferentes muestras son iguales. La prueba de Levene evalúa este supuesto. Se pone a
prueba la hipótesis nula de que las varianzas poblacionales son iguales (llamado homogeneidad de
varianza ú homocedasticidad). Si el P-valor resultante de la prueba de Levene es inferior a un cierto
nivel de significación (típicamente 0.05), es poco probable que las diferencias obtenidas en las
variaciones de la muestra se hayan producido sobre la base de un muestreo aleatorio de una
población con varianzas iguales. Por lo tanto, la hipótesis nula de igualdad de varianzas se rechaza y
se concluye que hay una diferencia entre las variaciones en la población.
Algunos de los procedimientos que asumen normalmente homocedasticidad, para lo cual uno puede
utilizar las pruebas de Levene, incluyen análisis de varianza y pruebas t.
La prueba de Levene se utiliza a menudo antes de que una comparación de medias. Cuando la
prueba de Levene muestra significación, se debe cambiar a pruebas generalizadas (pruebas no
paramétricas), libre de supuestos de homocedasticidad.
Formula o estadísticos de prueba que lo define
Dj = ∑ Dij /nj
Para α = 0.05, α/2, 1- α/2 = 0.975, resulta que F = 0.118 y F = 3.268. Con estos indicadores, la
hipótesis nula Ho se rechazará si Fcal < 0.118 o Fcal > 3.265, y se aceptara si 0.118 < Fcal < 3.268.
Ventajas
La prueba de dos muestras independientes exige que ambas tengan la misma varianza
La Prueba Levene testa si las varianzas de dos grupos son iguales entre sí.
La tabla de la prueba de Levene es muy extensa para traerla.
La hipótesis nula de la Prueba Levene sostiene que las varianzas de los grupos son iguales
entre sí; la hipótesis alternativa, supone que las variables son diferentes entre sí.
Una de las ventajas del test Levene es que no exige normalidad en las distribuciones y es
usado antes de una comparación entre medias.
Cuando el test de Levene es significante, se usa procedimientos que no asumen varianzas
iguales; por eso es que el SPSS realizó dos tests de la diferencia entre los dos grupos.
El nivel Sig cuando se asume que la varianza de los grupos es igual, es 0.276, valor superior a
0.05, lo que nos indica que la varianza es similar en ambos grupos.
Si bien el SPSS testó para “se ha asumido varianzas iguales” nada nos dice sobre el segundo
test, el que debería testear “No se han asumido varianzas iguales”
Ejemplo
1.
2. Por ejemplo, supongamos que las respuestas están en C1 y los tratamientos en C2, y C3-C6
están vacías.
C1 C2
RESPUESTAS TRATAMIENTOS
10 1
8 1
6 1
4 1
3 1
16 2
14 2
10 2
6 2
C1 C2 C3 C4 C5
10 1 1 6 6
8 1 2 10 6
6 1 6
4 1 6
3 1 6
16 2 10
14 2 10
10 2 10
6 2 10
Estadística
Prueba de shapiro-wilk.
1. Este método se considera no paramétrico, ya que se usa para contrastar la normalidad
de un conjunto de datos, proviene de una población normalmente distribuida, sobre todo
para muestras pequeñas (n<50).
2. Descripción del método: Para efectuarla se calcula la media y la varianza muestral, S2, y
se ordenan las observaciones de menor a mayor. A continuación se calculan las
diferencias entre: el primero y el último; el segundo y el penúltimo; el tercero y el
antepenúltimo, etc. y se corrigen con unos coeficientes tabulados por Shapiro y Wilk.
3. Formula o estadístico de prueba que lo define:
Donde
an-i+1= cuantiles esperados de x
i
xn-i+1= dato mayor de la muestraordenada
xi = dato menor de la muestra ordenada
x = dato de la muestra ordenada
x = media de la muestra
4. Procedimiento: EJEMPLO
4.1.
Obtener el estadístico
Calcular n: El número de coeficientes a emplear se determina dividendo la muestra
a la mitad, si n es par la mitad es exacta (n=2k), si n es impar se considera el
número inmediato superior (n=2k+1). El valor de cada coeficiente se obtiene
intersectando el tamaño de n
con el de i (número de coeficiente). En el ejemplo n = 7, la mitad sería 3.5, por lo
tanto, se considerará 4 como el número de coeficientes a obtener.
9. Ejemplos:
Contrastaremos la normalidad de los siguientes datos muestrales (n=10) 0.93 – 1.20 –
1.10 – 1.26 – 1.38 – 1.24 – 1.32 – 1.14 – 1.24 – 1.18
Con los cálculos pertinentes obtenemos el valor de b=0.3653 y de la
cuasivarianza Sc2=0.01561.
Al final tenemos que W=0.9498.
La región crítica es 0.9498 10,α.
Vamos a variar el valor de α para obtener distintos valores de W10,α.
Se han medido los tiempos de ejecución de cierta tarea por parte de seis operarios, con los
siguientes resultados en horas: 6.55, 5.58, 4.33, 2.53, 5.49, 8.64. Se quiere saber si las
mediciones provienen de una población normal.
El test nos devuelve una probabilidad crítica muy grande, 0.9643, lo que no nos
da evidencias suficientes para rechazar la hipótesis de normalidad.
Test de Rachas
1. Tipo de método: no paramétrico
Donde,
n1 es el número de elementos de una clase
n2 es el número de elementos de la otra clase
n es el número total de observaciones
Para muestras pequeñas y a = 0.05: si n1
≤
20 y n2
≤
20 y el nivel de significancia es a = 0.05, el estadístico de prueba es el número de rachas
G. Los valores críticos se encuentran en la tabla de valores críticos para el número de
rachas G.
4.
Estadístico crítico
Valores críticos de la prueba R de rachas.
20:
Si n1 o n2 > 20
Se hace una transformación de r en z mediante la fórmula:
Si Z𝑜𝑏 < Z𝛼 [Símbolo] acepto H0
6. Ventajas
i. El procedimiento es relativamente fácil de entender y de aplicar
ii. Su uso es apropiado para muestras de tamaño mayor o igual a 25
iii.No se afectan significativamente en presencia de observaciones atípicas u
outliers
iv. Si uno o más de los supuestos distribucionales en una prueba paramétrica no
se cumplen, la correspondiente prueba no paramétrica es más eficiente
v. Tienen un gran campo de aplicación
7. Limitaciones
i. Será menos eficiente que el procedimiento paramétrico correspondiente
cuando se pueden aplicar ambos métodos. Es decir, si se puede utilizar una
prueba paramétrica y se usa una paramétrica, entonces hay una pérdida de
información
ii. Son menos eficientes si las muestras son menores que 25
1 ++++++
2 -----
3 ++++
4 --
Regla de decisión: “No rechazar la hipótesis nula si 5 < r < 14. Rechazar si r
≤
5or
≥
14”.
_____________________________________________
mmm ffffff mmm
_____________________________________________
1 2 3
Tres rachas existen en esta muestra. Tres hombres, seguidos de seis
mujeres y luego tres hombres. Aparentemente existe ausencia de
aleatoriedad. Consideremos ahora que el orden de selección es
_______________________________________
m f m f m f m f m f m f m f m f
_______________________________________
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
_______________________________________
-Evalúa la diferencia significativa entre las medias de dos grupos o dos categorías dentro de una
misma variable dependiente.
- la comparación de las 2 medias se da solo si las dos muestras se han sacado de manera
independiente entre sí.
Formula
Procedimiento
-Paso 1
-Paso 2
-Paso 3
-Paso 4
Se aplica la distribución t-student para calcular la probabilidad de error (P) por medio de la formula
escrita anteriormente.
-Paso 5
Ejemplo
1
Se desea comparar a dos grupos de estudiantes respecto de su habilidad de lectura
después de haber impartido a uno de ellos un programa instrucciones.
De acuerdo con el diseño empleado, los alumnos del primer grupo deberían tener
una ejecución inferior a la mostrada por los estudiantes del segundo grupo.
Datos
Grupo Grupo
1 2
11 10 14 14 13
11 16 9 10 9 14 18 14 11 14
14 19 18 16 17 8 19 22 16 18
19 9 9 9 16 14 24 15
9 22 21
S2 13.1242 22.4183
S 3.6227 4.7348
EE de la media 0.8539 1.116
En primer lugar debemos ver si la relación que aparece entre los valores de
nuestras medias coincide con la predicción que hace la hipótesis alterna o con la
que hace la hipótesis de nulidad.
IC 11.5486 13.5905
14.8958 17.9651
Se puede observar en esta tabla que ambos IC se traslapan. Sin embargo cada
media cae fuera del intervalo de confianza de la media del otro grupo, lo cual nos
permite abrigar la esperanza de que la diferencia entre medias sea significativa.
Calculo Resultado
Dif -2.5556
EEdif 1.4052
t -1.8187
gl 34
Sig. p < 0.05
La diferencia entre ambos grupos es significativa con p < 0.05 para una prueba
bilateral, por lo que se puede considerar que el programa instruccional sí influyó en
la habilidad de lectura.
Ejemplo
2
Se denotará por {X1, X2,...,Xn} e {Y1,Y2,...,Ym} al peso observado en cada uno
de los sujetos sometidos a la dieta A y a la dieta B respectivamente. En general no
se exigirá que coincida el número de observaciones en cada uno de los grupos que
se comparan, de modo que en el ejemplo n=40 y m=35.
El t test para dos muestras independientes se basa en el estadístico:
Con lo cual, en este caso particular, el valor utilizado para el contraste será:
3
Test F de Fisher.
Esta razón F fue creada por Ronald Fisher (1890-1962), matemático británico,
cuyas teorías estadísticas hicieron mucho más precisos los experimentos científicos.
Sus proyectos estadísticos, primero utilizados en biología, rápidamente cobraron importancia y fueron
aplicados a la experimentación agrícola, médica e industrial. Fisher también contribuyó a clarificar
las funciones que desempeñan la mutación y la selección natural en la genética, particularmente en
la población humana.
donde
para todo número real x ≥ 0, donde d1 y d2 son enteros positivos, y B es la función beta.
La función de distribución es
La hipótesis de que las medas de múltiples poblaciones normalmente distribuidas y con la misma desviación
estándar son iguales. Esta es, quizás la más conocida de las hipótesis verificadas el test F y el problema más
simple del nálisis son iguales.
La hipótesis de que las desviaciones estándar de dos poblaciones normalmente distribuidas son iguales.
La distribución F aparece frecuentemente como la distribución nula de una prueba estadística, especialmente
en el análisis de varianza
F=S12S22
Estado Crítico.
Supongamos que usted está realizando un ANOVA de un solo factor con doce observaciones, el factor tiene
tres niveles y usted está usando un nivel de significancia de 0.05:
Esto da una probabilidad acumulada inversa (valor crítico) de 4.25649. Si el estadístico F es mayor que este
valor crítico, entonces usted puede rechazar la hipótesis nula, H 0, en el nivel de significancia de 0.05.
Si s12 y s22 son las medias y las varianzas de dos muestras aleatorias de tamaño n 1 y n2,
respectivamente, tomadas de dos poblaciones normales e independientes con varianzas desconocidas pero
iguales, entonces un intervalo de confianza del 100( ) por ciento para la diferencia entre medias es:
En donde:
Es el estimador combinado de la desviación estándar común de la población con n 1+n2 – 2 grados de libertad.
Procedimiento y Ejemplos:
Ejemplo 1
1. Un artículo publicado dio a conocer los resultados de un análisis del peso de calcio en cemento
estándar y en cemento contaminado con plomo. Los niveles bajos de calcio indican que el mecanismo
de hidratación del cemento queda bloqueado y esto permite que el agua ataque varias partes de una
estructura de cemento. Al tomar diez muestras de cemento estándar, se encontró que el peso
promedio de calcio es de 90 con una desviación estándar de 5; los resultados obtenidos con 15
muestras de cemento contaminado con plomo fueron de 87 en promedio con una desviación
estándar de 4. Supóngase que el porcentaje de peso de calcio está distribuido de manera normal.
Encuéntrese un intervalo de confianza del 95% para la diferencia entre medias de los dos tipos de
cementos. Por otra parte, supóngase que las dos poblaciones normales tienen la misma desviación
estándar.
Solución:
Nótese que el intervalo de confianza del 95% incluye al cero; por consiguiente, para este nivel
confianza, no puede concluirse la existencia de una diferencia entre las medias.
Ejemplo 2
2. Se realizó un experimento para comparar el tiempo promedio requerido por el cuerpo humano para
absorber dos medicamentos, A y B. Suponga que el tiempo necesario para que cada medicamento
alcance un nivel específico en el torrente sanguíneo se distribuye normalmente. Se eligieron al azar a
doce personas para ensayar cada fármaco registrándose el tiempo en minutos que tardó en alcanzar
un nivel específico en la sangre. Calcule un intervalo de confianza del 95% para la diferencia del
tiempo promedio. Suponga varianzas iguales.
Medicamento A Medicamento B
nA = 12 nB = 12
Solución:
2.35 B- A 9.25
Con un nivel confianza del 95% se sabe que el tiempo promedio para alcanzar un nivel específico es mayor
para el medicamento B.
Las situaciones que más prevalecen e implican pruebas sobre dos medias son las que tienen varianzas
desconocidas. Si el científico prueba mediante una prueba F, que las varianzas de las dos poblaciones son
iguales, se utiliza la siguiente fórmula:
donde:
Ejemplo 3
1. Para encontrar si un nuevo suero detiene la leucemia, se seleccionan nueve ratones, todos con una
etapa avanzada de la enfermedad. Cinco ratones reciben el tratamiento y cuatro no. Los tiempos de
sobrevivencia en años, a partir del momento en que comienza el experimento son los siguientes:
¿Se puede decir en el nivel de significancia del 0.05 que el suero es efectivo? Suponga que las dos
poblaciones se distribuyen normalmente con varianzas iguales.
Solución:
Primero se probará el supuesto de varianzas iguales con un ensayo de hipótesis bilateral utilizando la
distribución Fisher.
Datos:
Con tratamiento
s= 1.97
n=5
Sin tratamiento
s = 1.1672
n=4
Ensayo de hipótesis:
Estadístico de prueba:
Entonces los grados de libertad uno será el tamaño de la muestra de la población uno menos uno.
1= 5-1 = 4 y 2 = 4-1=3.
Regla de decisión:
Cálculo:
Decisión y Justificación:
Como 2.85 está entre los dos valores de Ho no se rechaza , y se concluye con un = 0.05 que existe
suficiente evidencia para decir que las varianza de las poblaciones son iguales.
Ensayo de Hipótesis
Regla de decisión:
Si tR 1.895 No se Rechaza Ho
Cálculos:
U-MANN WHITNEY
(Suma de Rangos de Wilcoxon)
Es un tipo de prueba no-paramétrica que se necesita cuando no se tiene la
información sobre la composición de los datos poblacionales, cuando no se sabe la
distribución, también se utiliza este tipo de método cuando la muestra es pequeña y
falta información, esta prueba se aplica a dos muestras independientes.
Se usa para comprobar la heterogeneidad de dos muestras ordinales, Bajo la
hipótesis nula, la distribución de partida de ambos grupos es la misma y, bajo la
hipótesis alternativa, los valores de una de las muestras tienden a exceder a los de
la otra.
Para hacer el cálculo se asigna a cada uno de los valores de las dos muestras su
rango…
n1 y n2: son los tamaños respectivos de cada muestra
R1 y R2: es la suma de los rangos de las observaciones de las muestras 1 y 2.
La fórmula es la siguiente:
Pasos:
-Determinar el tamaño de las muestras (n1 y n2). Si n1 y n2 son menores que 20, se
consideran muestras pequeñas, pero si son mayores que 20, se consideran
muestras grandes.
-Arreglar los datos en rangos del menor al mayor valor. En caso de que existan ligas
o empates de rangos iguales, se deberán detectar para un ajuste posterior.
-Calcular los valores de U1 y U2, de modo que se elija el más pequeño para
comparar con los críticos de U Mann-Whitney de la tabla de probabilidades
asociadas con valores pequeños como los de U en la prueba de Mann-Whitney.
-En caso de muestras grandes, calcular el valor Z, pues en estas condiciones se
distribuye normalmente.
-Decidir si se acepta o rechaza la hipótesis.
Ejemplos:
Métodos para enseñar a leer a un grupo de 10-6 años, quienes ingresan por primera
vez a la escuela. El experimentador quiere demostrar que el procedimiento ideado
por él es más efectivo que el tradicional; para ello, mide el desempeño en la lectura
en función de la fluidez, comprensión, análisis y síntesis. El plan experimental
preliminar consiste en elegir al azar tanto una muestra de 10 niños como el método
por utilizar. Elección de la prueba estadística. Las mediciones revelan que no se
satisfacen los requisitos para utilizar una media aritmética, en razón de que uno de
los valores en cada muestra se aleja demasiado de las demás; por lo tanto, no
corresponde a una escala de intervalo, de manera que se decide usar una escala
ordinal.
-Hipótesis alterna (Ha). Las calificaciones de ejecución de lectura, según el método
de enseñanza del experimentador son más altas y diferentes que las observadas en
el método tradicional.
-Hipótesis nula (Ho). Las diferencias observadas entre las calificaciones de
ejecución de lectura mediante los dos métodos se deben al azar.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza
Ho.
*Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta Ho y
se rechaza Ha.
*Aplicación de la prueba estadística. De acuerdo con los paso, las observaciones se
deben ordenar en rangos del menor al mayor. Rangos de lectura de la tabla anterior.
Calculamos la U.
De los dos valores de U calculados, se elige el más pequeño (4) y se comparan con
los valores críticos de U Mann-Whitney.
En caso de que el valor de U calculado no se localice en las tablas
correspondientes, se transformará en la fórmula siguiente:
U = n1n2 - U'
En esta fórmula, U' corresponde al valor más alto.
-Decisión.
A la probabilidad del valor U de Mann-Whitney, calculado anteriormente,
corresponde 0.048, el cual es más pequeño que el nivel de significancia; por lo
tanto, se acepta Ha y se rechaza Ho.
-Interpretación.
Entre las calificaciones de la ejecución de lectura mediante los dos métodos de
enseñanza existe una diferencia significativa a un nivel de probabilidad de error
menor que 0.05; es decir, aun cuando las muestras son pequeñas, las calificaciones
más altas mediante el método diseñado por el experimentador señalan más
efectividad, con la probabilidad de equivocarse de 0.048 para aceptarlo.
-Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza
Ho.
Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta Ho y
se rechaza Ha.
Población de niños de 6 años a los cuales se les aplicó dos métodos de enseñanza.
La muestra es mayor que 25, se distribuye normalmente, por lo cual se determina el valor Z para conocer la
probabilidad.
Dónde:
Z = valor
estadístico de la
curva normal.
U = cualquier
valor de U
calculado (ya sea
U1 o U2).
= valor
promedio de U.
sU = desviación
estándar de U.
La desviación estándar de U
Dónde:
sU = desviación
estándar de U.
n1 y n2 = tamaño
de la muestra de
los grupos 1 y 2.
N = tamaño total
de la muestra (la
suma de n1 y
n2).
Li = sumatoria de
las ligas o
empates.
Esta prueba se aplica en el caso de una distribución continua simétrica. Bajo esta
condición se puede probar la hipótesis nula = 0.
Pasos:
1) Hipótesis:
HO= (w+ igual w-) la mediana de las diferencias de las mediciones de dos
muestras aleatorias e independientes iguales.
Ha= (w+ diferente w-) la mediana de las diferencias en las mediciones de dos
muestras aleatorias e independientes no son iguales.
N 0 Diferencia Rango
w1-w2
1 82 84 -2 3.5
2 91 85 6 8
3 90 90 0 Nula
4 82 78 4 6
5 85 94 -9 9
6 89 88 1 1.5
7 93 96 -3 5
8 95 94 1 1.5
9 90 92 -2 3.5
10 89 84 5 7 rango wilcoxon
Para determinar el rango se anulan los valores igual a cero y se acomodan los
valores de diferencia de menor a mayor tomando en cuenta que es valor
absoluto
1 1 1.5
2 1 1.5
3 2 3.5
4 2 3.5
5 3 5
6 4 6
7 5 7
8 6 8
9 9 9
Sumas de w+ y w-
W+ = 8+6+1.5+1.5+7 = 24
W- = 3.5+9+3.5+5= 21
Criterio de decisión wilcoxon (cuadrilla de n y rango) = 7
Por lo tanto, w (21) sobrepasó el valor de 7 y se acepta la hipótesis alternativa.
2
3
Análisis de varianza de un factor (ANOVA)
Es un método paramétrico.
Descripción del método
El análisis de varianza (ANOVA) de un factor nos sirve para comparar varios grupos
en una variable cuantitativa. Esta prueba es una generalización del contraste de
igualdad de medias para dos muestras independientes. Se aplica para contrastar la
igualdad de medias de tres o más poblaciones independientes y con distribución
normal.
Para realizar el contraste ANOVA, se requieren k muestras independientes de la
variable de interés. Una variable de agrupación denominada Factor y clasifica las
observaciones de la variable en las distintas muestras.
Suponiendo que la hipótesis nula es cierta, el estadístico utilizado en el análisis de
varianza sigue una distribución F de Fisher-Snedecor con k-1 y n-k grados de
libertad, siendo k el número de muestras y n el número total de observaciones que
participan en el estudio.
El primer concepto fundamental es que todo valor observado puede expresarse
mediante la siguiente función:
Donde:
S2TS2R
⇒
S2TS2R
> Fk-1, n –k La diferencia entre los tratamientos es estadísticamente
significativa con un nivel de significación α.
⇒
S2TS2R
< Fk-1, n –k La diferencia entre los tratamientos no es estadísticamente
significativa con un nivel de significación α.
Denominando S a la suma de los cuadrados, se tiene:
[Ecuación]
[Ecuación]
[Ecuación]
En cuanto a los grados de libertad:
1. COMPARACIÓN DE TERMÓMETROS
• Heterocedasticidad
En la figura se aprecia que en los termómetros C Y D los datos están algo más
dispersos. No obstante solo son tres datos y además al tener el mismo número de
datos por termómetro, no se considera importante esta indicación.
2. Se quiere comparar la capacidad pulmonar en niños, adultos y ancianos, obteniéndose los
siguientes resultados:
Niños 5 40 8 0.085
Adultos 5 41.5 8.3 0.085
Ancianos 5 38.1 7.62 0.082
Hipótesis:
H0: µ1 = µ2 = µ3
H1: µ[Símbolo] j ≠ µ j'
Zona crítica
F ~ 0,95 F 2, 15 = 3,68 5.
Decisión
Cómo 5,21 > 3,68 rechazamos H0
No todas las medias poblacionales son iguales, aunque no sabemos dónde están
las diferencias.
4. Determinar el nivel de significancía (α), y los grados de libertad, con la siguiente formula:
Ejemplo 1:
Una agencia de publicidad desea saber si el género de los consumidores es independiente de sus
preferencias de cuatro marcas de café. La respuesta determinará si se deben diseñar diferentes
anuncios dirigidos a los hombres y otros diferentes para las mujeres. Realice la prueba con un nivel
de significancía del 5%.
H0: La marca de café que se consume es independiente del sexo de una persona.
H1: La marca de café que se consume depende del sexo de una persona.
7. Calculando chi-cuadrada.
* Aceptar Ho:
Con un nivel de confianza del 5% se encontró que la marca de café es independiente del sexo de la
persona. Por lo que se recomienda elaborar un sólo tipo de anuncio.
PRUEBA DE HOMOGENEIDAD (CHI-CUADRADO)
No paramétrico
La distribución Chi-cuadrada es una de las distribuciones más empleadas en todos los campos. Su
uso más común es cuando se quiere probar si unas mediciones que se hayan efectuada siguen una
distribución esperada. Otro de sus usos es en intervalos de confianza y pruebas de hipótesis para las
varianzas o desviaciones estándar.
Nos permite analizar este tipo de variable y tiene cuatro aplicaciones principales:
X2=(n−1).s2σ2
Y=Y0. X2(V2−1)e−X22
Donde Y0 es una constante que depende del número de grados de libertad, X2 es el valor de chi-
cuadrada y e es el llamado numero natural de aproximadamente 2.71828
El rechazo de la H0 ocurre cuando el valor calculado con los datos resulta mayor que el valor critico
de dicha medida contenida en una tabla llamada “Valores críticos de Chi-cuadrada. En el caso de que
el valor de chi-cuadrada calculada sea igual o menor al de chi-cuadrada critica se dice que no se
rechaza a la H0 y, por tanto, se concluye que la Fo es semejante a la Fe.
Ventajas
Limitaciones o restricciones
Si solo hay dos celdas la frecuencia esperada en cada celda debe ser igual o mayor a 5. Para más de
dos celdas no debe aplicarse ji cuadrada si más de 20% de las celdas de fe tienen frecuencias
esperadas menores que 5.
Desventajas:
Muchas de las veces no son muy eficientes como las pruebas paramétricas.
Es posible que pierdan la información o la ignoren muchas de las veces.
Llevan a una mayor probabilidad de no rechazar una hipótesis nula falsa (con un error de
tipo II).
Ejemplo
SI NO
F 50 25
M 40 45
SI NO
F 50 25 75
M 40 45 85
90 70
Chi-cuadrado calculado:
Componentes Componentes
defectuosos correctos
Distribuidor 1 16 94 100
Distribuidor 2 24 76 100
Distribuidor 3 9 81 100
49 251 300
SOLUCIÓN:
Componentes Componentes
defectuosos correctos
49 251 300
Chi-cuadrado calculado:
Padecen la No padecen la
enfermedad enfermedad
Fumadores 12 88
No fumadores 25 25
SOLUCIÓN:
Para considerar este contraste como un contraste de Homogeneidad suponemos que las
personas fumadoras y las personas no fumadoras constituyen dos poblaciones
diferenciadas. Un estudio similar consistiría en considerar a los fumadores y no fumadores
como una característica de una población y por lo tanto este ejemplo podría plantearse
como un contraste de independencia.
Padecen la No padecen la
enfermedad enfermedad
37 113 150
Chi-cuadrado calculado:
Paso 3: Calcular el valor esperado para cada categoría. Si los signos del zodiaco
estuviesen uniformemente distribuidos entre los 256 artistas visuales, cada categoría
debería tener: 256/12=21,333.
Ejemplo 3.
Odds Ratio
1. Tipo de método: no paramétrico
5. Estadístico crítico:
Riesgo Odds
0.1 0.1 / 0.9 = 0.11
0.2 0.2 / 0.8 = 0.25
0.3 0.3 / 0.7 = 0.43
0.4 0.4 / 0.6 = 0.67
0.5 0.5 / 0.5 = 1.00
0.6 0.6 / 0.4 = 1.50
0.7 0.7 / 0.3 = 2.33
0.8 0.8 / 0.2 = 4.00
0.9 0.9 / 0.1 = 9.00
Los riesgos toman valores entre 0 y 1, los odds entre 0 e infinito. A mayor
magnitud de riesgo, mayor es la diferencia numérica con su respectivo odds
7. Ventajas:
8. Desventajas:
9. Ejemplos:
Ejemplo no. 1
Se evaluó la asociación entre el antecedente de migraña y el
desarrollo de síndrome hipertensivo del embarazo (SHE) utilizando un
estudio de cohorte15. Para ello siguieron a 685 embarazadas
normotensas entre 11 y 16 semanas de gestación, 264 con
antecedente de migraña y 421 sin este antecedente. En el grupo de
embarazadas con antecedente de migraña 24 desarrollaron SHE y 240
no lo hicieron; por su parte, en el grupo de embarazadas sin
antecedente de migraña 13 desarrollaron SHE y 408 no lo hicieron .
Síndrome
hipertensivo del
embarazo (SHE)
Ejemplo no 2:
Se evaluó la magnitud de asociación entre hiperhomocisteinemia
(HHC, definida como nivel de homocisteína mayor o igual a 15 µmol/l)
y cardiopatía isquémica crónica empleando un estudio de casos y
controles no pareados16. La muestra estuvo constituida por 114 casos
(sujetos con cardiopatía isquémica crónica) y 295 controles (sujetos
sin cardiopatía isquémica crónica). Entre los casos, 33 sujetos
presentaban HHC y 81 sujetos no la presentaban, mientras que entre
los controles 38 sujetos presentaban HHC y 257 no la presentaban.
Cardiopatía isquémica
crónica
Ejemplo no 3
Se evaluó la asociación entre obesidad e hipertensión arterial en
escolares chilenos, empleando un estudio transversal17. La muestra
estuvo constituida por 2.980 escolares entre 6 y 14 años, de los cuales
622 eran obesos (162 hipertensos y 460 no hipertensos) y 1.593 eran
eutróficos (142 hipertensos y 1.451 no hipertensos). El resto de los
escolares (n = 765) presentaban otras categorías de diagnóstico
nutricional (bajo peso y sobrepeso).
Hipertensión
arterial (HTA)
Formula
En el caso de que se esté estudiando dos variables aleatorias X y Y sobre una población; el
Donde:
El valor del índice de correlación varía en el intervalo [-1,1], indicando el signo el sentido
de la relación:
Procedimiento
3
Con los datos sobre las temperaturas en dos días diferentes en una ciudad, determinar el tipo de correlación que
existe entre ellas mediante el coeficiente de PEARSON.
X 18 17 15 16 14 12 9 15 16 14 16 18 SX
=180
Y 13 15 14 13 9 10 8 13 12 13 10 8 SY=
138
Solución:
Se aplica la fórmula:
AL CONVERTIRLAS EN ESCALA
ORDINARIA SE OBTIENEN LOS
RESULTADOS
3-3 0
5-4 1
4-5 1
2-1 1
1-2 1
--------
4
Interpretación: En la muestra observada los valores de talla y peso tienen una
correlación entre fuerte y perfecta, lo que se traduce que en la medida que
aumentan los valores de la talla también aumentan los del peso y viceversa
Presentación de la correlación
Se recomienda a los investigadores realizar primero una representación gráfica de
la correlación, con dos objetivos fundamentales:
Que visualice el tipo de relación que se establece en las variables.
Para corroborar el resultado matemático obtenido.
Correlación y asesor estadístico SPSS
Los asesores estadísticos de la actualidad, procesan grandes bases de datos, en un
tiempo extraordinariamente breve, por lo que recomendamos la utilización de los
mismos para optimizar el tiempo del que dispone el investigador para el análisis de
los datos. Proponemos el Paquete Estadístico para Ciencias Sociales (SPSS).Pasos
a seguir en el asesor
Interpretación de la correlación
En la interpretación de la prueba estadística correlación de Spearman, es necesario
tener en cuenta el objetivo de la investigación que se define en primera instancia y
la relevancia de estas relaciones en el fenómeno clínico que se estudia, no depende
en nuestras conclusiones solamente de la cifra matemática obtenida, sino basarnos
en experiencias científicas del tema de investigación, para evitar que interfiera la
casualidad. La explicación de un coeficiente de correlación como medida de la
intensidad de la relación lineal entre dos variables es puramente matemática y libre
de cualquier implicación de causa-efecto. El hecho de que las dos variables tiendan
a crecer o decrecer juntas no indica que la una tenga un efecto directo o indirecto
sobre la otra. Ambas pueden estar influidas por otras variables de modo que se
origine una fuerte relación matemática. La interpretación de rho depende
principalmente de los detalles de la investigación y la experiencia propia en el tema
de estudio. La experiencia previa sirve generalmente como base de comparación
para determinar si un coeficiente de correlación es digno de ser mencionado.
Consideraciones de la interpretación
A modo de conclusión, recomendamos que al interpretar la prueba de correlación de
rangos de Spearman debemos tener en cuenta que:
La interpretación del coeficiente rho de Spearman concuerda en valores próximos a
1; indican una correlación fuerte y positiva. Valores próximos a –1 indican una
correlación fuerte y negativa. Valores próximos a cero indican que no hay
correlación lineal. Puede que exista otro tipo de correlación, pero no lineal. Los
signos positivos o negativos solo indican la dirección de la relación; un signo
negativo indica que una variable aumenta a medida que la otra disminuye o
viceversa, y uno positivo que una variable aumenta conforme la otra también lo
haga disminuye, si la otra también lo hace.
El personal de salud que investiga debe estar atento a correlaciones que se
encuentran en los valores aproximados a +0,95 o superiores, pues en el campo
biológico y en especial con datos humanos, correlaciones tan altas, son
excesivamente buenas para ser ciertas. Si se obtienen valores mayores o menores
que 1, los cálculos deben ser revisados pues se incurrió en un error de proceso .
Una vez obtenido el coeficiente de correlación, pueden utilizarse pruebas
estadísticas y la construcción de intervalos de confianza para probar su
significación.
La significancia estadística de un coeficiente debe tenerse en cuenta conjuntamente
con la relevancia clínica del fenómeno que se estudia, ya que coeficientes de 0.5 a
0.7 tienden a ser significativos en muestras pequeñas.
La estimación del coeficiente de determinación (r 2) nos muestra el porcentaje de la
variabilidad de los datos que se explica por la asociación entre las dos variables.
LIMITACIONES O RESTRINCCIONES
Una generalización del coeficiente de Spearman es útil en la situación en la cual hay
tres o más condiciones, varios individuos son observados en cada una de ellas, y
predecimos que las observaciones tendrán un orden en particular. Por ejemplo, un
conjunto de individuos puede tener tres oportunidades para intentar cierta tarea, y
predecimos que su habilidad mejorará de intento en intento. Un test de la
significación de la tendencia entre las condiciones en esta situación fue desarrollado
por E. B. Page y normalmente suele conocerse como Page's trend test para
alternativas ordenadas.
Diana 1 3
Elizabeth 2 4
Matias 3 1
Carolina 4 5
Juan 5 6
Esteban 6 2
Paula 7 8
Omar 8 7
Solución
Para calcular el coeficiente de correlación por rangos de Spearman de se llena la
siguiente tabla
Se aplica la fórmula:
Dibuja tu tabla. Esta organizará la información que necesitas para calcular el
coeficiente de correlación de Spearman. Necesitarás: 6 columnas con encabezados
como se muestra a continuación. Las filas necesarias para poner los pares de datos
que tengas.
En la columna "d" calcula la diferencia del número de clasificación para cada par de
datos. Esto quiere decir que si un dato es tiene el 1 y el otro el número 3, la
diferencia sería de 2 (no importa el signo porque el siguiente paso es elevarlo al
cuadrado).
Eleva al cuadrado cada número de la columna "d" y escribe estos valores en la
columna "d2". Suma todos los valores que hay en la columna "d2". Este resultado
es Σd2.
1.
Escoge alguna de las siguientes fórmulas:
o Si no hay ninguna relación en los pasos anteriores, introduce este valor en la
fórmula simplificada del coeficiente de correlación de Spearman
y reemplaza "n" por el número de pares de datos que tienes para calcular la
respuesta.
o Si hay alguna relación en cualquiera de los pasos anteriores, usa más bien la
fórmula estándar de coeficiente de correlación de Spearman:
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
113 7
110 17
86 0 1 1 0 0
97 20 2 6 4 16
99 28 3 8 5 25
103 28 6 8 2 4
110 17 8 5 3 9
Procedimiento
Expresándolo en forma simple, la regresión lineal es una técnica que permite cuantificar la relación
que puede ser observada cuando se grafica un diagrama de puntos dispersos correspondientes a dos
variables, cuya tendencia general es rectilínea (Figura la); relación que cabe compendiar mediante
una ecuación “del mejor ajuste” de la forma:
y = a + bx
En esta ecuación, “y” representa los valores de la coordenada a lo largo del eje vertical en el gráfico
(ordenada); en tanto que “x” indica la magnitud de la coordenada sobre el eje horizontal (absisa). El
valor de “a” (que puede ser negativo, positivo o igual a cero) es llamado el intercepto; en tanto que
el valor de “b” (el cual puede ser negativo o positivo) se denomina la pendiente o coeficiente de
regresión.
Serie de
datos para el
cálculo de
una regresión
(“a” y “b”) y
del
coeficiente de
correlación
(“r”)
13 7,7 0,50
El procedimiento para obtener valores de “a” y “b” para una serie de pares de datos de “x” y de “y”
(tal como la presentada en la Figura 1 y/o en la Tabla 1) es como sigue:
Paso 1 Calcule, para cada par de valores de “x” e “y”,
las cantidades “x²”, “y²”, y “x.y”.
Número de x x² y y² x.y
pares de
datos
1 … … … … …
2 … … … … …
3 … … … … …
n … … … … …
El pronóstico de regresión lineal simple es un modelo óptimo para patrones de demanda con
tendencia (creciente o decreciente), es decir, patrones que presenten una relación de linealidad
entre la demanda y el tiempo.
Existen medidas de la intensidad de la relación que presentan las variables que son fundamentales
para determinar en qué momento es conveniente utilizar regresión lineal.
Análisis de regresión
El objetivo de un análisis de regresión es determinar la relación que existe entre una variable
dependiente y una o más variables independientes. Para poder realizar esta relación, se debe
postular una relación funcional entre las variables.
Cuando se trata de una variable independiente, la forma funcional que más se utiliza en la práctica
es la relación lineal. El análisis de regresión entonces determina la intensidad entre las variables a
través de coeficientes de correlación y determinación.
Modelo de Regresión Lineal Simple
Fórmulas
Período de tiempo
Donde
Donde ...
Hipótesis del modelo de regresión lineal simple
Ejemplos:
Ejemplo 1
La juguetería Gaby desea estimar mediante regresión lineal simple las ventas para el mes de Julio de
su nuevo carrito infantil "Mate". La información del comportamiento de las ventas de todos sus
almacenes de cadena se presenta en el siguiente tabulado.
Mes Ventas
1 Enero 7000
2 Febrero 9000
3 Marzo 5000
4 Abril 11000
5 Mayo 10000
6 Junio 13000
El primer paso para encontrar el pronóstico del mes 7 consiste en hallar la pendiente, para ello
efectuamos los siguientes cálculos:
Luego, y dado que ya tenemos el valor de la pendiente b procedemos a calcular el valor de a, para
ello efectuamos los siguientes cálculos:
Ya por último, determinamos el pronóstico del mes 7, para ello efectuamos el siguiente cálculo:
Podemos así determinar que el pronóstico de ventas para el período 7 es equivalente a 13067
unidades.
Ejemplo 2
Σ=1,896.84
Xi=Σ x/n
130/8 = 16.25
Yi = Σy /n
2700/8 = 337.5
√ ² Σ(x-xi)2 /n-1
√19.06 = 4.42
√ ² Σ (y-yi)2/n-1
√6,192.85 = 78.69
Covarianza
1896.84/7 = 270.9771
Coeficiente de correlación
r = Sxy / SxSy
270.97/(4.42)(78.69) = 0.7790
Ejemplo 3
Cinco ratas fueron asignadas aleatoriamente a una de cinco dosis y se registró la máxima
disminución observada en la frecuencia cardiaca en una hora. Los datos obtenidos son:
0.5 5
1.0 8
1.5 12
2.0 13
2.5 16
Yi = β0 + β1 * Xi + ei
yi = 0.5 + 7.0 * xi
Para decidir cuál de las dos rectas ajusta mejor estos datos consideraremos una medida de cuán
lejos está cada dato de la recta propuesta ⇒ RESIDUO.
RESIDUOS RESIDUOS
⇓ ⇓
0.5 5.0 7.3 -2.3 5.1 0.5 1.0 5.0 4.0 1.0 1.00
1.0 8.0 9.0 -1.0 1.0 1.5 8.0 7.5 0.5 0.25
1.5 12.0 10.8 1.3 1.6 2.0 12.0 11.0 1.0 1.00
2.0 13.0 12.5 0.5 0.3 2.5 13.0 14.5 -1.5 2.25
⇑ ⇑
∑( yi − 5.5 ∑( yi − 5.5
− 3.5 xi ) 2 − 3.5 xi ) 2
La mejor recta sería aquella que minimice la suma de las distancias al cuadrado de los puntos a la
recta, es decir deberíamos encontrar β o y β 1 tales que
Para que los resultados de la regresión sean “confiables” (confiable es una forma
coloquial de referirse a: insesgados, es decir que sus resultados sean parecidos a
los reales; y óptimos, es decir que su varianza sea mínima) es necesario que:
a) La relación entre las variables sea lineal. Ser lineal no significa que forzosamente
tenga que ser una línea recta sino también que pueda ser lineal con alguna
transformación.
b) Las perturbaciones (es decir los efectos provocados aleatoriamente o por
variables no incluidas en el modelo) deben ser: de media cero, homocedásticas y no
autocorrelacionadas. Se suelen resumir estos bajo la denominación de “esfericidad”
de los residuos.
El modelo de regresión lineal múltiple es idéntico al modelo de regresión lineal
simple, con la única diferencia de que aparecen más variables explicativas:
Modelo de regresión simple: y = b + b ⋅ x + u 0 1
Modelo de regresión múltiple: y b b x b x b x b x u = 0 + 1 ⋅ 1 + 2 ⋅ 2 + 3 ⋅ 3 + ... + k ⋅ k +u
Para realizar un análisis de regresión lineal múltiple se hacen las siguientes
consideraciones sobre los datos:
a) Linealidad: los valores de la variable dependiente están generados por el
siguiente modelo lineal: Y = X * B +U
b) Homocedasticidad: todas las perturbaciones tienen las misma varianza: 2 V (ui) =
σ
c) Independencia: las perturbaciones aleatorias son independientes entre sí: E u u i j
( i ⋅ j) = 0,∀ ≠
d) Normalidad: la distribución de la perturbación aleatoria tiene distribución normal:
(0, ) 2 U ≈ N σ e) Las variables explicativas Xk se obtienen sin errores de medida.
La hipótesis nula es que todos los coeficientes menos son nulos y la hipótesis
alternativa o complementaria es que existe al menos uno que es distinto de 0, puede
haber varios que sean nulos, pero al menos existe uno distinto de cero. 0 b
Se denomina contraste de regresión al estudio de la posibilidad de que el modelo de
regresión sea nulo, es decir, los valores de las variables explicativas X no van a
influir en la variable Peso.
0 43
'
21
'
3 1 29
'
89
'
3
0 31
'
11
'
4 0 35
'
24
'
2
0 32
'
09
'
5 0 35
'
12
'
4
0 46
'
16
'
4 0 78
'
47
'
3
1 25
'
62
'
4 0 43
'
35
'
2
0 44
'
23
'
3 0 47
'
29
'
3
0 52
'
18
'
6 0 38
'
14
'
4
0 29
'
10
'
5
Datos en forma
parcial[Salto de ajuste de texto]
Se obtiene
A partir de esta ecuación se obtienen las predicciones y los residuos asociados a las
observaciones muestrales. Para la primera observación
(x1 = 2'1; x2 = 3; y = 0'43)
para que no se sesgue por números mayor a 1 se tendrá que dividir entre [1+ e
(B0+B1 *Xi)]
Donde:
P= probabilidad de éxito
B0= variable independiente 1
B1= variable independiente 2
Xi = Constante dependiente y puede ser variable
e= exponencial
Fórmula para una regresión dicotómica
En esta se conjuga con el ODDS que se define como el cociente de que tenga la
probabilidad de que ocurra un evento frente a la probabilidad de que no ocurra
ODDS= P / 1-P
Ejemplos:
1
Se escogió un grupo de 30 personas mayores de edad (75 años)
¿cuál es la probabilidad de que sufra un infarto?
Donde B0 son las mujeres y B1 son los hombres
Xi es la edad importante de estudio
P= e (B0+B1 *Xi) / [1+ e (B0+B1 *Xi)] ODDS= P / 1-P
P= 2 (10+20 * 75) / [1+ 2(2250)]
P= 2250 / 5062500= 0.00044 ODDS 0.00044 / 1-0.0044 = 0.99
2
Tenemos una muestra aleatoria de 1000 consumidores mayores de edad en Gdl
¿Cuál es la probabilidad de que un consumidor de 35 años se suscriba a una revista
P= B0+B1*Xi
P= 17+ 4 * 35 = 157
P= 2(157) / 1- 304) = 0.33
Donde B0 es el porcentaje de mujeres y B1 es el de hombres, Xi es la edad
El resultado es el 33% de probabilidad de los consumidores de 35 años se suscriba
a una revista
Análisis de supervivencia
El análisis de datos para estudios de supervivencia requiere métodos de análisis
específicos por dos razones fundamentales:
a. Los investigadores muy frecuentemente analizan los datos antes de que todos los
pacientes hayan muerto, ya que si no habría que esperar muchos años para realizar
dichos estudios. Los datos aportados por los pacientes vivos, como se señaló
previamente, son observaciones “censuradas” y deben considerarse como tales a la
hora de analizarlas.
b. La segunda razón por la que se necesitan métodos especiales de análisis es
porque típicamente los pacientes no inician el tratamiento o entran al estudio al
mismo tiempo.
En la metodología estadística básica se señalaba la existencia de pruebas
paramétricas y no paramétricas. En el análisis de supervivencia, el análisis de los
datos puede ser realizado utilizando técnicas paramétricas y no paramétricas.
• Paramétricas: (las más frecuentes):
Distribución Exponencial.
Distribución de Weibull.
Distribución Lognormal.
• No paramétricas:
Kaplan-Meier.
Logrank.
Regresión de Cox.
Los métodos estadísticos más utilizados son los no paramétricos. Así, las curvas de
supervivencia por lo general se producen usando uno de dos métodos: el análisis
actuarial o el método del límite de producto de Kaplan-Meier.
Método Kaplan-Meier Análisis actuarial
Donde:
n= es el tamaño de la muestra
r= el rango no censurado
Esta columna calcula la probabilidad de supervivencia para cada tiempo.
Columna 5: Calcular el estimador de la proporción acumulativa que sobrevive. Se
realiza multiplicando los valores de la columna anterior (0,95 · 0,94 = 0,89). De este
modo, la probabilidad de vivir un cierto período de tiempo (hasta el instante t) desde
el principio del estudio, es el producto de la probabilidad acumulada de sobrevivir
hasta el período del tiempo anterior a t, (t-1), multiplicado por la probabilidad de
sobrevivir durante el intervalo (t-1; t).
Ejemplo 2
Supongamos ahora que disponemos de los datos de supervivencia de 10 pacientes
que han sido aleatoriamente asignados a los tratamientos A y B (datos hipotéticos).
Tratamiento:
A. 3, 5, 7, 9+, 18
B. 12, 19, 20, 20+, 33+
“9+” indica dato censurado y, por tanto, no ha presentado el evento (en este caso
morir de cáncer), como tampoco lo han presentado las observaciones 20+ y 33+.
Con estos datos se construye la tabla siguiente para calcular la proporción
acumulativa que sobreviven hasta el tiempo t, o tasa de supervivencia acumulativa,
de la misma forma que se indicó en el ejemplo previo.