Escolar Documentos
Profissional Documentos
Cultura Documentos
Bioestadstica II
Clase 1
De la poblacin generalmente se saca una o ms muestras, de las cuales es posible realizar
inferencias acerca de la poblacin.
Muestra Representativa
Muestras Independientes
Seudoreplicacin
Factor (es):
Tratamientos o Niveles
- Cuntas situaciones distintas estn siendo evaluadas para determinar el efecto del factor.
Nmero de Rplicas
Clase 2
Variables Discretas
- Datos generalmente son nmero enteros o por categoras (edad, sexo, color, etc).
- Se pueden dividir en:
o Variables Nominales: Valores reciben una clasificacin de acuerdo a un atributo
o Variables Ordinales: Valores son ordenados (mayor o menor) de acuerdo a un
rango.
Variables Continuas
Estadgrafos Importantes
* )
&+,(%& '%)
- " =
-'.
- = "
Clase 3
Distribucin Z
: Las medias son iguales y los individuos provienen de la misma poblacin, las diferencias
obtenidas son slo debidas al azar.
: Las medias no son iguales, por lo tanto, los individuos puede que no provengan de la misma
poblacin.
Anlisis:
- Cada sujeto es expuesto a todas las condiciones experimentales, de modo que lo que se
evala es un cambio en la respuesta de los mismos sujetos luego experimentar todas las
condiciones.
: . = 0
Anlisis:
Planteamiento de Hiptesis:
- H0 : . = " = k
- H1 : Al menos una de las medias es distinta
mnmop tumvt
Total ______ N - 1 x . , y'. , (u'y)
mnmop wtumvn
tumvt
Entre Grupos ______ K - 1 _________ _________
tumvt
Dentro de wtumvn
______ N - K _________ _________
Grupos (Error) wtumvn
- Se realiza un anlisis a posteriori para determinar cul de las medias es la distinta. Estos
anlisis generalmente estn basados en t de Student, pero corrigen el aumento del error
tipo I al realizarlo varias veces.
Test de Tukey
- Se basa en la T de Student, pero le aade la varianza del error (ver ecuacin de la ayudanta)
- Los valores de q obtenidos luego son comparados con una q crtica.
{vm}{n : 2 , tvvnv ,
K: Nmero de tratamientos o muestras totales que se van a comparar
- Si la q observada es menor a la q crtica, las dos medias que uno est comparando son
similares entre s.
- Si la q observada es mayor a la q crtica, las dos medias que uno est comparando son
significativamente distintas entre s.
- Por medio de estos anlisis se puede determinar cul(es) de las medias son distintas entre
s.
- Un mismo grupo de individuos pasa por todos los tratamientos (niveles) a evaluar.
- Cuando el inters biolgico est centrado en la variacin dentro de cada sujeto, la que
estima posibles diferencias (diferentes respuestas dentro) dentro de cada sujeto.
Dentro de
______ n*(k 1) _________ _________ _________
Sujetos
mvomo}tumn mvomo}tumn
Tratamiento ______ k - 1 x . , y'. , (y'.)(-'.)
mvomo}tumn vtoutumt
vtoutumt
Remanente ______ (k 1)(n 1) _________
vtoutumt
El anlisis y las pruebas a posteriori son iguales a ANOVA para medidas independientes.
Ayudanta I1
Valor de P
ANOVA multifactorial
Uno asume que el modelo es aditivo (suma de efectos): Toda la varianza en Y es producto de la
suma de la varianza de cada uno de los componentes.
Por qu hay interaccin?: Efectos de uno u otro factor NO son iguales en todos los niveles.
Factor 1: Dos lneas, puntos con distintas lneas: indican a un factor con sus niveles
Hiptesis Nulas:
- Si el F observado es mayor al F crtico, se rechaza H0, por lo que las medias son
significativamente distintas.
- Si el F observado es menor al F crtico, se acepta H0, por lo que las medias son similares
entre s.
Test de Tukey:
- Comparar las medias de un factor entre cada nivel del otro factor
- Comparar todas las medias con todas las medias.
- Si no hay interaccin: Test de Tukey para CADA uno de los factores POR SEPARADO.
- Si existe interaccin: Comparar las medias mediante tukey slo para los 3 niveles de un
factor (se compara la media de las medias). Otra alternativa es realizar un tukey para TODAS
las medias de los niveles.
SNK es ms liberal que el tukey, por lo que detecta ms diferencias entre los niveles. Al utilizar SNK
uno se arriesga a cometer error tipo 1, ya que aumenta.
PREGUNTAS:
- Cundo usar (1) y (2)?: Si el enunciado indica que hay una desigualdad (mayor o
menor) la a utilizar es unilateral. Si el enunciado indica que lo que interesa es que sean
distintas, NO que sea mayor o menor, el a utilizar es bilateral.
- T de student, Pareado o Medidas Repetidas: Se utiliza t de student pareada cuando los
individuos de una muestra pasan por un tratamiento y los individuos de la otra muestra
pasan por otro tratamiento. Para medidas repetidas, es cuando los mismos individuos
pasan por los dos o ms tratamientos.
- ANOVA de Medidas Repetidas: En ANOVA de Medidas Independientes se compara la
varianza entre sujetos y dentro sujetos debido a un tratamiento o a un error. En un ANOVA
de Medidas Repetidas se compara la varianza dentro de los sujetos con el remanente (error)
dentro de los sujetos.
Test de Tukey
SNK considera cuntas medias caen dentro de los valores de las medias calculadas.
Bioestadstica II
Error Tipo I
- Existen ocasiones en las cuales una hipotesis nula verdadera ser rechazada, lo cual implica
que se ha cometido un error tomando conclusiones de la muestra.
- La frecuencia con la cual se cometer este error es a.
- El hecho de rechazar H0 cuando en realidad es
verdadera.
Error Tipo II
Poder de Prueba
- Se define como 1 .
- Corresponde a la probabilidad de rechazar correctamente la H0 cuando es falsa.
Intervalos de Confianza
- Un intervalo de confianza del 95% significa que, si se calcularan todas las medias posibles
para muestras de tamao n tomadas de la poblacin, y a cada una de estas medias se le
calculara un intervalo de confianza del 95%, un 95% de los intervalos contendran (la
media poblacional).
- En otras palabras: Tengo un 95% de confianza que el intervalo contiene a la media
poblacional.
( 1)
Nivel de Significancia =
2
1 (1 ){
Bases Matemticas del ANOVA
- En un diseo experimental con k grupos, hay ni datos en el grupo i; es decir, n1 designa todos
los datos del grupo 1, n2 del grupo 2, etc. El nmero total de datos en los k grupos ser N,
de tal manera que:
y
= M
M.
Dato j en el grupo i
y -&
LCLZf = (M )"
M. .
Promedio de
todos los datos (N)
LCLZf = 1
- Asociada a esta suma de cuadrados se pueden calcular los siguientes grados de libertad:
g-LJg JbcC? = 1
- La porcin de la suma de cuadrados total que no se explica por las diferencias entre grupos
significa que la variablidad se encuentra dentro de los grupos:
y -&
g-LJC JbcC? = M 1 =
M.
Probando la Hipotesis Nula
- Dividiendo la suma de cuadrados de los grupos o del error (dentro grupos) por los
respectivos grados de libertad da como resultado una varianza, o como se le conoce, un
cuadrado medio.
g-LJg JbcC?
g-LJg JbcC? =
g-LJg JbcC?
y
g-LJC JbcC?
g-LJC JbcC? =
g-LJC JbcC?
- La teora estadistica nos informa que si la hiptesis nula es una declaracin verdadera
acerca de las poblaciones, entonces los cuadrados medios entre grupos y dentro grupos
sern por separado un estimador de s2, la varianza comn a las k poblaciones. Pero si las
medias de las k poblaciones no son iguales, entonces el cuadrado medio entre grupos ser
mayor que el cuadrado medio dentro de grupos.
g-LJg JbcC? Esto indica como la variabilidad de los
=
g-LJC JbcC? datos entre grupos se compara con la
variabilidad dentro de grupos.
x . , y'. ,(u'y)
- Si el F calculado es igual o mayor que el valor crtico, se rechaza H0, y el rechazarla indica
que la probabilidad de que los datos observados venan de las poblaciones descritas por
H0 es .
- Sin embargo, lo nico que se concluye en tal caso es que las k medias poblacionales no son
iguales, no si una es mayor o menor que otra.
Fuente de Variacin Suma de Cuadrados Grados de Libertad Cuadrados Medios
y -&
M (M )" 1 -
M. .
y
g-LJg JbcC?
M M (M )" 1 g-LJg JbcC? =
g-LJg JbcC?
M.
y -& y
g-LJC JbcC?
" g-LJC JbcC? =
M (M M ) M 1 =
g-LJC JbcC?
M. . M.
Nota: Para cada fuente de variacin, la cantidad entre parntesis indica la variacin calculada: k
corresponde al nmero de grupos; Xij es el dato j en el grupo i; M es la media de los datos en el grupo
i; es la media de los N datos (total).
- Puede ocurrir que los nicos datos que tengamos sean las medias para los k grupos y alguna
medida de variabilidad basada en las varianzas de cada grupo. Esto significa que tenemos
M y o SCi, si2, si o sx para cada grupo, en vez de los valores individuales de M . Si los tamaos
muestrales, ni, se conocen, se puede realizar el ANOVA:
1. Determinar la suma de cuadrados o la varianza muestral para cada grupo:
Luego calcular:
y y
. = " = k = = y
- Sin embargo, existen instancias en las cuales los niveles de un factor a ser puesto a prueba
deben ser elegidos aleatoriamente. En este ANOVA de efectos aleatorios, o ANOVA tipo II,
todos los clculos son idnticos al ANOVA tipo I, pero la hiptesis nula se expresa mejor
como:
- No normalidad
o El efecto de datos no normales es mayor a medida que los datos sean menos
normales.
o El efecto es menor si el tamao muestral es igual o si los ni son desiguales pero
grandes, o si las varianzas son iguales.
- Varianzas
o Si las varianzas de las k poblaciones no son iguales, el ANOVA es liberal (* la
probabilidad de error tipo I excede a) siempre y cuando los tamaos muestrales
sean iguales. La extencin a la cual la prueba es liberal incrementa con una mayor
heterogeneidad de varianza y disminuye con un menor tamao muestral.
Qu tipo de
prueba
multimuestral
utilizar Prueba de
(1) Probar la
Behrens Fisher
ANOVA normalidad
Prueba de
utilizando la (2) No realizar
F Kruskal Wallis
distribucin F pruebas de
hiptesis.
F
Poder del ANOVA
y y
M.(M )" M. M
= =
"
- El poder es mayor cuando las diferencias entre las medias de grupos son mayores
(cuando incrementa (M )" ).
- El poder es mayor a medida que incrementa el tamao muestral, ni (y es mayor
cuando los tamaos muestrales son iguales).
- El poder es mayor para menos grupos k.
- El poder es mayor para una varianza (s2) dentro de grupos menor (estimada por s2,
CM dentro de grupos).
- El poder es mayor cuando se utilizan mayores niveles de significancia, a.
Fuentes de Varianza
- La suma de cuadrados total es una medida de la varianza dentro de todos los datos
en la muestra. Para el ANOVA de dos factores el concepto es el mismo:
Z D -
- Ahora consideremos la varianza entre celdas, tratando las celdas como se trataban
a los grupos en el ANOVA unifactorial:
Z D
"
IgfZ? = M IgfZ? = ( ) 1
M. .
Los clculos indicados arriba son anlogos a aquellos para el ANOVA unifactorial, pero uno
de los deseos en el ANOVA bifactorial es evaluar los efectos de los factores independientemente
uno del otro. Esto se realiza considerando el factor A como el nico factor en un ANOVA unifactorial
y luego considerando el factor B como el nico factor.
- Para el factor A:
Z
"
ZILCJ o = M ZILCJ o = 1
M.
- Para el factor B:
D
"
ZILCJ = ZILCJ = 1
.
Generalmente la varianza entre las celdas no es igual a la varianza entre los niveles del factor
A ms la varianza entre los niveles del factor B. La cantidad de varianza que no se explica es debido
al efecto de la interaccin entre los factores A y B.
Z D -
Z D
" IgfZ?
IgfZ? = M ( ) 1
IgfZ?
M. .
Z
ZILCJ o
ZILCJ o = M " 1
ZILCJ o
M.
D
" ZILCJ
ZILCJ = 1
ZILCJ
.
o E
o E = IgfZ? ZILCJ o ZILCJ 1 ( 1)
o E
Z D -
g-LJC IgfZ?
g-LJC IgfZ? = (Mf M )" ( ) ( 1)
g-LJC IgfZ?
M. . f.