Você está na página 1de 106

Comisin de Bioestadstica

Universidad de Murcia





Ao: 2011/2012
Comisionista: Javier Snchez Romero
Asignatura: Bioestadstica
Profesores: Manuel Canteras Jordana y Domingo Prez Flores
Facultad de Medicina Universidad de Murcia

Prlogo
La bioestadstica es de las pocas asignaturas de nmeros que hay en la carrera. Dado
que no todos hemos podido estudiar en cursos o tramos de nuestra vida anteriores
asignaturas de matemticas ni de estadstica resulta muy interesante una introduccin a ello.
Bajo la apariencia de facilidad que presenta la bioestadstica debemos de saber que
sus lmites son inmensos y que esto es slo un pequeo halo de luz del gran foco que
representa la estadstica en general y la bioestadstica en particular. Este pequeo halo de luz
nos es ms que suficiente para poder resolver los problemas cotidianos que se nos pueden
presentar a la hora de elaborar un trabajo que requiera de la estadstica para adquirir cierto
rigor cientfico.
Tal y como seala el profesor Canteras Jordana: La bioestadstica se podra definir
como aquella disciplina que aplica los mtodos estadsticos en la Investigacin de las ciencias
socio-sanitarias. As, pues, la Bioestadstica se inserta dentro del mtodo cientfico
experimental aplicando los mtodos estadsticos, o sea, diseando experimentos de
observacin, analizando los datos obtenidos e interpretando los resultados de dichos anlisis.
Tres son, entonces, los campos de desarrollo de la Bioestadstica: el diseo de experimento, el
anlisis de los datos y la interpretacin de esos anlisis.
1

Esta comisin tiene como finalidad facilitar el estudio de la Bioestadstica mediante un
enfoque de alumno. La redaccin de la misma la hago desde el altruismo y el compaerismo.
Javier Snchez Romero

1
Campos Aranda, M. Problemas de Bioestadstica resueltos paso a paso. 3 ed. Murcia: Diego
Marn Editores; 2011.
ndice
Bloque 1: Estadstica Descriptiva ................................................................................................................... 5
Tema 1: Tipos de variables estadsticas .......................................................................................................... 5
Tema 2: Tabulacin y representaciones grficas de frecuencias .................................................................... 6
Tema 3: Caractersticas de una variable estadstica: Medidas de posicin .................................................. 12
Tema 4: Caractersticas de una variable estadstica: Medidas de dispersin. Tipificacin ........................... 19
Bloque 2: Teora de la probabilidad ............................................................................................................. 25
Tema 5: Sucesos aleatorios: lgebra de sucesos. Concepto de probabilidad. Axiomas de probabilidad y
Regla de Laplace. Probabilidad condicionada y teorema de Bayes. Test diagnsticos ................................. 25
Tema 6: Variable aleatoria ............................................................................................................................ 37
Tema 7: Distribuciones discretas: Modelo Binomial, Poisson ....................................................................... 40
Tema 8: Distribuciones continuas: Distribucin normal. Aproximaciones. Teorema central del lmite ....... 45
Bloque 3: Estadstica Inferencial: Estimacin y contraste ........................................................................... 51
Tema 9: Teora de muestras: Tipos de muestreo .......................................................................................... 51
Tema 10: Teora de la estimacin: conceptos fundamentales ...................................................................... 52
Tema 11: Estimacin puntual y por intervalos de la media y de la proporcin ............................................ 56
Tema 12: Test de hiptesis estadstica. Conceptos fundamentales ............................................................. 59
Tema 13: Contraste de la media y de la proporcin ..................................................................................... 61
Bloque 4: Anlisis de la variabilidad ............................................................................................................ 66
Tema 14: Contrastes paramtricos de igualdad de dos medias. .................................................................. 66
Tema 15: Contrastes paramtricos de igualdad de dos proporciones .......................................................... 71
Tema 16: Contrastes no paramtricos de igualdad de dos medias .............................................................. 72
Tema 17: Contrastes no paramtricos: Contraste de una distribucin. Tablas de contingencia .................. 72
Tema 18: Anlisis de regresin y correlacin ............................................................................................... 81
Tema 19: Contraste de igualdad de varias medias: ANOVA de varios factores ............................................ 90
Anexos ........................................................................................................................................................ 100
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 5
Bloque 1: Estadstica Descriptiva
Tema 1: Tipos de variables estadsticas
El objetivo de la estadstica es el conocimiento de una poblacin estadstica. Una
poblacin estadstica es el conjunto de datos u observaciones que se genera mediante la
observacin de una caracterstica.
La poblacin estadstica se caracteriza por tener variabilidad, es decir, tiene muchas
caractersticas. Las modalidades de cada caracterstica son observables (Tabla 1). Por ejemplo:
Sexo : Hombre / Mujer
Caracterstica Modalidad
Tabla 1 - Modalidades de una caracterstica.
Atendiendo a las modalidades podemos clasificar las caractersticas (Tabla 2) en:
cualitativas y cuantitativas. As adquieren el rango de variables estadsticas. A su vez
atendiendo a la naturaleza de las modalidades de variables cuantitativas podemos distinguir
dos grandes grupos:
- Variables cuantitativas discretas: Son aquellas variables cuantitativas cuyas
modalidades presentan valores finitos, o como mucho, infinitos numerables.
- Variables cuantitativas continuas: Son aquellas variables cuantitativas cuyas
modalidades presentan valores infinitos y con la potencia del continuo, es
decir, que entre dos modalidades siempre hay otra en medio.

Tabla 2 - Tipos de caractersticas.
Las caractersticas se clasifican en cuantitativas o cualitativas atendiendo a la
observacin estadstica de la poblacin. Por ejemplo: Normalmente clasificaramos la
caracterstica tensin arterial como una variable cuantitativa porque sus valores son numricos
(mm. de Hg), pero si clasificamos los valores en: hipotensos, normotensos e hipertensos,
entonces la caracterstica tensin arterial la clasificaramos como una variable cualitativa.
Caractersticas
Cuantitativas
Discretas
Continuas
Cualitativas
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 6
Del mismo modo, la variable color del pelo generalmente es clasificada como una
variable cualitativa atendiendo a diferentes colores: marrn, negro, amarillo, blanco, gris,
naranja pero sin embargo si medimos el color en funcin de su longitud de onda (m.)
entonces la caracterstica color del pelo se clasifica como una variable cuantitativa continua.
Los estudios de variables cuantitativas respecto a una poblacin estadstica, arrojan
mucha ms informacin que un estudio de la misma variable desde un punto de vista
cualitativo de la misma poblacin.
Es frecuente la utilizacin de intervalos para agrupar los valores de variables
cuantitativas continuas. Cada uno de estos intervalos recibe el nombre de intervalo de clase y
su punto medio se denomina marca de clase. El nmero de intervalos no est definido, es
decir, que puede ser muy variado. Pero cuantos ms intervalos se tomen ms informacin se
recoge pero es ms difcil manejarla. La amplitud de cada intervalo tampoco est definida, se
tiende a que todos los intervalos tengan la misma amplitud, pero no es obligatorio. Cada
intervalo queda definido as: [

,
+1
)
Donde

es el lmite inferior del intervalo y s pertenece a dicho intervalo. Y donde


+1

es el lmite superior del intervalo y no pertenece a dicho intervalo.
Tema 2: Tabulacin y representaciones grficas de frecuencias
La estadstica descriptiva estudia la descripcin de una poblacin estadstica. Para ello
se emplean las frecuencias.
La frecuencia absoluta (n
i
) se define como el nmero de veces que se repite una
modalidad. Su propiedad ms caracterstica es:

=
La frecuencia relativa (f
i
) se define como el cociente entre la frecuencia absoluta de
una modalidad y el nmero total de observaciones. Se utiliza para comparar poblaciones
distintas. Y se expresa en tanto por 1 y puede tomar valores comprendidos entre 0 y 1. Es muy
comn su representacin en tanto por cien. Queda definido por la expresin:

[0,1]
Su propiedad ms caracterstica es:

= 1

Para comparar las frecuencias de las modalidades de una caracterstica de una
poblacin se utilizan las tablas estadsticas:
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 7
Grupo Sanguneo


A 19 0.24
B 10 0.13
AB 3 0.04
0 36 0.46
NS/NC 11 0.14
79 1
Tabla 3 - Tabla estadstica del grupo sanguneo.
Hermanos por familia (n/f)


1 4 0.06
2 39 0.54
3 21 0.29
4 5 0.07
5 o ms 3 0.04
72 1
Tabla 4 - Tabla estadstica del nmero de hermanos por unidad familiar.
Peso (Kg.)


<55 13 0.15
55-61 21 0.24
61-67 22 0.25
67-73 13 0.15
73-79 11 0.13
79-85 4 0.05
85 ms 4 0.05
88 1
Tabla 5 - Tabla estadstica del peso (Kg.).
Representaciones grficas de frecuencias absolutas y relativas de
variables estadsticas
Para la representacin grfica de frecuencias absolutas y relativas de variables
estadsticas se emplean principalmente cuatro modelos (Tabla 6).
Representacin
grfica
Uso recomendado
Parmetro del que
depende
Diagrama
rectangular
Frecuencias absolutas de variables
cualitativas
Altura del rectngulo
Diagrama sectorial
Frecuencias relativas de variables
cualitativas
ngulo del sector
Diagrama de barras Variables cuantitativas discretas Longitud del segmento
Histograma Variables cuantitativas continuas rea del rectngulo
Tabla 6 - Representacin grfica.
Diagrama rectangular
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 8
El diagrama rectangular se utiliza para representar frecuencias absolutas de una
variable cualitativa.
Construccin: Sobre un eje se levantan rectngulos, uno por cada modalidad, de forma
que la altura de cada rectngulo sea proporcional a la frecuencia. Para observar las diferencias
entre las modalidades se compara la altura de cada rectngulo Por ejemplo, atendiendo a la
Tabla 3 vamos a realizar el diagrama rectangular de su frecuencia absoluta:
Grupo Sanguneo

A 19
B 10
AB 3
0 36
NS/NC 11
79
Tabla 3 Tabla estadstica del grupo sanguneo

Tabla 7 - Diagrama rectangular de la Tabla 3.
Diagrama sectorial
El diagrama sectorial se emplea para representar frecuencias relativas de una variable
cualitativa.
Construccin: Sobre un crculo se establecen sectores circulares, uno por cada
modalidad, de forma que el rea de cada sector circular sea proporcional a la frecuencia. Para
observar las diferencias entre las modalidades se compara el ngulo de cada sector circular.
0
5
10
15
20
25
30
35
40
A B AB 0 NS/NC
Grupo
Sanguneo
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 9
El rea del crculo queda definida por la expresin: =
2

El rea de cada sector circular queda definido por la expresin: =
2

360

Donde

es el ngulo en grados del sector circular y queda definido por:

= 360


Por ejemplo, atendiendo a la Tabla 3 vamos a realizar el diagrama sectorial de la
frecuencia absoluta:
Grupo Sanguneo


A 0.24 86.4
B 0.13 46.8
AB 0.04 10.8
0 0.46 162
NS/NC 0.14 46.8
1 360
Tabla 3 Tabla estadstica del grupo sanguneo.

Tabla 8 - Diagrama sectorial de la Tabla 3.
Diagrama de barras
El diagrama de barras se utiliza para representar las frecuencias absolutas y relativas
de una variable cuantitativa discreta.
A
B
AB
0
NS/NC
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 10
Construccin: Sobre un eje coordenado
2
se levantan perpendicularmente segmentos,
uno por cada modalidad, de manera que la altura de cada segmento sea proporcional a la
frecuencia. Para observar las diferencias entre dos modalidades se compara la altura de cada
segmento.
Por ejemplo, atendiendo a la Tabla 4 realizaremos el diagrama de barras de su
frecuencia absoluta (Tabla 9) y otro igual de su frecuencia relativa (Tabla 9 bis):
Hermanos por familia (n/f)


1 4 0.06
2 39 0.54
3 21 0.29
4 5 0.07
5 o ms 3 0.04
72 1
Tabla 4 Tabla estadstica del nmero de hermanos por unidad familiar.

Tabla 9 - Diagrama de barras de la Tabla 4.

Tabla 9 bis Diagrama de barras de la Tabla 4.

2
Eje coordenado: El eje coordenado tiene un origen de medida y una unidad de medida que se
repite entre un valor y otro.
0
10
20
30
40
50
1 2 3 4 5 ms
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 ms
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 11
Histograma
El histograma se usa para representar las frecuencias absolutas y relativas de una
variable cuantitativa continua.
Construccin: Sobre un eje coordenado
1
se construyen rectngulos yuxtapuestos, uno
por cada modalidad, de forma que el rea de cada rectngulo sea proporcional a la altura.
Si el histograma se realiza en funcin de frecuencias absolutas, el rea de cada
rectngulo se define como:


Si el histograma se realiza en funcin de frecuencias relativas, el rea de cada
rectngulo se define como:


En ambas igualdades

es igual a la amplitud de la clase.


Por convenio, a las clases abiertas (las de los extremos) se les asigna amplitudes
iguales a las de sus vecinas para as poder calcular el rea proporcional a la frecuencia de esa
clase. El rea total del histograma es igual a la suma de las frecuencias. Si el histograma se
realiza sobre frecuencias absolutas el rea total es igual al nmero total de observaciones. Si el
histograma se realiza sobre frecuencias relativas el rea es igual a 1.
Por ejemplo, atendiendo a la Tabla 5 realizaremos su histograma:
Peso (Kg.)


<55 13 0.15 1 13 13
55-61 21 0.24 1 21 21
61-67 22 0.25 1 22 22
67-73 13 0.15 1 13 13
73-79 11 0.13 1 11 11
79-85 4 0.05 1 4 4
85 ms 4 0.05 1 4 4
88 1 88
Tabla 5 Tabla estadstica del peso (Kg.).
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 12

Tabla 10 - Histograma de la Tabla 5.
Sobre el histograma se construye el polgono de frecuencias uniendo los puntos
medios de las bases superiores de los rectngulos, de forma que el rea que encierra el
polgono de frecuencias con el eje de coordenadas sea igual que el rea del histograma. Los
rectngulos de los extremos, que corresponden a las modalidades de los extremos se unen con
la mitad de un rectngulo imaginario de altitud cero y de amplitud igual a la de los extremos.
Por ejemplo, atendiendo a la Tabla 5 realizaremos su histograma y su polgono de frecuencias:
Tema 3: Caractersticas de una variable estadstica: Medidas de
posicin
Las caractersticas de una variable se reflejan mediante el anlisis de las frecuencias de
las variables de una poblacin. Se diferencian cuatro tipos de medidas descriptivas:
0
5
10
15
20
25
<55 55-61 61-67 67-73 73-79 79-85 85 ms
0
5
10
15
20
25
<55 55-61 61-67 67-73 73-79 79-85 85 ms
Tabla 11 - Histograma y polgono de frecuencias de la Tabla 5.
0
5
10
15
20
25
<55 55-61 61-67 67-73 73-79 79-85 85 ms
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 13
a) Medidas de posicin: Dividen un conjunto ordenado de datos en grupos con la
misma cantidad de individuos. Destacan los cuartiles, deciles, percentiles
b) Medidas de posicin central: Con un solo dato (a veces varios) describe la
poblacin. Destacan: Media, Moda y Mediana.
c) Medidas de dispersin: Indican el grado de concentracin de los datos con
respecto a las medidas de centralizacin. Destacan la varianza, la desviacin
tpica y el rango.
d) Medidas de forma: Describen la morfologa de la poblacin. Destacan la
asimetra y el apuntamiento.
Medidas de posicin central
Las medidas de posicin central son valores que describen con un nico dato cmo es
la poblacin respecto a una observacin. Son los representantes de la poblacin. Conociendo
el valor de un representante ya se intuye la descripcin global de la poblacin. Destacan:
moda, media y mediana.
Por definicin un buen representante de la poblacin debe de ser muy sensible a
transformaciones lineales y muy insensible a fluctuaciones extremas.
Moda
Definicin: La moda es aquel valor de la variable que representa mayor frecuencia.
Interpretacin: Es muy intuitiva, es el valor que ms se repite.
Propiedades: Es una medida de posicin central, por lo tanto representa a la
poblacin. Como es un valor de una variable toma las mismas unidades que esta. No tiene por
qu ser nica (pueden existir dos valores que se repitan el mismo nmero de veces). Es
insensible a fluctuaciones extremas
3
y es muy sensible a transformaciones lineales
4
. La nica
medida de posicin central utilizada en poblaciones cualitativas.
Aplicaciones: Se utiliza para representar poblaciones asimtricas de variables
cuantitativas discretas y para variables cualitativas.
La moda representa mejor que ningn otro representante, una poblacin respecto a
una variable cuantitativa discreta asimtrica.
Para calcular la moda de variables cuantitativas continuas se utiliza la siguiente
expresin:

+

1

1
+
2



3
Fluctuaciones extremas: Repercusiones debidas a la existencia de valores muy altos o bajos en
los extremos.
4
Transformaciones lineales: Transformaciones en los datos repercuten del mismo modo en la
medida de posicin central.
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 14
Donde:
-

representa el lmite inferior de la clase modal.


-
1
representa la diferencia entre la frecuencia absoluta del intervalo modal y
la frecuencia absoluta del intervalo anterior.
-
2
representa la diferencia entre la frecuencia absoluta del intervalo modal y
la frecuencia absoluta del intervalo posterior.
-

representa la amplitud de la clase modal.


- La clase modal es la clase que presenta mayor frecuencia.
Por ejemplo, atendiendo a la Tabla 5 procedemos a hallar su moda:
Peso (Kg.)


<55 13 0.15 1
55-61 21 0.24 1
61-67 22 0.25 1
67-73 13 0.15 1
73-79 11 0.13 1
79-85 4 0.05 1
85 ms 4 0.05 1
88 1
Tabla 5 - Tabla estadstica del peso (Kg.).

+

1

1
+
2

= 61 +
1
1 +9
6 = 61.6 .
Mediana
Definicin: La mediana es aquel valor de la variable tal que el 50% de los datos son
inferiores a ella y el otro 50% son superiores.
Interpretacin: Es muy intuitiva, la mediana se sita en el medio.
Propiedades: Es una medida de posicin central, por lo tanto representa a la
poblacin. Como es un valor de una variable toma las mismas unidades que esta. Es nica. Es
poco sensible a fluctuaciones extremas
2
y es muy sensible a transformaciones lineales
3
.
Aplicaciones: Es recomendable su uso en poblaciones simtricas respecto a variables
cuantitativas continuas.
Por ejemplo, atendiendo a 5 valores cuales quiera que estn ordenados (Tabla 12),
procedemos a obtener la mediana:
Sin ordenar 8 1 4 3 5
Ordenados 1 3 4 5 8
Tabla 12 - Nmero de valores impares para el clculo de la mediana.
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 15
El valor de la mediana para pocos datos es muy fcil de calcular. Si se tratase de una
poblacin de nmero total de observaciones pares escogemos de los dos valores que se sitan
en el centro el menor de ellos. Por ejemplo, atendiendo a 6 valores cuales quiera que estn
ordenados (Tabla 13) procedemos a obtener la mediana:
Sin ordenar 8 1 4 3 5 6
Ordenados 1 3 4 5 6 8
Tabla 13 -Nmero de valores pares para el clculo de la mediana.
Aunque su uso es poco recomendable, si pretendemos encontrar la mediana de una
poblacin respecto a una variable cuantitativa continua procedemos a encontrar el trmino
medio:

2

Y a partir de entonces encontramos la clase mediana. Despus encontramos la media
utilizando la siguiente expresin:

2

(1)


Donde:
-

es el lmite inferior de la clase mediana.


-

2
representa la mitad de las observaciones totales.
-
(1)
representa la suma de frecuencias anteriores a la clase mediana.
-

representa la frecuencia absoluta de la clase mediana.


-

representa la amplitud de la clase mediana.


- La clase mediana es la clase en la que se localiza la mediana.
Por ejemplo, atendiendo a la Tabla 5 procedemos a obtener la mediana:
Peso (Kg.)


<55 13 0.15 1
55-61 21 0.24 1
61-67 22 0.25 1
67-73 13 0.15 1
73-79 11 0.13 1
79-85 4 0.05 1
85 ms 4 0.05 1
88 1
Tabla 5 Tabla estadstica del peso (Kg.).

2

(1)

= 61 +
44 34
22
6 = 63.7 .
Media
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 16
Partiendo de un conjunto de valores que denominaremos como:
1
,
2
,
3
, ,


Definicin: La media es

1
+
2
+
3
+...+

, es decir =


Interpretacin: Se trata de un representante desprovisto de intuicin y por lo tanto
carece de interpretacin intuitiva.
Propiedades: Es una medida de posicin central, por lo tanto representa a la
poblacin. Toma las mismas unidades que esta. Es nica. Es muy sensible a fluctuaciones
extremas
2
y es sensible a transformaciones lineales
3
.
Aplicaciones: Se aplica cuando los datos son parecidos y estn poco dispersos. Es
recomendable su uso en poblaciones simtricas.
Por ejemplo, si estudiamos una variable cuantitativa discreta, atendiendo a la Tabla 4
procedemos a encontrar la media:
Hermanos por familia (n/f)


1 4 0.06 4
2 39 0.54 78
3 21 0.29 63
4 5 0.07 20
5 o ms 3 0.04 15
72 1 180
Tabla 4 Tabla estadstica del nmero de hermanos por unidad familiar.
=

=
4 +78 +63 +20 +15
72
=
180
72
= 2.5 /
Por ejemplo, si estudiamos una variable cuantitativa continua, atendiendo a la Tabla 5
procedemos a encontrar la media:
Peso (Kg.)


<55 13 0.15 52 676
55-61 21 0.24 58 1218
61-67 22 0.25 64 1408
67-73 13 0.15 70 910
73-79 11 0.13 76 836
79-85 4 0.05 82 328
85 ms 4 0.05 88 352
88 1 5728
Tabla 5 Tabla estadstica del peso (Kg.).
Para calcular la media en variables cuantitativas se recurre al concepto de marca de
clase (

) para poder encontrar el trmino

. Para calcular la marca de clase (

) se
encuentra el trmino medio de la clase con la expresin:
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 17

+
+1
2

Para las clases de los extremos se toma la amplitud igual a la de su vecina. Tras
encontrar la marca de clase se contina con el procedimiento normal.
=

=
676 +1218 +1408 +910 +836 +328 +352
88
=
5728
88
= 65.1 .
Medidas de posicin
Las medidas de posicin sirven para situar un dato dentro de una poblacin. Esto
permite que un representante de la poblacin pueda ser comparado. Existen varios tipos de
medidas de posicin:
- Cuartiles: Los cuartiles descomponen la poblacin en cuatro partes que contienen el
mismo porcentaje de datos (25%). Son tres:
1
,
2
y
3
.
Por lo que a nivel de
1
un 25% de los datos son inferiores a l. A nivel de
2
un 50%
de los datos son inferiores a l, es decir
2
=
1
=
5
=

. Y a nivel de
3
un 75% de
los datos son inferiores a l.
- Deciles: Los deciles descomponen la poblacin en diez partes que contienen el mismo
porcentaje de datos (10%). Son nueve:
1
,
2
,,
9
.
De modo intuitivo se sabe que a nivel de
1
un 10% de los datos son inferiores a l, a
nivel de
2
un 20% de los datos son inferiores a l A nivel de
5
el 50% de los datos
son inferiores a l, es decir
5
=
2
=
1
=

.
- Percentiles: Los percentiles descomponen la poblacin en cien partes que contienen el
mismo porcentaje de datos (1%). Son noventa y nueve:
1
,
2
,,
99
.
De modo intuitivo se sabe que a nivel de
1
el 1% de los datos son inferiores a l, a
nivel de
2
el 2% de los datos son inferiores a l A nivel de
50
el 50% de los datos
son inferiores a l, es decir que
1
=
5
=
2
=

.
Los cuartiles, los deciles y los percentiles se pueden obtener de un modo intuitivo.
Aunque su uso es recomendable para variables cuantitativas continuas, se pueden calcular
tambin para variables cuantitativas discretas.
Para variables cuantitativas continuas se utiliza la expresin:
=

100

(1)


Donde:
-

representa el lmite inferior de la clase.


- representa el porcentaje de datos inferiores a la medida de
posicin.
- representa las observaciones totales.
-
(1)
representa la suma de frecuencias absolutas a la clase de la medida de
posicin.
-

representa la frecuencia absoluta de la clase de la medida de posicin.


Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 18
-

representa la amplitud de la clase de la medida de posicin.


Para calcular los cuartiles, deciles o percentiles respecto a una variable cuantitativa
discreta se obtiene el trmino que ocupa la posicin en cuestin. Por ejemplo, atendiendo a la
Tabla 4 procedemos a calcular
72
:
Hermanos por familia (n/f)


1 4
2 39
3 21
4 5
5 o ms 3
72
Tabla 4 Tabla estadstica del nmero de hermanos por unidad familiar.

72
se define como aquel dato de la variable tal que el 72% de las observaciones son
inferiores a l. Por lo que procedemos a calcular el 72% de las observaciones totales:
0.72 72 = 51.84 52
El dato que ocupa la posicin 52 es 3 n/f.

72
= 3 /
Continuando con otro ejemplo para una variable cuantitativa continua. Atendiendo a
la Tabla 5, procedemos a encontrar el
72
:
Peso (Kg.)


<55 13
55-61 21
61-67 22
67-73 13
73-79 11
79-85 4
85 ms 4
88
Tabla 5 Tabla estadstica del peso (Kg.).
0.72 88 = 63.36 64
64 = [67; 73)

72
=

+
72
100

(1)

= 67 +
63.36 56
13
6 = 70.4 .
Cuando encontramos la posicin del dato multiplicamos el porcentaje de datos
inferiores a la medida de posicin por el nmero total de observaciones. Si el nmero es
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 19
decimal escogemos el de la posicin siguiente para asegurarnos de que el porcentaje escogido
se encuentra inferior a este dato. Dicho de otro modo, para encontrar la posicin del dato
redondeamos al alza.
Tema 4: Caractersticas de una variable estadstica: Medidas
de dispersin. Tipificacin
La dispersin es un sinnimo de variabilidad. La estadstica aparece en las ciencias de
la naturaleza porque existe la variabilidad biolgica. Las medidas de dispersin indican la
concentracin de los datos respecto a las medidas de centralizacin.
Rango o recorrido
El rango o recorrido es una medida de dispersin que se calcula fcilmente. Es muy
sensible a fluctuaciones extremas y solamente se utiliza en casos con poca dispersin, como en
controles de calidad de maquinarias.
Se define como

.
Edades de un matrimonio

Rango
29 31 30 2
25 35 30 10
20 40 30 20
18 42 30 24
Tabla 14 - Medidas de dispersin.
Desviacin absoluta
Se define como desviacin absoluta la suma de las diferencias en valor absoluto entre
las observaciones y la media.
= (|

|)
Se utiliza el valor absoluto para que los valores inferiores a la media se tengan en
cuenta y no desvirte la diferencia entre las observaciones y la media.
Por ejemplo, partiendo de cinco datos diferentes:
0 1 5 9 10
=

=
0 +1 +5 +9 +10
5
= 5
= (

) = |0 5| +|1 5| +(5 5) +(9 5) +(10 5) = 18


Desviacin absoluta media
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 20
La desviacin absoluta media (DAM) es la media de las desviaciones absolutas.
=

=
(|

|)


Por ejemplo, partiendo de los datos utilizados en el ejemplo anterior:
0 1 5 9 10
=

=
(|

|)

=
|0 5| +|1 5| +(5 5) +(9 5) +(10 5)
5
= 3.6
Varianza
La varianza (
2
) o desviacin cuadrtica media es la media de las desviaciones al
cuadrado. Nunca puede ser negativa. Se expresa en unidades cuadrticas.

2
=
()
2

=
(|

|)
2


2

En el caso de que se trate de una variable cuantitativa discreta y de que los datos estn
agrupados en clases debemos de utilizar la siguiente expresin:

2
=

(|

|)
2


2

Por ejemplo, tomando como base los datos utilizados en los dos ejemplos anteriores
procedemos a calcular la varianza:
0 1 5 9 10

2
=


2
=
0
2
+1
2
+5
2
+9
2
+10
2
5
5
2
= 16.4
Si tenemos una poblacin ms grande y la variable de la que queremos calcular la
varianza es cuantitativa discreta, como se da el caso en la Tabla 4, procedemos a calcular la
varianza:

Hermanos por familia (n/f)


1 4 0.06 4 4
2 39 0.54 78 156
3 21 0.29 63 189
4 5 0.07 20 80
5 o ms 3 0.04 15 75
72 1 180 504
Tabla 4 Tabla estadstica del nmero de hermanos por unidad familiar.
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 21
=

=
180
72
= 2.5

2
=


2
=
504
72
2.5
2
= 7 6.25 = 0.75
2
/
2

Si trabajamos con variables continuas podemos ilustrar la situacin con la Tabla 5:

Peso (Kg.)


<55 13 0.15 52 676 35152
55-61 21 0.24 58 1218 70644
61-67 22 0.25 64 1408 90112
67-73 13 0.15 70 910 63700
73-79 11 0.13 76 836 63536
79-85 4 0.05 82 328 26896
85 ms 4 0.05 88 352 30976
88 1 5728 381016
Tabla 5 Tabla estadstica del peso (Kg.).

=

=
5728
88
= 65.09

2
=


2
=
381016
88
65.09
2
= 92.9 .
2

Desviacin tpica
La desviacin tpica () se define como la raz cuadrada de la varianza. Posee las
mismas unidades que la variable.
=

2

Por ejemplo, en los cinco datos agrupados de los trminos anteriores la desviacin
tpica es:
0 1 5 9 10

2
=


2
=
0
2
+1
2
+5
2
+9
2
+10
2
5
5
2
= 16.4
=

2
= 16.4 = 4.05
Si estamos estudiando una variable cuantitativa continua, como es el caso de la Tabla
5, procedemos de este modo:
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 22
Peso (Kg.)


<55 13 0.15 52 676 35152
55-61 21 0.24 58 1218 70644
61-67 22 0.25 64 1408 90112
67-73 13 0.15 70 910 63700
73-79 11 0.13 76 836 63536
79-85 4 0.05 82 328 26896
85 ms 4 0.05 88 352 30976
88 1 5728 381016
Tabla 5 Tabla estadstica del peso (Kg.).
=

=
5728
88
= 65.09

2
=


2
=
381016
88
65.09
2
= 92.9 .
2

=

2
= 92.9 = 9.64 .
Coeficiente de Variacin
El coeficiente de variacin (C.V.) es una medida de dispersin adimensional que se
expresa como la relacin entre la desviacin tpica y la media:
. . =


Es recomendable su uso cuando la dispersin dependa de la media. Y se utiliza para
comparar dispersiones de poblaciones con distintas unidades o medias muy diferentes.
No es recomendable su uso cuando la media sea prxima a cero.
Por ejemplo, si calcular el coeficiente de variacin de la Tabla 5 procedemos del
siguiente modo:
Peso (Kg.)


<55 13 0.15 52 676 35152
55-61 21 0.24 58 1218 70644
61-67 22 0.25 64 1408 90112
67-73 13 0.15 70 910 63700
73-79 11 0.13 76 836 63536
79-85 4 0.05 82 328 26896
85 ms 4 0.05 88 352 30976
88 1 5728 381016
Tabla 5 Tabla estadstica del peso (Kg.).
=

=
5728
88
= 65.09
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 23

2
=


2
=
381016
88
65.09
2
= 92.9 .
2

=

2
= 92.9 = 9.64 .
. . =

=
9.64
65.09
= 0.15
Intervalo de normalidad
El intervalo de normalidad (. . ) se define como el intervalo que contiene el 95%
central de las observaciones. Su amplitud es de 4 y aporta una interpretacin intuitiva de la
desviacin tpica.
. . = ( 2; +2)

Ilustracin 1 - Intervalo de normalidad.
Por ejemplo, el intervalo de normalidad de la Tabla 5 se corresponde con:
. . . = ( 2; +2) = (45.81; 84.37)
Tipificacin
La tipificacin es una transformacin lineal de la variable consistente en restarle su
media y dividirla por su desviacin tpica:
=
| |


Permite comparar datos individuales de poblaciones distintas.
Por ejemplo si queremos comparar los datos de la Tabla 4 y 5, procedemos a tipificar sus
variables:
Comisin Bioestadstica 11/12

Bloque 1: Estadstica Descriptiva Pgina 24
Hermanos por familia (n/f)


1 4 0.06 4 4
2 39 0.54 78 156
3 21 0.29 63 189
4 5 0.07 20 80
5 o ms 3 0.04 15 75
72 1 180 504
Tabla 4 Tabla estadstica del nmero de hermanos por unidad familiar.
Dato: 2 n/f
= 2.5 / = 0.87

1
=
| |

=
|2 2.5|
0.87
= 0.57
Peso (Kg.)


<55 13 0.15 52 676 35152
55-61 21 0.24 58 1218 70644
61-67 22 0.25 64 1408 90112
67-73 13 0.15 70 910 63700
73-79 11 0.13 76 836 63536
79-85 4 0.05 82 328 26896
85 ms 4 0.05 88 352 30976
88 1 5728 381016
Tabla 5 Tabla estadstica del peso (Kg.).
Dato: 61-67 Kg.
= 65.09 . = 9.64 .

2
=
| |

=
|64 65.09|
9.64
= 0.11
Un nmero de 2 hermanos es ms alto que un peso entre 61 y 67 Kg.
Grado en Medicina
BIOESTADSTICA BIOESTADSTICA
PROBABILIDAD PROBABILIDAD
Domingo Prez Flores Domingo Prez Flores gg
Catedrtico de Bioestadstica
Facultad de Medicina. Universidad de Murcia
Muestra Poblacin

Muestra Poblacin
ESTADSTICA
DESCRIPTIVA
ESTADSTICA
INFERENCIAL
Riesgos de error
PROBABILIDAD
La Probabilidad proporciona una base importante para la comprensin de
la prctica cientfica basada en la Estadstica Inferencial.
La Probabilidad se utiliza de manera habitual, y sin darnos cuenta, en la
actividad cientfica en las Ciencias de la Salud.
La Probabilidad en el acto mdico
Frecuencia de una enfermedad Frecuencia de una enfermedad
(Prevalencia , Incidencia)
Tasas Probabilidades
Diagnstico de una enfermedad Probabilidades
P ti d f d d P b bilid d Pronstico de una enfermedad Probabilidades
Tratamiento de una enfermedad Probabilidades
CONCEPTOS PREVIOS
EXPERIMENTO ALEATORIO:
Todo aquel experimento que cumple las siguientes condiciones:
1.- Antes de realizar una prueba el experimento, no se puede predecir
el resultado el resultado.
2.- El experimento se puede repetir indefinidamente bajo anlogas
condiciones.
SUCESO ALEATORIO:
Cualquier posible resultado de un experimento aleatorio
= Conjunto de todos los posibles resultados de un experimento aleatorio
UNIN DE SUCESOS:
A,B A U B : Cuando sucede A o B o ambos
Ejemplo.- Lanzar un dado



A = 3 B = 6




U A B = 3

INTERSECCIN DE SUCESOS:
A,B A B : Cuando suceden A y B simultneamente
Ejemplo.- Lanzar un dado




A = 2 B = 3



I A B = 6
SUCESO COMPLEMENTARIO:
A : Cuando no ocurre A
SUCESOS ELEMENTALES:
No se pueden expresar como unin de otros sucesos
Ejemplo.- Lanzar un dado
{ } { } { } { } { } { } 1 2 3 4 5 6 { } { } { } { } { } { } 1 , 2 , 3 , 4 , 5 , 6
SUCESOS COMPUESTOS SUCESOS COMPUESTOS:
S se pueden expresar como unin de otros sucesos
Ejemplo.- Lanzar un dado




U U A = 2 = par = 2 4 6

SUCESO SEGURO:
E = Unin de todos los sucesos elementales


E = 1, 2, 3, 4, 5, 6


E 1, 2, 3, 4, 5, 6
SUCESO IMPOSIBLE: SUCESO IMPOSIBLE:
= Complementario del suceso seguro
= E
SUCESOS INCOMPATIBLES:
A y B son incompatibles cuando no pueden ocurrir simultneamente
I A B =
PROBABILIDAD
Concepto: medida de la posibilidad de que ocurra un suceso.
Gran carga intuitiva
Amplia utilizacin de trminos como probable, probablemente, etc..
No existe una definicin nica o definitiva de probabilidad No existe una definicin nica o definitiva de probabilidad
Definiciones de Probabilidad: Definiciones de Probabilidad:
1.- Definicin terica o axiomtica
2.- Definicin clsica
3 - Definicin frecuentista 3.- Definicin frecuentista
DEFINICIN TERICA
Probabilidad es una funcin P : R
A P(A) A P(A)
tal que cumple:
Axioma 1.- P(A) 0 para todo A
Axioma 2.- P(A U B) = P(A) + P(B) para todos A y B incompatibles
Axioma 3.- P(E) = 1 Axioma 3. P(E) 1
Axiomtica de Frechet-Kolmogorov
Propiedades de la Probabilidad
1.- P(A) 1 para todo A
0 P(A) 1
+ Axioma 1
P(A) 1 el suceso es ms posible
P(A) 0 el suceso es menos posible
2.- P() = 1 - P(A)
A j t t i t A = mejora con un tratamiento
P(A) = P(mejora) = 0.75
P(no mejora) = P() = 1 - P(A) = 1 0.75 = 0.25
Propiedades de la Probabilidad
3.- Regla de la Suma
Para 2 sucesos A y B :
P(A U B) = P(A) + P(B) P(AB)
Para 2 sucesos A y B :
P(A U B) P(A) P(B)
Si A y B son incompatibles P(AB) = P() = 0
P(A U B) = P(A) + P(B)
P(A U B U C) = P(A) + P(B) + P(C) P(AB) P(AC) P(BC)
Para 3 sucesos A , B y C :
( ) ( ) ( ) ( ) ( ) ( ) ( )
+ P(ABC)
P i A B C D t f d i il Para varios sucesos A , B , C , D, . :.. etc : se forma de manera similar
Propiedades de la Probabilidad
4.- Regla de Laplace
La probabilidad de un suceso es igual al n de sucesos elementales que lo La probabilidad de un suceso es igual al n de sucesos elementales que lo
componen dividido por el n total de sucesos elementales cuando stos son
equiprobables


Ejemplo.- Lanzar un dado: E = { 1, 2, 3, 4, 5, 6 }
2 1
A = 3 = 3 , 6



2 1
P(A) = =
6 3
1 2 3 4 n
E = e , e , e , e , ...............e



A = e e e e

k 1 2 3 k
A = e , e , e , ........e



Condicin de Laplace :
k
P(A) =
n
1 2 3 n
P(e ) = P(e ) = P(e ) = ............. = P(e )
DEFINICIN CLSICA
N de casos favorables a que ocurra A
N de casos posibles
P(A) =
N de casos posibles
Ejemplo - 8 % de individuos con enfermedad coronaria Ejemplo.- 8 % de individuos con enfermedad coronaria
8
P(A) = = 0.08
100
% con A = P(A) x 100 = 0.08 x 100 = 8 %
Si conocemos el % de individuos con una determinada caracterstica A
100
% con A
P(A) =
100
% A P(A) 100
Si conocemos la probabilidad de que un individuo presente A
% con A = P(A) x 100
Ejemplo.-
En el cncer de pulmn: 73% : Tos (T)
53.8% : Dolor torcico (D)
40% : Ambos sntomas
P(T) = 0.73
P(D) = 0.538
P(TD) = 0.40
1.- % de enfermos con al menos uno de los dos sntomas ?
P(T U D) = P(T) + P(D) P(T D) 86.8 % = 0.73 + 0.538 0.4 = 0.868
DEFINICIN FRECUENTISTA
La probabilidad de un suceso es la frecuencia relativa con que ese
suceso tendr lugar si la experiencia se repite indefinidamente en las g
mismas condiciones
Ejemplo - Lanzamiento de moneda Ejemplo.- Lanzamiento de moneda
1
c
i
a

d
e

c
a
r
a
0.5
F
r
e
c
u
e
n
c
0
10 100 1000 10000 100000 1000000 10000000
N de lanzamientos (escala logartmica)
P( ) 0 5 P(cara) = 0.5
PROBABILIDAD CONDICIONADA
P(A/B) = Probabilidad de que ocurra A, una vez que sucede B
P(A/B) = Probabilidad de que ocurran resultados favorables a A,
restringiendo los resultados posibles a los favorables a B.
N de casos favorables a A, dentro de los favorables a B
N de casos favorables a B
P(A/B) =
P(AB) P(AB)
P(B)
P(A/B) =
Poblacin
A
BB
AB
P(AB)
P(B)
P(A/B) =
P(AB)
P(A)
P(B/A) =
P(B) P(A)
Interpretacin de la Probabilidad Condicionada
P(A/B) = Probabilidad de que, dado que ha ocurrido B, ocurra A.
P(A/B) 100 = % de individuos del suceso condicionante (B) que
presentan el condicionado (A)
En una poblacin: Ejemplo.- p
30% : hipertensos (H)
10% : obesos (O)
P(H) = 0.30
P(O) = 0.10 ( )
50% de los obesos tienen Hipertensin
20% de los hipertensos presentan Obesidad
P(H/O) = 0.50
P(O/H) = 0 20 20% de los hipertensos presentan Obesidad P(O/H) = 0.20
Ejemplo.-
En el cncer de pulmn: 73% : Tos (T)
53.8% : Dolor torcico (D)
40% : Ambos sntomas
P(T) = 0.73
P(D) = 0.538
P(TD) = 0.40
1.- % de enfermos con al menos uno de los dos sntomas ?
P(T U D) = P(T) + P(D) P(T D) 86.8 % = 0.73 + 0.538 0.4 = 0.868
2.- % de enfermos con tos, que presentan dolor torcico ?
P(T D)
P(D/T)
0.40
0 548 54 8 %
P(T)
P(D/T) =
0.73
= = 0.548 54.8 %
Propiedades de la Probabilidad Condicionada
La probabilidad condicionada cumple todos los axiomas y propiedades
definidos para una probabilidad:
Axioma 1.- P(A/B) 0 para todo A,B
Axioma 2 P[(A U A )/B] = P(A /B) + P(A /B) para todos A y A Axioma 2.- P[(A
1
U A
2
)/B] = P(A
1/
/B) + P(A
2
/B) para todos A
1
y A
2
incompatibles
Axioma 3.- P(E/B) = 1
Propiedades de la Probabilidad Condicionada
P(A/B) 1 0 P(A/B) 1
P(/B) = 1 - P(A/B)
P[(A
1
U A
2
) / B] = P(A
1/
/B) + P(A
2
/B) - P[(A
1
A
2
) / B]
Regla del Producto
Para 2 sucesos A y B :
P(AB) ( )
P(B)
P(A/B) =
P(A B) = P(A/B) P(B)
P(AB)
P(A)
P(B/A) =
P(A B) = P(B/A) P(A)
P (A B) = P(A/B) P(B) = P(B/A) P(A)
Para 3 sucesos A A y A : Para 3 sucesos A
1
, A
2
y A
3
:
P (A A A ) = P(A ) P(A /A ) P[A /(A A ) ] P (A
1
A
2
A
3
) = P(A
1
) P(A
2
/A
1
) P[A
3
/(A
1
A
2
) ]
En una poblacin: Ejemplo.-
40% : fumadores (F)
8% : enfermedad coronaria (C)
15% de los fumadores tienen enf. coronaria
P(F) = 0.40
P(C) = 0.08
P(C/F) = 0.15
1 - % de la poblacin que fuma y padece enfermedad coronaria ? 1. % de la poblacin que fuma y padece enfermedad coronaria ?
P (F C) = P(C/F) P(F) = 0.15 x 0.40 = 0.06 6 %
2 % d l bl i f i f ? 2.- % de la poblacin enferma coronaria que fuma?
P(F C)
P(F/C)
0.06
0 75 75 %
P(C)
P(F/C) =
0.08
= = 0.75 75 %
SUCESOS INDEPENDIENTES
A es independiente de B si el hecho de que ocurra B no afecta para
nada a la probabilidad de que ocurra A
P(A/B) = P(A)
Si A es independiente de B B es independiente de A
P(A/B) = P(A) P(B/A) = P(B)
P(A B) = P(A/B) P(B) = P(B/A) P(A) = P(A) P(B)
A B i d di t P(AB) P(A) P(B) A y B independientes P(AB) = P(A) P(B)
En una poblacin: Ejemplo.-
Grupo sanguneo Frecuencia
0 45 %
A 40 %
P(0) = 0.45
P(A) = 0.40
B 10 %
AB 5 %
P(B) = 0.10
P(AB) = 0.05
Si seleccionamos una pareja (varn y mujer) al azar :
P (ambos tipo 0) = P(00) = P(0) P(0) = 0 45 0 45 = 0 2025 P (ambos tipo 0)
P (ninguno tipo A)
= P(00) = P(0) P(0) = 0.45 0.45 = 0.2025
= P( ) = P() P() = 0.60 0.60 = 0.36 ( g p )
P (hombre A y mujer B)
( ) ( ) ( )
= P(A B) = P(A) P(B) = 0.40 0.10 = 0.04
P (uno A y el otro B) = P [(A B) U (B A) ] = P(A B) + P(B A) =
= 0 40 0 10 + 0 10 0 40 = 0 08 = 0.40 0.10 + 0.10 0.40 = 0.08
TEOREMA DE BAYES
Enunciado.- Para dos sucesos condicionantes
Sean A A sucesos incompatibles tales que P(A ) + P(A ) 1
Sea B un suceso que tiene que verificarse necesariamente con A
1
A
2
ambos
Sean A
1
, A
2
sucesos incompatibles, tales que P(A
1
) + P(A
2
) = 1
Conocemos : P(A
1
) P(A
2
)
P(B/A ) P(B/A )
Si ocurre B entonces:
P(B/A
1
) P(B/A
2
)
Si ocurre B, entonces:
( )
( ) ( )
k k
k
P B A P A
P A B = 1, 2 = k ( )
( ) ( ) ( ) ( )
k
1 1 2 2
P A B 1, 2
P B A P A + P B A P A
k
Frmula de Bayes
Frmula de Bayes para 3 sucesos condicionantes :
( )
( ) ( )
( ) ( ) ( ) ( ) ( ) ( )
k k
k
1 1 2 2 3 3
P B A P A
P A B k = 1, 2, 3
P B A P A + P B A P A + P B A P A
=
Frmula de Bayes para n sucesos condicionantes :
( ) ( )
( )
( ) ( )
( ) ( ) ( ) ( ) ( ) ( )
k k
k
1 1 2 2 n n
P B A P A
P A B
P B A P A + P B A P A + . . . . .+ P B A P A
=
Ejemplo.- En la poblacin de recin nacidos (R.N.):
A i 3 5 % d l R N I t i i 48 5 % d l R N i Anoxia : 3.5 % de los R.N. Ictericia : 48.5 % de los R.N. anxicos
No Anoxia : 96.5 % de los R.N. Ictericia : 38 % de los R.N. no anxicos
1 2 1
A Anoxia A A No anoxia B = Ictericia = = =
( ) ( )
( ) ( )
1 1
2 2
P A 0.035 P B A = 0.485
P A 0.965 P B A = 0.38
=
=
1.- Prevalencia de ictericia en la poblacin de R.N.?
( ) ( ) ( )
1 2
P B = P A B A B I U I

( ) ( )
1 2
P A B P A B I I = + =
= 0 485 0 035 + 0 38 0 965 = 0 383 38 3 %
( ) ( ) ( ) ( ) = =
1 1 2 2
P B A P A + P B A P A
= 0.485 0.035 + 0.38 0.965 = 0.383 38.3 %
2 Sabiendo que un R N presenta ictericia cul es la probabilidad 2.- Sabiendo que un R.N. presenta ictericia, cul es la probabilidad
de que padezca anoxia ?
( ) ( ) P A 0 035 P B A = 0 485 = ( ) ( )
( ) ( )
1 1
2 2
P A 0.035 P B A = 0.485
P A 0.965 P B A = 0.38
=
=
Frmula de Bayes
( ) P A B
( ) ( )
= =
1 1
P B A P A
( )
1
P A B
( ) ( ) ( ) ( )
= =
1 1 2 2
P B A P A + P B A P A
= =
+
0.485 0.035
0.044
0.485 0.035 0.38 0.965
4.4 %
Por larga experiencia, se ha estimado que el 6% de las gestantes
presentan bacteriuria. Tambin se sabe que el 30% de las gestantes bacteriricas
Ejemplo.-
p q g
y el 1% de las gestantes no bacteriricas cursan pielonefritis.
Sabiendo que una gestante padece pielonefritis, Cul es la probabilidad de
que presente bacteriuria?
1 2 1
A Bacteriuria A A No bacteriruria B = Pielonefritis = = =
1 2 1
( ) ( ) ( )
1 2 1
P A 0.06 P A 1 P A 0.94 = = =
( ) ( )
1 2
P B A = 0.30 P B A = 0.01
( ) ( )
( )
( ) ( )
( ) ( ) ( ) ( )
= =
1 1
1
1 1 2 2
P B A P A
P A B
P B A P A + P B A P A
= =
0.30 0.06
0.6569
0.30 0.06 + 0.01 0.94
65.69 %
EVALUACIN DE UN TEST DIAGNSTICO
TEST DIAGNSTICO:
Prueba para identificar todo tipo de condiciones clnicas en un paciente: p p p
enfermedad, caractersticas particulares (embarazo, etc..), .
Propsitos de un Test Diagnstico: Propsitos de un Test Diagnstico:
1.- Test para descubrir una enfermedad.
Se aplica el test en personas aparentemente sanas sin sospecha clnica Se aplica el test en personas aparentemente sanas, sin sospecha clnica
de la presencia de esa enfermedad (Screening o cribaje)
2.- Test para confirmar una enfermedad.
Se aplica el test en personas con sospechas clnicas fundadas de la
presencia de esa enfermedad, para verificar esa sospecha.
3.- Test para excluir una enfermedad.
Se aplica el test en personas con dudas de la presencia de esa enfermedad, p p p ,
para descartar la misma.
Resultado Positivo: T+
El test indica que el paciente tiene la condicin clnica
Test
Diagnstico
Resultado Negativo: T-
El test indica que el paciente no tiene la condicin clnica
T t
T+ Tiene el paciente la condicin clnica realmente?
Test
T- Est realmente ausente la condicin clnica en el
paciente? p
Resultado del Test = Realidad ?
Acierto
S
Error
No
Acierto Error
Evaluacin del Test Diagnstico
Eficacia Capacidad Predictiva
ndices de la Eficacia de un test diagnstico
SENSIBILIDAD:
Capacidad del test para diagnosticar correctamente en casos positivos
confirmados (enfermos)
D = Condicin clnica confirmada presente (enfermos)
D = Condicin clnica confirmada ausente (sanos o no enfermos)
s = P (T+ / D) s P (T / D)
s = % de enfermos en los que el test da resultado positivo (T+) q p ( )
ndices de la Eficacia de un test diagnstico
ESPECIFICIDAD:
Capacidad del test para diagnosticar correctamente en casos negativos
confirmados (sanos o no enfermos)
e = P (T- / ) D
e = % de no enfermos en los que el test da resultado negativo (T-)
CAPACIDAD PREDICTIVA DE UN TEST DIAGNSTICO
En la prctica clnica, el propsito del test es predecir o identificar la
condicin clnica (enfermo o sano), que desconocemos, de un paciente .
T+ Tiene el paciente la condicin clnica realmente?
Test
T- Est realmente ausente la condicin clnica en el
paciente?
VALOR PREDICTIVO POSITIVO : VP+ = P ( D / T+ )
VALOR PREDICTIVO NEGATIVO : VP- = P ( / T- ) D
Estimacin de los ndices de la eficacia
Condicin clnica
a b a+b T+
D D
Condicin clnica
a b a+b
c d c+d
T+
T-
Test
n
1
n
2
n
a = casos verdaderos positivos
c = casos falsos negativos
b = casos falsos positivos
d = casos verdaderos negativos
n verdaderos +
d fi d
s =
a
s =
n de + confirmados
n verdaderos -
n
1
d n verdaderos
n de - confirmados
e =
d
n
2
e =
Estimacin de los ndices de la capacidad predictiva
Condicin clnica
a b a+b T+
D D
Condicin clnica
a b a+b
c d c+d
T+
T-
Test
n
1
n
2
n
a = casos verdaderos positivos
c = casos falsos negativos
b = casos falsos positivos
d = casos verdaderos negativos
n verdaderos +
t t l d
VP+ =
a
b
VP+ =
n total de +
n verdaderos -
a+b
d n verdaderos
n total de -
VP- =
d
c+d
VP- =
Ejemplo
43 10 53 T+
D D
a
n
1
s =
43
48
= 0.896 = 89.6 %
5 90 95 T-
48 100 148
1
d
n
2
e =
90
100
= 0.90 = 90 %
48 100 148 2
a
a+b
VP+ =
43
53
= 0.811 = 81.1 %
d
c+d
VP- =
90
95
= 0.947 = 94.7 %
Ejemplo: El mismo test diagnstico con diferentes datos
18 20 38 T+
D D
a
n
1
s =
18
20
= 0.90 = 90 %
2 180 182 T-
20 200 220
1
d
n
2
e =
180
200
= 0.90 = 90 %
20 200 220 2
a
a+b
VP+ =
18
38
= 0.474 = 47.4 %
d
c+d
VP- = 98.9 %
180
= 0.989 =
182
D D D D
43 10 53
5 90 95
T+
T-
18 20 38
2 180 182
T+
T-
48 100 148 20 200 220
s = 89.6 %
e = 90 %
s = 90 %
e = 90 %
VP+ = 81.1 % VP+ = 47.4 %
VP- = 94.7 % VP- = 98.9 %
48
148
p = 0.324 = 32.4 %
20
220
p = 0.091 = 9.1 %
VALOR PREDICTIVO POSITIVO
VP+ = P ( D / T+ )
T+ = B
D = A
1
= A
2
D
Conocemos :
P ( A
1
) = P ( D ) = p P (B / A
1
) = P ( T+ / D ) = s
P ( A
2
) = P ( ) = 1 - p D P (B / A
2
) = 1 P ( / A
2
) = 1 - P (T- / ) = 1 - e B D
VP+ = P ( D / T+) = P ( A
1
/ B ) =
P (B / A
1
) P (A
1
)
( ) (
1
)
P (B / A
1
) P (A
1
) + P (B / A
2
) P (A
2
)
VP+ =
s p
s p + (1 - e)(1 - p) s p (1 e) (1 p)
VALOR PREDICTIVO NEGATIVO
VP- = P ( / T- ) D
T- = B
D = A
1
= A
2
D
VP- =
e (1 p)
(1 s) p + e (1 p) (1 s) p + e (1 - p)
Ejemplo.- En la poblacin de recin nacidos (R.N.):
Anoxia : 3.5 % de los R.N. Ictericia : 48.5 % de los R.N. anxicos
No Anoxia : 96.5 % de los R.N. Ictericia : 38 % de los R.N. no anxicos
D = Anoxia (enfermos) T+ = Ictericia
T- = No Ictericia = No Anoxia (sanos o no enfermos) D
s = P (T+ / D) = 0.485 48.5 %
e = P (T- / ) = 1 - P (T+ / ) = 1 0 38 = 0 62 D D 62 % e = P (T- / ) = 1 - P (T+ / ) = 1 0.38 = 0.62 D D 62 %
p = P (D) = 0.035
0 485 0 035
VP+ = P(D/T+) =
s p
s p + (1 - e)(1 - p)
=
0.485 0.035
0.4850.035 + 0.380.965
= 0.044
e (1 p)
=
0.62 0.965
= 0.971
VP- = P( /T-) = D
(1 s) p + e (1 - p) 0.5150.035 + 0.620.965
0.971
VP P( /T ) D
Si VP+ es alto Test bueno para detectar p
Si VP- es alto Test bueno para descartar Si VP- es alto Test bueno para descartar
s p e (1 p)
VP+ =
p
s p + (1 - e)(1 - p)
VP- =
( p)
(1 s) p + e (1 - p)
Para un test diagnstico con alta eficacia, es decir, con alta sensibilidad y
especificidad ( 80 % ) :
VP+
Si p
VP-
Test bueno para detectar
Si p
VP+
Test bueno para descartar Si p
VP-
Test bueno para descartar
Un test diagnstico con alta sensibilidad y especificidad ( 80 % ) se
puede utilizar:
1.- Como screening o cribaje :
a) En poblaciones
desarrolladas
p VP- bueno para descartar
b) En situaciones
epidmicas
p VP+ bueno para detectar
2.- Como ayuda al diagnstico en consulta : y g
a) Solo en pacientes
con sospecha
p VP+ bueno para detectar
p
b) En pacientes
sin sospecha
p VP- bueno para descartar
VARIABLE ALEATORIA
Concepto necesario para el estudio de modelos tericos que
explican determinados fenmenos situaciones o experiencias explican determinados fenmenos, situaciones o experiencias
biomdicas.
Variable aleatoria:
Definicin terica
Variable aleatoria:
Funcin numrica de los posibles resultados de un experimento
aleatorio, considerndolo antes de su ejecucin.
R
A cada posible resultado le asigna un valor numrico
VARIABLE ALEATORIA
Ejemplos :
E i t l t i
Posibles
resultados
Variable
aleatoria
Lanzar una moneda
Experimento aleatorio resultados aleatoria
Cara 1
Cruz 0
Lanzar un dado 6 caras con 1 2 3
1,2,3,4,5,6
puntos
Par: 1
Impar: 0
4 5 6
Lanzar 2 dados 1,1 Suma de los
Impar: 0
,
1,2
1,3
.
2 dados
P d t d
6.6
Producto de
los 2 dados
VARIABLE ALEATORIA
Ejemplos :
E i t l t i
Posibles
resultados
Variable
aleatoria
Tratamiento
Experimento aleatorio resultados aleatoria
Mejora 1
a un paciente No mejora 0
Tratamiento Nmero de mejoras: 4 resultados
a 4 pacientes
j
0, 1, 2, 3, 4 Mejora /
No mejora
Sexo de un
recin nacido
Varn
Mujer
1
0
Sexo de 6 recin
nacidos
Nmero de varones:
0, 1, 2, 3, 4, 5, 6
6 sexos
Varn / Mujer
VARIABLE ALEATORIA
Ej l Ejemplos :
Experimento aleatorio
Posibles
resultados
Variable
aleatoria p
Aparicin de
nuevos enfermos
Nmero nuevos
enfermos en cada
Varias semanas
concretas nuevos enfermos
en una semana
enfermos en cada
semana:
0, 1, 2, 3, 4,
concretas
Medir la talla de
un individuo
Muestra de
individuos concretos
Talla de cada individuo:
valores en su valores, en su
campo de variacin
Medir la glucemia
de un individuo
Muestras de sangre de
individuos concretos
Glucemia de cada
individuo:
valores en su valores, en su
campo de variacin
VARIABLE ALEATORIA
Variable: su valor vara de unos individuos a
Variable aleatoria
Variable: su valor vara de unos individuos a
otros.
Aleatoria: su valor no se puede predecir antes
de la ejecucin del experimento.
Variables aleatorias
Discretas (contar)
Continuas (medir)
VARIABLE ALEATORIA
Experimento aleatorio
Posibles
resultados
Variable
aleatoria
Tratamiento A
en un paciente
Curacin
No curacin
1
0
Tratamiento B
en un paciente
Curacin
No curacin
1
0
No podemos diferenciar los resultados de los dos tratamientos No podemos diferenciar los resultados de los dos tratamientos
N fi i t l l d t l No es suficiente con conocer los valores que puede tomar la
variable aleatoria
VARIABLE ALEATORIA
Experimento aleatorio
Posibles
resultados
Variable
aleatoria
Probabilidad
Tratamiento A
en un paciente
Curacin
No curacin
1
0
p
0.75
0 25 en un paciente No curacin 0
Tratamiento B
en un paciente
Curacin
No curacin
1
0
0.25
0.90
0 10
Ahora s podemos diferenciar los dos tratamientos
en un paciente No curacin 0 0.10
Ahora s podemos diferenciar los dos tratamientos
B ser mejor que A porque tiene mayor P(curacin)
Necesitamos conocer tambin las probabilidades con que pueden ocurrir
los posibles valores de la variable. p
VARIABLE ALEATORIA
Definicin prctica
Variable aleatoria:
Funcin que hace corresponder un nmero a cada posible resultado q p p
de un experimento aleatorio, considerndolo antes de su ejecucin,
asocindolo con la probabilidad de ocurrir ese resultado.
En la prctica, una variable aleatoria estar formada por: En la prctica, una variable aleatoria estar formada por:
- los valores que puede tomar
- teniendo en cuenta las diversas probabilidades de que los tome - teniendo en cuenta las diversas probabilidades de que los tome
VARIABLE ALEATORIA
Ejemplo :
X = n de resultados T+ en 3 repeticiones de una prueba clnica
realizada a un paciente
X
i
0
P
i
0.0156
1
2
0.1406
0 3125
Funcin de probabilidad
2
3
0.3125
0.5313
Funcin de probabilidad
1
Variable aleatoria
VARIABLE ALEATORIA
X
i
P
k
= Pr ( X=X
k
)
X
1
X
2
P
1
= Pr ( X=X
1
)
P
2
= Pr ( X=X
2
) X
2
X
3
Funcin de probabilidad
2
(
2
)
P
3
= Pr ( X=X
3
)
X
4
.
.
Funcin de probabilidad
P
4
= Pr ( X=X
4
)
.
.
.
.
.
.
( ) X
n
P
n
= Pr ( X=X
n
)
1
Variable aleatoria
VARIABLE ALEATORIA
X
i
P
k
= Pr ( X=X
k
)
X
1
X
2
P
1
= Pr ( X=X
1
)
P
2
= Pr ( X=X
2
) X
2
X
3
2
(
2
)
P
3
= Pr ( X=X
3
)
Distribucin de
probabilidad
X
4
.
.
P
4
= Pr ( X=X
4
)
.
.
.
.
.
.
( ) X
n
P
n
= Pr ( X=X
n
)
1
EXPERIMENTO ALEATORIO
Despus de su ejecucin Antes de su ejecucin
Resultados que han ocurrido:
Variable estadstica
Resultados que pueden ocurrir:
Variable aleatoria
Probabilidad de un valor x
i
: P
i
Frecuencia relativa del valor x
i
:
i
n
N
1 =

i
n
N
1 =
i
P
=

i
i
n
x x
N
=
i i
P x
( )
2
=

i
i
n
s x x
N
( )
2
=
i i
P x
PARALELISMO
Ejemplo:
X = n de varones de una familia de 2 hijos
X = 0, 1, 2
P (varn) = 0.51
P (mujer) = 0.49
, ,
P (X=0) = P(MM) = 0.49 0.49 = 0.2401
P (X=1) = P[(MV) U (VM) ] = P(MV) + P(VM) ] = 0.490.51 + 0.510.49 =
= 0.4998
P (X=2) = P(VV) = 0.51 0.51 = 0.2601 ( ) ( )
X
i
P
i i
0
1
2
i
0.2401
0.4998
0 2601
Distribucin de probabilidad
2 0.2601
1
Modelo terico
MODELOS TERICOS PROBABILSTICOS:
Tipos de distribuciones de probabilidad que sirven para:
- explicar cmo se rigen determinadas situaciones experimentales y
- describir el comportamiento de las variables aleatorias implicadas en ellas.
Una buena parte de las situaciones experimentales que se pueden encontrar
en la medicina se pueden describir por unos pocos modelos tericos.
BINOMIAL
Variable discreta
MODELOS
TERICOS
DE POISSON
Variable discreta
NORMAL
Variable continua
MODELO BINOMIAL
Se utiliza en situaciones en que un experimento dicotmico ( A / no A )
se repite varias veces.
Ejemplo :
Un tratamiento: mejora en el 60% de los pacientes tratados. j p
Se aplica a 4 pacientes X = n mejoras en esos 4 pacientes
Variable aleatoria binomial X = 0, 1, 2, 3, 4
Ej l Ejemplo :
Vacuna contra una enfermedad: el 20% de los vacunados la padecen.
Se aplica a 8 pacientes X = n de esos 8 que pueden padecerla
Variable aleatoria binomial X = 0 1 2 3 4 5 6 7 8 Variable aleatoria binomial X = 0, 1, 2, 3, 4, 5, 6, 7, 8
MODELO BINOMIAL
Pl t i t l Planteamiento general
Condiciones :
1 El lt d d d b d l i t di t i A A 1.- El resultado de cada prueba del experimento es dicotmico: A y no A.
2.- La probabilidad de A es la misma en cada prueba: p = P(A).
3 Se realizan n pruebas del experimento (n veces) 3.- Se realizan n pruebas del experimento (n veces).
4.- Las n pruebas son independientes entre s.
Variable binomial: n de veces que puede ocurrir A en las n pruebas
X = 0, 1, 2, 3, 4, , n
l b bilid d
Puede tomar los valores
n con las probabilidades
( ) ( )
n-r
r
n
P X = r = p 1-p
r



Probabilidades binomiales
n 3
3
n
( ) ( )
n-3
3
n
P X = 3 = p 1-p
3



Si l l d P(X 3) Si conocemos n y p , conoceremos el valor de P(X=3)
El modelo binomial queda caracterizado por los parmetros n y p El modelo binomial queda caracterizado por los parmetros n y p
Se puede demostrar que la media y la desviacin tpica de una
variable binomial son:
= n p
( ) 1 = n p p
p
( ) 1 n p p
Recordatorio de nmero combinatorio Recordatorio de nmero combinatorio
n! = n.(n-1).(n-2).3.2.1 6! = 6.5.4.3.2.1 = 720
( )
n n!
=
r r! n-r !



n,r
n
=
r
C



8 8!
=


8.7.6.5! 8.7.6
= = = 56 =
3 3! 5!


= = = 56
3! 5! 3.2.1
n
= 1
0



n
= 1
n



n
= n
1



Ejemplo :
MODELO BINOMIAL
Ejemplo :
Personas infartadas: mueren el 15% en la primera semana
A t l
Si tenemos 6 personas con infarto:
A
A = muerte a la semana
= no muerte a la semana
Experimento dicotmico :
Si tenemos 6 personas con infarto:
X = n de esos 6 que pueden haber muerto a la semana
Variable aleatoria binomial de parmetros n=6 y p=P(A) = 0.15
X = 0, 1, 2, 3, 4, 5, 6
con las probabilidades
que puede tomar los valores
( ) ( )
n-r
r
n
P X = r = p 1-p
r



( )
6-r
r
6
= 0.15 1- 0.15
r



r

r

MODELO BINOMIAL
Ejemplo (sigue):
1.- Probabilidad de que a la semana mueran 4
4 2
6
= 0.15 0.85 =
4




0.0055 P(x = 4)

2.- Probabilidad de que a la semana muera alguno
P(alguno) = P(x 1) = P(x=1) + P(x=2) + P(x=3) + P(x=4) + P(x=5) + P(x=6)
P(alguno) = P(x 1) = 1 - P(x <1) = 1 P(x=0) = 1 - 0.3771 = 0.6229
P(alguno) = 1 P(ninguno)
Ejemplo (sigue):
3.- Probabilidad de que a la semana mueran al menos 2
P(al menos 2) = P(x 2) = P(x=2) + P(x=3) + P(x=4) + P(x=5) + P(x=6) P(al menos 2) P(x 2) P(x 2) + P(x 3) + P(x 4) + P(x 5) + P(x 6)
= 1 - P(x <2) = 1 [P(x=0) + P(x=1)] = P(al menos 2) = P(x 2)
P(al menos x) = 1 P(no llegue a ser x)
= 1 - (0.3771 + 0.3993) = 0.2236
P(al menos x) = 1 P(no llegue a ser x)
4.- Probabilidad de que a la semana mueran todos q
P(mueran todos) = P(x = 6) = 0.0000..
5.- Probabilidad de que a la semana sobrevivan todos
P(sobrevivan todos) = P(no muera ninguno) = P(x = 0) = 0 3771 P(sobrevivan todos) = P(no muera ninguno) = P(x = 0) = 0.3771
MODELO DE POISSON
Se presenta en situaciones en las que se trata de contar la frecuencia de
un suceso relativamente raro en un espacio de tiempo, longitud, superficie
o volumen.
Tres situaciones experimentales generales en las que procede
utilizar un modelo de Poisson:
1.- Contar la frecuencia de sucesos independientes, distribuidos de manera
aleatoria en el tiempo.
2.- Contar la frecuencia de pequeas partculas independientes, distribuidas
de manera aleatoria en un espacio de longitud, superficie o volumen.
3.- Como aproximacin de un modelo binomial
1.- Contar la frecuencia de sucesos independientes, distribuidos
aleatoriamente en el tiempo aleatoriamente en el tiempo.
Ejemplo : Casos nuevos (incidentes) de una enfermedad en un perodo
de tiempo.
Conocemos la frecuencia media con que aparece esa enfermedad :
m = n casos nuevos / unidad de tiempo (semana) m = n casos nuevos / unidad de tiempo (semana)
En T semanas esperamos = T . m casos nuevos
X = n de casos nuevos que pueden aparecer en esas T semanas
Variable aleatoria de Poisson de parmetro
X = 0, 1, 2, 3,..,
con las probabilidades
que puede tomar los valores
( )
- r
e
P X = r =
Probabilidades
con las probabilidades
( ) P X = r =
r !
de Poisson
( )
- 4
e
P X 4

Si l t l l d P(X 4)
( )
e
P X = 4 =
4 !
Si conocemos el parmetro , conoceremos el valor de P(X=4)
El modelo de Poisson queda caracterizado por el parmetro El modelo de Poisson queda caracterizado por el parmetro
Se puede demostrar que la media y la desviacin tpica de una
variable de Poisson son:
=
=

=
Ejemplo : Casos nuevos (incidentes) de una enfermedad en un perodo
de tiempo de tiempo.
Conocemos : m = 0.5 casos nuevos / semana
En T = 3 semanas esperamos = 3 x 0.5 = 1.5 casos nuevos
X d d 3 X = n de casos nuevos que pueden aparecer en esas 3 semanas
X = 0, 1, 2, 3,..,
1.- Probabilidad de que aparezcan 4 nuevos casos:
( )
-1.5 4
e 1.5
P X 4

0 0471 ( )
e 1.5
P X = 4 = =
4 !
0.0471
2.- Probabilidad de que aparezca algn nuevo caso:
P(alguno) = P(x 1) = 1 - P(x <1) = 1 P(x=0)
= 1 0.2231 = 0.7769
2.- Contar la frecuencia de pequeas partculas independientes
distribuidas aleatoriamente en un espacio distribuidas aleatoriamente en un espacio.
Ejemplo : Distribucin de microorganismos en un volumen
Conocemos la concentracin de esos microorganismos en un medio :
m = n microorganismos/ unidad de volumen (mm
3
) m = n microorganismos/ unidad de volumen (mm )
En V mm
3
esperamos = V . m microorganismos
X = n de microorganismos que pueden aparecer en esos V mm
3
Variable aleatoria de Poisson de parmetro
X = 0, 1, 2, 3,..,
con las probabilidades
que puede tomar los valores
( )
- r
e
P X = r =

con las probabilidades
( ) P X = r =
r !
3.- Como aproximacin de un modelo binomial.
Si tenemos un modelo binomial con
p muy pequeo
n muy grande
y
n muy grande
Las probabilidades binomiales se pueden calcular, de manera aproximada,
mediante las probabilidades de Poisson con = n.p
n r
n
- r
e
( ) ( )
n-r
r
n
P X = r = p 1-p
r



( )
e
P X = r =
r !

Modelo binomial con n y p



Modelo de Poisson con = n.p
En la prctica :
Aproximacin aceptable cuando
p 0.10
y p p y
n.p 5
MODELO NORMAL
n = 40 n = 400
n = 4000 POBLACIN
MODELO NORMAL
curva normal
(curva de Gauss)
X sigue una distribucin normal en la poblacin
X es una variable aleatoria normal
MODELO NORMAL
n = 40 n = 400

X1

X2

X3 X4

X2

X1

X3 X4
n = 4000 POBLACIN

X2

X1

X3 X4

X1

X3 X4

X2
MODELO NORMAL
Propiedades
1.- La distribucin normal es simtrica respecto a la media

Md
En una distribucin normal coinciden la media, la mediana y la moda
Mo
En una distribucin normal coinciden la media, la mediana y la moda
MODELO NORMAL
2.- La curva normal es asinttica respecto al eje de abscisas
Las reas de las colas laterales son despreciables
3.- Los puntos de inflexin de la curva normal estn a una
d i i t i d l di desviacin tpica de la media

- +






- +
- +
4.- Los forma de la curva normal est determinada por la desviacin
t i d l i bl l
Menor desviacin tpica
tpica de la variable normal.
Curva ms estrecha y apuntada Menor desviacin tpica
Mayor desviacin tpica
Curva ms estrecha y apuntada
Curva ms ancha y aplastada
5.- Los ubicacin de la curva normal en la recta real est
determinada por la media de la variable normal.
Menor media Curva ubicada ms a la izquierda
Mayor media Curva ubicada ms a la derecha
Ejemplo :
Dos variables normales con la misma media y distinta desviacin tpica
1 < 2
y p
1 = 2
Ejemplo :
Dos variables normales con distinta media y la misma desviacin tpica
1 < 2
1 = 2
1 2
La variable aleatoria normal est caracterizada por los parmetros y La variable aleatoria normal est caracterizada por los parmetros y
Tipo de informacin que se puede obtener de una variable normal:

media
POBLACIN X sigue una distribucin normal
media
desviacin tpica
X = N ( ;)
Se puede obtener dos tipos de informacin:
1 - Porcentaje de la poblacin que est por debajo (encima) de un valor X0 : 1.- Porcentaje de la poblacin que est por debajo (encima) de un valor X0 :
%?
%?

X0

X2 X3

X1
%?
%?
X0 X2 X3 X1
2.- Valor de la variable, X0 , que deja por debajo (encima) un determinado
porcentaje de la poblacin :
10 %
20 %

X0? X1?
Ejemplo
= 180 mg/dl
X : colesterol srico (mg/dl) distribucin normal
180 mg/dl
= 25 mg/dl
X = N (180 ; 25)
1.- Porcentaje de la poblacin que est por debajo de 146 mg/dl :
Tipificacin
Z =
X -
0.0869 8.69 %

%?
Z =

146

180 0
= -1.36
146 - 180
25
-1.36

Variable normal standard


= 0
Variable normal standard
= 1
-1.36
Filas Columnas
rea = 0.0869
Ejemplo X = N (180 ; 25)
2 - Porcentaje de la poblacin que est por encima de 197 mg/dl : 2. Porcentaje de la poblacin que est por encima de 197 mg/dl :
%?
?
0.7517
= 0.68
197 - 180
25
?
0.2483
24.83 %
180 0

197

0.68
3.- Porcentaje de la poblacin que est entre 162 y 190 mg/dl :
%? ?
= 0.40
190 - 180
25
41.96 %
= - 0.72
162 - 180
25
180
0
0.40
25
0.40

- 0.72

162 190 162 190
0.6554 - 0.2358 = 0.4196
Intervalos de inters en una curva normal
-

-2 -3 + +2 +3
68.26%
95.44 %
99.74 %
Interpretacin del rea bajo la curva normal como probabilidad
De cada 100 individuos, 20
tienen X>X1
20%
P( X>X1 ) = 20/100 = 0 20

X0

X2 X3

X1
P( X>X1 ) = 20/100 = 0.20
15%
28%
De cada 100 individuos, 15
tienen X<X0
De cada 100 individuos, 28
tienen X
2
< X < X
3
P( X X ) 15/100 0 15
P(X
2
< X < X
3
) = 28/100 = 0.28
P( X<X0 ) = 15/100 = 0.15
(
2 3
)
Ejemplo X = N (180 ; 25)
4 - Valor de colesterol srico al que no llega el 70% de la poblacin: 4. Valor de colesterol srico al que no llega el 70% de la poblacin:
= a
X0 - 180
25
70% 0.70

= 0.52
X0 - 180
25

180

X0?
0.52
X0 = 180 + 0.52 25 = 193 mg/dl
a
0

4.- Valor de colesterol srico superado por el 20% de la poblacin:
0.80
X 180
0.20
= a
X0 - 180
25
= 0 84
X0 - 180
25
20 %
180 0

X0?

a
0.84
25
0 84 0.84
X0 = 180 + 0.84 25 = 201 mg/dl
X = N ( ; )
Entre qu valores est en 90% central de la poblacin ?
0 90
= a
X1 -

90%
central
0.90
b
X2 -
0 05 0 05


X1

X2
= b
X2

b 0
0.05 0.05
X1 a b 0
+1.645 -1.645
= -1.645
X1 -

X1 = - 1.645
= +1.645
X2 -

90%
central
X2 = + 1.645

1 645

+1 645 -1.645

+1.645
Intervalos de inters


+z

-z
El 90 % central de la poblacin est en el intervalo 1 645

El 90 % central de la poblacin est en el intervalo 1,645
El 95 % central de la poblacin est en el intervalo 1,96
El 98 % central de la poblacin est en el intervalo 2,33
El 99 % t l d l bl i t l i t l 2 58 El 99 % central de la poblacin est en el intervalo 2,58
El 99.9 % central de la poblacin est en el intervalo 3,29
DISTRIBUCIN NORMAL DISTRIBUCIN NORMAL
Media =
Desviacin tpica =
1-
/2
/2



Intervalo dentro fuera
- z + z
% p % p

1.645 90 % 0.90 10 % 0.10

1 96 95 % 0 95 5 % 0 05 1.96 95 % 0.95 5 % 0.05

2.33 98 % 0.98 2 % 0.02

2.58 99 % 0.99 1 % 0.01 2.58 99 % 0.99 1 % 0.01

3.29 99.9 % 0.999 0.1 % 0.001


(1 ) 100 % (1 ) 100 % z (1- ) .100 % (1- ) .100 %


DISTRIBUCIN NORMAL STANDARD DISTRIBUCIN NORMAL STANDARD
Media = 0
Desviacin tpica = 1
1-
/2
/2
/2
- z + z 0


Intervalo Proporcin dentro Proporcin fuera

z

(1- )


1.64 0.90 0.10

1.96 0.95 0.05 1.96 0.95 0.05

2.33 0.98 0.02

2.58 0.99 0.01

3.29 0.999 0.001
Intervalo de Normalidad
Intervalo de Normalidad : Contiene el 95% central de la poblacin
1,96
Intervalo de Normalidad : contiene los valores normales, valores
no sospechosos de estar relacionados con alguna patologa.
INTERVALO DE NORMALIDAD: 2 En la prctica:
Lmites Normales :
LNi = - 2
LNs = + 2 LNs = + 2
Obtencin de y a partir de los lmites normales
( )
LNi LNs

- 2 + 2
( )

2 2
4
=
2
LNi + LNs

2
LN LNi
=
4
LNs - LNi
4 = LNs -
LNi
Aproximacin de un modelo binomial por un modelo normal
Si tenemos un modelo binomial con
0.1 < p < 0.9
n grande
y
n grande
Las probabilidades binomiales se pueden calcular, de manera aproximada,
mediante las probabilidades de un modelo normal.
n r
n
P b bilid d l
( ) ( )
n-r
r
n
P X = r = p 1-p
r




Probabilidades normales
con
= n p
( ) 1 = n p p
Modelo binomial con n y p

= n p
( ) 1 = n p p
Modelo normal con
En la prctica :
Aproximacin aceptable cuando
0.1 < p < 0.9
y
( ) 1 n p p
Aproximacin aceptable cuando y
n.p > 5
Ejemplo :
Supongamos un modelo binomial con n = 420 y p = 0 35 Supongamos un modelo binomial con n 420 y p 0.35
Probabilidad binomial

= n p = 420 0 35 = 147
Probabilidad normal con
n p 420 0.35 147
( ) = n p 1-p = 420 0.35 0.65 = 7.27
Variable binomial discreta
Variable normal continua
desajuste Correccin por continuidad
En v. binomial: x = 138 En v. normal: x = (138 0.5 , 138 + 0.5)

138
( ) ( )
138.5 137.5
Variable binomial Variable normal
P(x > 138) P(x > 138.5)
P(x 138) P(x > 137.5)
P(x = 138) P(137.5 < x < 138.5)
Comisin Bioestadstica 11/12

Bloque 3: Estadstica Inferencial Pgina 50
Bloque 3: Estadstica Inferencial
Con frecuencia en la prctica estamos interesados en extraer conclusiones vlidas
respecto a un grupo grande de individuos y objetos. Para ello no se suele examinar al grupo
entero denominado poblacin sino que se estudia una pequea parte de esta poblacin
denominada muestra. El objetivo de la estadstica inferencial es el conocimiento aproximado
de una poblacin estadstica.
Tema 9: Teora de muestras: Tipos de muestreo
El objetivo de la estadstica inferencial es el conocimiento aproximado de una
poblacin estadstica. El conocimiento no puede ser total porque no conocemos todos los
datos de la poblacin, sino slo los datos de una parte de esta poblacin a la que
denominamos muestra.
Una muestra se puede definir como la parte de la poblacin que nos va a servir para
saber cmo es el toda la poblacin. Una muestra debe de cumplir dos condiciones:
- Debe de ser representativa: tiene que ser heterognea representando
mayoras y minoras. Por lo que para ello debe de ser amplia para as
solucionar problemas de representatividad.
- Debe de ser aleatoria: elegirse de manera que todos los elementos de la
poblacin tengan la misma probabilidad de formar parte de la muestra.
Tipos de muestreo
Un muestreo es cualquier tipo de extraccin de una muestra. Se distinguen tres tipos
de muestreos:
- Muestreo aleatorio simple: Los elementos de la muestra se extraen al azar de
la poblacin. Se aplica cuando los elementos de la poblacin son homogneos
y se eligen al azar.

- Muestreo aleatorio estratificado: Se aplica cuando existe un factor que afecta
a la homogeneidad de la poblacin y hace que los datos de la poblacin sean
heterogneos.

El muestreo consta de dos etapas:
1. Se descompone a la poblacin en clases denominadas estratos. De
forma que dentro de cada estrato los elementos sean homogneos.
Los estratos son generalmente grandes y estn confeccionados a partir
de los criterios de estratificacin (factores de influencia que
intervienen fuertemente en la poblacin).
2. Se realiza un muestreo dentro de cada estrato.
El tamao de la muestra de cada estrato debe de ser proporcional al tamao
de cada estrato.
Comisin Bioestadstica 11/12

Bloque 3: Estadstica Inferencial Pgina 51
- Muestreo por conglomerado: Se aplica cuando los datos son heterogneos.
Comprende dos fases:
1. La poblacin se descompone en conglomerados que son pequeos y
de contenido heterogneos.
2. Se realiza un muestreo de conglomerados. Forman parte de la muestra
todos los elementos del conglomerado.
Entre s Contenido
Estratos Heterogneos Homogneo
Conglomerado Homogneos Heterogneo
Tema 10: Teora de la estimacin: conceptos fundamentales
La teora de la estimacin tiene como objetivo obtener valores aproximados de los
parmetros poblacionales (,
2
, )
Estadsticos
Las herramientas fundamentales de la estadstica inferencial son los estadsticos. Un
estadstico es cualquier funcin que dependa de los valores de una muestra. Los principales
estadsticos se exponen a continuacin. Hay que aclarara que para cada muestra el valor del
estadstico va variando (hay tantos como muestras). Sin embargo, los parmetros de la
poblacin slo toman un valor.
La media muestral se denota como y es el estadstico que se utiliza como estimador
asociado al parmetro media de la poblacin . Se expresa:
=

1
+
2
+
3
+. . . +


La varianza muestral se denota como
2
y es el estadstico que se utiliza como
estimador asociado al parmetro varianza de la poblacin
2
cuando el tamao de la muestra
30. Esto se debe a que la varianza muestral
2
es un estimador sesgado y slo adquiere
valores cercanos a la varianza de la poblacin
2
cuando la muestra de la poblacin ,
pero generalmente se acepta cuando 30. Se expresa como:

2
=
(

)
2


Tambin se define la cuasi-varianza muestral que se denota como
2
y es el
estadstico insesgado que se utiliza como estimador asociado al parmetro varianza de la
poblacin
2
. Se expresa como:

2
=
(

)
2
1

La proporcin muestral se denota como y es el estadstico que se utiliza como
estimador asociado a la proporcin poblacional se expresa como:
Comisin Bioestadstica 11/12

Bloque 3: Estadstica Inferencial Pgina 52
=
()
()
=


Estimacin puntual
La estimacin puntual tiene como objetivo la obtencin de estimadores de los
parmetros poblacionales. Un estimador es un estadstico que toma valores prximos al
parmetro que se quiere estimar. Todos los estimadores son estadsticos, pero no todos los
estadsticos son estimadores.
Parmetro Estadstico asociado en la prctica

2

2
(Cuasi-varianza)

La estimacin puntual se basa en:
- Obtencin de las estimaciones de los estadsticos de la muestra.
- Acotacin del error para poder determinar la cota de error o error de
muestreo . La cota de error es la diferencia entre el parmetro que se quiere
conocer y el valor del estimador, es decir, | | < .
As para una muestra de tamao 100% de la poblacin el valor de la cota de
error es 0.
- Obtencin del nivel de confianza. El nivel de confianza es la probabilidad de
equivocarse al estimar en menos de la cota de error. Tambin se puede definir
como el porcentaje de muestras en el que nos equivocamos en menos de . Es
decir: (| | < ) = 1 . El valor de suele ser
muy pequeo.
La t de student es una prueba que ayuda a estimar los valores poblacionales a partir de
los datos muestrales. La t de student ayuda a pronosticar la probabilidad de que dos
promedios pertenezcan a una misma poblacin en el caso de que las diferencias no sean
significativas.
Se adjunta una tabla con los valores que toma la funcin t de student para los distintos
valores del nivel de confianza y tamao de la muestra. Por convenio se ha establecido que el
nivel de confianza mnimo debe de ser del 95%.
Para calcular el error:

=
; 1


1

Y mediante ello podremos estimar el parmetro poblacional a partir del estimador:
=
Donde el valor de t se obtiene de la tabla de t de student, 1 es el grado de libertad,
es la desviacin tpica de la muestra y es el tamao de la muestra.
Comisin Bioestadstica 11/12

Bloque 3: Estadstica Inferencial Pgina 53
La cota de error depende de:
- Dispersin de los datos ( )
- El tamao de la muestra ( )
- El nivel de confianza ( (1 ) )
- Si se trata de una poblacin finita la aplicacin del factor de correccin.
Si deseamos un bajo error deberemos de aumentar el nivel de confianza y el tamao
de la muestra.
Por ejemplo, si se quiere estimar la estatura media de las chicas que estudian primero
de medicina se toma una muestra de 5 chicas. Esta muestra presenta los siguientes valores
para la estatura:
1.64 1.65 1.60 1.69 1.67
Calculamos la media muestral de la muestra:
=

1
+
2
+
3
++


=
8.25
5
= 1.65
Calculamos la cota de error. Para ello antes debemos de calcular la desviacin tpica
de la muestra:

2
=
(

)
2

2
=
13.6117
5
1.65
2
= 0.00092
2

=

2
= 0.03
Calculamos la cota de error :

1 = 0.95; = 0.05
= 1 = 4

=
; 1

=
0.05; 4

0.03
4 1

= 2.776
0.03
2
= 0.041
= = 1.65 0.04
Comisin Bioestadstica 11/12

Bloque 3: Estadstica Inferencial Pgina 54
Para obtener el tamao de la muestra en funcin del error y de la desviacin tpica se
despeja el tamao de la muestra de la frmula para calcular la cota de error con la funcin de
la t de student y obtenemos:
=

0.05;
2

2

2

Donde
2
es la varianza de la poblacin y es el error mximo admisible.
Con esta igualdad se produce la paradoja de Friedman porque se intenta conocer un
parmetro poblacional y para ello se exige otro parmetro poblacional. Se han encontrado 4
soluciones a esta paradoja:
- Tomar la varianza poblacional
2
de otro estudio similar.
- Calcular la varianza de la muestra piloto.
- Expresar el error como proporcional de la desviacin tpica . Es decir
= .
- A partir del intervalo de normalidad ( 2, +2).
Los factores que influyen en el tamao de la muestra son:
- Nivel de confianza (1 )


- Dispersin


- Error mximo admisible


Por ejemplo si queremos obtener el tamao de muestra para tener un error mximo
admisible de 2 cm en la estimacin de la estatura de las chicas que estudian primero de
medicina. Para calcular el tamao de muestra hemos calculado la varianza de la muestra
piloto:
= 2
1 = 0.95
=

0.05;
2

2

2

=

0.05;
2
0.03
2
0.02
2
=
1.96
2
0.03
2
0.02
2
= 8.64 9
Para obtener el tamao de la muestra en una estimacin para una poblacin finita se
debe de aplicar el factor de correccin para poblacin finita:

1 +


Estimacin por intervalos
Comisin Bioestadstica 11/12

Bloque 3: Estadstica Inferencial Pgina 55
La estimacin por intervalos tiene como objetivo la obtencin de un intervalo en el que
se estime los parmetros poblacionales.
La estimacin por intervalos consiste en obtener dos estadsticos (
1
;
2
) de modo que
la probabilidad de que ese intervalo contenga al parmetro sea de (1 ).
(
1
< <
2
) = 1
El intervalo de confianza 1 es el intervalo formado por los dos estadsticos.
Tema 11: Estimacin puntual y por intervalos de la media y
de la proporcin
Los casos ms usuales de la aplicacin de la estimacin puntual son para la estimacin
de la media y de la proporcin poblacional a partir de la media y la proporcin de una muestra
piloto.
Estimacin puntual de la media
Para estimar una media poblacional a partir de una media muestral mediante una
estimacin puntual se deben de realizar los siguientes pasos:
- Obtencin de las estimaciones de la media muestral .
- Acotacin del error para poder determinar la cota de error o error de
muestreo . | | < .
- Obtencin del nivel de confianza. (| | < ) = 1 . El valor de suele
ser muy pequeo.
Con forme a lo expuesto en el tema 10 y mediante la igualdad que relaciona el error
con la t de student podemos calcular el error cometido en esta estimacin:

=
; 1


1

El factor
; 1
es el percentil de la distribucin de la t de student con 1 grados de
libertad tal que | | <
; 1


1
= 1
En el caso de que la estimacin se realice para una poblacin finita de tamao se
debe de corregir la igualdad con el factor de correccin

1

De tal modo que el error en la estimacin de una poblacin finita queda definido por:

=
; 1


1

Comisin Bioestadstica 11/12

Bloque 3: Estadstica Inferencial Pgina 56
Para obtener el tamao de la muestra en funcin del error y de la desviacin tpica se
despeja el tamao de la muestra de la frmula para calcular la cota de error con la funcin de
la t de student y obtenemos:
=

;
2

2

2

Donde
2
es la varianza de la poblacin y es el error mximo admisible.
Con esta igualdad se produce la paradoja de Friedman porque se intenta conocer un
parmetro poblacional y para ello se exige otro parmetro poblacional. Se han encontrado 4
soluciones a esta paradoja:
- Tomar la varianza poblacional
2
de otro estudio similar.
- Calcular la varianza de la muestra piloto.
- Expresar el error como proporcional de la desviacin tpica . Es decir
= .
- A partir del intervalo de normalidad ( 2, +2).
2 =
1

+2 =
2

2 =
1
+
2

2 =
1

2 =
2

4 =
1

2

=

2

1
4
=

1
+
2
2


Para obtener el tamao de la muestra en una estimacin para una poblacin finita se
debe de aplicar el factor de correccin para poblacin finita:

1 +


Por ejemplo, si queremos estimar la media de una poblacin de tamao mediante
la observacin de una muestra de tamao :
1. Se calcula el estadstico correspondiente a la media de la poblacin que es la
media muestral :
=

1
+
2
+
3
+. . . +


2. Se calcula la cota de error de la estimacin:
| | <
3. Se calcula el nivel de confianza para este error:
(| | < ) = 1
Estimacin por intervalos de la media
Comisin Bioestadstica 11/12

Bloque 3: Estadstica Inferencial Pgina 57
Para la estimacin por intervalos de la media se debe de fijar como intervalo
( ; +).
Estimacin puntual de una proporcin
Para estimar una proporcin poblacional a partir de una proporcin muestral mediante
una estimacin puntual se deben de realizar los siguientes pasos:
- Obtencin de las estimaciones de la proporcin muestral .
- Acotacin del error para poder determinar la cota de error o error de
muestreo . | | < .
- Obtencin del nivel de confianza. (| | < ) = 1 . El valor de suele
ser muy pequeo.
Con forme a lo expuesto en el tema 10 y mediante la igualdad que relaciona el error
con la t de student podemos calcular el error cometido en esta estimacin:

=
;

(1 )



El factor
;
es el percentil de la distribucin de la t de student con 1 grados de
libertad tal que | | <
;

(1)

= 1

En el caso de que la estimacin se realice para una poblacin finita de tamao se
debe de corregir la igualdad con el factor de correccin

1

De tal modo que el error en la estimacin de una poblacin finita queda definido por:

=
;

(1 )


1


Para obtener el tamao de la muestra en funcin del error y de la desviacin tpica se
despeja el tamao de la muestra de la frmula para calcular la cota de error con la funcin de
la t de student y obtenemos:

=

;
2
(1 )

2


Comisin Bioestadstica 11/12

Bloque 3: Estadstica Inferencial Pgina 58
Donde es la varianza de la poblacin y es el error mximo admisible.
Con esta igualdad se produce la paradoja de Friedman porque se intenta conocer un
parmetro poblacional y para ello se exige otro parmetro poblacional. Se han encontrado 4
soluciones a esta paradoja:
- Tomar la varianza poblacional de otro estudio similar.
- Calcular la varianza de la muestra piloto.
- En el caso ms desfavorable, lo que supone mximo tamao de muestra bajo
las mismas condiciones experimentales se toma el valor =
1
2
.
Para obtener el tamao de la muestra en una estimacin para una poblacin finita se
debe de aplicar el factor de correccin para poblacin finita:

1 +


Estimacin por intervalos de confianza de una proporcin
Para la estimacin por intervalos de la proporcin se debe de fijar como intervalo
( ; +).
Si para estimar una media en poblacin de 1 millones se necesita un tamao de
muestra de 500, para una poblacin de 2 millones Se necesitarn 1000?
La respuesta es s y no porque la distribucin de la funcin que distribuye la poblacin
presenta una asntota a la que se va aproximando poco a poco conforme va aumentando la
muestra.
En conclusin para poblaciones pequeas s que influye el tamao de la poblacin en
el tamao de la muestra. A partir de un tamao de poblacin en adelante, el tamao de la
muestra no vara prcticamente.

Tema 12: Test de hiptesis estadstica. Conceptos fundamentales
Muy a menudo, en la prctica se tienen que tomar decisiones sobre poblaciones,
partiendo de la informacin muestral de las mismas. Tales decisiones se denominan decisiones
estadsticas. Por ejemplo, se puede querer decidir a partir de los datos del muestreo, si un
suero nuevo es realmente efectivo para la cura de una enfermedad, si un sistema educacional
es mejor que otro
Para llegar a tomar decisiones, conviene hacer determinados supuestos o conjeturas
acerca de las poblaciones que se estudian. Tales supuestos que pueden ser o no ciertos se
llaman hiptesis estadsticas.
El objetivo del contraste de hiptesis es someter a prueba a una hiptesis estadstica.
Se puede explicar el contraste de hiptesis mediante un planteamiento intuitivo: Si se quiere
Comisin Bioestadstica 11/12

Bloque 3: Estadstica Inferencial Pgina 59
contrastar una hiptesis se le supone cierta y se denomina como Hiptesis nula,
0
. Se
construye un experimento que tenga asociado un suceso . De tal modo que si
0
es cierta
la probabilidad de que se cumpla siendo muy pequea.

Si al realizar el experimento , el suceso se verifica, la hiptesis nula
0
es falsa. Si
rechazamos as la hiptesis nula
0
, corremos el riesgo de equivocarnos con una probabilidad
del nivel de significacin .
Sin embargo, si al realizar el experimento , el suceso no se verifica. Podramos aceptar la
hiptesis nula
0
? No.
No se podra aceptar la hiptesis nula
0
porque el suceso puede ser poco probable para
otras muchas hiptesis y porque el nivel de significacin es la probabilidad de equivocarse al
rechazar la hiptesis nula
0
cuando esta hiptesis es cierta.
As que como conclusin hay que sealar que la Hiptesis nula
0
nunca se acepta: o se
rechaza o no se rechaza.
Caractersticas del contraste de hiptesis
Se pueden distinguir dos caractersticas de un test de contraste de hiptesis: el nivel de
significacin y la potencia del Test 1 .
= (
0
)
= ( )
= (
0
/
0
)

Si
0
es cierta
() =

0



Comisin Bioestadstica 11/12

Bloque 3: Estadstica Inferencial Pgina 60
= (
0
)
= ( )
= (
0
/
0
)
1 = (
0
/
0
)

La probabilidad mxima con la que en el ensayo de una hiptesis se puede cometer un error
del Tipo I se denomina nivel de significacin del ensayo. Por convenio el valor mximo del
valor de significacin es de 0.05.
Relacin entre potencia del test y nivel de significacin
Para contrastar una misma Hiptesis se pueden utilizar varios tipos de Test. El mejor
test, es decir, el ms potente, es el test que tenga menor nivel de significacin y mayor
potencia del test 1 .
Pero la relacin que guardan el nivel de significacin y la potencia del test 1 es
directamente proporcional. Es decir que si se intenta disminuir el nivel de significacin
disminuye tambin la potencia del test 1 .
As que para conseguir un test bueno se requieren varios factores:
- Bajo nivel de significacin .
- Elevada potencia del test 1 .
- Elevado tamao de muestra n.
- Si se puede elegir un test unilateral.
Estos cuatro factores influyen en la potencia del test de contraste de hiptesis.
Tema 13: Contraste de la media y de la proporcin
Contraste de la media
Los test de contraste de hiptesis se suelen utilizar para contrastar medias de
poblaciones. Se pueden establecer dos tipos de Test:
- Test bilateral:

0
: =
0

1
:
0



Para el Test bilateral el suceso se corresponde con:

=
|
0
|

1
>
; 1


Y si el Test se realiza para contrastar medias de poblaciones finitas se debe de
incluir el factor de correccin para poblaciones finitas:
Comisin Bioestadstica 11/12

Bloque 3: Estadstica Inferencial Pgina 61

=
|
0
|


1
>
; 1


- Test unilateral:

0
: =
0

1
: <
0



Para el Test unilateral el suceso se corresponde con:

=
|
0
|

1
>
2; 1


Y si el Test se realiza para contrastar medias de poblaciones finitas se debe de
incluir el factor de correccin para poblaciones finitas:

=
|
0
|


1
>
2; 1



- Test unilateral:

0
: =
0

1
: >
0



Para el Test unilateral el suceso se corresponde con:

=
|
0
|

1
>
2; 1


Y si el Test se realiza para contrastar medias de poblaciones finitas se debe de
incluir el factor de correccin para poblaciones finitas:

=
|
0
|


1
>
2; 1

Junto a la Hiptesis nula
0
existe siempre una Hiptesis alternativa
1
que es
complementaria a
0
.
1
= 1
0

Si rechazamos la hiptesis nula
0
aceptamos la hiptesis alternativa
1
. Pero para el
contraste de una misma Hiptesis nula
0
pueden existir varias hiptesis alternativas
1
.
Los valores de
; 1
se deben de buscar en la tabla t de student que se adjunta. El
valor de n-1 se denomina grado de libertad.
Cuando se rechaza una Hiptesis nula
0
debemos de adjuntar el nivel mnimo de
significacin para el cual se puede rechazar la Hiptesis nula
0
. Este nivel mnimo de
significacin se denomina como nivel de significacin crtico ( < ).
Comisin Bioestadstica 11/12

Bloque 3: Estadstica Inferencial Pgina 62
Si en el problema se pregunta por la Hiptesis nula
0
, del tipo la media es igual a k, se
debe de realizar un test bilateral. Si en el problema se pregunta por la Hiptesis alternativa
1
,
del tipo la media es mayor/menor que k, se debe de realizar un test unilateral.
Por ejemplo, El problema de la Central Lechera: Se quiere comprobar si una central
lechera est envasando la leche producida de acuerdo con la normativa europea vigente que
establece que se debe de mantener al menos un 3.5 % de materia grasa en el contenido de
leche. Para ello se seleccionan 17 tetra-briks de leche al azar y se les determina la
concentracin de materia grasa. Se obtienen los siguientes valores: = 3.25 y = 0.5 .
Datos:
= 3.25
= 0.5

0
= 3.5
= 17
a) Qu decisin tomara el empresario?
El empresario realizara un test bilateral tomando como Hiptesis:

0
: = 3.5

1
: 3.5


Realizara el suceso el suceso con un nivel de significacin de 0.05:

=
|
0
|

1
>
; 1


0.5
0.5
4
> 2.120
2 > 2.120
Como 2 es menor que 2.120 el empresario no rechazara la Hiptesis nula
0
.
b) Qu decisin tomara la Administracin?
La Administracin realizara un Test bilateral con Hiptesis:

0
: = 3.5

1
: < 3.5


Para el Test unilateral el suceso con un nivel de significacin de 0.05:
Comisin Bioestadstica 11/12

Bloque 3: Estadstica Inferencial Pgina 63

=
|
0
|

1
>
2; 1


0.5
0.5
4
> 1.746

2 > 1.746
Como efectivamente 2 es mayor que 1.746 la Administracin rechazara la Hiptesis
nula
0
y aceptara la Hiptesis alternativa
1
con una probabilidad de error de < 0.05.
Contraste de las proporciones
Tambin se puede utilizar el contraste de Hiptesis para contrastar proporciones de
poblaciones. Se pueden establecer dos tipos de Test:
- Test bilateral:

0
: =
0

1
:
0



Para el Test bilateral el suceso se corresponde con:

=
|
0
|

0
(1
0
)

>
;


Y si el Test se realiza para contrastar medias de poblaciones finitas se debe de
incluir el factor de correccin para poblaciones finitas:

=
|
0
|

0
(1
0
)

>
;


- Test unilateral:

0
: =
0

1
: <
0



Para el Test unilateral el suceso se corresponde con:

=
|
0
|

0
(1
0
)

>
2;


Y si el Test se realiza para contrastar proporciones de poblaciones finitas se
debe de incluir el factor de correccin para poblaciones finitas:

=
|
0
|

0
(1
0
)

>
2;



Comisin Bioestadstica 11/12

Bloque 3: Estadstica Inferencial Pgina 64
- Test unilateral:

0
: =
0

1
: >
0



Para el Test unilateral el suceso se corresponde con:

=
|
0
|

0
(1
0
)

>
2;


Y si el Test se realiza para contrastar proporciones de poblaciones finitas se
debe de incluir el factor de correccin para poblaciones finitas:

=
|
0
|

0
(1
0
)

>
2;

Cuando se rechaza una Hiptesis nula
0
debemos de adjuntar el nivel mnimo de
significacin para el cual se puede rechazar la Hiptesis nula
0
. Este nivel mnimo de
significacin se denomina como nivel de significacin crtico ( < ).
Si en el problema se pregunta por la Hiptesis nula
0
, del tipo la proporcin es igual a
k, se debe de realizar un test bilateral. Si en el problema se pregunta por la Hiptesis
alternativa
1
, del tipo la proporcin es mayor/menor que k, se debe de realizar un test
unilateral.
Por ejemplo, se sabe que el porcentaje de hipertensos en personas mayores de 60
aos es del 25%. Se quiere ver cmo influye en la presin arterial la dieta mediterrnea. Para
ello se escogen a 200 personas mayores de 60 aos, de las cuales 25 son hipertensas.
Entre personas que siguen la dieta mediterrnea la relacin es tambin de 4 de cada
diez?
Para ello tomamos como hiptesis:

0
: = 0.25

1
: 0.25


=

=
25
200
= 0.125

=
|
0
|

0
(1
0
)

>
;

=
0.125

0.25 0.75
200
> 1.96

= 4.08 > 1.96


Podemos rechazar
0
con ( < 0.001).
Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 65
Bloque 4: Anlisis de la variabilidad
El anlisis de la variabilidad tiene como objetivo conocer si una variable influye sobre
una segunda variable. Mediante la estadstica bidimensional se observan dos variables en la
misma unidad experimental. Se hace variar una variable para comprobar si modifica o no a la
segunda.
En la estadstica bidimensional podemos estudiar tres casos:
I. Que se d:

1 ()
1 ()

En este caso se plantean las siguientes hiptesis:

0
:
1
=
2

1
:
1

2

II. Que se d:

1 ()
1 ()

En este caso se plantean las siguientes hiptesis:

0
:
1
=
2

1
:
1

2

III. Que se d:

1 ()
1 ()


En este caso se plantean las siguientes hiptesis:

0
: = 0

1
: 0
Tema 14: Contrastes paramtricos de igualdad de dos medias
Cuando queremos contrastar si una caracterstica cualitativa dicotmica influye sobre
otra caracterstica cuantitativa realizamos un contraste en el que se toman como hiptesis:

0
:
1
=
2

1
:
1

2

Para llevar a cabo este test de hiptesis las variables requieren cuatro condiciones
previas:
- Las observaciones sigan un modelo lineal.
- Las poblaciones tengan distribucin normal.
- Las varianzas sean iguales (
1
2
=
2
2
).
- Las observaciones deben de ser independientes.
Esto presenta algunos inconvenientes porque no se cumplen las condiciones cuando:
Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 66
- Los datos cuantitativos no se pueden expresar como suma de efectos. Por
ejemplo, velocidad, concentraciones
- Las observaciones no son independientes. Por ejemplo, cuando un individuo
aporta ms de una observacin.
- Las observaciones no siguen una distribucin normal. Para solucionarlo basta
con tomar muestras lo suficientemente grandes.
- Las varianzas son significativamente dispares.
Cuando se cumplen las cuatro condiciones se realiza el test exacto de la t de student
combinada.
Antes de comenzar con el test se debe de realizar la comprobacin de que las dos
varianzas son iguales. Para ello se toma primero la hiptesis:

0
:
1
2
=
2
2

1
:
1
2

2
2

Para ello se define el suceso:

1
2

2
2
>
;

1
1

2
1


Para
1
2
>
2
2

Recordemos que
2
es la cuasivarianza y que tienen una relacin con la varianza de:

2
=

1

2

Los valores de
;

1
1

2
1

se buscan en la tabla de F de Snedecor porque la distribucin


de las cuasivarianzas sigue esta distribucin. La tabla de F de Snedecor es de triple entrada y
depende de: , (
1
1) y (
2
1).
En el caso de que se pueda aceptar la hiptesis
0
procederemos a realizar el test de la
t de student combinada. Ahora se configuran como hiptesis:

0
:
1
=
2

1
:
1

2

El suceso que define el contraste de la t de student combinada es:

=
|
1

2
|

1
2
+
2

2
2

1
+
2
2

1

1
+
1

2
>
;
1
+
2
2

En el caso de que el test sea unilateral el suceso que define el contraste es:
Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 67

=
|
1

2
|

1
2
+
2

2
2

1
+
2
2

1

1
+
1

2
>
2;
1
+
2
2

Los tamaos muestrales pueden ser diferentes, pero si son iguales el test es ms
potente.
Por ejemplo, hemos tomado una muestra de 6 chicas y 7 chicos de clase y los hemos
pesado:
Peso chicas (Kg.) 63 57 48 50 46 72
Peso chicos (Kg.) 78 65 60 60 75 69 90
Queremos comprobar si el peso est relacionado con el sexo. Para ello realizamos
primero el contraste de varianzas:

0
:
1
2
=
2
2

1
:
1
2

2
2

Calculamos las varianzas muestrales de ambas muestras y comparamos las
cuasivarianzas:

1
= 6
1
= 336
1
2
= 19322
1
= 56
1
2
=84.33
1
2
= 101.2

2
= 7
2
= 497
2
2
=35995
2
= 71
2
2
=101.14
2
2
= 118

1
2

2
2
>
;

1
1

2
1


118
101.2
>
0.05;
6
5


1.16 > 4.95
Como no se cumple la igualdad no rechazamos
0
y continuamos realizando el test de
la t de student combinada:

0
:
1
=
2

1
:
1

2

=
|
1

2
|

1
2
+
2

2
2

1
+
2
2

1

1
+
1

2
>
;
1
+
2
2

Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 68

=
|71 56|

505.98 +707.98
11

1
6
+
1
7
>
; 11

= 8.75 > 2.21


Como se cumple el suceso podemos rechazar
0
y aceptar
1
( < 0.001). Por lo que
con una probabilidad de equivocarnos menor al 0.001 podemos afirmar que s que influye el
sexo en el peso.
En el caso de que no se cumpla la igualdad de varianzas se debe de realizar un test
aproximado que es diferente y menos potente. El test de Behrens. Queda configurado por las
hiptesis:

0
:
1
=
2

1
:
1

2

Y por el suceso:

=
|
1

2
|

1
2

1
+

2
2

2
>

=

;
1
1

1
+
;
2
1

1
2

1
+

2
2

2

Con este test se pierde la mitad de la potencia porque no estn combinadas las
cuasivarianzas porque no son iguales. El valor de

es un promedio entre
;
1
1
y
;
2
1

por lo que se gana mucha potencia y rapidez de clculo si
1
=
2
. Tambin como pequeo
truco podemos comparar:
|
1

2
|

1
2

1
+

2
2

2
>


Donde

es el valor de
;
1
1
o de
;
2
1
que sea ms elevado.
Si las observaciones no son independientes o son apareadas o cada individuo aporta
ms de un dato debemos de recurrir al test de t de student apareada.

0
:
1
=
2

1
:
1

2

Para ello cada individuo aporta dos datos y calculamos la diferencia entre ellos:
Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 69
Dato 1 Dato 2 Diferencia

1

1

1
=
1

1

2

2

2
=
2

2


Calculamos la media de las diferencias

y la desviacin tpica de las diferencias

.
El suceso que define el contraste para el test de la t de student apareada es:

=
|

1
>
; 1

Por ejemplo, queremos comprobar si la dieta mediterrnea es efectiva para ello se
elige a una muestra de 6 personas obesas que se someten a dieta mediterrnea durante un
mes y se registran los pesos antes y despus de la dieta:
Antes Despus


100 92 8
110 100 10
120 115 5
85 87 -2
94 90 4
92 85 7
Calculamos la media de las diferencias

y la desviacin tpica de las diferencias

0
:
1
=
2

1
:
1
>
2

= 5.33

= 3.815

=
|

1
>
2; 1

=
5.33
3.815
5
>
0.1; 5

= 3.12 > 2.015


Como s se verifica el suceso se rechaza
0
y aceptamos
1
con ( < 0.025)
Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 70
Tema 15: Contraste paramtrico de igualdad dos proporciones
Cuando queremos contrastar si una caracterstica cualitativa dicotmica influye sobre
otra caracterstica cualitativa dicotmica realizamos un contraste en el que se toman como
hiptesis:

0
:
1
=
2

1
:
1

2

Se calculan las proporciones muestrales
1
y
2
:

1
=

1

1

2
=

2

2

Tambin calculamos la proporcin promedio
0
:

0
=

1
+
2

1
+
2
=

1

1
+
2

1
+
2

El suceso que define el contraste es:

=
|
1

2
|

0
(1
0
)
1

1
+
1

>
;

Por ejemplo se quiere ver si la dieta mediterrnea previene la tensin arterial. Para
ello se escogieron a 200 personas adultas de Segovia de los que 62 eran hipertensos y se
escogieron a 300 personas adultas de Murcia de los que 52 eran hipertensos.

0
:
1
=
2

1
:
1
>
2

Se calculan las proporciones muestrales:

1
= 200
1
= 62
1
= 0.31

2
= 300
2
= 52
2
= 0.173

0
=

1
+
2

1
+
2

0
=
62 +52
200 +300
= 0.228

=
|
1

2
|

0
(1
0
)
1

1
+
1

>
2;

Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 71

=
|0.31 0.17|

0.228 (1 0.228)
1
200
+
1
300

>
0.1;

3.66 > 1.645
Como s se verifica el suceso rechazamos la hiptesis
0
y aceptamos
1
( <
0.0005).
Tema 16 y 17: Contrastes no paramtricos de igualdad de dos
medias. Contraste de una distribucin. Tablas de contingencia.
Cuando se da el caso de que se quiera contrastar dos variables cualitativas que
presentan ms de dos posibilidades se deben de realizar contrastes no paramtricos. En
nuestro caso el contraste no paramtrico de la
2
de Pearson (chi-cuadrado de Pearson). Se
contrastan las hiptesis independencia de dos variables cualitativas:

0
:

1
:
Suponiendo que las variables que se quieran contrastar son y y que puedan
presentar las infinitas modalidades:
:
1
,
2
,
3
, ,


:
1
,
2
,
3
, ,


Se agrupan los datos en una tabla de contingencia:


1

2

1

11

12

1

1

2

21

22

2

2


1

2



1

2


Los datos

representan la frecuencia de observaciones de cada modalidad. Los datos

representan la suma de las frecuencias de las observaciones de cada fila o columna


correspondiente.
Si tomamos como la hiptesis
0
: como cierta entonces la frecuencia
observada debe de ser igual a la frecuencia esperada. La frecuencia esperada se calcula con la
igualdad:


Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 72
Por lo que la tabla de contingencia queda variada completada con los datos de
frecuencia previsibles:



1

2

11

11

12

12

21

21

22

22



1

2



Para realizar el contraste no paramtrico de la
2
de Pearson todas las frecuencias
esperadas deben de ser iguales o superiores a 5. En el caso de que alguna frecuencia esperada
sea menor que cinco se pueden realizar dos acciones:
a) Si las modalidades son ordenables se pueden agrupar filas o columnas. (Por
ejemplo: grado de osteoporosis).
b) Si las modalidades no son ordenables se elimina la fila o columna
correspondiente. (Por ejemplo: Grupo Sanguneo).

El suceso que define el contraste es:

=
(

)
2

,
>
2
; (1)(1)

El valor de
2
; (1)(1)
debemos de buscarlo en la tabla de la
2
de Pearson que se
adjunta.

Por ejemplo, se quiere comprobar si la osteoporosis se puede prevenir con un
consumo previo de calcio fisiolgico en la leche. Para ello se escoge un grupo de 89 mujeres
post-menopusicas y se les mide el grado de osteoporosis y el consumo de leche. De este
anlisis se arrojaron los siguientes datos:
Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 73

Grado de
osteoporosis
Severo Medio Leve
Consumo
de leche
Poco 12 8 5 25
Medio 8 18 10 36
Escaso 6 7 15 28
26 33 30 89
Para ello definimos las hiptesis a contrastar:

0
:

1
:
Procedemos a calcular los valores de frecuencias esperados:


Grado de osteoporosis
Severo Medio Leve
Consumo
de leche
Poco
12
7.30
8
9.27
5
8.45
25
Medio
8
10.52
18
13.35
10
12.23
36
Escaso
6
8.18
7
10.38
15
9.43
28
26 33 30 89

Y Comprobamos el suceso que define el contraste:

,
>
2
; (1)(1)

=
22.09
7.30
+
1.6129
9.27
+
11.9025
8.45
+
6.3504
10.52
+
28.6225
13.35
+
4.9729
12.23
+
4.7524
8.18
+
11.4244
10.38
+
41.3449
9.43
>
2
0.05; (31)(31)

Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 74

= 12.15 > 9.488


Como s se cumple el suceso, s rechazamos la hiptesis nula que estamos
contrastando
0
: y aceptamos la hiptesis alternativa
1
: con
una posibilidad de error de < 0.02 .
Por lo que podemos afirmar con una seguridad superior al 98% de que la osteoporosis
se previene con el consumo previo de Calcio fisiolgico en la leche.
El anlisis de la
2
de Pearson se ve complementado con el anlisis de residuos. As se
puede determinar el sentido de la dependencia en tablas de contingencia. Este anlisis
compara cada frecuencia observada con su correspondiente frecuencia esperada. Si el
resultado de esta diferencia es positivo las dos modalidades correspondientes tienden a
asociarse. En el caso de que la diferencia sea negativa las modalidades no tienden a asociarse.


Si

> 0 las modalidades observadas

tienden a asociarse. En el caso de que

< 0 las modalidades observadas

no tienden a asociarse.
En el ejemplo anterior:

Grado de
osteoporosis
Severo Medio Leve
Consumo
de leche
Poco +
Medio +
Escaso +
Si se da el caso de que tenemos una tabla de tamao 2X2, o de que hemos ido
agrupando o eliminando filas o columnas y hemos llegado a una tabla de tal tamao el proceso
se simplifica:


1

2

1

11

12

1

2

21

22

2


1

2


Para este caso las hiptesis siguen siendo las mismas:

0
:

1
:
Y el suceso que define el contraste es:

=
(
11

22

12

21
)
2

1

1

2

2
>
2
; 1

Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 75
En el caso de que alguna de las frecuencias esperadas

< 5 entonces se debe de


aplicar la correccin de Yates en el suceso. Por lo que el nuevo suceso que define este
contraste menos potente es:

=
(|
11

22

12

21
|

2
)
2

1

1

2

2
>
2
; 1


Por ejemplo, se quiere comprobar si el fumar influye sobre el cncer y para ello se
escogen a 84 personas que padecen cncer de los que 64 fumaban, y a 68 personas sin cncer
de las que 15 fumaban. Todos los individuos seleccionados son mayores de 50 aos.
La tabla que relaciona los datos es la siguiente:
Cncer
S No
Fuma
S 67 18 85
No 17 50 67
84 68 152
Para ello suponemos las hiptesis a contrastar:

0
:

1
:
Y el suceso que define el contraste es:

=
(
11

22

12

21
)
2

1

1

2

2
>
2
; 1

=
(67 50 17 18)
2
150
85 67 84 68
>
2
0.05; 1

= 43.296 > 3.841


Como efectivamente se verifica el suceso rechazamos la hiptesis nula

0
: y aceptamos la hiptesis alternativa
1
: con < 0.001.
Realizamos el anlisis de residuos para conocer que modalidades se relacionan. Para
ello debemos de calcular la frecuencia esperada:


Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 76
Cncer
S No
Fuma
S
67
46.97
18
30.03
85
No
17
37.03
50
29.97
67

84 68 152
Y se calculan los residuos de cada modalidad. Por lo que obtenemos que:
Cncer
S No
Fuma
S + 85
No + 67
84 68 152
Podemos asociar el s fumar con el s contraer cncer y el no fumar con el no contraer
cncer.
El contraste de
2
es equivalente al contraste de proporciones solamente cuando se
realiza un test bilateral. Por ejemplo, para este mismo problema podramos haber realizado el
test de contraste bilateral de igualdad de dos proporciones. Para ello tomamos como
hiptesis:

0
:
1
=
2

1
:
1

2

Se calculan las proporciones muestrales
1
y
2
:

1
=

1

1

2
=

2

1
=
67
85

2
=
17
67

Tambin calculamos la proporcin promedio
0
:

0
=

1
+
2

1
+
2
=

1

1
+
2

1
+
2

0
=
67 +17
152
=
84
152

El suceso que define el contraste es:
Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 77

=
|
1

2
|

0
(1
0
)
1

1
+
1

>
;

=
|0.7882 0.253|

0.5526 (0.4473)
1
85
+
1
67

>
0.05;

=
0.534
0.0065
>
0.05;

= 6.579 > 1.959


Como podemos comprobar el test de la
2
y el contraste de proporciones son
equivalentes solamente cuando el test es bilateral:

|
1

2
|

0
(1
0
)
1

1
+
1

2
=
(
11

22

12

21
)
2

1

1

2

2

0.05;

2
=
2
; 1

Estudios del grado de dependencia de una variable sobre otra
En epidemiologa resulta muy interesante medir el grado de riesgo que existe en un
enfermo de padecer una enfermedad si est sometido a un factor. Para ello existen tres tipos
de estudios para valorar el riesgo:
1. Estudios transversales: En los que se parte de un nmero total de casos (

).
El nmero total no es aleatorio, sino que es prefijado por el analista, pero sin
embargo su distribucin (

) s lo es.
2. Estudios prospectivos: Tratan de buscar el efecto a partir de la causa, es decir
van de la causa al efecto partiendo de (

).
3. Estudios retrospectivos: Tratan de encontrar la causa a partir del efecto, es
decir van del efecto a la causa partiendo de (

).


+

+

11

12

1


21

22

2


1

2


Las principales medidas del factor de riesgo son:
- Riesgo Relativo (RR): El riesgo relativo se define como el nmero de veces que
es ms probable contraer una enfermedad estando sometido al factor de
riesgo que cuando no lo est. Queda definido por:
Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 78
=
(

+
)
(

)

Estar sometido al factor de riesgo
+
multiplica veces la posibilidad de
enfermar
+
. El riesgo relativo slo es vlido para estudios prospectivos y
transversales porque el porcentaje de enfermar es aleatorio y no est
prefijado.

- ODDs Ratio (OR): La ODDs Ratio es el cociente de ODD de la proporcin de
contraer una enfermedad estando sometido al factor de riesgo respecto al
ODD de la proporcin que cuando no se est. Slo se utiliza para estudios
retrospectivos. Queda definido por:
=
(

+
)
(

)

() =

1

Por lo que la ODDs Ratio se puede simplificar para calcular el factor de riesgo al
producto de las diagonales:
=
(

+
)
(

)
=

11

22

12

21

Estar sometido al factor de riesgo
+
multiplica veces la ODD de la
posibilidad de enfermar
+
.
Contraste de igualdad de dos proporciones
Cuando se quiere contrastar la igualdad de dos proporciones apareadas se utiliza el
Test de Mc Nemar. Para ello se requiere que la tabla sea de 2X2, que las mismas modalidades
de las dos variables y que los datos estn apareados.


+

+

11

12

1


21

22

2


1

2


El Test de Mc Nemar se utiliza para comprobar si dos modalidades estn relacionadas.
Si se quiere comprobar la relacin de dos variables deben de utilizarse los mtodos de
contraste de proporciones o de la
2
de Pearson.
Las hiptesis que se contrastan en el test de Mc Nemar son:

0
:
1
+
=
2
+

1
:
1
+

2
+

Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 79
Si
12
10 y
21
10 entonces el suceso que define el contraste es:

=
(
12

21
)
2

12
+
21
>
2
; 1

Pero sin embargo, si
12
< 10 o
21
< 10 entonces el suceso que define el contraste
vara porque se le ha aplicado al correccin de Yates y queda una expresin as:

=
(|
12

21
| 1)
2

12
+
21
>
2
; 1


El Test de Mc Nemar se utiliza para comparar dos mtodos diagnsticos. Por ejemplo si
tenemos dos mtodos diagnsticos como la biopsia y la citologa y queremos conocer cul de
los dos mtodos es ms eficaz. Para ello tomamos una muestra de 153 pacientes a los que se
somete a los dos mtodos diagnsticos y obtenemos los siguientes resultados:
Biopsia
Positivo Negativo
Citologa
Positivo 58 21 79
Negativo 12 62 74
70 83 153
Planteamos las hiptesis:

0
:
1
+
=
2
+

1
:
1
+

2
+

Y calculamos las proporciones muestrales:

+
=
79
153

+
=
70
153

Como
12
10 y
21
10 el suceso que define el contraste es:

=
(
12

21
)
2

12
+
21
>
2
; 1

=
(21 12)
2
21 +12
>
2
0.05; 1

=
9
2
33
>
2
0.05; 1

Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 80

= 2.45 > 3.841


Como no se verifica el suceso, no rechazamos la hiptesis nula
0
:
1
+
=
2
+
Y no
podemos afirmar que la biopsia es mejor que la citologa.
Este tipo de test es muy utilizado para sustituir un mtodo diagnstico por otro cuando
estos estn relacionados (con el test de la
2
hayamos aceptado la
1
: ) y
cuando no haya diferencias de proporciones (Un mtodo no detecte ms positivos que el
otro).
Tema 18: Anlisis de regresin y correlacin
El anlisis de la regresin es el tercer caso del anlisis de la variabilidad: se dan dos
variables cuantitativas.
El principio para comprobar si las dos variables cuantitativas estn relacionadas
consiste en hacer variar una de las variables y comprobar si influye sobre la otra. Las dos
variables se deben de observar en la misma unidad experimental. De este modo se obtienen
pares de datos:
(

)
Estos pares de datos se expresan en dos ejes coordenados:

Si se representan todos los valores de (

) observados se obtiene un conjunto de


pares de valores {(

)}. El conjunto resultante se denomina tambin diagrama de


dispersin.
Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 81
Cuando se obtiene la representacin de los pares de valores se suele observar una
tendencia de la dispersin de los puntos. Para analizar la regresin se debe de obtener una
funcin (o recta) aproximada que se ajuste a esta tendencia de los puntos.
Pero como puede darse el caso de que para un mismo valor

se pueden dar
diferentes valores de

la definicin de funcin no se cumple. Para ello los valores de


correspondientes a un

se agrupan en un representante, que generalmente es la media.


La funcin que pasa por los puntos medios de

se denomina regresin. En sentido


estricto una regresin es la distribucin de y condicionada con x, pero para nuestro nivel
nos es suficiente con la definicin anterior.
Se debe de ajustar una funcin para que se pueda analizar la regresin.
Problema del ajuste
Para analizar la regresin se debe de ajustar una funcin partiendo de los puntos que
deben de pasar por ella. Este proceso consta de cuatro partes:
1. Tipo de funcin: Para ello nos basamos en dos principios:
- Naturaleza de las variables: Se sabe que si la distribucin de dos variables es
normal, la regresin es una recta.
- Forma de la nube de puntos: La tendencia de la dispersin de los datos
genera una nube de puntos que puede adquirir una forma caracterstica.
Veamos los ejemplos ms caracterstico, aunque hay que recalcar que el ms
usual con diferencia es la recta.

Recta: =
0
+
1


Exponencial: =
1

Por lo general en la naturaleza se da la


expresin: =


Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 82


Logartmica: = log

0
Por lo general en la naturaleza se da la
expresin: = ln


Hiperblica: =
1

0
+
1




Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 83
Logstica: =
1
1+

0
+
1





2. Determinar la funcin: Consiste en obtener los parmetros de la funcin. Por
lo general se suele determinar una recta. Para ello se calcula mediante el
criterio de mnimos cuadrados. El criterio de mnimos cuadrados establece que
la suma de los cuadrados de los errores debe de ser mnima Consiste en:

Calcular los parmetros que definen la funcin de una recta:
=
0
+
1

= (

;
0
+
1
)


Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 84
Aplicando el criterio de mnimos podemos obtener una expresin para determinar la
funcin:

1
=

)(

2

(

)
2

0
=

=
1

El valor de
0
se denomina como ordenada en el origen.
El valor de
1
se denomina como coeficiente de regresin o pendiente de la recta
debido a que representa el valor de la tangente trigonomtrica de la recta respecto al eje de
coordenadas.
El valor de
1
se interpreta como el incremento o decremento de y por cada unidad
de x. Tambin si se halla la derivada de y respecto a x se puede interpretar este valor como
la velocidad.
Desde el punto de vista del diseo hay que determinar que otras variables influyen
sobre las otras dos.
En una recta: =
0
+
1
hay que determinar las unidades que presentan cada uno
de los parmetros:
=
0
+
1


Donde

es la unidad de la variable r.
La determinacin sirve para interpolar y extrapolar datos con precaucin. Esta
interpretacin no es individual para cada individuo, sino que en realidad representa el valor
medio de cada variable en funcin de la otra.
En algn caso nos es interesante obtener la recta en funcin de la otra variable. Para
ello no se puede despejar de la ecuacin de la recta =
0
+
1
porque se trata de una recta
emprica. Para obtener la recta en funcin de la otra variable debemos de ajustar otra vez:
=
0
+
1

Donde aplicando el mtodo de los mnimos cuadrados obtenemos que:

1
=

)(

2

(

)
2


Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 85

0
=

=
1

Ojo porque para este caso las unidades de los coeficientes de la recta varan y son los
inversos a los de la otra recta. La recta =
0
+
1
y la recta =
0
+
1
se denominan
rectas de regresin. El signo de
1
y de
1
es el mismo y depende del numerador (que es igual
tanto en
1
como en
1
) porque el denominador es siempre positivo en
1
y en
1
.
Las dos rectas de regresin se cortan en el punto ( , ).
3. La bondad del ajuste: La bondad del ajuste da una interpretacin de la
fiabilidad que presenta el ajuste. Para ello se recurre al coeficiente de
determinacin
2
:

2
=
1

1

El coeficiente de determinacin
2
representa el tanto por 1 en que la variabilidad de y
(x) es debida a la variabilidad de x (y). Es decir, el coeficiente de determinacin
2
indica el
grado de dependencia lineal de una variable sobre otra. El coeficiente de determinacin
2
es
adimensional.
0
2
1
Cuando
2
= 1 se da dependencia funciona l y las dos rectas de la regresin coincidan
y entonces s una se puede obtener a partir de la otra despejando. Esto no ocurre en la
prctica, pero tericamente podra ocurrir.
Pese a que el coeficiente de determinacin
2
es bastante intuitivo, no aporta el
sentido de la dependencia. Para ello se recurre al coeficiente de correlacin :
=

2
=
1

1

1 < < 1
El signo que hay que darle al coeficiente de correlacin es el singo de
1
que es igual
al signo de
1
. En base a esto podemos diferenciar dos tipos de dependencia:
- Dependencia directa: si las dos rectas son crecientes, es decir, si la pendiente
de las rectas es positiva o si
1
> 0 o si
1
>0 o s > 0.
- Dependencia inversa: si las dos rectas son decrecientes, es decir, si la
pendiente de las rectas es negativa o si
1
< 0 o si
1
<0 o s < 0.
Esto podemos explicarlo grficamente:
Si las variables presentan dependencia directa entonces el aumento de una induce al
aumento de la otra, por tanto su pendiente es positiva porque tienden al aumento:
Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 86

Si las variables presentan dependencia inversa entonces el aumento de una induce a la
disminucin de la otra, por tanto su pendiente es negativa porque tienden al descenso:

4. Contrastar la independencia y la dependencia de las variables. En el caso
extremo de que las dos variables fueran totalmente independientes, entonces
Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 87
el valor del coeficiente de determinacin sera 0:
2
= 0. Esto se debe a que el
coeficiente de determinacin, recordemos, equivale al tanto por 1 que
produce la variabilidad de una variable sobre la variabilidad de otra.

Por ello podemos deducir que si:

2
= 0

2
= 1
En este ltimo caso acta la matemtica y no la estadstica.
Bien para comprobar esto sobre nuestro anlisis debemos de realizar un test
para contrastar las hiptesis:

0
: = 0

1
: 0
El trmino de es el estadstico correspondiente al coeficiente de
determinacin
2
.
El suceso que define el contraste es:

=
|| 2
1
2
>
; 2

Por ejemplo, analizamos el peso y la altura de cinco chicas de clase para comprobar si
estas dos variables estn relacionadas entre s. Los datos obtenidos son:
Altura (m.) Peso (Kg.)
1.55 60
1.63 50
1.67 55
1.70 66
1.74 72

Procedemos a determinar el tipo de funcin que se nos presenta: por la naturaleza de
las variables no podemos predecir cul ser su forma, pero si analizamos la forma de la nube
de puntos observamos un claro aumento progresivo que hace indicar que ser una recta.
Bien en nuestro caso vamos a determinar nombrar a la altura como variable y al
peso como variable . Y procedemos a calcular algunos valores que necesitaremos en el
proceso de determinacin de la funcin de regresin:

Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 88
Altura (m.) Peso (Kg.)
2

2

1.55 60 93 2.402 3600
1.63 50 80 0.65 2500
1.67 55 91.85 2.78 3025
1.70 66 112.2 2.89 4356
1.74 72 125.28 3.02 5184
8.29 303 503.83 13.76 18665
=
0
+
1

1
=

)(

2

(

)
2

1
=
503.83
8.29 303
5
13.76
8.29
2
5
= 69.07 ./.

0
=

=
1

0
=
303
5
69.07
8.29
5
= 53.92 .
=
0
+
1

= 53.92 +69.07
Si queremos obtener la recta en funcin del peso debemos de volver a ajustar la
expresin:
=
0
+
1

1
=

)(

2

(

)
2

1
= 0.0048 ./.

0
=

=
1

0
= 1.367 .
Para calcular la bondad del ajuste procedemos a calcular los coeficientes de
correlacin y de determinacin:

2
=
1

1
= 69.07 0.0048 = 0.33
Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 89
=

2
=
1

1
= +0.575
Por ltimo realizamos el contraste de la hiptesis de independencia:

0
: = 0

1
: > 0
Hemos tomado como hiptesis alternativa
1
: > 0 porque previamente
hemos calculado el coeficiente de correlacin y nos ha dado un valor positivo, por
tanto podemos rechazar que < 0 con total seguridad.
El suceso que define el contraste es:

=
|| 2
1
2
>
2; 2

=
|0.575| 5 2
1 0.33
>
0.1;52

=
|0.575| 3
0.67
>
0.1;3

= 1.2167 > 2.35


En el estudio muestral hemos obtenido que el coeficiente de correlacin > 0 y por lo
tanto en nuestra muestra las variables s que tienen una relacin directa. Sin embargo al
realizar el test de independencia no podemos rechazar que sean independientes por lo que
deducimos que el test ha sido poco potente por la muestra tan pequea que hemos escogido.
Tema 19: Contraste de igualdad de varias medias: ANOVA de
varios factores
El anlisis de la variabilidad tiene como funcin comprobar si una variable influye
sobre la otra. Por ello se mide en una misma unidad experimental varias variables. Hemos
estudiado ya el caso I, que se d:

1 ()
1 ()

En este caso se plantean las siguientes hiptesis, porque la variable cualitativa es
dicotmica (hombre o mujer):

0
:
1
=
2

1
:
1

2

Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 90
Pero, sin embargo, puede darse el caso de que la variable no sea dicotmica, sino que
sea multinomial como por ejemplo puede ser el grupo sanguneo (A, B, AB, 0). Dados estos
casos debemos de hacer un contraste de igualdad de varias medias:

0
:
1
=
2
=
3
=. . . =

1
:
representa el nmero de modalidades que puede presentar la variable cualitativa.
Por ello tenemos poblaciones:
1
,
2
,
3
, ,

. Siguiendo con el ejemplo del grupo


sanguneo tendramos cuatro poblaciones (Poblacin de grupo A, de grupo B, de grupo AB y
poblacin de grupo 0). Se tienen mltiples poblaciones porque hay varias modalidades de la
variable cualitativa. Cada poblacin tiene su media.
El anlisis de la varianza o ANOVA (del ingls: ANalysis Of VAriance) contrasta,
entonces, la igualdad de varias medias. La tabla de observaciones tpica de las ANOVA es
semejante a la siguiente:

1

11

12

13

1
1

2

21

22

23

2
2

3

31

32

33

3
3


1

2

3


Las condiciones que se requieren para aplicar la ANOVA son las mismas que para el
test de la t de student combinada:
- Las observaciones sigan un modelo lineal.
- Las poblaciones tengan distribucin normal.
- Las varianzas sean iguales (Existen test que no entran en el temario para
comprobarlo as que en nuestros problemas esto se supone cierto).
- Las observaciones deben de ser independientes.
Los clculos que debemos de obtener son los siguientes:


1

1
2

1

1
2


2

2
2

2

2
2


3

3
2

3

3
2



Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 91
Donde

representa la suma de los elementos de cada muestra,

2
representa el
cuadrado de la suma de los elementos de cada muestra y donde

representa el tamao de la
muestra.
Tambin debemos de calcular los factores y :
=
11
2
+
12
2
+
13
2
+. . . +


2

=

2


Ojo puesto que en el valor la suma es de todos los elementos que hemos observado.
Y en el valor el trmino que est en el numerador es el cuadrado de .
Una vez que hemos calculado estos trminos procedemos a elaborar la tabla de
anlisis de varianza:
Tabla de anlisis de la varianza
Fuentes de variacin
Grados de
libertad
Suma de
cuadrados
Medias cuadrticas
o varianza


Poblaciones o Causa que
provoca la variabilidad
1
1
=
1
2
=

1
( 1)

=

1
2

0
2

Error aleatorio o deriva al
azar o residuo

0
=
0
2
=

0
( )

Si

>
;
(1)
()
se rechaza
0

El suceso que define el contraste es:

=

1
2

0
2
>
;
(1)
()

Algunas caractersticas de la tabla de anlisis de la varianza son:
-
1
y
0
son siempre positivos
-
1
2
representa la variabilidad entre distintas poblaciones.
-
0
2
representa la variabilidad debida al azar.
- Si
1
2
= 0 significa que las poblaciones son iguales y que por lo tanto sus
medias son iguales.
El anlisis de la varianza se puede realizar para una variable dicotmica, pero hay que
tener en cuenta que slo puede realizarse un test bilateral y que si se precisa de un test
unilateral se pierde potencia de test.
En nuestros casos debemos de tomar como cierto la premisa de que las varianzas o
medias cuadrticas sean iguales aunque hay que sealar que existen test ms avanzados para
comprobarlo.
Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 92
En el caso de que se rechace la hiptesis nula
0
procedemos a realizar un test de
contrastes de igualdad de dos medias con el test de la mnima diferencia significativa o MDS o
LSD.
Las hiptesis que se contrastan son:

0
:

1
:


Donde los subndices y representan dos medias de poblaciones distintas. Siguiendo
el caso que habamos planteado al comienzo de la explicacin de los grupos sanguneos sera la
media de peso de personas del grupo A y la media de peso de personas del grupo B.
El suceso que define el contraste es:

=
|

0
2

1

+
1

>
;()

Cuando se realiza el test si se rechaza la hiptesis nula
0
no se debe de poner la
probabilidad del error.
Veamos un ejemplo completo del anlisis de la varianza: Se disponen de tres
antibiticos (
1
,
2
,
3
) para el tratamiento de una enfermedad infecciosa y se quiere
comprobar si hay uno mejor y otro peor. Para ello se ha tomado una muestra de 12 pacientes
con dicha enfermedad infecciosa y se les ha dividido en tres grupos a los que se les ha
suministrado un tipo de antibitico a cada uno y se han contabilizado los das que fueron
necesarios para su cura total. Los resultados obtenidos fueron los siguientes:
Tratamiento Das necesarios para curacin

1
7 8 10 9

2
5 4 4 5 3

3
9 12 10
En base a ello construimos la tabla de clculos. Recordemos que para calcular los
valores de

debemos de sumar los elementos de cada poblacin. En este ejemplo para


calcular
1
= 7 +8 +10 +9

1
34 1156 4 289

2
21 441 5 88.2

3
31 961 3 320.33
= 86 = 12 = 697.53
Debemos de calcular tambin el valor de los parmetros y . Recordemos que para
calcular el parmetro debemos de sumar los cuadrados de todos los elementos observados:
Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 93
= 7
2
+8
2
+10
2
+9
2
+5
2
+4
2
+4
2
+5
2
+3
2
+9
2
+12
2
+10
2
= 710
= 616.33
Una vez que hemos realizado todos los clculos procedemos a elaborar la tabla de
anlisis de la varianza:
Tabla de anlisis de la varianza
Fuentes de
variacin
Grados de
libertad
Suma de cuadrados
Medias cuadrticas
o varianza


Tratamiento 2

1
= 697.53 616.33
= 81.2

1
2
= 40.6

=
40.6
1.39

Deriva al azar 9

0
= 710 697.53
= 12.47

0
2
= 1.39
Si

>
;
(1)
()
se rechaza
0

Las hiptesis que vamos a contrastar son:

0
:
1
=
2
=
3

1
:
El suceso que define este contraste es:

=

1
2

0
2
>
;
(1)
()

=
40.6
1.39
>
;
(31)
(123)

= 29.208 >
= 0.05: 4.26
= 0.025: 5.71
= 0.01: 8.02
= 0.005: 10.11


Como se verifica el suceso rechazamos la hiptesis nula
0
y aceptamos la hiptesis
alternativa
1
con ( < 0.005).
Hasta ahora realizando la ANOVA hemos podido demostrar que la media de das que
han necesitado los pacientes para curarse totalmente es diferente si han recibido uno u otro
tratamiento. Entonces debemos de realizar el Test de la mnima diferencia significativa o MDS
o LSD para poder comprobar si los pares de medias son iguales o distintos entre s, porque
puede darse el caso de que dos medias sean iguales entre s pero diferentes a la tercera o el
caso de que las tres medias sean diferentes.
Las hiptesis que se van a contrastar son:

0
:
1
=
2

Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 94

1
:
1

2

Donde
1
es la media de das que han necesitado los pacientes tratados con el
antibitico
1
para recuperarse totalmente. Y donde
2
es la media de das que han
necesitado los pacientes tratados con el antibitico
2
para recuperarse totalmente.
El suceso que define el contraste es:

1;2
=
|
1

2
|

0
2

1

1
+
1

>
;()

1;2
=
|8.5 4.2|

1.39
1
4
+
1
5

>
0.05;(123)

1;2
= 5.44 > 2.262
Como se cumple el suceso podemos afirmar que las el tratamiento 2 es mejor
tratamiento que el antibitico 1 porque las medias de ambas poblaciones son distintas. Y la
media de das que han necesitado los pacientes tratados con antibitico 2 para recuperarse
totalmente es menor que la media de das de los pacientes tratados con antibitico 1.
Debemos de elaborar un segundo test LSD:

0
:
1
=
3

1
:
1

3

El suceso que define el contraste es:

1;3
=
|
1

3
|

0
2

1

1
+
1

>
;()

1;2
=
|8.5 10.33|

1.39
1
4
+
1
3

>
0.05;(123)

1;2
= 2.0359 > 2.262
Como no se verifica el suceso, no podemos rechazar la hiptesis y entonces no
podemos afirmar que las medias sean distintas.
Para finalizar debemos de realizar el ltimo test LSD:

0
:
2
=
3

1
:
2

3

Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 95
El suceso que define el contraste es:

2;3
=
|
2

3
|

0
2

1

2
+
1

>
;()

2;3
=
|4.2 10.33|

0
2

1
5
+
1
3

>
0.05;(123)

2;3
= 7.1234 > 2.262
Como s se verifica el suceso podemos aceptar que las dos medias son diferentes.
Y para responder a la pregunta inicial de si podemos comprobar si alguno de los tres
antibiticos es mejor o peor podemos afirmar que el antibitico 2 presenta menor media de
das que han necesitado los pacientes para su recuperacin y por lo tanto es mejor que los
otros dos.
Y como el segundo test que hemos realizado no lo hemos podido rechazar, entonces
afirmamos que el antibitico 1 y el antibitico 2 son igual de malos respecto al antibitico 1.
ANOVA doble
Puede darse el caso de que queramos analizar tres variables al mismo tiempo. Para
nuestro nivel slo podemos analizar 2 variables cualitativas y una cuantitativa a la vez. Para
ello se realiza una ANOVA doble o two way.

2
1


Las condiciones que se requieren para aplicar la ANOVA doble son las mismas que para
el test de la t de student combinada y que el test de la ANOVA simple:
- Las observaciones sigan un modelo lineal.
- Las poblaciones-fila y las poblaciones-columna tengan distribucin normal.
- Las varianzas sean iguales (Existen test que no entran en el temario para
comprobarlo as que en nuestros problemas esto se supone cierto).
- Las observaciones deben de ser independientes.
Las hiptesis que se contrastan son dos a la vez para aprovechar as toda la
informacin:

0
1
:
1
=
2
=
3
=. . . =

1
1
:

0
2
:
1
=
2
=
3
=. . . =

1
2
:
Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 96
Se debe de realizar una tabla de clculos:

1

2

3

1

11

12

13

1

1

1
2

2

21

22

23

2

2

2
2

3

31

32

33

3

3

3
2


1

2

3


1

2

3

2

1
2

2
2

3
2

2

Donde

representa la poblacin-fila r.

representa la poblacin-columna k.


representa la suma de los elementos de la poblacin-columna k.

representa la suma de los


elementos de la poblacin-fila r.
Tambin debemos de calcular los valores de los parmetros , , y . En el examen
se proporcionar un anexo con las frmulas de dichos valores:
=

2
,

=


=

2


=


Tabla de anlisis de la varianza
Fuentes de variacin
Grados de
libertad
Suma de cuadrados
Medias cuadrticas o
varianza


Poblaciones-fila o
Causa que provoca la
variabilidad de las filas
1
1
=
1
2
=

1
( 1)

1
=

1
2

0
2

Poblaciones-columna o
Causa que provoca la
variabilidad de las
columnas
1
2
=
2
2
=

2
( 1)

2
=

2
2

0
2

Error aleatorio o deriva
al azar o residuo
( 1)( 1)
0
= +
0
2
=

0
( 1) ( 1)

Si

>
;
(1)
()
se rechaza
0

Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 97
Como se contrastan dos hiptesis a la vez debemos de realizar dos contrastes. El
primero de ellos va referido a la igualdad de la media de las poblaciones-fila (
1
,
2
,
3
, ,

)
y se contrastan las hiptesis:

0
1
:
1
=
2
=
3
=. . . =

1
1
:
El suceso que define este primer contraste es:

1
=

1
2

0
2
>
;
(1)
(1)(1)

El segundo contraste que realizamos va referido a la igualdad de medias de las
poblaciones-columna (
1
,
2
,
3
, ,

). Las hiptesis que se contrastan son:

0
2
:
1
=
2
=
3
=. . . =

1
2
:
El suceso que define este segundo contraste es:

2
=

2
2

0
2
>
;
(1)
(1)(1)

En el caso de que se hayan rechazado las hiptesis alternativas procedemos a realizar
el Test complementario de igualdad de dos medias.
Se deben de realizar dos test uno para las poblaciones-fila y otro para las poblaciones-
columna. El test de igualdad de dos medias para las poblaciones-fila es:

0
:

1
:


El suceso que define este contraste es:

=
|

2
0
2

>
;(1)(1)

El test de igualdad de dos medias para las poblaciones-columna es:

0
:

1
:


El suceso que define este contraste es:
Comisin Bioestadstica 11/12

Bloque 4: Anlisis de la variabilidad Pgina 98

=
|

2
0
2

>
;(1)(1)



Tabla de la t de Student.
Contiene los valores t tales que /[ T[ > t] = ct ,
donde n son los gradosde libertad
Lf\_
. '
Distribucin de Pea.rson con n grados de libertad.
Se tabul?- X;;,cq Ial que P(X a, con X E x;.
" n 0
1
995 0
1
990 0'97 0
1
900 0
1
100 0'050
oro25'
0
1
010 tY 00f)
J o 0000 00002 o 0010 o 0039 0158 2 706 841 5'024 6 635
'879
2 0
1
0100 0
1
0201 0
1
0506 0'1026 0'2107 4
1
605 5
1
991 7'378 9
1
210 10'597
3 0
1
0717 O' 1148 '0
1
2158 0
1
3518 o'5844 6
1
251 1'815 9
1
.'348 11 ':Hi'i T2'R:lR
4 0'2971 0
1
4844 0
1
7107 1
1
0636 7
1
779 9'48R
111JLI3
13
1
277 11
1
860
fi 0
1
408 o'5543 0
1
8312 1
1
1455 1
1
6103 lf236 11
1
070 12
1
832 15
1
086. 16
1
750
6 0
1
6-757 0'8721 1
1
2373 1
1
6354 2
1
2041 lo'645 12
1
592 14
1
449 16
1
-812 1-8
1
548
7 0
1
9893 1
1
2390 1
1
6899 2
1
1673 2
1
8331 12
1
0i7 14
1
067 16
1
013 18
1
475 20
1
278
8 1
1
3444 1
1
G465 2
1
1797 2
1
7326 3
1
4895 13
1
362 15
1
507 17
1
.1135 20
1
090 2J'95fl
9 1
1
7349 2
1
0879 2
1
7004 3
1
3251 4
1
1682 14
1
684 16
1
919. Hi023 2l''666 23
1
589
JO 2
1
1558 2
1
5582 3
1
2470 3
1
9403 4
1
8652 15
1
987 H07 20
1
483 23
1
209 25
1
188
11 2
1
6032 3'0535 3
1
857

5
1
5778 17
1
275 Ht675 .21
1
920 24
1
725 26
1
757
12 3
1
0738 3
1
5706 4
1
4038 5
1
22130 6
1
3038 18
1
5<19 21
1
026 23'337 26
1
217 28
1
300
13 3'5650 4
1
1069 _5
1
0087 5
1
8919 7
1
0415 19
1
812 22
1
362 ,24-' (36 27
1
68R 2Q
1
819
14 4
1
0747 1
1
6fi01 5
1
6287 6
1
5706 7'7895 21
1
064 23
1
685 .2fh19 29
1
141 31
1
319
15 4
1
0009 5
1
2294 6
1
2621 7'2609

2:i37 24
1
996 27
1
488 30
1
578 32'801
16 5'1'122 5'8122 6
1
9077 7
1
9616 9'3122 23
1
542 26
1
296 28
1
345 32'01){) 34
1
267
17 5
1
6973 6
1
4077 7'5642 -8
1
6718 10
1
085 24
1
769 27
1
587 30'191 33
1
409 35
1
718
18 6'2648 7
1
0149 8
1
2307 9
1
3904 10
1
865 "25
1
989 28
1
869 .'31.
1
526 34
1
805 3'7' 1
19 6'8439 7'G::I27 8
1
9065 H/117 11
1
651 27'204 3o'144 32
1
852 3t/un 38
1
582
20 7
1
8
1
2601 W5908 10'851 12
1
443 28
1
412 31'410 34
1
170 37
1
5"66 39
1
997
21 8
1
0336 8
1
8972 10
1
283 11
1
591 13'240 29
1
615 32'671 3t
1
479 38'932 41
1
401
22 8
1
6427 9
1
5425 i0'982 12'338 14
1
042 30'813 33'924 36
1
781 40
1
2_89 42'796
00
-"
9
1
2604 10
1
196 11
1
089 1'3
1
091 l1
1
&18 32
1
007 3.'5
1
172 38
1
076 41
1
638 44'181
24 9
1
8862 1.0
1
8!)6
12
1
101 13
1
818 15
1
659 33
1
196 36
1
415 39
1
364

45
1
558
25 10
1
fi20 11
1
521 13
1
120
14611
16
1
473 ::W382 37"652 4o'646 44
1
314 46
1
928
26 11
1
160 12
1
198 13
1
844 15
1
379 17
1
292 35
1
563 38
1
885 41
1
923 45
1
642 48'290
21 11
1
808 12'879 14'573 16'151 18'114 36
1
741 40
1
113 43
1
95 46
1
963 49'645
28 12' 461 13
1
.105 1})
1
308 16
1
928
-8'm9
11
1
337 14
1
461 48
1
278 50"994
29 13'121. 14
1
2f)6
16
1
017 17
1
708 19
1
768 39
1
087 42
1
557 45
1
722 49'588 52
1
33E!
30 13'781 14
1
954 16
1
791 18
1
493 20
1
599 40
1
256 43
1
773 46
1
979 50
1
892 53'672
Dhtrtbucin F' 'de FiBher-Snedecor t:on: u y 4' gra.dos de Jiberta.d..
-S;o--l,abula Fti,>t;a: tal que P(X 2: Pu,v,flt) = n, r:on XC: Fu,;,;.
"
1
V 1 2
3
.
5 6
0050 1 16L5 199' 215
1
7 224
1
0
2;30'2
234
0'025 647'8
ygt)-'5
864
1
2 R99'6 921
1
8 937'1
o' oJO 4999 5404 5624 &763- '5858
0'005 16212
ggg
21614 22MJ1 23055 23439
G 050 2 18 51 19 110 L<l'6
-q 25
l:!J'w HJ'3:i
(1015 38'51 3!l'OO 39"17
39
1
:25 owso 31l'33
(1()1()
os':oo
99
1
0()
-._rg'-16 9})!2r\ ggao
gla:J
o'005 19.8
1
5 199
1
0 199'2
191l'2 199'.3 19l':
0'050 3 10'13 9'55-
_QI<)){
""
9'12
g 01 8'!)4
o'025
17{44
16
1
04 15'44
15
1
10 14
1
88

0'010 34'\2 30
1
82 2>/Mi 28
1
71
2K
1
2(l
27
1
Dl
0'005 55
1
55 4Sl80 -47
1
47 46
1
20 45
1
39 44'84

4 771 6'04
6
1
5-9
6 39 6.26 6'l6
0"025 12f22 JO' 65 9'9& il'60
9
1
:-)6
9
1
20
0'010
'21;20
18'00 16'69 15'08 15'52 1r:;'n
0'005
3l/33
!16'28 24'26 23'15

21
1
98
() 050 5 6 61 5 79 5 41 5 HJ 5 05 4 95
o'25
1</01 8
1
43 7'76
7
1
30
7
1
US 6'98
(/010 16',26
13'27 12'06 11
1
:19
10
1
97-
-to'f.7
o'005 22'7B 18'31 Hi'53 15'56 14'94 14'51
0'050 6 5'99 5'14 4 76
453
t139 4 2"3,
0"025 H'Bl 7
1
20
:.:
1
fU
u, j 6
1
23
s'gg
[/82
0'010 13
1
7!5
J";J15 ll
1
75 8'47
-a-om:;
18
1
0:1 14'54 12'Q2 12'03 1.1
1
4f\: 11'07
0'050 7 5'59 '4
1
74 4'85 4'12 3'97
grg"{
o'o25 B'Of
1
54 5'89
-5
1
52
!5'29 5'-12
o' O! O
1 .
12-25
9'.55 8'45 7
1
85 7
1
.:!6 1'19
o'005 16
1
24 12
1
'10 10'88 10
1
05 9'5'2 9'1ll
o 05{) 8 G 3"2_ -'t -16- 407 3 84 ;H1P ;3 58
0"025 7
1
51 6
1
06 5'4:2 5'05 i
1
82 4/65
ol010
nl:lil 8!-65 -'r'tJg
7'01 G
1
63 tf-3'1
O'OQ5 14'6!}
11
1
04 riBO 8
1
81 8
1
30 7
1
95
7
g
236
1
8 23B
1
!J
948
1
2 956
1
6
i\928 5980
23710 23923
i'35 19 :l7
39'31' 39'37
-gg'W: _gsi:{H
199
1
1 im)
1
4
8 89
8''85
14
1
62 14
1
S4
'J/7
1
67 27'49
44'43 44'13
&09 6
1
04
fio1
g_lgg
14
1
98 14
1
80
21
1
62


4 88 402
6
1
85 6'76
10'46 10'29
14'20 13'96
4 21 4 15
5
1
70 5
1
60

8
1
10
1(i19
10
1
G7
?/79 -3
1
"l3
4
1
99
' .
490
6'99 6
1
84
8
1
89 8'6S
3'50' 3' 14
4
1
53_ 4'43
6'!8 6
1
03
7'69 '7
1
5
bi<stribudn F de.F-sher-Sndlecor con -u y v grados de:libet"fad
(_contillu_acin). - -
a
(J
1 2 3
C1
5 6 7 8
0
1
050 !l
5'12 426 386
3'.63 .3.48 3 :w 329 3'23
O'fr25 721 E:.'"71 5
1
08 4
1
72 4'48 4
1
32. 4
1
2 4
1
10
o' u1o 10'5.6 9'02 6
1
99 6
1
42 6
1
00 5
1
8.0
f
-5 61 5
1
41
0'005 13'61 !O'll
p{ ..,,,
.,.
il-gq 74_7
7
1
13 &'69
0'050 10 4'96
410
:rn 3'48 3'33 a 22 307
0'025 6'94 5
1
46 4'8:'!
4(47
4'24 4'07 !t'-95
3'85
0'010 10'01 1
1
56 6'-5ls 5
1
99 5'6'4 5
1
39 5
1
20 s'On
0
1
005 12
1
83 !i 4:1 8'08 7'34 687
61;)4. '6'30 6
1
12
-
4
1
!:i4 3
1
68 3'29
"'os
2
1
7') 2
1
11 2
1
64 o 050 15 <J- - -
o''O'l5 6
1
2
.O
4" ... ...-
" l j
-f'15 3
1
80
31.58_
3
1
41
3
1
20
u'rno

o.
6
1
36
y-
5
1
42 4'l.l9 4'56 4i32 4'14 4'00
U'005 10'80 7'70 6
1
48 5'80 5
1
37 5
1
07 4
1
85
4'n" . ' 1
o 050 .
20 .4'35 3' 49 3'f0 2'87 211 2 60
') '1
2'45
tl'm5
'5
1
87-
4'46
;j/86
" _-- -
3
1
t 1 -3'2H
gl ;
d. 3
1
01 .2
1
91
O'Ql S' lO

-0-: ....
.-[!\;4 ;f43
4".1.0
.3
1
81 ':V70 ,3
1
56
0'005
9'94 &99 5
1
$2. 1)
1
17 :iro--
'4' 4.-7
4
1
2.6 4
1
()9
0'01\0
30
4'17 3'32
2 92 2.69 2-53'
2
1
;12 .2'a3 2''/;J
0'0'25
5
1
57-
,rui
3
1
59
3'-25' ::!' 03 .2fwr
'ii"'5
-2
1
65 ..... _ f
0'010 1'56 5'39
1
::1
1
\)2
01
70

3'S 3
1
17 4.51 v .
.0
1
005 !)' 18 6'3.'\ 5
1
24 <
1
6Z 4'23
1 .
-3-95 3
1
74 3
1
5il
0'050 60 1'00 3
1
15 2'76. 2:53
2
1
37
2'25
2
1
1'7 210
!1025 5
1
29
3(93
'>
1
34' ,, .
3
1
0.1
2
1
'(9
2!63-
2'ti1 2
1
41
O010 i'Otr 4
1
98 fl3 3'65 3
1
3.4
-3'1CJ
- - - .<..r
2
1
1)5 2
1
82
o
1
o5 s149 5
1
19 4
1
14 3
1
76' 3
1
49
:3}29
3
1
13
0
1
050 120
39';) 3 07
2 ()R
<
2'45. 2'29 1'1S . 209 2'02
do25 .5
1
15 3
1
80 :123 2
1
89 2'.67 2'52 2
1
39 -2t30
0'010 6
1
85 1
1
79 3'95 3'48
3'f7
'2
1
96 2
1
79 2'6!3
rloo.5 8
1
18. 5
1
54 .1'50
3
1
9''
- -""'
3
1
55
a
1
28 3
1
09 2
1
93
O' ()fi(J
00 3 84 3 00

'V3""
""'.- - f
-2'21
2 l 2 01 1 !)4
0
1
02U 5
1
02 3'6f+ 3
1
12
2l19
2'57 2
1
41 2
1
29 -2
1
19
()' 010
ll't\3 4'1il 3
1
78 3
1
32 :J'2 2
1
80 2'64 '
11
51
" ' .
0
1
005 t88
5-3Q
4'28 8'72 .3
1
3.5. 3'0.9 2
1
90
2'74
Distribucin F de Fisher-S:Uedecor con u y v grados de liLertad
( continuaciH).
u
<i V 9 10 12 15 20 30
0050 1 2405 241 9 243 9 246 o 248 o 250 1
0
1
025 963'3 968'6 976
1
7 984
1
9 993
1
1 1001
o' OJO li023 6056 6106 6156 6209 6260
0
1
005 24091 24221 24426 24631 24837 25041
lY050
2
)[139 1910 19 41 19 43 19 4fi 19' 46
0
1
021 39
1
39 39'40 39
1
41 39
1
43 39
1
45 39
1
46
o'ow 99'39 99'1a 99'42 99'43 99
1
45 99'47
0
1
005 199
1
4 199
1
4 199
1
4 199
1
4 199
1
5 199
1
5
o 050 3 8 81 8 79 8 74 8'70 8 66 8 62
0'025 14'47 14
1
42 14
1
34 14
1
25 14
1
17 14
1
08
0
1
010 27
1
34 27
1
23 27
1
05 26
1
87 26
1
69 26
1
50
0'005 43'88 43'68 43
1
39 43
1
08 42'78 42
1
47
0'050 4 6 00 5 96 5'91 5 86 5 80 5 75
o'o2.o 8
1
90 8
1
84 8
1
7fi 8
1
66 8'56 8' 46
0
1
010 14'66 14'o5 14'37 14
1
20 14
1
02 13
1
84
0
1
005 21
1
14 20
1
97 20
1
70 20
1
44 20
1
17 19'89
0050 5 477 174 4 68 4 62 156 4 tO
0'025 6
1
68 6
1
62 6
1
52
6
1
43 6
1
33 6
1
23
0'010 10
1
16 10'05 9
1
89 9
1
72 9'55 9'38
0'005 13
1
77 13
1
62 13
1
38 13
1
15 12
1
90 12
1
66
0
1
050
f)
4
1
10 4 06 4
1
00 3
1
94 3'87 3'81
0
1
021\ 5
1
52 5
1
46 5
1
37 5
1
27 5'17 5
1
07
o
1
o1o 7
1
98 7
1
87 7'72 7
1
56 7
1
40 7'23
o
1
oo5 1o'39 10
1
25 lo'03. 9
1
81 9
1
59 9'36
o 050 7 3'68 3'64 3'57
3
1
51 341 -3'38
0
1
025 4'82 4
1
76 4
1
67 4'57 4'47 4'36
0'010 6
1
72 6'62 6
1
47 6
1
31 6'16 5
1
99
0
1
005 8
1
51 8
1
38 8
1
18 7
1
97 7
1
75 153
0050 8 3 39 35 3 2& 322 3 15 3 08
0
1
025
4'36
4
1
30 4
1
20 4
1
10 4'00 3'89
o' o m
s'M
5'81 5
1
fi7 5'52 o
1
36 5
1
20
0
1
005 7
1
34 7
1
21 7'01 6
1
81 6
1
61 6'40
60 00
252 2 254'3
1009
1
8 1918
6313 6366
25254 25466
19 48 19' fiO
39
1
46 39
1
50
99' 48 !1!l'50
199
1
5 199
1
5
8 57 8 53
13
1
99 13'90
26'32 26' 13
42
1
15 41
1
83
5 69 5 63
8
1
36 8
1
26
13'65 13
1
46
19
1
61 19'32
'] 43 4 37
6
1
12 6
1
02
9
1
20 9'02
12
1
40 12
1
14
3
1
74 3'67
4
1
96 4
1
85
7'06 6
1
88
9
1
12 8
1
88
3 30 3
1
23
4
1
25 4
1
14
5
1
82 5
1
65
7
1
31 7'08
301 2 93
3
1
78 3'67
r'03 4
1
86
6
1
18 5'95
Distribuci6n F de Fisher-Sneclecor con " y v grados ele libertttd
{continuacin).
O! V 9 10 12 15 20 30 60
o 050 9 3'18 YM 3 07 3 01 2 94 2 86 2 79
0'025 [lo:; :'96
3
1
87 3
1
77



3
1
45
0'010 5
1
3.5 5
1
26 5'11 1'96 4
1
81 4'65 4
1
48
o'oos 6
1
54 6' 42 6
1
2:l 6
1
03 5
1
83, 5
1
62 5
1
41
o 050
lO
3
1
02 2
1
98 2
1
91 2
1
B5 2 77 2
1
70 2
1
62
0
1
025 3
1
78 3
1
72 .3
1
62 3'5,2 3
1
12 3
1
31 3
1
20
0
1
010 4
1
94 4
1
85 4
1
71 4
1
.' 4
1
41
425
4
1
08
0
1
005 '5
1
97 5
1
85 5
1
66 5
1
47 5
1
27 5
1
0"
-'
4
1
86
O' OSO
]5
2
1
59 2 54
2'4R 2
1
40 2'33
j
1
25--
2
1
l!
o'b25 3
1
12


'<)l 90
" .
2
1
86 2'76 2'04 2'52
0
1
010 R
1
89 3
1
80
3
1
67 3
1
52
1 7
3:1 3
1
21 3'0[)
0'005 1
1
M

4'25
1
1
1
07 3
1
88
369
3
1
rJ8
0050 20 2 39 2 35 2 28 2 20 2 12 2 04 1 95
0
1
025 2
1
84 2
1
77 2
1
(18
-2'G'7
2
1
46 2
1
25 2
1
22
o' m o
3
1
,6
3
1
37 3
1
23 :3
1
09
2'9,1 2'78 2
1
61
O'Ob5 3'9() 3
1
85 :1'68 il'oo 3'32 ;1'12 2
1
92
o 050 :iO 2
7
21 2 16 2
7
09 201 1
1
93 184 174
0
1
025 2
1
57 2'51 2
1
41 2
1
31
1)/')0

2
1
07 1
1
94
0
1
010 3
1
07 2.'98 2
1
84 2
1
70
2/.55
2
1
39 2
1
21
0
1
05 3'45 'l
1
34 3
1
18 3
1
01
2182 2
1
63 2
1
42
0050 60 2 04 199 192 1
1
84 1
1
75 1
1
6!5 1 53
0
1
025 2
1
33 2'27 2'17
2'06 1
1
91 1
1
82 1
1
67
o' m o 2
1
72 2
1
63 2
1
50 2
1
35 2
1
20 2
1
Dil 1
1
84
0
1
005 3'01 2'90
2;71
2'57 2
1
39 2'19 1
1
96
o 050 120 I 96 1 91 183 1 7.5 166 1'55 113
0'025 2
1
22 2
1
16 2
1
05
Ji94
1
1
82 1
1
69 l'ri3
o'oio 2
1
56 2
1
17 2'34 2
1
19 2'03 1
1
86 1
1
66
flBl 2
1
71 2
1
54
2
1
37 2
1
19 1
1
98 1
1
75
o 050 00 1 88 1'83 1'75 1'67 1 57 146
1
1
' 2
1 3. -
0025
2'11 2
1
05 1
1
94 1
1
83 1
1
71 1
1
57 l
1
il9
o'ow 2'41 2
1
32 2
1
18 2
1
01 1
1
88 1'70
1
1
47
O'OOG in2 2
1
52 2'36 :l19 2
1
00 1
1
79 l'fi3
00
2 71
3
1
:33
4
1
31
5
1
19
2
1
"4 J,,'
3
1
08
gigj
;1'64
2
1
07
2
1
40
2
1
87
3
1
26
1 81
2
1
09
2
1
12
2'69
1
1
62
1
1
79
2'01
2
1
18
139
1'18
1
1
60
1
1
69
125
1
1
31
1
1
38
r 4'-'
-"'
1'00
1
1
01
1
1
01
1'01

Você também pode gostar