Você está na página 1de 78

BIOESTADISTICA 2006

Dr. Luis Roble Aleman

Medidas de Posición y
Dispersión
Objetivo:

Al término de la clase el estudiante estará


en condiciones de calcular, interpretar y
saber usar las medidas de posición y
dispersión.
La Estadística de Resumen

Después de construir tablas y gráficos,


a partir de una colección de datos, se
requieren medidas más exactas.
La estadística de resumen, proporciona
medidas para describir un conjunto de
datos.
Existen dos tipos de medidas de
resumen:
• De tendencia central.
Las medidas de posición
1. Reflejan la tendencia central y la localización
de los datos
2. Las medidas de tendencia central más
importantes son la media, la mediana y la
moda.
Aritmética
Media Geométrica
Medidas de Mediana Armónica
tendencia central Moda

3.También es útil conocer las medidas de


localización: percentiles (o fractiles). Estas
nos indican el lugar de los datos más
Medidas de tendencia
central
Las medidas de tendencia central
(denominadas también promedios)
permiten hallar un solo valor
numérico alrededor del cual los
datos parecen agruparse de cierta
manera, como si fuera el “centro de
gravedad de los datos”. Debido a
estas circunstancias, suelen ser
llamados de POSICIÓN O TENDENCIA
CENTRAL.
Principales medidas de
tendencia central

Media Aritmética.
Mediana.
Moda.
Cuantiles.
Media Aritmética

Es un valor representativo de
un conjunto de datos que se
está estudiando y caracteriza
a toda una distribución. Se le
conoce también como
promedio. En su cálculo
intervienen todo los valores
que se están estudiando.
Definición

Si tenemos N datos representados


por: x1, x2, x3, ......xN. La media
aritmética de estos N datos está
dado por:

__ X1 + X2 + X3 +..........+
XN
X = ____________________________
N
Simbólicamente lo
podemos representar
como:
∑Xi
µ = _______ N es el tamaño
N de la población

— ∑ Xi
X = _______ n es el tamaño
n de la muestra
Media Aritmética en
datos agrupados

fi es
frecuencia
— ∑fi Xi absoluta
simple.
X = ________
n Xi es una
marca de
clase.
Propiedades de la Media
Aritmética
1. Es única, puede ser un valor positivo, cero o
un valor negativo.

2. Si a los valores que estudiamos le


sumamos o restamos una constante, el
valor de la nueva media quedaría como la
media aritmética de los datos originales
más o menos la constante que se ha
agregado.

3. Si a cada valor de la serie le multiplicamos


por una constante, la nueva media
aritmética sería igual a la media aritmética
Propiedades de la Media
Aritmética
4. La suma de las desviaciones de los
datos con respecto a la media es cero,
es decir
N _
∑ ( xi - X) = 0
i=1

5. Como incluye todos los datos, puede


estar afectado por valores extremos.

7. Es usada para variables medidas en


escala de intervalo o de razón.
Ejemplo 1:

Los siguientes datos son edades de 10 madres que


asisten a un centro de salud en un día :
30, 43, 58, 61, 70, 42, 58, 39, 60, 55.

La edad promedio de estas madres será:


— 30 + 43 + 58 + ..... + 55 516
X = _____________________ = _____ = 51.6 años
10 10

En promedio los valores de edad de las 10 madres


es 51.6 años.
Ejemplo 2:
A continuación 30,43,58,61,70,42,58,3960,55
,71,70,65,39,40,6165,56,38,5
se presenta las 7,49,61,69,4346,69,44,59,
edades de 30 62,66
personas con
Tabla 1
cáncer
Edad fi Xi fi . Xi
pulmonar que 30 - 36 1 33 33
pasan a 37 - 43 7 40 280
consulta en el 44 - 50 3 47 141
Hospital María 51 - 57 3 54 162
Auxiliadora. 58 - 64 8 61 488
Lima. Julio 65 - 71 8 68 544
2005: Total 30 1648
PROCEDIMIENTO:
— ∑fi Xi 1648
X = ________ = ______ =
54.9
n 30

En promedio los valores de la edad


de los 30 pacientes es de 54.9
años.
MEDIA GEOMETRICA

La media geométrica para un conjunto


de valores positivos: x1, x2, x3, ......xn, se
define:
Mg = n x1, x2, x3, ......xn

 Si se trata de calcular la Mg de más de dos valores,


y no se dispone de una calculadora científica o
computadora lo preferible es tomar logaritmo de
cada miembro y se tendría:
∑logXi
Log Mg = ________
Ejemplo: Supongamos que un conteo
bacterial se incrementa de la siguiente
manera en 6 dìas:

xi : 3, 9, 27, 81, 243 y 729


Calcular e interpretar la Mg:
Calculamos logaritmos en base 3. Se
tiene:
Log3xi : 1, 2, 3, 4, 5 y 6
Luego: Log3 Mg = 21 = 3.5 Mg 3 = 3.5

=47 6
MEDIANA ( Me )

La mediana es un valor que


divide a la distribución
ordenada en forma
ascendente o descendente en
dos grupos iguales.

50% | 50%
V. min. Me.
V. máx.
Propiedades de la
Mediana
1. Es única , existe solamente una mediana
para un conjunto de datos.

2. Los valores extremos no tienen efectos


importantes sobre la mediana.

3. Se aplica también a variables que


pertenecen a la escala ordinal.

4. Es muy variable de muestra a muestra.


Mediana En Datos No
Agrupados
 Se ordena los datos en forma
ascendente o descendente.
 Si el número de DATOS ES PAR, el
valor de la mediana va a estar
dado por:
X N/2 + X (N/2 +1)
Me = _________________
2
Ejemplo:
Dado los valores: 11, 8, 13, 20, 14, 3, 7, 12. Hallar
la mediana
Ordenando ascendentemente: 3, 7, 8, 11, 12, 13,
14, 20.
POSICION:
N/2 = 4 Entonces X N/2 = 11

N/2 + 1 = 5 Entonces X (N/2 +1) = 12

Me = 11 + 12 = 11.5
2
Por debajo de 11.5 existe un 50% de observaciones.
Mediana
Si el número de DATOS ES IMPAR,
el valor de la mediana es el valor
del centro.

Me = X (N+1)/2

donde (N+1)/2 es la posición de


la mediana
Ejemplo:
Calcular la mediana dado los valores: 1,
9, 2,
6, 3, 5, 7 días.
Ordenando los valores: 1, 2, 3, 5, 6, 7,
9.
Posición:
(N+1)/2 = 4 entonces X (N+1)/2 = 5
Me = 5
Es decir por debajo de 5 existe un 50 %
Mediana en datos
agrupados.
Me = Li + (N/2 - Fi-1) x C
f Me
N/2 Posición de la mediana
Li Límite real inferior de la clase que
contiene a la Me
N Número total de observaciones
Fi-1 Frecuencia absoluta acumulada de la
clase anterior a la que contiene a la Me.
f Me Frecuencia absoluta de la clase que
contiene a la Me
C Amplitud de la clase que contiene a la Me
Ejemplo:
Calcular la Me de la siguiente
distribución:
Procedimiento:

1. Calcular las frecuencias acumuladas Fi


2. Calcular N/2 = 40/2 = 20 sirve para detectar la clase
mediana.
3. Clase mediana: clase cuyo Fi excede a 20 (15 - 19)
4. De la clase mediana se obtiene:
L i = 14.5 Fi - 1 = 12 C = 5 fMe = 15 . Los valores
encontrados en (2), (3) y (4) lo reemplazamos en la
formula y se tiene:
Me = 14.5 + 20 - 12 x 5 Me = 17.17
15
Interpretación: El 50% de los puntajes están por debajo
de
17.17 y el 50% está por encima de 17.17
LA MODA
 Se utiliza mayormente
cuando la característica en
estudio se ha medido en escala
nominal u ordinal. La MODA es
la observación que
mayormente se repite
(observación más COMÚN)
Ejemplo: Se tiene la siguiente información:
2, 3, 4, 5, 5, 6, 4, 5

Mo = 5
Propiedades de la Moda

1. Si todos los valores son diferentes, no


hay moda.

2. En una distribución puede existir dos o

más modas

3. Es usada para variables categóricas o

cualitativas.
Ejemplo:

Estado Civil fi
Soltero 30
Casado 60
Divorciado 10
Total 100
Ejemplo:Moda para datos
agrupados
En una tabla de distribución de frecuencias es
aproximadamente la marca de clase o punto medio de la
clase que tiene la mayor frecuencia absoluta simple.
Variable fi
5-9 3
10 - 14 9
15 - 19 15
20 - 24 8
25 - 29 5
total 40
La moda estará ubicado en el intervalo:
Variable fi
15 - 19 15
Por lo tanto la marca de clase
será:

14.5 + 19.5 = 17.0


2

Luego la Mo = 17.0
SIMETRÍA

 Cuando los datos de una población se


distribuyen con igual frecuencia y
alejamiento por debajo y por encima de
la media aritmética, se dice que la
distribución es simétrica; pero, si los
datos por debajo de la media son más
frecuentes que aquellos por encima de
la media, o viceversa, se dice que la
distribución es asimétrica.
SIMETRÍA
SIMETRÍA
LOS CUANTILES

Son aquellos que dividen a la


distribución en cuatro, diez o
cien partes iguales:
Cuartiles.
Deciles.
Percentiles.
Cuartiles (Q).
Son aquellos que dividen a la distribución en cuatro
partes iguales, en donde cada uno de ellos incluye el
25% de las observaciones.
__25%_._25%__.__25%__.__25%__
Q1 Q2 Q3
Me
Las fórmulas para calcular los cuartiles son parecidas a
la de la mediana, así:
Q1 = L1 + (N/4 - Fi-1) x C
fQ1
Q2 = Me
Q3 = Li + (3/4 N - F i-1) x C
f
Donde:
Li = Limite real inferior de la clase que
contiene el Q1 ó Q3 .
Fi-1 = frecuencia absoluta acumulada de la
clase anterior a la que contiene a Q1 ó Q3
fQ1 ó fQ3 = frecuencia absoluta de la clase que
contiene el Q1 ó Q3
C = ancho de la clase que contiene el Q1 ó
DECILES (D)

Son aquellos que dividen a la distribución en diez partes iguales


en donde cada uno de ello incluye el 10% de las observaciones

_10%_._10%_.10%_._10%_._10%_._10%_._10%_._10%_._10%_._10%_
D1 D2 D3 D4 D5 D6 D7 D8 D9
Q2
Me

Las formulas son también similares a las de Q1 , Q3 Así:


D1 = Li + (N/10 - F i-1 ) x C
fD1
D5 = Me
D7 = Li + (7/10 N - F i-1 ) x C
fD7
Donde:
Li = Limite real inferior de la clase que
contiene el D1 ó D7 .
Fi-1 = frecuencia absoluta acumulada de la
clase anterior a la que contiene a D1 ó Q7
fD1 ó fD7 = frecuencia absoluta de la clase que
contiene el D1 ó D7
C = ancho de la clase que contiene el D1 ó
D7
PERCENTILES (P)
Son aquellos que dividen a la distribución en cien partes iguales
en donde cada uno de ello incluye el 1% de las observaciones:

_1%_._1%_. 1%_._1%_._1%_. .........._1%_._1%_._1%_._1%_._1%_


P1 P2 P3 P4 ........... P96 P97 P98 P99

Las formulas son parecidas a los cuantiles y deciles, Así:

P10 = Li + (10/100 N - F i-1 )x C


fP10

P60 = Li + (60/100 N - F i-1 )x C


fP60

C = ancho de la clase que contiene el P10 ó P60


Ejemplo:

Como los cálculos de los cuantiles, deciles y


percentiles son similares se calculará el Q3 de la
siguiente distribución :
Variable fi Fi
55 - 58 20 20
59 - 62 30 50
63 - 66 80 130
67 - 70 70 200
71 - 74 40 240
75 - 78 10 250
Procedimiento:
1. Calcular las frecuencias acumuladas F
2. Calcular la posición de
Q3: 3N/4 = 3(250) / 4 = 187.5
3. Clase que contiene a Q3: es la clase cuyo Fi
excede a 187.5 y que corresponde al
intervalo 67 - 70
 Limite real inferior de la clase que
contiene a Q3 es Li = 66.5
 Frecuencia absoluta acumulada
anterior a la clase que contiene a Q3
es: Fi-1 = 130
 Frecuencia absoluta de la clase que
contiene a Q3 es: fQ3= 70
reemplazando estos valores en la fórmula:

Q3 = 66.5 + 187.5 - 30 x 4
70

Q3 = 69.8

Por consiguiente , se tiene que el 75% de los


valores están por debajo de 69.8 puntos y el
25% de los valores están por encima de 69.8
Q3 = 69.8
Percentiles para datos no
agrupados
Se determina el percentil k (Pk) de acuerdo a
lo siguiente (valor de la posición):
 Si k(n+1)/100 es un entero
entonces el valor del percentil será el dato
que se encuentre en la posición calculada.
 Si k(n+1)/100 es fraccionario
hacemos una interpolación lineal entre los
dos valores correspondientes a las dos
observaciones entre las cuales se encuentra
Recordar:

Q1 = P25
Q2 = Mediana = P50
Q3 = P75
Medidas de dispersión
Dr. Luis Roble
Las medidas de
dispersión
Llamadas también medidas de variabilidad,
miden el grado de separación de los datos
respecto a un valor central.
Son útiles porque:
2. Permiten juzgar la confiabilidad de la
medida de tendencia central.
3. Los datos demasiados dispersos tienen
un comportamiento especial.
4. Es posible comparar dispersión de
diversas muestras.
Medidas de dispersión

Una medida de Dispersión indica


cómo las observaciones se separan de
la Media Arítmetica.

Esta medida será grande si las


observaciones están distantes de la
media y pequeña si están cerca.
Medidas que calculan la
dispersión

 RANGO ( Amplitud Total )


Es la medida más simple de
dispersión

A = Obs Max - Obs Min


La varianza

Es una medida de dispersión


que cuantifica la variabilidad
de los datos con respecto a la
Media Arítmetica.
Definición:

Si tenemos N datos X1, X2, X3, ...., XN .


La varianza de estos datos se define como:
__
∑ ( Xi _ X )2
V(x) = ____________
N

Para una muestra de tamaño n tendremos:


__
∑ ( Xi _ X )2
V(x) = ____________
n-1
Varianza Poblacional

(∑ Xi)2
∑ Xi2 _ __________
N
V( x ) = ________________________
N
Varianza Muestral

(∑ xi)2
∑ xi2 _ __________
n
v(x ) = ________________________
n-1
Ejemplo

Consideremos los siguientes datos de una


muestra :
4, 7, 8, 3, 5, 9, 10, 2.

__ 4+7+8+....+ 2
X = ____________ = 6
8

(4-6)2 + ( 7-6)2 +...+(2-6)2


V(x) = _____________________ = 8.57
8-1
Ejemplo:
Ejemplo

Se tiene la siguiente distribución de


frecuencias:
Variable fi Xi fi . Xi fi . Xi2
55-58 20 56.5 1130 63845
59-62 30 60.5 1815 109807.5
63-66 80 64.5 5160 332820
67-70 70 68.5 4795 328457.5
71-74 40 72.5 2900 210250
75-78 10 76.5 765 5852.25
total 250 16565
Formula para datos
agrupados

(∑fi Xi)2
∑fi Xi2 _ __________
N
V( x ) = ________________________
N
Resultados

(16565)2
1051032.25 - _________
250
V(x) = _______________________
250
= 186.26
Desviación estándar

Es la medida de dispersión más común


para definir datos médicos y del área
de la salud.

Es la raiz cuadrada de la varianza σ=√


V(X).
El coeficiente de variación

Es una medida relativa de variabilidad de los datos entre


la media y la desviación estándar de una población o
muestra. Permite comparar la variabilidad de dos o más
conjuntos de datos expresados en unidades diferentes
(por ejemplo peso en Kg. y libras).

a) Cálculos a partir de datos no agrupados


para la muestra: s
CV = ×100
x

σ
CV =
para la población: ×100
µ
Ejemplo:

Supongamos que de dos poblaciones se han obtenido


los siguientes datos:
Grupo 1 Grupo 2
__
Edad X = 25 años 11 años
__
Peso X = 72.5 Kgs. 40 Kgs
σ = 5 Kgs. 5 Kgs.
N = 15 15

¿Que grupo es más homogéneo o menos variable en


relación al peso?
Grupo 1 Grupo 2
5 5
C.V = ______. 100 C.V = _____.100
72.5 40

= 6.9% = 12.5%
La muestra 1 posee menos dispersión de
los pesos con respecto a la media en
relación a las muestra 2.
Consideraciones

SI:

C.V < 10% hay poca dispersión


10% < C.V < 33% Dispersión
aceptable
33% < C.V < 50% Dispersión alta
C.V > 50% La dispersión es muy alta.
Rango intercuartilico

Se define como:
R.I. (Q) = Q3 - Q1

Q1 es el primer cuartil

Q3 es el tercer cuartil

Excluye el 25% más alto y el 25% más


bajo, dando un rango de 50% de los
Uso de las diferentes
medidas de dispersion
 Ladesviación estándar se emplea cuando
también es apropiado el uso de la media, es
decir, con distribuciones simétricas(no
sesgadas) de datos numéricos.
 Percentiles y rango intercuartilicos se
emplean, cuando la distribución no es
simétrica(sesgada) y es apropiado el uso de
la mediana.
 Elrango es una medida apropiada
para datos numéricos cuando el
propósito es enfatizar valores
extremos.

 El coeficiente de variación es útil


cuando la intención es comparar dos
distribuciones numéricas medidas en
El “Boxplot” (Diagrama de
Caja)
 Aligual que el histograma y los gráficos
de Tallo y Hoja permite tener una idea
visual de la distribución de los datos
(simetría y variabilidad).
 Permite detectar outliers (valores
extremos).
 Permite comparar la media y la
variabilidad de varios grupos
Boxplot: Procedimiento
1. Dibujar una caja cuyo límite inferior
será Q1 y el superior Q3. Dentro de
la caja trazar una línea que localice
la mediana.
2. Calcular el rango intercuartílico:
R.I. (Q) = RIQ = Q3 – Q1
4. Dibujar un “bigote” del borde inferior
de la caja hasta Q1-1.5xRIQ o hasta
el valor mínimo de los datos (se elige
el mayor de estos dos resultados)
Boxplot: Procedimiento

1. Dibujar otro“bigote” del borde


superior de la caja hasta Q3+1.5xRIQ
o hasta el valor máximo de los datos
(se elige el menor de estos dos
resultados)
2. Dibujar cualquier observación que se
ubique fueras de los bigotes (estos
serán los outliers).
BoxPlot: Ejemplo

Construir un boxplot con el siguiente


grupo de datos:
5 21 27.5 42 52
Recordar la posición de los cuartiles:
n +1
Q1 =
4
2( n +1) n +1
Q2 = =
4 2
3(n +1)
Q3 =
4
BoxPlot: Ejemplo
Proceso:
Q1 =13 Q2= 27.5 Q3 = 47
RIC = 47 – 13 = 34
Q3+1.5xRIQ = 47 + (1.5)(34)= 98
Q1-1.5xRIQ = 13 – (1.5)(34) = -38
Como no hay “outliers” o valores extremos,
entonces las líneas laterales de la caja llegan
hasta el valor minimo por abajo, y hasta el
valor maximo por arriba
BoxPlot: Ejemplo

50

40

30
Datos

20

10

0
Medidas de resumen numérico
para variables cualitativas

Las medidas de resumen numérico


empleadas para variables
cualitativas son:
 Razón

 Proporción

 Tasa
RAZON
Es la comparación por cociente entre dos cifras de
diferentes o similar naturaleza en donde el
numerador y el denominador son excluyentes.
Por ejemplo, si tenemos 380 camas hospitalarias y
95 enfermeras y queremos encontrar la razón entre
ellas, tenemos que dividir:

380 camas hospitalarias/95 enfermeras=4


camas/enfermera

Este número constituye un valor que refleja una


relación. En este caso, el número 4 se interpreta
como que por cada cuatro camas hospitalarias hay
una enfermera.
PROPORCIÓN
Es la comparación por cociente entre el número
de elementos de un subconjunto y el número de
elementos de un conjunto al que pertenece
dicho subconjunto. En este caso el numerador
está incluido en el denominador, por este motivo
los valores siempre van a ser menores que la
unidad.
Por ejemplo, si en la población hubo 175 casos
de cáncer pulmonar de un total de 1925 casos
de todos los tipos de cáncer, la proporción se
TASA

Es la comparación por cociente entre


un número de eventos ocurridos en un
tiempo y lugar determinados y la
población que estuvo expuesta al
riesgo de que le ocurriera dichos
eventos en la misma época y en ese
lugar.
Cada esfuerzo en el presente nos
permite avanzar hacia el éxito.
Muchas gracias ..….

Você também pode gostar