Você está na página 1de 77

Clase # 3 19 de Marzo 2013

Aplica conocimientos de estadstica descriptiva para calcular ciertas medidas resmenes segn el tipo de variable que se est considerando.

BIOESTADISTICA 20013-I

Mg. TAMARA JORQUIERA MC

Al trmino de la clase el estudiante estar en condiciones de calcular, interpretar y saber usar las medidas de posicin y dispersin.

Despus de construir tablas y grficos, a partir de una coleccin de datos, se requieren medidas ms exactas. La estadstica de resumen, proporciona medidas para describir un conjunto de datos. Existen dos tipos de medidas de resumen: 1. De tendencia central.

De forma y de posicin

2.

De dispersin.

1. Reflejan la tendencia central y la localizacin/posicin de los datos 2. Las medidas de tendencia central ms importantes son la media, la mediana y la moda.
Medidas de tendencia central

Media Mediana Moda

3. Tambin es til conocer las medidas de localizacin: percentiles. Estas nos indican el lugar de cada dato en relacin con los dems datos.

Las medidas de tendencia central (denominadas tambin promedios) permiten hallar un solo valor numrico alrededor del cual los datos parecen agruparse de cierta manera, como si fuera el centro de gravedad de los datos. Debido a estas circunstancias, suelen ser llamados de

POSICIN O TENDENCIA CENTRAL.

Moda.
Mediana. Media

Aritmtica. Cuartiles.

(Mo) (Me) (x o ) (Q)

La MODA es la observacin que ms se repite en los datos, (observacin ms COMN). Se puede utilizar para cualquier tipo de variable pero generalmente se utiliza cuando la caracterstica en estudio se ha medido en escala nominal u ordinal. Ejemplo: Se tiene la siguiente informacin: 2, 3, 4, 5, 5, 6, 4, 5 Mo = ?
Mo = 5

1. Si todos los valores son diferentes, no hay


moda. 2. En una distribucin puede existir dos o ms modas (Unimodal, Multimodal: bimodal, trimodal). 3. Es usada para variables categricas o cualitativas.

Estado Civil de 100 personas Estado Civil Soltero Casado Divorciado Total fi 30 60 10 100

Nmero de hijos de 60 personas Xi fi 0 10 1 21 2 15 3 7 4 3 5 2 6 2

En una tabla de distribucin de frecuencias es la marca de clase o punto medio de la clase que tiene la mayor frecuencia absoluta simple. La moda estar ubicado en el intervalo: ?
Clase I II III IV V Variable 5-9 10 - 4 15 - 19 20 - 24 25 - 29 total fi 3 9 15 8 5 40

clase III

variable 15 - 19

fi 15

Por lo tanto la marca de clase ser: 14.5 + 19.5 2 = 17.0


Luego la Moda es Mo = 17.0

La mediana es un valor que divide a la distribucin (ordenada en forma ascendente o descendente) en dos mitades o partes iguales. 20, 3, 4, 19, 6, 7, 10, 21,12, 16
ORDENADOS 3, 4, 6, 7, 10, 12, 16, 19, 20, 21 50% 50% 3, 4, 6, 7, 10, 12, 16, 19, 20, 21 V. min. Me = ? (10 + 12) / 2 = 11 Me. V. mx.

1. Es nica , existe solamente una mediana


para un conjunto de datos. 2. Los valores extremos no tienen efectos importantes sobre la mediana. 3. Se aplica tambin a variables que pertenecen a la escala ordinal. 4. Es muy variable de muestra a muestra.

Se ordena los datos en forma ascendente o descendente. Si el nmero de DATOS ES PAR, el valor de la mediana ser la semisuma de los 2 valores centrales. Los valores centrales se encuentran en las posiciones: X N/2 y X (N/2 +1)

Me = _________________ 2

N/2

+ X (N/2 +1)

Dado los valores:

11, 8, 13, 20, 14, 3, 7, 12. Hallar la mediana

par

Ordenando ascendentemente: 3, 7, 8, 11, 12, 13, 14, 20. POSICION en el grupo de datos ordenados: N/2 = 4 Entonces X N/2 = 11 N/2 + 1 = 5 Entonces X (N/2 +1) = 12

Me

= (11 + 12) / 2
= 11.5

INTERPRETACIN= Por debajo de 11.5 existe un 50% de observaciones.

Si

el nmero de DATOS ES IMPAR, el valor de la mediana es el valor del centro.


Me = X (N+1)/2 donde (N+1)/2 es la posicin central, de la mediana.

Calcular la mediana dado los valores: 11, 19, 12, 16, 13, 15, 17 Ordenando los valores: 11, 12, 13, 15, 16, 17, 19. Posicin: (N+1)/2 = 4 entonces X (N+1)/2 = 15 Me = 15 INTERPRETAR Es decir por debajo de 15 existe un 50 % de observaciones

Clase I II III IV V VI VI

Intervalos
1.66 1.70 1.74 1.78 1.82 1.86 1.90 1.69 1.73 1.77 1.81 1.85 1.89 1.93

Xi
1.675 1.715 1.755 1.795 1.835 1.875 1.915

fi
6 9 26 15 16 6 2

Fi
6 15 41 56 72 78 80

hi%
7.50% 11.25% 32.50% 18.75% 20.00% 7.50% 2.50%

Hi%
7.50% 18.75% 51.25% 70.00% 90.00% 97.50% 100.00%

Lim Reales
1.655 1.695 1.735 1.775 1.815 1.855 1.895 1.695 1.735 1.775 1.815 1.855 1.895 1.935

01/04/2013

Es un valor representativo de un conjunto de datos que se est estudiando y caracteriza a toda una distribucin. Se le conoce tambin como promedio. x En su clculo intervienen todo los valores que se estn estudiando.
(ESTADSTICO) (PARMETRO)

Si tenemos n datos representados por:


x1, x2, x3, ......xn.

La media aritmtica de estos n datos est dada por:


__

X1 + X2 + X3 +..........+ Xn = ________________________ n

Xi = _______ N

N es el tamao de la poblacin

Xi = _______ n

n es el tamao de la muestra

= ________

fi Xi n

fi

es frecuencia
absoluta simple.

Xi es una marca de clase.

1. 2.

Es nica, puede ser un valor positivo, cero o un valor negativo.


Si a los valores que estudiamos le sumamos o restamos una constante, el valor de la nueva media quedara como la media aritmtica de los datos originales ms o menos la constante que se ha agregado.
11,12,13 u= ? = 12

+3 a todos los datos


14,15,16 u= ?

u= 12+3
= 15

3.

Si a cada valor de la serie le multiplicamos por una constante, la nueva media aritmtica sera igual a la media aritmtica original multiplicada por la constante.

4. La suma de las desviaciones de los datos con respecto a la media es cero, es decir _ 11-12 =-1 N ( xi - X) = 0 12-12 = 0 -1 + 0 + +1 = 0 i=1 13-12 =+1 5. Como incluye todos los datos, puede estar afectado por valores extremos.
6. Es usada para variables medidas en escala de intervalo o de razn.

Los siguientes datos son edades de 10 madres que asisten a un centro de salud en un da : 30, 43, 58, 61, 70, 42, 58, 39, 60, 55. La edad promedio de estas madres ser: X = (30 + 43 + 58 + ..... + 55) / 10 = 516 / 10 = 51.6 aos En promedio los valores de edad de las 10 madres es 51.6 aos.

A continuacin se presenta las edades de 30 personas con cncer pulmonar que pasan a consulta en el Hospital Mara Auxiliadora. Lima. Julio 2004: Determinar la Media

30,43,58,61,70,42,58,39 60,55,71,70,65,39,40,61 65,56,38,57,49,61,69,43 46,69,44,59, 62,66 Edad 30 - 36 37 - 43 44 - 50 51 - 57 58 - 64 65 - 71 Total fi 1 7 3 3 8 8 30 Xi 33 40 47 54 61 68 fi . Xi 33 280 141 162 488 544 1648

[ (fi Xi) ] / n
= 1648 / 30 = 54.9

En promedio los valores de la edad de los 30 pacientes es de 54.93 aos.

Cuando los datos de una poblacin se distribuyen con igual frecuencia y alejamiento por debajo y por encima de la media aritmtica, se dice que la distribucin es simtrica; pero, si los datos por debajo de la media son ms frecuentes que aquellos por encima de la media, o viceversa, se dice que la distribucin es asimtrica.

30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13

Moda Mediana Media

Distribucin Sesgada a la Izquierda


30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13

Moda Mediana Media

30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13

Moda Mediana Media

Distribucin Sesgada a la Derecha


30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13

Moda Mediana Media

Llamadas tambin medidas de variabilidad, miden el grado de separacin de los datos respecto a un valor central. Son tiles porque: 1. Permiten juzgar la confiabilidad de la medida de tendencia central. 2. Los datos demasiados dispersos tienen un comportamiento especial. 3. Es posible comparar dispersin de diversas muestras.

Una medida de Dispersin indica cmo las observaciones se separan de la Media Artmetica.
Esta medida de dispersin ser grande si las observaciones estn distantes de la media y pequea si estn cerca.

Rango

Amplitud (A)
(V 2 s2)

Varianza Desviacin

Estndar Desviacin Cuartil

( s)
(DC)

01/04/2013

RANGO

( Amplitud Total )

Es la medida ms simple de dispersin. La que menos informacin nos ofrece sobre la agrupacin de las variables en torno a las medidas de tendencia central.

A =

Obs

Max

- Obs

Min

Se aplica a variables cuantitativas discretas o continuas pero no a las cualitativas.

Es una medida de dispersin que cuantifica la variabilidad de los datos con respecto a la Media Aritmetica.
Junto con la desviacin estndar, es la medida de dispersin que mejor expresa la variabilidad del fenmeno.

Si tenemos N datos X1, X2, X3, ...., XN . La varianza de estos datos se define como: V(X) = ( Xi - )2 ____________ N

[(Xi- )2 ]/ N

Para una muestra de tamao n: V(X) = ( Xi - X )2 n-1 =

[(Xi-X)2 ]/ n-1

Es la medida de dispersin para datos simtricos


Es la medida de dispersin ms comn para definir datos mdicos y del rea de la salud.

Es la raz cuadrada de la varianza = V(X) s= V(X)

Requieren datos numricos. Cuanto menor sea la desviacin estndar, menor ser la dispersin (ms homognea) y

Cuanto mayor sea la desviacin tpica, mayor dispersin (menos homognea).

Es la medida de dispersin para datos asimtricos

Rango Intercuartil entre 2

R. I. Q 2

El Rango intercuartil se define como: R.I. (Q) = Q3 - Q1

Q1 es el primer cuartil
Q3 es el tercer cuartil Excluye el 25% ms alto y el 25% ms bajo, dando un rango del 50% de los datos.
01/04/2013

Rango, Desviacin estndar y Varianza. Son absolutas porque siempre van acompaadas de sus unidades de medida.

Rango de 6 hijos Desviacin estndar de 1.5 hijos

01/04/2013

Es

una medida relativa de variabilidad de los datos entre la media y la desviacin estndar de una poblacin o muestra. Permite comparar la variabilidad de dos o ms conjuntos de datos expresados en unidades diferentes.
por ejemplo peso en Kg. y libras peso y talla
Es

el porcentaje que la desviacin estndar representa de la media.

a) Clculos a partir de datos no agrupados para la muestra:

s CV 100 x

para la poblacin:

CV 100
As podremos decidir cul de los grupos de datos es ms disperso.
Pero
Si

slo se puede usar si la escala de medida de la variable es de razn.


cambiamos el cero arbitrariamente, cambia tambin la media y por lo tanto cambiar el CV.

CV 100
Supongamos que de dos poblaciones se han obtenido los siguientes datos: Grupo 1 Grupo 2 Edad = 25 aos
= 72.5 Kg = 5 Kg

21 aos
165cm 5 cm

N = 15 15 Que grupo es ms homogneo o menos variable en relacin al peso?

CV 100

Edad

Grupo 1 = 25 aos = 72.5 Km = 5 Kg = 15

Grupo 2 11 aos 165 cm 5 cm 15

Grupo 1 5 C.V = -------- . 100 72.5 = 6.9%

Grupo 2 5 C.V = ------- . 100 165 = 3.03%

La dispersin de las tallas del grupo 2 es menor que la dispersin de los pesos del grupo 1.

SI:
C.V 50% Dispersin aceptable.

distribucin homognea
C.V 50% La dispersin es muy alta.

distribucin heterognea

Sitan

a un individuo en la distribucin de la variable que se est estudiando. Primero deben ordenarse los datos. Se usan mucho en test psicomtricos y medidas antropomtricas.

01/04/2013

Son aquellos que dividen a la distribucin en cuatro, diez o cien partes iguales: Cuartiles. Deciles. Percentiles.

Son aquellos que dividen a la distribucin en cuatro partes iguales, en donde cada uno de ellos incluye el 25% de las observaciones. __25%_._25%__.__25%__.__25%__ Q1 Q2 Q3 Me
Clase I II III IV V VI VI Intervalos
1.66 1.70 1.74 1.78 1.82 1.86 1.90 1.69 1.73 1.77 1.81 1.85 1.89 1.93

Xi
1.675 1.715 1.755 1.795 1.835 1.875 1.915

fi
6 9 26 15 16 6 2

Fi
6 15 41 56 72 78 80

hi%
7.50% 11.25% 32.50% 18.75% 20.00% 7.50% 2.50%

Hi%
7.50% 18.75% 51.25% 70.00% 90.00% 97.50% 100.00%

Lim Reales
1.655 1.695 1.735 1.775 1.815 1.855 1.895 1.695 1.735 1.775 1.815 1.855 1.895 1.935

CUARTILES

75% 25% 25%


Mnimo

25% 75%

25%

25%

25%

Cuartil 1

Q1

Mediana Cuartil 2

Cuartil 3

Q2

Q3

Mximo

Son aquellos que dividen a la distribucin en diez partes iguales en donde cada uno de ellos incluye el 10% de las observaciones
_10%_._10%_.10%_._10%_._10%_._10%_._10%_._10%_._10%_._10%_ D1 D2 D3 D4 Q2 Me D5 D6 D7 D8 D9

Clase I II III IV V VI VI

Intervalos
1.66 1.70 1.74 1.78 1.82 1.86 1.90 1.69 1.73 1.77 1.81 1.85 1.89 1.93

Xi
1.675 1.715 1.755 1.795 1.835 1.875 1.915

fi
6 9 26 15 16 6 2

Fi
6 15 41 56 72 78 80

hi%
7.50% 11.25% 32.50% 18.75% 20.00% 7.50% 2.50%

Hi%
7.50% 18.75% 51.25% 70.00% 90.00% 97.50% 100.00%

Lim Reales
1.655 1.695 1.735 1.775 1.815 1.855 1.895 1.695 1.735 1.775 1.815 1.855 1.895 1.935

Son aquellos que dividen a la distribucin en cien partes iguales en donde cada uno de ellos incluye el 1% de las observaciones:
_1%_._1%_. 1%_._1%_._1%_. .........._1%_._1%_._1%_._1%_._1%_ P1 P2 P3 P4 ........... P96 P97 P98 P99

Clase I II III IV V VI VI

Intervalos
1.66 1.70 1.74 1.78 1.82 1.86 1.90 1.69 1.73 1.77 1.81 1.85 1.89 1.93

Xi
1.675 1.715 1.755 1.795 1.835 1.875 1.915

fi
6 9 26 15 16 6 2

Fi
6 15 41 56 72 78 80

hi%
7.50% 11.25% 32.50% 18.75% 20.00% 7.50% 2.50%

Hi%
7.50% 18.75% 51.25% 70.00% 90.00% 97.50% 100.00%

Lim Reales
1.655 1.695 1.735 1.775 1.815 1.855 1.895 1.695 1.735 1.775 1.815 1.855 1.895 1.935

PERCENTILES

20%
Mnimo Percentil 20

80%
Mximo

P20

Como los clculos de los cuantiles, deciles y percentiles son similares se calcular el Q3 de la siguiente distribucin:

Variable 55 - 58 59 - 62 63 - 66 67 - 70 71 - 74 75 - 78 Total
1. 2.

fi 20 30 80 70 40 10 250

Fi 20 50 130 200 240 250

hi 8% 12% 32% 28% 16% 4%

Hi 8% 20% 52% 80% 96% 100%

3.

Q3: P45: P90:

INTERPRETAR

Q1

= P25 Q2 = Mediana = P50 Q3 = P75

Con

distribuciones simtricas (no sesgadas) se emplean la media y la desviacin estndar de datos numricos. la distribucin no es simtrica(sesgada) se emplean la mediana y Percentiles y rango intercuartilicos y desviacin cuartil.

Cuando

El

rango es una medida apropiada para datos numricos cuando el propsito es enfatizar valores extremos.
coeficiente de variacin es til cuando la intencin es comparar dos distribuciones numricas medidas en escalas diferentes.

El

Es un grfico representativo de las distribuciones de un conjunto de datos en cuya construccin se usan cinco medidas descriptivas de los mismos, a saber: mediana, primer cuartil, tercer cuartil, valor mximo y valor mnimo. Presenta al mismo tiempo, informacin sobre la tendencia central, dispersin y simetra de los datos de estudio. Adems, permite identificar con claridad y de forma individual, observaciones que se alejan de manera poco usual del resto de los datos. A estas observaciones se les conoce como valores atpicos. outliers (valores extremos). Al igual que el histograma y el grfico de Tallos y Hojas permite tener una idea visual de la distribucin de los datos (simetra y variabilidad)
Alternativa grfica a pruebas estadsticas

1.

Dibujar una caja cuyo lmite inferior ser Q1 y el superior Q3. Dentro de la caja trazar una lnea que localice la mediana. Calcular el rango intercuartlico: R.I. (Q) = RIQ = Q3 Q1 Dibujar un bigote del borde inferior de la caja hasta Q1-1.5 x RIQ .

2.

3.

5.

Dibujar otro bigote del borde superior de la caja hasta Q3+1.5 x RIQ . Dibujar cualquier observacin que se ubique fueras de los bigotes (estos sern los outliers).

6.

EDAD

fi

EDAD

fi

EDAD

fi

Fi

EDAD

fi

Fi

Cajas

anchas nos sugieren distribuciones muy dispersas en la parte central. Cajas angostas nos muestran una gran concentracin de datos. La longitud de las colas por su parte nos dirn la mayor o menor concentracin de los datos en las zonas extremas.

01/04/2013

Mientras ms larga la caja y los bigotes, ms dispersa es la distribucin de datos.


La distancia entre las cinco medidas descritas en el boxplot (sin incluir la media aritmtica) puede variar, sin embargo, recuerde que la cantidad de elementos entre una y otra es aproximadamente la misma. Entre el lmite inferior y Q1 hay igual cantidad de opiniones que de Q1 a la mediana, de sta a Q3 y de Q3 al lmite superior. Se considera aproximado porque pudiera haber valores atpicos, en cuyo caso la cantidad de elementos se ve levemente modificada. La lnea que representa la mediana indica la simetra. Si est relativamente en el centro de la caja la distribucin es simtrica. Si por el contrario se acerca al primer o tercer cuartil, la distribucin pudiera ser sesgada a la derecha (asimtrica positiva) o sesgada a la izquierda (asimtrica negativa respectivamente. Esto suele suceder cuando las opiniones de los estudiantes tienden a concentrase ms hacia un punto de la escala. La mediana puede inclusive coincidir con los cuartiles o con los lmites de los bigotes. Esto sucede cuando se concentran muchos datos en un mismo punto
01/04/2013

Las medidas de resumen numrico empleadas para variables cualitativas son: Razn Proporcin Tasa

Es la comparacin por cociente entre dos cifras de diferentes o similar naturaleza en donde el numerador y el denominador son excluyentes. Por ejemplo, si tenemos 380 camas hospitalarias y 95 enfermeras y queremos encontrar la razn entre ellas, tenemos que dividir:
380 camas hospitalarias/95 enfermeras= 4 camas/enfermera

Este nmero constituye un valor que refleja una relacin. En este caso, el nmero 4 se interpreta como que por cada cuatro camas hospitalarias hay una enfermera.

Es la comparacin por cociente entre el nmero de elementos de un subconjunto y el nmero de elementos de un conjunto al que pertenece dicho subconjunto. En este caso el numerador est incluido en el denominador, por este motivo los valores siempre van a ser menores que la unidad.
Por ejemplo, si en la poblacin hubo 175 casos de cncer pulmonar de un total de 1925 casos de todos los tipos de cncer, la proporcin se calcular.

175 / 1925 = 0.09

Es la comparacin por cociente entre un nmero de eventos ocurridos en un tiempo y lugar determinados y la poblacin que estuvo expuesta al riesgo de que le ocurriera dichos eventos en la misma poca y en ese lugar.

Tamara Jorquiera Johnson

Você também pode gostar