Escolar Documentos
Profissional Documentos
Cultura Documentos
verbalizacin del concepto diramos que una muestra representativa es aqulla que
contiene una parte de todos los elementos esenciales de la poblacin. No obstante, como
se puede apreciar, esta definicin no parece precisa. Una forma ms precisa para hablar
del tema es sealar que una muestra es representativa de la poblacin en estudio si logra
capturar (contener) la variabilidad en ella.
Lo ideal es que las muestras sean tomadas con participacin del azar (muestras
aleatorias). Las razones para ello son de dos tipos: las muestras posibles son
muchsimas ms de las que nos imaginamos (y por ello debemos ayudarnos del azar
para dar posibilidad a todas ellas), y los seres humanos siempre tenemos preferencias
que ejercemos incluso inconscientemente. Al ejercer nuestras preferencias, que en otras
ocasiones puede ser razonable y preferible, en el caso de la seleccin de una muestra
representativa resulta inconveniente pues ms bien nos conduce a la seleccin de una
muestra sesgada.
Metodologas de Muestreo
Es muy conveniente que el muestreo sea aleatorio, es decir, con participacin del azar.
A modo de ejemplo, los precios y rendimientos de las acciones de la bolsa varan al
azar, de igual manera que el comportamiento de los electrones, tomos y molculas es
aleatorio, es decir, no nos permiten predecir con certeza qu es lo que va a pasar, sino
que slo podemos determinar la probabilidad de que algo especfico ocurra.
En realidad, podemos distinguir dos tipos de azar: Azar Catico y Azar con
Regularidad. El primer caso corresponde a la situacin en que todas las posibilidades
pueden suceder con igual chance (ms adelante le llamaremos probabilidad) y, en
consecuencia, no hay ninguna forma cientfica de predecir el resultado a ocurrir pues no
existe resultado ms probable. En esta situacin, tampoco podemos aprender de
repeticiones pasadas del experimento o fenmeno aleatorio (con participacin del
azar).
Distinto es el caso cuando se trata de azar con regularidad. A diferencia de los juegos
de azar, que para que sean justos en su mayora corresponden a azar catico, las
situaciones de la vida ordinaria y profesional son, en una inmensa mayora,
correspondientes al segundo tipo mencionado. As, existen resultados de mayor chance
de aparicin que otros y hay base cientfica para realizar una prediccin, aunque por
tratarse de un fenmeno o experimento aleatorio, no puede estar excente de posibilidad
de error.
Para mayor explicacin, el azar catico se refiere a que no hay razn alguna para elegir
un resultado determinado, en otras palabras, slo se tienen preferencias o tincadas. Un
caso interesante es el llamado juego del LOTO que se juega en Chile, organizado por la
Polla Chilena de Beneficiencia. En dicho concurso, en su versin ms simple, el
participante necesita seleccionar 6 nmeros de entre los primeros 39 enteros positivos (1
a 39). Como aprenderemos a determinar ms adelante, existen 3.262.623 selecciones
posibles de seis nmeros. Cada una de ellas tienen la misma chance (probabilidad) de
ser seleccionada en el momento del sorteo. No obstante, la mayor parte de los
concursantes creen, equivocadamente, que las selecciones sin nmeros seguidos tiene
mayor chance de ganar. Este error proviene del hecho de que salen usualmente
selecciones sin nmeros repetidos pero ello se debe a que eswte tipo de combinaciones
Considerando una
poblacin
de
tamao (finito) N
seleccin de una
muestra de tamao
considerando
como
muestras
distintas aqullas
difieran en al
y la
n, y
que
menos un elemento, se tiene:
El nmero de muestras en un M.A.S se define:
N
N!
=
n n!( N n)!
, donde K! = K*(K-1)*(K-2)**2*1
N1 N 2
Nk
n n ... n
1
2
k
Para el caso proporcional, el nmero de muestras posibles corresponde a:
n1
n
n
n
= 2 = ... = k =
N1 N 2
Nk N
La figura muestra una poblacin formada por dos estratos, de los que se obtiene una
M.A.S de elementos de cada uno
Ejemplo: cuntas muestras posibles hay? Sern las mismos que en el caso del M.A.S?
Por qu?
Supongamos que en una poblacin de 175 personas, las mujeres (M) y los hombres (H)
pueden ser de estatura alta (A) o estatura baja (B). Podemos considerar 4 estratos: MA,
HA, MB y HB, con tamaos respectivos nmero de personas integrantes- 60, 70, 20,
25. Imaginemos una muestra aleatoria estratificada aproximadamente proporcionalde n=12 personas, con tamaos respectivos por estrato de 4, 5, 1 y 2 personas. La figura
ilustra la situacin:
MA
60
(4)
HA
70
(5)
MB
20
(1)
HB
25
(2)
60
70
N de formas de elegir 4 MA: ; N de formas de elegir 5 HA:
4
5
20
25
N de formas de elegir 1 MB: ; N de formas de elegir 2 HB:
1
2
60
N de formas de elegir la m.a.e.: .
4
20
.
1
70
.
5
25
= 3,5 1016
2
Las muestras de diferentes estratos son independientes y por ello los nmeros de
muestras correspondientes a estratos distintos se multiplican.
El nmero de muestras aleatorias estratificadas es distinto al nmero de muestras
aleatorias simples. Esto es porque en una primera instancia se definen los estratos y
luego se extrae una M.A.S de cada estrato; entonces por contruccin, el nmero de
muestras aleatorias estratificadas es ms pequeo que para el caso de las simples.
N
k=
n
(Esto
es
la
parte
entera
del
cuociente
N
,
n
ejemplos:
N 30576
k= =
= [122, 304 ] = 122 (paso)
n 250
Se obtienen 250 grupos de 122 elementos cada uno; seleccionaremos una ficha de cada
grupo, correspondiente al mismo orden dentro del grupo correspondiente. Ejemplo:
siempre seleccionamos la ficha N L en cada uno de los 122 grupos. El nmero L
debiera haber sido seleccionado al azar entre los enteros 1 y 122.
El paso de seleccin del muestreo aleatorio sistemtico se calcula como la divisin entre
el tamao de la poblacin y el tamao de la muestra, tomndose la parte entera del
resultado. Luego se hace un sorteo (que es aleatorio) y se elige un nmero para ser
observado en cada grupo. Ejemplo: seleccionamos el 36 en cada grupo de 122 fichas. Es
equivalente a observar las fichas de rdenes 36, 36+122, 36+122+122, etc. De all el
nombre de paso que recibe la constante k. Podemos seleccionar tambin 122 muestras
distintas.
C
C!
=
e e!(c e)!
ESTADISTICA DESCRIPTIVA
Nivel Nominal: grfico de torta, grfico de barra (sin orden en las clases o
categoras, no existe jerarqua por estar antes o despus de alguna clase, es
arbitrario)
Nivel Ordinal: grfico de barra (en variables ordinales con orden el cual es
determinado por la variable. Ejemplo: el nivel educacional)
HISTOGRAMA
El histograma es el clsico diagrama para representar la variabilidad en variables
intervalares. Considerando una variable X de tipo intervalar (de razn o no de razn), se
divide su recorrido efectivo en clases o subintervalos. Por ejemplo, si se tratase de la
Estatura (medida en mts.) en personas adultas, su recorrido efectivo podra considerarse
el intervalo [1.5 , 2.0]. En ese caso, podran tomarse las clases como los subintervalos:
[1.50 , 1.54) , [1.54 , 1.58) , [1.58 , 1.62) , [1.62 , 1.66) , [1.66 , 1.72) , [1.72 , 1.76) ,
[1.76 , 1.80) , [1.80 , 1.84) , [1.84 , 1.88) , [1.88 , 1.92) , [1.92 , 1.96) , [1.96 , 2.00]
Es decir, 12 subintervalos o clases. El nmero de clases no debe ser muy grande (por
ejemplo, mayor a 20), pues se pierde la visualizacin de la variabilidad en la
distribucin de frecuencias. El mismo fenmeno tiende a ocurrir en caso de que el
9
nmero de clase sea muy pequeo. De all que habitualmente se piense queel nmero de
clase debe ser entre 10 y 20. Tambin se puede tener que las primeras y/o ltimas clases
tengan muy poca frecuencia (por ejemplo, para la Estatura hay pocas personas de ms
de 1.90 mts.). En ese caso, se puede romper la igualdad de ancho de los subintervalos o
clases, quedando en total slo 11 de ellos, donde el ltimo ser [1.90 , 2.00].
Para cada subintervalo o clase se determina su frecuencia absoluta o nmero de
elementos en la clase; y tambin su frecuencia relativa o nmero de elementos en la
clase, dividido por el nmero total de elementos.
Se representa en el eje x la variable en estudio, con respecto a la cual se han definido
las clases, y en el eje y las frecuencias correspondientes o sus frecuencias relativas.
Sobre los intervalos de clase, se levantan rectngulos que representan las frecuencias
absolutas o relativas.
Mirando el histograma, se puede concluir el tipo de variacin que tiene la variable y si
hay indicios de valores extremos.
Ejemplo:
Se quiere analizar la efectividad que ha tenido una vacuna contra la influenza humana.
Aleatoriamente se obtienen 100 datos y los queremos organizar en un histograma con
10 barras, cada una con las efectividades A,B,C,D,E,F,G,H,I,J respectivamente. Las
efectividades estn medidas con una escala entre 0 y 1, donde el valor 0 se da cuando la
efectividad de la vacuna es nula y 1 cuando la vacuna es totalmente efectiva.
Las efectividades en cuestin son:
0,479
0,106
0,246
0,631
0,840
0,494
0,513
0,008
0,559
0,483
0,081
0,267
0,974
0,343
0,688
0,251
0,002
0,177
0,493
0,978
0,694
0,667
0,338
0,523
0,207
0,824
0,599
0,973
0,726
0,640
0,482
0,649
0,582
0,485
0,673
0,575
0,113
0,956
0,924
0,195
0,151
0,786
0,367
0,179
0,607
0,560
0,817
0,118
0,890
0,545
0,940
0,821
0,024
0,985
0,640
0,272
0,825
0,955
0,466
0,734
0,686
0,886
0,083
0,958
0,093
0,175
0,456
0,575
0,574
0,593
0,152
0,324
0,433
0,882
0,264
0,476
0,854
0,194
0,724
0,874
0,586
0,352
0,724
0,613
0,040
0,677
0,809
0,116
0,072
0,418
0,844
0,836
0,427
0,870
0,128
0,670
0,530
0,499
0,956
0,490
10
Efectividad
A
B
C
D
E
F
G
H
I
J
Intervalo
0,891-0,985
0,792-0,890
0,693-0,791
0,594-0,692
0,495-0,593
0,396-0,494
0,297-0,395
0,198-0,296
0,099-0,197
0-0,098
Una vez calculadas las frecuencias para cada clase se obtiene el siguiente histograma:
Histograma
Frecuencia
80
60
40
20
0
A
Efectividad
A modo de ejemplo, la clase D tiene una frecuencia de 70, es decir, hay 70 efectividades
con valores entre 0,594 y 0,692.
Medidas de Localizacin
Las medidas de localizacin dividen a la poblacin o muestra de manera proporcional y
nos informan sobre su distribucin.
Estas medidas puede ser de tipo central (media, moda y mediana) o de tipo no central
(cuartiles, deciles y percentiles).
Para las siguientes definiciones, suponemos n datos (poblacin o muestra), ordenados
de menor a mayor segn la intensidad de la caracterstica de inters. Los datos
originales los denotaremos como X1, X2, , Xn y los datos ordenados como X(1), X(2),
, X(n). Llamamos X(j) al dato de orden j.
Para determinar el cuantil n de orden q (0 q 1) para n datos, con r = q n , se
procede como sigue:
(1) Si r es decimal, entonces la medida de localizacin es el valor de orden siguiente a r,
es decir, X([r = qn ]+1) .
11
12
Nivel Nominal:
En el nivel Nominal, como solamente podemos clasificar los datos en clases o categoras, slo
podemos utilizar la moda o clase modal como medida de tendencia central.
Moda o Clase Modal: Valor que ms se repite en la muestra o poblacin. Se habla de Moda
Muestral y de Moda Poblacional.
Toda muestra y poblacin puede tener ms de una moda si dos o ms valores diferentes se
repiten igual nmero de veces.
Nivel Ordinal:
Adems de la posibilidad de utilizar la moda o clase modal, podemosusar la Mediana como
medida de tendencia central. Como ya sabemos, la Mediana es el valor que divide a la
poblacinn o muestra en mitades, segn la intensidad de la variable en estudio.
Nivel Intervalar:
En el nivel intervalar, tanto en los casos de razn o no de razn, podemos agregar la Media
(para poblaciones) y el Promedio (para muestras). Para ambos la definicin es equivalente,
siendo la suma de los datos dividida por el total de datos.
Xi
i =1
X=
Xi
i =1
: Promedio (Muestral).
La media y el promedio (segn se trate de una poblacin o muestra) son buenos parmetros o
13
medidas de tendencia central, excepto cuando la poblacin o muestra presenta datos extremos
(muy grandes o muy pequeos). Los datos extremos influyen fuertemente en el vaor que toman
la Media y el Promedio, hacindolos poco representativos del comportamiento en general.
Por ejemplo, si para un grupo de seis alumnos de un curso las calificaciones en una actividad
fuesen:
3.7 , 3.0 , 3.6 , 3.4 , 3.8, 6.9
Su media o promedio sera 4.07 4.1 (aproximndolo a un decimal). Como en Chile
usualmente la calificacin que define la aprobacin de una actividad acadmica es 4.0, dicho
valor hara pensar en la aprobacin del grupo de alumnos; sin embargo, slo uno de los seis
alumnos ha aprobado la actividad. Esta distorsin se produce por la existencia del valor 6.9,
que es un valor extremo para estos datos.
Nivel Nominal:
Podemos definir la tasa de variacin como v=1-fm, donde fm es la frecuencia relativa
modal. Si la moda incluyese el 40% de las observaciones, entonces fm=0,4 y v=0,6.
Significara que el 60% de los datos estn fuera de la clase modal.
La tasa de variacin muestra la proporcin de elementos fuera de la clase modal. Si la tasa de
variacin es ms grande, entonces hay una mayor variabilidad con respecto a la clase modal.
Entre qu valores puede encontrarse v? Dejamos al lector determnar que si por ejemplo, la
muestra tiene n datos, v puede tomar los valores ((n-1)/n), ((n-2)/n), , (1/n), 0.0 . Por qu
no puede tomar el valor 1.0?
Nivel Ordinal:
Unamedida de variabilidad que podemos usar aqu es el rango. El rango es la diferencia entre
el mximo valor y el mnimo valor de la muestra o poblacin. Tiene el problema que es muy
afectado por valores extremos, perdiendo a veces su capacidad de explicacin.
Una alternativa interesante est dada por los rangos restringidos. El rango intercuartil es la
diferencia entre el tercer y el primer cuartil (Q3-Q1) y el rango interdecil es el intervalo entre
el noveno y el primer decil (D9-D1). Estos rangos restringidos evitan el efecto de los valores
extremos.
14
disperso
concentrado
Q1
mediana
Q3
Nivel Intervalar:
En este nivel, las medidas de dispersin se calculan con respecto a la media y al
promedio segn se trate de una poblacin o de una muestra. Supongamos que se tiene
una poblacin de tamao N con
N
Media:
=
i =1
Xi
,
N
2 =
Varianza (poblacional):
1
N
( Xi ) 2 =
i =1
1
N
X
i =1
2
i
2 .
Promedio (muestral):
=
i =1
Xi
n
y
Varianza muestral:
S2 =
2
1 n
1 n 2
n
( Xi X ) 2 =
Xi
X
n 1 i =1
n 1 i =1
n 1
- CV =
S
cun importante es la variabilidad en relacin al promedio.
X
15