Você está na página 1de 27

ESTADSTICA

La Estadstica es una ciencia referida a la recoleccin, anlisis e interpretacin de datos, cuyo objetivo es hallar
regularidades de los fenmenos de masa. Busca las caractersticas generales de un colectivo y prescinde de las
particulares de cada elemento.
Es transversal a una amplia variedad de disciplinas, desde la fsica hasta las ciencias sociales, desde las ciencias de la
salud hasta el control de calidad, y es usada para la toma de decisiones en reas de negocios e instituciones
gubernamentales.
La Estadstica se divide en dos ramas:
La estadstica descriptiva, ciencia que analiza series de datos (por ejemplo, edad de una poblacin, altura de los
estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer conclusiones sobre el
comportamiento de estas variables.
La inferencia estadstica, ue se dedica a la generacin de los modelos, inferencias y predicciones asociadas a
los fenmenos en cuestin teniendo en cuenta la aleatoriedad de las observaciones. !e usa para modelar patrones
en los datos y e"traer inferencias acerca de la poblacin bajo estudio. Estas inferencias pueden tomar la forma de
respuestas a preguntas si#no $prueba de hiptesis%, estimaciones de caractersticas num&ricas $estimacin%,
pronsticos de futuras observaciones, descripciones de asociacin $correlacin% o modelamiento de relaciones
entre variables $anlisis de regresin%.
'entramos nuestro estudio en la Estadstica (escriptiva.
En todo estudio estadstico tenemos ue distinguir:
) Poblacin: conjunto de personas o cosas a los ue est referido el estudio. Por ejemplo, si estudiamos el precio de la
vivienda en una ciudad, la poblacin ser el total de las viviendas de dicha ciudad.
) Individuo: 'ualuier elemento ue forme parte de la poblacin. En sentido estadstico un elemento puede ser algo
con e"istencia real, como un automvil o una casa, o algo ms abstracto como la temperatura, un voto, o un intervalo
de tiempo.
* su ve+, cada elemento de la poblacin tiene una serie de caractersticas ue pueden ser objeto del estudio
estadstico. *s por ejemplo si consideramos como elemento a una persona, podemos distinguir en ella los siguientes
caracteres: !e"o, Edad, ,ivel de estudios, -rofesin, -eso, *ltura, 'olor de pelo, etc.
Luego por tanto de cada elemento de la poblacin podremos estudiar uno o ms cualidades o caracteres.
La poblacin puede ser seg.n su tama/o de dos tipos:
Poblacin finita: cuando el n.mero de elementos ue la forman es finito, por ejemplo el n.mero de alumnos
de un centro de ense/an+a, o grupo clase.
Poblacin infinita: cuando el n.mero de elementos ue la forman es infinito, o tan grande ue pudiesen
considerarse infinitos. 'omo por ejemplo si se reali+ase un estudio sobre los productos ue hay en el mercado.
0ay tantos y de tantas calidades ue esta poblacin podra considerarse infinita.
*hora bien, normalmente en un estudio estadstico, no se puede trabajar con todos los elementos de la poblacin sino
ue se reali+a sobre un subconjunto de la misma $*s, si se estudia el precio de la vivienda de una ciudad, lo normal
ser no recoger informacin sobre todas las viviendas de la ciudad, sino ue se suele seleccionar un subgrupo
1
$muestra% ue se entienda ue es suficientemente representativo%. Este subconjunto puede ser una muestra, cuando se
toman un determinado n.mero de elementos de la poblacin, sin ue en principio tengan nada en com.n2 o una
subpoblacin, ue es el subconjunto de la poblacin formado por los elementos de la poblacin ue comparten una
determinada caracterstica, por ejemplo de los alumnos del centro la subpoblacin formada por los alumnos de 34
E!5, o la subpoblacin de los varones.
Variables atributos!
'omo hemos visto, los caracteres de un elemento pueden ser de muy diversos tipos, por lo ue los podemos clasificar
en:
1% 6ariables Cuantitativas: tienen valor num&rico $edad, precio de un producto, ingresos anuales%.
7% 6ariables Cualitativas o Atributos. ,o se pueden medir num&ricamente $por ejemplo: nacionalidad, color de la
piel, se"o%.
Las variables tambi&n se pueden clasificar en:
Variables unidi"ensionales: slo recogen informacin sobre una caracterstica $por ejemplo: edad de los alumnos de
una clase%.
Variables bidi"ensionales: recogen informacin sobre dos caractersticas de la poblacin $por ejemplo: edad y altura
de los alumnos de una clase%.
Variables pluridi"ensionales: recogen informacin sobre tres o ms caractersticas $por ejemplo: edad, altura y peso
de los alumnos de una clase%.
-or su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:
# Discretas: slo pueden tomar valores enteros $1, 7, 8, 9:, etc.%. -or ejemplo: n.mero de hermanos $puede ser 1, 7,
3...., etc, pero, por ejemplo, nunca podr ser 3,:;%.
#Continuas: pueden tomar cualuier valor real dentro de un intervalo. -or ejemplo, la velocidad de un vehculo
puede ser 8<,3 =m#h, >:,;? =m#h...etc.
,o obstante en muchos casos el tratamiento estadstico hace ue a variables discretas las trabajemos como si fuesen
continuas y viceversa.
Los atributos son auellos caracteres ue para su definicin precisan de palabras, es decir, no le podemos asignar un
n.mero. -or ejemplo !e"o -rofesin, Estado 'ivil, etc.
*hora, nos centramos en las VARIABLES UI!I"ESI#ALES
Tablas Estadsticas
!eg.n el n.mero de observaciones y seg.n el recorrido de la variable estadstica, as tenemos los siguientes tipos de
tablas estadsticas:
Tablas tipo I:
'uando el tama/o de la muestra y el recorrido de la variable son peue/os, por ejemplo si tenemos una muestra de las
edades de ; personas, no hay ue hacer nada especial simplemente anotarlas de manera ordenada en filas o columnas.
Ejemplo: Edad de los ; miembros de una familia:
;, 8, 1@, 38, :;
Tablas tipo II:
7
'uando el tama/o de la muestra es grande y el recorrido de la variable es peue/o, por lo ue hay valores de la
variable ue se repiten. -or ejemplo, si preguntamos el n.mero de personas activas ue hay en ;< familias obtenemos
la siguiente tabla:
-ersonas *ctivas en ;< familias
7 1 7 7 1 7 : 7 1 1
7 3 7 1 1 1 3 : 7 7
7 7 1 7 1 1 1 3 7 7
3 7 3 1 7 : 7 1 : 1
1 3 : 3 7 7 7 1 3 3
-odemos observar ue la variable toma valores comprendidos entre 1 y :, por lo ue precisaremos una tabla en la ue
resumamos estos datos uedando la siguiente tabla:
-ersonas *ctivas ,.mero de Aamilias
1 1@
7 7<
3 >
: ;
Botal ;<
Tablas tipo III:
'uando el tama/o de la muestra y el recorrido de la variable son grandes, por lo ue ser necesario agrupar en
intervalos los valores de la variable. -or ejemplo si a un grupo de 3< alumnos les preguntamos el dinero ue tienen en
ese momento ahorrado, nos encontramos con los siguientes datos:
:;
<
11;7 7;< 3<< 1?; 8< 7; 7@8< @<; ?8; 1;>; 73<< ;<<< 17<< 1<<
; 18< 7<< @?; ;<< 3?; 1;<< 7<; >8; 18; 17; 31; :7; ;@< 11<<
Evidentemente, la variable estadstica tiene un recorrido muy grande, :>>8 euros, por lo ue s ueremos hacer una
tabla con estos datos tendremos ue tomar intervalos. -ara decidir la amplitud de los intervalos, necesitaremos decidir
cuntos intervalos ueremos. ,ormalmente se suele trabajar con no ms de 1< 17 intervalos.
*mplitud C:>>8#1< C :>>,8 por lo ue tomaremos intervalos de amplitud ;<<
(ebemos tener en cuenta las siguientes consideraciones:
3
9Bomar pocos intervalos implica ue la Dp&rdida de informacinD sea mayor.
9Los intervalos sern siempre cerrados por la i+uierda y abiertos por la derecha E L
i91
, L
i
%
-rocuraremos ue en la decisin de intervalos los valores observados no coincidan con los valores de los e"tremos del
intervalo y si esto ocurre ue no sea en ms de un ;F del total de observaciones.
'on estas recomendaciones tendremos la siguiente tabla:
E L
i91
, L
i
% Arecuencia
E <,;<<% 1@
E ;<<, 1<<<% @
E 1<<<,1;<<% 3
E 1;<<, 7<<<% 7
E 7<<<, 7;<<% 1
E 7;<<, 3<<<% 1
E 3<<<, 3;<<% <
E 3;<<, :<<<% <
E :<<<, :;<<% <
E :;<<, ;<<<% <
E ;<<<,;;<<% 1
Distribucin de frecuencia
La distribucin de frecuencia es la representacin estructurada, en forma de tabla, de toda la informacin ue se ha
recogido sobre la variable ue se estudia.
Variable $recuencias absolutas $recuencias relativas
%Valor& Si"ple Acu"ulada Si"ple Acu"ulada
" G " " G
G1 n1 n1 f1 C n1 # n f1
G7 n7 n1 H n7 f7 C n7 # n f1 H f7
:
... ... ... ... ...
Gn91 nn91 n1 H n7 H..H nn91 fn91 C nn91 # n f1 H f7 H..Hfn91
Gn nn n fn C nn # n f
!iendo 'i los distintos valores ue puede tomar la variable.
!iendo ni el n.mero de veces ue se repite cada valor.
!iendo fi el porcentaje ue la repeticin de cada valor supone sobre el total
$recuencia absoluta:
La frecuencia absoluta de una variable estadstica es el n.mero de veces ue aparece en la muestra dicho valor de la
variable, la representaremos por n
i
$recuencia relativa:
La frecuencia absoluta, es una medida ue est influida por el tama/o de la muestra, al aumentar el tama/o de la
muestra aumentar tambi&n el tama/o de la frecuencia absoluta. Esto hace ue no sea una medida .til para poder
comparar. -ara esto es necesario introducir el concepto de frecuencia relativa, ue es el cociente entre la frecuencia
absoluta y el tama/o de la muestra. La denotaremos por f
i
donde ( C Bama/o de la muestra
Porcenta)e:
La frecuencia relativa es un tanto por uno, sin embargo, hoy da es bastante frecuente hablar siempre en t&rminos de
tantos por ciento o porcentajes, por lo ue esta medida resulta de multiplicar la frecuencia relativa por 1<<. La
denotaremos por p
i
.
$recuencia Absoluta Acu"ulada:
-ara poder calcular este tipo de frecuencias hay ue tener en cuenta ue la variable estadstica ha de ser cuantitativa o
cualitativa ordenable. En otro caso no tiene mucho sentido el clculo de esta frecuencia. La frecuencia absoluta
acumulada de un valor de la variable, es el n.mero de veces ue ha aparecido en la muestra un valor menor o igual
ue el de la variable y lo representaremos por (
i
.
$recuencia *elativa Acu"ulada:
*l igual ue en el caso anterior la frecuencia relativa acumulada es la frecuencia absoluta acumulada dividido por el
tama/o de la muestra, y la denotaremos por $
i
6eamos un e)e"plo:
Iedimos la altura de los ni/os de una clase y obtenemos los siguientes resultados $cm%:
Alu"no Estatura Alu"no Estatura Alu"no Estatura
" G " " " "
*lumno 1 1,7; *lumno 11 1,73 *lumno 71 1,71
*lumno 7 1,78 *lumno 17 1,7@ *lumno 77 1,7>
;
*lumno 3 1,7? *lumno 13 1,3< *lumno 73 1,7@
*lumno : 1,71 *lumno 1: 1,71 *lumno 7: 1,77
*lumno ; 1,77 *lumno 1; 1,78 *lumno 7; 1,78
*lumno @ 1,7> *lumno 1@ 1,3< *lumno 7@ 1,7?
*lumno ? 1,3< *lumno 1? 1,77 *lumno 7? 1,7@
*lumno 8 1,7: *lumno 18 1,7; *lumno 78 1,73
*lumno > 1,7? *lumno 1> 1,7< *lumno 7> 1,77
*lumno 1< 1,7> *lumno 7< 1,78 *lumno 3< 1,71
!i presentamos esta informacin estructurada obtendramos la siguiente tabla de frecuencia:
Variable $recuencias absolutas $recuencias relativas
%Valor& Si"ple Acu"ulada Si"ple Acu"ulada
1,7<
1
1 3,3F 3,3F
1,71 : ; 13,3F 1@,@F
1,77 : > 13,3F 3<,<F
1,73 7 11 @,@F 3@,@F
1,7: 1 17 3,3F :<,<F
1,7; 7 1: @,@F :@,@F
1,7@ 3 1? 1<,<F ;@,@F
1,7? 3 7< 1<,<F @@,@F
1,78 : 7: 13,3F 8<,<F
1,7> 3 7? 1<,<F ><,<F
1,3< 3 3< 1<,<F 1<<,<F
!i los valores ue toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene
agruparlos por intervalos, ya ue de otra manera obtendramos una tabla de frecuencia muy e"tensa ue aportara muy
poco valor a efectos de sntesis.
Distribuciones de frecuencia a+rupada
!upongamos ue medimos la estatura de los habitantes de una vivienda y obtenemos los siguientes resultados $cm%:
,abitante Estatura ,abitante Estatura ,abitante Estatura
" " " " " "
0abitante 1 1,1; 0abitante 11 1,;3 0abitante 71 1,71
0abitante 7 1,:8 0abitante 17 1,1@ 0abitante 77 1,;>
0abitante 3 1,;? 0abitante 13 1,@< 0abitante 73 1,8@
0abitante : 1,?1 0abitante 1: 1,81 0abitante 7: 1,;7
0abitante ; 1,>7 0abitante 1; 1,>8 0abitante 7; 1,:8
0abitante @ 1,3> 0abitante 1@ 1,7< 0abitante 7@ 1,3?
0abitante ? 1,:< 0abitante 1? 1,:7 0abitante 7? 1,1@
0abitante 8 1,@: 0abitante 18 1,:; 0abitante 78 1,?3
0abitante > 1,?? 0abitante 1> 1,7< 0abitante 7> 1,@7
0abitante 1< 1,:> 0abitante 7< 1,>8 0abitante 3< 1,<1
!i presentramos esta informacin en una tabla de frecuencia obtendramos una tabla de 3< lneas $una para cada
valor%, cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3,3F. Esta tabla nos
aportara escasa informacin
En lugar de ello, preferimos agrupar los datos por intervalos, con lo ue la informacin ueda ms resumida $se
pierde, por tanto, algo de informacin%, pero es ms manejable e informativa:
Estatura $recuencias absolutas $recuencias relativas
C" Si"ple Acu"ulada Si"ple Acu"ulada
" " " " "
@
1,<1 9 1,1<
1
1 3,3F 3,3F
1,11 9 1,7< 3 : 1<,<F 13,3F
1,71 9 1,3< 3 ? 1<,<F 73,3F
1,31 9 1,:< 7 > @,@F 3<,<F
1,:1 9 1,;< @ 1; 7<,<F ;<,<F
1,;1 9 1,@< : 1> 13,3F @3,3F
1,@1 9 1,?< 3 77 1<,<F ?3,3F
1,?1 9 1,8< 3 7; 1<,<F 83,3F
1,81 9 1,>< 7 7? @,@F ><,<F
1,>1 9 7,<< 3 3< 1<,<F 1<<,<F
El n.mero de tramos en los ue se agrupa la informacin es una decisin ue debe tomar el analista: la regla es ue
mientras ms tramos se utilicen menos informacin se pierde, pero puede ue menos representativa e informativa sea
la tabla.
-edidas Estadsticas
Las medidas estadsticas pretenden DresumirD la informacin de la DmuestraD para poder tener as un mejor
conocimiento de la poblacin.
En el resto del tema nos ocuparemos e"clusivamente de las variables cuantitativas, puesto ue con los atributos no se
pueden reali+ar operaciones aritm&ticas. 'omo hemos estudiado, las variables estadsticas cuantitativas se dividen o
clasifican en discretas o continuas, por lo ue necesitaremos precisar cmo se calculan dichas medidas en cada caso.
En las variables cuantitativas continuas, dado ue la tabulacin de los datos se hace mediante intervalos,
necesitaremos tomar un valor del intervalo para poder operar. Este valor se denomina marca $e clase y es el punto
medio del intervalo.
Las medidas estadsticas se clasifican en:
%. "e$i$as $e Centrali&acin:
o Jue sirven para determinar los valores centrales o medios de la distribucin.
7. "e$i$as $e !ispersin :
o ,os van a dar una idea sobre la representatividad de las medidas centrales, a mayor dispersin menor
representatividad.
3. "e$i$as $e Locali&acin :
o Ktiles para encontrar determinados valores importantes, para una DclasificacinD de los elementos de
la muestra o poblacin.
'. "e$i$as $e la Simetr(a:
o !irven para ver si la distribucin tiene el mismo comportamiento por encima y por debajo de los
valores centrales.
). E*emplo $el c+lculo $e los coeficientes $e simetr(a , Curtosis
AL./(AS C0(SIDE*ACI0(ES
El estadstico Lule ha definido algunas propiedades deseables para una medida estadstica:
1. (ebe definirse de manera objetiva: dos observadores distintos deben llegar al mismo resultado num&rico.
7. Msar todas las observaciones y no algunas de ellas solamente, de manera ue si varia alguna observacin la
medida considerada debe reflejar esta variacin.
3. Bener un significado concreto: la interpretacin debe ser inmediata y sencilla.
:. !er sencilla de calcular.
;. -restarse fcilmente al clculo algebraico: Lo ue permitir demostraciones ms elegantes.
@. !er poco sensible a las fluctuaciones muestrales. Esta condicin es imprescindible en la Estadstica
Iatemtica y en la Beora de !ondeos.
?
-edidas de Centrali1acin:
1. Iedia
1. Iedia aritm&tica
7. Iedia geom&trica
3. Iedia armnica
7. Iediana
1. 6ariable discreta.
7. 6ariable contnua.
3. Ioda
1. 6ariable discreta.
7. 6ariable contnua.
-EDIA:
Es el valor medio ponderado de la serie de datos. !e pueden calcular varios tipos de media siendo las ms utili+adas:
-edia arit"2tica:
La media aritm&tica de una variable se define como la suma ponderada de los valores de la variable por sus
frecuencias relativas y lo denotaremos por y se calcula mediante la e"presin:
3i representa el valor de la variable o en su caso la marca de clase.
Propiedades:
1. !i multiplicamos o dividimos todas las observaciones por un mismo n.mero, la media ueda multiplicada o dividida por dicho
n.mero.
7. !i le sumamos a todas las observaciones un mismo n.mero, la media aumentar en dicha cantidad.
3. *dems de la media aritm&tica e"isten otros conceptos de media, como son la media geom&trica y la media armnica.
-edia +eo"2trica:
La media geom&trica de , observaciones es la ra+ de ndice , del producto de todas las observaciones. La
representaremos por N.
!olo se puede calcular si no hay observaciones negativas. Es una medida estadstica poco o nada usual.
!eg.n el tipo de datos ue se analice ser ms apropiado utili+ar la media aritm&tica o la media geom&trica.
La media geom&trica se suele utili+ar en series de datos como tipos de inter&s anuales, inflacin, etc., donde el valor
de cada a/o tiene un efecto multiplicativo sobre el de los a/os anteriores. En todo caso, la media aritm&tica es la
medida de posicin central ms utili+ada.
Lo ms positivo de la media es ue en su clculo se utili+an todos los valores de la serie, por lo ue no se pierde
ninguna informacin.
8
!in embargo, presenta el problema de ue su valor $tanto en el caso de la media aritm&tica como geom&trica% se puede
ver muy influido por valores e"tremos, ue se aparten en e"ceso del resto de la serie. Estos valores anmalos podran
condicionar en gran medida el valor de la media, perdiendo esta representatividad.
-edia ar"nica:
La media armnica de , observaciones es la inversa de la media de las inversas de las observaciones y la denotaremos
por 0
....
3
3
21
2
1
1
+ + +
= =

x
n
x
n
x
n
n
x
n
n
H
i
i
*l igual ue en el caso de la media geom&trica su utili+acin es bastante poco frecuente.
-ediana:
La mediana es el valor central de la variable, es decir, supuesta la muestra ordenada en orden creciente o decreciente,
el valor ue divide en dos partes la muestra.
,o presentan el problema de estar influido por los valores e"tremos, pero en cambio no utili+a en su clculo toda la
informacin de la serie de datos $no pondera cada valor por el n.mero de veces ue se ha repetido%.
-ara calcular la mediana debemos tener en cuenta si la variable es discreta o continua.
C4lculo de la "ediana en el caso discreto:
Bendremos en cuenta el tama/o de la muestra.
!i ( es I"par5 hay un t&rmino central, el t&rmino ue ser el valor de la mediana.
!i ( es Par5 hay dos t&rminos centrales, la mediana ser la media de esos dos valores.
6eamos un ejemplo.
, par
, Ompar
1,:,@,?,8,>,17,1@,7<, 7:,7;,7? ,C17 1,:,@,?,8,>,17,1@,7<, 7:,7;,7?,3< ,C13
B&rminos 'entrales el @4 y ?4 > y 17 B&rmino 'entral el ?4 , 17
>
IeC
IeC17
C4lculo de la "ediana en el caso contnuo:
!i la variable es continua, la tabla vendr en intervalos, por lo ue se calcula de la siguiente forma:
,os vamos a apoyar en un grfico de un histograma de frecuencias acumuladas.
(e donde la mediana vale: donde a
i
es la amplitud del intervalo
Lo vemos por medio de un ejemplo.
!upongamos los pesos de un grupo de ;< personas se distribuyen de la siguiente forma:
i!" i ni #i
$omo el tama%o de la muestra es #&'(, buscamos el intervalo
en el que la )recuencia acumulada es mayor que '(*+&+', que
en este caso es el ,- y aplicamos la .rmula anterior. ue/o la
0ediana ser
0e&
1' '' 2 2
'' 2' "( "2
2' 3' "4 ,'
1<
3' 5' "" 12
5' 4' 1 '(
-0DA:
La moda es el valor de la variable ue tenga mayor frecuencia absoluta, la ue ms se repite, es la .nica medida de
centrali+acin ue tiene sentido estudiar en una variable cualitativa, pues no precisa la reali+acin de ning.n clculo.
-or su propia definicin, la moda no es .nica, pues puede haber dos o ms valores de la variable ue tengan la misma
frecuencia siendo esta m"ima. En cuyo caso tendremos una distribucin bimodal o polimodal seg.n el caso.
-or lo tanto el clculo de la moda en distribuciones discretas o cualitativas no precisa de una e"plicacin mayor2 sin
embargo, hay ue detenerse un poco en el clculo de la moda para distribuciones cuantitativas continuas $no vamos a
ver este a/o%.
-EDIDAS DE DISPE*SI6(
1. Breve Ontroduccin
7. Pango
3. 'oncepto de desviacin
:. (esviacin Iedia
;. 6arian+a
@. (esviacin Bpica
?. 'uasivarian+a
8. 'uasi (esviacin tpica
>. 'oeficiente de 6ariacin
1<. Ejemplo
7reve Introduccin
0asta el momento hemos estudiado los valores centrales de la distribucin, pero tambi&n es importante conocer si los
valores en general estn cerca o alejados de estos valores centrales, es por lo ue surge la necesidad de estudiar
medidas de dispersin.
11
*an+o:
!e define como la diferencia e"istente entre el valor mayor y el menor de la distribucin. Lo notaremos como *!
Pealmente no es una medida muy significativa en la mayora de los casos, pero indudablemente es muy fcil de
calcular.
0emos estudiado varias medidas de centrali+acin, por lo ue podemos hablar de desviacin con respecto a cualuiera
de ellas, sin embargo, la mas utili+ada es con respecto a la media.
Desviacin: Es la diferencia ue se observa entre el valor de la variable y la media aritm&tica. La denotaremos por d
i!
$"
i
9 %
,o es una medida, son muchas medidas, pues cada valor de la variable lleva asociada su correspondiente desviacin,
por lo ue precisaremos una medida ue resuma dicha informacin.
La primera solucin puede ser calcular la media de todas las desviaciones, es decir, si consideramos como muestra la
de todas las desviaciones y calculamos su media. -ero esta solucin es mala pues como veremos siempre va a ser <.
-or lo tanto, esta primera idea no es vlida, pues las desviaciones positivas se contrarrestan con las negativas.
-ara resolver este problema, tenemos dos caminos:
To"ar el valor absoluto de las desviaciones: Desviacin "edia
Elevar al cuadrado las desviaciones: Varian1a!
Desviacin "edia:
Es la media de los valores absolutos de las desviaciones, y la denotaremos por d
m
.
Varian1a:
Es la media de los cuadrados de las desviaciones, y la denotaremos por o tambi&n por . $Iide la distancia
e"istente entre los valores de la serie y la media. !e calcula como sumatorio de las diferencias al cuadrado entre cada
valor y la media, multiplicadas por el n.mero de veces ue se ha repetido cada valor. El resultado del sumatorio se
divide por el tama/o de la muestra%.
*unue tambi&n es posible calcularlo como:
17
Este estadstico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la
variable, por ejemplo, si la variable viene dada en cm, la varian+a vendr en cm
7
.
La varian+a siempre ser mayor ue cero. Iientras ms se apro"ima a cero, ms concentrados estn los valores de la
serie alrededor de la media. -or el contrario, mientras mayor sea la varian+a, ms dispersos estn los datos.
Desviacin tpica:
Es la ra+ cuadrada de la varian+a, se denota por S
3

"
.

Este estadstico se mide en la misma unidad ue la variable por lo ue se puede interpretar mejor.
Cuasivarian1a:
Es una medida de dispersin, cuya .nica diferencia con la varian+a es ue dividimos por ,91, la
representaremos por o y la calcularemos de la siguiente forma:
Cuasidesviacin tpica:
Es la ra+ cuadrada de la cuasivarian+a y la denotaremos por S
(89
o
(#9
!
Bodas estas medidas de dispersin vienen influidas por la unidad en la ue se mide la variable. Esto implica ue si
cambiamos de unidad de medida, los valores de estos estadsticos se vean a su ve+ modificados. *dems, no permite
comparar por ejemplo, en un grupo de alumnos si los pesos o las alturas presentan ms dispersin. -ues no es posible
comparar unidades de distinto tipo.
-recisamos por lo tanto, una medida DescalarD, es decir, ue no lleve asociado ninguna unidad de medida.
Coeficiente de Variacin de Pearson:
Es un estadstico de dispersin ue tiene la ventaja de ue no lleva asociada ninguna unidad, por lo ue nos permitir
decir entre dos muestras, cual es la ue presenta mayor dispersin. La denotaremos por C!V!
13
6eamos por .ltimo dos ejemplos de cmo se calculan todas estas medidas.
E)e"plo 9
Benemos la serie de datos de la estatura de los 3< alumnos de una clase y vamos a calcular sus medidas de
dispersin.
Variable $recuencias absolutas $recuencias relativas
%Valor& Si"ple Acu"ulada Si"ple Acu"ulada
" G " G "
1,7<
1
1 3,3F 3,3F
1,71 : ; 13,3F 1@,@F
1,77 : > 13,3F 3<,<F
1,73 7 11 @,@F 3@,@F
1,7: 1 17 3,3F :<,<F
1,7; 7 1: @,@F :@,@F
1,7@ 3 1? 1<,<F ;@,@F
1,7? 3 7< 1<,<F @@,@F
1,78 : 7: 13,3F 8<,<F
1,7> 3 7? 1<,<F ><,<F
1,3< 3 3< 1<,<F 1<<,<F

9!# *an+o: (iferencia entre el mayor valor de la muestra $1,3<% y el menor valor $1,7<%. Luego el rango de esta
muestra es 1< cm.
:!# Varian1a: recordemos ue la media de esta muestra es 1,7;3. Luego, aplicamos la frmula:
-or lo tanto, la varian+a es <,<<1<
;!# Desviacin tpica: es la ra+ cuadrada de la varian+a.
Luego:
1:
<!# Coeficiente de variacin de Pearson: se calcula como cociente entre la desviacin tpica y la media de la muestra.

ue/o,

El inter&s del coeficiente de variacin es ue al ser un porcentaje permite comparar el nivel de dispersin de dos
muestras. Esto no ocurre con la desviacin tpica, ya ue viene e"presada en las mismas unidas ue los datos de la
serie.
-or ejemplo, para comparar el nivel de dispersin de una serie de datos de la altura de los alumnos de una clase y otra
serie con el peso de dichos alumnos, no se puede utili+ar las desviaciones tpicas $una viene vienes e"presada en cm y
la otra en =g%. En cambio, sus coeficientes de variacin son ambos porcentajes, por lo ue s se pueden comparar.
E)e"plo :

1' '' 2 2 '( ,(( !"4,1 ""2,1 ++'5,"2 "'(((
'' 2' "( "2 2( 2(( !4,1 41 55,,2 ,2(((
2' 3' "4 ,' 3( ",,( (,2 "",1 2,51 4,"((
3' 5' "" 12 5( 55( "(,2 ""2,2 "+,',42 3(1((
5' 4' 1 '( 4( ,2( +(,2 5+,1 "243,11 ,+1((
# & '( ,13( 1+(,5 2(5+ +124((
=
Dm=
&
'v C <,<37< # 1,7;3
'v C <,<7;;
1;
C.V.=
-edidas de Locali1acin: Cuartiles5 deciles percentiles!
Las medidas de locali+acin $tambi&n llamadas medidas de posicin no central% dividen la distribucin en partes
iguales, sirven para clasificar a un individuo o elemento dentro de una determinada poblacin o muestra. *s, en
psicologa los resultados de los test o pruebas ue reali+an a un determinado individuo, sirven para clasificar a dicho
sujeto en una determinada categora en funcin de la puntuacin obtenida.
1. 'uartiles.
7. (eciles.
3. -ercentiles.
:. Ejemplos de clculo.
;. *lgunas medidas de dispersin asociadas
Cuartiles
Iedida de locali+acin ue divide la poblacin o muestra en cuatro partes iguales. 0ay tres cuartiles J
i
:
J
1
C 6alor de la variable ue deja a la i+uierda el 7;F de la distribucin.
J
7
C 6alor de la variable ue deja a la i+uierda el ;<F de la distribucin C mediana.
J
3
C 6alor de la variable ue deja a la i+uierda el ?;F de la distribucin.
*l igual ue ocurre con el clculo de la mediana, el clculo de estos estadsticos, depende del tipo de variable.
Caso I: 6ariable cuantitativa discreta:
En este caso tendremos ue observar el tama/o de la muestra: , y para calcular J
1
o J
3
procederemos como
si tuvi&semos ue calcular la mediana de la correspondiente mitad de la muestra.
Caso II: 6ariable cuantitativa continua:
En este caso el clculo es ms simple2 sea la distribucin ue sigue:

siendo el intervalo coloreado donde se encuentra el 'uartil correspondiente:
y
EL
i97
99 L
i91
% n
i91
,
i91
EL
i91
99 L
i
% n
i
,
i
1@
Deciles
Iedida de locali+acin ue divide la poblacin o muestra en 1< partes iguales. 0ay > deciles.
,o tiene mucho sentido calcularlas para variables cualitativas discretas. -or lo ue lo vamos a ver slo para las
variables continuas.
d
= C
decil =9&simo, es auel valor de la variable ue deja a su i+uierda el =)1< F de la distribucin.

Ontervalo donde se encuentra el decil correspondiente:
= C 1,Q, >
Percentiles:
Iedida de locali+acin ue divide la poblacin o muestra en 1<< partes iguales. !on >> valores.
,o tiene mucho sentido calcularlas para variables cualitativas discretas. -or lo ue lo vamos a ver slo para las
variables continuas.
p
= C
-ercentil =9simo es auel valor de la variable ue deja a su i+uierda el = F de la distribucin.


Ontervalo donde se encuentra el percentil correspondiente:

=C1 .. >>
* continuacin vemos dos ejemplos.
EL
i97
99 L
i91
% n
i91
,
i91
EL
i91
99 L
i
% n
i
,
i
ELi97 99 Li91% ni91 ,i91
ELi91 99 Li% ni ,i
1?
E)e"plo 9
'omo se puede observar la forma de calcular estas medidas es muy similar a la del clculo de la mediana.
6amos a calcular J
1
, J
3
, d
3
, y p
:;
Li91 Li ni ,i
:; ;; @ @
;; @; 1< 1@
@; ?; 1> 3;
?; 8; 11 :@
8; >; : ;<
'lculo de J
1
: Buscamos en la columna de las frecuencias *cumuladas el valor ue supere al 7;F de ,C;<,
corresponde al 74 intervalo.$;<#:C17.;%
*nlogamente calculemos J
3
, Buscamos ahora en la misma columna el correspondiente al ?; Fde , ue en este caso
es el :4 intervalo $3.;<#:C3?.;%
6eamos ahora el decil 34 $corresponde al 3< F 3 ) ;< # 1< C 1;% sera el 74 intervalo.
-or .ltimo veamos el percentil :; $:;);<#1<< C 77.;% 'orresponde al intervalo 34.
18
E)e"plo :
6amos a calcular los cuartiles de la serie de datos referidos a la estatura de un grupo de 3< alumnos. Los deciles y
centiles se calculan de igual manera, aunue haran falta distribuciones con mayor n.mero de datos.
Variable $recuencias absolutas $recuencias relativas
%Valor& Si"ple Acu"ulada Si"ple Acu"ulada
G G " " G
1,7<
1
1 3,3F 3,3F
1,71 : ; 13,3F 1@,@F
1,77 : > 13,3F 3<,<F
1,73 7 11 @,@F 3@,@F
1,7: 1 17 3,3F :<,<F
1,7; 7 1: @,@F :@,@F
1,7@ 3 1? 1<,<F ;@,@F
1,7? 3 7< 1<,<F @@,@F
1,78 : 7: 13,3F 8<,<F
1,7> 3 7? 1<,<F ><,<F
1,3< 3 3< 1<,<F 1<<,<F
9= cuartil: es el valor 1,77 cm, ya ue por debajo suya se sit.a el 7;F de la frecuencia $tal como se puede ver en la
columna de la frecuencia relativa acumulada%.
:= cuartil: es el valor 1,7@ cm, ya ue entre este valor y el 14 cuartil se sit.a otro 7;F de la frecuencia.
;= cuartil: es el valor 1,78 cm, ya ue entre este valor y el 74 cuartil se sit.a otro 7;F de la frecuencia. *dems, por
encima suya ueda el restante 7;F de la frecuencia.
Atencin: cuando un cuartil recae en un valor ue se ha repetido ms de una ve+ $como ocurre en el ejemplo en los
tres cuartiles% la medida de posicin no central sera realmente una de las repeticiones.
Al+unas "edidas de Dispersin asociadas
Mna ve+ estudiadas las medidas de locali+acin surgen nuevas medidas de dispersin, destacamos:
Pecorrido intercuartlico:
-edidas de for"a: Asi"etra
El concepto de asimetra se refiere a si la curva ue forman los valores de la serie presenta la misma forma a i+uierda
y derecha de un valor central $media aritm&tica%.
1>
Las medidas de la asimetra, al igual ue la curtosis, van a ser medidas de la forma de la distribucin. Es frecuente ue
los valores de una distribucin tiendan a ser similares a ambos lados de las medidas de centrali+acin. La simetra es
importante para saber si los valores de la variable se concentran en una determinada +ona del recorrido de la variable.
*sR< *sC< *sS<
*simetra ,egativa a la O+uierda !im&trica
*simetra -ositiva a la (erecha.

-ara medir la asimetra se puede reali+ar atendiendo bsicamente a dos criterios:
'omparando la Iedia y la Ioda.
'omparando los valores de la variable con la media.
Comparando la Media y la Moda:
!i la diferencia es positiva, diremos ue hay asimetra positiva o a la derecha, en el caso de ue sea
negativa diremos ue hay asimetra negativa o a la i+uierda. ,o obstante, esta medida es poco operativa al no ser una
medida relativa, ya ue esta influida por la unidad en ue se mida la variable, por lo ue se define el coeficiente de
*simetra como:
Esta medida es muy fcil de calcular, pero menos precisa ue el coeficiente de asimetra de -earson.
El coeficiente de asimetra de -earson, se basa en la comparacin con la media de todos los valores de la variable, as
ue es una medida ue se basar en las diferencias , como vimos en el caso de la dispersin si medimos la
media de esas desviaciones sera nulas, si las elevamos al cuadrado, seran siempre positivas por lo ue tampoco
serviran, por lo tanto precisamos elevar esas diferencias al cubo.
-ara evitar el problema de la unidad, y hacer ue sea una medida escalar y por lo tanto relativa, dividimos por el cubo
de su desviacin tpica. 'on lo ue resulta la siguiente e"presin conocida como Coeficiente de Asi"etra de $is>er:
o de forma euivalente
7<
Los resultados pueden ser los siguientes:
+9 ? @ $distribucin sim&trica2 e"iste la misma concentracin de valores a la derecha y a la i+uierda de la media%
+9 A @ $distribucin asim&trica positiva2 e"iste mayor concentracin de valores a la derecha de la media ue a su
i+uierda%
+9 B @ $distribucin asim&trica negativa2 e"iste mayor concentracin de valores a la i+uierda de la media ue a su
derecha%
Ejemplo: 6amos a calcular el $oe.iciente de 7simetr8a de )isher de la serie de datos re.eridos a la estatura de un /rupo de ,(
alumnos:
Variable $recuencias absolutas $recuencias relativas
%Valor& Si"ple Acu"ulada Si"ple Acu"ulada
" G " " "
1,7<
1
1 3,3F 3,3F
1,71 : ; 13,3F 1@,@F
1,77 : > 13,3F 3<,<F
1,73 7 11 @,@F 3@,@F
1,7: 1 17 3,3F :<,<F
1,7; 7 1: @,@F :@,@F
1,7@ 3 1? 1<,<F ;@,@F
1,7? 3 7< 1<,<F @@,@F
1,78 : 7: 13,3F 8<,<F
1,7> 3 7? 1<,<F ><,<F
1,3< 3 3< 1<,<F 1<<,<F
Pecordemos ue la media de esta muestra es 1,7;3
%%3i # 3&C;&Dni %%3i # 3&C:&Dni
G "
71
<,<<<11< <,<3<:@?
Luego:

$1#3<% T <,<<<11<
g1 C
9999999999999999999999999999999999999999999999999
C 9<,1;8@

$1#3<% T $<,<3<:@?%U$3#7%

-or lo tanto el Coeficiente de $is>er de Si"etra de esta muestra es 9<,1;8@, lo ue uiere decir ue presenta una
distribucin asim&trica negativa $se concentran ms valores a la i+uierda de la media ue a su derecha%.
-edidas de for"a: Coeficiente de Curtosis
El Coeficiente de Curtosis anali+a el grado de concentracin ue presentan los valores alrededor de la +ona central de
la distribucin.
!e definen 3 tipos de distribuciones seg.n su grado de curtosis:
Distribucin "esocErtica: presenta un grado de concentracin medio alrededor de los valores centrales de la variable
$el mismo ue presenta una distribucin normal%.
Distribucin leptocErtica: presenta un elevado grado de concentracin alrededor de los valores centrales de la
variable.
Distribucin platicErtica: presenta un reducido grado de concentracin alrededor de los valores centrales de la
variable.
El Coeficiente de Curtosis viene definido por la siguiente frmula:
77
o
Los resultados pueden ser los siguientes:
+: ? @ $distribucin "esocErtica&.
+: A @ %distribucin leptocErtica%.
+: B @ %distribucin platicErtica).
'urtosis ,egativa: -latic.rtica 'urtosis ,ula: Iesoc.rtica

E)e"plo 9:
6amos a calcular el 'oefiente de 'urtosis de la serie de datos referidos a la estatura de un grupo de 3< alumnos:
Variable $recuencias absolutas $recuencias relativas
%Valor& Si"ple Acu"ulada Si"ple Acu"ulada
G G " " "
1,7<
1
1 3,3F 3,3F
1,71 : ; 13,3F 1@,@F
1,77 : > 13,3F 3<,<F
1,73 7 11 @,@F 3@,@F
1,7: 1 17 3,3F :<,<F
1,7; 7 1: @,@F :@,@F
1,7@ 3 1? 1<,<F ;@,@F
1,7? 3 7< 1<,<F @@,@F
1,78 : 7: 13,3F 8<,<F
1,7> 3 7? 1<,<F ><,<F
1,3< 3 3< 1<,<F 1<<,<F
Pecordemos ue la media de esta muestra es 1,7;3
%%3i # 3"&C<&Dni %%3i # 3"&C:&Dni
G "
<,<<<<:>@? <,<3<:@@@?
Luego:
73

$1#3<% T <,<<<<:>@?


g7 C
9999999999999999999999999999999999999999999999999
9 3 C 91,3>

$$1#3<% T $<,<3<:@@@?%%U7

-or lo tanto, el Coeficiente de Curtosis de esta muestra es 91,3>, lo ue uiere decir ue se trata de una distribucin
platic.rtica, es decir, con una reducida concentracin alrededor de los valores centrales de la distribucin.
E)e"plo :
6eamos por .ltimo el clculo de estos dos .ltimos coeficientes en el ejemplo ue estamos estudiando.
1' '' 2 2 '( ,(( !"4,1 !1,5(5,,(1 51455",(45
'' 2' "( "2 2( 2(( !4,1 !5,(',51 35(31,542
2' 3' "4 ,' 3( ",,( (,2 1,"(1 +,12+1
3' 5' "" 12 5( 55( "(,2 ","(","32 ",553+,122
5' 4' 1 '( 4( ,2( +(,2 ,1423,+21 3+(,+',2,5
#& '( ,13( !1(1",2 "353"'2,'2
&
0o&
?<.7:
7s&
7:
$oe.iciente de 7simetr8a de )isher
7s&

9&
Luego es una distribucin asim&trica negativa o a la i+uierda y -latic.rtica.
Medidas de forma: Grado de concentracin
Iide si los valores de la variable estn ms o menos uniformemente repartidos a lo largo de la muestra.
-ara medir el nivel de concentracin de una distribucin de frecuencia se pueden utili+ar distintos indicadores, entre
ellos el Indice de .ini.
Este ndice se calcula aplicando la siguiente frmula:
ON C
$pi 9 i%
9999999999999999999999999999
pi
$i toma valores entre 1 y n91%
En donde pi mide el porcentaje de individuos de la muestra ue presentan un valor igual o inferior al de "i.
pi C
n1 H n7 H n3 H ... H ni
9999999999999999999999999999 " 1<<
,
Iientras ue i se calcula aplicando la siguiente frmula:
i C
$G1Tn1% H $G7Tn7% H ... H $GiTni%
99999999999999999999999999999999999999999999999999999 " 1<<
$G1Tn1% H $G7Tn7% H ... H $GnTnn%
El Indice .ini $ON% puede tomar valores entre < y 1:
I. ? @ : concentracin mnima. La muestra est uniformemente repartida a lo largo de todo su rango.
I. ? 9 : concentracin m"ima. Mn slo valor de la muestra acumula el 1<<F de los resultados.
7;
E)e"plo 9
6amos a calcular el Ondice Nini de una serie de datos con los sueldos de los empleados de una empresa $millones
pesetas%.
Sueldos
E"pleados %$recuencias
absolutas&
$recuencias relativas
%-illones& Si"ple Acu"ulada Si"ple Acu"ulada
G G G " "
3,;
1<
1< 7;,<F 7;,<F
:,; 17 77 3<,<F ;;,<F
@,< 8 3< 7<,<F ?;,<F
8,< ; 3; 17,;F 8?,;F
1<,< 3 38 ?,;F >;,<F
1;,< 1 3> 7,;F >?,;F
7<,< 1 :< 7,;F 1<<,<F
'alculamos los valores ue necesitamos para aplicar la frmula del Ondice de Nini:
'i ni ni pi 'i D ni 'i D ni Fi pi # Fi
" G G " " " " "
3,;
1<
1< 7;,<
3;,<
3;,< 13,@ 1<,83
:,; 17 77 ;;,<
;:,<
8>,< 3:,@ 18,>?
@,< 8 3< ?;,< :8,< 1:?,< ;?,7 1>,;3
8,< ; 3; 8?,; :<,< 18?,< ?7,8 1;,8:
1<,< 3 38 >;,< 3<,< 71?,< 8:,: 11,1>
1;,< 1 3> >?,; 1;,< 737,< ><,3 ?,@7
7;,< 1 :< 1<<,< 7;,< 7;?,< 1<<,< <
" G " " " " " "
pi $entre 1 y n91% C :3;,< " $pi 9 i% $entre 1 y n91 % C 83,>>
-or lo tanto:
ON C 83,>> # :3;,< C <,1>
/n Indice .ini de @59G indica ue la muestra est bastante uniformemente repartida, es decir, su nivel de
concentracin no es e"cesivamente alto.
E)e"plo ::
*hora vamos a anali+ar nuevamente la muestra anterior, pero considerando ue hay ms personal de la empresa ue
cobra el sueldo m"imo, lo ue conlleva mayor concentracin de renta en unas pocas personas.
Sueldos E"pleados %$recuencias absolutas& $recuencias relativas
%-illones& Si"ple Acu"ulada Si"ple Acu"ulada
G " " G "
3,;
1<
1< 7;,<F 7;,<F
:,; 1< 7< 7;,<F ;<,<F
@,< 8 78 7<,<F ?<,<F
7@
8,< ; 33 17,;F 87,;F
1<,< 3 3@ ?,;F ><,<F
1;,< < 3@ <,<F ><,<F
7<,< : :< 1<,<F 1<<,<F
En este caso obtendramos los siguientes datos:
'i ni ni pi 'i D ni 'i D ni Fi pi # Fi
" " " " " " " "
3,;
1<
1< 7;,<
3;
3; 11,? 13,7@
:,; 1< 7< ;<,<
:;
8< 7@,8 73,1;
@,< 8 78 ?<,< :8 178 :3,< 7?,<;
8,< ; 33 87,; :< 1@8 ;@,: 7@,17
1<,< 3 3@ ><,< 3< 1>8 @@,: 73,;@
1;,< < 3@ ><,< < 1>8 @@,: 73,;@
7;,< : :< 1<<,< 1<< 7>8 1<<,< <,<<
" " " " " " " "
pi $entre 1 y n91% C :<?,; " $pi 9 i% $entre 1 y n91 % C 13@,@>
El Indice .ini sera:
ON C 13@,@> # :<?,; C <,3:
El Ondice Nini se ha elevado considerablemente, reflejando la mayor concentracin de rentas ue hemos comentado.
7?

Você também pode gostar