Escolar Documentos
Profissional Documentos
Cultura Documentos
Estadstica Descriptiva
Rodolfo Abanto C.
Universidad Adolfo Ibez
@ Abanto Canto
2. Estadstica Descriptiva.
Los datos pueden ser generados automticamente por registros contables, industriales,
reportes, revistas, diarios, etc. Pero tambin se pueden generar mediante encuestas
diseadas especialmente en cada estudio en particular. Los estudios estadsticos pueden
referirse a toda la poblacin y en este caso estaremos en presencia de un censo. Por otro
lado, son muy frecuentes los estudios mustrales, en agronoma, finanzas, marketing e
industrias en general. Trabajar con una muestra de datos y no con toda la poblacin
hace la investigacin ms rentable en trminos econmicos y de tiempo; pero tambin
es razonable considerar que las muestras deben ser representativas, si no los resultados
seran incongruentes con la realidad respecto a las decisiones y en vez de solucionar un
problema, podra ocasionar problemas ms grandes. La ciencia estadstica recomienda
seleccionar aleatoriamente para obtener muestras representativas.
Por ltimo, recolectados los datos, el siguiente paso es resumir y describirlos, esto se
puede hacer usando las metodologas disponibles en la Estadstica descriptiva. Estos
procedimientos tienen los mismos objetivos en esencia, pero es importante considerar
la metodologa si estamos en frente de una poblacin o de una muestra.
Por ejemplo en un estudio poblacional la media se calcula:
Y en una muestra
@ Abanto Canto
) son dos
Muchos diran que es lo mismo, pues no, hay una diferencia de tamao (
elementos muy diferentes en la ciencia estadstica, tambin y son dos medidas muy
diferentes, primero es una medida de la poblacin cuyo valor es nico (parmetro) a
diferencia de que es una medida de la muestra y cuyo valor (estimacin) depende de
la muestra que se tome (estimador).
Y as hay muchas otras diferencias respecto a la metodologa, propia si es que se est en
presencia de una poblacin o de una muestra de datos.
3. Poblacin y Muestra
El desarrollo de los procedimientos estadsticos en una poblacin es diferente al
desarrollo metodolgico en una muestra. Planteado un problema de investigacin es
importante definir claramente la poblacin de estudio en trminos de los objetivos, pues
las conclusiones que se obtengan sern de inters slo para la poblacin definida, por
otro lado, las poblaciones deben quedar claramente definidas es espacio y tiempo. Los
comportamientos poblacionales no son estables, ms an, si el estudio es de corte
trasversal, se debe definir claramente el momento en que fueron recolectados los datos.
La poblacin se define como la totalidad de elementos en estudio. Una muestra, es un
conjunto representativo y adecuado de la poblacin. Las tcnicas de muestreo buscan o
se desarrollan en base a estos dos criterios.
4. Variables
Son caractersticas asociadas a los elementos de una poblacin de estudio. Esta
caracterstica debe ser medida de acuerdo a los objetivos del estudio.
Es una caracterstica asociada a un elemento que compone la poblacin, esta no es cualquier
caracterstica como por ejemplo el nmero de Rut, que implica no ms que una identidad a
cierta persona, no servira de nada por ejemplo obtener el promedio de nmeros de Rut o
quizs graficar.
Por lo tanto, las variables son caractersticas asociadas directamente a individuos, objetos, o
empresas de las que se puede deducir conclusiones estadsticamente tiles en la toma de
decisiones.
Las variables se pueden clasificar de la siguiente forma:
A.
@ Abanto Canto
A.1
A.2
B.
EJEMPLO:
El gerente de la Empresa ORA s.a, preocupado por el rendimiento de sus empleados (120
empleados conforman la empresa), decide investigar algunas variables socio - econmicas,
para lo cual, solicita informacin al jefe del Departamento de Personal. Entregando este,
los siguientes datos:
Ingreso
Estado
Civil
N de hijos Edad
300
Casado
28
200
Casado
22
150
Soltero
33
230
Casado
36
250
Casado
45
450
Soltero
45
230
Soltero
46
560
Soltero
48
238
Soltero
48
10
240
Soltero
56
11
270
Soltero
25
12
450
Casado
45
13
360
Casado
46
14
440
Soltero
26
@ Abanto Canto
15
330
Casado
47
16
330
Casado
39
17
223
Soltero
26
18
236
Casado
30
19
200
Soltero
32
20
269
Casado
45
Comentario:
@ Abanto Canto
2.
2.1
Las tres tablas que se presentan, son distribuciones de frecuencia de una variable continua
discreta y cualitativa:
mi
20-30
10
0,125 10
0,125 25
30-40
20
0,250 30
0,375 35
40-50
22
0,275 52
0,650 45
50-60
15
0,188 67
0,838 55
60-70
0,100 75
0,938 65
70-80
0,062 80
1,000 75
Total
80
1.000
Ni
Mi
Xi
@ Abanto Canto
Variedad de ni
Produccin
mi
Ni
Mi
1
2
3
4
5
Total
0,250
0,375
0,125
0,125
0,125
20
50
60
70
80
0,250
0,625
0,750
0,875
1,000
20
30
10
10
10
80
ni
mi
Agricultura
Manufactura
Servicios
Otros
total
30
10
20
20
80
0,375
0,125
0,250
0,250
1,000
ni
n
La interpretacin de esta frecuencia se hace en porcentaje.
3. Frecuencia absoluta acumulada ( N i ) : Acumula la frecuencia absoluta simple
respecto a los valores de la variable (de menor a mayor).
@ Abanto Canto
Xi
donde:
lim sup , es lmite superior de la clase y lim inf , es el lmite inferior de la clase.
Para interpretar una distribucin de frecuencia se debe tener en cuenta las frecuencias ms
relevantes, como son las frecuencias ms grande y pequea o alguna que sea importante
para el estudio, ejemplo:
En la tabla nmero 1, en referencia a la distribucin de frecuencia para una variable de tipo
continua, la frecuencia absoluta ms grande es la que corresponde a la tercera clase, en
relacin tambin a la frecuencia relativa simple, n3 = 22 y m3 =0,275, siendo su
interpretacin : La clase con mayor nmero (22) de PYME es la de 40 a 50 millones de
pesos y corresponden al 27,5% de las empresas en estudio.
Las frecuencias acumuladas, por ejemplo de la cuarta clase: N 4 = 67 y M 4 = 0,838, se
interpretan de la forma: 55 PYME tienen utilidades entre 20 y 60 millones de pesos y es
equivalente al 83,8% de las empresas en estudio.
@ Abanto Canto
puesto que las interpretaciones no tendran sentido hacerlas, si las clases no estuvieran
ordenadas, como es en este caso.
Finalmente, si se observa la presentacin de las tres tablas, cada presentacin tiene tres
partes: un encabezamiento, la tabla propiamente dicha y una fuente. Estas partes siempre
es importante que aparezcan en toda presentacin de una tabla de distribucin de frecuencia
o de un grfico debido a su formalidad. El encabezamiento debe construirse de acuerdo a la
variable que se este estudiando y ubicarla en espacio y tiempo (utilidad, PYME y diciembre
del 2001) y la fuente indica de donde fueron tomados los datos.
2.2
R
,
#
# 1 1,33 log n
donde: #, es nmero de intervalos a encontrar y n es el tamao de la muestra o nmero de
datos disponibles.
Por ltimo, la amplitud quedar aproximada al nmero de decimales que tengan los
datos
4. Encontrar el rango nuevo ( R c# ), que es el producto la amplitud encontrada en el
paso 3 y el nmero de intervalos.
5. Encontrar la cantidad del rango sobrante ( s R R ), que es la diferencia entre el
rango nuevo y el rango antiguo.
6. Repartir la cantidad sobrante del paso 5 en dos partes, una para restar al valor mnimo y
la otra para sumar al valor mximo. Esto se hace con el fin de distribuir la cantidad
sobrante en dos partes iguales (ampliar el rango por el lado izquierdo y derecho en la
misma cantidad); pero no siempre pasa eso, cuando por ejemplo la cantidad a repartir es
@ Abanto Canto
0,4
0,2
0,2
2
1
0,05
0.03
0.02
32,2
33,5
78,3
45,2
38,3
45,5
56,2
65,4
29,4
28,4
48,4
38,7
45,5
36,8
29,7
52,5
29,5
63,5
39,8 47,7
58,5, 50,8
39,5 58,4
53,4 49,5
32,5 78,8
68,4 60,8
69,8
64,8
45,8
39,5
70,7
58,8
85,5
59,5
55,8
26,7
72,5
48,2
El tamao de muestra es de 42 clientes, donde cada dato corresponde al valor del depsito
del cliente es estudio.
Primer paso :
Segundo paso :
@ Abanto Canto
Tercer paso:
58,8
11,76 11,8
5
Aqu aproximamos a 11,8 (a dcimas) porque los datos aparecen con dcimas (es decir un
dgito despus de la coma decimal).
Cuarto paso :
R 11,8 5 59
Quinto paso:
s 59 58,8 0,2
Sexto paso:
reparto:
0,2
0,1
0,1
Entonces:
Conteo
||||||||||
||||||||||||
||||||||||
||||||||
|||
42
Del conteo se produce las frecuencias absolutas simples y se calculan las dems
frecuencias; As como sus respectivas marcas de clase. Es importante en esta parte recordar
que los intervalos considerados son abiertos por la derecha y cerrados por la izquierda, esto
quiere decir, por ejemplo que en la clase tres el dato con valor 62 no lo toma pues en el
lmite superior (62) es abierto y lo toma en la siguiente clase, es decir, le corresponde a la
cuarta clase:
@ Abanto Canto
ni
mi
Ni
Mi
Xi
10
12
10
7
3
42
0,24
0,28
0,24
0,17
0,07
1,00
10
22
32
39
42
0.21
0,52
0,76
0,93
1,00
32,5
44,3
56,1
67,9
79,7
1.3
CONSTRUCCION DE
VARIABLE DISCRETA.
UNA
DISTRIBUCION
DE
FRECUENCIA
PARA
Posibles
Conteo
resultados de
la variable
0
|||||
1
|||||||||||||||||
2
| | | | | | | | | | | | | |
3
||||
4
||
Total
42
Listo el conteo, calculamos ahora las respectivas frecuencias:
@ Abanto Canto
mi
Ni
Mi
0,12
0,40
0,33
0,10
0,05
1,00
5
22
36
40
42
0,12
0,52
0,85
0,95
1,00
Xi
0
1
2
3
4
Total
5
17
14
4
2
42
La primera columna muestra los grupos o clases, definidas por los posibles resultados del
variable en estudio. Las siguientes columnas corresponden a las frecuencias. Cabe resaltar
que la columna correspondiente a los grupos, es decir los posibles resultados sern tratados
en los siguientes captulos como las marcas de clases son para la variables continuas.
@ Abanto Canto
Nivel
de Conteo
Instruccin
Bsico
Medio
Superior
Total
|||||||||||||
|||||||||||||||||
||||||||||||
42
ni
mi
Ni
Mi
13
17
12
0,31
0,40
0,29
13
30
42
0,31
0,71
1,00
Total
42
1,00
2.
@ Abanto Canto
ni
14
12
10
8
6
4
2
0
14,8
26,6
38,4
50,2
62
73,8
85,6
depsitos
Histograma de Frecuencias
14
12
ni
10
8
6
4
2
0
26,6-38,4
38,4-50,2
50,2-62
62-73,8
73,8-85,6
@ Abanto Canto
frecuencia
Asimetria Positiva
@ Abanto Canto
fi
Asimetria negativa
3.2
@ Abanto Canto
ni
Diagrama de Barras
18
16
14
12
10
8
6
4
2
0
17
13
Bsico
12
Medio
Superior
N. Instr.
Superior
29%
Bsico
31%
Medio
40%
@ Abanto Canto
Diagrama de Bastones: En este tipo de grfico, tambin se dibujan dos ejes uno horizontal
donde se anotan los resultados de la variable y en el eje vertical se anotan las frecuencias
respectivas. Como la variable es de tipo discreta lo que se hace es que en cada resultado de
la variable (eje horizontal) se dibuja una lnea hasta la altura de la frecuencia respectiva y se
dibuja un punto en la parte superior (la lnea y el punto forman el bastn).
Diagrama de Bastones
20
15
ni
2.3.1
10
5
0
-1
2
3
# de empleos
Como ltima observacin, para esta parte de la presentacin grfica, como dijimos en la
parte anterior correspondiente a la construccin de distribuciones de frecuencia, estos
mtodos de presentacin de informacin estadstica, pueden ser implementados en Excel;
de hecho todos los grficos y tablas presentados en este documento estn desarrollados en
este software. Destacando tambin la presencia en el medio de muchos paquetes
estadsticos, los que tambin pueden ser usados. Adems estos disponen, de muchos otros
mtodos sofisticados para la presentacin grfica, de la informacin.
Para finalizar esta ltima observacin, quiero resaltar el uso de los colores en la
presentacin grfica, para indicar algunas clases o intervalos de clase de importancia, en
cualquier sentido.
@ Abanto Canto
GUIA 1 de ejercicios
1. Almacenes FRANCIA, dispone de una base de datos de variables relacionadas a sus
clientes (antecedentes histricos y personales). Con el objetivo de hacer una descripcin
estadstica de estas variables en forma rpida y econmica, se tom una muestra
aleatoria:
EDAD
(AOS)
DEUDA N
ESTAD
VIGENT INTEGR O CIVIL
E (U.M) ANTES
FAMIL.
25
45
25
46
28
48
56
23
45
29
28
55
45
36
39
33
30
31
45
58
56
50
49
47
29
30
42
35
36
36
25
14
58
39
45
50
200,8
255,4
369,5
456,7
108,6
125,3
200,6
190,3
236,5
333,9
258,5
147,5
299,4
368,5
449,8
405,2
426,8
436,3
325,8
346,7
486,5
256,9
200,6
563,6
405,7
499,5
456,5
555,6
521,3
169,2
369,2
358,5
248,8
391,6
488,8
256,3
2
3
6
5
4
2
2
3
5
4
6
2
3
2
5
5
5
3
4
4
3
5
5
3
2
3
5
6
2
3
1
2
2
4
4
3
S
C
C
C
C
S
S
C
C
C
C
C
C
S
C
C
C
C
C
C
S
S
C
C
S
C
C
C
S
C
S
S
S
C
C
C
N
DE
CREDITO
S
SOLICIT
ADOS
1
3
2
2
5
4
4
3
4
5
5
5
5
2
6
7
4
4
2
3
5
7
6
6
5
4
7
7
7
2
1
3
5
4
4
5
@ Abanto Canto
a.
b.
c.
d.
e.
359,35
157,84
310,32
233,23
268,67
158,83
312,45
239,78
198,54
187,45
300,78
289,56
168,89
146,87
324,78
156,56
279,98
167,89
345,78
128,73
156,34
200,52
289,45
344,54
278,56
210,67
345,34
234,45
135,78
234,74
234,89
156,45
169,96
145,74
275,67
125,34
128,93
234,74
145,73
157,77
Los directivos del Banco, quieren llegar con este producto, a personas con ingresos ms
altos. Es por esta razn, que se desarrolla una campaa de publicidad, para atraer a
estos clientes. Los ingresos de los clientes, despus de aplicada la publicidad son dados
a continuacin:
256,54
139,12
200,23
300,45
300,78
129,12
231,21
300,12
360,54
124,25
260,23
289,12
320,25
256,25
165,15
238,54
329,56
289,23
136,25
288,88
239,54
178,25
189,18
210,15
199,56
342,52
195,12
321,25
210,45
259,36
219,56
249,23
140,45
230,26
239,45
248,52
152,23
158,56
289,56
369,45
310,12
213,21
278,45
289.99
@ Abanto Canto
3. Antes de comenzar un estudio se decidi que sera de gran ayuda para la realizacin del mismo
hacer una encuesta, con el objeto de tener informacin muy reciente del mercado.
Para evaluar el concepto de producto que reciben los potenciales consumidores, y si se
adecua a sus necesidades, hemos realizado el siguiente test, sobre una muestra de 100 personas
pertenecientes a todas las zonas del mercado donde lanzamos el producto.
@ Abanto Canto
x
i 1
donde:
x : es el promedio o media.
n : tamao de la muestra.
@ Abanto Canto
Lo que quiere decir que: Si se selecciona al azar un cliente se espera que este cliente tenga
un ingreso mensual de 271,67 mil pesos.
me X ( n 2 )( 12 )
donde:
me : es la mediana.
n : es el tamao de la muestra.
En el Ejemplo usaremos los datos anteriores: 200, 300, 250, 300, 280, 300.
El primer paso es ordenar los datos, esta ordenacin puede ser de menor a mayor o de
mayor a menor. A continuacin ordenamos de menor a mayor:
me X ( n 2 )( 12 ) X ( 6 2 )( 12 ) X 3,5
@ Abanto Canto
El subndice del ltimo resultado indica el orden que ocupa la mediana, queriendo decir
entonces que la mediana esta entre el dato 3 y 4 (puesto que el subndice es 3,5).
Siendo el dato tres igual a 280 y el dato cuatro igual a 300. Por lo que la mediana sera el
promedio de ambos nmeros, es decir:
me
280 300
290m. p
2
interpretndose que: El 50% de los clientes del Banco Z tienen ingresos de 290 mil pesos o
menos, en consecuencia la otra mitad tienen ingresos superiores a 290 mil pesos.
Cabe indicar aqu que la mediana fue el resultado del promedio de dos nmeros en razn
de que el tamao de la muestra es un nmero par (n = 6), esto no debe pasar con el
tamao de muestra impar en este caso la mediana sera directamente un solo nmero.
3. Moda. Es el valor de la variable con mayor frecuencia entre los datos de la muestra.
Por lo tanto si existe moda, la moda puede ser una, dos, tres, o muchas modas; pero
tambin no puede existir. En otra palabras, las muestras pueden ser amodales si no
tienen moda, unimodales si tienen una moda, bimodales si tienen dos modas,
trimodales si tienen tres modas y as sucesivamente.
Aqu por lo tanto, no se puede disponer de una frmula, calculando la moda con
simple observacin:
En los datos del ejemplo anterior se observa que el dato con mayor frecuencia es 300,
es decir, la moda es 300.
Que se interpreta: es muy frecuente en los clientes del Banco z encontrar un ingreso
de 300 mil pesos.
@ Abanto Canto
x
i 1
ni
donde:
x : es el promedio
n : tamao de muestra.
a : nmero de clases o intervalos.
@ Abanto Canto
ni
mi
Ni
Mi
Xi
10
12
10
7
3
42
0,24
0,28
0,24
0,17
0,07
1,00
10
22
32
39
42
0.21
0,52
0,76
0,93
1,00
32,5
44,3
56,1
67,9
79,7
Para calcular el promedio de los depsitos tomamos las frecuencias absolutas simples y las
marcas de clase, desarrollando otra columna correspondiente al producto de ambas y
obtenemos la suma, que es la equivalencia a la parte del numerador en la frmula del
promedio::
Depsitos
(miles pesos)
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
Total
ni
xi
10
12
10
7
3
42
32,5
44,3
56,1
67,9
79,7
x
i 1
ni
=
xi ni
325,0
531,6
561,0
475,3
239,1
2132
2132
50.76 m.p
42
La interpretacin es: Si se toma aleatoriamente un cliente, se espera que este deposite 50,76
mil pesos.
@ Abanto Canto
me Linf
N k 1
ck 2
nk
donde:
me : es la mediana
ni
mi
Ni
Mi
Xi
10
12
10
7
3
42
0,24
0,28
0,24
0,17
0,07
1,00
10
22
32
39
42
0.21
0,52
0,76
0,93
1,00
32,5
44,3
56,1
67,9
79,7
@ Abanto Canto
Depsitos
(miles pesos)
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
Total
ni
10
12
10
7
3
42
Ni
10
22*
32
39
42
Segn estos datos entonces procedemos a hacer el primer clculo que es:
n 42
21 ,
2 2
este ltimo valor calculado se observa en que clase cae en la columna correspondiente a
las frecuencias absolutas acumuladas. Observando la tabla este valor 21 cae en la segunda
clase (en la tabla esta marcado con asterisco) lo que indica que el valor de la mediana est
en esta clase. Procediendo a continuacin a identificar los otros elementos de la frmula,
es decir:
me Linf
42
10
N k 1
= 38,4 11,8 2
49,22 m.p.
ck 2
nk
12
Se interpreta: Que la mitad de los clientes del banco Z, depositan 49,22 mil pesos o
cantidades inferiores, y en consecuencia la otra mitad depositan cantidades superiores a
49,22 mil pesos.
@ Abanto Canto
mo Linf ck
2
1
donde:
mo : es la moda
Para el ejemplo del clculo de la moda usaremos otra vez los resultados de la tabla N 4 de
la unidad I:
ni
mi
Ni
Mi
Xi
10
12
10
7
3
42
0,24
0,28
0,24
0,17
0,07
1,00
10
22
32
39
42
0.21
0,52
0,76
0,93
1,00
32,5
44,3
56,1
67,9
79,7
@ Abanto Canto
Calcularemos entonces la moda. de los depsitos de los clientes del Banco Z. Para esto
absorbemos las columnas necesarias:
Depsitos
(miles pesos)
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
Total
ni
10
12
10
7
3
42
Y procedemos como primer paso a identificar la mayor frecuencia absoluta simple, siendo
esta frecuencia la correspondiente a la clase dos es decir: n2 12 . Por lo tanto la moda es
un valor que esta en la segunda clase, en consecuencia deducimos los otros elementos de
la frmula:
2 nk nk 1 = 12 10 = 2
1
2
38,4 11,8
mo Linf ck
44,3 m.p
2 2
1 2
@ Abanto Canto
Son medidas estadsticas descriptivas que indican la posicin del valor de la variable segn
la cantidad de datos acumulados porcentualmente. A continuacin daremos las
correspondientes definiciones para despus desarrollar los procedimientos de clculo:
1. Cuantiles o Cuartiles: Son los valores de la variable que dividen a la muestra en cuatro
partes iguales, esto quiere decir que entre cuantil y cuantil hay 25% de los datos.
2. Quintiles: Son los valores de la variable que dividen a la muestra en cinco partes
iguales, lo que indica que entre quintil y quintil hay 25% de los datos.
3. Deciles: Son los valores de la variable que dividen a la muestra en diez partes iguales,
en consecuencia entre decil y decil hay 10% de los datos.
4. Percentiles: Son los valores de la variable que dividen a la muestra en cien partes
iguales, esto quiere decir que entre percentil y percentil hay 1% de los datos.
1.3.1
@ Abanto Canto
1. Cuantiles:
Qi Linf
in
N k 1
ck 4
nk
donde:
i Linf
in
N k 1
ck 5
nk
Donde:
i : es el quintil i-simo ( i 1, 2, 3, 4)
Di Linf
in
N k 1
c k 10
nk
Donde:
@ Abanto Canto
Pi Linf
in
N k 1
c k 100
nk
Donde:
ni
mi
Ni
Mi
Xi
10
12
10
7
3
42
0,24
0,28
0,24
0,17
0,07
1,00
10
22
32
39
42
0.21
0,52
0,76
0,93
1,00
32,5
44,3
56,1
67,9
79,7
@ Abanto Canto
De esta tabla tomemos las columnas que sirven para el clculo de medidas de
posicin:
Depsitos
(miles pesos)
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
Total
ni
Ni
10
12
10
7
3
42
10
22
32
39
42
Qi Linf
in
N k 1
Q1 Linf c k
ck 4
nk
1 n
N k 1
4
nk
i n 1 42
ck c2 11,8 y por ltimo el lmite inferior de la clase cuantlica es: Linf 38,4 .
Reemplazamos estos valores en la frmula y tenemos:
Q1 Linf
1 n
N k 1
12
Esto quiere decir que el 25% de los clientes del banco X depositan 38,89m.p o
cantidades inferiores, obviamente el complemento equivalente al 75% depositan
cantidades superiores a 38,89m.p.
@ Abanto Canto
i Linf
in
N k 1
4 Linf c k
ck 5
nk
4n
N k 1
5
nk
4 n 4 42
4 Linf
4n
N k 1
Esto quiere decir que el 80% de los clientes del banco X depositan 64,70m.p o
cantidades inferiores, obviamente el complemento equivalente al 20% depositan
cantidades superiores a 64,70m.p.
@ Abanto Canto
Gua 2 de ejercicios
1. Los siguientes datos corresponden al rendimiento, medido porcentualmente, de una
muestra aleatoria de vendedores de seguros.
Rendimien
to (%)
ni
0-20
20-40
15
40-60
50
60-80
60
80-100
40
total
170
a. Determine e interprete:
(a.1) media o promedio.
(a.4) cuartil 1
(a.2) mediana
(a.5) decil 3 y 9
(a.3) moda
(a.7) percentil 23 y 77
@ Abanto Canto
Decisin de Inversin
Cuent
Ahorro
Bonos
Corp
Acc. Alta
calid
Acc. Espec
Otras
Recesin
0,30
600
500
-2.500
-5000
-10.000
Estable
0,50
600
900
800
400
-5.000
Expansin
0,20
600
900
4.000
10.000
20.000
@ Abanto Canto
Nmeros de
Nmero de
autos vendidos vendedores (
ni )
2
10
10
12
10
14
15
(b) mediana
(c) mediana
6. En las siguiente tablas se tiene las D.F de las remuneraciones de los funcionarios en
dos empresas diferentes:
@ Abanto Canto
Empresa A
Remunera
.
ni
Empresa B
Remunera.
ni
(u.m)
(u.m)
110-210
30
115-215
30
210-310
40
215-315
45
310-410
70
315-415
75
410-510
40
415-515
50
510-610
20
515-615
25
610-710
10
615-715
15
6.1 Determine e interprete para cada una de las D.F: (a) media (b) mediana (c) moda
(d) percentil 60.
6.2 Si supuestamente las dos empresas le ofrecen trabajo, usando los resultados
anteriores, a cul de las empresas aceptara? Fundamente su respuesta.
6.3 Si se necesitara categorizar a los funcionarios de estas empresas, segn sus
remuneraciones, de tal forma que el 25% ms bajo en remuneraciones sea la
categora C, el siguiente 50% en remuneraciones en categora B y el resto en
categora A. Cules seran los lmites de cada categora?
6.4 Si usted ingresa a laborar en la empresa A y le ofrecen de remuneracin 305 um.
En qu categora clasifica?
6.5 S usted ingresa a laborar en la empresa B y le ofrecen de remuneracin 585 u.m.
En qu categora clasifica?
@ Abanto Canto
@ Abanto Canto
III.
Dispersin o Variacin: Es la distancia que hay entre el valor de un dato y el valor de la
media.
Ejemplo: Sea la muestra de ingresos de 6 empleados, en unidades monetarias, 56, 60, 52,
50, 48, 63.
El promedio es x 54,83
48
50
52
54
56
58
60
62
Como se observa en el dibujo anterior, cada dato tiene su respectiva dispersin con
respecto al promedio. En adelante se analizara la dispersin pero en conjunto mediante
medidas absolutas o relativas.
S n2
(x
i 1
x)2
S n21
Varianza muestral
(x
i 1
x)2
n 1
Cuasi varianza
@ Abanto Canto
S n2
x
i 1
2
i
x2
S n21
x
i 1
2
i
nx 2
n 1
Respectivamente.
S S2
CV ( x)
S
100
X
@ Abanto Canto
RIC Q3 Q1
D.M ( X )
D.M ( X )
x ni
n
@ Abanto Canto
3. ndices de asimetra: Los ndices o criterios de asimetra son ciertas funciones que, tras
aplicar a determinados datos ofrecen algunos de los siguientes resultados:
As 0 Indica simetra
As
x Mo
S
(x
As
(x
As
x)3 / n
S3
x ) 3 ni / n
S3
@ Abanto Canto
La frmulas son:
Cr
(x
(x
Cr
x)4 / n
S4
x ) 4 ni / n
S4
@ Abanto Canto
20, 50, 80, 50, 80, 96, 58, 89, 36, 78, 99, 98,
Calcule e interprete:
a. Varianza
b. Desviacin estndar
c. coeficiente de variabilidad
d. rango Intercuartlico
e. ndice asimetra
f. ndice de curtosis
g. desviacin media
2. Las edades de un grupo de jefes de familia del barrio Italia en la comuna de La florida
son dadas a continuacin.
Edades
ni
20-30
10
30-40
40-50
10
50-60
@ Abanto Canto
Calcule e interprete:
a. Varianza
b. Desviacin estndar
c. coeficiente de variabilidad
d. rango Intercuartlico
e. ndice asimetra
f. ndice de curtosis
g. desviacin media
@ Abanto Canto
(SPSS)
Edad Stem-and-Leaf Plot
Frequency
1,00
10,00
9,00
3,00
3,00
3,00
Stem width:
Each leaf:
Stem &
1
2
3
4
5
6
.
.
.
.
.
.
Leaf
8
3445555669
556666669
145
166
026
10,00
1 case(s)
@ Abanto Canto
Diagrama de cajas
Se usa algunos de los estadsticos que resumen una muestra de datos, como por ejemplo:
mediana, cuartiles, asimetra, etc. Tambin es un detector de datos atpicos o datos
extremos.
Cuartil 1
Me
Cuartil 3
Datos
Datos
Atpicos
Datos
Atpicos
at
Extremos
at
at
Extrem
os
BES
BII
BEI
Donde:
Banda exterior inferior:
Banda interior inferior:
Banda interior superior:
Banda exterior superior:
Adems:
Datos
BIS
@ Abanto Canto
@ Abanto Canto
Problema propuesto:
primera parte de datos, en realidad son 150 datos), correspondientes a los clientes de una
empresa de seguros.
@ Abanto Canto
@ Abanto Canto
> stem(Ingresos[Genero=="Hombre"],3)
@ Abanto Canto
@ Abanto Canto
76 | 6
77 | 27
78 |
79 |
80 | 4
81 |
82 | 0
83 |
84 |
85 |
86 |
87 |
88 |
89 | 2
90 |
91 | 3
92 |
93 |
94 |
95 |
96 |
97 |
98 | 9
> stem(Ingresos[Genero=="Hombre"],3)
The decimal point is 1 digit(s) to the right of the |
25 | 579
26 |
27 |
28 |
29 |
30 |
31 |
32 |
33 | 3
34 |
35 |
36 | 6
37 |
38 | 9
39 | 8
40 | 0337
41 | 46
42 | 0
43 | 8
44 | 9
45 | 1469
46 |
47 | 579
48 | 048
49 | 2567
@ Abanto Canto
50 | 249
51 | 6
52 | 0679
53 | 0348899
54 | 24566
55 | 11259
56 | 05
57 | 135677
58 | 012246789
59 | 55
60 | 139
61 | 2477
62 | 1
63 | 59
64 | 06
65 | 226
66 | 68
67 | 0
68 | 147
69 | 129
70 |
71 |
72 |
73 | 6
74 | 0
75 |
76 | 6
77 | 27
78 |
79 |
80 | 4
81 |
82 | 0
83 |
84 |
85 |
86 |
87 |
88 |
89 | 2
90 |
91 | 3
92 |
93 |
94 |
95 |
96 |
97 |
98 | 9
>
@ Abanto Canto
Ejercicios propuestos:
1.
18
20-22
12
22-26
10
26-30
30-36
total
100
a. A partir de estos resultados. dira usted, que la campaa tuvo algn efecto (
Obviamente segn la media).
b. Un investigador decidi usar la siguiente regla: si la diferencia ( x 22 ) resulta ser
s
2
, concluye que la campaa tuvo efecto. Cul sera su
n
2. A continuacin se tiene el retorno diario de una accin B medido en tanto por uno,
durante 220 das:
@ Abanto Canto
Retorno diario
ni
-0.10 -0.05
20
-0.05
0.00
10
0.00
0.05
50
0.05
0.10
10
0.10
0.15
70
0.15
0.20
40
0.20
0.25
20
b. desviacin estndar
d. ndice de asimetra
2.
c. coeficiente de variacin
e. ndice de curtosis
Activos (millo. de
pesos)
ni
600-800
10
800-1000
40
1000-1200
20
1200-1400
30
1400-1600
60
1600-1800
10
@ Abanto Canto
3.
ni
34-38
50
38-42
20
42-46
30
46-50
30
50-54
20
54-58
10
@ Abanto Canto
IV
Medidas de Relacin.
Para estudiar la relacin entre dos variables cuantitativas, se recomienda iniciar el estudio
explorando grficamente esta relacin, mediante la construccin de un diagrama de
dispersin. Para luego confirmar esta relacin explorada mediante medidas estadstico
como ejemplo la covarianza o el coeficiente de correlacin
Covarianza.
@ Abanto Canto
La covarianza se define.
cov( x, y )
(x
i 1
x )( y i y )
n 1
x y nx y ,
n 1
@ Abanto Canto
Ejemplo:
X: Edad
Y: Rendimiento Laboral
28
52
26
59
36
88
56
90
42
75
23
62
Construimos en una primera etapa un diagrama de dispersin que nos permita explorar la
relacin existente entre estas dos variables. A continuacin, se muestra el respectivo
diagrama de dispersin:
Y: Rendimiento Laboral
100
90
80
70
60
50
40
20
30
40
Edad (aos)
50
60
@ Abanto Canto
Del diagrama de dispersin podemos concluir, en esta primera etapa de exploracin, que
la relacin entre estas dos variables es directa (positiva), es decir, a mayor edad mayor
rendimiento laboral o tambin a menor edad menor rendimiento laboral.
La medida de covarianza que calcularemos, nos confirmar la exploracin que se hizo con
el diagrama de dispersin:
Donde
XY
28
52
1456
26
59
1534
36
88
3168
56
90
5040
42
75
3150
23
62
1426
211
426
15774
211 426
15774 6
6 6 158,6
Aplicando la formula tenemos: cov( x, y )
5
@ Abanto Canto
La covarianza resulta ser 158,6. Este nmero es positivo, por lo tanto, la relacin entre la
variable edad y rendimiento laboral es positiva. La covarianza confirma la exploracin
hecha con el diagrama de dispersin.
Coeficiente de Correlacin
El valor del coeficiente de correlacin esta entre -1 y +1, pasando obviamente por el cero.
Si el coeficiente de correlacin esta cerca de -1 +1 la relacin es alta (depende del signo
si es positiva o negativa). Si el coeficiente de correlacin esta cerca del cero
(positivamente o negativamente) la relacin es baja. Si es cero es por que la covarianza es
cero, entonces no hay relacin entre la variables. Podramos ser una poco mas especfico y
decir que si el coeficiente de correlacin esta cerca del +0,5 -0,5 la relacin es moderada
(negativa o positiva).
rx , y
cov ( x, y )
Sx Sy
@ Abanto Canto
XY
X2
Y2
28
52
1456
784
2704
26
59
1534
676
3481
36
88
3168
1296
7744
56
90
5040
3136
8100
42
75
3150
1764
5625
23
62
1426
529
3844
211
426
15774
8185
31498
Como vemos en la ltima tabla incluimos dos nuevas columnas en los clculos, esto para
poder calcular las desviaciones estndar que necesitaremos.
211
8185 6
2
2
x nx
6
Sx
152,9 6
n 1
5
Sy
426
31498 6
2
2
y ny
6 250,4
n 1
5
rx , y
158,6
152. 6 250,4
0,81
@ Abanto Canto
Cuando empezamos esta unidad dijimos que los diagramas de dispersin permitan
explorar la forma de la relacin. Pero tambin adems de explorar la forma permiten
explorar el grado de la relacin, como se muestra en las siguientes figuras. En diagramas
de dispersin donde los puntos graficados de las dos variables estn cerca de una lnea, la
relacin entre las variables es fuerte, que a diferencia de aquellos donde los puntos estn
ms alejados de una lnea.
Y
X1
X2
Muchas veces se necesita predecir o estimar el valor de una variable Y, que llamaremos
variable dependiente, conociendo el valor de una variable X, que llamaremos variable
independiente.
Este asume una relacin lineal entre las variables dependiente e independiente, es decir
un modelo de la forma:
@ Abanto Canto
Y 0 1 X +
Y 1 X
Y 0 1 X
@ Abanto Canto
Estimacin
Donde:
@ Abanto Canto
Ejemplo:
cov( x, y) 158,6
S x 152,96
Por lo que:
Esta ecuacin estimada, es la ecuacin obtenida bajo el criterio que expresamos antes: Es
la mejor ecuacin de la lnea, es decir, la lnea mediante la cual se minimiza las distancia
cuadradas entre el valor observado y el valor estimado de cada observacin.
@ Abanto Canto
Y
y = 1,0368x + 34,538
R = 0,6567
100
90
80
70
60
Lineal (Y)
50
40
30
20
40
60
El valor del intercepto estimado es de 34,538, la diferencia con la ecuacin estimada por
la formulas es por el proceso de aproximacin que ocupamos. Un intercepto de 34,538
indica que si una vendedor tuviera una edad de cero aos su rendimiento sera de
34,538%. Por otro lado la pendiente, que en este caso indica que por cada ao que
aumenta la edad el rendimiento aumentara tambin en 1,0368%.
@ Abanto Canto
En el ejemplo este valor es 65%, que indica que la edad explica un 65% de la variacin del
rendimiento.
@ Abanto Canto
Ejercicios propuestos.
1. Suponga que se prueba una campaa publicitaria para un nuevo producto de 10 ciudades.
La intensidad X de la publicidad vara de una ciudad a otra. El porcentaje Y de familiaridad
con el producto se determina por medio de una encuesta despus de la campaa
publicitaria:
X: 4
4.5
5.5
6.5
36.7
51.5
67
7.5
68.5
8.5
68.2
69.3
411.25
23421.27
a.
b.
c.
d.
e.
f.
g.
h.
i.
1
y
x
responda c, d y e
2.
Los siguientes son datos mustrales relativos al nmero de horas de estudio fuera de clase durante
un perodo de tres semanas de alumnos de un curso de estadstica aplicada a la administracin y a sus
calificaciones en el examen el ese perodo.
Estudiante muestreado
Horas de Estudio(X)
20
16
34
23
27
32
18
22
Calificaciones en
64
61
84
70
88
92
72
77
n 10
@ Abanto Canto
examen (Y)
3.
20
yi 22,6
i 1
20
xi 25,4
i 1
20
yi2 130,2
i 1
20
xi2 145,7
i 1
20
x y
i 1
a.
b.
c.
d.
150,5
Edad (aos)
22
28
20
36
19
46
40
52
48
45
11
10
16
18
20
15
24
@ Abanto Canto
c. Ajuste una regresin lineal simple considerando horas de lectura como variable
dependiente.
d.
36
80
c. Ajuste una regresin lineal simple considerando Ventas como variable dependiente e
ingreso variable independiente.
d.
Interprete el intercepto y la pendiente estimada. Que venta se espera obtener para una
persona que tiene un ingreso de 298 m p
6.
a. Para cada uno de los pares de variables listados a continuacin, esboce el diagrama de
dispersin esperado. Diga si usted espera dependencia lineal, y en los casos afirmativos de una
idea del coeficiente de correlacin.
@ Abanto Canto
Y 1850 950 X
R 2 0,365