Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTADSTICA GENERAL
INTRODUCCIN
La palabra estadstica a menudo nos trae a la mente imgenes de nmeros apilados en
grandes arreglos y tablas, de volmenes de cifras relativas a nacimientos, muertes, viajes,
visitantes, ingresos, ventas y as sucesivamente.
Algunas personas podran pensar que la enseanza de la estadstica slo interesa a los
profesores, o bien a los investigadores que trabajan en los diferentes departamentos de una
universidad. Esta es una creencia errnea, puesto que la estadstica ha surgido desde la
misma estadstica y podemos encontrar Estadsticos en psicologa, economa, medicina,
ingeniera y otras reas.
Que es la estadstica?
Segn: Diccionario RAE
Ciencia o recuento de la poblacin, de los recursos naturales e industriales, del trfico o
de cualquier otra manifestacin de un Estado, provincia, pueblo, clase, etc.
Ciencia que utiliza conjuntos de datos numricos para obtener inferencias basadas en el
clculo de probabilidades.
La Estadstica se ocupa de los mtodos y procedimientos para recoger, clasificar, resumir,
hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre
sea una causa intrnseca de los mismos; as como de realizar inferencias a partir de ellos, con
la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones.
La Estadstica, rama de las matemticas que se ocupa de reunir, organizar y analizar datos
numricos y que ayuda a resolver problemas como el diseo de experimentos y la toma de
decisiones.
Estadstica es un conjunto de mtodos cientficos para la recopilacin, representacin
condensacin y anlisis de los datos extrados de un sistema en estudio. Con el objeto de
poder hacer estimaciones y sacar conclusiones, necesarias para tomar decisiones.
TRABAJO
Observar y describir diferentes problemas relacionados con su carrera.
CLASIFICACION O TIPOS DE ESTUDIOS
Segn el tiempo de ocurrencia de los hechos y registros de la informacin
Se clasifican en:
Retrospectivo: Son aquellos estudios que el investigador indaga sobre hechos
ocurridos en el pasado.
Prospectivo: Son aquellos estudios que el investigador registra la informacin segn
van ocurriendo los fenmenos.
ESTADSTICA GENERAL
DIVISIN DE LA ESTADSTICA
La Estadstica para su mejor estudio se ha dividido en dos grandes ramas: la Estadstica
Descriptiva y la Inferencial.
Estadstica Descriptiva: Se denomina estadstica descriptiva, al conjunto de
mtodos
estadsticos que se relacionan con el resumen y descripcin de los datos, como tablas,
grficas, y el anlisis mediante algunos clculos.
Estadstica Inferencial Se denomina inferencia estadstica al conjunto de mtodos con los
que se hacen la generalizacin o la inferencia sobre una poblacin utilizando una muestra.
La inferencia puede contener conclusiones que pueden no ser ciertas en forma absoluta,
por lo que es necesario que stas sean dadas con una medida de confiabilidad que es la
probabilidad.
Estas dos partes de la estadstica no son mutuamente excluyentes, ya que para utilizar los
mtodos de la inferencia estadstica, se requiere conocer los mtodos de la estadstica
descriptiva.
La Estadstica Inferencial investiga o analiza una poblacin partiendo de una muestra
tomada.
TRMINOS DE ESTADSTICA
Los trminos estadsticos que se usan en estadstica es necesario conocerlos para poder
entender el lenguaje estadstico que se utiliza en el desarrollo de la asignatura:
Poblacin:
En forma general, en estadstica; se denomina poblacin, a un conjunto de elementos (que
consiste de personas, objetos, etc.), que contienen una caracterstica observable comn.
la
Poblacin (N)
Muestra (n)
Muestreo
Inferencia
X
S
S2
5
Variable: Es una caracterstica de inters, toma diferentes valores. Las variables son
caractersticas observables, susceptibles de adoptar distintos valores o ser expresados en
varias categoras. Las variables se representan con letras maysculas del abecedario.
Ejemplo:
X: Tamao de pernos.
Y: Tipo de edificacin
Z: Dimensin de la edificacin
P: Tipo de Ladrillos.
Q: Color de la edificacin.
P: Nmero de lotes.
N: Tipo de batera que usan los equipos de Oftalmologa para el servicio de zonas rurales
en el CLAS de la ciudad de Sullana en Julio del 2008.
X: Gastos realizados por la empresa Graa y Montero en el mes de Febrero del 2013.
Cada edificio.
Cada edificio.
Cada ladrillo.
Cada puente.
Cada yogurt.
Cada edificio.
Datos: Comnmente se le conoce como observaciones. Son los valores que toma la variable
en cada unidad estadstica.
De los ejemplos anteriores seria:
y1=12.2, y2=13.5
Etc.
Unidad de medida. Son las unidades fsicas en las que son expresados los datos. Las
variables cualitativas no tienen unidad de medida.
De los ejemplos anteriores.
M, cm, etc.
Grados.
Unidades, decenas.
LAS VARIABLES
Podemos iniciar el tema indicando que definir las variables me permitir dar respuesta a lo
que quiero estudiar. El sexo, la edad, el nivel socioeconmico, el seguimiento de un
determinado plan de cuidados, el tipo de droga que se consume, la percepcin de riesgo
frente a una determinada conducta, etc. son aspectos que con seguridad se abordarn si
estamos realizando un estudio sobre el consumo de drogas, pues bien, estos aspectos a
estudiar, son lo que denominamos las variables de estudio.
VARIABLES CUANTITATIVAS:
Miden una caracterstica de forma numrica, miden una cantidad. Pueden ser:
Variables Discretas: Entre dos valores consecutivos no existe otro valor, es decir toman
solo valores enteros. Se obtienen siempre por conteo.
Ejemplo.
Nmero de hijos.
Nmero de maquinas registradoras.
Nmero de mquinas empacadoras de cemento.
Nmero de estaciones de servicio.
Nmero de cajeros automticos.
Nmero de ingenieros.
Nmero de obreros.
Nmero de departamentos.
Peso de pernos
Talla.
Tiempo de vida til de una mquina de sellado.
Temperatura.
rea de los terrenos
Volumen de mezcla.
Tiempo de duracin.
Capacidad de carga.
Resistencia a la tensin.
Temperatura de cocin.
VARIABLES
CUALITATIVAS
Nominal
Ordinal
CUANTITATIVAS
Continua Discreta
10
Distribucin Porcentual
Tasa de Nupcionalidad
Etc.
Segunda forma:
(1) Menos de 300
(2) Medio
(3) Bajo
11
EJERCICIOS 01
De los enunciados siguientes Identificar la poblacin, muestra, unidad de anlisis, dato
y la variable (tipo de variable y sus elementos)
1) Se desea saber el tiempo de vida de los motores en las motocar YAMAHA cierto estudio
se hizo en la ciudad de Tumbes y Piura ya que son ciudades donde el calor es intenso
todo el ao y el motor de cierto objeto de estudio sufre en estas condiciones climticas.
2) En la UCV_PIURA se quiere saber cul es el deporte ms practicado por los alumnos,
para lo cual se tom informacin de 200 alumnos elegidos al azar de las diferentes
escuelas de dicha universidad.
3) Se desea saber cul es el tamao y el peso de las reglas T que los alumnos de la facultad
de Ing. Civil de la UCV_PIURA utilizan; para obtener dicha informacin se eligi a 50
alumnos al azar de dicha carrera profesional.
4) La UCV_PIURA necesita informacin sobre lugar de procedencia de los alumnos que
vienen a integrarse a nuestra casa de estudio en el segundo semestre del presente ao.
Trabajo 02
Investigar, presentar y exponer acerca de:
Recoleccin de datos:
-
Concepto
Fuentes de datos
Censo y Encuesta
12
RECOPILACIN DE DATOS
La recopilacin de datos es el momento en la cual el investigador se pone en contacto
directo con los sujetos, objetos o elementos sometidos al estudio con el propsito de obtener
los datos o respuestas de las variables consideradas; a partir de estos datos se prepara la
informacin estadstica y se calcula las medidas de resumen e indicadores para el anlisis
estadstico.
Para recoger la informacin se toma en cuenta las siguientes modalidades: Las fuentes de
informacin, los sistemas de recoleccin y las tcnicas de recoleccin.
FUENTES DE INFORMACION
Es el lugar, la institucin o persona donde estn los datos para cada una de las variables o
aspectos de la investigacin. Las fuentes de informacin pueden ser:
a) Fuentes internos: Es la informacin recopilada por la empresa (o la institucin) de
los resultados de su propia gestin. Son pues las observaciones que constantemente
realizan los departamentos: Administrativos, contables, comerciales, tcnicos, etc.
Ejemplo. Reportes financieros, Reportes de operaciones, que estn dados por la
informacin de la produccin, ventas, compras, estados de prdidas y ganancias,
Reportes especiales, es informacin adicional para un anlisis especfico.
b) Fuentes externas: Son informaciones estadsticas elaboradas por instituciones de
investigacin, ya sean pblicas o privadas, o dependencias especializadas,
generalmente requeridas a nivel nacional o sectorial.
c) Fuentes Primarias: Cuando los datos se obtienen directamente de la misma persona
o entidad (unidad de observacin) utilizando ciertas tcnicas.
Ejemplo. Llevar a cabo una encuesta para conocer el grado de satisfaccin laboral de
los trabajadores de la fbrica CEPICAFE.
ndices de precios al consumidor.
d) Fuentes Secundarias: Cuando los datos ya han sido elaborados y procesados por
otras personas o instituciones.
Ejemplo. La informacin estadstica que publica el INEI de los diferentes ministerios
del Per.
SISTEMA DE RECOLECCIN
Son procedimientos que se utilizan para recoger informacin, puede ser:
a) Los Registros: Son libros, padrones en donde se anotan en forma regular
permanente y obligatoria los hechos ocurridos.
Ejemplo. Registros civiles, RENIEC, Registros Pblicos, etc.
b) Las Encuestas: Son procedimientos de obtencin de informacin estructurada segn
criterios previos de sistematizacin que se efecta con propsito especfico en la
poblacin o en un sector de ella. Pueden ser:
b.1) Encuesta Censal: Cuando abarca toda la poblacin en estudio.
Ejemplo. Censo de poblacin y vivienda de 1993.
b.2) Encuesta Muestral: Cuando abarca una parte de la poblacin en estudio.
13
14
15
Titulo
Trminos utilizados:
fi
-
16
Yi
-
Marca de clase (
L Ls
Yi i
2
.
B, N, N, B, R, N, N, B, B, N, B, N, N, R, B, N, B, R, B, N.
Color de bebida
gaseosa
Frecuencias
Frecuencias
fi
Absolutas:
Frecuencias
hi
Relativas:
pi
Porcentajes:
17
0.45
45
Blanco (B)
0.40
40
Rojo (R)
0.15
15
Total
20
1.00
100
ELABORACIN DE GRFICOS
GRFICO DE BARRAS
Grfico 1: Distribucin de 20 alumnos de Ing. Civil de la UCV_PIURA, segn su
color preferido de una marca de bebida gaseosa, 2013.
18
Personas
9
8
7
6
5
4
3
2
1
0
0.45
0.40
0.15
Negro
Rojo
Blanco
Fuente: Cuadro 01
Grafico Circular
El grfico 2 es la representacin mediante grfica de sectores circulares del cuadro 1 La
frecuencia 45% es equivalente a
0. 40 360 144
0. 45 360 162
0.15 360 54
19
15%
40%
R
B
N
45%
Fuente: Cuadro 01
Ejercicio.
En una muestra se recolecto datos sobre la marca de bateras que usaban 30 radios porttiles
del ejrcito peruano de la Ciudad de Piura.
Co
ca
se
co
ca
Donde:
ca: Panasonic
Ca
co
ca
ca
Se
co: Duracell
Se
co
se
co
Co
se: Akita
so: National
Co
se
co
ca
Co
So
co
ca
ca
Co
Co
co
co
co
Ca
B) VARIABLE CUANTITATIVA
20
kn
x1 , x 2 ,..., x k
f 1 , f 2 ,..., f k
f1
h1
p1
x2
f2
h2
p2
...
...
...
...
xk
fk
hk
pk
Total
1.00
100.00
Fuente:..
Las frecuencias absolutas relativas y porcentajes poseen , en el caso de variable discreta y
continua, el mismo significado y propiedades, que en el caso de la variable cualitativa.
Cuando es grande el nmero de datos observados de una variable discreta, su organizacin
es muy engorrosa. En este caso, para resumir los datos y poder calcular las medidas
descriptivas, es conveniente seguir el mtodo de organizacin de variable continua por
intervalos que se describe en la seccin 1.4.3 siguiente.
Grfica
La representacin grfica ms comn de una distribucin de frecuencias de variable discreta
es del tipo bastn que consiste en trazar en cada valor distinto de la variable, segmentos de
recta proporcionales a su frecuencia.
Tambin, se pueden usar barras rectangulares para graficar una distribucin de frecuencias
de variable discreta.
EJEMPLO 1.2.
Ante la pregunta del nmero de hijos por familia (variable X) una muestra de 20 hogares
de la ciudad de Piura, marc las siguientes respuestas:
21
2, 1, 2, 4, 1, 3, 2, 3, 2, 0, 3, 2, 1, 3, 2, 3, 3, 1, 2, 4.
Construir la distribucin de frecuencias de la variable X. Graficar.
SOLUCION.
Al ordenar estos datos en forma ascendente, se obtienen cinco valores distintos 0, 1, 2, 3,
4 que se repiten respectivamente 1, 4, 7, 6, 2 veces. La distribucin de frecuencias de X se
da en el cuadro 1.4.
Cuadro 2: Familias de la ciudad de Piura, segn su nmero de hijos.
Nmero de
Frecuencias
Frecuencias
Frecuencias
Hijos
Absolutas
relativas
Porcentajes
Xi
fi
hi
pi
0
1
2
3
4
1
4
7
6
2
0.05
0.20
0.35
0.30
0.10
5
20
35
30
10
1.00
100
Total
20
Fuente: Elaboracin propia.
GRAFICO DE BASTONES
7
6
5
fi
hi
0.35
0.30
0.20
3
2
0.10
0.05
0
4 X
Fuente: Cuadro 02
En la grfica de bastones, se indican las frecuencias absolutas y relativas en cada valor
distinto de la variable.
22
Ejercicio.
Se tomo a 20 empresas de transportes de la Ciudad del norte del pas la cual se tiene
datos de la cantidad de aos dando servicio de transporte puntos tursticos del norte del
pas:
6
5
4
4
3
3
4
4
5
5
4
5
6
2
4
3
4
6
5
3
Elabora un cuadro de distribucin de frecuencias
Porcentajes
pi
I1
///...
f1
h1
p1
I2
///...
f2
h2
p2
...
...
///...
...
...
...
fk
hk
pk
Total
Fuente:..
1.00
100.00
Ik
23
X max
donde
X min
es el dato mximo
es el
dato mnimo.
2. Determinar el nmero de intervalos, k, teniendo en cuenta la recomendacin R1.
Un valor aproximado del nmero de intervalos, k, nos proporciona la regla de Sturges,
donde,
k = 1 + 3.3log(n),
Por
n 10
ejemplo,
;
si
tienen
n 45
donde
25 n 400
A R k
Si la divisin
no es exacta en el nmero de decimales de los datos, entonces,
el nmero A se aproxima por exceso de manera que se cubra todo el rango, esto es, de
kA R
manera que
.
Si los datos son enteros, A es entero, si los datos tienen un decimal, A tiene un
decimal, etc. Por ejemplo, si los datos tienen dos decimales y si
A
R/k
5.3416, se elige
4. Determinar el Exceso:
E= R-R= A*K-R
5. Determinar los extremos de los intervalos de la siguiente manera:
24
I k [ X min ( k 1) A, X min k A]
Observe que se cierra por la derecha el ltimo intervalo. Esto se debe a que si la
divisin
R/k es exacta en el nmero de decimales de los datos, entonces,
X max X min k A
EJEMPLO 1.3.
70
57
62
43
68
62
26
64
72
52
51
62
60
71
61
55
59
60
67
57
67
61
67
51
81
53
64
76
44
73
56
62
63
60
SOLUCION:
X max
X min
89 y
R 63
7.875.
k
8
A8
25
fi
[26,34[
/
1
[34,42[
//
2
[42,50[
////
4
[50,58[
///// /////
10
[58,66[ ///// ///// ///// /
16
[66,74[
///// ///
8
[74,82[
///
3
[82,90]
/
1
Total
45
Fuente: Elaboracin propia.
hi
pi %
0.022
0.044
0.089
0.222
0.356
0.178
0.067
0.022
1.000
2.2
4.4
8.9
22.2
35.6
17.8
6.7
2.2
100.0
Ejercicio.
Estos datos corresponden a las puntuaciones de 60 ingresantes a la Escuela de Ingeniera
Industrial en el ltimo examen de admisin para el ingreso a la UCV Piura.
65
43
88
59
35
76
21
45
62
41
36
78
50
48
62
60
35
53
65
74
49
37
60
76
52
48
61
34
55
82
84
40
56
74
63
55
45
67
61
58
79
68
57
70
32
51
33
42
73
26
56
72
46
51
80
54
61
69
50
35
26
35
C A N T ID A D
30
25
20
15
10
30 - 34
25 - 29
20 - 24
15 - 19
10 - 14
EDAD (aos)
POLGONO DE FRECUENCIA:
Tambin es un grafico que se utiliza para representar la distribucin de frecuencias
absolutas o relativas simples.
Consiste en un grafico lineal que se obtiene uniendo los puntos hallados, mediante el par
de valores de marca y frecuencia correspondientes. Para fines de grfico, se hace
necesario incrementar un intervalo de clase en cada extremo, con frecuencias cero.
27
35
30
C A N T ID A D
25
20
15
10
5
0
12
17
22
27
EDAD (aos)
32
37
35
C A N T ID A D
30
25
20
15
10
5
0
12
17
22
27
EDAD (aos)
32
37
OJIVAS:
Son grficos que se utilizan para representar las frecuencias acumuladas absolutas o
relativas, y que consiste en un grafico lineal que nos permite observar la cantidad de
elementos que quedan por encima o por debajo de determinados valores.
Las ojivas son de dos tipos:
28
120
NUMERO DE PERSONAS
120
NUMERO DE PERSONAS
GRAFICO N 13
COMISARIA X
DISTRUBUCION ACUMULADA O
MAS DE PERSONAS DETENIDAS
POR DELITO DE ROBO, SEGN EDAD
- JUNIO 2005
100
80
60
40
100
80
60
40
20
20
0
10
15
20
25
30
35
10
15
20
25
30
35
EDAD (aos)
EDAD (aos)
PRACTICA DIRIGIDA
1. En el tema de estadstica nos referamos a un atleta de decatln cuya media de
puntuacin en las 10 pruebas era de 801.6 puntos. Especifica en este estudio estadstico
quin es la poblacin y qu tipo de variable se considera.
29
3. Clasifique las variables e indique el tipo de escala en que estn medidas las siguientes
caractersticas
- Profesin
- Ao de nacimiento - Nacionalidad
Edad
- Grado de instruccin
- Estado civil
- Nmero de hijos
- Ingreso mensual familiar promedio
- Nmero de telfono
- Nmero de DNI
- Direccin
30
9. Organiza los datos y realiza un diagrama de tronco y hojas para luego realizar su cuadro
con 5 intervalos de igual amplitud (k=5) y tambin utilizando la regla de Sturges con
los sueldos anuales de las siguientes personas que trabajan en la fbrica de Cementos
Pacasmayo en Lima en Enero del 2010 de la planilla de la empresa.
31
10.
11. Los puntajes de una prueba de aptitud de Alumnos de la I.E. San Juan Bautista del
2010 en Barranca se tabularon en una distribucin de frecuencias de 6 intervalos de
igual amplitud. Si se tienen: marcas de clase,
h1 h6 h3 h5 h4 0. 25 h2 h4 h1 h3 h1 0.10
,
,
,
,
de frecuencias absolutas y graficar el polgono
12.
Y 2=40 y
,y
F6 60
Y 4 =80 , frecuencias:
, completar la distribucin
Duran te es te ao s e han cont abil izado de los regis tros los s iguient es
naci mi entos en la zona norte de l P er en el ao 2009, del acat a medi co
s e obtuvo lo s iguien te:
14.
Se registra el tiempo en minutos que utilizan 30 alumnos para ejecutar una tarea,
resultando los siguientes: 21.3 15.8 18.4 22.7 19.6 15.8 26.4 17.3 11.2 23.9 26.8
32
16.
Yi
hi
Hi
[
,
[
0.15
[6 ,
[
0.45
[
,
[
0.70
[
,
[
13.5
[
,
]
0.10
17. Los pes os reco lec tados de una encu es ta a los 65 emple ados de la
fbrica BA CKU S de la Ciud ad de Li ma en el ao 2009 vienen dados
por la s iguien te tabla :
33
19.
20.
satisface la relacin:
histograma.
21.
, la
f 2 2 f1 5
frecuencia absoluta:
, y si se sabe que el 85% de los obreros demoran
menos de 12 minutos. Completar la distribucin de frecuencias.
34
35
REDUCCION DE DATOS
En las tres semanas anteriores estn referidos, con cierto detalle, a la clasificacin
de variables, recoleccin de datos, construccin de tablas de frecuencia y a la
representacin grafica, como fase preliminar en la descripcin y anlisis
estadstico. El objetivo principal de estas primeros temas, ha sido determinar la
naturaleza y formas de la distribucin de frecuencias, como base para la
reduccin de datos a travs de ciertas caractersticas descriptivas y medidas de
resumen.
En el problema de comparar dos o mas distribuciones de frecuencias, puede
resultar fcil hacer una comparacin grafica de las frecuencias, sin embargo,
existen dificultades para hacer comparaciones cuantitativas. Estadsticamente para
facilitar este anlisis comparativo es necesario disponer de algunos indicadores o
medidas de resumen.
Estas
caractersticas
descriptivas
(cantidad),
constituyen
los
llamados
Recopilacin de datos
Organizacin y procesamientos
de datos
DATOS ORIGINALES
DISTRIBUCION DE FRECUENCIAS
Reduccin de datos
CARACTERISTICAS DESCRITIVAS
ESTADIGRAFOS
36
x1 x 2 x 3 ........... x n
n
5 6 7 8 9 10
7.5
6
LA MEDIANA
si
n es
impar
si
n es
par
Me
Me
1
2
de datos, la
37
76
48
48
68
78
90
87
67
76
78 78
72
78
Entonces n = 11
Ordenamos los datos
48
48
65
67
68
72
87
90
M e x 1 1 1 x 6
2
si
n es
impar
Me
si
n es
par
Me
Ejemplo: Supongamos que tenemos datos sobre los sueldos en soles que reciben
mensualmente el personal que labora en el hospital de la ciudad de Piura.
445
510 323
425
Me
x8 x8
2
x4 x5
432 440
436
2
2
38
Y i f i
i 1
M(Y) =
n
2
N j 1
a) Que
no coincide con algn Nj se tiene que:
Entonces Me = Yi
b) Que
n
2
Entonces:
2.
N j 1
n
N j
2
N j 1
n
N j
2
Me :
n
N j
2
1
Y j i Y j
2
a.
Hallamos
n
2
n N
j 1
M e Li c 2
N
N j 1
j
39
nj
frecuencia se denotara con
nj
La moda Mo =
2. La moda en tablas con intervalos
M o Li c
n j 1
n j 1 n j 1
MEDIDAS DE POSICIN
MEDIDAS DE POSICIN PARA DATOS AGRUPADOS
LOS CUARTILAS (QK) PARA DATOS AGRUPADOS
Son los tres valores que dividen al conjunto de datos ordenados en cuatro partes
iguales, son un caso particular de los percentiles:
- El primer cuartil Q 1 es el menor valor que es mayor que una cuarta parte de los
datos
- El segundo cuartil Q 2 (la mediana), es el menor valor que es mayor que la mitad
de los datos
- El tercer cuartil Q 3 es el menor valor que es mayor que tres cuartas partes de los
dato
Usamos la siguiente formula:
kn
4 N j 1
QK LI C
N j N j 1
K 1, 3
40
kn
10 N j 1
DK LI C
N j N j 1
K 1, 9
kn
100 N j 1
PK L I C
N j N j 1
K 1, 99
, a es una constante
41
MEDIDAS DE DISPERSIN
Introduccin
Las medidas de tendencia central no son suficientes para describir un conjunto de valores
de alguna variable estadstica. Los promedios determinan el centro, pero nada indican
acerca de cmo estn situados los datos respecto al centro.
En primer lugar se necesita una medida del grado de dispersin o variabilidad con respecto
al centro con la finalidad de ampliar la descripcin de los datos o de comparar dos o ms
series de datos.
En segundo lugar se necesita una medida del grado de asimetra o deformacin en ambos
lados del centro de una serie de datos, con el fin de describir la forma de la distribucin de
los datos. Esta medida se denomina ndice de asimetra.
En tercer lugar se necesita una medida que nos permita comparar el apuntamiento o curtosis
de distribuciones simtricas con respecto a la distribucin simtrica normal. Esta medida se
denomina ndice de apuntamiento o curtosis.
Las estadsticas de asimetra y apuntamiento se incluyen en este captulo dada su poca
importancia.
42
R x max x min
xm ax
xm in
siendo
el valor mximo y
el valor mnimo.
El rango es una medida de dispersin muy fcilmente calculable, pero es muy inestable,
ya que depende nicamente de los dos valores extremos. Su valor puede cambiar
grandemente si se aade o elimina un slo dato. Por tanto su uso es muy limitado.
Por ejemplo, dadas las dos series de datos
a) 1, 4, 4, 5, 5, 5, 5, 6, 6, 9
b) 1, 2, 3, 4, 5, 6, 7, 8, 9
Ambas series tienen la misma media, 5, y el mismo rango, 8, pero las dos series no tienen la
misma dispersin, ya que la segunda tiene mayor variabilidad.
El empleo del rango como medida de comparacin de variacin puede estar justificado
cuando se precise rpidamente de una medida de dispersin y no haya tiempo de
calcular algunas de las otras.
3.2.2 Rango intercuartil y rango semiintercuartil
Definicin. El rango intercuartil, RI, es la diferencia entre sus cuartiles tercero y primero.
Esto es,
RI Q3 Q1
43
El rango intercuartil es una medida que excluye el 25% ms alto y el 25% ms bajo,
dando un rango dentro del cual se encuentra el 50% central de los datos observados y a
diferencia del rango total no se encuentra afectada por los valores extremos.
Si el rango intercuartil es muy pequeo entonces describe alta uniformidad o
pequea variabilidad de los valores centrales.
Por ejemplo, si en una distribucin de frecuencias de 100 ingresos quincenales se
Q1 62 $
Q3 70 $
, y
RI Q3 Q1 $70 62 $ 8.
es
Se deduce entonces, que el rango intercuartil y la mediana RSI, son la misma distancia.
Adems, como exactamente el 50% de los datos se encuentran en el rango intercuartil,
entonces, el intervalo: mediana
, y
Q3 70 $
4.
y referida a una
44
s s2
. Esto es,
Clculo de la varianza
1) Varianza de datos no tabulados
x1 , x 2 ,..., x n
La varianza de n valores
es el nmero:
s2
n
(x
Es fcil verificar que:
(x
x)2
i =1
n
2
x)
i 1
2
i
nx 2
i 1
Por lo tanto,
s2
xi2
i 1
x2
EJEMPLO 3.1
Calcular la varianza y la desviacin estndar de los 45 ingresos quincenales sin tabular
del ejemplo 1.3
SOLUCION
45
xi
n 45
i 1
,
2682$,
Luego, la varianza es el nmero
n
s2
2682
x
45
2
i
i 1
x2
2
i
i =1
166,244$2
59.6,
166,244
(59.6) 2
45
142.151$2.
s s 2 142 .151
valores distintos
aritmtica es
f1 , f 2 ,..., f k
, y cuya media
f (x
i
s2
k
f (x
i
Se verifica que
Por lo tanto,
x)2
i =1
n
2
x)
i 1
fx
2
i i
nx 2
i 1
s2
fx
2
i i
i 1
x2
EJEMPLO 3.2
Calcular la varianza y la desviacin estndar del nmero de hijos de la muestra de 20
familias del ejemplo 1.2.
SOLUCION.
La distribucin del ejemplo 1.2 se repite en el cuadro 3.1 donde se ha insertado una
f i ( xi ) 2
columna de productos
46
Entonces,
fi xi
20, k 5,
i 1
44
x
20
44,
fx
2
i i
i =1
2.2,
118
fx
s2
2
i i
i 1
x2
118
(2.2) 2
20
1.06 hijos2.
s s 2 1.06
La desviacin estndar es:
1.03 hijos.
fi
0
1
2
3
4
Total
1
4
7
6
2
20
f i xi
f i xi2
0
4
14
18
8
44
0
4
28
54
32
118
clases
nmero:
f 1 , f 2 ,..., f k
s2
f (y
i
y con media
es el
x)2
i =1
f (y
i 1
x ) f i y i2 nx 2
2
i 1
Por lo tanto,
k
s2
f i (y i x ) 2
i =1
n f i y
i 1
2
i
i 1
f i yi
f y
i 1
2
i
x 2.
47
EJEMPLO 3.3
Calcular la varianza y la desviacin estndar de los 45 ingresos quincenales tabulados del
ejemplo 1.3.
SOLUCION.
La distribucin del ejemplo 1.3 se repite en el cuadro 3.2 donde se ha insertado una
f i mi2
columna de productos
Ii
yi
[26,34[
[34,42[
[42,50[
[50,58[
[58,66[
[66,74[
[74,82[
[82,90]
Total
k
45, k 8,
i 1
30
38
46
54
62
70
78
86
fi
f i yi
f i y i2
1
2
4
10
16
8
3
1
45
30
76
184
540
992
560
234
86
2702
900
2888
8464
29160
61504
39200
18252
7396
167764
k
2702
x
45
f i yi
Productos
2702,
fy
i
2
i
i =1
60.044,
167,764
s2
fy
i 1
2
i
x2
167,764
(60.044) 2
45
122.754 $2.
s s 2 122 .754
11.079 dlares.
hace
48
hi mi2
i 1
h m
i
i 1
, donde
La varianza
x1 , x 2 ,..., x N
, se define por:
N
(x
i =1
x
i =1
2
i
utilizando la frmula
(x
x)2 n
n 1 2
n (n 1)
s2
, basta multiplicar a
por
. Por esta razn, algunos autores definen la varianza (en estadstica descriptiva ) con
denominador
n 1
49
C.V1 .
s1 14
s
14
0.875, o 87.5%, C.V 2 . 2
1.27 o 127%
x1 16
x 2 11
X x
s
En Matemticas
14 13
0.333
3
50
16 17
0.25
4
En Historia
En consecuencia, tiene mejor rendimiento relativo en Matemticas.
y la varianza
sX2
n( sX2 x 2 )
cuadrados de los valores es igual a
ejemplo,
xi2 n( sX2 x 2 )
i =1
yi
es,
xi
es transformado en
yi axi b
sY2 a 2 s2X
(verificar!).
sY a s X
Consiguientemente,
Como casos particulares se tiene:
yi b
Si
, entonces,
. Es decir, si los n datos son iguales a una constante,
entonces, su varianza es igual a cero.
y i xi b
Si
sY2 s2X
, entonces,
. Es decir, si sumamos a cada dato una constante, la
varianza (y la desviacin estndar) no cambian.
y i axi
Si
sY2 0
sY2 a 2 s2X
, entonces,
. Es decir, si multiplicamos a cada dato por una
constante, a, la varianza de los nuevos valores es igual que la varianza de los antiguos
valores multiplicada por
a2
51
n1 , x1 , s12 n 2 , x 2 , s 22
n k , x k , s k2
s T2
,
, ...,
, entonces, la varianza,
, de los
datos es:
k
s T2
ni s i2
i 1
n (x
i
i 1
n1 n 2 ... n k n
x) 2
.
6) Desigualdad de Chebyshev.
Cualquiera sea la forma de la distribucin de frecuencias (simtrica o asimtrica), el
[ x ks X , x ksX ] k 1
intervalo
,
contiene por lo menos el
1
1 2
k
en % de los datos.
El porcentaje de datos que se hallan fuera del intervalo es menor que el
1
k2
en % .
[ x 2s X , x 2 s X ]
1
2
3
4
Y: Sueldos de Julio
52
(1.3)2(50)2 4225
sY 4225
La desviacin estndar:
65
CV
sY
65
y 310
$300,
$30, de la relacin
[300 k (30 ), 300 k (30 )] [240 , 360 ]
1
2
2
k2
resulta
. Entonces el,
ingresos en el intervalo [240, 360].
3
4
1
k2
0.8889
entonces,
. De donde resulta
Luego, el intervalo es [$210, $390].
k 3
c) Fuera del intervalo [$210, $390] est menos del 11.11% de los ingresos. Si el mnimo es
$210, entonces, el porcentaje de ingresos mayor que $390 es menos de 11.11%.
53
$30,
y 1.2 x 5 1.2(230 ) 5
De Y 1.2X 5, se tiene,
sY2 (1.2) 2 s 2X
(1.2)2(30)2 1296
80
y
Recaudacin total
2
i
i 1
281. Tambin,
80 ( sY2 y 2 )
80(1296(281)2) 6,420,560.
As
x Mo
s
x Mo 3( x Me )
AS
, entonces, otra
3( x Me)
.
s
Interpretacin.
Si la distribucin de los datos es simtrica,
observa, adems, que coinciden los tres promedios:
As 0
x Me Mo
54
As 0
la derecha, si
a la izquierda si
As 0
a) Simtrica
Mo Me x
x Me Mo
b) Asimetra positiva
Figura. 3.1
c) Asimetra negativa
Por ejemplo, la distribucin de los 45 ingresos quincenales del ejemplo 1.3 tabulados
en ocho intervalos tiene asimetra negativa:
As
0.191
s
11 .079
M3
(X
x )3
i 1
donde
,
nmero de casos,
la desviacin estndar.
Este ndice es utilizado por los paquetes de computo estadstico para determinar la
asimetra de distribuciones de la forma dato-frecuencia.
Para n datos tabulados en k intervalos, un mtodo alternativo es utilizar el ndice de
asimetra de Fisher definido por:
M /n
As 33
s
k
M3
f (m x )
i
i 1
donde:
la desviacin estndar
As 0
As 0
As 0
Si la distribucin es simtrica
. Si
, es asimtrica positiva y si
, es
asimtrica negativa.
Por ejemplo, continuando con el ejemplo 1.3, el ndice de asimetra de los 45 ingresos
quincenales tabulados en la forma dato-frecuencia es
tabulados en 8 intervalos es:
As
As
0.3.
55
3.4 Curtosis
La curtosis es la propiedad de una distribucin de frecuencias por la cual se compara
la dispersin de los datos observados cercanos al valor central con la dispersin de los datos
cercanos a ambos extremos de la distribucin. La curtosis se mide en comparacin a la curva
simtrica normal o mesocrtica (fig. 3.3a)
56
Una curva simtrica con curtosis mayor que de la normal es denominada curva leptocrtica
(fig. 3.3c).
Una curva simtrica con curtosis menor que de la normal es denominada curva
platicrtica (fig. 3.3b).
Existen varias maneras de medir la curtosis de la distribucin de los datos.
Curtosis basado en percentiles
Esta medida de curtosis es muy poco usada por ser muy inestable. Sin embargo, describe
muy bien el concepto.
En una curva normal, el cociente del rango intercuartil (percentil 75 menos el percentil
25) entre la diferencia del percentil 90 menos el percentil 10 es aproximadamente igual 0.5.
P75 P25
A medida que
P90 P10
P90 P10
P75 P25
0.5
P90 P10
tiende a 0.5, es
Por ejemplo, la distribucin de los 45 ingresos quincenales del ejemplo 1.3 tabulados en
K (66 .75 53 .4) (73 .5 45) 0.5
Mj
(X
i 1
n(n 1) M 4 3M 2 M 2 (n 1)
( n 1)( n 2)( n 3) s 4
x) j
n
donde
,
nmero de casos,
la desviacin estndar.
Esta curtosis es utilizado por los paquetes de computo estadstico para determinar la
curtosis de distribuciones de la forma dato-frecuencia.
Para n datos tabulados en k intervalos, la curtosis se calcula por:
M /n
K 44 3
s
57
M4
f (m x )
i
i 1
donde:
,
la desviacin estndar.
Si la distribucin es normal, K0. Si K0, es leptocrtica, y si K0 es platicrtica.
Por ejemplo, continuando con el ejemplo 1.3, la curtosis de los 45 ingresos quincenales
tabulados en la forma dato-frecuencia es
K
intervalos es
0.244. Sin embargo, no se puede decir que es leptocrtica, por que la
distribucin de los datos no es simtrica.
58