Você está na página 1de 95

Para Economa, Contadura,

Administracin y Educacin
Actividades de Aprendizaje prcticas
con statgraphics y S.P.S.S

Prof. Juan R. Muoz C.

Anlisis de Datos Estadsticos

Captulo I

DEFINICIONES BSICAS.
MEDICIN Y SUS ESCALAS

Definicin de estadstica.
Divisin de la estadstica (procesos estocsticos)
Anlisis de datos
Probabilidad
Inferencia estadstica
Medicin
Escalas de medidas.

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

DEFINICIONES BSICAS:
Es de suma importancia que el estudiante o usuario trate de comprender las
definiciones siguientes, puesto que esto, le permitir un mejor desempeo en la
aplicacin de las herramientas estadsticas.

Estadstica: Es la ciencia que recopila, organiza, presenta, analiza e interpreta datos


estadsticos, colaborando en la toma de decisiones estadstica ms efectiva.
De esta definicin podemos inferir, que al abordar un problema de investigacin,
el primer paso que debemos dar es la recopilacin de datos, organizarlos de cierta
manera que puedan presentarse en un grfico y poder analizar e interpretar la
informacin, para luego tomar una decisin estadstica.

La estadstica se divide en tres grandes disciplinas:

Anlisis de datos
Probabilidad
Inferencia Estadstica

Estadstica descriptiva o anlisis de datos: Describe las caractersticas de un conjunto


de datos, que se pueden organizar, resumir y presentar de manera informativa (numrica
o grfica). Ejemplo determinar el promedio de ventas de una empresa del estado
Carabobo. Promedio de notas de los alumnos de estadstica descriptiva en el primer
parcial.

Probabilidad: Cuantifica la incertidumbre, lo cual permite hacer afirmaciones


categricas con una seguridad total sobre el nivel de incertidumbre.

Inferencia estadstica: Es la ciencia que extrae conclusiones estadsticas, teniendo


como finalidad investigar como deben ser utilizados los datos estadsticos de una
muestra (s), para inferir unos resultados acerca de una poblacin de donde provienen los
datos, basndose en el clculo de probabilidades.

Poblacin: conjunto de individuos o elementos que poseen ciertas caractersticas


comunes que se desean estudiar.
Poblacin finita: Es cuando el nmero de observaciones que la conforman se puede
expresar cuantitativamente o numricamente. Ejemplo el nmero de alumnos del cuarto
semestre.

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

Poblacin tericamente infinita: Es aquella que contiene un nmero finito numerable


de observaciones, pero en cantidades tal que es posible considerarla infinita.

Muestra: Es una porcin o parte, de una poblacin de inters. Generalmente tomamos


una muestra de una poblacin para deducir algo acerca de la misma.

Estrato: Parte de la poblacin no representativa de la misma.

Carcter: Propiedad, rasgo o cualidad de los elementos de la poblacin.

Atributo: Carcter cualitativo, no susceptible de ser medido numricamente. Las


distintas observaciones de un atributo se denominan modalidades y pueden venir
expresadas en escala nominal (nivel no susceptible de ordenacin) o en escala ordinal
(modalidad susceptible de ordenacin)

Datos estadsticos: Son la materia prima de la estadstica, los nmeros que utilizamos
para interpretar la realidad. En todo problema estadstico hay que recopilar, describir y
analizar datos, o al menos pensar en la recopilacin, descripcin y anlisis de los
mismos.

Anlisis de datos estadsticos: Es la recopilacin, organizacin y resumen de los datos


con el fin de tomar decisiones estadsticas.

DATOS ESTADSTICOS

Cualitativo o
Atributo

Cuantitativo o
Numrico

Discreto

Continuo

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

Variable: Sus distintas observaciones se denominan valores.

Variable cualitativa o atributo: Es aquella cuando la caracterstica es no numrica.


Ejemplo: el sexo, la religin, tipo de vehiculo, estado civil etc.

Variable cuantitativa o numrica: Es cuando la variable estudiada se puede expresar


numricamente, por ejemplo: monto de las ventas de una empresa, nmero de alumnos
de la clase de estadstica etc.

Variable cuantitativa discreta: Son aquellas que pueden asumir solo ciertos valores,
por lo general surgen del conteo. Ejemplo: el nmero de pisos de un edificio, el nmero
de vehculos en el estacionamiento de Faces, el nmero de hijos de una familia etc.

Variable cuantitativa continua: Son aquellas que pueden asumir cualquier valor
dentro de un intervalo especfico. Ejemplo: la estatura de los alumnos, el peso de las
alumnas, saldos en tu cuenta bancaria etc.

Estadstico: Es la caracterstica o medida calculada en una sola muestra. Ejemplo la


media aritmtica, la moda, la mediana, etc.

Parmetro: Es la caracterstica o medida calculada en una poblacin completa, cuya


condicin es ser una constante representativa de la poblacin en estudio, generalmente
es un promedio. Ejemplo la media poblacional ()

MEDICIN Y ESCALAS DE MEDIDAS


Medir
Es asignar nmeros a observaciones de modo que estos sean susceptibles de
anlisis por medio de manipulacin y operaciones de acuerdo con ciertas reglas.
Los datos estadsticos por lo general provienen de medidas sobre individuos o
unidades experimentales de la poblacin bajo estudio, as obtenemos un conjunto de
datos, o resultados del experimento estadstico. Para facilitar el anlisis asignaremos
unos valores a cada unidad experimental de acuerdo con ciertas reglas; as, podemos
asignar el nmero 1 a los varones y el 2 a las hembras o bien los smbolos V y H.

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

Pueden observarse muchas caractersticas diferentes para un mismo individuo,


estas caractersticas, dependiendo del tipo de valores que originan, pueden medirse con
cuatro tipos distintos de escalas de medidas.
Escala nominal: es la forma ms simple de observacin, es la clasificacin de
individuos en clases o categoras mutuamente excluyentes, y que simplemente pueden
distinguirse entre s, pero no compararse, ni realizar entre ellas operaciones aritmticas.
En este tipo se incluyen caractersticas tales como profesin, nacionalidad, grupo
econmico, estado civil. Como estadsticas descriptivas, solo admite el clculo de la
moda, as como tambin el conteo de las frecuencias.
Dentro del campo de los mtodos no paramtricos acepta el uso de la prueba
Chi-cuadrado y como medida de asociacin admite el uso del coeficiente de
contingencia, coeficiente de correlacin entre las variables nominales dicotmicas,
razones proporciones y porcentajes.
Escala ordinal: Utilizaremos este nivel cuando los elementos de un conjunto
pueden ser ordenados en funcin de una caracterstica en particular por ejemplo:
clasificar la familia por orden socio-econmico, los estudiantes de acuerdo como
terminaron el examen o segn su rendimiento, escalafn universitario etc. Este nivel
admite las siguientes caractersticas:
Constituye un nivel superior al nominal, por lo tanto toda variable que posea
este nivel, es por que es tambin nominal.
Los nmeros asignados a las clases, deben tener un rango especfico u orden ,
sin importar el nmero en s , adems no importa que la asignacin se haga de
mayor a menor o viceversa, en esta escala es posible que 1 sea mayor que 2, la
diferencia entre estos dos nmeros no tiene ningn significado, solo indica la
forma de transmitir la informacin, por lo tanto, no ser posible realizar ningn
tipo de operacin aritmtica, ya que estos resultados careceran de significado
estadstico.
Como estadstica descriptiva, las ms apropiadas para describir este tipo de
nmero es la mediana. Dentro del campo no paramtrico es posible realizar la
prueba de los signos. En relacin con las medidas

de asociacin pueden

utilizarse el coeficiente de correlacin por rango de Sperman, Tau de Kendall y


el coeficiente de correlacin biserial.
Escala de intervalo: esta escala, adems de clasificar y ordenar los datos, cuantifica
la diferencia entre dos clases, es decir, puede indicar cuanto ms significa una categora

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

que otra. Para ello es necesario que se defina una unidad de medida y un origen, que es
por naturaleza arbitrario, adems permite las operaciones aritmticas. Admite las
siguientes caractersticas:
El nmero que se le asigne a cada elemento u objeto, corresponde a las unidades
de medida que posea, esto es: puntos, aos, grados, ventas etc.
El punto cero es arbitrario solo constituye un punto de referencia.
Cuando se codifica en una escala de intervalo el 1 constituye una unidad menor
que el 2.
El hecho de que el punto cero sea arbitrario hace que en dicho nivel solo puedan
establecerse comparaciones en relacin a las distancias entre intervalos y no
diferencias relativas a cantidades.
Como estadstica descriptiva las operaciones que admite son la media aritmtica,
la mediana, moda, desviacin estndar, coeficiente de correlacin de Pearson,
etc.
Escala de razn: es idntica a la anterior, pero adems existe un cero absoluto y es
el nivel ms alto de medicin, lo cual implica poseer todas las caractersticas de los
anteriores niveles. Por ejemplo: volumen de venta, costo de produccin, edad,
cotizacin del dlar, etc. Siendo sus caractersticas bsicas las siguientes:
El cero absoluto significa total carencia del atributo o propiedad que se est
midiendo.
La diferencia entre dos nmeros es totalmente significativa, es decir, a dos
diferencias iguales en el atributo estudiado corresponde igual diferencia entre los
nmeros asignados y adicionalmente como el punto cero es real, es posible hacer
afirmaciones como sta: el ejecutivo X tiene el doble de las ventas del ejecutivo
Y
Como estadstica descriptiva admite todas las del nivel anterior, adems del
coeficiente de variacin que es una medida relativa de dispersin, ya que este
coeficiente requiere del conocimiento del punto cero.
El nivel escogido para medir una caracterstica condiciona el resto del anlisis
estadstico, pues las tcnicas utilizadas deben tener en cuenta la escala que se ha
empleado. En general cuanto mayor sea el nivel utilizado, mayor nmero de tcnicas
podrn aplicarse y mayor precisin se lograr, por lo que se recomienda usar la escala
de intervalo o la de razn siempre que sea posible.

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

Actividades
1. Redacte un ejemplo de caractersticas estadsticas en las siguientes escalas de
medida: Nominal, Ordinal, Intervalo, de razn.
2. Hemos realizado una encuesta a un grupo de ejecutivos de una empresa,
clasifique las siguientes caractersticas, segn su escala de medida y tipo de
variable: peso, volumen de ventas, religin, nmero de hermanos, tiempo que
tarda en llenar la encuesta, si tiene o no carnet de club privado, deporte
preferido.
3. por qu no podemos decir que una temperatura de 100 grados Fahrenheit
indica doble de calor que una temperatura de 50 grados Fahrenheit?
4. si agrupamos a los ejecutivos de la empresa en altos, medianos, bajos Qu tipo
de escala de medida usamos? y si los ordenamos por estatura?

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

DISTRIBUCIONES DE
FRECUENCIAS
UNIDIMENSIONALES

Captulo II

GRAFICOS ESTADSTICOS

Distribuciones de frecuencias unidimensionales


Construccin en Statgraphics, S.P.S.S
Grficos de lnea, barra, polgono de frecuencia, ojiva,
curva de Lorenz.

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

10

DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES

Consideremos un conjunto formado por N elementos y sea X una variable que


describe un carcter de los mismos, cuyos posibles valores, ordenados de menor a
mayor, son: x1, x2, ..xn.
Frecuencia absoluta ordinaria: de xi es el nmero fi de veces que aparece xi
en el total de los N elementos.
Frecuencia ordinaria relativa: de xi es la proporcin hi de elementos del
conjunto para los cuales la caracterstica considerada toma el valor x i. Se obtiene como
hi = fi /N, y multiplicado por 100, representa el porcentaje de elementos que toman dicho
valor.
Frecuencia absoluta acumulada: de xi es el nmero Fi de observaciones
menores o iguales que xi. Se calcula, por tanto, como Fi = f1+ f2 +fi =

fi = N
i 1

Frecuencia relativa acumulada: de xi es la proporcin Hi de elementos para


los cuales el carcter toma un valor menor o igual que x i. Se puede calcular como.
Hi = h1+ h2+hi =

hi = 1
i 1

Distribucin de frecuencia: Se denomina al conjunto de valores de una variable


junto con las frecuencias correspondientes a cada uno de ellos, (xi, fi)i=1,2,3.n. podemos
hablar de dos tipos de distribuciones dependiendo de cmo se presenten los datos:

Distribuciones con datos no agrupados en intervalos: para variables que


toman pocos valores diferentes. Ver fig.1

xi

fi

Fi

hi

Hi

x1 f1

F1

h1

H1

x2 f2

F2

h2

H2

Fn

hn

Hn

xn fn

Fig.1

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

11

Distribucin con datos agrupados en intervalos: Se utiliza con variables que


toman un nmero muy elevado de valores diferentes, con el objeto de hacer ms
manipulable la informacin. La frecuencia absoluta ordinaria asociada a un intervalo
(Li Ls], ser el nmero total de observaciones perteneciente al mismo. En este
contexto, hay que introducir nuevos conceptos, como son, la amplitud del intervalo o
ancho de clase (ic), ic = (Ls - Li), la marca de clase o punto medio del intervalo
x

Ls

Li
2

y la densidad de frecuencia, di =

fi
. Este tipo de distribuciones se
ic

presenta en la Fig.2
(Li - Ls]

xi

fi

Fi

hi

Hi

di

L0 L1

x1

f1

F1

h1 H1 d1

..

L1 L2

x2

f2

F2.

h2 H2 d2

..

Ln-1 -Ln

xn

fn

Fn

hn Hn dn

Fig.2

Finalmente, ntese que en el caso de trabajar con un atributo en lugar de una


variable, podremos calcular siempre las frecuencias no acumuladas, mientras que las
acumuladas slo se podrn calcular en el caso que estn medido en escala ordinal.

REPRESENTACIONES GRFICAS
Los grficos que se utilizan para representar una distribucin de frecuencia,
sern diferentes segn la naturaleza del carcter a estudiar, dentro de los cuales,
analizaremos los siguientes:
GRFICOS PARA ATRIBUTOS
Diagrama de rectngulos: Se presentan las distintas modalidades, en el eje de
abscisas, levantndose sobre cada una de ellas un rectngulo, cuya altura es igual a la
correspondiente frecuencia absoluta o relativa.

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

12

Diagrama de sectores o circular: Se divide un crculo en tantas porciones como


modalidades existan, de modo que a cada una de ellas le corresponda un sector circular
con rea proporcional a su frecuencia absoluta o relativa.

Pictograma: Se utilizan dibujos alusivos al tema de estudio para representar las


frecuencias. Estos dibujos pueden hacerse de tal forma que tengan un tamao
proporcional a la frecuencia absoluta o relativa de la respectiva modalidad, o bien
repetirse un nmero de veces proporcional a la frecuencia absoluta.
GRFICOS PARA VARIABLES
1. Distribuciones con datos no agrupados en intervalos:
Diagrama de barras: Se levanta una barra sobre cada valor de x i con
una altura igual a fi o hi
Polgono de frecuencia: Se unen mediante rectas los puntos de
coordenadas (xi, hi) o (hi, fi).
Polgono acumulativo de frecuencia: Se representan las frecuencias
absolutas acumuladas (Fi o N) para todo valor de la recta real,
obtenindose un grfico en forma de escalera.
2. Distribuciones con datos agrupados en intervalos
Histograma: Se construye representando, sobre cada intervalo, un
rectngulo con altura igual a la densidad de frecuencia di con objeto de
que el rea de cada rectngulo sea igual a la frecuencia absoluta del
correspondiente intervalo. Cuando los intervalos tienen la misma
amplitud se puede utilizar como altura la frecuencia absoluta fi,
obtenindome en ese caso reas proporcionales a las frecuencias.
Polgono de frecuencias: Se obtiene uniendo los puntos medios o
marcas de clase de las bases superiores de los rectngulos del
histograma, (xi,di), y cerrar el polgono cortando al eje de abscisas de
forma que el rea encerrada entre el polgono de frecuencia y el eje
horizontal coincida con el rea del histograma.
Polgono acumulativo de frecuencia: se obtiene levantando en el
extremo superior de cada intervalo una ordenada con altura igual a la
frecuencia acumulada absoluta (Fi) o frecuencia relativa acumulada
(Hi),uniendo despus estos puntos.

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

13

Dato
s
Grficos
para
Atributos
Datos Cualitativos

1)Grfico de Barras
2)Diagrama Circular,
De sectores o De Pastel
3)Pictograma

Grficos para
Variables
Datos Cuantitativos
1) Grfico de Puntos
2) Grfico de lneas
3)Ojiva o Polgono de
Porcentaje
4)Grfico de Polgonos de
Frecuencia

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

14

Esquema del sistema Cartesiano


para realizar Grficos
fi
10
8

fi =

~
X=

Frecuencia Absoluta
Ordinaria
Marca de
Clase

10

20

30

40

50

~
X

Dibujo del Grfico de Barras

f
i
20
18
16
14
12
10
8
6
4
2
0
10

2
0

3
0

4
0

Autor: prof. Juan Muoz

5
0

Anlisis de Datos Estadsticos

Captulo III

15

MEDIDAS DESCRIPTIVAS DE LOS

Medidas de posicin
Media Aritmtica
Mediana
Moda
Cuantiles

Autor: prof. Juan Muoz

DATOS ESTADSTICOS

Anlisis de Datos Estadsticos


MEDIDAS

DESCRIPTIVAS

PARA

EL

16

ANLISIS

DE

LOS

DATOS

ESTADSTICOS

Para sintetizar toda la informacin contenida en una tabla de frecuencias, el paso


siguiente para el anlisis de datos, es definir los estadsticos o medidas descriptivas, las
cuales proporcionan un resumen acerca de cmo se distribuyen los datos. Segn la
informacin qu stos nos proporcionen, los clasificaremos en:
Medidas de posicin.
Medidas de dispersin.
Medidas de forma (asimetra y curtosis)
Medidas de concentracin.

Medidas de Posicin: stas dan una idea general donde se sita la distribucin de
frecuencias sobre la recta real, indicando alrededor del cual se agrupan los datos
estadsticos. Dentro de esta clase se incluyen la media aritmtica, media Ponderada,
moda, mediana, cuantiles.

Media aritmtica: x . Es la suma ponderada de cada uno de los valores de la variable


multiplicado por su frecuencia. Esta definicin enfatiza el significado de la media como
reparto equitativo y como mejor estimador de una cantidad desconocida, as como el
algoritmo del clculo.

xi f i
x

i 1

f i x i

i 1

N: nmero de valores observados


xi: cada uno de los valores observados
fi: frecuencia con que se presenta xi

En caso de que los datos se presenten en una tabla de valores agrupados en


intervalos,

se

aplica

la

misma

frmula,

siendo

los

valores

de

xi: los valores de la marca de clase o punto medio. Debe recordarse que la agrupacin de
los valores de la variable implica una perdida de informacin sobre dichos valores. Esto
se traduce en el hecho de que los estadsticos calculados, a partir de valores agrupados

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

17

estn afectados por el error de agrupamiento. Por este motivo y siempre que sea posible
han de calcularse los estadsticos a partir de los datos originales, utilizando la frmula
para datos no agrupados. No obstante, puede suceder a veces, que no tengamos los
valores individuales de las observaciones sino por el contrario, dispongamos de una
tabla de frecuencias. En este caso conviene recordar que los valores obtenidos son solo
aproximados.

Propiedades de la media:
1. La media aritmtica es el centro de gravedad de la distribucin de la variable, es
decir, la suma de las desviaciones de los valores con respecto a ella, es igual a
cero.

( xi

x) f i

2. La media aritmtica del producto de una constante, a, por una variable X, es


igual al producto de la constante por la media de la variable dada. Esta
propiedad implica que, al efectuar un cambio de unidad de medida a los datos
(pasar de metros a centmetros), la media queda afectada por dicho cambio de
escala.
n

axi f i
i 1

ax

3. La media aritmtica de la suma de dos variables, X, Y, es igual a suma de las


medias de cada una de las variables.

X Y

4. La media aritmtica de la suma de una constante entera, a, con una variable X,


es igual a la suma de la constante, a, con la media aritmtica de la variable dada.
n

(a

xi ) f i

i 1

Esta propiedad implica que, al efectuar un cambio en el origen desde el que se han
medido los datos, la media quede afectada por dicho cambio de origen.
Media ponderada: x
Cuando el nmero de observaciones es grande, las operaciones para calcular la
media aritmtica se simplifica utilizando la media ponderada.

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

18

n1 .x1 n2 x2 .....n r xr
n1 n2 ....nr

Moda: (Mo). Cuando la variable es cualitativa no podemos calcular la media. Para


describir un grupo podemos, entonces usar la moda (Mo), que es el valor de la variable
que tiene mayor frecuencia. En una distribucin puede existir ms de una moda, si hay
una sola moda se le denomina unimodal, si existen dos bimodal y si hay ms de dos se
le denomina polimodal.
Clculo de la moda para una variable numrica. Distinguiremos dos casos:
Para una variable cualitativa o numrica discreta, su clculo es sumamente sencillo,
basta con determinar en la tabla de frecuencias la variable de mxima frecuencia.
Cuando la variable numrica esta agrupada en intervalos de clases, la moda se
encontrar en la clase de mayor frecuencia, pudiendo calcular su valor por medio del
siguiente modelo matemtico.
Mo = li +

di

di

di

ic
1

La moda presenta algunas limitaciones como medida de posicin, obsrvese algunas de


ellas:
a) Si las frecuencias se condensan fuertemente en algunos valores de la variable, la
moda, no es una medida eficaz. Ejemplo consideremos las ventas de un equipo
de ejecutivos, tal como se ilustra a continuacin:

Ventas

10

(MM)
Ejecutivos

Decir que la moda es 10 MM, cuando un porcentaje muy elevado de ejecutivos


no ha efectuado ese monto, nos da una idea de las limitaciones de la moda en este caso.
Esto es debido a que en el clculo de la moda no se tiene en cuenta todos los valores de
la variable, sin embargo, la media es 2(MM), y en este clculo si se toma en cuenta
todos los valores de la variable.
b) Una misma distribucin con los valores agrupados en clases distintas, pueden
dar distintas modas, en el clculo aproximado.

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

19

Mediana: (Md). Es un valor tal que, una vez ordenadas las observaciones de menor a
mayor, deja el mismo nmero de observaciones a su derecha que a su izquierda. Para
obtenerla se procede de la siguiente manera:
En distribuciones no agrupadas en intervalos, se determina el primer valor de x i
de la variable cuya frecuencia absoluta acumulada (Fi) es mayor o igual a N/2. si
Fi es igual a N/2, entonces la mediana se obtiene como

xi

xi
2

, y si Fi es

estrictamente mayor que N/2 entonces la mediana es x i.


En distribuciones agrupadas, es necesario seleccionar, en primer lugar, el
intervalo donde se encuentra la mediana (intervalo mediano), siendo ste el
primer intervalo (Ls-li), cuya frecuencia absoluta acumulada Fi, es mayor o
igual a N/2. suponiendo que las observaciones se distribuyen uniformemente en
el intervalo, el modelo matemtico ser:

Md = Li +

N / 2 Fi 1
ic
fi

Propiedades caractersticas de la mediana: al igual que la media y la moda la


mediana tambin presenta limitaciones, tales como:
i.

Al calcular la mediana no usamos todos los valores de la variable, lo que la


limita como medida de posicin

ii.

No puede ser aplicada a distribuciones de variables cualitativas.

iii.

Como medida de posicin, presenta ciertas ventajas, frente a la media en algunas


distribuciones, ya que no se ve afectada por valores extremos de las
observaciones. La mediana es invariante si se disminuye una observacin
inferior a ella, o si se aumenta una superior, puesto que slo se tiene en cuenta
los valores centrales de la variable. Por ello es adecuada para distribuciones
asimtricas o cuando existen valores atpicos.

iv.

Es un estadstico resistente, con pequeas fluctuaciones de la muestra, no


cambia su valor.

v.

Si los datos son ordinales la mediana existe, mientras que la media no tiene
sentido, puesto que su clculo se basa en los valores numricos (necesariamente)
de los datos.

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

20

Cuantiles: (C). Son los valores que dividen a la distribucin, una vez ordenada sta de
menor a mayor, en intervalos de igual frecuencia. Los ms usuales son los cuartiles,
simbolizados por Q1, Q2, Q3, que dividen la distribucin en cuatro intervalos iguales,
cada uno de ellos con el 25% d las observaciones, los deciles, simbolizados por, D1, D2,
D3,. D9, que dividen la distribucin en diez partes iguales, y los percentiles,
simbolizados por

P1, P2,..P99, que dividen la distribucin en cien partes iguales. Su

clculo es similar a la mediana, se sustituye en N/2 por

p*N ,
en el caso de calcular el
100

cuantil p-simo de orden q, Cp/q, con 0<p<q. en caso de una distribucin agrupada en
intervalo utilizaramos, por, tanto, la siguiente expresin:
p*N
Fi 1
100
ic
Cp/q = L i +
fi

De todas las medidas de posicin, solo la moda y los cuantiles (de los cuales la
mediana es un caso particular) podran calcularse para atributos medidos en escala
ordinal, y nicamente la moda si la escala fuera nominal.

RANGO PERCENTIL: nos permite calcular un determinado porcentaje, por debajo


del cual se encuentra un determinado valor. Su modelo matemtico es el siguiente:
R(x) =

( P( x) Li) fi
ic

Fi 1

100
n

MOMENTOS
Son medidas que permiten caracterizar a una distribucin, siendo dos
distribuciones tanto ms parecidas, cuanto mayor sea el nmero de momentos iguales
que posean. Se utilizan para definir algunas medidas de dispersin y forma.

xik fi
i 1

Momento ordinario de orden k: ak =

( xi

Momento central de orden k: mk=

x) fi

i 1

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

21

MEDIDAS DESCRIPTIVAS DE
VARIABILIDAD DE LOS

Captulo IV

DATOS ESTADSTICOS

Medidas de dispersin
Medidas de dispersin absolutas:
Recorrido
Recorrido intercuartlico
Desviacin media absoluta respecto a la
media
Desviacin media absoluta respecto a la
mediana
Varianza
Desviacin tpica
Medidas de dispersin relativa
Coeficiente de variacin de Pearson
Puntaje tpico o estandarizado
Medidas de concentracin
ndice de Gini
Medidas de Forma
Medidas de Asimetra
Medidas de Curtosis

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

22

MEDIDAS DE DISPERSIN

Las medidas de dispersin son estadsticos que miden la variabilidad de los


datos; esto es, el grado de separacin existente entre estos, cuyos valores son mayores o
iguales a cero, (el valor cero indica ausencia de dispersin) dentro de las cuales
estudiaremos las siguientes:
A. Medidas de dispersin absolutas:
Recorrido: Re = Ls Li, es la medida de dispersin ms fcil de
calcular, ya que solamente toma el cuenta los valores extremos de la
variable.
Recorrido intercuartlico: Qi = Q3 Q1, es aquel que mide la
dispersin en el centro de la distribucin.

xi

Desviacin absoluta media respecto a la media: D x =

x fi

i 1

( xi

Varianza: S2 =

x) 2 fi

i 1

, es la media aritmtica de los cuadrados

N 1

de las desviaciones respecto a la media aritmtica. Su importancia radica


en que da origen a otra medida de dispersin mucho ms significativa,
denominada desviacin tpica

Desviacin tpica: S = +

S2

B. Medidas de dispersin relativas.


Coeficiente de variacin de Pearson: Cv =

S
*100 , permite comparar dos o
x

ms distribuciones, con el fin de determinar cual de ellas tiene mayor o menor


variabilidad relativa, su uso se hace necesario cuando dichas distribuciones estn
dadas en unidades de medidas diferentes.

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

23

Las medidas de dispersin son caractersticas propias de la variable y no de los


atributos, ni siquiera de los que estn medidos en escala ordinal.

Puntaje tpico o estandarizado (Z):


Se emplea para medir la desviacin de una observacin con respecto a la media
aritmtica, en unidades de desviacin tpica, adems determina la posicin relativa de
una observacin dentro del conjunto.
Por lo general el puntaje tpico se simboliza con Z, y su modelo matemtico para
calcularlo es
Zi =

xi

x
s

Zi =

x i

x
s

(datos agrupados)

Este puntaje tpico se emplea para comparar dos o ms datos individuales,


aunque pertenezcan a distribuciones diferentes, pudiendo suceder que tengan media y
varianzas que no coincidan.
MEDIDAS DE CONCENTRACIN
Ponen de relieve el mayor o menor grado de igualdad en el reparto del total de
n

los recursos,

xi fi
i 1
n 1

( pi qi)

ndice de Gini; IG =

i 1

, con pi =

n 1

pi

u
Fi
100 ; qi = i 100 ; ui =
N
un

xk f k
k 1

i 1

El ndice de Gini vara entre 0 y 1, correspondiendo los casos extremosa


concentracin mnima o equidistribucin (IG =0) y concentracin mxima (IG =1).
Curva de Lorenz: Es la representacin grfica de los porcentajes acumulados de
individuos (pi) y de recursos (qi). Se colocan los (pi), en el eje de las abscisas, los (qi) en
el de ordenadas, y se unen todos los puntos (pi ,qi), considerando (0,0) como el primer
punto y (100,100) como el ltimo. As cuanto ms prxima est la curva a la bisectriz
del primer cuadrante, ms parecidos sern ambos porcentajes acumulados, por lo que
menor ser la concentracin.

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

24

q i 100
90

80
70
60
50
40
30
20
10
pi

10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100

Curva de Lorenz

Ejemplo
Dos empresas ubicadas en la zona industrial Henry Ford de Valencia, una relacionada
con las nuevas tecnologas E1 y otra con el sector lechero E2, tienen polticas salariales
distintas. La empresa E1, ha implantado un sistema de subida salarial lineal de 50 mil
bolvares mensuales y la empresa E2 una subida proporcional de un 7,5% mensual. Se
sabe que las distribuciones de salarios mensuales (miles de bolvares), para cada
empresa en el ao 2004 fueron:
Empresa E1

Empresa E2

Salario

N de empleados

Salario

N de empleados

1450 1700

10

800 1025

1700 1950

30

1025 1250

14

1950- 2200

10

1250 1475

20

1475 - 1700

En cual empresa el salario est ms concentrado?

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

25

Solucin

Para resolver esta pregunta hay que calcular el ndice de Gini, asociado a cada
distribucin de salarios, sin olvidar que al ndice de Gini no le afecta los cambios de
escala, pero s los de origen, para la E 1 la subida del salario ha sido lineal de 50 mil
mensual, lo que supone un cambio de origen, por lo que calcularemos directamente el
ndice de Gini, para la distribucin de salario del ao 2004. As
Li - Ls

fi

x i

fi* x

Fi

ui

pi(%)

qi(%)

1500 1750

10

1625

16250

10

16250

20

17,33

1750 2000

30

1875

56250

40

72500

80

77,33

2000 - 2250

10

2125

21250

50

93750

100

100

50

Donde IGE1 =

93750

(20 80) (17,33 77,33)


20 80

100 94,67
100

0,053

Para la empresa E2, la subida mensual ha sido proporcional, o sea un cambio de escala.
Li - Ls

fi

x i

fi* x

Fi

ui

pi(%)

qi(%)

800 1025

912,5

3650

3650

10

7,3

1025 1250

14

1137,5

15925

18

19575

45

39,15

1250 1475

20

1362,5

27250

38

46825

95

93,65

1475 - 1700

1587,5

3175

40

50000

100

100

40

Donde IGE1

50000

0,066: Por lo tanto se puede concluir que el salario 2004 esta ms

concentrado en la empresa E1.

MEDIDAS DE FORMA
Las medidas de forma pretenden dar una idea general de la representacin
grfica de una distribucin de frecuencias. En particular, tratan de cuantificar la
deformacin horizontal (asimetra) y la deformacin vertical (curtosis o apuntamiento)
de la misma.

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

26

I. Medidas de asimetra:
Coeficiente de asimetra de Fisher: F1 =

m3
S3

S F1 >0, la distribucin es asimtrica positiva (o asimtrica a la derecha); s


F1<0, la distribucin es asimtrica negativa (o asimtrica a la izquierda); y s la
distribucin es simtrica entonces F1=0 (no necesariamente se da al revs; esto es,
existen distribuciones asimtricas con

F1=0). O tambin por el mtodo de los

percentiles:
As =

p90

p10
p90

2 p50
p10

Me

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

27

Me

II Medidas de curtosis:
Coeficiente de curtosis: K =

m4
S4

Este coeficiente se define slo para distribuciones campaniformes y simtricas


(con ligera asimetra). Si K>0, o (K >0,263)la distribucin se denomina leptocrtica
(ms apuntada que la distribucin normal); si K<0, o (K<0,263) platicrtica (menos
apuntada que la normal); y si K=0, o (K=0,263) mesocrtica (igual que la normal).O
tambin por el mtodo de los percentiles:
K=

p75 p25
2( p90 p10 )

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

LEPTOCURTICA
MESOCURTICA
PLATICURTICA

Autor: prof. Juan Muoz

28

Anlisis de Datos Estadsticos

Autor: prof. Juan Muoz

29

Anlisis de Datos Estadsticos

30

ACTIVIDAD PRCTICA DE APRENDIZAJE DE DISTRIBUCIN


UNIDIMENSIONAL
Los siguientes datos son una muestra de los salarios anuales de 100 trabajadores de una
empresa del sector petrolero.
Los datos estn expresados en miles de bolvares/fuertes

200

200

200

200

200

202

202

203

203

204

205

205

205

206

206

207

208

208

208

208

209

212

213

218

218

218

218

219

220

224

224

225

225

226

226

226

226

226

226

226

227

227

228

228

229

231

231

232

233

233

233

234

234

235

236

237

238

239

239

239

240

240

240

241

241

245

245

247

247

247

248

249

249

250

250

250

250

251

251

251

251

251

251

252

252

252

253

253

254

254

255

255

255

256

256

257

257

258

259

259

N = 100
Nc = 12

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

31

La informacin representa la distribucin de salarios anuales expresados en


miles de bolvares/fuerte:
Prepare resmenes tabulares de los datos de salario anual mediante una distribucin
de frecuencias (use numero de clase=12), (frecuencia absoluta, acumulada,
frecuencia relativa, relativa acumulada y porcentaje).

fi x

fi( x

x) 2

Nc

Li - Ls

fi

Fi

hi

Hi

Hi %

fi x

200-205

202.5

10

10

0.10

0.10

10

2025

-30.05

300.5

9030.02

205-210

207.5

11

21

0.11

0.21

21

2282.5

-25.05

275.55

6902.52

210-215

212.5

23

0.02

0.23

23

425

-20.05

40.1

804.00

215-220

217.5

28

0.05

0.28

28

1087.5

-15.05

75.25

1132.51

220-225

222.5

31

0.03

0.31

31

667.5

-10.05

30.15

303.00

225-230

227.5

14

45

0.14

0.45

45

3185

-5.05

70.7

357.03

230-235

232.5

53

0.08

0.53

53

1860

-0.05

0.4

0.02

235-240

237.5

60

0.07

0.60

60

1662.5

4.95

34.65

171.51

240-245

242.5

65

0.05

0.65

65

1212.5

9.95

49.75

495.01

10

245-250

247.5

73

0.08

0.73

73

1980

14.95

119.6

1788.02

11

250-255

252.5

17

90

0.17

0.90

90

4292.5

19.95

339.19

6766.04

12

255-260

257.5

10

100

0.10

100

2575

24.95

249.5

62250.2

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

a) Cuales son los salarios mnimos y mximos?


Mximo=259
Mnimo=200

b) Que proporcin-cantidad-porcentaje hay (200-205)?


C=10
P=0.1
P=10%

c) Que proporcin-cantidad-porcentaje hay (210-235)?


C=32
P=0.32
P=32%

d) Ancho de la distribucin

Nc

At
ic

; At

Ls

Li

At

259

200

At

59

e) Medidas de posicin de la distribucin

Medidas de Posicin:

Media Aritmtica:

x. fi
; x
n

23.255
; x
100

232 .55m / Bs F. Es el salario promedio

anual.

Autor: prof. Juan Muoz

32

Anlisis de Datos Estadsticos


Mediana:

n
2

Md

Li

Lg

Nc
;
2

Md

( Fi 1)
* ic

fi
Lg

12
; Lg
2

100
31
2
225
*5
14

Md

225

6.78

Md

231 .78m / Bs F Es el valor promedio que divide la distribucin en

dos partes iguales.

Moda:

( fm 1)
* ic
( fm 1) ( fm 1)

Mo

Li

Mo

250

Mo

252 .77 m / Bs F. Es el valor promedio con mayor frecuencia.

10
*5
10 8

Autor: prof. Juan Muoz

33

Anlisis de Datos Estadsticos

34

Cuantiles:

D4
P*n
100

P 40 %

P*n
100

Li

( Fi 1)
fi

40 * 100
100

* ic

40

40 31
*5
14

D4

P 40%

225

D4

P 40%

238 .21m / Bs F. es el valor por debajo del cual se encuentra

el 40% de los salarios anuales.

Q1

P*n
100

P 25%

P*n
100

Li

( Fi 1)
fi

25 * 100
100

* ic ;

25

25 23
*5
5

Q1

P 25%

215

Q1

P25%

217m / Bs ; es el valor por debajo del cual se encuentra el

25% de los salarios anuales devengados.

Q3

P 75 %

Li

P*n
100

( Fi 1)
fi

* ic

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

P*n
100

75 * 100
100

35

75

75 73
*5
17

Q3

P75%

250

Q3

P75%

250.58m / bs ; es el valor por debajo del cual se encuentra

el 75% de los salarios devengados.

Rango Percentil: es un estadstico que nos mide el porcentaje de valores por debajo del
cual se encuentra un valor conocido.
Ejemplo: Qu porcentaje de salarios se encuentran por debajo de 232 mBsF?

R( x)

R(232)

R(232)

R(232)

P( x) Li
100
* fi ( Fi 1) *
ic
n

232 230
100
* 8 45 *
5
100
0.4 * 8 45 *1

48.2 %.

Interpretacin 48,2% de los salarios se encuentran por

debajo de 232 mBsF.

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

36

MEDIDAS DE DISPERSION

Medidas de dispersin absolutas:

1. Rango:

Rg

Ls Li ; Rg

259 200: Rg

59

La dispersin existente en los extremos de los salarios es de 59m/BsF.

2. Espacio Intercuartlico:

Qi

Q3 Q1 ; Qi

250.58 217

Qi

33.58m / Bs F es la dispersin en centro de la distribucin.


3. Desviacin Media:

Dm

fi x

Dm

1585 .34
100

Dm

15.85

La dispersin promedio total es de 15.85 m/BsF

Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

37

4. Varianza:

fi x - x
n 1

33974 .7
99

343 .17

La desviacin promedio de los salarios respecto a la media aritmtica es de


343.17m/BsF2

5. Desviacin tpica:

243.17mBsF2

15.59 mBsF

La variabilidad promedio.

Medidas de dispersin relativas:

Variable tipificada:

Z(x)

x - x
S
Autor: prof. Juan Muoz

Anlisis de Datos Estadsticos

Z(9)

242.5 - 232.55
15.59

Z(9)

9.95
15.59

Z(9) 0.63
0,63 es el nmero de desviaciones tpicas que existen con respecto a la media

Coeficiente de Variabilidad:

CV

S
* 100 %
x

CV

15.59
* 100 %
232 .55

CV

6.7 %

El porcentaje de variabilidad de la distribucin es de 6.7%

Autor: prof. Juan Muoz

38

Anlisis de Datos Estadsticos


Medidas de forma
Asimetra:

( P90% P10%) 2 P50%


P90% P10%

As

P*n
100

P90 %

Li

P*n
100

90 * 100
100

P90%

250

P90%

255

P10%

Li

P*n
100

( Fi 1)
* ic

fi

90

90 73
*5
17

P*n
100

( Fi 1)
* ic

fi
10 * 100
100

P10%

200

P10 %

205

10

10 0
*5
10

Autor: Prof. Juan Muoz

39

Anlisis de Datos Estadsticos

P50 %

P*n
100

Li

50 * 100
100

230

P50 %

233 .12

As
As

(255

460

* ic

50

50 45
*5
8

P50%

As

( Fi 1)
fi

P*n
100

40

205 ) 2(233 .12)


255 205
466 .24
50

0.12 ; La curva es sesgada hacia la izquierda porque el valor es negativo.

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos


Kurtosis:

Ku

P75% P 25%
2( P90% P10%)

Ku

250.58 217
2(255 205)

Ku

0.33 ; La curva es Leptocrtica ya que kurtosis es mayor a 0,263

Autor: Prof. Juan Muoz

41

Anlisis de Datos Estadsticos


1.-

La siguiente informacin

42

corresponde a 25 empresas pequeas y medianas,

ubicadas en la zona industrial del estado Carabobo.

EMPRESA
Tec-servFirestone
Nestle
Cuam
Pepsi cola
Rualca
Good Year
Unigorras
Movilnet
Dominguez
Digitel
Motoca
Danaven
Toyota
Movistar
Regional
Zap.
Molinera

BOLSA

SMBOLO

VENTAS
ANUALES
Bs Millones

GANANCIAS
POR ACCIN

RELACIN
PRECIORENDIMIENTO

Valencia

BdeV

15.5

11.500

22.5

Caracas
Valencia
Caracas
Caracas
Caracas
Valencia
Caracas
Caracas
Caracas
Valencia
Valencia
Valencia
Caracas
Caracas

BdeC
BdeV
BdeC
BdeC
BdeC
BdeV
BdeC
BdeC
BdeC
BdeV
BdeV
BdeV
BdeC
BdeC

255.8
29.4
254.6
88.7
27.7
7.2
48.3
30.2
26.5
90.6
60.5
71.1
23.7
38.2

7880
17000
9668
12.880
5.750
6.563
15.750
39.750
8.500
10.875
9.5000
10.313
7.375
10.750

12.7
7.5
6.0
15.7
27.4
2.1
27.2
11.2
15.7
17.0
11.4
24.6
14.2
4.8

Valencia

BdeV

26.0

6.688

17.1

Se desea saber:

Escala de Medicin

Variables

Variables cualitativas

Variables cuantitativas

Variables cuantitativas discretas

Variables cuantitativas continuas

Poblacin

Muestra

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos


2.

43

Los siguientes datos son una muestra de salarios anuales de 40 gerentes de tienda

(los datos estn expresados en millones de bolvares)

48

35

57

48

52

56

51

44

40

40

50

31

52

37

51

41

47

45

46

42

53

43

44

39

50

50

44

49

45

45

50

42

52

55

46

54

45

41

45

47

Se desea saber:
a. Distribucin de frecuencia (Use ancho de clase = 5 millones de bolvares) Prepare
resmenes tabulares de los datos de salario anual ( frecuencia relativa, relativa
acumulada, porcentaje)
b. Cules son los salarios mnimo y mximo?
c. Cul es el promedio de los salarios?
d. Qu proporcin hay de salarios anuales de 35 millones de bolvares o menos?
e. Qu porcentajes hay de salarios anuales mayores de 50 millones?
f. Qu cantidad proporcin y porcentaje de salarios anuales hay entre la tercera y la
quinta clase?
g. Qu cantidad porcentaje y proporcin hay entre 37,5714 y 50,4286
h. Construya los siguientes grficos estadsticos conocidos por usted

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

Autor: Prof. Juan Muoz

44

Anlisis de Datos Estadsticos

Autor: Prof. Juan Muoz

45

Anlisis de Datos Estadsticos

Autor: Prof. Juan Muoz

46

Anlisis de Datos Estadsticos

3.

47

La siguiente informacin corresponde a las ventas de unas tiendas de computadoras

personales durante un mes.


4.1

1.5

10.4

5.9

3.4

5.7

1.6

6.1

3.0

3.7

3.1

4.8

2.0

14.8

5.4

4.2

3.9

4.1

11.1

3.5

4.1

4.1

8.8

5.6

4.3

3.3

7.1

10.3

6.2

7.6

10.8

2.8

9.5

12.9

12.1

0.7

4.0

9.2

4.4

5.7

7.2

6.1

5.7

5.9

4.7

3.9

3.7

3.1

6.1

3.1

Se desea saber:
a. Distribucin de frecuencia (Use ancho de clase = 3 millones de bolvares) Prepare
resmenes tabulares de los datos de salario anual ( frecuencia relativa, relativa
acumulada, porcentaje)
b. Cules son las ventas mnima y mxima?
c. Cul es el promedio de venta?
d. Qu proporcin hay de ventas mensuales de 35 millones de bolvares o menos?
e. Qu porcentajes hay de ventas mensuales mayores de 50 millones?
f. Qu cantidad, proporcin y porcentaje de ventas mensuales hay entre la segunda y
la quinta clase?
g. Qu cantidad porcentaje y proporcin hay entre
h. Construya los siguientes grficos estadsticos conocidos por usted

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos


4.

48

A partir de las siguientes observaciones obtenidas al estudiar el nmero de hijos en

la familia de un conjunto de 25 alumnos, construya la tabla de frecuencias de la variable


= Nmero de hijos en las familias de los alumnos.
2

Se desea saber:
Medidas de posicin y grficos estadsticos
5.

A partir de las siguientes observaciones obtenidas al estudiar el peso. En Kg., de un

conjunto de 25 individuos, construya la tabla de frecuencia de la variable


68.2

87.8

85

57.5

68.2

75.2

77.5

78.3

81.5

64

62.5

85.9

83.6

78.1

61.2

71.5

59.6

78.3

77.5

73

73

88.5

85.2

61.5

94

= Peso.

Se desea saber:
Medidas de posicin, interpretacin y grficos estadsticos
6.

Realizada una encuesta sobre las preferencias de los jvenes por determinados

productos de marcas, se han obtenido los siguientes resultados:

Marca

N de
jvenes

38

16

12

25

Represente mediante un grfico adecuado la distribucin de las preferencias de los jvenes.

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos


7.

49

Represente grficamente la distribucin obtenida al estudiar la variable

Nmeros de asignaturas reprobadas por un grupo de 25 alumnos.

Se desea saber:

a) Medidas de posicin b) medidas de dispersin c) medidas de forma d) grficos

8.

Represente grficamente la siguiente distribucin referente al peso. En Kg., de un

conjunto

9.

de

25

individuos.
68.2

87.8

85.0

57.5

68.2

75.2

77.5

78.3

81.5

64.0

62.5

85.9

83.6

78.1

61.2

71.5 5936

78.3

77.5

73.0

73.0

85.2

61.5

94.0

88.5

Se dispone informacin acerca del nmero de miembros de la unidad familiar para

42 familias de una zona residencial:

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

50

Obtenga la media aritmtica, as como la moda y la mediana. Calcule tambin el primer y


tercer cuartil, y los percentiles 10, 40 y 80.

10.

Se sabe el nmero de asignaturas aprobadas en un semestre por los alumnos del

curso de licenciatura administracin comercial


N de
asignatura
aprobadas

N de
alumnos

15

28

41

41

10

Obtenga la media aritmtica, la moda y la mediana de esta distribucin. Calcule tambin los
cuartiles primero y tercero, y los percentiles 10, 25, 50, 75, 85 y 90, coeficiente de asimetra
y coeficiente de curtosis.

11.

En la siguiente tabla se recoge informacin referente al nmero de horas extras

trabajadas por 54 de los trabajadores contratados por una empresa hortofrutcola en el mes
de junio de 2004:

Horas Extras

N Trabajadores

5.5 15.5

15.5 20.5

13

20.5 25.5

15

25.5 30.5

30.5 35.5

35.5 42.5

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

51

Obtenga la media aritmtica, as como la moda y la mediana. Calcule tambin el primer y


tercer cuartil, y los percentiles10, 50, 60 y 90.

12.

Una empresa se dedica a la produccin de bolas de plasma. Las bolas son

empaquetadas en cajas de 100 bolsas. En la revisin del ltimo envo realizado por la
empresa, en el que haba 30 cajas, se han encontrado las siguientes bolsas defectuosas en
cada caja:
0

Calcule las siguientes medidas de dispersin: recorrido, recorrido intercuartlico,


desviacin absoluta media respecto de la media aritmtica, varianza, desviacin tpica,
recorrido semi-intercuartlico coeficiente de variacin, coeficiente de asimetra y
coeficiente de curtosis.

13.

Las distribuciones de los aos de estudio posteriores a la enseanza secundaria de

los trabajadores de dos empresas A y B se presenta en la siguiente tabla:


Aos de estudio
posteriores a la
enseaza obligatoria
0
2
3
4
6
9
10

Empresa A

Empresa B

5
10
15
15
6
3
1

5
2
5
10
10
8
0

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

52

Calcule el nmero medio de aos de estudio posteriores a la enseanza de secundaria en


cada una de las empresas. Cul de ellos es ms representativo de su correspondiente
distribucin? Calcule los coeficientes de dispersin, tanto absolutos como relativos.

14.

La distribucin de las puntuaciones obtenidas en una prueba de seleccin por un

total de 200 aspirantes se recoge en la siguiente tabla:

Puntuacin
[0,10]
(10,20]
(20,30]
(30,40]
(40,50]
(50,60]
(60,70]
(70,80]
(80,90]
(90,100]

Aspirantes
10
15
30
20
35
40
20
20
5
5

Obtenga la media y la mediana de la distribucin, as como las desviaciones absolutas


medias respecto a ambas medidas. Calcule tambin los ndices de dispersin respecto a la
media y a la mediana, coeficiente de asimetra y coeficiente de curtosis. (Grficos).
15.
En la cola de Cinesunidos del Sambil de Valencia se ha realizado una encuesta.
En ella se pregunta a los usuarios, entre otras cosas, acerca del nmero de veces que han
asistido a la proyeccin de una pelcula en el ltimo mes . Los datos recogidos sobre esta
variable se presentan a continuacin:
2 2 2 3 2 0 5 2 3 2 4 3 3 2 2 2 4 3 3
2 3 3 0 0 2 2 4 2 2 2 1 3 4 3 5 4 4 3
3 3 4 2 3 2 1 2 3 2 3 2 5 4 1 3 4 3 4
1 2 4 5 2 3 3 2 2 4 2 4 2 3 2 5 5 2 4
2 2 4 4 3 2 2 4 2 0 2 1 4 3 5 4 2 3 2
1 0 3 3 2 4 5 1 2 2 3 1 3 4 2 2 3 2 2
3 2 3 2 0 3 2 2 4 2 2 3 1 1 3 3 3 4 2
3 3 4 3 1 3 1 3 1 3 2 3 3 2 1 1 2 2 1
3 3 3 4 1 2 1 2 4 3 3 3 2 3 3 5 1 2 3
3 2 2 3 3 3 3 2 3 4 4 3 3 3 3 4 3 1 2
Determine los coeficientes de asimetra y coeficiente de curtosis. (Grficos).

Autor: Prof. Juan Muoz

2
1
3
3
2
1
2
4
2
3

Anlisis de Datos Estadsticos

53

16.
La siguiente distribucin representa la ausencia laboral en la empresa RUALCA
ubicada en la zona industrial de Valencia por motivo de enfermedad:
Das

N de
trabajadores

15
5 10
10 15
15 30
30 60
60 - 90

19
42
35
68
30
6

Determine los coeficientes de asimetra y coeficiente de curtosis. (Grficos), para esta


distribucin de frecuencia.
17.
Se desea estudiar y comparar el grado de concentracin en el reparto de la masa
salarial de dos empresas distintas. La empresa GM ofrece sus datos en dlares. Por el
contrario, la empresa FIRESTONE no tiene actualizada su contabilidad en dlares y ofrece
sus datos en bolvares.

GM

Li 1 , Li

ni

451 601
601 902
902 1.142
1.142 1.442
1.442 1.683
1.683 1.983
1.983 2.404
2.404 3.606
3.606 6.010

25
7
8
2
5
6
1
2
1

FIRESTONE

Li 1 , Li

ni

75.000 100.000
100.000 150.000
150.000 190.000
190.000 240.000
240.000 280.000
280.000 330.000
330.000 400.000
400.000 600.000
600.000 1.000.000

29
12
9
7
1
4
1
1
1

Cul de las distribuciones es ms confiable?

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

Captulo V

54

DISTRIBUCIONES DE FRECUENCIAS
BIDIMENSIONALES

Distribuciones de frecuencias bidimensionales


Representaciones grficas
Distribuciones marginales
Distribuciones condicionadas
Independencia estadstica
Momentos
Covariaza

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

55

DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES


Dado un conjunto de N elementos o individuos, se desea estudiar dos caractersticas
de los mismos, medidas por las variables X e Y, p(xi,yr) cuyos posibles valores son
x1, x2, .....xi e y1,y2,.......yr , respectivamente. Tambin podra darse el caso en que alguno de
los caracteres fuera cualitativo, o incluso los dos.
Frecuencia absoluta conjunta, del par ordenado p(xi,yr) es el nmero fir de elementos en el
total de los N considerados que presentan el valor x i para la primera caracterstica y el valor
yr para la segunda.
Frecuencia relativa conjunta, del par p(xi, yr) es la proporcin hir de elementos del
conjunto para los cuales la primera caracterstica toma el valor x i y la segunda el valor yr.
Se obtiene como hi r=

n ir
y multiplicada por 100 representa el porcentaje de elementos con
N

dichos valores en las caractersticas consideradas.


Definiremos distribucin de frecuencia bidimensional al conjunto de pares
p(xi,yr), junto con las frecuencias asociadas a cada uno de ellos,
1,2,....s

(xi, yr); nir

i=1,2,....,j; r =

dicha distribucin de frecuencia suele presentarse en una tabla de doble entrada, que

recibe el nombre de tabla de correlacin si los dos caracteres son cuantitativos, y tabla de
contingencia si al menos uno de ellos es cualitativo. Adems para el caso de las variables,
los datos pueden venir agrupados en intervalos o no, segn proceda.

X/Y

y1

y2

....

yr

x1

n11

n12

......

n1r

x2

n21

n22

......

n2r

.....

nir

.
.
.

xi

ni1

ni2

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

56

Representaciones grficas
Diagrama de dispersin o nube de puntos. Grfico solo para variables que
representan los pares de observaciones como puntos en un sistema cartesiano, donde cada
uno de los ejes corresponde a una de las variables. Esta representacin ayuda a descubrir
visualmente la existencia de algn tipo de relacin entre dos variables.
DISTRIBUCIONES MARGINALES
Son cada una de las dos distribuciones de frecuencias unidimensionales que se
obtienen a partir de la distribucin bidimensional

(xi,yr) ; nir

i = 1, 2,....j r= 1,2,....s ,

al

estudiar el comportamiento de cada una de las dos componentes de (X,Y) por separado. As
en el caso de la distribucin correspondiente a X, que denotaremos por (x i; ni)i = 1, 2,....j, la
frecuencia marginal ni representa el nmero de elementos para los cuales la primera
caracterstica toma el valor xi , sea cual sea el valor de Y, esto es:
s

ni =

nij , i = 1,2,......r
j 1

Mientras que en la distribucin correspondiente a Y (yj; nj)j = 1,2,....s , la frecuencia marginal


nj, denota el nmero de elementos para los cuales la segunda caracterstica toma el valor y j
independientemente del valor que tome X
j

nj =

nij , j = 1,2,......r
i 1

X/Y

y1

y2

....

yr

x1

n11

n12

......

n1r

x2

n21

n22

......

n2r

.....

nir

.
.
.

xi
r

ni1

ni2

nij . Esta informacin se puede representar en la tabla de doble

Siendo entonces N =
i 1 j 1

entrada.

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

57

Tambin se pueden calcular las frecuencias relativas marginales:


nj
n
fi = i ; fj =
N
N
j

f ir
i 1 r 1

fi
i 1

fj

r 1

Y puesto que las distribuciones marginales no son ms que distribuciones de frecuencias


unidimensionales, se podran obtener para ellas las distintas medidas estudiadas en el tema
anterior. Adems todos los comentarios anteriores sobre distribuciones marginales se
pueden aplicar sin ningn problema a la situacin en la que una o las dos componentes del
par ordenado p(X,Y) sean atributos.

Distribuciones condicionadas
La distribucin de X condicionada a que Y tome el valor yj es la distribucin
unidimensional (xi ; ni/j )i=1,2,...r representada en la siguiente tabla tanto en frecuencia
absoluta como relativa:

X/Y = yj
x1
x2
.
.
xr

Donde ni/j = nij y fi/j =

n i/j
n 1/j
n2/j

f i/j
f1/j
f2/j

nr/j

fr/j

n.j

n ij
n. j

Del mismo modo se define la distribucin de Y condicionada a que X tome el valor


xi , esto es (yj ; nj/i )j=1,2,...s

Y/X = xj

n j/i

f j/i

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos


y1
y2
.
.
yr

Donde

nj/i = nij y fj/i =

n 1/i
n2/i.

f1/j
f2/j

.ns/i

fs/j

ni.

58

nij
ni.

Independencia estadstica
Se dice que dos caracteres X e Y son estadsticamente independiente si los valores o
modalidades que toma uno de ellos no se ve afectado por los valores o modalidades que
toma el otro, formalmente, si :
fi/1 = fi/2 = ... = fi/s = fi.,

i 1,....,r

fj/1 = fj/2 = ... = fj/r = f.j,

1,...,s

Momentos
Estudiaremos los momentos respecto al origen (ordinarios) y momentos
respecto a la media (centrales):
r

xih y kj nij
i 1 j 1

Momentos ordinarios de orden (h,k): a hk =

N
r

( xi

Momento central de orden (h,k): mhk =

x) h ( y j

y ) k nij

i 1 j 1

Entre los momentos bidimensionales podemos destacar la Covarianza la cual nos


proporciona una medida del grado de relacin lineal que existe ente las variables X e Y, se
puede calcular mediante el siguiente modelo matemtico para la covarianza de la muestra:

Sxy =

(Xi

X )(Yi Y )
n 2

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

Y para la covarianza de la poblacin

(Xi

xy =

)(Yi

59

Interpretacin de la covarianza:
Si el valor de la covarianza es positivo indica una asociacin lineal positiva entre X
y Y; esto es; al aumentar el valor de X el de Y aumenta.
Si el valor de la covarianza es negativo, indica una asociacin lineal negativa entre
X y Y esto es; al aumentar el valor de X el de Y disminuye.
Si el valor de la covarianza es cero, indica que no asociacin lineal entre X y Y.
Ejemplo

La media de X: 11.225
La media dei Y: 5.437

7,2

6,7

17,0

12,5

6,3

23,9 6,0

10,2

4,2

4,9

7,0

6,2

3,8

7,6

5,4

4,4

Ej. Sxy= (7,2 11.225) (4,2 5,437)= 4,97; (6,7 11.225) (4,9 5.437) =
Sxy =

xy = 58, 297

(Xi

2,42 ;

X )(Yi Y )
n 2

Sxy = 58,297 = 9,71


6

Autor: Prof. Juan Muoz

Resultado
Positivo.

Anlisis de Datos Estadsticos

Captulo VI

60

REGRESIN
CORRELACIN

Introduccin
Regresin mnimo cuadrtica
Regresin lineal
Series temporales o cronolgicas
Correlacin
Prediccin

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

61

Introduccin
Cuando se analizan conjuntamente dos variables que no son estadsticamente
independientes, la relacin de independencia existente entre ellas puede ser funcional
(relacin matemtica exacta entre las dos variables, por ejemplo consumo de energa
elctrica por el uso de un aire acondicionado y el tiempo de enfriamiento) o estadstica
(relacin aproximada entre las dos variables, ejemplo el nivel de ventas de una empresa y el
gasto de publicidad). En este ltimo caso interesa estudiar el grado de dependencia
existente entre las variables. (Teora de la correlacin) y determinar la funcin que mejor
explique dicha dependencia (teora de la regresin).
Dadas dos variables X e Y, con distribucin conjunta de frecuencias

(xi , yj); nij

Se denomina regresin de Y sobre X (Y/X), a la funcin que explica la variable Y para


cada valor de X. De igual forma, la regresin de X sobre Y (X/Y)

determina el

comportamiento de X en funcin de Y, sin prdida de generalidad, consideremos la


distribucin de pares de valores p(xi, yi), con frecuencias unitarias.

Regresin de mnimo cuadrtica


Es una tcnica empleada para obtener la ecuacin de regresin, minimizando la
suma de los cuadrados de las distancias verticales entre los valores Y verdaderos y los
valores pronosticados de , originando la recta de mejor ajuste. Al utilizar este mtodo se
elimina el juicio personal.
Para obtener la funcin de regresin de Y sobre X, en primer lugar se representan
grficamente en un sistema de coordenadas los pares de observaciones de las dos variables
(nube de puntos o diagrama de dispersin), y se selecciona el tipo de funcin que mejor se
ajuste a esos puntos. En segundo lugar se determina dicha funcin haciendo mnima la
suma de los cuadrados de los residuos o errores, ei (diferencia entre la variable dependiente
observada, y , y el valor terico, , que se obtiene al sustituir la funcin escogida x por x i,
esto es ei = yi ):

( yi

Min

)2

i 1

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

62

De igual forma se obtiene la funcin de regresin de X sobre Y haciendo mnimo:


N

( xi

x^)2. Se denominan ecuaciones normales a aquellas que se obtienen al minimizar

i 1

las expresiones anteriores.


Regresin lineal
Si la funcin que se adapta a la nube de puntos es una recta, se habla de regresin
lineal y ser de la forma = a + bx, para la regresin Y/X, y, x^ = a + by, para la
regresin de X/Y. Los coeficientes b y b ' reciben el nombre de coeficientes de regresin
y es la pendiente de la recta, o sea el cambio en promedio en por unidad de cambio
(incremento o decremento) en la variable independiente X. Mientras que a y a ' son los
puntos de corte con el eje Y, o sea el valor estimado de Y cuando X = 0.

Recta de regresin de Y sobre X


N

Se calculan los parmetros a y b que minimizan

( yi

a bxi ) 2 , obtenindose

i 1
N

las siguientes ecuaciones normales

y i = aN + b
i 1

xi
i 1

y i xi = a
i 1

x 2i

xi + b
i 1

i 1

Que dan lugar a:


a = y b x

b=

S.C.(X*Y)=

X *Y -

X*
n

S.C(X) =

S xy
S

S .C.( X * Y )
b =
S .C ( X )

2
x

X )2
n

Autor: Prof. Juan Muoz

S.C.(Y) =

Y )2
n

Anlisis de Datos Estadsticos

63

As, la recta Y/X viene expresada por:

- y =

S xy
S x2

a bX

o Y

(x- x )

(ecuacin reducida)

Recta de regresin de X sobre Y


N

Se minimizan

( xi

a'

b ' yi ) 2 , obtenindose las siguientes ecuaciones normales:

i 1

xi = a ' N + b '
i 1

yi
i 1

y i xi = a '

yi + b '

i 1

i 1

y 2i
i 1

a = X bY

Que dan lugar a:

b' =

S xy
S

2
y

S .C.( X * Y )
b =
S .C (Y )

As la recta viene expresada por:

x^ - x =

S xy
S x2

(y- y )

o X

Autor: Prof. Juan Muoz

a bY

Anlisis de Datos Estadsticos

64

Varianza residual, representa los valores de Y respecto a la lnea de regresin, recordemos


que las desviaciones de los valores de Y respecto a la lnea de regresin estimada se llaman
residuales, y se pueden obtener mediante el siguiente modelo matemtico:
S2y/x

(Yi Y ) 2
n 2

y el error estndar de estimacin se obtiene Sy/x =

Sy / x

Coeficiente de determinacin, lo definiremos como un valor comprendido entre 1 y cero


(1;0) y se usa para evaluar la bondad de ajuste para la ecuacin de regresin, lo
modelizaremos mediante r2 donde r2 = S.C.R / S. C.T
S.C.R = Suma de cuadrados debida a la regresin. = S.C.T S.C.E
S. C.T= Suma de cuadrados Total = (Yi -

y i )2 *

S.C.E : Suma de Cuadrados del error = (Yi - Y i )2 *


S.C.T = S.C.R + S.C.E

EJEMPLO ILUSTRATIVO
1.- la siguiente informacin corresponde a una muestra tomada de 10 restaurant ubicados
en valencia, de acuerdo al nmero de clientes (X) y las ventas mensuales (Y), expresadas
en miles de Bs tal como se describe a continuacin:

#Rest

#Clientes (X)

Ventas (Y)

58

2
6

105 88

10

12

16

20

20

22

26

118

117

137

157

169

149

202

Se desea saber:
a.- Existencia de la relacin entre las variables. (covarianza nube de puntos)
b.- Estime las ventas para 10 clientes (recta de mejor ajuste por el M..M.C)
c.- Varianza residual
d.- Error estndar de estimacin.
e.- Coeficiente de determinacin

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

65

SOLUCIN

b.-

a bX

Y = 60 + 5X (R.M.A.M.M.C), luego estimo las ventas

para 10 clientes y obtengo Y = 60 + 5 (10) = 110 miles de bolvares.

c.-

Varianza Residual S2 = 121,95 m/Bs2

d.- Error estndar de estimacin: S = 13,82 m/ Bs

e.- Coeficiente de determinacin

r2 = 0,90

Nota: Se le sugiere al lector como ejercicio prctico estimar el nmero de clientes para
unas ventas de 150 mil Bs.

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos


EJERCICIO RESUELTO EN EL PROGRAMA STATGRAPHICS
Anlisis de Regresin - Modelo Lineal Y = a + b*X
----------------------------------------------------------------------------Variable dependiente: Ventas
Variable independiente: #clientes
----------------------------------------------------------------------------Error Estadstico
Parmetro Estimacin
estndar
T
P-Valor
----------------------------------------------------------------------------Ordenada
60,0
9,22603
6,50334
0,0002
Pendiente
5,0
0,580265
8,61675
0,0000
-----------------------------------------------------------------------------

Anlisis de la Varianza
----------------------------------------------------------------------------Fuente
Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
----------------------------------------------------------------------------Modelo
14200,0
1
14200,0
74,25
0,0000
Residuo
1530,0
8
191,25
----------------------------------------------------------------------------Total (Corr.)
15730,0
9
Coeficiente de Correlacin = 0,950123
R-cuadrado = 90,2734 porcentaje
R-cuadrado (ajustado para g.l.) = 89,0575 porcentaje
Error estndar de est. = 13,8293
Error absoluto medio = 10,8
Estadstico de Durbin-Watson = 3,22353 (P=0,0027)
Autocorrelacin residual en Lag 1 = -0,705882
El StatAdvisor
-------------La salida muestra los resultados del ajuste al modelo lineal para
describir la relacin entre Ventas y #clientes. La ecuacin del
modelo ajustado es
Ventas = 60,0 + 5,0*#clientes
Dado que el p-valor en la tabla ANOVA es inferior a 0.01, existe
relacin estadsticamente significativa entre Ventas y #clientes para
un nivel de confianza del 99%.
El estadstico R-cuadrado indica que el modelo explica un 90,2734%
de la variabilidad en Ventas. El coeficiente de correlacin es igual
a 0,950123, indicando una relacin relativamente fuerte entre las
variables. El error estndar de la estimacin muestra la desviacin
tpica de los residuos que es 13,8293. Este valor puede usarse para
construir lmites de la prediccin para las nuevas observaciones

Autor: Prof. Juan Muoz

66

Anlisis de Datos Estadsticos

67

SERIES CRONOLGICAS O TEMPORALES


Una serie cronolgica o temporal es una sucesin de observaciones de una variable
registrada a intervalos de tiempo regulares y ordenadas en el tiempo. Se puede considerar
como una variable bidimensional, siendo la variable dependiente, Y, y la magnitud que
queremos analizar, mientras que la independiente es el tiempo, t.
La serie cronolgica se representa por Yt, si se considera explcitamente el ao t,
donde t = t1, t2, .tn y la poca i, del ao a que se refiere la observacin i = 1, 2, ,12 por
ejemplo, si son meses; i = 1,2,..,k, en general.
Componentes de una serie cronolgica o temporal
El anlisis clsico de series cronolgicas, considera que una serie cronolgica esta
formada por cuatro componentes:
Tendencia (T): movimiento regular de la serie, a largo plazo, para establecer
una lnea de tendencia, que sea lo suficientemente vlida.
Variaciones estacinales (E): oscilaciones a corto plazo de perodo regular,
menor o igual a un ao.
Variaciones cclicas (C): movimientos a mediano plazo (superior al ao) en
torno a la tendencia, cuyo perodo y amplitud pueden presentar cierta
regularidad, crsis-recuperacin.
Variaciones irregulares (A): fluctuaciones debidas a factores eventuales,
espordicos e imprevisibles que no muestran una periodicidad reconocible.

Para describir cada una de las componentes, se hace uso de mtodos grficos y
esquemas o modelos. Un estudio grfico de los datos proporciona bastante informacin de
su evolucin a corto y largo plazo, y permite detectar la amplitud de las oscilaciones, la
presencia de ciclos, de valores anmalos, etc. Mediante los esquemas se trata de reproducir
la evolucin temporal segn una pauta regular que concuerde con los datos, sin intentar
explicar las causas de variacin de cada componente. Los esquemas utilizados
generalmente son dos:
Esquema aditivo: Yt = Tt + Et + Ct + At.
Esquema multiplicativo: Yt = Tt *Et * Ct * At

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

68

Para seleccionar el tipo de esquema ms adecuado, se puede utilizar varios mtodos


(grfico, grfico media desviacin tpica, etc.), el esquema ms utilizado con datos
econmicos es el multiplicativo; por ello, le prestaremos especial atencin en este manual.

Anlisis de la Tendencia
Consiste en expresar la tendencia mediante una funcin matemtica a partir de los
valores de la variable dependiente Y, en el tiempo t. Las funciones suelen ser de tipo lineal
o exponencial, y el ajuste se basa en el mtodo de los mnimos cuadrticos. Para el caso
lineal, consideremos dos situaciones:
1. Si se dispone slo de datos anuales, se define la tendencia anual de la serie como:
Tt = y t = a + bt
Donde a, b, son los parmetros a determinar.
2. Si se trabaja con datos mensuales, trimestrales, cuatrimestrales, etc. o con
cualquier otra periodicidad, es decir, se tienen datos del tipo [subperodos (i)/ aos
(t)], los pasos a seguir para llevar a cabo el clculo de las tendencias para cada
subperodo (i) del ao t, son los siguientes:
Se calculan las medias anuales (medias para cada ao de las k
observaciones)

y i.t
yt

i 1

t = t1, t2,tn

Se obtiene la tendencia media anual ajustando una recta a ese conjunto de


datos

Tt

yt

a bt

Se calcula T t y la tendencia k-ensima Tt para cada subperodo i de cada


ao t, teniendo en cuenta que esta ltima es tambin lineal, y que el
incremento de un subperodo al siguiente es b/k dado que el incremento
anual es b, por lo tanto:

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

Tt = Tt + [ i
Donde [ i

k 1
]b/k,
2

69

i = 1, 2, ,k

k 1
], es el contador del nmero de subperodos entre el momento
2

central del ao t, y el punto central del subperodo i, dentro del mismo ao t.


A continuacin un ejemplo demostrativo:
Durante el ao 2000 las ventas de cemento (miles de toneladas) en la regin central,
arrojaron los siguientes resultados:
Ao:

2000

2001

2002

2003

2004

Regin central (Y)

Estime las ventas para el ao 2010

b) 20.

SOLUCIN
Ao:

2000

2001

2002

2003

2004

-2

-1

X*Y

-14

-9

X2

Regin central (Y)


(X)

Y = 6,4, luego se procede a evaluar la recta de mejor ajuste por el mtodo de

los mnimos cuadrados: Y

a bX

donde

S .C.( X * Y )
b =
S .C ( X )

a = y b x entonces: Y = 6,4 -0,011x donde Y = 6,4 -0,011(7) = 6,3 miles de toneladas.


Interpretacin: Se estima que de mantenerse la tendencia las ventas sern de6,3 m/t

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

70

CORRELACIN
Se llama Correlacin a la teora que trata de estudiar la relacin o dependencia que
existe entre las dos variables que intervienen en una distribucin bidimensional.
Correlacin lineal, segn el diagrama de puntos se condense en torno a una lnea recta.
Correlacin positiva o directamente proporcional, cuando a medida que crece una
variable la otra tambin crece.
Correlacin negativa o inversamente proporcional, cuando a medida que crece una
variable la otra decrece.
Correlacin nula, cuando no existe ninguna relacin entre ambas variables, en cuyo caso
los puntos del diagrama estn esparcidos al azar, sin formar ninguna lnea, tambin se dice
que las variables estn incorreladas.
La correlacin es de tipo funcional, s existe una funcin que satisface todos los valores
de la distribucin.
A continuacin se presenta varios diagramas de dispersin, indicando la relacin que existe
entre las variables X y Y.
Y

(a)

(b)

(c)

Y
Y

(d)

Autor: Prof. Juan Muoz

(e)

Anlisis de Datos Estadsticos

71

COEFICIENTES DE CORRELACIN.
1. Coeficiente de correlacin de Pearson:
Cuando comenzamos a hablar de serie bidimensionales, y adems observamos por
via intuitiva, mediante el diagrama de dispersin que existe una correlacin lineal entre las
variables tiene inters cuantificar de forma ms objetiva y precisa esta correlacin.
Podemos decir que las aplicaciones prcticas con series en las que ambas variables
son continuas y la escala de medicin son de tipo intervalo o de razn, por ejemplo salario
y unidades producidas, edad y tiempo de servicio, peso y estatura, ventas y cursos
realizados, etc. para estas combinaciones podemos aplicar el coeficiente de correlacin
de Pearson. y se pueden obtener mediante el siguiente modelo matemtico:

Rp =

S .C. X * Y
S .C. X * S .C.Y

El signo del coeficiente de Pearson, viene dado por el signo de la covarianza, ya que las
desviaciones tpicas son siempre positivas. As pues, el signo de la covarianza decide el
comportamiento de la correlacin:
Si la covarianza es positiva, la correlacin es directamente proporcional.
Si la covarianza es negativa, la correlacin es inversamente proporcional.
Si la covarianza es nula es decir vale cero (0), no existe correlacin.
Se demuestra que el coeficiente de correlacin lineal, es un nmero real comprendido entre
-1 y +1 [-1,+1]. Veamos que tipo de dependencia existe entre las variables X y Y, segn el
valor de r.
1.

Si r=1, todos los valores de la variable bidimensional (X, Y) se encuentra situados

sobre una recta; en consecuencia, satisfacen la ecuacin de una recta. Entonces se dice que
entre la variables X e Y existe una dependencia aleatoria.
2.

Si -1<r<0, la correlacin es negativa y ser tanto ms fuerte a medida que r se

aproxima a-1, y tanto ms dbil a medida que se aproxima a 0. En este caso se dice que las
variables X e Y estn en dependencia funcional.

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos


3.

72

Si r=0, no existe ningn tipo de relacin entre las dos variables. En este caso se dice

que las variable X e Y son aleatoriamente independientes.


4.

Si 0<r<1, la correlacin es positiva y ser tanto ms fuerte a medida que r se

aproxima a 1 y tanto ms dbil a medida que se aproxima a 0. En este caso se dice que las
variables X e Y estn en dependencia aleatoria.
5.

Si r=1, todos los valores de la variable bidimensional (X, Y) se encuentran situados

sobre una recta; en consecuencia, satisfacen la ecuacin de una recta. En este caso se dice
que entre las variables X e Y existe una dependencia funcional.

2.- Coeficiente de correlacin de Spearman.


Los datos directos pueden convertirse en rangos o posiciones, y stas a su vez
pueden agruparse como los datos originales. Por ejemplo, la posicin en clase es un
ejemplo de la conversin de puntuaciones ordenadas en rangos: se seleccionan las notas
obtenidas en un parcial de anlisis de datos de 80 alumnos y se le asigna la posicin 1 al
que obtuvo la mayor nota y 2 a la segunda mayor nota y as sucesivamente, y 80 a la
puntuacin ms baja. Cuando no se dispone, no se necesitan, o no son convenientes
medidas ms refinadas, con frecuencia los datos se recogen as. Independientemente como
se originaron las posiciones, 1, 2, 3, (n-1).
Este coeficiente de correlacin se puede obtener mediante el siguiente modelo
matemtico:
rs = 1 -

( X i Yi ) 2
n(n 2 1)

Donde (Xi Yi ) es la diferencia entre el rango en X y en Y de la misma situacin (i).


La interpretacin de este coeficiente es la misma que se dio al primer coeficiente
(Pearson).

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

73

3.- Coeficiente de correlacin biserial puntual.


Una variable da lugar a medidas de intervalo o razn y la otra da lugar a medidas
nominales dicotmicas (por ejemplo el sexo, estado civil, presentacin de un examen, etc.)
por ejemplo podemos observar volumen de ventas en un mes (variable X) y ejecutivos
segn sexo (variable Y) asignando (1) a masculino y (0) a femenino. La observacin de
ambas variables, Ventas (X) y sexo (Y) dar dos puntuaciones por ejecutivos.
La relacin entre X y Y se puede calcular mediante el coeficiente productomomento de Pearson, a partir de los datos como se dan, y el resultado se denomina
coeficiente de correlacin biserial- puntual y lo simbolizaremos por rbp . El trmino de
biserial se refiere al hecho de que existe dos series de observaciones en Y; las puntuaciones
de cero o uno. Tanto el nombre como la frmula se deben a kart Pearson. y su modelo
matemtico es:

rbp =

X (1)

X (0)
S

n1 * n 0
n( n 1)

Donde: X (1) es la media en X de las puntuaciones 1 en Y.


X ( 0 ) es la media en X de las puntuaciones 0 en Y.

Sx

es la desviacin tpica de las n puntuaciones en X

n1

es el nmero de puntuaciones con valor 1 en Y

n0

es el nmero de puntuaciones con valor 0 en Y

es el nmero total de sujetos observados tanto en 1 como en 0,n = n1 + n0

La interpretacin de este coeficiente es la misma que se dio al primer coeficiente


(Pearson).
4.- Coeficiente de correlacin Phi,
Este caso se presenta cuando dos variables son de tipo nominal dicotmica, es
decir, ambas variables son de tipo nominal con solo dos categoras que representan
presencia y ausencia, de una determinada caracterstica, sea por ejemplo cuando una de las
variables es sexo (solo reconocemos si el sujeto es de sexo masculino o no, lo que
entenderemos como femenino) y la otra variable es si vot o no, en una eleccin. En la

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

74

primera variable (X) identificaremos como categora 1 al sexo masculino y cero (O) al sexo
femenino. En la segunda variable (Y), identificaremos a la respuesta afirmativa s, con la
categora (1) y al no vot con la categora (0). Y se calcula mediante el siguiente modelo
matemtico:
1
Y=
0
1
1

0
1b

c+d

total

a+c

b+d

n=

1
X=
0

total
a+b

bc ad
(a b)(c d )(a c)(b d )

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

75

Los datos se presentan a continuacin:

Fem.
0

Variable Y
Masc
1

a+b

No Vot 0

c+d

Totales

a+c

b+d

Vot

totales

Variable X

A continuacin se presenta un ejemplo ilustrativo:


Se tomo una muestra a los habitantes del central Tacarigua, registrado en la mesa electoral
(n=114) en el colegio Francisco J Cisneros, como se ilustra a continuacin:
Variable Y
Masc
1

Fem.
0
Vot

totales

28

13

41

No Vot 0

25

48

73

Totales

53

61

114

Variable X

Aplicamos el modelo matemtico:

bc ad

(a b)(c d )(a c)(b d )

(25)(13) (28)(48)
(41)(73)(53)(61)

325 1344

1019
9676369 3110,69

Autor: Prof. Juan Muoz

0,33

Anlisis de Datos Estadsticos

76

Interpretacin: Este resultado indica que existe una relacin inversa, es decir o
sugiere que hombres tienden a no votar, o hombres (1) tienden a asociarse la
abstencin (0).

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

Autor: Prof. Juan Muoz

77

Anlisis de Datos Estadsticos

78

ACTIVIDAD DE APRENDIZAJE PRCTICA DE DISTRIBUCIN


BIDIMENSIONAL
1.- En la industria de alimentos de la regin central, se han recogido datos sobre la
facturacin en millones de bolvares anuales (X) y el nmero de trabajadores (Y) de 8
empresas, con estos datos se han calculado los siguientes estadsticos:
xiyi = 364
xi 56 yi = 40 xi2 = 524 yi2 =256
Determine la recta de regresin de Y/X y de X/Y por el mtodo de los mnimos cuadrados.
2- A partir de las siguientes observaciones, obtenidas al estudiar el nmero de horas
trabajada (X) y la edad (Y) de un conjunto de 16 trabajadores, construya el grfico de
dispersin o nube de puntos de la variable bidimensional (X,Y).
Trabajador 1
X
2
Y
18

2
2
18

3
3
19

4
3
20

5
3
18

6
3
22

7
4
19

8
4
20

9
3
20

10
3
20

11
3
22

12
4
20

13
2
19

14
2
23

15
2
19

16
4
18

3- A partir de las siguientes observaciones, obtenidas al estudiar el peso, en Kg. (X), y el


nmero de hijos en la familia (Y) de 25 individuos, construya el grfico de dispersin o
nube de puntos de la variable bidimensional (X,Y).
X
Y

68,2 87,8
2
2

85
3

X
Y

78,1
2

71,5
4

61,2
2

57,5 68,2 75,2 77,5 78,3 81,5


3
3
3
4
4
3
59,6
3

78,3
1

77,5
3

73
5

73
2

64
3

88,5
4

62,5 85,9 83,6


3
4
2
85,2
4

61,5
1

94
3

4- Para un conjunto de empresas, el nmero de empleados (X) y la produccin anual, en


miles de unidades (Y) durante el ao 2001 ha sido la siguiente:
X/Y
5-10
10-18
18-25
25-40
40-60

2-5
2
6
3
0
0

5-12
4
7
3
4
3

12-20
1
6
5
3
5

20-30
0
4
5
3
5

Determine la distribucin de la produccin anual de las empresas con al menos 18


empleados, as como la distribucin del nmero de empleados. Calcule, adems, la
produccin media anual.
5- En un grupo de 50 empresas, se han estudiado las variables nmero de horas trabajadas
semanalmente (X) y salario mensual en millones de bolvares (Y), obtenindose la
siguiente distribucin conjunta:

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos


900 1.020
12
2
1

X/Y
30 - 35
35 - 40
40 - 45

1.020 1.140
2
21
3

79
1.140 1.260
1
2
6

Determine si el nmero de horas trabajadas semanalmente y el salario mensual en millones


de bolvares son estadsticamente independientes. Adems, calcule la covarianza y el
coeficiente de correlacin lineal.
6- Se conocen las preferencias de una pareja sobre seis productos de la misma gama,
recogidas en la siguiente tabla, donde 1 se refiere al producto menos preferido y 6 al ms
preferido:
Productos
A
B
C
D
E
F

Preferencias del hombre


2
1
3
5
6
4

Preferencias de la mujer
1
2
3
6
5
4

Existe asociacin entre las preferencias de los dos miembros de la pareja? Conteste a la
misma pregunta si los productos B y C son igualmente preferidos por la mujer.
7- La siguiente tabla recoge informacin acerca de las hipotecas (en millones de bolvares)
sobre los distintos tipos de fincas en el municipio Carlos Arvelo en el ao 2005:
Naturaleza de las
fincas

Cuanta del capital prestado

Fincas rsticas

0-6
85

6-12
59

Fincas urbanas

42

725

Ms de 12
5
101

Existe asociacin entre la naturaleza de las fincas y la cuanta del capital prestado?
8- A partir de las siguientes observaciones, obtenidas al estudiar durante dos aos el gasto
mensual en publicidad (X) y las ventas mensuales (Y) de una empresa, ambas en
millones de bolvares, calcule la recta de regresin que explique las ventas en funcin del
gasto en publicidad y error estndar de estimacin, y el coeficiente de determinacin.
X
15,2 14,9 15
14,9 14,2 14,6 15,5 15,1 15,4 14,7 14,3 15,7
Y
715 705 704 715 654 698 758 708 714 703 676 771
X
Y

15,2
726

14,8
721

15,2
701

14,2
656

15,7
743

14
644

14,7
676

16,7
813

Autor: Prof. Juan Muoz

14,9
710

15
712

13,6
648

14,7
719

Anlisis de Datos Estadsticos

80

9-En una ciudad se est realizando un estudio sobre la relacin existente entre el ingreso
mensual familiar, en millones de bolvares (X) y el gasto mensual familiar en comidas
para llevar, en millones de bolvares (Y). Para ellos, se dispone de informacin acerca de
las dos variables anteriores sobre un conjunto de 60 familias de dicha localidad.
Xi 2.262 3.412 2.496 1.746 2.982 1.052 723 4.225 2.916 4.331 3.700 3.698 2.126 3.475 2.050
Yi 27
47
38
16
12
20
10
65
50
70
58
65
30
60
32
Xi 3.129 1.992 2.167 3.569 3.514 2.654 3.282 1.918 4.411 3.485 2.357 2.358 1.718 2.243 2.149
Yi 22
2
7
56
64
50
58
30
88
55
32
45
24
20
23
Xi 2.228 2.994 2.964 2.396 1.735 1.103 1.584 4.067 2.247 3.378 2.957 750 3.580 3.666 1.844
Yi 31
50
0
17
60
38
72
58
20
70
13
14
50
35
25
Xi 2.651 2.824 1.284 1.711 3.161 1.890 3.988 2.393 1.669 4.261 2.011 953 3.616 2.254 1.167
Yi 31
50
0
17
60
38 72
58
20
70
13
14
50
35
25

(a) Obtenga la recta de regresin que explica el gasto en comidas preparadas en funcin del
ingreso.
(b) Calcule la varianza residual y la varianza explicada por la regresin, comentando la
bondad del ajuste.
(c) Un empresario se plantea situar un negocio de comidas para llevar en un a zona de la
ciudad en la que habitan aproximadamente 800 familias con ingresos familiares mensuales
entre 2.500 millones de bolvares y 3.500. Cul ser su estimacin del gasto mensual en
comida preparada para dicha zona a partir de los resultados de los apartados anteriores?
10- En la siguiente tabla se presentan los datos (en miles de personas) del desempleo
registrado por el INE seccional Carabobo, por edades y sexo, durante el perodo 1998-2000.
Edades
Menos 20 aos
20-24 aos
25-54 aos
55 y ms aos
TOTALES

2002
2003
2004
Varones
Mujeres
Varones
Mujeres
Varones
Mujeres
1.061.510,33
60.457,25
962.265,08
49.122,25
937.982,17
42.419,92
59.346,08
166.796,50
48.101,67 141.431,00
40.849,83 132.643,83
164.435,92
784.673,17
138.818,33 718.127,42
131.272,92 700.346,75
778.402,67
59.373,92
713.720,83
60.724,25
698.502,42
66.174,58
2.063.695,00 1.071.300,83 1.862.905,92 969.404,92 1.808.607,33 941.585,08

Calcule e interprete la serie de ndices simples anuales del desempleo registrado en


Venezuela durante los aos 2002-2004 por sexo. Cul ha sido la variacin relativa del
desempleo, en el perodo 2002-2004, para el conjunto de la poblacin?

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

81

11- En la Encuesta de Poblacin Activa (EPA) la poblacin de 16 ms aparece dividida


en tres grupos: Poblacin activa, Poblacin inactiva y Poblacin contada aparte. Si se sabe
que en el ao 2000 el porcentaje de poblacin en cada grupo era, respectivamente, 49,84%,
49,69% y 0,4%, y que los ndices simples (en porcentaje) para esos grupos en el perodo
2002-2004 con base 2000 son:
Grupos de poblacin
98

99

I i , 97
Activos
Inactivos
Poblacin contada aparte

00

I i , 97

100,89
100,49
77,5

101,87
100,51
78,16

I i , 97
104,49
98.96
53,87

Fuente: Elaboracin propia a partir de los datos del INE (Servidor web del INE, www.ine.ve)

Calcule la serie de ndices compuestos ponderados para la poblacin de 16 ms aos


durante los aos 2002-2004. Cul ha sido la variacin relativa experimentada por la
poblacin de 16 ms aos durante los aos 2002-2004?
12- Una empresa conservera fabrica seis tipos de productos (A,B,C,D,E y F). Los precios
de venta por unidad (p) y el nmero de unidades vendidas para cada uno de los productos
(q) en los aos 1998, 1999 y 2000 se recogen en la siguiente tabla:
Ao 1998
Producto
A
B
C
D
E
F

p
25
58
62
112
31
16

q
1.500
2.800
6.000
7.300
10.500
4.600

p
34
92
55
96
47
22

Ao 1999
Q
2.300
1.900
6.200
7.600
9.600
3.800

p
36
72
60
125
39
25

Ao 2000
q
2.500
3.100
5.800
8.900
11.300
4.900

(a) Obtenga los ndices simples de precios y cantidades para los aos 1999 y 2000 en base
1998. Interprete los valores obtenidos. En particular, cul es el mayor ndice simple de
precios?, y el menor de cantidades?
(b) Calcule, para cada producto, la variacin relativa de los precios y las cantidades
vendidas en cada ao con respecto al anterior. Obtenga tambin la tasa de variacin y la
tasa media de variacin anual en el perodo 1998-2000. Comente los resultados.
13- Una empresa conservera fabrica seis tipos de productos (A,B,C,D,E y F). Los precios
de venta por unidad y el nmero de unidades vendidas para cada uno de los productos en
los aos 2000 - 2001 y 2002 se recogen en la siguiente tabla:

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

Producto
A
B
C
D
E
F

Ao 2000
Q
25
58
62
112
31
16

82

Ao 2001
Q

p
1.500
2.800
6.000
7.300
10.500
4.600

34
92
55
96
47
22

Ao 2002
q

p
2.300
1.900
6.200
7.600
9.600
3.800

36
72
60
125
39
25

2.500
3.100
5.800
8.900
11.300
4.900

(a) Obtenga los ndices compuestos de precios y cantidades de Laspeyres y Paasche en base
2000.
(b) Calcule los ndices de Edgeworth de precios, en base 2000, utilizando su expresin
como media aritmtica ponderada de ndices simples.
(c) Calcule los ndices de Fisher en base 2000.
(d) Cul es el ndice de valor del ao 20002 en base 2000?

14- Se conocen los ndices de precios (en tanto por ciento) de ciertos productos industriales
para el intervalo de tiempo 1992-1996 con base en el ao 1990, as como para el perodo
1997-2001 con base 1996.
Aos
ndice
(base 90)
ndice
(base 96)

1992
1,26

1993
1,35

1994
1,40

1995
1,46

1996
1,53

1997

1998

1999

2000

2001

1,15

1,25

1,32

1,40

1,41

Complete la tabla con lo ndices de precios que faltan. Calcule la serie de ndices de precios
con base 1992.

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

83

15- Se dispone de la siguiente informacin acerca de la serie mensual del ndice de


produccin Industrial (base 1990) en el perodo 1997-2004:
1997
1998
1999
Enero
91,1
104,2
102,7
Febrero
95,2
101,5
102,4
Marzo
103,5
113,9
106,4
Abril
97
97,4
98,3
Mayo
102,1
112
108,4
Junio
105,5
112,7
106,2
Julio
102,7
106,2
110,4
Agosto
64,2
67,4
66,4
Septiembre
104,9
105,6
104,8
Octubre
104,4
108,1
114,8
Noviembre
109,2
110,4
108,5
Diciembre
99,9
95,2
96,8
Fuente: Servidor web del INE, www.ine.ve

2000
105,7
102,1
106,3
115,8
111,6
114,3
119,5
71,7
115,8
125
115,5
106,9

2001
110,5
114,2
121,3
112,4
117,8
123,8
126,5
76,5
120
123,7
122
112

2002
112,9
113,9
123,7
114,9
121,5
126,1
128,3
81,1
125
123,4
128,4
118

2003
118,5
125,2
136,3
114,8
133,1
132,7
128,5
86,9
125,1
126,8
133,3
112,3

(a) Obtenga la tendencia por el mtodo analtico, ajustando una funcin de tipo lineal.
(b) Represente grficamente la serie y la recta calculada.

16- Una empresa fabricante de helados presenta los siguientes niveles de facturacin
cuatrimestrales:
Cuatrimestres / Aos
1
2
3

2000
1.520
3.813
2.500

2001
1.566
3.927
2.550

2002
1.605
4.084
2.627

2003
1.637
4.227
2.718

2004
1.688
4.397
2.773

Obtenga la tendencia de su facturacin por el mtodo de las medias mviles.


17- Segn la Encuesta de Poblacin Activa, el nmero de mujeres en desempleadas (en
miles) en Venezuela por trimestre entre 2001 y 2004 es el siguiente:
Trimestre / Ao
1
2
3
4

2001
1.773,8
1.757,0
1.795,4
1.773,2

2002
1.706,8
1.694,0
1.709,2
1.674,3

2003
1.546,1
1.478,9
1.495,6
1.493,5

2004
1.456,8
1.378,7
1.378,2
1.345,2

Fuente: Servidor web del INE, www.ine.ve

Qu esquema de interaccin es ms apropiado para estudiar esta serie temporal?


18- Las precipitaciones totales, en milmetros por metro cuadrado, recogidas en la regin
del oriente entre 2000 y 2004, vienen reflejadas en la siguiente tabla:

Autor: Prof. Juan Muoz

2004
124,2
120,9
131,4
114,4
131,9
129,4
128
89,7
121,5
130,6
127
107,4

Anlisis de Datos Estadsticos

Cuatrimestre / Ao
1
2
3

2000
244,7
173,3
537,4

2001
69,7
77,5
227,7

84

2002
120,0
56,6
182,3

2003
86,1
47,6
259,2

Fuente: Servidor web del INE, www.ine.ve

Suponiendo que la tendencia anual de la serie temporal se puede representar mediante


lineal y que existe estacionalidad estable en el tiempo, seale la afirmacin correcta:
(a) El ndice de variacin estacional para el primer cuatrimestre por el mtodo de la razn a
la tendencia es 68,3%.
(b) Las precipitaciones previstas para el primer cuatrimestre del ao 2004en la regin del
oriente fueron superiores a 60 milmetros por metro cuadrado
(c) Ninguna de las anteriores es cierta.

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

Captulo VII

85

NMERO

Nmero ndice
Uso de los nmeros ndice
Tipos de nmeros ndice
Nmero ndice como deflactor

Autor: Prof. Juan Muoz

NDICE

Anlisis de Datos Estadsticos

86

Nmeros ndice.
Los nmeros ndice son medidas estadsticas que permiten estudiar los cambios
experimentados por una magnitud <<simple o compuesta>> a lo largo del tiempo o del
espacio, a otro en precio, cantidad, valor o algn otro elemento de inters. Lo ms usual es
trabajar con datos temporales, de modo que se establezca un punto de partida, conocido
como perodo base o de referencia, con respecto al que se va a comparar el valor de la
magnitud en cualquier otro perodo, denominado actual o corriente. Estas comparaciones se
efectan en forma de cociente, por lo que los ndices son adimensionales.
El nmero ndice describe principalmente las variables econmicas; mide cuanto
cambia una variable con el tiempo. S el ndice es mayor a 100, se dice que hay un
aumento, en caso contrario, es decir si el ndice es menor de 100 existe una disminucin.
Uso de los nmeros ndices
Son indicadores de la marcha de los negocios
Permiten comparar los cambios producidos en diferentes sectores de una economa.
Se usa como deflactor, es decir, se hacen ajuste respecto al cambio del valor
monetario que permite realizar comparaciones a los largo del tiempo.
Ejemplo:
Cmo se calcula la inflacin?
Primero definiremos la inflacin como el aumento de los precios de los factores
productivos, bienes y servicios. Se calcula mediante las tasas de crecimiento de los precios
<< porcentaje en que han variado los precios en un perodo de tiempo>> y los nmeros
ndices << la relacin de los precios respecto a los vigentes en una fecha determinada >>.
Tipos de nmeros ndice
ndice de base fija
1. ndice simple
ndice de base variable

ndice no ponderado
ndice de precios de Laspeyres

2. ndice compuesto:
ndice ponderado

ndice de precios de Paasche

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

87

ndice de Valor
3. ndice especiales
ndice de productividad
1. ndice Simple.
Son ndices que se construyen sobre una sola variable, para un solo regln y
presenta el porcentaje de variacin de valor o la cantidad de dicho bien en el periodo
considerado respecto al ao base.
1.1 ndice de Base Fija.
Se compara la variable siempre con el mismo ao.
I

Pn
*100
Po

Pn: Precio de un perodo dado


Po: Precio del ao base

Ejemplo:
Precio del Arroz
%

Ao

Bs./Kg.

I.B.F

2002

29

100

2003

37

127,5

27,5

2004

25

86,20

(13,7)

Interpretacin: Se puede indicar un incremento en el precio del arroz de un 27,5%


del precio del ao 2003 con respecto al ao 2002. Pero, por consiguiente se puede indicar
una disminucin en el precio del arroz del 13,7% del precio del ao 2004 con respecto al
ao 2002.

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

88

1.2 ndice de Base Variable.


Se compara un ao con respecto al otro inmediatamente anterior.

Pn
* 100
P(n 1)

Continuando con el mismo ejemplo tenemos:

Precio del Arroz


%

Ao

Bs./Kg.

I.B.V

2002

29

100

2003

32

100,3

10,3

2004

37

115,6

15,6

Interpretacin: El ndice de precio del ao 2004 con respecto al ao 2003 es de


67,5% lo que significa una disminucin de 32,5 en los precios del arroz.
2. ndice Compuesto.
Son aquellos ndices que se construye sobre varias variables en forma simultnea.
ndice Compuestos No Ponderado: Cuando todos los valores considerados
tienen igual importancia.
ndice Compuestos Ponderados: A cada valor del ndice se le atribuye su
respectiva importancia.
Los ndices mas frecuentes son:
2.1 ndice Compuestos No Ponderado.
Son tambin conocidos como ndices de agregados simples. Son los ms sencillos
de los ndices compuestos, pero su utilidad es muy limitada y su construccin consiste en la
sumatoria de los agregados para cada ao con relacin a la suma de los agregados del ao
base. En resumen; es la suma de todos los elementos del compuesto, para el perodo dado y
luego dividiendo este resultado entre la suma de los mismos elementos durante el perodo
base, multiplicado por 100 para ser expresado en porcentaje.

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos


Pn

Po

89

* 100

Estos ndices representan los cambios en los precios y/o cantidades para grupo de
artculos. Una vez que tengamos el resultado su interpretacin es: que es existe un
incremento o disminucin de un x % de los precios de estos artculos con relacin a los
precios del ao base.
2.2 ndice Compuesto Ponderados.
Las mejoras de un ndice se basan en la introduccin de sistemas de ponderacin
apropiados para su construccin

Pn * Qn
Po * Qn

*100

Donde Q representa el peso de importancia agregados.


Formas De Ponderar Un ndice.
Existen dos (02) formas de ponderar un ndice:
Mtodo de Laspyres: Consiste en usar las cantidades consumidas durante el
periodo base al calcular cada nmero ndice.
Mtodo de Paasche: Consiste en usar las cantidades consumidas durante el periodo
en estudio para cada ndice.
2.2.1 ndice de Precios Laspeyres.
Es un ndice de precio de agregacin ponderada con pesos de las cantidades del ao
base. Se calcula de la siguiente manera:

Iio T

Pn * Qo
Po * Qo

*100

Este ndice de precio se construye ponderando cada precio por la cantidad


consumida en el ao base. Constituye la tcnica de mayor uso, ya que requiere medidas de
cantidades durante un solo periodo.

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

90

Interpretacin: Los ndices de Laspeyres miden los cambios porcentuales en los


precios que ocurriran en cualquier periodo dado, si se hubiesen comprado los mismos
artculos y en las mismas cantidades del periodo base seleccionado.
2.2.2 ndice de Precio de Paasche.
Es un ndice de precios de agregacin ponderada con pesos de las cantidades del
ao dado.
Se calcula de la siguiente manera:

IP o T

Pn * Qn
Po * Qn

* 100

Este mtodo considera los valores de las cantidades en el periodo considerado, por
tanto se toma en cuenta los ajustes que hacen los consumidores antes las variaciones de los
precios.
Interpretacin: Los ndices de Paasche miden los cambios porcentuales en los precios que
ocurriran en cualquier periodo dado si se hubiese comprado en un periodo de referencia o
base los mismos artculos y en las mismas cantidades que el periodo dado en este momento.
3. ndices Especiales.
Existen varios ndices que reflejan la actividad econmica global, los cuales
incluyen una diversidad de indicadores econmicos tales como precios de acciones
comunes, nuevos periodos de planta y equipo, valores, productividad, etc.
3.1 ndice de Valor.
El valor de un solo bien es el producto de su precio y su cantidad, V

P *Q el valor

de un agregado de bienes es la suma de los valores individuales de los bienes:


V

P Q . La descripcin de esta variacin se hace mediante la comparacin por

cociente entre los valores alcanzados por un conjunto de artculos en dos (02) periodos
diferentes, de lo que resulta un nmero ndice, que por el significado simple que posee no
requiere consideraciones especiales.
V

Pn * Qn
Po * Qo

* 100

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

91

Interpretaciones: Este ndice mide el cambio en el valor de un agregado de valores,


expresa la consistencia entre el ndice de precio y cantidades, es decir, el ndice de valor
expresa el cambio en los valores entre los periodos base y el actual.

3.2 ndice de Productividad.


La palabra productividad significa rendimiento, eficiencia en la produccin. Se mide
por la razn de produccin final a insumos que intervinieron en ella. Si se eleva esta razn,
es decir, mayor produccin con las mismas unidades de insumo, aumenta la productividad.
En la prctica suele obtenerse un ndice de productividad sobre la base de un solo insumo
que considera el factor de mayor importancia. Se calcula de la siguiente manera:

Qn / Qo
N

*100

Qn/Qo= Suma de todas las cantidades relativas de bienes.


N: Nmero de cantidades relativas de bienes utilizados.
De manera ms concisa se puede decir que el ndice de productividad indica la
variacin de dicha productividad en relacin con el ao base, es decir, se toma un
determinado ao anterior. Se tiene en cuenta las horas hombres por unidad de produccin.

Nmero ndice como deflactor


El nmero ndice como deflactor hace referencia al ndice de precios al consumidor,
el cual mide los cambios en los precios de una canasta fija de artculos y servicios en el
mercado de un periodo a otro.
El ndice de precios al consumidor cumple varias funciones entre las que
mencionaremos:
Permite a los consumidores determinar el grado de deterioro de su poder
adquisitivo por el aumento de los precios.
Permite la revisin de salarios, pensiones y otros tipos de ingresos para
mantener el lapso con los cambios en los precios.
Es un indicador econmico de la tasa de inflacin.

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

92

Sirve para determinar el ingreso personal real disponible, para deflacionar las
ventas u otras series, para determinar el poder de compra de la unidad monetaria
y evaluar el aumento en el costo de la vida.
La deflacin estadstica es un procedimiento mediante el cual se eliminan los
efectos en las variaciones en precios sobre los valores de las ventas o de la produccin.
Para la deflacin estadstica se utiliza cierto ndice de precios llamado Deflactor. En
general, el procedimiento viene expresado por la relacin:

Valor real de bienes y servicios =

Valor, actual, de, bienes, y, servicios


ndice, de, precios, apropiados

Entre las deflaciones ms comunes tenemos:


Ingreso Real =

Ingreso, No min al
ndice, de, precios, al, consum idor

Salario Real =

Salario, No min al
ndice, de, precios, al, consumin dor

Ejemplos:
Supongamos que a un empleado que ganaba 150.000 Bs. en el mes de Agosto de
2001 se le reajust su sueldo en Junio de 2002 a 170.00 Bs. Sabiendo que el ndice de
precios al consumidor pas de 100% en el 2001 a 195% en el 2002, determine el salario
mnimo real del empleado.
SR =

SR =

150 .000
* 100
100

170 .000
* 100
195

= 150.000

= 87.179,48

Observamos como el empleado ha visto desmejorada su situacin econmica a pesar


del reajuste, es decir, con 170.000 Bs. slo podr comprar bienes y servicios por 87.179,48
Bs.

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

93

REFERENCIAS
BIBLIOGRAFICAS
Azorn, F. y Snchez Crespo, J. L. (1986). Mtodos y aplicaciones del muestreo. Madrid:
Alianza Universidad.
Anderson, D. Sweeney, D. Williams, T. (2001). Estadstica para Administracin y
Economa. Mxico: Internacional Thompson Editores.
Batanero, C. (2001). Didctica de la estadstica. Granada: Universidad de Granada.
Batanero, C. y Godino, J. D. (2001). Anlisis de datos y su didctica. Granada:
Departamento de Didctica de la Matemtica.
Berenson, M y Levine, D. (1996) Estadstica bsica en administracin. Mxico: Prentice
Hall Hispanoamericana.
Bisquerra, R. (1989). Mtodos de investigacin educativa. Barcelona: CEAC.
Canavos, G. (1996). Probabilidad y estadstica. Mxico: Mc Graw Hill.
Cid, A., Delgado, C. y Leguey, S. (1999). Introduccin al muestreo en poblaciones finitas.
Madrid: ENE.
Cockcroft, W. H. (1985). Las matemticas si cuentan. Informe Crokcroft. Madrid:
Ministerio de Educacin y Ciencia.
DeGroot, M. H. (1988). Probabilidad y Estadstica. Delaware: Addison-Wesley
Iberoamericana.
Glass, G y Stanley J. (1970). Mtodos estadsticos aplicados a las ciencias sociales.
Espaa: Prentice Hall Internacional.
Godino, J. D. y Batanero, C. y Caizares, M. J. (1987). Azar y Probabilidad. Fundamentos
didcticos y propuestas curriculares. Madrid: Sntesis.
Lehman, E. L. (1993). The Neyman-Pearson theories of testing hypotheses: one theory or
two? Journal of American Statistical Association, 88, 424, 1242-1249.
Moore, D. (1995). The Basic Practice of Statistics. New York: W.H. Freeman & Co.

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

94

Ottaviani, G. (1999). Promover la enseanza de la estadstica: La contribucin del IASE y


su cooperacin con los pases en vas de desarrollo. Actas de la Conferencia
Internacional: Experiencias e perspectivas do Ensino da Estatistica.
Florianpolis.
Prez, C. (2003). Estadstica, problemas resueltos y aplicaciones. Espaa: Pearson-Prentice
Hall.
Tanur, J. M. (1992). La estadstica una gua de lo desconocido. Madrid: Alianza Editorial.
Tauber, L. (2001). La construccin del significado de la distribucin normal en un curso de
anlisis de datos. Tesis Doctoral. Universidad de Sevilla.
Tauber, L., Batanero, C. y Snchez, V. (2000). Comprensin de la distribucin normal por
estudiantes universitarios. En C. Loureiro, F. Oliveira, y L. Brunheira (Eds):
Encino e aprendizagem da Estatstica (pp. 117-130). Lisboa: Sociedad
Portuguesa de Estadstica.
Vallecillos, A. (1995). Comprensin de la lgica del contraste de hiptesis en estudiantes
universitarios. Recherches en Didactique des Mathmatiques, 15(3), 53-81.
Vallecillos, A. (1996b). Inferencia Estadstica y enseanza: un anlisis didctico del
contraste de hiptesis estadsticas. Granada: Comares.
Vallecillos, A. (1997). El papel de las hiptesis estadsticas en los contrastes: concepciones
y dificultades de aprendizaje. Educacin Matemtica, 9(2), 5-20.
Vallecillos, A. (2000). Understanding of the logic of hypothesis testing amongst university
students. Journal fr Mathematik-Didaktik, Vol. 2, 101-123.
Vallecillos, A. y Batanero, C. (1995). La inferencia estadstica en la investigacin
experimental en el campo educativo. Revista de Educacin de la Universidad de
Granada, 8, 5-16.
Vallecillos, A. y Batanero, C. (1997). Conceptos activados en el contraste de hiptesis
estadsticas y su comprensin por estudiantes universitarios. Recherches en Didactique
des Matmatiques, 17(1), 29-48.

Autor: Prof. Juan Muoz

Anlisis de Datos Estadsticos

95

Zaks, S. (1981). Parametric Statistical Inference. basic Theory and Modern Approaches.
Oxford: Pergamon Press.

Autor: Prof. Juan Muoz

Você também pode gostar