Você está na página 1de 35

MEDIDAS DE CENTRALIZACIN

El objetivo principal de las medidas de tendencia central es poder representar por medio de un
solo nmero al conjunto de datos, es decir, dan valores representativos de la distribucin de
frecuencias, situados en algn lugar intermedio, alrededor del cual, se encuentran los otros
valores. Nos indican dnde tienden a concentrarse los valores.

Existen tres medidas de tendencia central generales, que son, la Media aritmtica, la Mediana
y la Moda; as como otras que se utilizan en casos particulares como la Media ponderada, la
Media Armnica, la Media Geomtrica, la Media Cuadrtica.



MEDIDAS DE TENDENCIA CENTRAL GENERALES.

Media Aritmtica ( ) x : Es el promedio de los datos, y su objetivo principal es encontrar el valor
que debera de estar en el centro. Su ventaja principal es que es la nica medida en la que
( ) 0 =

x x , su inconveniente es que se ve influida por valores extremos.



Datos No Agrupados:


X =
X
n
i
i 1
n
=





ejemplo: Calcular la media aritmtica de los nmeros 10,12,36,25,58

2 . 24
5
121
5
58 25 36 12 10
= =
+ + + +
= x


Datos Agrupados:


n
*X f
= X
k
1 i
i i
=


donde: k = ltima clase
Nota: La media muestral se denota X, la media poblacional se conoce como .



Ejemplo: calcular el salario promedio de :








X= cualquier dato
Nmero total de datos
Frecuencia por la marca de clase de cualquier rengln
Nmero total de datos
Salario
(X)
No. De emp.
(F)
$15,000 18
$20,000 35
$25,000 29


Como

= = n f 82 sustituimos en la formula y se

obtiene:
( ) ( ) ( )
70 . 670 , 20 $
82
1695000
82
29 * 25000 35 * 20000 18 * 15000
= =
+ +
= x


Mediana ( ) x
~
: Es el valor central, el que delimita al 50% de los datos, es decir, es el valor que
se encuentra exactamente en la mitad de los datos.

Datos No agrupados: En los datos ordenados se aplica la siguiente relacin, para encontrar
la posicin de los datos.

2
1 +
=
n
posicin ; en donde n = nmero total de datos

Entonces podemos tener slo dos alternativas
a) El valor de la posicin puede ser entero y lo nico que debemos hacer es contar el nmero
de lugares que nos indica esta formula.
b) El valor de la posicin nos da un valor decimal (.5) y entonces debemos: sumar los valores
involucrados y dividirlos entre 2. Por ejemplo; si tenemos los valores 5, 7, 8, 13 entonces la
posicin nos da 2.5 por que tendremos que seleccionar a los nmeros 7 y 8 para luego
sumarlos (15) y dividirlos entre 2 (7.5)


Datos Agrupados:
Se localiza la clase o rengln que contiene a la mediana, con la siguiente condicin
fa
n +1
2
> , es decir debemos encontrar la primer frecuencia acumulada que sea mayor
o igual a la posicin, para posteriormente aplicar la siguiente formula:
i *
f
fa
+ FI = X
~ anterior
|
.
|

\
| posicin
donde:









Nota: Si la posicin, en los datos no agrupados, es decimal (.5), se toma el promedio del dato
anterior y el siguiente.


Ejemplo: Calcular el sueldo mediano de:

Fronteras($) Salario
(X)
No. De emp.
(F)
12,500-17,500 $15,000 18
17,500-22,500 $20,000 35
22,500-27,500 $25,000 29




FI Fa F i
Frontera o
lmite
verdadero
inferior del
rengln de la
mediana
Frecuencia
acumulada
anterior al
rengln de la
mediana
Frecuencia
del rengln de
la mediana
Tamao de
intervalo en el
rengln de la
mediana


Primero se obtiene la posicin:

5 . 41
2
1 82
=
+
= posicin

Entonces buscamos el rengln de la mediana buscando la fa igual o ms grande de 41.5, como
18+35 = 53, entonces decimos que es el segundo rengln o clase donde se encuentra la
mediana y aplicamos la frmula:

14 . 857 , 20 $ 5000 *
35
18 - 41.5
17500 i *
f
fa
+ FI = X
~ anterior
=
|
.
|

\
|
+ = |
.
|

\
| posicin



Moda ( ) X

: Es el valor ms frecuente, el que se observa mayor nmero de veces.



Datos No Agrupados: Despus de ordenar los datos buscamos el valor que ms se repite.

Ejemplo: Encontrar la moda de; 47, 48, 49, 49, 49, 51, 51, 52. Podemos observar que el
nmero que ms se repite es el 49. Si ningn valor se repite, no existe moda


Datos Agrupados:

Se localiza la clase modal buscando la frecuencia ms alta y despus se aplica la siguiente
frmula:








Nota: La distribucin puede ser: amodal, unimodal, bimodal, trimodal,...., polimodal.


Ejemplo: Calcular el salario que ms se repite en:

Fronteras($) Salario
(X)
No. De emp.
(F)
12,500-17,500 $15,000 18
17,500-22,500 $20,000 35
22,500-27,500 $25,000 29

Observamos las frecuencias (No. de empleados) y decimos que la clase modal es la segunda,
porque 35 es la frecuencia ms grande y aplicamos:











posterior 2
anterior 1
2 1
1
f f
f f : donde
i * + FI = X
= A
= A
|
|
.
|

\
|
A + A
A


6 29 35 f f
17 18 35 f f : donde
65 . 195 , 21 $ 5000 *
6 17
17
17500 i * + FI = X

posterior 2
anterior 1
2 1
1
= = = A
= = = A
=
|
.
|

\
|
+
+ =
|
|
.
|

\
|
A + A
A


Relacin entre Media Aritmtica, Mediana y Moda:

Para distribuciones unimodales que sean poco asimtricas:
( ) X
~
X 3 X

X =

Sus posiciones relativas, segn la simetra de la distribucin de frecuencias es:

Relacin Simetra

X X= X =
Simtrica

X< X< X
Sesgo positivo

X X> X >
Sesgo negativo

Ntese que en nuestros ejemplos tenemos:

20670.7 20857.14 21195.65 decir es X > X
~
X

> > >







MEDIDAS DE TENDENCIA CENTRAL PARA CASOS ESPECIALES

Media Aritmtica Ponderada ( )
p
X : Es el promedio de los datos en donde se le da un peso o
importancia especfica a cada observacin. Se calcula:

=
=
n
i
i
n
i
i i
w
W
*X W
= X
1
1



Ejemplo:

Se desea obtener el precio promedio de:









Aplicamos la formula:

37 . 32 $
150
95 . 4854
19 56 75
) 19 * 45 . 79 ( ) 56 * 9 . 35 ( ) 75 * 8 . 17 (
1
1
= =
+ +
+ +
=

=
=
n
i
i
n
i
i i
w
W
*X W
= X




Producto de cada uno de los datos por su ponderacin
Suma de las ponderaciones
Precio del
Producto
Cantidad
en Kg.
$ 17.80 75
$ 35.90 56
$ 79.45 19


Media Geomtrica (G): Con cierto tipo de datos, la media aritmtica no da el valor promedio
correcto. La media geomtrica sirve para promediar los crecimientos geomtricos de una
variable.
Si suponemos que Y representa el factor de crecimiento geomtrico de la variable X, es decir:
Y
X
X
i
i
i 1
=

,entonces el factor de crecimiento geomtrico promedio de la variable X ser:




Datos No Agrupados:


n
n 2 1
Y * * Y * Y G =


Ejemplo:
Si los precios de la accin Anhuac en los ltimos cuatro das fueron; 4.75, 5.23, 4.78 y 6.32
calcula el factor de crecimiento promedio y el crecimiento porcentual promedio.

Existen dos formas de resolverlo:

a) De la forma ms ortodoxa, es decir:
099869493 . 1 330526316 . 1
78 . 4
32 . 6
*
23 . 5
78 . 4
*
75 . 4
23 . 5
Y * * Y * Y G
3
3 n
n 2 1
= = = =

Lo que acabamos de obtener es factor de crecimiento promedio y para obtener el crecimiento
se aplica la siguiente formula:

% 9869 . 9 100 * ) 099869493 . 1 1 ( 100 * ) 1 ( = = = G o crecimient


b) Otra forma es 099869493 . 1 330526316 . 1
75 . 4
32 . 6
primero
ltimo
3
3
1 - datos de nmero = = = = G


Datos Agrupados:

n
f
k
f
2
f
1
k 2 1
Y * * Y * Y G =

donde: k = ltima clase
Nota: Se puede demostrar que X G > .
Tambin puede calcularse la media geomtrica ponderada.


Ejemplo:

Supngase que se cuenta con la informacin diaria de los incrementos porcentuales de una
accin y que se representan en la siguiente tabla:









Crecimiento
porcentual
(%)
Frecuencias
en das
10 14
20 15
30 48


a) Calcular los factores de crecimiento.

|
.
|

\
|
+ =
100
1
porcentual o crecimient
y


b) Calcular el factor de crecimiento promedio

2415965 . 1 30 . 1 * 20 . 1 * 10 . 1 Y * * Y * Y G
77 48 15 14
n
f
k
f
2
f
1
k 2 1
= = =



Media Armnica (H): Cuando los datos a promediarse estn medidos en unidades expresadas
en forma de cocientes (km./hr., $/lt, etc.), lo ms adecuado es utilizar la media armnica, ya
que la media aritmtica nos llevar a un promedio equivocado.


Datos No Agrupados:
H
n
1
X
i i 1
n
=
=




Ejemplo:
Si un vehculo se mueve de la ciudad A a la B a 65 Km./hr y regresa de B a A a 98 Km./Hr a
qu promedio se desplaz.

1595 . 78
98
1
65
1
2
X
1
n
H
n
1 i i
=
+
= =

=




Datos Agrupados:
H
n
f
X
i
i i 1
k
=
=



donde: k = ltima clase
Nota: Se puede demostrar que X G H > > .
Tambin puede calcularse la media armnica ponderada.













Ejemplo:

Supngase que una flotilla de vehculos muestra la siguiente informacin:








La respuesta es:

711864 . 62
75
31
60
28
50
15
74
X
f
n
H
k
1 i i
i
=
+ +
= =

=




Media Cuadrtica (MC):
La media cuadrtica naci con el objetivo de poder obtener el promedio de valores positivos y
negativos al mismo tiempo, adems de ser una gran ayuda para poder calcular las
dispersiones promedio de los datos (ver medidas de dispersin).

Datos no agrupados:

n
x
MC
n
i
i
=
=
1
2


Ejemplo:
Supngase que se obtienen las ganancias y prdidas del precio de una accin durante una
semana; - 4.00, - 3.50, 2.35, 6.20, 3.25 Calcular el promedio:

186691 . 3
5
775 . 50
5
25 . 3 2 . 6 35 . 2 ) 5 . 3 ( ) 0 . 4 (
2 2 2 2 2
1
2
= =
+ + + +
= =

=
n
x
MC
n
i
i




Datos agrupados:

n
x f
MC
n
i
i i
=
=
1
2


Ejemplo:
Ahora deseamos obtener el promedio de una tabla de distribucin de frecuencias pero con
datos positivos y negativos.




Velocidad
promedio
en km/hr
Nmero
de
vehculos
50 15
60 28
75 31

Ganancias y
prdidas del
precio de
una accin
(x)
No. De
das
(f)
-7.25 25
2.75 14
12.75 2

5239 . 6
41
75 . 12 * 2 75 . 2 * 14 ) 25 . 7 ( * 25
2 2 2
1
2
=
+ +
= =

=
n
x f
MC
n
i
i i






2.3 MEDIDAS DE POSICIN

Ayudan a localizar el valor de la variable que acumula cierto porcentaje especfico de datos.

Cuartiles(Q): Encuentran el valor acumulado al 25%, 50% y 75% respectivamente.

Deciles (D): Representan el 10%, 20%, ... , 90% de los datos acumulados respectivamente.

Percentiles (P): Representan el 1%, 2%, ... , 99% de los datos acumulados respectivamente.


Cada cuantil delimita dos regiones:
- el p% de datos de menor valor (acumulados a la izquierda del cuantil C)
- el (1-p)% de datos de mayor valor (acumulados a la derecha del cuantil C).


Datos No Agrupados:

En los datos ordenados: se debe calcular la posicin mediante la formula:

datos de nmero n
obtener desee se que
cuantil del depende 100 o 10 4, ser puede r
obtener desea se que cuantil de
:
) 1 ( *
=
=
=
+
=
Nmero j
donde
r
n j
Posicin



Despus de calcular la posicin se utiliza la siguiente formula para encontrar el cuantil
deseado:

posicin la de fraccin * menor) dato - mayor (dato menor dato +


Ejemplo:

Dados los nmeros 3, 5, 7, 36, 45; obtener el nmero que represente al 75% de los datos.

Solucin:

Primero obtienes la posicin

N = 5
J = 75
R = 100

5 . 4
100
) 1 5 ( * 75
=
+


2. Identificamos que nmeros estn en la cuarta y quinta posicin, es decir el 36 y el 45

3. Aplicamos la frmula:

5 . 40 5 . 0 * ) 36 45 ( 36 = +

es decir, el nmero que representa al 75% de los datos es el 40.5


Datos Agrupados:
Primero calculamos la posicin como en los datos no agrupados, despus buscamos la primer
posicin fa > , y aplicamos la siguiente formula:



.
( )
i *
f
fa
1 n * j
+ FI = C
anterior
|
|
|
|
.
|

\
|

|
.
|

\
|
+
r






Ejemplo

Encontrar el cuartil 3 de la siguiente tabla







( )
3805 . 339 100 *
452
647
4
1) (1099 * 3
300 i *
f
fa
1 n * j
+ FI = C
anterior
=
|
|
|
|
.
|

\
|
|
.
|

\
| +
+ =
|
|
|
|
.
|

\
|
|
.
|

\
| +
r












Posicin de la mediana
Frecuencia acumulada anterior al
rengln seleccionado
Frecuencia del rengln seleccionado Frontera inferior
Tamao de intervalo del rengln seleccionado
Fronteras Frecuencia Fa
100 - 200 389 389
200- 300 258 647
300 - 400 452 1099
2.4 MEDIDAS DE DISPERSIN

Rango (o Intervalo):
Es la distancia que existe entre el menor y mayor valor de los datos.

Datos No Agrupados:

min max rango =

Datos Agrupados:

1 k
LI LS rango =
donde k = ltima clase


Rango Semi-Inter Cuartil (Q): (o Desviacin Cuartil)
Mide el rango promedio de una cuarta parte de los datos (evita los valores extremos)

2
Q Q
Q
1 3

=


Desviacin Media Absoluta (DM): (o Desviacin Absoluta Promedio)
Es la distancia promedio de los datos a su media.


Datos No Agrupados:

DM =
X X
n
i
i 1
n



Datos Agrupados:

DM =
f X X
n
i i
i 1
k



Varianza:
Poblacional (o
2
): Es el promedio del cuadrado de la distancia de los datos a su media

Datos No Agrupados:

( )
2
N
1 i
2
i
2
N
1 i
2
i
2
N
X
N
X
=
o

|
|
|
|
.
|

\
|
=

=
=




Datos Agrupados:

( )
2
k
1 i
2
i
i
2
k
1 i
2
i i
2
N
*X f
N
X f
=
o

|
|
|
|
.
|

\
|
=

=
=


Muestral (S
2
): La suma de las distancias al cuadrado se divide entre en nmero de datos
menos uno:

Datos No Agrupados:

( )
|
|
.
|

\
|

|
|
|
|
.
|

\
|
=

=
=
1 n
x n
1 - n
S
1 - n
x x
= S
2
n
1 i
2
2
n
1 i
2
i
2
i
x



Datos Agrupados:
( )
|
|
.
|

\
|

|
|
|
|
.
|

\
|
=

=
=
1 - n
x n
1 - n
x f
S
1 - n
x x f
= S
2
k
1 i
2
i i
2
k
1 i
2
i i
2


Nota: S
2
para muestras "chicas". Para muestras grandes S
2
o o
2
prcticamente no difieren.


Desviacin Estndar:
Mide la variacin de los datos en trminos absolutos. Es la raz cuadrada positiva de la
varianza.


Poblacional: o o =
2


Muestral: S = S
2







La desviacin estndar se interpreta construyendo intervalos alrededor del promedio:

a) Teorema de Chebyshev. Si la distribucin no es simtrica y unimodal.

- Al menos el 75% de los valores cae dentro de 2 desviaciones estndar alrededor de la media:
( ) 2S X
- Al menos el 89% de los valores caen dentro de 3 desviaciones estndar alrededor de la
media: ( ) 3S X

b) Regla Emprica. Si la distribucin es una curva acampanada, unimodal y simtrica:

- Aproximadamente el 68% de los datos (poblacin) se encuentran a una desviacin estndar
alrededor de la media: ( ) S X
- Aproximadamente el 95% de los datos (poblacin) se encuentran a 2 desviaciones estndar
alrededor de la media: ( ) 2S X
- Aproximadamente el 99% de los datos (poblacin) se encuentran a 3 desviaciones estndar
alrededor de la media: ( ) 3S X


Coeficiente de Variacin (CV): Mide la variacin relativa de la variable con respecto a su
promedio. Mide la magnitud de la desviacin estndar en relacin con la magnitud de la media.
Se expresa en por cientos.

CV=
S
X
1 00


2.6 MEDIDAS DE FORMA

Proporcionan un valor numrico para saber hacia qu lado de la distribucin hay mayor
acumulacin de frecuencias y si la concentracin central de frecuencias es mayor que en los
extremos o viceversa sin tener que graficar los datos.


Momento Respecto de la Media: El r-simo momento respecto a la media aritmtica es:

Datos No Agrupados:
( )
n
x x
m
n
1 i
r
i
r

=

=

Datos Agrupados:
( )
n
x x f
m
n
1 i
r
i i
r

=

=

El primer momento respecto a la media (r=1) siempre es igual a cero.
El segundo momento respecto a la media (r=2) es la varianza poblacional.







Sesgo: Es el grado de asimetra que tiene la distribucin. La distribucin puede ser:

- Insesgada: Si tiene forma de campana y el rea acumulada del centro de la distribucin a la
derecha es igual a la que se acumula a la izquierda.



- Con sesgo positivo o a la derecha: Si tiene la mayor acumulacin de frecuencias a la
izquierda y una cola larga a la derecha.




- Con sesgo negativo o a la izquierda: Si la mayor acumulacin est a la derecha y tiene
una cola larga a la izquierda.



Coeficiente Momento de Sesgo (a
3
): se calcula dividiendo el tercer momento respecto a la
media entre la desviacin estndar al cubo:


Datos No Agrupados:

( )
3
n
1 i
3
i
3
3
3
ns
x x
S
m
a

=

= =




Moda=Mediana=Media
Insesgada
Moda
Mediana
Media
Sesgo Positivo (a la derecha)
Moda
Mediana
Media
Sesgo Negativo (a la izquierda)


Datos Agrupados:

( )
3
k
1 i
3
i i
3
3
3
ns
x x f
S
m
a

=

= =


















Curtosis: Mide qu tan puntiaguda es una distribucin, con respecto a la Normal.
La distribucin puede ser:

- Mesocrtica: solo la distribucin Normal (es el trmino medio).

- Leptocrticas: Las distribuciones ms puntiagudas que la Normal.


- Platocrticas: Las distribuciones menos puntiagudas que la Normal.




Coeficiente momento de curtosis ( a
4
): se calcula dividiendo el cuarto momento respecto a la
media entre la varianza al cuadrado (o la desviacin estndar a la cuarta).


Datos No Agrupados:

( )
3
n
1 i
4
i
4
4
4
ns
x x
S
m
a

=

= =

Leptocrtica
Mesocrtica
Platocrtica
Coeficiente
momento de
sesgo
Sesgo
= 0
No hay sesgo. La
distribucin es
insesgada
> 0
La distribucin tiene
sesgo positivo o a la
derecha.
< 0
La distribucin tiene
sesgo negativo o a la
izquierda.



Datos Agrupados:
( )
4
k
1 i
4
i i
4
4
4
ns
x x f
S
m
a

=

= =

















3.1 MEDIDAS DE CONCENTRACIN

En una distribucin, ni la media ni la varianza son explicativas de la mayor o menor igualdad en
el reparto; para esto usamos las medidas de concentracin.

Consideremos que la variable en cuestin es el salario. Una distribucin muy concentrada
indica que pocos individuos reciben la mayor parte del total, mientras que poca concentracin
supone que todos los individuos tienen un reparto igualitario.

Indice de Gini:

( )

=

=
1 k
1 i
i
1 k
1 i
i i
p
q p
Ig
donde:
k = nmero de clases o categoras
p
i
= la proporcin acumulada de individuos =
f
n
100
i
= fra x 100
q
i
= la proporcin acumulada del total del producto de f
i
*x
i

0s s Ig 1
Si Ig=0, la variable est menos concentrada (mejor repartida).
Si Ig=1, la variable est ms concentrada (peor repartida).


Curva de Lorenz:
Se grafican los valores de la proporcin acumulada de individuos (p) y la proporcin
acumulada del total de la variable (q).
La funcin identidad representa la igualdad absoluta, es decir, a la variable cuando no est
concentrada (la recta a 45 grados). La desigualdad absoluta o mxima concentracin de la
variable indicara que un solo individuo tenga el total de la variable (el tringulo inferior).

Coeficiente
momento
de curtosis
Curtosis
= 3
La distribucin es
Mesocrtica.
> 3
La distribucin es
Leptocrtica.
< 3
La distribucin es
Platocrtica.

Cuanto ms se acerque la Curva de Lorenz a la diagonal, ms igualitario ser el reparto (Ig =
0). Cuanto ms se acerque la Curva de Lorenz al tringulo inferior, mas concentrada esta la
variable (Ig = 1).



El Indice de Gini calcula el rea entre la diagonal y la Curva de Lorenz, como un porcentaje del
rea del tringulo inferior de la grfica (mide la desigualdad relativa).

p
q
3.1- Medidas de Concentracin

En una distribucin, ni la media ni la varianza son explicativas de la mayor o menor igualdad en
el reparto; para esto usamos las medidas de concentracin.
Consideremos que la variable en cuestin es el salario. Una distribucin muy concentrada
indica que pocos individuos reciben la mayor parte del total, mientras que poca concentracin
supone que todos los individuos tienen un reparto igualitario.

Indice de Gini:

( )

=

=
1 k
1 i
i
1 k
1 i
i i
p
q p
Ig
donde:

k = nmero de clases, renglones o categoras
p
i
= la proporcin acumulada de individuos =
f
n
100
i
= fra x 100
q
i
= la proporcin acumulada del total del producto de f
i
* x
i

0s s Ig 1

Si Ig=0, la variable est menos concentrada (mejor repartida).
Si Ig=1, la variable est ms concentrada (peor repartida).

Curva de Lorenz: Se grafican los valores de la proporcin acumulada de individuos (p) y la
proporcin acumulada del total de la variable (q).
La funcin identidad representa la igualdad absoluta, es decir, a la variable cuando no est
concentrada (la recta a 45 grados). La desigualdad absoluta o mxima concentracin de la
variable indicara que un solo individuo tenga el total de la variable (el tringulo inferior).
Cuanto ms se acerque la Curva de Lorenz a la diagonal, mas igualitario ser el reparto (Ig =
0). Cuanto ms se acerque la Curva de Lorenz al tringulo inferior, mas concentrada esta la
variable (Ig = 1).



El Indice de Gini calcula el rea entre la diagonal y la Curva de Lorenz, como un porcentaje del
rea del tringulo inferior de la grfica (mide la desigualdad relativa).

Ejemplo:

La informacin que se presenta a continuacin representa el salario de los 300 empleados de
una empresa y nos interesa saber la concentracin de los datos.

p
q
Salario
Mensual (en miles)
No. de
empleados
Marca de
clase
F * x Fra = P H Q P - Q
8 - 10 190 9 1710 63.33 58.163 58.16 5.17
10 - 12 100 11 1100 96.67 37.42 95.58 1.09
12 - 14 10 13 130 100.00 4.42 100.00 0

( )
0391 . 0
67 . 96 33 . 63
09 . 1 17 . 5
p
q p
Ig
1 k
1 i
i
1 k
1 i
i i
=
+
+
=


=

=

=
Como podemos observar el resultado refleja


que no hay mucha concentracin de los datos, es decir, los datos se encuentran bien
distribudos.


Notacin Suma

En la operacin de adicin o suma, se presenta con frecuencia en la estadstica el smbolo
(sigma) para denotar tomar la suma de. A continuacin se presenta un ejemplo donde se
tiene un conjunto de valores n para alguna variable X.

=
n
i
i
X
1
, esta expresin indica que estos n valores deben sumarse. Por consiguiente:


n
n
i
i
X X X X X + + + + =

=
...
3 2
1
1


Ejemplo Se encuentran cinco observaciones para la variable

7 5 , 1 , 0 , 2 :
5 4 3 2 1
= = = = = X y X X X X X .Por lo tanto:

13 7 5 ) 1 ( 0 2
5 4 3 2 1
5
1
= + + + + = + + + + =

=
X X X X X X
i
i


En estadstica nos vemos involucrados muy a menudo con la suma de los valores al cuadrado
de una variable. Por lo tanto.
2 2
3
2
2
2
1
1
2
...
n
n
i
i
X X X X X + + + + =

=


Y en nuestro ejemplo, tenemos:
79
49 25 1 0 4
7 5 ) 1 ( 0 2
2 2 2 2 2
2
5
2
4
2
3
2
2
2
1
5
1
2
=
+ + + + =
+ + + + =
+ + + + =

=
X X X X X X
i
i



Se debe observar, aqu que

=
n
i
i
X
1
2
, la sumatoria de los cuadrados no es igual a
2
1
|
.
|

\
|

=
n
i
I
X
, el cuadrado de la suma, esto es
2
1 1
2
|
.
|

\
|
=

= =
n
i
i
n
i
i
X X

En nuestro ejemplo, la sumatoria de los cuadrados es igual a 79. Esto no es igual al cuadrado
de la

suma, cuyo resultado es 169 13
2
=

Otra operacin que se utiliza con frecuencia implica la sumatoria del producto. Esto es,
suponiendo que tenemos dos variables, X y Y, cada una con n observaciones.

Entonces,

n n i
n
i
i
Y X Y X Y X Y X Y X + + + + =

=
...
3 3 2 2 1 1
1


Continuando con el ejemplo anterior, suponiendo que tambin se tiene una segunda variable Y
cuyos valores son
3 4 , 2 , 3 , 1
5 4 3 2 1
= = = = = Y y Y Y Y Y Entonces,

45
21 20 2 0 2
) 3 )( 7 ( ) 4 )( 5 ( ) 2 )( 1 ( ) 3 )( 0 ( ) 1 )( 2 (
5 5 4 4 3 3 2 2 1 1
5
1
=
+ + + + =
+ + + + =
+ + + + =

=
Y X Y X Y X Y X Y X Y X
i
i
i


Al calcular
i
n
i
i
Y X

=1
debemos tomar en cuenta que el primer valor de X por el primer valor
de Y

ms el segundo valor de X por el segundo de Y, y as sucesivamente. Estos productos
cruzados luego se suman con el propsito de obtener el resultado deseado. Sin embargo,
debemos observar en este punto que la sumatoria de productos cruzados no es igual al
producto de las sumas individuales, es decir;

|
.
|

\
|
|
.
|

\
|
=

= = =
n
i
i
n
i
i i
n
i
i
Y X Y X
1 1 1

En nuestro ejemplo, 9 3 4 ) 2 ( 3 1 13
5
1
5
1
= + + + + = =

= = i
i
i
i
Y y X de modo que

117 ) 9 )( 13 (
5
1
5
1
= = |
.
|

\
|
|
.
|

\
|

= = i
i
i
i
Y X . Esto no es lo mismo que
i
n
i
i
Y X

=1
, que es igual a
45.

Antes de estudiar las cuatro reglas bsicas para efectuar operaciones con notacin sigma, ser
de ayuda presentar los valores de cada una de las cinco observaciones de X y de Y en forma
de tabla:














Observacin
X
i
Y
i

1
2
3
4
5

2
0
-1
5
7

1
3
-2
4
3

13
5
1
=

= i
i
X

9
5
1
=

= i
i
Y


Regla 1: La sumatoria de los valores de dos variables es igual a la suma de los valores de
cada variable sumada.

( )

= = =
+ = +
n
i
i
n
i
i
n
i
i i
Y X Y X
1 1 1


En nuestro ejemplo:

( )
22 9 13
22 10 9 ) 3 ( 3 3
) 3 7 ( ) 4 5 ( )) 2 ( 1 ( ) 3 0 ( ) 1 2 (
5
1
5
1
5
1
= + = +
= + + + + =
+ + + + + + + + + = +

= =
=
i
i
i
i
i
i i
Y X
Y X


Regla 2: La sumatoria de una diferencia entre los valores de dos variables es igual a la
diferencia entre los valores sumados de las variables.


= = =
=
n
i
i
n
i
i i
n
i
i
Y X Y X
1 1 1
) (

Por consiguiente, en nuestro ejemplo,

( )
4 9 13 4
4 1 1 ) 3 ( 1
) 3 7 ( ) 4 5 ( )) 2 ( 1 ( ) 3 0 ( ) 1 2 (
5
1
5
1
5
1
= = = =
+ + + + =
+ + + + =

= =
=
i
i
i
i
i
i i
Y X
Y X







Regla 3: La sumatoria de una constante por una variable es igual a la constante que multiplica
a la sumatoria de los valores de la variable.


= =
=
n
i
i
n
i
i
X c cX
1 1


En la que c es una constante.
Por tanto, en nuestro ejemplo, c =2

26 ) 13 )( 2 ( 2
26 14 10 ) 2 ( 0 4
) 7 )( 2 ( ) 5 )( 2 ( ) 1 )( 2 ( ) 0 )( 2 ( ) 2 )( 2 ( 2
5
1
5
1
5
1
= =
= + + + + =
+ + + + = =


=
= =
i
i
i
i
i
i
X
X cX


Regla 4: Una constante sumada n veces ser igual a n veces al valor de la constante.

nc c
n
i
=

=1


En la que c es una constante. As pues, si la constante c =2 se suma cinco veces tendremos:

10 ) 2 )( 5 (
10 2 2 2 2 2
5
1
= =
= + + + + =

= i
c





En el caso de que i = 1 entonces n = (valor final - valor inicial)+ 1




Para ilustrar cmo se utilizan las reglas de la sumatoria, podemos mostrar una de las
propiedades matemticas pertenecientes al promedio o media aritmtica .

( )

=
=
n
i
i X X
1
0



Esta propiedad establece que la sumatoria de las diferencias entre cada observacin y la
media aritmtica es cero. Esto se puede probar matemticamente de la siguiente manera:
1.- De la ecuacin (4.1),

n
X
x
n
i
i
=
=
1


As pues, utilizando la regla 2 de la sumatoria, tenemos:

12 ) 2 ( * ) 1 ) 2 7 ((
12 2 2 2 2 2 2
7
2
= + =
= + + + + + =

= i
c
( )

= = =
=
n
i
n
i
i
n
i
i
X X X X
1 1 1


2.- Puesto que, para cualquier conjunto fijo de datos, X Puede ser considerada como una
constante, de la regla 4 de la sumatoria tenemos:
X n X
n
i
=

=1


Por consiguiente,

( ) X n X X X
n
i
i
n
i
i
=

= = 1 1


3.- Sin embargo, de la ecuacin (4.1), puesto que

n
X
X
n
i
i
=
=
1
despus n

=
=
n
i
i
X X
1


Por consiguiente,

( )

= = =
=
n
i
i
n
i
i
n
i
i
X X X X
1 1 1


De esta manera se ha demostrado que:
( ) 0
1
=

=
n
i
i
X X




















PROBLEMA
Suponiendo que se tienen seis observaciones de las variables X y Y tales que
3 , 7 , 2 , 1 , 0 , 4 2 , 1 , 3 , 5 , 1 , 2
6 5 4 3 2 6 5 4 3 2 1
1
= = = = = = = = = = = = Y Y Y Y Y yY X X X X X X
Calcule cada una de las siguientes sumatorias.

a)

=
6
1 i
i
X b)

=
6
1 i
i
Y

c)

=
6
1
2
i
i
X d)

=
6
1
2
i
i
Y

e)
i
i
i
Y X

=
6
1
f) ( )

=
+
6
1 i
i i
Y X

g) ( )

=

6
1 i
i i
Y X h) ( )

=
+
6
1
2
2 3
i
i i i
X Y X

i) ( ) 1 ,
6
1
=

=
c cX
i
i
j) ( ) 3 , 3
6
1
+ = +

=
c c Y X
i
i i




INTRODUCCIN A LA ESTADSTICA

La Estadstica es una ciencia que nos proporciona un mtodo importante para la toma de
decisiones y resolver problemas en forma sistemtica y reproducible, a diferencia de otros
mtodos que difcilmente pueden ser explicados o reproducidos hasta por la misma persona
que lo ejecuta. Por lo anterior es importante analizar detenidamente cada uno de los conceptos
en los que se fundamenta sta para lograr acercarnos profundamente a su conocimiento.

La Estadstica se ocupa de los mtodos y procedimientos para recoger, clasificar, resumir,
hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea
una causa intrnseca de los mismos; as como de realizar inferencias a partir de ellos, con la
finalidad de ayudar a la toma de decisiones y en su caso formular predicciones


Dado que la estadstica nace con la idea de resolver problemas comenzaremos diciendo que
un problema es la diferencia entre lo real y lo deseado, es decir, que nosotros normalmente al
tener injerencia en la toma de decisiones podamos escenificar perfectamente la realidad que
nos rodea y con ello empatar nuestras necesidades o deseos. De tal forma, que la estadstica,
entonces juegue el papel de agente caracterizador de una poblacin. Entendiendo a esta
(Poblacin) como una realidad concreta que comprende todos los elementos que permiten
bosquejar a un problema.

Por lo tanto una muestra ser aquel subconjunto propio obtenido de la poblacin, es decir,
cuenta con algunos elementos y no todos los de la poblacin.

Las medidas que se obtienen en una poblacin son llamadas parmetros y las obtenidas en
una muestra reciben el nombre de estadsticos. Es importante aclarar que las poblaciones y
las muestras estn determinadas por el problema ya que en diferentes situaciones una muestra
puede jugar el papel de poblacin dependiendo del problema y viceversa.

Por ejemplo una gota de sangre es una muestra si el problema es estudiar la salud de una
persona, pero es una poblacin si me interesa determinar el volumen de eritrocitos y leucocitos
que hay en ella. As en los negocios tambin es importante delimitar el problema ya que las
ventas de un da resultan ser una muestra cuando estemos interesados en analizar las ventas
promedio anuales, y por otro lado resulta ser la poblacin cuando analizamos las ventas por
empleado en ese da.

RAMAS DE LA ESTADSTICA

La estadstica se separa, solamente en forma didctica, en dos partes; la estadstica
descriptiva y la inferencial, ya que en la realidad se utilizan ambas sin distinciones. La
descriptiva nos permite caracterizar una realidad mediante la medicin de una poblacin, es
decir, que cuando el tamao de la poblacin y las medidas que se deben obtener no la afectan
entonces se realiza la investigacin sobre toda la poblacin. La inferencial ser aquella
realizada en una muestra para obtener informacin, de forma inductiva, de la poblacin, es
decir, que existen situaciones en las que el estudio de la poblacin es imposible ya sea por el
tamao de la misma o por que al obtener alguna medida destruyamos a sus elementos, como
en el caso de querer estimar la calidad de un producto que producimos continuamente no se
puede detener esta produccin y mucho menos estudiar toda la produccin, de ah que nos
vemos en la necesidad de estudiar una pequea parte de esta poblacin (muestra) y las
medidas que obtenemos las consideramos como representativas de esta.

Sera muy recomendable que investigaras otras definiciones de la estadstica en cualquier libro
de Estadstica y comentaras con tus compaeros y tu profesor las diferencias que encuentres.
Adems sera muy bueno que analizaras cualquier problema que hayas tenido para revisar si
en realidad hubo un deseo y una realidad diferentes.

TIPOS DE VARIABLES

Para poder realizar una estadstica tambin es necesario identificar la naturaleza de los datos
que conforman a la poblacin, con el objeto de establecer las variables que se deben manejar,
pudiendo encontrarnos con datos cuantitativos y datos cualitativos. Los datos cuantitativos
son aquellos que resultan de una medida o de un conteo por lo que los podemos diferenciar en
continuos y en discretos respectivamente, es decir, que se pueden obtener datos cuantitativos
que debido a un instrumento podemos especificar valores enteros y decimales de tal forma que
sus diferencias sern establecidas dependiendo de la exactitud del instrumento al medir
distancias, volmenes, superficies, etc. y otros datos que solo se puedan contar, como es el
caso del nmero de automviles en circulacin en cierta ciudad, nmero de empleados en una
empresa, etc. Los datos cualitativos resultan de aquellas poblaciones en las que sus elementos
no pueden ser medidos debido a su naturaleza y que por lo tanto solo se les pueden observar
atributos y diferencias.

Aqu ser bueno recordar cuantas veces has requerido de este tipo de informacin, ya sea, al
preparar un pastel o una bebida, al describir a un amigo o al querer explicar las caractersticas
de una ciudad a la que visitaste.

ESCALAS DE MEDICIN

En cuanto a las escalas de medicin la estadstica cuenta con las siguientes:

- Nominal; la cul se utiliza principalmente en los datos cualitativos y nos permite manejar la
informacin por su nombre, como en los casos de marcas de diferentes productos,
enfermedades, preferencias, etc.

- Ordinal; aquella que utilizamos cuando necesitamos establecer orden entre las diferencias
de la poblacin y sus datos son cualitativos, por ejemplo, escalas de calidad (mala, regular,
buena, muy buena), escalas de gusto (muy sabrosa, sabrosa, agradable, desagradable,
muy desagradable), etc.

- Intervalo; Se utiliza principalmente en datos cuantitativos y es una escala que no cuenta
con un cero absoluto o con un instrumento estandarizado, por ejemplo, la temperatura se
puede medir en grados centgrados, Fahrenheit y kelvin dentro de las cuales los grados
centgrados no cuentan con un cero absoluto debido a que se basan en el punto de
ebullicin del agua, el cul es variable en diferentes altitudes, los Fahrenheit que tampoco
cuentan con un cero absoluto, ya que este tambin cambia con las altitudes con respecto al
nivel del mar, debido a que se sustenta en el punto de congelacin del agua y los kelvin que
si cuentan con un cero absoluto ya que queda establecido al vaco fuera de las diferencias
provocadas por la altitud, otro ejemplo sera el utilizar una cuerda con nudos para
determinar una Distancia o un volumen con vasija de barro, ya que al intentar comprobar
esta distancia o este volumen debemos contar con la misma cuerda o con la misma vasija.

- Razn; Bsicamente utilizada en datos cuantitativos que pueden ser medidos con
instrumentos estandarizados o con un cero absoluto como por ejemplo una distancia
medida en kilmetros, un volumen medido en centmetros cbicos, ventas medidas en
pesos, etc.

Cuando ya se han identificado el problema que deseamos resolver, la poblacin, el tipo de
datos y las variables con las que nos acercaremos a la informacin entonces ser necesario
especificar si es necesario trabajar solo con la poblacin o con una muestra as como la forma
en la que obtendremos los datos.

Por lo anterior se describirn las diferentes formas de obtener una muestra:

Dentro de la estadstica se pueden obtener muestras que resultan probabilsticas y las no
probabilsticas, diferencindose en el mtodo de su consecucin, es decir, cuando utilizamos
un mtodo que nos garantice que todos los elementos de una poblacin tienen la misma
probabilidad de ser elegidos estamos trabajando con un muestreo probabilstico y cuando la
obtencin de una muestra resulte de criterios, juicios, preferencias o cualquier elemento
subjetivo (o en otras palabras, que no podamos garantizar que contemos con elementos
equiprobables) entonces estaremos trabajando con un muestreo no probabilstico.

De ah que nos enfocremos ms a los primeros; subdividindolos en:

Aleatorio Simple; el cual requiere del tamao de la poblacin N, el tamao de la muestra
n, de una tabla de nmeros aleatorios, especificar si se realizar con reemplazo o sin l, as
como, de una regla de uso (no debe ser la misma en todos los casos) y determinar el nmero
de dgitos que se utilizarn. Por ejemplo; si me intereso en determinar el nivel socioeconmico
de las personas que se encuentran trabajando dentro de una empresa y deseo que todos sus
integrantes tengan la misma probabilidad de ser elegidos entonces realizo lo siguiente:
determino el numero total de empleados (N=200), el nmero de personas que integrarn la
muestra (n=10), selecciono una regla para utilizar mi tabla de nmeros aleatorios (lanzar mi
lpiz y donde caiga leer de 3 en 3 dgitos sobre la misma columna hacia abajo hasta
terminarla y cuando esto suceda continuare leyendo en la siguiente columna hasta terminar de
obtener los diez datos). Supongamos que la tabla es la siguiente
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
1 2 3 1 2 1 0 8 7 6 5 9 7 8 1 0 0 3 4 9 8 0 0 9 7 1
2 5 5 6 3 8 9 0 9 6 7 5 9 0 7 6 4 2 3 1 6 5 6 3 3 2
3 9 6 4 1 2 3 0 0 4 6 1 7 9 2 1 4 3 9 1 5 2 3 9 0 8
4 3 2 8 9 2 9 3 4 6 5 9 4 7 7 2 6 2 1 5 9 0 7 1 9 9
5 3 6 1 0 0 4 0 7 0 5 1 5 3 9 1 0 1 2 1 8 5 9 4 4 6
6 5 3 3 4 7 1 9 5 4 5 2 4 6 4 2 9 6 5 4 3 9 4 2 1 7
7 4 3 1 0 3 3 7 8 7 3 7 5 3 5 0 2 6 4 1 1 0 2 7 0 2
8 2 2 8 6 5 6 7 2 7 1 6 4 1 8 6 5 4 3 7 1 2 6 6 1 0
9 0 4 1 6 5 7 6 4 2 0 3 4 5 2 1 5 9 6 8 7 6 0 5 6 4
10 9 1 7 0 3 6 6 7 3 1 2 2 8 4 6 8 3 8 9 9 7 3 5 8 0
11 6 0 6 7 7 0 6 8 7 7 1 2 4 3 4 3 3 3 4 4 0 9 7 8 1
12 8 2 7 3 2 9 2 8 3 8 2 1 0 7 1 2 7 7 5 7 1 3 8 5 9
13 6 0 6 7 4 5 8 9 6 0 9 4 9 5 1 5 1 0 7 2 0 5 5 0 6
14 7 8 0 2 4 8 1 5 8 2 8 5 5 5 2 1 2 4 8 4 8 8 9 3 5

y que al arrojar el lpiz cay en el rengln 5 columna 7, entonces, las personas que debemos
seleccionar sern 097,766, 628,179, 047, 582, 478, 895, 664, 604, 772, 373, 685, 765, 553,
101, 780, 295, 191, 276, 321, 298, 797, 454, 544, 221, 458, 097,363, 158, 409, 517, 279, 458,
243, 755, 061, 212, 061, 641, 112, tomando en cuenta que es un muestreo con reemplazo.

Sistemtico; Este muestreo permite obtener los elementos de cada k - sima unidad de la
poblacin, y para ello se requiere conocer el tamao de la poblacin (N), el de la muestra (n) y
obtener el valor de k, de tal forma que al tener estos datos escojamos al primer dato por medio
de aleatorio simple y de ah de k en k. Por ejemplo; si tenemos la necesidad de
extraer una muestra de 20 artculos de 1000 unidades producidas entonces
deberemos dividir 1000/20 obteniendo 50 por lo que el primer nmero lo
seleccionamos de nuestra tabla de nmeros aleatorios obteniendo el nmero 12,
por lo que, los siguientes nmeros debern ser 12+k, 12+2k, etc., es decir, 12, 62,112, 162,
212, 262, 312, 362, 412, 462, 512, etc.

Estratificado; Este tipo de muestreo
requiere tener una poblacin bien clasificada
en varios grupos llamados estratos, que a su
interior se mantengan bastante homogneos,
para construir la muestra normalmente se
toma una cantidad de elementos del mismo
tamao de cada uno de los estratos, este debe ser mediante el muestreo aleatorio simple
(m.a.s.); aunque en algunos casos cuando las proporciones de los estratos son distintas se
toman en cuenta.

Por conglomerados; En este caso la muestra nos presenta gran dificultad para establecer
sus diferencias, por lo que iniciamos seleccionando en forma aleatoria una muestra de
conglomerados, ya que, cada uno de ellos podra representar una muestra, posteriormente se
deber elaborar un censo para poder establecer las proporciones de las diferentes categoras
que se encuentren presentes en nuestra muestra.

K
N
n
=
87 65 78 87 60 87 34 31 43 87
78 90 65 68 62 70 80 61 62 72
95 64 80 90 68 80 30 35 40 75
59 68 65 92 70 78 95 33 72 65
70 95 50 75 31 60 43 78 70 60
65 60 30 90 40 80 59 27 92 65
Podras escoger los nmeros del juego Melate mediante un muestreo probabilstico?, De
poderse cul utilizaras?, Qu nmeros seleccionaras?, Te atreveras a pagar por esos
nmeros?

TABLA DE DISTRIBUCIN DE FRECUENCIAS.

Ahora bien, despus de determinar que tipo de variables utilizaremos, de que formas las vamos
a medir y si ser necesario obtener una muestra nuestra siguiente decisin a tomar dentro del
mtodo estadstico ser el de especificar si usaremos los datos en forma agrupada o no
agrupada.

Para el caso de querer agrupar los datos, entonces deberemos crear una tabla de
distribucin de frecuencias y para ello los pasos que debemos seguir son los siguientes:

Se debe conocer el nmero total de datos (N).

Se elaborar el Diagrama de Tallo y Hojas, buscando la cifra que haga ms evidente el
cambio para formar el tallo y los dems valores formarn las hojas; por ejemplo:
Supongamos que tenemos los siguientes datos:
Un restaurante establece, sobre la base de sus registros, que el nmero de comensales que
hicieron uso de su servicio da con da, durante los ltimos dos meses a la hora de la comida,
son los que se presentan a continuacin:

Nos podemos percatar que en este caso las cifras significativas son las que representan a las
decenas por lo que el diagrama quedar compuesto de la siguiente forma:
Ntese que este diagrama nos sirve para
encontrar los valores mnimos y mximos de
forma ms rpida, tambin nos permiti ordenar
a los datos en forma ms sencilla y por ltimo
nos muestra al menos el comportamiento de la
forma en el conjunto de datos.

El siguiente paso es obtener el Rango mediante
la siguiente relacin, en la que nos debemos
cuestionar su significado, ya que, no representa
una diferencia simplemente sino que, ms bien es
nuestra primer medida estadstica que representa la
mxima dispersin que vamos a encontrar en
nuestro conjunto de datos, as tendremos: 95-27 = 68

Posteriormente debemos determinar la cantidad de intervalos o clases deseamos utilizar para
clasificar o agrupar nuestra informacin y para ello contamos con tres procedimientos al
menos:

1) Obtenemos la raz de N y el resultado redondeado siempre a valor entero nos dar en
nmero de renglones ( en nuestro ejemplo tendremos 60 77459666 8 = ~ . )

2) Seleccionar de una tabla, el nmero de renglones representados por K y el nmero que ms
se aproxime al nmero de datos en la columna denominada con la letra N
por ejemplo en nuestro problema tenemos 60 datos, por lo que, la tabla
nos sugiere utilizar 5 intervalos para poderlos agrupar adecuadamente.

Nmero de Intervalos: No debe ser menor de 6 ni mayor de 15.

Se puede establecer:
- al gusto del investigador
- n redondeado al siguiente entero
- utilizando la tabla
- mediante la expresin n
k
> 2
2 7
3 0 0 1 1 3 4 5
4 0 0 3 3
5 0 9 9
6 0 0 0 0 1 2 2 4 5 5 5 5 5 5 8 8 8
7 0 0 0 0 2 2 5 5 8 8 8
8 0 0 0 0 7 7 7 7 8
9 0 0 0 2 2 5 5 5

Rango = dato mayor - dato menor

K N
4 8
5 16
6 32
7 64
8 128
etc. etc.

3) Escoger el nmero de renglones o intervalos a juicio del investigador, tomando en cuenta
que si no se tiene experiencia en este tipo de problemas el diagrama de tallo y hojas puede
proporcionarnos una buena cantidad de renglones para nuestro objetivo, en nuestro ejemplo el
diagrama sugiere 8 renglones.


El paso siguiente para elaborar la tabla de distribucin de frecuencias es calcular
el tamao de intervalo, en nuestro caso resultar de 9,
por lo que procederemos a calcular los
limites de los intervalos, comenzando con los lmites inferiores sumndole al
nmero ms pequeo el tamao del intervalo (i) K veces, en nuestro ejemplo tendramos:

Ntese que al dato menor se le ha sumado el tamao de intervalo que es 9
resultndonos el siguiente y as sucesivamente hasta sumarle el tamao del intervalo 8
veces (que es el nmero de renglones que hemos escogido). Posteriormente debemos
calcular los lmites superiores y para ello debemos considerar que los intervalos que
nos encontramos construyendo son intervalos cerrados, es decir, intervalos que
incluyen a sus extremos, de esta manera observamos que los nmeros que deben
estar en el primer intervalo son 27, 28, 29, 30, 31, 32, 33, 34 y 35, o sea, nuestro lmite
superior es 35 en lugar de 36 que es el resultado de sumar 27+9, por lo que debemos
disminuir el resultado una unidad. (Por lo anterior los lmites superiores que nos
quedan en nuestro ejemplo son tomados de los inferiores pero con una unidad menos).

El siguiente paso ser determinar la frecuencia ( f ) o nmero de datos que caen dentro de los
intervalos que hemos generado por lo que debemos contestar a la pregunta de cuntos
datos se encuentran entre tal valor y tal otro?, es decir, en nuestro ejemplo vemos que
debemos preguntarnos cuntos datos hay entre los valores de 27 y 35?, pudiendo
observar en el diagrama de tallo y hojas que contamos con 8 datos, y as sucesivamente
hasta terminar de preguntarnos los dems intervalos teniendo:

De esta manera ahora ya contamos con una tabla de distribucin de frecuencias la
cual nos permitiera crear nuevas columnas que nos facilitarn la tarea de describir
una realidad y con ello resolver un problema mediante decisiones importantes.

Una de las columnas que podemos generar puede ser la que representa a la
frecuencia acumulada ( fa f
i j
j 1
i
=
=

), es decir, la que nos responder a la pregunta de


cuntos datos se fueron presentando desde el primer intervalo hasta el ltimo?, D esta
forma tendremos:

As, con esta columna podemos decir que 8 das tuvimos entre 25 y 37 comensales, 12
das entre 25 y 44, etc.

Despus debemos encontrar un nmero que representa a todo el intervalo, ya que, es
ms sencillo hablar de un solo dato a un intervalo.

Este nmero se llama marca de clase o punto medio el cual quedar representado por
una x y se calcula utilizando los lmites o los lmites reales o verdaderos, mediante la
siguiente relacin:
En donde li representa al lmite inferior ls al lmite superior
y lri, lrs a los lmites reales.

Ntese que la marca de clase puede obtenerse con los
lmites que habamos obtenido o con los lmites reales, los cuales resultan de las siguientes
acciones.

Es importante lograr establecer un intervalo continuo para poder hacer anlisis estadstico de
todo el conjunto de datos y que a la vez no nos limite este mismo conjunto.
i
rango
K
=
+1

LI
27
36
45
54
63
72
81
90
99
LS
35
44
53
62
71
80
89
98
f
8
4
1
9
14
11
5
8
fa
8
12
13
22
36
47
52
60
x =
li + ls
2
=
lri + lrs
2

nmero de
renglones
tamao de
intervalo

Para obtener un lmite real debemos tomar los valores de los lmites que presentan un hito de
informacin (como es el caso de 44 y 45 en nuestro ejemplo) y encontrar un punto que
represente ese intervalo con la frmula que hemos utilizado con las marcas de clase.

Ahora procederemos a calcular la frecuencia relativa ( fr ) la cual nos representa la proporcin
que le corresponde a cada intervalo con respecto al total de datos mediante la formula:










Al tener la frecuencia relativa entonces tambin nos podemos preguntar cul es la proporcin
acumulada (

=
=
i
1 j
j i
fr fra ) por rengln de la misma forma que lo hicimos para la frecuencia.
Como estas columnas representan la proporcin que le corresponde a cada
una de las frecuencias en cada rengln entonces tambin podramos crear
una columna que representara los grados dentro de una circunferencia con el
objetivo de crear una grfica de pastel o de pay tambin llamada grfica de
sectores.

Grfica de Pastel (Pie, Circular o de Sectores): Puede representar datos
cualitativos o cuantitativos. Un crculo se divide en sectores que representan,
proporcionalmente, cada clase. No es recomendable representar mas de 6
clases.
Se suelen ordenar los sectores para hacer ms evidente sus diferencias.
A partir de la frecuencia relativa, se obtienen los grados:


Grfica de Barras: Puede representar datos cualitativos o cuantitativos. Consiste en barras
que representan a las clases. La altura de cada barra es igual a la frecuencia o frecuencia
relativa de la clase. El eje horizontal no es la recta numrica por lo que las barras se presentan
separadas

Histogramas: Permite comparar visualmente las proporciones o magnitudes de las clases.
Solo representa datos cuantitativos. Muy semejante a la grfica de barras. Se representa sobre
el eje cartesiano, donde el eje horizontal representa las fronteras o las marcas de clase. El rea
de las barras representa proporcionalmente cada clase.

Polgono: Hace evidente la forma de la distribucin de frecuencias de los datos. Solo
representa datos cuantitativos. Es una grfica de puntos y lneas. Relaciona las marcas de
clase con sus frecuencias o frecuencias relativas. Como el rea total de las barras del
histograma debe mantenerse igual al rea debajo del polgono, el polgono empieza en
una marca de clase anterior y termina en una marca de clase posterior a las de la tabla de
frecuencias.

Ojiva: Equivalen a los polgonos de frecuencia acumulada. Relacionan las fronteras inferiores
con los valores acumulados de frecuencia. Su aplicacin se concreta a responder preguntas
como: qu proporcin acumulada le corresponde a este dato?, Qu dato corresponde a esta
proporcin acumulada?. Hay dos criterios para construir ojivas:

1) Ojiva "Menor que": "cuntas observaciones son menores que esta frontera?". Es una
curva creciente que empieza en frecuencia cero y termina en el total de observaciones.

fr =
f
N
x 100
fr fra
13 13
7 20
2 22
15 37
23 60
18 78
8 87
13 100
grados fr 360
i i
= grados 3.6
i i
= %
Es el nmero total
de datos o en otras
palabras la suma
de f
Es la frecuencia de
cada rengln
2) Ojiva "O ms": "cuntas observaciones hay iguales o mayores a esta fronteras?". Es una
curva decreciente que empieza en el total de observaciones y termina en cero.

FUENTES DE DATOS.

Ahora nos interesa describir la forma en que la estadstica se hace llegar la informacin para
poder trabajarla. En principio podemos decir que hay dos tipos de estudios estadsticos;
aquellos que involucran la toma de decisiones respecto a una poblacin y/o sus caractersticas,
es decir, el estudio enumerativo y el segundo llamado estudio analtico que involucra realizar
actividad sobre un proceso para mejorar el desempeo en el futuro.

Despus de haber decidido que tipo de estudio se debe realizar entonces podremos encontrar
la informacin en tres tipos de fuentes:

1) La bibliogrfica
2) La experimentacin y
3) La entrevista.

Dentro de la informacin bibliogrfica podemos decir que esta representada por la informacin
impresa y quedan incluidas las nuevas fuentes tales como la informacin obtenida en Internet,
discos compactos, y cualquier otro medio digital que permita obtener informacin almacenada.
Las ventajas de este tipo de datos quedan manifiestas por la velocidad de obtencin de la
informacin, ya que, tal vez pueda estar clasificada y ordenada, adems de evitarnos la prdida
de tiempo para recopilar esta informacin. La desventaja es que muchas veces la informacin
no es actualizada o que la informacin no se apegue exactamente a nuestro problema.

La experimentacin en forma contraria a la bibliogrfica tiene como ventaja que la informacin
obtenida es exactamente de nuestro problema, pero esto implica que se requiera de un grupo
de investigadores, de presupuesto, as como de todos los insumos para su funcionamiento.

En cuanto a la entrevista podemos decir que contamos al menos con tres tipos diferentes:

a) Por correo
b) Por telfono
c) Directa.

Cada una de ellas tiene sus ventajas y sus desventajas pero tambin son utilizadas en la
actualidad, as como, una serie de versiones que mezclan estos tres tipos, por ejemplo en los
noticieros televisivos hacen una pregunta y dan dos diferentes telfonos o tres para recibir las
respuestas.




1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
1 2 3 1 2 1 0 8 7 6 5 9 7 8 1 0 0 3 4 9 8 0 0 9 7 1
2 5 5 6 3 8 9 0 9 6 7 5 9 0 7 6 4 2 3 1 6 5 6 3 3 2
3 9 6 4 1 2 3 0 0 4 6 1 7 9 2 1 4 3 9 1 5 2 3 9 0 8
4 3 2 8 9 2 9 3 4 6 5 9 4 7 7 2 6 2 1 5 9 0 7 1 9 9
5 3 6 1 0 0 4 0 7 0 5 1 5 3 9 1 0 1 2 1 8 5 9 4 4 6
6 5 3 3 4 7 1 9 5 4 5 2 4 6 4 2 9 6 5 4 3 9 4 2 1 7
7 4 3 1 0 3 3 7 8 7 3 7 5 3 5 0 2 6 4 1 1 0 2 7 0 2
8 2 2 8 6 5 6 7 2 7 1 6 4 1 8 6 5 4 3 7 1 2 6 6 1 0
9 0 4 1 6 5 7 6 4 2 0 3 4 5 2 1 5 9 6 8 7 6 0 5 6 4
10 9 1 7 0 3 6 6 7 3 1 2 2 8 4 6 8 3 8 9 9 7 3 5 8 0
11 6 0 6 7 7 0 6 8 7 7 1 2 4 3 4 3 3 3 4 4 0 9 7 8 1
12 8 2 7 3 2 9 2 8 3 8 2 1 0 7 1 2 7 7 5 7 1 3 8 5 9
13 6 0 6 7 4 5 8 9 6 0 9 4 9 5 1 5 1 0 7 2 0 5 5 0 6
14 7 8 0 2 4 8 1 5 8 2 8 5 5 5 2 1 2 4 8 4 8 8 9 3 5





Def i ni ci n de moda
La moda es el val or que t i ene mayor f recuenci a absol ut a.
Se r epr esent a por Mo .
Se puede hal l ar l a moda par a vari abl es cual i t at i vas y
cuant i t at i vas.
Hal l ar l a moda de l a di st r i buci n:
2, 3, 3, 4, 4, 4, 5, 5 Mo = 4
Si en un gr upo hay dos o vari as punt uaci ones con l a mi sma
f recuenci a y esa f r ecuenci a es l a mxi ma, l a di st ri buci n es bi modal o
mul t i modal , es deci r , t i ene vari as modas.
1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo = 1, 5, 9
Cuando t odas l as punt uaci ones de un gr upo t i enen l a mi sma
f recuenci a, no hay moda.
2, 2, 3, 3, 6, 6, 9, 9
Si dos punt uaci ones adyacent es t i enen l a f recuenci a mxi ma, l a
moda es el promedi o de l as dos punt uaci ones adyacent es.
0, 1, 3, 3, 5, 5, 7, 8Mo = 4

Cl cul o de l a moda para dat os agrupados
1 Todos l os i nt erval os t i enen l a mi sma ampl i t ud.

Li es el l mi t e i nf er i or de l a cl ase modal .
f i es l a f r ecuenci a absol ut a de l a cl ase modal .
f i - - 1 es l a f r ecuenci a absol ut a i nmedi at ament e i nf er i or a l a cl ase
modal .
f i - +1 es l a f r ecuenci a absol ut a i nmedi at ament e post er i or a l a cl ase
modal .
ai es l a ampl i t ud de l a cl ase.
Tambi n se ut i l i za ot r a f rmul a de l a moda que da un val or
aproxi mado de st a:

Ej empl o
Cal cul ar l a moda de una di st r i buci n est ad st i ca que vi ene dada por
l a si gui ent e t abl a:

f
i

[60, 63) 5
[63, 66) 18
[66, 69) 42
[69, 72) 27
[72, 75) 8

100



2 Los i nt erval os t i enen ampl i t udes di st i nt as.
En pr i mer l ugar t enemos que hal l ar l as al t ur as.

La cl ase modal es l a que t i ene mayor al t ur a.


La f rmul a de l a moda aproxi mada cuando exi st en di st i nt as
ampl i t udes es:

Ej empl o
En l a si gui ent e t abl a se muest r a l as cal i f i caci ones ( suspenso,
apr obado, not abl e y sobr esal i ent e) obt eni das p or un gr upo de 50 al umnos.
Cal cul ar l a moda.

f
i
h
i

[0, 5) 15 3
[5, 7) 20 10
[7, 9) 12 6
[9, 10) 3 3

50

Você também pode gostar