Você está na página 1de 21

Grado en Ingeniera Inform

atica
Estadstica
Roco Raya Miranda
rraya@ugr.es

Curso 2013/2014

Dpto. Estadstica e I.O.


Universidad de Granada

Tema 1. Estadstica Descriptiva Unidimensional

Introducci
on: Conceptos b
asicos

TEMA 1. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL

INTRODUCCION:
CONCEPTOS BASICOS
La observaci
on de fen
omenos que acontecen en la vida real permiten establecer una
clasificaci
on de los mismos:
Fen
omeno determinista: Un fen
omeno es determinista si al repetirlo en id
enticas
condiciones se obtiene el mismo resultado.
Fen
omeno aleatorio: Un fen
omeno es aleatorio si al repetirlo en an
alogas condiciones puede
presentar resultados diferentes.
La estadstica se ocupa principalmente de los fen
omenos aleatorios, encontr
andose ante un
conjunto de observaciones que presentan una variabilidad difcil de explicar y que requieren un
tratamiento especial (tratamiento estadstico) para poder efectuar conclusiones. Por lo tanto,
la estadstica es una rama de las matem
aticas que trata de la recopilaci
on, el an
alisis, la
interpretaci
on y la representaci
on de una gran cantidad de datos num
ericos.
Las etapas de un estudio estadstico son las siguientes:

1. Recogida de datos

Estadstica descriptiva
2. Ordenaci
on, tabulaci
on y gr
aficos

3. Descripci
on de caractersticas
o
Inferencia estadstica
4. An
alisis formal
R. Raya (Dpto. Estadstica e I.O.)

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

2 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Introducci
on: Conceptos b
asicos

Definici
on
Se denomina poblaci
on al conjunto objeto de estudio, es decir, cualquier conjunto de unidades
con ciertas caractersticas comunes, sobre las que se desea informaci
on.
Definici
on
Cada uno de los elementos de la poblaci
on se denomina unidad estadstica o individuo.
La poblaci
on puede ser finita o infinita, seg
un que los elementos que la formen se presenten en
n
umero finito o infinito.
Definici
on
Se denomina muestra a un subconjunto representativo de la poblaci
on.
Definici
on
Se llaman caracteres a las propiedades que se desean observar en los elementos de la poblaci
on y
que han de tener todos y cada uno de ellos.
En un estudio particular pueden considerarse una sola caracterstica o varias a la vez.
Definici
on
Las modalidades son cada una de las formas en que puede presentarse un car
acter.
Para estar bien definidas deben cumplir dos requisitos: exhaustividad e incompatibilidad.
R. Raya (Dpto. Estadstica e I.O.)

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

3 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Introducci
on: Conceptos b
asicos

Modalidades exhaustivas: Se dice que las modalidades de un car


acter son exhaustivas si cubren
todas las posibles formas en que
este se manifiesta.
Modalidades incompatibles: Se dice que las modalidades de un car
acter son incompatibles
cuando cada individuo solo puede presentar una de las modalidades.
Clasificaci
on de caracteres seg
un las modalidades:
Cuantitativos: Un car
acter es cuantitativo cuando sus modalidades son medibles
num
ericamente. Los caracteres cuantitativos se denominan tambi
en variables
estadsticas. Se subdividen en dos grupos:
Variables estadsticas discretas: Son aquellas que tienen un n
umero finito o
infinito numerable de modalidades. Las modalidades son valores aislados.
Variables estadsticas continuas: El n
umero de modalidades es no
numerable. Las posibles modalidades son todos los valores de un intervalo.
Cualitativos: Un car
acter es cualitativo cuando sus modalidades no son medibles
num
ericamente. Un car
acter cualitativo recibe tambi
en el nombre de atributo.

R. Raya (Dpto. Estadstica e I.O.)

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

4 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Distribuci
on de frecuencias

DE FRECUENCIAS
DISTRIBUCION

Definici
on
La distribuci
on de frecuencias de una variable estadstica es el conjunto de valores ordenados de
la variable con sus frecuencias correspondientes.

Formalmente se representa por el conjunto de pares ordenados.


Variable cualitativa
{(Mi ; ni )}ki=1
o
{(Mi ; fi )}ki=1

Variable cuantitativa
Discreta
Continua
{(xi ; ni )}ki=1
{(Ii ; ni )}ki=1
o
o
{(xi ; fi )}ki=1
{(Ii ; fi )}ki=1

Mi : cada una de las modalidades de una variable cualitativa.


xi : cada uno de los valores num
ericos que puede tomar una variable estadstica discreta.
Ii : cada uno de los intervalos que constituyen las modalidades de una variable estadstica
continua, considerando que Ii = (ei1 ; ei ], siendo ei1 y ei los extremos inferior y superior,
respectivamente, del intervalo.

R. Raya (Dpto. Estadstica e I.O.)

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

5 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Distribuci
on de frecuencias

Se considera un car
acter X con k modalidades, x1 , x2 , . . . , xk . Las frecuencias asociadas a la
modalidad xi son:
Definici
on
Frecuencia absoluta (ni ): N
umero de individuos de la poblaci
on que presentan dicha modalidad,
es decir, el n
umero de veces que se repite. Como las modalidades deben ser incompatibles y
exhaustivas se verifica que
k
X
N =
ni
i=1

siendo N el n
umero total de observaciones.
Definici
on
Frecuencia relativa (fi ): Proporci
on de individuos de la poblaci
on que presentan dicha
modalidad. Es decir,
ni
fi =
N
Se verifica que

k
X

fi = 1

i=1

R. Raya (Dpto. Estadstica e I.O.)

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

6 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Distribuci
on de frecuencias

Definici
on
Frecuencia absoluta acumulada (Ni ): N
umero de individuos que presentan un valor de la variable
menor o igual que el considerado, por lo tanto, es la suma de las frecuencias absolutas hasta la
i-
esima modalidad,
Ni = n1 + n2 + ... + ni =

i
X

nj Nk = N =

j=1

k
X

ni

i=1

Definici
on
Frecuencia relativa acumulada (Fi ): Proporci
on de individuos de la poblaci
on que presentan un
valor de la variable menor o igual que el considerado, por lo tanto, es la suma de las frecuencias
relativas hasta la i-
esima modalidad,
Fi = f1 + f2 + ... + fi =

i
X

fj Fk = 1 =

j=1

Tambi
en puede calcularse como Fi =

R. Raya (Dpto. Estadstica e I.O.)

k
X

fi

i=1

Ni
N

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

7 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Tablas de frecuencias

TABLA DE FRECUENCIAS DE UNA VARIABLE ESTADISTICA DISCRETA


Se considera una variable estadstica discreta, X, que toma los valores x1 , . . . , xi , . . . , xk . La
tabla estadstica con los tipos de frecuencias estudiados se construye de la siguiente forma:
xi
x1
x2
..
.
xi
..
.
xk
Total

R. Raya (Dpto. Estadstica e I.O.)

ni
n1
n2
..
.
ni
..
.
nk
N

Ni
N1
N2
..
.
Ni
..
.
Nk = N

fi
f1
f2
..
.
fi
..
.
fk
1

Fi
F1
F2
..
.
Fi
..
.
Fk = 1

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

8 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Tablas de frecuencias

TABLA DE FRECUENCIAS DE UNA VARIABLE ESTADISTICA CONTINUA


En las variables de tipo continuo se agrupan los valores de la variable en intervalos o clases que
se denotan como Ii = (ei1 , ei ]
Cada clase est
a representada por su punto medio, que recibe el nombre de marca de clase, y se
denota por xi , por lo tanto, se obtiene como
xi =

ei1 + ei
2

Se define amplitud del intervalo a la diferencia entre los extremos del intervalo,
ai = ei ei1
Los intervalos de una poblaci
on pueden elegirse de igual o distinta amplitud.
El n
umero de intervalos, k, a utilizar no est
a determinado de forma fija y por tanto, se usa un
k que permita trabajar c
omodamente y represente bien la estructura de los datos.

R. Raya (Dpto. Estadstica e I.O.)

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

9 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Tablas de frecuencias

La tabla de frecuencias correspondiente a las variables estadsticas de tipo continuo con las
frecuencias estudiadas es la siguiente:
Ii = (ei1 , ei ]
[e0 , e1 ]
..
.
(ei1 , ei ]
..
.
(ek1 , ek ]
Total

R. Raya (Dpto. Estadstica e I.O.)

xi
x1
..
.
xi
..
.
xk

ni
n1
..
.
ni
..
.
nk
N

Ni
N1
..
.
Ni
..
.
Nk = N
1

fi
f1
..
.
fi
..
.
fk

Grado en Ingeniera Inform


atica Estadstica

Fi
F1
..
.
Fi
..
.
Fk = 1

ai
a1
..
.
ai
..
.
ak

Curso 2013/2014

10 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Representaciones gr
aficas

La representaci
on gr
afica tiene por objeto proporcionar una sntesis visual de la distribuci
on de
frecuencias, haciendo resaltar detalles que no resultan f
acilmente perceptibles directamente en la
tabla estadstica.

REPRESENTACIONES GRAFICAS
DE VARIABLES ESTADISTICAS DISCRETAS

Diagrama de barras: Sobre un sistema cartesiano se


representan en el eje de abscisas los valores de la variable y
sobre cada uno de estos valores se levantan barras de altura
igual a su frecuencia absoluta o a su frecuencia relativa.

Polgono de frecuencias: Es la lnea que se obtiene uniendo


con segmentos, en el diagrama de barras, los puntos medios de
los extremos superiores de las barras recibe el nombre de
polgono de frecuencias.

R. Raya (Dpto. Estadstica e I.O.)

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

11 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Representaciones gr
aficas

REPRESENTACIONES GRAFICAS
DE VARIABLES ESTADISTICAS CONTINUAS
Histograma: El histograma se construye representando los
intervalos en el eje de abscisas y la densidad de frecuencia en
el eje de ordenadas. Se dibujan rect
angulos de base la
amplitud ai y de altura la densidad de frecuencia, hi , siendo
fi
ni
o hi =
.
hi =
ai
ai
Polgono de frecuencias: Es la lnea que se obtiene uniendo
con segmentos, los puntos medios de los extremos superiores
de los rect
angulos que forman el histograma.

R. Raya (Dpto. Estadstica e I.O.)

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

12 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Representaciones gr
aficas

REPRESENTACIONES GRAFICAS
DE VARIABLES ESTADISTICAS CUALITATIVAS
Diagrama de barras: En unos ejes cartesianos se representan
sobre el eje de abscisas las distintas modalidades del car
acter y
sobre el eje de ordenadas los valores de las frecuencias
absolutas. A continuaci
on, en el eje de abscisas se levantan
rect
angulos de base constante y de altura proporcional a la
frecuencia absoluta correspondiente.
Gr
afico de sectores: En esta representaci
on un crculo se divide
en tantos sectores circulares como modalidades tenga el
car
acter, teniendo cada sector el
area proporcional a la
frecuencia absoluta correspondiente. Los grados de cada sector
i o
se obtienen resolviendo la proporci
on nNi = 360
o

R. Raya (Dpto. Estadstica e I.O.)

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

13 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Caractersticas de variables estadsticas

CENTRAL
MEDIDAS DE POSICION
Definici
on
Las medidas de posici
on tratan de resumir y sintetizar el conjunto de datos mediante un valor
num
erico.
Si este valor num
erico se sit
ua hacia el centro de la distribuci
on se habla, entonces, de medidas
de posici
on central. Las principales medidas de posici
on central son: la media, la mediana y la
moda. Se estudiar
an tambi
en otras medidas de posici
on no central llamadas cuantiles. En cada
medida se distingue para su c
alculo entre los casos discreto y continuo.
Definici
on
Media aritm
etica: Sea una variable X, con valores x1 , x2 , . . . , xk y frecuencias absolutas
n1 , n2 , . . . , nk . Entonces, se define la media, y se denota por x
, como la suma ponderada de los
valores de la variable por sus frecuencias.
- Caso discreto: x
=

Pk

i=1

x i fi =

1
N

Pk

i=1

xi ni siendo N el n
umero total de

observaciones.
- Caso continuo: En este caso los intervalos se representan por su marca de clase,
defini
endose la media de forma an
aloga al caso de variable estadstica discreta.

R. Raya (Dpto. Estadstica e I.O.)

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

14 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Caractersticas de variables estadsticas

Definici
on
Mediana: Se define la mediana y se denota por Me, como aquel valor de la variable estadstica
que divide en dos conjuntos iguales a los valores de la variable supuestos ordenados de forma
ascendente seg
un el car
acter.
- Caso discreto:
1

Si no existe un valor xi con Fi = 0.5, entonces la mediana es el primer valor de la


variable tal que Fi > 0.5
Si existe un valor xi con Fi = 0.5, entonces la mediana ser
a la media aritm
etica de los
valores xi y xi+1 , es decir,
xi + xi+1
Me =
2

- Caso continuo:
1
2

Si existe alg
un intervalo Ii , tal que Fi = 0.5, entonces M e = ei
Si no existe un intervalo Ii , tal que Fi = 0.5, se selecciona el primer intervalo en el
que Fi > 0.5. A este intervalo se le denomina intervalo mediano, se denota por IM e .
El valor exacto de la mediana se obtiene aplicando al intervalo mediano la siguiente
f
ormula:
0.5 Fi1
ai
M e = ei1 +
fi

R. Raya (Dpto. Estadstica e I.O.)

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

15 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Caractersticas de variables estadsticas

Definici
on
Moda: Se define la moda y se nota por Mo, como el valor m
as frecuente de la distribuci
on, o lo
que es lo mismo, el que m
as se repite.
La moda puede no ser u
nica (m
as de una modalidad tienen igual frecuencia m
axima) o incluso
no existir (cuando todos las modalidades de la variable tengan igual frecuencia).
- Caso discreto: En este caso, la moda es el valor de la variable que corresponde a la m
axima
frecuencia absoluta.
M o = xi tal que ni = maxj nj
- Caso continuo: En primer lugar, se elige el intervalo modal, IM o = (ei1 , ei ], que es aquel
que tenga m
axima altura o densidad de frecuencia hi = max hj . El valor exacto de la moda
j

se obtiene aplicando al intervalo modal la siguiente f


ormula:
M o = ei1 +

R. Raya (Dpto. Estadstica e I.O.)

(hi hi1 )
ai
(hi hi1 ) + (hi hi+1 )

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

16 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Caractersticas de variables estadsticas

OTRAS MEDIDAS DE POSICION.


CUANTILES
Sea X una variable estadstica y sea un n
umero real tal que 0 < < 1. En general, un
cuantil de orden de la variable X, divide a la poblaci
on en dos partes, de tal manera que una
proporci
on de la poblaci
on es menor que dicho valor y el resto mayor.
Definici
on
Cuartiles: Son tres valores que distribuyen la serie de datos, ordenada de forma creciente, en
cuatro tramos iguales, en los que cada uno de ellos contiene el 25% de las observaciones. Se
denotan por Q1 , Q2 y Q3 .
Definici
on
Deciles: Son nueve valores que distribuyen la serie de datos, ordenada de forma creciente, en diez
tramos iguales, en los que cada uno de ellos contiene el 10% de las observaciones. Se denotan
por: D1 , D2 , . . . , D9 .
Definici
on
Percentiles: Son noventa y nueve valores que distribuyen la serie de datos, ordenada de forma
creciente, en cien tramos iguales, en los que cada uno de ellos contiene el 1% de las
observaciones. Se denotan por: P1 , P2 , . . . , P99 .

R. Raya (Dpto. Estadstica e I.O.)

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

17 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Caractersticas de variables estadsticas

C
alculo de un cuantil
Para calcular un cuantil C() se razona de manera an
aloga al c
alculo de la mediana.
- Caso discreto:
1

Si no existe un valor xi con Fi = , entonces el cuantil de orden es el primer valor


de la variable tal que Fi > .
Si existe un valor de la variable xi que verifique Fi = , entonces el cuantil de orden
ser
a
xi + xi+1
C() =
2

- Caso continuo:
1
2

Si existe alg
un intervalo Ii , tal que Fi = , entonces C() = ei
Si no existe un intervalo Ii , tal que Fi = , se selecciona el primer intervalo en el
Fi > . Dicho intervalo contiene el cuantil y para determinar el valor exacto se utiliza
la interpolaci
on con la siguiente f
ormula:
C() = ei1 +

R. Raya (Dpto. Estadstica e I.O.)

Fi1
ai
fi

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

18 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Caractersticas de variables estadsticas

MEDIDAS DE DISPERSION
Las medidas de dispersi
on informan de lo pr
oximas o alejadas que est
an las observaciones entre
s o en relaci
on con un valor de referencia que normalmente es una medida de centralizaci
on. De
esta forma, se pueden considerar las medidas de tendencia central como muy representativas del
conjunto, poco representativas, o en algunos casos, nada representativas, dependiendo de los
valores adoptados por las medidas de dispersi
on.
Se considera la variable estadstica X que toma los valores x1 , x2 , . . . , xk (con variable
estadstica continua se consideran las marcas de clase de los intervalos) y frecuencias
n1 , n2 , . . . , nk .
Definici
on
Rango o recorrido: Es la medida de dispersi
on m
as simple y se calcula como la diferencia entre el
valor m
aximo y el mnimo de la variable.
R=

max {xi }

i=1,...,k

min {xi }

i=1,...,k

Definici
on
Recorrido Intercuartlico: Es la diferencia entre el tercer y primer cuartil. Presenta la ventaja de
que elimina el efecto distorsionante de los valores extremos.
RIQ = Q3 Q1
R. Raya (Dpto. Estadstica e I.O.)

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

19 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Caractersticas de variables estadsticas

Definici
on
Varianza: Se define la varianza y se denota por 2 , como la media aritm
etica de los cuadrados de
las desviaciones entre los valores de la variable estadstica y la media aritm
etica.
2 =

k
X

(xi x
)2 fi =

i=1

k
1 X
(xi x
)2 ni
N i=1

La varianza siempre ser


a mayor o igual que cero. Mientras m
as se aproxime a cero, m
as
concentrados est
an los valores en torno a la media. Por el contrario, mientras mayor sea la
varianza, m
as dispersos est
an. El inconveniente que presenta es que no est
a acotada
superiormente, por lo que cuando los valores son grandes no se tiene una clara interpretaci
on.
C
alculo simplificado de la varianza (Teorema de K
onig)
Se obtiene una expresi
on m
as simple y sencilla para calcular la varianza
2 =

k
X
i=1

R. Raya (Dpto. Estadstica e I.O.)

x2i fi x
2 =

k
1 X 2
x ni x
2
N i=1 i

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

20 / 122

Tema 1. Estadstica Descriptiva Unidimensional

Caractersticas de variables estadsticas

Definici
on
Desviaci
on Tpica: La varianza es una medida de dispersi
on que viene dada en unidades al
cuadrado. Para mantener la misma unidad de medida de las observaciones, se define la
desviaci
on tpica, y se denota por , como la raz cuadrada positiva de la varianza,
v
v
v
u
u
u k
k
k
u1 X
u1 X
uX
2
2
(xi x
) fi = t
(xi x
) ni = t
x2i ni x
2
=t
N
N
i=1
i=1
i=1

Definici
on
Coeficiente de variaci
on de Pearson: Se define el coeficiente de variaci
on de Pearson de una
variable estadstica X, y se denota por CVx , como el cociente entre la desviaci
on tpica y la
media aritm
etica,
x
CVx =
x

Se utiliza para comparar la dispersi


on de dos o m
as distribuciones en las que las variables
vienen expresadas en unidades distintas ya que es una medida de dispersi
on relativa sin
dimensi
on. Presenta la ventaja de utilizar toda la informaci
on que suministra la distribuci
on. El
coeficiente de variaci
on representa el n
umero de veces que la desviaci
on tpica contiene a la
media aritm
etica, por tanto, cuanto mayor sea el coeficiente de variaci
on significa que mayor
n
umero de veces contiene la desviaci
on tpica a la media aritm
etica y entonces la media
aritm
etica es menos representativa.
R. Raya (Dpto. Estadstica e I.O.)

Grado en Ingeniera Inform


atica Estadstica

Curso 2013/2014

21 / 122

Você também pode gostar