Você está na página 1de 17

08/09/2016

Tema 1
Estadstica descriptiva
univariante

1. Introduccin
2. Construccin de tablas estadsticas
3. Representaciones grficas
3.1. Diagrama de barras
3.2. Histograma y polgono de frecuencias
3.3. Diagrama de tarta
3.4. Otras representaciones
4. Medidas caractersticas de una distribucin
4.1. Generalidades
4.2. Medidas de centralizacin
4.3. Medidas de dispersin
4.4. Medidas de forma
4.4.1. Asimetra
4.4.2. Apuntamiento o curtosis
4.5.- Resumen: diagrama de caja (Box-Plot)

1. Introduccin
2. Construccin de tablas estadsticas
3. Representaciones grficas
3.1. Diagrama de barras
3.2. Histograma y polgono de frecuencias
3.3. Diagrama de tarta
3.4. Otras representaciones
4. Medidas caractersticas de una distribucin
4.1. Generalidades
4.2. Medidas de centralizacin
4.3. Medidas de dispersin
4.4. Medidas de forma
4.4.1. Asimetra
4.4.2. Apuntamiento o curtosis
4.5.- Resumen: diagrama de caja (Box-Plot)

1. Introduccin
Qu es la Estadstica?

Es una herramienta de aprendizaje


a partir de la observacin.
Nos ayuda a extraer conclusiones
generalizables a partir de un conjunto de
datos observados induccin o inferencia.

08/09/2016

1. Introduccin

1. Introduccin

* La materia prima son los datos (realizaciones


de una variable).
* Llamamos variables a los rasgos o cualidades
de inters presentes en los elementos de la
poblacin.
* El resultado, las conclusiones sobre el
fenmeno que ha originado los datos.
Los datos pueden clasificarse:
Segn su naturaleza.
Segn su representatividad.
Segn el procedimiento de obtencin.

1. Introduccin

* Segn su naturaleza:
Datos cuantitativos: toman valores
numricos.
Discretos: toman valores enteros.
Continuos: toman valores en un intervalo.

Datos cualitativos, categricos o atributos.


No toman valores numricos
Su realizacin concreta es una cualidad o
modalidad.

1. Introduccin

La cantidad de informacin
aportada por ambos tipos de variables
es muy distinta
Variables cualitativas

Segn su representatividad:
- Poblacin: conjunto de todos los datos

posibles de la variable objeto de estudio.


Variables cuantitativas

- Muestra: subconjunto
la poblacin.

representativo de

escalas de intervalos

razones o escalas de cociente


0 como ausencia de la caracterstica

08/09/2016

1. Introduccin

1. Introduccin

* Segn el procedimiento de obtencin:

El objetivo de la estadstica
es inferir cmo ser la poblacin
de la variable de inters
a partir
de la informacin limitada
que nos aporta la muestra.

- Datos observacionales: recogidos de


forma pasiva a partir de la poblacin.

El investigador no tiene ningn control sobre


la variable.
Los valores son conocidos a posteriori,
despus de haber seleccionado los individuos a
analizar.

- Datos experimentales: obtenidos como


resultado de un experimento.

1. Introduccin

Fuente Imagen: LA ESTADISTICA EN COMIC de GONICK, LARRY y SMITH, WOOLLCOTT

1. Introduccin
2. Construccin de tablas estadsticas
3. Representaciones grficas
3.1. Diagrama de barras
3.2. Histograma y polgono de frecuencias
3.3. Diagrama de tarta
3.4. Otras representaciones
4. Medidas caractersticas de una distribucin
4.1. Generalidades
4.2. Medidas de centralizacin
4.3. Medidas de dispersin
4.4. Medidas de forma
4.4.1. Asimetra
4.4.2. Apuntamiento o curtosis
4.5.- Resumen: diagrama de caja (Box-Plot)

08/09/2016

2. Construccin de tablas estadsticas


A la hora de enfrentarse
a un conjunto de datos
hay que comenzar realizando
dos operaciones bsicas.

ORDENAR

RESUMIR

2. Construccin de tablas estadsticas


acumulada: supuesta la ordenacin de
los datos de menor a mayor, la
frecuencia acumulada de xi es la suma
de frecuencias hasta el valor xi.
Absoluta (F)
Relativa (Fr)

2. Construccin de tablas estadsticas


Rango o recorrido de una variable:
diferencia entre el mayor
y el menor valor de sta.
Frecuencia
absoluta (f ): el nmero de veces
que aparece cada dato de la variable.
total (n): nmero total de datos de
la variable (suma de frecuencias
absolutas).
relativa (fr): cociente entre
frecuencia absoluta y frecuencia total.

2. Construccin de tablas estadsticas

La tabla de distribucin de frecuencias o


tabla de frecuencias recoge los valores
observados en nuestra variable de inters,
y cuntos datos hay de cada valor.

La frecuencia acumulada relativa de un dato


es el cociente entre
la frecuencia acumulada absoluta de un dato
y la frecuencia total.

08/09/2016

2. Construccin de tablas estadsticas

2. Construccin de tablas estadsticas

ej: 3, 2 ,3, 3, 4 ,5 ,3, 6, 3 ,6


(n=10)

xi

fi

fr

Fr

0,1

0,1

0,5

0,6

0,1

0,7

0,1

0,8

0,2

10

2. Construccin de tablas estadsticas


Si hay muchos valores diferentes
(generalmente en variables continuas) la
tabla se construye agrupando los valores en
clases o intervalos, generalmente de la
misma longitud.

Tabla de
frecuencias de las
alturas de 95
alumnos

Mes de nacimiento de 95 estudiantes de primer curso de


Ingeniera Industrial

2. Construccin de tablas estadsticas


Amplitud de un intervalo: diferencia entre
el extremo superior e inferior del mismo.
Marca de clase (mj): punto medio de
cada intervalo o clase, valor representativo
de todos los datos del intervalo.

El nmero de clases r debe oscilar entre 5 y


20; a menudo se escoge el entero ms
prximo a n

08/09/2016

1. Introduccin
2. Construccin de tablas estadsticas
3. Representaciones grficas
3.1. Diagrama de barras
3.2. Histograma y polgono de frecuencias
3.3. Diagrama de tarta
3.4. Otras representaciones
4. Medidas caractersticas de una distribucin
4.1. Generalidades
4.2. Medidas de centralizacin
4.3. Medidas de dispersin
4.4. Medidas de forma
4.4.1. Asimetra
4.4.2. Apuntamiento o curtosis
4.5.- Resumen: diagrama de caja (Box-Plot)

3.1. Diagrama de barras

3.1. Diagrama de barras

* Representacin para variables sin


agrupar, sean cualitativas o cuantitativas.
Abscisa: valor o categora de la variable.
Ordenada: altura proporcional a la
frecuencia.

3.1. Diagrama de barras


El diagrama en escalera es una curva
construida con las frecuencias acumuladas.

Nmero de cilindros de 155 coches

08/09/2016

1. Introduccin
2. Construccin de tablas estadsticas
3. Representaciones grficas
3.1. Diagrama de barras
3.2. Histograma y polgono de frecuencias
3.3. Diagrama de tarta
3.4. Otras representaciones
4. Medidas caractersticas de una distribucin
4.1. Generalidades
4.2. Medidas de centralizacin
4.3. Medidas de dispersin
4.4. Medidas de forma
4.4.1. Asimetra
4.4.2. Apuntamiento o curtosis
4.5.- Resumen: diagrama de caja (Box-Plot)

3.2. Histograma y polgono de


frecuencias

Peso de 100 alumnos de 1


de Ingeniera

Precio ($) de 155 coches

3.2. Histograma y polgono de


frecuencias
* El histograma es una representacin
para variables agrupadas en intervalos.
Abscisa: intervalo de valor de la
variable.
Ordenada: altura proporcional a la
frecuencia, de manera que las reas
de los rectngulos sean proporcionales
a las frecuencias.

3.2. Histograma y polgono de


frecuencias
Muestra las tendencias generales de los
datos:
Concentraciones: rectngulos con
frecuencias altas, alrededor de los cuales se
agrupan otros de frecuencia decreciente.
Ms de una concentracin datos
heterogneos.
Huecos: indicio de que los datos proceden
de poblaciones diferentes.

08/09/2016

3.2. Histograma y polgono de


frecuencias

3.2. Histograma y polgono de


frecuencias

Valores atpicos: aquellos que se separan


mucho del patrn general que siguen los
datos.
Asimetras: tendencia de los datos cuando
nos alejamos de las zonas de
concentracin.
Cola de la distribucin de los datos
hacia +, asimetra positiva.
Cola de la distribucin de los datos
hacia asimetra negativa.

* El polgono de frecuencias es una lnea


poligonal que resulta al unir los puntos
centrales de la parte superior del histograma.

3.2. Histograma y polgono de


frecuencias
* Ambos pueden construirse a partir de las
frecuencias acumuladas.

1. Introduccin
2. Construccin de tablas estadsticas
3. Representaciones grficas
3.1. Diagrama de barras
3.2. Histograma y polgono de frecuencias
3.3. Diagrama de tarta
3.4. Otras representaciones
4. Medidas caractersticas de una distribucin
4.1. Generalidades
4.2. Medidas de centralizacin
4.3. Medidas de dispersin
4.4. Medidas de forma
4.4.1. Asimetra
4.4.2. Apuntamiento o curtosis
4.5.- Resumen: diagrama de caja (Box-Plot)

08/09/2016

3.3. Diagrama de tarta


* Para pocos valores o categoras de la
variable.
* Crculo dividido en sectores proporcionales
a la frecuencia de cada valor.

1. Introduccin
2. Construccin de tablas estadsticas
3. Representaciones grficas
3.1. Diagrama de barras
3.2. Histograma y polgono de frecuencias
3.3. Diagrama de tarta
3.4. Otras representaciones
4. Medidas caractersticas de una distribucin
4.1. Generalidades
4.2. Medidas de centralizacin
4.3. Medidas de dispersin
4.4. Medidas de forma
4.4.1. Asimetra
4.4.2. Apuntamiento o curtosis
4.5.- Resumen: diagrama de caja (Box-Plot)

Red Elctrica Espaola

3.4. Otras representaciones


Series temporales

Pictogramas

1. Introduccin
2. Construccin de tablas estadsticas
3. Representaciones grficas
3.1. Diagrama de barras
3.2. Histograma y polgono de frecuencias
3.3. Diagrama de tarta
3.4. Otras representaciones
4. Medidas caractersticas de una distribucin
4.1. Generalidades
4.2. Medidas de centralizacin
4.3. Medidas de dispersin
4.4. Medidas de forma
4.4.1. Asimetra
4.4.2. Apuntamiento o curtosis
4.5.- Resumen: diagrama de caja (Box-Plot)

08/09/2016

4.1. Medidas caractersticas: Generalidades

4.1. Medidas caractersticas: Generalidades


Podemos distinguir:

* Son aquellas que nos permiten resumir con


un solo nmero los rasgos fundamentales de
la distribucin.
* Deben acompaarse de herramientas
grficas para evitar errores.

1. Introduccin
2. Construccin de tablas estadsticas
3. Representaciones grficas
3.1. Diagrama de barras
3.2. Histograma y polgono de frecuencias
3.3. Diagrama de tarta
3.4. Otras representaciones
4. Medidas caractersticas de una distribucin
4.1. Generalidades
4.2. Medidas de centralizacin
4.3. Medidas de dispersin
4.4. Medidas de forma
4.4.1. Asimetra
4.4.2. Apuntamiento o curtosis
4.5.- Resumen: diagrama de caja (Box-Plot)

Tendencia central o centralizacin:


indican el valor medio de los datos.
Dispersin: indican la variabilidad de los
datos.
Forma:
Simetra
Apuntamiento
Concentracin

4.2. Medidas de centralizacin


Media aritmtica

x1 x2 ... xn

x
i 1

Para datos discretos con sus frecuencias:


(sumatorio extendido
x x j fr ( x j )
al n de valores
n
distintos de la variable)

Para datos en clases:

x m j fr (m j )

Error de agrupamiento

10

08/09/2016

4.2. Medidas de centralizacin

Propiedades de la media aritmtica


n

1)
2)

xi
i 1

4.2. Medidas de centralizacin


Es el centro de gravedad de los datos.

( x x ) x x nx nx 0
i 1

i 1

i 1

y xk
n

(x k) x k x
i 1

3)

y kx

kx
i 1

4.2. Medidas de centralizacin

nk
xk
n

kx

Por ello, si la distribucin es asimtrica, se


desplaza respecto a la clase ms frecuente, y
deja de ser una buena medida de centralizacin.

4.2. Medidas de centralizacin

Mediana
Valor de la variable estadstica
que divide en dos partes iguales
la distribucin de frecuencias.

11

08/09/2016

4.2. Medidas de centralizacin

4.2. Medidas de centralizacin

* Para calcular la mediana se ordenan los


datos de menor a mayor:
n impar de datos: valor central.
n par de datos: media aritmtica
de los valores centrales
La mediana NO es sensible a datos atpicos.

Robustez

1. Introduccin
2. Construccin de tablas estadsticas
3. Representaciones grficas
3.1. Diagrama de barras
3.2. Histograma y polgono de frecuencias
3.3. Diagrama de tarta
3.4. Otras representaciones
4. Medidas caractersticas de una distribucin
4.1. Generalidades
4.2. Medidas de centralizacin
4.3. Medidas de dispersin
4.4. Medidas de forma
4.4.1. Asimetra
4.4.2. Apuntamiento o curtosis
4.5.- Resumen: diagrama de caja (Box-Plot)

Moda
Es el valor ms frecuente de la
distribucin.

En datos agrupados tomamos como moda


la marca de clase del intervalo
con mayor densidad de frecuencia.

4.3. Medidas de dispersin


Miden la proximidad entre los valores de la
variable y las medidas de centralizacin.

Varianza

s
2

(x x)

Para datos discretos agrupados:

s 2 ( x j x )2 f r ( x j )
n

(sumatorio extendido
al n de valores
distintos de la variable)

12

08/09/2016

4.3. Medidas de dispersin

4.3. Medidas de dispersin


Propiedades de la varianza

Una medida alternativa es la cuasivarianza.

1) Es una cantidad acotada y positiva

s 2

(x x)

2) La varianza NO se ve afectada por los


cambios de origen (transformaciones aditivas)

n 1

Muchos programas estadsticos, entre ellos


Statgraphics, calculan la cuasivarianza en lugar de
la varianza, y la llaman varianza.

sx
2

sy
2

(x x)

y xk

(y

y)2

(x k x k)
i

4.3. Medidas de dispersin

4.3. Medidas de dispersin

3) La varianza S se ve afectada por los


cambios de escala (transformaciones
multiplicativas)

Frmula de clculo

sx
2

sy
2

(x x)

sx

y kx

(y

y)

(kx kx )
i

(x x)
i

k 2 sx

(x x)
i

sx

x2

xi 2 f j

n
2

x
n

13

08/09/2016

4.3. Medidas de dispersin

4.3. Medidas de dispersin


Coeficiente de variacin

Desviacin tpica

sx

(x x)

Es una medida de dispersin relativa.

CV

Nos permite:
1) Comparar la dispersin entre distribuciones.
2) Evaluar la representatividad de la media.

Para datos discretos agrupados:

sx

(x

x )2 f r ( x j )

s
100 x 0
/x/

(sumatorio extendido
al n de valores
distintos de la variable)

4.3. Medidas de dispersin

Coeficiente seal-ruido

CSR

/x/
100 x 0
s

4.3. Medidas de dispersin

Cuantiles
Son los valores de la variable
que dividen la distribucin en c partes iguales.
Cuartiles (Q)
Quintiles (K)
Percentiles (p)

c=4
c=5
c=100

Para calcular un cuantil


nos fijamos en su frecuencia acumulada.

Rango intercuartlico (RI)


Es la diferencia
entre los percentiles 75 y 25
(o entre los cuartiles 3 y 1)

n i
c

14

08/09/2016

1. Introduccin
2. Construccin de tablas estadsticas
3. Representaciones grficas
3.1. Diagrama de barras
3.2. Histograma y polgono de frecuencias
3.3. Diagrama de tarta
3.4. Otras representaciones
4. Medidas caractersticas de una distribucin
4.1. Generalidades
4.2. Medidas de centralizacin
4.3. Medidas de dispersin
4.4. Medidas de forma
4.4.1. Asimetra
4.4.2. Apuntamiento o curtosis
4.5.- Resumen: diagrama de caja (Box-Plot)

4.4.1. Asimetra
Otras medidas de asimetra:

x Mo
s
x Med
s

4.4.1. Asimetra
Coeficiente de asimetra (CA)

CA g1

(x x)

ns3

g1=0 Distribucin simtrica


g1>0 Distribucin asimtrica positiva
o asimtrica a derechas
g1<0 Distribucin asimtrica negativa
o asimtrica a izquierdas

1. Introduccin
2. Construccin de tablas estadsticas
3. Representaciones grficas
3.1. Diagrama de barras
3.2. Histograma y polgono de frecuencias
3.3. Diagrama de tarta
3.4. Otras representaciones
4. Medidas caractersticas de una distribucin
4.1. Generalidades
4.2. Medidas de centralizacin
4.3. Medidas de dispersin
4.4. Medidas de forma
4.4.1. Asimetra
4.4.2. Apuntamiento o curtosis
4.5.- Resumen: diagrama de caja (Box-Plot)

15

08/09/2016

4.4.2. Apuntamiento o curtosis

4.4.2- Apuntamiento o curtosis

Indica el mayor o menor agrupamiento de los datos


en torno a la media.

0,4

CAp=0: mesocrtica

Mean,Std. dev.
0,1

0,3
0,2
0,1

Como referencia se toma el apuntamiento


de la distribucin normal, que cumple:

0,4

Mean,Std. dev.
0,1

CA p

(x x)

0,3

0
-5

0
-5

-3

-1

CAp

ns 4

(x x)
i

ns 4

-1

CAp>0: leptocrtica

1,6
1,2

(en el ejemplo: 3,21)

0,8
0,4
0
3,7

0,2
0,1

-3

4,2

4,7

5,2

5,7

6,2

6,7

(Exceso de curtosis)

1,5
1,2

CAp<0: platicrtica

0,9
0,6

(en el ejemplo: -0,9)

0,3
0
0

1. Introduccin
2. Construccin de tablas estadsticas
3. Representaciones grficas
3.1. Diagrama de barras
3.2. Histograma y polgono de frecuencias
3.3. Diagrama de tarta
3.4. Otras representaciones
4. Medidas caractersticas de una distribucin
4.1. Generalidades
4.2. Medidas de centralizacin
4.3. Medidas de dispersin
4.4. Medidas de forma
4.4.1. Asimetra
4.4.2. Apuntamiento o curtosis
4.5.- Resumen: diagrama de caja (Box-Plot)

0,2

0,4

0,6

0,8

4.5- Diagrama de caja


Representacin grfica de una distribucin,
construida para mostrar
sus caractersticas principales
y sealar los posibles datos atpicos.

LI= Q1-1,5(Q3-Q1)

LS= Q3+1,5(Q3-Q1)

LIE= Q1-3(Q3-Q1)

LSE= Q3+3(Q3-Q1)

16

08/09/2016

4.5. Diagrama de caja

4.5. Diagrama de caja


Media

Q1

Q3

Diagrama de caja

47

57

67

77

87

Peso

mx. (no atpico)

Q2

mn. (no atpico)

1. Introduccin
2. Construccin de tablas estadsticas
3. Representaciones grficas
3.1. Diagrama de barras
3.2. Histograma y polgono de frecuencias
3.3. Diagrama de tarta
3.4. Otras representaciones
4. Medidas caractersticas de una distribucin
4.1. Generalidades
4.2. Medidas de centralizacin
4.3. Medidas de dispersin
4.4. Medidas de forma
4.4.1. Asimetra
4.4.2. Apuntamiento o curtosis
4.5.- Resumen: diagrama de caja (Box-Plot)

17

Você também pode gostar