Você está na página 1de 67

Estadstica Descriptiva

Qu es la Estadstica?
es la Ciencia de la
Sistematizacin, recopilacin, ordenacin y
presentacin de los datos referentes a un fenmeno
que presenta variabilidad o incertidumbre para su
estudio metdico,
con el objeto de
deducir las leyes que rigen esos fenmenos,
y poder de esa forma hacer previsiones sobre los
mismos, tomar decisiones u obtener conclusiones.

Por qu es importante la Estadstica?


Porque las tcnicas estadsticas permiten una mejor
descripcin y comprensin de la
VARIABILIDAD,
as como la toma de decisiones en su presencia.

Porqu existe la variabilidad?


Factores fsicos
Factores humanos
Sistema de medicin utilizado
El muestreo

Los estudiantes de Estadstica reciben diferentes calificaciones en


la asignatura (variabilidad). A qu puede deberse?
o Diferencias individuales en el conocimiento de la materia.

Podra haber otras razones (fuentes de variabilidad)?

Por ejemplo supongamos que todos los alumnos poseen el mismo


nivel de conocimiento. Las notas seran las mismas en todos?
Seguramente No.
o Dormir poco el da del examen, la tostada estaba envenenada...
Diferencias individuales en la habilidad para hacer un examen.
o El examen no es una medida perfecta del conocimiento.
Variabilidad por error de medida.
o En alguna pregunta difcil, se duda entre varias opciones, y al
azar se elige la mala
Variabilidad por azar, aleatoriedad.

Plantear hiptesis sobre una poblacin


Los fumadores tienen ms faltas laborales que los no fumadores
En qu sentido? Mayor nmero? Tiempo medio de la licencia?
Decidir qu datos recoger (diseo de experimentos)
Qu individuos pertenecern al estudio (muestras)
Fumadores y no fumadores en edad laboral.
Criterios de exclusin Cmo se eligen? Descartamos los que padecen
enfermedades crnicas?
Qu datos recoger de los mismos (variables)
Nmero de faltas, Tiempo de duracin de cada licencia, Sexo? Sector laboral?
Otros factores?
Recoger los datos (muestreo) Estratificado? Sistemticamente?
Describir (resumir) los datos obtenidos
tiempo medio de licencia en fumadores y no , % de faltas por fumadores y sexo
Realizar una inferencia sobre la poblacin
Los fumadores estn de licencia al menos 10 das/ao ms en promedio que los no
fumadores.
Cuantificar la confianza en la inferencia
Nivel de confianza, Significacin del contraste, probabilidad de error.

Plantear

Disear

hiptesis

experimento

Obtener
conclusiones

Recoger
datos
y analizarlos

El problema general de la Estadstica


Muestra

Poblacin

Inferencias

Qu error tiene?

El problema general de la Estadstica:

Estadstica Descriptiva
Estadstica Inferencial

Estadstica Descriptiva:
Se ocupa de la organizacin y presentacin de los datos
en forma convenientemente til y de fcil comunicacin
adems de hacer mediciones con esta informacin.
Inferencia Estadstica:
Se orienta a lograr generalizaciones, es decir, a partir de
los datos de la muestra obtener informacin sobre una
poblacin.

A cada caracterstica de los elementos de una poblacin


se le llama variables.
Nos encontraremos con varios tipos de variables:
CUALITATIVAS y CUANTITATIVAS.

Las variables CUALITATIVAS son aquellas que se


refieren a categoras o atributos de los elementos
(individuos) estudiados.
Las variables CUANTITATIVAS son aquellas cuyos
datos son de tipo numrico.

TIPOS DE VARIABLES CUALITATIVAS


Dicotmicas: Slo hay dos categora, que son
excluyentes una de la otra
Ejemplo: enfermo-sano, muerto-vivo, mujer-hombre

TIPOS DE VARIABLES CUALITATIVAS


Nominal: tiene mas de dos categoras y no hay orden
entre ellas.
Ejemplo: color de los ojos, grupo sanguneo

TIPOS DE VARIABLES CUALITATIVAS


Ordinal: tiene varias categoras y hay orden entre ellas.
Ejemplo: grado tumoral, calificacin del riesgo en
anestesia.

TIPOS DE VARIABLES CUANTITATIVAS


Continuas: nmeros infinito no numerables de
elementos. Tiene asociado el concepto de medida
Ejemplo: Largo de un buln, peso del envase.

TIPOS DE VARIABLES CUANTITATIVAS


Discretas: nmeros finitos o infinitos numerables de
puntos aislados. Se asocia con el concepto de conteo.
Ejemplo: N de hijos, N de defectos por artculo.

Nominal
Segn nivel de
medicin

Ordinal

Cuantitativa
Clasificacin de
Variables

Discreta
Segn tamao
del recorrido
Continua

Son imgenes que, combinando la utilizacin de sombreado,


colores, puntos, lneas, smbolos, nmeros, texto y un sistema de
referencia (coordenadas), permiten presentar informacin
cuantitativa.
Sirven para:
Organizar los datos
Observar patrones
Observar agrupamientos
Observar relaciones
Comparar distribuciones
Visualizar rpidamente la distribucin de los datos
Visualizar, obtener y comparar medidas estadsticas

(Herramienta til para pocos datos)


Ejemplo: Datos de resistencia a la tensin de muestras
de mortero Portland (Kg./cm2) sin polmero agregado:
16.85 16.40 17.21 16.35 16.52 17.04 16.96 17.15
16.59 16.57
mortero Portland con polmero agregado :
17.50 17.63 18.25 18.00 17.86 17.75 18.22 17.90
17.96 18.15

Para el Ejemplo:

* *

16.0

** *

16.5

**

* *

17.0

* = Mortero sin modificar


+ = Mortero modificado

+ + +

17.5

+ + ++

18.0

+ + +

18.5

Los datos cuantitativos discretos se organizan en tablas,


llamadas Tablas de Distribucin de frecuencias.
Frecuencia absoluta: Indica el nmero de veces que se
repite un valor de la variable.
Frecuencia relativa: Indica la proporcin con que se
repite un valor. Se obtiene dividiendo la frecuencia
absoluta entre el tamao de la muestra. Para una mejor
interpretacin es ms conveniente multiplicarla por 100
para trabajar con una Frecuencia relativa porcentual.

Frecuencia absoluta acumulada: Indica el nmero de


valores que son menores o iguales que el valor dado.
Frecuencia relativa porcentual acumulada: Indica el
porcentaje de datos que son menores o iguales que el
valor dado.

Ejemplo 6: En una compaa, el gerente de recursos


humanos, registr el nmero de das laborales perdidos
por 30 empleados, obteniendo los siguientes datos:
1, 3, 5, 1, 4, 2, 4, 4, 1, 0, 3, 3, 4, 5, 2, 3, 2, 4, 3, 4, 2, 5, 4,
4, 3, 5, 2, 1, 5, 5

Variable: N de das
laborables perdidos

Frecuencia
absoluta fi

Frecuencia
relativa fri

Frecuencia
acumulada Fi

1/30

4/30

5/30

10

6/30

16

8/30

24

6/30

30

9
8
7
6
5
4
3
2
1
0
0

Cuntos individuos tienen


menos de 2 hijos?
frec. indiv. sin hijos +
frec. indiv. con 1 hijo
= 419 + 255
= 674 individuos

Qu porcentaje de
individuos tiene 6 hijos o
menos?
97,3%

Qu cantidad de hijos es tal


que al menos el 50% de la
poblacin tiene una cantidad
inferior o igual?
2 hijos

Nmero de hijos

0
1
2
3
4
5
6
7
Ocho+
Total

Frec.
419
255
375
215
127
54
24
23
17
1509

Porcent.
(vlido)
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0

Porcent.
acum.
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0

50%

En este nuevo grfico de datos


cualitativos se representa a una
variable ordinal. Se caracteriza
por no permitir un intercambio
arbitrario de categoras en el eje
de las clases.

Distribucin del nmero de


detenciones de una correa
transportadora, segn motivos.
85

100
80
60
40
20
0

65

MOTIVOS

15

O
tra

n
M
an

te
nc

a
ic
n
M
ec

t ri
ca

35

El
c

N
DETENCIONES

Es el diagrama de barras
simples en donde se han
ordenado las categoras en
orden descendente de
frecuencias.

Distribucin del nmero de


detenciones de una correa
transportadora, segn motivos.
85

100
80
60
40
20
0

65

MOTIVOS

15

O
tra

n
M
an

te
nc

a
ic
n
M
ec

t ri
ca

35

El
c

N
DETENCIONES

No interesa si las
categoras hacen
referencia a datos
nominales u ordinales.
Este diagrama se utiliza
esencialmente para
identificar causas que
producen alta frecuencia
de efectos observados.

Se deber escoger la variable


que puede ir en el eje
horizontal

N FAMILIAS

200
150
100
50
0

157
119
81
43

I
II

SI

NO

CONTAMINACION

Distribucin de la contaminacin
segn comunidad
N FAMILIAS

Este diagrama muestra las


distribuciones condicionales
de una variable para cada
categora de la otra.

Distribucin de la comunidad (I o
II) segn contaminacin

200

157
119

150
100

81
43

SI
NO

50
0
I

II
COMUNIDAD

Estas representaciones consisten en un sistema de ejes


perpendiculares en que uno de ellos representa los valores
de la variable y el otro las frecuencias.
En el eje de la variable se apoyan rectngulos de base
igual a la longitud de los intervalos de clasificacin
tabular y cuyas alturas son proporcionales a las
frecuencias.

Distribucin de tubos de ensayo segn dimetro.


Laboratorio REX
30
25
N TUBOS

Un histograma permite
analizar el centro, el
alcance (o rango) y la
forma de la distribucin de
los datos.
Notemos que si las alturas
de los rectngulos fuesen
las frecuencias relativas, la
suma de las reas de los
rectngulos sera 1.

20
15
10
5
0
3,63 -3,72 3,72 - 3,81 3,81 - 3,9 3,9 - 3,99 3,99 - 4,08 4,08 - 4,17 4,17 - 4,26 4,26 - 4,35

DIAMETROS

Polgono de frecuencias
N de Tubos

Un histograma permite
analizar el centro, el
alcance (o rango) y la
forma de la distribucin de
los datos.
Notemos que si las alturas
de los rectngulos fuesen
las frecuencias relativas, la
suma de las reas de los
rectngulos sera 1.

Dimetros

Ejemplo 12: Mediante una encuesta se registr el


consumo mensual de electricidad de 50 familias de dos
integrantes (en Kwatts). Los resultados son:
92
56
33
57

54 32 78
41 45 46
68 80 81
55 100 39

68 77 53 11 23 83 78 25 66 67 45
66 65 16 13 50 78 19 16 20 95 73
75 21 54 43 52 99 62 79 17 26 72
71

Clase

Marca de clase Frec. absoluta

Frec.relativa Frec. acumulada

[10, 23)

16.5

8/50

[23, 36)

29.5

5/50

13

[36,49)

42.5

6/50

19

[49, 62)

55.5

8/50

27

[62,75)

68.5

10

10/50

37

[75, 88)

81.5

9/50

46

[88, 101)

94.5

4/50

50

12
10
8
6
4
2
0
[10,23) [23, 36) [36, 49) [49, 62) [62, 75) [75, 88) [88, 101)

60
50
40
30
20
10
0
[10,23) [23, 36) [36, 49) [49, 62) [62, 75) [75, 88)[88, 101)

T AS A D E F AL L A D E AR T C U L O S
E L C T R IC O S . E M P R E S A
E L E C T R IC . A O S 1 9 8 0 -1 9 9 5
25
20
TAS A(%)

Representa datos de
variable que se registran
secuencialmente en el
tiempo, por lo que deben
incluir un eje asociado al
tiempo y otro eje
asociado a los valores de
la otra variable.

15
10
5
0
80

85

90
AOS

95

100

Diagrama Circular
Motivos para la compra de telfono mvil
3,00%

2,00%

11,00%

12,00%

25,00%

47,00%

Localizado
Familia
Clientes
Emergencias
Amigos
Mensajes

Parmetro: Es una cantidad numrica calculada sobre


una poblacin
La altura media de los individuos de un pas.
La idea es resumir toda la informacin que hay en la
poblacin en unos pocos nmeros (parmetros).
Estadstico: dem (cambiar poblacin por muestra)
La altura media de los que estamos en este aula.
Somos una muestra (representativa?) de la
poblacin.
Si un estadstico se usa para aproximar un parmetro
tambin se le suele llamar estimador.

Posicin
Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
Cuantiles, percentiles, cuartiles, deciles,...
Centralizacin
Indican valores con respecto a los que los datos parecen
agruparse.
Media, mediana y moda
Dispersin
Indican la mayor o menor concentracin de los datos con
respecto a las medidas de centralizacin.
Desviacin tpica, coeficiente de variacin, rango, varianza
Forma
Asimetra, Apuntamiento o curtosis

... x
n

i 1

i 1
k

i 1

Caracterstica de la Media
Es intuitiva y fcil de calcular.
Su valor puede que no coincida con ninguno de los valores
de la muestra
La suma de las diferencias de cada valor de la muestra con la
media su resultado es cero, es decir,
n

(x x) 0
i

i 1

x n 1 2

Mna x x
n 2
( n 2)1

si n es impar
si n es par

La mediana se suele definir como el valor intermedio


una vez que los datos han sido ordenados en forma
creciente.

Es una medida de tendencia central que se puede


utilizar sea cual sea el tipo de variable a estudiar.
La moda de un conjunto de observaciones es el
valor que ms se repite, aquel cuya frecuencia
absoluta es mxima. Puede ser nica, que haya
ms de una, o que no exista.

Altura mediana

Peso

M.
Clase

frec

Fr.
acum.

40 50

45

50 60

55

10

15

60 70

65

21

36

70 - 80

75

11

47

80 - 90

85

52

90 - 100

95

55

100 130

115

58

En el histograma se identifica unidad de rea con


individuo.
Para calcular la media es necesario elegir un punto
representante del intervalo: La marca de clase.
La media se desplaza hacia los valores extremos. N
este caso no coincide con la mediana. Es un punto
donde el histograma estara en equilibrio si tuviese
masa.

Distribucin Sesgada a la Derecha


30

Moda
Mediana
Media

25
20
15
10
5
0
1

10

11

12

13

Distribucin Sesgada a la Izquierda


30

Moda
Mediana
Media

25
20
15
10
5
0
1

10

11

12

13

Distribucin Simtrica
90

Moda
Mediana
Media

80
70
60
50
40
30
20
10
0
1

10

11

12

13

Es la medida de variabilidad ms sencilla entre todas las


mencionadas; y se define como la diferencia entre la
observacin ms grande y la ms pequea :

r xmax xmin

La varianza 2 es una medida que da una idea del grado de


concentracin de los datos con respecto a la media.
Dado que la suma de estas desviaciones es cero, se utiliza
como medida de variabilidad el promedio de los cuadrados
de tales desviaciones
n

x x

x x

Poblacional :

i 1

Muestral :

i 1

n 1

El desvo estndar , es la raz cuadrada positiva de


la varianza y tiene la ventaja que est en las mismas
unidades de medida que los datos.
n

x x

x
i

Poblacional :

i 1

Muestral :

i 1

n 1

Es la razn entre la desviacin tpica y la media.


Mide la desviacin tpica en forma de
qu tamao tiene con respecto a la media
Tambin se la denomina variabilidad relativa.
Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviacin tpica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa)

CV

Es una cantidad adimensional. Interesante para comparar la variabilidad


de diferentes variables.
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan ms dispersin en peso que en altura.

No debe usarse cuando la variable presenta valores negativos o donde el


valor 0 sea una cantidad fijada arbitrariamente
Por ejemplo 0C 0F

Percentil de orden k = cuantil de orden k/100


La mediana es el percentil 50
El percentil de orden 15 deja por debajo al 15% de
las observaciones. Por encima queda el 85%

Cuartiles: Dividen a la muestra en 4 grupos con


frecuencias similares.
Primer cuartil=Percentil 25=Cuantil 0,25
Segundo cuartil=Percentil 50=Cuantil 0,5(mediana)
Tercer cuartil=Percentil 75=Cuantil 0,75

El 5% de los recin nacidos tiene un peso demasiado bajo. Qu


peso se considera demasiado bajo?
Percentil 5 o cuantil 0,05

15
10
5
0

frecuencia

20

25

Percentil 5 del peso

3
Peso al nacer (Kg) de 100 nios

Qu peso es superado slo por el 25% de los individuos?


Percentil 75 o tercer cuartil

20
15
10
5
0

frecuencia

25

30

Percentil 75 del peso

50

55

60

65

70

Peso (Kg) de 100 deportistas

75

80

85

El colesterol se distribuye simtricamente en la poblacin.


Supongamos que se consideran patolgicos los valores extremos. El
90% de los individuos son normales Entre qu valores se encuentran
los individuos normales?

10
5
0

frecuencia

15

20

Percentiles 5 y 95

180

200

220
Colesterol en 100 personas

240

260

Entre qu valores se encuentran la mitad de los


individuos ms normales de una poblacin?
Entre el cuartil 1 y 3

15
10
5
0

frecuencia

20

Percentiles 25 y 75

150

160

170
Altura (cm) en 100 varones

180

190

Estadsticos

Nmero de aos de escolarizacin

3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Total

Frecuencia Porcentaje
5
,3
5
,3
6
,4
12
,8
25
1,7
68
4,5
56
3,7
73
4,8
85
5,6
461
30,6
130
8,6
175
11,6
73
4,8
194
12,9
43
2,9
45
3,0
22
1,5
30
2,0
1508
100,0

Porcentaje
acumulado
,3
,7
1,1
1,9
3,5
8,0
11,7
16,6
22,2
52,8
61,4
73,0
77,9
90,7
93,6
96,6
98,0
100,0

20%?

90%?

Nmero de aos de escolarizacin


N
Vlidos
1508
Perdidos
0
Media
12,90
Mediana
12,00
Moda
12
Percentiles 10
9,00
20
11,00
25
12,00
30
12,00
40
12,00
50
12,00
60
13,00
70
14,00
75
15,00
80
16,00
90
16,00

Min

Max

Q1
mediana
Q3
Resumen con 5 nmeros:
Mnimo, cuartiles y mximo.
Suelen dar una buena idea de la distribucin.

La zona central, caja, contiene al 50% central de las observaciones.


Su tamao se llama rango intercuartlico (R.I.)

Es costumbre que los bigotes, no lleguen hasta los extremos, sino


hasta las observaciones que se separan de la caja en no ms de 1,5
R.I.
Ms all de esa distancia se consideran anmalas, y
as se marcan.

Se construye con un resumen de cinco nmero que


combinan tres mediciones de tendencia o posicin
(dos cuantiles y la mediana) y dos medidas de
variacin (el rango intercuartlico y el rango).
Se puede apreciar fcilmente la simetra de la
distribucin.

0.04
0.02

densidad

0.06

0.08

Diagrama de cajas de Tukey: Resumen en 5 nmeros

P25

P50

P75

Mx.

0.00

Mn.

40

45

50

55

60

65

Velocidad (Km/h) de 200 vehculos en ciudad

0.03
0.02
0.01

P25

Mn.

P50

P75

Mx

0.00

densidad

0.04

Diagrama de cajas de Tukey: Resumen en 5 nmeros

80

90

100

110

120

Velocidad (Km/h) de 200 vehculos en autova

130

140

Consta de un cuadro en que todos los valores de una de


las variables se representa en el lado izquierdo, y los de
la otra en la parte superior

En cada casilla se coloca el nmero de casos en cada una


de las combinaciones de valores de ambas variables.

Adems, se muestran los totales por columnas, en la


parte inferior, y por filas, en el lado derecho.

Desarrollo de las caries

Tabla de
frecuencias
observadas
Tratamiento

Bajo

Medio

Alto

Total

40

34

82

84

22

12

118

Total

92

62

46

200

Você também pode gostar