Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTADSTICA DESCRIPTIVA
Concepto y origen de la estadstica. ...................................................................... 2 Conceptos bsicos. ................................................................................................ 2 Tablas estadsticas: recuento. ................................................................................ 3 Representacin de graficas. ................................................................................... 6 Variables cualitativas ......................................................................................... 6 Variables cuantitativas discretas ........................................................................ 9 Variables cuantitativas continuas..................................................................... 10 Parmetros estadsticos. ....................................................................................... 11 Parmetros de centralizacin. .......................................................................... 11 Parmetros de posicin .................................................................................... 15 Parmetros de dispersin. ................................................................................ 16 Coeficientes de forma. Medida de asimetra y curtosis ................................... 18
2. Conceptos bsicos.
Para entender mejor los conceptos bsicos que aparecen en cualquier estudio estadstico pongamos un ejemplo, el estudio de la altura media en Espaa: Poblacin: es el conjunto formado por todos los elementos que existen para el estudio de un determinado fenmeno y a los cuales nos referimos en el estudio. En nuestro ejemplo es la poblacin de Espaa Individuo u objeto estadstico: es cada uno de los elementos de la poblacin. Cada uno de los espaoles
Muestra: es el subconjunto de individuos que tomamos de la poblacin para realizar el estudio. Como elegir esta muestra ser un tema de estudio ms adelante. Puede ocurrir (en poblaciones pequeas generalmente) que la muestra coincida con la poblacin. En nuestro ejemplo es el conjunto de espaoles a los cuales medimos para hacer el estudio.
Tamao de la muestra: es el nmero de individuos que forman la muestra elegida. Se denota generalmente como N.
Variable estadstica: cada una de las cualidades o propiedades referidas a la poblacin y que son objeto de estudio. En nuestro ejemplo ser la altura. Las variables estadsticas pueden ser de dos tipos: o Variables cualitativas o atributos: no se pueden medir
numricamente (por ejemplo: nacionalidad, color de la piel, sexo). o Variables cuantitativas: tienen valor numrico (edad, precio de un producto, ingresos anuales). Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas: Discretas: slo pueden tomar un nmero finito y tratable de valores numricos (por ejemplo: nmero de hijos de una familia, nmero de habitaciones en la casa) Continuas: pueden tomar cualquier valor real dentro de un intervalo. (por ejemplo, la velocidad de un vehculo, altura de una persona)
3. Generalmente se aaden otros parmetros estadsticos en las sucesivas columnas (filas) como la frecuencia relativa, frecuencias acumuladas y tanto por cien. La frecuencia relativa (hi): es el cociente entre la frecuencia absoluta y el nmero total de elementos de la encuesta, N. Se puede entender como el tanto por uno
Tanto por cien (pi): como su nombre indica nos indica el porcentaje relativo a 100 de la caracterstica respecto del total:
La frecuencia absoluta acumulada (Fi): es la suma de todas las frecuencias absolutas hasta la i-esima (incluida), es decir
La frecuencia relativa acumulada (Hi): es la suma de todas las frecuencias relativas hasta la i-esima (incluida), es decir
El porcentaje acumulado (Pi): es la suma de todos los porcentajes hasta el i-esimo (incluido), es decir
Para calcular las frecuencias acumuladas utilizar la relacin entre dos frecuencias acumuladas sucesivas: Fi+1=Fi+fi+1 , Hi+1=Hi+hi+1, Pi+1=Pi+pi+1 Veamos en los ejemplos anteriores como quedara la tabla de frecuencias:
Ejemplo 1. Variable cuantitativa discreta: la siguiente lista representa el nmero de mensajes recibidos en los telfonos mviles de 40 personas en un da: 3, 2, 1, 2, 0, 2, 1, 3, 2, 1, 1, 0, 2, 2, 1, 1, 3, 2, 1, 3, 2, 3, 1, 1, 0, 2, 2, 1, 2, 2, 0, 2,2,1, 2, 3, 2, 0, 1, 2. xi=nsms 0 1 2 3 Total fi 5 12 17 6 40 hi 0,125 0,3 0,425 0,15 1 pi 12,5% 30% 42.5% 15% 100% Fi 5 17 34 40 Hi 0,125 0,425 0,85 1 Pi 12,5% 42,5% 85% 100%
Ejemplo 3. Variable cualitativa: colores de los coches del claustro de profesores (20 profesores): rojo, rojo, blanco, negro, azul, gris, gris, negro, verde, amarillo, blanco, rojo, gris, amarillo, azul, azul, verde, amarillo, blanco, gris. En las variables cualitativas no tiene sentido hablar de las frecuencias acumuladas, ya que las caractersticas no son nmeros y por tanto no se pueden ordenar xi=color Rojo Blanco Negro Gris Verde Amarillo Azul Total fi 3 3 2 4 2 3 3 20 hi 0,15 0,15 0,1 0,2 0,1 0,15 0,15 1 pi 15% 15% 10% 20% 10% 15% 15% 100%
Ejemplo 2. Variable cualitativa continua: Pesos de 20 asistentes a una reunin: 72, 63, 88, 91, 65,77, 81, 60, 84, 70, 75, 73, 78, 88, 64, 69, 86, 77, 90, 80. Hemos dejado esta para el final, pues hay que elaborar los intervalos. Para hacerlos debemos conocer el rango, que es la diferencia mxima entre dos valores, y el nmero de intervalos en los que deseamos clasificar la variable. Rango=R=xmax-xmin=91-60=31. Y vamos a agruparlos en 4 intervalos. Si queremos hacerlo exacto el numero rango de cada intervalos ser 31/4=7,75, aunque es ms lgico ampliar el rango con el fin de que este nmero sea exacto. En nuestro caso ampliaremos el rango a 32, con lo que cada intervalo tendr un recorrido de 32/4=8. Al ampliar dicho rango en 1 tendremos que comenzar 1 unidad antes o acabar 1 despus. Hagamos lo segundo (puede hacerse una u otra indistintamente) Intervalo Ii [60,68) [68,76) [76,84) [84,92] Total Marca de clase (xi) 64 72 80 88 fi 4 5 5 6 20 hi 0,2 0,25 0,25 0,3 1 pi 20% 25% 25% 30% 100% Fi 4 9 14 20 Hi 0,2 0,45 0,7 1 Pi 20% 45% 70% 100%
Las marcas de clase son los puntos medios de los intervalos. Nota: las amplitudes de las clases no tienen por qu ser iguales, esto lo tendremos muy en cuenta cuando representamos la grfica del histograma.
4. Representacin de graficas.
4.1. Variables cualitativas Las representaciones de las variables cualitativas son: Diagrama de barras Diagrama de sectores Pictogramas Cartogramas (variables relativas a zonas) Pirmides de poblacin (estudio de edad de una poblacin)
Diagrama de barras: consiste en dibujar un rectngulo por cada una de las modalidades de la variable, de forma que las bases sean todas iguales y apoyadas en el eje OX, donde se indican los valores de la variable y la altura de cada rectngulo (barra) es proporcional a la frecuencia (relativa, absoluta o porcentaje es la misma proporcin).
color coche
4 3,5 3 2,5 2 1,5 1 0,5 0 Rojo Blanco Negro Gris Verde Amarillo Azul
Diagrama iagrama de sectores: Consiste en dividir un circulo en sectores circulares, con ngulo proporcional a la frecuencia (i=hi360).
color coche
15% 15%
15%
15%
10% 20%
10%
Pictograma: consiste en realizar dibujos alusivos a la distribucin que se desea presentar. Son grficos poco precisos pero fciles de interpretar interpretar a simple vista.
color coche
6 4 2 0 3 3 4 2 2 3 3
Rojo
Blanco
Negro
Gris
Verde
Amarillo
Azul
Cartogramas: consiste en representar en un mapa cualquier tipo de datos relacionados con un rea geogrfica. Ejemplo:
Pirmides de poblacin: se utilizan para estudiar conjuntamente el carcter cuantitativo edad y el cualitativo sexo. Segn la forma de la pirmide se puede deducir si se trata de una poblacin joven, madura o vieja. Veamos dos ejemplos
4.2. Variables cuantitativas discretas Los grficos ms utilizados para representar distribuciones de variable cuantitativas discretas son: Diagrama de barras o columnas Diagrama de frecuencia o polgono de frecuencia
Diagrama de barras: se representan por barras o columnas independientes y de igual anchura situadas encima del eje de la variable. La altura de las barras (o longitud de las columnas) es proporcional a la frecuencia. Veamos en nuestro ejemplo
n SMS
20 15 10 5 0 0 1 2 3 5 12 17 6 n SMS
n SMS
60 40 20 0 0 1 2 3 n SMS
Nota: En muchas ocasiones se superponen dos diagramas de barras con el fin de comparar dos variables cuantitativas discretas. Veamos el siguiente ejemplo: ABANDONO DE NIOS
Diagrama de frecuencia o polgono de frecuencia: Se forman uniendo los extremos de las barras o columnas mediante una lnea quebrada. Son muy utilizados en las frecuencias acumuladas en el estudio de determinados fenmenos:
45 40 35 30 25 20 15 10 5 0 0
N SMS
4.3. Variables cuantitativas continuas. Los grficos ms utilizados para representar representar distribuciones de variable cuantitativas continua son: Histograma Diagrama de frecuencia o polgono de frecuencia
Histograma: son anlogos a los diagrama de barras pero se utilizan para representar variables continuas. La diferencia es que en los histogramas histogramas las bases de los rectngulos son los distintos intervalos. La altura de los rectngulo son proporcionales a las frecuencias siempre y cuando sean intervalos de misma amplitud, en caso contrario las alturas sern tales que las reas de los rectngulos sean proporcionales a las frecuencias.
Peso
7 6 5 4 3 2 1 0 frecuencia 6 5 4 5
60-68 68
68-76
76-84
84 84-92
rango de peso
Peso
Rango de peso
5. Parmetros estadsticos.
5.1. Parmetros de centralizacin. Estos parmetros nos indican en torno a que puntos se encuentran los valores de la variable cuantitativa en estudio. Es la forma de representar un conjunto de datos mediante un solo valor, tratando de resumir o sintetizar la distribucin de frecuencias. Los parmetros ms importantes son: Media (aritmtica y geomtrica) Moda Mediana
1. Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las ms utilizadas: Media aritmtica: se calcula multiplicando cada valor por el nmero de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra. La media aritmtica es el parmetro de centralizacin ms importante y ms usada. La media aritmtica de un conjunto de datos xi se representa por . Su clculo se realiza de la siguiente forma: a) Datos sin frecuencia:
N
x =
x1 + x 2 + ... + x N = N
x
i =1
x f + x 2 f 2 + ... + x k f k x= 1 1 = N
x f
i i =1
c) Con datos ponderados: es cuando queremos dar ms peso a algunos datos que otro. Si llamamos li al peso en tanto por cien 100 la media ponderada
es:
N
x l + x 2 l 2 + ... + x N l N x = 1 1 = 100
x l
i i =1
100
Ejemplo: nota media ponderada de 3 exmenes, el primero pondera 30% el segundo 30% y el tercero 40% exmenes. Veamos la media en los dos ejemplos cuantitativos que desarrollamos en el tema:
k
x =
x f
i
Ejemplo 1: x =
i =1
x f
i
x=
i =1
Para el clculo de la media muchas veces se realiza una tabla con las siguientes tres columnas: los valores xi, las frecuencias absolutas fi, el producto xifi. En las celdas inferiores se hace la suma de todos los productos xifi, siendo la media por tanto esta suma entre N:
xi=nsms
0 1 2 3
fi
5 12 17 6 40
xifi
0 12 34 18 64
xi=peso
64 72 80 88
fi
4 5 5 6 20
xifi
256 360 400 528 1544
Total
x=
64 = 1.6 40
x=
15444 = 77.2 20
x g = N ( xi ) i = N x1 1 x 2 2 ...x k
f f f i =1
fk
La media geomtrica se suele utilizar en series de datos como tipos de inters anuales, inflacin, etc., donde el valor de cada ao tiene un efecto multiplicativo sobre el de los aos anteriores. En todo caso, la media aritmtica es la medida de posicin central ms utilizada. Las medias (tanto en el caso de la media aritmtica como geomtrica) presenta el problema de que su valor se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anmalos podran condicionar en gran medida el valor de la media, perdiendo sta representatividad
M 0 = Li +
siendo:
(f
f M 0 f M 0 1
M0
f M 0 1 + f M 0 f M 0 +1
) (
)c
siguiente. Este valor M0 es la interseccin de las rectas que unen los extremos de la clase modal con los extremos ms prximos de las clases anterior y siguiente:
8 7 6 5 4 3 2 1 0
M0
En nuestro ejemplo 2, el valor aproximado de la moda es el intervalo [84,92], pues es el que tiene mayor frecuencia absoluta (6). Si queremos calcular M0 de forma exacta usemos la formula (Li=84, e=8, fi=6, fi-1=5, fi+1=0) M0=85,14.
N FMe1 M e = Li + 2 c f Me
siendo:
N/2 FMe-1
Li
Me
Li+1
M e = 76 +
10 9 8 = 77.6 . 5
Cuartiles. Percentiles.
1. Cuartiles: son 3 valores (Q1, Q2, Q3) que distribuyen la serie de datos, ordenada
de forma creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.
N FQ1 1 continua: Q1 = Li + 4 c f Q1 Q3 (el primer valor que supere su frecuencia acumulada el 75%). En variable 3 N FQ3 1 4 continua: Q3 = Li + c f Q3 Nota: Q2=Me
| x
DM = x x =
i =1
x | f i N
= Var ( x) = x x =
( xi x ) 2 f i
i =1
= x x
( ) ()
2
x
=
i =1
2 i
fi
()
La varianza no tiene las mismas unidades que x (si x es metros 2 ser metros cuadrados). Es por eso que se utiliza ms la desviacin tpica.
Para calcularla se suele aadir la columna xi2fi a la derecha de la variable y de sus frecuencias absolutas. La suma de esta columna nos permite calcular dividiendo entre N el valor de x 2 . Veamos con el ejemplo de los mensajes y de los pesos:
( )
xi=nsms
0 1 2 3
fi
5 12 17 6 40
xi2fi
0 12 68 54 134
xi=peso
64 72 80 88
fi
4 5 5 6 20
xi2fi
16.384 25.920 32.000 46.464 120.768
Total
( )
2 Ejemplo 2: x =
( )
= Var ( x) = 2
Ejemplo 1: = 0.79 = 0.89 Ejemplo 2: = 78.56 = 8.86 En la medida en que los parmetros de dispersin tomen valores ms o menos grandes esto nos indicara el grado de dispersin o alejamiento de los datos respecto de la media. En el caso trivial que todos los datos centrados en un mismo valor todos estos parmetros valdran cero. Para distribuciones normales (que veremos ms adelante) se cumple:
El 68,27% datos en el intervalo [ x -, x +] El 95,45% datos en el intervalo [ x -2, x +2] El 99,73% datos en el intervalo [ x -3, x +3]
CV (%) =
100%
Cuanto ms se aproxime el CV a cero ms representativa ser la media en la distribucin. En nuestros ejemplos: Ejemplo 1: CV = Ejemplo 2: CV =
g1 =
( x x) 3
(x
i =1
x) 3 f i
Los resultados pueden ser los siguientes: g1 = 0 (distribucin simtrica; existe la misma concentracin de valores a la derecha y a la izquierda de la media) g1 > 0 (distribucin asimtrica positiva; existe mayor concentracin de valores a la derecha de la media que a su izquierda) g1 < 0 (distribucin asimtrica negativa; existe mayor concentracin de valores a la izquierda de la media que a su derecha) El Coeficiente de Curtosis analiza el grado de concentracin que presentan los valores alrededor de la zona central de la distribucin. Se definen 3 tipos de distribuciones segn su grado de curtosis: Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales de la variable (el mismo que presenta una distribucin normal). Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores centrales de la variable. Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales de la variable.
g2 =
( x x)
(x
i =1
x) 4 f i 3
3=
Los resultados pueden ser los siguientes: g2 = 0 (distribucin mesocrtica). g2 > 0 (distribucin leptocrtica). g2 < 0 (distribucin platicrtica).
Las medidas de asimetra, sobre todo el coeficiente de asimetra de Fisher, junto con las medidas de apuntamiento o curtosis se utilizan para contrastar si se puede aceptar que una distribucin estadstica sigue la distribucin normal. Esto es necesario para realizar numerosos contrastes estadsticos en la teora de inferencia estadstica.
Ejercicios finales
Ejercicio 1. Completar pletar los datos que faltan en la siguiente tabla estadstica. Calcular
todos los parmetros estadsticos explicados en el tema e interpretar la distribucin estadstica. xi 1 2 3 4 5 6 7 8 fi 4 4 7 5 38 7 N= hi 0,08 Fi Hi fixi fixi2
16
Contestar razonadamente las siguientes preguntas: a) Cul de los dos grupos obtuvo mejores resultados? b) Cul es el grupo ms homogneo?