Você está na página 1de 33

Estadística

Básica

Julio Bruna Novillo & José A. Bassan


INTRODUCCION

¾ Estadística en el Muestreo:
– Herramientas estadístico-matemáticas y técnicas que nos
permiten describir e interpretar mediante la
cuantificación los resultados obtenidos por estas
herramientas o bien tomar decisiones en una situación
de incertidumbre.

– El resultado de esta cuantificación es el “modelamiento


estadístico” de una determinada población de datos con
la cual nos permite, organizar nuestras elecciones y
decisiones, para que éstas sean coherentes con lo que se
conoce del fenómeno estudiado, pero no permite
legitimar estas elecciones de manera absoluta.

2 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
RECOLECCION DE MUESTRA

¾ Una muestra debe ser representativa de una población.

¾ La manera con la cual se obtiene la muestra a partir de la


población determinará la calidad y la precisión de la
información aportada por la muestra.

¾ Todo razonamiento estadístico basado en la muestra,


comporta una parte inevitable de incertidumbre que se
requiere cuantificar, especificando por ejemplo la
probabilidad de error.

3 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
CONCEPTOS BASICOS

¾ Individuo
¾ Población
¾ Muestra, muestreo
¾ Variables
¾ Cuantitativas (numéricas)
¾ Cualitativa (codificadas)
¾ Observación
¾ Tabla de datos

4 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
ESTADISTICA DESCRIPTIVA

Distribución de Frecuencia e Histograma

• La distribución de frecuencia fracciona los datos en grupos o


clases y muestra ya sea el número de observaciones en cada
clase, o bien el número de observaciones en cada clase
dividido por el número total de observaciones.

• Un histograma es un gráfico de barras de una distribución


de frecuencia: las clases se miden en el eje de abscisa,
mientras que el número de observaciones o las frecuencias
se miden en el eje de ordenada.

5 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
ESTADISTICA DESCRIPTIVA

Distribución de Frecuencia e Histograma


• Histograma:
Calcular el número de muestras en cada clase .
“Ancho” de clase suele ser constante la altura de cada barra
del histograma es proporcional a la frecuencia de la clase
Entrega estadísticas de las muestras (no de la población).
Escala logarítmica puede ser útil.
¿Cómo construirlo?
Dependiendo del número de muestras, escoger un número de
clases (10-50)
Desplegar el rango importante de los datos (colas no se ven
bien)
Desplegar estadísticas con un número razonable de decimales
6 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
ESTADISTICA DESCRIPTIVA

Distribución de Frecuencia e Histograma

• La distribución de frecuencia acumulada muestra,


para cada clase, el número total de observaciones
en todas las clases inferiores y en la clase en
cuestión, dividido eventualmente por el número
total de observaciones.

• La representación gráfica de dicha distribución se


hace mediante un histograma acumulado.

7 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
ESTADISTICA DESCRIPTIVA

Distribución de Frecuencia e Histograma


Histograma acumulado:
Puede servir para distinguir poblaciones estadísticas
Puede utilizarse para comparar la distribución de datos con
modelos paramétricos (normal / lognormal)
Puede utilizarse para ver el efecto de compositar a un
determinado largo
• ¿Cuántas muestras vamos a cortar?
No requiere definir un ancho de clase; pueden crearse a la
resolución de los datos
Se puede leer los intervalos de probabilidad desde el gráfico
de frecuencia acumulada
8 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
ESTADISTICA DESCRIPTIVA

Medidas de Tendencia Central

• La tendencia central se refiere a la localización de una


distribución. Las más importantes medidas son:
Media
Mediana
Moda
• Se medirá para toda la población y para la muestra extraída
de esta población.

• Importante definir la representatividad de la muestra

9 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
ESTADISTICA DESCRIPTIVA

Medidas de Tendencia Central

• La media aritmética o promedio de la población se


representa por m, y para una muestra por

Si la población consta de N individuos {X1,... XN} y la muestra


es el sub-conjunto {X1,... Xn} con n ≤ N, entonces se tiene:
N
1
m=
N
∑X
i =1
i
(población)

1 n
X = ∑ Xi (muestra)
n i =1
10 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
ESTADISTICA DESCRIPTIVA

Medidas de Tendencia Central

• La mediana es el valor del individuo central (de la


población o de la muestra) cuando todos los individuos están
dispuestos en orden ascendente en término de valores.

También se puede definir los cuantiles como los valores que sub-
dividen la población o la muestra (dispuesta en orden ascendente)
en categorías de igual número de individuos:
Cuartiles
Deciles
Percentiles

11 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
ESTADISTICA DESCRIPTIVA

Medidas de Tendencia Central

• La moda es el valor que aparece más frecuentemente en el


conjunto de datos, o sea, el valor correspondiente al máximo
de la distribución de frecuencia.

Æ Distribución unimodal / bimodal / multi-modal

• A diferencia de la media, la mediana y la moda no son


afectados por valores extremos en el conjunto de datos.

12 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
ESTADISTICA DESCRIPTIVA

Medidas de Tendencia Central

Ejemplo: toneladas descargadas por un camión en cada viaje


Se tiene la siguiente serie de observaciones:
260, 290, 270, 280, 300, 270, 280, 250, 240, 280, 290,
280, 300

Verificar los siguientes estadísticos


Media: 276.2
Mediana: 280
Moda: 280

13 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
ESTADISTICA DESCRIPTIVA

Medidas de Dispersión

• La dispersión se refiere a la variabilidad o amplitud en los


datos. Las medidas más importantes son:

Desviación media y diferencia relativa media


Varianza
Desviación estándar
Coeficiente de variación
Rango
Rango intercuartil

14 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
ESTADISTICA DESCRIPTIVA

Medidas de Dispersión

• La desviación media (MAD) está dada por el promedio de las


diferencias absolutas entre cada observación y la media:

1 N
MAD = ∑ | X i − m | para la población
N i =1

1 n
MAD = ∑ | X i − X | para la muestra
n i =1
La desviación media es positiva, o nula si todos los individuos
tienen el mismo valor.
15 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
ESTADISTICA DESCRIPTIVA

Medidas de Dispersión

• La diferencia relativa media (RMD) es el promedio de las


diferencias absolutas entre todos los pares posibles de
observaciones:
1 N N
RMD = 2 ∑∑ | X i − X j | para la población
N i =1 j =1

1 n n
RMD = 2 ∑∑ | X i − X j | para la muestra
n i =1 j =1
Esta medida también se denomina “coeficiente de selectividad”.
16 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
ESTADISTICA DESCRIPTIVA

Medidas de Dispersión

• La varianza mide el promedio de las diferencias cuadráticas


entre cada observación y la media:
N
1
σ 2 = ∑ ( X i − m) 2 para la población
N i =1

1 n
S = ∑ ( X i − X )2
2 para la muestra
n i =1

Debido a su definición, la varianza es positiva o nula; se expresa


en cuadrado de la unidad de las observaciones.
17 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
ESTADISTICA DESCRIPTIVA

Medidas de Dispersión

• La desviación estándar se define como la raíz cuadrada


positiva de la varianza:

1 N
σ= ∑ i
N i =1
( X − m ) 2 para la población

1 n
S= ∑ i
n i =1
( X − X ) 2 para la muestra

Se expresa en la misma unidad que cada una de las


observaciones.
18 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
MEDIDAS DE DISPERSION

Yacimiento tipo pórfido


cuprífero CV = 0.7
Yacimiento de cobre de
mediana var. CV = 1.5
Yacimiento de oro de alta
variabilidad CV = 4.5

19 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
MEDIDAS DE DISPERSION

Ejemplo: toneladas descargadas por un camión en cada viaje


260, 290, 270, 280, 300, 270, 280, 250, 240, 280,
290, 280, 300

Verificar los siguientes estadísticos

Rango: 60
Desviación media: 14.0
Varianza: 300.6
Desviación estándar: 17.34

20 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
GRAFICOS DE PROBABILIDAD

Histograma acumulado con escala “normal ” en eje Y


En el eje X se puede utilizar distintas escalas:
• Aritmética Æ línea recta indica que la
distribución es normal
• Logarítmica Æ línea recta indica que la
distribución es lognormal

ESTADÍSTICA BÁSICA Y MUESTREO – UNIVERSIDAD DE CHILE
21 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
GRAFICOS DE PROBABILIDAD

• El gráfico de probabilidad normal distorsiona el eje de


las ordenadas del histograma acumulado, de modo que el
gráfico dibujaría una recta en caso de tener una
distribución normal o gaussiana.

• El gráfico de probabilidad lognormal consiste en usar


una escala logarítmica en el eje de las abscisas: si la
distribución de los valores fuera lognormal, se obtendría
una recta.

22 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
GRAFICOS DE PROBABILIDAD

• Útiles para chequear la presencia de dos poblaciones

ESTADÍSTICA BÁSICA Y MUESTREO – UNIVERSIDAD DE CHILE
23 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
GRAFICOS DE PROBABILIDAD

• Útiles para chequear la presencia de dos poblaciones:


Quiebres indican posibles mezclas de poblaciones
Se manifiestan como múltiples modas en histograma
• Útiles para determinar presencia de outliers (valores
erráticos)

ESTADÍSTICA BÁSICA Y MUESTREO – UNIVERSIDAD DE CHILE
24 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
GRAFICOS DE PROBABILIDAD

• Valores extremos:
- afectan considerablemente las estadísticas
básicas
• ¿Qué hacer con ellos?:
- declarar los valores extremos como
erróneos y eliminarlos
- clasificarlos en poblaciones
estadísticas separadas
- usar estadísticas robustas, que son
menos sensibles a los valores
extremos: mediana, coeficiente de
correlación de posición
- transformar los datos para reducir su
influencia
- bajarlos a un máximo “razonable”
ESTADÍSTICA BÁSICA Y MUESTREO – UNIVERSIDAD DE CHILE
25 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
GRAFICOS DE PROBABILIDAD

• Valores extremos:
- generan considerables problemas al
aplicar regresión, debido a que
tienen un efecto desproporcionado
sobre los coeficientes de regresión
estimados
- los datos considerados extremos
(outliers) puede eliminarse sólo si se
ha comprobado que están errados.
En caso de ser datos verdaderos,
proveen información que puede ser
crítica para la respuesta del modelo.

ESTADÍSTICA BÁSICA Y MUESTREO – UNIVERSIDAD DE CHILE
26 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
NUBES DE CORRELACION

• También llamados gráficos de dispersión o gráficos XY


• Permiten el análisis bivariable y detectar poblaciones
• Pares deben corresponder a la misma ubicación en el espacio
(co-localizados)

ESTADÍSTICA BÁSICA Y MUESTREO – UNIVERSIDAD DE CHILE
27 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
MEDIDAS DE CORRELACION VARIABLE

N
1
• Covarianza Cov ( X , Y ) =
N
∑ (X
i =1
i − m X ) (Yi − mY )

1 N
• Coeficiente de correlación lineal Cov( X ,Y ) ∑ (Xi − mX ) (Yi − mY )
N i=1
Corr( X ,Y ) = =
SX ⋅ SY ⎛1 N 2 ⎞⎛ 1
N

⎜ ∑ ( Xi − mX ) ⎟⎜ ∑ (Yi − mY )2 ⎟
⎝ N i=1 ⎠⎝ N i=1 ⎠

- Una correlación de | ρXY| = 1 implica que X e Y están perfectamente


correlacionadas.
- Independencia entre dos variables implica que el coeficiente de
correlación es cero: ρXY = 0. Sin embargo, la inversa no es siempre
cierta.
- Correlación cero no implica necesariamente independencia entre
las dos variables.

28 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
MEDIDAS DE CORRELACION VARIABLE

• Coeficiente de correlación lineal es muy sensible a valores


aberrantes
• El coeficiente de correlación cambia incluso de signo

Correlación con valor aberrante Correlación sin valor aberrante

Y Y

ρ = 0,73
ρ = -0,68

X X

ESTADÍSTICA BÁSICA Y MUESTREO – UNIVERSIDAD DE CHILE
29 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
MEDIDAS DE CORRELACION VARIABLE

• Si, en lugar de calcular el coeficiente de correlación de los


datos, utilizamos su orden relativo en cada distribución, se
puede calcular el coeficiente de correlación de posición
• El coeficiente de correlación de posición es un complemento
útil:
si ρrank > ρ entonces unos pocos outliers dañan la que en otro
caso seria una buena correlación
si ρrank < ρ entonces unos pocos outliers mejoran la que en
otro caso seria una pobre correlación
si ρrank = 1 entonces una transformación no lineal de una
variable puede hacer ρ = 1
30 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
GRAFICO QUANTIL - QUANTIL

• También llamado q-q plot


• Se utiliza para comparar distribuciones
• No considera la relación de los pares ordenados
• No se le debe calcular el coeficiente de correlación Æ no tiene
sentido

ESTADÍSTICA BÁSICA Y MUESTREO – UNIVERSIDAD DE CHILE
31 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
GRAFICO QUANTIL - QUANTIL

ESTADÍSTICA BÁSICA Y MUESTREO – UNIVERSIDAD DE CHILE
32 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina
GRAFICO QUANTIL - QUANTIL

• Si todos los puntos están en una línea de 45°, las dos


distribuciones son exactamente iguales.
• Si la línea está desplazada de los 45°, las dos distribuciones
tienen la misma forma pero diferentes medias.
• Si la inclinación de la línea no es 45°, las dos distribuciones
tienen diferentes varianzas.
• Si hay un carácter no lineal en el gráfico, las distribuciones
tienen diferentes formas en el histograma.

33 08 al 11 Noviembre 2009 –
08 al 11 Noviembre 2009 –San Luis, Argentina

Você também pode gostar