Você está na página 1de 26

CONCEPTOS BASICOS (BD, QAQC, Modelos)

ESTADISTICA
(Media, CV, Análisis, correlación)

VARIOGRAFIA (Conceptos, Análisis)


Medidas Estadísticas

Promedio o MEDIA
Medidas de Moda
posición Mediana
Percentiles
Estadística

Rango
Medidas de Varianza
variabilidad DESVIACION ESTANDAR
COEF. DE VARIACION
Medidas de Posición
n
Xi
Promedio o Media de la muestra X
i 1 n
Mediana: Valor que deja el 50% de los datos
Con los datos Ordenados:
Número Impar de datos -- el dato central
Número Par de datos -- promedio de los dos
datos centrales.

Moda: Valor más común

Geology – Modeling / 1 july 2009


• Parámetros de tamaño Mo

– Mínimo (P0)

– Máximo (P100)

– Moda (Mo)

– Mediana (M = P50)

P0 P50 P100

Geology – Modeling / 1 july 2009


Media▪ Lejos, es la Medida de Tendencia Central más
utilizada

0 1 2 3 4 5 6 7 8 9 10

Media = 5

▪ Afectada por Valores Extremos (Outliers)


0 1 2 3 4 5 6 7 8 9 10 12 14

Media = 6
Mediana

▪ En Arreglo Ordenado, la Mediana es el valor “del


medio”
▪ Si n es impar,  Mediana = X[(n+1)/2].
▪ Si n es par,  Mediana =½(X[n/2]+X[n/2+1])

▪ No es afectada por los valores extremos (robusta),


sino por el tamaño de la muestra.

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14

Mediana = 5 Mediana = 5
Moda

▪ Valor que ocurre más Frecuentemente


▪ No es Afectado por Valores Extremos
▪ Puede que no exista Moda
▪ Pueden existir varias Modas
▪ Se emplea en datos Categóricos o Numéricos

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6

Moda = 9 No-Moda
¿Cuándo usar Media, Moda o Mediana?
¿Datos son Si La primera consideración es el tipo de
categóricos? MODA datos, si la variable es categórica, la
Moda es la única medida que mejor
No describe los datos

La segunda consideración es pregun-


¿El total es de Si
tarse si el total de las observaciones es
Interés? MEDIA de algún interés. Si la respuesta es
afirmativa, entonces la medida ade-
No cuada de la tendencia central es la Media

¿DistribuciónS
Si Si el total de las observaciones no es de
esgada? interés. Entonces, si el histograma es
MEDIANA
sesgado, usar la Mediana como medida
No de la tendencia central.

En caso contrario la Media si es


MEDIA moderadamente sesgada
En todos los casos el histograma
debe ser unimodal
Medidas de variabilidad

Rango: Diferencia entre los valores máximo y mínimo


n

 i
( X  X ) 2

Varianza muestral S2  i 1

n 1

Desviación estándar S S 2

s
Coeficiente Variacion
C.V . 
x
Geology – Modeling / 1 july 2009
Variancia Muestral
▪ Importante Medida de la Dispersión

▪ Mide la Desviación Cuadrática Promedio


alrededor de la Media; esto es, toma en cuenta
cómo se distribuyen los datos alredor de la
Media

 (X )
n
2
i
X
 Variancia Muestral : s 2  i 1
n 1
Deviación Estándar Muestral
▪ La más Importante Medida de Dispersión
▪ Muestra la Raíz de la Desviación cuadrática
promedio alrededor de la Media

▪ Tiene las misma Unidad que los Datos Originales

 (X )
n
2
i
X
s  i 1
n 1

s = 23,35
Comparando Desviaciones Estándar
Datos A Media = 15.5
^
s = 3.338
11 12 13 14 15 16 17 18 19 20 21

Datos B
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 ^
s = .9258

Datos C
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 ^
s = 4.57
Estadísticas Básicas
Yacimiento tipo pórfido
cuprífero CV = 0.7
Yacimiento de cobre de
mediana var. CV = 1.5
Yacimiento de oro de alta
variabilidad CV = 4.5
Varianza y soporte
• Histograma
• La escala de intensidades se divide en N clases.
• Una frecuencia está asociada a cada centro de clase y representada por
un rectángulo proporcional
• Las frecuencias pueden ser absolutas (Nb) o relativas (%)

Histogramme de MoS2.
Sondage n°647
MoS2 (%) Nb Obs. 24
<0,15 8
0,29 37 20

0,43 31 16
0,57 14

Nb d'obs
12
0,71 4
0,86 1 8

1,00 3 4
1,14 0
0
1,28 1 0 0.2 0.4 0.6 0.8 1 1.2
1,42 1 0.1 0.3 0.5 0.7 0.9 1.1 1.3
MOS2
• Histograma
• La selección del número de clases influye
en la legibilidad Zn(%) Nb
• 15 a 20 clases es comunmente óptimo 3.8 16
9.3 88
14.8 220
20.2 219
25.8 125
31.2 41
36.8 9

7, 21 o 100 clases para un total de 800 observaciones


• Histograma en frecuencias acumuladas
• Frecuencias acumuladas de 0% a 100%
• Lectura rápida de « percentiles »
Tipos de distribución
• Distribución Normal
• Eventos debido a múltiples causas independientes,…
• Ex. granulometría de un sedimento, Densidad por alteración, fluctuationes mensuales
de un nivel piezométrico, geoquímica de un elemento mayor y móvil (Fe, Mn,…), …

 (x )2
2 . 2
e
f (x ) 
 . 2. 
con :
µ = media
σ = desviación típica
Distribución Normal (Gaussiana)
• La distribución gaussiana es simétrica: g(z)

• La media y mediana son iguales 0.40

0.35

0.30

0.25

0.20 95 %
0.15

0.10

0.05 2.5% 2.5%


0.00
0 2 4 6 8 10 12 14 16
z

• Cualquier Distribucion puede pasar a Normal Gaussiana


(estandarizar).
X 
• Si X ~ N ( ,  2 ) y definimos: Y  , entonces: Y ~ N (0,1)

• Y tiene distribucion Normal Gaussiana
Análisis Univariables valores extremos
• Valores extremos: afectan considerablemente las estadísticas básicas
• ¿Qué hacer con ellos?:
• Declarar los valores extremos como erróneos y eliminarlos
• Clasificarlos en poblaciones estadísticas separadas
• Usar estadísticas robustas, que son menos sensibles a los valores extremos: mediana,
coeficiente de correlación de posición
• Transformar los datos para reducir su influencia
• Bajarlos a un máximo “razonable”
• Outliers: Observaciones que parecen no pertenecer a la misma población constituida
por el resto de los datos
• Generan considerables problemas al aplicar regresión, debido a que tienen un efecto
desproporcionado sobre los coeficientes de regresión estimados
• Los datos considerados extremos (outliers) puede eliminarse sólo si se ha
comprobado que están errados. En caso de ser datos verdaderos, proveen
información que puede ser crítica para la respuesta del modelo.
Análisis Univariable
• La distribuciones son útiles para chequear la presencia de
dos poblaciones
CDF PDF
Análisis Estadístico
• Son útiles para chequear la presencia de dos poblaciones
• Debe confirmarse con información geológica
¿Agrupaciones de puntos?  Investigar ....

18

16

Observed Value
Histogram
90
14
80

12
70

10 60

No of obs
50
8
40

6
30

4 20

10
2
0
-1,0 0,7 2,3 4,0 5,6 7,3 9,0 10,6 12,3 13,9 15,6
0 Var1

-2
-4 -3 -2 -1 0 1 2 3 4

Theoretical Quantile
Correlación
Covarianza : parámetro adimensional [-∞,+∞]  xy
 xy 
Correlación : parámetro adimensional [-1,1]  xx . yy

Fe Ni Cu V
Fe 1.00 .90 .38 .81
Ni .90 1.00 .44 .73
Cu .38 .44 1.00 .52
V .81 .73 .52 1.00
Geology – Modeling / 1 july 2009
Correlación Caso 1 Caso 2
Y Y

• Diferentes ejemplos = 1  = 0,68

de coeficiente de X X

correlación
Caso 3 Caso 4
Y Y

=0 =0

X X

Caso 5 Caso 6
Y Y

 = -0,87

 = -1

X X
Regla Práctica de Interpretación
Pendiente Correlación Pendiente
Negativa entre X e Y es… Positiva

r
0.00 ‘Ninguna’ 0.00
-0.19 - -0.01 ‘Muy Débil’ 0.01 - 0.19
-0.39 - -0.20 ‘Débil’ 0.20 - 0.39
-0.69 - -0.40 ‘Modesta’ 0.40 – 0.69
-0.89 - -0.70 ‘Fuerte’ 0.70 – 0.89
-0.99 - -0.90 ‘Muy Fuerte’ 0.90 – 0.99
-1.00 ‘Perfecta’ 1.00

Você também pode gostar