Você está na página 1de 18

Cap.

2 Anlisis Exploratorio de Datos


1.1. OBJETIVO DEL CURSO
El objetivo del curso es que el alumno comprenda los fundamentos y
domine los procedimientos de estimacin de variables o propiedades.

La Ingeniera de Minas en su quehacer diario necesita cuantificar


variables, para disear y desarrollar diferentes actividades. Por ejemplo:
ley de metales, resistencia (a la compresin, traccin, corte), capacidad
portante, plasticidad, porosidad, humedad, potencia de veta, etc.

En el campo de la minera la variable ms importante a estimar son las


reservas minerales. Los proyectos mineros se financian sobre la base de
las reservas del yacimiento a explotar, por tal razn gran parte del curso
est orientado a los diversos mtodos de estimacin de reservas.

1.2. LA GEOESTADSTICA Y LA ESTADSTICA CLSICA


La Estadstica es la parte de las Matemticas que se encarga del
estudio de una determinada caracterstica en una poblacin,
recogiendo los datos, organizndolos en tablas, representndolos
grficamente y analizndolos para obtener informacin relevante de
dicha poblacin. En el campo de la ingeniera la informacin obtenida
sirve de base para hacer diseos y tomar decisiones.

La Geoestadstica es una rama de la Estadstica, pero se diferencia de


la Estadstica Clsica en que toma en cuenta la posicin de los datos
y la relacin entre datos vecinos (continuidad). Estudia variables
regionalizadas, es decir, que se extienden en el espacio y estn
relacionadas con su posicin en el espacio.

Algunos ejemplos de variables regionalizadas son:

Leyes de cobre, molibdeno, arsnico, etc., en un yacimiento


Nmero de rboles en un rea forestal
Cantidad de nitrato en muestras de suelo

Ing. Alejandro Vsquez Arrieta Pgina 1


Concentracin de un elemento contaminante en la atmsfera

1.3. REVISIN DE CONCEPTOS ESTADSTICOS BSICOS


POBLACIN: Se denomina poblacin al conjunto de todos los elementos
en estudio.

Usualmente conformada por un nmero elevado de elementos, pero


tambin tenemos poblaciones con pocos elementos. Especficamente
cuando se determina la ecuacin de regresin lineal para un conjunto de
datos, se considera al conjunto de datos una poblacin.

Ejemplo:

Si estudiamos la minera artesanal en Piura, la poblacin sera todos los


mineros artesanales de Piura.

MUESTRA: La muestra es una parte representativa de la poblacin, la cual


sirve para inferir valores sobre toda la poblacin. Se toman muestras por
razones prcticas y econmicas; normalmente es imposible u oneroso
estudiar todos los elementos de la poblacin.

Ejemplo: La zona delimitada por la lnea verde es el yacimiento (poblacin)


y tomamos solamente un conjunto de datos o muestra (puntos negros) para
definir propiedades del yacimiento.

Ing. Alejandro Vsquez Arrieta Pgina 2


Muestra

HISTOGRAMA: Usualmente se recolecta una gran cantidad de datos, los


cuales en conjunto son inmanejables e incomprensibles. Se denomina
histograma a los datos agrupados en intervalos, de manera que se facilita
su manipulacin y entendimiento. Ejemplo:

40 datos de P2O5 (%)

8,1 11,3 13,4 14,7 17,4


8,6 11,6 13,6 14,8 17,9
9,1 11,6 13,7 15,2 18,5
9,4 11,9 13,8 15,5 19,4
9,5 12,1 14,2 15,8 20,2
10,2 12,5 14,3 16,0 22,7
10,5 12,9 14,5 16,3 25,6
10,7 13,1 14,5 16,8 29,1

Solucin:

-Los intervalos se definen partiendo del rango, as tenemos:

Rango= Xmx Xmin

Rango= 29,1 8,1 = 21,0


Ing. Alejandro Vsquez Arrieta Pgina 3
- Posteriormente al rango se divide entre 10 y 15, ya que en un
histograma usual el nmero de intervalos vara entre 10 a 15
intervalos. Tenemos:

21,0/10 = 2,1 21,0/15 = 1,4

2,0

- Los valores obtenidos son la amplitud del intervalo para 10 y 15


intervalos respectivamente, esto es 2,1 y 1,4 respectivamente.
Escogemos un valor entre 2,1 y 1,4 que sea prctico de manejar y que
permita un histograma de fcil entendimiento, que en este caso es
2,0.
- Se debe definir cul es el lmite cerrado y el lmite abierto de cada
intervalo, para evitar superposiciones entre ellos.
- El lmite de inicio del primer intervalo tambin se escoge de manera
que sea ms prctico de manejar y que permita un histograma de
fcil entendimiento, en este caso es 8,0.

Definiendo los intervalos:

8 a 10 ]8,1 8,6 9,1 9,4 9,5] Tiene 5


datos
10 a 12 ]10,2 10,5 10,7 11,3 11,6 11,6 11,9] Tiene 7
datos
12 a 14 ]12,1 12,5 12,9 13,1 13,4 13,6 13,7 13,8] Tiene 8
datos
14 a 16 ]14,2 14,3 14,5 14,5 14,7 14,8 15,2 15,5 15,8 16,0]
Tiene
10 datos
16 a 18 ]16,3 16,8 17,4 17,9] Tiene 4
datos
Ing. Alejandro Vsquez Arrieta Pgina 4
18 a 20 ]18,5 19,4] Tiene 2
datos
20 a 22 ]20,2] Tiene 1
dato
22 a 24 ]22,7] Tiene 1
dato
24 a 26 ]25,6] Tiene 1
dato
26 a 28 Tiene 0
datos
28 a 30 ]29,1] Tiene 1
dato

Histograma
10
10
9 8
8 7
7
Frecuencia

6 5
5 4
4
3 2
2 1 1 1 1
1 0
0
8-10 10-12 12-14 14-6 16-18 18-20 20-22 22-24 24-26 26-28 28-30
Ley de Fosfato

Ing. Alejandro Vsquez Arrieta Pgina 5


DISTRIBUCIN ESTADSTICA
Se denomina distribucin estadstica al conjunto de datos que analizamos
estadsticamente.

PARMETROS ESTADSTICOS
Los parmetros estadsticos son nmeros que se obtienen a partir de los
datos de una distribucin estadstica y que sirven para sintetizar alguna
caracterstica relevante de la misma.

a) Parmetros o Medidas de Centralizacin


Son parmetros estadsticos alrededor de los cuales se distribuyen los
datos analizados y se toman como el centro de los mismos.

1. Media

1.1. Media Aritmtica

Ejemplo:

Se tienen los siguientes datos.

12 14 18 22 25 28 85

12 14 18 22 25 28 85
x
7

= 29,14

Ing. Alejandro Vsquez Arrieta Pgina 6


1.2. Media Geomtrica

= 1 2

xG 7
12 14 18 22 25 28 85

xG 23.5
- Se observa que cuando hay datos extremos la media geomtrica cumple
mejor la definicin de medida de centralizacin.

12 14 18 22 25 28 85

23.5 29.14

NOTA La media geomtrica es ms robusta que


la media aritmtica, esto es menos
sensible a la presencia de datos extremos
o disparados (outlier).

2. Mediana

Es el dato que ocupa la posicin central cuando estos se encuentran


ordenados.

Ejemplo: Tenemos los siguientes datos:

3, 13, 7, 5, 21, 23, 39, 23, 40, 23, 14, 12, 56, 23, 29

-Si los ordenamos queda:


3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 39, 40, 56

Ing. Alejandro Vsquez Arrieta Pgina 7


-Hay quince nmeros. El del medio es el octavo nmero:

3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 39, 40, 56

-La mediana de este conjunto de valores es 23.

3. Moda
Es el dato que se presenta con mayor frecuencia en la distribucin.
Cuando los datos estn agrupados en intervalos, se define el intervalo
modal, que es el Intervalo con mayor nmero de datos.

Una distribucin puede tener ms de una moda, denominndose


distribucin multimodal. Usualmente estos casos reflejan la presencia
de diferentes fenmenos geolgicos.

b) Parmetros o Medidas de Dispersin


Son parmetros estadsticos que indican cuando se alejan del centro de
los parmetros de distribucin.

1. Varianza 2

Poblacin:

Ing. Alejandro Vsquez Arrieta Pgina 8


Muestra:

Si: n 30

Si: n 30

2. Desviacin Estndar

Poblacin:

Muestra:

Si: n 30

Si: n 30

Ejemplo: Calcular de la siguiente muestra.

28 34 43 58 65 73 85

Calculando:

Ing. Alejandro Vsquez Arrieta Pgina 9


x 55.14 21.00

3. Coeficiente de Variacin (CV)

Ejemplo: Calcular CV de los siguientes datos

228 314 385 476 619 714 821

Calculando:

x 509 217 CV=0.43

NOTA
Solo con el Coeficiente de variacin
(CV) se puede comparar dos
conjuntos de diferente naturaleza.

Ejemplo: Mostrar la diferencia de dispersin de ZnA y ZnB graficndolos


sobre una recta numrica en los siguientes datos:

Ing. Alejandro Vsquez Arrieta Pgina 10


ZnA % ZnB% Ag g/TM
9.18 17.23 75.59
8.25 15.88 73.15
7.58 8.13 67.26
7.77 5.28 61.98
6.93 4.16 57.14
5.45 2.15 50.08
5.26 1.44 44.33
4.1 0.25 38.28

Solucin:

-Calculando:

ZnA %

x 6.815 1.724 CV=0.25

ZnB%

x 6.815 6.498 CV=0.95

Ag g/TM

x 58.48 13.51 CV=0.23

-Ordenamos los datos:

ZnA %

4.1 5.26 5.45 6.93 7.58 7.77 8.25 9.18

1.724 x 6.815

ZnB%

0.25 1.44 2.15 4.16 5.28 8.13 15.88


17.23

x 6.815

6.498
Ing. Alejandro Vsquez Arrieta Pgina 11
Ag g/TM

38.28 44.33 50.08 57.14 61.98 67.26 73.15


75.59

13.51 x 58.48

-Como el Coeficiente de Variacin (CV) sirve para comparar dos conjuntos


diferentes tomaremos ZnA y Ag, resultando ms disperso el conjunto ZnA.

ZnA CV=0.25
Ag CV=0.23

c) Parmetros o Medidas de Posicin


Son valores que dividen el conjunto de datos en partes iguales.
1. Cuartiles
2. Percentiles
Ejemplo:

Q1 Q2 Q3

2 5 8 13 18 25 29 32 38 43 55 63

P25 P50 P75

d) Parmetros o Medidas de Forma


Nos brinda la forma de la distribucin.

Ing. Alejandro Vsquez Arrieta Pgina 12


1. Coeficiente de Asimetra: Llamada tambin SKEWNESS
(oblicuidad), nos da la simetra o la asimetra.

- 0 +
Distribucin Normal

2. Coeficiente de Aplastamiento: Tambin llamada curtosis.

2.1. Mesocurtica: Ni muy levantada, ni muy aplastada.

3
Distribucin Normal

2.2. Planicurtica: Cuando es aplastada o dispersa.

<3

2.3. Leptocurtica: Cuando es levantada.

>3

Ing. Alejandro Vsquez Arrieta Pgina 13


PARMETROS ESTADTICOS BIVARIADOS
1. Covarianza Indica la relacin entre 2 variables, pero no se puede
utilizar para comparaciones cuando los pares de datos son de
diferente naturaleza.

Relacin Directa (signo + de la covarianza)


+2.83

Cu

X2Y2

X1Y1

Pb

Relacin Inversa (signo negativo de la covarianza)


-2.15

Ag

Au

Ing. Alejandro Vsquez Arrieta Pgina 14


2. Coeficiente de Correlacin: Indica la correlacin entre dos variables.
Puede utilizarse para comparar cualesquier par de variables,
indicando la calidad de la correlacin.

Si:

1 Buena correlacin.

1 Perfecta correlacin.

0 Mala correlacin.

Donde:
1 1

NOTA
El valor de referencia para una buena o mala correlacin depende de:
-El nmero de datos.
-La precisin del estudio.

Para fines del curso se tomar a partir de 0.7

Ejemplo:

AuAg 0.82 AuAg 0.82 Buena correlacin

CuAu 0.74 CuAu 0.74 Buena correlacin

Ing. Alejandro Vsquez Arrieta Pgina 15


RECTA DE REGRESIN LINEAL

La regresin lineal o ajuste lineal es un mtodo matemtico que modela la


relacin entre una variable dependiente Y, las variables
independientes Xi y un trmino aleatorio.

= +

Donde:

b = Interseccin de la recta con el eje vertical.

m = Pendiente de la recta

=
2

Donde:
2 = Varianza de la variable independiente.

= +

Ejemplo: Comparar Cu y Au para hallar la ecuacin de regresin lineal


(tomar como poblacin).

Ing. Alejandro Vsquez Arrieta Pgina 16


Cu% Ag g/TM Pb%
1.654 0.375 3.280
1.014 3.133 2.010
1.371 2.840 2.290
0.835 3.703 1.580
1.917 2.601 3.750
1.403 2.131 0.913
1.089 3.141 0.403

x =1.326 x =2.561 x =2.032


=0.350 =1.001 =1.114

-Calculando:

CuPb 0.281

CuPb 0.719

-Tomamos Cu como variable dependiente y al Pb como independiente.

= +

= + .. (1)

= 2 = 0.226

=

= 1.326 0.226 2.032
= 0.867

-Reemplazando en (1)

= 0.867 + 0.226

DISTRIBUCIN NORMAL

La distribucin normal es la distribucin de mayor uso en la estadstica


que se caracteriza por agrupar la mayor parte de los datos alrededor de la
media, siendo los datos extremos bastante escaso.

Ing. Alejandro Vsquez Arrieta Pgina 17


Donde:

68%

2 95%

2 99.7%

Ing. Alejandro Vsquez Arrieta Pgina 18

Você também pode gostar