Você está na página 1de 18

Preliminares al Muestreo_La Distribucin Normal

1. Preliminares
En este libro, estudiaremos la esencia de la generalizacin. Cmo es posible sacar conclusiones tiles sobre todas las unidades, observando solo unas pocas?. Intentaremos dar respuesta a la bella paradoja que surde de la pregunta: Sin conocer la verdad, Cmo es posible saber qu tan cerca de ella estamos?, que es el gran mrito de la estadstica. Exploraremos algunos trminos y lenguaje usado en la jerga de la estimacin estadstica. Estudiaremos la omnipresente distribucin normal, la reina de las distribuciones, finalmente estudiaremos la magia de la estimacin estadstica y el contraste de hiptesis.

1.1. Algunos trminos del lenguaje de la inferencia estadstica


Se definen a continuacin algunos trminos que se usarn con frecuencia en el presente escrito.

Poblacin
Se identificar con este nombre al conjunto de elementos de inters en un estudio, sobre los cuales se desea informacin y hacia los cuales se extendern las conclusiones. El trmino poblacin no debe asociarse exclusivamente con poblacin humana; tiene sentido hablar de la poblacin de tornillos que se producen durante un da en una determinada fbrica, o de la poblacin constituida por todas las fincas de un pas o una regin. En todo estudio, la poblacin debe estar definida en forma muy precisa, de tal manera que pueda determinarse en algn momento si un elemento dado pertenece o no a la poblacin. Por ejemplo supngase que se va a realizar un estudio para determinar el porcentaje de desempleo en Cali a abril 4 de 1995; algunas reflexiones tendientes a caracterizar a la poblacin que concierne a dicho estudio son las siguientes: El estudio hace referencia a los caleos o a los residentes en Cali?. Que significa ser residente en Cali? una persona que lleg a Cali en abril 3 de 1995, pertenece a la poblacin? o una persona que se fue de Cali en la misma fecha?

Roberto Behar robehar@pino.univalle.edu.co

97

Preliminares del Muestreo_La Distribucin Normal

Por la naturaleza del estudio los elementos de inters son las personas que "deberan estar empleadas" (de la observacin de estas se definir quienes lo estn y quienes no, para determinar el porcentaje de desempleo), entonces cabe la pregunta: cmo se caracterizan los que "deberan estar empleados" ? (edad, condiciones de salud, incapacidad, etc.). Estas reflexiones sugieren definiciones precisas que conducen a una determinacin adecuada de la poblacin. Muestra En muchas ocasiones se requiere conocer una caracterstica medible de la poblacin, para ello se puede observar, uno a uno, todos los elementos de la poblacin (Censo), lo cual casi siempre es impracticable o muy costoso; en estos casos puede "hacerse una idea" sobre la caracterstica poblacional, observando slo algunos elementos de la poblacin, stos constituyen una muestra de esa poblacin. Parmetro Se llamar parmetro a una caracterstica medible de la poblacin. Por ejemplo, la edad promedio de los estudiantes de una escuela, el porcentaje de varones; el dimetro promedio de los tornillos que se producen en una fbrica, la tasa de crecimiento promedio de la tilapia roja, el tiempo promedio entre fallas de una maquina etc. Un parmetro es una constante para la poblacin . Estadstica Se denominar estadstica a una caracterstica medible en la muestra por ejemplo la edad promedio de una muestra de estudiantes de una escuela, o el porcentaje de varones en la muestra; el dimetro promedio de los tornillos de una muestra de la poblacin de una fbrica, etc. En general una estadstica es una funcin de los datos de una muestra; como puede intuirse el valor que asume una estadstica depende de la muestra que se haya tomado. Generalmente se usan las estadsticas para hacerse una idea de los parmetros, cuando esto sucede se llaman estimadores. Ntese que una estadstica en general varia de una muestra a otra, en este sentido puede mirarse como una variable y drsele el tratamiento que expondremos para las variables.

98

Roberto Behar robehar@pino.univalle.edu.co

Preliminares al Muestreo_La Distribucin Normal

Parmetro versus Estadistica


Poblacin El parmetro se refiere a la Poblacin
3.75 4
salario
5

Muestra

Estadstica se refiere a la muestra


3.6 3.8 4.0 4.2 4.4

3.0

3.2

3.4

Salario

Trminos estadsticos en Muestreo


Variable
1 2 3 4 5

Salario
Estadistica

Muestra

media = 3.72

Parmetro

poblacin

Media = 3.75

Roberto Behar robehar@pino.univalle.edu.co

99

Preliminares del Muestreo_La Distribucin Normal

Ejercicio sobre estadisticas y parmetros


Identifique en cada caso si se trata de una estadistica o de un parmetro:
El 50 % de los solteros Espaoles mayores de 25 aos viven con sus padres. (Parmetro) De acuerdo con una encuesta de opinin, el 38% de los 300 entrevistados son optimistas frente al futuro del pais. (Estadstica) La edad media de los estudiantes de Univalle es de 23 aos. (Parmetro)

Las estadsticas pueden variar


sample
5 0

0 3.0 3.2 3.4 3.6 3.8 4.0 4.2 4.4

Media
15

Media

Media
..Es la distribucin de una estadistica para un nmero muy grande de muestras. muestras.

Distribucin de muestreo

10

0 3.0 3.2 3.4 3.6 3.8 4.0 4.2 4.4

100

Roberto Behar robehar@pino.univalle.edu.co

Preliminares al Muestreo_La Distribucin Normal

Como una estadstica es calculada con base en una muestra aleatoria, ella puede variar de muestra a muestra, por lo tanto podra mirarse como una variable aleatoria a la cual puede asociarse una distribucin de frecuencia ( o de probabilidad), es decir, puede ser representada por un histograma o una funcin de densidad.

La media y la desviacin estndar

Media
Desviacin estndar

Parmetro Estadstica Parmetro Estadstica

Media y Desviacin estndar

Centro

Dispersin (Variabilidad)

Roberto Behar robehar@pino.univalle.edu.co

101

Preliminares del Muestreo_La Distribucin Normal

Media y desviacin estndar


Menor dispersin

Mayor dispersin
5 1 5 25

1 5

2 5

Media de un conjunto de datos.


Poblacin
10 10

15

Muestra aleatoria

15 20

20

10

12 13 14

15 16

17 18

20

Media

x=

10 + 12 + 13 + ... + 18 + 20 = 15 10

Varianza y desviacin estndar.


Poblacin

2
10 12 13 14

10 10 15

15 20

20

15 16

17 18

20

Media

Varianza
2

s2 =

(10 15) + (12 15)


2

+ ...(20 15)

10 1

= 8.6

102

Roberto Behar robehar@pino.univalle.edu.co

Preliminares al Muestreo_La Distribucin Normal

Varianza y desviacin estndar.


s2 =

( x1 x )2 + (x2 x )2 + ...(xn x )2
n 1

Varianza Desviacin estndar


s =

(x1 x )2 + (x2 x )2 + ...(xn x )2


n 1

Media yDesviacin estndar Ejercicio


Calcule la media y la desviacin estndar de los siguientes datos: 1,8,9,2,3,7
x=
s2 =

1+ 8 + 9 + 2 + 3 + 7 =5 6
6 1

Media
= 11.6 Varianza

(1 5)2 + (8 5)2 + ... + (7 5)2


s = 11.6 = 3.4

Desviacin estndar

1.2.

La Distribucin Normal: La reina de las distribuciones

A continuacin damos paso a la distribucin ms importante que existe en estadstica y cuyo descubrimiento ha posibilitado el desarrollo tan extraordinario que tiene la estadstica en la actualidad. La comprensin de las caractersticas bsicas y su manejo operativo, son indispensables casi en todos los procedimientos que se han desarrollado con el propsito de hacer generalizaciones a partir de muestras. La desviacin estndar que se defini al principio, cobra de nuevo inters en el contexto de la distribucin normal y es a travs de sta como mejor puede interpretarse.

Roberto Behar robehar@pino.univalle.edu.co

103

Preliminares del Muestreo_La Distribucin Normal

Ya se anunci al principio, la media y la desviacin estndar son la huella digital de la distribucin normal, nicamente con estos dos parmetros, queda perfectamente identificada una normal particular. La distribucin normal, es responsable de muy buena parte del gran xito de la estadstica, sobre todo por su maravilloso don de la ubicuidad. Ella, casi de repente aparece cuando menos se la espera. En este captulo estudiaremos algunas propiedades de la distribucin normal y ms adelante veremos su gran aporte en los procesos de estimacin.

El modelo Normal
La Reina de las distribuciones

Ajuste de un modelo Normal


30 30 datos 30datos datos

50 50 datos 50datos datos

100 100 datos 100datos datos

15 15 15

20 20 20

x-30 x-30 x-30

25 25 25

10 12 14 16 18 20 22 24 26 28 30 10 12 14 16 18 20 22 24 26 28 30 10 12 14 16 18 20 22 24 26 28 30

12 12 12

14 14 14

16 16 16

18 18 18

20 20 20

x-50 x-50 x-50

22 22 22

24 24 24

26 26 26

28 28 28

30 30 30

x-100 x-100 x-100

500 500 datos 500datos datos


Frequency Frequency Frequency

1000 1000 datos 1000 datos datos


100 100 100 50 50 50

10.000 10.000 datos 10.000datos datos

0
10 10 10 20 20 30 30 30

x-500 20 x-500 x-500

15 15 15

x-1000 x-1000 x-1000

25 25 25

35 35 35

5 0

10 10 10

15 15 15

x-10000 x-10000 x-10000

20 20 20

25 25 25

30 30 30

35 35 35

Si de una poblacin con distribucin normal, sacamos al azar una muestra y con base en sus datos construimos un histograma, la apariencia del histograma es la que se observa a medida que la

104

Roberto Behar robehar@pino.univalle.edu.co

Preliminares al Muestreo_La Distribucin Normal

muestra que se extrae es mas grande. Notemos que con 10.000 datos el histograma es ya casi una curva suave. Esta idealizacin nos conduce a la forma de la distribucin normal y su analoga con un histograma construid con nmero muy grande de datos.

El modelo Normal
Se conoce la expresin que define dicha curva? Qu propiedades tiene?

0 0 0

5 5 5

10 10 10

15 15 15

20 20 20

25 25 25

30 30 30

35 35 35

x-10000 x-10000 x-10000

Cuales son las propiedades ms importantes de la distribucin normal (o modelo normal)?. Cul es la utilidad prctica de dichas propiedades? En adelante iremos descubriendo su importancia, sin embargo, ahora, intentaremos conocer las propiedades que se asocian con su aspecto visual.

La Distribucin Normal
Nmero de desviaciones

1 2
1 x 2 2

N ( ; )
Cambio de Curvatura

-3 -2 -1 +1 +2 +3

f (x ) =

+ 1

En primer lugar, su centro coincide con la media poblacional de la caracterstica.

Roberto Behar robehar@pino.univalle.edu.co

105

Preliminares del Muestreo_La Distribucin Normal

Es simtrica con respecto al eje que pasa por su centro (media). A lado y lado de la misma se ve la imagen especular de una especie de S alargada. El punto de la S en el que se produce el cambio de curvatura (punto de inflexin), es clave la distancia desde el centro hasta dicho punto, es exactamente igual a una desviacin estndar de la caracterstica de inters. Esos dos rasgos la caracterizan. Es decir, dos distribuciones que tengan la misma media (centro) y la misma desviacin estndar, son idnticas.

Regla de oro de la Normal


Nmero de desviaciones

N (20;2)

68.3% de los datos

+ 1

= 20

Al igual que el histograma, el rea bajo la curva informa sobre el porcentaje de datos o de unidades que tienen la caracterstica de inters comprendida en el rango que define el rea. La llamada regla de oro, hace referencia a ciertas regularidades que ocurren en todas las distribuciones normales. Por ejemplo, siempre el 68.3% de las unidades tienen su la medida de la caracterstica en estudio entre la media mas o menos una desviacin estndar.

106

Roberto Behar robehar@pino.univalle.edu.co

Preliminares al Muestreo_La Distribucin Normal

Ejercicio
El contenido de grasa (en gramos) de una pieza de carne sigue una distribucin Normal con una media de 100 gramos/pieza y una desviacin estndar de 20 gramos.

N (100;20 )

El 68.3% de las veces el contenido de grasa se encuentra entre que valores?

Entre 80 y 120 gramos

En este ejercicio la media de la caracterstica es 100 gramos y su desviacin estndar es 20 gramos, si la distribucin es normal, se cumplir que el 68.3 % de las veces que saquemos una unidad al azar de la poblacin, esta tendr un peso comprendido entre 100 +/- 20, es decir, entre 80 y 120 gramos.

Regla de oro de la Normal


Nmero de desviaciones

N (20;2 )

95.5% de los datos

= 20

+ 2

Continuando con la regla de oro, siempre, en todas las distribuciones normales, el 95.5% de los datos o unidades tienen su caracterstica de inters entre la media mas o menos 2 desviaciones estndar. Por eso en el grfico se observa el 95.55 del rea atrapada entre los valores correspondientes a dos desviaciones estndar, a izquierda y derecha de la media.

Roberto Behar robehar@pino.univalle.edu.co

107

Preliminares del Muestreo_La Distribucin Normal

Ejercicio
El contenido de grasa (en gramos) de una pieza de carne sigue una distribucin Normal con una media de 100 gramos/pieza y una desviacin estndar de 20 gramos.

N (100;20 )

El 95.5% de las veces el contenido de grasa se encuentra entre que valores?

Entre 60 y 140 gramos

En el mismo problema anterior, significa que le 95.5 % de todas las piezas de carne, tienen pesos comprendidos entre 100 +/- 2*20, es decir, entre 100+/-40 gramos, o sea entre 60 y 140 gramos.

Regla de oro de la Normal


Nmero de desviaciones

N (20;2)

99.7% de los datos

= 20

+ 3

Ahora, rematando la famosa regla de oro, podemos decir que casi todos los datos, (99.7%), poseen su caracterstica con valores comprendidos entre la media y ms o menos 3 desviaciones estndar. Es decir, que para efectos prcticos podramos decir que el rango de los datos es 6 desviaciones estndar. Tan solo un 0.3% tiene su caracterstica por fuera de este intervalo.

108

Roberto Behar robehar@pino.univalle.edu.co

Preliminares al Muestreo_La Distribucin Normal

Regla de oro de la Normal


Nmero de desviaciones

N (20;2 )

99.7% de los datos

+ 3

Para el ejemplo, casi todas las piezas de carne que se produzcan, exactamente un 99.7%, tendrn su peso comprendido entre 100+/- 3*20 gramos, es decir, entre 40 y 160 gramos. Para el caso de la transparencia, que se refiere a una normal con media 20 y desviacin estndar 2, el 99,7% de las unidades, tendr su caracterstica comprendida entre 20+/- 3*2, es decir, entre 14 y 26.

Cual es la Desviacin Estndar?

Ejercicio = 10

20

80

En este ejercicio se nos invita a hacer una estimacin de la desviacin estndar de una caracterstica que se sabe por experiencia vara en el rango entre 20 y 80. Si suponemos que este rango corresponde a la media +/- 3 desviaciones estndar, entonces podramos razonablemente pensar que la media debe estar cerca de 50 y la desviacin estndar aproximadamente 10, que resulta de hacer caber 6 desviaciones estndar en las 60 unidades del rango.

Roberto Behar robehar@pino.univalle.edu.co

109

Preliminares del Muestreo_La Distribucin Normal

La Normal Estndar

N (0;1)

Porcentaje de datos que son menor o igual que

+ k

En realidad la regla de oro, se puede extender a cualquier nmero de desviaciones estndar. En todas las distribuciones normales, el rea entre las media y mas o menos k desviaciones estndar, es la misma, para cualquier valor de k que se escoja. Por esta razn solo hace falta una sola distribucin normal para calcular el rea que se quiera en cualquier normal. Se ha escogido para tabular la normal con media cero (0) y desviacin estndar igual a uno (1), llamada distribucin normal estndar.

Uso de las tablas de la Normal estndar


Calcule el porcentaje de datos menores que 24

N (20;3)

24

Veamos como se calculara un porcentaje de datos en una normal cualquiera, si solo se dispone de las reas de la normal estndar, N(0;1).
110
Roberto Behar robehar@pino.univalle.edu.co

Preliminares al Muestreo_La Distribucin Normal

En este caso se trata de calcular el porcentaje de datos menores que 24, en una normal, N(20;3). Lo nico que tenemos que hacer, es averiguar que tan lejos est 24 de las media, medido en nmero de desviaciones estndar.

Uso de las tablas de la Normal estndar


N (20;3)
0.908
24

N (0;1)

z=

24 20 = 1.33 3

Z=+1.33

24 se aleja 4 unidades de la media, es decir 1.33 desviaciones estndares. Positivo porque se aleja por encima de la media. Como en todas las distribuciones normales esta rea es la misma, si se mide en nmero de desviaciones estndar, entonces vamos a la normal estndar, N(0;1) y lo calculamos. Como aqu la media es cero y la desviacin estndar 1, entonces el punto a buscar ser: 0+1.33*(1)=1.33. Buscamos en la tabla del apndice, el valor 1.33 y obtendremos el valor buscado.

Transformacin Z

Z=

Roberto Behar robehar@pino.univalle.edu.co

111

Preliminares del Muestreo_La Distribucin Normal

En sntesis, el valor a buscar en la tabla de la normal estndar es un valor Z, resultante de calcular el nmero de desviaciones estndar que separan el valor X, de inters de su media. La manera de hallarlo ser hacer la diferencia entre el valor X y la media y luego averiguar cuantas desviaciones caben en dicha distancia. Veamos algunos ejemplos.

Uso de las tablas de la Normal estndar


El contenido de lpidos de ciertos

comprimidos es una variable que se distribuye normalmente con valor medio de 20 miligramos/gramo y con una desviacin estndar de 3 miligramos/gramo. Que porcentaje de los comprimidos tendrn un contenido de lpidos entre 16 y 24 miligramos/gramo.?

Uso de las tablas de la Normal estndar


P (16 < x < 24 )

N (20;3)

81.6%
P(16 < x < 24) = P(x < 24) P(x < 16)
20

P(16 < x < 24) = P(Z < 1.33) P(Z < 1.33)

P(16 < x < 24) = 0.908 0.092 = 0.816

112

Roberto Behar robehar@pino.univalle.edu.co

Preliminares al Muestreo_La Distribucin Normal

Problema: Proceso de empacado


Cuando un cierto proceso de empacado est bajo

control, el peso por unidad sigue una distribucin Normal con media 100 gramos y desviacin estndar de 3 gramos. Se consideran conformes las unidades que resulten con peso entre 95 y 105 gramos. Calcule: A) Porcentaje de no-conformidades. B) Si actuando sobre el proceso se logra rebajar la desviacin estndar en un 25%. Cuales es el nuevo porcentaje de no-conformidades?

N (100;3)

Problema - Solucin
105 100 95 100 <Z< 3 3

Parte A)

P(95 < X < 105) = P

P(95 < X < 105) = P( 1.67 < Z < +1.67)

P(95 < X < 105) = P(Z < +1.67) P(Z < 1.67)

P(95 < X < 105) = 0.9525 0.0475 = 0.905


Conformes= 90.5% No conformes=9.5%

Roberto Behar robehar@pino.univalle.edu.co

113

Preliminares del Muestreo_La Distribucin Normal

N (100;3)
Parte B)

Problema - Solucin

Nueva desviacin estndar= 3*0.75=2.25 N (100;2.25)

P(95< X <105 ) = P(Z < +2.22) P(Z < 2.22)


Conformes= 97.4%

105100 95100 P(95< X <105 ) = P <Z < 2.25 2.25

P(95 < X < 105) = 0.9869 0.0131= 0.9738


No conformes=2.6%

Ejercicio: Calcular probabilidades en un modelo Normal.


Un remache para la industria de la construccin es

fabricado para cumplir con una resistencia al esfuerzo cortante de 2000 psi. Nuestro proceso produce los remaches con una resistencia nominal ( media) de 2300 psi y con una desviacin estndar de 120 psi. Estime el porcentaje de remaches no conformes que resultan en el proceso.

0.006210

114

Roberto Behar robehar@pino.univalle.edu.co