Você está na página 1de 7

LA DISTRIBUCIN NORMAL

Por: Jorge L. De La Cruz Or Tantas veces hemos escuchado, ledo, re-ledo acerca de la distribucin normal y la distribucin normal estndar (que no son lo mismo), tanto que a veces nos hemos preguntado por qu tenemos que aprenderla y por qu nunca nos sirve en la prctica (casi nadie hace inferencias con la distribucin normal). Pues la respuesta es ms simple de lo que parece: la distribucin normal es solo terica, y la distribucin normal estndar es an ms terica. Sin embargo es importante conocerla porque casi toda la estadstica se entender mejor si se han comprendido ambos conceptos. La distribucin normal fue descubierta (tambin se puede decir que fue inventada) por F. Gauss, por eso tambin se llama distribucin de Gauss. Entonces veamos como pens Gauss: l estaba tratando de medir las distancias que existen entre un gran nmero de estrellas visibles desde la tierra y anotaba tales mediciones. Cuando las volva a medir descubra que las nuevas mediciones eran cercanas a las primeras pero no iguales, sucesivas mediciones le revelaban que casi ninguna era igual a las anteriores, sin embargo todas eran muy prximas. Lo mismo nos pasara a nosotros si intentamos medir la altura de una persona varias veces, los resultados seran muy prximos pero no iguales. Ahora, con esto en mente podemos dibujar nuestras mediciones en un plano cartesiano (como seguramente lo hizo Gauss) para colocar en el eje horizontal X la medicin del tamao de la persona y en el eje Y (vertical) el nmero de veces que obtuvimos las mediciones. Seguramente, si repetimos las mediciones un gran nmero de veces y las graficamos como acordamos, terminemos obteniendo un grfico como el siguiente:
Talla de una misma persona medida muchas veces (en mm)
9 8 7 6

Conteo

5 4 3 2 1 0 1640 1650 1660 1670 1680 1690 1700 1710 1720 1730 1740 1750 1760 Talla (mm)

Para obtener el grfico se pudo haber medido a una misma persona cuya talla real es de 1,70m (es decir 1700 mm) con un altmetro que discierne en milmetros. Como vemos, un gran nmero de veces la talla obtenida es la correcta, sin embargo los errores hacia arriba y hacia abajo son cada vez menores a medida que nos alejamos del verdadero tamao medido de la persona. Si consideramos a la talla como una medida continua (en realidad la talla es continua) y le superponemos una curva para suavizar la grfica lo que obtenemos es lo siguiente:

Mediciones de la talla de una misma persona


Normal 9 8 7
Frecuencia
Media N 1700 53

6 5 4 3 2 1 0 1640 1660 1680 1720 1700 Talla (mm) 1740 1760

Lo que hemos obtenido es una curva en forma de campana tambin conocida como campana de Gauss, curva normal, campana normal. sta curva se caracteriza porque tiene al promedio de la talla (o verdadera talla) al centro, y va disminuyendo hacia los costados. Algo que cabe resaltar es que la curva jams llegar a tocar al eje X si realizamos cada vez ms mediciones (es decir, la curva es asntota al eje X).

Si realizamos la medicin de la talla de toda una poblacin (puede ser la poblacin de la ciudad de Lima), obtendremos una curva normal muy parecida a la que obtuvimos a partir de una sola persona pero con el promedio de la poblacin ubicado exactamente al centro de la curva.

La dificultad radica en que no tenemos ni el presupuesto, ni el tiempo, ni las ganas de medir la talla de todos los habitantes de Lima (aproximadamente 10 millones), as que no nos queda ms que contentarnos con obtener una buena muestra. Por buena muestra entendemos que la misma es representativa de toda la poblacin, es decir que se trata de una muestra obtenida utilizando

alguna tcnica de la aleateorizacin. Aqu seguiremos refirindonos a la poblacin ya que as es ms sencillo poder explicar la distribucin normal. Cabe remarcar lo que dijimos al inicio acerca de la distribucin normal, se trata de una curva terica, las variables reales rara vez se distribuyen normalmente, pero se pueden aproximar mucho a la misma. Para continuar profundizando necesitamos conocer un concepto muy importante: la desviacin estndar poblacional (). Por cierto, la desviacin estndar no es lo mismo que el error estndar (EE), el cual se puede calcular a partir del primero, sin embargo aqu solo trabajaremos con , ya que el EE es tema de otro artculo.

Desviacin Estndar Poblacional ( letra griega que se pronuncia rho-): Es una medida de dispersin, esto quiere decir que es la mejor forma de calcular (no mide exactamente) el grado de dispersin o error que obtenemos cuando queremos medir algo. En el ejemplo inicial, cada vez que medamos la talla de una persona obtenamos valores diferentes; la desviacin estndar nos puede dar un clculo aproximado de esos errores de. Para hallarla, primero debemos obtener el promedio de los valores, luego restar ese promedio obtenido de cada valor observado, elevar al cuadrado dichas diferencias, sumarlas todas, al resultado se le divide entre el nmero de observaciones y finalmente se le saca la raz cuadrada. Lo podemos resumir en una frmula para entender mejor:

Donde:

(1 )2 + (2 )2 + ( )2 =

Es la media de la poblacin Es la desviacin estndar de la poblacin 1 Representan a los N valores de datos

Es el nmero de observaciones de la poblacin Avancemos ms en las propiedades de la distribucin normal. Ya dijimos que tiene forma de campana y que el promedio se encuentra en el centro, ahora mencionaremos que el rea bajo toda la curva debe sumar 1 (es decir, toda el rea es el 100% de la misma rea, lo cual es lgico, pero 100% = 1, por eso se dice que su valor en trminos de probabilidad es 1). As, si dividimos la curva en dos partes iguales (derecha e izquierda) mediante una lnea vertical que pase por el

centro (por la media), el rea de cada lado es igual a 0.5 del rea total, y simplemente se dice que es igual a 0.5 como se aprecia en la siguiente grfica.

Normal, Media=1700, Desv.Est.=27.5 0.016 0.014 0.012 1700

Grfica de distribucin

Densidad

0.010 0.008 0.006 0.004 0.002 0.000 1600 1650 1700 X 1750 1800

0.5

0.5

En la grfica podemos ver que ahora en el eje Y ya no figura la etiqueta frecuencia, sino Densidad, lo cual indica que ahora se est considerando en ese eje la cantidad de informacin que contiene la curva debajo de ella en cada punto. Tambin se aprecia que la desviacin estndar () ha sido calculada y es igual a 27.5 mm. Pero no todo queda ah, para complicar el tema tenemos que ver dnde interviene la desviacin estndar en todo esto. Pues la desviacin estndar nos sirve para hacer ms divisiones al rea bajo la curva. Partiendo de la lnea vertical que se levanta sobre la media podemos extendernos a ambos lados teniendo a la desviacin estndar como nueva unidad de medida y as calcular las reas bajo la curva que ms sea de nuestro inters. Como estamos viendo en el ejemplo que estamos usando, la media es 1700 mm, y la desviacin estndar 27.5 mm. Pues podemos usar el valor de la desviacin estndar para navegar a la derecha e izquierda de la media en el eje X, levantar lneas verticales y calcular reas bajo la curva de manera rpida y fcil con solo consultar una tabla de distribucin Z (que vienen casi siempre al final de los libros de estadstica, o se puede consultar en el internet). As tenemos que si nos movemos una desviacin estndar (en nuestro caso 27.5mm) en el eje X a la izquierda, obtenemos lo que se muestra en el grfico siguiente:

Normal, Media=1700, Desv.Est.=27.5 0.016 0.014 0.012

Grfica de distribucin

Densidad

0.010 0.008 0.006 0.004 0.002 0.000

0.34

0.16
1672.5 1700 X

En ste grfico nos hemos desplazado una desviacin estndar a la izquierda a partir de la media (1700 27.5 = 1672.5) y observamos que el rea que est sombreada (consultando con una tabla de distribucin Z) es igual a 0.34 (es decir el 34%) del rea total. Y el rea que queda entonces a la izquierda de la nueva lnea es 0.5 0.34 = 0.16. Pronto veremos la manera de calcular las reas al estudiar la desviacin normal estndar, por ahora sigamos en lo que nos interesa. Pero el rea que ms inters tiene en la distribucin normal es la que concentra el 95% (es decir el 0.95) del rea total central, tal como se aprecia en la figura siguiente:
Grfica de distribucin

Normal, Media=1700, Desv.Est.=27.5 0.016 0.014 0.012


Densidad

0.010 0.008 0.006 0.004 0.002 0.000 1646.1 1700 X 1753.9

0.95

Como se aprecia en el grfico, el rea bajo la curva central es de 0.95, y los valores en los que se ubican las lneas verticales a la derecha e izquierda de la media corresponden a 1.96 veces (casi dos veces) el valor de la desviacin estndar (27.5*1.96 = 53.9 mm a la izquierda y a la derecha de la media). Las pequeas reas no sombreadas laterales miden 0.025 cada una y se obtienen de restar al rea total el 0.95 central y luego dividir ste resultado entre dos: (1 0.95)/2 = 0.025.

Po lo tanto y como regla general vamos a tener que: Una desviacin estndar a la derecha y a la izquierda de la media abarca el 68% central del rea bajo la curva. 1.96 desviaciones estndar a la derecha e izquierda de la media abarca el 95% central del rea bajo la curva).

Lo ms importante del estudio de la distribucin normal es poder entender de qu manera se relacionan la media y la desviacin estndar al momento de calcular las reas bajo la curva de Gauss. Ahora vamos a revisar un tema ms, la distribucin normal estndar. Distribucin Normal Estndar: No hay nada que temer cuando tocamos ste tema pues a lo que se refiere la expresin es simplemente a la misma distribucin normal, solamente que ahora queremos que nuestra media sea cero y la desviacin estndar sea igual a uno. El proceso de llevar a cabo esto se llama estandarizar. La razn de estandarizar viene dada porque como vimos anteriormente podemos tener muchas curvas normales, tantas como variables nos animemos a medir. Por ejemplo, podemos obtener una curva para las tallas, otra para los pesos, otra para las edades, otra para el salario, etc. Por eso, quienes estudiaron el tema mucho antes que nosotros encontraron una manera de estandarizar sus valores para poder hablar de una sola curva que comparta ciertas caractersticas con todas las infinitas curvas que se pueden construir. Estandarizar es sencillo, solamente imaginemos que ahora la media es igual a cero y que la distribucin estndar es igual a uno (ni la nueva desviacin estndar, ni la nueva media tienen unidades, son adimensionales), y el nico esfuerzo que hacemos es calcular un valor llamado Z: =

Donde:

x es un valor cualquiera de nuestra variable elegida por nosotros. es la media poblacional. es la desviacin estndar.

En realidad no hubiramos podido calcular las reas bajo la curva como lo hicimos anteriormente a menos que estandaricemos los valores correspondientes. Por ejemplo, si deseamos conocer cul es el rea bajo la curva de un punto a la izquierda de nuestra media de 1700mm tenemos que el clculo de Z es como sigue: = 1672.5 1700 = 1 27.5

Lo cual significa que el punto 1672.5 est ubicado a una desviacin estndar a la izquierda de la media (el signo menos nos indica que la direccin es a la izquierda). Ahora s podemos ir a una tabla de valores Z y consultar el rea que se encuentra a la izquierda de Z= - 1, obtendremos que se encuentra el 0.16 (o sea el 16%) del rea total bajo la curva.

De la misma manera podemos elegir un punto en base a elegir primero el valor Z. Por ejemplo, podemos escoger Z=1.96 a la izquierda y a la derecha de la media (lo que significa que queremos saber cules son los valores asociados a escoger 1.96 desviaciones estndar a la izquierda y a la derecha de la media), simplemente reemplazamos en la ecuacin:

: 1.96 = : + 1.96 =

Lo que significa que el 95% de las mediciones se encuentran entre 1646.1mm y 1753.9mm (como ya vimos, 1.96 veces la desviacin estndar a la izquierda y a la derecha engloba el 95% central del rea bajo la curva).

1700 , : = 1753.9 27.5

1700 , : = 1646.1 27.5

Lo mismo podemos hacer para cualquier valor que creamos conveniente de entre todos los valores de la talla de nuestra poblacin y conocer cul es el valor de rea a la izquierda, a la derecha, en medio, etc.

Hasta aqu sta explicacin. Espero sea de ayuda. Preguntas y comentarios a: dj_jdo@hotmail.com