Escolar Documentos
Profissional Documentos
Cultura Documentos
ParaAntroplogosFsicos
JosLuisCastrejnyDianaTroncoso Versindeagostode2009
UNIDAD I
1. ELEMENTOS BASICOS DE PROBABILIDAD
1.1. Concepto de Probabilidad Desde el punto de vista matemtico la probabilidad es una medida de la incertidumbre. Se ha convenido que dicha medida tome como valores entre cero y uno. Hablar de incertidumbre nos refiere al trmino azar. En la vida cotidiana estamos a menudo rodeados de fenmenos donde el azar est impregnado a los que grosso modo se les ha denominado fenmenos aleatorios. A diferencia de otro conjunto de fenmenos que se modelan por ecuaciones determinsticas, como los estudiados por la fsica, la probabilidad intenta modelar los fenmenos aleatorios a partir de la observancia de ciertas regularidades en los eventos involucrados. Precisando, llamaremos fenmeno aleatorio a todo aquel fenmeno en que se involucran factores fortuitos, provocando que su desenlace est sujeto al azar. De hecho, aun cuando todos sus posibles resultados pueden conocerse de antemano, la conclusin particular de un ensayo no puede determinarse exactamente con anterioridad. Sin embargo, la probabilidad es una medida para cuantificar el grado de certeza o incertidumbre de que ocurra cierto resultado. La forma de asignar probabilidades da lugar a diferentes enfoques. Ms all de un mtodo matemtico, la forma de determinar la probabilidad de un evento depende del tipo de fenmeno aleatorio al que se relaciona. 1.1.1. Probabilidad clsica o a priori ste enfoque slo puede utilizarse cuando los posibles resultados simples de un fenmeno aleatorio son EQUIPROBABLES; es decir, tienen la misma probabilidad de ocurrir. Dicha caracterstica permite que, sin necesidad de realizar el experimento, las probabilidades de los eventos puedan ser asignadas a travs del razonamiento abstracto con simplemente dividir el nmero de elementos del evento entre el nmero de elementos del espacio muestral: ENFOQUE CLSICO Permite calcular la probabilidad de un evento antes de que ocurra, pues los resultados del fenmeno son equiprobables. EXPRESIN
P (E ) =
#E #
EJEMPLO (lanzamiento de dado balanceado) Nmero de elementos del espacio Espacio muestral del fenmeno muestral
= { ,2,3,4,5,6} 1
# = 6
Sea U el evento en que, al lanzar un dado, se obtiene el nmero uno. Sea D el evento en que, al lanzar un dado, se obtiene el nmero dos. Sea T el evento en que, al lanzar un dado, se obtiene el nmero tres. Sea C el evento en que, al lanzar un dado, se obtiene el nmero cuatro. Sea Q el evento en que, al lanzar un dado, se obtiene el nmero cinco. Sea S el evento en que, al lanzar un dado, se obtiene el nmero seis Espacio muestral del Nmero de elementos Probabilidad evento del espacio muestral
P (U ) = 1 P ( D) = 1 P (T ) = 1 P (C ) = 1 P (Q ) = 1 P(S ) = 1
#D =1
#T = 1
#C = 1
6 6
6 6
#Q =1
#S =1
Confirmado est entonces que el enfoque clsico es la mejor forma de asignar probabilidades a priori cuando los eventos de un fenmeno son equiprobables. 1.1.2. Probabilidad frecuentista o a posteriori
El enfoque anterior, empero, resulta inoperante cuando la probabilidad de los eventos de un fenmeno aleatorio no es la misma o no se conoce. Es debido a ello que surge el enfoque frecuentista, que propone repetir el experimento u observar el fenmeno un gran nmero de ocasiones para designar como probabilidad de un evento su frecuencia relativa. ENFOQUE FRECUENTISTA Permite calcular la probabilidad de un evento despus de haber observado el fenmeno repetidamente.
P ( E ) = Frecuencia relativa
EXPRESIN
P(E) =
EJEMPLO (sexo de un recin nacido) Sea M el evento en que el recin nacido es mujer. Sea H el evento en que el recin nacido es hombre. La probabilidad de estos eventos, sin embargo, no puede calcularse mediante el enfoque clsico pues, como atestiguan varias investigaciones, en prcticamente todas las poblaciones del mundo, nacen ms hombres que mujeres. Segn el reporte Mujeres y hombres en Mxico, 20071, en el grupo de 0 a 15 aos hay 103 hombres por cada 100 mujeres, que en trminos porcentuales se traduce en 50.7% de nios y 49.3% de nias. Si sta es la frecuencia relativa del fenmeno sexo de un recin nacido, podemos determinar que la probabilidad de los eventos M y H son:
P ( M ) = 0.493
P ( H ) = 0.507
Es decir, antes de asignar probabilidades a los resultados de un fenmeno (cuyos eventos no son equiprobables) es necesario haber registrado la conclusin de ensayos anteriores. 1.1.3. Probabilidad subjetiva o bayesiana
Instituto Nacional de Estadstica, Geografa e Informtica, 2007. Estructura de la poblacin por edad y sexo y Relacin hombres-mujeres por entidad federativa y grupos de edad en Mujeres y hombres en Mxico, 2007. 6, 8 p.p. Documento electrnico: http://www.inegi.gob.mx/prod_serv/contenidos/espanol/bvinegi/productos/integracion/sociodemografico/ mujeresyhombres/2007/MyH_2007_1.pdf
P ( E ) = x P ( Ec )
EJEMPLO (terremoto en California) Sea S el evento en que se da un terremoto en el sur de California. Sea T el evento en que se da un terremoto tanto en el sur como en el norte de California. Bajo rdenes del gobierno de California y a peticin de las aseguradoras privadas estadounidenses, expertos de tres observatorios geolgicos (el Servicio Geolgico Estadounidense, el Centro de Observacin de Temblores de la Universidad del Sur de California y el Servicio Geolgico Estatal de California) investigaron basndose en observaciones satelitales la posibilidad de que ocurra un terremoto en el territorio de California. Comparando su pronstico con el temblor que hubo en 1994 en la zona de Northridge (6.7 grados Richter), el reporte entregado afirma que es "virtualmente cierto que California experimente por lo menos un temblor mayor para el ao 2028", y que uno de mayor magnitud que ese ocurrir entre los aos 2037 y 2038. Segn la informacin, hay un 97% de probabilidades de que ocurra un terremoto mayor en el sur de California en ese periodo, y un 93% de posibilidades de que el movimiento incluya tambin al norte de California.2
P ( S ) = 0.97
P (T ) = 0.93
ste caso es, sin duda alguna, ejemplar para explicar que en muchas ocasiones no hay forma de atestiguar repetidamente un fenmeno para calcular las probabilidades de sus eventos. Por ende, es necesario acercarse a los conocimientos de un especialista para realizar tal tarea.
Prevn un gran terremoto en California entre 2008 y 20038 en El Universal, Secc. El Mundo. Martes 15 de abril del 2008. Formato electrnico: http://www.eluniversal.com.mx/notas/498716.html
Revisemos ahora algunos conceptos bsicos de probabilidad ejemplificndolos con el lanzamiento de un dado regular de seis caras. Por un lado, se llama espacio muestral al conjunto de todos los posibles resultados de un fenmeno aleatorio; el cual se denota por la letra griega omega: . EJEMPLO (lanzamiento de dado) Y al definir dicho espacio muestral reconocemos el nmero de resultados que tiene este fenmeno aleatorio:
= { ,2,3,4,5,6} 1
# = 6
Por otro, se denomina evento (denotado por cualquier letra mayscula) al resultado del ensayo de un fenmeno aleatorio. Dado que todo evento es un subconjunto del espacio muestral, existen diversos tipos de eventos: a) Eventos simples: Son aquellos que los que se da slo un resultado. EJEMPLO (lanzamiento de dado) Sea D el evento en que, al lanzar un dado, se obtiene el nmero dos.
D = {2}
#D =1
b) Eventos compuestos: Son eventos que comprenden ms de un resultado (secuencia de puntos muestrales). EJEMPLO (lanzamiento de dado) Sea P el evento en que, al lanzar un dado, se obtiene un nmero par.
P = {2,4,6}
#P = 3
Dos eventos particulares, deben sealarse con ms atencin: Evento imposible: No denotado por una letra, sino por el smbolo de conjunto vaco ( ) , el evento imposible es un evento que no contiene elementos. EJEMPLO (lanzamiento de dado) Sea N el evento en que, al lanzar un dado, se obtiene el nmero nueve.
} ={ }
N ={
Ya que ninguna de las caras del dado regular posee el nmero nueve, el evento N es imposible ( ) :
#N =0 # = 0
#O = 6 # = 6
Eventos ajenos (mutuamente excluyentes): Son eventos que no tienen elementos en comn. EJEMPLO (lanzamiento de dado) Sea C el evento en que, al lanzar un dado, se obtiene un nmero primo y D , el evento en que se obtiene un nmero no primo.
#C = 4 #D = 2
Finalmente, se conoce como -lgebra al conjunto de todos los subconjuntos del espacio muestral. El smbolo con que se le denota, 2 , sirve adems para calcular el nmero de eventos que comprende un fenmeno aleatorio. Basta con sustituir con el nmero de elementos que tiene el espacio muestral de dicho fenmeno. EJEMPLO (lanzamiento de dado) Como el espacio muestra contiene 6 6 elementos, el nmero total de # = 6 2 = 64 eventos es 64. , (1) , ( 2 ) , ( 3) , ( 4 ) , ( 5 ) , ( 6 ) , ( ) (1, 2 ) , (1,3) , (1, 4 ) , (1,5 ) , (1, 6 ) , ( 2,3) , ( 2, 4 ) , ( 2,5 ) , ( 2, 6 ) , ( 3, 4 ) , ( 3,5 ) , ( 3, 6 ) , ( 4,5 ) , ( 4, 6 ) , ( 5, 6 ) , 1, 2,3 , 1, 2, 4 , 1, 2,5 , 1, 2, 6 , 1,3, 4 , 1,3,5 , 1,3, 6 , 1, 4,5 , 1, 4, 6 , 1,5, 6 , 2,3, 4 , )( )( )( )( )( )( )( )( )( )( ) ( ( 2,3,5) , ( 2,3, 6 ) , ( 2, 4,5) , ( 2, 4, 6 ) , ( 2,5, 6 ) , ( 3, 4,5 ) , ( 3, 4, 6 ) , ( 3,5, 6 ) , ( 4,5, 6 ) , (1, 2,3, 4 ) , (1, 2,3,5 ) , (1, 2,3, 6 ) , (1, 2, 4,5 ) , (1, 2, 4, 6 ) , (1, 2,5, 6 ) , (1,3, 4,5 ) , (1,3, 4, 6 ) , (1,3,5, 6 ) , (1, 4,5, 6 ) , ( 2,3, 4,5 ) , ( 2,3, 4, 6 ) , ( 2,3,5, 6 ) , ( 2, 4,5, 6 ) , ( 3, 4,5, 6 ) , (1, 2,3, 4,5 ) , (1, 2,3, 4, 6 ) , (1, 2,3,5, 6 ) , (1, 2, 4,5, 6 ) , (1,3, 4,5, 6 ) , ( 2,3, 4,5, 6 ) , (1, 2,3, 4,5, 6)
, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R, , 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R, = # = 52 A, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R, , 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R
a) Gracias a lo cual podemos observar las 52 posibles cartas que pueden ser extradas de dicha baraja. Ahora bien, calculemos el total de subconjuntos de dicho espacio muestral:
2 = 252 = 4.5036x1015
b) Como podemos ver, el nmero de eventos posibles para este fenmeno es inmenso: 4.5036x1015 . Finalmente determinemos el nmero y tipo de los siguientes eventos:
A = {} # A = 1
El evento sale un as de corazones tiene slo un elemento, por ende es un EVENTO SIMPLE.
D = {10} # D = 1
El evento se obtiene un diez de diamantes contiene un elemento, por lo cual es un EVENTO SIMPLE.
C = {4, 4, 4, 4} # C = 4
El evento sale un cuatro comprende 4 elementos. Debido a ello es un EVENTO COMPUESTO.
U ={
} #U = 0
El evento se obtiene una carta con un uno es un EVENTO IMPOSIBLE, ya que este tipo de barajas, en vez de tener unos, poseen ases.
J ={
} #J =0
El evento se obtiene una carta con un uno no tiene elemento alguno, por lo cual es un EVENTO IMPOSIBLE.
, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R, , 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R, P= # P = 52 A, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R, , 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R
El evento sale un diamante, un corazn, un trbol o una espada es un EVENTO SEGURO, pues las 52 cartas de la baraja cumplen con tales requisitos.
Sea Q el evento en que se obtiene una reina: Sea T el evento en que se extrae un trbol:
Sea R el evento en que sale una carta de palo rojo: Sea N el evento en que se obtiene una carta de palo negro:
, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R, R= # R = 26 , 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R, A, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R, N = # N = 26 , 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R
Si bien estos eventos son tambin COMPUESTOS (ya que comprenden 13 elementos), como pareja s son EVENTOS EXCLUYENTES, ya que ninguno de sus puntos muestrales es igual.
PROPIEDADES ELEMENTALES DE LA PROBABILIDAD Ya revisadas las diferentes formas que existen para calcular la probabilidad de un evento, resta estudiar las bases que sustentan la teora probabilstica. Empero, ms all de los axiomas, debe verse en estas propiedades una forma ms de asignar probabilidades y de corroborar los resultados. 1. La probabilidad de cualquier evento E es un nmero no negativo. 2. La probabilidad de cualquier evento E es un nmero igual o menor a uno. 3. Por ende, la probabilidad de cualquier evento E est entre cero y uno. 4. La suma de las probabilidades de todos los resultados posibles de un fenmeno es igual a uno. 5. Si E es un evento cualquiera, el evento que contiene todos los elementos del espacio muestral que no estn en E es su EVENTO COMPLEMENTO: E c . Por tanto, la suma de sus probabilidades es igual a uno. C. EJEMPLOS DE APLICACIN 1. Defina, justificando su respuesta, el enfoque necesario para asignar probabilidad a los siguientes eventos:
P ( E1 ) + ... + P ( Ek ) = P ( Ei ) =P ( ) = 1
i =1
P ( E ) + P ( Ec ) = 1
Se est apostando por color en una ruleta europea (que adems de 36 nmeros tiene una casilla para el cero, que es verde). Cul es la probabilidad de que la bola caiga en una casilla roja?
0,1, 2, 3, 4, 5, 6, 7,8, 9,10,11,12,13,14,15,16,17,18,19, 20, = # A = 37 21, 22, 23, 24, 25, 26, 27, 28, 29, 30,31, 32,33, 34,35, 36 R = {1, 3, 5, 7, 9,12,14,16,18,19, 21, 23, 25, 27, 30, 32, 34, 36} # R = 18 P ( R) = 18 = 0.4865 37
Segn ste enfoque, la probabilidad de que la bola caiga en una casilla roja es de 48.65%.
Se lanza una moneda. Cul es la probabilidad de que caiga sol si en 80 de 200 lanzamientos anteriores ha cado dicha cara.
La notable diferencia de resultados en ensayos anteriores nos indica que la moneda no est bien balanceada. Por ende es mejor utilizar el enfoque frecuentista para asignar probabilidad a este evento:
P(S ) =
80 = 0.4000 200
Gracias a l sabemos que la probabilidad de que salga sol en el prximo lanzamiento es de 40.00%.
Cul es de que uno infante padezca una enfermedad alrgica si: a) Ambos padres fueron alrgicos ( D ) . b) Slo uno de sus padres fue alrgico (U ) .
Si bien podran averiguarse las frecuencias relativas de dichos eventos, el desarrollo de una enfermedad alrgica se relaciona con factores genticos. Por ende, es mejor confiar en juicios como el del doctor Gerardo Lpez Prez, mdico adscrito al servicio de Alergia del Instituto Nacional de Pediatra (INP) de la Secretara de Salud, quien afirma que si ambos padres fueron alrgicos, el nio tiene hasta 50% de posibilidad de serlo, si es uno de ellos, el riesgo es de 30%...3
P ( D ) = 0.5000
P (U ) = 0.3000
Cul es la probabilidad de que, en un juego de perinola, alguien o todos pongan una ficha?
Bajo el supuesto de que dicha perinola no est trucada, podemos aplicar el enfoque clsico:
= {pon una, pon dos, todos ponen (una), toma una, toma dos, toma todo} # = 6 P = {pon una,todos ponen (una),} # P = 2
El 30% de la poblacin presenta durante su vida algn tipo de alergia en Comunicado de prensa No. 318. Secretara de Salud. 7 de junio del 2006. Documento electrnico: http://www.salud.gob.mx/ssa_app/noticias/datos/2006-06-07_2254.html
P ( P) =
2 = 0.3333 6
Segn lo cual, la probabilidad de que alguien o todos pongan una ficha es de 33.33%.
Cul es la probabilidad de que una denuncia presentada ante la Procuradura General de Justicia del Distrito Federal (PGJDF) se relacione a un delito ambiental de tala, cometido en nuestra ciudad?
Samuel Ibarra Vargas, titular de la Fiscala Especial para la Atencin de Delitos Ambientales de la PGJDF, precisa: de 38 a 40 por ciento de las denuncias que tenemos en la Fiscala son de tala4. Dicha afirmacin implica ya una observacin repetida del evento (denuncia por tala), razn por la cual podemos aplicar el enfoque frecuentista:
P (T ) =
38 = 0.3800 100
P (T ) =
40 = 0.4000 100
Cul es la probabilidad de que llueva durante las ceremonias de inauguracin y clausura de los Juegos Olmpicos en China (2008)?
Si bien no hay forma de aqu tampoco hay forma de repetir el evento, los registros histricos muestran una probabilidad del 50 por ciento de que haya precipitaciones en los das en que se llevarn a cabo las citadas ceremonias, el 8 y el 24 de agosto, respectivamente.5 Por ende, la probabilidad del evento lluvia durante las ceremonias ( L ) es de:
P ( L ) = 0.5000
2. Compruebe con ayuda de los siguientes fenmenos las reglas de probabilidad: a) El lanzamiento de una moneda balanceada. b) La tirada de un dado no trucado. Definamos primero el espacio muestral de ambos eventos: MONEDA DADO
# = 2
# = 6
Aumentan denuncias por delitos ambientales en el DF en El Universal, Secc. DF. 1 de junio del 2008. Formato electrnico: http://www.eluniversal.com.mx/notas/511216.html 5 Controlarn clima en JO 2008 con cohetes en El Siglo de Durango. 2 de enero del 2008. Direccin electrnica: http://www.elsiglodedurango.com.mx/noticia/152651.controlaran-clima-en-jo-2008-concohetes.siglo
10
A = {guila} S = {sol}
DADO
# A =1
#S =1 #U = 1
#D =1
#T = 1
#C = 1
#Q =1
#S =1
Ahora confirmemos que la suma las probabilidades de todos los eventos de cada fenmeno es igual a uno: MONEDA Salga guila ( A ) Salga sol ( S ) Caiga uno (U ) Caiga dos ( D ) Caiga tres (T ) TOTAL
P ( A ) = 1 = 0.5000 2 P ( S ) = 1 = 0.5000 2
DADO
P ( A) + P ( S ) = 1 + 1 = 2 = 1 2 2 2
P (U ) = 1 = 0.1667 Caiga cuatro ( C ) P ( C ) = 1 = 0.1667 6 6 P ( D ) = 1 = 0.1667 Caiga cinco ( Q ) P ( Q ) = 1 = 0.1667 6 6 1 = 0.1667 1 = 0.1667 Caiga seis ( S ) P (T ) = P(S ) = 6 6 P (U ) + P ( D ) + P (T ) + P ( C ) + P ( Q ) + P ( S )
= 1 + 1 + 1 + 1 + 1 + 1 = 6 =1 6 6 6 6 6 6 6
Finalmente, elijamos o estipulemos algunos eventos para comprobar la propiedad relativa a los eventos complementos: MONEDA Sea A el evento en que sale un guila.
A = {guila}
# A =1
P ( A ) = 1 = 0.5000 2 P ( S ) = 1 = 0.5000 2
Como el lanzamiento de una moneda slo tiene dos resultados, el evento complementos es sale sol
S = {sol}
#S =1
11
P ( A) + P ( S ) = 1 + 1 = 2 = 1 2 2 2
DADO Sea N el evento en que cae un nmero non.
N = {1,3,5} P = {2, 4, 6}
#N =3
#P =3
Eventos cuya suma es igual a uno:
P ( N ) = 3 = 0.5000 6 P ( P ) = 3 = 0.5000 6
P ( N ) + P ( P) = 3 + 3 = 6 = 1 6 6 6
Ya estudiados los enfoques y axiomas de la teora probabilstica, en este captulo analizaremos cmo se aplican dichos principios al clculo de probabilidades de diversos tipos de eventos. Como anteriormente mencionamos, un evento imposible ( ) es aqul que no contiene elementos. Dado que dicho suceso no puede ocurrir, la probabilidad de un evento imposible siempre ser la mnima P ( E ) 0 ; es decir, cero: EXPRESIN PARA ASIGNAR PROBABILIDAD A UN EVENTO IMPOSIBLE
P () = 0
Por el contrario, dijimos que el evento seguro ( ) es aqul que contiene los mismos elementos que el espacio muestral. El hecho de que este suceso comprenda todos los eventos posibles P ( E1 ) + ... + P ( Ek ) =
probabilidad del evento seguro siempre sea la mxima P ( E ) 1 ; esto es, igual a uno: EXPRESIN PARA ASIGNAR PROBABILIDAD A UN EVENTO SEGURO Evento complemento Por otro lado, revisamos que un evento complemento
P ( E ) =P ( )
i =1 i
P () = 1
(E )
c
todos los elementos del espacio muestral que no estn en el evento E . Si la suma de
( )
complemento puede calcularse restando a uno la probabilidad del evento E : EXPRESIN PARA ASIGNAR PROBABILIDAD A UN EVENTO COMPLEMENTO
P ( Ec ) = 1 P ( E )
12
I = ( E1 E2 )
Por otro lado, se llama evento unin al evento que contiene los elementos de dos o ms eventos ( E1 , E2 , E3 ,..., Ek ) : EVENTO UNIN
U = ( E1 E2 )
Interseccin y unin de eventos cualesquiera La ocurrencia de estos eventos y la asignacin de probabilidad son, por ende, distintas a las de otros sucesos: 1) Un evento interseccin ocurre cuando se dan uno y otro evento; es decir, ambos. Debido a ello, la probabilidad del evento interseccin se puede calcular dividiendo el nmero de elementos que comparten los eventos entre el nmero de elementos del espacio muestral: EVENTO INTERSECCIN
I = ( E1 E2 ) P ( I ) = P ( E1 E2 )
P ( E1 E2 ) =
2) Un evento unin sucede cuando se da uno u otro evento. Por tal motivo, la probabilidad de un evento unin se puede calcular sumando las probabilidades individuales de los eventos y restando a ello la probabilidad de su interseccin: EVENTO UNIN
U = ( E1 E2 ) P (U ) = P ( E1 E2 ) = P ( E1 ) + P ( E2 ) P ( E1 E2 )
13
P ( E3 E4 ) = 0
P ( E3 E4 ) = 1
c
Asimismo, como su interseccin es igual a cero, su probabilidad de unin es simplemente igual a la suma de las probabilidades individuales de sus eventos:
P (U ) = P ( E3 E4 ) = P ( E3 ) + P ( E4 ) P ( E3 E4 ) P (U ) = P ( E3 E4 ) = P ( E3 ) + P ( E4 ) 0 P (U ) = P ( E3 E4 ) = P ( E3 ) + P ( E4 )
EXPRESIN PARA ASIGNAR PROBABILIDAD A LA UNIN DE EVENTOS AJENOS
P ( E3 E4 ) = P ( E3 ) + P ( E4 )
k P ( E1 E2 E3 ... EK ) = P Ei i =1 P ( E1 E2 E3 ... EK ) = P ( Ei )
i =1 k
Leyes de probabilidad Habiendo revisado los eventos interseccin y unin, podemos mencionar ya otras de las leyes que se aplican al clculo de probabilidad. Leyes DMorgan
P ( A B) = P ( A B
c c
LEYES DMORGAN
P ( A B ) = P ( Ac B c )
c
Leyes distributivas
P ( A ( B C )) = P (( A B ) ( A C ))
LEYES DISTRIBUTIVAS
P ( A ( B C )) = P (( A B ) ( A C ))
Revisemos y apliquemos ahora todo lo anterior utilizando, una vez ms, un sencillo fenmeno aleatorio: el lanzamiento de un dado.
14
= { ,2,3,4,5,6} 1
# = 6
D ={
} #D = 0
El evento es imposible; por tanto: P ( ) = 0 La probabilidad de que se obtenga un nmero mayor a ocho es nula (0.00%).
F = {1} # F = 1
P ( F ) = 1 = 0.1667 6
G = {2,3, 4,5, 6} # G = 5
P ( G ) = 5 = 0.8333 6
No obstante, como el evento G = nmero 1 es complemento del evento F = nmero 1 , podemos tambin calcular su probabilidad mediante la siguiente expresin:
P ( G ) = 1 P ( F ) = 1 0.1667 = 0.8333
La probabilidad de que se obtenga un nmero diferente al uno es de 83.33%. Ahora veamos un poco sobre la probabilidad de interseccin y unin entre eventos cualesquiera y ajenos con tres diferentes sucesos:
15
H = {5} # H = 1
P ( H ) = 1 = 0.1667 6
I = {1,3,5} # I = 3
P ( I ) = 3 = 0.5000 6
J = {1, 2,3} # J = 3
P ( J ) = 3 = 0.5000 6
La probabilidad de que se obtenga un nmero menor a cuatro es de 50.00%. Interseccin de los eventos: Determine la probabilidad del evento ( H I ) :
H = {5}
I = {1,3,5}
P ( E1 E2 ) =
H = {5}
J = {1, 2,3}
( H J ) = { } . Debido a ello: P ( H J ) = 0
16
P ( H J ) = 1 P ( H J ) = 1 0 = 1
c
Sabemos que: H = {5} y que I = {1,3,5} . Por tanto, al unir los dos eventos tenemos:
( H I ) = {1,3,5,5} .
( H I ) = {5} ( H I ) = {1,3,5} ,
resultando en:
P ( H I ) = 3 = 0.5000 6
Esto, claro est, es ms sencillo aplicando la expresin para probabilidad de unin de eventos cualesquiera (no ajenos): FRMULA DATOS PARA SUSTITUIR
6 3 I = {1,3,5} # I = 3 P ( I ) = 6 1 ( H I ) = {5} P ( H I ) = 6
H = {5} # H = 1 P ( H ) = 1
Sabemos que: H = {5} y que J = {1, 2,3} . Por tanto, al unir los dos eventos tenemos:
( H J ) = {1, 2,3,5} .
existe una expresin para calcular la probabilidad de unin de eventos ajenos, ocupmosla:
FRMULA
6 3 J = {1, 2,3} # J = 3 P ( J ) = 6
H = {5} # H = 1 P ( H ) = 1
17
A = {2, 4, 6} # A = 3
P ( A ) = 3 = 0.5000 6
B = {4,5, 6} # B = 3
P ( B ) = 3 = 0.5000 6
C = {1, 2,3,5} # C = 4
P ( C ) = 4 = 0.6667 6
P ( A B ) = P ( Ac B c )
c
P ( A B ) = P ( Ac B c )
c
P ( A) = 3
c P ( A) = 1 P ( A) = 1 3 = 3 6 6
P ( B) = 3
c P ( B) = 1 P ( B) = 1 3 = 3 6 6
( A B ) = {4, 6}
c
P ( A B) = 2
P ( A B) = 1 P ( A B) = 1 2 = 4 6 6
( A B ) = {2, 4,5, 6}
no ajenos
P ( A B ) = P ( A) + P ( B ) P ( A B ) P ( A B) = 3 + 3 2 = 4 6 6 6 6
P ( A B) = 1 P ( A B) = 1 4 = 2 6 6
c
18
(A
(A
c
B c ) = {1,3}
P ( Ac B c ) = 2
B c ) = {1, 2,3,5}
no ajenos
c
P ( Ac B c ) = P ( Ac ) + P ( B c ) P ( Ac B c ) P ( Ac B c ) = 3 + 3 2 = 4 6 6 6 6 c P ( A B) = 2 6 c c P( A B ) = 2 6 P ( A B ) = P ( Ac B c )
c
P ( A B ) = P ( Ac B c )
c
6 P( A B ) = 4 6
c c
P ( A B) = 4
= 4 = 0.6667 6
= 2 = 0.3333 6
Finalmente, si sustituimos letras por eventos y elementos, podemos concluir que: 1. Por un lado, la probabilidad de que aparezca un 1, 2, 3 5
P ( A B )c = P ( Ac B c ) es de 66.67%.
P ( A ( B C )) = P (( A B ) ( A C ))
P ( A) = 3 P ( B) = 3 P (C ) = 4
6 6 6 6
( A B ) = {4, 6}
P ( A B) = 2
( A B ) = {2, 4,5, 6}
no ajenos
P ( A B ) = P ( A) + P ( B ) P ( A B ) P ( A B) = 3 + 3 2 = 4 6 6 6 6
( A C ) = {2}
( A C ) = {1, 2,3, 4,5, 6}
no ajenos
P( AC) = 1
P ( A C ) = P ( A) + P ( C ) P ( A C ) P( AC) = 3 + 4 1 = 6 6 6 6 6
( ( A B ) ( A C ) ) = {2, 4,5, 6}
P (( A B ) ( A C )) = 4
( ( A B ) ( A C ) ) = {2, 4, 6}
ajenos
P (( A B ) ( A C )) = P ( A B ) + P ( A C ) P (( A B ) ( A C )) = 2 + 1 = 3 6 6 6
19
( B C ) = {5}
P(B C) = 1
P ( B C ) = P ( B ) + P (C ) P ( B C ) P(B C) = 3 + 4 1 = 6 6 6 6 6
( A ( B C ) ) = {2, 4, 6}
( A ( B C ) ) = {2, 4,5, 6}
ajenos
P ( A ( B C )) = 3
P ( A ( B C ) ) = P ( A) + P ( B C ) P ( A ( B C )) = 3 + 1 = 4 6 6 6 P ( A ( B C )) = 4 6 P (( A B ) ( A C )) = 4 6 = 4 = 0.6667 6
6 P ( A ( B C )) = P (( A B ) ( A C )) = 3 = 0.5000 6
Es decir:
6 P (( A B ) ( A C )) = 3
P ( A ( B C )) = 3
P ( A ( B C )) = P (( A B ) ( A C ))
P ( A ( B C ) ) = P ( ( A B ) ( A C ) ) es de 50.00%.
Probabilidad condicional Otra forma de analizar dos o ms eventos es investigar si la ocurrencia de uno depende de otro. En vistas de tal objetivo, la teora probabilstica ha desarrollado la probabilidad condicional, que por definicin es la probabilidad de que suceda un evento dado que haya ocurrido otro y se denota por: P A B . Probabilidad condicional de eventos cualesquiera Para asignar dicha probabilidad, basta dividir la probabilidad de interseccin de los eventos entre la probabilidad del evento que debi haberse dado: EXPRESIN PARA DETERMINAR LA PROBABILIDAD CONDICIONAL DE DOS EVENTOS CUALESQUIERA
P ( A B) =
P ( A B) P ( B)
P ( B A) =
P ( A B) P ( A)
Pese a su parecido, la operacin probabilidad condicional no tiene propiedad conmutativa. Por ello debe vigilarse con atencin cul es la probabilidad del evento causante y cul es la de evento consecuencia. Probabilidad condicional de eventos ajenos
20
P (C D ) =
P (C D ) 0 = =0 P ( D) P ( D)
P(D C) =
P (C D ) 0 = =0 P (C ) P (C )
Eventos independientes Si bien la operacin probabilidad condicional proporciona la probabilidad de que suceda un evento dado otro, tambin nos permite identificar cuando los eventos analizados son eventos independientes: eventos cuya probabilidad de suceso no se ve afectada por la ocurrencia de otros. Para ello basta simplemente comprobar si, y slo si, la probabilidad condicional calculada es igual a la probabilidad de evento consecuencia: EVENTOS INDEPENDIENTES
P ( A B ) = P ( A) P ( B A) = P ( B )
Interseccin de eventos independientes Sabiendo que la probabilidad condicional se calcula mediante la expresin
P ( A B) =
igual a P A B = P ( A ) ; dada la relacin entre elementos podemos aplicar la propiedad transitiva de igualdad y deducir lo siguiente:
P ( A B) = P ( A ) . Por ende: P ( B)
P ( A B ) = P ( A) P ( B ) .
P ( A B) P ( A B) = P ( B) P ( A B ) = P ( A)
P ( A B) = P ( A) P ( B)
P ( A B ) = P ( A) P ( B )
Es debido a ello que la probabilidad de interseccin de eventos independientes es, no igual a la suma de sus probabilidades individuales, sino a la multiplicacin de stas: EXPRESIN PARA ASIGNAR PROBABILIDAD A LA INTERSECCIN DE EVENTOS INDEPENDIENTES
21
Ejemplos de aplicacin 1. Veamos primero un ejemplo abstracto de la probabilidad condicional de eventos cualesquiera y eventos ajenos con algunos de los casos que estudiamos sobre el lanzamiento de un dado: Sea H el evento en que aparece el nmero cinco: Sea I el evento en que sale un nmero non: Sea J el evento en que se obtiene un nmero menor a cuatro: Elementos para clculo de probabilidad condicional
6 P(H I ) = 1
P(I H ) =
P(J H ) =
1. La probabilidad de que en el prximo lanzamiento aparezca el nmero cinco, dado que sali un nmero non, es de 33.33% 2. La probabilidad de que en el prximo lanzamiento salga un nmero non, dado que apareci previamente el nmero cinco, es de 100.00%. Por otra parte, como los eventos H y J son ajenos: 3. La probabilidad de que en el prximo lanzamiento aparezca el nmero cinco, dado que se obtuvo un nmero menor a cuatro, es nula (0.00%). 4. La probabilidad de que en el prximo lanzamiento se obtenga un nmero menor a cuatro, dado que apareci el nmero cinco, es nula (0.00%).
2. Considrense ahora los siguientes datos correspondientes a crneos clasificados por sexo y grado de criba orbitaria:
22
( A)
21 36 57
(I )
34 20 54
(S )
52 17 69
FEMENINO SEXO
(F )
MASCULINO
(M )
TOTAL
Si se selecciona un caso de la poblacin, cul es la probabilidad de que a) sea femenino? b) presente criba incipiente? c) sea femenino y presente criba incipiente? d) sea femenino o presente criba incipiente? e) presente criba incipiente dado que es femenino? f) presente criba dado que es masculino? Veamos cmo, al registrar la informacin en una tabla de contingencia, la asignacin de probabilidades es mucho ms sencilla, especialmente en los casos de probabilidad condicional. a) sea femenino? Probabilidad que requiere observar la frecuencia relativa de dicho evento:
P(F ) =
La probabilidad de que el caso sea femenino es de 59.44%. b) presente criba incipiente? 54 Se trata, igualmente, de una P(I ) = = 0.3000 probabilidad por frecuencia relativa: 180 La probabilidad de que el caso presente criba incipiente es de 30.00%. c) sea femenino y presente criba incipiente? Esto implica, por tanto, buscar la 34 P(F I ) = = 0.1889 interseccin de los eventos 180 femenino y criba incipiente: La probabilidad de que el caso sea femenino y presente criba incipiente es de 18.89%. d) sea femenino o presente criba incipiente? Esto implica, por tanto, buscar la unin de los mismos eventos, que comprobamos no son ajenos:
P ( F I ) = P ( F ) + P (U ) P ( F I ) P(F I ) =
107 54 34 127 + = = 0.7056 180 180 180 180
23
OPCIN 2
Para su clculo slo es necesario tomar en cuenta los casos femeninos con criba incipiente:
P(I F ) =
34 = 0.3178 107
La probabilidad de que el caso presente criba incipiente dado que es femenino es de 31.78%. e) presente criba severa dado que es masculino? OPCIN 2 Por ser ms fcil, slo consideramos los casos que cumplen ambos requisitos:
P(S M ) =
17 = 0.2329 73
La probabilidad de que el caso presente criba severa dado que es masculino es de 23.29%. 3. Supongamos que se contesta al azar una quiniela Progol (con 14 partidos y 3 resultados). Cul es la probabilidad de ganar as el premio mayor? De entrada tenemos que, al haber tres casillas posibles (local, empate y visita), la probabilidad de atinarle al resultado de cada partido es:
P ( Ai ) =
1 3
Ahora bien, sabemos que para ganar el premio mayor deben marcarse correctamente el resultado de todos los encuentros. Esto es:
24
P (U ) = P (C ) =
1 56 1 53
P ( D) = P (Q ) =
1 55 1 52
P (T ) = P(S ) =
1 54 1 51
P ( G ) = P (U D T C Q S )
P ( G ) = P (U ) P ( D ) P (T ) P ( C ) P ( Q ) P ( S )
1 1 1 1 1 1 1 P ( G ) = = 10 56 55 54 53 52 51 2.3377 x10
P ( G ) = 4.2777 x1011
Y as nos percatamos de que atinarle al Melate es mucho ms difcil; de hecho, la probabilidad de acertar por azar a los seis nmeros es de 0.0000000042777%. 5. Resignados ante la improbabilidad de conquistar los juegos de Pronsticos, los amigos han decidido ganar dinero apostando entre ellos. Su objetivo: acertar el resultado de una moneda, un dado y una ruleta. Si uno de ellos apuesta a sol, nmero primo y nmero par, respectivamente, cul es la probabilidad de que gane? Analicemos primero los espacios muestrales de dichos fenmenos y la probabilidad de tales eventos:
MONEDA
# = 2
#S =1
Aparece sol
P(S ) = 1
25
# = 6
#R = 4
P ( R) = 4
0,1, 2, 3, 4, 5, 6, 7,8, 9,10,11,12,13,14,15,16,17,18,19, 20, = 21, 22, 23, 24, 25, 26, 27, 28, 29, 30,31, 32,33, 34, 35, 36
Cae nmero par
# = 37
A = {2, 4, 6,8,10,12,14,16,18, 20, 22, 24, 26, 28, 30, 32, 34, 36}
Dado que los resultados de estos juegos son independientes:
# A = 18
P ( A ) = 18
37
P ( G ) = P ( R S A) P ( G ) = P ( R ) P ( S ) P ( A) 1 4 18 72 P ( G ) = = = 0.1622 2 6 37 444
La probabilidad de que esa persona gane es de 16.22% 6. Cambiando de tema, en una muestra de la Ciudad de Mxico se obtuvo que la distribucin de grupos sanguneos es la siguiente: GRUPO A B AB O PORCENTAJE 20.00% 8.00% 1.00% 71.00%
Calcular la probabilidad de que una persona X pueda recibir sangre de una persona Y (ambas elegidas al azar), a sabiendas de las siguientes limitaciones: SANGRE A B AB O PUEDE RECIBIR DONACINES DE: AyO ByO A, B, AB y O O
26
( P ( A ) P ( A ) ) + ( P ( A ) P ( O ) ) + ( P ( B ) P ( B ) ) + ( P ( B ) P ( O ) ) + ( P ( AB ) P ( A ) ) P ( D) = + ( P ( AB ) P ( B ) ) + ( P ( AB ) P ( AB ) ) + ( P ( AB ) P ( O ) ) + ( P ( O ) P ( O ) ) P ( A )2 + ( P ( A ) P ( O ) ) + P ( B )2 + ( P ( B ) P ( O ) ) + ( P ( AB ) P ( A ) ) P ( D) = 2 2 + ( P ( AB ) P ( B ) ) + P ( AB ) + ( P ( AB ) P ( O ) ) + P ( O )
) )
( 0.2 )2 + ( ( 0.2 ) ( 0.71) ) + ( 0.08 )2 + ( ( 0.08 ) ( 0.71) ) + ( ( 0.01) ( 0.2 ) ) P ( D) = 2 2 + ( ( 0.01) ( 0.08 ) ) + ( 0.01) + ( ( 0.01) ( 0.71) ) + ( 0.71)
P ( D ) = [ 0.0400 + 0.1420 + 0.0064 + 0.0568 + 0.0020 + 0.0008 + 0.0001 + 0.0071 + 0.5041] P ( D ) = 0.7593 La probabilidad de que una persona X pueda recibir sangre de una persona Y (siendo ambas elegidas al azar) es de 75.93%.
7. Revisemos por ltimo el caso de una familia mexicana que, a fin de llevar a cabo una planificacin familiar, ha decidido tener descendientes hasta que nazca la primer nia; claro est, con un mximo de cinco retoos. De acuerdo al INEGI la probabilidad de que el recin nacido sea hombre es de 0.507, mientras que la probabilidad de que nazca una mujer es de 0.493. Suponiendo que dichos eventos son independientes, calcular las siguientes probabilidades: a) Cul es la probabilidad de que finalmente haya ms nios que nias? b) Si el primer hijo es varn, cul es la probabilidad de que finalmente tengan tres hijos en total? Como siempre, definamos primero el espacio muestral del fenmeno:
= {( F ) , ( M , F ) , ( M , M , F ) , ( M , M , M , F ) , ( M , M , M , M , F ) , ( M , M , M , M , M )}
a) Cul es la probabilidad de que finalmente haya ms nios que nias?
27
O = {( M , M , F ) , ( M , M , M , F ) , ( M , M , M , M , F ) , ( M , M , M , M , M )} P (O ) = P (( M , M , F ) ( M , M , M , F ) ( M , M , M , M , F ) ( M , M , M , M , M )) P ( O ) = P ( M , M , F ) + P ( M , M , M , F ) + P ( M , M , M , M , F ) + P ( M , M , M , M , M ) ( P ( M ) P ( M ) P ( F )) + ( P ( M ) P ( M ) P ( M ) P ( F )) P (O ) = + ( P ( M ) P ( M ) P ( M ) P ( M ) P ( F ) ) + ( P ( M ) P ( M ) P ( M ) P ( M ) P ( M ) )
( 0.507 0.507 0.493) + ( 0.507 0.507 0.507 0.493) P (O ) = + ( 0.507 0.507 0.507 0.507 0.493) + ( 0.507 0.507 0.507 0.507 0.507 )
2 3 4 5 P ( O ) = ( 0.507 ) 0.493 + ( 0.507 ) 0.493 + ( 0.507 ) 0.493 + ( 0.507 )
( (
) ( ) (
) ( ) (
) ( ) (
) )
P ( O ) = ( 0.257 0.493) + ( 0.130 0.493) + ( 0.066 0.493) + ( 0.033) P ( O ) = ( 0.127 ) + ( 0.064 ) + ( 0.033) + ( 0.033) = 0.257
La probabilidad de que esta familia tenga ms nios que nias es de 25.7%. b) Si el primer hijo es varn, cul es la probabilidad de que finalmente tengan tres hijos en total?
P (T ) = P ( ( M , M , F ) M ) =
P (( M , M , F ) M ) P(M )
P (( M , M , F )) P(M )
La probabilidad de que, dado que el prime hijo es varn, la familia tenga finalmente tres hijos es de 25.00% Ley de probabilidad total y teorema de Bayes Veamos por ltimo otro par de formas para analizar la probabilidad de eventos relacionados: 1) la ley de probabilidad total, que tomando en cuenta la probabilidad de todas las causas posibles, permite determinar la probabilidad de un evento consecuencia y 2) el teorema de Bayes, que habiendo observado un evento consecuencia, hace posible deducir la probabilidad de los diferentes eventos causantes.
28
({ B }
i i =1...k
diferentes al vaco,
( B1 B2 B3 ... Bk ) = ( B1 B2 B3 ... Bk ) = Bi =
i =1 k
k P ( B1 B2 B3 ... Bk ) = P Bi = P ( ) i =1 P ( B1 ) + P ( B2 ) + P ( B3 ) + ... + P ( Bi ) = 1
( A)
( A ) = A ( A ) =
Si los eventos ajenos ( Bi ) tienen partes en comn con A , dicho evento cualquiera, su tamao y probabilidad pueden ser descritos de la siguiente manera:
29
P ( A Bi ) =
Podemos afirmar que:
P ( A Bi ) P ( A Bi ) = P ( A Bi ) P ( Bi ) P ( Bi )
P ( A ) = P ( A B1 ) P ( B1 ) + P ( A B2 ) P ( B2 ) + P ( A B3 ) P ( B3 ) + ... + P ( A Bk ) P ( Bk )
Expresin que, al ser resumida, da origen a la ley de probabilidad total:
k P ( A) = P A B j P ( B j ) j =1
Como su nombre lo dice, dicha ley permite calcular la probabilidad total de un evento cualquiera ( A ) tomando en cuenta su probabilidad condicional P A B , as como
Gracias a ello, la ley de probabilidad total permite determinar la contribucin de cada uno de los posibles eventos causa ( Bi ) a la probabilidad de un evento consecuencia ( A ) . Teorema de Bayes Sabiendo que:
P ( A Bj ) = P A Bj P ( Bj )
Podemos considerar a la probabilidad condicional como:
P ( B j A) =
P ( A Bj ) P ( A)
P A Bj P ( Bj ) P ( A)
Empero, si un fenmeno cumple con las condiciones para que la ley de probabilidad total se verifique:
k P ( A) = P A B j P ( B j ) j =1
P ( B j A) =
P A Bj P ( Bj ) P ( A)
P A Bj P ( Bj )
P( A B ) P(B )
k i =1 j j
30
TEOREMA DE BAYES
P( A B ) P(B )
k i =1 j j
Que, al suponer que la probabilidad de ocurrencia del evento A es distinta segn el suceso Bi que haya ocurrido, permite determinar la probabilidad de las causas a partir del efecto observado. Ejemplos de aplicacin 1. Defina, en abstracto, los elementos necesarios para desarrollar la ley de probabilidad total y el teorema de Bayes en un fenmeno cuyo espacio muestral est compuesto por slo dos eventos ajenos:
= ( B Bc )
Dado que slo hay dos eventos causa, la probabilidad total del evento consecuencia conlleva dos sumandos donde lo que cambia en la probabilidad condicional y en la individual es el evento ajeno que se utiliza: LEY DE PROBABILIDAD TOTAL APLICACIN
k P ( A) = P A B j P ( B j ) j =1 P ( A) = P ( A B ) P ( B ) + P A Bc P ( Bc )
En lo que respecta al teorema de Bayes hay dos expresiones posibles: una para calcular la probabilidad de cada causa, y aunque los denominadores son iguales entre ellos e iguales a la expresin para la ley de probabilidad total, el numerador difiere de nuevo en el evento ajeno que se busca:
TEOREMA DE BAYES
APLICACIN
P( A B ) P(B ) P ( A B) P ( B) P ( B A) = P ( A B) P ( B) + P ( A B ) P ( B )
k i =1 j j
P ( B j A) =
P A Bj P ( Bj )
31
P ( B A) =
c
P ( A B ) P ( B ) + P A Bc P ( Bc )
P A Bc P ( Bc )
2. Supongamos que en la ENAH, la estatura del 8.0% de los hombres y del 1.0% de las mujeres es mayor de 1.75 metros ( E ) . Si el 60.0% de los estudiantes son mujeres y se selecciona un alumno cuya estatura es mayor de 1.75 m.: cul es la probabilidad de que el estudiante sea: a) mujer ( M ) ? b) hombre ( H ) ?
Vemos primero los datos que nos aporta el problema: DATOS Probabilidad de que el alumno mida P E H = 0.08 ms de 1.75 m. dado que es hombre: Probabilidad de que el alumno mida P E M = 0.01 ms de 1.75 m. dado que es mujer: Probabilidad de que el alumno sea P ( M ) = 0.60 mujer: Se infiere la probabilidad de que el P H = P M c = 1 P M = 1 0.60 = 0.40 ( ) ( ) alumno sea hombre:
( (
) )
( )
Al buscar la probabilidad condicional inversa (de que el estudiante sea hombre o mujer dado que mide ms de 1.75m.) aplicamos el teorema de Bayes:
TEOREMA DE BAYES
P ( B j A) =
P A Bj P ( Bj )
P( A B ) P(B )
k i =1 j j
a) Sea mujer:
P(M E) = P(M E) =
P(E M ) P(M )
La probabilidad de que el estudiante de ms de 1.75 metros escogido al azar sea mujer es de 15.79%. a) Sea hombre:
P(H E) = P(H E) =
P(E H ) P(H )
Dicho resultado tambin puede alcanzarse por evento complemento gracias a que el fenmeno posee slo dos eventos ajenos:
P ( H E ) = P ( M c E ) = 1 P ( M E ) = 1 0.1579 = 0.8421
32
TEOREMA DE BAYES
P ( B j A) =
P A Bj P ( Bj )
P( A B ) P(B )
k i =1 j j
P( E | +) = P( E | +) =
La probabilidad de que el sujeto est realmente enfermo dado que la prueba dio positivo es de 33.22%.
33
P( E c | +) = P( E c | +) =
P( E | + ) = 1 P( E | + ) = 1 0.3322 = 0.6678
c
La probabilidad de que la persona no est enferma, aunque la prueba haya resultado positiva, es de 66.78%. Es decir, la probabilidad de un falso positivo es bastante alta y debera buscarse una forma de confirmar el resultado de la prueba. c) el individuo padezca la enfermedad, pese a que la prueba sea negativa?
P( E | + c ) = P( E | + c ) =
La probabilidad de que el individuo padezca la enfermedad, pese a un resultado negativo en la prueba, es de 0.005%. Por lo cual podemos afirmar que la probabilidad de un falso negativo es muy pequea. d) el sujeto no est enfermo, pues la prueba sali negativa?
P ( E c | + c ) = 1 P ( E | + c ) = 1 0.00005 = 0.99995
La probabilidad de que el sujeto no est enfermo dado que la prueba sali negativa es de 99.99%. 4. Digamos que una poblacin est conformada por tres grupos tnicos
= ( X , Y , Z ) en la siguiente proporcin: 0.30, 0.10 y 0.60. Si el porcentaje de personas con ojos claros ( C ) en cada grupo es, respectivamente, de 20%, 40% y 5%,
calcular la probabilidad de que: a) Un sujeto de dicha comunidad entrevistado al azar tenga los ojos claros. b) Un individuo de esa comunidad (elegido al azar) tenga los ojos oscuros y sea del grupo X. c) La persona seleccionada sea de uno de los tres grupos, si tiene los ojos claros. DATOS Probabilidad de que el sujeto pertenezca al grupo X: Probabilidad de que el sujeto pertenezca al grupo Y: Probabilidad de que el sujeto pertenezca al grupo Z: Probabilidad de que tenga los ojos claros, dado que pertenece al grupo X:
P ( X ) = 0.3 P (Y ) = 0.1
P( Z ) = 0.6
P (C | X ) = 0.2
34
Para contestar el primer inciso requerimos la probabilidad total del evento ojos claros, por ende aplicamos la ley de probabilidad total:
k P ( A) = P A B j P ( B j ) j =1
P ( C ) = P ( C X ) P ( X ) + P ( C Y ) P (Y ) + P ( C Z ) P ( Z )
P ( C c ) = 1 P ( C ) = 1 0.1300 = 0.8700
La probabilidad de que el sujeto tenga los ojos oscuros es de 87.00%. Ahora bien, como el problema nos especifica la probabilidad de que un individuo tenga los ojos claros y sea del grupo X, basta calcular el evento complemento para asignar la siguiente probabilidad: b) Un individuo de esa comunidad (elegido al azar) tenga los ojos oscuros y sea del grupo X:
P( X | C ) = P(Y | C ) = P(Z | C ) =
P(C | X ) P ( X ) ( 0.2 )( 0.3) = = 0.4615 P(C ) ( 0.13) P(C | Y ) P(Y ) ( 0.4 )( 0.1) = = 0.3077 P(C ) ( 0.13)
La probabilidad de que una persona sea del grupo X, Y o Z es, respectivamente: 46.15%, 30.77% y 23.08%. Por tanto, es ms probable que una persona de ojos claros sea del grupo X.
35
3. VARIABLES ALEATORIAS
Una variable aleatoria es una caracterstica en la cual los valores que toma dependen de los resultados de un fenmeno aleatorio. Las variables aleatorias pueden ser slo de dos clases: 1. Discretas: Si la variable aleatoria tiene un nmero finito de valores posibles. 2. Continuas: Si existe un nmero infinito de valores posibles para dicha variable. Por ejemplo: FENMENO Se lanza una moneda
= {guila,sol}
VARIABLE ALEATORIA (discreta) Sea X la variable aleatoria discreta que toma los siguientes valores: X = 0,1
= {mujer,hombre}
VARIABLE ALEATORIA (discreta) Sea X la variable aleatoria discreta que toma los siguientes valores: X = 0,1
X = 0 si es mujer, 1 si es hombre
Caracterizacin de una variable aleatoria discreta Funcin de distribucin de probabilidades Se denomina funcin de probabiidades a la tabla donde se especifican todos los valores que la variable aleatoria discreta puede tomar, as como sus correspondientes probabilidades (cuya suma siempre es igual a uno P ( x ) = 1 ).
Dichos valores pueden ser adems representados mediante una grfica de distribucin de probabilidad, en cuyos ejes ( X , Y ) se ubican los valores de la variable y sus valores de probabilidad, respectivamente; razn por la cual, a diferencia del eje Y , el eje X s puede tomar valores negativos. Siguiendo con los ejemplos, su tabla y grfica distribucin de probabilidades seran: FUNCIN LANZAMIENTO DE UNA MONEDA GRFICA
Grfica de distribucin de probabilidades
1.0
P ( x)
x=0
x =1
P ( x = 0 ) = 0.5 P ( x = 1) = 0.5
36
TOTAL
P ( x ) = P ( x = 0 ) +P ( x = 1) P ( x ) = 0.5 + 0.5 P ( x) = 1
NACIMIENTO DE UN BEB FUNCIN
x x=0 x =1
P ( x)
0.510
GRFICA
Grfica de distribucin de probabilidades
P ( x = 0 ) = 0.493 P ( x = 1) = 0.507
0.505
TOTAL
P ( x ) = P ( x = 0 ) +P ( x = 1) P ( x ) = 0.493 + 0.507 P ( x) = 1
P(x)
0.500
0.495
0.490 -5 -4 -3 -2 -1 0 1 2 3 4 5
Esperanza matemtica: promedio o valor esperado Ahora bien, la esperanza de una variable aleatoria discreta es el promedio de los valores de X que toma en cuenta la probabilidad de que stos ocurran. Por ello es que, a fin de calcular la esperanza de una variable aleatoria, sus valores deben ponderarse de acuerdo a sus probabilidades. Para el caso de la moneda: LANZAMIENTO DE UNA MONEDA
x= x=
0 +1 1 = = 0.5 2 2
0 +1 0 1 1 = + = = 0.5 2 2 2 2
Lo cual es igual a:
x=
0 +1 0 1 1 1 1 = + = 0 + 1 = = 0.5 2 2 2 2 2 2
De ah que, para obtener el promedio, podemos multiplicar el valor de X por su probabilidad: NACIMIENTO DE UN BEB ESPERANZA
37
E ( x ) = x = x P ( x )
x
E ( x ) = x = x P ( x ) E ( x) = x P ( x)
1
ESPERANZA
x =0
E ( x ) = x = x P ( x ) E ( x) = x P ( x)
1
ESPERANZA
x =0
s =
2
(x
i =1
x)
n 1
Var ( x ) = E x E ( x )
Var ( x ) = E ( x 2 ) E ( x )
Donde: E x 2 =
( ) x
x
P ( x)
38
Var ( x ) = E ( x 2 ) E ( x )
E ( x2 ) = x2 P ( x ) E ( x2 ) = x2 P ( x )
1
E(x
E(x
2
) = 0 ( 0.5) + 1 ( 0.5)
2 2 2 2
x =0
E ( x )
VARIANZA
VARIANZA
Var ( x ) = E ( x 2 ) E ( x )
E ( x2 ) = x2 P ( x )
x
E(x
E ( x2 ) = x2 P ( x )
1
E(x
2
) = 0 ( 0.493) + 1 ( 0.507 )
2 2 2 2
x =0
E ( x )
VARIANZA
Recapitulando, se dice que se conoce una variable aleatoria (cuyo valor est sometido al azar y recibe una asignacin numrica en el contexto de los resultados de un fenmeno aleatorio) si se le caracteriza mediante: 1. Su funcin de probabilidades P ( x ) , donde 2. Su esperanza E ( x ) =
P(x ) = 1 .
x
x P(x ) .
x
( )
( ) x
x
P ( x) .
Ejemplos de aplicacin 1. Se tiran dos dados no trucados. Sea X la variable aleatoria que denota los valores resultantes de: a) La suma de sus puntos. b) La resta de sus puntos. c) El producto de sus puntos.
39
(1,1), (1,2 ), (1,3), (1,4 ), (1,5), (1,6 ), (2,1), (2,2 ), (2,3), (2,4 ), (2,5), (2,6 ), = (3,1), (3,2 ), (3,3), (3,4 ), (3,5), (3,6 ), (4,1), (4,2 ), (4,3), (4,4 ), (4,5), (4,6 ), (5,1), (5,2 ), (5,3), (5,4 ), (5,5), (5,6 ), (6,1), (6,2 ), (6,3), (6,4 ), (6,5), (6,6 ),
# = 36
Ahora, para resolver el primer inciso, observemos los valores que toma la variable aleatoria: X = Suma de puntos de dos dados. Puntos muestrales Valor de X (1,1) 2 (1,2), (2,1) 3 (1,3), (2,2), (3,1) 4 (1,4), (2,3), (3,2), (4,1) 5 (1,5), (2,4), (3,3), (4,2), (5,1) 6 (1,6), (2,5), (3,4), (4,3), (5,2), (6,1) 7 (2,6), (3,5), (4,4), (5,3), (6,2) 8 (3,6), (4,5), (5,4), (6,3) 9 (4,6), (5,5), (6,4) 10 (5,6), (6,5) 11 (6,6) 12 TOTAL No. de eventos 1 2 3 4 5 6 5 4 3 2 1 36
Hecho esto, podemos construir ya su tabla y grfica de funcin de probabilidades: 2 1/36 3 2/36 P(x) para X = Suma de puntos de dos dados. 4 5 6 7 8 9 10 11 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 12 1/36
x P(x )
36/36 =1
40
E ( x) = x P ( x)
x=2
12
1 2 3 4 5 6 2 36 + 3 36 + 4 36 + 5 36 + 6 36 + 7 36 E ( x) = 5 4 3 2 1 +8 + 9 + 10 + 11 + 12 36 36 36 36 36 E ( x) = 2 + 6 + 12 + 20 + 30 + 42 + 40 + 36 + 30 + 22 + 12 252 = =7 36 36
E ( x2 ) = x2 P ( x )
12 x=2
E ( x2 ) = E ( x )
2
1974 = 54.83 36
2 2
Claro est que tanta operacin no sirve de nada si los resultados no son adecuadamente interpretados: CONCLUSIONES: X = Suma de puntos de dos dados. a) A partir de todo lo anterior comprendemos que, de los treinta y seis resultados posibles, su suma puede tomar 11 valores, siendo el mnimo 2 y el mximo 12.
41
x -5 -4 -3 -2 -1 0 1 2 3 4 5 2 25 16 9 4 1 0 1 4 9 16 25 36/36 x =1 P( x ) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
x P ( x)
1 2 3 4 5 6 5 36 + 4 36 + 3 36 + 2 36 + 1 36 + 0 36 E ( x) = 5 4 3 2 1 +1 + 2 + 3 + 4 + 5 36 36 36 36 36 E ( x) =
( 5) + ( 8) + ( 9 ) + ( 8) + ( 5) + 0 + 5 + 8 + 9 + 8 + 5 =
36
0 =0 36
42
E ( x2 ) = x2 P ( x )
12 x=2
E ( x2 )
1 2 3 4 5 6 25 36 + 16 36 + 9 36 + 4 36 + 1 36 + 0 36 E ( x2 ) = 5 4 3 2 1 +1 + 4 + 9 + 16 + 25 36 36 36 36 36 E ( x2 ) =
25 + 32 + 27 + 16 + 5 + 0 + 5 + 16 + 27 + 32 + 25 36
E ( x2 ) = E ( x )
2
2
210 = 5.83 36
2
E ( x ) = ( 0 ) = 0
CONCLUSIONES: X = Resta de puntos de dos dados. b) De los treinta y seis resultados posibles, su resta puede tomar 11 valores (el mnimo -5 y el mximo 5). Si bien existe una variabilidad de 5.83 en los valores posibles, el valor esperado en la repeticin del ensayo es 0. P(x) de X = Producto de puntos de dos dados. x Puntos muestrales No. de eventos x2 (1,1) 1 1 1 (1,2), (2,1) 4 2 2 (1,3), (3,1) 9 2 3 (1,4), (2,2), (4,1) 16 3 4 (1,5), (5,1) 25 2 5 (1,6), (2,3), (3,2), (6,1) 36 4 6 (2,4), (4,2) 64 2 8 (3,3) 81 1 9 (2,5), (5,2) 100 2 10 (2,6), (3,4), (4,3), (6,2) 144 4 12 (3,5), (5,3) 225 2 15 (4,4) 256 1 16 (3,6), (6,3) 324 2 18 (4,5), (5,4) 400 2 20 (4,6), (6,4) 576 2 24 (5,5) 625 1 25 (5,6), (6,5) 900 2 30 (6,6) 1296 1 36 TOTAL 36
P(x) 1/36 2/36 2/36 3/36 2/36 4/36 2/36 1/36 2/36 4/36 2/36 1/36 2/36 2/36 2/36 1/36 2/36 1/36 36/36=1
43
E ( x) = x P ( x)
x =1
36
44
E ( x2 ) = x2 P ( x )
36 x =1
E ( x2 )
1 2 2 3 2 4 2 1 36 + 4 36 + 9 36 + 16 36 + 25 36 + 36 36 + 64 36 1 2 4 2 1 2 E ( x 2 ) = +81 + 100 + 144 + 225 + 256 + 324 36 36 36 36 36 36 1 2 1 2 2 +400 + 576 + 625 + 900 + 1296 36 36 36 36 36 1 + 8 + 18 + 48 + 50 + 144 + 128 + 81 + 200 + 576 +450 + 256 + 648 + 800 + 1152 + 625 + 1800 + 1296 2 E(x ) = 36 E ( x2 ) = 8281 = 230.03 36
2
E ( x )
E ( x ) = (11.58 ) = 134.10
2
CONCLUSIONES: X = Producto de puntos de dos dados. c) De los treinta y seis resultados posibles, su producto puede tomar 18 valores (el mnimo 1 y el mximo 36). El valor esperado es, no obstante, 11.58, con una varianza de 95.93. 2. Se lanzan una moneda y un dado. Sea X = 0 si la moneda cae sol y X = 1 si cae guila. Asimismo, sea Y = # de puntos obtenidos al tirar el dado. Caractercese entonces a la variable aleatoria W , definida como W = X + Y . Si:
X = {0,1}
Y = { ,2,3,4,5,6} 1
W = X +Y
x x2 P(x )
45
E ( w) = w P ( w)
w =1
1 2 2 2 2 2 1 E ( w ) = 1 + 2 + 3 + 4 + 5 + 6 + 7 12 12 12 12 12 12 12 E ( w) = 1 + 4 + 6 + 8 + 10 + 12 + 7 12 E ( w) = 48 =4 12
VARIANZA: W = Suma del resultado de una moneda y un dado lanzados Elementos que la componen
E ( w 2 ) = w2 P ( w )
7 w =1
E ( w2 )
1 2 2 2 2 2 1 E ( w2 ) = 1 + 4 + 9 + 16 + 25 + 36 + 49 12 12 12 12 12 12 12 E ( w2 ) = 1 + 8 + 18 + 32 + 50 + 72 + 49 12 230 = 19.17 12
2
E ( w2 ) =
E ( w)
E ( w ) = ( 4 ) = 16
2
46
2. Escribe las propiedades de probabilidad 3. Se lanza una moneda y se observa si es sol o guila. Si resulta sol, la moneda se lanza por segunda ocasin. Si resulta guila se tira un dado. a) Escribe el espacio muestral para este experimento b) Cul es la probabilidad de que en la segunda parte de este experimento se lance un dado? 4. Determinar la probabilidad para cada uno de los siguientes eventos a) La aparicin de un nmero impar en una tirada de un dado. b) La aparicin de un sol en dos lanzamientos de una moneda. c) La aparicin de un as, o el diez de diamantes, o el dos de corazones en una extraccin de una baraja de 52 cartas. d) La obtencin de 7 puntos en una tirada de un par de dados. e) La aparicin de sol en el siguiente lanzamiento de una moneda, si en 100 lanzamientos previos aparecieron 56 guilas. 5. Determinar si cada una de las siguientes parejas de eventos son o no mutuamente excluyentes (ajenos): a) Se tiran cinco monedas: se observa un sol; se observa al menos un sol b) Un antroplogo fsico toma la estatura de una persona: la estatura es superior a 165 cm.; la estatura es mayor de 175 cm. c) Un estudiante es seleccionado en la ENAH: la persona elegida es hombre; la persona elegida es mayor de 21 aos. d) Se lanzan dos dados. El total de puntos obtenidos es: d.1) menor que 7; mayor que 9 d.2) es par; es impar d.3) siete; nueve 6. Supngase que el 80% de todos los capitalinos que vacacionan en alguna playa visitan Acapulco, 80% visitan Veracruz y 70% visitan tanto Acapulco como Veracruz. a) Cul es la probabilidad de que un turista capitalino vacacione en Acapulco o Veracruz? b) Cul es la probabilidad de que el turista no visite ninguna de estas ciudades? 7. Determine si las siguientes parejas de eventos son independientes o no:
47
a) Lanzar un par de dados y observar un punto en el primer dado y un punto en el segundo dado. b) Ser propietario de un automvil rojo y tener el cabello rubio. c) Ser propietario de un automvil rojo y sufrir una picadura de llanta. d) Estudiar para un examen y aprobarlo. 8. Si p(A)=0.3, p(B)=0.4 y si A y B son eventos independientes, cul es el valor de cada una de las siguientes probabilidades? a) p(AB) b) p(A|B) c) p(B|A) 9. Si p(A)=0.3, p(B)=0.5 y p(AB)=0.15, calcular: a) p(A|B) b) p(B|A) c)son independientes A y B? 10. Si p(A)=0.4, p(B)=0.7 y p(AB)=0.22, calcular: a) p(A|B) b) p(B|A) c)son independientes A y B? 11. En la siguiente tabla se presentan los resultados de una encuesta durante una investigacin para estudiar las opiniones de los habitantes de cierta ciudad respecto a la legalizacin del aborto. Los datos estn clasificados de acuerdo con el rea en la que fue aplicada la entrevista. Si un cuestionario es elegido aleatoriamente, I. cul es la probabilidad de que: a) El entrevistado vote a favor de la legalizacin del aborto? b) El entrevistado vote en contra de la legalizacin? c) El entrevistado se abstenga? d) Que el entrevistado viva en el rea A? B? C? D? E? e) El entrevistado vote a favor de la legalizacin del aborto dado que vive en el rea B? II) Calcular las siguientes probabilidades a) P(AR) b)P(QR) c) P(D) d) P(Q|D) e)P(B|R) f)P(R) g)P(A) h)P(FE) i)P(R|A) j) P(FQR) k)P(BE)
rea de la ciudad A favor (F) 100 A 115 B 50 D 35 E En contra (Q) 20 5 60 50 Indecisos (R) 5 5 15 125
12. Por descuido se colocan dos pastillas para el resfriado en un frasco que contiene dos aspirinas. Las cuatro pastillas son idnticas en apariencia. Del frasco se selecciona una tableta al azar y se le administra al primer paciente. De las tres tabletas restantes se selecciona una al azar y se administra al segundo paciente. a) Escribir el espacio muestral Calcula la probabilidad de que: b) El primer paciente tom una pastilla para el resfriado c) Uno de los dos pacientes tom una tableta para el resfriado d) Ningn paciente tom una tableta contra el resfriado 13. Supngase que la Cd. de Mxico se divide en tres zonas A, B y C de acuerdo al nivel de contaminacin. El 50% de la poblacin vive en la zona A, el 40% en B y el resto en C. El nivel de contaminacin influye en la incidencia de cierta enfermedad pulmonar, dicha enfermedad afecta a 10 de cada 100 personas que viven en A, mientras que slo afecta a 1 de cada 100 de los que viven en B y a 5 de cada 1000 de los que viven en C. Calcular:
48
a) La probabilidad de que una persona elegida al azar sufra la enfermedad y viva en la zona A. b) La probabilidad de que una persona elegida al azar viva en la zona B sabiendo que est afectada por dicha enfermedad. 14. Una prueba sangunea para detectar hepatitis tiene los siguientes niveles de precisin: si el individuo tiene hepatitis, la prueba da positivo con probabilidad 0.9, mientras que en el 99% de los individuos sin hepatitis la prueba da negativo. a) La tasa de incidencia de la enfermedad en la poblacin estudiada es de un enfermo por cada 10,000 personas. Calcular la probabilidad de que un individuo que ha dado positivo en la prueba tenga hepatitis. b) Un individuo es enviado a hacerse la prueba porque tiene prdida de apetito e ictericia. El mdico sabe que el 50% de los individuos con dichos sntomas presentan hepatitis. Si la prueba da positivo, cul es la probabilidad de que el paciente tenga hepatitis? 15. Una variable aleatoria x puede asumir cinco valores: 0, 1,2 3 y 4. Se muestra enseguida una parte de de la distribucin de probabilidad: 0 1 2 3 4 x p(x) 0.1 0.3 0.3 ? 0.05 a) Encuentra p(3) b) Realiza una grfica de probabilidad para describir p(x) c) Calcula esperanza y varianza d) Cul es la probabilidad de que x sea mayor de 2? e) Cul es la probabilidad de que x sea 3 o menos? 16. Verifique si las siguientes expresiones son o no funciones de probabilidad: 5 x a) p ( x) = para x=1,2,3,4 10 x2 1 para x=1,2,3,4 b) p( x) = 50 17. Sea X la variable aleatoria que representa el nmero de nios varones en familias de tres hijos, sabiendo que la probabilidad de que nazca un nio varn es de 0.45: a) Encontrar la funcin de distribucin de probabilidades. b) Graficar la funcin de probabilidad c) Calcular Esperanza y Varianza.
49
UNIDAD II
4. FUNCIONES DE DISTRIBUCIN DE PROBABILIDAD
Introduccin
A fin de explicar las variables aleatorias y su caracterizacin, en el captulo anterior vimos el ejemplo del nacimiento de un beb: FENMENO: Nacimiento de un beb
= {mujer,hombre}
x
x=0 x =1
TOTAL
P ( x)
P ( x = 0 ) = 0.493 P ( x = 1) = 0.507
P ( x ) = P ( x = 0 ) +P ( x = 1) P ( x ) = 0.493 + 0.507 P ( x) = 1
P ( x ) = 0.493x ( 0.507 )
1 x
; x = 0,1
Puesto que, si le sustituimos con los valores de la variable aleatoria, tambin obtenemos la probabilidad correspondiente a cada valor de X :
P ( x = 0 ) = 0.4930 ( 0.507 )
1 0
P ( x = 1) = 0.4931 ( 0.507 )
Porque
11
a0 = 1
a1 = a
Ahora bien, igual que en este caso, la funcin de probabilidades de todas las variables aleatorias dicotmicas (que toman dos valores: 0 y 1), puede expresarse a travs del siguiente modelo:
P(x p ) = p x (1 p ) ; x = 0,1
1 x
De hecho, el estudio de muchos fenmenos ha permitido formular modelos tericos para determinar la funcin de probabilidad, la esperanza y la varianza de muchos tipos de variables aleatorias (discretas y continuas). Los que veremos a continuacin son slo algunos, pero deber recordarse que cada uno est fundamentado en un criterio; motivo por el cual se afirmar que cada variable posee un tipo de distribucin con cierto parmetro. Por ejemplo: A~B(C) La variable A posee una distribucin B con parmetro C.
50
X ~ Be ( p )
Cuando la variable aleatoria de un fenmeno tiene slo dos resultados posibles mutuamente excluyentes (0 y 1) y se realiza un ensayo, se designa arbitrariamente xito1 a la aparicin de la caracterstica de inters y fracaso a la ausencia de dicha caracterstica. Por convencin, el valor de la variable aleatoria en el xito es 1 y su probabilidad es p, mientras que su valor en el fracaso es 0 y su probabilidad es q, que (al ser eventos ajenos) es igual a 1-p. Dicho esto podemos afirmar que las variables aleatorias discretas que cumplen con tales condiciones tienen una distribucin de probabilidad Bernoulli con parmetro p : Variable aleatoria: Valores y probabilidades: Distribucin de probabilidad
X = {0,1} P ( x = 1) = p P ( x = 0) = q = 1 p X ~ Be ( p )
P(x p ) = p x (1 p ) ; x = 0,1
1 x
P ( x = 0 ) = p 0 (1 p )
Porque:
1
1 0
= 1(1 p ) = 1(1 p ) = 1 p
1
P ( x = 1) = p1 (1 p )
x =0
11
= p (1 p ) = p (1) = p
0
P ( x ) =P ( x = 0 ) + P ( x = 1) = (1 p ) + p = 1
Esperanza Si el valor esperado de una variable aleatoria discreta cualquiera es:
E ( x) = x P ( x)
x
El valor esperado de una variable aleatoria discreta con distribucin Bernoulli es:
E ( x p ) = x P ( x ) = 0 (1 p ) + 1( p ) = p
x =0
Var ( x ) = E x 2 [E ( x )]
( )
Debemos remarcar que esta asignacin es arbitraria y no tiene ninguna connotacin positiva. Baste el ejemplo de los estudios de mortalidad, en que el xito es igual a la muerte de un individuo.
51
Var ( x ) = E x 2 [ p ]
( )
E ( x2 p ) = x2 P ( x ) E ( x p ) = 0 (1 p ) + 12 ( p )
2 2 x =0
E ( x 2 p ) = 0 (1 p ) + 1( p ) E ( x2 p ) = p
Por ende, la varianza de una variable aleatoria discreta con distribucin Bernoulli se puede calcular como:
Var ( x ) = p [ p ] = p p 2 = p (1 p )
2
En resumen, para calcular las probabilidades de una variable discreta dicotmica en un ensayo podemos utilizar el modelo de distribucin de probabilidad Bernoulli (basado en el parmetro p ):
E (x ) = p Var( x ) = p(1 p )
P(x p ) = p x (1 p ) ; x = 0,1
1 x
X ~ Be ( p )
Realicemos ahora unos cuantos ejemplos: Ejemplos de aplicacin 1. Por se materia curricular, todos los alumnos de antropologa fsica cursan la materia de estadstica, pero se sabe que slo el 85% de ellos aprueban. Angustiado, un estudiante le pide ayuda para comprender cmo se comporta dicha variable. Dado que la calificacin (aprobatoria o no) es una variable dicotmica, podemos utilizar el modelo de distribucin Bernoulli para caracterizarle, suponiendo que aprobar es XITO ( x = 1) y reprobar es FRACASO ( x = 0 ) : = P(x = 1) = p = 0.85 TIPO DE X ~ Be ( p ) X ~ Be ( p = 0.85) VARIABLE FUNCIN DE PROBABILIDAD Aprobar = XITO CARACTERIZACIN Reprobar = FRACASO P( x = 0) = 1 p = 1 0.85 = 0.15 =
P ( x p ) = p x (1 p )
1 x
; x = 0,1
1 x
; x = 0,1
52
E ( x) = p E ( x ) = 0.85
VARIANZA
Aprobar o no la clase de estadstica es una variable con distribucin Bernoulli, con un valor esperado de 0.85 y una varianza de 0.1275. 2. Expertos consideran que la probabilidad de que Mxico pase a la final de la prxima Copa Amrica es del 20%. Caracterice la variable (considerando un xito el que nuestra seleccin pase) para definir la variabilidad de este resultado. CARACTERIZACIN Pase = XITO No pase = FRACASO = P(x = 1) = p = 0.20 = P( x = 0) = 1 p = 1 0.20 = 0.80 TIPO DE VARIABLE FUNCIN DE PROBABILIDAD ESPERANZA
X ~ Be ( p = 0.20 )
VARIANZA El pase de Mxico a la final de la Copa Amrica es una variable con distribucin Bernoulli, con una verdadera esperanza de 0.20 y una variabilidad de 0.1600. 3. Si se contesta al azar una pregunta con tres opciones, la probabilidad de elegir la respuesta adecuada es de 1/3, y se considera al acierto como xito, cmo se comporta esta variable?: CARACTERIZACIN Acertar = XITO Errar = FRACASO = P ( x = 1) = p = 1 3 = P ( x = 0) = 1 p = 1 1 3 = 2 3 TIPO DE VARIABLE FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA
1 x
; x = 0,1
X ~ Be ( p = 1 3) P ( x p = 1 3) = (1 3) ( 2 3)
x 1 x
; x = 0,1
Elegir al azar la respuesta correcta a una pregunta con 3 opciones es una variable con distribucin Bernoulli, con un valor promedio de 0.3333 y una varianza de 0.2222. 4. Durante una investigacin en la Sierra Norte de Puebla se encontr que la probabilidad de hallar un nio en edad preescolar con algn tipo de desnutricin es del 65%. Si se selecciona al azar un individuo de esta poblacin, sea X la variable aleatoria discreta tal que x = {0 con desnutricin, 1 sin desnutricin} :
Con desnutricin = XITO = P(x = 1) = p = 0.65
TIPO DE VARIABLE
X ~ Be ( p = 0.65)
53
VARIANZA El que un nio en edad preescolar de la Sierra Norte de Puebla presente desnutricin es una variable con distribucin Bernoulli, con un promedio de 0.65 y una varianza de 0.2275. 5. Si la presencia de patologas o marcadores es considerado un XITO en el estudio de restos osteolgicos, caracterice las siguientes variables aleatorias de acuerdo a la informacin que se aporta: a) Se tiene una coleccin de esqueletos donde la probabilidad de que un crneo manifieste trepanacin es del 5%. CARACTERIZACIN Presencia = XITO Ausencia = FRACASO (x = 1) = p = 0.05 (x = 0) = 1 p = 1 0.05 = 0.95 = P = P TIPO DE VARIABLE FUNCIN DE PROBABILIDAD ESPERANZA
1 x
; x = 0,1
X ~ Be ( p = 0.05)
VARIANZA La presencia de trepanacin en un crneo de esta coleccin es una variable con distribucin Bernoulli, con un valor esperado de 0.05 y una varianza de 0.0475. b) Dentro de una muestra estudiada, la probabilidad de que un crneo presente criba orbitaria es de 35%. CARACTERIZACIN Presencia = XITO Ausencia = FRACASO = P(x = 1) = p = 0.35 = P( x = 0) = 1 p = 1 0.35 = 0.65 TIPO DE FENMENO FUNCIN DE PROBABILIDAD ESPERANZA
1 x
; x = 0,1
X ~ Be ( p = 0.35)
VARIANZA La presencia de criba orbitaria en un crneo de esta muestra es una variable con distribucin Bernoulli, con una esperanza de 0.35 y una varianza de 0.2275. c) Supngase que el 28% de los crneos de una coleccin de esqueletos de Cholula presentan deformacin. CARACTERIZACIN Presencia = XITO Ausencia = FRACASO = P(x = 1) = p = 0.28 = P( x = 0) = 1 p = 1 0.28 = 0.72 TIPO DE VARIABLE FUNCIN DE PROBABILIDAD ESPERANZA
1 x
; x = 0,1
X ~ Be ( p = 0.28)
54
VARIANZA La presencia de hiperostosis portica en un individuo de la coleccin de Las Fuentes es una variable con distribucin Bernoulli, con un promedio de 0.12 y una varianza de 0.1056. Distribucin binomial X ~ Bin ( n, p ) Ahora bien, si la variable aleatoria discreta es dicotmica pero en vez de una sola observacin tenemos n nmero de casos ( xi ) , cada observacin tiene una distribucin de probabilidad de tipo Bernoulli: Observacin 1 2 3 Valores posibles
X ~ Be ( p = 0.12 )
x1 = {0,1}
Tipo de variable
x1 ~ B ( p )
x2 ~ B ( p ) x3 ~ B ( p ) xn ~ B ( p )
La variable aleatoria X a estudiar debe entonces comprender todas estas observaciones independientes:
X = x1 + x2 + x3 + ... + xn
Por lo cual la variable aleatoria X toma valores entre cero y n :
X = {0,1, 2,3,..., n}
Y su distribucin de probabilidad est definida por el siguiente modelo Binomial con parmetros n y p :
P ( x n, p ) = n Cx p x (1 p )
n x
; x = 0,1, 2,3,..., n
55
X ~ Be ( p = 0.12 )
Si un investigador toma tres esqueletos, asignando 1 a todo caso que presente hiperostosis y 0 a todo el que no le manifieste, las posibles observaciones seran: Escenario posible A B C D E F G H Caso
x1
0 1 0 0 1 1 0 1
x2
0 0 1 0 1 0 1 1
x3
0 0 0 1 0 1 1 1
x1
0 1 0 0 1 1 0 1
x2
0 0 1 0 1 0 1 1
x3
0 0 0 1 0 1 1 1
x1 + x2 + x3 = X
0+0+0=0 1+0+0=1 0+1+0=1 0+0+1=1 1+1+0=2 1+0+1=2 0+1+1=2 1+1+1=3
X
0 1 1 1 2 2 2 3
(1 p ) ,
x1
0
x2
0
x3
0
x1 + x2 + x3 = X
0+0+0=0
X
0
P ( x) P ( x ) = (1 p ) (1 p ) (1 p )
P ( x)
P ( x = 0 ) = (1 p )
3
56
P ( x ) = p (1 p ) (1 p )
P ( x ) = (1 p ) p (1 p ) P ( x ) = (1 p ) (1 p ) p P ( x ) = p p (1 p ) P ( x ) = p (1 p ) p P ( x ) = (1 p ) p p P ( x) = p p p
P ( x = 2 ) = 3 p 2 (1 p )
2 P ( x = 1) = 3 p (1 p )
P ( x = 3) = p 3
P ( x)
P ( x = 0 ) = (1 p ) = 0.883 = 0.6815
3
P ( x = 3) = p 3 = 0.123 = 0.0017
Si bien la probabilidad de los eventos totales o extremos (donde en todos los casos se presenta o no la caracterstica) es fcil de calcular sin necesidad de la tabla, pues simplemente se eleva la probabilidad de xito o fracaso a la potencia del nmero de casos; la probabilidad de los eventos combinados es ms complicada de predecir. A fin de evitar tal desarrollo puede determinarse el nmero que anteceder a las combinaciones a partir del desarrollo de binomios. Por ejemplo:
(1 p )
y b es p :
3
n = 3 (a + b)
De hecho, se dice que la variable tiene distribucin Binomial porque su probabilidad es un binomio elevado a la potencia del nmero de casos ( n ) . Ahora bien, si el desarrollo de binomios resulta igual de complicado, existen otras tres formas para descubrir el nmero que antecede a las combinaciones: una es observando el Tringulo de Pascal:
57
En el cual se busca el rengln cuyo nmero de elementos sea igual al nmero de valores que la variable aleatoria X puede tomar:
X = {0,1, 2,3} # X = 4
Cx =
n! x !( n x ) !
n ! = n (n 1) (n 2) (n 3) ... ( 3) ( 2 ) (1)
y que:
Sabiendo que:
Donde n es el nmero total de casos y x el nmero de observaciones sobre las cuales se desea asignar probabilidad
0! = 1
C1 =
O finalmente est la opcin de acudir a la tecla n C x de la calculadora2, que permite determinar el nmero de combinaciones de n observaciones en conjuntos de x elementos. Dicho todo esto podemos comprender ya el porqu de la expresin:
P ( x n, p ) = n Cx p x (1 p )
n x
; x = 0,1, 2,3,..., n
Porque, a fin de calcular probabilidades de xito en n casos de una variable aleatoria discreta dicotmica, debemos considerar no slo la probabilidad de xito, sino tambin las posibles combinaciones ( n Cx ) en que se puede manifestar. Por ejemplo, para el caso de la hiperostosis portica: HIPEROSTOSIS PORTICA X ~ Bin ( n = 3, p = 0.12 )
FUNCIN DE PROBABILIDAD
3 x
; x = 0,1, 2,3
PROBABILIDADES
La tecla puede variar de acuerdo al modelo de la calculadora, sobre todo en la letra del segundo subndice; no obstante, siempre incluye la letra C, que le distingue de la tecla para permutaciones
2
Pr . 58
3 0
31
3 2 3 3
Si se analizan tres restos, existe un 68.15% de probabilidad de que ninguno presente hiperostosis portica; un 27.88% de que slo uno la manifieste; 3.80% que dos y slo un remoto 0.17% de probabilidad de que todos le presenten. Esperanza Partiendo de nuevo de la esperanza de una variable aleatoria cualquiera, sabemos que cada observacin tiene como valor promedio:
E ( xi ) = xi P ( xi )
x
E ( x ) = p + p + p + ... + p E ( x) = n p
X ~ Be ( p = 0.12 )
E ( x1 ) = 0.12
E ( x2 ) = 0.12
E ( x ) = E ( x1 ) + E ( x2 ) + E ( x3 )
E ( x3 ) = 0.12
X ~ Bin ( n = 3, p = 0.12 )
E ( x ) = 0.12 + 0.12 + 0.12 E ( x ) = 3 ( 0.12 ) = 0.3600
Esperanza de la variable
Varianza de una variable aleatoria De manera similar, si la varianza de una variable aleatoria con distribucin Bernoulli es:
Var ( x ) = p (1 p )
59
Var ( x ) = p (1 p ) Var ( x ) = n p (1 p )
x =0
X ~ Be ( p = 0.12 )
X ~ Bin ( n = 3, p = 0.12 )
Var ( x ) = Var ( x1 ) + Var ( x2 ) + Var ( x3 ) Var ( x ) = 0.12 ( 0.88 ) + 0.12 ( 0.88 ) + 0.12 ( 0.88 ) Var ( x ) = 3 ( 0.12 )( 0.88 ) = 0.3168
Esperanza de la variable
En conclusin, el modelo de distribucin Binomial (basado en los parmetros n y p ) nos permite caracterizar y calcular las probabilidades de xito de una variable aleatoria discreta dicotmica cuando se tiene ms de una observacin:
X ~ Bin ( n, p )
FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA
P ( x n, p ) = n Cx p x (1 p ) E ( x) = n p Var ( x ) = n p (1 p )
n x
; x = 0,1, 2,3,..., n
Ejemplos de aplicacin 1. Durante la clase se aplica un examen de 5 preguntas con tres opciones cada una. Establecer la funcin de probabilidad de ste fenmeno y calcular su esperanza y varianza. Posteriormente, calcular la probabilidad de obtener 0, 1, 2, 3 ,4 y 5 aciertos: Acertar = P( x = 1) = p = 1 DATOS GENERALES Errar = P( x = 0 ) = 1 p = 1 1 = 2
n=5
3 X ~ Bin ( n = 5, p = 1 3)
P ( x n, p ) = n C x p x (1 p ) P x n = 5, p = 1
E ( x) = n p E ( x) = 5 1
n x
; x = 0,1, 2,3,..., n
x 5 x
= C ( 1 ) (2 ) 3) 3 3
5 x
ESPERANZA
( 3 ) = 5 3 = 1.6667
60
Var ( x ) = n p (1 p ) Var ( x ) = 5 1
( 3 )( 2 3 ) = 10 9 = 1.1111
5 5 5
a) 5 aciertos:
P ( x = 5 ) = 5 C5 1
( 3) (23)
4
= 0.0041
La probabilidad de obtener, al azar, 5 aciertos en un examen de 5 preguntas con tres opciones es de 0.41%. b) 4 aciertos:
P ( x = 4 ) = 5 C4 1
( 3) (23)
3
5 4
= 0.0412
La probabilidad de obtener, al azar, 4 aciertos en un examen de 5 preguntas con tres opciones es de 4.12%. c) 3 aciertos:
P ( x = 3) = 5 C3 1
( 3) (23)
2
53
= 0.1646
La probabilidad de obtener, al azar, 3 aciertos en un examen de 5 preguntas con tres opciones es de 16.46%. d) 2 aciertos:
P ( x = 2 ) = 5 C2 1
( 3) ( 3)
2
1
5 2
= 0.3292
La probabilidad de obtener, al azar, 2 aciertos en un examen de 5 preguntas con tres opciones es de 32.92%. e) 1 acierto:
P ( x = 1) = 5 C1 1
( 3) ( 3)
2
5 1
= 0.3292
La probabilidad de obtener, al azar, 1 acierto en un examen de 5 preguntas con tres opciones es de 32.92%. f) 0 aciertos:
P( y = 0)= 5 C 0 1 3
( ) (23 )
0
50
= 0.1317
La probabilidad de obtener, al azar, 0 aciertos en un examen de 5 preguntas con tres opciones es de 13.17%. Si comparamos las probabilidades anteriores, obtener un acierto es lo ms probable, seguido por 2, 3 y 0 aciertos. Empero, segn la esperanza, 1.667 ser el nmero de aciertos esperados si aplicamos el examen muchas veces. No. aciertos (%) 5 0.41 4 4.12 3 16.46 2 32.92 1 32.92 0 13.17 Total 100.00
Como puede verse, la suma de probabilidades es 1 (100%). Veamos por qu esta propiedad es tan importante:
61
Pero cuando nos piden el evento complementario, basta con restar a 1: h) 2 o ms aciertos:
As, sabiendo que la probabilidad de tener menos de dos aciertos es de 46.09%, fcilmente sabemos que la probabilidad de obtener 2 o ms aciertos es el resto: 53.91%. 2. El examen de ingreso a la ENAH posee 120 preguntas, cada una con 5 opciones, pero una est cancelada. Si el examen fuera contestado completamente al azar, cuntas preguntas con 5 y con 4 opciones seran contestadas en promedio? a) Con 5 opciones: Acertar = DATOS GENERALES
n = 120
P x n = 120, p = 1
= 5)
120
Cx 1
( 5) (45)
x
120 x
; x = 0,1, 2,...,120
n = 120
P( x = 1) = p = 1
P x n = 120, p = 1
= 120 Cx 1
( 4) ( 3 4)
x
120 x
; x = 0,1, 2,...,120
Si las 120 preguntas fueran contestadas al azar y tuvieran 5 opciones, el promedio de respuestas correctas sera 24, pero como slo son 4 opciones, el promedio de aciertos aumenta a 30, lo cual implica an una calificacin reprobatoria de 2.5. 3. Habamos comentado que la quiniela de pronsticos deportivos Progol consiste en adjudicar el resultado de catorce partidos: local, empate o visitante. Si la planilla se contesta al azar, cul es el nmero promedio de aciertos y cul es su varianza?
62
n = 14
3 X ~ Bin ( n = 14, p = 1 3)
P x n = 14, p = 1
= 14 Cx 1
( 3) ( 3)
x
14 x
; x = 0,1, 2,...,14
P ( x = 14 ) = 14 C14 1
( 3) (23)
14
14 14
= 2.0908 x107
Con otro procedimiento mucho ms sencillo hemos calculado de nuevo que la probabilidad de acertar al azar los 14 resultados de la quiniela es nfima: de 2.0908x10-5%. Sabiendo de ftbol esto se puede modificar, pero as tampoco se evita las posibles trampas en la liguilla que llegan a afectar los resultados. a) No adivinar ningn resultado:
P ( x = 0 ) = 14 C0 1
( 3) (23)
0
14 0
= 3.4255 x103
La probabilidad de no acertar ninguno de los 14 resultados de la quiniela es tambin muy pequea: nfima: 3.4255x10-5%. Veamos, empero, una forma de comparar estas probabilidades mediante razones de momios: e) Razn de momios ninguno/todos:
n=6
= P( x = 1) = p = 0.14
TIPO DE FENMENO
X ~ Bin ( n = 6, p = 0.14 )
63
6 x
E ( x ) = 6 ( 0.14 ) = 0.8400
= 0.4046
P ( x = 6 ) = 6 C6 ( 0.14 ) ( 0.86 )
6
66
= 7.5295 x10 6
P ( x = 4 ) = 6 C4 ( 0.14 ) ( 0.86 )
4
64
= 0.0043
n=6
= P( x = 1) = p = 0.14
15 x
; x = 0,1, 2,...,15
64
= 0.0072
P ( x = 15 ) = 15 C15 ( 0.28 )
15
( 0.72 )
15 15
= 5.0977 x109
La probabilidad de que los 15 crneos analizados de la coleccin presenten deformacin es de 5.0977x10-7%. c) 4 crneos:
P ( x = 4 ) = 15 C4 ( 0.28 ) ( 0.72 )
4
15 4
= 0.2262
La probabilidad de encontrar cuatro crneos con deformacin en la coleccin es de 22.62%. Lo cual es un resultado coherente, ya que la probabilidad de casos exitosos siempre ser ms alta mientras ms se acerque al valor de la esperanza de la variable aleatoria, que en este caso era de 4.2. d) Ms de 13 crneos:
14 15 14 + 5.0977 x109 P ( x > 13) = P ( x = 14 ) + P ( x = 15 ) = 15 C14 ( 0.28 ) ( 0.72 ) 7 9 P ( x > 13) = 1.9662 x10 + 5.0977 x10 = 2.0172 x10 7
P ( x < 3) = P ( x = 0 ) + P ( x = 1) + P ( x = 2 )
1 15 1 2 15 2 P ( x < 3) = 0.0072 + 15 C1 ( 0.28 ) ( 0.72 ) + 15 C2 ( 0.28 ) ( 0.72 ) P ( x < 3) = 0.0072 + 0.0423 + 0.1150 = 0.1645
La probabilidad de que tres de los crneos estudiados presenten deformacin es de 16.45%. f) Ms de 2 crneos:
Distribucin Poisson
X ~ Po ( )
65
P ( x n, p ) = n Cx p x (1 p )
n x
; x = 0,1, 2,3,..., n
Expresin donde se especifican los valores que toma X Expresin en que no se hacen explcitos los valores de X porque la muestra ( n ) es muy grande.
DISTRIBUCIN POISSON
Debe notarse adems que en la segunda funcin de probabilidades los parmetros n y p no aparecen, pues como no existen criterios universales para determinar cun pequea debe ser la probabilidad de xito y cun grande debe ser la muestra, la distribucin Poisson considera como parmetro al nmero promedio de ocurrencias del evento, denotado por la letra . Esperanza Ahora bien, dado que la esperanza de una variable aleatoria discreta dicotmica con distribucin Binomial era:
E ( x) = n p
E ( x) =
Podemos concluir que:
= n p
Varianza Por otro lado, si la varianza de una variable aleatoria discreta dicotmica con distribucin Binomial era:
Var ( x ) = n p (1 p )
Pero sabemos que en la distribucin Poisson p 0 y que, por ende, (1 p ) 1 ; la varianza de una variable con tal distribucin queda como:
66
X ~ Po ( )
FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA
Ejemplos de aplicacin 1. Investigaciones indican que en nuestro pas 50 de cada 100 mil mexicanos pueden desarrollar el mal de Parkinson4: trastorno degenerativo que afecta al sistema nervioso central. Si se toma una muestra de 10 mil personas, cul es la probabilidad de que dicho padecimiento est presente en: a) Ningn sujeto b) Todos c) 5 individuos d) Menos de 5 personas e) Ms de 5 personas DATOS GENERALES
n = 10000
Presencia = P ( x = 1) =
50 = 0.0005 100000 X ~ Po ( = 5)
= (10000 )( 0.0005) = 5
P ( x) =
e x ; x = 0,1, 2,... x!
x
ESPERANZA VARIANZA
e5 ( 5 ) P ( x = 5) = ; x = 0,1, 2,... x! E (x ) =
Var(x ) =
E ( x) = 5
Var ( x ) = 5
a) Ningn sujeto:
e 5 ( 5 ) P ( x = 0) = = 0.0067 0!
0
La probabilidad de que ningn sujeto presente el mal de Parkinson es de 0.67%. b) Todas las personas:
Se conmemora el Da Mundial del Mal del Parkinson por Monire Prez Lpez en Sistema e-once noticias Internet. 11 de abril del 2007. Pgina: http://oncetvipn.net/noticias/index.php?modulo=despliegue&dt_fecha=2007-04-11&numnota=3
67
e 5 ( 5 ) P ( x = 10000 ) = 0 10000!
10000
La probabilidad de que todas las personas manifiesten el mal de Parkinson es nula. c) 5 individuos:
e 5 ( 5 ) P ( x = 5) = = 0.1755 5!
5
P ( x < 5 ) = P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) + P ( x = 3) + P ( x = 4 )
e5 ( 5 )1 e 5 ( 5 )2 e5 ( 5 )3 e 5 ( 5 )4 P ( x < 5 ) = 0.0067 + + + + 1! 2! 3! 4! P ( x < 5 ) = 0.0067 + 0.0337 + 0.0842 + 0.1404 + 0.1755 P ( x < 5 ) = 0.4405
La probabilidad de que menos de 5 personas manifiesten el mal de Parkinson es de 44.05%. e) Ms de 5 personas:
P ( x > 5 ) = 1 P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) + P ( x = 3) + P ( x = 4 ) + P ( x = 5 )
Por ende, la probabilidad de que ms de 5 personas manifiesten el mal de Parkinson es de 37.90%. El Instituto Mexicano del Seguro Social (IMSS), empero, ha informado que ms de 50 mil mexicanos padecen el mal de Parkinson5 y que tan slo durante 2007 otorg 24,587 consultas a nivel nacional por esta causa6. As que pese a nuestros clculos, existe razn suficiente para seguir investigando los motivos y posibles tratamientos para este padecimiento. 2. La Secretara de Salud de Jalisco ha reportado que existen de 3 a 4 casos de cncer de mam y cervicouterino por ao en su estado7. Al ser sta una de las causas principales de muerte entre las mujeres, el gobierno ha decidido tomar una muestra grande y calcular la probabilidad de que: a) Ninguna mujer le presente
El IMSS Otorg ms de 24 mil consultas por mal de parkinson en un ao en CDN. 11 de abril de 2008. Pgina: http://www.cdn.com.mx/?c=118&a=22677 6 Padecen Parkinson casi 50 mil mexicanos: IMSS en El siglo de Durango. 23 de diciembre de 2007. Pgina: http://www.elsiglodedurango.com.mx/noticia/151670.padecen-parkinson-casi-50-mil-mexicanosimss.siglo 7 El cncer es la principal causa de muerte en Tuxpan en Informativo del Sur de Jalisco. 8 de marzo del 2007. Nota en internet: http://www.periodicoelsur.com/noticias_tuxpan.aspx?idnoticia=8858
5
68
n=?
=3
X ~ Po ( = 4 )
P ( x = 3) = e3 ( 3) ; x = 0,1, 2,... x!
x
E ( x) = 3 Var ( x ) = 3
e 3 ( 3) = 0.0498 P ( x = 0) = 0!
0
La probabilidad de que ninguna mujer padezca cncer (de mama o cervicouterino) es de 4.98%. b) Menos de 3 le padezcan:
P ( x < 3) = P ( x = 0 ) + P ( x = 1) + P ( x = 2 )
e3 ( 3)1 e3 ( 3)2 P ( x < 3) = 0.0498 + + 1! 2! P ( x < 3) = 0.0498 + 0.1494 + 0.2240 P ( x < 3) = 0.4232
La probabilidad de que menos de 3 mujeres le padezcan es de 42.32%. c) Ms de 3 le presenten:
P ( x > 3) = 1 P ( x 3)
P ( x > 3) = 1 P ( x < 3) + P ( x = 3) e 3 ( 3)3 P ( x > 3) = 1 0.4232 + 3! P ( x > 3) = 1 [ 0.4232 + 0.2240] P ( x > 3) = 1 0.6472 = 0.3528
La probabilidad de que ms de 3 mujeres le presenten es de 35.28%. 3. La monosoma del cromosoma X es la causante del denominado sndrome de Turner que, por definicin, afecta exclusivamente a mujeres. Sus principales sntomas son el retraso de crecimiento, el infantilismo sexual y la posesin de ovarios rudimentarios sin epitelio germinativo8. Si bien el desarrollo psicomotor vara entre
Existen, no obstante, otros sntomas, por ejemplo: edema acentuado del dorso de los pies en el nacimiento, trax saliente en escudo, pezones hipoplsicos y muy separados, acortamiento del IV metacarpiano y un sinfn de signos que pueden ir desde una malformacin cardiaca a la abundancia de nevus pigmentarios.
8
69
DATOS GENERALES
n = 10000
Presencia = P ( x = 1) =
= (10000 )( 0.0004 ) = 4
e4 ( 4 ) P ( x = 4) = ; x = 0,1, 2,... x! E ( x) = 4
Var ( x ) = 4
e 4 ( 4 ) P ( x = 0) = = 0.0183 0!
0
e4 ( 4 ) P ( x = 1) = = 0.0733 1!
1
P ( x > 3) = 1 P ( x 3)
P ( x > 3) = 1 P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) + P ( x = 3) e 4 ( 4 )2 e4 ( 4 )3 P ( x > 3) = 1 0.0183 + 0.0733 + + 2! 3! P ( x > 3) = 1 [ 0.0183 + 0.0733 + 0.1465 + 0.1954] P ( x > 3) = 1 0.4335 = 0.5665
La probabilidad de que aparezcan ms de tres casos con sndrome de Turner es de 56.65%. 4. 1.18 de cada 1000 nios manifiestan el sndrome de Klinefelter, cuyo cariotipo es 47,XXY. Los varones que lo padecen presentan ginecomastia (desarrollo de mamas), atrofia testicular con azoospermia (sin atrofia de las clulas de Leydig) y aumento de la excrecin de FSH. Asimismo, los sujetos poseen una talla elevada y, a veces, cierta desproporcin. Si bien su aspecto puede ser masculino, en ciertos casos la ausencia de barba y las caderas anchas les dan una morfologa femenina. Si durante una investigacin se analizar a 5,000 varones, qu probabilidad hay de que este sndrome se presente en el siguiente nmero de casos?
70
n = 5000
Presencia = P ( x = 1) =
Var ( x ) = 5.9
e 5.9 ( 5.9 ) P ( x = 2) = = 0.0477 2!
2
P ( x > 2) = 1 P ( x 2)
Tipo de distribucin en la que, dentro de un intervalo (a, b ) , la variable X tiene una funcin de probabilidad constante, como puede verse en la siguiente grfica:
71
Por sus caractersticas se comprende que, la probabilidad de X (igual en todos los puntos) en el intervalo, suma 1. Por ende: A = P( x )(b a ) = 1 y de ello de deriva lo siguiente: FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA Veamos algunos ejemplos: 1. El tiempo de espera para ser atendido en la ventanilla de Servicios escolares de la ENAH es una variable con distribucin uniforme dentro del horario de 10:00 a 13:00. TIPO DE FENMENO FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA X ~ U (10.00,13.00)
1 1 = ; x (10.00,13.00) (13.00 10.00) 3 (13.00 + 10.00) = 23 = 11.5000 E (x ) = 2 2 2 (10.00 13.00) = 3 2 = 9 = 3 = 0.7500 Var ( x ) = 12 12 12 4 P(x ) =
De lo cual concluimos que la probabilidad de ser atendido en la ventanilla de Servicios escolares entre las 10 y las 13 horas es de 1/3, aunque la hora ms probable en que nos atendern es a las 11:50 a.m. Ahora, cabe preguntarse cuestiones como: a) Cul es la probabilidad de que nos atiendan entre las 10:30 y las 12:00 horas?
( )
( )
La probabilidad de que nos atiendan entre las 10:30 y las 12:00 horas es del 50.00%. b) Cul es la probabilidad de que nos atiendan despus de las 12:45?
72
( )
( )
( )
La probabilidad de que nos atiendan exactamente a las 12:00 p.m. es de 0%. Ms que por cuestiones reales, esto se debe a que en la distribucin uniforme y en el resto de las distribuciones de probabilidad para variables continuas, la probabilidad se saca por reas entre la curva y el eje de las X . Para delimitarlas, se requiere en el eje de las X un intervalo; esto es, ms de un punto. Siendo la grfica de probabilidades continua, es imposible calcular la probabilidad de que la variable aleatoria tome slo un valor, pues la probabilidad en ste ser 0. Distribucin normal: X~N(,)
Llamada tambin distribucin gaussiana, esta distribucin es la ms importante para la estadstica. Veamos algunas de sus caractersticas:
a) La curva se acerca pero nunca toca el eje de las X , por lo cual es una curva asinttica b) El rea bajo la curva (y por ende, la suma de todas las probabilidades) es igual a 1.
> <
c) La media ( ) divide la grfica simtricamente as como la probabilidad del rea bajo la curva. d) La media ( ) desplaza la grfica a lo largo del eje X . e) La desviacin estndar ( ) es la distancia entre la media y el punto de inflexin. f) El valor de la desviacin estndar ( ) determina el aplanamiento o levantamiento de la curva (A mayor , ms plana; y a menor , ms alta). g) y son los parmetros de la distribucin; motivo por el cual para cada valor diferente de ellos se conforma una distribucin y una grfica distinta.
FUNCIN DE PROBABILIDAD
P( x ) =
1 2
2
( x )2
2 2
; < x <
73
Var ( x ) = 2
E (x ) =
El punto es que, por ms que tengamos una funcin de probabilidades especfica, al variar la probabilidad de X continuamente, es necesario resolver integrales para encontrar la probabilidad de X en un intervalo. B.3) DISTRIBUCIN NORMAL ESTNDAR: X~N(0,1)
Esta distribucin es un caso especial de la familia de las distribuciones normales, pues en ella la media ( ) es igual a 0 y la desviacin estndar ( ) es igual a 1; razn por la cual su funcin de probabilidad es la siguiente: FUNCIN DE PROBABILIDAD
P(z ) =
1 e 2 ; < x < 2
z2
Si bien es necesario calcular el valor de Z mediante la funcin de probabilidad, saber la probabilidad de esta variable no requiere integrales, pues basta consultar las tablas ya existentes para ello de la siguiente forma: Uso de las tablas de probabilidad para las reas de la curva normal: Las tablas para reas de la curva normal presentan los valores de menos infinito a un valor Z :
Por ello: 1. Cuando se busca la probabilidad de que Z sea menor a un valor, ste se busca directamente en tablas:
2. Cuando se busca la probabilidad de que Z sea mayor a un valor, se invierten los signos +/- y >/<; procedimiento que, debido a la simetra de la curva, evita restar eventos complementarios.
74
3. Cuando se busca la probabilidad de que Z est en un intervalo (a, b ) , se resta la probabilidad del mayor al menor (sin cambiar signos) pues para delimitar el intervalo basta con calcular primero toda el rea que es menor al nmero ms grande (b) y restarle el rea menor al nmero ms pequeo (a):
P(valor a < z < valor b) Se resta P(z < valor b) - P(z < valor a), es decir, se busca la probabilidad de valor b y se le resta la de valor a. Estandarizacin Estandarizar una variable significa transformar sus valores originales para que los valores estandarizados tengan una media = 1 y una desviacin estndar = 0 . Con ello logramos que la distribucin de la variable se vuelva de tipo normal estndar, permitindonos el acceso a las tablas de probabilidad. EXPRESION PARA ESTANDARIZAR
Z=
xi
Veamos, ahora s, para que nos sirve todo lo anterior con un ejemplo: 1. La estatura de la poblacin de las estudiantes femeninas de la ENAH tiene una distribucin aproximadamente normal con media = 162 cm. y varianza 2 = 17.5 . Qu probabilidad hay de que a) elijamos al azar a una chica que mida menos de 160 cm? b) elijamos al azar a una chica que mida ms de 163 cm? c) elijamos al azar a una chica que mida entre 159 y 161 cm?
75
= 162
DATOS GENERALES
2 = 17.5
P(x ) =
= 4.18
1 e 2 (17.5)
1 P(x ) = e 6.28(17.5)
( x 162 )2
35
FUNCIN DE PROBABILIDAD
1 P(x ) = e 109.9
( x 162 )2
35
1 P( x ) = e 10.48
( x 162 )2
35
( x 162 )2
a) Qu probabilidad hay de que elijamos al azar a una chica que mida menos de 160 cm?
P( x < 160) =
160
0.10 e
( x 162 )2
35
dx
Como se puede ver, calcular la probabilidad de que X sea menor a 160 implica resolver esta integral. Si X tuviera una distribucin normal estndar con = 1 y = 0 , podramos acceder a las tablas. Entonces lo que haremos es estandarizar la variable para lograr tal objetivo y poder obtener la probabilidad: EXPRESIN x PARA Z= i ESTANDARIZAR APLICACIN
2 160 162 P( x < 160 ) P Z < = P Z < = P (Z < 0.48) 4.18 4.18
Observacin 1: -0.48 no es la probabilidad de que la chica sea menor a 160 cm., sino el valor que se ubicar en las tablas intersectando -0.40 (horizontal) y .008 (vertical). Observacin 2: Como se busca la probabilidad de que Z sea MENOR a tal valor, ste se busca directamente en tablas.
P(Z < 0.48) = 0.3156 PROBABILIDAD P(x<160)= 0.3156. Esto es: la probabilidad de que la mujer que elijamos sea menor a 160 cm. es de 0.3156; o bien del 31.56%.
b) Qu probabilidad hay de que elijamos al azar a una chica que mida ms de 163 cm? ESTANDARIZACIN
163 162 1 P( x > 163) P Z > = P Z > = P (Z > 0.24 ) 4.18 4.18
76
P(Z > 0.24) P(Z < 0.24) = 0.4052 PROBABILIDAD P(x>163)= 0.4052. Esto es: la probabilidad de que la mujer que elijamos sea mayor a 163 cm. es de 0.4052; o bien del 40.52%.
c) Qu probabilidad hay de que elijamos al azar a una chica que mida entre 159 y 161 cm?
Observacin 1: Adems de estandarizar para encontrar esta probabilidad, es necesario hallar la probabilidad de X en el intervalo, lo cual logramos restando la probabilidad del valor mayor al del menor [P(x<161)-P(X<159)]:
PROBABILIDAD P(159<x<161)= 0.1694. Esto es: la probabilidad de que la mujer que elijamos mida entre 159 y 161 cm. es de 0.1694; o bien del 16.94%. 2. El nmero de respiraciones por minuto de personas adultas en reposo es una variable que se distribuye de una manera aproximadamente normal con media = 20.5 y desviacin estndar = 4.3 . Si elegimos al azar a una persona, qu probabilidad hay de que su nmero de respiraciones por minuto a) sea menor a 18.3? b) sea mayor a 22? DATOS GENERALES c) est entre 19 y 21? X~N ( = 20.5, = 4.3)
( x 20.5 )2
161 162 159 162 P (159 < x < 161) P <Z< 4.18 4.18 1 3 = P Z< = P( 0.72 < Z < 0.24 ) 4.18 4.18 P( 0.24) P( 0.72) = 0.4052 0.2358 = 0.1694
X~N(,)
= 20.5
2 = 18.49
P(x ) = P(x ) =
= 4.3
1 e 2 (18.49 ) 2 (18.49 )
FUNCIN DE PROBABILIDAD
1 e 6.28(18.49 )
( x 20.5 )2
36.98
1 P( x ) = e 116.12 1 P( x ) = e 10.78
( x 20.5 )2
36.98
( x 20.5 )2
36.98
P( x ) = 0.09 e
( x 20.5 )2
36.98
77
22.0 20.5 1.50 P( x > 22 ) P Z > = P Z > = P (Z > 0.35) 4 .3 4 .3 P(Z > 0.35) P(Z < 0.35) = 0.3632
P(x>22)= 0.3050. Esto es: la probabilidad de que el nmero de respiraciones por minuto de la persona elegida al azar sea mayor a 22 es de 36.32%. c) est entre 19 y 21?
21.0 20.5 19.0 20.5 P(19 < x < 21) P <Z< 4 .3 4 .3 0.50 1.50 = P <Z< = P ( 0.35 < Z < 0.12 ) 4 .3 4 .3 P( 0.35 < Z < 0.12) = P(Z < 0.12) P(Z < 0.35) = 0.5478 0.3632 = 0.1846
P(19<x<21)= 0.1846. Esto es: la probabilidad de que el nmero de respiraciones por minuto de la persona elegida al azar est entre 19 y 21 es de 18.46%. Para cerrar este tema, veremos ahora otras distribuciones basadas en las anteriores, algunas de las cuales utilizaremos posteriormente. Distribucin exponencial Caso de la familia de funciones de supervivencia, donde la variable aleatoria X es mayor a cero (motivo por el que toma slo valores positivos) y mantiene una relacin inversa con su probabilidad, debido a lo cual su grfica es asinttica con respecto al eje X y al Y . FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA
P ( x ) = e x ; x > 0 E (x ) = 1
Var ( x ) = 1
Distribucin resultante de la suma de variables con distribucin normal estndar al cuadrado. Ms especficamente, si Z 1 , Z 2 , Z 3 ,..., Z k son variables con distribucin normal estndar [Zi~N(0,1)] y elevadas cada una al cuadrado suman X 2 x = Z 12 + Z 2 + Z 32 + ... + Z k2 , entonces X toma valores positivos (x 0) teniendo
( )
78
P(x ) =
La letra representa la funcin gamma, que sirve para calcular el factorial de funciones continuas.
t~t(k)
Z x
: una con
distribucin normal estndar [Z~N(0,1)] entre una con distribucin ji-cuadrada [X~ 2 (k)]; razn por la cual la variable t tiene una distribucin-t con K grados de libertad. FUNCIN DE PROBABILIDAD
2 k + 1 t 1 + k 2 P(t ) = k k 2 E (t ) = = 0 k +1 2
; < t <
ESPERANZA
VARIANZA
3 k 2 k 2 2 Var (t ) = 1 k 2 2
F~F(K1,K2)
Distribucin F de fisher
( ) y con
2
(X 1 , X 2 ),
ambas con
FUNCIN DE PROBABILIDAD
k 1 2
k f 1 + 1 k2
;f >0
ESPERANZA
Si K es mayor a 30, x/k 1; por lo cual la segunda variable tendra una distribucin normal estndar.
79
Var ( f ) =
k1 (k 2 2 ) (k 2 4)
2
2 k 2 (k1 + k 2 2)
2
Distribuciones muestrales
Se llama distribucin muestral a la distribucin de todos los valores posibles que puede tomar una estadstica, calculada a partir de muestras del mismo tamao (n )
seleccionadas aleatoriamente de la misma poblacin (N ) . En otras palabras, es el procedimiento para inferir los valores estadsticos de una muestra a partir de los parmetros de una poblacin. Distribuciones muestrales para poblaciones con distribucin normal X~N(,) Distribucin de la media muestral (x ) Si en la poblacin de estudio, X tiene una distribucin de tipo normal con media y desviacin estndar , en las muestras seleccionadas aleatoriamente, x es una variable aleatoria con la misma media de la poblacin y con una desviacin estndar igual a la de la poblacin pero dividida entre la raz del tamao de la muestra. Esto es: X~N(,) MEDIA DESVIACIN ESTNDAR VARIANZA FRMULA PARA ESTANDARIZAR
2
x N ,
Z=
n
2
Z=
Xi
n xi
Analicemos, con un ejemplo, la importancia de esto: 1. Una investigacin realizada en cierta escuela vers sobre el uso de drogas,. Siendo una de las variables estudiadas los aos de uso, se encontr que dentro de la poblacin esta variable tiene una distribucin normal con media = 4.5 y desviacin estndar = 1.7 . Si se toma una muestra de doce estudiantes que usan drogas, qu probabilidad hay de que la media de la muestra a) sea menor de 4 aos? b) sea mayor de 7 aos? c) est entre 5.5 y 6.8 aos? X~N ( = 4.5, = 1.7 )
X~N(,)
= 4 .5
DATOS GENERALES
= 1.7
= 4.5 = 1.7 2 = 2.89
x N ,
= 4.5
= 1.7
12
2
= 0.49
2 = (1.7 ) 12 = 0.24
80
Z=
xi
APLICACIN
Z < 4 4.5 = P(Z < 1.02) P(x < 4) = P 1.7 12 P(Z < 1.02) = 0.1539
La probabilidad de que la media de las muestra de doce estudiantes que usan drogas sea menor a 4 aos es de 15.39% b) sea mayor de 7 aos?
Z > 7 4.5 = P(Z > 5.09 ) P(x > 7 ) = P 1.7 12 P(Z > 5.09) = P(Z < 5.09) 0
La probabilidad de que la media de las muestra de doce estudiantes que usan drogas sea mayor a 7 aos es casi nula. c) est entre 5.5 y 6.8 aos? P(5.5 < x < 6.8)
2.30 6.8 4.5 5.5 4.5 1.00 P <Z< = P <Z< = P(2.04 < Z < 4.69) 1.7 1.7 0.49 0.49 12 12 P(2.04 < Z < 4.69) = P(Z < 4.69) P(Z < 2.04) = 1 0.9793 = 0.0207
La probabilidad de que la media de las muestra de doce estudiantes que usan drogas est entre los 5.5 y 6.8 aos es del 2.07%.
81
p=M
2
Z=
Xi
P (1 P ) n P (1 P ) n pP Z= P(1 P ) n
p=m n
Comprobemos, mediante ejemplos, cmo funciona esto: 1. Se sabe que la proporcin de estudiantes de la ENAH que simpatizan con el movimiento del EZLN es de 0.38. Se selecciona una muestra de 15 estudiantes al azar. Cul es la probabilidad de que la proporcin muestral ( p ) : a) sea menor de 0.30? b) sea mayor de 0.35? DATOS GENERALES c) est entre 0.36 y 0.40?
p = 0.38
a) sea menor de 0.30? FRMULA PARA ESTANDARIZAR
1 p = 0.62
n = 15
pP P(1 P ) n
Z=
APLICACIN
Z < 0.30 0.38 = P (Z < 0.64 ) = 0.2611 P( p < 0.30 ) = P 0.38(0.62 ) 15 P(Z < 0.64) = 0.2611
La probabilidad de que la proporcin muestral de simpatizantes con el movimiento del EZLN sea menor de 0.30 es del 26.11%. b) sea mayor de 0.35?
Z > 0.35 0.38 = P (Z > 0.24 ) P ( p > 0.35) = P 0.38(0.62 ) 15 P(Z > 0.24) P(Z < 0.24) = 0.5948
La probabilidad de que la proporcin muestral de simpatizantes con el movimiento del EZLN sea mayor de 0.35 es del 59.48%.
82
0.36 0.38 < Z < 0.40 0.38 = P( 0.16 < Z < 0.16 ) P(0.36 < p < 0.40 ) = P 0.38(0.62 ) 0.38(0.62 ) 15 15 P( 0.16 < Z < 0.16) = P(Z < 0.16) P(Z < 0.16) = 0.5636 0.4364 = 0.1272
La probabilidad de que la proporcin muestral de simpatizantes con el movimiento del EZLN est entre 0.36 y 0.40 es del 12.72%. 2. Se sabe que la proporcin de estudiantes que al mismo tiempo lleva otra licenciatura es de 0.12. Si se toma una muestra de 15 estudiantes de la ENAH, cul es la probabilidad de que en esta muestra la proporcin de estudiantes con esa caracterstica: a) sea mayor del 10%? b) sea menor del 0.15%? DATOS GENERALES c) est entre 0.11 y 0.14?
p = 0.12
a) sea mayor del 10%?
1 p = 0.88
n = 15
Z > 0.10 0.12 = P (Z > 0.24 ) P ( p > 0.10 ) = P 0.12(0.88) 15 P(Z > 0.24) P(Z < 0.24) = 0.5948
La probabilidad de que en esta muestra la proporcin de estudiantes que cursan, a la vez, dos licenciaturas, sea mayor a 0.10 es de 59.48%. b) sea menor del 0.15%?
Z < 0.15 0.12 = P (Z < 0.36 ) P( p < 0.15) = P 0.12(0.88) 15 P(Z < 0.36) = 0.6406
La probabilidad de que en esta muestra la proporcin de estudiantes que cursan, a la vez, dos licenciaturas, sea menor a 0.15 es de 64.06%. c) est entre 0.11 y 0.14?
0.11 0.12 < Z < 0.14 0.12 = P( 0.12 < Z < 0.24 ) P (0.11 < p < 0.14 ) = P 0.12(0.88) 0.12(0.88) 15 15 = P( 0.12 < Z < 0.24) = P(Z < 0.24) P(Z < 0.12) = 0.5948 0.4522 = 0.1426
La probabilidad de que en esta muestra la proporcin de estudiantes que cursan, a la vez, dos licenciaturas, est entre 0.11 y 0.14 es de 14.26%.
83
1 12
Z=
n1 n1
22 + 22
n2 n2
2
Z=
xi
x1 x 2 (1 2 )
12
n
Comparacin de dos proporciones muestrales ( p1 p 2 )
n1
+2
n2
Sabiendo cmo se calcula la proporcin muestral, es posible comparar las proporciones de dos muestras mediante la siguiente frmula: PARA UNA MUESTRA PARA DOS MUESTRAS
m p = n pP Z= P(1 P ) n
Z=
m n p1 p 2 (P1 P2 ) P1 (1 P1 ) P2 (1 P2 ) + n1 n2
p =
Distribuciones muestrales para poblaciones sin distribucin normal X~?(,) Distribucin de la media muestral (x ) Segn el TEOREMA CENTRAL DE LMITE (TCL), Dada una poblacin de cualquier forma funcional no normal, con una media y una varianza 2 , la distribucin muestral de x , calculada a partir de muestras de tamao n de dicha poblacin, ser
2 casi normal con media y una varianza
En otras palabras, cuando X es una variable cuyo tipo de distribucin no se conoce, pero tiene una media y una varianza 2 , pude asumirse que esta variable tiene
2 una distribucin normal con media y una varianza
tamao de la muestra sea grande (n N ) , lo cual, segn simulaciones de muestras y probabilidades implica que tenga ms de 30 elementos (n > 30) . Por tal motivo, para calcular probabilidades sobre esta variable puede utilizarse la siguiente frmula:
, siempre y cuando el
84
Z=
xi
n
Apliquemos esto para reafirmar cundo s aplica el TCL y cuando no: 1. En una poblacin de jvenes de 17 aos de edad, la media del espesor del pliegue subescapular (en milmetros) es de 9.7 con una desviacin estndar de 6.0. A partir de una muestra de tamao 14 extrada de esa poblacin, calcular la probabilidad de que la media de la muestra: a) sea mayor de 11. b) sea menor de 7.5 DATOS GENERALES c) est entre 7 y 10.5.
X~? ( = 4.5, = 1.7 ) No se pueden calcular probabilidades, puesto que no se sabe el tipo de distribucin de probabilidad de este fenmeno y la muestra no es grande (mayor a 30) como para considerarla de tipo normal.
= 9 .7
= 6.0
n = 14
2. En una poblacin de jvenes de 17 aos de edad, la media del espesor del pliegue subescapular (en milmetros) es de 9.7 con una desviacin estndar de 6.0. A partir de una muestra de tamao 40 extrada de esa poblacin, calcular la probabilidad de que la media de la muestra: a) sea mayor de 11. b) sea menor de 7.5 DATOS GENERALES c) est entre 7 y 10.5. X~? ( = 4.5, = 1.7 )
= 9 .7
a) sea mayor de 11.
= 6.0
n = 40
11 9.7 P( x > 11) = P z > = P( z > 1.37 ) 6.0 40 P( z > 1.37) P( z < 1.37 ) = 0.0853
La probabilidad de que la media del espesor del pliegue subescapular en esta muestra sea mayor de 11 es del 8.53%. b) sea menor de 7.5
7.5 9.7 P( x < 7.5) = P z < = P( z < 2.32 ) 6.0 40 P( z < 2.32) = 0.0102
La probabilidad de que la media del espesor del pliegue subescapular en esta muestra sea menor de 7.5 es del 1.02%. c) est entre 7 y 10.5.
85
7 9.7 10.5 9.7 P(7 < x < 10.5) = P <z< = P( 2.85 < z < 0.84 ) 6.0 6.0 40 40 P( 2.85 < z < 0.84) = P( z < 0.84) P( z < 2.85) = 0.7795 0.0022 = 0.7773
La probabilidad de que la media del espesor del pliegue subescapular en esta muestra est entre los 7 y 10.5 milmetros es de 77.73%.
86
87
88
UNIDAD III
5. ESTADSTICA DESCRIPTIVA
Breve historia de la estadstica Los comienzos de la estadstica pueden ser hallados en el antiguo Egipto, cuyos faraones lograron recopilar, hacia el ao 3050 antes de Cristo, prolijos datos relativos a la poblacin y la riqueza del pas. De acuerdo al historiador griego Herdoto, dicho registro de riqueza y poblacin se hizo con el objetivo de preparar la construccin de las pirmides. En el mismo Egipto, Ramss II hizo un censo de las tierras con el objeto de verificar un nuevo reparto. En el antiguo Israel la Biblia da referencias, en el libro de los Nmeros, de los datos estadsticos obtenidos en dos recuentos de la poblacin hebrea. El rey David por otra parte, orden a Joab, general del ejrcito hacer un censo de Israel con la finalidad de conocer el nmero de la poblacin[3]. Tambin los chinos efectuaron censos hace ms de cuarenta siglos. Los griegos efectuaron censos peridicamente con fines tributarios, sociales (divisin de tierras) y militares (clculo de recursos y hombres disponibles). La investigacin histrica revela que se realizaron 69 censos para calcular los impuestos, determinar los derechos de voto y ponderar la potencia guerrera. Pero fueron los romanos, maestros de la organizacin poltica, quienes mejor supieron emplear los recursos de la estadstica. Cada cinco aos realizaban un censo de la poblacin y sus funcionarios pblicos tenan la obligacin de anotar nacimientos, defunciones y matrimonios, sin olvidar los recuentos peridicos del ganado y de las riquezas contenidas en las tierras conquistadas. Para el nacimiento de Cristo suceda uno de estos empadronamientos de la poblacin bajo la autoridad del imperio[4]. Durante los mil aos siguientes a la cada del imperio Romano se realizaron muy pocas operaciones Estadsticas, con la notable excepcin de las relaciones de tierras pertenecientes a la Iglesia, compiladas por Pipino el Breve en el 758 y por Carlomagno en el 762 DC. Durante el siglo IX se realizaron en Francia algunos censos parciales de siervos. En Inglaterra, Guillermo el Conquistador recopil el Domesday Book o libro del Gran Catastro para el ao 1086, un documento de la propiedad, extensin y valor de las tierras de Inglaterra. Esa obra fue el primer compendio estadstico de Inglaterra[5]. Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra, trataron de revivir la tcnica romana, los mtodos estadsticos permanecieron casi olvidados durantes la Edad Media. Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicols Coprnico, Galileo, Neper, William Harvey, Sir Francis Bacon y Ren Descartes, hicieron grandes operaciones al mtodo cientfico, de tal forma que cuando se crearon los Estados Nacionales y surgi como fuerza el comercio internacional exista ya un mtodo capaz de aplicarse a los datos econmicos. Para el ao 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor que Enrique VII tena por la peste. Ms o menos por la misma poca, en Francia la ley exigi a los clrigos registrar los bautismos, fallecimientos y matrimonios. Durante un brote de peste que apareci a fines de la dcada de 1500, el gobierno ingls comenz a publicar estadstica semanales de los decesos. Esa costumbre continu muchos aos, y en 1632 estos Bills of Mortality (Cuentas de Mortalidad) contenan los nacimientos y fallecimientos por sexo. En 1662, el capitn John Graunt us documentos que abarcaban treinta aos y efectu predicciones sobre el nmero de personas que moriran de varias
89
enfermedades y sobre las proporciones de nacimientos de varones y mujeres que caba esperar. El trabajo de Graunt, condensado en su obra Natural and Political Observations...Made upon the Bills of Mortality (Observaciones Polticas y Naturales ... Hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo innovador en el anlisis estadstico. Por el ao 1540 el alemn Sebastin Muster realiz una compilacin estadstica de los recursos nacionales, comprensiva de datos sobre organizacin poltica, instrucciones sociales, comercio y podero militar. Durante el siglo XVII aport indicaciones ms concretas de mtodos de observacin y anlisis cuantitativo y ampli los campos de la inferencia y la teora Estadstica. Los eruditos del siglo XVII demostraron especial inters por la Estadstica Demogrfica como resultado de la especulacin sobre si la poblacin aumentaba, decreca o permaneca esttica. En los tiempos modernos tales mtodos fueron resucitados por algunos reyes que necesitaban conocer las riquezas monetarias y el potencial humano de sus respectivos pases. El primer empleo de los datos estadsticos para fines ajenos a la poltica tuvo lugar en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemn que viva en Breslau. Este investigador se propuso destruir la antigua creencia popular de que en los aos terminados en siete mora ms gente que en los restantes, y para lograrlo hurg pacientemente en los archivos parroquiales de la ciudad. Despus de revisar miles de partidas de defuncin pudo demostrar que en tales aos no fallecan ms personas que en los dems. Los procedimientos de Neumann fueron conocidos por el astrnomo ingls Halley, descubridor del cometa que lleva su nombre, quien los aplic al estudio de la vida humana. Sus clculos sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compaas de seguros. Durante el siglo XVII y principios del XVIII, matemticos como Bernoulli, Francis Maseres, Lagrange y Laplace desarrollaron la teora de probabilidades. No obstante durante cierto tiempo, la teora de las probabilidades limit su aplicacin a los juegos de azar y hasta el siglo XVIII no comenz a aplicarse a los grandes problemas cientficos. Godofredo Achenwall, profesor de la Universidad de Gotinga, acu en 1760 la palabra estadstica, que extrajo del trmino italiano statista (estadista). Crea, y con sobrada razn, que los datos de la nueva ciencia seran el aliado ms eficaz del gobernante consciente. La raz remota de la palabra se halla, por otra parte, en el trmino latino status, que significa estado o situacin; Esta etimologa aumenta el valor intrnseco de la palabra, por cuanto la estadstica revela el sentido cuantitativo de las ms variadas situaciones. Jacques Qutelet es quien aplica las Estadsticas a las ciencias sociales. Este interpret la teora de la probabilidad para su uso en las ciencias sociales y resolver la aplicacin del principio de promedios y de la variabilidad a los fenmenos sociales. Qutelect fue el primero en realizar la aplicacin prctica de todo el mtodo Estadstico, entonces conocido, a las diversas ramas de la ciencia. Entretanto, en el perodo del 1800 al 1820 se desarrollaron dos conceptos matemticos fundamentales para la teora Estadstica; la teora de los errores de observacin, aportada por Laplace y Gauss; y la teora de los mnimos cuadrados desarrollada por Laplace, Gauss y Legendre. A finales del siglo XIX, Sir Francis Gaston ide el mtodo conocido por Correlacin, que tena por objeto medir la influencia relativa de los factores sobre las variables. De aqu parti el desarrollo del coeficiente de correlacin creado por Karl Pearson y otros cultivadores de la ciencia biomtrica como J. Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron amplios estudios sobre la medida de las relaciones.
90
Los progresos ms recientes en el campo de la Estadstica se refieren al ulterior desarrollo del clculo de probabilidades, particularmente en la rama denominada indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido en la Fsica como resultado de las investigaciones atmicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las fsicas.
Etapas de Desarrollo de la Estadstica La historia de la estadstica est resumida en tres grandes etapas o fases. 1.- Primera Fase: Los Censos: Desde el momento en que se constituye una autoridad poltica, la idea de inventariar de una forma ms o menos regular la poblacin y las riquezas existentes en el territorio est ligada a la conciencia de soberana y a los primeros esfuerzos administrativos. 2.- Segunda Fase: De la Descripcin de los Conjuntos a la Aritmtica Poltica: Las ideas mercantilistas extraan una intensificacin de este tipo de investigacin. Colbert multiplica las encuestas sobre artculos manufacturados, el comercio y la poblacin: los intendentes del Reino envan a Pars sus memorias. Vauban, ms conocido por sus fortificaciones o su Dime Royale, que es la primera propuesta de un impuesto sobre los ingresos, se seala como el verdadero precursor de los sondeos. Ms tarde, Bufn se preocupa de esos problemas antes de dedicarse a la historia natural. La escuela inglesa proporciona un nuevo progreso al superar la fase puramente descriptiva. Sus tres principales representantes son Graunt, Petty y Halley. El penltimo es autor de la famosa Aritmtica Poltica. Chaptal, ministro del interior francs, publica en 1801 el primer censo general de poblacin, desarrolla los estudios industriales, de las producciones y los cambios, hacindose sistemticos durantes las dos terceras partes del siglo XIX. 3.- Tercera Fase: Estadstica y Clculo de Probabilidades: El clculo de probabilidades se incorpora rpidamente como un instrumento de anlisis extremadamente poderoso para el estudio de los fenmenos econmicos y sociales y en general para el estudio de fenmenos cuyas causas son demasiados complejas para conocerlos totalmente y hacer posible su anlisis. Conceptos bsicos Hemos visto ya cmo, superando una actividad al servicio gubernamental y enriquecindose con teoras como el clculo de probabilidades, la estadstica logr consolidarse para el siglo XIX como disciplina cientfica per se. Pese a ello, las posibilidades que esta ciencia ofrece para analizar y entender datos numricos han sido razn suficiente para que muchos otros campos sigan encontrando en ella una herramienta para alcanzar conclusiones y tomar decisiones. Variables
91
Cuando el cuestionar un fenmeno deriva en un estudio, lo primero que debe hacerse es definir el problema concreto y sugerir una hiptesis. sta puede contemplar que uno o ms elementos conforman dicho fenmeno o interactan con l, motivo por el cual ha de investigrseles. Sin importar la temtica del estudio, debe considerarse como constantes a los factores que se descubre son inmutables y como variables a todas las caractersticas cambiantes, porque demuestran poseer valores diferentes, sean nmeros resultantes de una medicin o nmeros asignados a partir de un conteo u otra pauta. Pero es precisamente esta sutil diferencia lo que permite especificar y clasificar el gnero y tipo de las variables a investigar: Variables cualitativas Variables que dan informacin respecto a los atributos de una entidad; razn por la que sus valores son nicamente categoras que no pueden ser medidas, slo contadas para encontrar su frecuencia. Nominales: Variables en las que slo se nombra o designa con etiquetas a las observaciones, por lo cual sus valores no pueden ser comparados o jerarquizados de forma alguna. Ejemplos: Sexo, nacionalidad, idioma y color de piel. Ordinales: Variables cuyos valores son categoras, las cuales pueden ordenarse de acuerdo a la relacin que exista entre ellas (de menor a mayor grado, por ejemplo) o a otro criterio cuya escala no es necesariamente precisa y/o equitativa. Ejemplos: Escolaridad, estado de salud y nivel socioeconmico.
Variables cuantitativas Variables que aportan informacin respecto a cantidades; por tal motivo su valor puede ser medido y representado numricamente. Discretas: Variables que, al poseer un nmero finito de valores posibles, muestran interrupciones en su escala. Es por ello que los nmeros de las variables cuantitativas discretas son generalmente enteros. Ejemplos: Nmero de personas y objetos. Continuas: Variables en cuyo intervalo posible existe un nmero infinito de valores; debido a ello pueden mostrar valores decimales o fraccionarios. Empero, cabe remarcar que las variables cuantitativas continuas terminan por ser registradas como discretas debido a las formas e instrumentos de medicin. Ejemplos: Peso, estatura, edad, dimetros y permetros antropomtricos.
Datos, investigacin y estadstica Decididos los factores a investigar (constantes y variables), es necesario recopilar informacin y datos sobre ellos. Una primera opcin es echar mano de fuentes como:
92
Registros: Cdulas, libros y dems formatos donde las instituciones registran su actividad cotidiana. Literatura: Informes, artculos y publicaciones en los que puede indagarse la respuesta dada a una pregunta para ver si es aplicable a la problemtica actual. Empero, cuando la informacin requerida no se halla disponible, no ha sido almacenada o no existe, uno deben generar sus propios datos mediante diversos procedimientos; entre ellos: Encuesta: Metodologa para recolectar informacin a travs de elementos como cuestionarios y entrevistas. Experimentacin: Proceso en que un fenmeno es recreado de manera controlada a fin de registrar sus resultados. La observacin de estos materiales o procesos tiene por resultado el registro de informacin que, al ser contada o medida, puede representarse con nmeros y conformar un grupo de datos. La simple necesidad de manejarlos sugiere entonces el uso de la estadstica descriptiva; es decir, el conjunto de tcnicas que esta disciplina posee para recolectar, organizar, resumir y analizar la informacin contenida en datos. Ahora bien, por cuestiones de tiempo, recursos o costo, las investigaciones pocas veces recaban informacin sobre la poblacin; esto es, el conjunto total de entidades de inters para su estudio, sean individuos, objetos o lugares. Los datos se obtienen entonces de muestras: subconjuntos o fracciones de la poblacin. Por ende, si el objetivo de la investigacin es, ms all de analizar un caso, estudiar un fenmeno, es la estadstica inferencial quien, basada en la teora de probabilidades (bajo el principio de que pese al azar es posible determinar un orden y regularidad en los procesos), permite hacer afirmaciones sobre la poblacin a partir de lo observado en una muestra. Cabe mencionar, sin embargo, que aun mantenindose en el nivel de la estadstica descriptiva, el objetivo de dicha metodologa es investigar y evaluar la naturaleza y el significado de los datos, razn por la cual, adems de dominar las tcnicas, cualquier usuario de la estadstica debe estar preparado para interpretar los nmeros y comunicar sus resultados. ORGANIZACIN Y ANLISIS DE VARIABLES A menos que sean muy pocos, los datos recolectados (crudos) no permiten determinar la informacin contenida en ellos. Para lograr su anlisis la estadstica ha propuesto una serie de tcnicas que, dependiendo del tipo de variable, echan mano de herramientas como tablas, grficas y ciertas medidas. A fin de revisar su aplicacin, en este captulo realizaremos algunos ejercicios con las observaciones recolectadas a travs de la cdula Autopercepcin, sexualidad y antropometra. Dicha encuesta fue aplicada a los alumnos del turno matutino y vespertino que asistieron a la materia de Estadstica (en la licenciatura de Antropologa fsica de la Escuela Nacional de Antropologa e Historia) en el periodo 2008-1. Para futuras referencias, la cdula y base de datos generada se anexan como apndices. Heramientas para el anlisis de variables cualitativas
93
Tablas de frecuencias Son tablas en las que seala: primero, cuntas veces aparece cada etiqueta de la variable a lo largo de toda la muestra; es decir, su frecuencia (simple). Despus, cul es su densidad; esto es, su frecuencia relativa: valor que puede calcularse dividiendo el nmero de casos observados entre el tamao de la muestra (n ) y que, multiplicado por cien, indica el porcentaje de la etiqueta respecto al total: VARIABLE Etiqueta 1 Etiqueta 2 Etiqueta 3 () Etiqueta n TOTAL FRECUENCIA # de casos # de casos # de casos # de casos Tamao de muestra (n ) FRECUENCIA RELATIVA PORCENTAJE
1.0000
En el caso de variables cualitativas ordinales tambin es posible obtener dos tipos de frecuencias ms: la frecuencia acumulada (que consiste en la suma de las frecuencias simples) y la frecuencia relativa acumulada (donde la frecuencia acumulada se divide entre el tamao de la muestra), siendo la ltima sumamente til cuando se desea encontrar la frecuencia total de los precedentes de una categora con el objetivo de reconocer el porcentaje de casos que se encuentran por debajo de su nivel: FRECUENCIA RELATIVA FRECUENCIA ACUMULADA FRECUENCIA RELATIVA ACUMULADA
VARIABLE FRECUENCIA Categora 1 Categora 2 Categora 3 () Categora Casos (c1 ) Casos (c2 ) Casos (c3 ) () Casos (c n ) Tamao de muestra (n )
(c1 n) (c2 n)
(c3 n )
()
[(c1 ) n]
(c1 ) + (c 2 ) n (c1 ) + (c 2 ) + (c3 ) n
()
n
TOTAL
(cn n )
1.00
1.00
Grficas de frecuencias
94
Otra forma de resumir y a la vez representar los datos de una variable cualitativa es a travs de grficos. Por tratarse de caractersticas cuyos valores son categoras con determinada frecuencia relativa se sugiere entonces el uso de grficas de barras o de grficas circulares: a) Grficas de barras: Las grficas de barras se caracterizan por construirse en base a dos ejes: en el horizontal (abscisas, X) se distinguen las categoras de la variable y a partir de l se construyen los rectngulos con la altura (frecuencia) que sta present, de acuerdo a la escala que se indica en el eje vertical (ordenadas, Y). Cabe remarcar ahora, dos cosas sobre este tipo de grficas: Las barras pueden estar separadas debido a que no hay continuidad entre las categoras. Se sugiere que las frecuencias utilizadas en la construccin del grfico sean las relativas, ya que estas permiten observar y comparar las proporciones o porcentajes que presentaron las categoras.
DISTRIBUCIN DE LA VARIABLE RIESGO DE PADECER ENF. CARDIOVASCULAR
Alumnos de estadstica 2008-1 (n=66)
80 76 60
Porcentaje
40
b) Grficas circulares: Por su parte, las grficas circulares son ms difciles de trazar manualmente, pues debe dividirse un crculo (100% = 360) de acuerdo al
porcentaje que cada categora mostr (K % = X ) y para ello, ms que una regla de tres, se requiere de un comps y un transportador. Pese a todo, las grficas circulares permiten comparar de manera mucho ms clara los porcentajes de las categoras.
DISTRIBUCIN DE LA VARIABLE RIESGO DE PADECER ENFERMEDAD CARDIOVASCULAR
Alumnos de estadstica 2008-1 (n=66)
Muy elevado
Elevado 16.7%
Por ltimo es necesario mencionar que, no importando cul sea el tipo de grfica, siempre debe aadirse al grfico un ttulo que d claridad a lo representado y hacer explcito el tamao de la muestra (n ) .
75.8%
Bajo
95
Tablas de contingencia Cuando lo que se desea es descubrir si entre dos variables cualitativas existe asociacin (y, dado el caso, su intensidad) se echa mano de las tablas de contingencia: tablas de dos entradas donde se colocan los datos cruzados de las variables; es decir, especificando en las celdas el nmero de casos que cumplen con ambas categoras:
VARIABLE DEPENDIENTE Categora Categora () B C
Categora
TOTAL
casos(1A) casos(2 A)
casos(1B ) casos(2 B )
casos(1C ) casos(2C )
() () () () ()
X casos(1X )
casos(1) casos(2)
casos(2 X )
casos(3 A)
()
casos(3B )
()
casos(3C )
()
casos(3 X )
()
casos(3)
()
n
TOTAL
casos(nA) casos( A)
casos(nB ) casos(B )
casos(nC ) casos(C )
casos(nX ) casos( X )
casos(n )
Tamao de la muestra
()
Sin embargo, interpretar un fenmeno a partir de los datos de las celdas es un error, pues el valor que stas presentan depende directamente de los casos observados en cada categora. Por ende, en vista de hacer conclusiones correctas es necesario obtener porcentajes (segn se requiera) a partir de una de las siguientes formas: Del total: Para obtener estos porcentaje se divide el valor de la celda entre el tamao total de la muestra (celda n ) . No obstante, al igual que los valores reales, dichos porcentajes no proporcionan mucha informacin ya que se ven afectados por el nmero de casos presente en cada categora. Por columnas: Porcentajes que se obtienen dividiendo el valor de la celda entre el total de cada columna [celda (n )columna], permitiendo comparar, para cada categora de la variable independiente, las categoras de la variable dependiente. Por renglones: Porcentajes que se obtienen dividiendo el valor de la celda entre el total de cada regln [celda (n )regln] , lo cual permite, por ende, comparar cada categora de la variable dependiente entre las categoras de la independiente.
Aunque pudiera parecer indistinto el uso de porcentajes por columna o por rengln, ste ltimo resulta ms fcil de interpretar y, debido a la estructura de la tabla, permite analizar de manera ms adecuada si alguna caracterstica posee relacin con una variable independiente.
96
Grficas de anlisis bivariado Hemos visto ya que las tablas de contingencia permiten descubrir la asociacin entre dos variables cualitativas. No obstante, el nmero de datos y porcentajes obtenidos a partir de ellas pueden confundir a cualquier lector; veamos entonces qu alternativas grficas tenemos para representar sus resultados: a) Grficas de barras: Una opcin es, de nuevo, el uso de grficas de barras. No obstante, el representar dos variables genera un cambio en su construccin: la variable dependiente se estipula en el eje de las abscisas y, en vez de construir una barra para cada una de sus categoras, deben construirse tantas barras como clases tiene la variable independiente.
DISTRIBUCIN DE LA VAR. RIESGO DE PADECER ENFERMEDAD CARDIOVASCULAR POR SEXO
Alumnos de estadstica 2008-1 (n=66)
100
88
80
Porcentaje
60
68
40
Sexo
22 8 10
20 0 Bajo
Femenino Masculino
Elevado
Muy elevado
b) Grficas de lneas: Al igual que en la grfica de barras, la variable dependiente se ubica en el eje de las abscisas y la frecuencia en el de las ordenadas. Pero en vez de tener que construir tantas barras, basta con separar las categoras de la variable independiente, ubicar con un punto los porcentajes que cada una mostr respecto a las categoras de la variable dependiente y unir estas marcas mediante una lnea. Esto permite no slo simplificar el copioso nmero de barras a tantas lneas como categoras tiene la variable independiente, sino adems observar de manera ms clara cualquier tendencia en la asociacin.
97
80
Porcentaje
60
40
Sexo
Femenino Masculino Elevado Muy elevado
20 0 Bajo
Heramientas para el anlisis de variables cuantitativas Arreglo ordenado El primer paso para organizar y analizar las variables cuantitativas es, sin duda alguna, ordenar los datos de manera creciente, pues la lista resultante nos permitir encontrar los valores extremos que la variable analizada mostr.
Intervalos de clase Sean discretas o continuas, las variables cuantitativas poseen un sinfn de valores posibles, cuya frecuencia en un conjunto de datos suele ser muy baja. Dado que su organizacin en una tabla de frecuencias no permite sacar conclusiones, la estadstica ha encontrado que la mejor forma de analizarlos es agrupar sus valores en clases (tambin conocidas como intervalos) a travs de los siguientes pasos: 1) Establecer el rango (R ) : El rango es la diferencia entre el valor ms pequeo y el ms grande observados en un conjunto de datos, razn por la cual ste puede calcularse haciendo una simple resta: Rango = Valor mayor valor menor, que de ahora en adelante simplificaremos como:
R = Vmax Vmin
Aunque dicha expresin aplica para la mayora de los casos, si en la muestra se observan datos atpicos es mejor excluirlos del clculo y dejar abiertos los intervalos. 2) Estipular el nmero de intervalos de clase (ni ) : Se entiende por intervalo de clase al subconjunto del rango que contiene varios valores; es decir, los grupos en que se categorizan los valores de la variable. Si bien existen muchas reglas para definir su nmero, en este manual se sugiere que no sean ms de cinco si los datos son menos de doscientos (n < 200) .
98
3) Calcular el ancho del intervalo (W ) 1: El ancho del intervalo es la diferencia entre el lmite inferior de un intervalo y el lmite inferior del intervalo siguiente; por otro lado, su valor es el cociente del rango entre el nmero de intervalos:
W =R
ni
4) Definir los intervalos: Calculado lo anterior, resta hacer explcitos los intervalos:
4.1) Defnanse primero los lmites inferiores de cada intervalo: El primero es el valor ms pequeo observado entre los datos, el segundo ese valor ms el ancho del intervalo, el tercero ese valor ms dos anchos de intervalo y as consecutivamente:
LMITE INFERIOR
n1 n2 n3 n4 n5
4.2) Defnanse despus los lmites superiores de cada intervalo: El lmite superior de cada intervalo debe ser justo menor al lmite inferior del siguiente intervalo con el fin de evitar que un dato pueda considerarse en dos clases. Una opcin para lograr esto es hacer que el ltimo decimal del lmite superior sea una cifra menor al ltimo decimal del lmite inferior del siguiente intervalo. No obstante, la mejor alternativa es utilizar corchetes y parntesis: smbolos matemticos que, en un intervalo, sealan cuando un valor debe o no tocarse, respectivamente: INTERVALO DE CLASE (ni )
LMITE INFERIOR
n1 n2 n3 n4 n5
Tablas de frecuencias
[Vmin
LMITE SUPERIOR
Igual que las tablas de frecuencias de las variables cualitativas de tipo ordinal, las tablas de frecuencias para las variables cuantitativas estn conformadas por cinco columnas: la primera hace referencia al intervalo y las otras cuatro a las frecuencias de ste: VARIABLE FRECUENCIA FRECUENCIA RELATIVA FRECUENCIA ACUMULADA FRECUENCIA RELATIVA
99
Casos (n1 ) Casos (n2 ) Casos (n3 ) () Casos (nn ) Tamao de muestra (n )
(n1 n ) (n2 n)
(n3 n )
()
ACUMULADA
n (n1 ) + (n 2 ) + (n3 ) n
()
[(n1 ) n] (n1 ) + (n 2 )
n
TOTAL
(nn n )
1.00
1.00
Histogramas Histograma es el nombre que se da a las grficas de barras que se utilizan para representar grficamente las variables cuantitativas. Aunque programas como el SPPS generan dichos grficos considerando en el eje de las ordenadas a las frecuencias simples, nosotros optaremos por realizar histogramas de frecuencias relativas con el fin de analizar mejor las variables respecto a la muestra. De cualquier forma, las barras de este tipo de grficas son adyacentes ya que, con saltos en su escala o no, las variables cuantitativas poseen valores con un orden continuo.
Porcentaje
20
20
20 16 16
10
0
24 9.3 22 8 .3 22 6.3 20 20 3.3 18 5 .3 4 .4 26 2.4 24 5+ .4 26
Edad exacta
1 .4
Polgonos de frecuencia Los polgonos de frecuencia son grficas de tipo lineal que tambin permiten reconocer la distribucin de frecuencia de una variable cuantitativa. Su construccin requiere ubicar la interseccin entre la frecuencia relativa de cada intervalo y las MARCAS DE CLASE; es decir, los valores situados exactamente a la mitad de cada intervalo. Una vez que se
100
marcan dichas intersecciones, stas se unen mediante una lnea que se extiende hasta tocar el eje de las abscisas en ambos extremos para delimitar un polgono. El rea de ste es igual al rea que ocupan las barras de un histograma, razn por la cual un polgono de frecuencia se interpreta igual que aqul, pero su ventaja es que, al ocupar menos espacio, permite comparar diferentes grupos respecto a una variable.
DISTRIBUCIN DE HOMBRES POR EDAD EXACTA Alumnos de estadstica 2008-1 (n=25)
30.00% 25.00% 20.00% 15.00% 10.00% 5.00% 0.00% 18.33 20.35 20.36 22.38 22.39 24.41 24.42 - 26.45 + 26.44
Porcentaje
Edad exacta
Ojivas Finalmente tenemos a las ojivas, grficos lineales que muestran de manera ms clara la tendencia de una variable y nos permiten inspeccionar visualmente el porcentaje de casos menores o mayores a uno de sus valores (no necesariamente presente en los datos). Debido a esto, las ojivas contemplan en el eje de las ordenadas la frecuencia relativa acumulada (o porcentaje acumulado) y los lmites de los intervalos en el eje de las abscisas: a) Ojivas menos de: Son las que permitan ubicar el porcentaje de casos menores a un valor, por tal motivo, su trazo e interpretacin implica la siguiente metodologa: 1) Reconocer los lmites de los intervalos: De manera ms especfica. distinguir el valor del lmite inferior de cada intervalo (L inf i ) . 2) Observar las frecuencias de los intervalos: Advertir la frecuencia acumulada y relativa acumulada antes de cada intervalo (ni ) . INTERVALOS FRECUENCIA FREC. RELATIVA FREC, ACUMULADA FREC. REL. ACUMULADA
n n
1.0000
1.0000
101
3) Construir una tabla con los datos para la ojiva: En esta tabla debe sealarse las frecuencias anteriores, cada una con la etiqueta correspondiente Menos de L inf i . Ntese que las frecuencias acumuladas van en aumento y que: VARIABLE Menos de FREC. ACUMULADA FREC. REL. ACUMULADA
L inf1
Menos de
L inf 2
Menos de
L inf 3
() Menos de
+
()
+
()
L inf n
Menos de
+
n
+
1.0000
Si el primer intervalo era abierto, debe considerarse una categora para las frecuencias acumuladas hasta su lmite inferior (lo cual normalmente deviene en 0 y 0%) Si el primer intervalo era cerrado, puede iniciarse las categoras registrando las frecuencias acumuladas hasta el segundo intervalo.
> L inf n
Si el ltimo intervalo fue cerrado, basta registrar las frecuencias acumuladas hasta el penltimo intervalo. Si el ltimo intervalo era abierto, debe considerarse adems una categora de las frecuencias acumuladas para el resto de sus valores (que deben corresponder al tamao de la muestra y al 100% del total).
4) Trazar la ojiva:
OJIVA MENOS DE EDAD (n=95,429,611)
120 100
Calculado esto se traza una grfica de dos ejes: en el de las abscisas se indican los lmites inferiores de los intervalos y en el de las ordenadas se elabora la escala para la frecuencia relativa acumulada. Hecho esto, se seala con un punto la frecuencia de cada categora Menos de L inf i y se les une mediante una lnea, que siempre es creciente:
Porcentaje acumulado
80
60
40
20 0 10 20 30 40 50 60 70 Ms
Edad
5) Ubicar el porcentaje menor a un valor: Finalmente, para calcular el porcentaje de casos menores a un valor se eleva una lnea vertical desde la posicin de ste (en el eje de las abscisas) hasta la ojiva, y de ah se tiende una lnea perpendicular hasta el eje de las ordenadas. Dicha lnea horizontal cruzar el eje vertical, de manera aproximada, a la altura del porcentaje buscado:
102
b) Ojivas ms de: Ojivas que hacen posible ubicar el porcentaje de casos mayores a un valor al indicar en el eje de las abscisas los lmites superiores de los intervalos. Su construccin, por ende, implica seguir una metodologa diferente a la que vimos anteriormente: 1) Reconocer los lmites de los intervalos: De manera ms especfica. distinguir el valor del lmite superior de cada intervalo (L sup i ) . 2) Observar las frecuencias de los intervalos: Observar la frecuencia simple de cada intervalo (ni ) . INTERVALOS FRECUENCIA FREC. RELATIVA FREC, ACUMULADA FREC. REL. ACUMULADA
n n
1.0000
1.0000
3) Construir una tabla con los datos para la ojiva: En esta tabla cada categora Ms de L sup i implica ir restando la frecuencia simple del intervalo previo. VARIABLE Ms de FREC. ACUMULADA FREC. REL. ACUMULADA
Vmin
Ms de
+
+
+
+
+
+
103
L sup1
Ms de
L sup 2
() Ms de () ()
Vase que:
La primer categora es Ms que Vmin , ya que el valor ms Fn Frel n L sup n pequeo que se haya observado deja a todos los casos (100.00%) por encima de l. Su frecuencia acumulada es, por ende, igual al tamao de la muestra (n ) .
Para obtener las frecuencias de los siguientes renglones basta ir restando, a la frecuencia acumulada de la categora anterior, la frecuencia simple del intervalo cuyo lmite superior se us. Por ejemplo, para obtener la frecuencia acumulada de la categora Ms de L sup1 restamos al tamao de la muestra la frecuencia simple
L sup 2 restamos a la frecuencia acumulada de Ms de L sup1 la frecuencia simple del intervalo 2 (n2 ) . Y as consecutivamente, hasta que la frecuencia
acumulada y frecuencia acumulada relativa de la ltima categora coinciden con la frecuencia simple y la frecuencia relativa del ltimo intervalo ( Fn y Frel n ). En cuanto a las frecuencias relativas acumuladas no hay problema alguno, pues como siempre se calculan dividiendo el valor de la frecuencia acumulada entre el total de observaciones.
OJIVA MS DE EDAD (n=95,429,611)
Porcentaje acumulado 120% 100% 80% 60% 40% 20% 0% Ms de Ms de Ms de Ms de Ms de Ms de Ms de Ms de 0 9 19 29 39 49 59 69 Edad
4) Trazar la ojiva: Este paso es igual al de las ojivas menos de con excepcin que en el eje de las abscisas se indican los lmites superiores de intervalos y que lnea resultante (por su interseccin con la frecuencia acumulada) es siempre decreciente:
de los
5) Ubicar el porcentaje mayor a un valor: Para encontrar dicho porcentaje debe tambin elevarse una lnea vertical a partir del valor y trazarse la perpendicular hasta el eje de las ordenadas.
Ejemplos de aplicacin
104
1. En 2001 el Instituto Nacional de Estadstica, Geografa e Informtica (INEGI) y diversos investigadores de las Universidades de Pennsylvania, Maryland, y Wisconsin de los Estados Unidos de Norteamrica aplicaron la primera encuesta del Estudio Nacional sobre Salud y Envejecimiento en Mxico (ENASEM-2001), investigacin con que se busca crear una base inicial de datos de la que se pueda obtener informacin sobre caractersticas diversas de la poblacin de 50 aos y ms residente en Mxico, cuyos resultados sean representativos a nivel nacional2. Entre las caractersticas a investigar se hallaba el sexo y alfabetismo del individuo; variables que entre la muestra de indgenas (n = 796) tuvieron los siguientes resultados: VARIABLE Masculino Femenino Alfabeta ALFABETISMO No alfabeta3 SEXO 405 391 487 309
a.1 y a.2) Construir una tabla de frecuencia y grfica circular para cada variable. b) Si 289 de los hombres eran alfabetos y de las mujeres 198 tambin, comprobar si existe una asociacin entre ambas variables mediante una tabla de contingencia y una grfica de barras. Para resolver el primer inciso ordenamos los datos de cada variable y obtenemos entonces sus frecuencias relativas y los porcentajes que stas implican. SEXO Masculino Femenino TOTAL ALFABETISMO Alfabeta No alfabeta TOTAL FRECUENCIA 405 391 796 FRECUENCIA 487 309 796 FRECUENCIA RELATIVA PORCENTAJE 50.88 49.12 100.00 PORCENTAJE 61.18 38.82 100.00
a.1) De acuerdo a las frecuencias obtenidas podemos afirmar que, en la muestra de indgenas de 50 aos o ms, se encuestaron y entrevistaron a ms mujeres que a hombres. Por otro lado, el porcentaje de personas que saban leer y escribir un recado (alfabetos) era 1.6 veces mayor [(61.18 38.82) = 1.6] .
s/a, 2004. Estudio Nacional de Salud y Envejecimiento en Mxico (ENASEM) 2001. Documento metodolgico y reporte de proyecto. Formato electrnico: http://www.mhas.pop.upenn.edu/english/documents/Methodological/Doc_metodologico-v2.pdf 3 Segn la afirmacin de que no saban leer ni escribir un recado.
105
Ahora bien, generamos las grficas circulares para dichas variables: FUENTE: Estudio Nacional sobre Salud y Envejecimiento en Mxico (ENASEM), 2001
DISTRIBUCIN POR SEXO
Indgenas de 50 aos o ms (n=796)
a.2) Si bien el porcentaje femenino era mayor, ms que las frecuencias, la grfica nos permite ver que no hubo una gran diferencia en la cantidad de mujeres y hombres encuestados. Por el contrario, aunque aqu la diferencia en el alfabetismo no es tan fuerte como en la comparacin numrica, la grfica comprueba un mayor porcentaje de alfabetas. Ahora, para analizar si existe una asociacin entre las variables, construimos la tabla de contingencia: ALFABETISMO Alfabeta No alfabeta 289 198 487 309 TOTAL 405 391 796
SEXO
Como no se hicieron explcitas las frecuencias de los casos que no saban leer ni escribir un recado, basta realizar un par de restas al nmero total de casos de cada sexo para obtenerlos: 405 289 = 116 y 391 198 = 193 ; valores que suman el total de casos no alfabetas: 116 + 193 = 309 Una vez calculado esto, terminemos de elaborar la tabla y saquemos los porcentajes por rengln: ALFABETISMO ALFABETISMO Alfabeta No alfabeta 289 116 Masculino 28.64% 71.36% SEXO 198 193 Femenino 50.64% 49.36% 487 309 TOTAL TOTAL 61.18% 38.82% TOTAL 405 100% 391 100% 796 100%
106
El porcentaje de alfabetismo es mayor en el sexo masculino, mientras que el porcentaje de analfabetismo es mayor en el femenino. Tal distribucin puede deberse a una cuestin genrica; es decir, cultural, pues al menos en dcadas atrs se daba prioridad a que los hombres fueran a la escuela para prepararse, mientras que las mujeres se quedaban en casa a fin de ayudar con las labores domsticas.
Porcentaje
51 40
49
20
29
Sexo
Masculino
0 Alfabeta No alfabeta
Femenino
Alfabetismo
Las barras muestran las diferencias entre el alfabetismo femenino y masculino. Incluso cuando la causa sea diferente a la planteada anteriormente, este grfico confirma tambin una asociacin entre las variables.
2. Otra de las cuestiones a estudiar en el ENASEM-2001 fue la salud del individuo y su autopercepcin de sta; por tanto, una de las variables consideradas fue si el encuestado tena o no dificultades para caminar de un lado a otro de su cuarto. He aqu los resultados de hombres y mujeres por grupo quinquenal: HOMBRES Con Sin dificultad dificultad 17 1598 26 1459 33 1116 46 998 72 638 54 476 129 370 MUJERES Con Sin dificultad dificultad 44 1927 46 1686 49 1326 46 981 60 641 61 441 202 422
a) Determinar mediante una grfica de lneas si existe alguna asociacin entre estas variables.
107
Como el inters reside en averiguar si existe asociacin entre la edad y la dificultad para caminar (presencia de una caracterstica), slo graficaremos los porcentajes correspondientes a sta separando los datos por sexo.
DIFICULTAD PARA CAMINAR POR GPO. QUINQUENAL Y SEXO
Indgenas de 50 aos o ms (n=796)
50
40
Porcentaje
30
20
Sexo
Masculino Femenino 55-59 60-64 65-69 70-74 75-79 80+
10 0 50-54
Grupo quinquenal
a) La grfica de lneas nos muestra que efectivamente existe una asociacin directa entre el grupo quinquenal y los problemas para caminar; pues a mayor edad los sujetos aseguraron tener ms dificultad en hacerlo. En cuanto a la comparacin por sexo, ms mujeres afirmaron padecer este problema a edades menores y mayores que los hombres.
3. De acuerdo a los Programas Integrados de Salud (PREVENIMSS) del Instituto Mexicano del Seguro Social (IMSS), hay dos tipos de distribucin de grasa en el organismo que se asocian a la aparicin de enfermedades: 1. Ginecoide (en forma de pera): Acumulacin de grasa en muslos y cadera que deriva usualmente en vrices y dolor de rodillas. 2. Androide (en forma de manzana): Distribucin de grasa al nivel de la cintura que predispone al desarrollo de diabetes, cncer de colon, mama o endometrio; elevacin del colesterol y triglicridos (grasas en sangre), infartos, embolias y muerte prematura por enfermedad cardiovascular4. Ante dicha circunstancia, el IMSS sugiere que las personas estn al pendiente de sus medidas; especialmente de la circunferencia de su cintura, y la interpreten de acuerdo a la siguiente tabla a fin de tomar acciones preventivas en caso necesario: CIRCUNFERENCIA DE CINTURA (cm.) MUJERES HOMBRES Menor de 80.0 Menor de 94.0
4
IMSS, 2005. Prevencin, deteccin y control de sobrepeso y obesidad en Gua de la salud de la mujer, 36-42 p.p. Documento electrnico: http://www.imss.gob.mx/NR/rdonlyres/E36D4BB0-C252-4B7C-A44E6DE664C76609/0/GCSmuj3150.pdf
108
Basndose en esta informacin: a) Construir una tabla de frecuencias, histograma y ojiva con los datos de Permetro de la cintura recolectados entre los estudiantes de estadstica (por sexo) para reconocer la distribucin de esta variable y analizar si existen casos con riesgo. Para empezar, ordenemos los datos y definamos los cinco intervalos sin considerar ningn caso como atpico: MUJERES - PERMETRO DE CINTURA
556 599 599 605 606 640 643 645 649 653 654 655 655 659 660 664 686 691 703 703 712 719 735 736 738 745 750 750 754 765 770 784 786 820 831 837 850 859 881 906 946
W = 390 = 78 5
W = 383 = 76.60 5
Si bien pareciera existir un rango mayor en las medidas del permetro de cintura femenino, esto se debe a las unidades. Si convertimos dichos valores a la escala ms comn (centmetros) el rango del permetro de cintura masculino fue slo 0.7 centmetros menor que el femenino. Especifiquemos ahora los intervalos para hacer las tablas de frecuencia y los histogramas correspondientes: PER. CINTURA MUJERES 556-633 634-711 712-789 790-867 868-946 TOTAL FRECUENCIA 5 15 13 5 3 41 FREC. RELATIVA 0.1220 0.3659 0.3171 0.1220 0.0732 1.00 FREC. ACUMULADA 5 20 33 38 41 FREC.REL. ACUMULADA 0.1220 0.4878 0.8049 0.9268 1.00
109
20
10
12
12 7
Gracias a las tablas de frecuencia y el histograma podemos ubicar que, para el sexo femenino, el mayor nmero de alumnas se encontraba en los intervalos 2 y 3 (634-711 y 712-789), medidas que de acuerdo a la tabla del IMSS no corren riesgo; de hecho, el 80.49% de las mujeres tena una permetro de cintura menos a 79.0 centmetros. No obstante, se registr un 12.20% de las alumnas con circunferencia de 79 a 86.7 centmetros y un 7.32% con permetro entre 86.8 y 94.6 centmetros. Ya veremos en las ojivas si los casos de estos intervalos caen en las categoras de riesgo.
Porcentaje
Permetro de cintura
FRECUENCIA 12 5 4 3 1 25
FREC. ACUMULADA 12 17 21 24 25
Porcentaje
40 30 20
20
10 0 697-773.5 773.6-850.1
16 12
En cuanto al sexo masculino, el mayor porcentaje (48.00%) se registr en el intervalo ms pequeo (697-773.5) y ms de la mitad de los hombres (68.00%) tuvo un permetro de cintura menor a los 85 centmetros. Pese a esto, un 12.00% entr en el intervalo 926.81003.3 y un 4.00% en el intervalo ms grande (10003.4-1080), as que antes de consultar directamente los datos usaremos la ojiva para ver si sus valores caen o no en las categoras de riesgo.
850.2-926.7
926.8-1003.3
1003.4-1080
Construyamos entonces las tablas necesarias para trazar las ojivas. Ntese que, como los intervalos fueron cerrados, podemos utilizar el lmite superior de los ltimas clase con el objetivo de delimitar cuando el porcentaje llega a cero:
Permetro de cintura
110
36 21 8 3 0
Esta tabla seala que un 7.32% de los casos posea un permetro de cintura mayor a 867 milmetros; medida que, al superar los 80.0 centmetros, indica que tales alumnas corran algn tipo de riesgo (todava indiferenciado).
Ahora bien, la ojiva sugiere que menos de un 20% (lnea azul claro) tena una circunferencia mayor a 80.0 centmetros y que el permetro de aproximadamente un 10% era mayor a 88 centmetros . Si corroboramos dicha afirmacin con los datos tenemos que 8 casos (19.51%) cumplan con la primer afirmacin y 3 observaciones (7.32%) con la segunda.
Para ir por
orden de riesgo primero observemos el grfico: la ojiva seala que aproximadamente un 15.0% de los hombres corra un riesgo elevado ya que tena una circunferencia mayor a 94 centmetros; estimacin no muy alejada al porcentaje real: 12.0% (3 casos). Por otro lado, si bien la tabla manifiesta que el caso del ltimo intervalo tenan un permetro mayor a 1003.3, la ojiva confirma que su valor (1080) caa en la zona de riesgo elevado.
111
De acuerdo al IMSS, a los siete casos con riesgo elevado (cinco mujeres y 2 hombres) se les debi sugerir disminuir los alimentos ricos en grasa, colesterol y azcares refinados, adems de realizar ejercicio aerbico por lo menos sesenta minutos. En tanto que los cuatro casos con riesgo muy elevado (tres mujeres y un hombre) deban urgentemente disminuir su peso corporal, cambiar los malos hbitos de alimentacin y realizar tambin sesenta minutos de ejercicio aerbico como mnimo.
Moda X , x
La moda es el valor que se presenta con mayor frecuencia en una serie de observaciones. Esta medida es, por tanto, ideal para encontrar la categora representativa en una serie de datos cualitativos. No obstante, es poco confiable cuando se manejan variables cuantitativas ya que, si todos los valores son diferentes o si son varios los valores que se repiten (con la misma frecuencia) ha de concluirse que los datos no tienen moda o que el conjunto es multimodal. De cualquier forma ha de sealarse que, para denotar su valor, basta aadir un acento circunflejo (^) a la letra con que se design la variable: PARMETRO ESTADSTICO
x Mediana ( X , ~ )
~
La mediana es el valor intermedio de un conjunto de datos cuantitativos ordenados de forma creciente o decreciente. Si el total de datos es un nmero non, la mediana es el valor que se encuentra justo a la mitad de la lista, en tanto que si el total de datos es un nmero par, la mediana es el promedio de los datos centrales:
NON
PAR
x (1)
x (1)
112
x(2 )
x(2 )
Mediana
x (3 )
x (3 )
x(4 ) x (5 )
x(4 ) x (5 ) x (6 )
Mediana
Ahora bien, si el nmero de observaciones impide reconocer visualmente la mediana, su valor puede encontrarse de la siguiente manera: a) Si el total de observaciones es un nmero impar, el valor de la mediana es igual al del dato cuya posicin es
n + 0.5 . 2 n 2 n + 1 . 2
b) Si el total de observaciones es un nmero par, el valor de la mediana es el promedio de los datos que estn en las posiciones y
Explicado eso puede afirmarse que la mediana (sealada con una tilde ~) es una medida de tendencia central muy fcil de calcular cuyo valor, al ser nico, resulta sumamente til para indicar (por posicin) el promedio de un conjunto de datos cuando stos presentan cierta simetra o incluyen valores extremos. PARMETRO
~ X
ESTADSTICO
~ x
Media (aritmtica) ( , x ) La media es, sin duda alguna, la medida de tendencia central ms utilizada en la estadstica descriptiva de variables cuantitativas. Si bien su parmetro se representa con la letra griega (Mi), su estadstico se seala agregando una barra horizontal sobre la letra de la variable: PARMETRO ESTADSTICO
xi
i =1
x=
x
i =1
Como puede verse, la media es simplemente el producto de sumar todos los valores observados y dividir el resultado entre el nmero total de datos5. Es decir, a diferencia de la mediana, la media es un promedio que toma en cuenta todas las observaciones; sin
A diferencia de la moda y la mediana, la media es la nica medida de tendencia central que, por su clculo aritmtico, puede obtenerse con ayuda de la calculadora. Slo es necesario ingresar los datos en el modo estadstico y acceder a la funcin x .
113
embargo, dicha caracterstica implica que su clculo pueda verse afectado por valores extremos al grado de provocar que su valor no sea verdaderamente representativo.
Medidas de dispersin An cuando las medidas anteriores nos permiten encontrar los valores centrales de un conjunto de datos, poco dicen sobre el resto de las observaciones: si son parecidas o difieren por mucho. Precisamente para reconocer dicha variabilidad en la distribucin de una variable es que la estadstica ha propuesto las medidas de dispersin6, entre ellas: Rango (R ) Como vimos en el captulo anterior, el rango es la diferencia entre el valor ms pequeo y el ms grande en un conjunto de datos:
R = Vmax Vmin
La sencillez del clculo de esta medida de dispersin (que echa mano de slo dos observaciones) es, sin embargo, contrarrestada por su deficiencia en la explicacin de la variabilidad, que se limita a la diferencia ms general. Debido a esto es que, para comprender la cantidad total de variabilidad y resumirla en un solo nmero es preciso sacar el promedio de la desviacin de los datos con respecto a su media:
Dispersin =
(X
i =1
x)
Esta frmula, empero, no funciona porque, como veremos a continuacin, la suma de las desviaciones de los datos respecto a la media es siempre igual a cero:
(X
i =1
i n
x) = Xi x
i =1 i =1 n n
Porque
n
( X i + Yi ) = X i + Yi
i =1 i =1 i =1
(X
i =1
x ) = X i xn
i =1 n
Porque
n
C = cn
i =1
(X
i =1
6
x ) = xn xn
Tales medidas slo deben aplicarse cuando los datos son distintos, pues si el valor de todas las observaciones fuera idntico no habra variabilidad.
114
Porque
x=
X
i =1
n
n
X i = xn
i =1
(X
i =1
x) = 0
Dispersin =
0 =0 n
A fin de salvar este problema, el resto de las medidas de dispersin ocupa entonces una serie de estrategias para transformar las desviaciones de los datos en distancias, cuyo valor es siempre positivo o igual a cero. Desviacin media (DM , dm) La desviacin media, por ejemplo, es la medida de dispersin que obtiene el promedio de las desviaciones de los datos en valor absoluto: PARMETRO ESTADSTICO
DM =
i =1
Xi N
dm =
X
i =1
No obstante, como el valor absoluto es una funcin f ( x ) = x que no tiene propiedades algebraicas para realizar desarrollos matemticos inferenciales, la desviacin media es una medida de dispersin que no se utiliza en la prctica.
Varianza 2 , s 2
La varianza es la medida de dispersin que, para evitar los signos de las desviaciones, saca el promedio7 de las diferencias de los datos respecto a su media elevadas al cuadrado: PARMETRO ESTADSTICO
El promedio se obtiene dividiendo entre n 1 de acuerdo a los principios tericos de los grados de libertad: Basa conocer los valores de n 1 de las desviaciones, pues el n simo valor queda automticamente determinado por la restriccin de que todos los valores de n suman siempre cero.
7
115
2 =
(X
i =1
s2 =
(X
i =1
x)
n 1
Desgraciadamente, elevar al cuadrado las desviaciones conlleva a elevar al cuadrado sus unidades. Desviacin estndar (tpica) ( , s ) La desviacin estndar es simplemente la raz cuadrada de la varianza: PARMETRO ESTADSTICO
2 (X i ) i =1
s=
(X
i =1
x)
n 1
A sabiendas de que sta es la medida de dispersin ms utilizada y que el clculo de cada desviacin es laborioso, ofrecemos aqu una expresin alternativa para la obtencin de su estadstico: Primero desarrollemos el binomio
(X
i =1 n
x) :
2 n n
(X
i =1
x ) = X i2 2X i x + x 2
2 i =1 i =1 i =1
(X
i =1 n
x ) = X i2 2 x X i + x 2 n
2 i =1 i =1 n
Porque
CX i = C X i
i =1 i =1
C = cn
i =1 n
(X
i =1
x ) = X i2 2 x ( x n ) + x n
2
Porque
x=
X
i =1
i =1 n
X i = xn
i =1
(X
i =1
x ) = X i2 2 x 2 n + x n
2 i =1
116
(X
i =1
x ) = X i2 x 2 n
2 i =1
Basado en esto tenemos que una forma ms sencilla de calcular manualmente8 la desviacin estndar es a travs de la siguiente expresin: ESTADSTICO
s=
X
i =1
2 i
nx 2
n 1
Finalmente, sin importar el mtodo utilizado para su clculo, debemos remarcar que el obtener la raz cuadrada de la varianza implica regresar a las unidades originales. La desviacin estndar, por tanto, puede interpretarse literalmente como el promedio de la desviaciones de los datos respecto a la media: el que su valor sea muy pequeo indica que las observaciones estn muy cerca de esta medida de tendencia central; en tanto que un valor grande seala que los datos se hallan muy dispersos y que la media pudiera no ser un valor realmente representativo del conjunto. Medidas de posicin Otra forma de analizar la distribucin de una variable son las medidas de posicin: nmeros que sirven para descubrir la localizacin de un dato especfico con respecto el resto de la muestra.
Percentiles (centiles)
Son nmeros que dividen al conjunto de datos en cien partes iguales, motivo por el cual existen noventa y nueve percentiles que se designan mediante la letra Pk , donde el subndice k indica el centil al que se hace referencia.
En cualquier caso, el k simo percentil (Pk ) es un valor de X tal que k % o menos de las
8
Igual que la media, el valor de la desviacin estndar de un conjunto de observaciones puede obtenerse mediante las funciones n 1 s x de la calculadora una vez que se han ingresado los datos en el modo
estadstico.
117
observaciones son menores que l y (100 k )% o menos de las observaciones son mayores a k ; razn por la que los percentiles permiten descubrir si hay casos extremos en un conjunto de datos. Dicho esto, si el nmero total de datos (n ) es el 100%, la forma ms sencilla de encontrar
el nmero k que deja, a los ms, al k % por debajo de l y al (100 k )% por encima de l es:
nk =X 100
El valor descubierto, empero, slo representa la posicin que ocupa el percentil en el conjunto de datos ordenados. Por ende, el percentil es en realidad el valor del dato que se encuentra en la posicin X 9. Cuartiles Los cuartiles son tres nmeros que dividen a los datos ordenados en cuatro partes iguales. Sus valores, por tanto, pueden hacerse equivalentes a los de cuatro percentiles: PERCENTIL CUARTIL Primer cuartil DEFINICIN Nmero respecto al que 25% de los datos son menores que l. Nmero que divide al conjunto de datos exactamente en dos partes, dejando una mitad con valores menores y otra mitad con valores mayores. Su valor, por tanto, es igual al de la mediana de un conjunto de datos. Nmero que deja al 75% de los datos con un valor menor al suyo.
P25
(q1 )
P50
Segundo cuartil
(q2 = ~ ) x
(q3 )
P75
Tercer cuartil
Como su ubicacin es mucho ms precisa, los cuartiles no sirven para analizar casos extremos; no obstante, se utilizan para designar ciertas posiciones cuando se elabora una grfica de caja.
Grficas de caja Las grficas de caja (tambin conocidas como diagramas de caja y bigotes) son grficos que muestran la distribucin de una variable. Veamos los pasos necesarios para construirlas:
118
1) ORDENAR LOS DATOS Y UBICAR VALORES CLAVE: Los primero que debe hacerse es ordenar los datos para reconocer los valores mnimo, mximo y de los tres cuartiles: Vmin, q1 , q 2 , q 3 , Vmax .
2) CONSTRUIR EL ESPACIO GRFICO: Es decir, trazar dos ejes: en el de las ordenadas se seala la variable y su escala, y en el de las abscisas se indica el grupo de estudio . 3) TRAZAR LA CAJA: Hecho eso se traza un rectngulo (caja): si bien su ancho no importa, su altura debe corresponder a la distancia del primer al tercer cuartil (q1 q3 ) . 4) UBICAR LA MEDIANA: Posteriormente se divide al rectngulo mediante una lnea a la altura del segundo cuartil (q 2 ) . 5) TRAZAR LOS BIGOTES: Finalmente se ubican los valores mnimo y mximo, y a partir de ellos se traza una lnea hasta los extremos inferior y superior de la caja. Gracias a su forma, las grficas de caja permiten hacer una exploracin visual del comportamiento de la variable: Mientras mayor sea la altura de la caja, mayor dispersin habr mostrado la variable. Ahora bien, una mayor distancia de la mediana a uno de los cuartiles (q1 , q3 ) implica, por ejemplo, una mayor variabilidad en esa mitad del grupo de estudio. Asimismo, una mayor distancia de la caja a los valores mnimo o mximo seala a stos como datos atpicos.
DISTRIBUCIN DE LA VARIABLE PERMETRO DE CADERA
Alumnos de estadstica 2008-1 (n=66)
1300
Permetro de cadera
52 32
41
25
Femenino
Masculino
Sexo
Por ltimo debe mencionarse que este tipo de grficas permite tambin comparar la distribucin de la variable entre las categoras del grupo de estudio. Si es este el caso, basta con separar los datos de cada categora, ubicar sus valores y trazar una caja para cada grupo.
119
Permetro de cadera
Turno
Matutino Vespertino Femenino Masculino
Sexo
Ejemplos de aplicacin 1. Son muchos ya los alumnos de la ENAH que han expresado lo incmodo de las sillas de esta escuela. Si bien resulta imprescindible un cambio en este mobiliario, el costo que dicho proyecto pudiera alcanzar es inquietante. Echando mano de los datos de Estatura total, Estatura sentado, Altura de rodilla y Peso recolectados en los grupos de estadstica: a) Calcule las medidas de tendencia central: moda, mediana y media. b) Calcule las medidas de dispersin: rango y desviacin estndar. c) Calcule los cuartiles y elabore una grfica de caja. A fin de analizar el comportamiento de estas variables y presentar a un diseador industrial algunos datos con los que ste pueda hacer una cotizacin sobre los materiales y diseos necesarios para producir sillas ms funcionales y cmodas. Veamos primero los datos, ya ordenados, donde se sealan algunos de los valores que se mencionaran posteriormente: Estatura total
1477 1490 1492 1506 1515 1521 1527 1529 1541 1552 1554 1555 1559 1560 1562 1563 1599 1605 1614 1619 1622 1625 1641 1642 1657 1658 1660 1664 1669 1675 1675 1679
Estatura sentado
787 802 809 809 813 815 816 820 821 823 825 826 826 827 828 829 855 859 865 866 868 870 872 875 878 879 879 887 887 888 889 889
Altura de rodilla
411 414 426 436 442 443 443 444 446 448 453 454 457 457 458 458 477 478 478 479 481 481 481 482 484 484 484 486 486 486 487 489 37.6 41.9 44.4 44.4 44.9 45.1 45.2 45.8 47.2 47.5 48.0 48.3 49.2 49.8 51.1 51.5
Peso
61.1 61.3 61.4 61.6 61.6 61.7 62.6 62.6 62.7 64.4 64.5 65.6 67.2 67.4 68.3 68.4
120
1563 1566 1570 1571 1571 1576 1576 1577 1582 1583 1584 1585 1591 1594 1594 1595 1597
1683 1685 1686 1689 1699 1701 1705 1719 1721 1724 1728 1742 1751 1767 1786 1833 1852
829 832 834 834 838 838 839 839 841 844 848 849 849 850 850 850 854
890 891 894 897 901 902 908 911 914 919 921 921 928 939 940 941 969
458 459 459 459 461 464 464 464 464 465 465 467 469 469 471 471 475
491 491 491 496 502 504 504 506 516 519 519 522 525 536 554 588 590
52.1 53.1 53.1 54.4 55.4 55.8 55.9 56.4 57.5 57.5 58.0 58.1 58.4 58.4 58.6 59.5 60.4
68.7 68.8 69.6 70.0 70.2 71.5 72.5 74.5 76.6 76.7 77.6 78.8 87.3 91.6 93.1 94.7 98.0
Ahora bien, ejemplifiquemos la aplicacin de todas las medidas y las grficas de caja con la variable Estatura total: I. Estatura total
Lo primero que observamos en esta variable es que cinco valores se repiten dos veces a lo largo de la muestra: MODA
Por tal motivo puede afirmarse que entre los alumnos de estadstica la variable Estatura es multimodal. Sin embargo, como la moda ha sealado demasiados valores, buscaremos la mediana del conjunto para ver si su valor es ms representativo. Dado que el nmero total de datos es par (n = 66) , debemos averiguar el promedio de los datos que estn al centro de la lista. POSICIN
(n = 66)
66 = 33 2
1597
66 + 1 = 34 2
1599
Es decir, de acuerdo a esta medida de tendencia central el valor promedio de la estatura total en los grupos de estadstica 1598 milmetros (1.60 metros). Mientras tanto: MEDIA
107153
1623 5303
121
x=
x
i =1
El clculo aritmtico indica que el promedio de la estatura entre los alumnos es de 1623.5303 milmetros (1.62 metros); as que habr que analizar si la diferencia de dos centmetros se debe a la variabilidad. Primero encontremos la diferencia general: RANGO
R = Vmax Vmin
El clculo del rango seala que, entre la menor y la mayor estatura hay 375 milmetros (37.5 centmetros). No obstante, la cantidad total de variabilidad manifestada por la variable es de: DESVIACIN ESTNDAR
s=
X
i =1
2 i
nx 2
s=
n 1
Esto significa que la distancia promedio de los datos de estatura total respecto a su media es de 82.7483 milmetros (8.2 centmetros). Finalmente, para analizar grficamente la distribucin de la variable obtenemos el valor de los cuartiles y construimos la grfica de caja:
(n = 66)
MNIMO Primer cuartil (q1 ) Segundo cuartil (q 2 ) Tercer cuartil (q3 ) MXIMO
POSICIN 1
1800
Estatura total
1700
1600
Como podemos observar, la mayor variabilidad de la estatura se manifiesta en la mitad de los alumnos ms altos. Asimismo se observa que el estudiante con la estatura ms alta se encuentra ms alejado del valor promedio (mediana) que el de menor estatura.
1500 1400
122
Alumnos
Para analizar ms detalladamente dicho comportamiento, elaboremos otra grfica de cajas comparando por sexo:
DISTRIBUCIN DE LA VARIABLE ESTATURA TOTAL POR SEXO
Alumnos de estadstica 2008-1 (n=66)
1900
37 39
1800
15 54 44
El grfico seala ahora que la estatura de las mujeres es, en general, menor a la de los hombres. Dicha afirmacin no slo es confirmada al observar una mayor variabilidad en estaturas mayores para el sexo femenino, sino tambin al descubrir que fue una mujer quien present una estatura atpicamente baja.
Estatura total
41
25
Femenino
Masculino
Habiendo reconocido la posicin de muchos valores y, echando mano de la tecnologa (calculadora o computadora), resulta sencillo analizar el comportamiento del resto de las variables: II. Estatura sentado
Sexo
MODA x = 850 La estatura sentado observada con mayor frecuencia entre los alumnos de estadstica fue de 850 milmetros (85.0 centmetros).
(n = 66)
POSICIN
66 = 33 2
66 + 1 = 34 2
854 855 VALOR MEDIANA ~ = 854 + 855 = 854.5000 x (PROMEDIO) 2 El valor promedio del conjunto de datos sobre estatura sentado es de 854.5 milmetros (85.4 centmetros). MEDIA x = 863.42 La estatura sentado promedio de los alumnos de estadstica es de 863.42 milmetros (86.3 centmetros). RANGO R = 969 787 = 182.00 La diferencia mxima en la estatura sentado de los alumnos es de 182 milmetros
123
(18.2 centmetros). DESVIACIN ESTNDAR s = 40.11 La distancia promedio de los datos de estatura sentado respecto a su media es de 40.11 milmetros (4.0 centmetros).
(n = 66)
MNIMO Primer cuartil (q1 ) Segundo cuartil (q 2 ) Tercer cuartil (q3 ) MXIMO
POSICIN 1
Estatura sentado
Estatura sentado
900
900
60
800
800
700 700
N= 66 N= 41 25
Femenino
Masculino
Alumnos
Sexo
Igual que la estatura total, la variable Estatura sentado muestra mayor variabilidad en la mitad con valores ms altos y pese a que dicha estatura es mayor entre los hombres y sus valores manifiestan mayor dispersin en las mujeres, se observ un caso atpico del sexo masculino, que present una estatura sentado notoriamente baja.
III. Altura de rodilla MODA x = 464 La altura de rodilla observada con mayor frecuencia entre los alumnos de estadstica es de 464 milmetros (46.4 centmetros).
(n = 66)
POSICIN
66 = 33 2
66 + 1 = 34 2
124
475 477 VALOR MEDIANA ~ = 475 + 477 = 476 x (PROMEDIO) 2 El valor promedio del conjunto de datos sobre altura de rodilla es de 476 milmetros (47.6 centmetros). MEDIA x = 478.35 La altura de rodilla promedio de los alumnos de estadstica es de 478.35 milmetros (47.8 centmetros). RANGO R = 590 411 = 179 La diferencia mxima en la altura de rodilla de los alumnos es de 179 milmetros (17.9 centmetros). DESVIACIN ESTNDAR s = 33.48 La distancia promedio de los datos de altura de rodilla respecto a su media es de 33.48 milmetros (3.3 centmetros).
(n = 66)
MNIMO Primer cuartil (q1 ) Segundo cuartil (q 2 ) Tercer cuartil (q3 ) MXIMO
POSICIN 1
Altura de rodilla
Altura de rodilla
600
54 37 39
600
54
37
500
500
400
42 50
Femenino
Masculino
Alumnos
Sexo
A comparacin de las variables anteriores, la altura de rodilla es una caracterstica que muestra una distribucin ms concentrada. Aunado a ello, es en el sexo masculino donde se observa mayor variabilidad, incluso cuando las mujeres mostraron ms casos atpicos (menores y mayores).
125
IV. Peso
x = 44.4,53.1,57.5,58.4,61.6,62.6 MODA La repeticin de seis valores a lo largo de la muestra seala a los alumnos de estadstica como una muestra multimodal respecto al peso corporal.
(n = 66)
POSICIN
66 = 33 2
66 + 1 = 34 2
60.4 61.1 VALOR MEDIANA ~ = 60.4 + 61.1 = 60.75 x (PROMEDIO) 2 El valor promedio del conjunto de datos sobre peso es de 60.75 kilogramos. MEDIA x = 61.62 El peso promedio de los alumnos de estadstica es de 61.6 kilogramos. RANGO R = 98 37.6 = 60.4 La diferencia mxima en peso de los alumnos es de 60.4 kilogramos. DESVIACIN ESTNDAR s = 13.17 La distancia promedio de los datos de peso respecto a su media es de 13.17 kilogramos.
(n = 66)
MNIMO Primer cuartil (q1 ) Segundo cuartil (q 2 ) Tercer cuartil (q3 ) MXIMO
POSICIN 1
126
Peso corporal
90 80 70 60 50 40 30
N= 66
Alumnos
Peso corporal
90 80 70 60 50 40 30
N=
52 54
Como podemos observar, el peso corporal es una caracterstica que presenta una variabilidad diferencial: es mayor en los valores ms pequeos del grupo femenino y mayor en los valores ms grandes del sexo masculino. Pese a ello, los dos casos atpicos registrados se deben a mujeres.
41
25
Femenino
Masculino
Sexo
En el captulo anterior revisamos cmo, mientras las medidas de tendencia central sealan el valor representativo o promedio de un conjunto de datos, las medidas de dispersin indican su variabilidad. Una observacin, empero, qued pendiente: la media puede verse afectada por valores extremos. Por tal motivo, en este captulo analizaremos diversas medidas que permiten evaluar, por un lado, si el valor de dicha medida de tendencia central es verdaderamente representativo y, por otro, la variabilidad y distribucin de una variable. Evaluacin de la media y comparacin de variabilidad entre grupos o variables Comprobamos anteriormente que la desviacin estndar es la medida de dispersin ms adecuada para definir la variabilidad en una serie de observaciones, pues permite expresar la distancia promedio de los datos respecto a su media en las unidades originales.
127
Esta caracterstica es, empero, la misma razn por la cual la desviacin estndar de distintos grupos (con medias considerablemente diferentes) o variables (con otras unidades y escalas de medicin) no puede ser comparada. Otros procedimiento deben realizarse entonces para cotejar la variabilidad de dos o ms conjuntos de datos: Coeficiente de variacin (variabilidad) (C.V , c.v ) La forma ms sencilla de obtener un valor de dispersin que sea independiente a cualquier unidad de medicin y que tome en cuenta a la media es calcular el coeficiente de variacin; medida de variabilidad relativa que relaciona la desviacin estndar con la media de un conjunto de datos: PARMETRO ESTADSTICO
C.V . = 100
s c.v.. = 100 x
Esto debido a que, al dividir la desviacin estndar entre la media no slo cancelamos las unidades, sino que tambin establecemos una medida que, multiplicada por cien, indica qu tanto por ciento de dispersin existe respecto a la media. Ahora bien, aunque son los trminos porcentuales del coeficiente de variacin los que permiten comparar la variabilidad entre dos o ms conjuntos de datos, es su carcter relativo a la media lo que permite evaluar dicha medida de tendencia central y concluir que: si el coeficiente de variacin es mayor a 30%, la dispersin de las observaciones afecta el valor de la media; razn por la cual es mejor utilizar a la mediana como valor promedio. Teorma de Tchebysheff (Chebyshev) Otro tcnica para cotejar la variabilidad entre dos o ms conjuntos de datos es calcular la proporcin o porcentaje aproximado de elementos que se encuentran en una parte de la distribucin manifestada por cada variable. Segn el teorema de Tchebysheff: La proporcin de cualquier distribucin situada dentro de k desviaciones estndares (s ) de la media es, por lo menos, 1 cualquier nmero positivo mayor que uno. Por lo tanto, si:
1 , donde k es k2
k
2
1 1 1
1 k2
1 1 k 2 100%
INTERPRETACIN Al menos 75% de los datos est a dos desviaciones estndares de la media. Al menos 89% de los datos est a tres desviaciones estndares de la media.
1 1 3 = 1 = = 0.75 2 4 4 2 1 1 8 = 1 = = 0.89 2 9 9 3
128
1 1 15 = 1 = = 0.94 2 16 16 4
(0.94)100% = 94%
En otras palabras, dicho teorema nos permite: 1. Averiguar el nmero de desviaciones estndares (k ) que contiene al menos cierta proporcin ( x ) de los datos. Para ello debe calcularse el valor de k : Si
Despejamos k
Y tenemos que
1 =x k2 1 1 x = 2 k 1 = k2 1 x 1 =k 1 x
2. Dado un valor de k desviaciones estndares y la proporcin (porcentaje) correspondiente, definir el intervalo que contiene dichos valores. Esto implica simplemente restar y sumar a la media k veces el valor de la desviacin estndar: EXPRESIN PARA DETERMINAR EL INTERVALO QUE CONTIENE AL MENOS 1 1
k2
PORCIENTO
[x ks, x + ks]
DE LOS DATOS B. EVALUACIN DE LA DISTRIBUCIN DE UNA VARIABLE Los histogramas que representan grficamente la distribucin de las variable pueden tomar muchas formas; basta con dibujar una curva sobre sus barras para comprobarlo: unas sern ascendentes, algunas descendentes y otras parecern campanas de Gauss, normales, aplanadas o puntiagudas. No obstante, como veremos a continuacin, ms all de su forma, la evaluacin de dichas caractersticas permite analizar la distribucin de una variable.
Coeficiente de asimetra de Fisher El coeficiente de asimetra de Fisher es una medida que indica el nivel de asimetra de los datos respecto a su media: COEFICIENTE DE ASIMETRA DE FISHER
1 n 3 (X i x ) n a = i =1 3 s 129
Pese a que su clculo puede resultar complicado, su interpretacin es muy sencilla: VALOR DE a INTERPRETACIN Todo coeficiente negativo indica que la distribucin de la variable es asimtrica y est cargada a la izquierda, pues predominan las observaciones con valores menores al promedio. Ahora bien, si el coeficiente es aproximadamente cero puede afirmarse que los datos se encuentran cerca de su media y presentan un alto grado de simetra respecto a dicha medida de tendencia central. Por ltimo, cuando el coeficiente es positivo, la distribucin de la variable es tambin asimtrica pero cargada a la derecha, ya que los datos mayores al promedio presentan una frecuencia ms alta. REPRESENTACIN GRFICA
a<0
a0
a>0
Coeficiente de curtosis Por otro lado est el coeficiente de curtosis, medida que analiza el grado de concentracin que presentan los datos en torno a la media y seala cun puntiaguda es la distribucin de la variable respecto a la curva gaussiana (distribucin normal): COEFICIENTE DE CURTOSIS Veamos ahora su interpretacin:
1 n 4 (X i x ) n 3 c = i =1 4 s
VALOR DE a
INTERPRETACIN
REPRESENTACIN GRFICA
130
c<0
Un valor negativo en el coeficiente de curtosis indica que los datos se encuentran muy dispersos, motivo por el que la curva que delinea su distribucin es ms plana y ancha; esto es platicrtica. Por otra parte, cuando el coeficiente de curtosis es aproximadamente cero puede concluirse que la variable se distribuye con un grado de concentracin medio, as que la curva es muy parecida a la gaussiana: mesocrtica. Finalmente, un coeficiente de curtosis positivo es seal de que los datos se concentran alrededor de la media; razn por la cual su curva es ms esbelta y apuntalada; es decir, leptocrtica.
c0
c>0
Ejemplos de aplicacin 1. A lo largo del ltimo ejercicio del captulo anterior realizamos algunas grficas de cajas para explorar el comportamiento de las variables Estatura total, Estatura sentado, Altura de rodilla y Peso en los grupos de estadstica 2008-1. Si bien establecimos algunas comparaciones sobre su variabilidad por sexo, todas las conclusiones fueron hechas visualmente. Calcule entonces las medidas necesarias para: a) Cotejar la dispersin de los valores y evaluar la media. b) Determinar en qu intervalo se halla el 95% de los datos. c) Reconocer el grado de simetra y apuntamiento de su distribucin. Comparar la variabilidad por grupos implica, sin duda alguna, calcular el coeficiente de variacin. Empero, dado que las medidas de tendencia central y dispersin para estas variables haban sido determinadas a partir de la muestra total, calcularemos tambin (con ayuda del SPSS) su valor por sexo: SEXO FEMENINO VARIABLE Estatura total Estatura sentado Altura de SEXO MASCULINO
~ x
1571.00 838.00 464.00
x
1576.39 841.46 464.80
s
50.01 25.46 28.13
~ x
1699.00 901.00 491.00
x
1700.84 899.44 500.56
s
65.99 33.18 29.84
131
57.50
57.30
11.56
65.60
68.71
12.77
Ahora s, calculemos los coeficientes de variacin: SEXO FEMENINO COEFICIENTE DE VARIACIN SEXO MASCULINO COEFICIENTE DE VARIACIN
50.01 c.v.. = 100 = 3.17 1576.39 25.46 c.v.. = 100 = 3.03 841.46 28.13 c.v.. = 100 = 6.05 464.80 11.56 c.v.. = 100 = 20.17 57.30
65.99 c.v.. = 100 = 3.88 1700.84 33.18 c.v.. = 100 = 3.69 899.44 29.84 c.v.. = 100 = 5.96 500.56 12.77 c.v.. = 100 = 18.59 68.71
a) De entrada vemos que ninguno de los coeficientes de variacin es mayor a 30, por lo que puede afirmarse que la media calculada en cada caso es un valor verdaderamente representativo de los datos. Ahora, aunque en general fue el peso la caracterstica que present mayor variabilidad, la dispersin de las observaciones muestra una diferencia por sexo: es mayor en la estatura total y la estatura sentado masculina, y mayor en la altura de rodilla y el peso femenino. Cultural es seguramente el motivo por el que las mujeres presentan tal variabilidad pero esa es harina de otro costal a investigar.
Hecho esto, revisemos la distribucin de las variables. Primero, para deducir el intervalo que contiene al 95% de los datos de cada caso, es necesario calcular el valor de k : Si: Entonces:
1 = 0.95 k2
1 = 4.47 1 0.95
Sabiendo esto, construyamos los intervalos para cada variable por sexo: SEXO FEMENINO DATOS
[1576.39 4.47(50.01),1576.39 + 4.47(50.01)] [841.46 4.47(25.46),841.46 + 4.47(25.46)] [464.80 4.47(28.13),464.80 + 4.47(28.13)] [57.30 4.47(11.56),57.30 + 4.47(11.56)]
SEXO MASCULINO DATOS
INTERVALO
VARIABLE
132
[1700.84 4.47(65.99),1700.84 + 4.47(65.99)] [1405.86,1995.82] [899.44 4.47(33.18),899.44 + 4.47(33.18)] [751.13,1047.75] [500.56 4.47(29.84),500.56 + 4.47(29.84)] [367.18,633.94] [68.71 4.47(12.77),68.71 + 4.47(12.77)] [11.63,125.79]
b) INTERPRETACIN Finalmente calculemos10 los coeficientes de asimetra y de curtosis para reconocer el grado de simetra y apuntamiento de su distribucin. SEXO FEMENINO COEFICIENTE DE ASIMETRA
Estatura sentado
Altura de rodilla
1 n 3 1 (1470507.05) ( X i 1576.39) 35866.03 41 i =1 a= a = 41 a= = 0.29 3 125075.02 125075.02 (50.01) 1 n 3 1 (168650.29) ( X i 841.46) 4113.42 41 i =1 41 a= a= a= = 0.25 3 16503.47 16503.47 (25.46) 1 n 3 1 (1666542.97 ) ( X i 464.80) 40647.39 41 i =1 a= a = 41 a= = 1.83 3 22259.18 22259.18 (28.13) 1 n 3 1 (51861.56) ( X i 57.30) 1264.92 41 i =1 41 a= a= a= = 0.82 3 1544.80 1544.80 (11.56)
Peso corporal
VARIABLE
Estatura total
Estatura sentado
1 n 4 1 (717595453.77 ) ( X i 1576.39) 41 i =1 41 c= 3 c = 3 6255001.50 (50.01)4 17502328.14 c= 3 c = 2.80 3 = 0.20 6255001.50 1 n 4 1 (38946197.76) ( X i 841.46) 41 i =1 c= 3 c = 41 3 420178.28 (25.46)4 949907.26 c= 3 c = 2.26 3 = 0.74 420178.28
10
Debido a que obtener la diferencia de cada dato respecto a su media es sumamente laborioso, hemos ocupado un programa de hojas de clculo para calcular su suma total ya elevada al cubo y a la cuarta potencia.
133
Altura de rodilla
Peso corporal
1 n 4 1 (268696141.65) ( X i 464.80) 41 i =1 41 c= 3 c = 3 626150.78 (28.13)4 6553564.43 c= 3 c = 10.47 3 = 7.47 626150.78 1 n 4 1 (2727396.16) ( X i 57.30) 41 i =1 c= 3 c = 41 3 17857.94 (11.56)4 66521.86 c= 3 c = 3.73 3 = 0.73 17857.94
Estatura sentado
Altura de rodilla
1 n 3 1 (2700333.72) ( X i 1700.84) 108013.35 25 i =1 25 a= a= a= = 0.38 3 287365.34 287365.34 (65.99) 1 n 3 1 (- 162763.66) ( X i 899.44) - 6510.55 25 i =1 a= a = 25 a= = 0.18 3 36528.27 36528.27 (33.18) 1 n 3 1 (661857.82) ( X i 500.56) 26474.31 25 i =1 25 a= a= a= = 1.00 3 26570.30 26570.30 (29.84) 1 n 3 1 (42502.64) ( X i 68.71) 1700.11 25 i =1 a= a = 25 a= = 0.82 3 2082.44 2082.44 (12.77 )
Peso corporal
VARIABLE
Estatura total
134
Estatura sentado
Altura de rodilla
Peso corporal
1 n 4 1 (77756609.48) ( X i 899.44) 25 i =1 25 c= 3 c = 3 1212008.11 (33.18)4 3110264.38 c= 3 c = 2.57 3 = 0.43 1212008.11 1 n 4 1 (77960641.22) ( X i 500.56) 25 i =1 c= 3 c = 25 3 792857.75 (29.84)4 3118425.65 c= 3 c = 3.93 3 = 0.93 792857.75 1 n 4 1 (1803668.36) ( X i 68.71) 25 i =1 25 c= 3 c = 3 26592.77 (12.77 )4 c= 72146.73 3 c = 2.71 3 = 0.29 26592.77
Resumiendo estos datos en una tabla tenemos que: SEXO FEMENINO VARIABLE Estatura total Estatura sentado Altura de rodilla Peso corporal SEXO MASCULINO
a
0.29 0.25 1.83 0.82
c
-0.20 -0.74 7.47 0.73
a
0.38 -0.18 1 0.82
c
-0.21 -0.43 0.93 -0.29
Por lo cual podemos concluir que, por sexo, las variables presentan la siguiente distribucin: SEXO FEMENINO DISTRIBUCIN
Asimtrica (cargada a la derecha) y platicrtica. Asimtrica (cargada a la derecha) y platicrtica. Asimtrica (cargada a la derecha) y leptocrtica. Asimtrica (cargada a la derecha) y leptocrtica.
a
0.29 0.25
SEXO MASCULINO c SPSS SPSS 0.38 0.43 -0.21 0.32 -0.18 -0.43 -0.20 0.02
135
1.83 0.82
1.97 0.88
7.47 0.73
9.23 1.20
1.00 0.82
1.13 0.92
0.93 -0.29
1.85 0.22
Estatura total
Sexo: Femenino
12 10
Estatura total
Sexo: Masculino
10 8
Frecuencia
Frecuencia
2 2 Media =1576.39 Desviacin tpica =50.01 N =41 1450 1500 1550 1600 1650 1700 Media =1700.84 Desviacin tpica =65. 987 N =25 1500 1600 1700 1800 1900
Estatura total
Estatura total
Estatura sentado
Sexo: Femenino
10 6
Estatura sentado
Sexo: Masculino
5 8
Frecuencia
Frecuencia
Media =841.46 Desviacin tpica =25. 457 N =41 780 800 820 840 860 880 900
2 1 Media =899.44 Desviacin tpica =33. 183 N =25 800 850 900 950 1000
Estatura sentado
Estatura sentado
136
Altura de rodilla
Sexo: Femenino
20 12
Altura de rodilla
Sexo: Masculino
10 15
Frecuencia
Frecuencia
Media =464.8 Desviacin tpica =28. 127 N =41 400 450 500 550 600
10
4 5 2 Media =500.56 Desviacin tpica =29. 836 N =25 460 480 500 520 540 560 580 600
Altura de rodilla
Altura de rodilla
Peso corporal
Sexo: Femenino
10 6
Peso corporal
Sexo: Masculino
5 8
Frecuencia
Frecuencia
Media =57.3 Desviacin tpica =11. 556 N =41 40.0 60.0 80.0 100.0
2 1 Media =68.71 Desviacin tpica =12. 766 N =25 50.0 60.0 70.0 80.0 90.0 100.0
Peso corporal
Peso corporal
Anlisis bivariado
Correlacin lineal Cuando se tienen dos variables cuantitativas, la forma ms sencilla para comprobar si existe una relacin lineal entre ellas es construyendo un diagrama de dispersin con base en coordenadas ( X , Y ) . Empero, como veremos a continuacin, la estadstica cuenta con estimadores y pruebas ms precisas (acordes al tipo y la distribucin probabilstica de las variables) para determinar si existe una asociacin significativa o no. Coeficiente de correlacin de Pearson Medida sobre la asociacin entre dos variables continuas ( X , Y ) , cuyas expresiones para calcularlo en poblaciones y muestras son: PARMETRO ESTIMADOR
137
(x
i =1
x )( y i y )
N x y
r=
(x
i =1
x )( y i y )
(n 1) s x s y
No obstante, para reducir la labor que implica restar a cada dato su media correspondiente, podemos simplificar la expresin del numerador de este estimador: Desarrollamos primero el binomio:
(x y
i =1 i
xi y x y i + x y )
Repartimos la sumatoria:
x y x y xy + xy
i =1 i i i =1 i i =1 i i =1
Donde las medias son constantes y por ello pueden multiplicar a las sumatorias y multiplicarse por el tamao de la muestra:
x y
i =1 i
y x i x y i + nx y
i =1 i =1
x y
i =1 i
y nx x ny + n x y
Porque:
x=
x
i =1
xi = x n
i =1
y=
y
i =1
yi = y n
i =1
x y
i =1 i
nx y
EXPRESIN PARA CALCULAR EL ESTIMADOR DEL COEFICIENTE DE CORRELACIN DE PEARSON PARA VARIABLES CUANTITATIVAS CON DISTRIBUCIN NORMAL11.
11
r=
x y
i =1 i
nx y
(n 1) s x s y
Si bien esta es la forma ms sencilla para calcular manualmente el coeficiente de correlacin de Pearson, cabe mencionar que muchas calculadoras cientficas lo pueden arrojar directamente al ingresar los datos de ambas variables en el modo estadstico de regresin lineal; este dato tendr un valor muy parecido al que se obtiene haciendo los clculos manualmente con 4 decimales.
138
Imprescindible resulta mencionar que el valor de este coeficiente slo puede encontrarse en el rango ( 1 < r < 1) y de acuerdo a ello debe interpretarse: VALOR DEL COEFICIENTE
(r 1) (r 0) (r 1)
INTERPRETACIN Existe asociacin lineal inversa entre las variables. No existe asociacin entre las variables. Existe asociacin lineal directa entre las variables.
26
Esta conclusin, sin embargo, no es suficiente; pues en el caso de que haya asociacin entre las variables, falta comprobar que sta sea estadsticamente significativa.
Y
24
22
20
18
16 12 14 16 18 20 22
Ejemplos de aplicacin
1. Los siguientes datos corresponden las longitudes de hmero y fmur de restos seos masculinos de la Cueva de La Candelaria, Coahuila. HMERO 329 311 297 323 323 290 297 287 333 336 313 322 321 315 309 304 300 FMUR 444 426 449 427 428 427 417 414 417 440 416 408 420 443 472 466 422
es posible afirmar que existe una relacin lineal entre la longitud del hmero y del fmur?
139
460 450
Fmur
440
430 420
Hmero
En esta grfica podemos observar que no existe una linealidad clara entre las variables.
Pero es necesario comprobar lo que los sentidos nos dicen con un poco de estadstica. En este primer ejemplo desarrollaremos todos los datos necesarios para calcular manualmente el coeficiente de correlacin; no obstante, en los prximos casos recurriremos simplemente a los valores obtenidos con ayuda de una calculadora. HMERO 329 311 297 323 323 290 297 287 333 336 313 322 321 315 309 304 FMUR 444 426 449 427 428 427 417 414 417 440 416 408 420 443 472 466
X i Yi
146076 132486 133353 137921 138244 123830 123849 118818 138861 147840 130208 131376 134820 139545 145848 141664
140
300
422 TOTAL
126600 2291339
DATOS GENERALES
n = 17
x = 312.3529
y = 431.5294
n
s x = 14.8195
nx y
s y = 18.2384
r=
x y
i =1 i
r=
(n 1) s x s y
VALOR EN r = 0.0190 CALCULADORA El signo negativo indica que la asociacin entre la longitud del hmero y la del fmur sera inversa, pero su cercano valor a cero nos da una segunda prueba para afirmar que la asociacin entre estas variables es casi nula.
3. Los siguientes datos corresponden a la poblacin juvenil masculina de Cholula, Puebla (recopilados entre 1968-1970). LONGITUD MIEMBRO SUPERIOR 771 740 743 775 745 722 764 711 756 721 728 727 756 768 735 ESTATURA 1715 1701 1652 1691 1611 1620 1701 1655 1734 1635 1598 1635 1684 1622 1674
141
Puede afirmarse que existe asociacin entre la longitud del miembro superior y la estatura?
1740 1720
1700 1680
Estatura
1660
1640 1620
1600 1580 710 720 730 740 750 760 770 780
Aunque existe dispersin en los datos, puede entre verse una linealidad entre estas variables y, por ende, una posible asociacin.
n = 15
DATOS GENERALES
r = 0.5310
El valor del coeficiente de correlacin de Pearson nos indica una asociacin lineal directa aunque no parece ser importante. Regresin Lineal El anlisis de regresin lineal consiste en aplicar una serie de tcnicas para encontrar si hay causalidad entre dos variables cuantitativas; es decir, si el valor de una variable (Y ) depende y puede explicarse a partir de otra variable independiente. Fundamentos La regresin es un mtodo que permite encontrar relaciones lineales entre las variables de un fenmeno. Por ende, primero debemos revisar cmo, a partir de una serie de datos (como los a continuacin que se grafican) podemos encontrar la recta que los define: Se toman dos coordenadas
(X ) ,
[(x1 , y1 ), (x2 , y 2 )]
142
Se calcula la pendiente Teniendo ese valor y el de un punto, se puede aplicar la ecuacin punto-pendiente Que se desarrolla de la siguiente forma Como el objetivo es encontrar la ordenada al origen; es decir, el valor de Y cuando X es igual a cero, despejamos Y Y damos a X el valor de cero Por lo que el valor de la ordenada al origen (b ) es Y teniendo esos valores podemos establecer la ecuacin de la recta Tambin denotada por la expresin
26
m=
y 2 y1 x 2 x1
Como podemos ver, cuando la relacin entre dos variables es clara y constante, modelos basados en la forma y = a + bx son de gran utilidad para expresar y describir con precisin su asociacin.
24
22
Y
20 18 16 12 14 16 18 20 22
Los datos de fenmenos relacionados al ser humano, empero, no son tan fciles de trabajar, ya que la diversidad y variabilidad bio-psico-socio-cultural que estos reflejan impide hallar una ecuacin concreta que generalice sus resultados.
Echando mano de la probabilidad, la estadstica se arriesga entonces a suponer que la mejor recta para describir un
143
fenmeno de este tipo es la que une las medias de los valores posibles de Y para cada X i y x ; sin dejar de reconocer como error en este modelo la desviacin que cada dato
( )
De esta forma, para su anlisis, la estadstica no slo se apropia de los modelos de regresin lineal y les cambia las letras con que se denota a la ordenada al origen (b, a 0 ) y a la pendiente (m, b 1 ) , sino tambin los adapta para manifestar el nivel de incertidumbre o error (e ) presente en ellos: MODELO TERICO DE REGRESIN LINEAL SIMPLE EN ESTADSTICA
y = 0 + 1 x + e
Ajuste del modelo de regresin lineal simple (optativo) Conociendo la forma del modelo de regresin lineal que la estadstica utiliza para describir la relacin entre dos variables, es ahora necesario saber cmo ajustarlo; es decir, cmo partiendo de los datos X i , Yi de una muestra de tamao n , calcular la ordenada al origen y la pendiente de la recta, logrando que los errores ei del modelo sean mnimos (razn por la cual ocuparemos el procedimiento de mnimos cuadrados). Para hallar los valores 0 y 1 , tomamos un punto ( X i , Yi ) :
y i = 0 + 1 x i + ei
Y despejamos lo que nos importa: el error
ei = y i 0 1 x i
Que en una muestra de tamao n esperamos su suma de cuadrados sea mnima; lo cual depende de 0 y 1 .
e = ( y i 0 1 xi )
2 i
ei2 = ( yi 0 1 xi )
i =1 i =1 n
f ( 0 , 1 ) = ( y i 0 1 xi )
i =1
Por lo cual hay que encontrar la forma en que esta funcin sea mnima. El punto es que, al haber dos variables, mantendremos a la vez una constante; esto es, haremos derivadas parciales de la funcin. Empecemos por derivar la funcin respecto a 0 :
f ( 0 , 1 ) = ( y i 0 1 xi )
i =1
144
n df ( 0 , 1 ) = 2 ( y i 0 1 xi )( 1) d 0 i =1
n
Porque
d [ f ( x )] n 1 = n[ f ( x )] f ( x ) dx
2 ( y i 0 1 xi )( 1) = 0
n i =1
2 ( y i 0 1 x i ) = 0
n i =1
(y
n i =1
0 1 xi ) = 0
Como
0 =0 #
(y
n i =1
0 1 xi ) = 0
y x
i =1 i i =1
i =1
1 i
=0
n y n 0 1 nx = 0
Porque
y=
yi
i =1
y i = yn
i =1
x=
x
i =1
xi = x n
i =1
C = nC
ny n 0 1 nx =0 n n n
y 0 1 x = 0
145
f ( 0 , 1 ) = ( y i 0 1 xi )
i =1
n df ( 0 , 1 ) = 2 ( y i 0 1 xi )( xi ) d1 i =1
n
Porque
d [ f ( x )] n 1 = n[ f ( x )] f ( x ) dx
Igualamos a cero:
2 ( y i 0 1 xi )( xi ) = 0
n i =1
2 xi y i 0 xi 1 xi2 = 0
i =1
(x y
n i =1 i
0 xi 1 xi2 ) = 0
xi yi 0 xi 1 xi2 = 0
i =1 n i =1 i =1
x y
i =1 i
0 xi 1 xi2 = 0
i =1 i =1
1 xi2 = xi y i ( y 1 x )(nx )
n n i =1 i =1
Porque
0 = y 1 x
x=
x
i =1
xi = x n
i =1
1 xi2 = xi y i nx y + 1 nx 2
i =1 i =1
146
1 xi2 nx 2 = xi y i nx y i =1
i =1
x y
i =1 n i
nx y nx 2
x
i =1
2 i
Puede
entonces que, para encontrar el modelo de regresin lineal y i = 0 + 1 xi + ei que mejor se ajusta a los datos X i , Yi de una muestra de tamao n ,
decirse
basta calcular los estimadores de 0 y 1 12 que por mnimos cuadrados se definen como: EXPRESIN PARA CALCULAR EL ESTIMADOR 0 EXPRESIN PARA CALCULAR EL ESTIMADOR 1
0 = y 1 x
1 =
x y
i =1 n i
nx y nx 2
x
i =1
2 i
Si bien ambos datos son fundamentales para construir el modelo de regresin lineal, el valor de 0 slo indica el punto donde la recta corta el eje de las Y ; esto es, el valor de
y = 0 + 1 x y = 0 1 x
12
y = 0 + 1 ( x 1) y = 0 + 1 x 1 y = 0 1 (x 1)
y = 0 + 1 ( x + 1) y = 0 + 1 x + 1 y = 0 1 (x + 1)
Igual que en el caso del coeficiente de correlacin de Pearson, el valor de la ordenada a la origen y la pendiente de la recta pueden obtenerse sin hacer manualmente los clculos, pues son ya muchas las calculadoras cientficas que arrojan sus valores (a,b) al ingresar los datos de la muestra en el modo estadstico de regresin lineal.
147
y = 0 1 x + 1
Por tanto: Si la pendiente es: y X disminuye una unidad:
y = 0 1 x 1
( ) negativa ( )
positiva 1
1
Ejemplos de aplicacin 1. Los siguientes datos de altura y peso en jvenes adultos son parte de la muestra recolectada durante la investigacin en Cholula, Puebla (1968-1970). ESTATURA 1649 1635 1611 1622 1583 1613 1636 1650 1579 1568 1522 1554 1627 1535 1565 PESO 49.5 57.5 50.0 53.5 43.0 57.5 50.5 56.0 50.0 50.0 44.5 48.0 51.0 46.0 49.5
Comprobemos entonces si existe asociacin lineal entre estas variables por medio de un diagrama de dispersin y el coeficiente de correlacin.
148
58 56
54
52
50
48 46
a.1) Si bien en los valores ms pequeos de la estatura puede verse una asociacin lineal clara con respecto al peso, conforme la estatura aumenta este patrn no es tan claro
COEFICIENTE DE PEARSON
r = 0.6786
a.2) El valor del coeficiente de correlacin de Pearson nos indica una asociacin lineal directa considerable entre la estatura y el peso de esta poblacin.
A continuacin saquemos los datos necesarios para calcular los estimadores 1 y 0 a fin de establecer el modelo de regresin.
DATOS GENERALES
n = 15
x = 1596.6000
i i
y = 50.4333
s x = 41.5379
s y = 4.3006
x y
i =1
= 1209525 .000
x
i =1
2 i
= 38261129.00
Si bien en esta ocasin se mostrar el clculo explcito, despus se mostrar nicamente el obtenido directamente con ayuda de la calculadora. EXPRESIN PARA CALCULAR EL ESTIMADOR 1 EXPRESIN PARA CLCULO MANUAL CALCULADORA CALCULAR EL ESTIMADOR 0
1 =
x y
i =1 n i
nx y nx 2
= 0.0703
x
i =1
2 i
1 =
149
Por lo que el modelo de regresin lineal ajustado queda como: MODELO TERICO
MODELO AJUSTADO b) Segn el modelo ajustado, por cada milmetro que cambia la estatura, el peso cambia 0.0703 kilogramos. Los siguientes datos de altura y peso tambin son parte de la muestra recolectada durante la investigacin en Cholula, Puebla (1968-1970), pero pertenecen a adolescentes hombres: ESTATURA 1674 1672 1710 1651 1702 1656 1672 1590 1612 1652 1594 1566 1645 1678 1740 PESO 58.5 53.5 58.0 57.0 58.0 58.0 56.5 51.5 56.0 57.5 51.5 47.0 54.5 54.0 62.0
64 62 60
Peso adolescentes
Estatura adolescentes
a.1)
Pese a la dispersin de algunos datos puede verse una asociacin lineal entre
150
la estatura y el peso, as como se define una pendiente bastante grande. COEFICIENTE DE PEARSON
r = 0.8382
a.2) El coeficiente de correlacin de Pearson seala una asociacin lineal directa fuerte entre la estatura y el peso de los adolescentes de Cholula. ESTIMADORES Y AJUSTE DEL MODELO
Ejercicios de Repaso
I. Definir los siguientes trminos estadsticos: 11. Mediana. 12. Moda. 13. Varianza. 14. Desviacin estndar. 15. Coeficiente de variacin. 16. Percentil. 17. Cuartel. 18. Modelo de regresin lineal. 19. Coeficiente de correlacin. 20. Pendiente de la recta de regresin lineal II. Clasificar las siguientes variables como categrica nominal, categrica ordinal, numrica discreta o numrica continua: 1. Poblacin. 2. Muestra. 3. Variable. 4. Variable categrica nominal. 5. Variable categrica ordinal. 6. Variable numrica discreta. 7. Variable numrica continua. 8. Medida de tendencia central. 9. Medida de dispersin. 10. Media aritmtica. 1. Temperatura mxima diaria. 2. Nmero de camiseta de los jugadores de un equipo de baloncesto. 3. Calificacin obtenida en un examen. 4. Marca de un refresco consumido. 5. Estado civil de una persona. 6. Nmero de tepalcates obtenidos en un sitio arqueolgico determinado. 7. El nmero de nios nacidos en mujeres de ms de 40 aos. 8. Nmero de hermanos. 9. Preferencia poltica partidaria. 10. Aos de escuela completados. 11. Creencia religiosa. 12. ltimo grado escolar obtenido (primaria, secundaria, etc.). 13. Nmero de carros propios por familia 14. Ocupacin. 15. Tasa de criminalidad. 16. Calificacin en el examen de admisin a la UNAM. 17. La calificacin del examen de Estadstica en el grupo. 18. Sexo. 19. Edad al morir. 20. Estatus de empleo (empleado, desempleado)
151
152
VII. Con los datos recolectados en el grupo mediante la Cdula de percepcin corporal, sexualidad y antropometra: 1. Realizar una tabla cruzada entre Sexo y Persona con la que tuvieron su primera relacin sexual (pregunta 13) utilizando los casos que contestaron S haber tenido relaciones sexuales. 2. Llenar la siguiente tabla con los datos indicados: VARIABLE MUJERES HOMBRES Estatura ~ ~ s c.v. s x x x x autopercibida Peso autopercibido Estatura antropomtrica Peso antropomtrico 3. Para cada valor en la muestra, calcule el ndice cintura-cadera (ICC)
c.v.
153
a fin de realizar una grfica de de caja para comparar los valores de este ndice por sexo. VIII. En varias ocasiones ciertos problemas de salud no permiten que un individuo se coloque en posicin para poder medir directamente su estatura total; para estimar su valor se utilizan entonces medidas indirectas, como la altura de rodilla, que se suponen estn fuertemente correlacionadas con dicha variable. 1. Utilizando los datos recolectados para mujeres, considerando la estatura total como variable dependiente y la altura a la rodilla como variable independiente: a) Graficar los datos en un diagrama de dispersin. Se observa una tendencia lineal en los datos? b) Calcular el coeficiente de correlacin lineal. c) Ajustar el modelo de regresin lineal. d) Es un modelo adecuado? Calcular R 2 . e) Ejemplificar el uso del modelo prediciendo dos valores y graficando la recta sobre el diagrama de dispersin. 2. Repetir el ejercicio con los datos de hombres.
154
Condones
Pastillas de emergencia
Condones Condones Condones otro Condones Condones Pastillas de emergencia Condones Condones Condones
16 17 15 15 16 19 18 18 16 16 17 21 18 18 15 17 18 17 21 18
Mayor Misma edad Mayor Mayor Mayor Mayor Misma edad Mayor
Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Esposo (a)
Si Si Si Si Si Si Si Si Si Si Si No Si Si No Si Si No Si Si
Condones Condones Pastillas Condones Condones Condones Condones Pastillas de emergencia Condones Pastillas de emergencia Condones
A veces Siempre Siempre Siempre Siempre Siempre Siempre Siempre A veces Siempre A veces
3 1 3 999 3 5 2 3 30 21 1 1 35 16 2 3 2 4 3 5
Mayor Conocido (a) Misma edad Conocido (a) Mayor Novio (a) Menor Novio (a) Misma edad Menor Misma edad Mayor Misma edad Mayor Mayor Misma edad Novio (a) Novio (a) Amigo (a) Novio (a) Novio (a) Novio (a) Amigo (a) Novio (a)
El objetivo de esta prctica es que el alumno presentar un panorama general del uso del SPSS. Ilustraremos el uso del programa creando una base de datos relacionada con la cedula que se anexa a la prctica. Se utiliza la versin 15 en espaol. I. El ambiente de SPSS. La pantalla inicial del SPSS se presenta en la figura siguiente. Esta pantalla corresponde al editor de datos, es decir donde podremos observar la informacin que estaremos analizando. Las columnas identifican las variables y los renglones corresponde a los casos. En la parte superior podemos observar el men principal: Archivo, Edcin, Ver, Datos,..., Ventana, ?. Los iconos de la parte inferior de este men corresponden a instrucciones que uno puede llamar con slo dar clic en la figura correspondiente.
En la ventana inferior se pueden apreciar dos pestaas: Vista de datos que se encuentra activada y Vista de variables que aparece inactiva. El primer paso para elaborar una base de datos consiste en definir los nombres y caractersticas
La primera columna (Nombre) corresponde al nombre de la variable; a diferencia de versiones anteriores en sta se permiten nombres que pueden exceder 8 caracteres pero que no debe contener espacios ni smbolos como $, %, &, /, etc. Lo que si puede utilizarse es el guin bajo (_). La segunda columna (Tipo), corresponde al tipo de variable que puede ser numrica, alfanumrica o carcter (cadena), fecha, entre otras. Anchura permite definir la anchura de la variable, es decir el espacio mximo que ocupar el dato que ser almacenado en esta variable. El nmero de decimales (Decimales) a utilizar (cuando la variable es numrica) corresponden se define en la siguiente columna. La columna Etiqueta permite especificar una identificacin a la variable que puede ser el nombre completo de la variable en la cdula o encuesta. Esta etiqueta puede contener espacios y cualquier smbolo. La columna Valores permite definir el nombre de las categoras en las variables cualitativas. La columna Perdidos permite definir los valores que toma una variable cuyo dato es perdido. Otra opcin es no asignar ningn valor a los datos perdidos con lo que el programa denota con un punto en
La variable sexo tiene dos posibles valores F para las mujeres y M para los hombres. Convendremos la siguiente codificacin: 1=Femenino, 2=Masculino. Por lo tanto el nombre de la variable ser sexo, ser numrica de ancho 2, con 0 decimales y la etiqueta ser Sexo del individuo. Al introducir estos valores y dndole clic en la columna Valores, y enseguida en el botn siguiente pantalla: se muestra la
existe un men al dar clic en l. Realizando esta accin nos queda el siguiente En Valor se introduce el valor numrico o cdigo y en Etiqueta el significado de ese cdigo. Hay que dar clic en el botn Aadir para adicionar la codificacin. En nuestro caso tenemos 1=Femenino y 2=Masculino. Por lo que debe quedar como se ve en el siguiente cuadro:
Los botones Cambiar y Eliminar se utilizan en el caso de cometer algn error en la definicin de las categoras. Dar clic en Aceptar para regresar a la ventana de Vista de variables De manera similar definimos la variable turno, la cual la dejamos numrica con ancho 2, 0 decimales, con etiqueta Turno en la ENAH, y codificamos 1=Matutino, 2=Vespertino. Nos queda la siguiente pantalla:
Es el momento de guardar el archivo en disco. Se puede guardar dando clic en el icono , seleccionando la carpeta y dndole un nombre, por ejemplo: cedula
Ejercicio: Completar el diseo de la base de datos, con la parte de sexualidad y antropometra y capturar la informacin contenida en las hojas anexas.
3. Lugar de nacimiento (Estado): 4. Fecha de nacimiento: da 5. Los primeros 10 aos de tu vida los pasaste en: 1) Un rancho 2) Un pueblo 6. Cuntos hijos tuvo o ha tenido tu mam?: 7. Qu lugar ocupas entre los hijos de tu mam?: 8. De acuerdo a tu sexo, considera las nueve siluetas que se presentan a continuacin cul es la que ms representa la tuya? Tchala mes ao
3) Una ciudad
12. A qu edad tuviste tu primera relacin sexual? 13. La persona con la que tuviste tu primera relacin sexual era: 1) De tu misma edad 2) Mayor que t 3) Menor que t 14. Qu relacin tenas con la persona con la que tuviste tu primera relacin sexual? 1) Novio(a) 2) Esposo(a) 3) Amigo(a) 4) Conocido(a) 5) Prostituto(a) 6) Familiar 7) Otra relacin 15. En tu primera relacin sexual t o tu pareja hicieron algo para evitar tener un embarazo? 16. Qu fue lo que hicieron para evitar un embarazo? 2) Pastillas de anticoncepcin de 1) Pastillas emergencia 4) Dispositivo 5) Condones 7) Ritmo 8) Retiro
1) S
2) No
17. Cundo tienes relaciones sexuales acostumbras usar alguno de los mtodos anteriores para evitar un embarazo? 1) Siempre 2) A veces 3) Nunca 18. Durante toda tu vida con cuntas personas diferentes has tenido relaciones sexuales?
Estadstica Prctica II: Construccin de variables e ndices y estadstica descriptiva con SPSS Elabor: Jos Luis Castrejn Caballero La prctica utiliza la base de datos contenida en el archivo cedula estadistica.sav creada en la prctica I, y utiliza la versin 15 del SPSS en espaol. Edad exacta A) A partir de la variable fecha de nacimiento y considerando que la fecha de toma de informacin fue el 16 de enero del 2008 determinar la edad exacta de cada elemento de la muestra. Razonamiento: Si determinamos el nmero de das entre las dos fechas y dividimos esta cifra entre 365 tendremos una aproximacin a la edad exacta. En SPSS existe una funcin que determina el nmero de das entre dos fechas, llamada CTIME.DAYS(time), donde time es un intervalo de tiempo, que en nuestro caso es la diferencia entre la fecha de toma y la fecha de nacimiento. Por lo tanto el procedimiento ser el siguiente: 1. Crear una variable tipo fecha llamada fechat, tipo fecha, que tenga el valor 16-01-2008 en todos los casos. Lo haremos en el ambiente de variables (Variable View) insertando la nueva variable despus de la fecha de nacimiento (fecha_nac) lo cual puede realizarse colocndonos despus de esta variable y despus seleccionar del men Edicin la opcin Insertar variable o rpidamente con el icono . Despus de esta variable insertaremos una nueva variable llamada edad, numrica con dos decimales, la ventana de variables debe quedar como sigue:
2. En el ambiente Vista de Datos, llenamos todas las celdas de la nueva variable fechat con el valor de la fecha de toma: 16-01-2008 (usando copiar, pegar), quedando como se muestra en la figura siguiente:
3. Utilizaremos las variables fechat y f_nac con la funcin CTIME.DAYS. Damos clic en el men Transformar luego en Calcular variable, tal como se muestra en la figura de al lado.
Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso En el recuadro resultante introducir el nombre edad en el espacio de Variable de destino. Del Grupo de funciones seleccionamos Extraccin de duracin del tiempo y de las Funciones y variables especiales seleccionamos la funcin CTIME.DAYS, introducindola en el espacio de Expresin numrica, mediante el botn correspondiente, cambiando el argumento como se muestra en la figura, escribiendo los parntesis cono se indica.
. Si el programa pregunta sobre cambiar la variable existente dar . En la ventana de Vista de datos pueden apreciarse los valores de la
ndice de Masa Corporal El ndice de Masa Corporal (IMC) es una de las medidas ms usadas en estudios antropomtricos y de nutricin, siendo uno de los indicadores del nivel de obesidad. La expresin matemtica, debida al fsico de origen belga Quetelet, es: peso(kg ) IMC = estatura 2 (m) El antroplogo fsico mexicano Luis Vargas ha propuesto la siguiente clasificacin de los valores del ndice, por lo que utilizaremos los valores de categora indicados en este ejercicio. Valor Categora IMC 1 Emaciacin < 15 2 Bajo peso 15 - 18.9 3 Normal 19 - 24.9 4 Sobrepeso 25 - 29.9 5 Obesidad 30 - 39.9 6 Obesidad severa > 40 Para calcular este ndice con los datos antropomtricos que estamos trabajando, en primer lugar, tenemos que convertir la estatura a metros (est en milmetros). Para lograrlo dividiremos la estatura entre 1000. En el men (Transformar, Calcular variable) introducimos esta operacin como sigue, despus de dar clic en el botn para borrar la operacin anterior.
Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso Nombre de la nueva variable.
Expresin matemtica.
Ahora estamos en condiciones de calcular el IMC. En el mismo men, introducimos la expresin matemtica, llamaremos imca a esta nueva variable. El botn es el operador que permite elevar a cualquier potencia un valor determinado. Nombre de la nueva variable. Expresin matemtica.
Lo que sigue es clasificar los valores del IMC segn la propuesta de Luis Vargas y que hemos explicitado en el cuadro anterior. Para lograr esto construiremos una nueva variable llamada CIMC la cual tendr valores que van de 1 a 6 segn el valor del IMC.
Utilizaremos de nuevo la opcin TransformarCalcular como se muestra en la siguiente figura: Para definir los valores correspondientes al cdigo 1 daremos clic en el botn Si
En el cuadro de dialogo resultante, primero activamos la opcin Incluir si el caso satisface la condicin: En el cuadro pasamos la variable imca y escribimos la condicin usando los botones de calculadora. Dar clic en Continuar. Dar clic en Aceptar.
Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso Repetimos el procedimiento para definir el cdigo 2 como se muestra en la figura. Daremos clic en el botn Si para modificar la condicin.
Ahora la nueva condicin se escribe como se indica en el cuadro. El smbolo & indica el conector lgico y, es decir que se cumple al mismo tiempo. Para la opcin o utilizaremos el smbolo | De una manera similar se construyen los cdigos 3 a 6, situacin que queda como ejercicio para el estudiante.
Similar a lo que se hizo en la prctica 1, en el ambiente de Vista de variables se pueden definir las etiquetas de las variables que hemos construido hasta ahora y los valores o cdigos de la nueva variable CIMC, lo que se vera como sigue: Las nuevas variables construidas tendrn como etiqueta Estatura en metros, ndice de masa corporal antropomtrico y Clasificacin del ndice de masa corporal antropomtrico. ndice Cadera-Cintura Uno de los indicadores ms usados para determinar riegos cardiovasculares por problemas de obesidad es la relacin entre el permetro de la cintura y el de la cadera cuya expresin matemtica es: Permetro de cintura ICC= Permetro de cadera Los valores del ICC se clasifican de manera diferente segn el sexo. La siguiente tabla es una propuesta de la OMS en funcin del riego de padecer una enfermedad de tipo cardiovascular: Tipo de riesgo 1= Bajo 2 = Elevado 3 = Muy elevado Hombres <0.90 0.90 a 1.00 >1.00 Mujeres <0.80 0.80 a 0.85 >0.85 Tarea 1. Calcular el valor del ICC 2. Elaborar una variable que contenga la clasificacin segn sea el sexo, llamarla CICC.
Estadstica descriptiva En este apartado obtendremos algunos estadsticos descriptivos con el auxilio del SPSS. Tablas de frecuencias 1. Obtendremos las tablas de frecuencias de las variables sexo, turno e imca. En el opcin Analizar del men principal seleccionar Estadsticos Descriptivos y luego Frecuencias, apareciendo al cuadro que se muestra a un lado. Seleccionaremos las variables Sexo, Turno y CIMC pasndolas al cuadro de Variables, como se muestra en la figura. Dar clic en el botn .
Vlidos
Turno
Frecuencia 39 27 66
Porcentaje 59.1 40.9 100.0
Porcentaje vlido 59.1 40.9 100.0
Porcentaje acumulado 59.1 100.0
Vlidos
Vlidos
Tablas cruzadas Se desea establecer si existe o no relacin entre entre las variables sexo y has tenido relaciones sexuales? En SPSS utilizaremos el men Analizar, de donde seleccionaremos la opcin Estadsticos Descriptivos y luego Tablas de contingencia En el cuadro Filas introducir la variable sexo y en el de Columnas la variable que tiene que ver con la primera relacin sexual como se muestra en la figura que se presenta a un lado. Dar clic en el botn y seleccionar de la opcin Porcentajes la opcin Fila para obtener porcentajes por rengln, como se muestra en el cuadro de abajo. Dar clic en Continuar y despus en Aceptar.
Sexo
Femenino Masculino
Total
Grficas de barras Realizaremos una grfica de barras para cada sexo de la variable Durante toda tu vida con cuntas personas diferentes has tenido relaciones sexuales?
Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso En primer lugar utilizaremos la opcin Segmentar archivo de la opcin Datos del men principal. Esta opcin nos permite realizar las mismas instrucciones para los grupos definidos en la variable; en nuestro caso usaremos la variable sexo lo que nos permitir que todas las instrucciones que hagamos mientras este activada esta opcin se realice para hombres y mujeres por separado. Despus de seleccionar la opcin Comparar los grupos, se introduce la variable sexo como se muestra en la figura.
10
Para realizar la grfica de barras, de la opcin Grficos seleccionamos Cuadro de dilogo antiguos y escogemos Barras apareciendo la figura que se muestra a la izquierda. Dejamos la opcin Simple seleccionada por default y damos clic en el botn Definir, obteniendo el cuadro que se muestra abajo. Seleccionamos la opcin % de casos e introducimos la variable de inters en el cuadro Eje de categoras.
Despus de dar clic en Continuar y luego en Aceptar, se obtienen las grficas que se presentan a continuacin.
11
Sexo: Femenino
40.0% 40.0%
Sexo: Masculino
30.0%
30.0%
Porcentaje
20.0%
Porcentaje
1 2 3 4 5 6 7 15
20.0%
10.0%
10.0%
0.0%
0.0% 1 2 3 4 5 6 10 17
Durante toda tu vida con cuntas personas diferentes has tenido relaciones sexuales?
Durante toda tu vida con cuntas personas diferentes has tenido relaciones sexuales?
Media, mediana, moda, desviacin estndar, coeficientes de asimetra y curtosis. En esta seccin ejemplificaremos como obtener las medidas de tendencia central y de dispersin para variables cuantitativas. Ilustraremos las tcnicas para el caso de las variables estatura total y peso para cada sexo. Recordemos que en el apartado anterior dejamos activa la opcin Segmentar archivo por lo cual los resultados que se obtengan se repetirn para mujeres y hombres. En el opcin Analizar del men principal seleccionar Estadsticos Descriptivos y enseguida Frecuencias, apareciendo al cuadro que se muestra a un lado. Seleccionaremos las variables Peso Corporal y Estatura total pasndolas al cuadro de Variables, como se muestra en la figura. Desactivar la opcin Mostrar tablas de frecuencias. Dar clic en el botn para seleccionar las medidas solicitadas.
Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso En el men resultante seleccionar las medidas como se muestra en la figura. Dar clic en Continuar y luego en Aceptar. Se obtiene el cuadro con los resultados por sexo que se muestra abajo.
12
Estadsticos Sexo Femenino N Media Mediana Moda Desv. tp. Asimetra Error tp. de asimetra Curtosis Error tp. de curtosis N Media Mediana Moda Desv. tp. Asimetra Error tp. de asimetra Curtosis Error tp. de curtosis Vlidos Perdidos Estatura total Peso corporal 41 41 0 0 1576.39 57.300 1571.00 57.500 1563a 44.4a 50.010 11.5560 .309 .883 .369 .369 .094 1.204 .724 .724 25 25 0 0 1700.84 68.712 1699.00 65.600 1675 53.1a 65.987 12.7657 .426 .925 .464 .464 .320 .220 .902 .902
Masculino
Vlidos Perdidos
Grficas de caja Recordemos que las grficas de caja se construyen con base en los cuartiles y permiten comparar dos o ms grupos respecto a los valores de una variable cuantitativa. Ilustraremos el uso del SPSS creando una figura que permita comparar el IMC respecto al sexo y turno de los alumnos.
Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso En primer lugar desactivaremos la opcin Segmentar archivo. Del men principal seleccionamos Datos y luego Segmentar archivo. Ahora activamos la opcin Analizar todos los casos, no crear los grupos, como se muestra en la figura de al lado. Dar clic en Aceptar.
13
Para realizar la grfica, del men Grficos elegimos la opcin Cuadros de dialogo antiguos y Diagramas de caja. Seleccionamos el tipo Agrupado y damos clic en el botn , con lo cual aparece la ventana que se ve abajo a la derecha, donde introducimos las variables como se indica en la ventana. Dar clic en Aceptar.
Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso La grfica que se obtiene es la siguiente:
35.00
14
Turno
Matutino Vespertino
30.00
imca
25.00
20.00
Sexo
Tarea 3. Realiza una tabla de frecuencias para las variables: En tu primera relacin sexual t o tu pareja hicieron algo para evitar tener un embarazo? Qu fue lo que hicieron para evitar un embarazo? Y Clasificacin del ndice de masa corporal. 4. Realiza una grfica de barras para la variable Clasificacin del ndice cadera-cintura (CICC) para todos los casos. 5. Realiza una tabla cruzada entre las variables Sexo del individuo y La persona con la que tuviste la primera relacin sexual era. 6. Realiza una grfica de caja para la variable ICC comparando por sexo. 7. Realiza grficas de caja para las variables Estatura autopercibida y Peso autopercibido comparando por sexo. 8. Calcula media, mediana, mnimo, mximo y desviacin estndar comparando por sexo para las variables altura de rodilla, estatura sentado, peso corporal, ndice de masa corporal e ndice cintura-cadera. 9. Realiza histogramas para las variables estatura total y estatura sentado para cada sexo. 10. Considerando la estatura total como variable dependiente y la altura a la rodilla como variable independiente: a) Graficar los datos en un diagrama de dispersin. Se observa una tendencia lineal en los datos? b) Calcular el coeficiente de correlacin lineal. Interpretar c) Ajustar el modelo de regresin lineal. Interpretar d) Es un modelo adecuado? Calcular R 2 .