Você está na página 1de 180

ESTADSTICA

ParaAntroplogosFsicos
JosLuisCastrejnyDianaTroncoso Versindeagostode2009

Notas para el curso de Estadstica impartido en el primer semestre de la licenciatura en AntropologaFsicadelaEscuelaNacionaldeAntropologaeHistoria.Versinpreliminar.

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

UNIDAD I
1. ELEMENTOS BASICOS DE PROBABILIDAD
1.1. Concepto de Probabilidad Desde el punto de vista matemtico la probabilidad es una medida de la incertidumbre. Se ha convenido que dicha medida tome como valores entre cero y uno. Hablar de incertidumbre nos refiere al trmino azar. En la vida cotidiana estamos a menudo rodeados de fenmenos donde el azar est impregnado a los que grosso modo se les ha denominado fenmenos aleatorios. A diferencia de otro conjunto de fenmenos que se modelan por ecuaciones determinsticas, como los estudiados por la fsica, la probabilidad intenta modelar los fenmenos aleatorios a partir de la observancia de ciertas regularidades en los eventos involucrados. Precisando, llamaremos fenmeno aleatorio a todo aquel fenmeno en que se involucran factores fortuitos, provocando que su desenlace est sujeto al azar. De hecho, aun cuando todos sus posibles resultados pueden conocerse de antemano, la conclusin particular de un ensayo no puede determinarse exactamente con anterioridad. Sin embargo, la probabilidad es una medida para cuantificar el grado de certeza o incertidumbre de que ocurra cierto resultado. La forma de asignar probabilidades da lugar a diferentes enfoques. Ms all de un mtodo matemtico, la forma de determinar la probabilidad de un evento depende del tipo de fenmeno aleatorio al que se relaciona. 1.1.1. Probabilidad clsica o a priori ste enfoque slo puede utilizarse cuando los posibles resultados simples de un fenmeno aleatorio son EQUIPROBABLES; es decir, tienen la misma probabilidad de ocurrir. Dicha caracterstica permite que, sin necesidad de realizar el experimento, las probabilidades de los eventos puedan ser asignadas a travs del razonamiento abstracto con simplemente dividir el nmero de elementos del evento entre el nmero de elementos del espacio muestral: ENFOQUE CLSICO Permite calcular la probabilidad de un evento antes de que ocurra, pues los resultados del fenmeno son equiprobables. EXPRESIN

P (E ) =

#E #

EJEMPLO (lanzamiento de dado balanceado) Nmero de elementos del espacio Espacio muestral del fenmeno muestral

= { ,2,3,4,5,6} 1

# = 6

Sea U el evento en que, al lanzar un dado, se obtiene el nmero uno. Sea D el evento en que, al lanzar un dado, se obtiene el nmero dos. Sea T el evento en que, al lanzar un dado, se obtiene el nmero tres. Sea C el evento en que, al lanzar un dado, se obtiene el nmero cuatro. Sea Q el evento en que, al lanzar un dado, se obtiene el nmero cinco. Sea S el evento en que, al lanzar un dado, se obtiene el nmero seis Espacio muestral del Nmero de elementos Probabilidad evento del espacio muestral

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


U = {1} #U = 1

P (U ) = 1 P ( D) = 1 P (T ) = 1 P (C ) = 1 P (Q ) = 1 P(S ) = 1

D = {2} T = {3} C = {4} Q = {5} S = {6}

#D =1

#T = 1
#C = 1

6 6
6 6

#Q =1
#S =1

Confirmado est entonces que el enfoque clsico es la mejor forma de asignar probabilidades a priori cuando los eventos de un fenmeno son equiprobables. 1.1.2. Probabilidad frecuentista o a posteriori

El enfoque anterior, empero, resulta inoperante cuando la probabilidad de los eventos de un fenmeno aleatorio no es la misma o no se conoce. Es debido a ello que surge el enfoque frecuentista, que propone repetir el experimento u observar el fenmeno un gran nmero de ocasiones para designar como probabilidad de un evento su frecuencia relativa. ENFOQUE FRECUENTISTA Permite calcular la probabilidad de un evento despus de haber observado el fenmeno repetidamente.

P ( E ) = Frecuencia relativa

EXPRESIN

P(E) =

# de eventos observados # de repeticiones del fenmeno

EJEMPLO (sexo de un recin nacido) Sea M el evento en que el recin nacido es mujer. Sea H el evento en que el recin nacido es hombre. La probabilidad de estos eventos, sin embargo, no puede calcularse mediante el enfoque clsico pues, como atestiguan varias investigaciones, en prcticamente todas las poblaciones del mundo, nacen ms hombres que mujeres. Segn el reporte Mujeres y hombres en Mxico, 20071, en el grupo de 0 a 15 aos hay 103 hombres por cada 100 mujeres, que en trminos porcentuales se traduce en 50.7% de nios y 49.3% de nias. Si sta es la frecuencia relativa del fenmeno sexo de un recin nacido, podemos determinar que la probabilidad de los eventos M y H son:

P ( M ) = 0.493

P ( H ) = 0.507

Es decir, antes de asignar probabilidades a los resultados de un fenmeno (cuyos eventos no son equiprobables) es necesario haber registrado la conclusin de ensayos anteriores. 1.1.3. Probabilidad subjetiva o bayesiana

Instituto Nacional de Estadstica, Geografa e Informtica, 2007. Estructura de la poblacin por edad y sexo y Relacin hombres-mujeres por entidad federativa y grupos de edad en Mujeres y hombres en Mxico, 2007. 6, 8 p.p. Documento electrnico: http://www.inegi.gob.mx/prod_serv/contenidos/espanol/bvinegi/productos/integracion/sociodemografico/ mujeresyhombres/2007/MyH_2007_1.pdf

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Pese a lo anterior, el enfoque frecuentista tampoco es til cuando no hay posibilidad de atestiguar el fenmeno gran nmero de ocasiones, ya sea por falta de tiempo o simplemente porque el fenmeno ocurrir una sola vez. El ltimo mtodo disponible para asignar probabilidades es, por ende, atender la opinin de un experto en el fenmeno, confiando en que ste tiene la habilidad para juzgar correctamente la situacin. Dado que ello implica definir probabilidades de manera subjetiva, muchos de esos juicios se expresan comparando la credibilidad entre los diferentes resultados. ENFOQUE SUBJETIVO Asigna probabilidades de acuerdo al conocimiento de un experto. EJEMPLOS DE EXPRESIN

P ( E ) = x P ( Ec )

P ( C ) = creencia en C (factor de apuesta)

EJEMPLO (terremoto en California) Sea S el evento en que se da un terremoto en el sur de California. Sea T el evento en que se da un terremoto tanto en el sur como en el norte de California. Bajo rdenes del gobierno de California y a peticin de las aseguradoras privadas estadounidenses, expertos de tres observatorios geolgicos (el Servicio Geolgico Estadounidense, el Centro de Observacin de Temblores de la Universidad del Sur de California y el Servicio Geolgico Estatal de California) investigaron basndose en observaciones satelitales la posibilidad de que ocurra un terremoto en el territorio de California. Comparando su pronstico con el temblor que hubo en 1994 en la zona de Northridge (6.7 grados Richter), el reporte entregado afirma que es "virtualmente cierto que California experimente por lo menos un temblor mayor para el ao 2028", y que uno de mayor magnitud que ese ocurrir entre los aos 2037 y 2038. Segn la informacin, hay un 97% de probabilidades de que ocurra un terremoto mayor en el sur de California en ese periodo, y un 93% de posibilidades de que el movimiento incluya tambin al norte de California.2

P ( S ) = 0.97

P (T ) = 0.93

ste caso es, sin duda alguna, ejemplar para explicar que en muchas ocasiones no hay forma de atestiguar repetidamente un fenmeno para calcular las probabilidades de sus eventos. Por ende, es necesario acercarse a los conocimientos de un especialista para realizar tal tarea.

Prevn un gran terremoto en California entre 2008 y 20038 en El Universal, Secc. El Mundo. Martes 15 de abril del 2008. Formato electrnico: http://www.eluniversal.com.mx/notas/498716.html

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

2. EVENTOS Y SUS PROBABILIDADES


2.1. Espacio muestral y eventos

Revisemos ahora algunos conceptos bsicos de probabilidad ejemplificndolos con el lanzamiento de un dado regular de seis caras. Por un lado, se llama espacio muestral al conjunto de todos los posibles resultados de un fenmeno aleatorio; el cual se denota por la letra griega omega: . EJEMPLO (lanzamiento de dado) Y al definir dicho espacio muestral reconocemos el nmero de resultados que tiene este fenmeno aleatorio:

= { ,2,3,4,5,6} 1

# = 6

Por otro, se denomina evento (denotado por cualquier letra mayscula) al resultado del ensayo de un fenmeno aleatorio. Dado que todo evento es un subconjunto del espacio muestral, existen diversos tipos de eventos: a) Eventos simples: Son aquellos que los que se da slo un resultado. EJEMPLO (lanzamiento de dado) Sea D el evento en que, al lanzar un dado, se obtiene el nmero dos.

D = {2}

Donde comprobamos que el evento D tiene slo un resultado posible:

#D =1

b) Eventos compuestos: Son eventos que comprenden ms de un resultado (secuencia de puntos muestrales). EJEMPLO (lanzamiento de dado) Sea P el evento en que, al lanzar un dado, se obtiene un nmero par.

P = {2,4,6}

Donde observamos que el evento P tiene ms de un resultado posible:

#P = 3

Dos eventos particulares, deben sealarse con ms atencin: Evento imposible: No denotado por una letra, sino por el smbolo de conjunto vaco ( ) , el evento imposible es un evento que no contiene elementos. EJEMPLO (lanzamiento de dado) Sea N el evento en que, al lanzar un dado, se obtiene el nmero nueve.

} ={ }

N ={

Ya que ninguna de las caras del dado regular posee el nmero nueve, el evento N es imposible ( ) :

#N =0 # = 0

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Evento seguro: Es un evento que comprende los mismos elementos que el espacio muestral; razn por la cual es denotado tambin mediante . EJEMPLO (lanzamiento de dado) Sea O el evento en que, al lanzar un dado, se obtiene un nmero menor a ocho. El evento O posee los mismos elementos que el espacio muestral. Como todos los resultados posibles del lanzamiento del dado son menores a seis, se trata de un evento seguro ( ) ;

O = {1, 2,3, 4,5, 6} = { ,2,3,4,5,6} 1

#O = 6 # = 6

Eventos ajenos (mutuamente excluyentes): Son eventos que no tienen elementos en comn. EJEMPLO (lanzamiento de dado) Sea C el evento en que, al lanzar un dado, se obtiene un nmero primo y D , el evento en que se obtiene un nmero no primo.

C = {1, 2,3,5} D = {4, 6}

Como puede verse, los eventos A y B no poseen elementos en comn.

#C = 4 #D = 2

Finalmente, se conoce como -lgebra al conjunto de todos los subconjuntos del espacio muestral. El smbolo con que se le denota, 2 , sirve adems para calcular el nmero de eventos que comprende un fenmeno aleatorio. Basta con sustituir con el nmero de elementos que tiene el espacio muestral de dicho fenmeno. EJEMPLO (lanzamiento de dado) Como el espacio muestra contiene 6 6 elementos, el nmero total de # = 6 2 = 64 eventos es 64. , (1) , ( 2 ) , ( 3) , ( 4 ) , ( 5 ) , ( 6 ) , ( ) (1, 2 ) , (1,3) , (1, 4 ) , (1,5 ) , (1, 6 ) , ( 2,3) , ( 2, 4 ) , ( 2,5 ) , ( 2, 6 ) , ( 3, 4 ) , ( 3,5 ) , ( 3, 6 ) , ( 4,5 ) , ( 4, 6 ) , ( 5, 6 ) , 1, 2,3 , 1, 2, 4 , 1, 2,5 , 1, 2, 6 , 1,3, 4 , 1,3,5 , 1,3, 6 , 1, 4,5 , 1, 4, 6 , 1,5, 6 , 2,3, 4 , )( )( )( )( )( )( )( )( )( )( ) ( ( 2,3,5) , ( 2,3, 6 ) , ( 2, 4,5) , ( 2, 4, 6 ) , ( 2,5, 6 ) , ( 3, 4,5 ) , ( 3, 4, 6 ) , ( 3,5, 6 ) , ( 4,5, 6 ) , (1, 2,3, 4 ) , (1, 2,3,5 ) , (1, 2,3, 6 ) , (1, 2, 4,5 ) , (1, 2, 4, 6 ) , (1, 2,5, 6 ) , (1,3, 4,5 ) , (1,3, 4, 6 ) , (1,3,5, 6 ) , (1, 4,5, 6 ) , ( 2,3, 4,5 ) , ( 2,3, 4, 6 ) , ( 2,3,5, 6 ) , ( 2, 4,5, 6 ) , ( 3, 4,5, 6 ) , (1, 2,3, 4,5 ) , (1, 2,3, 4, 6 ) , (1, 2,3,5, 6 ) , (1, 2, 4,5, 6 ) , (1,3, 4,5, 6 ) , ( 2,3, 4,5, 6 ) , (1, 2,3, 4,5, 6)

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


EJEMPLOS DE APLICACIN 1. Sea la extraccin de una carta (de una baraja con 52 cartas) el fenmeno a estudiar. a) Defina el espacio muestral de dicho fenmeno aleatorio. b) Calcule el nmero de nmero de subconjuntos del espacio muestral (-lgebra). c) Determine el nmero de elementos que contienen los eventos estipulados y, a partir de ello, clasifique los eventos (individuales o por parejas) que se mencionan. De entrada tenemos que el espacio muestral deL fenmeno aleatorio extraccin de una carta de una baraja es el siguiente:

, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R, , 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R, = # = 52 A, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R, , 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R
a) Gracias a lo cual podemos observar las 52 posibles cartas que pueden ser extradas de dicha baraja. Ahora bien, calculemos el total de subconjuntos de dicho espacio muestral:

2 = 252 = 4.5036x1015
b) Como podemos ver, el nmero de eventos posibles para este fenmeno es inmenso: 4.5036x1015 . Finalmente determinemos el nmero y tipo de los siguientes eventos:

Sea A el evento en que sale un as de corazones:

A = {} # A = 1
El evento sale un as de corazones tiene slo un elemento, por ende es un EVENTO SIMPLE.

Sea D el evento en que se obtiene un diez de diamantes:

D = {10} # D = 1
El evento se obtiene un diez de diamantes contiene un elemento, por lo cual es un EVENTO SIMPLE.

Sea E el evento en que se extrae una carta de espadas:

E = {, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R} # E = 13


El evento se extrae una carta de espadas posee 13 elementos; razn por la que es un EVENTO COMPUESTO.

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Sea C el evento en que sale un cuatro:

C = {4, 4, 4, 4} # C = 4
El evento sale un cuatro comprende 4 elementos. Debido a ello es un EVENTO COMPUESTO.

Sea U el evento en que se obtiene una carta con un uno:

U ={

} #U = 0

El evento se obtiene una carta con un uno es un EVENTO IMPOSIBLE, ya que este tipo de barajas, en vez de tener unos, poseen ases.

Sea J el evento en que se extrae un comodn:

J ={

} #J =0

El evento se obtiene una carta con un uno no tiene elemento alguno, por lo cual es un EVENTO IMPOSIBLE.

Sea P el evento en que sale un diamante, un corazn, un trbol o una espada:

, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R, , 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R, P= # P = 52 A, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R, , 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R
El evento sale un diamante, un corazn, un trbol o una espada es un EVENTO SEGURO, pues las 52 cartas de la baraja cumplen con tales requisitos.

Sea Q el evento en que se obtiene una reina: Sea T el evento en que se extrae un trbol:

Q = {Q,Q,Q,Q} # Q = 4 T = { A, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R,} # T = 13


Tanto el evento Q como el T tienen ms de un elemento (4 y 13, respectivamente). Si bien esto hace a cada uno un EVENTO COMPUESTO, es ms importante notar que, como pareja, NO SON EVENTOS AJENOS, pues

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


tienen en comn a la reina de trboles.

Sea R el evento en que sale una carta de palo rojo: Sea N el evento en que se obtiene una carta de palo negro:

, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R, R= # R = 26 , 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R, A, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R, N = # N = 26 , 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R
Si bien estos eventos son tambin COMPUESTOS (ya que comprenden 13 elementos), como pareja s son EVENTOS EXCLUYENTES, ya que ninguno de sus puntos muestrales es igual.

PROPIEDADES ELEMENTALES DE LA PROBABILIDAD Ya revisadas las diferentes formas que existen para calcular la probabilidad de un evento, resta estudiar las bases que sustentan la teora probabilstica. Empero, ms all de los axiomas, debe verse en estas propiedades una forma ms de asignar probabilidades y de corroborar los resultados. 1. La probabilidad de cualquier evento E es un nmero no negativo. 2. La probabilidad de cualquier evento E es un nmero igual o menor a uno. 3. Por ende, la probabilidad de cualquier evento E est entre cero y uno. 4. La suma de las probabilidades de todos los resultados posibles de un fenmeno es igual a uno. 5. Si E es un evento cualquiera, el evento que contiene todos los elementos del espacio muestral que no estn en E es su EVENTO COMPLEMENTO: E c . Por tanto, la suma de sus probabilidades es igual a uno. C. EJEMPLOS DE APLICACIN 1. Defina, justificando su respuesta, el enfoque necesario para asignar probabilidad a los siguientes eventos:

P(E) 0 P(E) 1 0 P(E) 1

P ( E1 ) + ... + P ( Ek ) = P ( Ei ) =P ( ) = 1
i =1

P ( E ) + P ( Ec ) = 1

Se est apostando por color en una ruleta europea (que adems de 36 nmeros tiene una casilla para el cero, que es verde). Cul es la probabilidad de que la bola caiga en una casilla roja?

Dado que los resultados de la ruleta son equiprobables, podemos utilizar el

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


enfoque clsico:

0,1, 2, 3, 4, 5, 6, 7,8, 9,10,11,12,13,14,15,16,17,18,19, 20, = # A = 37 21, 22, 23, 24, 25, 26, 27, 28, 29, 30,31, 32,33, 34,35, 36 R = {1, 3, 5, 7, 9,12,14,16,18,19, 21, 23, 25, 27, 30, 32, 34, 36} # R = 18 P ( R) = 18 = 0.4865 37
Segn ste enfoque, la probabilidad de que la bola caiga en una casilla roja es de 48.65%.

Se lanza una moneda. Cul es la probabilidad de que caiga sol si en 80 de 200 lanzamientos anteriores ha cado dicha cara.

La notable diferencia de resultados en ensayos anteriores nos indica que la moneda no est bien balanceada. Por ende es mejor utilizar el enfoque frecuentista para asignar probabilidad a este evento:

P(S ) =

80 = 0.4000 200

Gracias a l sabemos que la probabilidad de que salga sol en el prximo lanzamiento es de 40.00%.

Cul es de que uno infante padezca una enfermedad alrgica si: a) Ambos padres fueron alrgicos ( D ) . b) Slo uno de sus padres fue alrgico (U ) .

Si bien podran averiguarse las frecuencias relativas de dichos eventos, el desarrollo de una enfermedad alrgica se relaciona con factores genticos. Por ende, es mejor confiar en juicios como el del doctor Gerardo Lpez Prez, mdico adscrito al servicio de Alergia del Instituto Nacional de Pediatra (INP) de la Secretara de Salud, quien afirma que si ambos padres fueron alrgicos, el nio tiene hasta 50% de posibilidad de serlo, si es uno de ellos, el riesgo es de 30%...3

P ( D ) = 0.5000

P (U ) = 0.3000

Cul es la probabilidad de que, en un juego de perinola, alguien o todos pongan una ficha?

Bajo el supuesto de que dicha perinola no est trucada, podemos aplicar el enfoque clsico:

= {pon una, pon dos, todos ponen (una), toma una, toma dos, toma todo} # = 6 P = {pon una,todos ponen (una),} # P = 2

El 30% de la poblacin presenta durante su vida algn tipo de alergia en Comunicado de prensa No. 318. Secretara de Salud. 7 de junio del 2006. Documento electrnico: http://www.salud.gob.mx/ssa_app/noticias/datos/2006-06-07_2254.html

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

P ( P) =

2 = 0.3333 6

Segn lo cual, la probabilidad de que alguien o todos pongan una ficha es de 33.33%.

Cul es la probabilidad de que una denuncia presentada ante la Procuradura General de Justicia del Distrito Federal (PGJDF) se relacione a un delito ambiental de tala, cometido en nuestra ciudad?

Samuel Ibarra Vargas, titular de la Fiscala Especial para la Atencin de Delitos Ambientales de la PGJDF, precisa: de 38 a 40 por ciento de las denuncias que tenemos en la Fiscala son de tala4. Dicha afirmacin implica ya una observacin repetida del evento (denuncia por tala), razn por la cual podemos aplicar el enfoque frecuentista:

P (T ) =

38 = 0.3800 100

P (T ) =

40 = 0.4000 100

Por tanto, la probabilidad de que una denuncia se relacione a la tala es de 38 a 40%.

Cul es la probabilidad de que llueva durante las ceremonias de inauguracin y clausura de los Juegos Olmpicos en China (2008)?

Si bien no hay forma de aqu tampoco hay forma de repetir el evento, los registros histricos muestran una probabilidad del 50 por ciento de que haya precipitaciones en los das en que se llevarn a cabo las citadas ceremonias, el 8 y el 24 de agosto, respectivamente.5 Por ende, la probabilidad del evento lluvia durante las ceremonias ( L ) es de:

P ( L ) = 0.5000
2. Compruebe con ayuda de los siguientes fenmenos las reglas de probabilidad: a) El lanzamiento de una moneda balanceada. b) La tirada de un dado no trucado. Definamos primero el espacio muestral de ambos eventos: MONEDA DADO

= {guila, sol} = { ,2,3,4,5,6} 1

# = 2
# = 6

Aumentan denuncias por delitos ambientales en el DF en El Universal, Secc. DF. 1 de junio del 2008. Formato electrnico: http://www.eluniversal.com.mx/notas/511216.html 5 Controlarn clima en JO 2008 con cohetes en El Siglo de Durango. 2 de enero del 2008. Direccin electrnica: http://www.elsiglodedurango.com.mx/noticia/152651.controlaran-clima-en-jo-2008-concohetes.siglo

10

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Comprobemos ahora que la probabilidad de todos los eventos de dichos fenmenos es mayor a cero y menor a uno: MONEDA Salga guila ( A ) Salga sol ( S ) Caiga uno (U ) Caiga dos ( D ) Caiga tres (T ) Caiga cuatro ( C ) Caiga cinco ( Q ) Caiga seis ( S )

A = {guila} S = {sol}
DADO

# A =1
#S =1 #U = 1

P ( A ) = 1 = 0.5000 2 P ( S ) = 1 = 0.5000 2 P (U ) = 1 = 0.1667 6 P ( D ) = 1 = 0.1667 6 P (T ) = 1 = 0.1667 6 P ( C ) = 1 = 0.1667 6 P ( Q ) = 1 = 0.1667 6 P ( S ) = 1 = 0.1667 6

U = {1} D = {2} T = {3} C = {4} Q = {5} S = {6}

#D =1
#T = 1
#C = 1

#Q =1
#S =1

Ahora confirmemos que la suma las probabilidades de todos los eventos de cada fenmeno es igual a uno: MONEDA Salga guila ( A ) Salga sol ( S ) Caiga uno (U ) Caiga dos ( D ) Caiga tres (T ) TOTAL

P ( A ) = 1 = 0.5000 2 P ( S ) = 1 = 0.5000 2
DADO

P ( A) + P ( S ) = 1 + 1 = 2 = 1 2 2 2

P (U ) = 1 = 0.1667 Caiga cuatro ( C ) P ( C ) = 1 = 0.1667 6 6 P ( D ) = 1 = 0.1667 Caiga cinco ( Q ) P ( Q ) = 1 = 0.1667 6 6 1 = 0.1667 1 = 0.1667 Caiga seis ( S ) P (T ) = P(S ) = 6 6 P (U ) + P ( D ) + P (T ) + P ( C ) + P ( Q ) + P ( S )
= 1 + 1 + 1 + 1 + 1 + 1 = 6 =1 6 6 6 6 6 6 6

Finalmente, elijamos o estipulemos algunos eventos para comprobar la propiedad relativa a los eventos complementos: MONEDA Sea A el evento en que sale un guila.

A = {guila}

# A =1

P ( A ) = 1 = 0.5000 2 P ( S ) = 1 = 0.5000 2

Como el lanzamiento de una moneda slo tiene dos resultados, el evento complementos es sale sol

S = {sol}

#S =1

La suma de estos eventos debe ser, por tanto, igual a uno:

11

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

P ( A) + P ( S ) = 1 + 1 = 2 = 1 2 2 2
DADO Sea N el evento en que cae un nmero non.

N = {1,3,5} P = {2, 4, 6}

#N =3
#P =3
Eventos cuya suma es igual a uno:

P ( N ) = 3 = 0.5000 6 P ( P ) = 3 = 0.5000 6

El evento complemento de tal evento es: cae un nmero par

P ( N ) + P ( P) = 3 + 3 = 6 = 1 6 6 6
Ya estudiados los enfoques y axiomas de la teora probabilstica, en este captulo analizaremos cmo se aplican dichos principios al clculo de probabilidades de diversos tipos de eventos. Como anteriormente mencionamos, un evento imposible ( ) es aqul que no contiene elementos. Dado que dicho suceso no puede ocurrir, la probabilidad de un evento imposible siempre ser la mnima P ( E ) 0 ; es decir, cero: EXPRESIN PARA ASIGNAR PROBABILIDAD A UN EVENTO IMPOSIBLE

P () = 0

Por el contrario, dijimos que el evento seguro ( ) es aqul que contiene los mismos elementos que el espacio muestral. El hecho de que este suceso comprenda todos los eventos posibles P ( E1 ) + ... + P ( Ek ) =

probabilidad del evento seguro siempre sea la mxima P ( E ) 1 ; esto es, igual a uno: EXPRESIN PARA ASIGNAR PROBABILIDAD A UN EVENTO SEGURO Evento complemento Por otro lado, revisamos que un evento complemento

P ( E ) =P ( )
i =1 i

implica, por tanto, que la

P () = 1

(E )
c

es aqul que contiene

todos los elementos del espacio muestral que no estn en el evento E . Si la suma de

sus probabilidades es igual a uno P ( E ) + P E c = 1 , la probabilidad del evento

( )

complemento puede calcularse restando a uno la probabilidad del evento E : EXPRESIN PARA ASIGNAR PROBABILIDAD A UN EVENTO COMPLEMENTO

P ( Ec ) = 1 P ( E )

12

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Evento interseccin y unin Las cosas cambian, no obstante, cuando un evento comprende dos o ms eventos ( E1 , E2 , E3 ,..., Ek ) . Por ello es que estudiando la teora de conjuntos recordaremos: 1. Que el conjunto que contiene los elementos comunes a dos conjuntos ( A y B ) es llamado interseccin y denotado por A B . 2. Que el conjunto que contiene todos los elementos de A y B es llamado unin y denotado por A B . Ahora bien, igual que en la teora de conjuntos, en probabilidad se denomina evento interseccin al evento que comprende slo los elementos comunes a dos o ms eventos ( E1 , E2 , E3 ,..., Ek ) : EVENTO INTERSECCIN

I = ( E1 E2 )

Por otro lado, se llama evento unin al evento que contiene los elementos de dos o ms eventos ( E1 , E2 , E3 ,..., Ek ) : EVENTO UNIN

U = ( E1 E2 )

Interseccin y unin de eventos cualesquiera La ocurrencia de estos eventos y la asignacin de probabilidad son, por ende, distintas a las de otros sucesos: 1) Un evento interseccin ocurre cuando se dan uno y otro evento; es decir, ambos. Debido a ello, la probabilidad del evento interseccin se puede calcular dividiendo el nmero de elementos que comparten los eventos entre el nmero de elementos del espacio muestral: EVENTO INTERSECCIN

Evento en que suceden todos los eventos.


EXPRESIN PARA ASIGNAR PROBABILIDAD A LA INTERSECCIN DE EVENTOS CUALESQUIERA

I = ( E1 E2 ) P ( I ) = P ( E1 E2 )

P ( E1 E2 ) =

# de elementos comunes entre E1 y E 2 # de elementos del espacio muestral

2) Un evento unin sucede cuando se da uno u otro evento. Por tal motivo, la probabilidad de un evento unin se puede calcular sumando las probabilidades individuales de los eventos y restando a ello la probabilidad de su interseccin: EVENTO UNIN

Evento en que sucede al menos uno u otro de los eventos.


EXPRESIN PARA ASIGNAR PROBABILIDAD A LA UNIN DE EVENTOS CUALESQUIERA

U = ( E1 E2 ) P (U ) = P ( E1 E2 ) = P ( E1 ) + P ( E2 ) P ( E1 E2 )

13

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Interseccin y unin de eventos ajenos Dado que no tienen elementos en comn ( E3 E4 ) = , la probabilidad de interseccin entre dos o ms de ellos es siempre igual a cero; adems, por deduccin, la probabilidad de su evento complemento es igual a uno: PROBABILIDAD DE EVENTO INTERSECCIN ENTRE EVENTOS AJENOS PROBABILIDAD DE EVENTO COMPLEMENTO RESPECTO A UN EVENTO INTERSECCIN ENTRE EVENTOS AJENOS Los eventos ajenos son, sin embargo, un caso especial de las expresiones anteriores.

P ( E3 E4 ) = 0

P ( E3 E4 ) = 1
c

Asimismo, como su interseccin es igual a cero, su probabilidad de unin es simplemente igual a la suma de las probabilidades individuales de sus eventos:

P (U ) = P ( E3 E4 ) = P ( E3 ) + P ( E4 ) P ( E3 E4 ) P (U ) = P ( E3 E4 ) = P ( E3 ) + P ( E4 ) 0 P (U ) = P ( E3 E4 ) = P ( E3 ) + P ( E4 )
EXPRESIN PARA ASIGNAR PROBABILIDAD A LA UNIN DE EVENTOS AJENOS

P ( E3 E4 ) = P ( E3 ) + P ( E4 )

k P ( E1 E2 E3 ... EK ) = P Ei i =1 P ( E1 E2 E3 ... EK ) = P ( Ei )
i =1 k

Leyes de probabilidad Habiendo revisado los eventos interseccin y unin, podemos mencionar ya otras de las leyes que se aplican al clculo de probabilidad. Leyes DMorgan

P ( A B) = P ( A B
c c

LEYES DMORGAN

P ( A B ) = P ( Ac B c )
c

Leyes distributivas

P ( A ( B C )) = P (( A B ) ( A C ))

LEYES DISTRIBUTIVAS

P ( A ( B C )) = P (( A B ) ( A C ))

Revisemos y apliquemos ahora todo lo anterior utilizando, una vez ms, un sencillo fenmeno aleatorio: el lanzamiento de un dado.

14

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Ejemplos de aplicacin 1. Si se lanza un dado no trucado, cul es la probabilidad de los siguientes eventos: Lanzamiento de un dado balanceado Espacio muestral del fenmeno Nmero de elementos del espacio muestral

= { ,2,3,4,5,6} 1

# = 6

Sea el evento D en que se obtiene un nmero mayor a ocho:

D ={

} #D = 0

El evento es imposible; por tanto: P ( ) = 0 La probabilidad de que se obtenga un nmero mayor a ocho es nula (0.00%).

Sea E el evento en que aparece un nmero menor a diez:

E = {1, 2,3, 4,5, 6} # E = 6


El evento es seguro; por tanto: P ( ) = 1 La probabilidad de que aparezca un nmero menor a diez es de 100.00%.

Sea F el evento en que sale el nmero uno:

F = {1} # F = 1

P ( F ) = 1 = 0.1667 6

La probabilidad de que salga el nmero uno es de 16.67%.

Sea G el evento en que se obtiene un nmero diferente al uno:

G = {2,3, 4,5, 6} # G = 5

P ( G ) = 5 = 0.8333 6

No obstante, como el evento G = nmero 1 es complemento del evento F = nmero 1 , podemos tambin calcular su probabilidad mediante la siguiente expresin:

P ( G ) = 1 P ( F ) = 1 0.1667 = 0.8333
La probabilidad de que se obtenga un nmero diferente al uno es de 83.33%. Ahora veamos un poco sobre la probabilidad de interseccin y unin entre eventos cualesquiera y ajenos con tres diferentes sucesos:

15

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Sea H el evento en que aparece el nmero cinco:

H = {5} # H = 1

P ( H ) = 1 = 0.1667 6

La probabilidad de que aparezca el nmero cinco es de 16.67%.

Sea I el evento en que sale un nmero non:

I = {1,3,5} # I = 3

P ( I ) = 3 = 0.5000 6

La probabilidad de que salga un nmero non es de 50.00%.

Sea J el evento en que se obtiene un nmero menor a cuatro:

J = {1, 2,3} # J = 3

P ( J ) = 3 = 0.5000 6

La probabilidad de que se obtenga un nmero menor a cuatro es de 50.00%. Interseccin de los eventos: Determine la probabilidad del evento ( H I ) :

H = {5}

I = {1,3,5}

Los eventos H e I comparten un elemento: el cinco ( H I ) = {5} ; por lo cual:

P ( E1 E2 ) =

# de elementos comunes entre E1 y E 2 P ( H I ) = 1 = 0.1667 6 # de elementos del espacio muestral

La probabilidad del evento ( H I ) es de 16.67%. Determine la probabilidad del evento ( H J ) :

H = {5}

J = {1, 2,3}

Los eventos H e J son ajenos, ya que no tienen elementos en comn

( H J ) = { } . Debido a ello: P ( H J ) = 0

La probabilidad del evento ( H J ) es nula (0.00%).

16

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Por deduccin, determine la probabilidad del complemento para el evento (H J ) :

P ( H J ) = 1 P ( H J ) = 1 0 = 1
c

La probabilidad del complemento del evento ( H J ) es de 100.00%.

Unin de los eventos: Determine la probabilidad del evento ( H I ) :

Sabemos que: H = {5} y que I = {1,3,5} . Por tanto, al unir los dos eventos tenemos:

( H I ) = {1,3,5,5} .

Pero, para calcular la probabilidad, hay que

eliminar el elemento comn:

( H I ) = {5} ( H I ) = {1,3,5} ,

resultando en:

P ( H I ) = 3 = 0.5000 6
Esto, claro est, es ms sencillo aplicando la expresin para probabilidad de unin de eventos cualesquiera (no ajenos): FRMULA DATOS PARA SUSTITUIR

P ( E1 E2 ) = P ( E1 ) + P ( E2 ) P ( E1 E2 ) P(H I ) = P(H ) + P(I ) P(H I ) P ( H I ) = 1 + 3 1 = 3 = 0.5000 6 6 6 6

6 3 I = {1,3,5} # I = 3 P ( I ) = 6 1 ( H I ) = {5} P ( H I ) = 6

H = {5} # H = 1 P ( H ) = 1

La probabilidad del evento ( H I ) es de 50.00%. Determine la probabilidad del evento ( H J ) :

Sabemos que: H = {5} y que J = {1, 2,3} . Por tanto, al unir los dos eventos tenemos:

( H J ) = {1, 2,3,5} .

As que: P ( H J ) = 4 = 0.6667 . Pero ya que

existe una expresin para calcular la probabilidad de unin de eventos ajenos, ocupmosla:

P ( E3 E4 ) = P ( E3 ) + P ( E4 ) P(H J ) = P(H ) + P(J ) P ( H J ) = 1 + 3 = 4 = 0.6667 6 6 6

FRMULA

DATOS PARA SUSTITUIR

6 3 J = {1, 2,3} # J = 3 P ( J ) = 6

H = {5} # H = 1 P ( H ) = 1

La probabilidad del evento ( H J ) es de 66.67%.

17

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Finalmente comprobemos las leyes DMorgan y las leyes distributivas con ayuda de tres eventos:

Sea A el evento en que aparece un nmero par:

A = {2, 4, 6} # A = 3

P ( A ) = 3 = 0.5000 6

La probabilidad de que aparezca un nmero par es de 50.00%.

Sea B el evento en que sale un nmero mayor a tres:

B = {4,5, 6} # B = 3

P ( B ) = 3 = 0.5000 6

La probabilidad de que salga un nmero mayor a tres es de 50.00%.

Sea C el evento en que se obtiene un nmero primo:

C = {1, 2,3,5} # C = 4

P ( C ) = 4 = 0.6667 6

La probabilidad de que se obtenga un nmero primo es de 66.67%. Leyes DMorgan:

P ( A B ) = P ( Ac B c )
c

P ( A B ) = P ( Ac B c )
c

Elementos para comprobar

A = {2, 4, 6} # A = 3 Ac = {1,3,5} B = {4,5, 6} # B = 3 B c = {1, 2,3}

P ( A) = 3

c P ( A) = 1 P ( A) = 1 3 = 3 6 6

P ( B) = 3

c P ( B) = 1 P ( B) = 1 3 = 3 6 6

( A B ) = {4, 6}
c

P ( A B) = 2

P ( A B) = 1 P ( A B) = 1 2 = 4 6 6

( A B ) = {2, 4,5, 6}
no ajenos

P ( A B ) = P ( A) + P ( B ) P ( A B ) P ( A B) = 3 + 3 2 = 4 6 6 6 6

P ( A B) = 1 P ( A B) = 1 4 = 2 6 6
c

18

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

(A
(A
c

B c ) = {1,3}

P ( Ac B c ) = 2

B c ) = {1, 2,3,5}
no ajenos
c

P ( Ac B c ) = P ( Ac ) + P ( B c ) P ( Ac B c ) P ( Ac B c ) = 3 + 3 2 = 4 6 6 6 6 c P ( A B) = 2 6 c c P( A B ) = 2 6 P ( A B ) = P ( Ac B c )
c

P ( A B ) = P ( Ac B c )
c

6 P( A B ) = 4 6
c c

P ( A B) = 4

= 4 = 0.6667 6

= 2 = 0.3333 6

Finalmente, si sustituimos letras por eventos y elementos, podemos concluir que: 1. Por un lado, la probabilidad de que aparezca un 1, 2, 3 5

P ( A B )c = P ( Ac B c ) es de 66.67%.

c 2. Por otro, la probabilidad de que salga 1 y 3 P ( A B ) = P Ac B c es de

33.33%. Leyes distributivas:

P ( A ( B C )) = P (( A B ) ( A C )) A = {2, 4, 6} # A = 3 B = {4,5, 6} # B = 3 C = {1, 2,3,5} # C = 4

P ( A ( B C )) = P (( A B ) ( A C ))

Elementos para comprobar

P ( A) = 3 P ( B) = 3 P (C ) = 4

6 6 6 6

( A B ) = {4, 6}

P ( A B) = 2

( A B ) = {2, 4,5, 6}
no ajenos

P ( A B ) = P ( A) + P ( B ) P ( A B ) P ( A B) = 3 + 3 2 = 4 6 6 6 6

( A C ) = {2}
( A C ) = {1, 2,3, 4,5, 6}
no ajenos

P( AC) = 1

P ( A C ) = P ( A) + P ( C ) P ( A C ) P( AC) = 3 + 4 1 = 6 6 6 6 6

( ( A B ) ( A C ) ) = {2, 4,5, 6}

P (( A B ) ( A C )) = 4

( ( A B ) ( A C ) ) = {2, 4, 6}
ajenos

P (( A B ) ( A C )) = P ( A B ) + P ( A C ) P (( A B ) ( A C )) = 2 + 1 = 3 6 6 6

19

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

( B C ) = {5}

P(B C) = 1

( B C ) = {1, 2,3, 4,5, 6}


no ajenos

P ( B C ) = P ( B ) + P (C ) P ( B C ) P(B C) = 3 + 4 1 = 6 6 6 6 6

( A ( B C ) ) = {2, 4, 6}
( A ( B C ) ) = {2, 4,5, 6}
ajenos

P ( A ( B C )) = 3

P ( A ( B C ) ) = P ( A) + P ( B C ) P ( A ( B C )) = 3 + 1 = 4 6 6 6 P ( A ( B C )) = 4 6 P (( A B ) ( A C )) = 4 6 = 4 = 0.6667 6

6 P ( A ( B C )) = P (( A B ) ( A C )) = 3 = 0.5000 6
Es decir:

6 P (( A B ) ( A C )) = 3

P ( A ( B C )) = 3

P ( A ( B C )) = P (( A B ) ( A C ))

1. La probabilidad de que se obtenga un 2, 4 6

P ( A ( B C ) ) = P ( ( A B ) ( A C ) ) es de 50.00%.

2. La probabilidad de que aparezca un 2, 4, 5 6 P A ( B C ) = P ( A B ) ( A C ) es de 66.67%.

Probabilidad condicional Otra forma de analizar dos o ms eventos es investigar si la ocurrencia de uno depende de otro. En vistas de tal objetivo, la teora probabilstica ha desarrollado la probabilidad condicional, que por definicin es la probabilidad de que suceda un evento dado que haya ocurrido otro y se denota por: P A B . Probabilidad condicional de eventos cualesquiera Para asignar dicha probabilidad, basta dividir la probabilidad de interseccin de los eventos entre la probabilidad del evento que debi haberse dado: EXPRESIN PARA DETERMINAR LA PROBABILIDAD CONDICIONAL DE DOS EVENTOS CUALESQUIERA

P ( A B) =

P ( A B) P ( B)

P ( B A) =

P ( A B) P ( A)

Pese a su parecido, la operacin probabilidad condicional no tiene propiedad conmutativa. Por ello debe vigilarse con atencin cul es la probabilidad del evento causante y cul es la de evento consecuencia. Probabilidad condicional de eventos ajenos

20

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Dicho esto, podemos hacer otra excepcin a la frmula general: al ser la probabilidad de interseccin de eventos ajenos igual a cero, su probabilidad condicional deviene tambin cero: PROBABILIDAD CONDICIONAL DE EVENTOS AJENOS

P (C D ) =

P (C D ) 0 = =0 P ( D) P ( D)

P(D C) =

P (C D ) 0 = =0 P (C ) P (C )

Eventos independientes Si bien la operacin probabilidad condicional proporciona la probabilidad de que suceda un evento dado otro, tambin nos permite identificar cuando los eventos analizados son eventos independientes: eventos cuya probabilidad de suceso no se ve afectada por la ocurrencia de otros. Para ello basta simplemente comprobar si, y slo si, la probabilidad condicional calculada es igual a la probabilidad de evento consecuencia: EVENTOS INDEPENDIENTES

P ( A B ) = P ( A) P ( B A) = P ( B )

A y B son eventos independientes

Interseccin de eventos independientes Sabiendo que la probabilidad condicional se calcula mediante la expresin

P ( A B) =

P ( A B) y que la probabilidad condicional de eventos independientes es P ( B)

igual a P A B = P ( A ) ; dada la relacin entre elementos podemos aplicar la propiedad transitiva de igualdad y deducir lo siguiente:

P ( A B) = P ( A ) . Por ende: P ( B)

P ( A B ) = P ( A) P ( B ) .

P ( A B) P ( A B) = P ( B) P ( A B ) = P ( A)

P ( A B) = P ( A) P ( B)

REGLA DE LA MULTIPLICACIN DE EVENTOS INDEPENDIENTES

P ( A B ) = P ( A) P ( B )

Es debido a ello que la probabilidad de interseccin de eventos independientes es, no igual a la suma de sus probabilidades individuales, sino a la multiplicacin de stas: EXPRESIN PARA ASIGNAR PROBABILIDAD A LA INTERSECCIN DE EVENTOS INDEPENDIENTES

21

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

P ( E1 E2 ) = P ( E1 ) P ( E2 ) P ( E1 E2 E3 ... EK ) = P ( E1 ) P ( E2 ) P ( E3 ) ... P ( EK ) P ( E1 E2 E3 ... EK ) = P ( Ei )


i =1 k

Ejemplos de aplicacin 1. Veamos primero un ejemplo abstracto de la probabilidad condicional de eventos cualesquiera y eventos ajenos con algunos de los casos que estudiamos sobre el lanzamiento de un dado: Sea H el evento en que aparece el nmero cinco: Sea I el evento en que sale un nmero non: Sea J el evento en que se obtiene un nmero menor a cuatro: Elementos para clculo de probabilidad condicional

H = {5} # H = 1 I = {1,3,5} # I = 3 J = {1, 2,3} # J = 3

P(H ) = 1 P(I ) = 3 P(J ) = 3

( H I ) = {5} (H J ) = { } P(H I ) 1 6 6 P(H I ) = = = = 0.3333 P(I ) 3 6 18 P(H J ) 0 P(H J ) = = =0 P(J ) 36


De dichos clculos concluimos que:

6 P(H I ) = 1

6 P(H J ) = 0 P(H I ) 1 6 6 = = =1 P(H ) 16 6 P(H J ) 0 = =0 P(H ) 16

P(I H ) =

P(J H ) =

1. La probabilidad de que en el prximo lanzamiento aparezca el nmero cinco, dado que sali un nmero non, es de 33.33% 2. La probabilidad de que en el prximo lanzamiento salga un nmero non, dado que apareci previamente el nmero cinco, es de 100.00%. Por otra parte, como los eventos H y J son ajenos: 3. La probabilidad de que en el prximo lanzamiento aparezca el nmero cinco, dado que se obtuvo un nmero menor a cuatro, es nula (0.00%). 4. La probabilidad de que en el prximo lanzamiento se obtenga un nmero menor a cuatro, dado que apareci el nmero cinco, es nula (0.00%).

2. Considrense ahora los siguientes datos correspondientes a crneos clasificados por sexo y grado de criba orbitaria:

22

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


AUSENCIA CRIBA INCIPIENTE SEVERA

( A)
21 36 57

(I )
34 20 54

(S )
52 17 69

TOTAL 107 73 180

FEMENINO SEXO

(F )

MASCULINO

(M )

TOTAL

Si se selecciona un caso de la poblacin, cul es la probabilidad de que a) sea femenino? b) presente criba incipiente? c) sea femenino y presente criba incipiente? d) sea femenino o presente criba incipiente? e) presente criba incipiente dado que es femenino? f) presente criba dado que es masculino? Veamos cmo, al registrar la informacin en una tabla de contingencia, la asignacin de probabilidades es mucho ms sencilla, especialmente en los casos de probabilidad condicional. a) sea femenino? Probabilidad que requiere observar la frecuencia relativa de dicho evento:

P(F ) =

107 = 0.5944 180

La probabilidad de que el caso sea femenino es de 59.44%. b) presente criba incipiente? 54 Se trata, igualmente, de una P(I ) = = 0.3000 probabilidad por frecuencia relativa: 180 La probabilidad de que el caso presente criba incipiente es de 30.00%. c) sea femenino y presente criba incipiente? Esto implica, por tanto, buscar la 34 P(F I ) = = 0.1889 interseccin de los eventos 180 femenino y criba incipiente: La probabilidad de que el caso sea femenino y presente criba incipiente es de 18.89%. d) sea femenino o presente criba incipiente? Esto implica, por tanto, buscar la unin de los mismos eventos, que comprobamos no son ajenos:

P ( F I ) = P ( F ) + P (U ) P ( F I ) P(F I ) =
107 54 34 127 + = = 0.7056 180 180 180 180

La probabilidad de que el caso sea femenino o presente criba incipiente es de 70.56%.

23

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


e) presente criba incipiente dado que es femenino? Para tal probabilidad condicional necesitamos las P ( F I ) 34 180 6120 probabilidades individuales P I F = = = = 0.3178 de ambos eventos y la P(F ) 107 180 19260 probabilidad de su interseccin: OPCIN 1

OPCIN 2

Para su clculo slo es necesario tomar en cuenta los casos femeninos con criba incipiente:

P(I F ) =

34 = 0.3178 107

La probabilidad de que el caso presente criba incipiente dado que es femenino es de 31.78%. e) presente criba severa dado que es masculino? OPCIN 2 Por ser ms fcil, slo consideramos los casos que cumplen ambos requisitos:

P(S M ) =

17 = 0.2329 73

La probabilidad de que el caso presente criba severa dado que es masculino es de 23.29%. 3. Supongamos que se contesta al azar una quiniela Progol (con 14 partidos y 3 resultados). Cul es la probabilidad de ganar as el premio mayor? De entrada tenemos que, al haber tres casillas posibles (local, empate y visita), la probabilidad de atinarle al resultado de cada partido es:

P ( Ai ) =

1 3

Ahora bien, sabemos que para ganar el premio mayor deben marcarse correctamente el resultado de todos los encuentros. Esto es:

P ( G ) = P ( A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 )


Finalmente, como el resultado de los partidos es independiente, podemos aplicar la regla de la multiplicacin de eventos independientes y calcular la probabilidad de ganar: P ( A1 ) P ( A2 ) P ( A3 ) P ( A4 ) P ( A5 ) P ( A6 ) P ( A7 ) P (G ) = P ( A8 ) P ( A9 ) P ( A10 ) P ( A11 ) P ( A12 ) P ( A13 ) P ( A14 )
1 1 1 1 1 1 1 1 1 1 1 1 1 1 P ( G ) = 3 3 3 3 3 3 3 3 3 3 3 3 3 3 1 P ( G ) = = 2.0908 x107 3
14

24

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Gracias a esto sabemos que la probabilidad de ganar el premio mayor de Progol (contestando la quiniela al azar), es casi nula: de 0.000020908%. 4. Ante la decepcin anterior, intentamos ahora con el Melate. Cul es la probabilidad de que la combinacin elegida sea idntica a la que sale en el sorteo? Primero que nada observemos que el Melate consiste en seleccionar 6 nmeros entre el 1 y el 56. Es por ello que con cada eleccin hay menos nmeros que se pueden escoger, provocando que las probabilidades de acertar cambien:

P (U ) = P (C ) =

1 56 1 53

P ( D) = P (Q ) =

1 55 1 52

P (T ) = P(S ) =

1 54 1 51

Dado que la aparicin de los nmeros en el sorteo es tambin independiente:

P ( G ) = P (U D T C Q S )

P ( G ) = P (U ) P ( D ) P (T ) P ( C ) P ( Q ) P ( S )
1 1 1 1 1 1 1 P ( G ) = = 10 56 55 54 53 52 51 2.3377 x10

P ( G ) = 4.2777 x1011
Y as nos percatamos de que atinarle al Melate es mucho ms difcil; de hecho, la probabilidad de acertar por azar a los seis nmeros es de 0.0000000042777%. 5. Resignados ante la improbabilidad de conquistar los juegos de Pronsticos, los amigos han decidido ganar dinero apostando entre ellos. Su objetivo: acertar el resultado de una moneda, un dado y una ruleta. Si uno de ellos apuesta a sol, nmero primo y nmero par, respectivamente, cul es la probabilidad de que gane? Analicemos primero los espacios muestrales de dichos fenmenos y la probabilidad de tales eventos:

= {guila, sol} S = {sol}

MONEDA

# = 2
#S =1

Aparece sol

P(S ) = 1

25

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


= { ,2,3,4,5,6} 1 R = {1, 2,3,5}
RULETA DADOS

# = 6

Sale nmero primo

#R = 4

P ( R) = 4

0,1, 2, 3, 4, 5, 6, 7,8, 9,10,11,12,13,14,15,16,17,18,19, 20, = 21, 22, 23, 24, 25, 26, 27, 28, 29, 30,31, 32,33, 34, 35, 36
Cae nmero par

# = 37

A = {2, 4, 6,8,10,12,14,16,18, 20, 22, 24, 26, 28, 30, 32, 34, 36}
Dado que los resultados de estos juegos son independientes:

# A = 18

P ( A ) = 18

37

P ( G ) = P ( R S A) P ( G ) = P ( R ) P ( S ) P ( A) 1 4 18 72 P ( G ) = = = 0.1622 2 6 37 444
La probabilidad de que esa persona gane es de 16.22% 6. Cambiando de tema, en una muestra de la Ciudad de Mxico se obtuvo que la distribucin de grupos sanguneos es la siguiente: GRUPO A B AB O PORCENTAJE 20.00% 8.00% 1.00% 71.00%

Calcular la probabilidad de que una persona X pueda recibir sangre de una persona Y (ambas elegidas al azar), a sabiendas de las siguientes limitaciones: SANGRE A B AB O PUEDE RECIBIR DONACINES DE: AyO ByO A, B, AB y O O

Observemos primero el espacio muestral para el tipo de sangre de dos personas:

( A, A) , ( A, B ) , ( A, AB ) , ( A, O ) , ( B, A ) , ( B, B ) , ( B, AB ) , ( B, O ) , = ( AB, A ) , ( AB, B ) , ( AB, AB ) , ( AB, O ) , ( O, A ) , ( O, B ) , ( O, AB ) , ( O, O ) ,


Ahora definamos los puntos muestrales para el evento de la posible donacin:

D = {( A, A), ( A, O ), (B, B ), (B, O ), ( AB, A), ( AB, B ), ( AB, AB ), ( AB, O ), (O, O )}


Si la donacin puede realizarse con cualquiera de esos sub-eventos:

26

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

P ( D ) = P ( ( A, A ) ( A, O ) ( B, B ) ( B, O ) ( AB, A ) ( AB, B ) ( AB, AB ) ( AB, O ) ( O, O ) ) P ( A, A ) + P ( A, O ) + P ( B, B ) + P ( B, O ) + P ( AB, A ) P ( D) = + P ( AB, B ) + P ( AB, AB ) + P ( AB, O ) + P ( O, O )


Y el tipo de sangre de una persona es independiente del grupo sanguneo que tiene la otra:

( P ( A ) P ( A ) ) + ( P ( A ) P ( O ) ) + ( P ( B ) P ( B ) ) + ( P ( B ) P ( O ) ) + ( P ( AB ) P ( A ) ) P ( D) = + ( P ( AB ) P ( B ) ) + ( P ( AB ) P ( AB ) ) + ( P ( AB ) P ( O ) ) + ( P ( O ) P ( O ) ) P ( A )2 + ( P ( A ) P ( O ) ) + P ( B )2 + ( P ( B ) P ( O ) ) + ( P ( AB ) P ( A ) ) P ( D) = 2 2 + ( P ( AB ) P ( B ) ) + P ( AB ) + ( P ( AB ) P ( O ) ) + P ( O )

) )

Simplemente sustituimos, multiplicamos los sub-eventos y sumamos la probabilidad de los eventos:

( 0.2 )2 + ( ( 0.2 ) ( 0.71) ) + ( 0.08 )2 + ( ( 0.08 ) ( 0.71) ) + ( ( 0.01) ( 0.2 ) ) P ( D) = 2 2 + ( ( 0.01) ( 0.08 ) ) + ( 0.01) + ( ( 0.01) ( 0.71) ) + ( 0.71)

P ( D ) = [ 0.0400 + 0.1420 + 0.0064 + 0.0568 + 0.0020 + 0.0008 + 0.0001 + 0.0071 + 0.5041] P ( D ) = 0.7593 La probabilidad de que una persona X pueda recibir sangre de una persona Y (siendo ambas elegidas al azar) es de 75.93%.
7. Revisemos por ltimo el caso de una familia mexicana que, a fin de llevar a cabo una planificacin familiar, ha decidido tener descendientes hasta que nazca la primer nia; claro est, con un mximo de cinco retoos. De acuerdo al INEGI la probabilidad de que el recin nacido sea hombre es de 0.507, mientras que la probabilidad de que nazca una mujer es de 0.493. Suponiendo que dichos eventos son independientes, calcular las siguientes probabilidades: a) Cul es la probabilidad de que finalmente haya ms nios que nias? b) Si el primer hijo es varn, cul es la probabilidad de que finalmente tengan tres hijos en total? Como siempre, definamos primero el espacio muestral del fenmeno:

= {( F ) , ( M , F ) , ( M , M , F ) , ( M , M , M , F ) , ( M , M , M , M , F ) , ( M , M , M , M , M )}
a) Cul es la probabilidad de que finalmente haya ms nios que nias?

27

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

O = {( M , M , F ) , ( M , M , M , F ) , ( M , M , M , M , F ) , ( M , M , M , M , M )} P (O ) = P (( M , M , F ) ( M , M , M , F ) ( M , M , M , M , F ) ( M , M , M , M , M )) P ( O ) = P ( M , M , F ) + P ( M , M , M , F ) + P ( M , M , M , M , F ) + P ( M , M , M , M , M ) ( P ( M ) P ( M ) P ( F )) + ( P ( M ) P ( M ) P ( M ) P ( F )) P (O ) = + ( P ( M ) P ( M ) P ( M ) P ( M ) P ( F ) ) + ( P ( M ) P ( M ) P ( M ) P ( M ) P ( M ) )
( 0.507 0.507 0.493) + ( 0.507 0.507 0.507 0.493) P (O ) = + ( 0.507 0.507 0.507 0.507 0.493) + ( 0.507 0.507 0.507 0.507 0.507 )
2 3 4 5 P ( O ) = ( 0.507 ) 0.493 + ( 0.507 ) 0.493 + ( 0.507 ) 0.493 + ( 0.507 )

( (

) ( ) (

) ( ) (

) ( ) (

) )

2 3 4 5 P ( O ) = ( 0.507 ) 0.493 + ( 0.507 ) 0.493 + ( 0.507 ) 0.493 + ( 0.507 )

P ( O ) = ( 0.257 0.493) + ( 0.130 0.493) + ( 0.066 0.493) + ( 0.033) P ( O ) = ( 0.127 ) + ( 0.064 ) + ( 0.033) + ( 0.033) = 0.257
La probabilidad de que esta familia tenga ms nios que nias es de 25.7%. b) Si el primer hijo es varn, cul es la probabilidad de que finalmente tengan tres hijos en total?

P (T ) = P ( ( M , M , F ) M ) =

P (( M , M , F ) M ) P(M )

P (( M , M , F )) P(M )

0.127 = 0.250 0.507

La probabilidad de que, dado que el prime hijo es varn, la familia tenga finalmente tres hijos es de 25.00% Ley de probabilidad total y teorema de Bayes Veamos por ltimo otro par de formas para analizar la probabilidad de eventos relacionados: 1) la ley de probabilidad total, que tomando en cuenta la probabilidad de todas las causas posibles, permite determinar la probabilidad de un evento consecuencia y 2) el teorema de Bayes, que habiendo observado un evento consecuencia, hace posible deducir la probabilidad de los diferentes eventos causantes.

28

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Ley de probabilidad total Considrese primero un conjunto finito de eventos

({ B }

mutuamente excluyentes y que conforman un espacio muestral ( ) :

i i =1...k

diferentes al vaco,

( B1 B2 B3 ... Bk ) = ( B1 B2 B3 ... Bk ) = Bi =
i =1 k

k P ( B1 B2 B3 ... Bk ) = P Bi = P ( ) i =1 P ( B1 ) + P ( B2 ) + P ( B3 ) + ... + P ( Bi ) = 1

Imagnese ahora un evento cualquiera muestral:

( A)

relacionado con el mismo espacio

( A ) = A ( A ) =

Si los eventos ajenos ( Bi ) tienen partes en comn con A , dicho evento cualquiera, su tamao y probabilidad pueden ser descritos de la siguiente manera:

A = A ( B1 B2 B3 ... Bk ) A = ( A B1 ) ( A B2 ) ( A B3 ) ... ( A Bk ) P ( A ) = P ( A B1 ) + P ( A B2 ) + P ( A B3 ) + ... + P ( A Bk )

29

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Ahora bien, si vemos cada evento desde la perspectiva de la probabilidad condicional:

P ( A Bi ) =
Podemos afirmar que:

P ( A Bi ) P ( A Bi ) = P ( A Bi ) P ( Bi ) P ( Bi )

P ( A ) = P ( A B1 ) P ( B1 ) + P ( A B2 ) P ( B2 ) + P ( A B3 ) P ( B3 ) + ... + P ( A Bk ) P ( Bk )
Expresin que, al ser resumida, da origen a la ley de probabilidad total:

LEY DE PROBABILIDAD TOTAL

k P ( A) = P A B j P ( B j ) j =1

la existencia y probabilidad a priori de otros sucesos P ( Bi ) .

Como su nombre lo dice, dicha ley permite calcular la probabilidad total de un evento cualquiera ( A ) tomando en cuenta su probabilidad condicional P A B , as como

Gracias a ello, la ley de probabilidad total permite determinar la contribucin de cada uno de los posibles eventos causa ( Bi ) a la probabilidad de un evento consecuencia ( A ) . Teorema de Bayes Sabiendo que:

P ( A Bj ) = P A Bj P ( Bj )
Podemos considerar a la probabilidad condicional como:

P ( B j A) =

P ( A Bj ) P ( A)

P A Bj P ( Bj ) P ( A)

Empero, si un fenmeno cumple con las condiciones para que la ley de probabilidad total se verifique:

k P ( A) = P A B j P ( B j ) j =1

La anterior probabilidad condicional se puede definir como:

P ( B j A) =

P A Bj P ( Bj ) P ( A)

P A Bj P ( Bj )

P( A B ) P(B )
k i =1 j j

Expresin que corresponde al Teorema de Bayes:

30

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


P ( B j A) = P A Bj P ( Bj )

TEOREMA DE BAYES

P( A B ) P(B )
k i =1 j j

Que, al suponer que la probabilidad de ocurrencia del evento A es distinta segn el suceso Bi que haya ocurrido, permite determinar la probabilidad de las causas a partir del efecto observado. Ejemplos de aplicacin 1. Defina, en abstracto, los elementos necesarios para desarrollar la ley de probabilidad total y el teorema de Bayes en un fenmeno cuyo espacio muestral est compuesto por slo dos eventos ajenos:

= ( B Bc )

Dado que slo hay dos eventos causa, la probabilidad total del evento consecuencia conlleva dos sumandos donde lo que cambia en la probabilidad condicional y en la individual es el evento ajeno que se utiliza: LEY DE PROBABILIDAD TOTAL APLICACIN

k P ( A) = P A B j P ( B j ) j =1 P ( A) = P ( A B ) P ( B ) + P A Bc P ( Bc )

En lo que respecta al teorema de Bayes hay dos expresiones posibles: una para calcular la probabilidad de cada causa, y aunque los denominadores son iguales entre ellos e iguales a la expresin para la ley de probabilidad total, el numerador difiere de nuevo en el evento ajeno que se busca:

TEOREMA DE BAYES

APLICACIN

P( A B ) P(B ) P ( A B) P ( B) P ( B A) = P ( A B) P ( B) + P ( A B ) P ( B )
k i =1 j j

P ( B j A) =

P A Bj P ( Bj )

31

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

P ( B A) =
c

P ( A B ) P ( B ) + P A Bc P ( Bc )

P A Bc P ( Bc )

2. Supongamos que en la ENAH, la estatura del 8.0% de los hombres y del 1.0% de las mujeres es mayor de 1.75 metros ( E ) . Si el 60.0% de los estudiantes son mujeres y se selecciona un alumno cuya estatura es mayor de 1.75 m.: cul es la probabilidad de que el estudiante sea: a) mujer ( M ) ? b) hombre ( H ) ?

Vemos primero los datos que nos aporta el problema: DATOS Probabilidad de que el alumno mida P E H = 0.08 ms de 1.75 m. dado que es hombre: Probabilidad de que el alumno mida P E M = 0.01 ms de 1.75 m. dado que es mujer: Probabilidad de que el alumno sea P ( M ) = 0.60 mujer: Se infiere la probabilidad de que el P H = P M c = 1 P M = 1 0.60 = 0.40 ( ) ( ) alumno sea hombre:

( (

) )

( )

Al buscar la probabilidad condicional inversa (de que el estudiante sea hombre o mujer dado que mide ms de 1.75m.) aplicamos el teorema de Bayes:

TEOREMA DE BAYES

P ( B j A) =

P A Bj P ( Bj )

P( A B ) P(B )
k i =1 j j

a) Sea mujer:

P(M E) = P(M E) =

P(E M ) P(M ) + P(E H ) P(H )

P(E M ) P(M )

( 0.01)( 0.60 ) = 0.1579 ( 0.01)( 0.60 ) + ( 0.08 )( 0.40 )

La probabilidad de que el estudiante de ms de 1.75 metros escogido al azar sea mujer es de 15.79%. a) Sea hombre:

P(H E) = P(H E) =

P(E M ) P(M ) + P(E H ) P(H )

P(E H ) P(H )

( 0.08 ) ( 0.40 ) = 0.8421 ( 0.01)( 0.60 ) + ( 0.08 )( 0.40 )

Dicho resultado tambin puede alcanzarse por evento complemento gracias a que el fenmeno posee slo dos eventos ajenos:

P ( H E ) = P ( M c E ) = 1 P ( M E ) = 1 0.1579 = 0.8421

32

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


En conclusin, dado que el estudiante elegido al azar mide ms de 1.75 m., la probabilidad de que sea hombre es de 84.21%. 3. Supngase ahora que la proporcin de personas que en una comunidad padece cierta enfermedad ( E ) es muy pequea (0.005); no obstante, se ha desarrollado una prueba para diagnosticarla. Si un individuo le padece, la probabilidad de que la prueba d positivo ( + ) es de 0.99, mientras que, si la persona no est enferma, la probabilidad de que la prueba d una seal positiva ( + ) es de 0.01. Cul es entonces la probabilidad de que: a) el sujeto est realmente enfermo porque la prueba dio positivo? b) la persona no est enferma, aunque la prueba haya resultado positiva? c) el individuo padezca la enfermedad, pese a que la prueba sea negativa? d) el sujeto no est enfermo, pues la prueba sali negativa? DATOS Probabilidad de que una persona P( E ) = 0.005 padezca la enfermedad: Se infiere la probabilidad de que una P( E c ) = 1 P ( E ) = 1 0.005 = 0.995 persona NO padezca la enfermedad: Probabilidad de que, dado que el P (+ | E ) = 0.99 individuo est enfermo, aparezca una prueba positiva: Se infiere la probabilidad de que la prueba sea negativa, aunque el sujeto P (+ c | E ) = 1 P(+ | E ) = 1 0.99 = 0.01 padezca la enfermedad: Probabilidad de que, dado que el individuo NO est enfermo, aparezca una P (+ | E c ) = 0.01 prueba positiva: Se infiere la probabilidad de que la prueba sea negativa, dado que el sujeto P (+ c | E c ) = 1 P (+ | E c ) = 1 0.01 = 0.99 no est enfermo: En vistas de que buscamos de nuevo la probabilidad condicional, aplicamos el teorema de Bayes:

TEOREMA DE BAYES

P ( B j A) =

P A Bj P ( Bj )

P( A B ) P(B )
k i =1 j j

a) el sujeto est realmente enfermo porque la prueba dio positivo?

P( E | +) = P( E | +) =

P(+ | E ) P( E ) P(+ | E ) P( E ) + P(+ | E c ) P( E c )

( 0.99 )( 0.005) = 0.3322 ( 0.99 )( 0.005) + ( 0.01)( 0.995 )

La probabilidad de que el sujeto est realmente enfermo dado que la prueba dio positivo es de 33.22%.

33

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


b) la persona no est enferma, aunque la prueba haya resultado positiva?

P( E c | +) = P( E c | +) =

P(+ | E c ) P( E c ) P(+ | E c ) P( E c ) + P(+ | E ) P( E )

( 0.01)( 0.995) = 0.6678 ( 0.01)( 0.995) + ( 0.99 )( 0.005)

O bien, por evento complemento:

P( E | + ) = 1 P( E | + ) = 1 0.3322 = 0.6678
c

La probabilidad de que la persona no est enferma, aunque la prueba haya resultado positiva, es de 66.78%. Es decir, la probabilidad de un falso positivo es bastante alta y debera buscarse una forma de confirmar el resultado de la prueba. c) el individuo padezca la enfermedad, pese a que la prueba sea negativa?

P( E | + c ) = P( E | + c ) =

P(+ c | E ) P( E ) P(+ c | E ) P( E ) + P(+ c | E c ) P( E c )

( 0.01)( 0.005) = 0.00005 ( 0.01)( 0.005) + ( 0.99 )( 0.995)

La probabilidad de que el individuo padezca la enfermedad, pese a un resultado negativo en la prueba, es de 0.005%. Por lo cual podemos afirmar que la probabilidad de un falso negativo es muy pequea. d) el sujeto no est enfermo, pues la prueba sali negativa?

P ( E c | + c ) = 1 P ( E | + c ) = 1 0.00005 = 0.99995
La probabilidad de que el sujeto no est enfermo dado que la prueba sali negativa es de 99.99%. 4. Digamos que una poblacin est conformada por tres grupos tnicos

= ( X , Y , Z ) en la siguiente proporcin: 0.30, 0.10 y 0.60. Si el porcentaje de personas con ojos claros ( C ) en cada grupo es, respectivamente, de 20%, 40% y 5%,
calcular la probabilidad de que: a) Un sujeto de dicha comunidad entrevistado al azar tenga los ojos claros. b) Un individuo de esa comunidad (elegido al azar) tenga los ojos oscuros y sea del grupo X. c) La persona seleccionada sea de uno de los tres grupos, si tiene los ojos claros. DATOS Probabilidad de que el sujeto pertenezca al grupo X: Probabilidad de que el sujeto pertenezca al grupo Y: Probabilidad de que el sujeto pertenezca al grupo Z: Probabilidad de que tenga los ojos claros, dado que pertenece al grupo X:

P ( X ) = 0.3 P (Y ) = 0.1

P( Z ) = 0.6
P (C | X ) = 0.2

34

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Probabilidad de que tenga los ojos claros, dado que pertenece al grupo Y: Probabilidad de que tenga los ojos claros, dado que pertenece al grupo Z:

P(C | Y ) = 0.4 P(C | Z ) = 0.05

Para contestar el primer inciso requerimos la probabilidad total del evento ojos claros, por ende aplicamos la ley de probabilidad total:

LEY DE PROBABILIDAD TOTAL

k P ( A) = P A B j P ( B j ) j =1

a) Un sujeto de dicha comunidad entrevistado al azar tenga los ojos claros:

P ( C ) = P ( C X ) P ( X ) + P ( C Y ) P (Y ) + P ( C Z ) P ( Z )

P ( C ) = ( 0.2 )( 0.3) + ( 0.4 )( 0.1) + ( 0.05 )( 0.6 ) = 0.1300


La probabilidad de que el sujeto entrevistado tenga los ojos claros es de 13.00%. Y a partir de ello podemos calcular la probabilidad de que tenga ojos oscuros:

P ( C c ) = 1 P ( C ) = 1 0.1300 = 0.8700

La probabilidad de que el sujeto tenga los ojos oscuros es de 87.00%. Ahora bien, como el problema nos especifica la probabilidad de que un individuo tenga los ojos claros y sea del grupo X, basta calcular el evento complemento para asignar la siguiente probabilidad: b) Un individuo de esa comunidad (elegido al azar) tenga los ojos oscuros y sea del grupo X:

P (C c | X ) = 1 P(C | X ) = 1 0.2 = 0.8000


La probabilidad de que el individuo tenga los ojos oscuros y sea del grupo X es de 80.00%. Finalmente buscamos las probabilidades condicionales inversas. No obstante, cabe observar que hemos simplificado el denominador, pues la probabilidad total del evento consecuencia fue ya determinada: c) La persona seleccionada sea de uno de los tres grupos, si tiene los ojos claros:

P( X | C ) = P(Y | C ) = P(Z | C ) =

P(C | X ) P ( X ) ( 0.2 )( 0.3) = = 0.4615 P(C ) ( 0.13) P(C | Y ) P(Y ) ( 0.4 )( 0.1) = = 0.3077 P(C ) ( 0.13)

P (C | Z ) P( Z ) ( 0.05 )( 0.6 ) = = 0.2308 P(C ) ( 0.13)

La probabilidad de que una persona sea del grupo X, Y o Z es, respectivamente: 46.15%, 30.77% y 23.08%. Por tanto, es ms probable que una persona de ojos claros sea del grupo X.

35

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

3. VARIABLES ALEATORIAS
Una variable aleatoria es una caracterstica en la cual los valores que toma dependen de los resultados de un fenmeno aleatorio. Las variables aleatorias pueden ser slo de dos clases: 1. Discretas: Si la variable aleatoria tiene un nmero finito de valores posibles. 2. Continuas: Si existe un nmero infinito de valores posibles para dicha variable. Por ejemplo: FENMENO Se lanza una moneda

= {guila,sol}

VARIABLE ALEATORIA (discreta) Sea X la variable aleatoria discreta que toma los siguientes valores: X = 0,1

X = 0 si cae guila, 1 si cae sol

FENMENO Nace un beb

= {mujer,hombre}

VARIABLE ALEATORIA (discreta) Sea X la variable aleatoria discreta que toma los siguientes valores: X = 0,1

X = 0 si es mujer, 1 si es hombre

Caracterizacin de una variable aleatoria discreta Funcin de distribucin de probabilidades Se denomina funcin de probabiidades a la tabla donde se especifican todos los valores que la variable aleatoria discreta puede tomar, as como sus correspondientes probabilidades (cuya suma siempre es igual a uno P ( x ) = 1 ).

Dichos valores pueden ser adems representados mediante una grfica de distribucin de probabilidad, en cuyos ejes ( X , Y ) se ubican los valores de la variable y sus valores de probabilidad, respectivamente; razn por la cual, a diferencia del eje Y , el eje X s puede tomar valores negativos. Siguiendo con los ejemplos, su tabla y grfica distribucin de probabilidades seran: FUNCIN LANZAMIENTO DE UNA MONEDA GRFICA
Grfica de distribucin de probabilidades
1.0

P ( x)

x=0
x =1

P ( x = 0 ) = 0.5 P ( x = 1) = 0.5

36

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

TOTAL

P ( x ) = P ( x = 0 ) +P ( x = 1) P ( x ) = 0.5 + 0.5 P ( x) = 1
NACIMIENTO DE UN BEB FUNCIN

x x=0 x =1

P ( x)
0.510

GRFICA
Grfica de distribucin de probabilidades

P ( x = 0 ) = 0.493 P ( x = 1) = 0.507

0.505

TOTAL

P ( x ) = P ( x = 0 ) +P ( x = 1) P ( x ) = 0.493 + 0.507 P ( x) = 1

P(x)

0.500

0.495

0.490 -5 -4 -3 -2 -1 0 1 2 3 4 5

Esperanza matemtica: promedio o valor esperado Ahora bien, la esperanza de una variable aleatoria discreta es el promedio de los valores de X que toma en cuenta la probabilidad de que stos ocurran. Por ello es que, a fin de calcular la esperanza de una variable aleatoria, sus valores deben ponderarse de acuerdo a sus probabilidades. Para el caso de la moneda: LANZAMIENTO DE UNA MONEDA

x= x=

0 +1 1 = = 0.5 2 2

Que tambin puede entenderse como: ESPERANZA

0 +1 0 1 1 = + = = 0.5 2 2 2 2

Lo cual es igual a:

x=

0 +1 0 1 1 1 1 = + = 0 + 1 = = 0.5 2 2 2 2 2 2

De ah que, para obtener el promedio, podemos multiplicar el valor de X por su probabilidad: NACIMIENTO DE UN BEB ESPERANZA

x = 0 ( 0.493) + 1( 0.507 ) = 0.507

37

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


La esperanza de una variable aleatoria discreta cualquiera es, por ende: ESPERANZA DE UNA VARIABLE ALEATORIA X CON FUNCIN DE PROBABILIDAD P ( x )

E ( x ) = x = x P ( x )
x

Comprobemos su aplicacin con los ejemplos anteriores: LANZAMIENTO DE UNA MONEDA


x

E ( x ) = x = x P ( x ) E ( x) = x P ( x)
1

ESPERANZA

E ( x ) = 0 ( 0.5 ) + 1( 0.5 ) = 0.5


NACIMIENTO DE UN BEB
x

x =0

E ( x ) = x = x P ( x ) E ( x) = x P ( x)
1

ESPERANZA

E ( x ) = 0 ( 0.493) + 1( 0.507 ) = 0.507


Varianza Igual que la varianza de una variable cualquiera, la varianza de una variable aleatoria discreta X con funcin de probabilidad P ( x ) es el promedio de la resta de los valores con respecto a su media (en este caso, esperanza) elevada al cuadrado para evitar signos: Varianza de una variable cualquiera Varianza de una variable aleatoria

x =0

s =
2

(x
i =1

x)

n 1

Var ( x ) = E x E ( x )

Y se puede demostrar que ello deviene en:

VARIANZA DE UNA VARIABLE ALEATORIA X CON FUNCIN DE PROBABILIDAD P ( x )

Var ( x ) = E ( x 2 ) E ( x )
Donde: E x 2 =

( ) x
x

P ( x)

38

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Apliqumoslo a nuestros ejemplos: LANZAMIENTO DE UNA MONEDA VARIANZA Elementos que la componen
x

Var ( x ) = E ( x 2 ) E ( x )
E ( x2 ) = x2 P ( x ) E ( x2 ) = x2 P ( x )
1

E(x

E(x
2

) = 0 ( 0.5) + 1 ( 0.5)
2 2 2 2

x =0

E ( x 2 ) = 0 ( 0.5 ) + 1( 0.5 ) = 0.5

E ( x )

VARIANZA

E ( x ) = ( 0.5 ) = 0.25 Var ( x ) = 0.5 0.25 = 0.25


NACIMIENTO DE UN BEB

VARIANZA

Var ( x ) = E ( x 2 ) E ( x )
E ( x2 ) = x2 P ( x )
x

Elementos que la componen

E(x

E ( x2 ) = x2 P ( x )
1

E(x
2

) = 0 ( 0.493) + 1 ( 0.507 )
2 2 2 2

x =0

E ( x 2 ) = 0 ( 0.493) + 1( 0.507 ) = 0.507

E ( x )

VARIANZA

E ( x ) = ( 0.507 ) = 0.257 Var ( x ) = 0.507 0.257 = 0.250

Recapitulando, se dice que se conoce una variable aleatoria (cuyo valor est sometido al azar y recibe una asignacin numrica en el contexto de los resultados de un fenmeno aleatorio) si se le caracteriza mediante: 1. Su funcin de probabilidades P ( x ) , donde 2. Su esperanza E ( x ) =

P(x ) = 1 .
x

x P(x ) .
x

3. Su varianza Var ( x ) = E x 2 [E ( x )] , donde E x 2 =


2

( )

( ) x
x

P ( x) .

Ejemplos de aplicacin 1. Se tiran dos dados no trucados. Sea X la variable aleatoria que denota los valores resultantes de: a) La suma de sus puntos. b) La resta de sus puntos. c) El producto de sus puntos.

39

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Caracterizar la variable aleatoria X para cada caso. Dado que el fenmeno es el mismo, conviene primero analizar su espacio muestral:

(1,1), (1,2 ), (1,3), (1,4 ), (1,5), (1,6 ), (2,1), (2,2 ), (2,3), (2,4 ), (2,5), (2,6 ), = (3,1), (3,2 ), (3,3), (3,4 ), (3,5), (3,6 ), (4,1), (4,2 ), (4,3), (4,4 ), (4,5), (4,6 ), (5,1), (5,2 ), (5,3), (5,4 ), (5,5), (5,6 ), (6,1), (6,2 ), (6,3), (6,4 ), (6,5), (6,6 ),

# = 36

Ahora, para resolver el primer inciso, observemos los valores que toma la variable aleatoria: X = Suma de puntos de dos dados. Puntos muestrales Valor de X (1,1) 2 (1,2), (2,1) 3 (1,3), (2,2), (3,1) 4 (1,4), (2,3), (3,2), (4,1) 5 (1,5), (2,4), (3,3), (4,2), (5,1) 6 (1,6), (2,5), (3,4), (4,3), (5,2), (6,1) 7 (2,6), (3,5), (4,4), (5,3), (6,2) 8 (3,6), (4,5), (5,4), (6,3) 9 (4,6), (5,5), (6,4) 10 (5,6), (6,5) 11 (6,6) 12 TOTAL No. de eventos 1 2 3 4 5 6 5 4 3 2 1 36

Hecho esto, podemos construir ya su tabla y grfica de funcin de probabilidades: 2 1/36 3 2/36 P(x) para X = Suma de puntos de dos dados. 4 5 6 7 8 9 10 11 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 12 1/36

x P(x )

36/36 =1

Distribucin de probabilidad (SUMA)


1/5 3/20 P(x) 1/10 1/20 0 0 2 4 6 x 8 10 12 14 1/18 1/36 1/9 1/12 1/6 5/36 5/36 1/9 1/12 1/18 1/36

40

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Resta entonces calcular su esperanza y varianza: ESPERANZA: X = Suma de puntos de dos dados.

E ( x) = x P ( x)
x=2

12

1 2 3 4 5 6 2 36 + 3 36 + 4 36 + 5 36 + 6 36 + 7 36 E ( x) = 5 4 3 2 1 +8 + 9 + 10 + 11 + 12 36 36 36 36 36 E ( x) = 2 + 6 + 12 + 20 + 30 + 42 + 40 + 36 + 30 + 22 + 12 252 = =7 36 36

VARIANZA: X = Suma de puntos de dos dados. Elementos que la componen

E ( x2 ) = x2 P ( x )
12 x=2

2 1 2 2 2 3 2 4 2 5 2 6 2 36 + 3 36 + 4 36 + 5 36 + 6 36 + 7 36 2 E(x ) = 2 5 2 4 2 3 2 2 2 1 +8 + 9 + 10 + 11 + 12 36 36 36 36 36 E ( x2 ) 1 2 4 5 6 3 4 36 + 9 36 + 16 36 + 25 36 + 36 36 + 49 36 E ( x2 ) = 5 4 3 2 1 +64 + 81 + 100 + 121 + 144 36 36 36 36 36 E ( x2 ) =


4 + 18 + 48 + 100 + 180 + 294 + 320 + 324 + 300 + 242 + 144 36

E ( x2 ) = E ( x )
2

1974 = 54.83 36
2 2

E ( x ) = ( 7 ) = 49 Var ( x ) = 54.83 49 = 5.83

Claro est que tanta operacin no sirve de nada si los resultados no son adecuadamente interpretados: CONCLUSIONES: X = Suma de puntos de dos dados. a) A partir de todo lo anterior comprendemos que, de los treinta y seis resultados posibles, su suma puede tomar 11 valores, siendo el mnimo 2 y el mximo 12.

41

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Empero, como puede verse en la funcin de probabilidades y en la esperanza, el valor que mayor posibilidad tiene de salir al repetir varias veces el experimento es el 7 (6/36); no por nada se es el nmero de la casa en los casinos. Por su parte, la varianza nos indica que la dispersin de los valores con respecto al 7 es de 5.83. Resolvamos ahora los otros dos incisos: X = Resta de puntos de dos dados. Puntos muestrales Valor de X (1,6) -5 (1,5), (2,6) -4 (1,4), (2,5), (3,6) -3 (1,3), (2,4), (3,5), (4,6) -2 (1,2), (2,3), (3,4), (4,5), (5,6) -1 (1,1), (2,2), (3,3), (4,4), (5,5), (6,6) 0 (2,1), (3,2), (4,3), (5,4), (6,5) 1 (3,1), (4,2), (5,3), (6,4) 2 (4,1) (5,2), (6,3) 3 (5,1) (6,2) 4 (6,1) 5 TOTAL No. de eventos 1 2 3 4 5 6 5 4 3 2 1 36

P(x) para X = Resta de puntos de dos dados.

x -5 -4 -3 -2 -1 0 1 2 3 4 5 2 25 16 9 4 1 0 1 4 9 16 25 36/36 x =1 P( x ) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Distribucin de probabilidad (RESTA)


1/6 5/36
P(x)

5/36 1/9 1/12 1/18 1/36

1/9 1/12 1/18 1/36 -6 -4 -2 0 x 2

ESPERANZA: X = Resta de puntos de dos dados.


E ( x) =
x =5

x P ( x)

1 2 3 4 5 6 5 36 + 4 36 + 3 36 + 2 36 + 1 36 + 0 36 E ( x) = 5 4 3 2 1 +1 + 2 + 3 + 4 + 5 36 36 36 36 36 E ( x) =

( 5) + ( 8) + ( 9 ) + ( 8) + ( 5) + 0 + 5 + 8 + 9 + 8 + 5 =
36

0 =0 36

42

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


VARIANZA: X = Resta de puntos de dos dados. Elementos que la componen

E ( x2 ) = x2 P ( x )
12 x=2

E ( x2 )

1 2 3 4 5 6 25 36 + 16 36 + 9 36 + 4 36 + 1 36 + 0 36 E ( x2 ) = 5 4 3 2 1 +1 + 4 + 9 + 16 + 25 36 36 36 36 36 E ( x2 ) =
25 + 32 + 27 + 16 + 5 + 0 + 5 + 16 + 27 + 32 + 25 36

E ( x2 ) = E ( x )
2
2

210 = 5.83 36
2

E ( x ) = ( 0 ) = 0

Var ( x ) = 5.83 0 = 5.83

CONCLUSIONES: X = Resta de puntos de dos dados. b) De los treinta y seis resultados posibles, su resta puede tomar 11 valores (el mnimo -5 y el mximo 5). Si bien existe una variabilidad de 5.83 en los valores posibles, el valor esperado en la repeticin del ensayo es 0. P(x) de X = Producto de puntos de dos dados. x Puntos muestrales No. de eventos x2 (1,1) 1 1 1 (1,2), (2,1) 4 2 2 (1,3), (3,1) 9 2 3 (1,4), (2,2), (4,1) 16 3 4 (1,5), (5,1) 25 2 5 (1,6), (2,3), (3,2), (6,1) 36 4 6 (2,4), (4,2) 64 2 8 (3,3) 81 1 9 (2,5), (5,2) 100 2 10 (2,6), (3,4), (4,3), (6,2) 144 4 12 (3,5), (5,3) 225 2 15 (4,4) 256 1 16 (3,6), (6,3) 324 2 18 (4,5), (5,4) 400 2 20 (4,6), (6,4) 576 2 24 (5,5) 625 1 25 (5,6), (6,5) 900 2 30 (6,6) 1296 1 36 TOTAL 36

P(x) 1/36 2/36 2/36 3/36 2/36 4/36 2/36 1/36 2/36 4/36 2/36 1/36 2/36 2/36 2/36 1/36 2/36 1/36 36/36=1

43

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Distribucin de probabilidad (PRODUCTO)
3/25 1/10 2/25 P(x) 0 0 5 10 15 20 x 25 30 35 40 3/50 1/25 1/50

ESPERANZA: X = Producto de puntos de dos dados.

E ( x) = x P ( x)
x =1

36

1 2 2 3 2 4 2 1 36 + 2 36 + 3 36 + 4 36 + 5 36 + 6 36 + 8 36 1 2 4 2 1 2 E ( x ) = +9 + 10 + 12 + 15 + 16 + 18 36 36 36 36 36 36 2 2 1 2 1 +20 + 24 + 25 + 30 + 36 36 36 36 36 36 E ( x) = 1 + 4 + 6 + 12 + 10 + 24 + 16 + 9 + 20 + 24 + 30 + 16 + 36 + 40 + 48 + 25 + 60 + 36 36 E ( x) = 417 = 11.58 36

44

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


VARIANZA: X = Producto de puntos de dos dados. Elementos que la componen

E ( x2 ) = x2 P ( x )
36 x =1

E ( x2 )

1 2 2 3 2 4 2 1 36 + 4 36 + 9 36 + 16 36 + 25 36 + 36 36 + 64 36 1 2 4 2 1 2 E ( x 2 ) = +81 + 100 + 144 + 225 + 256 + 324 36 36 36 36 36 36 1 2 1 2 2 +400 + 576 + 625 + 900 + 1296 36 36 36 36 36 1 + 8 + 18 + 48 + 50 + 144 + 128 + 81 + 200 + 576 +450 + 256 + 648 + 800 + 1152 + 625 + 1800 + 1296 2 E(x ) = 36 E ( x2 ) = 8281 = 230.03 36
2

E ( x )

E ( x ) = (11.58 ) = 134.10
2

Var ( x ) = 230.03 134.10 = 95.93

CONCLUSIONES: X = Producto de puntos de dos dados. c) De los treinta y seis resultados posibles, su producto puede tomar 18 valores (el mnimo 1 y el mximo 36). El valor esperado es, no obstante, 11.58, con una varianza de 95.93. 2. Se lanzan una moneda y un dado. Sea X = 0 si la moneda cae sol y X = 1 si cae guila. Asimismo, sea Y = # de puntos obtenidos al tirar el dado. Caractercese entonces a la variable aleatoria W , definida como W = X + Y . Si:

X = {0,1}

Y = { ,2,3,4,5,6} 1

W = X +Y

El espacio muestral de la variable aleatoria es:

= {( 0,1) , ( 0, 2 ) , ( 0,3) , ( 0, 4 ) , ( 0,5 ) , ( 0, 6 ) , (1,1) , (1, 2 ) , (1,3) , (1, 4 ) , (1,5) , (1, 6 )} # = 12


Y los valores que puede tomar (con su respectiva probabilidad) son: P(w) de W = Suma del resultado de una moneda y un dado lanzados 1 2 3 4 5 6 7 12/12 1 4 9 16 25 36 49 =1 1/12 2/12 2/12 2/12 2/12 2/12 1/12

x x2 P(x )

45

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Distribucin de probabilidad
1/5 3/20 P(w) 0 0 1 2 3 4 w 5 6 7 8 1/10 1/20

ESPERANZA: W = Suma del resultado de una moneda y un dado lanzados

E ( w) = w P ( w)
w =1

1 2 2 2 2 2 1 E ( w ) = 1 + 2 + 3 + 4 + 5 + 6 + 7 12 12 12 12 12 12 12 E ( w) = 1 + 4 + 6 + 8 + 10 + 12 + 7 12 E ( w) = 48 =4 12

VARIANZA: W = Suma del resultado de una moneda y un dado lanzados Elementos que la componen

E ( w 2 ) = w2 P ( w )
7 w =1

E ( w2 )

1 2 2 2 2 2 1 E ( w2 ) = 1 + 4 + 9 + 16 + 25 + 36 + 49 12 12 12 12 12 12 12 E ( w2 ) = 1 + 8 + 18 + 32 + 50 + 72 + 49 12 230 = 19.17 12
2

E ( w2 ) =

E ( w)

E ( w ) = ( 4 ) = 16
2

Var ( x ) = 19.7 16 = 3.17

46

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


CONCLUSIONES: W = Suma del resultado de una moneda y un dado lanzados Gracias a esto comprendemos que, de los doce resultados posibles al mezclar los puntos del dado y la moneda, su suma puede tomar 7 valores, siendo el mnimo 1 y el mximo 7. Las probabilidades de estos dos (1/12) son menores a la de los intermedios (2/12), pero, como su nombre lo dice, la esperanza nos indica que 4 es el promedio o nmero esperado a obtener si se repite muchas veces el experimento, mientras que la varianza nos seala que la dispersin del resto de los valores es de 3.17.

EJERCICIOS DE REPASO DE LA UNIDAD I


1. Escribe la definicin de los siguientes conceptos:
a) d) g) j) m) p) Fenmeno aleatorio Probabilidad Probabilidad subjetiva Probabilidad condicional Variable aleatoria Funcin de probabilidad b) e) h) k) n) q) Evento Probabilidad clsica Eventos ajenos Ley de probabilidad total Variable aleatoria discreta Esperanza c) f) i) l) o) r) Espacio muestral Probabilidad frecuentista Eventos independientes Teorema de Bayes Variable aleatoria continua Varianza

2. Escribe las propiedades de probabilidad 3. Se lanza una moneda y se observa si es sol o guila. Si resulta sol, la moneda se lanza por segunda ocasin. Si resulta guila se tira un dado. a) Escribe el espacio muestral para este experimento b) Cul es la probabilidad de que en la segunda parte de este experimento se lance un dado? 4. Determinar la probabilidad para cada uno de los siguientes eventos a) La aparicin de un nmero impar en una tirada de un dado. b) La aparicin de un sol en dos lanzamientos de una moneda. c) La aparicin de un as, o el diez de diamantes, o el dos de corazones en una extraccin de una baraja de 52 cartas. d) La obtencin de 7 puntos en una tirada de un par de dados. e) La aparicin de sol en el siguiente lanzamiento de una moneda, si en 100 lanzamientos previos aparecieron 56 guilas. 5. Determinar si cada una de las siguientes parejas de eventos son o no mutuamente excluyentes (ajenos): a) Se tiran cinco monedas: se observa un sol; se observa al menos un sol b) Un antroplogo fsico toma la estatura de una persona: la estatura es superior a 165 cm.; la estatura es mayor de 175 cm. c) Un estudiante es seleccionado en la ENAH: la persona elegida es hombre; la persona elegida es mayor de 21 aos. d) Se lanzan dos dados. El total de puntos obtenidos es: d.1) menor que 7; mayor que 9 d.2) es par; es impar d.3) siete; nueve 6. Supngase que el 80% de todos los capitalinos que vacacionan en alguna playa visitan Acapulco, 80% visitan Veracruz y 70% visitan tanto Acapulco como Veracruz. a) Cul es la probabilidad de que un turista capitalino vacacione en Acapulco o Veracruz? b) Cul es la probabilidad de que el turista no visite ninguna de estas ciudades? 7. Determine si las siguientes parejas de eventos son independientes o no:

47

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

a) Lanzar un par de dados y observar un punto en el primer dado y un punto en el segundo dado. b) Ser propietario de un automvil rojo y tener el cabello rubio. c) Ser propietario de un automvil rojo y sufrir una picadura de llanta. d) Estudiar para un examen y aprobarlo. 8. Si p(A)=0.3, p(B)=0.4 y si A y B son eventos independientes, cul es el valor de cada una de las siguientes probabilidades? a) p(AB) b) p(A|B) c) p(B|A) 9. Si p(A)=0.3, p(B)=0.5 y p(AB)=0.15, calcular: a) p(A|B) b) p(B|A) c)son independientes A y B? 10. Si p(A)=0.4, p(B)=0.7 y p(AB)=0.22, calcular: a) p(A|B) b) p(B|A) c)son independientes A y B? 11. En la siguiente tabla se presentan los resultados de una encuesta durante una investigacin para estudiar las opiniones de los habitantes de cierta ciudad respecto a la legalizacin del aborto. Los datos estn clasificados de acuerdo con el rea en la que fue aplicada la entrevista. Si un cuestionario es elegido aleatoriamente, I. cul es la probabilidad de que: a) El entrevistado vote a favor de la legalizacin del aborto? b) El entrevistado vote en contra de la legalizacin? c) El entrevistado se abstenga? d) Que el entrevistado viva en el rea A? B? C? D? E? e) El entrevistado vote a favor de la legalizacin del aborto dado que vive en el rea B? II) Calcular las siguientes probabilidades a) P(AR) b)P(QR) c) P(D) d) P(Q|D) e)P(B|R) f)P(R) g)P(A) h)P(FE) i)P(R|A) j) P(FQR) k)P(BE)
rea de la ciudad A favor (F) 100 A 115 B 50 D 35 E En contra (Q) 20 5 60 50 Indecisos (R) 5 5 15 125

12. Por descuido se colocan dos pastillas para el resfriado en un frasco que contiene dos aspirinas. Las cuatro pastillas son idnticas en apariencia. Del frasco se selecciona una tableta al azar y se le administra al primer paciente. De las tres tabletas restantes se selecciona una al azar y se administra al segundo paciente. a) Escribir el espacio muestral Calcula la probabilidad de que: b) El primer paciente tom una pastilla para el resfriado c) Uno de los dos pacientes tom una tableta para el resfriado d) Ningn paciente tom una tableta contra el resfriado 13. Supngase que la Cd. de Mxico se divide en tres zonas A, B y C de acuerdo al nivel de contaminacin. El 50% de la poblacin vive en la zona A, el 40% en B y el resto en C. El nivel de contaminacin influye en la incidencia de cierta enfermedad pulmonar, dicha enfermedad afecta a 10 de cada 100 personas que viven en A, mientras que slo afecta a 1 de cada 100 de los que viven en B y a 5 de cada 1000 de los que viven en C. Calcular:

48

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

a) La probabilidad de que una persona elegida al azar sufra la enfermedad y viva en la zona A. b) La probabilidad de que una persona elegida al azar viva en la zona B sabiendo que est afectada por dicha enfermedad. 14. Una prueba sangunea para detectar hepatitis tiene los siguientes niveles de precisin: si el individuo tiene hepatitis, la prueba da positivo con probabilidad 0.9, mientras que en el 99% de los individuos sin hepatitis la prueba da negativo. a) La tasa de incidencia de la enfermedad en la poblacin estudiada es de un enfermo por cada 10,000 personas. Calcular la probabilidad de que un individuo que ha dado positivo en la prueba tenga hepatitis. b) Un individuo es enviado a hacerse la prueba porque tiene prdida de apetito e ictericia. El mdico sabe que el 50% de los individuos con dichos sntomas presentan hepatitis. Si la prueba da positivo, cul es la probabilidad de que el paciente tenga hepatitis? 15. Una variable aleatoria x puede asumir cinco valores: 0, 1,2 3 y 4. Se muestra enseguida una parte de de la distribucin de probabilidad: 0 1 2 3 4 x p(x) 0.1 0.3 0.3 ? 0.05 a) Encuentra p(3) b) Realiza una grfica de probabilidad para describir p(x) c) Calcula esperanza y varianza d) Cul es la probabilidad de que x sea mayor de 2? e) Cul es la probabilidad de que x sea 3 o menos? 16. Verifique si las siguientes expresiones son o no funciones de probabilidad: 5 x a) p ( x) = para x=1,2,3,4 10 x2 1 para x=1,2,3,4 b) p( x) = 50 17. Sea X la variable aleatoria que representa el nmero de nios varones en familias de tres hijos, sabiendo que la probabilidad de que nazca un nio varn es de 0.45: a) Encontrar la funcin de distribucin de probabilidades. b) Graficar la funcin de probabilidad c) Calcular Esperanza y Varianza.

49

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

UNIDAD II
4. FUNCIONES DE DISTRIBUCIN DE PROBABILIDAD
Introduccin
A fin de explicar las variables aleatorias y su caracterizacin, en el captulo anterior vimos el ejemplo del nacimiento de un beb: FENMENO: Nacimiento de un beb

= {mujer,hombre}

X = 0 si es mujer, 1 si es hombre X = 0,1

FUNCIN DE PROBABILIDAD [P(x)] de X = Nacimiento de un beb

x
x=0 x =1
TOTAL

P ( x)

P ( x = 0 ) = 0.493 P ( x = 1) = 0.507

P ( x ) = P ( x = 0 ) +P ( x = 1) P ( x ) = 0.493 + 0.507 P ( x) = 1

Otra forma de expresar su funcin de probabilidades P ( x ) es mediante una expresin matemtica:

P ( x ) = 0.493x ( 0.507 )

1 x

; x = 0,1

Puesto que, si le sustituimos con los valores de la variable aleatoria, tambin obtenemos la probabilidad correspondiente a cada valor de X :

P ( x = 0 ) = 0.4930 ( 0.507 )

1 0

= 1 ( 0.507 ) = 1 ( 0.507 ) = 0.507


1

P ( x = 1) = 0.4931 ( 0.507 )
Porque

11

= 0.493 ( 0.507 ) = 0.493 (1) = 0.493


0

a0 = 1

a1 = a

Ahora bien, igual que en este caso, la funcin de probabilidades de todas las variables aleatorias dicotmicas (que toman dos valores: 0 y 1), puede expresarse a travs del siguiente modelo:

P(x p ) = p x (1 p ) ; x = 0,1
1 x

De hecho, el estudio de muchos fenmenos ha permitido formular modelos tericos para determinar la funcin de probabilidad, la esperanza y la varianza de muchos tipos de variables aleatorias (discretas y continuas). Los que veremos a continuacin son slo algunos, pero deber recordarse que cada uno est fundamentado en un criterio; motivo por el cual se afirmar que cada variable posee un tipo de distribucin con cierto parmetro. Por ejemplo: A~B(C) La variable A posee una distribucin B con parmetro C.

50

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


De entrada, veamos entonces tres modelos de distribucin de probabilidad para variables aleatorias discretas dicotmicas que pueden utilizarse en tres casos: cundo se desea calcular probabilidades de slo un ensayo, cuando se realizan varios ensayos y cuando el nmero de ensayos es muy grande. Distribucin Bernoulli

X ~ Be ( p )

Cuando la variable aleatoria de un fenmeno tiene slo dos resultados posibles mutuamente excluyentes (0 y 1) y se realiza un ensayo, se designa arbitrariamente xito1 a la aparicin de la caracterstica de inters y fracaso a la ausencia de dicha caracterstica. Por convencin, el valor de la variable aleatoria en el xito es 1 y su probabilidad es p, mientras que su valor en el fracaso es 0 y su probabilidad es q, que (al ser eventos ajenos) es igual a 1-p. Dicho esto podemos afirmar que las variables aleatorias discretas que cumplen con tales condiciones tienen una distribucin de probabilidad Bernoulli con parmetro p : Variable aleatoria: Valores y probabilidades: Distribucin de probabilidad

X = {0,1} P ( x = 1) = p P ( x = 0) = q = 1 p X ~ Be ( p )

Cuya funcin de distribucin de probabilidad obedece al siguiente modelo: Funcin de probabilidad:

P(x p ) = p x (1 p ) ; x = 0,1
1 x

P ( x = 0 ) = p 0 (1 p )
Porque:
1

1 0

= 1(1 p ) = 1(1 p ) = 1 p
1

P ( x = 1) = p1 (1 p )
x =0

11

= p (1 p ) = p (1) = p
0

P ( x ) =P ( x = 0 ) + P ( x = 1) = (1 p ) + p = 1
Esperanza Si el valor esperado de una variable aleatoria discreta cualquiera es:

E ( x) = x P ( x)
x

El valor esperado de una variable aleatoria discreta con distribucin Bernoulli es:

E ( x p ) = x P ( x ) = 0 (1 p ) + 1( p ) = p
x =0

Varianza De igual forma, si la varianza de una variable aleatoria cualquiera es:

Var ( x ) = E x 2 [E ( x )]

( )

Debemos remarcar que esta asignacin es arbitraria y no tiene ninguna connotacin positiva. Baste el ejemplo de los estudios de mortalidad, en que el xito es igual a la muerte de un individuo.

51

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


La varianza de una variable aleatoria discreta con distribucin Bernoulli es:

Var ( x ) = E x 2 [ p ]

( )

Y slo nos falta deducir el valor de E x 2 p para calcularle:

E ( x2 p ) = x2 P ( x ) E ( x p ) = 0 (1 p ) + 12 ( p )
2 2 x =0

E ( x 2 p ) = 0 (1 p ) + 1( p ) E ( x2 p ) = p
Por ende, la varianza de una variable aleatoria discreta con distribucin Bernoulli se puede calcular como:

Var ( x ) = p [ p ] = p p 2 = p (1 p )
2

En resumen, para calcular las probabilidades de una variable discreta dicotmica en un ensayo podemos utilizar el modelo de distribucin de probabilidad Bernoulli (basado en el parmetro p ):

FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA

E (x ) = p Var( x ) = p(1 p )

P(x p ) = p x (1 p ) ; x = 0,1
1 x

X ~ Be ( p )

Realicemos ahora unos cuantos ejemplos: Ejemplos de aplicacin 1. Por se materia curricular, todos los alumnos de antropologa fsica cursan la materia de estadstica, pero se sabe que slo el 85% de ellos aprueban. Angustiado, un estudiante le pide ayuda para comprender cmo se comporta dicha variable. Dado que la calificacin (aprobatoria o no) es una variable dicotmica, podemos utilizar el modelo de distribucin Bernoulli para caracterizarle, suponiendo que aprobar es XITO ( x = 1) y reprobar es FRACASO ( x = 0 ) : = P(x = 1) = p = 0.85 TIPO DE X ~ Be ( p ) X ~ Be ( p = 0.85) VARIABLE FUNCIN DE PROBABILIDAD Aprobar = XITO CARACTERIZACIN Reprobar = FRACASO P( x = 0) = 1 p = 1 0.85 = 0.15 =

P ( x p ) = p x (1 p )

1 x

; x = 0,1
1 x

P ( x p = 0.85 ) = 0.85 x ( 0.15 )

; x = 0,1

52

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


ESPERANZA

E ( x) = p E ( x ) = 0.85

VARIANZA

Var ( x ) = p (1 p ) Var ( x ) = 0.85 ( 0.15 ) = 0.1275

Aprobar o no la clase de estadstica es una variable con distribucin Bernoulli, con un valor esperado de 0.85 y una varianza de 0.1275. 2. Expertos consideran que la probabilidad de que Mxico pase a la final de la prxima Copa Amrica es del 20%. Caracterice la variable (considerando un xito el que nuestra seleccin pase) para definir la variabilidad de este resultado. CARACTERIZACIN Pase = XITO No pase = FRACASO = P(x = 1) = p = 0.20 = P( x = 0) = 1 p = 1 0.20 = 0.80 TIPO DE VARIABLE FUNCIN DE PROBABILIDAD ESPERANZA

X ~ Be ( p = 0.20 )

VARIANZA El pase de Mxico a la final de la Copa Amrica es una variable con distribucin Bernoulli, con una verdadera esperanza de 0.20 y una variabilidad de 0.1600. 3. Si se contesta al azar una pregunta con tres opciones, la probabilidad de elegir la respuesta adecuada es de 1/3, y se considera al acierto como xito, cmo se comporta esta variable?: CARACTERIZACIN Acertar = XITO Errar = FRACASO = P ( x = 1) = p = 1 3 = P ( x = 0) = 1 p = 1 1 3 = 2 3 TIPO DE VARIABLE FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA

E (x ) = 0.20 Var ( x ) = 0.20(0.80) = 0.1600

P ( x p = 0.20 ) = 0.20 x ( 0.80 )

1 x

; x = 0,1

X ~ Be ( p = 1 3) P ( x p = 1 3) = (1 3) ( 2 3)
x 1 x

; x = 0,1

E ( x ) = 1 3 = 0.3333 Var ( x ) = 1 3 ( 2 3) = 2 9 = 0.2222

Elegir al azar la respuesta correcta a una pregunta con 3 opciones es una variable con distribucin Bernoulli, con un valor promedio de 0.3333 y una varianza de 0.2222. 4. Durante una investigacin en la Sierra Norte de Puebla se encontr que la probabilidad de hallar un nio en edad preescolar con algn tipo de desnutricin es del 65%. Si se selecciona al azar un individuo de esta poblacin, sea X la variable aleatoria discreta tal que x = {0 con desnutricin, 1 sin desnutricin} :
Con desnutricin = XITO = P(x = 1) = p = 0.65

CARACTERIZACIN Sin desnutricin = FRACASO = P( x = 0 ) = 1 p = 1 0.65 = 0.35

TIPO DE VARIABLE

X ~ Be ( p = 0.65)

53

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


FUNCIN DE PROBABILIDAD ESPERANZA

VARIANZA El que un nio en edad preescolar de la Sierra Norte de Puebla presente desnutricin es una variable con distribucin Bernoulli, con un promedio de 0.65 y una varianza de 0.2275. 5. Si la presencia de patologas o marcadores es considerado un XITO en el estudio de restos osteolgicos, caracterice las siguientes variables aleatorias de acuerdo a la informacin que se aporta: a) Se tiene una coleccin de esqueletos donde la probabilidad de que un crneo manifieste trepanacin es del 5%. CARACTERIZACIN Presencia = XITO Ausencia = FRACASO (x = 1) = p = 0.05 (x = 0) = 1 p = 1 0.05 = 0.95 = P = P TIPO DE VARIABLE FUNCIN DE PROBABILIDAD ESPERANZA

E (x ) = 0.65 Var (x ) = 0.65(0.35) = 0.2275

P ( x p = 0.65 ) = 0.65x ( 0.35 )

1 x

; x = 0,1

X ~ Be ( p = 0.05)

VARIANZA La presencia de trepanacin en un crneo de esta coleccin es una variable con distribucin Bernoulli, con un valor esperado de 0.05 y una varianza de 0.0475. b) Dentro de una muestra estudiada, la probabilidad de que un crneo presente criba orbitaria es de 35%. CARACTERIZACIN Presencia = XITO Ausencia = FRACASO = P(x = 1) = p = 0.35 = P( x = 0) = 1 p = 1 0.35 = 0.65 TIPO DE FENMENO FUNCIN DE PROBABILIDAD ESPERANZA

E (x ) = 0.05 Var (x ) = 0.05(0.95) = 0.0475

P ( x p = 0.05 ) = 0.05x ( 0.95 )

1 x

; x = 0,1

X ~ Be ( p = 0.35)

VARIANZA La presencia de criba orbitaria en un crneo de esta muestra es una variable con distribucin Bernoulli, con una esperanza de 0.35 y una varianza de 0.2275. c) Supngase que el 28% de los crneos de una coleccin de esqueletos de Cholula presentan deformacin. CARACTERIZACIN Presencia = XITO Ausencia = FRACASO = P(x = 1) = p = 0.28 = P( x = 0) = 1 p = 1 0.28 = 0.72 TIPO DE VARIABLE FUNCIN DE PROBABILIDAD ESPERANZA

E (x ) = 0.35 Var (x ) = 0.35(0.65) = 0.2275

P ( x p = 0.35 ) = 0.35x ( 0.65 )

1 x

; x = 0,1

VARIANZA La presencia de deformacin en un crneo de la coleccin de Cholula es una

E (x ) = 0.28 Var ( x ) = 0.28(0.72) = 0.2016

P(x p = 0.28) = 0.28 x (0.72) ; x = 0,1


1 x

X ~ Be ( p = 0.28)

54

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


variable con distribucin Bernoulli, con un valor promedio de 0.28 y una varianza de 0.2016. d) Se cree que en la coleccin de esqueletos La Fuentes, procedente del estado de Colima, 12% de los individuos presentan hiperostosis portica. CARACTERIZACIN Presencia = XITO Ausencia = FRACASO = P(x = 1) = p = 0.12 = P( x = 0) = 1 p = 1 0.12 = 0.88 TIPO DE VARIABLE FUNCIN DE PROBABILIDAD ESPERANZA

VARIANZA La presencia de hiperostosis portica en un individuo de la coleccin de Las Fuentes es una variable con distribucin Bernoulli, con un promedio de 0.12 y una varianza de 0.1056. Distribucin binomial X ~ Bin ( n, p ) Ahora bien, si la variable aleatoria discreta es dicotmica pero en vez de una sola observacin tenemos n nmero de casos ( xi ) , cada observacin tiene una distribucin de probabilidad de tipo Bernoulli: Observacin 1 2 3 Valores posibles

E (x ) = 0.12 Var ( x ) = 0.12(0.88) = 0.1056

P(x p = 0.12) = 0.12 x (0.88) ; x = 0,1


1 x

X ~ Be ( p = 0.12 )

x1 = {0,1}

Tipo de variable

x1 ~ B ( p )

x2 = {0,1} x3 = {0,1} xn = {0,1}

x2 ~ B ( p ) x3 ~ B ( p ) xn ~ B ( p )

La variable aleatoria X a estudiar debe entonces comprender todas estas observaciones independientes:

X = x1 + x2 + x3 + ... + xn
Por lo cual la variable aleatoria X toma valores entre cero y n :

X = {0,1, 2,3,..., n}
Y su distribucin de probabilidad est definida por el siguiente modelo Binomial con parmetros n y p :

P ( x n, p ) = n Cx p x (1 p )

n x

; x = 0,1, 2,3,..., n

55

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Analicemos paso a paso el porqu de dicha expresin con el ejemplo de hiperostosis portica, cuya probabilidad de presencia en un esqueleto de la coleccin de Las Fuentes era de 12%: Presencia = XITO = P ( xi = 1) = p = 0.12 TIPO DE VARIABLE FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA CARACTERIZACIN Ausencia = FRACASO = P ( xi = 0 ) = 1 p = 1 0.12 = 0.88

P(x p = 0.12) = 0.12 x (0.88) ; x = 0,1


1 x

X ~ Be ( p = 0.12 )

E ( xi ) = 0.12 Var ( xi ) = 0.12 ( 0.88 ) = 0.1056

Si un investigador toma tres esqueletos, asignando 1 a todo caso que presente hiperostosis y 0 a todo el que no le manifieste, las posibles observaciones seran: Escenario posible A B C D E F G H Caso

x1
0 1 0 0 1 1 0 1

x2
0 0 1 0 1 0 1 1

x3
0 0 0 1 0 1 1 1

Y la variable aleatoria X tendra 4 valores posibles entre 0 y 3: X = {0,1, 2,3}

x1
0 1 0 0 1 1 0 1

x2
0 0 1 0 1 0 1 1

x3
0 0 0 1 0 1 1 1

x1 + x2 + x3 = X
0+0+0=0 1+0+0=1 0+1+0=1 0+0+1=1 1+1+0=2 1+0+1=2 0+1+1=2 1+1+1=3

X
0 1 1 1 2 2 2 3

Ahora, si en cada caso la probabilidad de acierto es igual a p y la probabilidad de fracaso es

(1 p ) ,

como las observaciones son independientes resulta que la

probabilidad de cada valor X sera:

x1
0

x2
0

x3
0

x1 + x2 + x3 = X
0+0+0=0

X
0

P ( x) P ( x ) = (1 p ) (1 p ) (1 p )

P ( x)
P ( x = 0 ) = (1 p )
3

56

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


1 0 0 1 1 0 1 0 1 0 1 0 1 1 0 0 1 0 1 1 1 1+0+0=1 0+1+0=1 0+0+1=1 1+1+0=2 1+0+1=2 0+1+1=2 1+1+1=3 1 1 1 2 2 2 3

P ( x ) = p (1 p ) (1 p )
P ( x ) = (1 p ) p (1 p ) P ( x ) = (1 p ) (1 p ) p P ( x ) = p p (1 p ) P ( x ) = p (1 p ) p P ( x ) = (1 p ) p p P ( x) = p p p
P ( x = 2 ) = 3 p 2 (1 p )
2 P ( x = 1) = 3 p (1 p )

P ( x = 3) = p 3

Que en trminos del valor del parmetro p seran:

P ( x)
P ( x = 0 ) = (1 p ) = 0.883 = 0.6815
3

2 P ( x = 1) = 3 p (1 p ) = 3 ( 0.12 0.882 ) = 0.2788 2 P ( x = 2 ) = 3 p (1 p ) = 3 ( 0.12 2 0.88 ) = 0.0380

P ( x = 3) = p 3 = 0.123 = 0.0017

P ( x ) = 0.6815 + 0.2788 + 0.0380 + 0.0017 = 1


x =0

Si bien la probabilidad de los eventos totales o extremos (donde en todos los casos se presenta o no la caracterstica) es fcil de calcular sin necesidad de la tabla, pues simplemente se eleva la probabilidad de xito o fracaso a la potencia del nmero de casos; la probabilidad de los eventos combinados es ms complicada de predecir. A fin de evitar tal desarrollo puede determinarse el nmero que anteceder a las combinaciones a partir del desarrollo de binomios. Por ejemplo:

( a + b ) = a 2 + 2ab + b 2 3 ( a + b ) = a 3 + 3a 2b + 3ab 2 + b3 4 ( a + b ) = a 4 + 4a3b + 6a 2b2 + 4ab3 + b4 5 ( a + b ) = a5 + 5a 4b + 10a3b2 + 10a 2b3 + 5ab4 + b5


2

donde el exponente es el nmero de casos ( n ) , en tanto que a es

(1 p )

y b es p :
3

n = 3 (a + b)

De hecho, se dice que la variable tiene distribucin Binomial porque su probabilidad es un binomio elevado a la potencia del nmero de casos ( n ) . Ahora bien, si el desarrollo de binomios resulta igual de complicado, existen otras tres formas para descubrir el nmero que antecede a las combinaciones: una es observando el Tringulo de Pascal:

57

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

En el cual se busca el rengln cuyo nmero de elementos sea igual al nmero de valores que la variable aleatoria X puede tomar:

X = {0,1, 2,3} # X = 4

Otra es, aplicando la expresin de combinaciones:

Cx =

n! x !( n x ) !

n ! = n (n 1) (n 2) (n 3) ... ( 3) ( 2 ) (1)
y que:

Sabiendo que:

Donde n es el nmero total de casos y x el nmero de observaciones sobre las cuales se desea asignar probabilidad

0! = 1

Que para el ejemplo sera:

C1 =

3! 3! 3 2 1 6 6 = = = = =3 2!( 3 2 ) ! 2!(1!) ( 2 1)(1) ( 2 )(1) 2

O finalmente est la opcin de acudir a la tecla n C x de la calculadora2, que permite determinar el nmero de combinaciones de n observaciones en conjuntos de x elementos. Dicho todo esto podemos comprender ya el porqu de la expresin:

P ( x n, p ) = n Cx p x (1 p )

n x

; x = 0,1, 2,3,..., n

Porque, a fin de calcular probabilidades de xito en n casos de una variable aleatoria discreta dicotmica, debemos considerar no slo la probabilidad de xito, sino tambin las posibles combinaciones ( n Cx ) en que se puede manifestar. Por ejemplo, para el caso de la hiperostosis portica: HIPEROSTOSIS PORTICA X ~ Bin ( n = 3, p = 0.12 )

P ( x n = 3, p = 0.12 ) = 3 Cx ( 0.12 ) ( 0.88 )


x

FUNCIN DE PROBABILIDAD
3 x

; x = 0,1, 2,3

PROBABILIDADES
La tecla puede variar de acuerdo al modelo de la calculadora, sobre todo en la letra del segundo subndice; no obstante, siempre incluye la letra C, que le distingue de la tecla para permutaciones
2

Pr . 58

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

P ( x n = 3, p = 0.12 ) = 3 C0 ( 0.12 ) ( 0.88 )


0

3 0

= 1(1)( 0.88 ) = 0.6815


3 2 2 1

P ( x n = 3, p = 0.12 ) = 3 C1 ( 0.12 ) ( 0.88)


1

31

= 3 ( 0.12 )( 0.88) = 0.2788 = 3 ( 0.12 ) ( 0.88 ) = 0.0380 = 1( 0.12 ) ( 0.88 ) = 0.0017


3 0

P ( x n = 3, p = 0.12 ) = 3 C2 ( 0.12 ) ( 0.88 )


2 3

3 2 3 3

P ( x n = 3, p = 0.12 ) = 3 C3 ( 0.12 ) ( 0.88 )

Si se analizan tres restos, existe un 68.15% de probabilidad de que ninguno presente hiperostosis portica; un 27.88% de que slo uno la manifieste; 3.80% que dos y slo un remoto 0.17% de probabilidad de que todos le presenten. Esperanza Partiendo de nuevo de la esperanza de una variable aleatoria cualquiera, sabemos que cada observacin tiene como valor promedio:

E ( xi ) = xi P ( xi )
x

Por lo que la esperanza de la variable que les comprende es:

E ( x ) = xi P ( xi ) E ( x ) = x1 P ( x1 ) + x2 P ( x2 ) + x3 P ( x3 ) + ... + xn P ( xn ) E ( x ) = x1 P ( x1 ) + x2 P ( x2 ) + x3 P ( x3 ) + ... + xn P ( xn ) E ( x ) = E ( x1 ) + E ( x2 ) + E ( x3 ) + ... + E ( xn )


Que, a sabiendas de que el valor esperado de cada observacin es la probabilidad de xito E ( xi ) = p , deviene en:
x =0

E ( x ) = p + p + p + ... + p E ( x) = n p

Que en nuestro ejemplo sera: HIPEROSTOSIS PORTICA

X ~ Be ( p = 0.12 )

Esperanza de cada observacin

E ( x1 ) = 0.12

E ( x2 ) = 0.12
E ( x ) = E ( x1 ) + E ( x2 ) + E ( x3 )

E ( x3 ) = 0.12

X ~ Bin ( n = 3, p = 0.12 )
E ( x ) = 0.12 + 0.12 + 0.12 E ( x ) = 3 ( 0.12 ) = 0.3600

Esperanza de la variable

Varianza de una variable aleatoria De manera similar, si la varianza de una variable aleatoria con distribucin Bernoulli es:

Var ( x ) = p (1 p )

59

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


La varianza de una variable aleatoria con distribucin Binomial es3:

Var ( x ) = p (1 p ) Var ( x ) = n p (1 p )
x =0

Lo que en el caso del ejemplo es: HIPEROSTOSIS PORTICA

X ~ Be ( p = 0.12 )

Varianza de cada observacin

Var ( x1 ) = 0.12 ( 0.88 )

Var ( x2 ) = 0.12 ( 0.88 )

Var ( x3 ) = 0.12 ( 0.88 )

X ~ Bin ( n = 3, p = 0.12 )
Var ( x ) = Var ( x1 ) + Var ( x2 ) + Var ( x3 ) Var ( x ) = 0.12 ( 0.88 ) + 0.12 ( 0.88 ) + 0.12 ( 0.88 ) Var ( x ) = 3 ( 0.12 )( 0.88 ) = 0.3168

Esperanza de la variable

En conclusin, el modelo de distribucin Binomial (basado en los parmetros n y p ) nos permite caracterizar y calcular las probabilidades de xito de una variable aleatoria discreta dicotmica cuando se tiene ms de una observacin:

X ~ Bin ( n, p )
FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA

P ( x n, p ) = n Cx p x (1 p ) E ( x) = n p Var ( x ) = n p (1 p )

n x

; x = 0,1, 2,3,..., n

Ejemplos de aplicacin 1. Durante la clase se aplica un examen de 5 preguntas con tres opciones cada una. Establecer la funcin de probabilidad de ste fenmeno y calcular su esperanza y varianza. Posteriormente, calcular la probabilidad de obtener 0, 1, 2, 3 ,4 y 5 aciertos: Acertar = P( x = 1) = p = 1 DATOS GENERALES Errar = P( x = 0 ) = 1 p = 1 1 = 2

n=5

TIPO DE FENMENO FUNCIN DE PROBABILIDAD

3 X ~ Bin ( n = 5, p = 1 3)

P ( x n, p ) = n C x p x (1 p ) P x n = 5, p = 1
E ( x) = n p E ( x) = 5 1

n x

; x = 0,1, 2,3,..., n
x 5 x

= C ( 1 ) (2 ) 3) 3 3
5 x

; x = 0,1, 2,3, 4,5

ESPERANZA

( 3 ) = 5 3 = 1.6667

Si los eventos no fueran independientes habra que restar la covarianza.

60

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


VARIANZA

Var ( x ) = n p (1 p ) Var ( x ) = 5 1

( 3 )( 2 3 ) = 10 9 = 1.1111
5 5 5

a) 5 aciertos:

P ( x = 5 ) = 5 C5 1

( 3) (23)
4

= 0.0041

La probabilidad de obtener, al azar, 5 aciertos en un examen de 5 preguntas con tres opciones es de 0.41%. b) 4 aciertos:

P ( x = 4 ) = 5 C4 1

( 3) (23)
3

5 4

= 0.0412

La probabilidad de obtener, al azar, 4 aciertos en un examen de 5 preguntas con tres opciones es de 4.12%. c) 3 aciertos:

P ( x = 3) = 5 C3 1

( 3) (23)
2

53

= 0.1646

La probabilidad de obtener, al azar, 3 aciertos en un examen de 5 preguntas con tres opciones es de 16.46%. d) 2 aciertos:

P ( x = 2 ) = 5 C2 1

( 3) ( 3)
2
1

5 2

= 0.3292

La probabilidad de obtener, al azar, 2 aciertos en un examen de 5 preguntas con tres opciones es de 32.92%. e) 1 acierto:

P ( x = 1) = 5 C1 1

( 3) ( 3)
2

5 1

= 0.3292

La probabilidad de obtener, al azar, 1 acierto en un examen de 5 preguntas con tres opciones es de 32.92%. f) 0 aciertos:

P( y = 0)= 5 C 0 1 3

( ) (23 )
0

50

= 0.1317

La probabilidad de obtener, al azar, 0 aciertos en un examen de 5 preguntas con tres opciones es de 13.17%. Si comparamos las probabilidades anteriores, obtener un acierto es lo ms probable, seguido por 2, 3 y 0 aciertos. Empero, segn la esperanza, 1.667 ser el nmero de aciertos esperados si aplicamos el examen muchas veces. No. aciertos (%) 5 0.41 4 4.12 3 16.46 2 32.92 1 32.92 0 13.17 Total 100.00

Como puede verse, la suma de probabilidades es 1 (100%). Veamos por qu esta propiedad es tan importante:

61

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Cuando nos piden la probabilidad de ms de un valor de X , debemos sumar sus probabilidades individuales: g) Menos de 2 aciertos:

P ( x < 2 ) = P ( x = 0 ) + P ( x = 1) = 0.1317 + 0.3292 = 0.4609

Pero cuando nos piden el evento complementario, basta con restar a 1: h) 2 o ms aciertos:

P ( x 2 ) = 1 P ( x < 2 ) = 1 0.4609 = 0.5391

As, sabiendo que la probabilidad de tener menos de dos aciertos es de 46.09%, fcilmente sabemos que la probabilidad de obtener 2 o ms aciertos es el resto: 53.91%. 2. El examen de ingreso a la ENAH posee 120 preguntas, cada una con 5 opciones, pero una est cancelada. Si el examen fuera contestado completamente al azar, cuntas preguntas con 5 y con 4 opciones seran contestadas en promedio? a) Con 5 opciones: Acertar = DATOS GENERALES

n = 120

Errar = P( x = 0 ) = 1 p = 1 1 = 4 5 5 P( x = 1) = p = 1 5 TIPO DE FENMENO X ~ Bin ( n = 120, p = 1 5 ) FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA

P x n = 120, p = 1

( 5 ) = 120 5 = 24.0000 Var ( x ) = 120(1 )(4 ) = 480 = 19.2000 5 5 25


E ( x ) = 120 1
4 X ~ Bin ( n = 120, p = 1 4 )

= 5)

120

Cx 1

( 5) (45)
x

120 x

; x = 0,1, 2,...,120

b) Con 4 opciones: Acertar =

DATOS GENERALES Errar = P( x = 0 ) = 1 p = 1 1 = 3

n = 120

P( x = 1) = p = 1

TIPO DE FENMENO FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA

P x n = 120, p = 1

( 4 ) = 120 4 = 30.0000 Var ( x ) = 120(1 )(3 ) = 360 = 22.5000 4 4 16


E ( x ) = 120 1

= 120 Cx 1

( 4) ( 3 4)
x

120 x

; x = 0,1, 2,...,120

Si las 120 preguntas fueran contestadas al azar y tuvieran 5 opciones, el promedio de respuestas correctas sera 24, pero como slo son 4 opciones, el promedio de aciertos aumenta a 30, lo cual implica an una calificacin reprobatoria de 2.5. 3. Habamos comentado que la quiniela de pronsticos deportivos Progol consiste en adjudicar el resultado de catorce partidos: local, empate o visitante. Si la planilla se contesta al azar, cul es el nmero promedio de aciertos y cul es su varianza?

62

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Por otro lado, cul es la probabilidad de adivinar los 14 resultados y cul es la probabilidad de no adivinar ninguno? Acertar = P( x = 1) = p = 1 DATOS GENERALES Errar = P( x = 0 ) = 1 p = 1 1 = 2

n = 14

TIPO DE FENMENO FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA

3 X ~ Bin ( n = 14, p = 1 3)

P x n = 14, p = 1

( 3 ) = 14 3 = 4.6667 Var ( x ) = 14(1 )(2 ) = 28 = 3.1111 3 3 9


E ( x ) = 14 1

= 14 Cx 1

( 3) ( 3)
x

14 x

; x = 0,1, 2,...,14

a) Adivinar todos los resultados:

P ( x = 14 ) = 14 C14 1

( 3) (23)
14

14 14

= 2.0908 x107

Con otro procedimiento mucho ms sencillo hemos calculado de nuevo que la probabilidad de acertar al azar los 14 resultados de la quiniela es nfima: de 2.0908x10-5%. Sabiendo de ftbol esto se puede modificar, pero as tampoco se evita las posibles trampas en la liguilla que llegan a afectar los resultados. a) No adivinar ningn resultado:

P ( x = 0 ) = 14 C0 1

( 3) (23)
0

14 0

= 3.4255 x103

La probabilidad de no acertar ninguno de los 14 resultados de la quiniela es tambin muy pequea: nfima: 3.4255x10-5%. Veamos, empero, una forma de comparar estas probabilidades mediante razones de momios: e) Razn de momios ninguno/todos:

x = 0 2.0908 x107 P x = 14 = 3.4255 x103 = 0.0001


La probabilidad de no acertar ningn resultado es 0.0001 veces la probabilidad de adivinar todos el resultado de todos los partidos. 4. Dentro de una coleccin de crneos, la probabilidad de encontrar trepanacin en ellos es de 0.14. Si se toma una muestra de 6 crneos, cul es la probabilidad de que se descubra el siguiente nmero de crneos con trepanacin? a) 0 crneos b) 6 crneos c) 4 crneos d) Ms de 4 crneos

e) Momios de ninguno/todos DATOS GENERALES Presencia

n=6

= P( x = 1) = p = 0.14

Ausencia = P( x = 0) = 1 p = 1 0.14 = 0.86

TIPO DE FENMENO

X ~ Bin ( n = 6, p = 0.14 )
63

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA a) 0 crneos:

P ( x n = 6, p = 0.14 ) = 6 Cx ( 0.14 ) ( 0.86 )


x

6 x

; x = 0,1, 2,3, 4,5, 6

Var ( x ) = 6(0.14)(0.86) = 0.7224


P ( x = 0 ) = 6 C0 ( 0.14 ) ( 0.86 )
0 60

E ( x ) = 6 ( 0.14 ) = 0.8400

= 0.4046

La probabilidad de no encontrar ningn crneo con trepanacin en la coleccin es de 40.46% b) 6 crneos:

P ( x = 6 ) = 6 C6 ( 0.14 ) ( 0.86 )
6

66

= 7.5295 x10 6

La probabilidad de encontrar 6 crneos con trepanacin en la coleccin es de 7.5295x10-4%. c) 4 crneos:

P ( x = 4 ) = 6 C4 ( 0.14 ) ( 0.86 )
4

64

= 0.0043

La probabilidad de encontrar 4 crneos con trepanacin en la coleccin es de 0.43%. d) Ms de 4 crneos:


5 6 5 P ( x > 4 ) = P ( x = 5) + P ( x = 6) = 6 C5 ( 0.14 ) ( 0.86 ) + 7.5295 x106 4 6 P ( y > 4 ) = 2.7752 x10 + 7.5295 x10 = 2.8505 x104

La probabilidad de encontrar ms de 4 crneos con trepanacin en la coleccin es de 2.8505x10-2%. e) Momios de ninguno/todos:

y = 0 0.4046 P y = 6 = 7.5295 x10 6 = 53735.3078


La probabilidad de no encontrar ningn crneo con trepanacin (40.46%) es 53735.3078 veces la probabilidad de encontrar 6 crneos con esta caracterstica (7.5295x10-4%). 5. Supongamos finalmente que, en una coleccin del posclsico originaria de Cholula, la probabilidad de encontrar deformacin craneana es de 0.28. Si se analizan 15 crneos, cul es la posibilidad de hallar esta caracterstica en: a) 0 crneos d) Ms de 13 crneos Presencia b) 15 crneos c) 4 crneos e) Menos de 3 crneos f) Ms de 2 crneos DATOS GENERALES

n=6

= P( x = 1) = p = 0.14

Ausencia = P( x = 0) = 1 p = 1 0.14 = 0.86

TIPO DE FENMENO FUNCIN DE PROBABILIDAD

X ~ Bin ( n = 15, p = 0.28) P ( x n = 15, p = 0.28) = 15 Cx ( 0.28) ( 0.72 )


x

15 x

; x = 0,1, 2,...,15
64

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


ESPERANZA VARIANZA a) 0 crneos:

E ( x ) = 15 ( 0.28 ) = 4.2000 Var ( x ) = 15 ( 0.28 )( 0.72 ) = 3.0240


P ( x = 0 ) = 15 C0 ( 0.28 ) ( 0.72 )
0 15 0

= 0.0072

La probabilidad de no encontrar ningn crneo con deformacin en la coleccin es de %. b) 15 crneos:

P ( x = 15 ) = 15 C15 ( 0.28 )

15

( 0.72 )

15 15

= 5.0977 x109

La probabilidad de que los 15 crneos analizados de la coleccin presenten deformacin es de 5.0977x10-7%. c) 4 crneos:

P ( x = 4 ) = 15 C4 ( 0.28 ) ( 0.72 )
4

15 4

= 0.2262

La probabilidad de encontrar cuatro crneos con deformacin en la coleccin es de 22.62%. Lo cual es un resultado coherente, ya que la probabilidad de casos exitosos siempre ser ms alta mientras ms se acerque al valor de la esperanza de la variable aleatoria, que en este caso era de 4.2. d) Ms de 13 crneos:
14 15 14 + 5.0977 x109 P ( x > 13) = P ( x = 14 ) + P ( x = 15 ) = 15 C14 ( 0.28 ) ( 0.72 ) 7 9 P ( x > 13) = 1.9662 x10 + 5.0977 x10 = 2.0172 x10 7

La probabilidad de descubrir deformacin en ms de trece crneos de la coleccin es de 2.0172x10-5%. e) Menos de 3 crneos:

P ( x < 3) = P ( x = 0 ) + P ( x = 1) + P ( x = 2 )

1 15 1 2 15 2 P ( x < 3) = 0.0072 + 15 C1 ( 0.28 ) ( 0.72 ) + 15 C2 ( 0.28 ) ( 0.72 ) P ( x < 3) = 0.0072 + 0.0423 + 0.1150 = 0.1645

La probabilidad de que tres de los crneos estudiados presenten deformacin es de 16.45%. f) Ms de 2 crneos:

P ( x > 2 ) = 1 P ( x 2 ) = 1 P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) = 1 P ( x < 3) P ( x > 2 ) = 1 0.1645 = 0.8355

La probabilidad de hallar ms de dos crneos con deformacin es de 83.55%.

Distribucin Poisson

X ~ Po ( )
65

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Finalmente tenemos a la distribucin Poisson: un modelo particular de la distribucin Binomial que permite analizar el comportamiento una variable aleatoria discreta dicotmica cuando la probabilidad de xito es muy pequea ( p 0 ) y la muestra es muy grande. Si bien esto implicara que es posible usar tanto la distribucin Binomial como la Poisson para asignar probabilidades cuando se tienen varias observaciones, es mejor aplicar la segunda, ya que cuando la n tiende a infinito ( n N ) la distribucin de probabilidades de la variable tiende a ser exponencial, provocando un cambio importante en la funcin de probabilidades: DISTRIBUCIN BINOMIAL

P ( x n, p ) = n Cx p x (1 p )

n x

; x = 0,1, 2,3,..., n

Expresin donde se especifican los valores que toma X Expresin en que no se hacen explcitos los valores de X porque la muestra ( n ) es muy grande.

DISTRIBUCIN POISSON

e x P(x ) = ; x = 0,1, 2,... x!

Debe notarse adems que en la segunda funcin de probabilidades los parmetros n y p no aparecen, pues como no existen criterios universales para determinar cun pequea debe ser la probabilidad de xito y cun grande debe ser la muestra, la distribucin Poisson considera como parmetro al nmero promedio de ocurrencias del evento, denotado por la letra . Esperanza Ahora bien, dado que la esperanza de una variable aleatoria discreta dicotmica con distribucin Binomial era:

E ( x) = n p

Y si el valor promedio de una variable con distribucin Poisson es:

E ( x) =
Podemos concluir que:

= n p

Varianza Por otro lado, si la varianza de una variable aleatoria discreta dicotmica con distribucin Binomial era:

Var ( x ) = n p (1 p )

Pero sabemos que en la distribucin Poisson p 0 y que, por ende, (1 p ) 1 ; la varianza de una variable con tal distribucin queda como:

Var ( x ) = n p (1 p ) Var ( x ) = (1) =

66

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


En resumidas cuentas: cuando se tiene una variable aleatoria discreta dicotmica de la cual slo se sabe el nmero promedio de ocurrencias o se ha investigado, en una muestra muy grande, que la probabilidad de xito es muy pequea, la mejor forma de caracterizarla es a travs del modelo de distribucin Poisson:

X ~ Po ( )
FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA

e x P ( x) = ; x = 0,1, 2,... x! E (x ) = Var(x ) =

Ejemplos de aplicacin 1. Investigaciones indican que en nuestro pas 50 de cada 100 mil mexicanos pueden desarrollar el mal de Parkinson4: trastorno degenerativo que afecta al sistema nervioso central. Si se toma una muestra de 10 mil personas, cul es la probabilidad de que dicho padecimiento est presente en: a) Ningn sujeto b) Todos c) 5 individuos d) Menos de 5 personas e) Ms de 5 personas DATOS GENERALES

n = 10000

Presencia = P ( x = 1) =

TIPO DE FENMENO FUNCIN DE PROBABILIDAD

50 = 0.0005 100000 X ~ Po ( = 5)

= (10000 )( 0.0005) = 5

P ( x) =

e x ; x = 0,1, 2,... x!
x

ESPERANZA VARIANZA

e5 ( 5 ) P ( x = 5) = ; x = 0,1, 2,... x! E (x ) =

Var(x ) =

E ( x) = 5

Var ( x ) = 5

a) Ningn sujeto:

e 5 ( 5 ) P ( x = 0) = = 0.0067 0!
0

La probabilidad de que ningn sujeto presente el mal de Parkinson es de 0.67%. b) Todas las personas:

Se conmemora el Da Mundial del Mal del Parkinson por Monire Prez Lpez en Sistema e-once noticias Internet. 11 de abril del 2007. Pgina: http://oncetvipn.net/noticias/index.php?modulo=despliegue&dt_fecha=2007-04-11&numnota=3

67

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

e 5 ( 5 ) P ( x = 10000 ) = 0 10000!
10000

La probabilidad de que todas las personas manifiesten el mal de Parkinson es nula. c) 5 individuos:

e 5 ( 5 ) P ( x = 5) = = 0.1755 5!
5

La probabilidad de que 5 individuos manifiesten el mal de Parkinson es de 17.55%. d) Menos de 5 personas:

P ( x < 5 ) = P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) + P ( x = 3) + P ( x = 4 )

e5 ( 5 )1 e 5 ( 5 )2 e5 ( 5 )3 e 5 ( 5 )4 P ( x < 5 ) = 0.0067 + + + + 1! 2! 3! 4! P ( x < 5 ) = 0.0067 + 0.0337 + 0.0842 + 0.1404 + 0.1755 P ( x < 5 ) = 0.4405
La probabilidad de que menos de 5 personas manifiesten el mal de Parkinson es de 44.05%. e) Ms de 5 personas:

P ( x > 5) = 1 P ( x 5) P ( x > 5) = 1 P ( x < 5) + P ( x = 5) P ( x > 5 ) = 1 ( 0.4455 + 0.1755 ) P ( x > 5 ) = 1 0.6210 = 0.3790

P ( x > 5 ) = 1 P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) + P ( x = 3) + P ( x = 4 ) + P ( x = 5 )

Por ende, la probabilidad de que ms de 5 personas manifiesten el mal de Parkinson es de 37.90%. El Instituto Mexicano del Seguro Social (IMSS), empero, ha informado que ms de 50 mil mexicanos padecen el mal de Parkinson5 y que tan slo durante 2007 otorg 24,587 consultas a nivel nacional por esta causa6. As que pese a nuestros clculos, existe razn suficiente para seguir investigando los motivos y posibles tratamientos para este padecimiento. 2. La Secretara de Salud de Jalisco ha reportado que existen de 3 a 4 casos de cncer de mam y cervicouterino por ao en su estado7. Al ser sta una de las causas principales de muerte entre las mujeres, el gobierno ha decidido tomar una muestra grande y calcular la probabilidad de que: a) Ninguna mujer le presente
El IMSS Otorg ms de 24 mil consultas por mal de parkinson en un ao en CDN. 11 de abril de 2008. Pgina: http://www.cdn.com.mx/?c=118&a=22677 6 Padecen Parkinson casi 50 mil mexicanos: IMSS en El siglo de Durango. 23 de diciembre de 2007. Pgina: http://www.elsiglodedurango.com.mx/noticia/151670.padecen-parkinson-casi-50-mil-mexicanosimss.siglo 7 El cncer es la principal causa de muerte en Tuxpan en Informativo del Sur de Jalisco. 8 de marzo del 2007. Nota en internet: http://www.periodicoelsur.com/noticias_tuxpan.aspx?idnoticia=8858
5

68

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


b) Menos 4 mujeres le padezcan c) Ms de 4 lo presenten.

n=?

DATOS GENERALES Presencia = P ( x = 1) = ?

=3

TIPO DE FENMENO FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA a) Ninguna mujer le presente

X ~ Po ( = 4 )
P ( x = 3) = e3 ( 3) ; x = 0,1, 2,... x!
x

E ( x) = 3 Var ( x ) = 3

e 3 ( 3) = 0.0498 P ( x = 0) = 0!
0

La probabilidad de que ninguna mujer padezca cncer (de mama o cervicouterino) es de 4.98%. b) Menos de 3 le padezcan:

P ( x < 3) = P ( x = 0 ) + P ( x = 1) + P ( x = 2 )

e3 ( 3)1 e3 ( 3)2 P ( x < 3) = 0.0498 + + 1! 2! P ( x < 3) = 0.0498 + 0.1494 + 0.2240 P ( x < 3) = 0.4232
La probabilidad de que menos de 3 mujeres le padezcan es de 42.32%. c) Ms de 3 le presenten:

P ( x > 3) = 1 P ( x 3)

P ( x > 3) = 1 P ( x < 3) + P ( x = 3) e 3 ( 3)3 P ( x > 3) = 1 0.4232 + 3! P ( x > 3) = 1 [ 0.4232 + 0.2240] P ( x > 3) = 1 0.6472 = 0.3528
La probabilidad de que ms de 3 mujeres le presenten es de 35.28%. 3. La monosoma del cromosoma X es la causante del denominado sndrome de Turner que, por definicin, afecta exclusivamente a mujeres. Sus principales sntomas son el retraso de crecimiento, el infantilismo sexual y la posesin de ovarios rudimentarios sin epitelio germinativo8. Si bien el desarrollo psicomotor vara entre
Existen, no obstante, otros sntomas, por ejemplo: edema acentuado del dorso de los pies en el nacimiento, trax saliente en escudo, pezones hipoplsicos y muy separados, acortamiento del IV metacarpiano y un sinfn de signos que pueden ir desde una malformacin cardiaca a la abundancia de nevus pigmentarios.
8

69

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


pacientes, las malformaciones suelen ser discretas y la supervivencia es normal. Si la frecuencia de este cariotipo (45,X) es de 0.4 por cada 1,000 nias; dentro de una muestra de 10,000 mujeres, qu probabilidad hay de que se encuentren el siguiente nmero de casos con sndrome de Turner? a) 0 casos b) 1 caso c) Ms de 3 casos

DATOS GENERALES

n = 10000

Presencia = P ( x = 1) =

TIPO DE FENMENO FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA a) 0 casos:

0.4 = 0.0004 1000 X ~ Po ( = 4 )


x

= (10000 )( 0.0004 ) = 4

e4 ( 4 ) P ( x = 4) = ; x = 0,1, 2,... x! E ( x) = 4

Var ( x ) = 4
e 4 ( 4 ) P ( x = 0) = = 0.0183 0!
0

La probabilidad de que ningn caso presente sndrome de Turner es de 1.83%. b) 1 caso:

e4 ( 4 ) P ( x = 1) = = 0.0733 1!
1

La probabilidad de que aparezca un caso con sndrome de Turner es de 7.33%. b) Ms de 3 casos:

P ( x > 3) = 1 P ( x 3)

P ( x > 3) = 1 P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) + P ( x = 3) e 4 ( 4 )2 e4 ( 4 )3 P ( x > 3) = 1 0.0183 + 0.0733 + + 2! 3! P ( x > 3) = 1 [ 0.0183 + 0.0733 + 0.1465 + 0.1954] P ( x > 3) = 1 0.4335 = 0.5665
La probabilidad de que aparezcan ms de tres casos con sndrome de Turner es de 56.65%. 4. 1.18 de cada 1000 nios manifiestan el sndrome de Klinefelter, cuyo cariotipo es 47,XXY. Los varones que lo padecen presentan ginecomastia (desarrollo de mamas), atrofia testicular con azoospermia (sin atrofia de las clulas de Leydig) y aumento de la excrecin de FSH. Asimismo, los sujetos poseen una talla elevada y, a veces, cierta desproporcin. Si bien su aspecto puede ser masculino, en ciertos casos la ausencia de barba y las caderas anchas les dan una morfologa femenina. Si durante una investigacin se analizar a 5,000 varones, qu probabilidad hay de que este sndrome se presente en el siguiente nmero de casos?

70

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


a) 2 casos b) 0 casos DATOS GENERALES c) Ms de 2 casos

n = 5000

Presencia = P ( x = 1) =

TIPO DE FENMENO FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA a) 2 casos:

1.18 = 0.0012 1000 X ~ Po ( = 5.9 )


x

= ( 5000 )( 0.0012 ) = 5.9

e5.9 ( 5.9 ) P ( x = 5.9 ) = ; x = 0,1, 2,... x! E ( x ) = 5.9

Var ( x ) = 5.9
e 5.9 ( 5.9 ) P ( x = 2) = = 0.0477 2!
2

La probabilidad de que se presenten 2 casos con el sndrome de Klinefelter es de 4.77%. b) 0 casos:

e 5.9 ( 5.9 ) P ( x = 0) = = 0.0027 0!


0

La probabilidad de que ningn caso presente el sndrome de Klinefelter es de 0.27%. c) Ms de 2 casos:

P ( x > 2) = 1 P ( x 2)

P ( x > 2 ) = 1 P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) e 5.9 ( 5.9 )1 P ( x > 2 ) = 1 0.0027 + + 0.0477 1!

P ( x > 2 ) = 1 [ 0.0027 + 0.0162 + 0.0477 ] = 1 0.0666 = 0.9334


La probabilidad de que ms de dos casos presenten el sndrome de Klinefelter es de 93.34%. Distribuciones de probabilidad para variables continuas Una vez revisadas las distribuciones de probabilidad para variables discretas, es turno de revisar las enfocadas a las variables continuas, donde el rea total delimitada por la curva y el eje de las X es igual a 1; la cual se fragmenta cuando se levantan lneas perpendiculares para buscar la probabilidad en ciertos intervalos. Distribucin uniforme: X~U(a,b)

Tipo de distribucin en la que, dentro de un intervalo (a, b ) , la variable X tiene una funcin de probabilidad constante, como puede verse en la siguiente grfica:

71

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


0.6 0.5 0.4 P(x) 0.3 0.2 0.1 0

Por sus caractersticas se comprende que, la probabilidad de X (igual en todos los puntos) en el intervalo, suma 1. Por ende: A = P( x )(b a ) = 1 y de ello de deriva lo siguiente: FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA Veamos algunos ejemplos: 1. El tiempo de espera para ser atendido en la ventanilla de Servicios escolares de la ENAH es una variable con distribucin uniforme dentro del horario de 10:00 a 13:00. TIPO DE FENMENO FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA X ~ U (10.00,13.00)

1 ; x (a, b ) (b a ) (b + a ) E (x ) = 2 (a b )2 Var ( x ) = 12 P(x ) =

1 1 = ; x (10.00,13.00) (13.00 10.00) 3 (13.00 + 10.00) = 23 = 11.5000 E (x ) = 2 2 2 (10.00 13.00) = 3 2 = 9 = 3 = 0.7500 Var ( x ) = 12 12 12 4 P(x ) =

De lo cual concluimos que la probabilidad de ser atendido en la ventanilla de Servicios escolares entre las 10 y las 13 horas es de 1/3, aunque la hora ms probable en que nos atendern es a las 11:50 a.m. Ahora, cabe preguntarse cuestiones como: a) Cul es la probabilidad de que nos atiendan entre las 10:30 y las 12:00 horas?

P(10.50 < x < 12.00 ) = (12.00 10.50) 1 = 1.50 1 = 1.50 = 0.5000 3 3 3

( )

( )

La probabilidad de que nos atiendan entre las 10:30 y las 12:00 horas es del 50.00%. b) Cul es la probabilidad de que nos atiendan despus de las 12:45?

72

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

P( x > 12.75) = (13.00 12.75) 1 = 0.25 1 = 0.25 = 0.0833 3 3 3


La probabilidad de que nos atiendan despus de las 12.45 p.m. es de 8.33%. c) Cul es la probabilidad de que nos atiendan a las 12:00 en punto?

( )

( )

P(x = 12.00) = (0) 1 = 0 3

( )

La probabilidad de que nos atiendan exactamente a las 12:00 p.m. es de 0%. Ms que por cuestiones reales, esto se debe a que en la distribucin uniforme y en el resto de las distribuciones de probabilidad para variables continuas, la probabilidad se saca por reas entre la curva y el eje de las X . Para delimitarlas, se requiere en el eje de las X un intervalo; esto es, ms de un punto. Siendo la grfica de probabilidades continua, es imposible calcular la probabilidad de que la variable aleatoria tome slo un valor, pues la probabilidad en ste ser 0. Distribucin normal: X~N(,)

Llamada tambin distribucin gaussiana, esta distribucin es la ms importante para la estadstica. Veamos algunas de sus caractersticas:

a) La curva se acerca pero nunca toca el eje de las X , por lo cual es una curva asinttica b) El rea bajo la curva (y por ende, la suma de todas las probabilidades) es igual a 1.
> <

c) La media ( ) divide la grfica simtricamente as como la probabilidad del rea bajo la curva. d) La media ( ) desplaza la grfica a lo largo del eje X . e) La desviacin estndar ( ) es la distancia entre la media y el punto de inflexin. f) El valor de la desviacin estndar ( ) determina el aplanamiento o levantamiento de la curva (A mayor , ms plana; y a menor , ms alta). g) y son los parmetros de la distribucin; motivo por el cual para cada valor diferente de ellos se conforma una distribucin y una grfica distinta.

FUNCIN DE PROBABILIDAD

P( x ) =

1 2
2

( x )2
2 2

; < x <

73

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


ESPERANZA VARIANZA

Var ( x ) = 2

E (x ) =

El punto es que, por ms que tengamos una funcin de probabilidades especfica, al variar la probabilidad de X continuamente, es necesario resolver integrales para encontrar la probabilidad de X en un intervalo. B.3) DISTRIBUCIN NORMAL ESTNDAR: X~N(0,1)

Esta distribucin es un caso especial de la familia de las distribuciones normales, pues en ella la media ( ) es igual a 0 y la desviacin estndar ( ) es igual a 1; razn por la cual su funcin de probabilidad es la siguiente: FUNCIN DE PROBABILIDAD

P(z ) =

1 e 2 ; < x < 2

z2

Si bien es necesario calcular el valor de Z mediante la funcin de probabilidad, saber la probabilidad de esta variable no requiere integrales, pues basta consultar las tablas ya existentes para ello de la siguiente forma: Uso de las tablas de probabilidad para las reas de la curva normal: Las tablas para reas de la curva normal presentan los valores de menos infinito a un valor Z :

Por ello: 1. Cuando se busca la probabilidad de que Z sea menor a un valor, ste se busca directamente en tablas:

P(z < valor a)

La probabilidad de valor a se busca en tablas.

2. Cuando se busca la probabilidad de que Z sea mayor a un valor, se invierten los signos +/- y >/<; procedimiento que, debido a la simetra de la curva, evita restar eventos complementarios.

74

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


P(z >valor a) Se transforma a P(z < valor -a) y se busca la probabilidad de valor a

P(z >valor -a)

Se transforma a P(z < valor a) y se busca la probabilidad de valor a.

3. Cuando se busca la probabilidad de que Z est en un intervalo (a, b ) , se resta la probabilidad del mayor al menor (sin cambiar signos) pues para delimitar el intervalo basta con calcular primero toda el rea que es menor al nmero ms grande (b) y restarle el rea menor al nmero ms pequeo (a):

P(valor a < z < valor b) Se resta P(z < valor b) - P(z < valor a), es decir, se busca la probabilidad de valor b y se le resta la de valor a. Estandarizacin Estandarizar una variable significa transformar sus valores originales para que los valores estandarizados tengan una media = 1 y una desviacin estndar = 0 . Con ello logramos que la distribucin de la variable se vuelva de tipo normal estndar, permitindonos el acceso a las tablas de probabilidad. EXPRESION PARA ESTANDARIZAR

Z=

xi

En donde los valores de X i , y corresponden a los de la variable original.

Veamos, ahora s, para que nos sirve todo lo anterior con un ejemplo: 1. La estatura de la poblacin de las estudiantes femeninas de la ENAH tiene una distribucin aproximadamente normal con media = 162 cm. y varianza 2 = 17.5 . Qu probabilidad hay de que a) elijamos al azar a una chica que mida menos de 160 cm? b) elijamos al azar a una chica que mida ms de 163 cm? c) elijamos al azar a una chica que mida entre 159 y 161 cm?

75

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


X~N(,)

= 162

DATOS GENERALES

2 = 17.5
P(x ) =

= 4.18
1 e 2 (17.5)

X~N = 162, 2 = 17.5


( x 162 ) 2 (17.5 )
2

1 P(x ) = e 6.28(17.5)

( x 162 )2
35

FUNCIN DE PROBABILIDAD

1 P(x ) = e 109.9

( x 162 )2
35

1 P( x ) = e 10.48

( x 162 )2
35

ESPERANZA VARIANZA Ahora s, respondamos los incisos:

P ( x ) = 0.10 e 35 E ( x ) = 162 Var( x ) = 17.5

( x 162 )2

a) Qu probabilidad hay de que elijamos al azar a una chica que mida menos de 160 cm?

P( x < 160) =

160

0.10 e

( x 162 )2
35

dx

Como se puede ver, calcular la probabilidad de que X sea menor a 160 implica resolver esta integral. Si X tuviera una distribucin normal estndar con = 1 y = 0 , podramos acceder a las tablas. Entonces lo que haremos es estandarizar la variable para lograr tal objetivo y poder obtener la probabilidad: EXPRESIN x PARA Z= i ESTANDARIZAR APLICACIN

2 160 162 P( x < 160 ) P Z < = P Z < = P (Z < 0.48) 4.18 4.18

Observacin 1: -0.48 no es la probabilidad de que la chica sea menor a 160 cm., sino el valor que se ubicar en las tablas intersectando -0.40 (horizontal) y .008 (vertical). Observacin 2: Como se busca la probabilidad de que Z sea MENOR a tal valor, ste se busca directamente en tablas.

P(Z < 0.48) = 0.3156 PROBABILIDAD P(x<160)= 0.3156. Esto es: la probabilidad de que la mujer que elijamos sea menor a 160 cm. es de 0.3156; o bien del 31.56%.
b) Qu probabilidad hay de que elijamos al azar a una chica que mida ms de 163 cm? ESTANDARIZACIN

163 162 1 P( x > 163) P Z > = P Z > = P (Z > 0.24 ) 4.18 4.18

76

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Observacin 3: Como se busca la probabilidad de que Z sea MAYOR a tal valor, se cambian signos y se busca ese nuevo dato en tablas.

P(Z > 0.24) P(Z < 0.24) = 0.4052 PROBABILIDAD P(x>163)= 0.4052. Esto es: la probabilidad de que la mujer que elijamos sea mayor a 163 cm. es de 0.4052; o bien del 40.52%.
c) Qu probabilidad hay de que elijamos al azar a una chica que mida entre 159 y 161 cm?
Observacin 1: Adems de estandarizar para encontrar esta probabilidad, es necesario hallar la probabilidad de X en el intervalo, lo cual logramos restando la probabilidad del valor mayor al del menor [P(x<161)-P(X<159)]:

ESTANDARIZACIN VALORES PARA TABLAS

PROBABILIDAD P(159<x<161)= 0.1694. Esto es: la probabilidad de que la mujer que elijamos mida entre 159 y 161 cm. es de 0.1694; o bien del 16.94%. 2. El nmero de respiraciones por minuto de personas adultas en reposo es una variable que se distribuye de una manera aproximadamente normal con media = 20.5 y desviacin estndar = 4.3 . Si elegimos al azar a una persona, qu probabilidad hay de que su nmero de respiraciones por minuto a) sea menor a 18.3? b) sea mayor a 22? DATOS GENERALES c) est entre 19 y 21? X~N ( = 20.5, = 4.3)
( x 20.5 )2

161 162 159 162 P (159 < x < 161) P <Z< 4.18 4.18 1 3 = P Z< = P( 0.72 < Z < 0.24 ) 4.18 4.18 P( 0.24) P( 0.72) = 0.4052 0.2358 = 0.1694

X~N(,)

= 20.5

2 = 18.49
P(x ) = P(x ) =

= 4.3

1 e 2 (18.49 ) 2 (18.49 )

FUNCIN DE PROBABILIDAD

1 e 6.28(18.49 )

( x 20.5 )2
36.98

1 P( x ) = e 116.12 1 P( x ) = e 10.78

( x 20.5 )2
36.98

( x 20.5 )2
36.98

P( x ) = 0.09 e

( x 20.5 )2
36.98

ESPERANZA VARIANZA a) sea menor a 18.3?

E ( x ) = 20.50 Var( x ) = 18.49

77

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


18.3 20.5 2.20 P( x < 18.3) P Z < = P(Z < 0.51) = P Z < 4 .3 4 .3 P(Z < 0.51) = 0.3050
P(x<18.3)= 0.3050. Esto es: la probabilidad de que el nmero de respiraciones por minuto de la persona elegida al azar sea menor a 18.3 es de 30.50%. b) sea mayor a 22?

22.0 20.5 1.50 P( x > 22 ) P Z > = P Z > = P (Z > 0.35) 4 .3 4 .3 P(Z > 0.35) P(Z < 0.35) = 0.3632
P(x>22)= 0.3050. Esto es: la probabilidad de que el nmero de respiraciones por minuto de la persona elegida al azar sea mayor a 22 es de 36.32%. c) est entre 19 y 21?

21.0 20.5 19.0 20.5 P(19 < x < 21) P <Z< 4 .3 4 .3 0.50 1.50 = P <Z< = P ( 0.35 < Z < 0.12 ) 4 .3 4 .3 P( 0.35 < Z < 0.12) = P(Z < 0.12) P(Z < 0.35) = 0.5478 0.3632 = 0.1846
P(19<x<21)= 0.1846. Esto es: la probabilidad de que el nmero de respiraciones por minuto de la persona elegida al azar est entre 19 y 21 es de 18.46%. Para cerrar este tema, veremos ahora otras distribuciones basadas en las anteriores, algunas de las cuales utilizaremos posteriormente. Distribucin exponencial Caso de la familia de funciones de supervivencia, donde la variable aleatoria X es mayor a cero (motivo por el que toma slo valores positivos) y mantiene una relacin inversa con su probabilidad, debido a lo cual su grfica es asinttica con respecto al eje X y al Y . FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA

P ( x ) = e x ; x > 0 E (x ) = 1

Var ( x ) = 1

Distribucin ji-cuadrada o chi-cuadrada:

Distribucin resultante de la suma de variables con distribucin normal estndar al cuadrado. Ms especficamente, si Z 1 , Z 2 , Z 3 ,..., Z k son variables con distribucin normal estndar [Zi~N(0,1)] y elevadas cada una al cuadrado suman X 2 x = Z 12 + Z 2 + Z 32 + ... + Z k2 , entonces X toma valores positivos (x 0) teniendo

una distribucin ji-cuadrada 2 con K grados de libertad: X~ 2 (k)

( )

78

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


FUNCIN DE PROBABILIDAD ESPERANZA VARIANZA
k 1 1 x X 2 e 2 k k 2 2 2 E (x ) = k Var ( x ) = 2k

P(x ) =

La letra representa la funcin gamma, que sirve para calcular el factorial de funciones continuas.

Distribucin t de student o distribucin-t

t~t(k)

La variable t se obtiene dividiendo dos variables independientes t =

Z x

: una con

distribucin normal estndar [Z~N(0,1)] entre una con distribucin ji-cuadrada [X~ 2 (k)]; razn por la cual la variable t tiene una distribucin-t con K grados de libertad. FUNCIN DE PROBABILIDAD
2 k + 1 t 1 + k 2 P(t ) = k k 2 E (t ) = = 0 k +1 2

; < t <

ESPERANZA

VARIANZA

3 k 2 k 2 2 Var (t ) = 1 k 2 2
F~F(K1,K2)

Distribucin F de fisher

La variable F resulta de dividir dos variables independientes distribucin ji-cuadrada

K1 y K 2 grados de libertad en el numerador y en x1 k1 el denominador, respectivamente: F = x2 k2


k + k2 1 2 k1 P( f ) = k1 k 2 k 2 2 2 k E( f ) = 1 k 22
k1 2 k1 + k 2 2

( ) y con
2

(X 1 , X 2 ),

ambas con

FUNCIN DE PROBABILIDAD

k 1 2

k f 1 + 1 k2

;f >0

ESPERANZA

Si K es mayor a 30, x/k 1; por lo cual la segunda variable tendra una distribucin normal estndar.

79

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


VARIANZA

Var ( f ) =

k1 (k 2 2 ) (k 2 4)
2

2 k 2 (k1 + k 2 2)
2

Distribuciones muestrales
Se llama distribucin muestral a la distribucin de todos los valores posibles que puede tomar una estadstica, calculada a partir de muestras del mismo tamao (n )

seleccionadas aleatoriamente de la misma poblacin (N ) . En otras palabras, es el procedimiento para inferir los valores estadsticos de una muestra a partir de los parmetros de una poblacin. Distribuciones muestrales para poblaciones con distribucin normal X~N(,) Distribucin de la media muestral (x ) Si en la poblacin de estudio, X tiene una distribucin de tipo normal con media y desviacin estndar , en las muestras seleccionadas aleatoriamente, x es una variable aleatoria con la misma media de la poblacin y con una desviacin estndar igual a la de la poblacin pero dividida entre la raz del tamao de la muestra. Esto es: X~N(,) MEDIA DESVIACIN ESTNDAR VARIANZA FRMULA PARA ESTANDARIZAR
2

x N ,

Z=

n
2

Z=

Xi

n xi

Analicemos, con un ejemplo, la importancia de esto: 1. Una investigacin realizada en cierta escuela vers sobre el uso de drogas,. Siendo una de las variables estudiadas los aos de uso, se encontr que dentro de la poblacin esta variable tiene una distribucin normal con media = 4.5 y desviacin estndar = 1.7 . Si se toma una muestra de doce estudiantes que usan drogas, qu probabilidad hay de que la media de la muestra a) sea menor de 4 aos? b) sea mayor de 7 aos? c) est entre 5.5 y 6.8 aos? X~N ( = 4.5, = 1.7 )

X~N(,)

= 4 .5

DATOS GENERALES

= 1.7
= 4.5 = 1.7 2 = 2.89

X~N(=4.5,=1.7) MEDIA DESVIACIN ESTNDAR VARIANZA

x N ,
= 4.5

= 1.7

12
2

= 0.49

2 = (1.7 ) 12 = 0.24
80

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


a) sea menor de 4 aos? FRMULA PARA ESTANDARIZAR

Z=

xi

APLICACIN

Z < 4 4.5 = P(Z < 1.02) P(x < 4) = P 1.7 12 P(Z < 1.02) = 0.1539

La probabilidad de que la media de las muestra de doce estudiantes que usan drogas sea menor a 4 aos es de 15.39% b) sea mayor de 7 aos?

Z > 7 4.5 = P(Z > 5.09 ) P(x > 7 ) = P 1.7 12 P(Z > 5.09) = P(Z < 5.09) 0
La probabilidad de que la media de las muestra de doce estudiantes que usan drogas sea mayor a 7 aos es casi nula. c) est entre 5.5 y 6.8 aos? P(5.5 < x < 6.8)

2.30 6.8 4.5 5.5 4.5 1.00 P <Z< = P <Z< = P(2.04 < Z < 4.69) 1.7 1.7 0.49 0.49 12 12 P(2.04 < Z < 4.69) = P(Z < 4.69) P(Z < 2.04) = 1 0.9793 = 0.0207
La probabilidad de que la media de las muestra de doce estudiantes que usan drogas est entre los 5.5 y 6.8 aos es del 2.07%.

Distribucin de la proporcin muestral ( p )


es el nmero de eventos exitosos (x = 1) . Por ende, dividiendo M entre N obtenemos la proporcin de eventos que poseen la caracterstica de inters. Si la poblacin tiene una distribucin normal, en las muestras seleccionadas aleatoriamente la media de las proporciones es igual a la proporcin real de la poblacin, con una desviacin estndar igual a la raz cuadrada de los eventos exitosos por los no exitosos entre el nmero de elementos de la muestra: Cuando X es una variable que toma 2 valores ( x = {0,1}) en una poblacin (N ) , M

81

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


PROPORCIN POBLACIONAL PROPORCIN DESVIACIN ESTNDAR VARIANZA FRMULA PARA ESTANDARIZAR PROPORCIN MUESTRAL

p=M
2

Z=

Xi

P (1 P ) n P (1 P ) n pP Z= P(1 P ) n

p=m n

Comprobemos, mediante ejemplos, cmo funciona esto: 1. Se sabe que la proporcin de estudiantes de la ENAH que simpatizan con el movimiento del EZLN es de 0.38. Se selecciona una muestra de 15 estudiantes al azar. Cul es la probabilidad de que la proporcin muestral ( p ) : a) sea menor de 0.30? b) sea mayor de 0.35? DATOS GENERALES c) est entre 0.36 y 0.40?

p = 0.38
a) sea menor de 0.30? FRMULA PARA ESTANDARIZAR

1 p = 0.62

n = 15
pP P(1 P ) n

Z=

APLICACIN

Z < 0.30 0.38 = P (Z < 0.64 ) = 0.2611 P( p < 0.30 ) = P 0.38(0.62 ) 15 P(Z < 0.64) = 0.2611

La probabilidad de que la proporcin muestral de simpatizantes con el movimiento del EZLN sea menor de 0.30 es del 26.11%. b) sea mayor de 0.35?

Z > 0.35 0.38 = P (Z > 0.24 ) P ( p > 0.35) = P 0.38(0.62 ) 15 P(Z > 0.24) P(Z < 0.24) = 0.5948
La probabilidad de que la proporcin muestral de simpatizantes con el movimiento del EZLN sea mayor de 0.35 es del 59.48%.

82

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


c) est entre 0.36 y 0.40?

0.36 0.38 < Z < 0.40 0.38 = P( 0.16 < Z < 0.16 ) P(0.36 < p < 0.40 ) = P 0.38(0.62 ) 0.38(0.62 ) 15 15 P( 0.16 < Z < 0.16) = P(Z < 0.16) P(Z < 0.16) = 0.5636 0.4364 = 0.1272
La probabilidad de que la proporcin muestral de simpatizantes con el movimiento del EZLN est entre 0.36 y 0.40 es del 12.72%. 2. Se sabe que la proporcin de estudiantes que al mismo tiempo lleva otra licenciatura es de 0.12. Si se toma una muestra de 15 estudiantes de la ENAH, cul es la probabilidad de que en esta muestra la proporcin de estudiantes con esa caracterstica: a) sea mayor del 10%? b) sea menor del 0.15%? DATOS GENERALES c) est entre 0.11 y 0.14?

p = 0.12
a) sea mayor del 10%?

1 p = 0.88

n = 15

Z > 0.10 0.12 = P (Z > 0.24 ) P ( p > 0.10 ) = P 0.12(0.88) 15 P(Z > 0.24) P(Z < 0.24) = 0.5948
La probabilidad de que en esta muestra la proporcin de estudiantes que cursan, a la vez, dos licenciaturas, sea mayor a 0.10 es de 59.48%. b) sea menor del 0.15%?

Z < 0.15 0.12 = P (Z < 0.36 ) P( p < 0.15) = P 0.12(0.88) 15 P(Z < 0.36) = 0.6406
La probabilidad de que en esta muestra la proporcin de estudiantes que cursan, a la vez, dos licenciaturas, sea menor a 0.15 es de 64.06%. c) est entre 0.11 y 0.14?

0.11 0.12 < Z < 0.14 0.12 = P( 0.12 < Z < 0.24 ) P (0.11 < p < 0.14 ) = P 0.12(0.88) 0.12(0.88) 15 15 = P( 0.12 < Z < 0.24) = P(Z < 0.24) P(Z < 0.12) = 0.5948 0.4522 = 0.1426
La probabilidad de que en esta muestra la proporcin de estudiantes que cursan, a la vez, dos licenciaturas, est entre 0.11 y 0.14 es de 14.26%.

83

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Comparacin de dos medias muestrales ( x1 x 2 ) Sabiendo cmo se calcula la media muestral, es posible comparar las estadsticas de dos muestras mediante las siguientes frmulas: PARA UNA MUESTRA MEDIA DESVIACIN ESTNDAR VARIANZA FRMULA PARA ESTANDARIZAR PARA DOS MUESTRAS 1- 2

1 12
Z=

n1 n1

22 + 22

n2 n2

2
Z=

xi

x1 x 2 (1 2 )

12

n
Comparacin de dos proporciones muestrales ( p1 p 2 )

n1

+2

n2

Sabiendo cmo se calcula la proporcin muestral, es posible comparar las proporciones de dos muestras mediante la siguiente frmula: PARA UNA MUESTRA PARA DOS MUESTRAS

FRMULA PARA ESTANDARIZAR

m p = n pP Z= P(1 P ) n

Z=

m n p1 p 2 (P1 P2 ) P1 (1 P1 ) P2 (1 P2 ) + n1 n2

p =

Distribuciones muestrales para poblaciones sin distribucin normal X~?(,) Distribucin de la media muestral (x ) Segn el TEOREMA CENTRAL DE LMITE (TCL), Dada una poblacin de cualquier forma funcional no normal, con una media y una varianza 2 , la distribucin muestral de x , calculada a partir de muestras de tamao n de dicha poblacin, ser
2 casi normal con media y una varianza

cuando la muestra es muy grande.

En otras palabras, cuando X es una variable cuyo tipo de distribucin no se conoce, pero tiene una media y una varianza 2 , pude asumirse que esta variable tiene
2 una distribucin normal con media y una varianza

tamao de la muestra sea grande (n N ) , lo cual, segn simulaciones de muestras y probabilidades implica que tenga ms de 30 elementos (n > 30) . Por tal motivo, para calcular probabilidades sobre esta variable puede utilizarse la siguiente frmula:

, siempre y cuando el

84

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


X~?(,) FRMULA PARA ESTANDARIZAR Si n > 30 X~N(,)

Z=

xi

n
Apliquemos esto para reafirmar cundo s aplica el TCL y cuando no: 1. En una poblacin de jvenes de 17 aos de edad, la media del espesor del pliegue subescapular (en milmetros) es de 9.7 con una desviacin estndar de 6.0. A partir de una muestra de tamao 14 extrada de esa poblacin, calcular la probabilidad de que la media de la muestra: a) sea mayor de 11. b) sea menor de 7.5 DATOS GENERALES c) est entre 7 y 10.5.

X~? ( = 4.5, = 1.7 ) No se pueden calcular probabilidades, puesto que no se sabe el tipo de distribucin de probabilidad de este fenmeno y la muestra no es grande (mayor a 30) como para considerarla de tipo normal.

= 9 .7

= 6.0

n = 14

2. En una poblacin de jvenes de 17 aos de edad, la media del espesor del pliegue subescapular (en milmetros) es de 9.7 con una desviacin estndar de 6.0. A partir de una muestra de tamao 40 extrada de esa poblacin, calcular la probabilidad de que la media de la muestra: a) sea mayor de 11. b) sea menor de 7.5 DATOS GENERALES c) est entre 7 y 10.5. X~? ( = 4.5, = 1.7 )

= 9 .7
a) sea mayor de 11.

= 6.0

n = 40

11 9.7 P( x > 11) = P z > = P( z > 1.37 ) 6.0 40 P( z > 1.37) P( z < 1.37 ) = 0.0853
La probabilidad de que la media del espesor del pliegue subescapular en esta muestra sea mayor de 11 es del 8.53%. b) sea menor de 7.5

7.5 9.7 P( x < 7.5) = P z < = P( z < 2.32 ) 6.0 40 P( z < 2.32) = 0.0102
La probabilidad de que la media del espesor del pliegue subescapular en esta muestra sea menor de 7.5 es del 1.02%. c) est entre 7 y 10.5.

85

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

7 9.7 10.5 9.7 P(7 < x < 10.5) = P <z< = P( 2.85 < z < 0.84 ) 6.0 6.0 40 40 P( 2.85 < z < 0.84) = P( z < 0.84) P( z < 2.85) = 0.7795 0.0022 = 0.7773
La probabilidad de que la media del espesor del pliegue subescapular en esta muestra est entre los 7 y 10.5 milmetros es de 77.73%.

EJERCICIOS DE REPASO DE LA UNIDAD II


1. En una excavacin de entierros de cierta poblacin se sabe que el 35% son mujeres. Se toma una muestra de 40 entierros. Hallar la probabilidad de que en la muestra a) ningn entierro sea mujer b) todos los entierros correspondan a mujeres c) el nmero de mujeres sea distinto de 15 d) haya ms de dos mujeres en los entierros e) ms de la mitad de los entierros sean de mujeres 2. En un determinado sitio arqueolgico con vestigios de diferentes tipos de animales, se sabe que en promedio hay 3 huesos de caballo. a) Escribe la funcin de probabilidad, su valor esperado y varianza. Calcular la probabilidad de que: b) ninguna de las muestras tenga restos de hueso de caballo. c) 4 muestra tenga restos de hueso de caballo. d) al menos tres de las muestras tengan restos de hueso de caballo. 3. El tiempo que un estudiante de Osteologa tarda en determinar si un crneo es de mujer u hombre obedece una ley de probabilidades uniforme. Si el tiempo de identificacin vara entre 5 y 18 minutos: a) Escribe la funcin de probabilidad de esta variable, calcula el tiempo promedio que se tardar y calcula su varianza. b) Cul es la probabilidad de un crneo sea identificado en menos de 4 minutos? c) Cul es la probabilidad de un crneo sea despus de 15 minutos? d) Si se tiene una muestra de 270 crneos cuntos se identificarn antes de 15 minutos? 4. En un restaurante de comida rpida, 25% de las rdenes para beber es una bebida pequea, 35% de una mediana y 40% una grande. Sea x=1 si se escoge aleatoriamente una orden de bebida pequea, y x=0 en cualquier otro caso. Sea y=1 si se escoge aleatoriamente una orden de bebida mediana, y=0 en cualquier otro caso. Sea z=1 si se escoge aleatoriamente una orden de bebida grande, z=0 para cualquier otro caso. a) Si px es la probabilidad de xito de x, determina la funcin de probabilidad. b) Si p y es la probabilidad de xito de x, determina la funcin de probabilidad. c) Si pz es la probabilidad de xito de x, determina la funcin de probabilidad. d) Es pz = px + p y ? e) Es z = x + y ? f) Es posible que x e y sean iguales a 1 simultaneamente? 5. Sea X el nmero de horas semanales que los estudiantes de la ENAH dedican al estudio. Se cree que X se distribuye aproximadamente normal con media de 43 hrs. y desviacin estndar de 10 hrs. Se selecciona un alumno al azar, cul es la probabilidad de que estudie:

86

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


a) ms de 45.2 hrs. Semanales b) menos de 41.5 hrs. Semanales c) menos de 38 hrs. Semanales d) entre 39 y 44 hrs. Semanales 6. El tiempo de gestacin para los bebs humanos tiene una distribucin aproximadamente normal con media de 278 das y desviacin estndar de 12 das. a) Encuentre los cuartiles superior e inferior para los tiempos de gestacin b) Sera raro que un beb naciera antes de 6 meses de gestacin? Explique. 7. En una cierta poblacin 15% de las personas tiene sangre Rh negativo. Un banco de sangre recibe 92 donadores un da particular. a) Cul es la probabilidad de que 10 o menos tengan Rh negativo? b) Cul es la probabilidad de que entre 15 y 20 de los donadores tengan Rh negativo? c) Cul es la probabilidad de que ms de 80% de los donadores tengan Rh positivo? 8. El 9% de los hombres y el 0.25% de las mujeres no pueden distinguir entre los colores rojo y verde. Este tipo de daltonismo causa problemas con las seales de trnsito. Los investigadores necesitan al menos 50 hombres con este tipo de ceguera al color, de manera que seleccionan aleatoriamente a 600 hombres para un estudio de percepcin de las seales de trnsito. Estima la probabilidad de que al menos 50 de los hombres no distingan entre el rojo y el verde. Es el resultados lo suficientemente alto como para que los investigadores puedan confiarse de obtener al menos 50 hombres con daltonismo? 9. La calificacin media en un examen de estadstica fue de 7.2 y la desviacin estndar de 0.9. En vista de esta situacin, el profesor decide que el 12% de los alumnos con calificaciones mayores obtendrn la nota ms alta del sistema de evaluacin. Suponiendo distribucin normal en la variable calificacin: a) Cul es la calificacin mnima que un estudiante debe tener para recibir la nota ms alta? b) Si el profesor considera que slo no aprobar el 5% cul es la calificacin mnima aprobatoria? 10. En cierta poblacin el 98% de las personas tienen Rh positivo. Suponga que se casan dos personas de esta poblacin que consta de 3643 pobladores. cul es la probabilidad de que el factor Rh de los dos sea negativo, con lo cual sera inevitable que sus hijos tuvieran Rh negativo? 11. La enfermedad de Tay-Sachs es una enfermedad mortal del sistema nervioso que se transmite de padres a hijos. Si ambos padres son portadores de la enfermedad, la probabilidad de que su descendencia la desarrolle es de 0.25. Suponga que que una pareja es portadora de la enfermedad y que la esposa ha estado embarazada en tres ocasiones. Si la ocurrencia de la enfermedad de Tay-Sachs en cualquier descendiente es independiente de la ocurrencia en cualquier otro, cul es la probabilidad de que: a) Los tres nios desarrollarn la enfermedad de Tay-Sachs? b) Slo un nio desarrollar la enfermedad de Tay Sachs? 12. Cada vez ms investigaciones y anlisis se centran en el nmero de enfermedades asociadas con el organismo Escherichia coli que provoca la descomposicin de los glbulos rojos y hemorragias intestinales en sus vctimas. En la Cd. de Mxico se han presentado brotes espordicos de Escherichia coli a una tasa de 2.5 por cada 100,000 individuos en un periodo de 2 aos. a) Cul es la probabilidad de que a lo sumo se den cinco casos de Escherichia coli en un ao determinado?

87

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


b) Cul es la probabilidad de que se presenten ms de 5 caos de Escherichia coli en un ao determinado? c) Una frecuencia de 95% de Escherichia coli tiene que ver con a lo ms cuntos casos? 13. Supongamos que el peso en nios de ltimo grado de jardn de nios en la delegacin Milpa Alta tiene una distribucin aproximadamente normal con media 18.25 kg. y una desviacin estndar de 2.96 kg. Suponiendo que se toma un nio al azar en esta poblacin, cul es la probabilidad de que su peso a) sea menor de 14 kg.? b) sea menor de 23 kg.? c) sea mayor de 17 kg.? d) sea mayor de 15 kg.? e) est entre 15 y 19 kg.? f) se encuentre entre 24 y 28 kg.? 14. En relacin con la poblacin mencionada en el ejercicio 13, se supone que la variable estatura sigue una distribucin aproximadamente normal, con media de 1066 mm. y una desviacin estndar de 46.10 mm. Supongamos que se selecciona un nio al azar cul es la probabilidad de que su estatura: a) sea menor de 1000 mm. b) sea mayor de 1120 mm. c) se encuentre entre 960 y 1140 mm. d) se encuentre entre 1150 y 1200 mm. e) Si deseamos seleccionar al 5% de estatura ms baja, a partir de qu valor se consideran? f) Si deseamos seleccionar al 15% de estatura ms alta, a partir de qu valor se consideran? 15. Investiga la expresin de la funcin de probabilidades geomtrica, su esperanza y varianza y describe un ejemplo simulado en antropologa fsica. 16. Investiga la expresin de la funcin de probabilidades hipergeomtrica, su esperanza y varianza y describe un ejemplo simulado en antropologa fsica.

88

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

UNIDAD III
5. ESTADSTICA DESCRIPTIVA
Breve historia de la estadstica Los comienzos de la estadstica pueden ser hallados en el antiguo Egipto, cuyos faraones lograron recopilar, hacia el ao 3050 antes de Cristo, prolijos datos relativos a la poblacin y la riqueza del pas. De acuerdo al historiador griego Herdoto, dicho registro de riqueza y poblacin se hizo con el objetivo de preparar la construccin de las pirmides. En el mismo Egipto, Ramss II hizo un censo de las tierras con el objeto de verificar un nuevo reparto. En el antiguo Israel la Biblia da referencias, en el libro de los Nmeros, de los datos estadsticos obtenidos en dos recuentos de la poblacin hebrea. El rey David por otra parte, orden a Joab, general del ejrcito hacer un censo de Israel con la finalidad de conocer el nmero de la poblacin[3]. Tambin los chinos efectuaron censos hace ms de cuarenta siglos. Los griegos efectuaron censos peridicamente con fines tributarios, sociales (divisin de tierras) y militares (clculo de recursos y hombres disponibles). La investigacin histrica revela que se realizaron 69 censos para calcular los impuestos, determinar los derechos de voto y ponderar la potencia guerrera. Pero fueron los romanos, maestros de la organizacin poltica, quienes mejor supieron emplear los recursos de la estadstica. Cada cinco aos realizaban un censo de la poblacin y sus funcionarios pblicos tenan la obligacin de anotar nacimientos, defunciones y matrimonios, sin olvidar los recuentos peridicos del ganado y de las riquezas contenidas en las tierras conquistadas. Para el nacimiento de Cristo suceda uno de estos empadronamientos de la poblacin bajo la autoridad del imperio[4]. Durante los mil aos siguientes a la cada del imperio Romano se realizaron muy pocas operaciones Estadsticas, con la notable excepcin de las relaciones de tierras pertenecientes a la Iglesia, compiladas por Pipino el Breve en el 758 y por Carlomagno en el 762 DC. Durante el siglo IX se realizaron en Francia algunos censos parciales de siervos. En Inglaterra, Guillermo el Conquistador recopil el Domesday Book o libro del Gran Catastro para el ao 1086, un documento de la propiedad, extensin y valor de las tierras de Inglaterra. Esa obra fue el primer compendio estadstico de Inglaterra[5]. Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra, trataron de revivir la tcnica romana, los mtodos estadsticos permanecieron casi olvidados durantes la Edad Media. Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicols Coprnico, Galileo, Neper, William Harvey, Sir Francis Bacon y Ren Descartes, hicieron grandes operaciones al mtodo cientfico, de tal forma que cuando se crearon los Estados Nacionales y surgi como fuerza el comercio internacional exista ya un mtodo capaz de aplicarse a los datos econmicos. Para el ao 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor que Enrique VII tena por la peste. Ms o menos por la misma poca, en Francia la ley exigi a los clrigos registrar los bautismos, fallecimientos y matrimonios. Durante un brote de peste que apareci a fines de la dcada de 1500, el gobierno ingls comenz a publicar estadstica semanales de los decesos. Esa costumbre continu muchos aos, y en 1632 estos Bills of Mortality (Cuentas de Mortalidad) contenan los nacimientos y fallecimientos por sexo. En 1662, el capitn John Graunt us documentos que abarcaban treinta aos y efectu predicciones sobre el nmero de personas que moriran de varias

89

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

enfermedades y sobre las proporciones de nacimientos de varones y mujeres que caba esperar. El trabajo de Graunt, condensado en su obra Natural and Political Observations...Made upon the Bills of Mortality (Observaciones Polticas y Naturales ... Hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo innovador en el anlisis estadstico. Por el ao 1540 el alemn Sebastin Muster realiz una compilacin estadstica de los recursos nacionales, comprensiva de datos sobre organizacin poltica, instrucciones sociales, comercio y podero militar. Durante el siglo XVII aport indicaciones ms concretas de mtodos de observacin y anlisis cuantitativo y ampli los campos de la inferencia y la teora Estadstica. Los eruditos del siglo XVII demostraron especial inters por la Estadstica Demogrfica como resultado de la especulacin sobre si la poblacin aumentaba, decreca o permaneca esttica. En los tiempos modernos tales mtodos fueron resucitados por algunos reyes que necesitaban conocer las riquezas monetarias y el potencial humano de sus respectivos pases. El primer empleo de los datos estadsticos para fines ajenos a la poltica tuvo lugar en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemn que viva en Breslau. Este investigador se propuso destruir la antigua creencia popular de que en los aos terminados en siete mora ms gente que en los restantes, y para lograrlo hurg pacientemente en los archivos parroquiales de la ciudad. Despus de revisar miles de partidas de defuncin pudo demostrar que en tales aos no fallecan ms personas que en los dems. Los procedimientos de Neumann fueron conocidos por el astrnomo ingls Halley, descubridor del cometa que lleva su nombre, quien los aplic al estudio de la vida humana. Sus clculos sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compaas de seguros. Durante el siglo XVII y principios del XVIII, matemticos como Bernoulli, Francis Maseres, Lagrange y Laplace desarrollaron la teora de probabilidades. No obstante durante cierto tiempo, la teora de las probabilidades limit su aplicacin a los juegos de azar y hasta el siglo XVIII no comenz a aplicarse a los grandes problemas cientficos. Godofredo Achenwall, profesor de la Universidad de Gotinga, acu en 1760 la palabra estadstica, que extrajo del trmino italiano statista (estadista). Crea, y con sobrada razn, que los datos de la nueva ciencia seran el aliado ms eficaz del gobernante consciente. La raz remota de la palabra se halla, por otra parte, en el trmino latino status, que significa estado o situacin; Esta etimologa aumenta el valor intrnseco de la palabra, por cuanto la estadstica revela el sentido cuantitativo de las ms variadas situaciones. Jacques Qutelet es quien aplica las Estadsticas a las ciencias sociales. Este interpret la teora de la probabilidad para su uso en las ciencias sociales y resolver la aplicacin del principio de promedios y de la variabilidad a los fenmenos sociales. Qutelect fue el primero en realizar la aplicacin prctica de todo el mtodo Estadstico, entonces conocido, a las diversas ramas de la ciencia. Entretanto, en el perodo del 1800 al 1820 se desarrollaron dos conceptos matemticos fundamentales para la teora Estadstica; la teora de los errores de observacin, aportada por Laplace y Gauss; y la teora de los mnimos cuadrados desarrollada por Laplace, Gauss y Legendre. A finales del siglo XIX, Sir Francis Gaston ide el mtodo conocido por Correlacin, que tena por objeto medir la influencia relativa de los factores sobre las variables. De aqu parti el desarrollo del coeficiente de correlacin creado por Karl Pearson y otros cultivadores de la ciencia biomtrica como J. Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron amplios estudios sobre la medida de las relaciones.

90

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Los progresos ms recientes en el campo de la Estadstica se refieren al ulterior desarrollo del clculo de probabilidades, particularmente en la rama denominada indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido en la Fsica como resultado de las investigaciones atmicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las fsicas.

Etapas de Desarrollo de la Estadstica La historia de la estadstica est resumida en tres grandes etapas o fases. 1.- Primera Fase: Los Censos: Desde el momento en que se constituye una autoridad poltica, la idea de inventariar de una forma ms o menos regular la poblacin y las riquezas existentes en el territorio est ligada a la conciencia de soberana y a los primeros esfuerzos administrativos. 2.- Segunda Fase: De la Descripcin de los Conjuntos a la Aritmtica Poltica: Las ideas mercantilistas extraan una intensificacin de este tipo de investigacin. Colbert multiplica las encuestas sobre artculos manufacturados, el comercio y la poblacin: los intendentes del Reino envan a Pars sus memorias. Vauban, ms conocido por sus fortificaciones o su Dime Royale, que es la primera propuesta de un impuesto sobre los ingresos, se seala como el verdadero precursor de los sondeos. Ms tarde, Bufn se preocupa de esos problemas antes de dedicarse a la historia natural. La escuela inglesa proporciona un nuevo progreso al superar la fase puramente descriptiva. Sus tres principales representantes son Graunt, Petty y Halley. El penltimo es autor de la famosa Aritmtica Poltica. Chaptal, ministro del interior francs, publica en 1801 el primer censo general de poblacin, desarrolla los estudios industriales, de las producciones y los cambios, hacindose sistemticos durantes las dos terceras partes del siglo XIX. 3.- Tercera Fase: Estadstica y Clculo de Probabilidades: El clculo de probabilidades se incorpora rpidamente como un instrumento de anlisis extremadamente poderoso para el estudio de los fenmenos econmicos y sociales y en general para el estudio de fenmenos cuyas causas son demasiados complejas para conocerlos totalmente y hacer posible su anlisis. Conceptos bsicos Hemos visto ya cmo, superando una actividad al servicio gubernamental y enriquecindose con teoras como el clculo de probabilidades, la estadstica logr consolidarse para el siglo XIX como disciplina cientfica per se. Pese a ello, las posibilidades que esta ciencia ofrece para analizar y entender datos numricos han sido razn suficiente para que muchos otros campos sigan encontrando en ella una herramienta para alcanzar conclusiones y tomar decisiones. Variables

91

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Cuando el cuestionar un fenmeno deriva en un estudio, lo primero que debe hacerse es definir el problema concreto y sugerir una hiptesis. sta puede contemplar que uno o ms elementos conforman dicho fenmeno o interactan con l, motivo por el cual ha de investigrseles. Sin importar la temtica del estudio, debe considerarse como constantes a los factores que se descubre son inmutables y como variables a todas las caractersticas cambiantes, porque demuestran poseer valores diferentes, sean nmeros resultantes de una medicin o nmeros asignados a partir de un conteo u otra pauta. Pero es precisamente esta sutil diferencia lo que permite especificar y clasificar el gnero y tipo de las variables a investigar: Variables cualitativas Variables que dan informacin respecto a los atributos de una entidad; razn por la que sus valores son nicamente categoras que no pueden ser medidas, slo contadas para encontrar su frecuencia. Nominales: Variables en las que slo se nombra o designa con etiquetas a las observaciones, por lo cual sus valores no pueden ser comparados o jerarquizados de forma alguna. Ejemplos: Sexo, nacionalidad, idioma y color de piel. Ordinales: Variables cuyos valores son categoras, las cuales pueden ordenarse de acuerdo a la relacin que exista entre ellas (de menor a mayor grado, por ejemplo) o a otro criterio cuya escala no es necesariamente precisa y/o equitativa. Ejemplos: Escolaridad, estado de salud y nivel socioeconmico.

Variables cuantitativas Variables que aportan informacin respecto a cantidades; por tal motivo su valor puede ser medido y representado numricamente. Discretas: Variables que, al poseer un nmero finito de valores posibles, muestran interrupciones en su escala. Es por ello que los nmeros de las variables cuantitativas discretas son generalmente enteros. Ejemplos: Nmero de personas y objetos. Continuas: Variables en cuyo intervalo posible existe un nmero infinito de valores; debido a ello pueden mostrar valores decimales o fraccionarios. Empero, cabe remarcar que las variables cuantitativas continuas terminan por ser registradas como discretas debido a las formas e instrumentos de medicin. Ejemplos: Peso, estatura, edad, dimetros y permetros antropomtricos.

Datos, investigacin y estadstica Decididos los factores a investigar (constantes y variables), es necesario recopilar informacin y datos sobre ellos. Una primera opcin es echar mano de fuentes como:

92

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Registros: Cdulas, libros y dems formatos donde las instituciones registran su actividad cotidiana. Literatura: Informes, artculos y publicaciones en los que puede indagarse la respuesta dada a una pregunta para ver si es aplicable a la problemtica actual. Empero, cuando la informacin requerida no se halla disponible, no ha sido almacenada o no existe, uno deben generar sus propios datos mediante diversos procedimientos; entre ellos: Encuesta: Metodologa para recolectar informacin a travs de elementos como cuestionarios y entrevistas. Experimentacin: Proceso en que un fenmeno es recreado de manera controlada a fin de registrar sus resultados. La observacin de estos materiales o procesos tiene por resultado el registro de informacin que, al ser contada o medida, puede representarse con nmeros y conformar un grupo de datos. La simple necesidad de manejarlos sugiere entonces el uso de la estadstica descriptiva; es decir, el conjunto de tcnicas que esta disciplina posee para recolectar, organizar, resumir y analizar la informacin contenida en datos. Ahora bien, por cuestiones de tiempo, recursos o costo, las investigaciones pocas veces recaban informacin sobre la poblacin; esto es, el conjunto total de entidades de inters para su estudio, sean individuos, objetos o lugares. Los datos se obtienen entonces de muestras: subconjuntos o fracciones de la poblacin. Por ende, si el objetivo de la investigacin es, ms all de analizar un caso, estudiar un fenmeno, es la estadstica inferencial quien, basada en la teora de probabilidades (bajo el principio de que pese al azar es posible determinar un orden y regularidad en los procesos), permite hacer afirmaciones sobre la poblacin a partir de lo observado en una muestra. Cabe mencionar, sin embargo, que aun mantenindose en el nivel de la estadstica descriptiva, el objetivo de dicha metodologa es investigar y evaluar la naturaleza y el significado de los datos, razn por la cual, adems de dominar las tcnicas, cualquier usuario de la estadstica debe estar preparado para interpretar los nmeros y comunicar sus resultados. ORGANIZACIN Y ANLISIS DE VARIABLES A menos que sean muy pocos, los datos recolectados (crudos) no permiten determinar la informacin contenida en ellos. Para lograr su anlisis la estadstica ha propuesto una serie de tcnicas que, dependiendo del tipo de variable, echan mano de herramientas como tablas, grficas y ciertas medidas. A fin de revisar su aplicacin, en este captulo realizaremos algunos ejercicios con las observaciones recolectadas a travs de la cdula Autopercepcin, sexualidad y antropometra. Dicha encuesta fue aplicada a los alumnos del turno matutino y vespertino que asistieron a la materia de Estadstica (en la licenciatura de Antropologa fsica de la Escuela Nacional de Antropologa e Historia) en el periodo 2008-1. Para futuras referencias, la cdula y base de datos generada se anexan como apndices. Heramientas para el anlisis de variables cualitativas

93

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Tablas de frecuencias Son tablas en las que seala: primero, cuntas veces aparece cada etiqueta de la variable a lo largo de toda la muestra; es decir, su frecuencia (simple). Despus, cul es su densidad; esto es, su frecuencia relativa: valor que puede calcularse dividiendo el nmero de casos observados entre el tamao de la muestra (n ) y que, multiplicado por cien, indica el porcentaje de la etiqueta respecto al total: VARIABLE Etiqueta 1 Etiqueta 2 Etiqueta 3 () Etiqueta n TOTAL FRECUENCIA # de casos # de casos # de casos # de casos Tamao de muestra (n ) FRECUENCIA RELATIVA PORCENTAJE

casos n casos n casos n casos n

(casos n ) 100 (casos n ) 100 (casos n ) 100 (casos n ) 100


100.00

1.0000

En el caso de variables cualitativas ordinales tambin es posible obtener dos tipos de frecuencias ms: la frecuencia acumulada (que consiste en la suma de las frecuencias simples) y la frecuencia relativa acumulada (donde la frecuencia acumulada se divide entre el tamao de la muestra), siendo la ltima sumamente til cuando se desea encontrar la frecuencia total de los precedentes de una categora con el objetivo de reconocer el porcentaje de casos que se encuentran por debajo de su nivel: FRECUENCIA RELATIVA FRECUENCIA ACUMULADA FRECUENCIA RELATIVA ACUMULADA

VARIABLE FRECUENCIA Categora 1 Categora 2 Categora 3 () Categora Casos (c1 ) Casos (c2 ) Casos (c3 ) () Casos (c n ) Tamao de muestra (n )

(c1 n) (c2 n)
(c3 n )
()

[(c1 )] [(c1 ) + (c2 )]


[(c1 ) + (c2 ) + (c3 )]
() Tamao de muestra (n )

[(c1 ) n]
(c1 ) + (c 2 ) n (c1 ) + (c 2 ) + (c3 ) n
()

n
TOTAL

(cn n )
1.00

1.00

Grficas de frecuencias

94

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Otra forma de resumir y a la vez representar los datos de una variable cualitativa es a travs de grficos. Por tratarse de caractersticas cuyos valores son categoras con determinada frecuencia relativa se sugiere entonces el uso de grficas de barras o de grficas circulares: a) Grficas de barras: Las grficas de barras se caracterizan por construirse en base a dos ejes: en el horizontal (abscisas, X) se distinguen las categoras de la variable y a partir de l se construyen los rectngulos con la altura (frecuencia) que sta present, de acuerdo a la escala que se indica en el eje vertical (ordenadas, Y). Cabe remarcar ahora, dos cosas sobre este tipo de grficas: Las barras pueden estar separadas debido a que no hay continuidad entre las categoras. Se sugiere que las frecuencias utilizadas en la construccin del grfico sean las relativas, ya que estas permiten observar y comparar las proporciones o porcentajes que presentaron las categoras.
DISTRIBUCIN DE LA VARIABLE RIESGO DE PADECER ENF. CARDIOVASCULAR
Alumnos de estadstica 2008-1 (n=66)
80 76 60

Porcentaje

40

20 17 0 Bajo Elevado 8 Muy elevado

Riesgo de padecer enfermedad cardiovascular

b) Grficas circulares: Por su parte, las grficas circulares son ms difciles de trazar manualmente, pues debe dividirse un crculo (100% = 360) de acuerdo al

porcentaje que cada categora mostr (K % = X ) y para ello, ms que una regla de tres, se requiere de un comps y un transportador. Pese a todo, las grficas circulares permiten comparar de manera mucho ms clara los porcentajes de las categoras.
DISTRIBUCIN DE LA VARIABLE RIESGO DE PADECER ENFERMEDAD CARDIOVASCULAR
Alumnos de estadstica 2008-1 (n=66)
Muy elevado

Elevado 16.7%

Por ltimo es necesario mencionar que, no importando cul sea el tipo de grfica, siempre debe aadirse al grfico un ttulo que d claridad a lo representado y hacer explcito el tamao de la muestra (n ) .

75.8%

Bajo

95

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Tablas de contingencia Cuando lo que se desea es descubrir si entre dos variables cualitativas existe asociacin (y, dado el caso, su intensidad) se echa mano de las tablas de contingencia: tablas de dos entradas donde se colocan los datos cruzados de las variables; es decir, especificando en las celdas el nmero de casos que cumplen con ambas categoras:
VARIABLE DEPENDIENTE Categora Categora () B C

Categora A VARIABLE INDEPENDIENTE Categora 1 Categora 2 Categora 3 () Categora

Categora

TOTAL

casos(1A) casos(2 A)

casos(1B ) casos(2 B )

casos(1C ) casos(2C )

() () () () ()

X casos(1X )

casos(1) casos(2)

casos(2 X )

casos(3 A)
()

casos(3B )
()

casos(3C )
()

casos(3 X )
()

casos(3)
()

n
TOTAL

casos(nA) casos( A)

casos(nB ) casos(B )

casos(nC ) casos(C )

casos(nX ) casos( X )

casos(n )
Tamao de la muestra

()

Sin embargo, interpretar un fenmeno a partir de los datos de las celdas es un error, pues el valor que stas presentan depende directamente de los casos observados en cada categora. Por ende, en vista de hacer conclusiones correctas es necesario obtener porcentajes (segn se requiera) a partir de una de las siguientes formas: Del total: Para obtener estos porcentaje se divide el valor de la celda entre el tamao total de la muestra (celda n ) . No obstante, al igual que los valores reales, dichos porcentajes no proporcionan mucha informacin ya que se ven afectados por el nmero de casos presente en cada categora. Por columnas: Porcentajes que se obtienen dividiendo el valor de la celda entre el total de cada columna [celda (n )columna], permitiendo comparar, para cada categora de la variable independiente, las categoras de la variable dependiente. Por renglones: Porcentajes que se obtienen dividiendo el valor de la celda entre el total de cada regln [celda (n )regln] , lo cual permite, por ende, comparar cada categora de la variable dependiente entre las categoras de la independiente.

Aunque pudiera parecer indistinto el uso de porcentajes por columna o por rengln, ste ltimo resulta ms fcil de interpretar y, debido a la estructura de la tabla, permite analizar de manera ms adecuada si alguna caracterstica posee relacin con una variable independiente.

96

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Grficas de anlisis bivariado Hemos visto ya que las tablas de contingencia permiten descubrir la asociacin entre dos variables cualitativas. No obstante, el nmero de datos y porcentajes obtenidos a partir de ellas pueden confundir a cualquier lector; veamos entonces qu alternativas grficas tenemos para representar sus resultados: a) Grficas de barras: Una opcin es, de nuevo, el uso de grficas de barras. No obstante, el representar dos variables genera un cambio en su construccin: la variable dependiente se estipula en el eje de las abscisas y, en vez de construir una barra para cada una de sus categoras, deben construirse tantas barras como clases tiene la variable independiente.
DISTRIBUCIN DE LA VAR. RIESGO DE PADECER ENFERMEDAD CARDIOVASCULAR POR SEXO
Alumnos de estadstica 2008-1 (n=66)
100
88

80

Porcentaje

60

68

40

Sexo
22 8 10

20 0 Bajo

Femenino Masculino

Elevado

Muy elevado

Riesgo de padecer enfermedad cardiovascular

b) Grficas de lneas: Al igual que en la grfica de barras, la variable dependiente se ubica en el eje de las abscisas y la frecuencia en el de las ordenadas. Pero en vez de tener que construir tantas barras, basta con separar las categoras de la variable independiente, ubicar con un punto los porcentajes que cada una mostr respecto a las categoras de la variable dependiente y unir estas marcas mediante una lnea. Esto permite no slo simplificar el copioso nmero de barras a tantas lneas como categoras tiene la variable independiente, sino adems observar de manera ms clara cualquier tendencia en la asociacin.

97

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

TENDENCIA DE LA VAR. RIESGO DE PADECER ENFERMEDAD CARDIOVASCULAR POR SEXO


Alumnos de estadstica 2008-1 (n=66)
100

80

Porcentaje

60

40

Sexo
Femenino Masculino Elevado Muy elevado

20 0 Bajo

Riesgo de padecer enfermedad cardiovascular

Heramientas para el anlisis de variables cuantitativas Arreglo ordenado El primer paso para organizar y analizar las variables cuantitativas es, sin duda alguna, ordenar los datos de manera creciente, pues la lista resultante nos permitir encontrar los valores extremos que la variable analizada mostr.

Intervalos de clase Sean discretas o continuas, las variables cuantitativas poseen un sinfn de valores posibles, cuya frecuencia en un conjunto de datos suele ser muy baja. Dado que su organizacin en una tabla de frecuencias no permite sacar conclusiones, la estadstica ha encontrado que la mejor forma de analizarlos es agrupar sus valores en clases (tambin conocidas como intervalos) a travs de los siguientes pasos: 1) Establecer el rango (R ) : El rango es la diferencia entre el valor ms pequeo y el ms grande observados en un conjunto de datos, razn por la cual ste puede calcularse haciendo una simple resta: Rango = Valor mayor valor menor, que de ahora en adelante simplificaremos como:

R = Vmax Vmin
Aunque dicha expresin aplica para la mayora de los casos, si en la muestra se observan datos atpicos es mejor excluirlos del clculo y dejar abiertos los intervalos. 2) Estipular el nmero de intervalos de clase (ni ) : Se entiende por intervalo de clase al subconjunto del rango que contiene varios valores; es decir, los grupos en que se categorizan los valores de la variable. Si bien existen muchas reglas para definir su nmero, en este manual se sugiere que no sean ms de cinco si los datos son menos de doscientos (n < 200) .

98

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

3) Calcular el ancho del intervalo (W ) 1: El ancho del intervalo es la diferencia entre el lmite inferior de un intervalo y el lmite inferior del intervalo siguiente; por otro lado, su valor es el cociente del rango entre el nmero de intervalos:

W =R

ni

4) Definir los intervalos: Calculado lo anterior, resta hacer explcitos los intervalos:

4.1) Defnanse primero los lmites inferiores de cada intervalo: El primero es el valor ms pequeo observado entre los datos, el segundo ese valor ms el ancho del intervalo, el tercero ese valor ms dos anchos de intervalo y as consecutivamente:

INTERVALO DE CLASE (ni )

LMITE INFERIOR

n1 n2 n3 n4 n5

Vmin (Vmin + W ) (Vmin + 2W ) (Vmin + 3W ) (Vmin + 4W )

4.2) Defnanse despus los lmites superiores de cada intervalo: El lmite superior de cada intervalo debe ser justo menor al lmite inferior del siguiente intervalo con el fin de evitar que un dato pueda considerarse en dos clases. Una opcin para lograr esto es hacer que el ltimo decimal del lmite superior sea una cifra menor al ltimo decimal del lmite inferior del siguiente intervalo. No obstante, la mejor alternativa es utilizar corchetes y parntesis: smbolos matemticos que, en un intervalo, sealan cuando un valor debe o no tocarse, respectivamente: INTERVALO DE CLASE (ni )

LMITE INFERIOR

n1 n2 n3 n4 n5
Tablas de frecuencias

[(Vmin + W ) [(Vmin + 2W ) [(Vmin + 3W ) [(Vmin + 4W )

[Vmin

LMITE SUPERIOR

(Vmin + W )) (Vmin + 2W )) (Vmin + 3W )) (Vmin + 4W )) Vmax ]

Igual que las tablas de frecuencias de las variables cualitativas de tipo ordinal, las tablas de frecuencias para las variables cuantitativas estn conformadas por cinco columnas: la primera hace referencia al intervalo y las otras cuatro a las frecuencias de ste: VARIABLE FRECUENCIA FRECUENCIA RELATIVA FRECUENCIA ACUMULADA FRECUENCIA RELATIVA

Letra asignada por la palabra ancho en ingls (wide).

99

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Intervalo 1 Intervalo 2 Intervalo 3 () Intervalo

Casos (n1 ) Casos (n2 ) Casos (n3 ) () Casos (nn ) Tamao de muestra (n )

(n1 n ) (n2 n)
(n3 n )
()

[(n1 )] [(n1 ) + (n2 )]


[(n1 ) + (n2 ) + (n3 )]
() Tamao de muestra (n )

ACUMULADA

n (n1 ) + (n 2 ) + (n3 ) n
()

[(n1 ) n] (n1 ) + (n 2 )

n
TOTAL

(nn n )
1.00

1.00

Histogramas Histograma es el nombre que se da a las grficas de barras que se utilizan para representar grficamente las variables cuantitativas. Aunque programas como el SPPS generan dichos grficos considerando en el eje de las ordenadas a las frecuencias simples, nosotros optaremos por realizar histogramas de frecuencias relativas con el fin de analizar mejor las variables respecto a la muestra. De cualquier forma, las barras de este tipo de grficas son adyacentes ya que, con saltos en su escala o no, las variables cuantitativas poseen valores con un orden continuo.

DISTRIBUCIN DE LA VAR. EDAD EXACTA SEXO MASCULINO


Alumnos de estadstica 2008-1 (n=25)
30 28

Porcentaje

20

20

20 16 16

10

0
24 9.3 22 8 .3 22 6.3 20 20 3.3 18 5 .3 4 .4 26 2.4 24 5+ .4 26

Edad exacta

1 .4

Polgonos de frecuencia Los polgonos de frecuencia son grficas de tipo lineal que tambin permiten reconocer la distribucin de frecuencia de una variable cuantitativa. Su construccin requiere ubicar la interseccin entre la frecuencia relativa de cada intervalo y las MARCAS DE CLASE; es decir, los valores situados exactamente a la mitad de cada intervalo. Una vez que se

100

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

marcan dichas intersecciones, stas se unen mediante una lnea que se extiende hasta tocar el eje de las abscisas en ambos extremos para delimitar un polgono. El rea de ste es igual al rea que ocupan las barras de un histograma, razn por la cual un polgono de frecuencia se interpreta igual que aqul, pero su ventaja es que, al ocupar menos espacio, permite comparar diferentes grupos respecto a una variable.
DISTRIBUCIN DE HOMBRES POR EDAD EXACTA Alumnos de estadstica 2008-1 (n=25)

30.00% 25.00% 20.00% 15.00% 10.00% 5.00% 0.00% 18.33 20.35 20.36 22.38 22.39 24.41 24.42 - 26.45 + 26.44

Porcentaje

Edad exacta

Ojivas Finalmente tenemos a las ojivas, grficos lineales que muestran de manera ms clara la tendencia de una variable y nos permiten inspeccionar visualmente el porcentaje de casos menores o mayores a uno de sus valores (no necesariamente presente en los datos). Debido a esto, las ojivas contemplan en el eje de las ordenadas la frecuencia relativa acumulada (o porcentaje acumulado) y los lmites de los intervalos en el eje de las abscisas: a) Ojivas menos de: Son las que permitan ubicar el porcentaje de casos menores a un valor, por tal motivo, su trazo e interpretacin implica la siguiente metodologa: 1) Reconocer los lmites de los intervalos: De manera ms especfica. distinguir el valor del lmite inferior de cada intervalo (L inf i ) . 2) Observar las frecuencias de los intervalos: Advertir la frecuencia acumulada y relativa acumulada antes de cada intervalo (ni ) . INTERVALOS FRECUENCIA FREC. RELATIVA FREC, ACUMULADA FREC. REL. ACUMULADA

n1 = (L inf1 , L sup1 ) n2 = (L inf 2 , L sup 2 ) n3 = (L inf 3 , L sup 3 )


n n = (L inf n , L sup n )
TOTAL ()

n n
1.0000

1.0000

101

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

3) Construir una tabla con los datos para la ojiva: En esta tabla debe sealarse las frecuencias anteriores, cada una con la etiqueta correspondiente Menos de L inf i . Ntese que las frecuencias acumuladas van en aumento y que: VARIABLE Menos de FREC. ACUMULADA FREC. REL. ACUMULADA

L inf1
Menos de

L inf 2
Menos de

L inf 3
() Menos de

+
()

+
()

L inf n
Menos de

+
n

+
1.0000

Si el primer intervalo era abierto, debe considerarse una categora para las frecuencias acumuladas hasta su lmite inferior (lo cual normalmente deviene en 0 y 0%) Si el primer intervalo era cerrado, puede iniciarse las categoras registrando las frecuencias acumuladas hasta el segundo intervalo.

> L inf n

Si el ltimo intervalo fue cerrado, basta registrar las frecuencias acumuladas hasta el penltimo intervalo. Si el ltimo intervalo era abierto, debe considerarse adems una categora de las frecuencias acumuladas para el resto de sus valores (que deben corresponder al tamao de la muestra y al 100% del total).

4) Trazar la ojiva:
OJIVA MENOS DE EDAD (n=95,429,611)
120 100

Calculado esto se traza una grfica de dos ejes: en el de las abscisas se indican los lmites inferiores de los intervalos y en el de las ordenadas se elabora la escala para la frecuencia relativa acumulada. Hecho esto, se seala con un punto la frecuencia de cada categora Menos de L inf i y se les une mediante una lnea, que siempre es creciente:

Porcentaje acumulado

80

60

40

20 0 10 20 30 40 50 60 70 Ms

Edad

5) Ubicar el porcentaje menor a un valor: Finalmente, para calcular el porcentaje de casos menores a un valor se eleva una lnea vertical desde la posicin de ste (en el eje de las abscisas) hasta la ojiva, y de ah se tiende una lnea perpendicular hasta el eje de las ordenadas. Dicha lnea horizontal cruzar el eje vertical, de manera aproximada, a la altura del porcentaje buscado:

102

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

b) Ojivas ms de: Ojivas que hacen posible ubicar el porcentaje de casos mayores a un valor al indicar en el eje de las abscisas los lmites superiores de los intervalos. Su construccin, por ende, implica seguir una metodologa diferente a la que vimos anteriormente: 1) Reconocer los lmites de los intervalos: De manera ms especfica. distinguir el valor del lmite superior de cada intervalo (L sup i ) . 2) Observar las frecuencias de los intervalos: Observar la frecuencia simple de cada intervalo (ni ) . INTERVALOS FRECUENCIA FREC. RELATIVA FREC, ACUMULADA FREC. REL. ACUMULADA

n1 = (L inf1 , L sup1 ) n2 = (L inf 2 , L sup 2 ) n3 = (L inf 3 , L sup 3 )


n n = (L inf n , L sup n )
TOTAL ()

n n
1.0000

1.0000

3) Construir una tabla con los datos para la ojiva: En esta tabla cada categora Ms de L sup i implica ir restando la frecuencia simple del intervalo previo. VARIABLE Ms de FREC. ACUMULADA FREC. REL. ACUMULADA

Vmin
Ms de

+
+
+

+
+
+
103

L sup1
Ms de

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

L sup 2
() Ms de () ()

Vase que:

La primer categora es Ms que Vmin , ya que el valor ms Fn Frel n L sup n pequeo que se haya observado deja a todos los casos (100.00%) por encima de l. Su frecuencia acumulada es, por ende, igual al tamao de la muestra (n ) .

del intervalo 1 (n1 ) . Para calcular la frecuencia acumulada de la categora Ms de

Para obtener las frecuencias de los siguientes renglones basta ir restando, a la frecuencia acumulada de la categora anterior, la frecuencia simple del intervalo cuyo lmite superior se us. Por ejemplo, para obtener la frecuencia acumulada de la categora Ms de L sup1 restamos al tamao de la muestra la frecuencia simple

L sup 2 restamos a la frecuencia acumulada de Ms de L sup1 la frecuencia simple del intervalo 2 (n2 ) . Y as consecutivamente, hasta que la frecuencia
acumulada y frecuencia acumulada relativa de la ltima categora coinciden con la frecuencia simple y la frecuencia relativa del ltimo intervalo ( Fn y Frel n ). En cuanto a las frecuencias relativas acumuladas no hay problema alguno, pues como siempre se calculan dividiendo el valor de la frecuencia acumulada entre el total de observaciones.
OJIVA MS DE EDAD (n=95,429,611)
Porcentaje acumulado 120% 100% 80% 60% 40% 20% 0% Ms de Ms de Ms de Ms de Ms de Ms de Ms de Ms de 0 9 19 29 39 49 59 69 Edad

4) Trazar la ojiva: Este paso es igual al de las ojivas menos de con excepcin que en el eje de las abscisas se indican los lmites superiores de intervalos y que lnea resultante (por su interseccin con la frecuencia acumulada) es siempre decreciente:

de los

5) Ubicar el porcentaje mayor a un valor: Para encontrar dicho porcentaje debe tambin elevarse una lnea vertical a partir del valor y trazarse la perpendicular hasta el eje de las ordenadas.

Ejemplos de aplicacin

104

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

1. En 2001 el Instituto Nacional de Estadstica, Geografa e Informtica (INEGI) y diversos investigadores de las Universidades de Pennsylvania, Maryland, y Wisconsin de los Estados Unidos de Norteamrica aplicaron la primera encuesta del Estudio Nacional sobre Salud y Envejecimiento en Mxico (ENASEM-2001), investigacin con que se busca crear una base inicial de datos de la que se pueda obtener informacin sobre caractersticas diversas de la poblacin de 50 aos y ms residente en Mxico, cuyos resultados sean representativos a nivel nacional2. Entre las caractersticas a investigar se hallaba el sexo y alfabetismo del individuo; variables que entre la muestra de indgenas (n = 796) tuvieron los siguientes resultados: VARIABLE Masculino Femenino Alfabeta ALFABETISMO No alfabeta3 SEXO 405 391 487 309

a.1 y a.2) Construir una tabla de frecuencia y grfica circular para cada variable. b) Si 289 de los hombres eran alfabetos y de las mujeres 198 tambin, comprobar si existe una asociacin entre ambas variables mediante una tabla de contingencia y una grfica de barras. Para resolver el primer inciso ordenamos los datos de cada variable y obtenemos entonces sus frecuencias relativas y los porcentajes que stas implican. SEXO Masculino Femenino TOTAL ALFABETISMO Alfabeta No alfabeta TOTAL FRECUENCIA 405 391 796 FRECUENCIA 487 309 796 FRECUENCIA RELATIVA PORCENTAJE 50.88 49.12 100.00 PORCENTAJE 61.18 38.82 100.00

405 796 = 0.5088 391 796 = 0.4912


1.0000 FRECUENCIA RELATIVA

487 796 = 0.6118 309 796 = 0.3882


1.0000

a.1) De acuerdo a las frecuencias obtenidas podemos afirmar que, en la muestra de indgenas de 50 aos o ms, se encuestaron y entrevistaron a ms mujeres que a hombres. Por otro lado, el porcentaje de personas que saban leer y escribir un recado (alfabetos) era 1.6 veces mayor [(61.18 38.82) = 1.6] .

s/a, 2004. Estudio Nacional de Salud y Envejecimiento en Mxico (ENASEM) 2001. Documento metodolgico y reporte de proyecto. Formato electrnico: http://www.mhas.pop.upenn.edu/english/documents/Methodological/Doc_metodologico-v2.pdf 3 Segn la afirmacin de que no saban leer ni escribir un recado.

105

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Ahora bien, generamos las grficas circulares para dichas variables: FUENTE: Estudio Nacional sobre Salud y Envejecimiento en Mxico (ENASEM), 2001
DISTRIBUCIN POR SEXO
Indgenas de 50 aos o ms (n=796)

DISTRIBUCIN DEL ALFABETISMO


Indgenas de 50 aos o ms (n=796)

No alfabeta Femenino 49.1% Masculino 50.9% 38.8% Alfabeta 61.2%

a.2) Si bien el porcentaje femenino era mayor, ms que las frecuencias, la grfica nos permite ver que no hubo una gran diferencia en la cantidad de mujeres y hombres encuestados. Por el contrario, aunque aqu la diferencia en el alfabetismo no es tan fuerte como en la comparacin numrica, la grfica comprueba un mayor porcentaje de alfabetas. Ahora, para analizar si existe una asociacin entre las variables, construimos la tabla de contingencia: ALFABETISMO Alfabeta No alfabeta 289 198 487 309 TOTAL 405 391 796

SEXO

Masculino Femenino TOTAL

Como no se hicieron explcitas las frecuencias de los casos que no saban leer ni escribir un recado, basta realizar un par de restas al nmero total de casos de cada sexo para obtenerlos: 405 289 = 116 y 391 198 = 193 ; valores que suman el total de casos no alfabetas: 116 + 193 = 309 Una vez calculado esto, terminemos de elaborar la tabla y saquemos los porcentajes por rengln: ALFABETISMO ALFABETISMO Alfabeta No alfabeta 289 116 Masculino 28.64% 71.36% SEXO 198 193 Femenino 50.64% 49.36% 487 309 TOTAL TOTAL 61.18% 38.82% TOTAL 405 100% 391 100% 796 100%

106

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

El porcentaje de alfabetismo es mayor en el sexo masculino, mientras que el porcentaje de analfabetismo es mayor en el femenino. Tal distribucin puede deberse a una cuestin genrica; es decir, cultural, pues al menos en dcadas atrs se daba prioridad a que los hombres fueran a la escuela para prepararse, mientras que las mujeres se quedaban en casa a fin de ayudar con las labores domsticas.

Finalmente realicemos la grfica de barras correspondiente:


DISTRIBUCIN DEL ALFABETISMO POR SEXO
Indgenas de 50 aos o ms (n=796)
80 71 60

Porcentaje

51 40

49

20

29

Sexo
Masculino

FUENTE: Estudio Nacional sobre Salud y Envejecimiento en Mxico (ENASEM), 2001.

0 Alfabeta No alfabeta

Femenino

Alfabetismo

Las barras muestran las diferencias entre el alfabetismo femenino y masculino. Incluso cuando la causa sea diferente a la planteada anteriormente, este grfico confirma tambin una asociacin entre las variables.

2. Otra de las cuestiones a estudiar en el ENASEM-2001 fue la salud del individuo y su autopercepcin de sta; por tanto, una de las variables consideradas fue si el encuestado tena o no dificultades para caminar de un lado a otro de su cuarto. He aqu los resultados de hombres y mujeres por grupo quinquenal: HOMBRES Con Sin dificultad dificultad 17 1598 26 1459 33 1116 46 998 72 638 54 476 129 370 MUJERES Con Sin dificultad dificultad 44 1927 46 1686 49 1326 46 981 60 641 61 441 202 422

GRUPO QUINQUENAL 50-54 55-59 60-64 65-69 70-74 75-79 80+

a) Determinar mediante una grfica de lneas si existe alguna asociacin entre estas variables.

107

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Como el inters reside en averiguar si existe asociacin entre la edad y la dificultad para caminar (presencia de una caracterstica), slo graficaremos los porcentajes correspondientes a sta separando los datos por sexo.
DIFICULTAD PARA CAMINAR POR GPO. QUINQUENAL Y SEXO
Indgenas de 50 aos o ms (n=796)
50

40

Porcentaje

30

20

Sexo
Masculino Femenino 55-59 60-64 65-69 70-74 75-79 80+

FUENTE: Estudio Nacional sobre Salud y Envejecimiento en Mxico (ENASEM), 2001.

10 0 50-54

Grupo quinquenal

a) La grfica de lneas nos muestra que efectivamente existe una asociacin directa entre el grupo quinquenal y los problemas para caminar; pues a mayor edad los sujetos aseguraron tener ms dificultad en hacerlo. En cuanto a la comparacin por sexo, ms mujeres afirmaron padecer este problema a edades menores y mayores que los hombres.

3. De acuerdo a los Programas Integrados de Salud (PREVENIMSS) del Instituto Mexicano del Seguro Social (IMSS), hay dos tipos de distribucin de grasa en el organismo que se asocian a la aparicin de enfermedades: 1. Ginecoide (en forma de pera): Acumulacin de grasa en muslos y cadera que deriva usualmente en vrices y dolor de rodillas. 2. Androide (en forma de manzana): Distribucin de grasa al nivel de la cintura que predispone al desarrollo de diabetes, cncer de colon, mama o endometrio; elevacin del colesterol y triglicridos (grasas en sangre), infartos, embolias y muerte prematura por enfermedad cardiovascular4. Ante dicha circunstancia, el IMSS sugiere que las personas estn al pendiente de sus medidas; especialmente de la circunferencia de su cintura, y la interpreten de acuerdo a la siguiente tabla a fin de tomar acciones preventivas en caso necesario: CIRCUNFERENCIA DE CINTURA (cm.) MUJERES HOMBRES Menor de 80.0 Menor de 94.0
4

INTERPRETACIN Normal Sin riesgo

IMSS, 2005. Prevencin, deteccin y control de sobrepeso y obesidad en Gua de la salud de la mujer, 36-42 p.p. Documento electrnico: http://www.imss.gob.mx/NR/rdonlyres/E36D4BB0-C252-4B7C-A44E6DE664C76609/0/GCSmuj3150.pdf

108

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

De 80.0 a 87.9 Igual o mayor a 88.0

De 94.0 a 101.9 Igual o mayor a 102.0

Riesgo elevado para la salud Riesgo muy elevado para la salud

Basndose en esta informacin: a) Construir una tabla de frecuencias, histograma y ojiva con los datos de Permetro de la cintura recolectados entre los estudiantes de estadstica (por sexo) para reconocer la distribucin de esta variable y analizar si existen casos con riesgo. Para empezar, ordenemos los datos y definamos los cinco intervalos sin considerar ningn caso como atpico: MUJERES - PERMETRO DE CINTURA
556 599 599 605 606 640 643 645 649 653 654 655 655 659 660 664 686 691 703 703 712 719 735 736 738 745 750 750 754 765 770 784 786 820 831 837 850 859 881 906 946

R = 946 556 = 390.00

W = 390 = 78 5

HOMBRES - PERMETRO DE CINTURA


697 700 702 712 719 720 729 730 737 746 750 772 782 795 809 809 842 858 859 861 918 932 950 990 1080

R = 1080 697 = 383.00

W = 383 = 76.60 5

Si bien pareciera existir un rango mayor en las medidas del permetro de cintura femenino, esto se debe a las unidades. Si convertimos dichos valores a la escala ms comn (centmetros) el rango del permetro de cintura masculino fue slo 0.7 centmetros menor que el femenino. Especifiquemos ahora los intervalos para hacer las tablas de frecuencia y los histogramas correspondientes: PER. CINTURA MUJERES 556-633 634-711 712-789 790-867 868-946 TOTAL FRECUENCIA 5 15 13 5 3 41 FREC. RELATIVA 0.1220 0.3659 0.3171 0.1220 0.0732 1.00 FREC. ACUMULADA 5 20 33 38 41 FREC.REL. ACUMULADA 0.1220 0.4878 0.8049 0.9268 1.00

109

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

DISTRIBUCIN DE LA VAR. PERMETRO DE CINTURA, SEXO FEMENINO


Alumnas de estadstica 2008-1 (n=41)
40 37 30 32

20

10

12

12 7

0 556-633 634-711 712-789 790-867 868-946

Gracias a las tablas de frecuencia y el histograma podemos ubicar que, para el sexo femenino, el mayor nmero de alumnas se encontraba en los intervalos 2 y 3 (634-711 y 712-789), medidas que de acuerdo a la tabla del IMSS no corren riesgo; de hecho, el 80.49% de las mujeres tena una permetro de cintura menos a 79.0 centmetros. No obstante, se registr un 12.20% de las alumnas con circunferencia de 79 a 86.7 centmetros y un 7.32% con permetro entre 86.8 y 94.6 centmetros. Ya veremos en las ojivas si los casos de estos intervalos caen en las categoras de riesgo.

Porcentaje

Permetro de cintura

PER. CINTURA HOMBRES 697-773.5 773.6-850.1 850.2-926.7 926.8-1003.3 1003.4-1080 TOTAL

FRECUENCIA 12 5 4 3 1 25

FREC. RELATIVA 0.4800 0.2000 0.1600 0.1200 0.0400 1.00

FREC. ACUMULADA 12 17 21 24 25

FREC.REL. ACUMULADA 0.4800 0.6800 0.8400 0.9600 1.00

DISTRIBUCIN DE LA VAR. PERMETRO DE CINTURA, SEXO MASCULINO


Alumnos de estadstica 2008-1 (n=25)
60 50
48

Porcentaje

40 30 20
20

10 0 697-773.5 773.6-850.1

16 12

En cuanto al sexo masculino, el mayor porcentaje (48.00%) se registr en el intervalo ms pequeo (697-773.5) y ms de la mitad de los hombres (68.00%) tuvo un permetro de cintura menor a los 85 centmetros. Pese a esto, un 12.00% entr en el intervalo 926.81003.3 y un 4.00% en el intervalo ms grande (10003.4-1080), as que antes de consultar directamente los datos usaremos la ojiva para ver si sus valores caen o no en las categoras de riesgo.

850.2-926.7

926.8-1003.3

1003.4-1080

Construyamos entonces las tablas necesarias para trazar las ojivas. Ntese que, como los intervalos fueron cerrados, podemos utilizar el lmite superior de los ltimas clase con el objetivo de delimitar cuando el porcentaje llega a cero:
Permetro de cintura

PER. DE CINTURA - MUJERES FREC. FREC. EDAD REL. ACUM. ACUM.


Ms de 556 41 100.00%

110

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Ms de 633 Ms de 711 Ms de 789 Ms de 867 Ms de 946

36 21 8 3 0

87.80% 51.22% 19.51% 7.32% 0.00%

Esta tabla seala que un 7.32% de los casos posea un permetro de cintura mayor a 867 milmetros; medida que, al superar los 80.0 centmetros, indica que tales alumnas corran algn tipo de riesgo (todava indiferenciado).

Ahora bien, la ojiva sugiere que menos de un 20% (lnea azul claro) tena una circunferencia mayor a 80.0 centmetros y que el permetro de aproximadamente un 10% era mayor a 88 centmetros . Si corroboramos dicha afirmacin con los datos tenemos que 8 casos (19.51%) cumplan con la primer afirmacin y 3 observaciones (7.32%) con la segunda.

PERMETRO DE CINTURA HOMBRES FREC. FREC. EDAD REL. ACUM. ACUM.


Ms de 697 Ms de 773.5 Ms de 850.1 Ms de 926.7 Ms de 1003.3 Ms de 1080 25 13 8 4 1 0 100.00% 52.00% 32.00% 16.00% 4.00% 0.00%

Para ir por

orden de riesgo primero observemos el grfico: la ojiva seala que aproximadamente un 15.0% de los hombres corra un riesgo elevado ya que tena una circunferencia mayor a 94 centmetros; estimacin no muy alejada al porcentaje real: 12.0% (3 casos). Por otro lado, si bien la tabla manifiesta que el caso del ltimo intervalo tenan un permetro mayor a 1003.3, la ojiva confirma que su valor (1080) caa en la zona de riesgo elevado.

111

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

De acuerdo al IMSS, a los siete casos con riesgo elevado (cinco mujeres y 2 hombres) se les debi sugerir disminuir los alimentos ricos en grasa, colesterol y azcares refinados, adems de realizar ejercicio aerbico por lo menos sesenta minutos. En tanto que los cuatro casos con riesgo muy elevado (tres mujeres y un hombre) deban urgentemente disminuir su peso corporal, cambiar los malos hbitos de alimentacin y realizar tambin sesenta minutos de ejercicio aerbico como mnimo.

Medidas para la estadstica descriptiva


Como anteriormente mencionamos, ms all del anlisis de frecuencias, otra forma de resumir los datos y analizar la distribucin de una variable son las medidas descriptivas: nmeros individuales que contienen informacin importante sobre las observaciones originales. Antes de revisar algunas de ellas debemos mencionar que, si stas se obtienen a partir de datos poblacionales, las medidas descriptivas reciben la denominacin de parmetros; empero, si son producto de un conjunto de datos muestrales, su expresin cambia y son llamadas estadsticos, nmeros cuyo valor se intenta sea lo ms parecido al de su parmetro correspondiente. Medidas de tendencia central Las medidas de tendencia central son aquellas que intentan resumir el conjunto de datos sealando su valor representativo, por ejemplo:

Moda X , x

La moda es el valor que se presenta con mayor frecuencia en una serie de observaciones. Esta medida es, por tanto, ideal para encontrar la categora representativa en una serie de datos cualitativos. No obstante, es poco confiable cuando se manejan variables cuantitativas ya que, si todos los valores son diferentes o si son varios los valores que se repiten (con la misma frecuencia) ha de concluirse que los datos no tienen moda o que el conjunto es multimodal. De cualquier forma ha de sealarse que, para denotar su valor, basta aadir un acento circunflejo (^) a la letra con que se design la variable: PARMETRO ESTADSTICO

x Mediana ( X , ~ )
~
La mediana es el valor intermedio de un conjunto de datos cuantitativos ordenados de forma creciente o decreciente. Si el total de datos es un nmero non, la mediana es el valor que se encuentra justo a la mitad de la lista, en tanto que si el total de datos es un nmero par, la mediana es el promedio de los datos centrales:

NON

PAR

x (1)

x (1)

112

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

x(2 )

x(2 )
Mediana

x (3 )

x (3 )

x(4 ) x (5 )

x(4 ) x (5 ) x (6 )

Mediana

Ahora bien, si el nmero de observaciones impide reconocer visualmente la mediana, su valor puede encontrarse de la siguiente manera: a) Si el total de observaciones es un nmero impar, el valor de la mediana es igual al del dato cuya posicin es

n + 0.5 . 2 n 2 n + 1 . 2

b) Si el total de observaciones es un nmero par, el valor de la mediana es el promedio de los datos que estn en las posiciones y

Explicado eso puede afirmarse que la mediana (sealada con una tilde ~) es una medida de tendencia central muy fcil de calcular cuyo valor, al ser nico, resulta sumamente til para indicar (por posicin) el promedio de un conjunto de datos cuando stos presentan cierta simetra o incluyen valores extremos. PARMETRO

~ X

ESTADSTICO

~ x

Media (aritmtica) ( , x ) La media es, sin duda alguna, la medida de tendencia central ms utilizada en la estadstica descriptiva de variables cuantitativas. Si bien su parmetro se representa con la letra griega (Mi), su estadstico se seala agregando una barra horizontal sobre la letra de la variable: PARMETRO ESTADSTICO

xi
i =1

x=

x
i =1

Como puede verse, la media es simplemente el producto de sumar todos los valores observados y dividir el resultado entre el nmero total de datos5. Es decir, a diferencia de la mediana, la media es un promedio que toma en cuenta todas las observaciones; sin

A diferencia de la moda y la mediana, la media es la nica medida de tendencia central que, por su clculo aritmtico, puede obtenerse con ayuda de la calculadora. Slo es necesario ingresar los datos en el modo estadstico y acceder a la funcin x .

113

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

embargo, dicha caracterstica implica que su clculo pueda verse afectado por valores extremos al grado de provocar que su valor no sea verdaderamente representativo.

Medidas de dispersin An cuando las medidas anteriores nos permiten encontrar los valores centrales de un conjunto de datos, poco dicen sobre el resto de las observaciones: si son parecidas o difieren por mucho. Precisamente para reconocer dicha variabilidad en la distribucin de una variable es que la estadstica ha propuesto las medidas de dispersin6, entre ellas: Rango (R ) Como vimos en el captulo anterior, el rango es la diferencia entre el valor ms pequeo y el ms grande en un conjunto de datos:

R = Vmax Vmin
La sencillez del clculo de esta medida de dispersin (que echa mano de slo dos observaciones) es, sin embargo, contrarrestada por su deficiencia en la explicacin de la variabilidad, que se limita a la diferencia ms general. Debido a esto es que, para comprender la cantidad total de variabilidad y resumirla en un solo nmero es preciso sacar el promedio de la desviacin de los datos con respecto a su media:

Dispersin =

(X
i =1

x)

Esta frmula, empero, no funciona porque, como veremos a continuacin, la suma de las desviaciones de los datos respecto a la media es siempre igual a cero:

(X
i =1

i n

x) = Xi x
i =1 i =1 n n

Porque
n

( X i + Yi ) = X i + Yi
i =1 i =1 i =1

(X
i =1

x ) = X i xn
i =1 n

Porque
n

C = cn
i =1

(X
i =1
6

x ) = xn xn

Tales medidas slo deben aplicarse cuando los datos son distintos, pues si el valor de todas las observaciones fuera idntico no habra variabilidad.

114

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Porque

x=

X
i =1

n
n

X i = xn
i =1

Entonces Por lo que

(X
i =1

x) = 0

Dispersin =

0 =0 n

A fin de salvar este problema, el resto de las medidas de dispersin ocupa entonces una serie de estrategias para transformar las desviaciones de los datos en distancias, cuyo valor es siempre positivo o igual a cero. Desviacin media (DM , dm) La desviacin media, por ejemplo, es la medida de dispersin que obtiene el promedio de las desviaciones de los datos en valor absoluto: PARMETRO ESTADSTICO

DM =

i =1

Xi N

dm =

X
i =1

No obstante, como el valor absoluto es una funcin f ( x ) = x que no tiene propiedades algebraicas para realizar desarrollos matemticos inferenciales, la desviacin media es una medida de dispersin que no se utiliza en la prctica.

Varianza 2 , s 2

La varianza es la medida de dispersin que, para evitar los signos de las desviaciones, saca el promedio7 de las diferencias de los datos respecto a su media elevadas al cuadrado: PARMETRO ESTADSTICO

El promedio se obtiene dividiendo entre n 1 de acuerdo a los principios tericos de los grados de libertad: Basa conocer los valores de n 1 de las desviaciones, pues el n simo valor queda automticamente determinado por la restriccin de que todos los valores de n suman siempre cero.
7

115

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

2 =

(X
i =1

s2 =

(X
i =1

x)

n 1

Desgraciadamente, elevar al cuadrado las desviaciones conlleva a elevar al cuadrado sus unidades. Desviacin estndar (tpica) ( , s ) La desviacin estndar es simplemente la raz cuadrada de la varianza: PARMETRO ESTADSTICO

2 (X i ) i =1

s=

(X
i =1

x)

n 1

A sabiendas de que sta es la medida de dispersin ms utilizada y que el clculo de cada desviacin es laborioso, ofrecemos aqu una expresin alternativa para la obtencin de su estadstico: Primero desarrollemos el binomio

(X
i =1 n

x) :
2 n n

(X
i =1

x ) = X i2 2X i x + x 2
2 i =1 i =1 i =1

Y atendamos las constantes:

(X
i =1 n

x ) = X i2 2 x X i + x 2 n
2 i =1 i =1 n

Porque

CX i = C X i
i =1 i =1

C = cn
i =1 n

Ahora sustituyamos algunos trminos por sus equivalentes:

(X
i =1

x ) = X i2 2 x ( x n ) + x n
2

Porque

x=

X
i =1

i =1 n

X i = xn
i =1

Y resolvamos las expresiones interiores:

(X
i =1

x ) = X i2 2 x 2 n + x n
2 i =1

116

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

(X
i =1

x ) = X i2 x 2 n
2 i =1

Basado en esto tenemos que una forma ms sencilla de calcular manualmente8 la desviacin estndar es a travs de la siguiente expresin: ESTADSTICO

s=

X
i =1

2 i

nx 2

n 1

Finalmente, sin importar el mtodo utilizado para su clculo, debemos remarcar que el obtener la raz cuadrada de la varianza implica regresar a las unidades originales. La desviacin estndar, por tanto, puede interpretarse literalmente como el promedio de la desviaciones de los datos respecto a la media: el que su valor sea muy pequeo indica que las observaciones estn muy cerca de esta medida de tendencia central; en tanto que un valor grande seala que los datos se hallan muy dispersos y que la media pudiera no ser un valor realmente representativo del conjunto. Medidas de posicin Otra forma de analizar la distribucin de una variable son las medidas de posicin: nmeros que sirven para descubrir la localizacin de un dato especfico con respecto el resto de la muestra.

Percentiles (centiles)

Son nmeros que dividen al conjunto de datos en cien partes iguales, motivo por el cual existen noventa y nueve percentiles que se designan mediante la letra Pk , donde el subndice k indica el centil al que se hace referencia.

En cualquier caso, el k simo percentil (Pk ) es un valor de X tal que k % o menos de las
8

Igual que la media, el valor de la desviacin estndar de un conjunto de observaciones puede obtenerse mediante las funciones n 1 s x de la calculadora una vez que se han ingresado los datos en el modo

estadstico.

117

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

observaciones son menores que l y (100 k )% o menos de las observaciones son mayores a k ; razn por la que los percentiles permiten descubrir si hay casos extremos en un conjunto de datos. Dicho esto, si el nmero total de datos (n ) es el 100%, la forma ms sencilla de encontrar

el nmero k que deja, a los ms, al k % por debajo de l y al (100 k )% por encima de l es:

nk =X 100
El valor descubierto, empero, slo representa la posicin que ocupa el percentil en el conjunto de datos ordenados. Por ende, el percentil es en realidad el valor del dato que se encuentra en la posicin X 9. Cuartiles Los cuartiles son tres nmeros que dividen a los datos ordenados en cuatro partes iguales. Sus valores, por tanto, pueden hacerse equivalentes a los de cuatro percentiles: PERCENTIL CUARTIL Primer cuartil DEFINICIN Nmero respecto al que 25% de los datos son menores que l. Nmero que divide al conjunto de datos exactamente en dos partes, dejando una mitad con valores menores y otra mitad con valores mayores. Su valor, por tanto, es igual al de la mediana de un conjunto de datos. Nmero que deja al 75% de los datos con un valor menor al suyo.

P25

(q1 )

P50

Segundo cuartil

(q2 = ~ ) x
(q3 )

P75

Tercer cuartil

Como su ubicacin es mucho ms precisa, los cuartiles no sirven para analizar casos extremos; no obstante, se utilizan para designar ciertas posiciones cuando se elabora una grfica de caja.

Grficas de caja Las grficas de caja (tambin conocidas como diagramas de caja y bigotes) son grficos que muestran la distribucin de una variable. Veamos los pasos necesarios para construirlas:

Si el valor de X tiene decimales debe redondearse al nmero entero que le sigue.

118

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

1) ORDENAR LOS DATOS Y UBICAR VALORES CLAVE: Los primero que debe hacerse es ordenar los datos para reconocer los valores mnimo, mximo y de los tres cuartiles: Vmin, q1 , q 2 , q 3 , Vmax .

2) CONSTRUIR EL ESPACIO GRFICO: Es decir, trazar dos ejes: en el de las ordenadas se seala la variable y su escala, y en el de las abscisas se indica el grupo de estudio . 3) TRAZAR LA CAJA: Hecho eso se traza un rectngulo (caja): si bien su ancho no importa, su altura debe corresponder a la distancia del primer al tercer cuartil (q1 q3 ) . 4) UBICAR LA MEDIANA: Posteriormente se divide al rectngulo mediante una lnea a la altura del segundo cuartil (q 2 ) . 5) TRAZAR LOS BIGOTES: Finalmente se ubican los valores mnimo y mximo, y a partir de ellos se traza una lnea hasta los extremos inferior y superior de la caja. Gracias a su forma, las grficas de caja permiten hacer una exploracin visual del comportamiento de la variable: Mientras mayor sea la altura de la caja, mayor dispersin habr mostrado la variable. Ahora bien, una mayor distancia de la mediana a uno de los cuartiles (q1 , q3 ) implica, por ejemplo, una mayor variabilidad en esa mitad del grupo de estudio. Asimismo, una mayor distancia de la caja a los valores mnimo o mximo seala a stos como datos atpicos.
DISTRIBUCIN DE LA VARIABLE PERMETRO DE CADERA
Alumnos de estadstica 2008-1 (n=66)
1300

Permetro de cadera

1200 1100 1000 900 800 700


N=

52 32

41

25

Femenino

Masculino

Sexo

Por ltimo debe mencionarse que este tipo de grficas permite tambin comparar la distribucin de la variable entre las categoras del grupo de estudio. Si es este el caso, basta con separar los datos de cada categora, ubicar sus valores y trazar una caja para cada grupo.

119

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

DISTRIBUCIN DE LA VARIABLE PERMETRO DE CADERA


Alumnos de estadstica 2008-1 (n=66)
1300

Permetro de cadera

1200 1100 1000 900 800 700


N= 26 15 13 12

Turno
Matutino Vespertino Femenino Masculino

Sexo

Ejemplos de aplicacin 1. Son muchos ya los alumnos de la ENAH que han expresado lo incmodo de las sillas de esta escuela. Si bien resulta imprescindible un cambio en este mobiliario, el costo que dicho proyecto pudiera alcanzar es inquietante. Echando mano de los datos de Estatura total, Estatura sentado, Altura de rodilla y Peso recolectados en los grupos de estadstica: a) Calcule las medidas de tendencia central: moda, mediana y media. b) Calcule las medidas de dispersin: rango y desviacin estndar. c) Calcule los cuartiles y elabore una grfica de caja. A fin de analizar el comportamiento de estas variables y presentar a un diseador industrial algunos datos con los que ste pueda hacer una cotizacin sobre los materiales y diseos necesarios para producir sillas ms funcionales y cmodas. Veamos primero los datos, ya ordenados, donde se sealan algunos de los valores que se mencionaran posteriormente: Estatura total
1477 1490 1492 1506 1515 1521 1527 1529 1541 1552 1554 1555 1559 1560 1562 1563 1599 1605 1614 1619 1622 1625 1641 1642 1657 1658 1660 1664 1669 1675 1675 1679

Estatura sentado
787 802 809 809 813 815 816 820 821 823 825 826 826 827 828 829 855 859 865 866 868 870 872 875 878 879 879 887 887 888 889 889

Altura de rodilla
411 414 426 436 442 443 443 444 446 448 453 454 457 457 458 458 477 478 478 479 481 481 481 482 484 484 484 486 486 486 487 489 37.6 41.9 44.4 44.4 44.9 45.1 45.2 45.8 47.2 47.5 48.0 48.3 49.2 49.8 51.1 51.5

Peso
61.1 61.3 61.4 61.6 61.6 61.7 62.6 62.6 62.7 64.4 64.5 65.6 67.2 67.4 68.3 68.4

120

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

1563 1566 1570 1571 1571 1576 1576 1577 1582 1583 1584 1585 1591 1594 1594 1595 1597

1683 1685 1686 1689 1699 1701 1705 1719 1721 1724 1728 1742 1751 1767 1786 1833 1852

829 832 834 834 838 838 839 839 841 844 848 849 849 850 850 850 854

890 891 894 897 901 902 908 911 914 919 921 921 928 939 940 941 969

458 459 459 459 461 464 464 464 464 465 465 467 469 469 471 471 475

491 491 491 496 502 504 504 506 516 519 519 522 525 536 554 588 590

52.1 53.1 53.1 54.4 55.4 55.8 55.9 56.4 57.5 57.5 58.0 58.1 58.4 58.4 58.6 59.5 60.4

68.7 68.8 69.6 70.0 70.2 71.5 72.5 74.5 76.6 76.7 77.6 78.8 87.3 91.6 93.1 94.7 98.0

Ahora bien, ejemplifiquemos la aplicacin de todas las medidas y las grficas de caja con la variable Estatura total: I. Estatura total

Lo primero que observamos en esta variable es que cinco valores se repiten dos veces a lo largo de la muestra: MODA

x = 1563, 1571, 1576, 1584 y 1675

Por tal motivo puede afirmarse que entre los alumnos de estadstica la variable Estatura es multimodal. Sin embargo, como la moda ha sealado demasiados valores, buscaremos la mediana del conjunto para ver si su valor es ms representativo. Dado que el nmero total de datos es par (n = 66) , debemos averiguar el promedio de los datos que estn al centro de la lista. POSICIN

(n = 66)

66 = 33 2
1597

66 + 1 = 34 2
1599

VALOR MEDIANA (PROMEDIO)

~ = 1597 + 1599 = 1598.0000 x 2

Es decir, de acuerdo a esta medida de tendencia central el valor promedio de la estatura total en los grupos de estadstica 1598 milmetros (1.60 metros). Mientras tanto: MEDIA

107153

1623 5303

121

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

x=

x
i =1

El clculo aritmtico indica que el promedio de la estatura entre los alumnos es de 1623.5303 milmetros (1.62 metros); as que habr que analizar si la diferencia de dos centmetros se debe a la variabilidad. Primero encontremos la diferencia general: RANGO

R = Vmax Vmin

R = 1852 1477 = 375.0000

El clculo del rango seala que, entre la menor y la mayor estatura hay 375 milmetros (37.5 centmetros). No obstante, la cantidad total de variabilidad manifestada por la variable es de: DESVIACIN ESTNDAR

s=

X
i =1

2 i

nx 2

s=

n 1

174411215 66(1623.5303) = 82.7483 66 1


2

Esto significa que la distancia promedio de los datos de estatura total respecto a su media es de 82.7483 milmetros (8.2 centmetros). Finalmente, para analizar grficamente la distribucin de la variable obtenemos el valor de los cuartiles y construimos la grfica de caja:

(n = 66)
MNIMO Primer cuartil (q1 ) Segundo cuartil (q 2 ) Tercer cuartil (q3 ) MXIMO

66(25) = 16.5 17 100 ~ x 66(75) = 49.5 50 100


66

POSICIN 1

VALOR 1477 1563 1598 1683 1852

DISTRIBUCIN DE LA VARIABLE ESTATURA TOTAL


Alumnos de estadstica 2008-1 (n=66)
1900

1800

Estatura total

1700

1600

Como podemos observar, la mayor variabilidad de la estatura se manifiesta en la mitad de los alumnos ms altos. Asimismo se observa que el estudiante con la estatura ms alta se encuentra ms alejado del valor promedio (mediana) que el de menor estatura.

1500 1400

122
Alumnos

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Para analizar ms detalladamente dicho comportamiento, elaboremos otra grfica de cajas comparando por sexo:
DISTRIBUCIN DE LA VARIABLE ESTATURA TOTAL POR SEXO
Alumnos de estadstica 2008-1 (n=66)
1900
37 39

1800

1700 1600 1500 1400


N=

15 54 44

El grfico seala ahora que la estatura de las mujeres es, en general, menor a la de los hombres. Dicha afirmacin no slo es confirmada al observar una mayor variabilidad en estaturas mayores para el sexo femenino, sino tambin al descubrir que fue una mujer quien present una estatura atpicamente baja.

Estatura total

41

25

Femenino

Masculino

Habiendo reconocido la posicin de muchos valores y, echando mano de la tecnologa (calculadora o computadora), resulta sencillo analizar el comportamiento del resto de las variables: II. Estatura sentado

Sexo

MODA x = 850 La estatura sentado observada con mayor frecuencia entre los alumnos de estadstica fue de 850 milmetros (85.0 centmetros).

(n = 66)

POSICIN

66 = 33 2

66 + 1 = 34 2

854 855 VALOR MEDIANA ~ = 854 + 855 = 854.5000 x (PROMEDIO) 2 El valor promedio del conjunto de datos sobre estatura sentado es de 854.5 milmetros (85.4 centmetros). MEDIA x = 863.42 La estatura sentado promedio de los alumnos de estadstica es de 863.42 milmetros (86.3 centmetros). RANGO R = 969 787 = 182.00 La diferencia mxima en la estatura sentado de los alumnos es de 182 milmetros

123

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

(18.2 centmetros). DESVIACIN ESTNDAR s = 40.11 La distancia promedio de los datos de estatura sentado respecto a su media es de 40.11 milmetros (4.0 centmetros).

(n = 66)
MNIMO Primer cuartil (q1 ) Segundo cuartil (q 2 ) Tercer cuartil (q3 ) MXIMO

66(25) = 16.5 17 100 ~ x 66(75) = 49.5 50 100


66

POSICIN 1

VALOR 787 829 854.5 890 969

DISTRIBUCIN DE LA VARIABLE ESTATURA SENTADO


Alumnos de estadstica 2008-1 (n=66)
1000 1000

DISTRIBUCIN DE LA VARIABLE ESTATURA SENTADO POR SEXO


Alumnos de estadstica 2008-1 (n=66)

Estatura sentado

Estatura sentado

900

900

60

800

800

700 700
N= 66 N= 41 25

Femenino

Masculino

Alumnos

Sexo

Igual que la estatura total, la variable Estatura sentado muestra mayor variabilidad en la mitad con valores ms altos y pese a que dicha estatura es mayor entre los hombres y sus valores manifiestan mayor dispersin en las mujeres, se observ un caso atpico del sexo masculino, que present una estatura sentado notoriamente baja.

III. Altura de rodilla MODA x = 464 La altura de rodilla observada con mayor frecuencia entre los alumnos de estadstica es de 464 milmetros (46.4 centmetros).

(n = 66)

POSICIN

66 = 33 2

66 + 1 = 34 2

124

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

475 477 VALOR MEDIANA ~ = 475 + 477 = 476 x (PROMEDIO) 2 El valor promedio del conjunto de datos sobre altura de rodilla es de 476 milmetros (47.6 centmetros). MEDIA x = 478.35 La altura de rodilla promedio de los alumnos de estadstica es de 478.35 milmetros (47.8 centmetros). RANGO R = 590 411 = 179 La diferencia mxima en la altura de rodilla de los alumnos es de 179 milmetros (17.9 centmetros). DESVIACIN ESTNDAR s = 33.48 La distancia promedio de los datos de altura de rodilla respecto a su media es de 33.48 milmetros (3.3 centmetros).

(n = 66)
MNIMO Primer cuartil (q1 ) Segundo cuartil (q 2 ) Tercer cuartil (q3 ) MXIMO

66(25) = 16.5 17 100 ~ x 66(75) = 49.5 50 100


66

POSICIN 1

VALOR 411 458 476 491 590


DISTRIBUCIN DE LA VARIABLE ALTURA DE RODILLA POR SEXO
Alumnos de estadstica 2008-1 (n=66)

DISTRIBUCIN DE LA VARIABLE ALTURA DE RODILLA


Alumnos de estadstica 2008-1 (n=66)
700 700

Altura de rodilla

Altura de rodilla

600

54 37 39

600

54

37

500

500

400

42 50

400 300 300


N= 66 N= 41 25

Femenino

Masculino

Alumnos

Sexo

A comparacin de las variables anteriores, la altura de rodilla es una caracterstica que muestra una distribucin ms concentrada. Aunado a ello, es en el sexo masculino donde se observa mayor variabilidad, incluso cuando las mujeres mostraron ms casos atpicos (menores y mayores).

125

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

IV. Peso

x = 44.4,53.1,57.5,58.4,61.6,62.6 MODA La repeticin de seis valores a lo largo de la muestra seala a los alumnos de estadstica como una muestra multimodal respecto al peso corporal.

(n = 66)

POSICIN

66 = 33 2

66 + 1 = 34 2

60.4 61.1 VALOR MEDIANA ~ = 60.4 + 61.1 = 60.75 x (PROMEDIO) 2 El valor promedio del conjunto de datos sobre peso es de 60.75 kilogramos. MEDIA x = 61.62 El peso promedio de los alumnos de estadstica es de 61.6 kilogramos. RANGO R = 98 37.6 = 60.4 La diferencia mxima en peso de los alumnos es de 60.4 kilogramos. DESVIACIN ESTNDAR s = 13.17 La distancia promedio de los datos de peso respecto a su media es de 13.17 kilogramos.

(n = 66)
MNIMO Primer cuartil (q1 ) Segundo cuartil (q 2 ) Tercer cuartil (q3 ) MXIMO

66(25) = 16.5 17 100 ~ x 66(75 ) = 49.5 50 100


66

POSICIN 1

VALOR 37.6 52.1 60.75 68.7 98.0

126

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

DISTRIBUCIN DE LA VARIABLE PESO CORPORAL


Alumnos de estadstica 2008-1 (n=66)
110 100
37 39

Peso corporal

90 80 70 60 50 40 30
N= 66

Alumnos

DISTRIBUCIN DE LA VARIABLE PESO CORPORAL POR SEXO


Alumnos de estadstica 2008-1 (n=66)
110 100

Peso corporal

90 80 70 60 50 40 30
N=

52 54

Como podemos observar, el peso corporal es una caracterstica que presenta una variabilidad diferencial: es mayor en los valores ms pequeos del grupo femenino y mayor en los valores ms grandes del sexo masculino. Pese a ello, los dos casos atpicos registrados se deben a mujeres.

41

25

Femenino

Masculino

Sexo

Evaluacin de la media y la distribucin de una variable

En el captulo anterior revisamos cmo, mientras las medidas de tendencia central sealan el valor representativo o promedio de un conjunto de datos, las medidas de dispersin indican su variabilidad. Una observacin, empero, qued pendiente: la media puede verse afectada por valores extremos. Por tal motivo, en este captulo analizaremos diversas medidas que permiten evaluar, por un lado, si el valor de dicha medida de tendencia central es verdaderamente representativo y, por otro, la variabilidad y distribucin de una variable. Evaluacin de la media y comparacin de variabilidad entre grupos o variables Comprobamos anteriormente que la desviacin estndar es la medida de dispersin ms adecuada para definir la variabilidad en una serie de observaciones, pues permite expresar la distancia promedio de los datos respecto a su media en las unidades originales.

127

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Esta caracterstica es, empero, la misma razn por la cual la desviacin estndar de distintos grupos (con medias considerablemente diferentes) o variables (con otras unidades y escalas de medicin) no puede ser comparada. Otros procedimiento deben realizarse entonces para cotejar la variabilidad de dos o ms conjuntos de datos: Coeficiente de variacin (variabilidad) (C.V , c.v ) La forma ms sencilla de obtener un valor de dispersin que sea independiente a cualquier unidad de medicin y que tome en cuenta a la media es calcular el coeficiente de variacin; medida de variabilidad relativa que relaciona la desviacin estndar con la media de un conjunto de datos: PARMETRO ESTADSTICO

C.V . = 100

s c.v.. = 100 x

Esto debido a que, al dividir la desviacin estndar entre la media no slo cancelamos las unidades, sino que tambin establecemos una medida que, multiplicada por cien, indica qu tanto por ciento de dispersin existe respecto a la media. Ahora bien, aunque son los trminos porcentuales del coeficiente de variacin los que permiten comparar la variabilidad entre dos o ms conjuntos de datos, es su carcter relativo a la media lo que permite evaluar dicha medida de tendencia central y concluir que: si el coeficiente de variacin es mayor a 30%, la dispersin de las observaciones afecta el valor de la media; razn por la cual es mejor utilizar a la mediana como valor promedio. Teorma de Tchebysheff (Chebyshev) Otro tcnica para cotejar la variabilidad entre dos o ms conjuntos de datos es calcular la proporcin o porcentaje aproximado de elementos que se encuentran en una parte de la distribucin manifestada por cada variable. Segn el teorema de Tchebysheff: La proporcin de cualquier distribucin situada dentro de k desviaciones estndares (s ) de la media es, por lo menos, 1 cualquier nmero positivo mayor que uno. Por lo tanto, si:

1 , donde k es k2

k
2

1 1 1

1 k2

1 1 k 2 100%

INTERPRETACIN Al menos 75% de los datos est a dos desviaciones estndares de la media. Al menos 89% de los datos est a tres desviaciones estndares de la media.

1 1 3 = 1 = = 0.75 2 4 4 2 1 1 8 = 1 = = 0.89 2 9 9 3

(0.75)100% = 75% (0.89)100% = 89%

128

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

1 1 15 = 1 = = 0.94 2 16 16 4

(0.94)100% = 94%

Al menos 94% de los datos est a cuatro desviaciones estndares de la media.

En otras palabras, dicho teorema nos permite: 1. Averiguar el nmero de desviaciones estndares (k ) que contiene al menos cierta proporcin ( x ) de los datos. Para ello debe calcularse el valor de k : Si

Despejamos k

Y tenemos que

1 =x k2 1 1 x = 2 k 1 = k2 1 x 1 =k 1 x

2. Dado un valor de k desviaciones estndares y la proporcin (porcentaje) correspondiente, definir el intervalo que contiene dichos valores. Esto implica simplemente restar y sumar a la media k veces el valor de la desviacin estndar: EXPRESIN PARA DETERMINAR EL INTERVALO QUE CONTIENE AL MENOS 1 1

k2

PORCIENTO

[x ks, x + ks]

DE LOS DATOS B. EVALUACIN DE LA DISTRIBUCIN DE UNA VARIABLE Los histogramas que representan grficamente la distribucin de las variable pueden tomar muchas formas; basta con dibujar una curva sobre sus barras para comprobarlo: unas sern ascendentes, algunas descendentes y otras parecern campanas de Gauss, normales, aplanadas o puntiagudas. No obstante, como veremos a continuacin, ms all de su forma, la evaluacin de dichas caractersticas permite analizar la distribucin de una variable.

Coeficiente de asimetra de Fisher El coeficiente de asimetra de Fisher es una medida que indica el nivel de asimetra de los datos respecto a su media: COEFICIENTE DE ASIMETRA DE FISHER

1 n 3 (X i x ) n a = i =1 3 s 129

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Pese a que su clculo puede resultar complicado, su interpretacin es muy sencilla: VALOR DE a INTERPRETACIN Todo coeficiente negativo indica que la distribucin de la variable es asimtrica y est cargada a la izquierda, pues predominan las observaciones con valores menores al promedio. Ahora bien, si el coeficiente es aproximadamente cero puede afirmarse que los datos se encuentran cerca de su media y presentan un alto grado de simetra respecto a dicha medida de tendencia central. Por ltimo, cuando el coeficiente es positivo, la distribucin de la variable es tambin asimtrica pero cargada a la derecha, ya que los datos mayores al promedio presentan una frecuencia ms alta. REPRESENTACIN GRFICA

a<0

a0

a>0

Coeficiente de curtosis Por otro lado est el coeficiente de curtosis, medida que analiza el grado de concentracin que presentan los datos en torno a la media y seala cun puntiaguda es la distribucin de la variable respecto a la curva gaussiana (distribucin normal): COEFICIENTE DE CURTOSIS Veamos ahora su interpretacin:

1 n 4 (X i x ) n 3 c = i =1 4 s

VALOR DE a

INTERPRETACIN

REPRESENTACIN GRFICA

130

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

c<0

Un valor negativo en el coeficiente de curtosis indica que los datos se encuentran muy dispersos, motivo por el que la curva que delinea su distribucin es ms plana y ancha; esto es platicrtica. Por otra parte, cuando el coeficiente de curtosis es aproximadamente cero puede concluirse que la variable se distribuye con un grado de concentracin medio, as que la curva es muy parecida a la gaussiana: mesocrtica. Finalmente, un coeficiente de curtosis positivo es seal de que los datos se concentran alrededor de la media; razn por la cual su curva es ms esbelta y apuntalada; es decir, leptocrtica.

c0

c>0

Ejemplos de aplicacin 1. A lo largo del ltimo ejercicio del captulo anterior realizamos algunas grficas de cajas para explorar el comportamiento de las variables Estatura total, Estatura sentado, Altura de rodilla y Peso en los grupos de estadstica 2008-1. Si bien establecimos algunas comparaciones sobre su variabilidad por sexo, todas las conclusiones fueron hechas visualmente. Calcule entonces las medidas necesarias para: a) Cotejar la dispersin de los valores y evaluar la media. b) Determinar en qu intervalo se halla el 95% de los datos. c) Reconocer el grado de simetra y apuntamiento de su distribucin. Comparar la variabilidad por grupos implica, sin duda alguna, calcular el coeficiente de variacin. Empero, dado que las medidas de tendencia central y dispersin para estas variables haban sido determinadas a partir de la muestra total, calcularemos tambin (con ayuda del SPSS) su valor por sexo: SEXO FEMENINO VARIABLE Estatura total Estatura sentado Altura de SEXO MASCULINO

~ x
1571.00 838.00 464.00

x
1576.39 841.46 464.80

s
50.01 25.46 28.13

~ x
1699.00 901.00 491.00

x
1700.84 899.44 500.56

s
65.99 33.18 29.84

131

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

rodilla Peso corporal

57.50

57.30

11.56

65.60

68.71

12.77

Ahora s, calculemos los coeficientes de variacin: SEXO FEMENINO COEFICIENTE DE VARIACIN SEXO MASCULINO COEFICIENTE DE VARIACIN

VARIABLE Estatura total Estatura sentado Altura de rodilla Peso corporal

50.01 c.v.. = 100 = 3.17 1576.39 25.46 c.v.. = 100 = 3.03 841.46 28.13 c.v.. = 100 = 6.05 464.80 11.56 c.v.. = 100 = 20.17 57.30

65.99 c.v.. = 100 = 3.88 1700.84 33.18 c.v.. = 100 = 3.69 899.44 29.84 c.v.. = 100 = 5.96 500.56 12.77 c.v.. = 100 = 18.59 68.71

a) De entrada vemos que ninguno de los coeficientes de variacin es mayor a 30, por lo que puede afirmarse que la media calculada en cada caso es un valor verdaderamente representativo de los datos. Ahora, aunque en general fue el peso la caracterstica que present mayor variabilidad, la dispersin de las observaciones muestra una diferencia por sexo: es mayor en la estatura total y la estatura sentado masculina, y mayor en la altura de rodilla y el peso femenino. Cultural es seguramente el motivo por el que las mujeres presentan tal variabilidad pero esa es harina de otro costal a investigar.

Hecho esto, revisemos la distribucin de las variables. Primero, para deducir el intervalo que contiene al 95% de los datos de cada caso, es necesario calcular el valor de k : Si: Entonces:

1 = 0.95 k2

1 = 4.47 1 0.95

Sabiendo esto, construyamos los intervalos para cada variable por sexo: SEXO FEMENINO DATOS

VARIABLE Estatura total Estatura sentado Altura de rodilla Peso corporal

[1576.39 4.47(50.01),1576.39 + 4.47(50.01)] [841.46 4.47(25.46),841.46 + 4.47(25.46)] [464.80 4.47(28.13),464.80 + 4.47(28.13)] [57.30 4.47(11.56),57.30 + 4.47(11.56)]
SEXO MASCULINO DATOS

[1352.85,1799.93] [727.65,955.27] [339.06,590.54] [5.63,108.97]


INTERVALO

INTERVALO

VARIABLE

132

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Estatura total Estatura sentado Altura de rodilla Peso corporal

[1700.84 4.47(65.99),1700.84 + 4.47(65.99)] [1405.86,1995.82] [899.44 4.47(33.18),899.44 + 4.47(33.18)] [751.13,1047.75] [500.56 4.47(29.84),500.56 + 4.47(29.84)] [367.18,633.94] [68.71 4.47(12.77),68.71 + 4.47(12.77)] [11.63,125.79]

b) INTERPRETACIN Finalmente calculemos10 los coeficientes de asimetra y de curtosis para reconocer el grado de simetra y apuntamiento de su distribucin. SEXO FEMENINO COEFICIENTE DE ASIMETRA

VARIABLE Estatura total

Estatura sentado

Altura de rodilla

1 n 3 1 (1470507.05) ( X i 1576.39) 35866.03 41 i =1 a= a = 41 a= = 0.29 3 125075.02 125075.02 (50.01) 1 n 3 1 (168650.29) ( X i 841.46) 4113.42 41 i =1 41 a= a= a= = 0.25 3 16503.47 16503.47 (25.46) 1 n 3 1 (1666542.97 ) ( X i 464.80) 40647.39 41 i =1 a= a = 41 a= = 1.83 3 22259.18 22259.18 (28.13) 1 n 3 1 (51861.56) ( X i 57.30) 1264.92 41 i =1 41 a= a= a= = 0.82 3 1544.80 1544.80 (11.56)

Peso corporal

VARIABLE

SEXO FEMENINO COEFICIENTE DE CURTOSIS

Estatura total

Estatura sentado

1 n 4 1 (717595453.77 ) ( X i 1576.39) 41 i =1 41 c= 3 c = 3 6255001.50 (50.01)4 17502328.14 c= 3 c = 2.80 3 = 0.20 6255001.50 1 n 4 1 (38946197.76) ( X i 841.46) 41 i =1 c= 3 c = 41 3 420178.28 (25.46)4 949907.26 c= 3 c = 2.26 3 = 0.74 420178.28

10

Debido a que obtener la diferencia de cada dato respecto a su media es sumamente laborioso, hemos ocupado un programa de hojas de clculo para calcular su suma total ya elevada al cubo y a la cuarta potencia.

133

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Altura de rodilla

Peso corporal

1 n 4 1 (268696141.65) ( X i 464.80) 41 i =1 41 c= 3 c = 3 626150.78 (28.13)4 6553564.43 c= 3 c = 10.47 3 = 7.47 626150.78 1 n 4 1 (2727396.16) ( X i 57.30) 41 i =1 c= 3 c = 41 3 17857.94 (11.56)4 66521.86 c= 3 c = 3.73 3 = 0.73 17857.94

VARIABLE Estatura total

SEXO MASCULINO COEFICIENTE DE ASIMETRA

Estatura sentado

Altura de rodilla

1 n 3 1 (2700333.72) ( X i 1700.84) 108013.35 25 i =1 25 a= a= a= = 0.38 3 287365.34 287365.34 (65.99) 1 n 3 1 (- 162763.66) ( X i 899.44) - 6510.55 25 i =1 a= a = 25 a= = 0.18 3 36528.27 36528.27 (33.18) 1 n 3 1 (661857.82) ( X i 500.56) 26474.31 25 i =1 25 a= a= a= = 1.00 3 26570.30 26570.30 (29.84) 1 n 3 1 (42502.64) ( X i 68.71) 1700.11 25 i =1 a= a = 25 a= = 0.82 3 2082.44 2082.44 (12.77 )

Peso corporal

VARIABLE

SEXO MASCULINO COEFICIENTE DE CURTOSIS

Estatura total

1 n 4 1 (1323083865.85) ( X i 1700.84) 25 i =1 c= 3 c = 25 3 18963238.77 (65.99)4 52923354.63 c= 3 c = 2.79 3 = 0.21 18963238.77

134

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Estatura sentado

Altura de rodilla

Peso corporal

1 n 4 1 (77756609.48) ( X i 899.44) 25 i =1 25 c= 3 c = 3 1212008.11 (33.18)4 3110264.38 c= 3 c = 2.57 3 = 0.43 1212008.11 1 n 4 1 (77960641.22) ( X i 500.56) 25 i =1 c= 3 c = 25 3 792857.75 (29.84)4 3118425.65 c= 3 c = 3.93 3 = 0.93 792857.75 1 n 4 1 (1803668.36) ( X i 68.71) 25 i =1 25 c= 3 c = 3 26592.77 (12.77 )4 c= 72146.73 3 c = 2.71 3 = 0.29 26592.77

Resumiendo estos datos en una tabla tenemos que: SEXO FEMENINO VARIABLE Estatura total Estatura sentado Altura de rodilla Peso corporal SEXO MASCULINO

a
0.29 0.25 1.83 0.82

c
-0.20 -0.74 7.47 0.73

a
0.38 -0.18 1 0.82

c
-0.21 -0.43 0.93 -0.29

Por lo cual podemos concluir que, por sexo, las variables presentan la siguiente distribucin: SEXO FEMENINO DISTRIBUCIN
Asimtrica (cargada a la derecha) y platicrtica. Asimtrica (cargada a la derecha) y platicrtica. Asimtrica (cargada a la derecha) y leptocrtica. Asimtrica (cargada a la derecha) y leptocrtica.

VARIABLE Estatura total Estatura sentado Altura de rodilla Peso corporal

SEXO MASCULINO DISTRIBUCIN


Asimtrica (cargada a la derecha) y platicrtica. Asimtrica (cargada a la izquierda) y platicrtica. Asimtrica (cargada a la derecha) y leptocrtica Asimtrica (cargada a la derecha) y platicrtica.

VARIABLE Estatura total Estatura sentado

a
0.29 0.25

SEXO FEMENINO c SPSS SPSS


0.31 0.27 -0.20 -0.74 0.09 -0.55

SEXO MASCULINO c SPSS SPSS 0.38 0.43 -0.21 0.32 -0.18 -0.43 -0.20 0.02

135

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Altura de rodilla Peso corporal

1.83 0.82

1.97 0.88

7.47 0.73

9.23 1.20

1.00 0.82

1.13 0.92

0.93 -0.29

1.85 0.22

POR LO CUAL LAS DISTRIBUCIONES SERAN: SEXO FEMENINO DISTRIBUCIN


Asimtrica (cargada a la derecha) y mesocrtica. Asimtrica (cargada a la derecha) y platicrtica. Asimtrica (cargada a la derecha) y leptocrtica. Asimtrica (cargada a la derecha) y leptocrtica.

VARIABLE Estatura total Estatura sentado Altura de rodilla Peso corporal

SEXO MASCULINO DISTRIBUCIN


Asimtrica (cargada a la derecha) y leptocrtica. Asimtrica (cargada a la izquierda) y mesocrtica. Asimtrica (cargada a la derecha) y leptocrtica. Asimtrica (cargada a la derecha) y leptocrtica.

Estatura total
Sexo: Femenino
12 10

Estatura total
Sexo: Masculino

10 8

Frecuencia

Frecuencia

2 2 Media =1576.39 Desviacin tpica =50.01 N =41 1450 1500 1550 1600 1650 1700 Media =1700.84 Desviacin tpica =65. 987 N =25 1500 1600 1700 1800 1900

Estatura total

Estatura total

Estatura sentado
Sexo: Femenino
10 6

Estatura sentado
Sexo: Masculino

5 8

Frecuencia

Frecuencia
Media =841.46 Desviacin tpica =25. 457 N =41 780 800 820 840 860 880 900

2 1 Media =899.44 Desviacin tpica =33. 183 N =25 800 850 900 950 1000

Estatura sentado

Estatura sentado

136

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Altura de rodilla
Sexo: Femenino
20 12

Altura de rodilla
Sexo: Masculino

10 15

Frecuencia

Frecuencia
Media =464.8 Desviacin tpica =28. 127 N =41 400 450 500 550 600

10

4 5 2 Media =500.56 Desviacin tpica =29. 836 N =25 460 480 500 520 540 560 580 600

Altura de rodilla

Altura de rodilla

Peso corporal
Sexo: Femenino
10 6

Peso corporal
Sexo: Masculino

5 8

Frecuencia

Frecuencia
Media =57.3 Desviacin tpica =11. 556 N =41 40.0 60.0 80.0 100.0

2 1 Media =68.71 Desviacin tpica =12. 766 N =25 50.0 60.0 70.0 80.0 90.0 100.0

Peso corporal

Peso corporal

Anlisis bivariado
Correlacin lineal Cuando se tienen dos variables cuantitativas, la forma ms sencilla para comprobar si existe una relacin lineal entre ellas es construyendo un diagrama de dispersin con base en coordenadas ( X , Y ) . Empero, como veremos a continuacin, la estadstica cuenta con estimadores y pruebas ms precisas (acordes al tipo y la distribucin probabilstica de las variables) para determinar si existe una asociacin significativa o no. Coeficiente de correlacin de Pearson Medida sobre la asociacin entre dos variables continuas ( X , Y ) , cuyas expresiones para calcularlo en poblaciones y muestras son: PARMETRO ESTIMADOR

137

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

(x
i =1

x )( y i y )

N x y

r=

(x
i =1

x )( y i y )

(n 1) s x s y

No obstante, para reducir la labor que implica restar a cada dato su media correspondiente, podemos simplificar la expresin del numerador de este estimador: Desarrollamos primero el binomio:

(x y
i =1 i

xi y x y i + x y )

Repartimos la sumatoria:

x y x y xy + xy
i =1 i i i =1 i i =1 i i =1

Donde las medias son constantes y por ello pueden multiplicar a las sumatorias y multiplicarse por el tamao de la muestra:

x y
i =1 i

y x i x y i + nx y
i =1 i =1

Lo cual puede abreviarse a:

x y
i =1 i

y nx x ny + n x y

Porque:

x=

x
i =1

xi = x n
i =1

y=

y
i =1

yi = y n
i =1

Y eliminando los trminos en comn obtenemos:

x y
i =1 i

nx y

Con lo cual la expresin queda as:

EXPRESIN PARA CALCULAR EL ESTIMADOR DEL COEFICIENTE DE CORRELACIN DE PEARSON PARA VARIABLES CUANTITATIVAS CON DISTRIBUCIN NORMAL11.
11

r=

x y
i =1 i

nx y

(n 1) s x s y

Si bien esta es la forma ms sencilla para calcular manualmente el coeficiente de correlacin de Pearson, cabe mencionar que muchas calculadoras cientficas lo pueden arrojar directamente al ingresar los datos de ambas variables en el modo estadstico de regresin lineal; este dato tendr un valor muy parecido al que se obtiene haciendo los clculos manualmente con 4 decimales.

138

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Imprescindible resulta mencionar que el valor de este coeficiente slo puede encontrarse en el rango ( 1 < r < 1) y de acuerdo a ello debe interpretarse: VALOR DEL COEFICIENTE

(r 1) (r 0) (r 1)

INTERPRETACIN Existe asociacin lineal inversa entre las variables. No existe asociacin entre las variables. Existe asociacin lineal directa entre las variables.
26

Esta conclusin, sin embargo, no es suficiente; pues en el caso de que haya asociacin entre las variables, falta comprobar que sta sea estadsticamente significativa.
Y

24

22

20

18

16 12 14 16 18 20 22

Ejemplos de aplicacin

1. Los siguientes datos corresponden las longitudes de hmero y fmur de restos seos masculinos de la Cueva de La Candelaria, Coahuila. HMERO 329 311 297 323 323 290 297 287 333 336 313 322 321 315 309 304 300 FMUR 444 426 449 427 428 427 417 414 417 440 416 408 420 443 472 466 422

es posible afirmar que existe una relacin lineal entre la longitud del hmero y del fmur?

139

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Hagamos una primera conclusin a partir del diagrama de dispersin correspondiente:


480 470

460 450

Fmur

440

430 420

410 400 280 290 300 310 320 330 340

Hmero

En esta grfica podemos observar que no existe una linealidad clara entre las variables.

Pero es necesario comprobar lo que los sentidos nos dicen con un poco de estadstica. En este primer ejemplo desarrollaremos todos los datos necesarios para calcular manualmente el coeficiente de correlacin; no obstante, en los prximos casos recurriremos simplemente a los valores obtenidos con ayuda de una calculadora. HMERO 329 311 297 323 323 290 297 287 333 336 313 322 321 315 309 304 FMUR 444 426 449 427 428 427 417 414 417 440 416 408 420 443 472 466

X i Yi
146076 132486 133353 137921 138244 123830 123849 118818 138861 147840 130208 131376 134820 139545 145848 141664

140

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

300

422 TOTAL

126600 2291339

DATOS GENERALES

n = 17

x = 312.3529

y = 431.5294
n

s x = 14.8195
nx y

s y = 18.2384

EXPRESIN DEL COEFICIENTE DE CORRELACIN DE PEARSON CLCULO MANUAL

r=

x y
i =1 i

r=

2291339 17(312.3529 431.5294) = 0.0189 (17 1)14.8195 18.2384

(n 1) s x s y

VALOR EN r = 0.0190 CALCULADORA El signo negativo indica que la asociacin entre la longitud del hmero y la del fmur sera inversa, pero su cercano valor a cero nos da una segunda prueba para afirmar que la asociacin entre estas variables es casi nula.

3. Los siguientes datos corresponden a la poblacin juvenil masculina de Cholula, Puebla (recopilados entre 1968-1970). LONGITUD MIEMBRO SUPERIOR 771 740 743 775 745 722 764 711 756 721 728 727 756 768 735 ESTATURA 1715 1701 1652 1691 1611 1620 1701 1655 1734 1635 1598 1635 1684 1622 1674

141

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Puede afirmarse que existe asociacin entre la longitud del miembro superior y la estatura?
1740 1720

1700 1680

Estatura

1660

1640 1620

1600 1580 710 720 730 740 750 760 770 780

Longitud miembro superior

Aunque existe dispersin en los datos, puede entre verse una linealidad entre estas variables y, por ende, una posible asociacin.

n = 15

DATOS GENERALES

r = 0.5310

El valor del coeficiente de correlacin de Pearson nos indica una asociacin lineal directa aunque no parece ser importante. Regresin Lineal El anlisis de regresin lineal consiste en aplicar una serie de tcnicas para encontrar si hay causalidad entre dos variables cuantitativas; es decir, si el valor de una variable (Y ) depende y puede explicarse a partir de otra variable independiente. Fundamentos La regresin es un mtodo que permite encontrar relaciones lineales entre las variables de un fenmeno. Por ende, primero debemos revisar cmo, a partir de una serie de datos (como los a continuacin que se grafican) podemos encontrar la recta que los define: Se toman dos coordenadas

(X ) ,

que se postula como

[(x1 , y1 ), (x2 , y 2 )]
142

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Se calcula la pendiente Teniendo ese valor y el de un punto, se puede aplicar la ecuacin punto-pendiente Que se desarrolla de la siguiente forma Como el objetivo es encontrar la ordenada al origen; es decir, el valor de Y cuando X es igual a cero, despejamos Y Y damos a X el valor de cero Por lo que el valor de la ordenada al origen (b ) es Y teniendo esos valores podemos establecer la ecuacin de la recta Tambin denotada por la expresin
26

m=

y 2 y1 x 2 x1

y y1 = m( x x1 ) y y1 = mx mx1 y = y1 + mx mx1 y = y1 + m(0) mx1 b = y1 mx1


y = mx + b
y = a + bx

Como podemos ver, cuando la relacin entre dos variables es clara y constante, modelos basados en la forma y = a + bx son de gran utilidad para expresar y describir con precisin su asociacin.

24

22

Y
20 18 16 12 14 16 18 20 22

Los datos de fenmenos relacionados al ser humano, empero, no son tan fciles de trabajar, ya que la diversidad y variabilidad bio-psico-socio-cultural que estos reflejan impide hallar una ecuacin concreta que generalice sus resultados.

Echando mano de la probabilidad, la estadstica se arriesga entonces a suponer que la mejor recta para describir un

143

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

fenmeno de este tipo es la que une las medias de los valores posibles de Y para cada X i y x ; sin dejar de reconocer como error en este modelo la desviacin que cada dato

( )

Yi pueda tener con respecto a la recta y x .

De esta forma, para su anlisis, la estadstica no slo se apropia de los modelos de regresin lineal y les cambia las letras con que se denota a la ordenada al origen (b, a 0 ) y a la pendiente (m, b 1 ) , sino tambin los adapta para manifestar el nivel de incertidumbre o error (e ) presente en ellos: MODELO TERICO DE REGRESIN LINEAL SIMPLE EN ESTADSTICA

y = 0 + 1 x + e

Ajuste del modelo de regresin lineal simple (optativo) Conociendo la forma del modelo de regresin lineal que la estadstica utiliza para describir la relacin entre dos variables, es ahora necesario saber cmo ajustarlo; es decir, cmo partiendo de los datos X i , Yi de una muestra de tamao n , calcular la ordenada al origen y la pendiente de la recta, logrando que los errores ei del modelo sean mnimos (razn por la cual ocuparemos el procedimiento de mnimos cuadrados). Para hallar los valores 0 y 1 , tomamos un punto ( X i , Yi ) :

y i = 0 + 1 x i + ei
Y despejamos lo que nos importa: el error

ei = y i 0 1 x i

Que en una muestra de tamao n esperamos su suma de cuadrados sea mnima; lo cual depende de 0 y 1 .

e = ( y i 0 1 xi )
2 i

ei2 = ( yi 0 1 xi )
i =1 i =1 n

f ( 0 , 1 ) = ( y i 0 1 xi )
i =1

Por lo cual hay que encontrar la forma en que esta funcin sea mnima. El punto es que, al haber dos variables, mantendremos a la vez una constante; esto es, haremos derivadas parciales de la funcin. Empecemos por derivar la funcin respecto a 0 :

f ( 0 , 1 ) = ( y i 0 1 xi )
i =1

144

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

n df ( 0 , 1 ) = 2 ( y i 0 1 xi )( 1) d 0 i =1
n

Porque

d [ f ( x )] n 1 = n[ f ( x )] f ( x ) dx

Y al igualar a cero, 0 y 1 se convierten en estimadores 0 , 1 valores donde la funcin es mnima:

que son los

2 ( y i 0 1 xi )( 1) = 0
n i =1

Sinteticemos ahora lo ajeno a la sumatoria y despejmosla:

2 ( y i 0 1 x i ) = 0
n i =1

(y
n i =1

0 1 xi ) = 0

Como

0 =0 #

(y
n i =1

0 1 xi ) = 0

Ahora repartamos la sumatoria:

y x
i =1 i i =1

i =1

1 i

=0

Expresin que tambin puede denotarse como:

n y n 0 1 nx = 0
Porque

y=

yi
i =1

y i = yn
i =1

x=

x
i =1

xi = x n
i =1

C = nC

Y al dividir eso entre n resulta:

ny n 0 1 nx =0 n n n

y 0 1 x = 0

Ecuacin de la cual ya podemos despejar 0 : 0 = y 1 x

Ahora bien, resta hacer lo mismo con 1 :

145

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Derivamos la funcin respecto a 1 :

f ( 0 , 1 ) = ( y i 0 1 xi )
i =1

n df ( 0 , 1 ) = 2 ( y i 0 1 xi )( xi ) d1 i =1
n

Porque

d [ f ( x )] n 1 = n[ f ( x )] f ( x ) dx

Igualamos a cero:

2 ( y i 0 1 xi )( xi ) = 0
n i =1

Desarrollamos y despejamos la sumatoria:

2 xi y i 0 xi 1 xi2 = 0
i =1

(x y
n i =1 i

0 xi 1 xi2 ) = 0

Ahora la repartimos y liberamos a las constantes:

xi yi 0 xi 1 xi2 = 0
i =1 n i =1 i =1

x y
i =1 i

0 xi 1 xi2 = 0
i =1 i =1

Despejemos el trmino que incluye a 1 :


1 xi2 = xi y i 0 xi
i =1 i =1 i =1 n n n

Que puede denotarse como:

1 xi2 = xi y i ( y 1 x )(nx )
n n i =1 i =1

Porque

0 = y 1 x

x=

x
i =1

xi = x n
i =1

Lo cual se desarrolla de la siguiente manera:

1 xi2 = xi y i nx y + 1 nx 2
i =1 i =1

146

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

As que queda otro trmino con 1 por despejar:


1 xi2 1 nx 2 = xi y i nx y
i =1 i =1 n n

Lo cual se puede simplificar como:

1 xi2 nx 2 = xi y i nx y i =1
i =1

Y a partir de ello despejar completamente el trmino 1 : 1 =

x y
i =1 n i

nx y nx 2

x
i =1

2 i

Puede

entonces que, para encontrar el modelo de regresin lineal y i = 0 + 1 xi + ei que mejor se ajusta a los datos X i , Yi de una muestra de tamao n ,

decirse

basta calcular los estimadores de 0 y 1 12 que por mnimos cuadrados se definen como: EXPRESIN PARA CALCULAR EL ESTIMADOR 0 EXPRESIN PARA CALCULAR EL ESTIMADOR 1

0 = y 1 x

1 =

x y
i =1 n i

nx y nx 2

x
i =1

2 i

Si bien ambos datos son fundamentales para construir el modelo de regresin lineal, el valor de 0 slo indica el punto donde la recta corta el eje de las Y ; esto es, el valor de

Y cuando X = 0 . Mientras tanto, el valor de 1 resulta mucho ms significativo para la


interpretacin ya que, dependiendo de su signo y magnitud, indica el cambio en la variable Y cuando X cambia una unidad. Por ejemplo: Si X disminuye una unidad

y = 0 + 1 x y = 0 1 x
12

y = 0 + 1 ( x 1) y = 0 + 1 x 1 y = 0 1 (x 1)

Si X aumenta una unidad

y = 0 + 1 ( x + 1) y = 0 + 1 x + 1 y = 0 1 (x + 1)

Igual que en el caso del coeficiente de correlacin de Pearson, el valor de la ordenada a la origen y la pendiente de la recta pueden obtenerse sin hacer manualmente los clculos, pues son ya muchas las calculadoras cientficas que arrojan sus valores (a,b) al ingresar los datos de la muestra en el modo estadstico de regresin lineal.

147

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

y = 0 1 x + 1
Por tanto: Si la pendiente es: y X disminuye una unidad:

y = 0 1 x 1

( ) negativa ( )
positiva 1
1

y X aumenta una unidad:

Y disminuye 1 unidades Y aumenta 1 unidades

Y aumenta 1 unidades Y disminuye 1 unidades

Ejemplos de aplicacin 1. Los siguientes datos de altura y peso en jvenes adultos son parte de la muestra recolectada durante la investigacin en Cholula, Puebla (1968-1970). ESTATURA 1649 1635 1611 1622 1583 1613 1636 1650 1579 1568 1522 1554 1627 1535 1565 PESO 49.5 57.5 50.0 53.5 43.0 57.5 50.5 56.0 50.0 50.0 44.5 48.0 51.0 46.0 49.5

Comprobemos entonces si existe asociacin lineal entre estas variables por medio de un diagrama de dispersin y el coeficiente de correlacin.

148

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

58 56

54

Peso jvenes adultos

52

50

48 46

44 42 1520 1540 1560 1580 1600 1620 1640 1660

Estatura jvenes adultos

a.1) Si bien en los valores ms pequeos de la estatura puede verse una asociacin lineal clara con respecto al peso, conforme la estatura aumenta este patrn no es tan claro

COEFICIENTE DE PEARSON

r = 0.6786

a.2) El valor del coeficiente de correlacin de Pearson nos indica una asociacin lineal directa considerable entre la estatura y el peso de esta poblacin.

A continuacin saquemos los datos necesarios para calcular los estimadores 1 y 0 a fin de establecer el modelo de regresin.
DATOS GENERALES

n = 15

x = 1596.6000
i i

y = 50.4333

s x = 41.5379

s y = 4.3006

x y
i =1

= 1209525 .000

x
i =1

2 i

= 38261129.00

Si bien en esta ocasin se mostrar el clculo explcito, despus se mostrar nicamente el obtenido directamente con ayuda de la calculadora. EXPRESIN PARA CALCULAR EL ESTIMADOR 1 EXPRESIN PARA CLCULO MANUAL CALCULADORA CALCULAR EL ESTIMADOR 0

1 =

x y
i =1 n i

nx y nx 2
= 0.0703

x
i =1

2 i

1 =

1209525.000 15(1596.6000 )(50.4333) 38261129.00 15(1596.6000 ) 1 = 0.0703


0 = y 1 x
2

149

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

CLCULO MANUAL CALCULADORA

0 = 50.4333 0.0703(1596.6000 ) = 61.8077


0 = 61.7390

Por lo que el modelo de regresin lineal ajustado queda como: MODELO TERICO

MODELO AJUSTADO b) Segn el modelo ajustado, por cada milmetro que cambia la estatura, el peso cambia 0.0703 kilogramos. Los siguientes datos de altura y peso tambin son parte de la muestra recolectada durante la investigacin en Cholula, Puebla (1968-1970), pero pertenecen a adolescentes hombres: ESTATURA 1674 1672 1710 1651 1702 1656 1672 1590 1612 1652 1594 1566 1645 1678 1740 PESO 58.5 53.5 58.0 57.0 58.0 58.0 56.5 51.5 56.0 57.5 51.5 47.0 54.5 54.0 62.0

y = 0 + 1 x + e peso = 61.7390 + 0.0703estatura

64 62 60

Peso adolescentes

58 56 54 52 50 48 46 1500 1600 1700 1800

Estatura adolescentes

a.1)

Pese a la dispersin de algunos datos puede verse una asociacin lineal entre

150

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

la estatura y el peso, as como se define una pendiente bastante grande. COEFICIENTE DE PEARSON

r = 0.8382

a.2) El coeficiente de correlacin de Pearson seala una asociacin lineal directa fuerte entre la estatura y el peso de los adolescentes de Cholula. ESTIMADORES Y AJUSTE DEL MODELO

0 = 51.3759 1 = 0.0646 peso = 51.3759 + 0.0646 estatura


b) De acuerdo al modelo ajustado, por cada milmetro que cambia la estatura, el peso cambia 0.0646 kilogramos.

Ejercicios de Repaso
I. Definir los siguientes trminos estadsticos: 11. Mediana. 12. Moda. 13. Varianza. 14. Desviacin estndar. 15. Coeficiente de variacin. 16. Percentil. 17. Cuartel. 18. Modelo de regresin lineal. 19. Coeficiente de correlacin. 20. Pendiente de la recta de regresin lineal II. Clasificar las siguientes variables como categrica nominal, categrica ordinal, numrica discreta o numrica continua: 1. Poblacin. 2. Muestra. 3. Variable. 4. Variable categrica nominal. 5. Variable categrica ordinal. 6. Variable numrica discreta. 7. Variable numrica continua. 8. Medida de tendencia central. 9. Medida de dispersin. 10. Media aritmtica. 1. Temperatura mxima diaria. 2. Nmero de camiseta de los jugadores de un equipo de baloncesto. 3. Calificacin obtenida en un examen. 4. Marca de un refresco consumido. 5. Estado civil de una persona. 6. Nmero de tepalcates obtenidos en un sitio arqueolgico determinado. 7. El nmero de nios nacidos en mujeres de ms de 40 aos. 8. Nmero de hermanos. 9. Preferencia poltica partidaria. 10. Aos de escuela completados. 11. Creencia religiosa. 12. ltimo grado escolar obtenido (primaria, secundaria, etc.). 13. Nmero de carros propios por familia 14. Ocupacin. 15. Tasa de criminalidad. 16. Calificacin en el examen de admisin a la UNAM. 17. La calificacin del examen de Estadstica en el grupo. 18. Sexo. 19. Edad al morir. 20. Estatus de empleo (empleado, desempleado)

151

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


III. Hay 15 nmeros en una lista y la media es 25. Un estudiante se ha equivocado con el nmero ms pequeo que era 12.9 y lo captura como 1.29. 1. Es posible determinar cunto cambia la media? Si es as, cunto cambia? 2. Es posible determinar el valor de la media despus del cambio? Si es as cul es el valor? 3. Es posible determinar cunto cambia la mediana? Si es as, cunto cambia? 4. Es posible determinar cunto cambia la desviacin estndar? Si es as, cunto cambia? IV. Designar, segn sea el caso, como verdadero o falso las siguientes afirmaciones: 1. La media de una muestra divide siempre a los datos en dos partes, la mitad con valores mayores y la otra con valores menores que aquella. 2. Una medida de tendencia central es un valor cuantitativo que describe la variabilidad de los datos con respecto a un valor central. 3. Algunas veces la suma de los cuadrados de las diferencias con respecto a la media es negativa. 4. En cualquier distribucin, la suma de las desviaciones con respecto a la media es igual a cero. 5. La desviacin estndar del conjunto de valores, 2, 2, 2, 2, y 2 es 2. 6. En un examen, la calificacin de Carlos ocupa el percentil 50, y la de Guillermo el 25; por lo tanto la calificacin de Carlos es dos veces la de Guillermo. 7. La frecuencia de una clase es el nmero de datos cuyos valores se encuentran dentro de las fronteras de esa clase. 8. En estadstica se utilizan las distribuciones de frecuencias para presentar, en forma concisa, cantidades grandes de datos repetidos. 9. Las grficas de caja permiten comparar dos grupos con respecto a una variable. 10. Las grficas de dispersin (tipo XY) permiten comparar dos grupos con respecto a una variable. V. Se desea realizar un estudio sobre el estatus nutricional de una comunidad. a) Proponer de forma razonada diez variables que podran utilizarse para realizar dicha investigacin. b) Qu tipo de variable es cada una de ellas? c) Describir brevemente el tipo de estadstica descriptiva a realizar en este estudio. VI. Los siguientes datos se obtuvieron en una investigacin sobre actividad ocupacional a partir de una muestra de restos seos femeninos (correspondientes a la poca de la Colonia) procedentes del hospital Real de Naturales (ubicado en lo que ahora es el Eje Central de la Ciudad de Mxico). 1. Clasificar cada una de las variables. 2. Realizar tablas de frecuencias para las variables Aplanamiento por mecapal e Insercin en msculo suboccipital y realizar grficas circulares para cada variable. 3. Realizar una tabla cruzada entre Aplanamiento por mecapal e Insercin en el msculo suboccipital obteniendo porcentajes por rengln. 4. Para la variable Longitud mxima de hmero graficar el histograma, calcular la media, mediana, moda, desviacin estndar y coeficiente de variacin.

152

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Cas o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 Aplanamient o por mecapal Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Insercin en msculo suboccipita l Ligera Moderada Moderada Moderada Moderada Ligera Marcada Ligera Ligera Moderada Ligera Moderada Moderada Marcada Moderada Moderada Moderada Moderada Moderada Moderada Moderada Moderada Moderada Ligera Marcada Marcada Moderada Moderada Moderada Marcada Moderada Moderada Longitud mxima de hmero 254 254 262 270 271 272 275 278 279 279 280 280 280 280 282 282 282 283 284 285 285 288 289 290 291 294 295 295 297 300 301 307 Cas o 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 Aplanamient o por mecapal Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Ausencia Presencia Presencia Presencia Presencia Presencia Presencia Presencia Presencia Presencia Presencia Presencia Presencia Presencia Presencia Presencia Presencia Presencia Presencia Presencia Presencia Insercin en msculo suboccipita l Moderada Ligera Ligera Moderada Moderada Moderada Moderada Moderada Moderada Moderada Moderada Moderada Marcada Moderada Marcada Moderada Marcada Marcada Marcada Moderada Moderada Moderada Marcada Marcada Marcada Marcada Marcada Moderada Moderada Marcada Marcada Marcada Longitud mxima de hmero 310 313 . . . . . . . . . . 262 264 270 271 272 283 283 284 287 290 293 295 302 302 317 . . . . .

VII. Con los datos recolectados en el grupo mediante la Cdula de percepcin corporal, sexualidad y antropometra: 1. Realizar una tabla cruzada entre Sexo y Persona con la que tuvieron su primera relacin sexual (pregunta 13) utilizando los casos que contestaron S haber tenido relaciones sexuales. 2. Llenar la siguiente tabla con los datos indicados: VARIABLE MUJERES HOMBRES Estatura ~ ~ s c.v. s x x x x autopercibida Peso autopercibido Estatura antropomtrica Peso antropomtrico 3. Para cada valor en la muestra, calcule el ndice cintura-cadera (ICC)

c.v.

153

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


ICC= Permetro de cintura Permetro de cadera

a fin de realizar una grfica de de caja para comparar los valores de este ndice por sexo. VIII. En varias ocasiones ciertos problemas de salud no permiten que un individuo se coloque en posicin para poder medir directamente su estatura total; para estimar su valor se utilizan entonces medidas indirectas, como la altura de rodilla, que se suponen estn fuertemente correlacionadas con dicha variable. 1. Utilizando los datos recolectados para mujeres, considerando la estatura total como variable dependiente y la altura a la rodilla como variable independiente: a) Graficar los datos en un diagrama de dispersin. Se observa una tendencia lineal en los datos? b) Calcular el coeficiente de correlacin lineal. c) Ajustar el modelo de regresin lineal. d) Es un modelo adecuado? Calcular R 2 . e) Ejemplificar el uso del modelo prediciendo dos valores y graficando la recta sobre el diagrama de dispersin. 2. Repetir el ejercicio con los datos de hombres.

154

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Sexo F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F M M M M M M M M M M M M M M M Turno M M M M M M M M M M M M M M M M M M M M M M M M M V V V V V V V V V V V V V V V M M M M M M M M V V V V V V V Edad 20.9 20.4 18.2 22.1 21.4 18.7 24.0 29.8 21.5 24.0 18.9 24.1 21.0 19.8 20.1 19.0 19.5 22.3 26.6 25.7 24.4 17.8 21.2 25.2 20.7 18.3 22.8 23.6 18.4 21.7 18.4 20.2 30.7 18.3 19.4 19.6 20.3 32.2 27.5 21.4 18.8 18.7 26.9 22.1 21.8 21.0 37.8 23.6 19.8 21.8 20.9 24.5 25.0 29.5 30.6 Lug_soc jos_mam L_hijos Ciudad 3 3 Ciudad 3 3 Ciudad 1 1 Ciudad 4 3 Ciudad 5 5 Ciudad 3 1 Ciudad 3 1 Ciudad 3 2 Ciudad 2 2 Ciudad 4 1 Ciudad 2 2 Ciudad 2 2 Ciudad 2 Ciudad 3 3 Ciudad 2 2 Ciudad 2 1 Ciudad 5 5 Ciudad 2 1 Ciudad 2 1 Ciudad 3 1 Pueblo 4 1 Ciudad 3 1 Ciudad 3 1 Ciudad 3 1 Ciudad 2 2 Pueblo 1 1 Ciudad 3 2 Ciudad 2 1 Ciudad 2 2 Ciudad 3 1 Ciudad 2 1 Ciudad 4 1 Ciudad 3 1 Ciudad 2 2 Ciudad 3 1 Ciudad 2 2 Ciudad 2 1 Ciudad 2 1 Ciudad 4 4 Ciudad 4 3 Ciudad 6 4 Pueblo 2 2 Ciudad 3 1 Pueblo 4 4 Ciudad 1 7 Ciudad 2 2 Ciudad 2 1 Ciudad 3 1 Ciudad 3 2 Ciudad 3 2 Ciudad 2 2 Ciudad 2 1 Ciudad 1 1 Ciudad 4 3 Ciudad 6 6 Ciudad 2 1 PIC 1 5 2 3 7 2 7 4 4 5 2 3 3 6 6 4 2 5 3 3 3 3 3 2 3 5 4 7 3 5 3 6 3 6 6 4 3 7 3 3 5 3 3 4 2 3 2 7 2 3 3 4 2 5 4 3 Estatura 1.39 1.61 1.55 1.55 1.56 1.58 1.62 1.54 1.53 1.55 1.60 1.54 1.68 1.68 1.53 1.53 1.65 1.69 1.70 1.60 1.55 1.52 1.47 1.62 1.56 1.60 1.60 1.50 1.58 1.52 1.57 1.57 1.56 1.72 1.54 1.56 1.60 1.58 1.55 1.62 1.67 1.77 1.83 1.68 1.67 1.84 1.62 1.80 1.64 1.65 1.73 1.78 1.75 1.65 1.76 1.74 Peso 44.00 63.00 50.00 58.00 62.00 49.90 70.00 51.00 54.00 70.00 50.00 49.00 57.00 69.00 54.00 49.00 68.00 65.00 51.00 50.00 51.00 40.00 53.40 52.80 61.00 57.00 63.00 58.00 47.50 60.00 52.00 62.00 65.00 56.00 53.00 70.00 54.00 48.00 64.00 71.00 77.00 82.00 67.50 72.00 61.00 90.00 60.00 66.00 75.00 68.00 66.00 66.50 72.00 70.00 Rel_sex Si No Si Si Si Si Si Si Si No Si Si Si No Si Si Si Si Si Si Si No Si Si Si Si Si No No Si Si No Si Si Si Si Si Si No Si Si Si Si No Si Si Si Si Si No Si Si Si Edad_rel_sex 16 18 19 18 17 23 16 15 17 15 18 17 16 19 14 23 16 19 17 16 15 20 15 P13 Mayor Misma edad Misma edad Mayor Misma edad Menor Misma edad Mayor Misma edad Misma edad Mayor Misma edad Misma edad Misma edad Mayor Misma edad Mayor Misma edad Mayor Mayor Mayor Mayor Mayor P14 Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Amigo (a) Novio (a) Amigo (a) Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) P15 Si Si Si Si Si Si Si No Si No Si No No Si Si Si Si Si Si Si Si Si Si P16 Condones Condones Condones Condones Condones Condones Condones P17 A veces Siempre Siempre Siempre Siempre Siempre Siempre A veces A veces Siempre A veces Siempre Siempre Siempre A veces Siempre Siempre A veces Siempre Siempre Siempre Siempre Siempre P18 5 1 1 2 1 1 1 7 1 13 3 4 9 2 3 1 3 1 3 3 2 2 1 Estatura_total 1,547 1,594 1,573 1,538 1,553 1,560 1,524 1,525 1,544 1,594 1,521 1,666 1,513 1,494 1,630 1,625 1,676 1,586 1,518 1,500 1,475 1,604 1,512 1,581 1,560 1,465 1,542 1,516 1,557 1,575 1,724 1,505 1,534 1,569 1,584 1,538 1,610 1,638 1,736 1,812 1,662 1,668 1,780 1,617 1,790 1,617 1,632 1,716 1,771 1,697 1,614 1,729 1,725

Condones

Pastillas de emergencia

Condones Condones Condones otro Condones Condones Pastillas de emergencia Condones Condones Condones

16 17 15 15 16 19 18 18 16 16 17 21 18 18 15 17 18 17 21 18

Mayor Misma edad Mayor Mayor Mayor Mayor Misma edad Mayor

Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Novio (a) Esposo (a)

Si Si Si Si Si Si Si Si Si Si Si No Si Si No Si Si No Si Si

Condones Condones Pastillas Condones Condones Condones Condones Pastillas de emergencia Condones Pastillas de emergencia Condones

A veces Siempre Siempre Siempre Siempre Siempre Siempre Siempre A veces Siempre A veces

3 1 3 999 3 5 2 3 30 21 1 1 35 16 2 3 2 4 3 5

Mayor Conocido (a) Misma edad Conocido (a) Mayor Novio (a) Menor Novio (a) Misma edad Menor Misma edad Mayor Misma edad Mayor Mayor Misma edad Novio (a) Novio (a) Amigo (a) Novio (a) Novio (a) Novio (a) Amigo (a) Novio (a)

Ritmo Condones 99 Condones Condones Retiro Condones Condones

Siempre A veces Siempre Siempre Siempre A veces A veces A veces

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Estat_m 1.55 1.59 1.57 1.54 1.55 1.56 1.52 1.53 1.54 1.59 1.52 1.67 1.51 1.49 1.63 1.63 1.68 1.59 1.52 1.50 1.48 1.60 1.51 1.58 1.56 1.47 1.54 1.52 1.56 1.58 1.72 1.51 1.53 1.57 1.58 1.54 1.61 1.64 1.74 1.81 1.66 1.67 1.78 1.62 1.79 1.62 1.63 1.72 1.77 1.70 1.61 1.73 1.73 Peso_corp 36.00 63.50 47.00 54.00 58.50 43.00 48.50 54.00 69.00 44.00 52.00 75.00 48.00 51.50 46.00 64.50 65.00 45.00 48.50 47.00 41.00 48.00 46.00 56.00 53.00 65.00 46.00 41.50 46.00 64.50 62.00 68.00 53.50 49.50 68.00 51.00 47.00 58.50 65.50 71.00 89.00 62.50 76.50 54.50 90.50 52.00 60.50 71.50 68.50 71.00 55.00 65.50 66.00 Peri_cint 548 920 680 749 650 630 723 680 860 623 680 845 712 853 620 823 823 649 679 660 640 667 632 740 705 903 671 650 706 866 800 840 775 695 850 688 656 743 745 774 997 850 897 700 1,050 770 755 846 857 911 755 810 815 Est_sent 814 822 804 804 819 824 809 826 830 844 797 871 784 801 841 871 869 851 794 791 765 808 841 805 829 801 838 804 821 801 920 750 821 825 845 826 830 859 931 971 857 878 917 831 926 840 892 861 895 885 839 904 910 Alt_rod 422 444 440 424 434 430 448 405 404 425 439 465 425 404 456 479 454 423 421 416 430 452 396 442 451 430 425 426 452 452 485 441 414 451 424 439 454 458 481 483 499 434 528 484 501 495 464 512 525 504 469 491 495 Peri_cad 790 982 860 945 1,000 835 939 940 1,077 883 990 1,054 907 921 850 986 1,032 865 885 802 830 894 930 960 915 998 870 860 864 994 1,010 1,084 920 880 1,030 841 863 982 950 1,014 1,097 1,020 1,003 857 1,069 860 914 973 983 1,023 907 932 927

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


1 Curso: Estadstica Prctica I: Diseo de base de datos en SPSS

Elabor: Jos Luis Castrejn Caballero

El objetivo de esta prctica es que el alumno presentar un panorama general del uso del SPSS. Ilustraremos el uso del programa creando una base de datos relacionada con la cedula que se anexa a la prctica. Se utiliza la versin 15 en espaol. I. El ambiente de SPSS. La pantalla inicial del SPSS se presenta en la figura siguiente. Esta pantalla corresponde al editor de datos, es decir donde podremos observar la informacin que estaremos analizando. Las columnas identifican las variables y los renglones corresponde a los casos. En la parte superior podemos observar el men principal: Archivo, Edcin, Ver, Datos,..., Ventana, ?. Los iconos de la parte inferior de este men corresponden a instrucciones que uno puede llamar con slo dar clic en la figura correspondiente.

En la ventana inferior se pueden apreciar dos pestaas: Vista de datos que se encuentra activada y Vista de variables que aparece inactiva. El primer paso para elaborar una base de datos consiste en definir los nombres y caractersticas

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


2 de las variables a utilizar, lo cual podemos realizar dando clic en la pestaa Variable View, con lo cual aparece la siguiente pantalla.

La primera columna (Nombre) corresponde al nombre de la variable; a diferencia de versiones anteriores en sta se permiten nombres que pueden exceder 8 caracteres pero que no debe contener espacios ni smbolos como $, %, &, /, etc. Lo que si puede utilizarse es el guin bajo (_). La segunda columna (Tipo), corresponde al tipo de variable que puede ser numrica, alfanumrica o carcter (cadena), fecha, entre otras. Anchura permite definir la anchura de la variable, es decir el espacio mximo que ocupar el dato que ser almacenado en esta variable. El nmero de decimales (Decimales) a utilizar (cuando la variable es numrica) corresponden se define en la siguiente columna. La columna Etiqueta permite especificar una identificacin a la variable que puede ser el nombre completo de la variable en la cdula o encuesta. Esta etiqueta puede contener espacios y cualquier smbolo. La columna Valores permite definir el nombre de las categoras en las variables cualitativas. La columna Perdidos permite definir los valores que toma una variable cuyo dato es perdido. Otra opcin es no asignar ningn valor a los datos perdidos con lo que el programa denota con un punto en

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


3 lugar del dato. Columnas se refiere al ancho de la columna donde esta definida la variable. La alineacin (centrada, derecha o izquierda) de los datos en la columna de la variable correspondiente se define con la opcin Alineacin. Algunos anlisis estadsticos se realizan para determinados tipos de variables, por lo que es conveniente definir en la columna Medida si se trata de una variable cuantitativa (Escala), Ordinal o Nominal. Ahora se ilustrar con el diseo de la base correspondiente a la cdula anexa. Aunque no est numerada como item o pregunta, el folio es la primera variable. Se supone que la cdula no se aplica a ms de 1000 personas, por lo que esta variable la podemos definir con su nombre folio y con un ancho de 3, sin decimales, y con una etiqueta que diga Folio de la cdula. La pantalla correspondiente queda como se muestra en la figura siguiente:

La variable sexo tiene dos posibles valores F para las mujeres y M para los hombres. Convendremos la siguiente codificacin: 1=Femenino, 2=Masculino. Por lo tanto el nombre de la variable ser sexo, ser numrica de ancho 2, con 0 decimales y la etiqueta ser Sexo del individuo. Al introducir estos valores y dndole clic en la columna Valores, y enseguida en el botn siguiente pantalla: se muestra la

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


4

El cuadro gris con tres puntos men:

es un smbolo usado por SPSS que indica que

existe un men al dar clic en l. Realizando esta accin nos queda el siguiente En Valor se introduce el valor numrico o cdigo y en Etiqueta el significado de ese cdigo. Hay que dar clic en el botn Aadir para adicionar la codificacin. En nuestro caso tenemos 1=Femenino y 2=Masculino. Por lo que debe quedar como se ve en el siguiente cuadro:

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


5

Los botones Cambiar y Eliminar se utilizan en el caso de cometer algn error en la definicin de las categoras. Dar clic en Aceptar para regresar a la ventana de Vista de variables De manera similar definimos la variable turno, la cual la dejamos numrica con ancho 2, 0 decimales, con etiqueta Turno en la ENAH, y codificamos 1=Matutino, 2=Vespertino. Nos queda la siguiente pantalla:

Es el momento de guardar el archivo en disco. Se puede guardar dando clic en el icono , seleccionando la carpeta y dndole un nombre, por ejemplo: cedula

estadstica. Se recomienda guardar cotidianamente para no perder demasiada


informacin por fallas de energa o del equipo de cmputo. La siguiente variable es el lugar de nacimiento, que tendr como nombre l_nacimiento, daremos clic en el campo Tipo para cambiar a Cadena, ya que se capturar el nombre del estado tal cual, tendr un ancho de 35, y como Etiqueta le pondremos Lugar de nacimiento. Aunque esta variable es categrica, tal y como la hemos definido no tiene Valores.

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


6 La variable Fecha de Nacimiento tendr por nombre f_nacimiento, la definiremos como tipo Fecha y con formato ddmmm-yyyy, dando clic en la celda correspondiente a la columna Tipo y seleccionando Fecha como se muestra en la figura de junto. En este caso la Anchura se define automticamente de 11 espacios, por lo que el ancho de c Columnas deber tener al menos esta longitud. La pregunta 5 de la cdula es conocida como lugar de socializacin es una variable categrica, la cual llamaremos lug_soc y tendr por etiqueta Lugar de socializacin, con los cdigos 1=Rancho, 2=Pueblo y 3=Ciudad. La variable nmero de hijos de tu mam (hijos_mama) es cuantitativa discreta, por lo tanto es numrica, sin decimales, la definiremos con ancho 2 y la etiqueta ser el enunciado de la pregunta; no tiene Valores ya que no tiene categoras. La variable paridad (lugar que ocupas entre los hijos de tu mam) es similar a la anterior. La variable autopercepcion tiene que ver con la figura o silueta seleccionada de un total de nueve posibilidades. Es una variable categrica ordinal y le pondremos como etiqueta Figura seleccionada. Las variables estatura y peso autodefinidas las llamaremos estatura_auto y peso_auto, son cuantitativas, las definiremos con dos decimales. La primera parte de la cdula queda definida como se muestra en la siguiente figura.

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


7

Ejercicio: Completar el diseo de la base de datos, con la parte de sexualidad y antropometra y capturar la informacin contenida en las hojas anexas.

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Folio: ESCUELA NACIONAL DE ANTROPOLOGA E HISTORIA CDULA PERCEPCIN CORPORAL CURSO: ESTADSTICA (2008) 1. Sexo F M 2. Turno M V

3. Lugar de nacimiento (Estado): 4. Fecha de nacimiento: da 5. Los primeros 10 aos de tu vida los pasaste en: 1) Un rancho 2) Un pueblo 6. Cuntos hijos tuvo o ha tenido tu mam?: 7. Qu lugar ocupas entre los hijos de tu mam?: 8. De acuerdo a tu sexo, considera las nueve siluetas que se presentan a continuacin cul es la que ms representa la tuya? Tchala mes ao

3) Una ciudad

9. Cul es tu estatura actual (metros)?: 10. Cul es tu peso actual (kg)?:

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso


Folio: ESCUELA NACIONAL DE ANTROPOLOGA E HISTORIA CDULA SEXUALIDAD Y ANTROPOMETRA CURSO: ESTADSTICA (2008) 11. Has tenido relaciones sexuales? 1) S 2) No

12. A qu edad tuviste tu primera relacin sexual? 13. La persona con la que tuviste tu primera relacin sexual era: 1) De tu misma edad 2) Mayor que t 3) Menor que t 14. Qu relacin tenas con la persona con la que tuviste tu primera relacin sexual? 1) Novio(a) 2) Esposo(a) 3) Amigo(a) 4) Conocido(a) 5) Prostituto(a) 6) Familiar 7) Otra relacin 15. En tu primera relacin sexual t o tu pareja hicieron algo para evitar tener un embarazo? 16. Qu fue lo que hicieron para evitar un embarazo? 2) Pastillas de anticoncepcin de 1) Pastillas emergencia 4) Dispositivo 5) Condones 7) Ritmo 8) Retiro

1) S

2) No

3) Inyecciones 6) vulos, espumas, jaleas 9) Otro

17. Cundo tienes relaciones sexuales acostumbras usar alguno de los mtodos anteriores para evitar un embarazo? 1) Siempre 2) A veces 3) Nunca 18. Durante toda tu vida con cuntas personas diferentes has tenido relaciones sexuales?

Estatura total: Peso corporal: Permetro de cintura:

DATOS ANTROPOMTRICOS Estatura sentado: Altura de rodilla: Permetro de cadera:

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Estadstica Prctica II: Construccin de variables e ndices y estadstica descriptiva con SPSS Elabor: Jos Luis Castrejn Caballero La prctica utiliza la base de datos contenida en el archivo cedula estadistica.sav creada en la prctica I, y utiliza la versin 15 del SPSS en espaol. Edad exacta A) A partir de la variable fecha de nacimiento y considerando que la fecha de toma de informacin fue el 16 de enero del 2008 determinar la edad exacta de cada elemento de la muestra. Razonamiento: Si determinamos el nmero de das entre las dos fechas y dividimos esta cifra entre 365 tendremos una aproximacin a la edad exacta. En SPSS existe una funcin que determina el nmero de das entre dos fechas, llamada CTIME.DAYS(time), donde time es un intervalo de tiempo, que en nuestro caso es la diferencia entre la fecha de toma y la fecha de nacimiento. Por lo tanto el procedimiento ser el siguiente: 1. Crear una variable tipo fecha llamada fechat, tipo fecha, que tenga el valor 16-01-2008 en todos los casos. Lo haremos en el ambiente de variables (Variable View) insertando la nueva variable despus de la fecha de nacimiento (fecha_nac) lo cual puede realizarse colocndonos despus de esta variable y despus seleccionar del men Edicin la opcin Insertar variable o rpidamente con el icono . Despus de esta variable insertaremos una nueva variable llamada edad, numrica con dos decimales, la ventana de variables debe quedar como sigue:

2. En el ambiente Vista de Datos, llenamos todas las celdas de la nueva variable fechat con el valor de la fecha de toma: 16-01-2008 (usando copiar, pegar), quedando como se muestra en la figura siguiente:

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

3. Utilizaremos las variables fechat y f_nac con la funcin CTIME.DAYS. Damos clic en el men Transformar luego en Calcular variable, tal como se muestra en la figura de al lado.

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso En el recuadro resultante introducir el nombre edad en el espacio de Variable de destino. Del Grupo de funciones seleccionamos Extraccin de duracin del tiempo y de las Funciones y variables especiales seleccionamos la funcin CTIME.DAYS, introducindola en el espacio de Expresin numrica, mediante el botn correspondiente, cambiando el argumento como se muestra en la figura, escribiendo los parntesis cono se indica.

4. Dar clic en el botn clic en el botn variable edad.

. Si el programa pregunta sobre cambiar la variable existente dar . En la ventana de Vista de datos pueden apreciarse los valores de la

ndice de Masa Corporal El ndice de Masa Corporal (IMC) es una de las medidas ms usadas en estudios antropomtricos y de nutricin, siendo uno de los indicadores del nivel de obesidad. La expresin matemtica, debida al fsico de origen belga Quetelet, es: peso(kg ) IMC = estatura 2 (m) El antroplogo fsico mexicano Luis Vargas ha propuesto la siguiente clasificacin de los valores del ndice, por lo que utilizaremos los valores de categora indicados en este ejercicio. Valor Categora IMC 1 Emaciacin < 15 2 Bajo peso 15 - 18.9 3 Normal 19 - 24.9 4 Sobrepeso 25 - 29.9 5 Obesidad 30 - 39.9 6 Obesidad severa > 40 Para calcular este ndice con los datos antropomtricos que estamos trabajando, en primer lugar, tenemos que convertir la estatura a metros (est en milmetros). Para lograrlo dividiremos la estatura entre 1000. En el men (Transformar, Calcular variable) introducimos esta operacin como sigue, despus de dar clic en el botn para borrar la operacin anterior.

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso Nombre de la nueva variable.

Expresin matemtica.

Ahora estamos en condiciones de calcular el IMC. En el mismo men, introducimos la expresin matemtica, llamaremos imca a esta nueva variable. El botn es el operador que permite elevar a cualquier potencia un valor determinado. Nombre de la nueva variable. Expresin matemtica.

Lo que sigue es clasificar los valores del IMC segn la propuesta de Luis Vargas y que hemos explicitado en el cuadro anterior. Para lograr esto construiremos una nueva variable llamada CIMC la cual tendr valores que van de 1 a 6 segn el valor del IMC.

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Utilizaremos de nuevo la opcin TransformarCalcular como se muestra en la siguiente figura: Para definir los valores correspondientes al cdigo 1 daremos clic en el botn Si

En el cuadro de dialogo resultante, primero activamos la opcin Incluir si el caso satisface la condicin: En el cuadro pasamos la variable imca y escribimos la condicin usando los botones de calculadora. Dar clic en Continuar. Dar clic en Aceptar.

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso Repetimos el procedimiento para definir el cdigo 2 como se muestra en la figura. Daremos clic en el botn Si para modificar la condicin.

Ahora la nueva condicin se escribe como se indica en el cuadro. El smbolo & indica el conector lgico y, es decir que se cumple al mismo tiempo. Para la opcin o utilizaremos el smbolo | De una manera similar se construyen los cdigos 3 a 6, situacin que queda como ejercicio para el estudiante.

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Similar a lo que se hizo en la prctica 1, en el ambiente de Vista de variables se pueden definir las etiquetas de las variables que hemos construido hasta ahora y los valores o cdigos de la nueva variable CIMC, lo que se vera como sigue: Las nuevas variables construidas tendrn como etiqueta Estatura en metros, ndice de masa corporal antropomtrico y Clasificacin del ndice de masa corporal antropomtrico. ndice Cadera-Cintura Uno de los indicadores ms usados para determinar riegos cardiovasculares por problemas de obesidad es la relacin entre el permetro de la cintura y el de la cadera cuya expresin matemtica es: Permetro de cintura ICC= Permetro de cadera Los valores del ICC se clasifican de manera diferente segn el sexo. La siguiente tabla es una propuesta de la OMS en funcin del riego de padecer una enfermedad de tipo cardiovascular: Tipo de riesgo 1= Bajo 2 = Elevado 3 = Muy elevado Hombres <0.90 0.90 a 1.00 >1.00 Mujeres <0.80 0.80 a 0.85 >0.85 Tarea 1. Calcular el valor del ICC 2. Elaborar una variable que contenga la clasificacin segn sea el sexo, llamarla CICC.

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Estadstica descriptiva En este apartado obtendremos algunos estadsticos descriptivos con el auxilio del SPSS. Tablas de frecuencias 1. Obtendremos las tablas de frecuencias de las variables sexo, turno e imca. En el opcin Analizar del men principal seleccionar Estadsticos Descriptivos y luego Frecuencias, apareciendo al cuadro que se muestra a un lado. Seleccionaremos las variables Sexo, Turno y CIMC pasndolas al cuadro de Variables, como se muestra en la figura. Dar clic en el botn .

La pantalla de resultados muestra, entre otros los siguientes cuadros:


Sexo Frecuencia 41 25 66 Porcentaje 62.1 37.9 100.0 Porcentaje vlido 62.1 37.9 100.0 Porcentaje acumulado 62.1 100.0

Vlidos

Femenino Masculino Total

Turno
Frecuencia 39 27 66
Porcentaje 59.1 40.9 100.0
Porcentaje vlido 59.1 40.9 100.0
Porcentaje acumulado 59.1 100.0

Vlidos

Matutino Vespertino Total

Clasificacin de ndice de masa corporal antropomtrico


Frecuencia 7 40 16 3 66
Porcentaje 10.6 60.6 24.2 4.5 100.0
Porcentaje vlido 10.6 60.6 24.2 4.5 100.0
Porcentaje acumulado 10.6 71.2 95.5 100.0

Vlidos

Bajo peso Normal Soberpeso Obesidad Total

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

Tablas cruzadas Se desea establecer si existe o no relacin entre entre las variables sexo y has tenido relaciones sexuales? En SPSS utilizaremos el men Analizar, de donde seleccionaremos la opcin Estadsticos Descriptivos y luego Tablas de contingencia En el cuadro Filas introducir la variable sexo y en el de Columnas la variable que tiene que ver con la primera relacin sexual como se muestra en la figura que se presenta a un lado. Dar clic en el botn y seleccionar de la opcin Porcentajes la opcin Fila para obtener porcentajes por rengln, como se muestra en el cuadro de abajo. Dar clic en Continuar y despus en Aceptar.

Se obtiene la siguiente tabla:


Obsrvese que el porcentaje de hombres que declararon que ya han tenido relaciones sexuales es mayor que el de mujeres.
Tabla de contingencia Sexo * Has tenido relaciones sexuales? Has tenido relaciones sexuales? S No 28 13 68.3% 31.7% 22 3 88.0% 12.0% 50 16 75.8% 24.2%

Total 41 100.0% 25 100.0% 66 100.0%

Sexo

Femenino Masculino

Total

Recuento % de Sexo Recuento % de Sexo Recuento % de Sexo

Grficas de barras Realizaremos una grfica de barras para cada sexo de la variable Durante toda tu vida con cuntas personas diferentes has tenido relaciones sexuales?

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso En primer lugar utilizaremos la opcin Segmentar archivo de la opcin Datos del men principal. Esta opcin nos permite realizar las mismas instrucciones para los grupos definidos en la variable; en nuestro caso usaremos la variable sexo lo que nos permitir que todas las instrucciones que hagamos mientras este activada esta opcin se realice para hombres y mujeres por separado. Despus de seleccionar la opcin Comparar los grupos, se introduce la variable sexo como se muestra en la figura.

10

Para realizar la grfica de barras, de la opcin Grficos seleccionamos Cuadro de dilogo antiguos y escogemos Barras apareciendo la figura que se muestra a la izquierda. Dejamos la opcin Simple seleccionada por default y damos clic en el botn Definir, obteniendo el cuadro que se muestra abajo. Seleccionamos la opcin % de casos e introducimos la variable de inters en el cuadro Eje de categoras.

Despus de dar clic en Continuar y luego en Aceptar, se obtienen las grficas que se presentan a continuacin.

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso

11

Sexo: Femenino
40.0% 40.0%

Sexo: Masculino

30.0%

30.0%

Porcentaje

20.0%

Porcentaje
1 2 3 4 5 6 7 15

20.0%

10.0%

10.0%

0.0%

0.0% 1 2 3 4 5 6 10 17

Durante toda tu vida con cuntas personas diferentes has tenido relaciones sexuales?

Durante toda tu vida con cuntas personas diferentes has tenido relaciones sexuales?

Media, mediana, moda, desviacin estndar, coeficientes de asimetra y curtosis. En esta seccin ejemplificaremos como obtener las medidas de tendencia central y de dispersin para variables cuantitativas. Ilustraremos las tcnicas para el caso de las variables estatura total y peso para cada sexo. Recordemos que en el apartado anterior dejamos activa la opcin Segmentar archivo por lo cual los resultados que se obtengan se repetirn para mujeres y hombres. En el opcin Analizar del men principal seleccionar Estadsticos Descriptivos y enseguida Frecuencias, apareciendo al cuadro que se muestra a un lado. Seleccionaremos las variables Peso Corporal y Estatura total pasndolas al cuadro de Variables, como se muestra en la figura. Desactivar la opcin Mostrar tablas de frecuencias. Dar clic en el botn para seleccionar las medidas solicitadas.

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso En el men resultante seleccionar las medidas como se muestra en la figura. Dar clic en Continuar y luego en Aceptar. Se obtiene el cuadro con los resultados por sexo que se muestra abajo.

12

Estadsticos Sexo Femenino N Media Mediana Moda Desv. tp. Asimetra Error tp. de asimetra Curtosis Error tp. de curtosis N Media Mediana Moda Desv. tp. Asimetra Error tp. de asimetra Curtosis Error tp. de curtosis Vlidos Perdidos Estatura total Peso corporal 41 41 0 0 1576.39 57.300 1571.00 57.500 1563a 44.4a 50.010 11.5560 .309 .883 .369 .369 .094 1.204 .724 .724 25 25 0 0 1700.84 68.712 1699.00 65.600 1675 53.1a 65.987 12.7657 .426 .925 .464 .464 .320 .220 .902 .902

Masculino

Vlidos Perdidos

a. Existen varias modas. Se mostrar el menor de los valores.

Grficas de caja Recordemos que las grficas de caja se construyen con base en los cuartiles y permiten comparar dos o ms grupos respecto a los valores de una variable cuantitativa. Ilustraremos el uso del SPSS creando una figura que permita comparar el IMC respecto al sexo y turno de los alumnos.

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso En primer lugar desactivaremos la opcin Segmentar archivo. Del men principal seleccionamos Datos y luego Segmentar archivo. Ahora activamos la opcin Analizar todos los casos, no crear los grupos, como se muestra en la figura de al lado. Dar clic en Aceptar.

13

Para realizar la grfica, del men Grficos elegimos la opcin Cuadros de dialogo antiguos y Diagramas de caja. Seleccionamos el tipo Agrupado y damos clic en el botn , con lo cual aparece la ventana que se ve abajo a la derecha, donde introducimos las variables como se indica en la ventana. Dar clic en Aceptar.

Estadstica para antroplogos fsicos Jos Luis Castrejn Diana Troncoso La grfica que se obtiene es la siguiente:
35.00

14

Turno
Matutino Vespertino

30.00

imca

25.00

20.00

15.00 Femenino Masculino

Sexo

Tarea 3. Realiza una tabla de frecuencias para las variables: En tu primera relacin sexual t o tu pareja hicieron algo para evitar tener un embarazo? Qu fue lo que hicieron para evitar un embarazo? Y Clasificacin del ndice de masa corporal. 4. Realiza una grfica de barras para la variable Clasificacin del ndice cadera-cintura (CICC) para todos los casos. 5. Realiza una tabla cruzada entre las variables Sexo del individuo y La persona con la que tuviste la primera relacin sexual era. 6. Realiza una grfica de caja para la variable ICC comparando por sexo. 7. Realiza grficas de caja para las variables Estatura autopercibida y Peso autopercibido comparando por sexo. 8. Calcula media, mediana, mnimo, mximo y desviacin estndar comparando por sexo para las variables altura de rodilla, estatura sentado, peso corporal, ndice de masa corporal e ndice cintura-cadera. 9. Realiza histogramas para las variables estatura total y estatura sentado para cada sexo. 10. Considerando la estatura total como variable dependiente y la altura a la rodilla como variable independiente: a) Graficar los datos en un diagrama de dispersin. Se observa una tendencia lineal en los datos? b) Calcular el coeficiente de correlacin lineal. Interpretar c) Ajustar el modelo de regresin lineal. Interpretar d) Es un modelo adecuado? Calcular R 2 .

Você também pode gostar