Estadistica Con Mitab PDF

CAPTULO 1
INTRODUCCIN
En este captulo, primero se introducirn algunos conceptos estadsticos bsicos,
luego se dar una definicin y divisin de la estadstica. Finalmente se har una
clasificacin de los distintos tipos de datos que aparecen en un estudio estadstico y de que
forma pueden ser recolectados.
1.1 Conceptos Estadsticos Bsicos
a) Po!aci"n# De una manera bastante general, una poblacin es un conjunto de
individuos u objetos que poseen la caracterstica que se desea estudiar. En un sentido ms
estadstico, una poblacin es el conjunto de mediciones de una cierta caracterstica en todos
los individuos u objetos que poseen dicha caracterstica. Ejemplos
!as edades de todos los estudiantes de una universidad.
!as contestaciones, "# o $o, de todos los estudiantes de universidad a la pregunta Fuma%
!os niveles de colesterol de todas las personas con problemas cardiacos.
) $%est&a# Es una parte de la poblacin, y es el conjunto de mediciones que han
sido realmente recolectados. !a e&traccin de la muestra es un paso bien importante porque
es a partir de ella que se sacan conclusiones acerca de la poblacin. El tama'o de una
muestra depende del esquema que se usa para su seleccin. "i el dise'o es sencillo la
muestra tiene que ser relativamente grande, alrededor de un ()* del tama'o de la
poblacin. "i el dise'o es bien sofisticado el tama'o de la muestra puede ser bien peque'o y
a+n dar conclusiones confiables. ,or ejemplo, en las encuestas polticas de un pais donde
hay millones de electores una muestra de tama'o entre (,))) y -,))) puede dar e&celentes
conclusiones.
c) $%est&a A!eato&ia# Es una muestra bien representativa de la poblacin. "e
considera que cada elemento de la poblacin ha tenido la misma oportunidad de formar
parte de la muestra. !as conclusiones basadas en una muestra aleatoria son confiables.
Ejemplo "i se hace una encuesta de carcter poltico a nivel nacional, $. sera una muestra
aleatoria si solo se entrevistan personas en los pueblos donde histrcamente cierto partido
es siempre ganador.
d) 'a&ia!e# Es la caracterstica que se desea estudiar. Ejemplos edad, peso, opinin,
ra/a, tipo de sangre.
e) Dato# Es un valor particular de la variable. ,or ejemplo si la variable es el n+mero
de hermanos entonces los datos pueden ser ), (, -,0,1,2,3,4,.....
() Pa&)et&o# Es un valor que caracteri/a a una poblacin. El valor del parmetro es
constante y por lo general es desconocido. Ejemplos
!a edad promedio de todos los estudiantes de una universidad.
El nivel de colesterol promedio de todos los pacientes con problemas cardiacos.

Edgar 5cu'a 6aptulo ( #ntroduccin
El porcentaje de todos los electores de un pas que favorecen a cierto candidato.
*) Estadstico# Es un valor que se calcula en base a los datos que se toman en la
muestra y el cual es usado para estimar el valor del parmetro. El valor del estadstico es
conocido y vara con la muestra tomada. Ejemplos
!a edad promedio de una muestra de 0) estudiantes de una universidad.
El nivel de colesterol promedio de los pacientes con problemas cardiacos que estan
hospitali/ados.
El porcentaje de votantes que favorecen a cierto candidato en una muestra de tama'o -)).
+) Censo# Es un listado de una o ms caractersticas de todos los elementos de una
poblacin. !os censos poblacionales se hacen cada () a'os a nivel mundial, el pr&imo ser
en el a'o -)().
7ay tambi8n otros tipos de censos como censos de vivienda donde se trata de determinar la
cantidad y el tipo de vivienda que hay en un pas. 6ensos agrcolas donde se trata de
determinar las cantidades totales de la produccin agrcola del pas, incluyendo cultivos y
animales.
i) Enc%esta# Es un listado de una o ms caractersticas de todos los elementos de una
muestra.
9n ejemplo son las encuestas de investigacin de mercados donde se desea establecer las
preferencias del consumidor con respecto a cierto tipo de producto comercial.
1., De(inici"n de !a Estadstica.
!a Estadstica es la ciencia donde se aprende acerca de la poblacin a partir de la
informacin recolectada de una muestra e&trada de ella. !a Estadstica comprende los
m8todos usados para recolectar la muestra, la organi/acin y presentacin de los datos
recolectados y la e&traccin de conclusiones mediante la aplicacin de t8cnicas adecuadas a
los datos de la muestra.
!as diversas t8cnicas usadas para e&traer la muestra constituyen el :uestreo
Estadstico. ,or otro lado, al e&traer conclusiones acerca de la poblacin es inevitable que se
cometa un error, el cual es medido usando probabilidades. !a figura (.( muestra un
esquema del anlisis estadstico.
1.- Di.isi"n de !a Estadstica
Estadistica Desc&ipti.a# 6onjunto de t8cnicas y m8todos que son usados para
recolectar, organi/ar, y presentar en forma de tablas y grficas informacin num8rica.
;ambi8n se incluyen aqu el clculo de medidas estadsticas de centralidad y de variabilidad.
-
,oblacin
,armetro
:uestreo
Estadstico
Fig (.(. <rfica del 5nlisis Estadstico
Estadistica In(e&encia!# 6onjunto de t8cnicas y m8todos que son usados para sacar
conclusiones generales acerca de una poblacin usando datos de una muestra tomada de
ella.
1./ Tipos de Datos
Es importante clasificar los datos estadsticos porque hay algunas grficas y m8todos
estadsticos que son solamente adecuados para cierto tipo de datos. !a siguiente es la
clasificacin de datos ms frecuentemente usada.

A. Datos C%antitati.os. "on aquellos que resultan de hacer mediciones o conteos. "e
clasifican a su ve/ en dos subtipos
A1. Datos Disc&etos. "on los que resultan de hacer conteos y por lo general son
n+meros enteros. Ejemplos
$+mero de llamadas que llegan a un cuadro telefnico en un perodo de () minutos.
$+mero de personas que habitan una casa.
$+mero de accidentes que ocurren semanalmente en una fbrica.
A,. Datos Contin%os. "on los que resultan de hacer mediciones y pueden asumir
cualquier valor de la recta real.
Ejemplos tiempo de espera para ser atendido en un banco. ;emperatura, peso, altura,
salario, etc.
B. Datos C%a!itati.os o Cate*"&icos. "on aquellos que e&presan atributos o categoras.
,ara facilitar el anlisis estadstico de este tipo de datos frecuentemente se codifican a
n+meros, esta codificacin da lugar a dos subtipos de datos categricos
B1. Datos No)ina!es. "on aquellos que pueden ser codificados num8ricamente pero
donde hay una relacin arbitraria entre los n+meros asignados y el valor de la variable.
Ejemplo "e&o, se puede asignar indistintamente la codificacin ) ( a femenino y
masculino. . inclusive usar otros n+meros.
.tros ejemplos son =a/a de la persona, ,rograma de estudio, ;ipo de "angre.
B,. Datos O&dina!es. "on aquellos que al ser codificados num8ricamente deben
guardar una correspondencia entre los n+meros asignados y el verdadero valor de la
variable.
0
:uestra
Estadstico
Estadstica
#nferencial
Estadstica Descriptiva
,robabilidad
Ejemplo. !a respuesta a una pregunta de un cuestionario de evaluacin puede ser
Deficiente, regular, promedio, bueno y e&celente. 5l momento de codificar estos datos
debera usarse ), (, -, 0, 1, o una secuencia ordenada de n+meros similar a ella, pero no se
puede asignar algo como 0, 2, 1, (, - porque se perdera el significado de los verdaderos
datos.
.tros ejemplos son
6ategora de ,rofesor #nstructor, 6atedrtico 5u&iliar, 6atedrtico 5sociado, 6atedrtico
,rincipal.
$ivel de empleo Desempleado, subempleado, empleado.
1.0 T1cnicas de $%est&eo
!as siguientes son las maneras ms usadas de e&traer muestras de una poblacin.
a> $%est&eo A!eato&io. "e usa cuando a cada elemento de la poblacin se le quiere
dar la misma oportunidad de ser elegido en la muestra.
b> $%est&eo Est&ati(icado. "e usa cuando se concoce de antemano que la poblacin
est dividida en estratos, que son equivalentes a categoras y los cuales por lo general no son
de igual tama'o. !uego, de cada estrato se saca una muestra aleatoria, usualmente
proporcional al tama'o del estrato. !a muestra combinada formar la muestra estratificada.
c> $%est&eo po& con*!o)e&ados 23C!%ste&s4). En este caso la poblacin se divide
en grupos llamados conglomerados. !uego se elige al a/ar un cierto n+mero de ellos y todos
los elementos de los conglomerados elegidos forman la muestra. 9n ejemplo tpico es
cuando se hacen encuestas en una ciudad y cada uno de los bloques de la misma, forma un
estrato.
d> $%est&eo 5iste)tico. "e usa cuando los datos de la poblacin estn ordenados
en forma num8rica. !a primera observacin es elegida al a/ar de entre los primeros
elementos de la poblacin y las siguientes observaciones son elegidas guardando la misma
distancia entre si. ,or ejemplo, supongamos que la poblacin es de tama'o ())) y
deseamos sacar una muestra de tama'o -), en este caso se divide a la poblacin en ()))?-)
@ 2) partes. !uego de entre las observaciones ( al 2) se elige una de ellas al a/ar,
supongamos que sali la observacin 04, ese sera el primer elemento de la muestra, los
siguientes seran elegidos de 2) en 2). !a muestra consistira de las observaciones 04, A4,
(04, (A4, -04, -A4, 004, 0A4, 104, 1A4, 204, 2A4, 304, 3A4, 404, 4A4, A04, AA4, B04 y BA4.
1.6 $ane&as de Reco!ecta& Datos
a> 7aciendo entrevistas personales.
b> 7aciendo entrevistas por tel8fono.
c> :ediante cuestionarios.
d> ,or observacin directa.
e> 5 trav8s de la #nternet.
1
CAPTULO 2
UNA INTRODUCCIN A MINITAB
2.1Entrando a MINITAB
Hay dos maneras de entrar a MINITAB
1) Eligiendo la secuencia Start Program Minitab 1 !or "indo#$ y,
2) Oprimiendo el cono de MINITAB ue aparece en la pantalla inicial !"#es$top")%
2.2 La$ %&ntana$ d& MINITAB
&o ue atrae a muc'as personas a usar un programa en (IN#O() es ue casi todo
se *asa en elegir opciones de un men+ oprimiendo !,-lic$ing.) el ,mouse.% Anteriormente,
'a*a ue escri*ir las instrucciones !comandos) ue ueriamos ue 'iciera la computadora,
lo cual 'aca ue se tomara m/s tiempo en programaci0n y adem/s propicia*a la posi*ilidad
de cometer errores de sint/1is% Esta alternati2a a+n est/ disponi*le en la 2ersi0n actual de
MINITAB. El uso del "mouse" 'ace ue se a'orre tiempo en programaci0n y ue las
posi*ilidades de cometer errores se aminoren, pero tiene la des2enta3a de ue el usuario
tiene cada 2e4 menos idea de lo ue la computadora 'ace para lle2ar a ca*o cierto an/lisis
estadstico%
En la 5igura 2%1 se muestran las 2entanas e conos ue aparecen cuando se selecciona
el cono de MINITAB . En la parte superior de la pantalla aparece 'a barra d& m&n($,
ue contiene las opciones de )i'&, Edit, Data, Ca'*, Stat, +ra,-, Editor, Too'$, "indo#
y .&',% Inmediatamente de*a3o aparecen una barra d& /*ono$ ue se usan para e3ecutar
r/pidamente ciertas operaciones, tales como a*rir un arc'i2o, guardar el tra*a3o e6ectuado
en un arc'i2o, imprimir, llamar 2entanas de MINITAB, pedir ayuda etc% 5inalmente
aparecen las dos 2entanas principales de MINITAB, ue son S&$$ion y Data.
-ada 2entana tiene una *arra en la parte superior donde aparece el ttulo al lado
i4uierdo precedido del cono ue la representa y tres conos ue aparecen al lado derec'o%
En la 5igura 2%2 se muestra esta *arra para la 2entana $&$$ion.
Edgar Acu7a -aptulo 2 8na Introducci0n a Minita*
5igura 2%1% &as 2entanas ue aparecen al entrar a MINITAB%
5igura 2%2% &a Barra de ttulo de la 2entana session%
El cono 9 se usa para minimi4ar la 2entana, esto signi6ica ue el contenido de la
2entana desaparece y para recuperarlo otra 2e4 'ay ue oprimir el cono ue representa a la
2entana $&$$ion en la *arra de conos% El segundo cono, se usa para ma1imi4ar la 2entana,
esto 'ace ue la 2entana apare4ca ocupando toda la pantalla% :ara 'acer ue la 2entana
2uel2a a su tama7o original se oprime nue2amente el mismo cono%
El cono ; se usa para cerrar la 2entana, en este caso ya no se puede recuperar
nue2amente el contenido de la 2entana%
&a 2entana Data es similar a una 'o3a de c/lculo y cuando se introducen datos por
primera 2e4 es titulada "or0$-&&t !'o3a de tra*a3o)% )i Data contiene una 'o3a de tra*a3o
<
ue ya 'a sido guardada anteriormente entonces es titulada con el nom*re de la 'o3a de
tra*a3o% &os datos de cada 2aria*le se 2an poniendo en las celdas de una misma columna%
&as 6lec'as se pueden usar para mo2erse de una celda a otra% Todo el con3unto de datos es
guardado en una Ho3a de Tra*a3o !,(or$s'eet.) ue s0lo MINITAB puede leerla%
&a 2entana S&$$ion contendr/ resultados de todos los comandos ue se e3ecutan
cuando se oprime el ,mouse. en una sesi0n de MINITAB% Tam*i=n es posi*le 'acer
aparecer los comandos automaticamente &os comandos tam*i=n pueden ser entrados por el
usuario ue en lugar de usar el ,mouse. pre6iere el estilo antiguo de MINITAB.
Hay otras dos 2entanas> .i$tor1 e In!o2 la primera contiene un listado de todos los
comandos ue se 'an e3ecutado en la sesi0n de tra*a3o y la segunda contiene in6ormaci0n
acerca del contenido de las columnas de la 'o3a de tra*a3o% Adem/s cada 2e4 ue se 'ace
una gr/6ica se crea una 2entana ue tiene como ttulo el nom*re de la gr/6ica respecti2a%
Para activar una ventana hay que oprimir el mouse en cualquier parte de la
ventana. Se sabe que una ventana est activada cuando la barra de ttulo aparece de
color azul.
2%? La Barra d& M&n($
&a Barra de Men+s de MINITAB contiene 1@ entradas> )i'&, Edit, Data, Ca'*2 Stat2
+ra,-, Editor, Too'$, "indo# y .&',, cada una de las cuales tienen 2arias opciones%
)i al lado de la opci0n aparece el sm*olo entonces, al elegir esta opci0n aparecer/
un su*men+ de alternati2as% )i la opci0n termina en tres puntos%%% entonces aparece una
3&ntana d& Di4'ogo como el de la 5igura 2%?%
En el recuadro principal de la 2entana de #i/logo aparecer/n listadas todas las
2aria*les a las cuales puede aplicarse el procedimiento elegido% Tam*i=n aparecer/ un
recuadro 3ariab'&$ en donde el usuario tiene ue colocar las 2aria*les a las cuales le 2a a
aplicar el procedimiento% Esto lo puede 'acer de tres maneras>
Primero escri*iendo las 2aria*les a ser anali4adas%
Segundo, marcando las 2aria*les del listado y oprimiendo luego el *ot0n S&'&*t y
Tercero, oprimiendo dos 2eces en la 2aria*le ue aparece en el listado%
8na 2entana de di/logo tam*i=n tiene usualmente los *otones .&',, O0 y Can*&'
A
5igura 2%?% E3emplo de una 2entana de di/logo%
2.5.1 E' M&n( )i'&
-ontiene mayormente opciones ue sir2en para manipular las 'o3as de tra*a3o y para
guardar e imprimir el contenido de las 2entanas de MINITAB% En la siguiente 6igura se
muestra las opciones del men+ )i'&.

5igura 2%B% &as opciones del men+ 5ile%
C
El men+ )i'& contiene las siguientes opciones>
O,*i6n A**i6n
NeD A*re un nue2o proyecto o nue2a 'o3a de tra*a3o%
Open :ro3ect A*re un proyecto ue ya 6ue guardado%
)a2e :ro3ect Euarda un :royecto%
)a2e :ro3ect As Euarda un proyecto con otro nom*re%
:ro3ect #escription Edita una descripci0n del proyecto%
Open (or$s'eet A*re una 'o3a de Tra*a3o ue ya 6ue guardada%
)a2e -urrent (or$s'eet Euarda una Ho3a de Tra*a3o%
)a2e -urrent (or$s'eet As Euarda una Ho3a de Tra*a3o con otro nom*re%
(or$s'eet #escription !F) #a in6ormaci0n acerca de la 'o3a de tra*a3o%
-lose (or$s'eet !F) -ierra una 'o3a de tra*a3o%
Guery #ata*ase!O#B-) &lama a los datos guardados en una Base de #atos%
Open Erap' A*re una gr/6ica de MINITAB%
Ot'er 5iles &lama datos en otro tipo de arc'i2os%
)a2e )ession (indoDs As !F) Euarda el contenido de la 2entana session !pide un nom*re
para el arc'i2o)%
:rint )ession (indoDs !F) Euarda el contenido de la 2entana session%
:rint (or$s'eet Imprime el contenido de una 'o3a de tra*a3o%
:rint )etup -am*ia la con6iguraci0n de la impresora%
E1it )ale de MINITAB%
!F) Estas dos opciones cam*ian cuando la 2entana $&$$ion o una %&ntana d& gr4!i*a est/n acti2a%
&as +ltimas 'o3as de tra*a3o o proyectos ue se 'an usado aparecen al 6inal del men+ )i'& y
pueden ser acti2ados si se los seleccionan con el ,mouse..
2.5.2 E' M&n( Edit
El men+ Edit contiene opciones ue permiten editar el contenido de las celdas de las
columnas del ,(or$s'eet. o el contenido de la 2entana S&$$ion% &a siguiente 6igura
muestra las opciones del men+ Edit cuando la 2entana "or0$-&&t est/ acti2a%
5igura 2%H% &as opciones del men+ Edit
1
&a siguente ta*la muestra las acciones de cada opci0n del men+ Edit cuando la 2entana
Data est/ acti2a%
O,*i6n A**i6n
-lear -ells Borra el contenido de la celda%
#elete -ells Elimina -eldas%
-opy -ells -opia el contenido de las celdas%
-ut -ells Elimina celdas%
:aste -ells Inserta celdas%
:aste &in$ Esta*lece una conecci0n entre una aplicaci0n especi6icada y
MINITAB%
(or$s'eet &in$s -onecta MINITAB con otras aplicaciones%
)elect all -ells )elecciona todas las celdas de una columna%
Edit &ast #ialog &lama a la +ltima 2entana de #i/logo%
-ommnad &ine Editor A*re una 2entana donde escri*ir el comando de lnea%
)i la 2entana $&$$ion est/ acti2a y se 'a marcado un te1to en ella, entonces Copy o Cut
permiten copiar el contenido ue se 'a marcado al C'i,board para luego ser e1portado a un
procesador de pala*ras tal como, "ORD o "ordP&r!&*t.
Para marcar un texto, se coloca el cursor al inicio del texto, mediante un clic del
mouse y lue!o se mantiene oprimido hasta lle!ar al "inal del texto.
:or otro lado, Paste permite copiar el contenido del C'i,board en la 2entana S&$$ion%
-uando se 'acen gr/6icas, en el men+ Edit aparece la opci0n Copy #raph ue permite
en2iar la gr/6ica al C'i,board para luego ser e1portada a un procesador de pala*ras, tal
como $%&' o $ordPer"ect.
2.5.5 E' M&n( Data
El men+ Data contiene opciones para manipular todo el contenido de las columnas
de una 'o3a de tra*a3o% En la siguiente 6igura se muestran las opciones del men+ Data y las
alternati2as ue 'ay para la opci0n Chan!e 'ata (ype.
1
5igura 2%I% &as opciones del men+ Data y de la opci0n C-ang& Data T1,&%
&a siguiente ta*la descri*e todas las opciones de Data.
O,*i6n A**i6n
)u*set (or$s'eet -rea una nue2a 'o3a de tra*a3o usando una condici0n en la 'o3a de
tra*a3o ue se est/ usando
)plit (or$s'eet -rea 'o3as de tra*a3o *as/ndose en una columna ue contiene grupos%
Merge (or$s'eets Junta dos 'o3as de tra*a3o
-opy -olumns -opia datos de una columna en otra columna
8nstac$ -olumns )epara una el contenido de una columna en 2arias columnas%
)tac$ Junta el contenido de dos o m/s columnas !o 6ilas) en una sola
columna !o 6ila)%
Transpose -olumns -on2ierte columnas de datos en 6ilas
)ort Ordena los datos de una columna
Kan$ #a los ordenamientos de los datos de una columna
#elete KoDs Elimina 6ilas de una o 2arias columnas
Erase Laria*les Elimina columnas de datos
-ode Asigna c0digos a columnas
-'ange #ata Type -am*ia el tipo de dato ue tiene la columna%
E1tract 6ron #ateMTime E1trae un dato 'orario y lo con2ierte en num=rico o te1to%
-oncatenate Junta 6ila por 6ila el contenido de dos columnas
#isplay #ata Muestra los datos de la 'o3a de tra*a3o en la 2entana $&$$ion
E7&m,'o 2.1 !89ntar do$ *o'9mna$ d& dato$) )upongamos ue tenemos edades de
'om*res y mu3eres en dos columnas separadas>
1
Hom*res Mu3eres
1C 1<
2? 2@
2< 1C
1A 22
22 2?
2B 1A
1A 21
21
2B
21
si deseamos 3untarla en una sola columna llamada Edad&$, se crea una columna llamada
S&:o ue permite identi6icar el grupo al cual pertenece el dato%
8sando la secuencia Data Sta*0 Co'9mn$. &a 2entana de di/logo aparecer/ as>
5igura 2%<% &a 2entana de di/logo para 3untar columnas
-omo resultado se o*tendr/ dos nue2as columnas> Edad&$ y S&:o en la misma 'o3a de
tra*a3o como se o*ser2a en la gr/6ica siguiente%
1
5igura 2%A Ho3a de tra*a3o ue aparece al 3untar dos columnas%
2.5. E' M&n( Ca'*
El men+ Ca'* contiene opciones para 'acer operaciones aritm=ticas con las columnas
de la 'o3a de tra*a3o, por e3emplo, tomar logartmos a una columna, y para calcular medidas
estadsticas de las 6ilas y columnas% Tam*i=n es posi*le o*tener al a4ar un con3unto de
datos con una distri*uci0n predeterminada y calcular pro*a*ilidades y percentiles de las
distri*uciones m/s conocidas% &a +ltima entrada del men+ Ca'* es )atrices2 la cual
permite 'acer operaciones con matrices% En la 5igura 2%C se muestra las opciones del men+
Ca'* y las alternati2as de la opci0n Probability 'istributions.
1
5igura 2%C% &as opciones del men+ CALC y de la opci0n Probabi'it1 Di$trib9tion$.
En la siguiente ta*la se descri*en todas las opciones del men+ Ca'*.
O,*i6n A**i6n
-alculator :ermite 'acer operaciones aritm=ticas con las columnas%
-olumn )tatistics -alcula medidas estadsticas de una columna%
KoD )tatistics -alcula medidas estadsticas por 6ilas%
)tandari4e Estandari4a una columna de datos !por lo general
'aciendo ue la media sea cero y la 2arian4a 1)%
Ma$e :atterned #ata Eenera datos en secuencia con un patr0n dado%
Ma$e Mes' #ata Eenera datos ue son usados para 'acer una malla%
Ma$e Indicator Laria*les -rea 2aria*les indicadoras de una columna num=rica%
)et Base Esta*lece el 2alor inicial para generar n+meros aleatorios%
Kandom #ata Eenera datos al a4ar de 2arias distri*uciones conocidas%
:ro*a*ility #istri*utions #a la 6unci0n de pro*a*ilidad, la distri*uci0n acumulada
y los percentiles de las distri*uciones m/s conocidas%
Matrices :ermite 'acer operaciones con matrices%
E7&m,'o 2.2 !8so de Ca'*9'ator) )upongamos ue tenemos el siguiente con3unto de
datos> 4 7 12 15 17 18 25 13
1
y deseamos calcular la e1presi0n )
11
N 1
2
O !1)
2
Mn , donde n es el n+mero de datos, 1
representa la suma de los datos, y 1
2
representa la suma de los cuadrados de los datos%
Asumiendo ue los datos son entrados en la columna -1% )e sigue la secuencia Ca'*
Ca'*9'ator. &uego la 2entana de di/logo se completar/ como sigue>
5igura 2%1@% Lentana de di/logo para la opci0n Ca'*9'ator
En la 'o3a de tra*a3o aparecer/ una segunda columna con el nom*re )
11
con una entrada
igual a ?@@%A<H% )i uno desea ue la cantidad sea tratada como una constante y no como
una columna entonces se de*e escri*ir $1 en la 2entanita correspondiente a Stor& r&$9't in
%ariab'&. )in em*argo el 2alor de 01 no aparecer/ en la pantalla a menos ue se siga la
secuenca Data Di$,'a1 Data !2er la secci0n 2%H) y se eli3a la constante $1%
2.5.; E' M&n( Stat
El men+ Stat contiene opciones ue permite lle2ar a ca*o la mayora de los
procedimientos estadsticos% En este te1to s0lo se 2er/n algunas de las opciones de este
men+, auellas ue son usadas en un primer curso de Estadstica%
&a siguiente 6igura muestra las opciones del men+ Stat y el su*men+ de la opci0n (ables.
&as opciones de Stat son descritas en la siguiente ta*la>
O,*i6n A**i6n
Basic )tatistics Incluye el c/lculo de medidas estadsticas, prue*as de 'ip0tesis acerca
de la media po*lacional, de proporciones, comparaci0n de dos 2arian4as
1
de di6erencia de medias y de proporciones, c/lculo de la correlaci0n%
Kegression Incluye an/lisis de regresion simple y m+ltiple, los m=todos para elegir
el me3or modelo de regresion y regresi0n logistica%
ANOLA Hace el an/lisis de 2arian4a de dise7os e1perimentales */sicos%
#OE Anali4a dise7os de e1perimentos a2an4ados%
-ontrol -'arts Er/6icas de -ontrol de -alidad%
Guality Tools M/s gr/6icas de -ontrol de -alidad%
Keali*ityM)ur2i2al Incluye los m=todos de an/lisis de super2i2encia y de con6ia*ilidad%
Multi2ariate Incluye m=todos multi2ariados>
-omponentes :rincipales, An/lisis 6actorial, An/lisis #iscriminante, por
conglomerados y an/lisis de correspondencia%
Times )eries Anali4a datos en series de tiempo%
Ta*les Ordena datos en 6orma ta*ular, y anali4a ta*las de contingencia%
Nonparametrics Incluye los m=todos estadsticos nopar/metricos, auellos ue no
reuieren la suposici0n de Normalidad%
E#A Incluye los m=todos del An/lisis E1ploratorio de datos>
,stem9and9lea6., ,*o1plots., etc%
:oDer and )ample )i4e -alcula la potencia y el tama7o de muestra para 2arias prue*as
estadsticas%
5igura 2%11 &as opciones del men+ STAT y de la opci0n Tab'&$%
En este te1to se usaran las opciones> Basic )tatistic, Kegression, Ano2a, Ta*les,
Nonparametrics y E#A%
1
Algunos e3emplos de aplicaciones de estas opciones seran dados en los siguientes captulos
de este te1to%
2.5.< E' m&n( +ra,-
El men+ +ra,- contiene opciones ue premiten 'acer una gran 2ariedad de gr/6icas
estadsticas desde Histogramas 'asta gr/6icas tridimensionales% En la siguiente 6igura se
muestra las opciones del men+ +ra,-2 y las opciones de la opci0n Character #raphs%
5igura 2%12% &as opciones del men+ +ra,-%
En la siguiente ta*la se descri*en todas las opciones del men+ +ra,-=
O,*i6n A**i6n
)catterplot Hace un diagrama de dispersi0n%
Matri1 :lot Hace un plot en 6orma matricial para mostrar la relaci0n entre 2arias
2aria*les%
Marginal :lot Hace un diagrama de puntos acompa7ado de 'istogramas, *o1plots o
1
dotplots de las 2aria*les ; e P%
Histogram Hace un Histograma%
#otplot Hace un gr/6ico de puntos de alta resoluci0n%
)tem9and9&ea6 Hace un ,stem9and9lea6. de un con3unto de datos%
:ro*a*ility :lot Hace plots de pro*a*ilidad%
Empirical -#5 Era6ica la 6unci0n de distri*uci0n acumulati2a de un con3unto de datos y
la compara con una 6unci0n de distri*uci0n conocida%
Bo1plot Hace un ,Bo1plot.%
Inter2al :lot Era6ica las medias de 2arios grupos con sus respecti2os inter2alos de
con6ian4a%
Indi2idual Lalue :lot Hace diagramas de puntos de dos maneras> por 2aria*les o por grupos%
Bar -'art Hace gr/6ica de Barras para datos cualitati2os%
:ie -'art Hace gr/6icas circulares%
Time )eries :lot Hace gr/6icas para datos en series de tiempo%
Area Erap' Hace gr/6icas de /reas%
-ontour :lot Hace un plot de contorno%
?# )catterplot Hace un digrama de dispersi0n en tres dimensiones%
?# )ur6ace :lot Era6ica una super6icie en ? dimensiones%
2.5.> E' M&n( Editor
El men+ Editor contiene opciones ue permiten editar el contenido de las 2entanas
de S&$$ion y "or0$-&&t% En particular se puede insertar comentarios en los resultados ue
aparecen en $&$$ion% Tam*i=n se puede elegir el tipo de letra en ue ellos aparecer/n% &as
opciones del men+ dependen de la 2entana ue est/ acti2a%
-uando la 2entana "or0$-&&t est/ acti2ada entonces 'ay opciones ue permiten
editar el contenido de las celdas de la 'o3a de tra*a3o% En la 6igura 2%1? se muestran estas
opciones>
&a siguiente ta*la descri*e las opciones del men+ Editor cuando la 2entana $&$$ion est/
acti2a%
O,*i6n A**i6n
Ne1t -ommand Mue2e el cursor al siguiente comando en la 2entana $&$$ion%
:re2ious -ommand Mue2e el cursor al comando anterior en la 2entana $&$$ion%
Ena*le -ommand &anguage :roduce el prompt MTBQ de MINITAB%
Output edita*le :ermite ue la 2entana $&$$ion pueda ser editada%
5ind Encuentra un te1to en la 2entana $&$$ion%
Keplace Keempla4a un te1to en la 2entana $&$$ion%
Apply 5onts Aplica un tipo de letra dado a los comandos y resultados, a los
titulos o a los comentarios%
1
5igura 2%1?% &as opciones del menu Editor cuando la 2entana (or$s'eet est/ acti2a%
-uando la 2entana #or0$-&&t est/ acti2a el men+ Editor presenta otras alternati2as, tales
como>
Eo ToR Mue2e el cursor a cualuier celda de la 2entana%
Eo To Mue2e el cursor a la siguiente columna, o a la celda acti2ada%
5ormat -olumn )ir2e para 6ormatear las columnas%
Adicional a ellas tam*i=n estan las siguientes opciones ue se acti2an cuando el cursor esta
u*icado en la 2entana Dor$s'eet%
-olumn
(or$s'eet
Insert columns
Mo2e columns
)i Enab'& Comand Lang9ag& est/ acti2ado entonces los resultados en la 2entana $&$$ion
para el e3emplo 2%2 ser/n>
MTB > Print C1.
Data Display
C1
2
4 7 12 15 17 18 25 13
MTB > Let k1 = SUM(c1*c1)-(SUM(c1)**2)/CU!T(c1)
MTB > Print "1.
Data Display
"1 3##.875
Tam*i=n 'ay un men+ para editar gr/6icas, =ste permite incluir te1to en cualuier parte de la
gr/6ica, al igual ue otros o*3etos gr/6icos como lneas, rect/ngulos, crculos, sm*olos, etc%
Asumiendo ue la 2entana de gr/6ica est/ acti2a, entonces los conos del editor de gr/6icas
se o*tienen, si se elige la opci0n *dit del men+ Editor% &os conos se agrupan en dos
rect/ngulos ue aparecen en la parte derec'a de la 2entana gr/6ica%
+as opciones del editor de !r"icas tambi,n se pueden obtener si se hace un ri!th
clic con el mouse dentro de la ventana que contiene la !r"ica.
5igura 2%1B% Editando una gr/6ica
2.5.? E' M&n( Too'$
2
5igura 2%1H% &as opciones del men+ Too'$%
&as opciones del men+ Too'$ son descritas en la siguiente ta*la%
O,*i6n A**i6n
Microso6t -alculator Acti2a la calculadora de Microso6t%
Notepad Acti2a el editos de notepad%
(indoDs E1plorer Acti2a el e1plorador de 2entanas%
AnsDer SnoDledge*ase -onecta a la pagina de MINITAB
-ontact 8s -onecta a la pagina de MINITAB en contactos
Tool*ars :ermite modi6icar la *arra de men+%
)tatus Bar Esconde la *arra de estatus en la 2entana de Minita*%
-ostumi4e :ermite modi6icar la *arra de men+%
Options :ermite modi6icar las con6iguraciones de 2entanas y procedimientos de
Minita*%
Manage :ro6iles :ermite administrar los pro6iles%
2.5.@ E' M&n( "indo#
2
El men+ "indo# contiene opciones ue permiten organi4ar las 2entanas de
MINITAB% Este men+ aparece en todo programa 'ec'o para (IN#O()%
En la 5igura 2%1H se muestran las opciones del men+ "indo#. Al 6inal del men+ aparecen
las 2entanas ue se 'an tra*a3ado +ltimamente y ue pueden ser acti2adas con un clic$ del
,mouse.% &as opciones del men+ "indo# cuando est/ acti2a la 2entana de #or0$-&&t son
descritas en la siguiente ta*la%
O,*i6n A**i6n
-ascade Arregla las 2entanas de Minita* para ue todas las *arras con
ttulos apare4can%
Tile Arregla las 2entanas de Minita* para ue todas ellas
apare4can en la pantalla%
Minimi4e All Keduce todas las 2entanas a conos ue son puestos en la
parte in6erior%
Kestore Icons Kestaura los conos en la pantalla%
Arrange Icons Ordena los conos de Minita* en la parte in6erior de la
pantalla%
Ke6res' Muestra nue2amente las 2entanas de Minita*%
-lose all grap's -ierra todas las 2entanas gr/6icas%
8pdate all grap' noD :ermite actuali4ar todas las gr/6icas luego de cam*iar uno o
2arios datos%
Adem/s de estas opciones, tam*i=n 'ay> )ession, :ro3ect Manager y (or$s'eet and Erap's%
5igura 2%1I% &as opciones del men+ "indo#.
2.5.1A E' M&n( .&',
2
El men+ .&', contiene opciones ue dan ayuda acerca del uso de los comandos de
MINITAB% Esta opci0n tam*i=n es tpica de todo programado de (IN#O()% -omparado
con otros programas estadsticos la ayuda de MINITAB es *astante 6/cil de usar y adem/s
muy completa% &a 5igura 2%1I muestra todas las opciones de .&',, y en la siguiente ta*la
se descri*en cada una de las opciones de dic'o men+>
O,*i6n A**i6n
Help Muestra el contenido de la ayuda de MINITAB%
)earc' Help Busca ayuda por el tipo de pala*ra seleccionado%
HoD to use 'elp Muestra como usar Help en Microso6t (indoDs%
)tatEuide :ara usar la guia de MINITAB%
)earc' t'e )tatEuide :ara *uscar en la guia de MINITAB%
HoD to use t'e )tatEuide Muestra como usar la guia de MINITAB%
Tutorials #a in6ormaci0n */sica a cerca de lo ue usted necesita para
empe4ar a usar MINITAB%
)earc' Tutorials Muestra la secuencia de c0mo usar Minita* para reali4ar
ciertas acciones%
)ession -omand Help A*re el arc'i2o de ayuda de los comandos en MINITAB%
)earc' )ession -omand Help Buscar comandos ue se usan en la 2entana $&$$ion de
MINITAB%
Minita* on t'e (e* Acti2a el *roDse del (e* y se conecta a MINITAB%
A*out Minita* #a in6ormaci0n acerca de la 2ersi0n y el due7o de MINITAB
5igura 2%1<% &as opciones del men+ .&',%
En la siguiente 6igura se muestra la 2entana de ayuda para todos los comandos de
MINITAB%
2
5igura 2%1A% Lentana de Ayuda de todos los comandos de MINITAB
Esta 6igura muestra la 2entana de ayuda para el comando stem-and-lea"%
5igura 2%1C% Lentana de Ayuda acerca de ,stem9and9lea6 ,%
2. Entrada 1 Mani,9'a*i6n d& dato$ &n MINITAB
Hay dos maneras de entrar datos en MINITAB% :rimero usando la 2entana Data y
segundo usando comandos en la 2entana $&$$ion.
2
2..1 Entrando dato$ 9$ando 'a -o7a d& traba7o.
En este caso se escri*e el dato en una celda acti2a de la 'o3a de tra*a3o% 8na celda
acti2a es auella con el *orde m/s oscuro% 8na 2e4 ue se 'a escrito el dato se oprime
Ent&r2 esto 'ace ue el 2alor entrado sea aceptado% &a celda acti2a se mue2e a la derec'a o
'acia a*a3o dependiendo de la direcci0n de la 6lec'a%
&os datos pueden ser entrados por 6ilas o por columnas% &as columnas representan
2alores de una 2aria*le y si se desea ponerles nom*re, esto se 'ace en la celda
inmediatamente de*a3o del n+mero de la columna%
)i los datos est/n en otro 6ormato, pro2ienen de otra aplicaci0n, o est/n disponi*les en
la Internet, *astar/ copiar !,copy.) los datos de la 6uente y pegarlos !,paste.) en la 'o3a de
tra*a3o%
2..2 Entrando dato$ 9$ando *omando$ &n 'a %&ntana $&$$ion.
Hay dos maneras de 'acer esto>
aB U$ando &' *omando SET
En este caso se entran los datos de una sola 2aria*le% :or e3emplo, supongamos ue
tenemos las edades de una 6amilia de I miem*ros ue 2an a ser colocados en la columna
-1, llamada Edad&$% &os comandos ue se de*en escri*ir ser/n>
MTB> !$M% C1 &%'('e)*
MTB> S%T C1
+$T$> , - 12 15 37 34
+$T$> %!+
bB U$ando &' *omando READ
Esto es con2eniente cuando se tienen 2arias 2aria*les% :or e3emplo, supongamos ue
adem/s de las edades de los miem*ros de la 6amilia tenemos sus pesos% &os comandos ue
se de*en escri*ir ser/n>
MTB> !$M% C1 &%'('e)* C2 &Pe).)*
M$TB> /%$+ C1 C2
+$T$> , 55
+$T$> - 7#
+$T$>12 -5
+$T$>15 13#
+$T$>37 18#
+$T$>34 155
+$T$> %!+
2.; Mo$trando 'o$ dato$
:ara 2er los datos en la 2entana $&$$ion de tal manera ue apare4can 3unto con los
resultados se puede 'acer de dos maneras%
2
A) )e elige el men+ Data2 y luego la opci0n Di$,'a1 Data.
B) 8sando el comando de lnea ,rint. As en el e3emplo anterior el comando
PRINT C1 C22 producir/>
/.0 %'('e) Pe).
1 , 55
2 - 7#
3 12 -5
4 15 13#
5 37 18#
, 34 155
2.< +9ardando 'o$ dato$
)e elige el men+ )i'& y de all la opci0n Save $orsheet .s !si es la primera 2e4 ue
son entrados los datos) o Sa%& "or0$-&&t !si los datos ya 'an sido entrados anteriormente)%
&a 2entana de dialogo, correspondiente a Save $orsheet .s, para los datos del e3emplo
anterior ue 2an a ser guardados en el arc'i2o !ami'ia, del 6older 'ibro ue tiene 6ormato de
MINITAB, ser/ como se presenta en la 5igura 2%1C%
El arc'i2o uedar/ guardado autom/ticamente en el su*directorio Mtb#in. )i se
desea guardarlo en cualuier otro lugar oprimirse en la 6lec'a al lado de Sa%& in ue lo
lle2ar/ al lugar deseado% En este caso se guard0 en 'ibro2 propiamente el arc'i2o guardado
se llama !ami'ia.mt#. &os datos tam*i=n pueden ser guardados en otro tipo de 6ormato, el
cual se elige en Sa%& a$ t1,&.
2.> Abri&ndo 9n ar*-i%o d& dato$
&os datos ue se 2an a anali4ar pueden estar de antemano en un arc'i2o, el cual puede
estar en 6ormato de MINITAB o en otro tipo de 6ormato, o *ien puede 'a*er sido entrado
usando un editor de te1to%
:ara llamar al arc'i2o ue est/ en 6ormato de MINITAB se elige el men+ )i'& y
luego la opci0n %pen $orsheet% :or e3emplo, para llamar a los datos del e3emplo anterior
ue est/n en el arc'i2o !ami'ia, la 2entana de di/logo se muestra en la 6igura 2%2@
2
5igura 2%1C% Lentana de di/logo para guardar un arc'i2o de datos%
)i el arc'i2o de datos no est/ en 6ormato de MINITAB entonces se elige el tipo de
arc'i2o ue contiene los datos en !i'& o! t1,& y luego se oprime o,tions para elegir una
6orma particular de lectura de los datos%
2%A Im,rimi&ndo 'o$ dato$
Asumiendo ue la 2entana "or0$-&&t est/ acti2a, se elige el men+ )i'& y luego la
opci0n Print $orsheet. &a 2entana de dialogo saldr/ como se muestra en la 5igura 2%21%
2
5igura 2%2@% Lentana de di/logo para a*rir un arc'i2o de datos%
2.@ U$ando Pro1&*to$
El uso de arc'i2os proyecto de MINITAB, los cuales lle2an la e1tensi0n .m,7 es de
gran utilidad% Estos son arc'i2os ue contienen un gran n+mero de 'o3as de tra*a3o,
tam*i=n contienen los resultados en la 2entana $&$$ion y las 2entanas gr/6icas% Es decir,
contiene todo el tra*a3o ue se 'a 'ec'o 'asta ese momento% )uponiendo ue m/s tarde uno
desea tra*a3ar con otro con3unto de datos, a7adir alg+n an/lisis estadstico o alg+n gr/6ico lo
+nico ue tiene ue 'acer es llamar al proyecto ue contendr/ todo el tra*a3o reali4ado 'asta
ese momento y luego se a7aden las cosas nue2as% :or e3emplo, el contenido de un proyecto
tar&a1.m,72 puede contener ? 2entanas de datos> claseC<%mtD, 6amilia%mtD y di2orcio%mtD,
dos 2entanas gr/6icas> el 'istograma de la 2aria*le cr=ditos de claseC<%mtD y el plot de peso
2ersus edades de 6amilia%mtD y una 2entana session%
2
5igura 2%21% Lentana de di/logo para imprimir los datos de una 'o3a de tra*a3o
:ara guardar un proyecto se usa la opci0n Sa%& ,ro7&*t !si el proyecto ya 6ue
guardado anteriormente) o Sa%& ,ro7&*t a$ del men+ )i'&. :ara llamar a un proyecto ue 'a
sido guardado anteriormente se usa la opci0n O,&n Pro7&*t2 del men+ )i'&.
?
CAPTULO 3
ESTADSTICA DESCRIPTIVA
En este captulo se vern todas las tcnicas que se usan para la organizacin y
presentacin de datos en tablas y grficas, as como el clculo de medidas estadsticas. Se
considerarn solamente datos univariados y bivariados.
Ejemplo 3.1 Los siguientes datos provienen de un cuestionario de 10 preguntas que se
hizo a 28 estudiantes de una clase de Estadistica Aplicada I en el Recinto Universitario de
Mayaguez de la Universidad de Puerto Rico. Un asterisco (*) significa que la pregunta no
fue contestada. En lo sucesivo se har referencia a este conjunto de datos como
clase97.mtw

Row edad sexo escuela programa creditos gpa familia hestud htv
1 21 f pbl biol 119 3.60 3 35 10
2 18 f priv mbio 15 3.60 3 30 10
3 19 f priv biot 73 3.61 5 5 7
4 20 f priv mbio * 2.38 3 14 3
5 21 m pbl pmed 114 3.15 2 25 25
6 20 m pbl mbio 93 3.17 3 17 6
7 22 m pbl pmed 120 2.15 5 20 10
8 20 m priv pmed * 3.86 5 15 5
9 20 m priv pmed 94 3.19 4 10 2
10 20 f pbl pmed 130 3.66 6 20 33
11 21 f priv mbio 97 3.35 1 15 20
12 20 m priv mbio 64 3.17 4 30 2
13 20 f pbl mbio * 3.23 2 5 3
14 21 f pbl mbio 98 3.36 4 15 10
15 21 f priv biol 113 2.88 5 15 3
16 21 f priv pmed 124 2.80 5 20 10
17 20 f pbl eagr * 2.50 4 10 5
18 20 f priv mbio * 3.46 4 18 5
19 22 f priv pmed 120 2.74 2 10 15
20 20 f priv mbio 95 3.07 3 15 12
21 22 f priv biol 125 2.20 3 20 10
22 23 m pbl eagr 13 2.39 3 10 8
23 21 m priv pmed 118 3.05 4 10 10
24 20 f pbl mbio 118 3.55 5 38 10
25 21 f pbl mbio 106 3.03 5 36 35
26 20 f priv mbio 108 3.61 3 20 10
27 22 f pbl mbio 130 2.73 5 15 2
28 21 f priv pmed 128 3.54 3 18 5
Las variables edad, familia, hestud y htv son consideradas como variables cuantitativas
discretas. Las variables crditos y gpa son consideradas como variables cuantitativas
continuas. Las variables sexo, escuela y programa son consideradas como variables
cualitativas

Edgar Acua Captulo 3 Estadstica Descriptiva
3.1 Organizacin de datos Cuantitativos Discretos
3.1.1 Tablas de Frecuencias
Los datos cuantitativos discretos se organizan en tablas, llamadas Tablas de
Distribucin de frecuencias. La primera columna de la tabla contiene los distintos
valores que asume la variable ordenados de menor a mayor y las restantes columnas
contienen los siguientes tipos de frecuencias.
Frecuencia absoluta: Indica el nmero de veces que se repite un valor de la
variable.
Frecuencia relativa: Indica la proporcin con que se repite un valor. Se obtiene
dividiendo la frecuencia absoluta entre el tamao de la muestra. Para una mejor
interpretacin es ms conveniente mutiplicarla por 100 para trabajar con una Frecuencia
relativa porcentual.
Frecuencia absoluta acumulada: Indica el nmero de valores que son menores o
iguales que el valor dado.
Frecuencia relativa porcentual acumulada: Indica el porcentaje de datos que son
menores o iguales que el valor dado.
Para construir una tabla de frecuencias en MINITAB, se sigue la secuencia Stat
TablesTally Individual Variables. En la ventana de dilogo de Tally Individual
Variables se elige la variable deseada, la cual debe aparecer en la ventanita Variables. Se
seleccionan todas las opciones de Display si se desea una tabla completa con todos los
tipos de frecuencias y luego se oprime el botn OK. La tabla aparecer en la ventana
Session.
En la figura 3.1 se muestra la ventana de dilogo de Tally Individual Variables, para
obtener la tabla de distribucin de frecuencias de la variable familia, del ejemplo 3.1
Figura 3. 1 Ventana de dilogo de Tally Individual Variables para la tabla de frecuencia de la variable
Familia
29
El contenido de la ventana session ser el siguiente:
Figura 3.2: Tabla de frecuencia de la variable Familia
Interpretacin:
Count, representa la frecuencia absoluta. Por ejemplo el tamao familiar que ms
predomina es 3.
CumCnt, representa la frecuencia absoluta acumulada.. Por ejemplo 27 de los 28
entrevistados tienen una familia de tamao menor o igual que 5.
Percent, representa la frecuencia relativa porcentual. Por ejemplo, slo 3.57 por ciento
de las familias de los estudiantes entrevistados son de tamao 6.
CumPct, representa la frecuencia relativa porcentual acumulada. Por ejemplo, el 94.93%
de las familias son de tamao menor o igual que 5.
3.1.2 El plot de puntos (Dotplot)
Una vez obtenida la tabla de frecuencia el prximo paso es obtener un grfica de
ella. La grfica ms elemental es el plot de puntos (Dotplot) que consiste en colocar un
punto cada vez que se repite un valor. Esta grfica permite explorar la simetra y el grado
de variabilidad de la distribucin de los datos con respecto al centro, el grado de
concentracin o dispersin de los datos con respecto al valor central y ,tambn, permite
detectar la presencia de valores anormales (outliers).
En MINITAB el plot de puntos se obtiene eligiendo la opcin Dotplot del men Graph.
Las ventanas de dilogo para obtener el plot de puntos de la tabla de frecuencias anterior
se completar como sigue:
30

Figura 3.3:Ventanas de dilogo para hallar el dotplot de la variable Familia
Obtenindose la siguiente grfica:
Figura 3.4:Dotplot de la tabla de frecuencia de la variable Familia
Interpretacin: La distribucin de la variable familia es algo simtrica con respecto al
centro. No hay mucha variabilidad y no se observa la presencia de valores anormales.
31
Tambin es posible obtener una grfica de texto del Dotplot. Las grficas de texto se
construyen utilizando caracteres del teclado y no son de alta resolucin. Son tiles si se
quiere incluir la grfica como parte de un archivo ASCII o en un correo electrnico a base
de texto. Aunque estas grficas an estn disponibles, ya no aparecen en el men de
Graph por defecto. Para aadir la opcin de crear grficas de caracteres al men de
Graph utilice la secuencia Tools > Customize > Commands>Character Graphs como
se muestra a continuacin:
Figura 3.5: Ventana de dilogo para aadir la opcin de grficas de texto
Luego elija el cono Character Graphs de la ventana de Commands y arrstrelo hasta el
men de Graphs en este caso se sigue la siguiente secuencia Character Graph Dotplot
y se obtiene la siguiente salida en la ventana de Session:
Dotplot: familia
.
: :
: : :
. : : :
. : : : : .
---+---------+---------+---------+---------+---------+---familia
1.0 2.0 3.0 4.0 5.0 6.0
Figura 3.6: Dotplot de la variable Familia en modo texto.
3.1.3 Grfica de Lnea
32
La grfica de lnea es una alternativa a la grfica de puntos. Por cada valor de la variable
se traza una linea vertical de altura proporcional a la frecuencia absoluta del valor de la
variable. En MINITAB hay una opcin directa para obtener esta grfica la cual ser
discutida ms adelante en la seccin 3.2.2.
Figura 3.7: Grfica de lnea de la distribucin de frecuencias de la variable familia
Los nmeros que aparecen en la parte superior de las lneas representan las fecuencias
absolutas.
Interpretacin: La grfica tiene algo de simetra, no presenta valores anormales ni
tiene mucha variabilidad.
3.2 Organizacin de datos Cuantitativos Continuos
Cuando los datos son de una variable continua o de una variable discreta que asume
muchos valores distintos, ellos se agrupan en clases que son representadas por intervalos y
luego se construye una tabla de frecuencias, cada frecuencia absoluta (relativa porcentual)
representa el nmero (porcentaje) de datos que caen en cada intervalo.
Recomendaciones acerca del nmero de intervalos de clases:
a) El nmero de intervalos de clases debe variar entre 5 y 20.
b) Se debe evitar que hayan muchas clases con frecuencia baja o cero, de ocurrir sto es
recomendable reducir el nmero de clases.
c) A un mayor nmero de datos le corresponde un mayor nmero de clases.
Una regla bien usada es que el nmero de clases debe ser aproximadamente igual a
la raz cuadrada del nmero de datos. Una vez que se determina el nmero de clases se
determina la amplitud de cada clase usando la siguiente frmula:
33
Amplitud del intervalo de clase
clases de nmero
menor Dato - mayor Dato
.
Usualmente la amplitud se redondea a un nmero cmodo de usar. Si se ha redondeado
mucho, entonces el primer intervalo de clase debe empezar un poco antes del valor menor.
MINITAB no tiene una opcin para obtener la tabla de frecuencia para datos agrupados,
lo nico que existe es una opcin para obtener la grfica de la tabla de frecuencias, sta es
llamada Histograma y puede obtenerse en modo texto o modo grfico.
3.2.1 Tablas de frecuencias-Histograma en modo texto

La forma de obtener este histograma es eligiendo la opcin Character Graphs del
men Graph y luego del submen que sale se elige Histogram. En la salida aparecern
los puntos medios de los intervalos de clase (llamados tambin Marcas de clase) y la
frecuencia absoluta de cada clase.
Por ejemplo, supongamos que deseamos obtener el histograma de los datos de la
variable gpa, en el archivo Clase97.mtw, agrupando los datos en 5 clases. Primero
debemos determinar la amplitud de cada clase, donde Amplitud
clases de nmero
menor Dato - mayor Dato
. En este caso Amplitud
5
2.15 - 3.86
y la primera clase sera:
2.15 - 2.49 con un punto medio igual a 2.32. La ventana de dilogo se completar de la
siguiente manera:
Figura 3.8: Ventana de dilogo para el histograma en modo texto de la variable gpa
y en la ventana session aparecer,
Histogram
Histogram of gpa N = 28
Number of observations below the first class = 1
Midpoint Count
34
2.350 4 ****
2.700 3 ***
3.050 8 ********
3.400 6 ******
3.750 6 ******
donde Count representa la frecuencia absoluta del intervalo de clase.
3.2.2 Histograma en modo grfico
Un Histograma, es la grfica de la tabla de distribucin de frecuencias para datos
agrupados, consiste de barras cuyas bases son los intervalos de clases y cuyas alturas son
proporcionales a las frecuencias absolutas (o relativas) de los correspondientes intervalos.
Un histograma permite ver la forma de la distribucion de los datos, en particular, se puede
ver si hay simetra con respecto al centro de la distribucin, del grado de dispersin con
respecto al centro y permite detectar datos anormales (outliers) en la muestra. Para
obtener un histograma en MINITAB se sigue la siguiente secuencia GraphHistogram.
Luego, aparece una ventana de dilogo similar a la figura siguiente:
Figura 3.9: Ventana de dilogo para Histograma
En esta ocasin se elije la primera opcin y aparece la siguiente ventana:
35
Figura 3.10. Ventana de dilogo para obtener el histograma en modo grfico de la variable GPA.
Graph Variables se escribe la variable cuyo histograma se desea obtener. Si se quiere
poner ttulos se elige LabelsTitles/Footnotes; para poner los valores de la frecuencia
absoluta encima de cada barra se elige LabelsData Labels.

Figura 3.11: Algunas opciones del men de Labels
Oprimiendo OK se obtiene el siguiente histograma:
36
Figura 3.12: El histograma de la variable gpa
Interpretacin. El histograma es asimtrico hacia la izquierda. No existe mucha
variabilidad, ni hay valores anormales .
MINITAB elige automticamente el nmero de intervalos de clases, si se desea
cambiar el nmero de intervalos de clases, se coloca el cursor en el eje horizontal y se
oprime dos veces el botn izquierdo del ratn. Le aparece una ventana de dilogo llamada
Edit Bars. En esta ventana puede cambiar el color de las barras (Attributes) y cambiar el
nmero de intervalos deseado donde aparece Binning. Adems se puede entrar los puntos
medios de los intrevalos de clase que se desean.
Figura 3.13: Ventana de dilogo para editar un histograma
Para imprimir el Histograma se elige la opcin Print Graph del men File. Tambin es
posible obtener el histograma de un conjunto de datos eligiendo la opcin Graph que
aparecen en ciertas ventanas de dilogo, como por ejemplo; cuando se calculan medidas
estadsticas bsicas.
37
3.3 Presentacin de datos cualitativos
En este caso los datos tambin se pueden organizar en tablas de frecuencias, pero las
frecuencias acumuladas no tienen mucho significado, excepto cuando la variable es
ordinal. Para obtener la tabla se sigue la secuencia STATTablesTally. Si se desea
obtener las frecuencias acumuladas se pueden seleccionar en la ventana Tally.

Por ejemplo, la siguiente sera una tabla de frecuencias para la variable programa del
Ejemplo 3.1.
programa Count Percent
biol 3 10.71
biot 1 3.57
eagr 2 7.14
mbio 13 46.43
pmed 9 32.14
N= 28
Existen una gran variedad de grficas para datos cualitativos que se pueden hacer en MINITAB.
Slo consideraremos las grficas de barras y las grficas circulares (Pie-Chart).
3.3.1 Grficas de Barras
Las grficas de barras pueden ser verticales u horizontales. Las grficas de barras se
obtienen eligiendo la opcin Bar Chart del men Graph. Aparecer la ventana de
dilogo que se muestra en la primera ventana de la Figura 3.11. Para comenzar, se debe
elegir el significado que tendrn las barras y el si se desea una grfica simple, aglomerado
o acumulativa.
Si se desea una grfica de barras verticales simple, entonces se elige la opcin de Counts
of unique variables como el significado de las barras y simultneamente la opcin Simple.
Al oprimir OK, observar la segunda ventana presentada en Figura 3.14.
38

Figura 3.14. Ventanas de dilogo para obtener una grfica de barras verticales del programa.
Ejemplo 3.2. Usando los datos del ejemplo 3.1, hacer una grfica de barras verticales para
representar la distribucin de estudiantes por programa.
Se elige las opciones para las primeras dos ventanas de dilogo segn se ha
descrito en el prrafo anterior. Para colocar el ttulo, en la segunda ventana de dilogo,
elija la opcin Labels y se escribe el ttulo deseado en el rengln titulado Title.
Figura 3.15 Ventana de dilogo para colocar un ttulo a la grfica de barras.
Al oprimir OK dos veces, obtendr la siguiente grfica:
39
Figura 3.16 Grfica de Barras verticales de la variable Programa
Para hacer una grfica de barras agrupada, se debe seleccionar Cluster, en la
primera ventana de dilogo. Luego en la segunda ventana de dilogo, se eligen las
variables por las cuales se quiere agrupar. Por ejemplo si deseamos ver la distribucin de
estudiantes por programa dividido por sexo, elegimos como variable programa y luego,
sexo. Luego de colocar el ttulo, se obtendra la siguiente grfica:
Figura 3.17. Grfica de barras verticales para la variable programa agrupada por Sexo.
3.3.2 Grficas Circulares
Este tipo de grfica se usa cuando se quiere tener una idea de la contribucin de cada
valor de la variable al total. Aunque es usada ms para variables cualitativas, tambin
podra usarse para variables cuantitativas discretas siempre que la variable no asuma
muchos valores distintos.
Para obtener grficas circulares se usa la opcin Pie Chart del men Graph. Las
ventanas de dilogo de Pie Chart que se muestran en la Figura 3.14 son para la variable
40
programa del Ejemplo 3.1 La grfica permitir ver como se distribuyen los estudiantes de
la clase segn el programa acadmico.
En Chart Raw Data se coloca la variable de la que se quiere hacer el pie chart.
La ventanita de Chart values from table se usa slo en el caso que en una columna estn
las categoras de la variable y en la otra la frecuencia con que se repite cada categora. En
la Figura 3.15 se presenta la grfica de crculo para la variable programa.
Existen formas de modificar la grfica de crculo para enfatizar ciertas ideas. Por ejemplo,
se puede resaltar uno o varios pedazos (slices) mediante el uso de Explode slice. Esta opcin se
logra seleccionando el pedazo(s) que se quiere(n) explotar. Luego, se oprime el botn izquierdo
del ratn y se selecciona Edit Pie. La ventana de dilogo que se obtiene se muestra en la Figura
3.16. En esta ventana, se puede tambin modificar el color del pedazo. Si se selecciona la grfica
completa antes de ir a Edit Pie, hay la posibilidad de combinar pedazos que contribuyan con un
porcentaje muy bajo al total o de colocar el nombre asociada a cada categora en la grfica.
En la Figura 3.16 b, se muestra la grfica de la variable programa modificada segn se ha descrito
anteriormente.

Figura 3.18. Ventanas de dilogo para obtener grficas circulares
Figura 3.19. Grfica circular para mostrar la distribucin de estudiantes por programa
41
(a) (b)
Figura 3.20. Ventana de dilogo para modificar la grfica de la figura 3.19.
Ejemplo 3.3. La siguiente tabla muestra el nmero de restaurants americanos de comidas
rpidas en Puerto Rico a julio de 1997 (Nuevo Da, 31 de Agosto de 1997).
Nombre Nmero
Burger King 113
McDonalds 97
Taco Maker 63
Kentucky Fried Chicken 58
Pizza Hut 51
Churchs 46
Dominos 30
Wendys 24
Taco Bell 22
Ponderosa 21
Little Ceasers 20
Otros 45
Hacer un Pie-Chart que muestre qu parte del mercado representa cada franquicia.
Enfatizar la franquicia que tiene la mayor parte del mercado y la que tiene la menor parte.
En este caso se elige Chart values from table, y en el espacio de Categorical variable se
coloca el nombre de las columnas que contiene el nombre de los restaurantes y en el
rectngulo al lado de Summary Variables se coloca la columna que contiene el nmero
de restaurantes de cada tipo. Eligiendo Labels, puede indicar el ttulo que tendr la
grfica y las etiquetas de los pedazos. Al oprimir ok, se obtiene la siguiente grfica:
42
Figura 3.21. Grfica circular para los datos del ejemplo 3.3
3.4 Grfica de tallo y hojas (Stem-and-Leaf )
La grfica de tallo y hojas es una grfica usada para datos cuantitativos. Es la
grfica ms bsica de un conjunto de tcnicas conocido con el nombre de Anlisis
Exploratorio de Datos (EDA) introducida por John Tukey a mediados de los aos 70.
La idea es considerar los primeros dgitos del dato como una rama del tallo (stem) y el
ltimo dgito como una hoja (leaf) de dicha rama. Las ramas son ordenadas en forma
creciente.
Ejemplo 3.4. Los siguientes datos representan pesos de una muestra de 15 varones
adultos.
165 178 185 169 152 180 175 189 195 200 183 191 197 208 179
Hacer su grfica de Stem-and Leaf.
Solucin:
En este caso las ramas la forman los primeros dos dgitos de los datos, y las hojas sern
dadas por los ltimos dgitos de los datos. Luego el stem-and leaf ser de la siguiente
manera:
15 2
16 59
17 598
18 0935
19 517
20 08

Interpretacin: El uso del stem-and-leaf es exactamente igual al del Histograma, la
nica diferencia est en que del stem-and-leaf se pueden recuperar los datos
muestrales, pero de un histograma no se puede hacer. En este ejemplo el stem-and-
leaf es asimtrico a la izquierda, no tiene mucha variabilidad ni outliers.
43
La unidad de la hoja de un stem-and-leaf representa la posicin del dgito de la hoja en
la escala decimal. En el ejemplo anterior el dgito de las hojas est en las unidades luego la
unidad de la hoja ser 1.0. Si los datos fueran de promedios acadmicos: 3.17, 3.23, 2.98
entonces, la unidad de la hoja ser .01.
Para recuperar los datos de la muestra se juntan las ramas y las hojas del stem-and-
leaf y se multiplica por la unidad de la hoja.
Hay varias maneras de obtener un stem-and-leaf en MINITAB. La primera es elegir
la opcin stem-and-leaf del men Graph, la segunda es elegir la opcin Character
Graph del men Graph y luego stem-and-leaf del listado que aparece. Finalmente,
tambin se puede elegir la opcin EDA del men Stat y luego Stem-and-Leaf del
submen de EDA.

La ventana de dilogo para obtener el stem-and-leaf de los datos de promedio
acadmico gpa del ejemplo 3.1 es como sigue:
Figura 3.22. Ventana de dilogo para obtener el stem-and-leaf de la variable gpa
La opcin By variable se usa cuando se quiere comparar stem-and-leaf de dos o ms
grupos y aqui se escribe la variable que clasifica en grupos.
Si se elige la opcin Trim outliers en la ventana de dilogo del stem-and-leaf se puede
detectar los "outliers". La opcin Increment permite ajustar el nmero de ramas del
stem. En la ventana session aparecer el stem-and-leaf de la variable gpa que se
muestra a continuacin.
La unidad de la hoja 0.1 indica la posicin de una hoja en la escala decimal. O sea
3 | 6 significa 3.6.
En el ejemplo anterior se han hecho uso de 5 subramas para cada rama principal. Se
pueden usar 2 5 subramas por cada rama principal. Si se usa dos subramas, entonces la
primera subrama contiene las hojas del 0 al 4 y la segunda las hojas del 5 al 9. En el caso
44
de 5 subramas, entonces la primera contiene las hojas 0 y 1, la segunda las hojas 2 y 3 y
as sucesivamente hasta la quinta que contiene las hojas 8 y 9.
Stem-and-Leaf Display: gpa
Stem-and-leaf of gpa N = 28
Leaf Unit = 0.10
1 2 1
4 2 233
5 2 5
7 2 77
9 2 88
(7) 3 0001111
12 3 233
9 3 455
6 3 66666
1 3 8
Figura 3.23: Ventana de sesin para una grfica de caracteres de tallo y hoja para la variable GPA
Frecuentemente, los programas estadsticos como MINITAB, redondean los datos
antes de hacer el stem-and-leaf. Por ejemplo si la muestra contiene los datos,
93 135 178 245 267 342 307, stos pueden ser redondeados a 90 130 170 240 340 300 y
luego el stem-and-leaf tendra las ramas 0,1,2 y 3 con unidad de hoja igual a 10.
Ejemplo 3.5 El impuesto por cajetilla de cigarrillos en Puerto Rico es de 83 centavos.
Los siquientes datos muestran los impuestos en los 50 estados de los Estados Unidos
(Nuevo Dia, 4 de Sept. de 1997)
Estado tax Estado tax
Virg 0.025 DakS 0.330
Kent 0.030 Flor 0.339
CarN 0.050 Nebr 0.340
CarS 0.070 Neva 0.350
Georg 0.120 Iowa 0.360
Wyom 0.120 Mary 0.360
Tenn 0.130 Cali 0.370
Indi 0.155 Maine 0.370
Alab 0.165 Oreg 0.380
Misso 0.170 NewJ 0.400
WestV 0.170 Texas 0.410
Missi 0.180 Wisco 0.440
Mont 0.180 Illin 0.440
Colo 0.200 DakN 0.440
Lousi 0.200 Verm 0.440
NMexi 0.210 Minn 0.480
Oklah 0.230 Conn 0.500
Delaw 0.240 NewY 0.560
Kans 0.240 Ariz 0.580
Ohio 0.240 Hawa 0.600
45
NHans 0.250 RhodI 0.610
Utah 0.265 WasDC 0.650
Idaho 0.280 Michi 0.750
Alask 0.290 Massa 0.760
Penn 0.310 Washi 0.825
Arka 0.315
Hacer un stem-and-leaf de los datos.
Solucin: Usaremos la opcin Trim de Stem-and-Leaf para detectar outliers.
Stem-and-Leaf Display: tax
Stem-and-leaf of tax N = 51
Leaf Unit = 0.010
2 0 23
4 0 57
7 1 223
13 1 567788
20 2 0013444
24 2 5689
(5) 3 11334
22 3 566778
16 4 014444
10 4 8
9 5 0
8 5 68
6 6 01
4 6 5
3 7
3 7 56
HI 82
Interpretacin: El stem-and-leaf indica mucha variabilidad y asimetra hacia la
derecha. Adems, el estado de Washington representa un outlier superior. La unidad
de la hoja es .01, o sea 3 7 representa 0.37. Se han usado dos subramas por cada
rama principal
3.5 Clculo de Medidas Estadisticas
Hay dos tipos principales de Medidas Estadsticas: Medidas de Tendencia Central y
Medidas de Variabilidad.
Las medidas de tendencia central dan una idea del centro de la distribucin de los
datos. Las principales medidas de este tipo son la media o promedio aritmtico, la
mediana, la moda y la media podada.
46
Las medidas de variabilidad expresan el grado de concentracin o dispersin de
los datos con respecto al centro de la distribucin. Entre las principales medidas de este
tipo estn la varianza, la desviacin estndar, el rango intercuartlico. Tambin hay
medidas de posicin, como son los cuartiles, deciles y percentiles. Adems, una medida de
asimetra (skewness) y una medida de aplanamiento (kurtosis).
3.5.1 Medidas de Centralidad
La media o promedio se obtiene sumando todos los datos y dividiendo entre el
nmero de datos. Es decir, si x
1
, x
2
,,x
n
, representan las observaciones de una variable X
en una muestra de tamao n, entonces la media de la variable X est dada por:
n
x
x
n
i
i
=
=
1
Ejemplo 3.6. Supongamos que los siguientes datos representan el precio de 9 casas en
miles.
74, 82, 107, 92, 125, 130, 118, 140, 153
Hallar el precio promedio de las casas.
Solucin:
4 . 113
9
153 140 118 130 125 92 107 82 74
=
+ + + + + + + +
= x
Es decir que el costo promedio de una casa ser 113,400.
La media es afectada por la asimetra de la distribucin de los datos y por la presencia de
outliers como se muestra en el siguiente ejemplo.
Ejemplo 3.7. Supongamos que en el ejemplo anterior se elige adicionalmente una casa
cuyo precio es de 500,000.
Luego el promedio ser:
1 . 152
10
500 153 140 118 130 125 92 107 82 74
=
+ + + + + + + + +
= x
En este caso la media da una idea errnea del centro de la distribucin, la presencia del
outlier ha afectado la media. Slo dos de las 10 casas tienen precio promedio mayor de
152,100.
47
Otras propiedades de la media son:
a) Que el valor de la media debe estar entre el mayor dato y el menor dato.
b) Si a cada dato de la muestra se les suma (o resta) una constante entonces, la media
queda sumada (o restada) por dicha constante.
c) Si a cada dato de la muestra se le multiplica (o divide) por una constante entonces,
la media queda multiplicada (o dividida) por dicha constante.
Las propiedades b) y c) se usan para hacer clculos rpidos de la media.
La mediana es un valor que divide a la muestra en dos partes aproximadamente
iguales. Es decir, como un 50 por ciento de los datos de la muestra sern menores o
iguales que la mediana y el restante 50 por ciento son mayores o iguales que ella.
Para calcular la mediana primero se deben ordenar los datos de menor a mayor. Si el
nmero de datos es impar, entonces la mediana ser el valor central. Si el nmero de datos
es par entonces, la mediana se obtiene promediando los dos valores centrales.
Ejemplo 3.8. Calcular la mediana de los datos del Ejemplo 3.6.
Solucin:
Ordenando los datos en forma ascendente, se tiene: 74, 82, 92, 107, 118, 125, 130,
140, 153. En este caso el nmero de datos es impar as que la mediana resulta ser 118
que es el quinto dato ordenado.
A diferencia de la media, la mediana no es afectada por la presencia de valores anormales,
como lo muestra el siguiente ejemplo:
Ejemplo 3.9. Calcular la mediana de los datos del Ejemplo 3.7.
Solucin:
Ordenando los datos, se tiene:
74, 82, 92, 107, 118, 125, 130, 140, 153, 500.
en este caso el nmero de datos es par, as que la mediana resulta ser el promedio de los
dos valores centrales:
2
125 118 +
=121.5 y el dato anormal 500 no afecta el valor de la
mediana.
Cuando la distribucin es asimtrica hacia la derecha, la mediana es menor que la
media. Si hay asimetra hacia la izquierda entonces la mediana es mayor que la media
y cuando hay simetra, ambas son iguales.
48
La moda es el valor (o valores) que se repite con mayor frecuencia en la muestra.
La Moda puede aplicarse tanto a datos cuantitativos como cualitativos.
Ejemplo 3.10. Los siguientes datos representan el nmero de veces que 11 personas van
al cine mensualmente:
3, 4, 4, 5, 0, 2, 1, 5, 4, 5, 4
Hallar la moda.
Solucin:
La Moda es 4. O sea que predominan ms las personas que asisten 4 veces al mes al cine.
Ejemplo 3.11. Los siguientes datos representan tipos de sangre de 9 personas
A, O, B, O, AB, O, B, O, A
Hallar la Moda.
Solucin:
La Moda es el tipo de sangre O.

La media podada es una medida ms resistente que la media a la presencia de
valores anormales. Para calcular la Media Podada, primero se ordenan los datos en forma
creciente y luego se elimina un cierto porcentaje de datos (redondear si no da entero) en
cada extremo de la distribucin, finalmente se promedian los valores restantes.
Ejemplo 3.12. Hallar la media podada del 5 por ciento para los datos del Ejemplo 3.9.
Solucin:
El 5 por ciento de 10 datos es .5 que redondeando a 1 implica que hay que eliminar el
mayor (500) y el menor (74) dato. Luego la media podada del 5 por ciento ser
375 . 118
8
153 140 130 125 118 107 92 82
=
+ + + + + + +
.
3.5.2 Medidas de Variabilidad
El rango o amplitud es la diferencia entre el mayor y menor valor de la muestra.
Mientras mayor sea el rango existe mayor variabilidad. Lamentablemente el rango es bien
sensible a la presencia de "outliers".
La varianza es una medida que da una idea del grado de concentracin de los datos
con respecto a la media.
De primera intencin una medida para determinar el grado de concentracin de los datos
sera el promedio de las desviaciones con repecto a la media, es decir
n
x x
n
i
i
=
1
) (
, pero se
49
puede mostrar que la suma de las desviaciones es cero, ya que las desviaciones positivas y
negativas se compensan, luego la anterior medida de variabilidad sera siempre 0.
La siguiente tabla ilustra lo anteriormente mencionado para un conjunto de datos.
X x- x
5 -6
8 -3
12 1
17 6
14 3
10 -1
Sumas 66 0
La media de la muestra es 11.
Si se cuadran las desviaciones se soluciona este problema y es as que aparece la varianza.
La varianza de una muestra de n datos se calcula por:
1
) (
1
2
2
=
n
x x
s
n
i
i
Se divide por n-1 y no por n, porque se puede demostrar tericamente que cuando se
hace esto s
2
estima ms eficientemente a la varianza poblacional
Alternativamente se puede usar la frmula:
) 1 (
) (
1
2
1
2
2
=

= =
n n
x x n
s
n
i
n
i
i i
Es bastante riesgoso usar solamente el valor de la varianza para concluir que la
muestra es muy o poco variable. Su uso es ms que todo para comparar la variabilidad de
dos o ms conjuntos de datos de la misma variable en estudio. Adems la varianza tiene el
problema de que est expresada en unidades cuadrticas en relacin a la medida de los
datos tomados.
La desviacin estndar es la raz cuadrada positiva de la varianza y tiene la ventaja
que est en las mismas unidades de medida que los datos. Se representa por s.
De por si sola la desviacin estndar no permite concluir si la muestra es muy variable o
poco variable. Al igual que la varianza es usada principalmente para comparar la
variabilidad entre grupos.
Ejemplo 3.13. Las muestras siguientes:
50
muestra1
16 18 25 28 23 42 24 47 38 19
22 34
muestra2
116 118 125 128 123 142 124 147 138 119
122 134
tienen medias 28 y 128 respectivamente, e igual desviacin estndar s = 10.018. O sea
que se puede decir en trminos absolutos que tienen igual variabilidad. Sin embargo
comparndola con los datos tomados se puede concluir que la muestra 1 es bastante
variable, mientras que la muestra 2 es poco variable.
Existe una medida llamada coeficiente de variacin (CV) y que se calcula por
x
s
CV = 100% . Si el CV es mayor que 30% la muestra es muy variable y si CV<30%
entonces no existe mucha variabilidad. Para el ejemplo el CV para la muestra 1 es 35.77 y
para la muestra 2 es 7.82 concluyndose que la muestra 1 es bastante variable y la muestra
2 no lo es.
Criterio para detectar outliers.
Un primer criterio para identificar si un dato es un outlier es el siguiente:
Un dato que cae fuera del intervalo ) 3 , 3 ( s x s x + puede ser considerado un outlier.
An as el criterio no es muy confiable, puesto que la media, la varianza y la desviacin
estndar son afectadas por la presencia de outliers.
Ejemplo 3.14. Dada la siguiente muestra
59, 62, 73, 79, 68, 77, 69, 71, 66, 98, 75
Determinar si 98 es un outlier.
Solucin:
Como = x 72.45 y s=10.43. Se tiene que si un dato cae fuera del intervalo (41.15, 103.75)
ser considerado un outlier, 98 cae dentro de dicho intervalo por lo tanto no es outlier.
3.5.3. Medidas de Posicin.
Los Cuartiles: Son valores que dividen a la muestra en 4 partes aproximadamente
iguales. El 25% de los datos son menores o iguales que el cuartil inferior o primer cuartil,
representado por Q
1
. El siguiente 25 % de datos cae entre el cuartil inferior y la mediana,
la cual es equivalente al segundo cuartil. El 75 % de los datos son menores o iguales que
51
el cuartil superior o tercer cuartil, representado por Q
3
, y el restante 25% de datos son
mayores o iguales que Q
3
.
Para calcular los cuartiles simplemente se ordenan los datos y luego Q
1
es la
mediana de la primera mitad, o sea aquella que va desde el menor valor hasta la mediana.
Similarmente Q
3
es la mediana de la segunda mitad, o sea aquella que va desde la mediana
hasta el mayor valor.
Ejemplo 3.15. Calcular los cuartiles de las siguientes muestras:
a) 6, 8, 4, 12, 15, 17, 23, 18, 25, 11
Los datos ordenados sern: 4, 6, 8, 11, 12, 15, 17, 18, 23, 25
La primera mitad es: 4, 6, 8, 11, 12, luego Q
1
= 8
La segunda mitad es: 15, 17, 18, 23, 25, luego Q
3
= 18
b) 10, 22, 17, 13, 28, 40, 29, 18, 23, 39, 44
Los datos ordenados sern: 10, 13, 17, 18, 22, 23, 28, 29, 39, 40, 44
La primera mitad es: 10, 13, 17, 18, 22, 23, luego Q
1
=
2
18 17 +
= 17.5
La segunda mitad es: 23, 28, 29,39, 40, 44, luego Q
3
=
2
39 29 +
= 34
Una variante en este ltimo caso es no usar la mediana. Es decir considerar que la primera
mitad es 10, 13, 17, 18, y 22 y la segunda mitad es 28, 29, 39, 40, y 44. As Q
1
sera 17 y
Q
3
sera 39. Existen otros mtodos de calcular cuartiles, por ejemplo MINITAB usa un
proceso de interpolacin para calcularlos.
A la diferencia de Q
3
y Q
1
se le llama Rango Intercuartlico, sta es una medida de
variabilidad que puede ser usada en lugar de la desviacin estndar, cuando hay
outliers.
Los Deciles: Son valores que dividen a la muestra en 10 partes iguales
Los Percentiles: Dado un cierto porcentaje 100p, donde p vara entre 0 y 1, el
percentil del 100p% es un valor tal que 100p% de los datos caen a la izquierda del
percentil. En particular, la mediana y los cuartiles son percentiles. El primer cuartil es el
percentil de 25%, la mediana es el percentil del 50% y el tercer cuartil es el percentil del
75%.
3.5.4 Clculo de medidas estadsticas usando MINITAB.
En MINITAB se pueden calcular simultneamente varias medidas estadsticas de
centralidad y de variabilidad para un conjunto de datos, para esto se elige la opcin
52
Display Descriptive Statistics del submen de Basic Statistics del men STAT. La
ventana de dilogo de Display Descriptive Statistics para calcular las medidas estadsticas
de la variable gpa del Ejemplo 3.1 segn sexo aparece de la siguiente manera:
Figura 3.24. Ventana de dilogo para calcular medidas estadsticas de la variable gpa, clasificada por sexo.
Los resultados aparecern en la ventana Session, como sigue:
Descriptive Statistics: gpa
Variable sexo N N* Mean SE Mean StDev Minimum Q1 Median Q3
gpa f 20 0 3.145 0.103 0.463 2.200 2.755 3.290 3.588
m 8 0 3.016 0.187 0.528 2.150 2.555 3.160 3.185
Variable sexo Maximum
gpa f 3.660
m 3.860
Donde:
N representa el nmero de datos;
N* representa en nmero de datos perdidos,
Mean, la media muestral;
Median, la Mediana;
Tr Mean, la media podada del 5 por ciento;
StDev, la desviacin Estndar;
SE Mean, el error estndar de la Media Muestral, o sea
n
s
y los valores restantes
representan el Mnimo, el Mximo y los cuartiles superior (Q
3
) e inferior (Q
1
) de cada
variable.
Si se oprime el botn Graphs antes de oprimir OK en la ventana de dilogo anterior
se obtiene la siguiente ventana de dilogo que permite hacer histogramas, individual
value plot, y boxplot.
53
Figura 3.25. Ventana de dilogo de la opcin Graph de Display Descriptive Statistics
Al OK dos veces se obtendrn los siguientes resultados:

Figura 3.26. Grficas del Histograma con la curva Normal y un Individual Value Plot

Tambin es posible obtener un resumen grfico del conjunto de datos eligiendo
Stat-> Basic Statistics -> Graphical Summary. Los resultados que ofrece Minitab son:

Figura 3.27. Resultados de pedir Graphical Summary
Es posible guardar los valores de varias medidas estadsticas en columnas, para
esto se elige la opcin Store Descriptive Statistics del submen Basic Statistics. Al
oprimir la opcin Statistics sale un listado de medidas estadisticas que pueden ser
guardadas. Las ventanas de dilogo se muestran a continuacin:
54

Figura 3.28. Listado de todas las medidas estadsticas que pueden calucularse con MINITAB
Finalmente, tambin es posible obtener medidas estadsticas, eligiendo la secuencia
CALCColumns Statistics.
3.6 El Diagrama de Caja (Boxplot)
El Boxplot es una importante grfica del Anlisis Exploratorio de Datos. Al igual
que el histograma y el stem-and-leaf, permite tener una idea visual de la distribucin de
los datos. O sea, determinar si hay simetra, ver el grado de variabilidad existente y
finalmente detectar outliers. Pero adems, el Boxplot es bien til para comparar
grupos, es una alternativa grfica a la prueba estadstica t de Student, si se comparan dos
grupos o la prueba F del anlisis de varianza si se comparan ms de dos grupos. Todo lo
anterior es posible debido a que se puede hacer mltiples boxplots en una misma grfica,
en cambio los histogramas y stem-and- leaf salen en secuencia uno por pgina.
En MINITAB hay varias maneras de obtener el Boxplot de un conjunto de datos,
la primera es eligiendo la opcin Boxplot del men Graph. En la Figura 3.24 se muestra
las ventanas de dilogo para obtener el boxplot de la variable creditos de los datos del
Ejemplo 3.1.
La variable Y que aparece debajo de Graph Variables es aquella de la cual se desea
obtener el Boxplot, y la variable X es usada solo en el caso que se quiera comparar
varios grupos usando sus boxplots. Por ejemplo X puede ser: Sexo de la persona,
mtodo de Enseanza, etc.
En Annotation se puede poner ttulo, notas al pie, marcar la mediana y tambin los
outliers
En Options se puede elegir Transpose X by Y para sacar el boxplot en forma
horizontal.
55

Figura 3.29. Ventanas de dilogo para hallar el Boxplot
El boxplot que se obtiene se muestra a continuacin.
Figura 3.30. Boxplot para la variable crditos del Ejemplo 3.1
Interpretacin: La lnea central de la caja representa la Mediana y los lados de la caja
representan los cuartiles. Si la Mediana est bien al centro de la caja, entonces hay
simetria. Si la Mediana est ms cerca a Q
3
que a Q
1
entonces la asimetra es hacia la
izquierda, de lo contrario la asimetra es hacia la derecha. Si la caja no es muy
alargada entonces se dice que no hay mucha variabilidad.
Si no hay outliers entonces las lneas laterales de la caja llegan hasta el valor
mnimo por abajo, y hasta el valor mximo por arriba. Cuando hay outliers entonces
stos aparecen identificados en la figura y las lineas laterales llegan hasta los valores
adyacentes a las fronteras interiores. Si las lineas laterales son bastantes alargadas
entonces significa que los extremos de la distribucin de los datos se acercan lentamente
al eje X.
56
Las fronteras interiores se calculan como Q
1
- 1.5RIQ y Q
3
+ 1.5RIQ respectivamente,
donde RIQ = Q
3
-Q
1
es el Rango Intercuartlico. Las fronteras exteriores se calculan por
Q
1
- 3RIQ y Q
3
+ 3RIQ. Si un valor cae ms alla de las fronteras exteriores se dice que
es un "outlier" extremo, en caso contrario el outlier es moderado. Un "outlier"
moderado se representa por * y uno extremo por 0.
En el boxplot de crditos la mediana es 113, y hay dos outliers inferiores 13 y
15. Hay asimetra hacia la izquierda y no hay mucha variabilidad.
Una segunda manera de obtener un boxplot es eligiendo la opcin Character Graphs
del men Graph y luego boxplot del listado que aparece. En este caso el boxplot es de
modo texto. Pero aqu se puede notar que los outliers son extremos.
MTB > BoxPlot 'crditos'.

Boxplot
-----------
OO ------------I + I----
-----------
+---------+---------+---------+---------+---------+------
crditos
0 25 50 75 100 125
Otra alternativa de hacer un boxplot en MINITAB es elegir la opcin EDA del men Stat
y luego seleccionar boxplot del listado que aparece. Aqui el boxplot que resulta es de
modo grfico.
3.7 Organizacin y Presentacin de datos Bivariados
3.7.1 Datos bivariados categricos.
Para organizar datos de dos variables categricas o cualitativas se usan tablas de
doble entrada. Los valores de una variable van en columnas y los valores de la otra
variable van en filas. Para hacer esto en MINITAB se elige la opcin Tables del men
Stat. y luego la opcin Cross Tabulation del submen deTables.
Hay dos maneras de usar Cross Tabulation dependiendo de como se han entrado los
datos. Primero, cuando los datos de cada variable estn dados en dos columnas distintas. O
sea, como si hubiesen sido las contestaciones de un cuestionario.
57
Ejemplo 3.16. Supongamos que deseamos establecer si hay relacin entre las variables
tipo de escuela superior y la aprobacin de la primera clase de matemticas que toma el
estudiante en la universidad, usando los datos de 20 estudiantes que se muestran abajo:
Est escuela aprueba Est escuela aprueba
1 priv si 11 pbl si
2 priv no 12 priv no
3 pbl no 13 pbl no
4 priv si 14 priv si
5 pbl si 15 priv si
6 pbl no 16 pbl no
7 pbl si 17 priv no
8 priv si 18 pbl si
9 pbl si 19 pbl no
10 priv si 20 priv si
Asumiendo que los datos son entrados en dos columnas: C1: Escuela y C2: aprueba, la
ventana de dilogo de Cross Tabulation and Chi-Square se completer como aparece en
la siguiente figura:
Figura 3.31. Ventana de dilogo para hacer una tabla de contigencia de escuela versus aprueba
El contenido de la tabla de session es el que sigue.
58
Tabulated statistics: escuela, aprueba
Rows: escuela Columns: aprueba
no si All
priv 3 7 10
30 70 100
37.50 58.33 50.00
15 35 50
pbl 5 5 10
50 50 100
62.50 41.67 50.00
25 25 50
All 8 12 20
40 60 100
100.00 100.00 100.00
40 60 100
Cell Contents: Count
% of Row
% of Column
% of Total
Interpretacin: Cada celda contiene 4 valores: La Frecuencia Absoluta, el porcentaje
que representa la celda con respecto al total de la fila, el procentaje que representa la
celda con respecto al total de la columna, el porcentaje que representa la celda con
respecto al total global. Por ejemplo, si cogemos los nmeros de la primera celda,
significa que hay 7 estudiantes que son de escuela privada y aprueban el examen. Un
70% de los estudiantes de escuela privada aprueban el examen, 58.33% de los que
aprueban el examen son de escuela privada y 35% son estudiantes de escuela pblica y
aprueban el examen.
La segunda situacin donde Cross Tabulation es usada, es cuando las frecuencias
absolutas de cada celda estn totalizados, como en el siguiente ejemplo.
Ejemplo 3.17. Los siguientes datos se han recopilados para tratar de establecer si hay
relacin entre el Sexo del entrevistado y su opinin con respecto a una ley del Gobierno.
Sexo Opinion Conteo
male si 10
male no 20
male abst 30
female si 15
female no 31
female abst 44
Usar MINITAB para construir una tabla de contingencia y responder adems las
siguientes preguntas:
a) Qu porcentaje de los entrevistados son mujeres que se abstienen de opinar?
b) De los entrevistados varones. Qu porcentaje est en contra de la ley?
c) De los entrevistados que estn a favor de la ley. Qu porcentaje son varones?
59
d) De los que no se abstienen de opinar Qu porcentaje son varones?
Solucin:
En este caso se entra la columna c3 (conteo ) en la ventanita correspondiente a
Frequencies are in que aparece en la ventana de dialogo de Cross Tabulation . Los
resultados sern como sigue:
Tabulated statistics: Sexo, Opinion
Using frequencies in Conteo
Rows: Sexo Columns: Opinion
abst no si All
female 44 31 15 90
48.89 34.44 16.67 100.00
59.46 60.78 60.00 60.00
29.33 20.67 10.00 60.00
male 30 20 10 60
50.00 33.33 16.67 100.00
40.54 39.22 40.00 40.00
20.00 13.33 6.67 40.00
All 74 51 25 150
49.33 34.00 16.67 100.00
100.00 100.00 100.00 100.00
49.33 34.00 16.67 100.00
Cell Contents: Count
% of Row
% of Column
% of Total
a) % 33 . 29 100
150
44
=
b) % 33 . 33 100
60
20
= (20/60)x100=33.33%
c) % 00 . 40 100
25
10
= (10/25)x100=40.00%
d) =
+
+
100
) 51 25 (
) 20 10 (
% 00 . 39 100
46
30
=
Cuando se tiene dos variables categricas se pueden hacer grficas de barras agrupadas
("bars in clusters") o en partes componentes ("stacked bars") para visualizar la relacin
entre ellas.
Ejemplo 3.18. Hacer una grfica de barras agrupadas para mostrar la distribucin de los
estudiantes por sexo segn programa acadmico para los datos del Ejemplo 3.1.
60
Para hacer una grfica de barras agrupadas se debe elegir Cluster en la ventana de dilago
principal. Luego, en la segunda ventana, se eligen las variables que se utilizarn. Como se
quiere una grfica de estudiantes por programa por sexo, se elige primero la variable
programa y luego la varible sexo.

Figura 3.32. Ventana de dilogo para hacer una grfica de barras agrupadas
Oprimiendo la opcin Labels, se puede especificar el ttulo de la grfica y las etiquetas de
las columnas.
Luego, se obtiene la siguiente grfica de barras agrupadas
Figura 3.33. Grfica de barras agrupadas de variable programa segn sexo
Ejemplo 3.19. La siguiente tabla muestra el nmero de estudiantes subgraduados
matriculados en el Recinto Universitario de Mayaguez de la Universidad de Puerto Rico
en el primer semestre del ao acadmico 96-97.
61
Facultad Hombres Mujeres
Artes y Ciencias 1713 2492
Admistracin de Empresas 637 1257
Ingeniera 2885 1720
Agricultura 806 331
Hacer una grfica de barras agrupadas para comparar el nmero de estudiantes por sexo en
cada facultad.
Solucin: Primero que nada hay que entrar los datos en 3 columnas: Facultad, Sexo y
cantidad. Luego se elige Graphs-> Bar Chart. Las opciones de la primera ventana se
eligen como se muestra en la Figura 3.34.

Figura 3.34. Ventana de dilogo para la grfica de barras agrupadas del Ejemplo 3.19.
Luego de escribir el ttulo deseado en Labels, se oprime ok para obtener la
siguiente grfica.
62
Figura 3.35. Grficas de barras agrupadas para la variable Facultad segn Sexo.
Ejemplo 3.20. Hallar una grfica de partes componentes para comparar los estudiantes
(por programa) segn el tipo de escuela de donde proceden, usando datos del ejemplo 3.1.
Solucin: Bajo la opcin de Grfica -> Bar Chart, las opciones que se muestran en la
figura 3.31.

Figura 3.36: Ventanas de dilogo para una grfica de partes componentes
Luego, en la ventana de Scale -> Axes and Ticks elija la opcin Transpose value and
category scales y en la ventana de Labels coloque el ttulo de la grfica y los valores
correspondientes a las barras. La grfica resultante se muestra en la Figura 3.37.
Figura 3.37. Grfica de barras en partes componentes para la variable Programa segn Escuela
63
Algunas veces ocurre que una variable cuantitativa es convertida en categrica
agrupndola en clases o grupos. Por ejemplo, la edad puede ser convertida en cualitativa si
se consideran grupos de edades. Similarmente, aos de educacin pueden ser convertida
en cualitativa si se consideran niveles de educacin.
Ejemplo 3.21. La siguiente grfica muestra la distribucin de la poblacin en Puerto Rico segn
grupos de edades y por sexo.
Figura 3.38: Distribucin de la poblacin por grupo de edades en Puerto Rico
3.7.2 Datos que contienen una variable cualitativa y otra cuantitativa
Un ejemplo de un conjunto de dos variables en el cual una variable es cualitativa y
la otra cuantitativa puede el conjunto compuesto por mtodo de enseanza (cualitativa) y
nota obtenida por el estudiante (cuantitativa). Otro ejemplo sera, el conjunto compuesto
por la variable cualitativa profesin de una persona y la variable cuantitativa salario
anual.
La forma estndar de presentar los datos es en columnas donde cada columna
representa un valor de la variable cualitativa y los valores dentro de cada columna
representan valores de la variable cuantitativa. En general el objetivo es comparar los
valores de la variable cualitativa segn los valores de la variable cuantitativa, esto se lleva
a cabo con una tcnica llamada anlisis de varianza (ver captulo 10).
La grfica ms adecuada para representar este tipo de informacin es el "Boxplot".
La grfica de la Figura 3.39 muestra los boxplots de los promedios acadmicos de los
estudiantes varones y mujeres del Ejemplo 3.1.
64
Interpretacin: De la grfica se puede ver que en promedio las mujeres tienen mejor
promedio acadmico (GPA) que los hombres, y que la distribucin de sus GPA es
ligeramente ms variable. Adems no hay outliers.
Figura 3.39: Boxplot para comparar los promedios de hombres y mujeres
3.7.3 Datos Bivariados Continuos
Si se quiere representar la relacin entre dos variables cuantitativas entonces se usa
un diagrama de dispersin (Scatterplot). Para obtener un diagrama de dispersin entre
dos variables X e Y se usa la opcin Scatterplots del men Graph. La ventana de dilogo
para hacer el diagrama de dispersin del promedio acadmico (gpa) versus el tamao de la
familia usando los datos del Ejemplo 3.1 es la siguiente:

Figura 3.40: Ventanas de dilogo para obtener el plot de gpa versus familia.
La grfica se muestra en la siguiente figura, donde adems cada punto es marcado con el
65
Figura 3.41: Plot de gpa versus familia marcando cada punto con el programa del estudiante
programa al cual pertenece el estudiante, sto se consigue eligiendo la opcin Labels ->
Data Labels y luego entrando la variable programa en la ventanita correspondiente a Use
labels from column. Para cambiar de smbolo, colores y tamaos a los puntos del plot,
oprima el botn de la izquierda del ratn dos veces seguidos sobre cualquiera de los
smbolos para abrir la opcin Edit Attributes.
Ejemplo 3.22. Es bien frecuente tener datos de una variable para un perodo de tiempo
(dias, meses o aos), estos tipos de datos son llamados series cronolgicas o series
temporales. Para este tipo de datos se pueden hacer grficos de barras (aunque stas son
66
1
9
5
0
1
9
5
1
1
9
5
2
1
9
5
3
1
9
5
4
1
9
5
5
1
9
5
6
1
9
5
7
1
9
5
8
1
9
5
9
1
9
6
0
1
9
6
1
1
9
6
2
1
9
6
3
1
9
6
4
1
9
6
5
1
9
6
6
1
9
6
7
1
9
6
8
1
9
6
9
1
9
7
0
1
9
7
1
1
9
7
2
1
9
7
3
1
9
7
4
1
9
7
5
1
9
7
6
1
9
7
7
1
9
7
8
1
9
7
9
1
9
8
0
1
9
8
1
1
9
8
2
1
9
8
3
1
9
8
4
1
9
8
5
1
9
8
6
1
9
8
7
1
9
8
8
1
9
8
9
1
9
9
0
1
9
9
1
1
9
9
2
1
9
9
3
1
9
9
4
1
9
9
5
1
9
9
6
1
9
9
7
1
9
9
8
0
1000000
2000000
3000000
4000000
5000000
year
n
u
m
e
r
o

d
e

v
i
s
i
t
a
n
t
e
s
Numero visitantes a Puerto Rico desde 1950 a 1998
Hecho por Edgar Acuna
1
9
5
0
1
9
5
1
1
9
5
2
1
9
5
3
1
9
5
4
1
9
5
5
1
9
5
6
1
9
5
7
1
9
5
8
1
9
5
9
1
9
6
0
1
9
6
1
1
9
6
2
1
9
6
3
1
9
6
4
1
9
6
5
1
9
6
6
1
9
6
7
1
9
6
8
1
9
6
9
1
9
7
0
1
9
7
1
1
9
7
2
1
9
7
3
1
9
7
4
1
9
7
5
1
9
7
6
1
9
7
7
1
9
7
8
1
9
7
9
1
9
8
0
1
9
8
1
1
9
8
2
1
9
8
3
1
9
8
4
1
9
8
5
1
9
8
6
1
9
8
7
1
9
8
8
1
9
8
9
1
9
9
0
1
9
9
1
1
9
9
2
1
9
9
3
1
9
9
4
1
9
9
5
1
9
9
6
1
9
9
7
1
9
9
8
0
1000000
2000000
3000000
4000000
5000000
year
n
u
m
e
r
o

d
e

v
i
s
i
t
a
n
t
e
s
Numero visitantes a Puerto Rico desde 1950 a 1998
Hecho por Edgar Acuna
inadecuadas si el perodo de tiempo es muy grande) y grficas lineales. Las siguientes
grficas se refieren al nmero de visitantes a Puerto Rico desde 1950 hasta 1998.
Figura 3.42 Grfica de barras del nmero de Figura 3.43 Grfica de barras del nmero
visitantes a Puerto Rico entre 1950-1998. de visitantes a Puerto Rico entre 1950-1998.
3.8 El Coeficiente de Correlacin
El coeficiente de correlacin lineal, llamado tambin coeficiente de correlacin de
Pearson, se representa por r y es una medida que representa el grado de asociacin entre
dos variables cuantitativas X e Y. Se calcula por
Donde:
n
x
x S
n
i
i
n
i
i xx
=
=
=
1
2
1
2
) (
,
n
y
y S
n
i
i
n
i
i yy
=
=
=
1
2
1
2
) (
y
n
y x
y x S
n
i
n
i
i i
n
i
i i xy

= =
=
=
1 1
1
) )( (
S
xx
es llamada la Suma de Cuadrados corregida de X, S
yy
es la Suma de Cuadrados
Corregida de Y, y S
xy
es la Suma de Productos de X e Y. Tanto S
xx
como S
yy
no pueden
ser negativas, S
xy
si puede ser positiva o negativa.
La correlacin varia entre -1 y 1. Un valor de r cercano a 0 indica una relacin lineal muy
pobre entre las variables. Un valor cercano a 1 indica que hay una buena relacin lineal
entre la variable y adems al aumentar una de ellas la otra tambin aumenta. Un valor
cercano a 1 indica una buena relacin lineal pero al aumentar el valor de una de las
variables la otra disminuye.
En trminos generales un valor de correlacin mayor que 0.75 menor que -0.75
indica una buena relacin lineal entre las variables. Aunque el tipo de datos que se est
usando influye en el momento de decidir si la correlacin es suficientemente alta. Si los
datos provienen de un rea donde se exige mucha precisin, como en ingeniera o
medicina entonces la correlacin debe estar lo ms cerca posible a 1 1, en reas como
economa o en ciencias sociales una correlacin de 0.6 en valor absoluto pudiera ser
considerada aceptable. Pero si hay un consenso general que una correlacin entre -0.3 y
0.3 es indicativo de una relacin lineal bastante pobre entre las dos variables.
Ejemplo 3.23. El dueo de una empresa que vende carros desea determinar si hay relacin
lineal entre los aos de experiencia de sus vendedores y la cantidad de carros que venden.
Los siguientes datos representan los aos de experiencia (X) y las unidades de carros
vendidas al ao (Y), de 10 vendedores de la empresa.
67
yy xx
xy
S S
S
r =
X(aos) 3 4 6 7 8 12 15 20 22 26
Y(ventas) 9 12 16 19 23 27 34 37 40 45
Haciendo uso de la calculadora de MINITAB. Se obtienen los siguientes resultados
Row years ventas Sxx Syy Sxy r
1 3 9 590.1 1385.6 889.4 0.983593
2 4 12
3 6 16
4 7 19
5 8 23
6 12 27
7 15 34
8 20 37
9 22 40
10 26 45

Interpretacin:
Existe una buena relacin lineal entre los aos de experiencia y las unidades que vende
el vendedor. Adems mientras ms experiencia tiene el vendedor ms carros vender.
Se puede usar los aos de experiencia para predecir las unidades que vender
anualmente a travs de una linea recta.
En MINITAB, el coeficiente de correlacin se puede obtener eligiendo la opcin
correlation del submen Basic Statistics del men Stat.
Ejemplo 3.24. La siguiente salida muestra la correlacin entre el tamao de la familia del
estudiante y su promedio acadmico gpa del Ejemplo 3.1.
Correlations (Pearson)
Correlation of gpa and familia = 0.061
Interpretacin:
La correlacin de .061 indica una muy pobre relacin lineal entre las variables familia
y gpa. No tiene sentido predecir el promedio acadmico del estudiante usando el
tamao de su familia a travs de una linea recta.
68
La Figura 3.36, muestra cuatro diagramas de dispersin y sus respectivas correlaciones.
Notar que en los dos ltimos plots la correlacin es cercana a cero, pero en el primero de
ellos no parece haber ningn tipo de relacin entre las variables, en tanto que en el
segundo no hay relacin lineal pero si existe una relacin cuadrtica.
69
Figura 3.44: Valor de la correlacin para diversos plots.
El valor de correlacin es afectado por la presencia de valores anormales, en la siguiente
grfica se puede ver el efecto de los valores anormales en el valor de la correlacin para 4
diferentes relaciones.
Figura 3.45: Efectos de valores anormales en la correlacin
70
0 5 10 15 20 25
10
20
30
40
X
Y
10 20 30 40
80
90
100
110
120
130
140
150
X
Y
5 10 15
70
80
90
X
Y
1 2 3 4 5 6 7
4
9
14
X
Y
Coeficiente de Correlacion para diversos plots

r=.107
r=.005
r=-.993
r=.984
0 5 10 15 20 25
0
20
40
60
80
100
120
X
Y
0 10 20 30 40 50 60
10
20
30
40
X
Y
0 10 20 30 40
0
10
20
30
40
50
60
70
80
90
X
Y
0 5 10 15 20 25
0
5
10
15
20
25
30
35
40
45
X
Y
Efecto de valores anormales en el valor de la correlacion
r=.974
r=.984
r=.319 r=.371
Interpretacin de la figura 3.45: En el primer caso existe un valor bastante anormal en
la direccin vertical que hace que la correlacin sea bastante bajo a pesar de que los
otros valores parecen estar bastante alineados. En el segundo caso, existe un valor
bastante alejado horizontalmente de la mayor parte de los datos y que hace que la
correlacin sea relativamente baja a pesar de que los otros valores muestran una alta
asociacin lineal.
En el tercer caso hay, una observacin bastante alejado en ambas direcciones sin
embargo no tiene ningun efecto en la correlacin.
En el cuarto caso, hay un valor bastante alejado en ambas direcciones y las restantes
observaciones estn poco asociadas, pero el valor anormal hace que el valor de la
correlacin sea bastante alto.
El cuadrado del coeficiente de correlacin expresado en porcentaje es llamado el
Coeficiente de Determinacin (R
2
). Un R
2
mayor de 70% indica una buena asociacin
lineal entre las variables X e Y.
3.9 Una introduccin a Regresin Lineal.
Si se ha determinado que la correlacin lineal entre las variables Y y X es aceptable
entonces el prximo paso es determinar la lnea que representa la tendencia de la relacin
entre las dos variables cuantitativas, sta es llamada la linea de regresin estimada. La
variable Y es considerada como la variable dependiente o de respuesta y la variable X es
considerada la variable independiente o predictora. La ecuacin de la lnea de regresin
es
Y
= +
X,
donde: es el intercepto con el eje Y, y
es la pendiente de la linea de regresin.

Ambos son llamados los coeficientes de la lnea de regresin.
Los estimadores y
son hallados usando el mtodo de mnimos cuadrados, que

consiste en minimizar la suma de los errores cuadrticos de las observaciones con respecto
a la lnea. Las frmulas de clculo son:
xx
xy
s
s
=
y
x y
=
donde x es la media de los valores de la variable X y
y
es la media de los valores de Y.
71
Interpretacin de los coeficientes de regresin:
La pendiente
se interpreta como el cambio promedio en la variable de respuesta Y

cuando la variable predictora X se incrementa en una unidad adicional.
El intercepto indica el valor promedio de la variable de respuesta Y cuando la
variable predictora X vale 0. Si hay suficiente evidencia de que X no puede ser 0
entonces no tendra sentido la interpretacin de
En MINITAB, es posible obtener simultneamente, el scatterplot, el coeficiente R
2
y la
lnea de regresin. Para esto, se sigue la secuencia StatRegression Fitted line Plot
como se muestra en Figura 3.46:
Figura 3.46: Las opciones del men regression
Ejemplo 3.25. Supongamos que se desea establecer una relacin entre la nota que un
estudiante obtiene en la parte de aprovechamiento matemtico de ingreso (CEEB) y el
Promedio acadmico al final de su primer ao de universidad (GPA). Se toma una muestra
de 15 estudiantes y se obtiene los siguientes datos:
Est CEEB GPA
1 425 2.81
2 495 2.56
3 600 2.92
4 610 3.18
5 612 2.51
6 648 3.43
72
Est CEEB GPA
8 660 3.16
9 665 2.73
10 670 2.82
11 720 3.04
12 710 2.42
13 735 2.97
14 780 3.33
15 790 3.12
7 652 2.72
Obtener el diagrama de dispersin de los datos, la ecuacin de la lnea de regresin y
trazar la lnea encima del diagrama de dispersin.
Solucin: Primero hay que notar que la variable independiente es CEEB y la variable
dependiente esGPA. Luego, la ventana de dilogo para la opcin Fitted line Plot lucir
como sigue:
Figura 3.47: Ventana de dilogo para obtener el diagrama de dispersin y la linea de regresin de gpa versus
familia
y la grfica aparecer como
CEEB
G
P
A
800 700 600 500 400
3.50
3.25
3.00
2.75
2.50
S 0.291371
R-Sq 12.1%
R-Sq(adj) 5.4%
Regresin de GPA versus CEEB
GPA = 2.210 +0.001087 CEEB
Figura 3.48: Diagrama de puntos y linea de regresin de gpa versus familia
Interpretacin: El coeficiente de determinacin es .121 y como la pendiente de la lnea
de regresin es positiva resulta ser que la correlacin es .11, esto indica una pobre
relacin lineal entre las variables CEEB y GPA. O sea que es poco confiable predecir
GPA basado en el CEEB usando una linea.
73
La ecuacin de la lnea de regresin aparecer en la ventana session
Regression
The regression equation is
y = 2.21 + 0.00109 x
Predictor Coef StDev T P
Constant 2.2099 0.5319 4.15 0.001
x 0.0010872 0.0008122 1.34 0.204
S = 0.2914 R-Sq = 12.1% R-Sq(adj) = 5.4%
Interpretacin: La pendiente 0.00109 indica que por cada punto adicional en el
College Board el promedio del estudiante subira en promedio en 0.00109, o se podra
decir que por cada 100 puntos ms en el College Board el promedio acadmico del
estudiante subira en .109. Por otro lado, si consideramos que es imposible que un
estudiante sea admitido sin tomar el College Board, podemos decir que no tiene sentido
interpretar el intercepto.
El uso de los botones Options y Storage y de otros aspectos de regresin sern
discutidos ms detalladamente en el captulo 8 de este texto.
Prediccin
Uno de los mayores usos de la lnea de regresin es la prediccin del valor de la
variable dependiente dado un valor de la variable predictora. Esto se puede hacer
fcilmente sustituyendo el valor dado de X en la ecuacin.
Por ejemplo, supongamos que deseamos predecir el promedio acadmico de un
estudiante que ha obtenido 600 puntos en la parte matemtica del examen de ingreso.
Sustituyendo x =600 en la ecuacin de la lnea de regresin se obtiene
Y=2.21+.00109*600=2.21+.654=2.864. Es decir que se espera que el estudiante tenga un
promedio acadmico de 2.86.
MINITAB tambin tiene una opcin que permite hacer predicciones pero, esto ser
tratado en el captulo 9 del texto.
74
EJERCICIOS
1. La siguiente tabla representa el crecimiento poblacional y vehicular de Puerto Rico desde
1950.
Ao Poblacin Vehculos
1950 2,200,000 57,120
1960 2,345,000 172,077
1970 2,710,000 478,340
1980 3,182,328 1,129,312
1990 3,522,037 1,582,061
1996 3,782,862 2,168,697
Hacer una grfica que represente la informacin dada.
2. La siguiente tabla representa los porcentajes de familias americanas en diversos niveles de
ingreso en 1969 y 1994.
Ingreso year 1969 year 1994
Less 10,000 7.9 8.7
10,000 - 14,999 6.7 6.9
15,000 - 24,999 15.8 15.0
25,000 - 34,999 19.1 14.3
35,000 - 49,999 24.7 18.0
50,000 - 74,999 17.8 19.9
75,000 - 99,999 5.0 8.8
100,000 and over 2.9 8.4
a) Hacer una grfica de barras que permita comparar como han cambiado los porcentajes de
familias a varios niveles de ingreso de 1969 a 1994. Comentar la grfica.
b) Hacer un pie-chart para ver la distribucin de personas por nivel de ingreso en los dos
aos.
3. La siguiente tabla muestra los casos reportados y las muertes por SIDA en Puerto Rico desde
1992 hasta 1996.
Nmero
de casos
tipo ao
2386 reportados 92
1633 muertos 92
2619 reportados 93
1647 muertos 93
2253 reportados 94
1211 muertos 94
1903 reportados 95
800 muertos 95
1152 reportados 96
259 muertos 96
75
Hacer una grfica de Barras agrupadas para representar la informacin.
4. Hacer un"Pie Chart" para representar la siguiente informacin
Casos de SIDA en Puerto Rico desde 1992
Regin Casos
Aguadilla 600
Mayaguez 930
Arecibo 1199
Ponce 3602
Bayamn 3220
San Juan 2334
Caguas 2352
Fajardo 608
5. Los siguientes datos representan tiempos de sobrevivencia (en dias) de 30 pacientes aquejados
de cncer
42 45 51 46 340 81 243 63 155 151 37 138 245 377 537 455 776
163 20 1234 201 2970 456 1235 1581 40 3808 1804 719 365
a) Calcular la media, la mediana y la desviacin estndar. Comentar sus resultados.
b) Hacer el histograma de los datos y comentar la grfica.
c) Hacer el "stem-and-leaf".
d) Hacer el "Boxplot" de los datos y comentar la grfica.
6. Elegir la mejor contestacin en cada una de las siguientes preguntas
I. Cul de las siguientes afirmaciones es FALSA?
a) Una variable es cualitativa si los valores que asume expresan atributos o categorias.
b) Tipo de sangre es una variable cualtitativa.
c) La Mediana puede usarse cuando los datos son cualitativos.
d) Un grfico de barras se usa cuando los datos son cualitativos.
II. Cul de las siguientes afirmaciones es CIERTA?
a) La muestra al azar es aquella que hace que la media de la muestra sea igual a la media
poblacional.
b) La varianza de una muestra siempre es mayor que la varianza poblacional porque en la
primera se divide por n-1.
c) En la frmula de la varianza de la muestra se divide por n-1 porque excluyendo un dato
se obtiene un mejor estimado de la varianza poblacional.
d) Una muestra al azar hace que la media muestral sea un estimado bastante confiable de la
media poblacional.
III. Cul de los siguientes enunciados es CIERTO?
a) La media es una mejor medida que la mediana cuando todos los datos son pequeos.
76
b) La mediana es afectada por la presencia de outliers.
c) La varianza es afectada por la presencia de outliers.
d) La media es mejor medida que la mediana cuando la muestra es asimetrica a la derecha.
IV. Un histograma es asimtrico hacia la derecha.
a) Si todos los datos son positivos.
b) Si para valores bajos de la variable la frecuencia es alta, y para valores grandes la
frecuencia es baja.
c) Si para valores bajos de la variable la frecuencia es baja, y para valores grandes la
frecuencia es alta.
d) Si la media de los datos es positivo.
V. Cul de las siguientes afirmaciones con respecto a la amplitud de clase es FALSA?
a) La amplitud es igual al rango o alcance dividido entre el nmero de clases.
b) La amplitud es igual a la diferencia de dos marcas de clases consecutivas.
c) La amplitud de una clase es CERO si su frecuencia absoluta es CERO.
d) La amplitud es igual a la diferencia de dos limites inferiores de clases consecutivas.
VI. Cul de las siguientes afirmaciones es CIERTA?
a) El stem-and-leaf es una mejor grfica que el histograma cuando existen outliers.
b) El stem-and-leaf slo se usa para valores positivos.
c) El stem-and-leaf es una mejor grfica que el histograma cuando los datos son solamente
nmeros enteros.
d) El stem-and-leaf permite recuperar los datos de la muestra lo cual no se puede hacer con
el histograma.
7. Dado el siguiente stem-and-leaf
2 34578
3 459
4 21
5 0

Si, la unidad de la hoja=.01.
Cul de los siguientes enunciados es FALSO?
a) 5 | 0 representa 0.50.
b) La muestra tiene 11 datos.
c) La muestra es asimtrica a la izquierda .
d) La mediana es 0.34.

8. Cul de los siguientes enunciados es FALSO?
a) El rango intercuartlico es una medida de variabilidad.
b) Si la desviacin estandar es grande no se puede concluir que la muestra tenga mucha
variabilidad.
77
c) Un dato es considerado un outlier si es un nmero positivo bien grande.
d) Un dato es considerado un outlier extremo si cae fuera del intervalo (Q1-3RIQ , Q3+
3RIQ).
9. Cul de los siguientes no es un mtodo de Muestreo?
a) Sistemtico b) Estocstico c) Estratficado d) Por Conglomerados.
10. Cul de las siguientes afirmaciones es CIERTA?
a) El parmetro es un valor que vara con la muestra tomada.
b) El valor estadstico por lo general permanece constante.
c) Una muestra al azar es aquella que hace que la media muestral sea un estimador
confiable de la media poblacional.
d) Un Censo es un listado de todos los elementos de una muestra.
11. Cul de las siguientes afirmaciones es FALSA?
a) Una variable es cuantitativa discreta si los valores que asume resultan de hacer conteos.
b) La opinin que expresa una persona es una variable cualitativa.
c) La Media puede usarse cuando los datos son cualitativos.
d) Un grfico de barras se usa cuando los datos son cualitativos.
12. Cul de los siguientes NO es una grfica para datos cualitativos?
a) Pie- Chart b) Grficas de barras agrupadas c) El dotplot d) Ninguna de las anteriores
13. Cul de las siguientes No es una accin que se puede hacer al elegir el botn Annotation de
las ventana Histogram?
a) Poner ttulo a la grfica.
b) Poner notas al pie de la grfica.
c) Indicar cuntos datos hay en cada intervalo de clase.
d) Poner nombre a los ejes coordenados.
14. La opcin del men TABLES que se usa para obtener una tabla de frecuencias en MINITAB
es:
a) FREQUENCIES b) TABLE c) COUNT d) TALLY
15. Los resultados de ejecutar los comandos en MINITAB eligiendo las opciones del men
aparecen en la ventana
a) PROJECT b) WORKSHEET c) SESSION d) FILE
16. Cul de los siguientes enunciados es CIERTO?
78
a) La mediana es siempre un dato de la muestra tomada.
b) El "dotplot" es una grfica para distribucin de datos discretos.
c) El tiempo de espera para que un estudiante escoja sus secciones en la matricula es una
variable cuantitativa discreta.
d) Si el tamao de la muestra es n entonces la mediana es n/2.
17. Marcar con una C si es cierto y una F si es falso en cada uno de los siguientes enunciados.
a) La mediana es siempre un dato de la muestra tomada.
b) El parmetro es un valor que caracteriza a la muestra.
c) El nmero de carros que pasan por una estacin de peaje entre las 7am y 9am es una
variable cualitativa continua.
d) Las grficas Circulares y de Barras se usan para presentar datos cualitativos.
e) Si el tamao de la muestra es n, entonces la mediana es (n+1)/2.
f) El comando PRINT en MINITAB se usa para imprimir los resultados en el papel .
g) Un Censo es un listado de todos los elementos de la poblacin.
18. Los siguientes datos representan el nmero de asesinatos reportados durante 15 fines de
semana en una ciudad:
4 5 0 5 3 2 1 4 3 2 4 4 1 12 5
a) Cul es el nmero promedio de asesinatos durante los fines de semana?
b) Cul es el nmero ms frecuente de asesinatos en los fines de semana?
c) Piensa Ud. que 12 es un valor anormal? Justifique su contestacin.
19. La siguiente tabla muestra la distribucin de frecuencias de una muestra de los tiempos (en
minutos) que tienen que esperar las personas para ser atendidos en un Banco:
Intervalos Frec. Abs Frec. Rel. Frec. Abs. Frec. Rel.
de clases f Porcentual Acumul. Porc. Acum..
1.0 - 4.9 3
5.0 - 8.9 10
9.0 - 12.9 14
13.0 - 16.9 25
17.0 - 20.9 17
21.0 - 24.9 9
25.0 - 28.9 2
a) Cul es la amplitud de cada clase?
b) Cul es la marca de clase (midpoint) de la tercera clase?
c) Cul es el tamao de la muestra?
d) Clcular las frecuencias relativas porcentuales y las frecuencias acumuladas.
e) Hacer el histograma y comentar acerca de su forma.
20. Una muestra tiene el siguiente BOXPLOT
79
*
6 8 11 12 16
Poner una X al lado de las afirmaciones que son CIERTAS
a) La muestra es asimtrica hacia la izquierda.
b) El dato menor es 6.
c) Existe mucha variabilidad.
d) La media de la muestra es 10.
e) El * representa un valor mayor que 18.
f) La frontera exterior superior es 25.
g) El valor adyacente inferior es 6.
h) El valor mayor es 16.
21. Los siguientes datos representan la tasa de criminalidad por cada 100000 habitantes en cada
estado de los Estados Unidos.
STATE Murder Rape Robbery Assault Burglary Larceny Auto
Alabama 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7
Alaska 10.8 51.6 96.8 284 1331.7 3369.8 753.3
Arizona 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5
Arkansas 8.8 27.6 83.2 203.4 972.6 1862.1 183.4
California 11.5 49.4 287 358 2139.4 3499.8 663.5
Colorado 6.3 42 170.7 292.9 1935.2 3903.2 477.1
Connecticut 4.2 16.8 129.5 131.8 1346 2620.7 593.2
Delaware 6 24.9 157 194.2 1682.6 3678.4 467
Florida 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4
Georgia 11.7 31.1 140.5 256.5 1351.1 2170.2 297.9
Hawaii 7.2 25.5 128 64.1 1911.5 3920.4 489.4
Idaho 5.5 19.4 39.6 172.5 1050.8 2599.6 237.6
Illinois 9.9 21.8 211.3 209 1085 2828.5 528.6
Indiana 7.4 26.5 123.2 153.5 1086.2 2498.7 377.4
Iowa 2.3 10.6 41.2 89.8 812.5 2685.1 219.9
Kansas 6.6 22 100.7 180.5 1270.4 2739.3 244.3
Kentucky 10.1 19.1 81.1 123.3 872.2 1662.1 245.4
Louisiana 15.5 30.9 142.9 335.5 1165.5 2469.9 337.7
Maine 2.4 13.5 38.7 170 1253.1 2350.7 246.9
Maryland 8 34.8 292.1 358.9 1400 3177.7 428.5
Massachusetts 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.1
Michigan 9.3 38.9 261.9 274.6 1522.7 3159 545.5
Minnesota 2.7 19.5 85.9 85.8 1134.7 2559.3 343.1
Mississippi 14.3 19.6 65.7 189.1 915.6 1239.9 144.4
Missouri 9.6 28.3 189 233.5 1318.3 2424.2 378.4
Montana 5.4 16.7 39.2 156.8 804.9 2773.2 309.2
Nebraska 3.9 18.1 64.7 112.7 760 2316.1 249.1
Nevada 15.8 49.1 323.1 355 2453.1 4212.6 559.2
New Hampshire 3.2 10.7 23.2 76 1041.7 2343.9 293.4
New Jersey 5.6 21 180.4 185.1 1435.8 2774.5 511.5
New Mexico 8.8 39.1 109.6 343.4 1418.7 3008.6 259.5
New York 10.7 29.4 472.6 319.1 1728 2782 745.8
North Carolina 10.6 17 61.3 318.3 1154.1 2037.8 192.1
80
North Dakota 0.9 9 13.3 43.8 446.1 1843 144.7
Ohio 7.8 27.3 190.5 181.1 1216 2696.8 400.4
Oklahoma 8.6 29.2 73.8 205 1288.2 2228.1 326.8
Oregon 4.9 39.9 124.1 286.9 1636.4 3506.1 388.9
Pennsylvania 5.6 19 130.3 128 877.5 1624.1 333.2
Rhode Island 3.6 10.5 86.5 201 1489.5 2844.1 791.4
South Carolina 11.9 33 105.9 485.3 1613.6 2342.4 245.1
South Dakota 2 13.5 17.9 155.7 570.5 1704.4 147.5
Tennessee 10.1 29.7 145.8 203.9 1259.7 1776.5 314
Texas 13.3 33.8 152.4 208.2 1603.1 2988.7 397.6
Utah 3.5 20.3 68.8 147.3 1171.6 3004.6 334.5
Vermont 1.4 15.9 30.8 101.2 1348.2 2201 265.2
Virginia 9 23.3 92.1 165.7 986.2 2521.2 226.7
Washington 4.3 39.6 106.2 224.8 1605.6 3386.9 360.3
West Virginia 6 13.2 42.2 90.9 597.4 1341.7 163.3
Wisconsin 2.8 12.9 52.2 63.7 846.9 2614.2 220.7
Wyoming 5.4 21.9 39.7 173.9 811.6 2772.2 282
a) Hacer un histograma con 7 clases de la variable robo de auto. Comentar la grfica.
b) Escoger cualquiera de las otras variables y hacer lo siguiente:
i) Hacer un stem-and-leaf. Comentar su grfica.
ii) Hacer un boxplot. Comentar su grfica.
22. Suponga que una Worksheet de MINITAB tiene 3 columnas: La primera es llamada Casos y
contiene la cantidad de casos de SIDA reportados en Puerto Rico desde 1992 hasta 1996, la
segunda columna llamada Tipo indica si son nuevos casos de SIDA en el ao o si son casos
de muertes por Sida, la tercera columna llamada year, contiene los aos de la ocurrencia de
los casos. Se desea hacer una grfica de barras agrupadas. Indicar cmo se debe llenar la
columna Y, la columna X y la columna Group variables de la ventana Chart y la ventana
Chart-Options , las cuales se muestran en las siguientes figuras.
81
23. Comentar la siguiente grfica.
24. Los siguientes datos representan la duracin en horas de un cierto tipo de baterias
0.4 1.5 0 0.9 0.8 1.2 1.1 1.4 2.3 1.3 2.2 1.6 2.1 1.2 2.4 1.9 2.9 1.7
a) Hacer el "stem-and-leaf" de los datos, usando subramas si es necesario. Indicar la unidad
de la hoja y comentar la forma de la grfica.
82
KFC ( 58, 9.8%)
Burger King (113, 19.2%)
Others (208, 35.3%)
Taco Maker ( 63, 10.7%)
Pizza Hut ( 51, 8.6%)
McDonal's ( 97, 16.4%)
Distribucion de restaurantes de comida rapida en Puerto Rico
b) Cul es el tiempo promedio de la duracin de las baterias?
c) Cul es el tiempo ms frecuente de duracin de las baterias?
d) Hallar la mediana de los tiempos de duracin.
e) Hallar la media podada del 10% de los tiempos de duracin.
25. En un pas se eligen 10 pueblos al azar y se anota el ingreso personal promedio de los
habitantes (en miles) y la tasa de divorcio (por cada 1000 personas). Usar la siguiente tabla
de datos para responder las siguientes preguntas.
Obs Ingreso Divorcio
X Y X
2
Y
2
XY
----------------------------------------------------------
1 7.7 7.2 59.29 51.84 55.44
2 10.9 3.3 118.81 10.89 35.97
3 10.1 2.9 102.01 8.41 29.29
4 9.3 3.7 86.49 13.69 34.41
5 9.9 4.4 98.01 19.36 43.56
6 9.2 4.1 84.64 16.81 37.72
7 6.5 6.9 42.25 47.61 44.85
8 10.0 3.4 100.00 11.56 34.00
9 9.4 3.0 88.36 9.00 28.20
10 8.7 3.2 75.69 10.24 27.84
..----------------------------------------------------------
Sumas 91.7 42.1 855.55 199.41 371.28
a) Hacer un plot de los datos.
b) Hallar el coeficiente de correlacin r e interpretarlo.
c) Hallar la lnea de regresin estimada e interpretar las constantes y
.
d) Trazar la lnea de regresin sobre el plot de la parte a).
e) Hallar la tasa de divorcio estimada si el ingreso es de 11,000.
83
CAPTULO 4
CONCEPTOS BSICOS DE PROBABILIDADES
La teora de probabilidades tuvo su comienzo con los problemas de juegos al azar
que fueron propuestos a Pascal y Fermat por Cavalier de Mere a mediados de 16! "l
inicio del siglo #$%%& se public' el libro de (acobo )ernoulli titulado "rts Conjectandi *+l
"rte de Conjeturar, donde se trataba los e-perimentos obtenidos por repeticiones
independientes de e-perimentos simples que tienen s'lo dos resultados posibles! M.s
tarde& en ese mismo siglo& /e Moivre introdujo la curva 0ormal! /urante el siglo #%#
Laplace present' la definici'n cl.sica de probabilidad en su libro Theorie analytique des
probabilities, lamentablemente esta definici'n no es muy precisa y tiene limitaciones!
Para esa misma 1poca& los estudios de 2auss acerca de los Mnimos Cuadrados
contribuyeron a dar m.s importancia a la curva 0ormal!
3in embargo las probabilidades no fueron consideradas como una parte de las
matem.ticas 4asta que en 1566 apareci' la definici'n a-iom.tica en el libro Foundations
of the theory of probability escrito por 7olmogorov! 8tros matem.ticos rusos como
Liapunov y 7int4c4ine tambi1n contribuyeron en esta etapa!
+n la secci'n 1 de este captulo primero definimos lo que es un +-perimento
"leatorio y luego +spacios Muestrales y +ventos! +n la secci'n 9& se considera las
diferentes definiciones de Probabilidad comenzando con la definici'n a-iom.tica seguida
de la definici'n cl.sica& la frecuencial y la subjetiva! La secci'n 6 trata de Probabilidad
Condicional e incluye tambi1n la regla de Probabilidad :otal y la ;egla de )ayes! La
secci'n < de este captulo es acerca de la %ndependencia de +ventos! +n la =ltima secci'n
nos ocupamos del C.lculo de Probabilidades usando t1cnicas de "n.lisis Combinatorio!
4.1 Espacio Muestra ! E"e#tos
4.1.1 E$peri%e#tos Aeatorios ! Espacios Muestraes
>n e$peri%e#to es una observaci'n de un fen'meno que ocurre en la naturaleza!
?ay dos tipos de e-perimentos@
E$peri%e#tos Deter%i#&sticos' 3on aquellos en donde no 4ay incertidumbre
acerca del resultado que ocurrir. cuando 1stos son repetidos varias veces! Por ejemplo&
Medir el .rea de un sal'n de clase! Medir la estatura de una persona adulta! +n ambos
casos una vez que se conoce el resultado del e-perimento en una repetici'n& entonces se
sabe con certeza lo que ocurrir. en la siguiente repetici'n!
+dgar "cuAa Captulo < Conceptos ).sicos de Probabilidades
E$peri%e#tos Aeatorios' 3on aquellos en donde no se puede anticipar el resultado
que ocurrir.& pero si se tiene una completa idea acerca de todos los resultados posibles del
e-perimento cuando 1ste es ejecutado! "dem.s& asumiendo que el e-perimento se puede
repetir muc4as veces bajo las mismas condiciones se pueden tratar de construir un modelo
que represente el comportamiento del e-perimento! " continuaci'n algunos ejemplos@
+-p 1@ Lanzar un dado y anotar el n=mero que aparece en la cara superior!
+-p 9@ Lanzar un par de monedas y anotar el resultado que aparece en cada una de
ellas!
+-p 6@ >n vendedor de la +nciclopedia )rit.nica visita tres casas ofreciendo la
colecci'n y se anota $ si vende o 0 si no vende en cada casa!
+-p <@ 3e anota el n=mero de boletos de lotera que 4ay que comprar 4asta ganarse
el premio mayor!
+-p B@ 3e anota el tiempo que 4ay que esperar para ser atendidos en un )anco!
Espacio Muestra' +s el conjunto de posibles resultados de un e-perimento
aleatorio! ;epresentaremos el espacio muestral por 3 y cada elemento de 1l es llamado un
punto muestral! " continuaci'n daremos los espacios muestrales de cada uno de los
e-perimentos anteriores!
{ } 6& B& <& 6& 9 &1
1
= S
{ } X X X C C X C C S & & &
9
=
{ } NNN NVN NNV VNN NVV VNV VVN VVV S & & & & & & &
6
=
{ } &! !! 6& B& <& 6& 9& 1
<
= S
{ } [ ) = & @
B
t t s
Los espacios muestrales cuyos elementos resultan de 4acer conteos son llamados
espacios %uestraes (iscretos y por lo general son subconjuntos de los n=meros enteros!
"lgunos de estos espacios muestrales tienen un n=mero finito de elementos y otros no!
/e los espacios muestrales mencionados anteriormente
1
S &
9
S y
6
S
son espacios
muestrales discretos finitos& en tanto que
<
S es un espacio muestral discreto infinito!
Los espacios muestrales cuyos elementos resultan de 4acer mediciones son llamados
espacios %uestraes co#ti#uos y por lo general son intervalos en la recta ;eal!
B
S
es
un espacio muestral continuo!
C6
4.1.). E"e#tos
>n E"e#to es un resultado particular de un e-perimento aleatorio! +n t1rminos de
conjuntos& un evento es un subconjunto del espacio muestral! Por lo general se le
representa por las primeras letras del alfabeto! " continuaci'n daremos ejemplos de
eventos correspondientes a los e-perimentos aleatorios definidos anteriormente!
"@ Due salga un n=mero par al lanzar un dado!
{ } 6 & < & 9 = A
)@ Due salga por lo menos una cruz!
{ } XX X C C X C C B & & & =
C@ Due el vendedor de enciclopedias venda a lo m.s una de ellas!
{ } NNN NVN NNV VNN NVV VNV VVN VVV C & & & & & & & =
/@ Due se gane el premio mayor con menos de 5 boletos comprados!
{ }C &E & 6& B& <& 6& 9& 1 = D
+@ Due 4aya que esperar m.s de 1 minutos para ser atendidos!
{ } ( ) > = & 1 1 @ t t
E"e#to Nuo' +s aqu1l que no tiene elementos! 3e representa por !
+l espacio muestral tambi1n puede ser considerado como un evento y es llamado el
E"e#to Se*uro.
+n lo que estaremos interesados es en calcular la probabilidad de ocurrencia de
eventos& y para esto lo m.s importante es determinar el n=mero de elementos que 4ay en el
evento m.s que describir todos los elementos del mismo! +n la 3ecci'n B veremos el uso
de t1cnicas de an.lisis combinatorio para determinar el n=mero de elementos de un
espacio muestral y de eventos!
Figura <!1@ /iagrama de $enn de B A
C<
) "
3
4.1.+. Reacio#es e#tre e"e#tos
U#i,# (e e"e#tos' /ados dos eventos A y B de un mismo espacio muestral su uni'n
se representa por B A y es el evento que contiene los elementos que est.n en A o en B& o
en ambos! +l evento B A ocurre si al menos uno de los dos eventos ocurre! /ada una
colecci'n n
A A & ! ! ! &
1 de eventos& su uni'n denotada por
n
i
i
A
1 =
ocurre si al menos uno de los
, 1 * & n i A
i
ocurre! +n la Figura <!1 est. representada la uni'n de dos eventos usando el
/iagrama de $enn!
I#tersecci,# (e e"e#tos' /ados dos eventos A y B de un mismo espacio muestral su
intersecci'n se representa por B A y es el evento que contiene los elementos que est.n
en A y B al mismo tiempo! +l evento B A ocurre cuando los eventos ocurren
simult.neamente!
Figura <!9@ /iagrama de $enn de B A
"lgunas veces en este te-to tambi1n denotaremos la intersecci'n de los eventos A y
B por AB o por A y B!
3i
= B A
entonces se dice que A ! B son Mutua%e#te e$cu!e#tes o (is-u#tos.
/ada una colecci'n n
A A & ! ! ! &
1 de eventos& su intersecci'n denotada por
n
i
i
A
1 =
ocurre si
todos los eventos
, 1 * & n i A
i

ocurren a la vez!
Figura <!6@ /iagrama del complemento de "
CB
"
A
3
B A
) "
3
E"e#to Co%pe%e#to' +l complemento de un evento A se representa por
A
y es el
evento que contiene todos los elementos que no est.n en A! +l evento
A
ocurre si " no
ocurre!
Propie(a(es (e reacio#es e#tre e"e#tos
3ean A, B y C elementos de un mismo espacio muestral 3 entonces& las siguientes
propiedades son ciertas!
1! Propie(a( Co#%utati"a
A B B A =
A B B A =
). Propie(a( Asociati"a
C B A C B A = , * , *
C B A C B A = , * , *
+. Propie(a( Distri.uti"a
, * , * , * C A B A C B A =
, * , * , * C A B A C B A =
4. Le!es (e De Mor*a#
a,
B A B A =
b,
B A B A =
:odas estas propiedades se pueden aplicar a m.s de dos eventos!
La parte a, de la ley de /e Morgan significa que lo opuesto a que al menos uno de
los eventos " y ) ocurra es que ninguno de los dos ocurra!
La parte b, significa que ambos eventos no ocurren simult.neamente si al menos
uno de ellos no ocurre!
Las generalizaciones de las leyes de /e Morgan para una colecci'n de eventos
n
A A & ! ! ! &
1 & son las siguientes@
aF,

n
i
i
n
i
i
A A
1 1 = =
=
bF,

n
i
i
n
i
i
A A
1 1 = =
=
C6
+s decir& lo opuesto a que al menos un evento ocurra es que ninguno ocurra& y lo opuesto a
que todos los eventos ocurran simult.neamente es que al menos uno de ellos no ocurra!
4.) M/to(os (e asi*#ar Pro.a.ii(a(es
4.).1 M/to(o A$io%0tico
La Probabilidad es considerada como una funci'n de valor real ( ) " definida sobre
una colecci'n de eventos de un espacio muestral 3 que satisface los siguientes a-iomas@
1! ( ) 1 = S "
9! 3i " es un evento de 3 entonces ( ) A " !
6! 3i
! ! ! ! & & ! ! ! &
1 n
A A
& es una colecci'n de eventos disjuntos *por pares, entonces

=
=
1 1
, * , *
i
i
i
i
A " A "

! +sta es llamada el a-ioma de aditividad contable!
"sumiendo que
= = =
+ +
! !!
9 1 n n
A A
se sigue del a-ioma 6 que
= =
=
n
i
i
n
i
i
A " A "
1 1
, * , *

& 1sta es llamada la propiedad de aditividad finita!
Propie(a( 1 ( ) = "
Propie(a( ) , * 1 , * A " A " =
Propie(a( +. 3i B A entonces ( ) ( ) B " A "
Considerando S B = & se concluye de la propiedad 6 que "*A, # 1 para cualquier evento A
de S!
CE
Propie(a( 4. Re*a A(iti"a (e a Pro.a.ii(a(
, * , * , * , * B A " B " A " B A " + =
Figura <!<@ /iagrama de $enn de las regiones de " )!
$iendo la Figura <!<& es claro que , * B A A B A = y que , * , * B A B A B = donde las uniones del lado derec4o son
disjuntas *ver Figura,! Luego& por el "-ioma 6 se tiene que , * , * , * B A " A " B A " + =
y , * , * , * B A " B A " B " + = ! ;estando ambas igualdades se obtiene que
, * , * , * , * B A " A " B " B A " = de donde se obtiene la regla aditiva!
Las relaciones ente las probabilidades de dos eventos A y B tambi1n pueden
resumirse en la siguiente tabla de doble entrada@
A
A
B , * B A "
, * B A "
, *B "
B , * B A " , * B A " , *B "
, * A "
, * A "
1
E-e%po 4.1. (uan y Luis est.n solicitando ser admitidos en una univeridad! La
probabilidad de que (uan sea admitido es !E y la probabilidad de que Luis sea admitido es
!6! La probabilidad de que ambos sean admitidos es !<B!
a, GCu.l es la probabilidad de que solamente uno de ellos sea admitidoH
b, GCu.l es la probabilidad de que al menos uno de ellos sea admitidoH
c, GCu.l es la probabilidad de que ninguno de los dos sea admitidoH
Souci,#'
"=n cuando podemos aplicar las propiedades anteriores& el problema puede ser resuelto de
dos maneras@
i1 Usa#(o u# (ia*ra%a (e 2e##'
CC
B A
B A
" )
B A
Primero se determina la probabilidad de ocurrencia de cada regi'n& empezando por
la interseci'n& como se muestra en la Figura <!B!
3ean los eventos J' Due (uan sea admitido y L@ Due Luis sea admitido! Luego&
a, La probabilidad de que s'lo uno de ellos sea admitido es
< ! 1B ! 9B ! , * , * = + = + $ % " $ % "
b, La probabilidad de que al menos uno de ellos sea admitido es
C B ! , * = $ % "
c, La probabilidad de que ninguno de ellos sea admitido es 1 B ! , * = $ % "
ii1 Usa#(o u#a ta.a (e casi3icaci,# cru4a(a'
+n este caso se llenan las celdas de una tabla de doble entrada& cada entrada de la
tabla representa la probabilidad de ocurrencia de un evento! +n este caso sera

%
%
$ !<B !1B !6
$
!9B !1B !<
!E !6 1!
Las celdas que aparecen en claro fueron datos del problema& las que aparecen en gris se
llenaron aplicando propiedades!
Figura <!B@ /iagrama de $enn para el +jemplo <!1!
E-e%po 4.). >na empresa tiene dos maneras A ! B de presentar un nuevo producto al
mercado! 3i presenta el producto de la manera A la probabilidad de que el producto sea
e-itoso es !<< y si lo presenta de la manera B la probabilidad de 1-ito se reduce a !95!
La probabilidad de que el producto fracase con ambas maneras de presentaci'n es !6E!
GCu.l es la probabilidad de que el producto sea e-itoso con ambas formas de
presentaci'nH
Souci,#'
C5
!9B !<B
!1B
( L
3
!1B
3ean los eventos A@ Due el producto sea e-itoso con la manera A y B@ que el producto sea
e-itoso con la manera B! :enemos que 4allar
, * B A "
! Por la ley de /e Morgan se
obtiene que 6E ! , * , * = = B A " B A " ! "s& 66 ! 6E ! 1 , * 1 , * = = = B A " B A " !
Luego aplicando la regla aditiva se obtiene que la probabilidad de que el producto sea
e-itoso con ambas maneras de presentaci'n es@
1 ! 66 ! 95 ! << ! , * , * , * , * = + = + = B A " B " A " B A "
La Figura <!6 muestra el diagrama de $enn correspondiente!
>sando una tabla de doble entrada se tendra lo siguiente@
"
A
) !1 !15 !95
B
!6< !6E !E1
!<< !B6 1!
Figura <!6@ /iagrama de $enn para el +jemplo <!9!
La propiedad < se puede aplicar a m.s de dos eventos! "si para tres eventos A& B y C se
tiene que@
, * , * , * , * , * , * , * , * C B A " C B " C A " B A " C " B " A " C B A " + + + =
E-e%po 4.+. ;osa& Carmen y "lberto estudian juntos para un e-amen! La probabilidad
de que ;osa pase es !6B& de que Carmen pase es !EB y de que "lberto pase es !B! La
probabilidad de que ;osa y Carmen pasen es !BB& de que Carmen y "lberto pasen es !6B
y de que ;osa y "lberto pasen es !9B! La probabilidad de que los tres pasen es !9!
GCu.l es la probabilidad de que@
a, "l menos uno de ellos pase el e-amenH
b, 3olamente uno de ellos pase el e-amenH
c, Carmen y "lberto pasen el e-amen pero no ;osaH
d, "lberto no pase el e-amen pero s al menos una de las mujeresH
e, 0inguno pase el e-amenH
Souci,#'
5
!6<
!1
!15
!6E
La mejor manera de resolver el problema es 4acer un diagrama de $enn para 1l mismo y
determinar la probabilidad de ocurrencia de cada regi'n& esto se muestra en Figura <!E!
Figura <!E@ /iagrama de $enn para el +jemplo <!6!
Luego&
a a,
5 B ! , * = A C & "
b' 9 ! 1 ! B ! B ! , * , * , * = + + = + + A C & " A C & " A C & "
c, 1 B ! , * = A C & "
d, <B ! B ! 6B ! B ! , , ** = + + = A & C "
e, 1 B ! , * = A C & "
4.).). M/to(o C0sico
>n espacio muestral finito
I & !! !& J
1 n
( ( S =
se dice que es E5uipro.a.e si cada uno de sus
elementos tiene la misma probabilidad de ocurrencia& es decir
n
( "
i
1
, * = para todo
n i &!!!& 1 = !
E-e%po 4.4. 3e lanza un par de dados legales y distinguibles& entonces su espacio
muestral dado por@
( ) { }6& B& <&6 &9& 1 & @ & = = j i ji S tiene 66 resultados& cada uno de ellos con probabilidad de ocurrencia
66
1
!
E-e%po 4.6. /e una urna que contiene B bolas rojas y 6 negras se e-traen dos bolas& una
por una y con reposici'n& entonces el espacio muestral@
51
; C
!1B
!B
!B
!1
!1B !B
!6B
!9
"
{ } N N N & & N & & S & & & =
S tiene < resultados posibles los cuales no ocurren con la misma probabilidad por
4aber distintos n=meros de bolas de cada color! M.s adelante se ver. que ( ) 6 < 9 B = & & " & ( ) 6< 5 = N N " y ( ) ( ) 6< 1 B = = N & " & N " !
De3i#ici,#. 3i un e-perimento aleatorio tiene un espacio muestral equiprobable S
que contiene ( ) S K elementos y A es un evento de S que ocurre de ( ) A K maneras disintas
entonces la probabilidad de ocurrencia de A es@
, * K
, * K
, *
S
A
A " =
E-e%po 4.7. GCu.l es la probabilidad de que salga suma mayor que E al lanzar un par de
dadosH
Souci,#'
+l evento A@ 3uma mayor que E& incluye los resultados que dan suma C& 5& 1& 11 ' 19 y
1stos ocurren de B& <& 6& 9 y 1 maneras repectivamente! Luego ( ) 1B K = A ! +n el +jemplo
B se vio que ( ) 66 K = S & por lo tanto ( ) 66 1B = A " !
E-e%po 4.8. >n oficial de matrcula asigna 9 estudiantes@ A y B a < secciones@
< & 6 & 9 & 1 S S S S de un curso son asignados al azar! GCu.l es la probabilidad de que@
a, Los dos estudiantes sean asignados a la misma secci'nH
b, 0ing=n estudiante sea asignado a la secci'n S6H
c, "l menos un estudiante sea asignado a la secci'n S1H
Souci,#'
La siguiente tabla representa el espacio muestral del e-perimento
S1 S) S+ S4 S1 S) S+ S4
" ) L L ) L " L
" L ) L ) L L "
" L L ) L " ) L
") L L L L " L )
L ") L L L ) " L
L L ") L L ) L "
L L L ") L L " )
) " L L L L ) L
a, 3ea el evento A@ Los dos estudiantes son asignados a la misma secci'n
( )
1 6
<
, * K
, * K
= =
S
A
A "
59
b, 3ea el evento B@ 0ing=n estudiante es asignado a la secci'n S6
( )
1 6
5
, * K
, * K
= =
S
B
B "
c, 3ea el evento C@ "l menos un estudiante es asignado a la secci'n S1!
( )
1 6
E
, * K
, * K
= =
S
C
C "
E-e%po' 4.9. 6 carros@ A, B y C se estacionan en fila! GCu.l es la probabilidad de que A y
C queden estacionados uno detr.s del otroH
Souci,#'
+l siguiente es el espacio muestral del e-perimento@
E1 E) E+
" ) C
" C )
) " C
) C "
C " )
C ) "
3ea el evento A@ Due los carros " y ) quedan estacionados uno detr.s del otro! Luego&
( ) 6 6 6 ! 6 < = = A " !
+jemplos m.s complicados requieren la aplicaci'n de t1cnicas de conteo para
determinar el n=mero de maneras como puede ocurrir el e-perimento y el evento deseado!
+stas t1cnicas son descritas en detalle en la 3ecci'n B de este captulo!
4.).+ M/to(o :recue#cia
3i un e-perimento se repite
n
veces y ( ) A n de esas veces ocurre el evento A&
entonces la frecuencia relativa de A se define por
n
A n
f
A
, *
= !
3e puede notar que@
a,
1 =
S
f
b,
A
f
c, 3i " y ) son eventos disjuntos entonces
B A B A
f f f + =
+s decir
A
f satisface los a-iomas de probabilidad!
De3i#ici,#. La probabilidad del evento A es el valor al cual se apro-ima
A
f cuando
el e-perimento se 4a repetido un gran n=mero de veces! 8 sea@
56
, *
, *
A "
n
A n
La probabilidad es el valor en el cual se estabiliza la frecuencia relativa del evento

despu1s de 4aber repetido el e-perimento un n=mero grande de veces! La e-istencia de
este valor est. garantizando por un resultado llamado La Ley de los Grandes nmeros!
/esde el punto de vista pr.ctico se puede considerar que la frecuencia relativa de un
evento es un estimado de la probabilidad de ocurrencia del evento!
+l problema principal de la definici'n frecuencial de probabilidad es que& el c.lculo
de la probabilidad de un evento sera un proceso demasiado lento! +l otro problema es
que algunas veces es imposible tener un n=mero grande de repeticiones del e-perimento&
por ejemplo& si se desea calcular la probabilidad de que una persona en particular
sobreviva una operaci'n quir=rgica& tendramos que tener informaci'n acerca de todas las
operaciones de dic4a persona& la cual por lo general es muy baja!
E-e%po 4.;. 3eg=n los datos de la siguiente tabla& la probabilidad de que nasca un var'n
en +stados >nidos es !B16!

"Ao
6&1B5&5BC
!B1666<
6&696&669
!B19CBC
0acimientos
Frecuencia relativa de
varones
6&695&96C
!B19BE59
15E< 6&1B5&5BC !B1666<
15EB 6&1<<&15C !B16B16
15E6 6&16E&ECC !B19E5C9
15EE 6&696&669 !B19CBC
15EC 6&666&9E5 !B19C966
15E5 6&<5<&65C !B19611
5<
15C 6&619&9BC !B19C659
15C1 6&695&96C !B19BE59
4.).4 Esti%a#(o a pro.a.ii(a( (e ocurre#cia (e u# e"e#to
Con la ayuda de la computadora se puede simular la ejecuci'n de un e-perimento un
gran n=mero de veces y 4aciendo uso de la definici'n frecuencial se puede estimar la
probabilidad de ocurrencia de un evento!
E-e%po 4.1<. 3upongamos que lanzamos un par de dados legales y tratamos de estimar
la probabilidad de obtener suma E!
Souci,#@
+sta probabilidad puede ser determinada e-actamente a trav1s del espacio muestral del
e-perimento y es igual a 1 66 6 ! 6 1 6 6 6 = = ! 3in embargo& nosotros la podemos estimar a trav1s de
simulaciones! Para esto elegimos la opci'n Random Data del men= Cac y luego la
opci'n Sa%pe 3ro% cou%#s del submen= de Random Data! "4ora generamos 1
resultados posibles del primer dado y los guardamos en la columna C9 y luego 1
resultados posibles del segundo dado y los guardamos en C6! :ambi1n se puede generar
9 datos y guardarlos en C9 y C6 *1 en cada una,! La ventana de di.logo se muestra
abajo! C1 contiene los n=meros 1& 9& 6& <& B& 6!
5B
Figura <!C! $entana de di.logo para la opci'n Sa%pes 3ro% cou%#s del men= Ra#(o% Data.
+l pr'-imo paso es calcular la suma de los dos dados! +sto se obtiene eligiendo la
opci'n Row Statistics del men= Cac. /e todas las medidas que aparecen se elige Su% y
se guardan los resultados en C<! La ventana de di.logo es como sigue!
56
Figura <!5! $entana de di.logo de Ro= Statistics del men= Cac
Luego se construye una tabla de distribuci'n de frecuencias eligiendo Tables de
Stat seguido de Tally de Tables! Los resultados aparecen en la ventana session y son
como sigue@
Summary Statistics for Discrete Variables
C4 Count Percent
2 3 3.00
3 8 8.00
4 9 9.00
5 19 19.00
6 10 10.00
7 14 14.00
8 13 13.00
9 13 13.00
10 2 2.00
11 7 7.00
12 2 2.00
N= 100
/e acuerdo a esta tabla la probabilidad de obtener suma E es !1<! Para refinar el
estimado repetimos el e-perimento un mayor n=mero de veces! Los resultados aparecen
en la siguiente tabla@
0=mero de
;epeticiones
Probabilidad +stimada de
obtener 3uma E
1 !1<
B !1C9
1 !1E1
9 !1BC
B !1659
3e puede estimar la probabilidad de sacar suma E como !16 que est. bastante cerca del
valor e-acto!
4.).6 M/to(o Su.-eti"o
"lgunas personas de acuerdo a su propio criterio generalmente basado en su
e-periencia& asignan probabilidades a eventos& 1stas son llamadas pro.a.ii(a(es
su.-eti"as! Por ejemplo@
La Probabilidad de que llue)a *a+ana es <M!
5E
La Probabilidad de que haya un terre*oto en "uerto &ico antes del ,--- es casi
cero!
La Probabilidad de que el caballo Ca*ionero .ane el cl/sico del do*in.o es EBM!
Puesto que las probabilidades subjetivas dependen de la persona que las 4ace se
vuelven bien imprecisas y algunas veces puede 4aber una gran disparidad en las
probabilidades que las personas asignan al mismo evento& especialmente cuando es poco o
bastante probable que ocurra!
3in embargo probabilidades subjetivas son usadas frecuentemente en +stadstica
)ayesiana& en donde las probabilidades de ocurrencia de un evento que se van
modificando seg=n la informaci'n que uno recoje acerca de otros eventos que puedan
afectarlo!
4.+ Pro.a.ii(a( Co#(icio#a
3ean A y B dos eventos de un mismo espacio muestral S! La probabilidad
condicional de A dado que B 4a ocurrido esta dado por@
, *
, *
, N *
B "
B A "
B A "

=
+sto es equivalente a que el espacio muestral S se 4a reducido al evento B *$er Figura
<!1,!
Figura <!1! /iagrama de $enn de "*A0B,
3i el espacio muestral S es equiprobable lo anterior se convierte en@
, * K
, * K
, N *
B
B A
B A "

=

E-e%po 4.11. 3e lanza un par de dados legales y distinguibles! GCu.l es la probabilidad
de que solamente uno de los dos dados sea par si se sabe que la suma de los dos es mayor
que CH
5C
B A
)
"
3
Souci,#'
3ean los eventos A@ Due solamente uno de los dos dados sea par y el evento
condicionante B@ Due la suma sea mayor que C! Claramente ( ) 1 K = B y ( ) 6 K = B A !
Luego ( ) 1 6 N = B A " !
E-e%po 4.1). GCu.l es la probabilidad de que en una familia con tres 4ijos el menor de
ellos sea var'n si el mayor lo esH
Souci,#'
3ean los eventos& A@ +l menor de los 4ijos es var'n y el evento condicionante B@ +l 4ijo
mayor es var'n! /e los C resultados del espacio muestral& claramente se tiene que
( ) < K = B y en consecuencia ( ) 9 1 N = B A " ! +ste resultado era esperado porque en teora el se-o de uno
de los 4ijos no afecta el se-o de los otros por venir!
E-e%po 4.1+. +n una ciudad se 4izo una encuesta acerca de la opini'n de las personas
adultas con respecto a una ley del gobierno! La siguiente tabla muestra los resultados de
la encuesta clasificados seg=n el se-o del entrevistado!
" Favor +n contra "bstenidos
:otal
99
<6
9
CB
:otal
?ombre
19
9C
1
1B
19
6E
C <C
Mujer 1 1B 19 6E
:otal 99 <6 9 CB
3e elige al azar una persona
a, GCu.l es la probabilidad de que favorezca la ley si resulta ser MujerH
b, GCu.l es la probabilidad de que sea Mujer si resulta estar en contra de la leyH
c, GCu.l es la probabilidad de que sea ?ombre si la persona elegida no se abstuvo
de opinarH
Souci,#'
a, ( ) 6 E 1 N = 1 F "
55
b, ( ) < 6 1 B N = C 1 "
c, ( ) 6B < N = F 2 C 3 "
4.+.1 Re*a (e Pro(ucto.
, N * , * , * A B " A " B A " =
La f'rmula se obtiene despejando de la f'rmula de probabilidad condicional! 3e usa
para calcular la probabilidad de que dos eventos ocurran al mismo tiempo!
E-e%po 4!14. >na urna contiene 6 bolas rojas y < bolas blancas! 3e e-traen al azar dos
bolas de la urna una por una y sin reposici'n! GCu.l es la probabilidad de que@
a, ambas bolas sean rojasH
b, la segunda bola sea rojaH
c, s'lo una de las dos bolas sea rojaH
Souci,#'
La forma m.s f.cil de resolver el problema es 4aciendo un diagrama de .rbol!

Figura <!11@ /iagrama de .rbol para +jemplo <!1<
Luego&
a, ( ) E 1 6 9 E 6
9 1
= = & & "
b, ( ) ( ) ( ) E 6 <9 1C 6 6 E < 6 9 E 6
9 1 9 1 9
= = + = + = & B " & & " & "
C' ( ) ( ) E < <9 9< 6 6 E < 6 < E 6
9 1 9 1
= = + = + & B " B & "
E-e%po 4.16. 3eg=n la Comisi'n +lectoral de un pas& el 5 por ciento de las esposas
votan si sus esposos lo 4acen& y el 9 por ciento vota si su esposo no lo 4ace! "dem.s el
E por ciento de los 4ombres casados votan! 3e elige al azar un matrimonio! GCu.l es la
probabilidad de que@
1
1
&
1
B
9
&
9
B
9
&
9
B
9N6
<N6
6N6
6N6
6NE
<NE
E N 1 6 N 9 E N 6 , *
9 1
= = 4 & & "
E N 9 6 N < E N 6 , *
9 1
= = 4 B & "
E N 9 6 N 6 E N < , *
9 1
= = 4 & B "
E N 9 6 N 6 E N < , *
9 1
= = 4 B B "
Primera )ola 3egunda )ola
a, ambos esposos votenH
b, s'lo uno de los esposos voteH
c1 vote la esposaH
d, al menos uno de los esposos voteH
Souci,#'
3ean los eventos V
1
@ Due vote el esposo y V
)
@ Due vote la esposa! +l problema puede ser
representado por el diagrama de .rbol de la Figura <!19!
Luego&
a, 66! 5! E! , *
9 1
= = V V "
b, 16 ! 9 ! 6 ! 1 ! E ! , * , *
9 1 9 1
= + = + V V " V V "
c, ( ) 65 ! 6 ! 66 ! , * , *
9 1 9 1 9
= + = + = V V " V V " V "
d, E6 ! 66 ! 65 ! E ! , *
9 1
= + = V V "

Figura <!19! /iagrama de .rbol para +jemplo <!1B!
La regla del producto se puede aplicar a m.s de dos eventos de la siguiente manera@
, !!! N * ,!!! N * , N * , * , !!! *
1 1 9 1 6 1 9 1 1

n n n
A A A " A A A " A A " A " A A "
+videntemente que el uso de un diagrama del .rbol se vuelve inadecuado cuando n es
grande!
E-e%po 4.17. >n lote contiene 1 artculos de los cuales < son defectuosos& se e-traen al
azar 6 articulos uno por uno y sin reposici'n! GCu.l es la probabilidad de que@
a, Los tres salgan buenosH
b, 3'lo uno de los tres salga defectuosoH
1
1
1
V
9
V
9
V
9
V
!5
!1
!9
!C
!6
9
V
!E
1
V
"*V
1
V
9
,O*!E,*!5,O!66
"*V
1
,O*!E,*!1,O!E
"*V
9
,O*!6,*!9,O!6
"*,O*!6,*!C,O!9<
+sposo $ota +sposo $ota
Souci,#'
a, 3ea el evento
i
B
que el iL1simo artculo resulte bueno para ( ) 6 & 9 & 1 = i ! Luego& la
probabilidad de que los tres salgan buenos es@
( ) ( ) ( ) ( ) 6 1 C < 5 B 1 6 N N
9 1 6 1 9 1 6 9 1
= = = B B B " B B " B " B B B "
b, 3ea el evento
i
D
que el iL1simo artculo resulte defectuoso para
6 & 9 & 1 = i
!
( ) ( ) ( ) ( )
9 1 C < 5 B 1 6 C B 5 < 1 6 C B 5 6 1 <
6 9 1 6 9 1 6 9 1
= + + =
+ + = D B B " B D B " B B D " defectuoso un solo "
4.+.) Pro.a.ii(a( Tota ! Re*a (e Ba!es
Re*a (e a Pro.a.ii(a( Tota.
3ean B
1
,5,B
n
una colecci6n de e)entos que forman una partici6n del espacio
muestral 3 esto es
S B
n
i
i
=
=
1
y
=
j i
B B
para i j! 3ea " otro evento definido sobre 3
entonces@
=
=
n
i
i i
B A " B " A "
1
, N * , * , *
0otar que
, *
1
n
i
i
B A S A A
=
= =
! Por la propiedad distributiva& se tiene que
n
i
i
B A A
1 =
=
& donde la uni'n es disjunta!
"plicando el tercer a-ioma se obtiene
=
=
n
i
i
B A " A "
1
, * , *
! Finalmente& se aplica la regla del producto a cada
t1rmino de la suma y se obtiene la f'rmula de probabilidad total!
Para una partici'n de S en dos eventos B y
B
se obtiene@
, N * , * , N * , * , * B A " B " B A " B " A " + =
La siguiente figura ilustra la regla de la probabilidad total para una partici'n en B eventos!
1
9
)1 )9
)B
"
Figura <!16! :eorema de la Probabilidad :otal
E-e%po 4.18. +l E M de los pacientes de un 4ospital son mujeres y el 9M de ellas son
fumadoras! Por otro lado el < M de los pacientes 4ombres son fumadores! 3e elige al
azar un paciente del 4ospital! GCu.l es la probabilidad de que sea fumadorH
Souci,#'
3ean los eventos F@ Due el paciente sea fumador& 3@ Due el paciente sea 4ombre y 1@ Due
el paciente sea mujer! Claramente&
( ) ( ) ( ) ( ) ( ) 3 F " 3 " 1 F " 1 " F " N N + =
/el enunciado del problema se tiene que ( ) E ! = 1 " & ( ) 6 ! = 3 " , ( ) 9 ! N = 1 F " y
( ) < ! N = 3 F " & sustituyendo estos valores en la f'rmula anterior se obtiene que ( ) 96 ! <! 6! 9! E ! = + = F " ! +n la
Figura <!1< se muestra el diagrama de .rbol correspondiente al problema!
1
6
)6 )<
1
3
F
F
!C
!<
!6
!E
!6
F
F
!9
1< ! 9 ! E ! , * = = 1F "
B6 ! C ! E ! , * = = F 1 "
19 ! < ! 6 ! , * = = 3F "
1C ! 6 ! 6 ! , * = = F 3 "
3e-o del
Paciente
Condicion
de Fumar
Figura <!1<! /iagrama de .rbol para +jemplo <!1E
E-e%po 4.19. +n un 4ospital el 5CM de los beb1s nacen vivos! Por otro lado& <M de
todos los partos son por c1sarea y de ellos el 56M sobreviven al parto! 3e elige al azar una
mujer a la que no se va practicar c1sarea! GCu.l es la probabilidad de que el beb1 vivaH
Souci,#'
3ean los eventos V@ que el bebe nazca vivo& C@ que el parto sea por c1sarea! /el
enunciado del problema ( ) 5C ! = V " & ( ) < ! = C " y ( ) 56 ! N = C V " ! 3e desea 4allar , N * C V " !
Figura <!1B! /iagrama de .rbol para +jemplo <!1C!
Por la regla de la probabilidad total , N * , * , N * , * , * C V " C " C V " C " V " + = & de donde@
, N * 6 ! , 56 ,*! < *! 5C ! C V " + = & y 5 56 !
6 !
B 5 6 !
, N * = = C V " ! >n diagrama de .rbol para el problema aparece en la
Figura <!1B!
E-e%po 4.1;. >na empresa tiene 6 plantas@ A& B y C! La planta " produce el BM de la
producci'n total& B produce el 6M y C el 9M! +l 6M de la producci'n de A es
defectuosa& mientras que el 9M de B y el BM de C tambi1n lo son! 3e elige al azar un
artculo producido por la empresa@
a, GCu.l es la probabilidad de que el artculo elegido sea defectuosoH
b, 3i el artculo elegido resulta ser defectuoso& GCu.l es la probabilidad de que
provenga de la planta CH
Souci,#'
1
<
V
C
V
V
V
!56
!<
, N * C V "
!6
!<
C
Cesarea )eb1 $ive
a, Los eventos A& B y C forman una partici'n del espacio muestral S correspondiente
a elegir un articulo de la f.brica! Luego& si D representa artculo defectuoso@
( ) ( ) ( ) ( ) ( ) ( ) ( ) C D " C " B D " B " A D " A " D " N N N + + =
3utituyendo los datos del problema se tiene que
( ) ( ) ( ) ( ) ( ) ( ) ( ) 61 ! B ! 9 ! 9 ! 6 ! 6 ! B ! = + + = " " " " " " D "
b, ( ) ( ) ( ) ( ) ( ) 699B ! 61 ! 1 ! 61 ! B ! 9 ! N = = = = D " D C " D C "
+l diagrama de .rbol de la Figura <!16 representa el problema!
Planta /efectuoso
Figura <!16! /iagrama de .rbol para el problema <!15
La Re*a (e Ba!es
)ajo las mismas condiciones de la regla de probabilidad total& se cumple que@
=
=
n
i
i i
j j
j
B A " B "
B A " B "
A B "
1
, N * , *
, N * , *
, N *
Por definici'n de probabilidad condicional
, *
, *
, N *
B "
A B "
A B "
j
j

= y aplicando la regla del producto en el
numerador y probabilidad total en el denominador se obtiene la regla de )ayes!
E-e%po 4.)<. >na prueba para diagnosticar c.ncer lo detecta en el 5BM de personas que
efectivamente tienen la enfermedad y en el 1M de las personas que no tienen la
enfermedad! Por estudios previos se 4a determinado que s'lo el !BM de las personas
1
B
!9
!B !!9
"
!6
!B
C
)
/
/
/
!6
sometidas a la prueba tienen efectivamente c.ncer! 3i la prueba da un diagn'stico
positivo& GCu.l es la probabilidad de que la persona tenga realmente c.ncerH
Souci,#'
3ean los eventos C@ La persona tiene c.ncer y
+
D
@ La persona da un diagn'stico positivo
de c.ncer!
?ay que 4allar ( ) ( ) ( ) ( )
+ + +
= D " C D " C " D C " N N , donde
( ) ( ) ( ) ( ) ( ) C D " C " C D " C " D " N N
+ + +
+ = !
Como ( ) B ! = C " & ( ) 5 B ! N =
+
C D " y ( ) 1 ! N =
+
C D " & se obtiene que
( ) ( ) ( ) ( ) ( ) 1<E ! 55B ! <EB ! 1 ! 55B ! 5B ! B ! = + = + =
+
D "
Luego& P*CN
+
D
, O *!B,*!5B,N!1<E O !<EBN!1<E O !696!
+l siguiente diagrama de .rbol representa el problema!

1
6
C
D
+
D
D
!5B
!B
!1
!55
!55B
+
D
!B
C
C.ncerH /iagn'sticoH
Figura <!1E! /iagrama de .rbol para +jemplo <!9
E-e%po 4.)1. 3uponga que los c4ips de un circuito integrado son probados con cierto
instrumento y la probabilidad de que se detecten los defectuosos es !55! Por otro lado 4ay
una probabilidad de !5B de que un c4ip sea declarado como bueno si efectivamente lo es!
3i el 1M de todos los c4ips son defectuosos! GCu.l es la probabilidad de que un c4ip que
es declarado como defectuoso sea en realidad buenoH
Souci,#'
3ean los eventos M@ Due el c4ip sea declarado defectuoso por el instrumento& /@ Due el
c4ip sea realmente defectuoso y )@ Due el c4ip sea realmente bueno! /e los datos del
problema se tiene que ( ) 5 5 ! N = D 1 " y ( ) B ! 5 B ! 1 N = = B 1 " & adem.s ( ) 1 ! = D " ! Lo que debemos calcular es
( ) ( ) ( ) ( ) 1 " B 1 " B " 1 B " N N = ! Pero& ( ) ( ) ( ) ( ) ( ) B 1 " B " D 1 " D " 1 " N N + = O
( ) ( ) ( ) ( ) B5< ! <5B ! 55 ! B ! 55 ! 55 ! 1 ! = + = + & por lo tanto ( ) C66 ! B5< ! <5B ! N = = 1 B " !
E-e%po 4.)). >na urna % contiene 9 bolas rojas y < blancas y una urna %% contiene 6
bolas rojas y 9 blancas! 3e saca una bola de la urna % y se la coloca en la urna %%& luego se
saca una bola de 1sta la cual resulta ser roja& GCu.l es la probabilidad de que la bola
pasada de % a %% 4aya sido blancaH
Souci,#'
3ean los eventos B
1
@ Due la bola e-traida de la urna % sea blanca& &
1
@ Due la bola e-traida
de la urna % sea roja& )
9
@ Due la bola e-traida de la urna %% sea blanca& ;
9
@ Due la bola
e-traida de la urna %% sea roja! ?ay que 4allar , * N , * , N *
9 9 1 9 1
& " & B " & B " = ! Puesto
que 6 N 1 , *
1
= B " & 6 N 9 , *
1
= & " & 9N 1 6N 6 , N *
1 9
= = B & " y 6N 9 6 N< , N *
1 9
= = & & " & se tiene que
1C 11 66 99 , N * , * , N * , * , *
1 9 1 1 9 1 9
= = + = & & " & " & & " & " & " & de donde sigue que
( ) ( ) <9 ! 11 6 1C 11 6 1 , N *
9 1
= = = & B " !
1
E
9N6
1
B
9
&
9
B
9
&
1N9
1N9
1N6
9N6
9
B
1N6
1
&
)ola >rna %
)ola >rna %%
Figura <!1C! /iagrama de .rbol para +jemplo <!99!
4.4 E"e#tos I#(epe#(ie#tes
/os eventos " y ) son independientes si la ocurrencia de uno de ellos no afecta la
probabilidad de ocurrencia del otro! 8 sea@
( ) ( ) A " B A " = N o ( ) ( ) B " A B " = N
/e la definici'n de probabilidad condicional se obtiene la siguiente definici'n
equivalente@
/os eventos " y ) son independientes si ( ) ( ) ( )B " A " B A " = !
E-e%po 4.)+. 3e lanzan un par de dados legales ! distinguibles y se definen los
siguientes eventos@
A@ Due el primer dado sea par
B@ Due el segundo dado sea mayor que <
3on los eventos " y ) independientesH
Souci,#'
( ) 9 1 66 1C = = A " & ( ) 6 1 6 6 1 9 = = B " & y ( ) 6 1 66 6 = = B A " ! Por lo tanto " y B son independientes!
Propie(a( 6! 3i A y B son e)entos independientes& entonces tambi1n lo son7
a,
A
y B
b' " y
B
c'
A
y
B
Prue.a'
a, Como , * , * B A B A A = se tiene por independencia de A y B que , * , * , * , * B A " B " A " A " + = &
luego , * , * ,, * 1 ,* * , * B " A " B " A " B A " = = !
b, y c, se dejan como ejercicios!
E-e%po 4.)4. >n tirador 4ace dos disparos a un blanco! La probabilidad de que acierte
en el blanco es !C& independientemente del disparo que 4aga! GCu.l es la probabilidad de
que el tirador@
a, "cierte ambos disparosH
b, "cierte s'lo uno de los dos disparosH
1
C
c, "cierte por lo menos un disparoH
d, 0o acierte ninguno de los dos disparosH
Souci,#'
3ean los eventos A
i
@ Due el tirador da en el blanco en el disparo i *i O1& 9,! Por aplicaci'n
directa de la propiedad B se obtiene que@
a, ( ) ( ) ( ) ( ) ( ) 6< ! C ! C !
9 1 9 1
= = = A " A " A A "
b, ( ) ( ) ( ) ( ) 69 ! C ! 9 ! 9 ! C ! , * , * , * , * , * , *
9 1 9 1 9 1 9 1
= + = + = + A " A " A " A " A A " A A "
c, ( ) ( ) ( ) 56 ! 6< ! C ! C ! , * , * , * , * , *
9 1 9 1 9 1
= + = + = A " A " A " A " A A "
d, ( ) ( ) < ! 9 ! 9 ! , * , * , *
9 1 9 1
= = = A " A " A A "
+l concepto de independencia se puede e-tender a m.s de dos eventos! "si& se dice que
los eventos A
1
&P&A
n
son Mutua%e#te I#(epe#(ie#tes si para cualquier subcolecci'n A
i1
&
P&A
i8
se cumple que@
, * ,!!! * , !!! *
1 1 i8 i i8 i
A " A " A A " =
E-e%po 4.)6. >n avi'n tiene 6 motores los cuales funcionan independientemente uno
del otro y fallan con probabilidad igual a !1 para cada uno de ellos! +l avi'n 4ace un
vuelo e-itoso si por lo menos uno de sus motores funciona! GCu.l es la probabilidad de
que el avi'n tenga un vuelo e-itosoH
Souci,#'
+l avi'n no tiene un vuelo e-itoso si todos sus motores fallan& por independencia esto
ocurre con probabilidad ( )
6
1 ! ! Luego& por complemento& la probabilidad de un vuelo
e-itoso ser. ( )
6
1 ! 1 !
E-e%po 4.)7. >na persona lanza repetidamente un par de dados! GCu.ntas veces debe
lanzar el par de dados si se desea que la probabilidad de obtener suma igual a E& al menos
una vez& sea por lo menos !5BH
Souci,#'
"*3acar al menos una vez suma igual a E, O 1 L "*0unca sacar suma igual a E, !5B!
sea& "*0unca sacar suma igual a E, !B! ?ay que encontrar el n=mero n de veces que se
debe lanzar el par de dados para que esto ocurra! La probabilidad de sacar suma igual a E
en una tirada de un par de dados es
6
1
66
6
=
& por lo tanto no se saca suma igual a E con
probabilidad
6
B
! Como 4ay independencia entre las n tiradas del dado& la probabilidad
de no sacar suma igual a E en n tiradas ser. ( )
n
6
B
! Luego& el n se obtiene resolviendo la
1
5
desigualdad ( ) B !
6
B

n
& tomando logaritmos en ambos lados se obtiene
( ) ( ) B ! lo g
6
B
lo g n
& de donde 6 1 ! 1 E 5 ! n y
<6 ! 1 6
E5 !
6 1 ! 1
= n
& es
decir& basta lanzar el par de dados al menos 1E veces para obtener suma igual a E!
4.6. Apicaci,# (e t/c#icas (e co#teo a C0cuo (e Pro.a.ii(a(es
4.6.1 Re*a Mutipicati"a (e co#teo
3i un e-perimento % ocurre de * maneras distintas y un e-perimento %% ocurre de n
maneras distintas entonces& el e-perimento compuesto de % seguido de %% ocurre de
n *

maneras!
E-e%po 4.)8. >n joven tiene < pantalones distintos y 6 camisas distintas! +l joven se
viste en forma diferente todos los das! GCu.ntos das se puede vestir el joven sin repetir
vestimentaH
Souci,#'
)asta encontrar el total de maneras que se puede vestir que son 9< 6 < = !
Luego se puede vestir en forma distinta durante 9< das!
La regla multiplicativa se puede generalizar de la siguiente manera@ 3i un e-perimento
compuesto de 8 e-perimentos simples& cada uno de los cuales se puede efectuar de
, 1 * & 8 i n
i
maneras distintas& entonces el e-perimento compuesto se puede efectuar de
8
n n n !! !
9 1

maneras distintas!
E-e%po 4.)9. >na contraseAa para accesar a una computadora consiste de 66 caracteres
que pueden ser letras *96, o n=meros *1,!
a, GCu.ntas contraseAas distintas se pueden formarH
b, GCu.ntas contraseAas distintas se pueden formar conteniendo s'lo n=merosH
c, GCu.ntas contraseAas distintas se pueden formar si deben tener por lo menos
una letraH
Souci,#'
a, 666 & EC9 & 1E6 & 9 66 66 66 66 66 66 66
6
= =
b, & & 1 1 1 1 1 1 1 1
6
= =
c, Por complemento 6 66 & E C9 & 1 EB &9 1 6 6
6 6
=

E-e%po 4.);. >na caja contiene n bolas numeradas desde el 1 4asta la n! 3e escogen al
azar dos bolas! GCu.l es la probabilidad de que los n=meros en las bolas sean
consecutivos
a, 3i las bolas se escogen sin reposici'nH
1
1
b, 3i las bolas se escogen con reposici'nH
Souci,#'
3ea el evento A@ Due las dos bolas tengan n=meros consecutivos! 3i son consecutivos& en
orden ascendente& la primera bola debe tener un n=mero desde el 1 4asta el nL1 y la
segunda s'lo tendra una posibilidad *por ejemplo 19& B6 etc!,! Como tambi1n pueden ser
consecutivos en orden descendente 4ay el doble de posibilidades! Por lo tanto ( ) ( ) 1 9 K = n A !
a, 3in reposici'n la primera bola puede ser escogida de n maneras y la segunda de
( ) 1 n maneras! Por lo tanto ( ) ( ) 1 K = n n S y
( )
( )
( ) n n n
n
A "
9
1
1 9
=
=
!
b, Con reposici'n la primera bola puede ser elegida de n maneras y la segunda
tambi1n! Por lo tanto ( )
9
K n S = y ( )
( )
9
1 9
n
n
A "

= !
4.6.) Per%utacio#es
>na permutaci'n es un arreglo ordenado de objetos distintos! Por ejemplo& las
permutaciones de tamaAo 9 que se pueden 4acer con las letras "& ) y C son@ ")& "C&
)C& )"& C" y C)!
?aciendo uso de la regla multiplicativa del an.lisis combinatorio se desprende que@
i, +l n=mero de permutaciones de n objetos tomados todos a la vez est. dado por
( ) ( ) ( ) 1 ! ! ! 9 1 Q & = = n n n n n n "
ii, +l n=mero de permutaciones de n objetos distintos tomados de r en r est. dado
por@
( ) ( ) ( )
( ) Q
Q
1 ! ! ! 1 &
r n
n
r n n n r n "
= + =

;ecordar que Q O 1!
E-e%po 4.+<. 8c4o atletas compiten en la final olmpica de los 11 metros con vallas!
"sumiendo que ellos cruzan la meta en distintos instantes! GCu.ntas maneras distintas
4ay para entregar las medallas de oro& de plata y de bronceH
Souci,#'
1
11
+l primer premio puede ser entregado de C maneras& el segundo de E y el tercero de 6&
luego por la regla multiplicativa 4ay 666 6 E C = maneras distintas de entregar los premios!
Claramente& esto es
( )
Q B
Q C
6 & C = "
!
E-e%po 4.+1! /iez personas de diferentes estaturas posan en fila para una foto!
a, GCu.ntas fotografas distintas se pueden tomarH
b, GCu.ntas fotografias distintas se pueden tomar si la persona m.s alta y la
persona m.s baja no deben salir juntas en la fotoH
Souci,#'
a,
Q 1 1 ! !! C 5 1 =
b, +l evento complemento es que la persona m.s alta y la m.s baja salgan juntas en la
foto! +sto se puede efectuar de
Q 5 9
maneras donde
Q 5
es el n=mero de ordenamientos
de C objetos simples y un objeto compuesto de la persona m.s alta y la m.s baja y el 9 se
bede a que la persona m.s alta y la m.s baja se pueden intercambiar! Luego& 4ay
( ) Q 5 9 Q 1 fotografias donde la persona m.s alta y la m.s baja no salen juntas!
E-e%po 4.+). Cuatro peruanos& 6 c4ilenos y B mejicanos se sientan en fila!
a, GCu.l es la probabilidad de que los de la misma nacionalidad queden juntosH
b, GCu.l es la probabilidad de que los de nacionalidad peruana queden juntosH
Souci,#
+l espacio muestral puede ocurrir de ( ) ( ) Q 1 9 Q B 6 < K = + + = S maneras distintas!
a, 3ea el evento "@ Due los de la misma nacionalidad queden sentados juntos! ?ay
Q 6 maneras de ordenar los tres grupos de nacionalidades& Q < maneras de ordenar
el grupo de peruanos&
Q 6
maneras de ordenar el grupo de c4ilenos y
Q B
maneras
de ordenar el grupo de mejicanos& como se quiere que todo esto ocurra al mismo
tiempo& por la regla multiplicativa 4ay ( ) QB Q6 Q< Q 6 K = A maneras de ocurrencia del evento "!
Luego
( )
Q 1 9
QB Q6 Q< Q6
= A "
!
b, 3ea el evento B@ que los < peruanos queden sentados juntos! ?ay que ordenar 5
objetos compuestos de los 6 c4ilenos& B mejicanos y el bloque de los < peruanos *dentro
del cual se pueden 4acer permutaciones,! Luego& 4ay ( ) Q 5 Q < K = B maneras como ocurre
) y
( )
Q 19
Q 5 Q <
= B "
!
E-e%po 4.++. Cuatro turistas llegan a un pueblo que tiene 6 4oteles! 3i los turistas
eligen al azar el 4otel donde se van a alojar! GCu.l es la probabilidad de que@
1
19
a, :odos se 4ospeden en 4oteles distintosH
b, Por lo menos dos de ellos se 4ospeden en el mismo 4otelH
Souci,#'
Cada uno de los < turistas tiene 6 maneras distintas de 4ospedarse por lo tanto& el
e-perimento puede ocurrir de ( )
<
6 K = S - 6 maneras!
a, 3ea el evento "@ Due los < turistas se 4ospeden en distintos 4oteles!
+sto puede ocurrir de ( ) 6 < B 6 K = A maneras! Por lo tanto( )
1 C
B
6
6 6
<
= = A " !
b, 3ea el evento )@ Por lo menos dos turistas se alojen en el mismo 4otel! +ste
evento es simplemente el complemento del evento "! Luego ( ) ( )
1 C
1 6
1 = = A " B " !
4.6.+ Co%.i#acio#es
>na combinaci'n es una selecci'n de objetos donde el orden en que estos 4an sido
escogidos no interesa! Por ejemplo& las combinaciones que se pueden 4acer con los
objetos@ "& ) y C elegidos de dos en dos son@ ")& "C y )C! 8bserve que el n=mero de
permutaciones obtenidas anteriormente fue el doble!
+l n=mero de combinaciones de n objetos tomado de r en r est. dado por@
Q
, & *
,Q *Q
Q
r
r n "
r n r
n
r
n
=
Como Q O 1& se tiene que

1
n
n
n
E-e%po 4.+4.
66
19
1B 1< 16 19 11
Q B Q 1
Q 1B
1
1B
=

= =
Propie(a( 6.
1
16
r n
n
r
n
Prue.a. "lgebr.icamente esto es obvio! /esde el punto de vista de an.lisis
combinatorio el lado izquierdo equivale a elegir r objetos de un total de n que salen fuera&
y el lado derec4o equivale a elegir n9r objetos que se quedan!
Por ejemplo
6
1
E
1
!
E-e%po 4.+6. /e un grupo de < mujeres y 6 4ombres se va a elegir un comit1 de B
meinbros!
a, GCu.ntos comit1s se pueden elegirH
b, GCu.ntos comit1s se pueden elegir si deben 4aber 6 4ombresH
c, GCu.ntos comit1s se pueden elegir si debe 4aber al menos una mujerH
Souci,#'
a, ?ay
9B9
B
1
=
comit1s posibles!
b, 3i 4ay que elegir 6 4ombres y el comit1 tiene B integrantes entonces 4ay que elegir
tambi1n dos mujeres! Por lo tanto 4ay
1 9
6
6
9
<
=
maneras de elegir el comit1!

c, Lo opuesto a que el comit1 tenga al menos una integrante mujer es que no 4aya mujeres
en el comit1& es decir que los B integrantes sean 4ombres! Por lo tanto& usando
complemento& 4ay
9 < 6
B
6
B
1
=
posibles comit1s!
E-e%po 4.+7. >na seAora tiene C amigas y desea invitar a B de ellas a una fiesta! G/e
cu.ntas maneras puede 4acerlo si dos de ellas est.n enojadas entre si y no pueden ser
invitadas juntasH
Souci,#'
?ay
9
6
6
=
invitaciones posibles donde las dos personas en disputa pueden ser

invitadas juntas& y 4ay un total de
B6
B
C
=
invitaciones que se pueden 4acer!

Luego& usando complemento 4ay 66 9 B6 = invitaciones donde las dos personas
enemistadas no aparecen juntas!
1
1<
E-e%po 4.+8. /e un grupo de B cientficos argentinos& 6 c4ilenos& 9 colombianos y 9
peruanos se van a elegir al azar 6 para representar a sudam1rica en un congreso mundial!
a, 3algan elegidos 9 argentinos y dos c4ilenosH
b, 3alga elegido por lo menos un peruanoH
Souci,#'
?ay
59<
6
19
=
maneras de elegir sin ninguna restricci'n los 6 representantes!

a, 3ea el evento "@ 3algan elegidos 9 argentinos y dos c4ilenos! Los otros dos
representantes pueden ser elegidos de los < restantes! Luego&
( ) 1 C
9
<
9
6
9
B
K =
= A
y ( )
59<
1C
= A " !
b, 3ea el evento )@ 3alga elegido por lo menos un peruano! Por complemento , * 1 , * B " B " = !
Como
91
6
1
, * K =
= B
& se tiene que
59 <
E1 <
59 <
91
1 , * = = B " !
E-e%po 4.+9. >n profesor asigna una semana antes del e-amen un conjunto de 1
problemas! +l e-amen consistir. de B problemas elegidos al azar de entre los 1
asignados! >n estudiante s'lo pudo resolver E de esos problemas! GCu.l es la
probabilidad de que el estudiante
a, Conteste bien 6 de las B preguntasH
b, :enga por lo menos < preguntas buenasH
Souci,#'
+l e-perimento puede ocurrir de
9 B 9
B
1
, * K =
= S
maneras distintas!
a, 3ea "@ Due tenga bien 6 de las B preguntas
1 B
9
6
6
E
, * K =
= A
! Luego ( )
9B9
1B
= A " !
b, 3ea )@ Due tenga por lo menos < buenas! ?ay que sumar las maneras de obtener < y B
buenas! Luego
1 96
B
E
1
6
<
E
, * K =
= B
y ( ) B !
9 B 9
1 96
= = B " !
E-e%po 4.+;. +l juego de la L8::8 de Puerto ;ico consiste en acertar 6 n=meros entre
el 1 y el 6C! +l primer premio se otorga a los que aciertan los 6 n=meros& el segundo
premio a los que aciertan B de los 6& y el tercer premo a los que aciertan < de los 6! 3i una
persona compra un boleto de la L8::8! GCu.l es la probabilidad de que se gane@
1
1B
a, +l primer premioH
b, +l segundo premioH
c, +l tercer premioH
Souci,#'
3ea ( ) S K @ :otal de maneras como puede salir el n=mero premiado! Claramente& como el
orden no importa
( ) 6 C1 & E 6 &9
6
6C
K =
= S
!
a, 3ea el evento "@ 3acarse el primer premio! 3'lo 4ay una manera como puede ocurrir
esto& y es cuando los 6 n=meros elegidos en el sorteo son los que el jugador tiene! 8 sea&
( ) 1
6
6
K =
= A

y en consecuencia
( ) 66 !
6C1 & E6 & 9
1
= = A "
!
b, 3ea el evento )@ 3acarse B de los 6 n=meros! >no de los 6 n=meros del apostador 08
es sacado en el sorteo& luego
( ) 15 9
1
69
B
6
K =
= B
y
( ) 65 !
6C1 & E6 & 9
159
= = B "
!
c, 3ea el evento C@ 3acarse < de los 6 n=meros! +n este caso& dos de los 6 n=meros del
apostador 08 salen en el sorteo& luego
( ) E < <
9
6 9
<
6
K =
= C
y
( ) 9 65 !
6C 1 & E6 & 9
E <<
= = C "
!
E-e%po 4.4<. Cuatro personas suben al ascensor en el s'tano de un edificio de E pisos!
a, +-actamente dos de ellas bajen en el quinto pisoH
b, :odas ellas bajen en un mismo pisoH
c, /os de ellas bajen en un mismo piso y las otras dos bajen tambi1n en un mismo
pisoH
Souci,#'
Cada una de las < personas tiene E maneras distintas de bajarse! Luego 4ay ( ) 9< 1 E K
<
= = S maneras de
efectuar el e-perimento sin ninguna restricci'n!
a, 3ea el evento "@ Due dos de ellas bajen en el quinto piso! ?ay
6
9
<
=
maneras de
elegir las dos personas y las dos restantes pueden bajar en cualquiera de los 6 pisos
restantes!
Luego ( ) 91 6 6 6 K
9
= = A & y en consecuencia ( )
9<1
916
= A " !
1
16
b, 3ea el evento )@ Due todas las < bajen en el mismo piso> puesto que 4ay E maneras de
elegir el piso donde bajan las personas se tiene que ( ) E K = B y ( )
6
E
1
= B " !
c, 3ea el evento C@ Due dos personas bajan en un mismo piso ! las otras dos tambi1n!
?ay
91
9
E
=
maneras de elegir los 9 pisos donde bajan las personas& 4ay

6
9
<
=

maneras de elegir las dos personas que bajan en un piso& y
1
9
9
=
manera de elegir las

dos personas que bajan en el otro! +n consecuencia ( ) 196 K = C y ( )
9<1
196
= C " !
E-e%po 4.41. >n estacionamiento para carros tiene C lugares disponibles colocados en
lnea! Cinco carros de diferentes modelos arrivan al estacionamiento! GCu.l es la
probabilidad de que@
a, Los B carros se estacionen todos juntos sin dejar lugar vacio entre ellosH
b, Los 6 lugares vacos queden juntosH
Souci,#'
?ay ( ) ( ) 6 E9 B& C K = = " S maneras de efectuar el e-perimento!
a, 3ea el evento "@ Due los B carros queden juntos! ?ay que permutar < objetos@ los 6
lugares vacios y el bloque de los < carros! +sto se puede 4acer de
< C Q 6 Q B Q < =
maneras& luego
( )
6E9
<C
= A " !
b, 3ea el evento )@ Due los 6 lugares vacios queden juntos! ?ay que permutar 6 de los B
carros ! el bloque de lugares vacos! +sto se puede 4acer de
E9 Q 6 =
maneras& luego
( )
6E9
E9
= B " !
E-e%po 4.4). /oce policas reci1n graduados de la acad1mia son asignados al azar a 6
pueblos uno de los cuales es MayagRez! GCu.l es la probabilidad de que@
a, < de los policas sean asignados a MayagRezH
b, 9 de los pueblos reciban 6 policas& otros dos reciban 9 policas y los restantes
dos uno cada unoH
Souci,#'
1
1E
+l e-perimento se puede efectuar de ( )
19
6 K = S maneras!
a, 3ea el evento A@ Due < de los 19 policas sean asignados a MayagRez& esto se puede
efectuar de
( )
C
B
<
19
K
= A
maneras! Por lo tanto P*",O
( )
1 9
C
6
B
<
1 9
= A "
!
b, 3ea el evento B@ Due dos pueblos reciban 6 policas& dos reciban 9 policas y los
restantes 9 uno cada uno! +sto se puede efectuar de@
1
1
1
9
9
9
9
<
9
6
9
<
6
5
6
19
9
6
Los tres primeros elementos del producto representan las maneras de elegir dos pueblos y
luego asignar 6 policas en ellos& los pr'-imos tres elementos representan las maneras de
elegir otros dos pueblos y luego asignar dos policias en ellos y los =ltimos 6 elementos son
las maneras de elegir los dos pueblos restantes y asignar un polica en cada uno!
:ambi1n se puede resolver usando permutaciones con elementos repetidos y en este caso@
Q1 Q1Q 9 Q9 Q 6Q 6
Q 1 9
Q 9 Q9 Q 9
Q6
Luego ( )
19
9 9 6
6
, Q 9 * , Q 6 N* Q 19 , Q 9 N* 6
= B " !
1
1C
E?ERCICIOS
1! >n metere'logo afirma que la probabilidad de que llueva el s.bado es 9BM& la
probabilidad de que llueva el domingo es 9M y la probabilidad de que llueva ambos
dias es 1BM! GCu.l es la probabilidad de que llueva durante el fin de semanaH
9! +n una universidad el 6M de los estudiantes ni fuman ni beben! "dem.s el 6M fuma
y el 9BM bebe! 3e elige al azar un estudiante& GCu.l es la probabilidad@
a, Due tenga al menos uno de los dos 4.bitosH
b, Due tenga s'lo uno de los 4.bitosH
c, Due sea un bebedor y fumadorH
6! >n grupo de 6 4ombres y 6 mujeres es dividido al azar en dos grupos de tamaAo 6!
a, "mbos grupos tengan el mismo n=mero de 4ombresH
b, >n grupo tenga dos mujeres y el otro <H
<! 3i 1 bolas son distribuidas al azar en < urnas! GCu.l es la probabilidad de que la
cuarta urna contenga e-actamente 6 bolasH
B! 6 niAos de segundo grado son asignados al azar en dos clases de 6 cada uno!
Cinco de ellos@ /iana& "na& 3ofa& Mic4elle y Paula son amigas intimas@
a, GCu.l es la probabilidad de que todas ellas sean asignadas a la misma claseH
b, GCu.l es la probabilidad de que e-actamente < de ellas sean asignadas a la
misma claseH
c, GCu.l es la probabilidad de que /iana est1 en una clase y sus amigas en la otraH
6! >n catador de vinos afirma que puede distinguir entre < variedades de un vino
Cabernet! GCu.l es la probabilidad de que el catador logre identificar correctamente las
< variedades de vino si le dan a probar < vasos donde no aparecen marcadas las
variedades del vinoH
E! >na >rna " contiene 6 bolas rojas y dos bolas blancas y& una >rna ) tiene 9 bolas
rojas y B blancas! 3e lanza una moneda legal y si sale cara se e-trae una bola de la
>rna "& en caso contrario la bola es sacada de )!
a, GCu.l es la probabilidad de que la bola e-traida sea rojaH
b, 3i la bola e-trada fue roja& GCu.l es la probabilidad de que la moneda 4aya
salido caraH
C! 3e lanza un par de dados y la suma que aparece es 6& GCu.l es la probabilidad de que
al menos uno de los dados sali' 6H
5! >na pareja de esposos tiene dos 4ijos
a, GCu.l es la probabilidad de que ambas sean niAas si la mayor lo esH
b, GCu.l es la probabilidad de que ambas sean niAas dado que una de ellas es niAaH
1
15
1! +n una ciudad el 1!BM de personas sufren de /altonismo! Por otro lado& BBM de la
poblaci'n son mujeres y el !BM de ellas sufre de /altonismo! 3i se elige al azar una
persona y se encuentra que sufre de /altonismoS GCu.l es la probabilidad de que sea
4ombreH
11! >na urna contiene 6 bolas rojas y dos blancas! 3e e-trae una bola& se observa su color
y luego se devuelve a la urna junto con otra bola del mismo color& luego se e-trae una
segunda bola@
a, GCu.l es la probabilidad de que la segunda bola e-traida sea blancaH
b, 3i la segunda bola e-trada fue blancaS GCu.l es la probabilidad de que la
primera bola e-trada 4aya sido rojaH
19! >na compaAia de seguros clasifica a sus clientes como de alto& mediano y bajo riesgo&
ellos reclaman el pago de un seguro con probabilidades !9& !1 y !9B
respectivamente! +l 1M de los clientes son de alto riesgo& el 9M de mediano y el
EM de bajo riesgo! 3i uno de los clientes reclama el pago de un seguroS GCu.l es la
probabilidad de que sea uno de bajo riesgoH
16! 3e tienen 6 tarjetas iguales e-cepto que una tiene ambos lados rojos& otra ambos lados
negros& y la tercera un lado rojo y otro negro! 3e elige al azar una tarjeta y se muestra
uno de sus lados que resulta ser rojoS GCu.l es la probabilidad de que el otro lado de la
tarjeta sea tambi1n rojoH
1<! >na caja tiene 6 monedas& una de ellas tiene dos caras& la otra dos cruces y la tercera
cara por un lado y cruz por el otro! 3e escoge una moneda al azar y se muestra uno de
sus lados que resulta ser caraS GCu.l es la probabilidad de que el otro lado de la
moneda sea tambi1n caraH
1B. a, 3e colocan al azar C bolas en C urnas& cu.l es la probabilidad de que quede
solamente una vaciaH
b, 3i s'lo 4ay disponibles B urnas para colocar las C bolasS GCu.l es la probabilidad
de que la primera urna contenga e-actamente dos bolasH
16! >na f.brica tiene tres turnos +l 1M de los artculos producidos en el primer turno son
defectuosos& 9M de los artculos del segundo turno son defectuosos y el BM de los
artculos del tercer turno tambi1n son defectuosos! 3i en todos los turnos se produce la
misma cantidad de artculos& GDu1 porcentaje de los artculos producidos en un dia son
defectuososH
3i un artculo sali' defectuoso& GCu.l es la probabilidad de que 4aya sido producido
en el tercer turnoH
1E! >na urna contiene 1 bolas numeradas del 1 al 1! 3e e-traen < de estas bolas sin
reposici'n! GCu.l es la probabilidad de que la segunda de ellas en orden ascendente de
magnitud sea <H
1
9
1C! a, 3e lanzan 6 dados& GCu.l es la probabilidad de que salgan cada uno de los
n=meros posiblesH
b, ;eponder la parte a, si se lanzan E dados!
15! +l 6 por ciento de los estudiantes de una escuela no usan ni anillo ni cadena! Por otro
lado el 9 por ciento usan anillos y el 6 por ciento usan cadenas! 3e elige un
estudiante al azar& GCu.l es la probabilidad de que est1 usando@
a, "nillo y cadenaH
b, 3olamente una de las dos prendasH
9! >n consejero acad1mico 4ace una encuesta a 1 graduandos de escuela superior
para tratar de relacionar el promedio de graduaci'n y su decisi'n acerca de lo que
piensa estudiar en la universidad!
Promedio "cademico
9! L9!55 6!L6!<5 6!BL<!
/ecidido B 1 1B
%ndeciso 6B 9B 1
3e elige al azar un graduando
a, 3i resulta que 1l est. indeciso& GCu.l es la probabilidad de que tenga promedio
de 6!B ' m.sH
b, 3i resulta que su promedio es menor que 6!& GCu.l es la probabilidad de que
4aya decidido qu1 estudiar en la universidadH
c, 3i resulta que 1l est. decidido& GCu.l es la probabilidad de tenga promedio de
6! ' m.sH
d, 3i su promedio es menor que 6!B& GCu.l es la probabilidad de que a=n no se
4aya decididoH
91! +n un lote de B neveras 4ay 6 daAadas y << buenas! 3e eligen al azar dos neveras una
por una y sin reposici'n! GCu.l es la probabilidad de que@
a, "mbas neveras salgan daAadasH
b, 3'lo una de las neveras salga daAadaH
c, Por lo menos una de las neveras salga daAadaH
d, La segunda salga daAadaH
99! +n un proceso de reclutamiento de personal se 4a determinado que la probabilidad de
que a un entrevistado se le 4aga una oferta de empleo es !6 independientemente de
qui1n sea!! (uan& Pedro y Lilliam son entrevistados! GCu.l es la probabilidad de que@
a, " todos ellos se les 4aga oferta de empleoH
b, "l menos a uno de ellos se le 4aga oferta de empleoH
1
91
CAPTULO 5
DISTRIBUCIONES DE PROBABILIDADES
En este captulo se introducir el concepto de variable aleatoria, cuya importancia
radica en introducir modelos matemticos en el clculo de probabilidades. Luego, se
considerarn las distribuciones de probabilidades de variables aleatorias discretas con su
media y varianza respectiva. Existe un gran nmero de distribuciones discretas, pero en este
texto slo se discutir en detalle la distribucin binomial. Debido a que este texto no
requiere un curso previo de lculo di!erencial e integral, el estudio de las variables
aleatorias continuas es omitido. "olamente se considera en el texto el estudio de la
distribucin #ormal que es de crucial importancia para el proceso de $n!erencia Estadstica.
5.1 Variables Aleatorias
%na variable aleatoria es aquella que asume sus valores de acuerdo a los resultados de
un experimento aleatorio. %sualmente se representa por las ltimas letras del al!abeto& ', (
o ).
*ropiamente una variable aleatoria ' es una !uncin cuyo dominio es la coleccin de
eventos del espacio muestral " y cuyo rango +
x
, es un subcon,unto de los nmeros reales.
-lgunos e,emplos de variables aleatorias son&
'& La suma que aparece al lanzar un par de dados.
(& El nmero de caras que aparecen al lanzar una moneda tres veces.
)& El nmero de errores que se encuentran en la pgina de un libro.
Eje!lo 5.1 De una ca,a que contiene . bolas numeradas del / al . se extraen 0 bolas una
por una y sin reposicin. Entonces "& El mayor de los tres nmeros sacados, es una variable
aleatoria.
-qui el espacio muestral es&
" 1 23/,4,05, 3/,4,65, 3/,4,.5, 3/,0,65, 3/,0,.5, 3/,6,.5, 34,0,65, 34,0,.5, 34,6,.5, 30,6,.57
y la variable aleatoria ' asume los valores& 0, 6 y .. *or e,emplo, ( ) 6 6 , 0 , 4 = X .
El ob,etivo de la variable aleatoria es introducir notacin matemtica en el clculo de
probabilidades, la cual es muc8o ms simple y breve. *or e,emplo, en lugar de usar la !rase
9la probabilidad de que el mayor de los 0 nmeros extraidos sea 6:, se escribe simplemente
como 9*3' 1 65:.
*or otro lado,
*3' 1 65 1 *3; estn en ", tal que '3;5 1 65
1 *323/,4,65, 3/,0,65, 34,0,6575 1 0</=

Edgar -cu>a aptulo . Distribuciones de *robabilidades
"i el rango de valores +
x
de la variable aleatoria ' es !inito o in!inito enumerable entonces
se dice que es una variable aleatoria #is$reta. "i su rango de valores +
x
es in!inito no
enumerable entonces se dice que es una variable aleatoria $o%ti%&a.
5.1.1. '&%$i(% #e !robabili#a# #e &%a variable aleatoria #is$reta
"i ' es una variable aleatoria discreta con rango de valores +
x
entonces, su !uncin de
probabilidad se de!ine por&
p3x5 1 *?' 1 x@, para todo x
+
x
y tiene las siguientes propiedades&
i5 p3x5 A = y
ii5 p3x5 1 /.
uando +
x
no contiene muc8os valores es ms conveniente expresar p3x5 en una tabla de
valores, la cual es llamada tabla de !uncin de probabilidad.
Eje!lo 5.) Ballar la !uncin de probabilidad de la variable del e,emplo anterior
Sol&$i(%*
Expresando p3x5 en una tabla de valores se tiene que&
' p3x5
0 /</=
6 0</=
. C</=
Eje!lo 5.+. "e lanza una par de dados legales y distinguibles entre si. Ballar la !uncin
de probabilidad de "& la suma de los dos dados.
Sol&$i(%*
Expresando p3x5 en una tabla de valores y observando el espacio muestral del experimento
se tiene que&
' 4 0 6 . C D E F /= // /4
*3x5 /<0C 4<0C 0<0C 6<0C .<0C C<0C .<0C 6<0C 0<0C 4<0C /<0C
Eje!lo 5.,. De un lote que contiene /= articulos, de los cuales 6 son da>ados se extraen al
azar y sin reposicin 0. "e de!ine la variable '& #mero de artculos da>ados que 8ay en la
muestra. Ballar la !uncin de probabilidad de '.
Sol&$i(%* En este caso el rango de valores de ' es +
x
1 2=, /, 4, 07 y en particular
/4=
p345 1 *rob3sacar 4 da>ados5 1
0
/=
/
C
4
6
, y en general p3x5 1
0
/=
0
C 6
x x
, para x 1 =,/,4,0.
alculando las combinaciones se obtiene la siguiente tabla de !uncin de probabilidad&
' p3x5
= /<C
/ /<4
4 0</=
0 /<0=
5.1.). '&%$i(% #e #istrib&$i(% a$&&lativa
"ea ' una variable aleatoria discreta con !uncin de probabilidad p3x5 y rango de
valores +
x
, entonces su !uncin de distribucin acumulativa se de!ine por&
= =
t x
x p t X P t F 5 3 5 3 5 3
t es cualquier nmero real. En particular, si t es un valor que est en +
x
, el cual consiste de
enteros no negativos, entonces&
G3t5 1 p3=5 H p3/5 H p345 H p305 HIH p3t5
Eje!lo 5.5. Ballar la !uncin de distribucin acumulativa para el E,emplo anterior.
Sol&$i(%*
' p3x5 G3x5
= /<C /<C
/ J 6<C
4 0</= 4F<0=
0 /<0= /
La gr!ica de una !uncin de distribucin acumulativa es creciente y del tipo escalonado,
con saltos en los puntos que estn en el rango de valores y cuya magnitud es igual al valor
de la !uncin de probabilidad en dic8o punto. Ks !ormalmente tiene la siguiente propiedad&
Pro!ie#a#. La relacin entre la funcin de distribucin de probabilidad y la funcin de
distribucin acumulativa est dada por:
p3x5 1 G3x5 L G3xL/5
/4/
para todo valor de x en el rango de valores de la variable aleatoria.
En la siguiente Gigura se muestra la !uncin de distribucin acumulativa para el e,emplo
anterior.
-1 0 1 2 3 4 5
0.0
0.5
1.0
x
F
(
x
)
0
0.167
0.667
0.967
1
Eje!lo 5.-. %na variable aleatoria ' tiene !uncin de distribucin acumulativa dada por
la siguiente tabla de valores&
' G3x5
0 /</=
6 6</=
. /
a5 Ballar la probabilidad de que x sea menor o igual que 0.
b5 Ballar la probabilidad de que x sea mayor o igual que ..
c5 Ballar la probabilidad de que x sea igual a ..
Sol&$i(%*
a5 *3' 05 1 G305 1 /</=.
b5 *3' .5 1 /L *3' 65 1 /LG365 1 /L6</= 1 C</=.
c5 p365 1 G365 L G305 1 6<//= 1 /</= 1 0</=.
/44
5.1.+ Valor Es!era#o . Varia%/a #e &%a Variable Aleatoria Dis$reta
"ea ' una variable aleatoria discreta con !uncin de probabilidad p3x5 y rango de valores +
x
,
entonces su Malor Esperado o Kedia se de!ine como el nmero&
= =
x
x xp X E 5 3 5 3
La suma es sobre todos los valores x que estn en +
x
.
Eje!lo 5.0. Ballar el valor esperado de la suma obtenida al lanzar un par de dados.
Sol&$i(%.
' 4 0 6 . C D E F /= // /4
p3x5 /<0C 4<0C 0<0C 6<0C .<0C C<0C .<0C 6<0C 0<0C 4<0C /<0C
xp3x5 4<0C C<0C /4<0C 4=<0C 0=<0C 64<0C 6=<0C 0C<0C 0=<0C 44<0C /4<0C
La suma de la !ila xp3x5 es 4.4<0C 1 D. N sea que el valor esperado es D.
Eje!lo 5.1. Ballar el valor esperado del nmero de articulos da>ados que 8ay en la
muestra de tama>o 0 extraida de un lote que contiene /= artculos de los cuales, 6 son
da>ados.
Sol&$i(%*
x p3x5 xp3x5
= /<C =
/ /<4 /<4
4 0</= C</=
0 /<0= 0<0=
"umando la ltima columna se obtiene que 1 /4</= 1 /.4 articulos da>ados. N sea, se
espera que en la muestra 8ayan /.4 artculos da>ados. #o tiene muc8o sentido la
interpretacin directa del nmero, pero equivale a decir que si se extraen /= muestras
independientes de tama>o 0, en promedio deben salir un total de /4 artculos da>ados.
Eje!lo 5.2. %n ,uego consiste en acertar un nmero del / al /===. - la persona que
acierta el nmero se le da un premio de .== dlares y a las dos personas que tienen el
nmero que le antecede o precede se le dan /== dlares. "i el boleto cuesta / dlar. Oul
ser la Panancia #eta esperada de una persona que compra un boletoQ
Sol&$i(%*
La Panancia #eta es igual a la ganancia por el premio recibido menos el costo del boleto.
"ea P la ganancia por el premio recibido. Ballaremos primero la Panancia Esperada&
P *3P5 Pp3P5
/40
.== /</=== .==</===
/== 4</=== 4==</===
= FFD</=== =
Luego, la ganancia esperada por boleto ser D==</=== 1 =.D=. -s que la Panancia #eta
esperada ser =.D= L /.== 1 L=.0=. Lo que signi!ica que una persona pierde 0= centavos por
cada boleto que compra. N dic8o de otra manera, la empresa que administra el ,uego gana
0= centavos por cada boleto que vende.
La Varia%/a de una variable aleatoria discreta x con !uncin de probabilidad p3x5 y media
se de!ine por&
= 5 3 5 3
4 4
x p x ,
Donde la suma es sobre todos los valores del rango de '.
*ara calcular la varianza, es ms conveniente construir una tabla de la siguiente manera&
' p3x5 xp3x5
3x-5
4
3x-5
4
p3x5
La varianza ser la suma de la ltima columna.
Eje!lo 5.13. Ballar la varianza del nmero de artculos da>ados del E,emplo ..E.
Sol&$i(%*
x p3x5 xp3x5
3xL5
4
3xL5
4
p3x5
= /<C = /.66 .46
/ J .. . =6 .=4
4 0</= .C .C6 ./F4
0 /<0= ./ 0.C6 ./4/
Luego la varianza ser
4
1 =..D0.
Ntra !orma alterna para calcular la varianza es

4 4 4
5 3 =
x p x
La raz cuadrada positiva de la varianza es llamada la #esvia$i(% est4%#ar y es ms
conveniente porque est en la misma escala de valores de la variable.
5.) La Distrib&$i(% Bi%oial.
%n experimento es llamado de Rernoulli si satis!ace las siguientes caractersticas&
a5 En cada repeticin puede ocurrir slo una de dos maneras, una de ellas es llamada Exito
y la otra Fracaso.
/46
b5 La probabilidad de Exito, representada por p, debe permanecer constante cuando el
experimento es repetido muc8as veces.
c5 Las repeticiones de los experimentos deben ser independientes entre s.
Eje!lo 5.11. Los siguientes son experimentos de Rernoulli
a5 Nbservar las veces que sale C al lanzar varias veces un dado, en este caso la
probabilidad de Sxito es /<C.
b5 ontar el nmero de pacientes que sobreviven a una operacin de corazn abierto.
c5 ontar el nmero de personas que se entrevistan por un empleo y a las que se le 8ace
una o!erta de empleo.
%na variable aleatoria ' tiene una #istrib&$i(% Bi%oial con parmetros n y p si se de!ine
como el nmero de Sxitos que ocurren cuando un experimento de Rernoulli se repite n veces
en !orma independiente.
Eje!lo 5.1). Las siguientes son variables aleatorias binomiales.
a5 #mero de veces que resulta suma D al lanzar un par de dados /= veces es una variable
binomial con parametros p 1 /<C y n 1 /=.
b5 #mero de preguntas bien contestadas en un examen de /= preguntas de seleccin
mltiple, donde cada una tiene 6 alternativas de las cuales una es la correcta. En este
caso n 1 /= y p 1 T 1 =.4..
c5 #mero de artculos da>ados que 8ay en una muestra de tama>o 0 extraida N#
+E*N"$$U# de un lote que contiene /= artculos, de los cuales 6 son da>ados. En este
caso n 1 0 y p 1 6</=.
La !uncin de probabilidad de una binomial es de la !orma&
x n x
p p
x
n
x p

== 5 / 3 5 3
para x 1 =, /, I,n.
El valor de p3x5 para diversos valores de n y p aparece en tablas de todo texto bsico de
Estadstica.
"e puede mostrar que el valor esperado de una Rinomial es 1 np y que la varianza es
4
1 npq. Las demostraciones de estas propiedades pueden ser encontradas en cualquier
texto de Estadstica Katemtica.
En 5INITAB se pueden calcular la !uncin de probabilidad 3Probability5, la !uncin
de distribucin acumalada 3Cumulative probability5 y los percentiles (Inverse cumulative
probability5 de la distribucin Rinomial para cualquier valor de n y p. *ara esto 8ay que
seguir la secuencia Cal$ Probabilit. Distrib&tio%s Bi%oial.
Eje!lo 5.1+. Baciendo uso de 5INITAB
a5 Expresar en una tabla de valores la !uncin de probabilidad y la !uncin de distribucin
acumulada de la variable aleatoria '& #mero de preguntas bien contestadas por un
/4.
estudiante que responde al azar un examen tipo seleccin mltiple que consiste de /=
preguntas, cada una con 6 alternativas de las cuales slo una es correcta.
b5 %sar la tabla anterior para calcular la probabilidad de que el estudiante&
i5 Venga exactamente 0 preguntas buenas.
ii5 Venga C menos preguntas buenas.
iii5 Venga por lo menos 6 buenas.
Sol&$i(%*
a5 *rimero 8ay que poner en una columna, llamada WxX, todos los valores posibles de la
variable. La ventana de dilogo para el clculo de la probabilidad acumulada
3similar es para calcular la probabilidad5 y los resultados son como sigue&
Gigura ../. Mentana de dilogo para calcular probabilidades acumuladas de una distribucin
Rinomial.
En la ventana sessio% se presentarn los siguientes resultados&
Data Display
Row x P(x) F(x)
1 0 0.056314 0.05631
2 1 0.187712 0.24403
3 2 0.281568 0.52559
4 3 0.250282 0.77588
5 4 0.145998 0.92187
6 5 0.058399 0.98027
7 6 0.016222 0.99649
8 8 0.000386 0.99997
9 9 0.000029 1.00000
10 10 0.000001 1.00000
/4C
b5 La probabilidad de tener 0 preguntas bien contestadas es *305 1 =.4.=4, la
probabilidad de tener C o menos preguntas bien contestadas es G3C5 1 =.FFC6, la
probabilidad de tener por lo menos 6 buenas es por complemento *3' 65 1 / L
*3' 05 1 / L G305 1 /L =.DD.EE 1 =.406/4.
VambiSn se puede 8allar la probabilidad o la probabilidad acumulada para un nmero dado
de Sxitos. *ara esto en Input constant se pone el nmero de Sxitos.
Gigura ..4. Mentana de dilogo para calcular probabilidades de una distribucin Rinomial.
Eje!lo 5.1,. La prueba EL$"- es usada para detectar la presencia de anticuerpos al virus
del "$D-. EL$"-, detecta que 8ay anticuerpos presentes en el FD por ciento de los casos
de que la muestra de sangre est contaminada con el virus del "$D-. "uponga que entre las
muc8as muestras que pasan por un Ranco de "angre 8ay /4 que estn contaminadas con
"$D-.
a5 Oul es la probabilidad de que EL$"- detecte F de estos casosQ
b5 Oul es la probabilidad de que EL$"- detecte por lo menos 4 de estos casosQ
c5 Oul es la probabilidad de que por lo menos 6 casos no sean detectados por EL$"-Q
Sol&$i(%*
"ea "& nmero de casos detectados por EL$"- en la muestra de /4.
' es una Rinomial con n 1 /4 y p 1 .FD
a5 Es igual a p3F5. Baciendo uso de K$#$V-R con i%!&t $o%sta%t igual a F, se obtiene
p3F5 1 .==6..
b5 Es igual a * 3' 45 1 / Y * 3' /5 1 / L G3/5 1 / L .==== 1 /.===
/4D
c5 "i por lo menos 6 no son detectados, signi!ica que - LN KZ" E son detectados, o sea *
3' E5 1 G3E5 1 =.===0.
VambiSn se puede resolver como *3( 65, donde ( representa el nmero de casos #o
detectados por EL$"-, o sea, es una binomial con p 1 .=0. *or complemento * 3( 65 1 /L
3*05 1 /LG305 1 /L.FFFD 1 .===0.
Eje!lo 5.15. El Departamento de "alud 8a determinado que el /=[ de los
puertorrique>os son zurdos. "e elige al azar F estudiantes de una escuela en *uerto +ico.
Oul es la probabilidad de que&
a5 Exactamente 4 de ellos sean zurdosQ
b5 Exactamente C de ellos sean diestrosQ
c5 *or lo menos 6 de ellos sean diestrosQ
Sol&$i(%*
"ea '& nmero de zurdos en la muestra de F estudiantes. ' es una binomial con p 1 ./= y n
1 F.
a5 p345 1 ./D44
b5 "i 8ay C diestros entonces 0 son zurdos. Luego, la probabilidad pedida es p305 1 .=66C
c5 "i 8ay por lo menos 6 derec8os, signi!ica que 8ay a lo ms . zurdos. Luego, la
probabilidad pedida es * 3' .5 1 G3.5 1 .FFFF. VambiSn puede ser resuelto
cambiando la probabilidad de Sxito a p 1 .F= y 8allando * 3' 65 1 / Y * 3' 05 1 / Y
G 305 1 / L .===/ 1 .FFFF.
*or otro lado, dada una probabilidad, 5INITAB produce los valores de la variable que
tienen una probabilidad acumulada lo ms cercano posible a dic8a probabilidad, esto es
posible si se selecciona I%verse $&&lative !robabilit. en la ventana de dilogo.
5.+ La Distrib&$i(% Noral
La distribucin #ormal, tambiSn llamada Distribucin Paussiana en 8onor a \.
Pauss, es una del tipo continuo y es considerada la distribucin ms importante en
Estadstica por las numerosas aplicaciones que tiene. "u comportamiento es re!le,ado por la
urva #ormal que es la gr!ica de la siguiente ecuacin

4
5 3
4
4
4
5 3
=
x
e
x f
Donde la media y la desviacin estndar son los parmetros de la distribucin. En la
Gigura ..0 se muestra una curva normal con media 1 /. y desviacin estndar 1 0.
/4E
Gigura ..0. Pr!ica de una curva normal con media /. y desviacin estndar 0.
"i una variable aleatoria ' tiene una distribucin #ormal y queremos calcular la
probabilidad de que ' caiga entre dos valores a y b entonces, debemos 8allar el rea deba,o
de la curva entre a y b, esto se puede 8acer por un proceso de lculo llamado $ntegracin.
Debido a que puede asumir cualquier valor real y que puede asumir cualquier valor real
positivo 8abra que 8acer un proceso de integracin en cada caso, lo cual complicara el
proceso de calcular la probabilidad en lugar de simpli!icarlo. -!ortunadamente se puede
mostrar que cualquier normal puede ser trans!ormada en una que tiene media = y desviacin
estandar / y la cual es llamada la Distrib&$i(% Noral Est4%#ar y se representa por ). En
el apSndice - de este texto se 8a incluido una tabla que da el rea deba,o de la curva
normal estndar a la izquierda de un valor de ).
En 5INITAB se pueden calcular la !uncin de densidad 3Probability density5, la
!uncin de distribucin acumalada 3Cumulative probability5 y los percentiles (Inverse
cumulative probability5 de la distribucin #ormal para cualquier valor de la media y
desviacin estndar . #o se requiere trans!ormacin a una normal estndar. *ara esto 8ay
que seguir la secuencia Cal$ Probabilit. Distrib&tio%s Noral.
Eje!lo 5.1-. En este e,emplo en la columna llamada ) se 8an puesto /. valores y se
quiere 8allar el rea a la derec8a de dic8os valores. Las reas sern guardadas en una
columna llamada Area. *or otro lado en la columna alpa se 8an puesto // valores de rea
y se desea 8allar los valores de z correspondientes, estos son llamados !er$e%tiles. La
ventana de dilogo y los resultados son como sigue&
/4F
25 15 5
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
x
f
(
x
)
Curva Normal com media 15 de!viacio" e!#a"dar 3
$ec%o &or 'd(ar )cu"a
Gigura ..6. Mentana de dilogo para calcular areas deba,o de una curva normal.
Data Display
Row z Area alpha z(alpha)
1 -3.00 0.001350 0.010 -2.32635
2 -2.57 0.005085 0.050 -1.64485
3 -2.23 0.012874 0.150 -1.03643
4 -2.00 0.022750 0.250 -0.67449
5 -1.64 0.050503 0.300 -0.52440
6 -1.00 0.158655 0.500 0.00000
7 -0.73 0.232695 0.800 0.84162
8 0.00 0.500000 0.900 1.28155
9 0.63 0.735653 0.950 1.64485
10 1.96 0.975002 0.975 1.95996
11 2.33 0.990097 0.995 2.57583
12 2.54 0.994457
13 2.97 0.998511
14 3.33 0.999566
15 3.67 0.999879
*ara 8allar los percentiles se elige Inverse cumulative probability y se escribe alpa en
input column y !"alpa# en Optional storage
El percentil del F= por ciento ser /.4E/.. y el percentil del 4. por ciento ser L.CD66F.
/0=
-3 -2 -1 0 1
1.96
3
0.0
0.1
0.2
0.3
0.4
*
f
d
&
)rea de+a,o de la curva "ormal &erce"#ile!
$ec%o&or 'd(ar )cu"a
.975
.025
Gigura .... -reas deba,o de una curva normal y percentil del FD..[
En la gr!ica se representa que el percentil del FD..[ es /.FC y que el rea que queda en el
extremo derec8o ms alla de /.FC es del 4..[.
Esta%#ari/a$i(% #e &%a Noral
$ada una variable aleatoria X distribuida %ormalmente con media y desviacin
estndar entonces puede ser convertida a una normal estndar mediante el proceso de
estandari!acin& definido por ) 1 3' L5<& donde X es %" &
'
#.
(dems si X
p
y )
p
representen sus respectivos percentiles entonces:

X
p
= + Z
p

'(r&las !ara $al$&lar 4rea #ebajo #e la $&rva %oral
En las siguientes !rmulas, G representa la distribucin acumulada de la #ormal, es decir el
rea acumulada a la izquierda del valor dado
a5 * 3' ] a5 1 G3a5
b5 * 3a ] ' ] b5 1 G3b5 L G3a5
c5 * 3' A b5 1 / L G3b5
Eje!lo 5.10. "i ' es una poblacin #ormal con media 1 D= y 1 /=. Ballar las
siguientes probabilidades&
a5 * 3' ] C=5
b5 * 3' A F.5
/0/
c5 * 3.= ] ' ] E=5
Sol&$i(%*
%sando 5INITAB con ea% 1 D= y sta%#ar# #eviatio% 1 /=, se tiene que&
a5 * 3' ] C=5 1 G 3C=5 1 ./.ED
b5 * 3' A F.5 1 / Y G 3F.5 1 / L .FF0E 1 .==C4
c5 * 3.= ] ' ] E=5 1 G 3E=5 Y G 3.=5 1 .E6/0 L .=44E 1 .E/E.
Eje!lo 5.11. El #ivel de potasio presente en la sangre de una persona adulta se distribuye
normalmente con media 0.E y desviacin estandar =.4. "e elige al azar una persona&

a5 Oul es la probabilidad de que el nivel de potasio de la persona sea mayor que 6./Q
b5 "i el nivel de potasio es menor que 0.6 se dice que la persona su!re de 8ipocalcemia.
Oul es la probabilidad de que una persona padezca de Ssta en!ermedadQ
c5 Oul es la probabilidad de que el nivel de potasio sea mayor que 0.4. pero menor que
0.D.Q
d5 - las personas con el /.[ ms ba,o de nivel de potasio se las someter a una dieta para
subirle el nivel. Oul debe ser el nivel de potasio requerido como mximo para ser
sometido a la dietaQ
e5 - las personas con el /=[ ms alto de nivel de potasio se las someter a una dieta para
ba,arles el nivel. Oul debe ser el nivel de potasio requerido como minimo para ser
sometido a la dietaQ
Sol&$i(%*
"ea '& #ivel de potasio, ' es normal con media 0.E y desviacin estndar =.4
a5 * 3' A 6./5 1 / Y G 36./5 1 / L .F004 1 .=CCE.
b5 * 3' ] 0.65 1 G 30.65 1 .=44E.
c5 * 30.4. ] ' ] 0.D.5 1 G 30.D.5 Y G 30.4.5 1 .6=/0 L .==0= 1 .0FE0.
d5 Es equivalente a 8allar el percentil del /.[. %sando I%verse $&&lative !robabilit.
en 5INITAB se obtiene que 0..F4D debe ser el nivel de potasio requerido.
e5 Es equivalente a 8allar el percentil del 3/==L/=5[ 1 F=[. %sando I%verse $&&lative
!robabilit. en 5INITAB6 se obtiene que 6.=.C0 debe ser el nivel de potasio requerido.
Eje!lo 5.12. El tiempo que le toma a los estudiantes en ir de su casa a la %niversidad se
distribuye normalmente con media 4= minutos y desviacin estndar ..
a5 Oul es la probabilidad de que a un estudiante le tome ms de /E minutos en llegar a la
universidadQ
b5 Oul es la probabilidad de que un estudiante llegue a la universidad en menos de 0=
minutosQ
c5 O- quS 8ora debe salir el estudiante de su casa si se desea que llegue tarde a su clase de
la E&== a.m. solamente un . por ciento de las vecesQ
Sol&$i(%
/04
"ea la variable aleatoria '& El tiempo que le toma al estudiante en llegar de su casa a la
%niversidad, ' es normal con media 4= y desviacin estndar ..
a5 * 3' A /E5 1 / Y G 3/E5 1 / L .066C 1 C..6.
b5 * 3' ] 0=5 1 .FDD4.
c5 Equivale a 8allar el percentil del F.[, y despuSs restarle el tiempo 8allado a las E&==
am. %sando I%verse $&&lative !robabilit. se obtiene que el percentil del F. [ es
4E.4460. Luego el estudiante debe salir alrededor de E.== am.L4E minutos1D.04 am.
Eje!lo 5.)3. "i la variable aleatoria ' se distribuye normalmente con media y
desviacin estndar . Entonces 8allar el valor * tal que
* 3 ^' L ^ ] *5 1 .F.
Sol&$i(%*
*uesto que ^'L^]_ es equivalente a *
X
<
^ ^
, por la !rmula de estndarizacin se
obtiene que *3^)^ ]_51.F.. Desdoblando el valor absoluto se obtiene que *3L_] ) ]_51.F..
*or simetra de la distribucin #ormal el rea que queda a la derec8a del valor _ es igual a
=.=.<4 1 =.=4.. Es decir,
FD. .
) * =
, %sando 5INITAB o la tabla normal estndar del
apSndice se obtiene _ 1 /.FC.
5., Coteja%#o si 7a. Norali#a#
uando se trata de sacar conclusiones acerca de la poblacin usando los datos de la
muestra, se asume generalmente que la los datos de la poblacin se distribuyen de !orma
normal. omo no se conocen todos los elementos de la poblacin, se deben usar los datos
de la muestra para veri!icar si e!ectivamente la poblacin es #ormal. Existen varias pruebas
estadisticas para veri!icar #ormalidad.
En 5INITAB, primero se elige la opcin Basic Statistics de Stat y luego ormality
!est del submen que aparece.
En este texto nosotros slo discutiremos la !orma bsica de detectar normalidad, la
cual es a travSs del plot de %ormalida. El plot de %ormalidad consiste de un diagrama de
puntos donde en el e,e vertical se considera los escores normales y en el e,e 8orizontal los
valores de la variable. "i los puntos caen cerca de una lnea, entonces se dice que 8ay
Norali#a#. En 5INITAB este plot es obtenido siguiendo la secuencia 8ra!7
Probabilit. Plot. En la ventana que aparece elegir la opcion Single como se muestra en la
Gigura ..C
Eje!lo 5.)1. %sar un plot de #ormalidad para veri!icar si la siguiente muestra proviene de
una poblacin #ormal
0./ .F 4.E 6.0 .C /.6 ..E F.F C.0 /=.6 = //..
/00
La ventana de dilogo se completar como se muestra en la Gigura ..D. En la opcin
"istribution## elegir normal y entrar los valores de la media y de la desviacion estandar
correspondientes. "i estos valores no son entrados manualmente, K$#$V-R los estimar
utilizando los datos.
5INITAB produce el plot que aparece en la Gigura ..E. En el e,e 8orizontal aparecen los
escores normales y en el e,e vertical las probabilidades acumuladas de dic8os escores.
Gigura ..C. Mentana de dialogo de *robability *lots.
Gigura ..D Mentana de dilogo de Probabilit. Plot 9 Si%:le para 8acer un plot de #ormalidad.
I%ter!reta$i(%* Los puntos caen cerca de la linea y todos caen dentro de las bandas de
confian!a& lue+o se puede concluir que la poblacin de donde proviene la muestra es
%ormal.
/06
Gigura ..E. *lot de #ormalidad para los datos del E,emplo ..4/.
5.5 Si&la%#o #atos #e &%a #istrib&$i(% $o%o$i#a
Kuc8as veces se 8ace di!icil conseguir datos reales para corroborar un mStodo
estadstico, una manera de resolver dic8o problema es 8acer que la computadora produzca
mediante simulacin dic8os datos.
5INITAB tiene una lista grande de distribuciones conocidas, que pueden ser
simuladas, esta lista se puede ver seleccionando Ra%#o Data en el men Cal$.
Eje!lo 5.)). "upongamos que deseamos simular 0= notas de una poblacin normal que
tiene media D= y desviacin estndar /=. La ventana de dilogo correpondiente ser como
sigue&
/0.
Gigura ..F. Mentana de dilogo para generar al azar una muestra de una poblacin #ormal.
Los datos aparecen con 6 decimales, pero si se elige la opcin $ormat column del
men E#itor, se puede de!inir que el nmero de decimales sean cero para que los datos
salgan enteros, que es lo ms comn para notas. Los datos generados aparecen en la
ventana sessio% como sigue&
Data Display
C1
80 80 77 75 54 69 53
79 81 64 73 64 69 84
60 95 71 63 58 65 79
69 64 87 75 95 58 68
63 81
/0C
E;ERCICIOS
/. En una ca,a 8ay . !ic8as numeradas del 0 al D. "e extraen al azar 0 de ellas a la vez.
Ballar la !uncin de probabilidad y el valor esperado de la variable aleatoria '& El
menor de los nmeros extraidos. 3*or e,emplo si se extra,o la muestra 6, 0 y C entonces
'105.
4. De acuerdo a datos del gobierno, 0=[ de las mu,eres que traba,an nunca 8an estado
casadas, se elige al azar una muestra de // mu,eres traba,adoras. Oul es la
probabilidad de que&
a5 Exactamente 4 de ellas nunca 8ayan estado casadasQ
b5 - lo ms 0 de ellas nunca 8ayan estado casadasQ
c5 *or lo menos D de ellas 8ayan estado casadasQ
0. %n criminlogo a!irma que el E=[ de los condenados por `lavado de dinero` no vuelven
a cometer un acto criminal por lo menos durante los primeros cinco a>os de ser
liberados. "e elige al azar una muestra de E criminales que 8an sido liberados despues de
estar encarcelados por `lavado: de dinero. Oul es la probabilidad de que&
a5 #inguno de ellos comete crimen alguno por lo menos durante los cinco primeros
a>osQ
b5 *or lo menos 4 de ellos no cometan algn crimen por lo menos durante los cinco
primeros a>osQ
c5 #o ms de 0 de ellos cometan algn crimen por lo menos durante los primeros
cinco a>osQ
6. En un estudio clnico se determin que / de cada . personas su!ren de en!ermedades
mentales. "e seleccionaron al azar 0= personas&
a5 Oul es la probabilidad de que D de estas personas su!ran de en!ermedades
mentalesQ
b5 Oul es la probabilidad de que al menos E de estas personas no su!ran de
en!ermedades mentalesQ
c5 Oul es la probabilidad de que a lo ms C su!ran de en!ermedades mentalesQ
.. "e 8a encontrado que el /C[ de los articulos producidos por una maquinaria tienen
de!ectos. %n inspector de control de calidad selecciona 0= articulos aleatoriamente
encuentre la probabilidad de que&
a5 C de los articulos seleccionados sean de!ectuosos .
b5 a lo ms /= de Sstos articulos sean de!ectuosos.
c5 -l menos /. de ellos no sean de!ectuosos.
d5 -l menos C de ellos pero, no ms de /E sean de!ectuosos.
C. "e estima que el 0=[ de los accidentes automovilisticos se debe a que el conductor est
ebrio.
a5 alcular en promedio cuntos accidentes se debern al 8ec8o de que el conductor
estS ebrio en los siguientes E4 accidentes reportados.
b5 alcular la desviacin estandar del nmero medio de accidentes en los siguientes
E4 accidentes reportados.
/0D
D. %na empresa tiene dos plantas de produccin& - y R. En - se produce un 6=[ de la
produccin total y en R un C=[. "e sabe adems que un 4[ de la produccion de - y un
D[ de la produccin de R son de!ectuosas. "e elige al azar /4 articulos producidos por
la empresa. Oul es la probabilidad de que&
a5 "olamente 0 salgan de!ectuososQ
b5 - lo mas 4 salgan de!ectuososQ
c5 *or lo menos F salgan buenosQ
E. En el estudio Graming8am acerca de !actores que a!ectan las en!ermedades cardacas se
8izo un seguimiento por un perodo de /C a>os a una gran cantidad de 8ombres sanos.
"e encontr que inicialmente la distribucin de los niveles de colesterol de los 8ombres
era #ormal con media 1 446 y con desviacin estndar 1 6E
a5 %na persona con un colesterol menor de 4== es considerada como una con ba,o
riesgo de tener complicaciones cardacas. OauS porcenta,e de 8ombres tendrn
ba,o riesgoQ
b5 "i el colesterol de la persona es mayor de 4.= entonces tendr problemas
cardiacos en el !uturo. OauS porcenta,e de 8ombres tendrn problemas cardiacosQ
c5 Los 8ombres que tienen el .[ ms alto de colesterol sern sometidos a una dieta,
para ba,arle su colesterol y evitar que tenga problemas cardiacos en el !uturo.
Oul ser el nivel de colesterol mximo permitido para #N someterse a la dietaQ
F. %n pro!esor considera que el tiempo que los estudiantes necesitan para terminar el
examen se distribuye normalmente con media 1 C= minutos y desviacin estndar 1
/= minutos.
a5 Oul es la probabilidad de que un estudiante demore ms de una 8ora y /.
minutos en terminar el examenQ
b5 Oul es la probabilidad de que un estudiante demore ms de 6. minutos pero
menos de E. minutos en terminar el examenQ
c5 "e elige al azar E estudiantes que cogieron el examen, Oul es la probabilidad
que exactamente . de ellos tarden ms de 6=.6 minutos pero menos de DF.C
minutos en terminar el examenQ
/=. El contenido de las botella de ,ugo de naran,a llenadas por una mquina automtica
tiene una distribucin aproximadamente normal con media C0.F onzas y desviacin
estndar de =.4.. Encontrar la probabilidad de que&
a5 %na botella contenga menos de C6 onzas de ,ugo de naran,a.
b5 %na botella contenga al menos C0.D. onzas de ,ugo de naran,a.
//. %n anlisis realizado al contenido de grasa en ,amones determina que en cada corte de .
onzas de ,amn se tiene en promedio /4.06 gramos de grasa si se asume que la
cantidad de grasa tiene distribucin normal con desviacin estndar de =.E gramos.
a5 OauS porcenta,e de cortes de ,amn de . onzas tiene un contenido de grasa entre
/=.4 gramos y /4.. gramos.
b5 OauS porcenta,e de cortes de ,amn de . onzas tienen ms de /6 gramos de grasa
/4. "e sabe que ' es una variable aleatoria con distribucin normal y con media D4. Ballar
la desviacin estndar si en un /=[ de las veces ' tiene un valor mayor a EF.
/0E
/0. "e estima que un conductor conduce un promedio de /4,6== millas al a>o, con una
desviacin estndar de 0E== millas. alcular la probabilidad de que en el prximo a>o el
conductor conduzca&
a5 Ks /4,/== millas pero menos que /0,4== millas
b5 Ks de /.,=== millas.
/0F
CAPTULO 6

DISTRIBUCIONES MUESTRALES

Uno de los objetivos de la estadstica es saber acerca del comportamiento de
parmetros poblacionales tales como: la media ( ), la varianza (
2
) o la proporcin ( p ).
Para ello se extrae una muestra aleatoria de la poblacin y se calcula el valor de un
estadstico correspondiente, por ejemplo, la media muestral ( X ), la varianza muestral
(
2
s ) o la proporcin muestral ( p ). El valor del estadstico es aleatorio porque depende de
los elementos elegidos en la muestra seleccionada y, por lo tanto, el estadstico tiene una
distribucin de probabilidad la cual es llamada la Distribucin Muestral del Estadstico.

6.1 Distribucin de la Media Muestral cuando la poblacin es normal

Si se estraen muestras aleatorias de tamao n de una poblacin infinita que tiene
media poblacional y varianza
2
, entonces sea cual sea la distribucin de la poblacin
se tiene que:

i) La media de las medias muestrales es igual a la media poblacional. Es decir

x
.
ii) La varianza de las medias muestrales es igual a la varianza poblacional dividida por
n . En consecuencia la desviacin estndar de las medias muestrales (llamada
tambin el error estndar de la media muestral), es igual a la deviacin estndar
poblacional dividida por la raz cuadrada de n . Es decir
n
x

.

Si la poblacin fuera finita de tamao N , entonces se aplica el factor de correcin
1
N n
N
al error estndar de la media muestral. Pero en la prctica este factor es omitido a

menos que la muestra sea lo suficientemente grande comparada con la poblacin.

Si adems la poblacin se distribuye normalmente, entonces la media muestral
tambin tiene una distribucin normal con la media y varianza anteriormente indicadas.

6.2 El Teorema del Lmite Central

Un importante resultado en Probabilidades y Estadstica es el llamado Teorema del
Lmite Central que dice que si de una poblacin infinita con media y varianza
2
se
extraen muestras aleatorias de tamao n , entonces la media muestral se comporta
aproximadamente como una variable aleatoria normal con media igual a la media
Edgar Acua Captulo 6 Distribuciones Muestrales 141
poblacional y con varianza igual a la varianza poblacional dividida por el tamao de la
muestra, siempre que n sea grande. Lo importante de este resultado es que es
independiente de la forma de la distribucin de la poblacin. Es decir,

) , ( ~
2
n
N X

Estandarizando, esto es equivalente a:

) 1 , 0 ( ~ N
n
X
Z

Si la poblacin es bastante simtrica entonces, un tamao de muestra n mayor que
30 es suficiente para una buena aproximacin a la normal. Si la poblacin es bastante
asimtrica, entonces el tamao de muestra debe ser mucho ms grande.

En MINITAB se puede tratar de corroborar el Teorema del Lmite Central a travs
de un proceso de simulacin.

Ejemplo 6.1 Considerar una poblacin que consiste de 3, 4, 6, 8, 10, 11, 12, 15, 20.
Primero calculamos la media y desviacin estndar de dicha poblacin.

Descriptive Statistics

Variable N Mean Median Tr Mean StDev SE Mean
C1 9 9.89 10.00 9.89 5.42 1.81

Variable Min Max Q1 Q3
C1 3.00 20.00 5.00 13.50

Notar que 89 . 9 y 42 . 5 .

Segundo, extraemos 30 muestras de tamao 4 de dicha poblacin, ejecutando 4 veces la
siguiente secuencia CalcRandom DataSample from columns. Guardar cada una de
las 4 observaciones de las muestras en 4 columnas distintas: Obs1, Obs2, Obs3, y Obs4.

Tercero, calculamos las medias de todas esas muestras usando la opcin Row Statistics
del men Calc y tratamos de ver grficamente al menos si hay acercamiento a
Normalidad. Asimismo se debe observar que la media de todas estas medias debera estar
cerca de y la varianza cerca de
2
/n.

Las 30 muestras elegidas y sus respectivas medias son:

Muestra obs1 obs2 obs3 obs4 media
1 6 4 3 8 5.25
2 11 8 4 3 6.50
3 3 3 15 3 6.00
4 10 8 10 6 8.50
5 15 12 11 8 11.50
6 4 12 6 6 7.00
7 12 11 20 10 13.25
8 12 8 20 12 13.00
9 8 10 12 11 10.25
10 8 20 11 20 14.75
11 20 10 6 8 11.00
12 11 10 12 12 11.25
13 11 3 8 11 8.25
14 3 10 11 4 7.00
15 20 12 20 3 13.75
16 20 3 15 11 12.25
17 12 20 20 15 16.75
18 3 3 11 20 9.25
19 20 11 10 15 14.00
20 11 3 11 15 10.00
21 6 8 6 15 8.75
22 11 3 12 6 8.00
23 10 8 3 20 10.25
24 6 20 12 6 11.00
25 15 6 4 12 9.25
26 11 10 3 4 7.00
27 11 11 11 11 11.00
28 10 10 6 10 9.00
29 4 20 20 3 11.75
30 11 6 6 8 7.75

Las medidas estadsticas de la media muestral son:

Variable N Mean Median Tr Mean StDev SE Mean
media 30 10.108 10.125 10.019 2.806 0.512

Variable Min Max Q1 Q3
media 5.250 16.750 7.938 11.875

En la Figura 6.1 se muestra el histograma de la distribucin de las medias muestrales y la
curva normal que ms se aproxima al histograma.

I nterpretacin: Notar que la media de las medias muestrales es 10.108
x
que est
bien cerca de la media poblacional 89 . 9 . Adems la desviacin estndar de la media
muestral es 2.806 mientras que n es igual a 5.42/2=2.71 ambos valores tambin
estn relativamente cerca. El histograma si est un poco alejado de la normalidad.
Si se incrementa el tamao de las muestras se puede notar una mejor aproximacin a la
Normal.

Figura 6.1 Histograma de la distibucin de las medias maestrales del Ejemplo 6.1

Luego de aplicar estandarizacin, las siguientes frmulas se cumplen, aproximadamente si
la poblacin no es normal y exactamente si lo es.

i) ) ( ) (
n
a
Z P a X P

ii) ) ( ) (
n
b
Z
n
a
P b X a P

iii) ) ( ) (
n
b
Z P b X P

Las probabilidades pueden ser calculadas usando la tabla de la normal estndar que
aparece en al apndice del texto. Sin embargo, stas pueden ser halladas directamente en
MINITAB sin necesidad de estandarizacin.

Ejemplo 6.2. El tiempo de atencin por cliente de un cajero de un Banco es normal con
media 6 minutos y desviacin estndar 2.5 minutos.

a) Cul es la probabilidad de que el tiempo promedio de atencin para una muestra de
15 clientes sea menor de 7 minutos?
b) Cul es la probabilidad de que el tiempo de atencin a un grupo de 15 clientes sea
ms de una hora y 15 minutos?
c) Si el tiempo en que el cajero atiende a un grupo de 15 clientes excede las dos horas
entonces ste es despedido. Cul es la probabilidad de que esto ocurra?

Solucin:
Usando el hecho que el tiempo promedio de atencin para una muestra de tamao 15 es
normal con media 6, y desviacin estndar 645 . 0
15
5 . 2
, con la ayuda de MINITAB se
obtiene:

a) 9395 . 0 ) 7 ( X P
b) Un tiempo de atencin de 75 minutos a 15 clientes equivale a un tiempo promedio de
atencin de 75/15 = 5 minutos. Luego, hay que hallar 9395 . 0 0605 . 0 1 ) 5 ( X P
c) Un tiempo de atencin de 120 minutos a 15 clientes equivale a un tiempo promedio de
atencin de 120/15 = 8 minutos por cliente. Luego, hay que hallar ) 8 (X P 1 -
0.9990 = .001.

Ejemplo 6.3. Los pesos de las personas que suben a un ascensor se distribuyen
normalmente con media igual a 125 libras y desviacin estndar de 30 libras. Un grupo de
9 personas sube al ascensor:
a) Cul es la probabilidad de que el peso promedio del grupo sea menor de 100 libras?
b) El ascensor tiene una capacidad mxima de 1400 libras. Cul es la probabilidad de
que se exceda sta capacidad con un grupo de 9 personas?

Solucin:
a) El peso promedio de un grupo de 9 personas se distribuye normalmente con media 125
y desviacin estndar igual a 10
9
30
. Luego usando la secuencia CalcProbability
Distributions Normal en MINITAB se obtiene que 0062 . 0 ) 100 ( X P .
b) Decir que la suma de los pesos del grupo sea mayor que 1400, equivale a que el peso
promedio del grupo de 9 personas sea mayor que 1400/9 = 166.66 libras. Luego, la
probabilidad pedida ser 0011 . 0 9989 . 1 ) 66 . 166 ( 1 ) 66 . 166 ( X P X P .

6.3 Distribucin de la Proporcin Muestral

Si de una poblacin distribuida Binomialmente con probabilidad de xito p , se
extrae una muestra aleatoria de tamao n , entonces se puede mostrar que la media de X:
nmero de xitos en la muestra, es np y que su varianza es npq
2
. En
consecuencia la proporcin muestral
n
X
p tiene media p , y varianza
n
pq
. As, por el
Teorema del Limite Central, cuando el tamao de muestra es grande, entonces:

n
pq
p p
npq
np X
z

Se distribuye aproximadamente como una normal estndar. La aproximacin es
bastante confiable si tanto p n como q n son mayores que 5. Cuando p es cercano a 0 1
se debe tomar un tamao de muestra ms grande para mejorar la aproximacin.

Asmismo, como se estn aproximando probabilidades de una distribucin discreta
por probabilidades de una distribucin contnua, se debe aplicar un Factor de Correccin
por Continuidad de 1/2, antes de calcular las probabilidades. Este 1/2 se explica porque
un valor entero k de la variable discreta representa a todos los valores de la variable
continua que caen en el intervalo 2 1 , 2 1 k k . Cuando el tamao de muestra es bien
grande entonces el efecto de considerar el factor de correccin por continuidad es
insignificante.

Frmulas de aproximacin Normal a la Binomial.

Si X es una Binomial con parmetros n y p, entonces

i) )
5 . 5 .
( ) 5 . 5 . (
npq
np k
Z
npq
np k
P k X k P k X P

ii) )
5 . 5 .
( ) 5 . 5 . (
npq
np b
Z
npq
np a
P b X a P b X a P

iii) )
5 . 5 .
( ) 5 . 5 . (
npq
np b
Z
npq
np a
P b X a P b X a P

Similarmente se pueden definir frmulas para aproximar probabilidades para proporciones
muestrales.

Ejemplo 6.4. Segn reportes del centro nacional para estadsticas de salud, alrededor del
20 % de la poblacin masculina adulta de los Estados Unidos es obesa. Se elige al azar
una muestra de 150 hombres adultos en los Estados Unidos. Cul es la probabilidad de
que:

a) Haya a lo ms 25 personas obesas?
b) Haya ms de 22 pero menos de 35 obesos?
c) Haya por lo menos un 25% de obesos en la muestra?

Solucin:
Usando aproximacin normal a la Binomial se tiene que:
a) ( ) ( ) ( ) 1814 . 0 91 . 0
24
30 5 . 25
5 . 25 25 = < = |
.
|
\
|
< = < ~ s Z P Z P X P X P
b) ( ) ( ) = |
.
|
\
|
< <
= < < ~ < <

24
30 5 . 34
24
30 5 . 22
5 . 34 5 . 22 35 22 Z P x P X P
8123 . 0 0063 . 0 8186 . 0 91 . 0 53 . 1 Z P .
c) P(
)
24
30 5 . 37
( ) 5 . 37 ( ) 25 . Z P X P p P(Z>1.53) = 1-P(Z<1.53) =
1-.9730 = .0630.

EJERCICIOS

1. Los tiempos de espera en la fila de un proceso de matrcula de una universidad se
distribuyen normalmente con media 45 minutos y desviacin estndar de 20 minutos.
Se elige al azar una muestra de 16 estudiantes que se van a matricular.
a) Cul es la probabilidad de que el tiempo de espera promedio de la muestra sea
mayor de 60 minutos?
b) Cul es la probabilidad de que el tiempo de espera promedio de la muestra sea
mayor de 35 minutos pero menor de 55 minutos?

2. Los tiempos que se demoran los empleados de una fbrica en realizar una tarea de
ensamblaje se distribuyen normalmente con media de 12 minutos y desviacin
estndar de 6. Se toma una muestra de 10 empleados:
a) Cul es la probabilidad de que el tiempo promedio que usan los empleados para
terminar la tarea de ensamblaje sea mayor de 15, pero menor de 17 minutos?
b) Si los 10 empleados tardan menos de hora y media en terminar la tarea de
ensamblaje entonces la fbrica recibe un premio. Cul es la probabilidad de que
esto ocurra?

3. El contenido promedio de cereal en un paquete es de 450 gramos con una desviacin
estndar de 13 gramos. Si se tom una muestra de 35 paquetes
a) Cul es la probabilidad de que el promedio de esta muestra sea mayor a 455
gramos?
b) Cul es la probabilidad de que el promedio de sta muestra se encuentre entre 445
y 458 gramos?

4. Haga uso del programa MINITAB para:
a) Generar 60 muestras aleatorias de tamao 25 de una poblacin normal con media
60 y deviacin estandar 13.
b) Calcule la media para cada muestra generada en la parte a).
c) Calcule la desviacin estndar de los promedios calculados en la parte a)
d) Compare los resultados obtenidos en la parte b) y c) , con lo propuesto en la parte
a)

5. Un restaurant determin que en 1 de cada 5 almuerzos vendidos el cliente pide un
postre. Si en un da el restaurant realiza 600 ventas:
a) Calcular la probabilidad de ms de 150 clientes acompae su almuerzo con un
postre.
b) Calcular la probabilidad de que a lo ms 450 clientes acompaen su almuerzo con
un postre.

6. En la poca de invierno en los Estados Unidos se estima que el 90% de la poblacin
contrae enfermedades respiratorias, para una muestra de 350 cul es la probabilidad de
que ms de 315 podrian eventualmente sufrir algn tipo de enfermedades
respiratorias?.
CAPTULO 7
INFERENCIA ESTADSTICA
La Inferencia Estadstica comprende los mtodos que son usados para obtener
conclusiones de la poblacin en base a una muestra tomada de ella. Incluye los mtodos
de estimacin de parmetros y las pruebas de hiptesis. En la estimacin de parmetros la
idea es hallar un estimado del parmetro poblacional usando una muestra aleatoria tomada
de la poblacin. Uno espera que el estimado est lo ms cerca posible del parmetro. Por
ejemplo la media muestral estima la media poblacional.
La Estimacin de parmetros comprende a su e! la Estimacin Puntual" en donde
se estudian los diersos mtodos de encontrar estimadores y las propiedades ptimas que
deben tener stos" y la Estimacin por Intera!os de Con"ian#a$ en donde se estima un
parmetro usando un interalo centrado en un estimado del parmetro y de lon#itud i#ual a
dos eces el error de estimacin. El Error de estimacin depende del niel de confian!a
deseado" usualmente" $%" $& $$ por ciento.
En este te'to solamente se tratar el clculo de interalos de confian!a. Los diersos
mtodos de encontrar estimadores y las propiedades de estimadores ptimos son
discutidos en un curso de Estadstica (atemtica.
Una %iptesis Estad&stica es una afirmacin que se hace acerca de un parmetro
poblacional. Por ejemplo" el tiempo de ida promedio para una persona dia#nosticada con
cncer de pulmn es )*% das. El porcentaje de personas que faorecen a un candidato a la
presidencia es +%,.
La afirmacin que est establecida y que se espera sea recha!ada despus de aplicar
una pr'e(a estad&stica es llamada la hiptesis nula y se representa por H
o
.
La afirmacin que se espera sea aceptada despus de aplicar una pr'e(a estad&stica
es llamada la hiptesis alterna y se representa por H
a
.
Una pr'e(a estad&stica es una frmula" basada en la distribucin del estimador del
parmetro que aparece en la hiptesis y que a a permitir tomar una decisin acerca de
aceptar o recha!ar una hiptesis nula.
-l i#ual que una prueba de laboratorio para detectar cierta enfermedad" una prueba
estadstica no es cien por ciento se#ura y puede llear a una conclusin errnea. Por
ejemplo" no es frecuente pero puede ocurrir que una prueba de san#re para detectar una
enfermedad E concluya que una persona sana tiene la enfermedad E" o que una persona no
tiene la enfermedad E cuando en realidad si la tiene.

Ed#ar -cu.a /aptulo 0 Inferencia Estadstica
1ay dos tipos de errores que pueden ocurrir. El error tipo I$ que se comete cuando
se recha!a una hiptesis nula que realmente es cierta y el error tipo II que se comete
cuando se acepta una hiptesis nula que realmente es falsa.
El nie! de si)ni"icacin$ representada por " es la probabilidad de cometer error
tipo I" y por lo #eneral se asume que tiene un alor de .%& .%). 2ambin puede ser
interpretado como el rea de la re#in que contiene todos los alores posibles de la prueba
estadstica para los cuales la hiptesis nula es recha!ada.
La probabilidad de cometer error tipo II" representado por y al alor 1- se le
llama la potencia de la prueba. Una buena prueba estadstica es aquella que tiene una
potencia de prueba alta.
En este captulo" primero se discutir el clculo de interalos de confian!a y pruebas
de hiptesis para la media poblacional" para una proporcin y finalmente para la arian!a
de una poblacin. Lue#o se tratarn los interalos de confian!a y prueba de hiptesis para
la ra!n de dos arian!as poblacionales" para la diferencia de dos medias poblacionales y
por 3ltimo para la diferencia de dos proporciones.
7*+ In"erencias acerca de !a ,edia Po(!aciona! -arian#a conocida.*
4upon#amos que de una poblacin normal con media desconocida y arian!a
conocida
5
se e'trae una muestra de tama.o n" entonces de la distribucin de la media
muestral x se obtiene que6

n
x
Z

=
se distribuye como una normal estndar. Lue#o
= < < ) 7 8
5 9 5 9 a a
Z Z Z P
. :onde Z
95
es el alor de la normal estndar tal que el rea a la derecha de dicho alor es /5" como se
muestra en la si#uiente fi#ura6
;i#ura 0.). <elacin de 95 y Z
95
en la cura normal estndar
)=$
4ustituyendo la frmula de Z se obtiene6
1aciendo un despeje al#ebrico" se obtiene
P8
x
> Z
95
9
n
? ?
x
@ Z
95
9
n
7 A ) >
Botar que los dos e'tremos del interalo son aleatorios. 4i se toma una muestra aleatoria
y se calcula su media entonces los e'tremos del interalo dejan de ser aleatorios y ya no se
puede hablar de probabilidad sino de confian!a. :e lo anterior se puede concluir que un
Interalo de /onfian!a del )%% 8)>7 , para la media poblacional " es de la forma6
x
> C
95
9 n "
x
@ C
95
9 n
Usualmente A .)" .%& .%)" que corresponden a interalos de confian!a del $%" $& y $$
por ciento respectiamente. La si#uiente tabla muestra los C
95
ms usados.

Biel de
/onfian!a
Z
95
$% ).+=&
$& ).$+
$$ 5.&*

Usando ,INITA/ se pueden hallar interalos de confian!a y hacer prueba de hiptesis
para . Para esto se si#ue la secuencia Stat Basic Statistics 1-sample Z
E0emp!o 7*+ Un cardilo#o desea hallar un interalo de confian!a del $%, para el niel
colesterol promedio de todos los pacientes que presentan problemas cardiacos. Para esto
asume que la distribucin de los nieles de colesterol es normal con una desiacin
estandar A )D y usa la si#uiente muestra al a!ar de nieles de colesterol de 5% pacientes
con problemas cardiacos.
5)0 55D 55& 5=& 5D* 5)+ 5)0 55+ 5%5 5DD 5D&
5=5 5)$ 55) 5D= )$$ 5D+ 5=* 5)* 55=
So!'cin1
:espus de entrar los datos en la columna colesterol" la entana de dilo#o ser
completada como lo muestra la si#uiente fi#ura6
)&%

= <
< ) 7 8
5 9 5 9
Z
n
x
Z P
;i#ura 0.5. Eentana de dilo#o de +2samp!e 3 para el Ejemplo 0.)
Bo se escribe nada en la entanita Test mean. Lue#o hay que oprimir el botn Options
para entrar el niel de confian!a como lo muestra la si#uiente fi#ura6
-3n cuando en A!ternatie aparece not e4'a!$ ,INITA/ slo calcular el Interalo de
confian!a tal como aparece en la entana session1
One-Sample Z: colesterol
The assumed standard deviation = 13
Variable N Mean StDev SE Mean 90.0 % C
!olester "0 ""#.90 13.09 ".91 $ ""1.1"% "30.&'(
)&)
Interpretacin1 Hay un 90% de confianza de que el nivel de colesterol de todos los
pacientes con problemas cardacos cai!a entre ""1#1" y "$0#%&#
En la prctica si la media poblacional es desconocida entonces" es bien probable que la
arian!a tambin lo sea puesto que en el clculo de
5
interiene # 4i sta es la situacin"
y si el tama.o de muestra es #rande 8n F D%" parece ser lo ms usado7" entonces
5
es
estimada por la arian!a muestral s
5
y se puede usar la si#uiente frmula para el interalo
de confian!a de la media poblacional6
x
> Z
95
s9 n "
x
@ Z
95
s9 n
E0emp!o 7*5 4upon#amos que la distribucin de los puntajes en la prueba de
aproechamiento matemtico del /olle#e Goard de los estudiantes admitidos a cierta
uniersidad en )$$= se comportan normalmente. 4e e'trae una muestra de =% estudiantes
que tomaron la prueba y se obtienen los si#uientes datos6
Aprovech
&#' #&" &)9 )31 )10 &31 &&3
&#* #&# &#* &&9 )10 )"0 )00
&#) )"1 )9# &3# &1) #'0 &3'
&*" )0* )&) &*1 )"1 &"# &9*
&1# &1) &"3 &'9 &'9 &'3 )0"
&9* )"9 )10 &'9 )*1
1allar un interalo de confian!a del $&, para el puntaje promedio en la prueba de
aproechamiento de todos los estudiantes admitidos a la Uniersidad.
So!'cin1
Primero" debemos estimar la desiacin estndar muestral s. Esco#a Column Statistics
del men3 Ca!c y lue#o en la entana de dilo#o esco#a standard deviation y #uarde el
resultado en la constante s. En la entana session se obtendr6
Co!'mn Standard Deiation
4tandard deiation of aproech A &).*+5
)&5
4e#uidamente elija la secuencia StatBasic Statistics1-sample Z y complete la
entana de dilo#o 1-sample Z como si#ue6
;i#ura 0.D. Eentana de dilo#o de +2samp!e 3 para el Ejemplo 0.5.
Lue#o oprima el botn Options y en la entanita Con"idence Lee! entre $&. En la
entana session aparecer lo si#uiente6
One-Sample Z: aprovech
The assumed standard deviation = #1.'&1)
Variable N Mean StDev SE Mean 9#% C
a+rove!h *0 &)3.100 #1.'&" '."00 $&#).0"'% &'9.1)"(
Interpretacin1 Hay un 9'% de confianza de que la media del punta(e en la parte de
aprovec)amiento matem*tico de todos los estudiantes que tomaron el +olle!e ,oard
cai!a entre %'- y %&9 puntos#
)&D
Por otro lado" tambin se pueden hacer pruebas de hiptesis con respecto a la media
poblacional . Por coneniencia" en la hiptesis nula siempre se asume que la media es
i#ual a un alor dado. La hiptesis alterna en cambio" puede ser de un slo lado6 menor
mayor que el n3mero dado" de dos lados6 distinto a un n3mero dado.
E'isten dos mtodos para hacer la prueba de hiptesis6 el mtodo clsico y el
mtodo del HP-valueH.
En el mtodo clsico" se eal3a la prueba estadstica de Z y al alor obtenido se le
llama Z calculado 8Z
calc
7. Por otro lado el niel de si#nificancia " definido de antemano
determina una re#in de recha!o y una de aceptacin. 4i Z
calc
cae en la re#in de recha!o"
entonces se concluye que hay suficiente eidencia estadstica para recha!ar la hiptesis
nula basada en los resultados de la muestra tomada.
Las frmulas estn resumidas en la si#uiente tabla6
Caso I Caso II Caso III
Ho . /0 Ho . /0 Ho . /0
Ha . 00 Ha . 0 Ha . 10
Pr'e(a Estad&stica1
n
x
Z
o

=
Decisin1
2i Zcal 0 -Z

entonces 2i 3Zcal 31C
95
entonces 4i Zcal 1Z

entonces
se recha!a Ho se recha!a Ho se recha!a Ho
-qu Z
es el alor de la normal estndar tal que el rea a la derecha de dicho alor

es . <ecordar tambin que puede ser sustitudo por s4 cuando la muestra es
relatiamente #rande 8n F D%7. Los alores de ms usados son %.%) y %.%&. 4i se
recha!a la hiptesis nula al .%) se dice que la hiptesis alterna es altamente si#nificatia y
al .%& que es si#nificatia.
2rabajar slo con esos dos alores de simplificaba mucho el aspecto
computacional" pero por otro lado creaba restricciones. En la manera moderna de probar
hiptesis se usa una cantidad llamada IP-value6*
Nota. 5l 6P-value7 llamado el nivel de si!nificaci8n observado4 es el valor de al cual
se rec)azara la )ipotesis nula si se usa el valor calculado de la prueba estadstica# 5n
la pr*ctica un 6P-value7 cercano a 0 indica un rec)azo de la )ip8tesis nula# 9s un 6P-
value7 menor que #0' indicar* que se rec)aza la prueba estadstica#
)&=
Frm'!as para ca!c'!ar 7P2a!'e61 :epende de la forma de la hiptesis alterna
i7 4i H
a
. 1
o"
entonces P-value / Prob 8Z1Z
calc
7.
ii7 4i H
a
. 0
o"
entonces P-value / Prob 8Z0Z
calc
7.
iii7 4i H
a
.
o"
entonces P-value A "Prob 8ZFJZ
calcJ J7.
Los principales paquetes estadsticos" entre ellos (IBI2-G" dan los 6P-values7 para
la mayora de las pruebas estadsticas.
- tras de todo el te'to usamos el mtodo del 6P-value7 para probar hiptesis.
E0emp!o 7*8* En estudios preios se ha determinado que el niel de colesterol promedio
de pacientes con problemas cardacos es 55%. Un cardilo#o piensa que en realidad el
niel es ms alto y para probar su afirmacin usa la muestra del Ejemplo 0.). K1abr
suficiente eidencia estadstica para apoyar la afirmacin del cardilo#oL Mustificar su
contestacin.
So!'cin1
La hiptesis nula es H
o
. / 55% 8el niel de colesterol promedio es 55%7
La hiptesis alterna es H
a
. 1 55% 8el cardilo#o piensa que el niel promedio de
colesterol es mayor de 55%7.
La entana de dilo#o +2Samp!e 3 se completa como lo muestra la si#uiente fi#ura6
;i#ura 0.=. Eentana de dilo#o de +2samp!e 3 para el Ejemplo 0.D.
)&&
Lue#o se oprime el botn Options y en la entanita de a!ternatie se eli#e I#reater thanN
como se muestra a continuacin6
Bo importa lo que se escriba en Con"idence !ee!" porque ,INITA/ slo har la prueba
de hiptesis. 4i la hiptesis alterna es I?N" entonces se eli#e 7!ess t9an6" y si la alterna es
I N entonces se eli#e 7not e4'a!6*
Los resultados son los si#uientes6
One-Sample Z: colesterol
Test o, mu = ""0 vs - ""0
The assumed standard deviation = 13
90%
.o/er
Variable N Mean StDev SE Mean 0ound 1 2
!olesterol "0 ""#.900 13.09* ".90) """.1)# ".03 0.0"1
Interpretacin: 5l valor del 6P-value7 :el *rea a la derec)a de "#0$; es #0"1 menor
que el nivel de si!nificaci8n /#0'4 por lo tanto< se rec)aza la )ip8tesis nula y se
concluye de que si )ay evidencia estadstica de que el nivel de colesterol promedio de
los pacientes con problemas cardacos es mayor de ""0# = sea los resultados apoyan lo
que afirma el cardi8lo!o#
E0emp!o 7*: Un profesor de matemticas piensa que los datos de la muestra del Ejemplo
0.5 su#ieren que el puntaje promedio en la parte de aproechamiento matemtico ha
disminuido desde )$*%" ya que en ese a.o la media de todos los puntajes en
aproechamiento era de 0%% pts. K- qu conclusin se lle#ar despus de hacer una
prueba de hiptesisL /onsiderando que la ariabilidad de los puntajes no ha cambiado de
)$*% a )$$=.
)&+
So!'cin1
0
. A 0%% 8el puntaje promedio en )$$= si#ue siendo el mismo que
en )$*%7 y la hiptesis alterna es H
a
. 0 0%% 8el puntaje promedio disminuy7.
La entana de dilo#o +2Samp!e 3 deber ser completada como si#ue6
;i#ura 0.&. Eentana de dilo#o de +2samp!e 3 para el Ejemplo 0.=
Lue#o se oprime el botn Options y se eli#e !ess t9an en la entanita de A!ternatie. Los
resultados aparecern en la entana session de la si#uiente manera6
One-Sample Z: aprovech
Test o, mu = )00 vs 3 )00
The assumed standard deviation = #1.'&1)
90%
4++er
Variable N Mean StDev SE Mean 0ound 1 2
a+rove!h *0 &)3.100 #1.'&" '."00 &'3.&09 53."' 0.001
)&0
Interpretacin: 5l valor del 6P-value7 :el *rea a la izquierda de >$#"&; es #001 menor
que el nivel de si!nificaci8n / #0'4 por lo tanto se rec)aza la )ip8tesis nula y se
concluye de que si )ay evidencia estadstica de que el punta(e promedio de la parte de
aprovec)amiento )a disminudo desde 19&0#
7*5 In"erencias acerca de !a ,edia Po(!aciona! -;arian#a Desconocida.
4upon#amos que la poblacin es normal con media y arian!a desconocida y que se
desea hacer inferencias acerca de " basada en una muestra peque.a 8n ? D%7 tomada de la
poblacin. En este caso la distribucin de la media muestral x ya no es normal" sino que
si#ue la distribucin t de Student*
La distribucin t de Student es bastante similar a la Bormal Estndar" con la
diferencia que se apro'ima ms lentamente al eje hori!ontal. El parmetro de esta
distribucin es llamado #rados de libertad" y se puede notar que a medida que los #rados
de libertad aumentan" la cura de la t y la cura normal estndar se asemejan cada e!
ms. Los #rados de libertad #uardan relacin con el n3mero de datos que se usan para
calcular el estadstico y el n3mero de estimaciones de parmetros que aparecen en la
misma. Por cada estimacin de parmetro que aparece en la frmula del estadstico se
pierde un #rado de libertad.
;i#ura 0.+. <elacin entre la cura normal estndar y una cura t.
Propiedad1 4i de una poblacin Bormal con media y desiacin estndar se e'trae
una muestra de tama.o n" entonces el estadstico6
n
s
x
t

=
)&*
-4 -3 -2 -1 0 1 2 3 4
0.0
0.1
0.2
0.3
0.4
x
C
2
Curva Normal Estandar y T con 5 grados de libertad
ec!o "or Edgar #cuna
Curva Normal
Estandar
t con 5gl.
se distribuye como una t de 2tudent con n>) #rados de libertad. Esta e'presin es la base
para hacer inferencia estadstica para la media de una poblacin Bormal cuando la
arian!a no es conocida.
Un interalo de confian!a del )%% 8)>7 , para es de la forma6
8 x > t
8n>)"957
s9
n
" x @ t
8n>)"957
s9
n
7
donde s es la desiacin estndar muestral. -qu t
:n-14/";
es un alor de t con n>) #rados
de libertad y tal que el rea a la derecha de dicho alor es 95.
2ambin se pueden hacer las si#uientes pruebas de hiptesis6
Ho . /0 Ho . /0 Ho . /0
Ha . 00 Ha .
0 Ha . 10
Pr'e(a Estad&stica
2A
n
s
x
o

es una t con n>) #.l.
Decisin
4i ?cal 0 -t

entonces 4i J?cal JFt
/"
entonces 4i ?cal 1t

entonces
En ,INITA/" para hallar interalos de confian!a y hacer pruebas de hiptesis
acerca de la media" cuando la arian!a poblacional no es conocida" hay que se#uir la
secuencia Stat /asic Statistics+2samp!e t*
E0emp!o 7*< Los tiempos de sobreiencia 8en a.os7 de )5 personas que se han sometido
a un transplante de cora!n son los si#uientes6
D.) .$ 5.* =.D .+ ).= &.* $.$ +.D )%.= % )).&
1allar un interalo de confian!a del $$ por ciento para el promedio de ida de todas las
personas que se han sometido a un transplante de cora!n.
)&$
So!'cin1
-sumiendo que la columna ?iempo contiene los datos" la entana de dilo#o 1-sample t se
completar como se muestra en la ;i#ura 0.0. Botar que la entana de dilo#o es similar a
la de )>sample C.
- continuacin hay que oprimir el botn Options para entrar al niel de confian!a
deseado en la entanita Con"idence Lee! como se muestra en la ;i#ura 0.*.
Los si#uientes resultados aparecern en la entana session1
One-Sample T: tiempo
Variable N Mean StDev SE Mean 99% C
tiem+o 1" *.)#000 *.0*#99 1.1&)9' $1.1""*9% '.3))#1(
;i#ura 0.0. Eentana de dilo#o de +2samp!e t para el Ejemplo 0.&.
)+%
;i#ura 0.*. Eentana de dilo#o de Options para +2samp!e t*
E0emp!o 7*= Usando los datos del Ejemplo 0.&" un cardiocirujano afirma que el tiempo de
ida promedio de los transplantes es mayor que = a.os. K- qu conclusin se lle#ar
despus de hacer la prueba de hiptesisL
So!'cin1
0
. / = 8el tiempo de ida promedio de todos los transplantes es =
a.os7 y la hiptesis alterna es H
a
. F = 8el tiempo de ida promedio es mayor que = a.os7.
La entana de dilo#o +2samp!e t se completar como se muestra en la ;i#ura 0.$.
Lue#o hay que oprimir el botn Options y ele#ir I#reater thanN en la entanita
A!ternatie.
)+)
;i#ura 0.$. Eentana de dilo#o de +2samp!e t para el Ejemplo 0.+.
One-Sample T: tiempo
Test o, mu = * vs - *
99%
.o/er
Variable N Mean StDev SE Mean 0ound T 2
tiem+o 1" *.)#000 *.0*#99 1.1&)9' 1.#)#3# 0.&* 0."&)
Interpretacin: 5l valor del 6P-value7 :el *rea a la derec)a de 0#%@; es #"%- mayor que
el nivel de si!nificaci8n / #0'4 por lo tanto A= se rec)aza la )ip8tesis nula y se
concluye de que no )ay evidencia de que el tiempo promedio de vida despuBs del
transplante )aya aumentado de @ aCos#
7*8 In"erencia para Proporciones
(uchas eces estamos interesados en estimar la proporcin p 8o el porcentaje7 de
ocurrencia de un eento" por ejemplo el porcentaje de estudiantes que fuman en una
)+5
uniersidad" el porcentaje de otantes que faorecen a un cierto candidato" etc. Para esto
necesitamos definir una ariable aleatoria D que indique el n3mero de eces que ocurre el
eento en una muestra de tama.o n y con probabilidad de 'ito" p. 4e puede mostrar que
cuando el tama.o de muestra es #rande" tal que np F &" entonces el estadstico
n
pq
p p
Z

=
O
se distribuye apro'imadamente como una normal estndar. -qu p representa la
proporcin poblacional que se desea estimar" y
n
x
p = O
es la proporcin muestral. /uando
pO
es cercano a % a ) se debe tomar un tama.o de muestra ms #rande para que la
apro'imacin sea buena.
Un Interalo de confian!a apro'imado del )%% 8)>7 , para la proporcin
poblacional p ser6
Las frmulas para las pruebas de hiptesis sern como si#ue6
Ho . p/p0 Ho . p/p0 Ho . p/p0
Ha . p0p0 Ha . p p0 Ha . p1p0
Pr'e(a Estadistica -Apro>imada.1

n
q p
p p
Z
% %
%
7 8
=

Decisin
4i Zcal 0-Z

entonces 4i JZcal JFZ
/ "
entonces 4i Zcal 1Z

entonces
Para hacer inferencias para proporciones en ,INITA/" se si#ue la secuencia Stat
/asic Statistics + proportion.
)+D
n
q p
Z p
n
q p
Z p
O O
O "
O O
O
5 9 5 9
+
E0emp!o 7*7 En )$$% en un cierto pas" se report que dos de cada & personas pensaban
que debera incrementarse el poder nuclear. En una encuesta reciente hecha en )$$+ a
)55& personas se encontr que =0* de ellos pensaban que se debera aumentar el poder
nuclear. 1allar un interalo de confian!a del $% por ciento para la proporcin poblacional
en )$$+. KPiensa Ud. que hay eidencia de que la opinin de la #ente en )$$+ ha
cambiado con respecto a )$$%L Mustificar su contestacin.
So!'cin1
1ay que hallar un interalo de confian!a del $%, para la proporcin p" y probar la
si#uiente hiptesis6
= . 6
%
= p H
8la proporcin no cambi de )$$% a )$$+7.
= . 6 p H
a
8la proporcin cambi de )$$% a )$$+7.
El interalo de confian!a y la prueba de hiptesis se pueden hallar simultneamente. La
entana de dilo#o se completar como si#ue6
;i#ura 0.)%. Eentana de dilo#o de +2proportion para el Ejemplo 0.0.
Primero se eli#e la opcin S'mmari#ed Data. La opcin Samp!es in co!'mns se
usa cuando en una columna se entran las secuencias de 'itos y fracasos que realmente
ocurren en la muestra* Lue#o en la entanita N'm(er o" Tria!s" se entra el tama.o de la
muestra y en la entanita N'm(er o" s'ccesses se entra el n3mero de 'itos. :espus se
oprime el botn Options y se completa la entana de dilo#o que aparece en la ;i#ura
0.)).
)+=
Botar que se marca la opcin Use test and intera! (ased on norma!
distri('tion" porque estamos usando la prueba estadstica apro'imada por la normal.
;i#ura 0.)). Eentana de dilo#o que aparece al oprimir options en +2proportion*
Los si#uientes resultados aparecen en la entana session1
Test and CI for One Proportion
Test o, + = 0.* vs + not = 0.*
Sam+le 6 N Sam+le + 90% C 15Value 25
Value
1 *)' 1""# 0.390"0* $0.3&)"'0% 0.*131"'( 50.)0 0.*'*
Interpretacin: Eiendo que el 6p-value7 es #@&@ muc)o mayor que #0' se lle!a a la
conclusi8n de que no )ay suficiente evidencia para concluir que la proporci8n de
personas a favor de un incremento del poder nuclear )aya cambiado de 1990 a 199%#
Nota: 2i en una columna se introduce los Bxitos y fracasos entonces4 (IBI2-G
identifica el Bxito :2F++522; y fracaso :G9HIFJ5; se!Kn el orden alfabBtico4 o sea
fracaso es el valor de la variable que empieza con una letra que aparece antes en el
alfabeto#
)+&
E0emp!o 7*?* El director de un hospital afirma que el 5& por ciento de los nacimientos
que ocurren all son por cesrea. Un mdico que trabaja en dicho hospital piensa que ese
porcentaje es mayor. Para probar su afirmacin recolecta informacin de los 5&
nacimientos ocurridos durante una semana. Los datos son como si#uen6
Partos
Ces7rea normal !es7rea normal normal normal
normal !es7rea normal !es7rea normal !es7rea
normal normal normal normal normal !es7rea
normal normal !es7rea normal normal !es7rea
normal
K1abr suficiente eidencia estadstica para apoyar la afirmacin del mdicoL
So!'cin1
En este caso los datos son entrados en una columna llamada partos4 en consecuencia se
usar la opcin samp!es in co!'mns en la entana +2proportion* En este ejemplo" 'ito
ser que el parto sea normal y fracaso" que el parto sea por cesrea pues / est antes que
A. Lue#o las hiptesis deben ser planteadas as6
Ho. p A.0& 8el 0&, de los partos son normales y el 5&, por cesrea7
Ha. p ?.0& 8menos del 0&, de los partos son normales" o sea" ms del 5&, son por
cesrea7. La entana de dilo#o se completa como si#ue6
;i#ura 0.)5. Eentana de dilo#o de + proportion para el Ejemplo 0.*.
)++
El contenido de la entana session ser6
Test and Confidence Interval for One Proportion
Test o, + = 0.)# vs + 3 0.)#
Su!!ess = normal
Variable 6 N Sam+le + 9#.0 % C 15Value 25Value
+artos 1) "# 0.&'0000 $0.*9)1*#% 0.'&"'##( 50.'1 0."09
Interpretacin: Le acuerdo al 6P-value7 / 0#"09 1 #0' no se rec)aza la )ip8tesis nula#
Por lo tanto4 no )ay evidencia suficiente para concluir que lo que afirma el mBdico es
correcto#
7*: In"erencia acerca de !a ;arian#a Po(!aciona!*
Para hacer inferencia acerca de la arian!a de una poblacin Bormal se requiere
hacer uso de la distibucin Mi>/uadrado" la cul ser e'plicada breemente antes de
discutir la inferencia.
7*:*+* La Distri('cin @i2C'adrado
4ean D
14
D
"
4M4 D
n
obseraciones de una muestra de tama.o n de una poblacin
normal A 84
"
7. Entonces6
5
)
5
5
7 8
=
n
i
i
D D
se distribuye como una Mi>/uadrado 8
5
7 con n>) #rados de libertad. La distribucin Mi>
/uadrado no es simtrica" pero a medida que los #rados de libertad aumentan se a
obserando ms simetra. En la ;i#ura 0.)D se muestra la #rfica de una
5
con $ #rados
de libertad.
)+0
4e puede mostrar que el cuadrado de una normal estandari!ada es una Mi>/uadrado
con un #rado de libertad y que si se suman dos ariables Mi>/uadrado independientemente
distribuidas" entonces se obtiene otra Mi>/uadrado cuyos #rados de libertad es i#ual a la
suma de los #rados de libertad de los otros dos.
;i#ura 0.)D Prfica de una Mi>/uadrado con $ #rados de libertad
<ecordando que la frmula de la arian!a muestral es
)
7 8
5
5
=

n
i
s
D D
" se obtiene
que6
5
5
5
7 ) 8
s n
=
4e acostumbra usar la notacin
5
7 8m
para representar a una distribucin Mi>/uadrado con

m #rados de libertad.
Usos de !a @i2C'adrado
a7 Para hacer inferencias acerca de la arian!a poblacional. Es decir" para calcular
Interalos de /onfian!a y Prueba de hiptesis para la arian!a poblacional.
b7 Para hacer pruebas de Gondad de -juste. Q sea" para probar si un conjunto de datos
si#ue una distribucin pre>determinada.
c7 Para hacer anlisis de tablas de conti#encia.
En este captulo slo se discutir el primer uso" los otros dos se discutirn en el /aptulo *.
)+*
0 10 20 30 40 50 $0
0.00
0.05
0.10
x
%
&
x
'
(i-Cuadrado con ) grados de libertad
ec!o "or Edgar #cuna
7*:*5 Intera!os de Con"ian#a para !a ;arian#a Po(!aciona!
Partiendo de la si#uiente relacin" la cual puede ser fcilmente entendida con una
#rfica6
P8
95
5
?
5
5
7 ) 8
s n
?
) 5
5
9
7 A )>
:onde
95
5
y
) 5
5
9
representan los alores de una Mi>/uadrado con n>) #rados de
libertad" de tal manera que el rea a la i!quierda de dichos alores son 95 y ) > 95
respectiamente. 4e puede lle#ar a establecer que un interalo de confian!a del )%% 8)>7
, para la arian!a poblacional
5
de una poblacin normal es de la forma6
8
5
5 9 )
5
7 ) 8

s n
"
5
5 9
5
7 ) 8
s n
7
,INITA/ no tiene un comando u opcin para calcular un interalo de confian!a para la
arian!a" as que hay que calcular la frmula usando las opciones Calculator y Probability
Distributions del men3 Ca!c*
E0emp!o 7*A Los si#uientes datos representan espesor de la membrana del plasma
8medido en an#stroms7 de 5% especies de una planta6
*% $% *& *5 0& &* 0% *= *0 *) *0
+) 0D *= *& 0% 0* $& 00 &5
1allar un interalo de confian!a del $& , para la arian!a poblacional.
So!'cin1
En este caso n A 5% y A .%&. Lue#o el interalo de confian!a del $& , para
5
ser de la
forma6
8
5
$0& .
5
)$
s
"
5
%5& .
5
)$
s
7
En ,INITA/" la arian!a muestral s
5
puede ser calculada usando la secuencia
opcin STAT/asic StatisticsStore Descriptie Statistics$ y lue#o eli#iendo
;ariance en la opcin Statistics* Esto da 2
5
A )55.))+.
)+$
Los percentiles
.$0&
5
y
.%5&
5
de la Mi> /uadrado con )$ #rados de libertad pueden ser
calculados usando C9i2S4'are de la opcin Pro(a(i!itB Distri('tions del men3 CALC"
como lo muestra la si#uiente ;i#ura 0.)=.
;i#ura 0.)=. Eentana de dilo#o para calcular percentiles de una Mi>/uadrado.
Esto produce los si#uientes resultados6
Inverse Cumulative Distribution Function
Chi5S8uare /ith 19 D9
2$ 6 3= : ( :
0.0"# '.90&#"
Q sea"
.%5&
5
A *.$%+& y similarmente
.$0&
5
A D5.*&5D. Lue#o" el interalo de confian!a
del $& , para la arian!a poblacional ser 80%.+5&D" 5+%.&%07.
Por otro lado" tomando en cuenta que la desiacin estndar es la ra! cuadrada
positia de la arian!a" se puede usar la frmula anterior para hallar un interalo de
confian!a para la desiacin estndar poblacional .
Q sea" el interalo de confian!a del )%%8)>7, para la desiacin estndar
poblacional ser6
)0%
8
5
5 9 )
5
7 ) 8

s n
"
5
5 9
5
7 ) 8
s n
7
,INITA/ da este interalo de confian!a cuando si#uiendo la secuencia STAT/asic
Statisticsraphical Summary!
Para los datos del ejemplo se obtienen los resultados que aparecen en la si#uiente
;i#ura6
;i#ura 0.)&. <esultados de Crap9ica! S'mmarB para el Ejemplo 0.$
Interpretacin: Fn intervalo de confianza del 9'% para
es :&#@0$94 1%#1@0";# 2i se
cuadra ambos valores se obtiene el intervalo de confianza para la varianza4 y se
concluye de que )ay un 9'% de confianza de que la varianza del espesor de la
membrana del plasma de todas las especies caen entre -0#%"'$ y "%0#'0-#
7*:*8 Pr'e(a de %iptesis para !a ;arian#a Po(!aciona!
-sumiendo que la poblacin de donde se e'trae la muestra se distribuye
normalmente se pueden hacer las si#uientes hiptesis acerca de la arian!a poblacional6
1o 6
5
A
%
5
1o 6
5
A
%
5
1o 6
5
A
%
5
1a 6
5
?
%
5
1a 6
5

%
5
1a 6
5
F
%
5
Pr'e(a Estad&stica1
)0)
5
5
%
5
)
=
8 7 n
s
con n>) #.l.
Decisin1
4i
cal
5
?

5
entonces 4i
cal
5
?
95
5

cal
5
F
) 5
5
9
4i
cal
5
F
5
)

se recha!a 1o se recha!a 1o se recha!a 1o
2ampoco e'iste un comando para hacer esta prueba de hiptesis en ,INITA/.
E0emp!o 7*+D Usando los datos del ejemplo anterior" probar si hay suficiente eidencia
para concluir que la arian!a poblacional sea mayor que )%%. Usar un niel de
si#nificacin del & por ciento.
So!'cin1
4e desea probar6
1
o
6
5
A )%%
1
a
6
5
F )%%
El

alor

de la prueba estadstica ser 8)$78)55.))+79)%% A 5D.5%5% que comparado con

.$&
5

A D%.)=D& resulta ser menor. Lue#o" no hay eidencia suficiente para recha!ar la hiptesis
nula. -l & , de si#nificacin" la arian!a poblacional no parece ser mayor que )%%.
7*< Comparando !a arian#a de dos po(!aciones
4upon#amos que se tienen dos poblaciones normales con arian!as desconocidas
5
)
y
5
5
. 4i de la primera poblacin se toma una muestra de tama.o m que tiene una
arian!a muestral
5
)
s y de la se#unda poblacion se toma una muestra" independiente de la
primera" de tama.o n que tiene una arian!a muestral
5
5
s " se puede mostrar que la ra!n
5
5
5
5
5
)
5
)
s
s
se distribuye como una ; con m>) #rados de libertad en el numerador y n>) en el
denominador. Esta es la base para la prueba de ; de i#ualdad de arian!a entre dos #rupos
Las frmulas para las pruebas de hiptesis son como si#ue6
1o 6
5
5
5
)
= 1o 6
5
5
5
)
= 1o 6
5
5
5
)
=
1a 6
5
5
5
)
< 1a 6
5
5
5
)
1a 6
5
5
5
)
>
)05
Pr'e(a Estad&stica1
5
5
5
)
s
s
G = con m>) #.l. en el numerador y n>) #.l en el denominador
Decisin1
4i
cal
G ?

G entonces 4i
cal
G ?
5 9
G o
cal
G F
5 9 )
G 4i
cal
G F
)
G
,INITA/ hace pruebas de i#ualdad de arian!a de dos o ms #rupos. Para esto se
selecciona la opcin 5 ;ariances del submen3 /asic Statistics del men3 STAT* Qtra
posibilidad es ele#ir Test "or E4'a! ;ariances del submen3 ANO;A del men3 STAT*
E0emp!o 7*++ En el si#uiente ejemplo se trata de comparar las arian!as de los puntajes
de aproechamiento de los estudiantes de escuelas p3blicas y priadas. Los datos
recolectados son6
Est aprovech escuela
1 #'0 +;bli!a
" &3' +;bli!a
3 &*" +rivada
* )0* +;bli!a
# )&) +rivada
& &*1 +rivada
) )"1 +rivada
' &"# +rivada
9 &9* +;bli!a
10 &1# +;bli!a
11 &1) +;bli!a
1" &"3 +;bli!a
13 &'9 +rivada
1* &'9 +;bli!a
So!'cin1
Las hiptesis son las si#uientes6
1
o
6 Earian!a de los puntajes de estudiantes de escuela p3blica es i#ual a la arian!a de
puntajes de los estudiantes proenientes de escuela priada.
1
a
6 Las arian!as no son i#uales.
La entana de dilo#o de 5 ;ariances se completar como lo muestra la ;i#ura 0.)+.
Qprimiendo el botn Options se puede ele#ir el niel de confian!a y poner un ttulo a la
#rfica que aparecer6
)0D
;i#ura 0.)+. Eentana de dilo#o de 5 ariances para el Ejemplo 0.)).
La entana session mostrar los si#uientes resultados6
Test for Eual !ariances: aprovech versus escuela
9#% 0on,erroni !on,iden!e intervals ,or standard deviations
es!uela N .o/er StDev 4++er
+rivada & 3".*#"" ##.3*)) 1#'.3*)
+;bli!a ' "'."3&' *#.13*) 103.3'0
95Test $normal distribution(
Test statisti! = 1.#0% +5value = 0.&01
.evene<s Test $an= !ontinuous distribution(
Test statisti! = 0.30% +5value = 0.#9*
-dems aparece una #rfica mostrando los interalos de confian!a para cada una de las
desiaciones estndar y una comparacin de la ariabilidad de cada muestra" como aparece
en la ;i#ura 0.)0.
)0=
;i#ura 0.)0. Interalos de confian!a y bo'plots para comparar las arian!as.
Interpretacin: 5l 6P-value7 de la prueba de G es #%01 muc)o mayor que #0'4 lue!o se
acepta la )ip8tesis nula y se concluye que los punta(es en la prueba de aprovec)amiento
en las escuelas pKblica y privada tienen i!ual varianza# Le las !r*ficas se puede ver
que los 6boxplots7 de ambos !rupos tienen aproximadamente el mismo alar!amiento#
E0emp!o 7*+5* /omparar la arian!a de los promedios acadmicos de estudiantes
hombres y mujeres matriculados en una clase bsica de Estadstica. Los datos estn en el
archio )pase>$ en la p#ina de internet del te'to.
So!'cin1
Los datos estn #uardados en dos columnas una llamada )ombres y la otra mu(eres.
Eli#iendo la secuencia Stat/asic Statistics5 ariances se obtiene una entana de
dilo#o la cual se completa como aparece en la ;i#ura 0.)*.
)0&
;i#ura 0.)*. Eentana de dilo#o de 5 ;ariances para el Ejemplo 0.)5
Los resultados que se obtienen son como si#ue6
Test for Eual !ariances: hombre" mu#er
9#% 0on,erroni !on,iden!e intervals ,or standard deviations
N .o/er StDev 4++er
hombre 1" 0.*")001 0.&31*## 1.1&)"#
mu>er 1& 0."#*&"' 0.3#91#& 0.#9#*&
95Test $normal distribution(
Test statisti! = 3.09% +5value = 0.0*#
.evene<s Test $an= !ontinuous distribution(
Test statisti! = &.1&% +5value = 0.0"0
)0+
-dems aparece el anlisis #rfico mostrado en la ;i#ura 0.)$.
;i#ura 0.)$. Interalos de confian!a y bo'plots para comparar las arian!as del Ejemplo 0.)5
Interpretacin: +omo el Np-valueN de la prueba de G es 0#0@' menor que 0#0' se
rec)aza la )ip8tesis nula de i!ualdad de varianza4 y se concluye que las varianza de los
promedios acadBmicos de los )ombres y las mu(eres no son i!uales# Le las !r*ficas se
pueden ver que la distribuci8n de los promedios acadBmicos de las mu(eres es menos
variable que la de los )ombres!
7*= Comparacin entre dos medias po(!aciona!es 'sando m'estras
independientes
4upon#amos que se tienen dos poblaciones distribudas normalmente con medias
desconocidas
)
y
5"
respectiamente. 4e puede aplicar una prueba t de 2tudent para
comparar las medias de dichas poblaciones basndonos en dos muestras independientes
tomadas de ellas. La primera muestra es de tama.o m" con media x y arian!a
5
)
s y la
se#unda muestra es de tama.o n" tiene media
y
y arian!a
5
5
s .
)00
4i las arian!as de las poblaciones son i#uales 8
5 5
5
5
)
= = 7 entonces se puede
mostrar que6
n m
s
y x
t
p
) )
7 8 7 8
5 )
+

=

se distribuye como una t con 5 + n m #rados de libertad. En este caso la arian!a
poblacional
5
es estimada por una arian!a combinada de las arian!as de las dos
muestras tomadas" dada por la si#uiente frmula6
5
7 ) 8 7 ) 8
5
5
5
) 5
+
+
=
n m
s n s m
s
p
Un interalo de confian!a del )%%8)>7 , para la diferencia
)
>
5
de las medias
poblacionales ser de la forma6
n m
s t y x
p m n
) )
7 5 " 5 9 8
+
+
Las frmulas para las pruebas de hiptesis son las si#uientes6
1o 6
5 )
= 1o 6
5 )
= 1o 6
5 )
=
1a 6
5 )
< 1a 6
5 )
1a 6
5 )
>
Pr'e(a Estad&stica1
n m
s
y x
t
p
) )
+
=
con m@n>5 #rados de libertad
Decisin1

4i
cal
t ?

t entonces 4i
cal
t ?
5 9
t o
cal
t F
5 9 )
t 4i
cal
t F
)
t
Las frmulas se pueden #enerali!ar para probar hiptesis de las diferencias de las
dos medias es una cantidad especificada :
o
. En ,INITA/" para hallar interalos de
confian!a de diferencia de dos medias poblacionales y hacer prueba de hiptesis para
comparar dos #rupos se si#ue la secuencia STAT52samp!e t*
)0*
E0emp!o 7*+8* 4e desea comparar si los estudiantes de escuelas priadas y p3blicas tienen
i#ual rendimiento en la prueba de aproechamiento matemtico del /olle#e Goard. Los
datos aparecen en el Ejemplo 0.)).
So!'cin1
En el Ejemplo 0.)) se concluy usando la prueba de ; que que haba i#ualdad de
arian!as de las poblaciones de donde proenan las muestras. Lue#o la entana de
dilo#o 5 samp!e t se completa como se muestra en la ;i#ura 0.5%.
Botar que aparece seleccionada la opcin samp!es in one co!'mn porque los datos
de las dos muestras an en una misma columna 8aprovec)7" y en otra columna 8escuela7
an los alores que permiten identificar a qu muestra pertenece el dato. La opcin
Samp!es in di""erent co!'mns se usa cuando las dos muestras estn en columnas
separadas. Botar adems que la opcin Ass'me e4'a! ariances aparece marcada.
-l oprimir el botn Options se puede ele#ir el niel de confian!a" el alor de la
hiptesis que se quiere probar y la direccin de la hiptesis alterna tal como se muestra en
la ;i#ura 0.5)
;i#ura 0.5%. Eentana de dilo#o de 52samp!e t para el Ejemplo 0.)D.
)0$
;i#ura 0.5). Eentana de dilo#o de Options para 52samp!e t*
T$o-Sample T-Test and CI: aprovech" escuela
T/o5sam+le T ,or a+rove!h
SE
es!uela N Mean StDev Mean
+rivada & &'0.' ##.3 "3
+;bli!a ' &*#.0 *#.1 1&
Di,,eren!e = mu $+rivada( 5 mu $+;bli!a(
Estimate ,or di,,eren!e? 3#.'333
9#% C ,or di,,eren!e? $5"".#'*9% 9*."#1&(
T5Test o, di,,eren!e = 0 $vs not =(? T5Value = 1.3* 25Value = 0."0& D9 = 1"
0oth use 2ooled StDev = *9.&*&1
Interpretacin: 5l valor del 6P-value7 es #"0% mayor que el nivel de si!nificaci8n /
#0'4 por lo tanto A= se rec)aza la )ip8tesis nula y se concluye de que no )ay evidencia
de que los estudiantes de escuela pKblica ten!an un rendimiento distinto que los de
escuela privada en las pruebas de aprovec)amiento# 5l nKmero de !rados de libertad
de la t es 1"# Aotar que el intervalo de confianza del 9'% para la diferencia es :>""#%4
9@#$; que contiene a cero4 Bsta es otra manera de (ustificar que se acepta la )ip8tesis
nula#
)*%
Eli#iendo la opcin Crap9s de la entana de dilo#o 52Samp!e t se obtiene los bo'plots
de los dos #rupos" como aparece en la si#uiente fi#ura6
;i#ura 0.55. /omparacin de dos #rupos usando bo'plots.
Interpretacin: Ao se puede apreciar una marcada diferencia entre las medianas
:representadas por las lineas dentro de las ca(as;4 ni las medias :representadas por los
puntos; de los !rupos# Ia variabilidad de los dos !rupos tambiBn es bastante similar ya
que los dos 6boxplots7 tienen alar!amiento similar#
4i las arian!as de las poblaciones no son i#uales" entonces se usa una prueba
apro'imada de t" donde el n3mero de #rados de libertad es calculado apro'imadamente.
La prueba de t apro'imada est dada por6
n
s
m
s
y x
t
5
5
5
)
+
=
donde los #rados de libertad !l son apro'imados por la si#uiente frmula6
)*)
) )
7 8
5
5
5
)
5
5 )
+
=
n
c
m
c
c c
!l
con
m
s
c
5
)
)
= y
n
s
c
5
5
5
= .
E0emp!o 7*+:* Usando los datos del Ejemplo 0.)5" probar si las estudiantes mujeres
tienen mejor promedio acadmico que los arones.
So!'cin1
En este caso los datos de cada muestra estn en dos #rupos separados y ya se mostr en el
Ejemplo 0.)5 que ellos no tienen i#ual arian!a. La entana de dilo#o se muestra en la
;i#ura 0.5D. Botar que no se ha seleccionado la opcin Ass'me e4'a! ariances. Lue#o
se oprime el botn Options y se eli#e "#reater than$ en la entanita A!ternatie.
Los resultados que aparecen en la entana session sern6
T$o-Sample T-Test and CI: hombre" mu#er
T/o5sam+le T ,or hombre vs mu>er
N Mean StDev SE Mean
hombre 1" ".9#* 0.&31 0.1'
mu>er 1& 3."*9 0.3#9 0.090
Di,,eren!e = mu $hombre( 5 mu $mu>er(
Estimate ,or di,,eren!e? 50."9#"0'
9#% C ,or di,,eren!e? $50.)"#9)"% 0.13####(
T5Test o, di,,eren!e = 0 $vs not =(? T5Value = 51.*# 25Value = 0.1&& D9 = 1&
)*5
;i#ura 0.5D. Eentana de dilo#o de 52samp!e t para el Ejemplo 0.)=.
Interpretacin1 +omo el 6P-value7 es #0&$ 1 #0' aunque no por muc)o4 se concluye
que no )ay suficiente evidencia de que el promedio acadBmico de las mu(eres sea mayor
que el de los )ombres#
7*7 Comparando media de dos po(!aciones 'sando m'estras pareadas
En este caso se trata de comparar dos mtodos o tratamientos" pero se quiere que las
unidades e'perimentales donde se aplican los tratamientos sean las mismas" los ms
parecidas posibles" para eitar influencia de otros factores en la comparacin" como por
ejemplo" cuando se desea comparar dos medicamentos para curar una emfermedad es
bastante obio que el sujeto al cual se aplican los medicamentos influye sustancialmente
en la comparacin de los mismos. Qtro ejemplo es en educacin" supon#amos que se da
un seminario sobre un tpico en particular y queremos lue#o ealuar la efectiidad del
seminario. Es natural pensar que al#unos indiiduos entendern mejor el material que
otros" tal e!" debido a la preparacin que tienen de antemano. -s que lo ms justo es dar
una prueba antes y despus del seminario y comparar estos resultados indiiduo por
indiiduo.
4ea D
i
el alor del tratamiento I y O
i
el alor del tratamiento II en el i-Bsimo sujeto.
/onsideremos d
i
/ D
i
- O
i
la diferencia de los tratamientos en el i-Bsimo sujeto. Las
)*D
inferencias que se hacen son acerca del promedio poblacional
d
de las d
i
. 4i
d
A %"
entonces si#nifica que no hay diferencia entre los dos tratamientos.
En ,INITA/ eli#iendo la secuencia Stat/asic Statisticspaired t se hacen
inferencias para muestras pareadas. Gsicamente lo que se hace es obtener una columna
de diferencias y a sta columna es que se le aplica la opcin +2samp!e t test*
Un interalo de confian!a del )%%8)>7, para la diferencia poblacional
d
dada una
mestra de mata.o n es de la forma
8 d > t
8n>)
"
957
s
d
9
n
" d @ t
8n>)
"
957
s
d
9
n
7
donde d 4 es media de las diferencias muestrales d
i
y
)
7 8
5
n
d d
s
i
i
d
es la
desiacin estndar.
2ambin se puede hacer las si#uientes pruebas de hiptesis6
1o 6 d A % 1o 6 d A% 1o 6 d A%
1a 6 d ? % 1a 6 d % 1a 6 d F%
Pr'e(a Estad&stica1
t A
n
s
d
d
se distribuye con una t de 4tudent con n>) !l.
Decisin1
4i t?>t

entonces 4i J t JFt
95
entonces 4i 2cal Ft

entonces
Las frmulas pueden #enerali!arse para probar la hiptesis de que la diferencia
poblacional entre los dos tratamientos es :
o
.
E0emp!o 7*+< Un mdico desea inesti#ar si una dro#a tiene el efecto de bajar la presin
san#uinea en los usuarios. El mdico eli#i al a!ar )& pacientes mujeres y les tom la
presin" lue#o les recet la medicina por un periodo de + meses" y al final del mismo
nueamente les tom la presin. Los resultados son como si#uen6
4ujetos
) 5 D = & + 0 * $ )% )) )5 )D )= )&
-ntes 0% *% 05 0+ 0+ 0+ 05 0* *5 += 0= $5 0= +* *=
:espus +* 05 +5 0% &* ++ +* &5 += 05 0= +% 0= 05 0=
)*=
So!'cin1
4ea
d
que representa la media poblacional de las diferencias. Entonces6
La hiptesis nula es que H
o
6
d
A % 8La dro#a no tiene nin#3n efecto7
La hiptesis alterna es H
a
6
d
F% 8La dro#a tiene efecto" la presin antes de usar la dro#a
era mayor que despus de usarla7.
La entana de dilo#o paired t se completar como se muestra en la ;i#ura 0.5= y
oprimiendo OptionsE" se obtiene una entana de dilo#o que se completa como en la
;i#ura 0.5&. Los resultados en la entana session sern como si#ue6
Paired T-Test and CI: %ntes" Despues
Paired T-Test and Confidence Interval
2aired T ,or @ntes 5 Des+ues
N Mean StDev SE Mean
@ntes 1# )#.') &.'& 1.))
Des+uAs 1# &).0) &.&) 1.)"
Di,,eren!e 1# '.'0 10.9' ".'3
9#% C ,or mean di,,eren!e?$".)"% 1*.''(
T5Test o, mean di,,eren!e = 0 $vs - 0(? T5Value = 3.11 25Value =
0.00*
;i#ura 0.5=. Eentana de dilo#o de Paired t para el Ejemplo 0.)&
)*&
Interpretacin: Aotando que el 6P-value7 es #00@ menor que #0'4 se rec)aza la
)ip8tesis nula y se lle!a a la conclusi8n de que4 efectivamente la dro!a reduce la
presi8n san!uinea# Por otro lado4 se puede observar que el intervalo de confianza del
9'% para la diferencia de medias es 85.05" )=.**74 el cual no contiene a cero4 Bsta es
otra raz8n para rec)azar la )ip8tesis nula#
;i#ura 0.5&. Eentana de dilo#o que aparece al oprimir options en Paired t*
7*? Comparando dos proporciones
-l#unas eces se desea comparar la proporcin con que ocurre un mismo eento en
dos poblaciones distintas. Esto conllea a hacer inferencias acerca de la diferencia p
)
> p
5
.
4upon#amos que de una de las poblaciones sacamos una muestra de tama.o m" y que en
ella ocurre el eento D
)
eces" y de la se#unda poblacin sacamos una muestra de tama.o
n y que en ella ocurre el eento D
5
eces. 4e puede mostrar que el si#uiente estadstico6
n
q p
m
q p
p p p p
z
5 5 ) )
5 ) 5 )
7 8 7 O O 8
+

=
donde
m
D
p
)
)
O = "
n
D
p
5
5
O = " q
1
/ 1-p
1
y q
"
/ 1-p
"
se distribuye apro'imadamente como
una normal estndar cuando n y m son #randes tal que"
)
O p m y
5
O p n son mayores que &.
Un interalo de confian!a apro'imado del )%%8)>7 para la diferencia de las
proporciones ser de la forma6
n
q p
m
q p
z p p
5 5 ) )
5 9 ) 5 )
O O O O
+

)*+
4i la hiptesis nula 1o6 p
)
A p
5
es cierta" entonces el estadstico mencionado anteriormente
se conierte en6
7
) )
8
O O
5 )
n m
pq
p p
z
+
=
donde" p es estimado por
n m
D D
p
+
+
=
5 )
. Lue#o" las frmulas para pruebas de hiptesis
sern como si#uen6
1o 6
5 )
p p = 1o 6
5 )
p p = 1o 6
5 )
p p =
1a 6
5 )
p p < 1a 6
5 )
p p 1a 6
5 )
p p >
Pr'e(a Estad&stica1
7
) )
78 ) 8
5 )
n m
p p
p p
Z
+
=

Decisin1
4i
cal
Z ?

Z 4i
cal
Z ?
5 9
Z o
cal
Z F
5 9 )
Z 4i
cal
Z F
)
Z
entonces se recha!a 1o entonces se recha!a 1o entonces se recha!a 1o
En ,INITA/" para hacer inferencia acerca de la diferencia de dos proporciones se
si#ue la secuencia Stat/asic Statistics5 proportions*
E0emp!o 7*+= Un mdico ha su#erido que un ataque cardaco es menos probable que
ocurra en hombres que practican al#una clase de deporte. 4e eli#e una muestra al a!ar de
D%% hombres" de los cuales )%% practican al#una clase de deporte y de ellos slo )% han
sufrido un ataque cardaco. :e los 5%% que no practican deportes" 5& han sufrido ataques
cardacos. Probar si los resultados de las muestras apoyan lo su#erido por el mdico.
So!'cin1
La hiptesis nula es 1
o
6 p
)
A p
5
8las probabilidades de sufrir ataque cardaco son i#uales
para ambos #rupos7 y la hiptesis alterna es 1
a
6 p
)
? p
5
8la probabilidad de sufrir ataque
cardaco es menor en hombres deportistas7.
La entana de dilo#o se completar como se muestra en la ;i#ura 0.5+.
Botar que hay tres maneras de entrar los datos para hacer esta prueba estadstica.
)*0
El primer caso es cuando los datos estn en dos columnas" en la primera columna an las
secuencias de 'itos y fracasos y en la se#unda se identifica a que #rupo pertenece cada
uno de ellos y se usa Samp!es in one co!'mn*
El se#undo caso es cuando las secuencias de 'itos y fracasos de cada #rupo an en
columnas distintas y se usa Samp!es in di"erent co!'mns*
En el tercer caso se dan los totales de 'itos y los tama.os de cada #rupo y se usa
S'mmari#ed data. En el ejemplo se ha usado esta 3ltima opcin" er ;i#ura 0.5+.
;i#ura 0.5+. Eentana de dilo#o de 5 Proportions para el Ejemplo 0.)+
Qprimiendo OptionsE en la entana de dilo#o de la ;i#ura 0.5+ se obtiene6
)**
;i#ura 0.50. Eentana de dilo#o que aparece al oprimir options en 5 Proportions*
Botar que aparece marcado que la prueba estadstica usa un estimado combinado
para la proporcin poblacional. 4e obtienen los si#uientes resultados en la entana
session1
Test and CI for T$o Proportions
Sam+le 6 N Sam+le +
1 10 100 0.100000
" "# "00 0.1"#000
Di,,eren!e = + $1( 5 + $"(
Estimate ,or di,,eren!e? 50.0"#
9#% u++er bound ,or di,,eren!e? 0.03)#&&&
Test ,or di,,eren!e = 0 $vs 3 0(? 1 = 50.&& 25Value = 0."#&
Interpretacin: 5n los resultados aparece el estimado de la diferencia de las dos
proporciones4 el intervalo de confianza del 9'% para dic)a diferencia4 la prueba
estadstica para i!ualdad de proporciones y su 6p-value7# Eiendo que el 6P-value7 /
#"'% es muc)o mayor que #0' se concluye que no )ay evidencia suficiente para afirmar
que la probabilidad de sufrir un ataque cardiaco entre los )ombres deportistas es
menor que de la de los )ombres que no practican deportes# Aotar que el intervalo de
confianza contiene a cero4 lo cual es otra raz8n para aceptar la )ip8tesis nula#
E0emp!o 7*+7* Un profesor piensa que el porcentaje de estudiantes admitidos a la
Uniersidad durante el presente a.o es mayor para los solicitantes de escuela priada que
para los que ienen de escuela p3blica. El basa su afirmacin en una muestra de D%
solicitantes tomadas al a!ar. Los datos estn en el archio comp5pr. K1abr suficiente
eidencia para apoyar la afirmacin del profesorL
So!'cin1
4ea p
h
la proporcin de estudiantes admitidos entre todos los solicitantes de escuela
priada y p
e
la proporcin de estudiantes admitidos entre todas las solicitudes de escuela
p3blica. Entonces" las hiptesis nula y alterna sern6
e )
p p H = 6
%
8o tambin p
h
>p
e
A %7
e ) a
p p H > 6
8o tambin p
h
>p
e
F %7
La entana de dilo#o se completar como en la ;i#ura 0.5*.
Es importante hacer notar que en la entanita samp!es a la columna que contiene
los alores de la ariable que se desea comparar en este caso admisi8n y en la columna
S'(scripts an los #rupos" en este caso escuela#
)*$
/omo la ariable escuela tambin asume dos alores distintos" es posible
intercambiar las dos columnas" pero se estaran probando otras hiptesis" como por
ejemplo" comparar las proporciones de estudiantes de escuela p3blica entre los admitidos y
no admitidos.
;i#ura 0.5*. Eentana de dilo#o de 5 Proportions para el Ejemplo 0.)0.
-l oprimir el botn Options aparece una entana de dilo#o que se completa como si#ue6
;i#ura 0.5$. Eentana de dilo#o de options en 5 Proportions para el Ejemplo 0.)0.
)$%
Los resultados que aparecen en la entana session son los si#uientes6
Test and CI for T$o Proportions: admision" escuela
Event = si
es!uela 6 N Sam+le +
+riv 13 1) 0.)&*)0&
+ubl # 13 0.3'*&1#
Di,,eren!e = + $+riv( 5 + $+ubl(
Estimate ,or di,,eren!e? 0.3'0090
9#% lo/er bound ,or di,,eren!e? 0.10099*
Test ,or di,,eren!e = 0 $vs - 0(? 1 = ".11 25Value = 0.01'
B NCTE B The normal a++ro:imation ma= be ina!!urate ,or small sam+les.
9isher<s e:a!t test? 25Value = 0.0&1
Interpretacin: +omo el 6P-value7 / #001& es menor que #0' se rec)aza la )ip8tesis
nula y se concluye que )ay evidencia para apoyar lo que afirma el profesor4 el porcenta(e
de estudiantes solicitantes de escuela privada que son admitidos es mayor que el de las
escuelas pKblicas# Aotar que el intervalo de confianza para la diferencia de
proporciones no contiene a +5J=4 Bsta es otra raz8n para rec)azar la )ip8tesis nula#
)$)
E@ERCICIOS
Para conse)'ir !os arc9ios de datos accesar a !a si)'iente direccin en !a internet
FFF*mat9*'prm*ed'GHed)arGdatos*9tm! o mandar 'n mensa0e a! a'tor*
). Una empresa afirma que su nueo pro#rama de dieta hace que una persona pierda en
promedio 55 libras en & semanas" con una desiacin estndar de )%.5 libras. 4e toma
una muestra del peso perdido en & semanas por &+ participantes del pro#rama y se
obtiene un promedio de 5D.& libras. -l & por ciento de si#nificacin" K1abr
suficiente eidencia para concluir que la afirmacin de la empresa es ciertaL
5. El puntaje promedio en la parte matemtica del /olle#e Goard de los estudiantes
admitidos a pro#ramas de ciencias en in#eniera en )$$=" fue de +*& con una
desiacin estndar de *%. Un profesor uniersitario piensa que ese promedio ha
bajado en )$$0 porque en una muestra de )& estudiantes ele#idos al a!ar obtuo los
si#uientes resultados6
+5% +*D +0$ &*% &$D +$% +$& &&$ +%) 05% 0=& &=%
+*% &0$ +))
)$5
-l ) por ciento de si#nificacin" K1abr suficiente eidencia para apoyar lo que dice
el profesorL -sumir que la desiacin estndar para )$$0 es la misma que para )$$=.
D. Una compa.ia embotelladora afirma que sus botellas plsticas de refresco tienen una
capacidad de D%% mililitros. Un cliente de la compa.a piensa que ese n3mero est
sobreestimado" pus en una muestra de 05 botellas se obtuo un peso promedio de
5$& mililitros por botella. -sumiendo que la desiacin estndar poblacional de los
pesos es de D ml.
a7 K1abr suficiente eidencia para apoyar la afirmacin del clienteL Usar un niel
de si#nificacin del ),.
b7 K/ul es el alor P de la PruebaL Interpretar el resultado.
=. Un inesti#ador desea hallar un interalo de confian!a del $$, para el tiempo
promedio de superiencia 8en a.os7 para todos los pacientes sometidos a una
operacin cardiaca usando la si#uiente muestra de )5 pacientes6
)%.* )&.D *.) +.$ )&.= )%.$ )).= $.= )5.) )D.5 0.$ )D.D
/onsiderar que la desiacin estndar es D a.os.
&. Un interalo de /onfian!a del $&, para estimar el peso promedio de los recin
nacidos en un hospital basado en una muestra de tama.o D+ result ser 8=.%" )%.&7.
a7 1allar el peso promedio muestral.
b7 1allar un Interalo de /onfian!a del $%, para el peso promedio de todos los
recin nacidos en el hospital. Interpretar su resultado.
+. 4e#3n estudios mdicos se estima que el niel promedio de fosfato en un paciente de
dilisis es de & mili#ramos por decilitro 8m#9dl7. Un patlo#o obtuo las si#uientes
mediciones de nieles de fosfato en la san#re de )* pacientes de dilisis6
&.5 =.+ =.* &.0 +.5 +.) =.$ &.& =.$ +.% &.+ &.5
&.D &.0 +.5 &.* &.+ +.$
K:ar esta muestra tomada suficiente eidencia para comprobar lo que afirman los
estudios mdicos acerca de pacientes de dilisisL Usar un niel de si#nificacin del )
por ciento.
0. Los datos en el archio transp representan los tiempos de ida 8en a.os7 de )5
personas a las que se le efectu un transplante de cora!n. Probar" usando un & por
ciento de si#nificacin" que la arian!a de los tiempos es menor que 5%.
)$D
*. Los datos en el archio co!d representan dos #rupos. El primer #rupo consiste de )%
personas que co#ieron catarro y a quienes se les dio tabletas de ) #ramo de itamina /
= eces al dia. El se#undo es el #rupo /ontrol" que consiste de )5 personas a quienes
se les dio tabletas Placebo" que parecan y tenan sabor de itamina /. 4e continu el
e'perimento hasta que las personas se curaban del catarro y se re#istr el n3mero de
das que tardaron en curarse. KPiensa Ud. que hay suficiente eidencia para concluir
que tomar = #ramos diarios de itamina / reduce el tiempo de duracin del catarroL
-sumir que las poblaciones de donde proceden las muestras tienen i#ual arian!a.
$. Un 4ocilo#o desea probar si hay diferencia entre los salarios de mujeres y hombres
recin #raduados de la Escuela de Leyes. Para esto eli#e al a!ar * firmas de abo#ados
y en cada una de ellas re#istra el sueldo anual 8en miles7 de un hombre y mujer
abo#ado recin contratado. Los resultados estn en el archio !aFsa!. Probar que los
salarios de los abo#ados arones es mayor que el de las mujeres.
)%. Los datos en el archio compcancer*mtF representan dos #rupos. El primer #rupo
consiste de los tiempos de ida de )D personas despus que se les dia#nostic cncer
de Estma#o" y el se#undo los tiempos de ida de )0 personas a quienes se les
dia#nostic cncer de pulmn.
a7 -l & por ciento de si#nificacin" probar si la arian!a del tiempo de ida de los
que sufren de cncer de pulmn es menor que +%%%%.
b7 Probar si la arian!a de los tiempos de ida para ambos tipos de pacientes es la
misma
c7 Probar si el tiempo de ida promedio de los pacientes de pulmn es menor que el
de los pacientes de estma#o.
)). Los datos en el archio adiest$ representan los puntajes en un test de comprensin de
un idioma e'tranjero de )5 personas antes de asistir a un curso de erano y despus de
terminar el curso. 4e desea probar si el curso mejora el niel de comprensin del
idioma e'tranjero.
)5. El archio 9ospita! contiene informacin acerca de arias caractersticas de 5&
pacientes que in#resaron al hospital. Estas son6
d'rIstaB6 duracin de la estada en el hospital.
edad6 edad del paciente.
se>o6 se'o del paciente.
temp6 temperatura que tena al in#resar.
F(c1 contaje de #lbulos blancos.
anti(io6 si le pusieron antibitico o no.
(actIc'!6 4i le hicieron cultio de bacteria o no.
sericio6 El tipo de sericio que le hiceron" mdico o quir3#ico.
)$=
a7 Probar si hay i#ualdad de arian!a de la duracion de la estada en el hospital tanto
para hombres como mujeres.
b7 Probar si la estadia en el hospital es ms lar#a para los arones que para las
mujeres.
c7 Probar si la proporcion de pacientes que son interenidos quir3r#icamente es
menor para las mujeres que para los hombres.
)$&

CAPTULO 8

ANLISIS DE DATOS CATEGRICOS

En este captulo se discutiran tcnicas estadsticas para anilizar datos categoricos, los
cuales representan atributos o categoras. Primero se dicuten la relacin entre las variables
que definen las filas y las columna de las tablas y luego se estudian medidas que dan una
medida del grado de asociacin entre las dos variables categricas.
Finalmente se estudia la prueba de bondad de ajuste que permite ver si un conjunto de
datos sigue una distribucin conocida agrupando previamente los datos en categorias.

8.1 Pruebas de Independencia y Homegeneidad

Consideremos datos de dos variables cualitativas A y B como por ejemplo, nivel
econmico y partido poltico al cual pertenece.una persona. Tambin podran ser dos
variables cuantitativas que han sido categorizadas, como por ejemplo, Nivel de Educacin
y Nivel de salario. Como ya se haba visto, en la seccin 3.7.1 de este texto, los datos se
organizan en una tabla de doble entrada, llamada Tabla de contingencia, cuya forma
general es la siguiente:

VAR A
A
1
A
2
A
3
A
c
Total

VAR B

B
1
O
11
O
12
O
13
O
1C
R
1

B
2
O
21
O
22
O
23
O
2C
R
2

B
3
O
31
O
32
O
33
O
3C
R
3

B
r
O
R1
O
R2
O
R3
O
RC
R
r

Total C
1
C
2
C
3
C
c
N

Aqu O
ij
es el nmero de sujetos que tienen las caractersticas A
i
y B
j
a la vez.
R
i
(i = 1,,r) es la suma de la i-sima fila de la tabla. Es decir, es el total de sujetos que
poseen la caracterstica B
i
.
C
j
{j = 1,,c) es la suma de la j-sima columna de la tabla. Es decir, es el total de sujetos
que poseen la caracterstica A
j
.
n representa el total de observaciones tomadas.
La tabla anterior es llamada una tabla de contigencia r x c, porque tiene r filas y c
columnas.

Las tablas ms elementales son aquellas con dos variables, donde cada una de ellas
asume slo dos valores distintos, sta es llamada una tabla 2 x 2. Consideremos la
siguiente tabla:

A1 A2 Total
Edgar Acua Captulo 8 Anlisis de datos categricos 194
B1 8 6 14
B2 12 9 21
Total 20 15 35

La primera pregunta que uno se hace es si existir o no relacin entre las variables A y B,
es decir si A y B son o no independientes. A y B sern independientes si cada entrada de
la tabla es igual al producto de los totales marginales dividido entre el nmero de datos.
Esto es si cumple,

n
C R
O
j i
ij

para cada celda (i, j). Claramente, esto se cumple para la tabla anterior. Por ejemplo,
8 = (14)(20)/35. En consecuencia, no hay relacin entre las variables A y B.
Otra pregunta que se puede tratar de responder es s las proporciones de los valores de la
variable B en cada columna son iguales. Por ejemplo si A: El estudiante graduando
consigue trabajo, B: Sexo del graduando. Uno puede estar interesado en comparar la
proporcin de mujeres graduandas que consiguen trabajo con la proporcin de mujeres
graduandas que no consiguen trabajo.
Consideremos ahora la tabla:

A1 A2 Total
B1 10 6 16
B2 5 16 21
Total 15 22 37

Notar que los valores de la segunda fila estn en sentido contrario a los de la primera fila.
O sea hay un efecto en la variable A al cambiar los valores de B, en consecuencia aqu si
hay relacin entre las variables. Es bien obvio, tambin que la frmula de independencia
no se cumple para ninguna de las entradas. Por otro lado las proporciones de los valores de
la variable B no son los mismos en cada columna. Por ejemplo para B1 las proporciones son
10/15 versus 6/22.

Cuando consideramos que los valores de nuestra tabla han sido extrados de una
poblacin, entonces nos interesara probar las siguientes dos hiptesis:

i) La prueba de Independencia, que se efecta para probar si hay asociacin
entre la variables categricas A y B, y
ii) La prueba de Homogeneidad, que es una generalizacin de la prueba de
igualdad de dos proporciones, que se discuti en la seccin 7.8. En este caso se
trata de probar si para cada nivel de la variable B, la proporcin con respecto a
cada nivel de la variable A es la misma. Si A tiene 3 niveles y B tiene 2 niveles
entonces Ho : p

Por ejemplo, nos gustara saber si hay o no relacin entre el nivel econmico de una
persona y su afiliacin poltica. Tambin podramos estar interesados en determinar si hay
relacin entre el nivel de educacin y el nivel de salario. En ambos casos se usara una
prueba de independencia.

Por otro lado, tambin podramos estar interesados en probar si para cada nivel
econmico hay igual proporcin de personas en cada partido politico, o si para cada nivel
de educacin hay igual proporcin de personas en cada nivel de salario. En estos casos se
usara una prueba de homogeneidad.

Sin embargo; ambos tipos de hiptesis se pueden probar de la misma manera y el
procedimiento se resume en el recuadro que sigue:

Las hiptesis de independencia son:
Ho: No hay asociacin entre las variables A y B ( es decir hay independencia)
Ha: Si hay relacin entre las variables A y B

Las hiptesis de Homogeneidad son:

Ho: Las proporciones de cada valor de la variable B son iguales en cada columna
Ha: Al menos una de las proporciones para cada valor de la variable B no son iguales en cada
columna.
Ambas hiptesis se prueban usando una prueba de Ji-Cuadrado:

c
i
r
i ij
ij ij
E
E O
1 1
2
2
) (

donde O
ij
es la frecuencia observada de la celda que est en la fila i , columna j, y
n
C R
E
j i
ij
,
es la frecuencia esperada de la celda (i, j). La frecuencia esperada es aquella que debe ocurrir para
que la hiptesis nula sea aceptada.
La prueba estadstica se distribuye como una Ji-Cuadrado con (r-1)(c-1) grados de libertad.
La hiptesis Nula se rechaza si

2
1
2
cal
, donde es el nivel de significancia o
equivalentemente si el "P-value" es menor que 0.5.

Si la tabla de contingencia presenta pocas observaciones en algunas celdas (digamos
menos de 5), entonces la prueba no es confiable. Existen pruebas exactas para tablas de
contingencia, pero no se han considerado en este texto.

Para analizar tablas de contingencia en MINITAB se usa la opcin Tables del men
STAT, sta a su vez tiene un submen que contiene las opciones Cross Tabulation y Chi
Square. La opcin Cross Tabulacion se usa en dos situaciones. La primera de ellas es
cuando los datos estn dados en dos columnas, o sea como si hubiesen sido las
contestaciones a dos preguntas de un cuestionario. En el siguiente ejemplo se mostrar
este primer uso.

Ejemplo 8.1. Usando los datos del ejemplo 3.16, supongamos que deseamos establecer si
hay relacin entre las variables tipo de escuela superior y el resultado (aprueba o no
aprueba), de la primera clase de matemticas que toma el estudiante en la universidad,
basados en los resultados de 20 estudiantes.

Solucin:
Para la prueba de Independencia las hiptesis son:
H
o
: No hay relacin entre el tipo de escuela y el resultado obtenido en la primera clase de
Matemticas.
H
a
: Si hay relacin entre ambas variables.
Para la prueba de homogeneidad las hiptesis son:
H
o
: La proporcin de aprobados en la primera clase de matemticas es igual tanto para
estudiantes que provienen de escuela pblica como de escuela privada.
H
a
: La proporcin de aprobados en la primera clase de matemticas no es la misma para
ambos tipos de escuela.
La ventana de dilogo se completer como aparece en la siguiente figura:

Figura 8.1. Ventana de dilogo de la opcin Cross Tabulation del submen Tables del men
Stat

Los resultados aparecern en la ventana session como siguen:

Tabulated Statistics

Rows: escuela Columns: aprueba

si no All

priv 7 3 10
6.00 4.00 10.00

pbl 5 5 10
6.00 4.00 10.00

All 12 8 20
12.00 8.00 20.00
Chi-Square = 0.833, DF = 1, P-Value = 0.361
2 cells with expected counts less than 5.0
Cell Contents --
Count
Exp Freq

Interpretacin: Como el P-value es mayor que .05 se puede concluir que la hiptesis
nula de Independencia entre las variables es aceptada. O sea no hay asociacin entre el
tipo de escuela de donde proviene el estudiante y el resultado que obtiene en la primera
clase de matemticas.
Por otro lado, la hiptesis nula de homogeneidad tambin es aceptada y se concluye de
que, la proporcin de estudiantes que aprueban el curso de matemticas es la misma para
estudiantes de escuela pblica y escuela privada.

La segunda situacin donde Cross Tabulation es usada para hacer el anlisis de Ji-
cuadrado, es cuando los datos ya estn resumidos en tablas con filas y columnas, sta es la
manera usual como aparecen en los textos. En este caso, para que MINITAB pueda hacer
el anlisis se deben entrar los datos en 3 columnas. En una columna deben ir las
frecuencias observadas en cada celda de la tabla y en las otras dos columnas deben ir los
valores de las variables en filas y columnas que permitan identificar a qu celda le
corresponde la frecuencia absoluta entrada.

Ejemplo 8.2. Usar los datos del ejemplo 3.17, para tratar de establecer si hay relacin
entre el Sexo del entrevistado y su opinin.

Solucin: Las hiptesis correpondientes son:
Ho: No hay asociacin entre el sexo del entrevistado y su opinin, y
Ha: Si hay relacin entre las variables.

En este caso los datos son entrados en tres columnas: Conteo (frecuencia en cada celda),
Sexo y Opinin. La ventana de dilogo se completar como se muestra en la figura 8.2
Los resultados sern los siguientes:

MTB > Table 'sexo' 'opinion';
SUBC> Frequencies 'conteo';
SUBC> ChiSquare 2.


Rows: sexo Columns: opinin

si no abst All

male 10 20 30 60
10.00 20.40 29.60 60.00

female 15 31 44 90
15.00 30.60 44.40 90.00

All 25 51 74 150
25.00 51.00 74.00 150.00


Cell Contents --
Count
Exp Freq

I nterpretacin: Como el "P-value" es mayor que .05, la conclusin en este caso es que
la hiptesis nula es aceptada o sea no hay relacin entre el sexo y la opinin del
entrevistado.

Figura 8.2. Ventana de dilogo de cross tabulation para analizar el ejemplo 8.2.

Notar que la opcin Chi-square analysis aparece seleccionada. Como se ha elegido la opcin
above and expected count, la tabla de salida mostrar las frecuencias absolutas y las frecuencias
esperadas de cada celda, en la ventanita de frecuencies are in: se asigna la columna conteo.

Existe una ltima posibilidad de hacer el anlisis de la tabla de contingencia usando
la opcin Chi-Square Test. En este caso se supone que las columnas de la tabla son
entradas columna por columna en el worksheet de MINITAB.

Ejemplo 8.3. Para los datos del ejemplo 3.17, donde la tabla es:

SI NO Abst
Hombres 10 20 30
Mujeres 15 31 44

Primero se entran los datos en 3 columnas: SI, NO y ABST y luego se completa la ventana
de dilogo de Chi-Square Test como sigue:

Figura 8.3. Ventana de dilogo para la opcin Chi-Square Test del men Tables

Los resultados aparecern de la siguiente manera:

MTB > ChiSquare 'si'-'abst'.

Chi-Square Test
Expected counts are printed below observed counts

si no abst Total
1 10 20 30 60
10.00 20.40 29.60

2 15 31 44 90
15.00 30.60 44.40

Total 25 51 74 150

Chi-Sq = 0.000 + 0.008 + 0.005 +
0.000 + 0.005 + 0.004 = 0.022
DF = 2, P-Value = 0.989
Se puede notar que la presentacin de la tabla no es tan buena como en los dos casos
anteriores, pero si se presentan los clculos intermedios de la prueba de Ji-Cuadrado.

8.2 Medidas de Asociacin

Asumiendo que se rechaza la hiptesis Nula Ho: No hay relacin entre las variables
de la tabla, entonces el prximo paso es determinar el grado de asociacin de las dos
variables categricas, para ello se usan las llamadas medidas de asociacin. Existen un
gran nmero de estas medidas, nosotros slo consideraremos dos de ellas:

a) El Coeficiente de Contingencia:
Se define por
2
2
n
C , donde
2
es el valor calculado de la prueba de Ji-Cuadrado y n es el
nmero de datos.

El valor de C vara entre 0 y 1. Si C = 0, significa que no hay asociacin entre las
variables. El coeficiente de contigencia tiene la desventaja de que no alcanza el valor de
uno an cuando las dos variables sean totalmente dependientes. Otra desventaja es que su
valor tiende a aumentar a medida que el tamao de la tabla aumenta.

En general, un valor de C mayor que .30, indica una buena asociacin entre las
variables. Sin embargo hay que tomar en consideracin tambin el tamao de la tabla.
A diferencia de otros programas estadsticos como SPSS y SAS, MINITAB no calcula el
coeficiente de contingencia directamente. Se tiene que usar Calculator del men CALC.

Ejemplo 8.4. Calcular el coeficiente de contingencia para la siguiente tabla, donde se trata
de relacionar las variables: asistir a servicios religiosos y faltar a clases.

Rows: va a igl Columns: falta a

de vez e frecuent nunca All

de vez e 78 119 140 337
75.56 103.44 158.01 337.00

frecuent 106 90 296 492
110.31 151.01 230.68 492.00

nunca 68 136 91 295
66.14 90.55 138.31 295.00

All 252 345 527 1124
252.00 345.00 527.00 1124.00


La ventana de dilogo de Calculator se debe completar de la siguiente manera:

Figura 8.4. Ventana de dilogo de Calculator para hallar el coeficiente de contigencia del ejemplo
8.4

Data Display
coef-conting
0.267807

I nterpretacin:
No existe una buena asociacin entre asistir a la iglesia y faltar a clases.

b) El Coeficiente de Cramer:

Se calcula por

nt
V
2
, donde t es el menor de los nmeros r-1 y c-1, aqui r representa el nmero

de filas y c el nmero de columnas. Si V=0 entonces, no hay asociacin entre las variables.
El coeficiente de Cramer si alcanza un mximo de 1. Un valor de V mayor .30 indica ya
un cierto grado de asociacin entre las variables. En el ejemplo anterior el coeficiente de
Cramer es .1965, lo que reafirma que no existe buena asociacin entre las variables.

MINITAB no calcula el coeficiente de contingencia directamente. Se tiene que usar
Calculator del men CALC.

Ejemplo 8.5. Calcular el coeficiente de Cramer para la siguiente tabla, donde se trata de
relacionar las variables: sobrevivir a un ataque cardiaco y tener mascota (pet).

La ventana de dilogo de Calculator se debe completar de la siguiente manera:

Rows: status Columns: pet?

no si All

muere 11 3 14
5.93 8.07 14.00

vive 28 50 78
33.07 44.93 78.00

All 39 53 92
39.00 53.00 92.00


En este caso r=2 y c=2, luego t es el menor de r-1=1 y c-1=1, asi t=1

Figura 8.5. Ventana de dilogo de Calculator para hallar el coeficiente de Cramer del ejemplo
8.5.
Usando la secuencia Manip Data Display, se obtiene:

Data Display

V
0.310172

Por otro lado, el coeficiente de contingencia C result ser .3121

I ntrepretacin: Se concluye que existe buena asociacin entre tener mascota y sobrevivir
a un ataque cardaco.

8.3. Prueba de Bondad de Ajuste

Otra aplicacin de la prueba de Ji-Cuadrado, es la prueba de Bondad de Ajuste.
Aqu se trata de probar si los datos de una muestra tomada siguen una cierta distribucin
predeterminada. Los n datos tomados deben estar divididos en categorias.

Categora 1 2 3 K
Frecuencia
observada
Obs
1
Obs
2
Obs
3
Obs
k
N

Se asume que las probabilidades p
i
, de caer en la categora i deben ser conocidos.
o
: p
1 =
p
10
, p
2 =
p
20 = =
p
k =
p
k0
, es decir los datos siguen la
distribucin deseada, y la hiptesis alterna es H
a
: al menos una de las p
i
es distinta de la
probabilidad dada p
i0
.
La prueba estadstica es:

donde p
io
representa la proporcin deseada en la i-sima categora, Obs
i
la frecuencia
observada en la categora i y n es el tamao de la muestra. La prueba estadstica se
distribuye como una Ji-Cuadrado con k-1 grados de libertad donde, k es el nmero de
categorias. Si el valor de la prueba estadstica es mayor que
2
1

se rechaza la hiptesis
nula.

MINITAB no tiene un comando que lleve a cabo la prueba de bondad de ajuste,
pero sta se puede efectuar escribiendo algunas lineas de comandos.

Ejemplo 8.6. Los siguientes datos representan los nacimientos por mes en PR durante
1993. Probar si hay igual probabilidad de nacimiento en cualquier mes del ao. Usar un
nivel de significacin del 5%.

5435 4830 5229 4932 5052 5072 5198 5712
6126 5972 5748 5936
Solucin:
o
: Hay igual probabilidad de nacer en cualquier mes del ao (es
decir, p
1
= p
2
= = p
12
= 1/12 = .083). La hiptesis alterna es que no hay igual
probabilidad de nacer en cualquier mes del ao.
La ventana Session es como sigue:

MTB > let c3=sum(Obs)*p
MTB > let c4=(Obs-c3)**2/c3
MTB > let k5=sum(c4)
Esta es la prueba de Ji-Cuadrado para Bondad de ajuste
MTB > print k5

Data Display
K5 402.384

La ventana Data contendr lo siguiente:

k
i io
io i
np
np Obs
1
2
) (

El valor de
2
95 .
con 11 grados de libertad es 19.6751, se encuentra usando la opcin
Probability distribution del men Calc

I nterpretacin: Comparando el valor de la prueba estadstica con una Ji-Cuadrado con
11 grados de libertad y nivel de significacin del 5 por ciento que es 19.6751 se concluye
que se rechaza la hiptesis nula, es decir no hay igual probabilidad de nacimiento para
los meses.

Ejemplo 8.7. Segn el ltimo censo se sabe que la distribucin porcentual del estado
marital de las personas adultas en los Estados Unidos es como sigue:

Soltero Casado Viudo Divorciado
30 40 12 18

De acuerdo al censo de 1990, en Puerto Rico se tiene la siguiente distribucin de personas adultas
por estado marital:

Soltero Casado Viudo Divorciado
811,291 1279,628 198,553 189,346

Se desea establecer si la distribucin del estado marital en Puerto Rico, es igual a la de los
Estados Unidos. Usar un nivel de significacin del 5%.

Solucin:
La hipotesis nula Ho: Los datos tomados en Puerto Rico siguen la misma distribucin de
la de Estados Unidos, mientras que la hiptesis alterna Ha: Los datos no siguen la misma
distribucin.

Las ventanas Session y Data aparecern como sigue:

MTB > Let 'np' = sum(obs)*p
MTB > Let '(Obs-np)^2/np' = (obs-np)**2/np
MTB > Let k5 = sum('(Obs-np)^2/np')

Esta es la prueba de Ji-Cuadrado

MTB > print k5

Data Display

K5 270598

I nterpretacin: Claramente la prueba estadstica es mayor que una Ji-Cuadrado con 3
grados de libertad al nivel de significacin del 5 por ciento. Luego se rechaza la hiptesis
nula y se concluye que la distribucin del estado marital en Puerto Rico es distinta a la
de Estados Unidos.

Existen muchas otras pruebas de bondad de ajuste, especialmente pruebas
noparamtricas.

EJERCICIOS

1. La siguiente tabla muestra los resultados de un estudio para mostrar la relacin entre
asistir a la iglesia los domingos y la ausencia a clases para jovenes entre 13 y 18 aos:

Falta a Clases
Va a la Iglesia Nunca De vez en Cuando Frecuentemente
Nunca 91 68 136
De vez en Cuando 140 78 119
Frecuentemente 296 106 90

a) Usando la siguiente salida de MINITAB, probar la hipotesis de independencia
entre faltar a clases e ir a la iglesia los domingos. En la salida deden aparecer los
nombres de las filas y columnas

b) Cul es la frecuencia esperada de los que nunca van a la Iglesia y faltan
frecuentemente a clase?. Explicar cmo se calcula e interpretarlo.

2. El consumo de alcohol y nicotina (cigarrillos) durante el periodo de gestacin puede
afectar al beb. Se hizo un estudio en 452 madres y se las clasific de acuerdo a su
consumo de alcohol (medido en onzas por dia), y al de nicotina (medida en
miligramos por dia). Los datos estn en el archivo alcohoynico, que est disponible
en la pagina de internet del texto.

a) Usando la salida de MINITAB, probar la hiptesis de independencia entre el
consumo de alcohol y nicotina. En la salida deben aparecer los nombres de las
filas y columnas
b) Escribir la hiptesis de homogeneidad.
c) Cul es la frecuencia esperada de las madres que consumen 1 onza o ms por da
y no fuman. Cmo se calcula dicho valor e Interpretar el significado de dicho
valor.

3. En una ciudad se hace un estudio para relacionar los hbitos de fumar de los
estudiantes de escuela superior con las de sus padres. Los resultados que se obtienen
aparecen en la siguiente tabla:

Estudiante
Fuma
Estudiante
no Fuma
Ambos padres fuman 400 1380
Slo uno de los padres fuma 416 1823
Ninguno de los padres fuma 188 1168

a) Calcular la proporcin de estudiantes que fuman para cada uno de los grupos de padres.
Qu puede concluir de estos resultados?
b) Calcular las frecuencias esperadas de cada celda de la tabla si no hubiera relacin entre
los hbitos de fumar de los estudiantes con las de sus padres.
c) Probar la hiptesis de que no hay relacin entre los hbitos de fumar de los estudiantes
con los de sus padres.

4. La siguiente tabla reporta informacin acerca del sexo, status econmico de la mayora de
los pasajeros del TITANIC, un crucero britnico de lujo que se hundi en 1912.

Hombres Mujeres
Status Muri Sobrevivi Muri Sobrevivi
Alto 111 61 6 126
Medio 150 22 13 40
Bajo 419 85 107 101
Total 680 168 126 317

a) Hay suficiente evidencia para concluir que la proporcin de hombres que
murieron fue mayor que el de las mujeres?
b) Para cada uno de los sexos, probar si hay relacin entre el status econmico del
pasajero y si sobrevivi o n al hundimiento.

5. Las encuestas sobre asuntos sensitivos pueden dar diferentes resultados dependiendo
de como se hace la pregunta. Se hace una encuesta a 2400 personas para estimar el
uso de cocana. Se dividieron al azar a los encuestados en 3 grupos de 800 cada uno,
y se les pregunt si alguna vez haban usado cocana El primer grupo fue entrevistado
por telfono, y 21% dijeron que haban usado cocaina. El Segundo grupo fue
entrevistado personalmente, y 25% dijeron que haban usado cocana. En el tercer
grupo, donde se permiti una respuesta escrita annima, el 28% contestaron
positivamente a la pregunta.
Probar si hay efecto del mtodo de hacer la pregunta en la estimacin de la proporcin
de usuarios de cocana.

6. En una ciudad se hace una encuesta a 103 personas entre los 25 y 30 aos acerca de su
estado marital. Los resultados estn resumidos en la siguiente tabla:

Estado Marital Hombre Mujer
Nunca Casado 20 9
Casado 19 39
Viudo, Divorciado, Separado 9 7

a) Piensa Ud. que la distribucin del estatus marital es la misma para ambos
sexos?.
b) Si las distribuciones son diferentes, con quines se estn casando las mujeres?

7. En un estudio acerca de hbitos de fumar de los estudiantes de una universidad
realizado en 1990, se report que 40 % de los fumadores proceden de la facultad de
Administracin de Empresas, 30 % de la facultad de Artes y Ciencias, 25% de
Ingeniera, y un 5% de Agricultura. Un estudiante de la clase de Estadstica quiere
comprobar si esos porcentajes se mantienen an en 1998 para ello toma una muestra
de estudiantes fumadores de las distintas facultades de la universidad y obtiene los
siguientes resultados:

Empresas Artes y Ciencias Ingenieria Agricultura
45 40 22 8

Usar un nivel de significacin del 1%.

8. La siguiente tabla reporta la distribucin de la poblacin de un pas de acuerdo a su
nivel educacional y el nmero de alcaldes elegidos en cada una de las categoras en las
ltimas elecciones:

Nivel Educacional Pas Alcaldes electos
Elemental 30% 6
Secundaria 45% 15
Universitaria Incompleta 12% 27
Universitaria Completa 13% 30

Habr suficiente evidencia para concluir que la distribucin del nivel educacional de
los alcaldes electos sigue la misma distribucin del pas?. Usar un nivel de
significacin del 5%.

9. Un Socilogo piensa que hay ms probabilidad de que un crimen ocurra durante los
fines de semana. En particular l piensa que la probabilidad de que un crimen ocurra
el sbado es igual a la probabilidad de que un crimen ocurra el domingo, y stas a su
vez son el doble de probabilidad de que un crimen ocurra un dia de semana. Para
probar su afirmacin usa los siguientes datos de crmenes ocurridos en un mes
cualquiera del ao.

Lunes Mrtes Mircoles Jueves Viernes Sbado Domingo
18 23 19 16 21 42 37

Usar un nivel de significacin del 1%.

CAPTULO 9

REGRESIN LINEAL

En este captulo, primero se tratar la Regresin Lineal Simple, cuyos aspectos
descriptivos ya fueron considerados en la Seccin 3.8 del texto. La inferencia estadstica
en regresin simple es discutida en gran detalle. Luego se considerar el caso donde hay
ms de una variable predictora y se hacen las inferencias correspondientes. Finalmente se
discutir los mtodos de elegir las mejores variables predictoras que produzcan un modelo
confiable con el menor nmero de variables.

9.1 Regresin Lineal Simple

Supongamos que tenemos datos de dos variables cuantitativas continuas X e Y, las
cuales se relacionan siguiendo una tendencia lineal, que puede ser detectada haciendo un
diagrama de dispersion de los datos. Tendencia lineal significa que los puntos estn
dispuestos alrededor de una lnea recta, desvindose por una cantidad aleatoria de la
misma. Si adems, asumimos que se trata de predecir el comportamiento de Y usando X,
entonces el modelo de regresin lineal simple es de la forma:

X Y

Donde, Y es llamada la variable de respuesta o dependiente,
X es llamada la variable predictora o independiente,
es el intercepto de la lnea con el eje Y,
es la pendiente de la lnea de regresin y
es un error aleatorio, el cual se supone que tiene media 0 y varianza constante
2
.

y son parmetros desconocidos y para estimarlos se toma una muestra de
tamao n de observaciones (x
i
,y
i
). La variable Y se asume que es aleatoria, pero X no
necesariamente lo es.

El estimado de y el estimado
de son hallados usando el mtodo de

mnimos cuadrados, que se basa en minimizar la suma de cuadrados de los errores Q(,)
=

n
i
i i
n
i
i
x y e
1
2
1
2
) ( . Usando tcnicas de clculo diferencial para minimizar una
funcin de dos variables y se obtienen:

xx
xy
s
s

y x y

Edgar Acua Captulo 9 Regresin Lineal 211
las cantidades Sxx y Sxy aparecen definidas en la Seccin 3.8 del texto.
La ecuacin X Y

, es llamada la lnea de regresin estimada. Para obtener

esta lnea en MINITAB se sigue la secuencia: STATRegressionRegression. En la
salida, adems de la ecuacin, aparecen los valores de la prueba de t para probar hiptesis
acerca del intercepto y la pendiente. Tambin se muestra la tabla del Anlisis de Varianza
para regresin que permiten hacer inferencia estadstica acerca de la pendiente de la lnea
de regresin poblacional.

Ejemplo 9.1. Se desea hallar una lnea de regresin que permita predecir el precio de una
casa (Y) basado en el rea de la misma (X). Se recolectaron 15 datos:

Casa rea precio
1 3060 179000
2 1600 126500
3 2000 134500
4 1300 125000
5 2000 142000
6 1956 164000
7 2400 146000
8 1200 129000
9 1800 135000
10 1248 118500
11 2025 160000
12 1800 152000
13 1100 122500
14 3000 220000
15 2000 141000

La ventana de dilogo para Regression se completar como sigue:

Figura 9.1. Ventana de dilogo para regresin.
En la ventana Response se entra la variable de respuesta Y, en la ventana de Predictors se
entra la variable independiente X
El botn Results permite controlar los resultados que aparecern en la ventana session.
Hay 4 alternativas para controlar la salida segn se muestra en la Figura 9.2.

Figura 9.2. Ventana de dilogo que aparece al seleccionar el botn results en regression.

El botn Storage permite guardar algunas medidas importantes que aparecen en el anlisis
de regresin y que posteriormente se pueden usar, por ejemplo, en el anlisis de residuales.
La ventana de dilogo se muestra en la Figura 9.3.

Figura 9.3. Ventana de dilogo que aparece al oprimir el botn storage en regression

El efecto de oprimir los botones Graphs y Options se explicar en las siguientes
secciones. Al oprimir el botn OK en la ventana regression se obtendrn los siguientes
resultados:

MTB > Regress 'precio' 1 'area';
SUBC> Constant;
SUBC> Brief 2.

Regression Analysis

precio = 73168 + 38.5 area

Constant 73168 12674 5.77 0.000
area 38.523 6.391 6.03 0.000

S = 14118 R-Sq = 73.6% R-Sq(adj) = 71.6%

Analysis of Variance

Source DF SS MS F P
Regression 1 7241245891 7241245891 36.33 0.000
Residual Error 13 2591087442 199314419
Total 14 9832333333

Unusual Observations
Obs area precio Fit StDev Fit Residual St Resid
14 3000 220000 188737 7923 31263 2.68R

R denotes an observation with a large standardized residual

9.1.1. Interpretacin de los Coeficientes de Regresin:

Interpretacin del intercepto :

Indica el valor promedio de la variable de respuesta Y cuando X es cero. Si se tiene
certeza de que la variable predictora X no puede asumir el valor 0, entonces la
interpretacin no tiene sentido. En el ejemplo anterior, = 73,168 indicara que si la casa
no tiene rea, su precio promedio ser 73,158, lo cual no es muy razonable. Es ms
conveniente hallar una lnea de regresin que no tenga intercepto.

Interpretacin de la pendiente
:

Indica el cambio promedio en la variable de respuesta Y cuando X se incrementa en
una unidad. En el ejemplo anterior
= 38.5 indica que por cada pe cuadrado adicional

de la casa su precio aumentar en promedio en 38.5 dlares.

9.2 Inferencia en Regresin Lineal

Para poder hacer inferencia en regresin hay que asumir que los errores e
i
del
modelo se distribuyen en forma normal con media cero y varianza constante
2
y adems
que sean idependientes entre s. Se pueden hacer prueba de hiptesis y calcular intervalos
de confianza para el intercepto y de la pendiente de la lnea de regresin poblacional.
Asimismo se pueden establecer intervalos de confianza para el valor medio y para el valor
individual de la variable de respuesta dado un valor particular de la variable predictora.

9.2.1 Inferencia acerca de los coeficientes de regresin

Con respecto a prueba de hiptesis lo ms frecuente es probar H
o
: = 0 versus H
a
:
0 y H
o
: = 0 versus H
a
: 0. De aceptarse la primera hiptesis significara que la
lnea de regresin pasara por el origen, es decir, que cuando la variable predictora es cero,
entonces el valor promedio de la variable de respuesta es tambin cero. De aceptarse la
segunda hiptesis significara que la pendiente de la lnea de regresin es cero, es decir,
que la variable predictora no se relaciona linealmente con la variable de respuesta. En
ambos casos la prueba estadstica que se usa es una prueba de t de Student.

Slo discutiremos la prueba de hiptesis para la pendiente. La prueba estadstica
viene dada por:
xx
S
s
e s
t

( .

La cual se distribuye como una t con n-2 grados de libertad. Aqu
2
) (
1
2
n
y y
s
n
i
i i
es
la desviacin estndar del error, S
xx
es la suma de cuadrados corregida de la variable X y
s.e( )
es el error estndar de
. En el Ejemplo 9.1, s=14,118 y s.e(
)=
xx
s s / =6.391.

En MINITAB aparece el valor de la prueba estadstica y el p-value de la prueba,
l cual se puede usar para llegar a una decisin. Un "p-value" cercano a 0, digamos menor
que 0.05, lleva a la conclusin de rechazar la hiptesis nula. Si se rechaza la hiptesis
nula quiere decir de que de alguna manera la variable X es importante para predecir el
valor de Y usando la regresin lineal. En cambio si se acepta la hiptesis nula se llega a la
conclusin de que, la variable X no es importante para predecir el comportamiento de Y
usando una regresin lineal.

En el Ejemplo 9.1 el valor de la prueba estadstica de t es 6.03 y el P-value = .0000
por lo que se rechaza la hiptesis nula. Luego hay suficiente evidencia estadstica para
concluir que la variable rea de la casa puede ser usada para predecir el precio de la casa.

Tambin se pueden establecer intervalos de confianza para los parmetros de
regresin. Por ejemplo, un intrevalo de confianza del 100 (1-) % para la pendiente ser
de la forma:

xx
n
S
s
t
) 2 , 2 / (

MINITAB no da este intervalo de confianza. Hay que calcular el percentil de la t
de student usando la secuencia CalcProbability Distributionst. En el ejemplo
anterior, un intervalo del 95 % para la pendiente ser:

38.523 (2.1604)6.391

O sea, hay una confianza del 95 % de que la pendiente de la regresin poblacional caiga en
el intervalo (24.7150, 52.3301).

9.2.2 El Anlisis de Varianza para Regresin Lineal Simple.

El anlisis de varianza, que fue introducida por Fisher, consiste en descomponer la
variacin total de una variable en varias partes, cada una de las cuales es llamada una
fuente de variacin. En el caso de regresin, la descomposicin de la variacin de la
variable de respuesta Y es como sigue:

VAR. TOTAL DE Y = VAR. DEBIDA A LA REGRESIN + VAR. DEBIDA AL ERROR

Cada variacin es representada por una suma de cuadrados, definidas de la siguiente
manera:
Suma de Cuadrados Total = SST =

n
i
i
y y
1
2
) (
Suma de Cuadrados de Regresin = SSR =

n
i
i
y y
1
2
) (
Suma de Cuadrados del Error = SSE =
2
1
) (

n
i
i i
y y

Cada una de estas sumas de cuadrados tiene una distribucin Ji-Cuadrado, SSR tiene
una distribucin Ji-Cuadrado no central con 1 grado de libertad, SSE tiene una
distribucin Ji-Cuadrado con n-2 grado de libertad, y SST se comporta como una Ji-
Cuadrado no central con n-1 grados de libertad. Al dividir las sumas de cuadrados por sus
grados de libertad se obtienen los Cuadrados Medios. Si la hiptesis de que la pendiente
es 0 es cierta, entonces la divisin del cuadrado medio de la regresin por el cuadrado
medio del error se distribuye como una F con 1 grado de libertad en el numerador y n-2 en
el denominador. Luego, la hiptesis H
o
: = 0 se rechaza si el "p-value" de la prueba de F
es menor que .05. Los clculos se resumen en la siguiente tabla llamada tabla del anlisis
de varianza para la regresin lineal simple.

Fuentes de
Variacin
Grados de
Libertad
Suma de
Cuadrados
Cuadrados
Medios
F
Debido a la
regresin
1 SSR MSR=SSR/1 MSR/MSE
Debido al Error n-2 SSE MSE=SSE/n-2
Total n-1 SST
En el ejemplo anterior la prueba de F es 36.33 y el "P-value"=.0000, por lo que se rechaza
la hiptesis nula. Notar que el valor de la prueba de F = 36.33 = (6.03)
2
es el cuadrado de
la prueba t.

9.2.3 El Coeficiente de Determinacin

El coeficiente de determinacin, denotado por R
2
, es una medida de la bondad de
ajuste del modelo de regresin hallado. Se calcula por:

SST
SSR
R
2

donde, SSR representa la suma de cuadrados debido a la regresin, y SST representa la
suma de cuadrados del total. Puede demostrarse que el coeficiente de detreminacin es
simplemente el cuadrado del coeficiente de correlacin. El coeficiente de Determinacin
vara entre 0 y 1, aunque es bastante comn expresarlo en porcentaje. Un R
2
mayor del 70
% indica una buena asociacin lineal entre las variables, luego la variable X puede usarse
para predecir Y. Hay que tener presente que el R
2
es afectado por la presencia de valores
atpicos.

Tambin R
2
indica qu porcentaje de la variabilidad de la variable de respuesta Y
es explicada por su relacin lineal con X, mientras ms alto sea este valor mejor es la
prediccin de Y usando X.

Existen otras medidas para medir la precisin de la predicin de un modelo de
regresin, pero son discutidas en este texto.

9.2.4 Intervalos de Confianza para el valor medio de Y e Intervalo de Prediccin

A nivel poblacional para cada valor de la variable X existe una poblacin de valores
de Y, la cual se asume que se distribuye normalmente con cierta media y varianza
constante
2
. Lo que se busca es establecer un intervalo de confianza para dicha media
asumiendo que la relacin entre X e Y es lineal. Dado un valor X
o
de la variable X es
natural pensar, que un estimado del valor medio de las Ys es
o o
X Y

. Usando las
propiedades distribucionales de este estimado se puede establecer que un intervalo de
confianza del 100 (1-) % para el valor medio de todos los valores Y dado que X = X
0
es
como sigue:

Por otro lado muchas veces estamos interesados en estimar solamente un valor de Y
correspondiente a un valor dado X
0
. El estimado puntual ser el mismo
o
Y
, y usando
xx
n
S
x x
n
s t Y
2
0
) 2 , 2 / 1 ( 0
) ( 1

propiedades distribucionales de
o o
Y Y
se obtiene que un Intervalo de confianza del 100

(1-) % para el valor predicho de Y dado que X = X
0
es de la forma:

Este intervalo de confianza es llamado intervalo de prediccin.

Es ms riesgoso hacer predicciones para un slo valor que para un valor medio, por
esta razn el intervalo de prediccin de Y es ms ancho que el intervalo de confianza para
el valor medio.

El botn Options de la ventana regression permite hallar estos intervalos de
confianza. La Figura 9.4 muestra la ventana de dilogo que aparece cuando se oprime el
botn Options. En este ejemplo se trata de determinar el intervalo de confianza e
intervalo de prediccin para el precio de la casa cuando sta tiene un rea de 3,500 pies
cuadrados usando un nivel de confianza del 95 %. Para ello hay que seleccionar las
opciones Confidence limits y Prediction limits.

Figura 9.4. Ventana de dilogo que se obtiene al oprimir options en regression.

xx
n
S
x x
n
s t Y
2
0
) 2 , 2 / 1 ( 0
) ( 1
1


En la ventana session aparecer el siguiente resultado:

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI
1 207998 10861 ( 184536, 231461) ( 169518, 246479) X
X denotes a row with X values away from the center

Values of Predictors for New Observations

New Obs Area
1 3500

I nterpretacin: Hay un 95 % de confianza de que el valor medio de todas las casas de
3,500 pes cuadrado de rea caiga entre 184,536 y 231,461.
Hay un 95 % de confianza de que el valor de una casa de 3,500 pes cuadrados caiga
entre 169,518 y 2246,479.

Asmismo, la opcin Fitted line Plot del men de Regression permite hallar bandas
de confianza tanto para el valor predicho como para el valor medio de las Y. Para esto se
deben elegir las opciones Display Confidence Interval y Display Prediction Interval al
oprimir el boton Options. Con las bandas de confianza se pueden tener intervalos de
confianzas para cualquier valor dado de X. Para el presente ejemplo se obtiene:

Figura 9.5 Bandas de Confianza para el valor medio y el valor predicho de Y

Notar que las bandas de confianza son anchas en los extremos del eje X y angostas
en el centro del mismo. En realidad las bandas se van angostando cuando los valores de X
que se toman estn cerca del promedio x .

9.3 Anlisis de Residuales

Un residual
i
r es la diferencia entre el valor observado
i
Y y el valor estimado por la
linea de regresin
i
Y
, es decir,
i i i
Y Y r

. El residual puede ser considerado como el
error aleatorio
i
e observado. Tambin se acostumbra usar el Residual estandarizado, el
cual se obtiene al dividir el residual entre la desviacin estndar del residual, y el
Residual estudentizado "deleted", que es similar al anterior pero eliminando de los
clculos la observacin cuyo residual se desea hallar.

El anlisis de residuales permite cotejar si las suposiciones del modelo de regresin
se cumplen.
Se puede detectar:
a) Si efectivamente la relacin entre las variables X e Y es lineal.
b) Si hay normalidad de los errores.
c) Si hay valores anormales en la distribucin de errores.
d) Si hay varianza constante (propiedad de Homocedasticidad) y
e) Si hay independencia de los errores.

El anlisis de residuales se puede llevar a cabo grficamente o en forma analtica.
En este texto slo consideraremos un anlisis grfico, las cuales pueden obtenerse de dos
maneras. La primera manera es escogiendo el botn Graphs de la ventana de dilogo
Regression.


Figura 9.6. Ventana de dilogo que aparece al oprimir Graphs en Regression.
Hay tres posibles elecciones de residuales y hasta 5 plots de residuales que se pueden
hacer. Las ventanas de grficas aparecern en cascada como se muestra en la Figura 9.7.
En esta manera cada plot de residual sale en una ventana grfica separada. Hay cinco plots
que se usan:

1) Plot de Normalidad: Permite cotejar normalidad. Si los puntos estn bien cerca de
una lnea recta se concluye, que hay normalidad.
2) Histograma de Residuales: Tambin permite cotejar normalidad. Cuando el
histograma es simtrico, con un nico pico en el centro, se concluye que hay
normalidad.
3) Plot de Residuales versus los valores predichos (FITS): Se usa para detectar si hay
datos anormales, cuando hay datos que caen bastantes alejados, tanto en el sentido
vertical como horizontal. Tambin permite detectar si la varianza de los errores es
constante con respecto a la variable de respuesta.
4) Plot de Residuales versus el indice de la observacin: Es ms especfico para
detectar que observacin es un dato anormal. Si se usan residuales estandarizados,
entonces un dato con residual ms all de 2 -2 es considerado un "outlier" en el
sentido vertical.
5) Plot de Residuales versus la variable predictora: Es usado para detectar datos
anormales as como si la varianza de los errores es constante con respecto a la variable
predictora.


Figura 9.7. Plots de residuales mostrados en cascada.

La segunda manera de obtener los plots de residuales es, escogiendo la opcion Four
in One en el botn Graph de la ventana de dilogo de Regression como aparece en la
Figura 9.8.

Figura 9.8. Ventana de dilogo de la opcion graph de regression.


Figura 9.9. Plots de residuales en una misma ventana.

Aparecern en una misma pgina los cuatro primeros plots de la lista mencionada
anteriormente, como se muestra en la Figura 9.9.

Figura 9.10. Plots de residuales versus la variable area.

I nterpretacin: Los puntos del plot de normalidad no caen cerca de una lnea recta y en
el extreno superior se detecta un outlier. Similarmente, el histograma no es simtrico
con un pico central y tambin muestra un outlier en el extremo superior. En
conclusin, no hay normalidad de los errores. El plot de residuales versus el ndice de la
observacin muestra que la observacion 14 es un "outlier", pues el residual estandarizado
cae ms all de dos. El plot de los residuales versus los valores predichos muestra que la
varianza de los errores no es constante con respecto a la variable de respuesta, pues
tiende ha aumentar cuando el valor de la variable de respuesta aumenta.

Hay maneras de corregir algunas de las anomalas encontradas en el anlisis de residuales,
las cuales pueden ser ledas en un texto especializado de regresin.

9.4 Modelos No Lineales y Transformaciones

Cuando se construyen modelos de regresin el objetivo es conseguir un modelo con
R
2
alto que se aproxime a 100 %, asumiendo que no hay datos atpicos presentes. Si no se
desea incluir variables predictoras adicionales en el modelo, hay dos alternativas:

i) Tratar de usar modelos polinmicos de grado mayor o igual a dos, y
ii) Transformando las variables tanto la predictora como la de respuesta.

9.4.1 Regresin Cuadrtica

Un modelo cuadrtico es de la forma:

2
cX bX a Y

donde a, b y c son constantes a estimar. Usando la tcnica de mnimos cuadrados se
pueden obtener frmulas explcitas para calcular a, b y c.

En MINITAB, para obtener la ecuacin del modelo cuadrtico, hay que elegir la
opcin Quadratic en la ventana de dilogo de Fitted Line Plot que es una opcin del
men Regression. La ventana de dilogo se muestra en la Figura 9.11.


Figura 9.11. Ventana de dilogo para hacer una regresin cuadrtica.

Ejemplo 9.2. Ajustar un modelo cuadrtico para los datos del Ejemplo 9.1.

La ventana de dilogo se muestra en la Figura 9.11, y los resultados en la ventana session
sern:

Polynomial Regression

precio = 117591 - 8.29281 area + 1.13E-02 area**2
R-Sq = 76.5 %


SOURCE DF SS MS F P
Regression 2 7.52E+09 3.76E+09 19.4906 1.70E-04
Error 12 2.31E+09 1.93E+08
Total 14 9.83E+09

SOURCE DF Seq SS F P
Linear 1 7.24E+09 36.3308 4.25E-05
Quadratic 1 2.77E+08 1.43495 0.254083
Adems se obtiene el siguiente plot:


Figura 9.12. Regresin Cuadrtica para el Ejemplo 9.1.

I nterpretacin: El R
2
del modelo cuadrtico es 76.5% comparado con 73.6% del modelo
lineal (ver ejemplo 9.1), se ha ganado un 3% en confiabilidad, lo cual no es un aumento
sustancial y se puede seguir usando un modelo lineal ya que hacer inferencias con l es
mucho ms simple que con un modelo cuadrtico.

Tambin se pueden tratar modelos polinmicos ms generales (el modelo cbico
sigue despus del cuadrtico), pero debido a que stos presentan muchos cambios en la
tendencia no son muy adecuados. Otro problema es que se puede llegar a un modelo
sobreajustado, es decir a un modelo que tiene un R
2
perfecto porque pasa por todos los
puntos, pero que al momento de predecir fracasa terriblemente. Por ejemplo, si tenemos 8
observaciones, un modelo polinmico de grado 9 tendra un R
2
de 100%.

9.4.2 Modelos Nolineales que pueden ser transformados en lineales

La segunda alternativa para aumentar el R
2
consiste en usar modelos no lineales que
pueden ser convertidos en lineales, a travs de transformaciones tanto de la variable
independiente como dependiente.
Despus de hacer un plot para visualizar la relacin entre X e Y se puede elegir entre los
siguientes modelos linealizables:

Nombre del modelo Ecuacion del Modelo Transformacin Modelo Linealizado
Exponencial Y=e
X
Z=Ln Y X=X Z=Ln +X
Logartmico Y= +Log X Y=Y W=Log X Y= +W
Doblemente
Logartmico
Y=X
Z=Log Y W=Log X Z= Log +W

Hiperblico Y= +/X Y=Y W=1/X Y= +W
Inverso Y=1/( +X) Z=1/Y X=X Z= +X

Para predecir el valor de Y usando el modelo linealizado hay que aplicar la inversa
de la transformacin correspondiente al mismo.

Ejemplo 9.3. Los siguientes datos representan como ha cambiado la poblacion en Puerto
Rico desde 1930 hasta 1990.

Ao Poblacin

1930 1543913
1940 1869255
1950 2210703
1960 2349544
1970 2712033
1980 3196520
1990 3522037

Se desea establecer un modelo para predecir la poblacin de Puerto Rico en el ao 2000.

Solucin:
Observando el diagrama de puntos de poblacin versus aos que aparece en la figura de
abajo.

Figura 9.13. Crecimiento poblacional de Puerto Rico

El plot sugiere que podemos ajustar los datos al modelo exponencial:

Poblac=e
year

Y el modelo linealizado da como ecuacin:

Ln(Poblac) = - 11.4 + 0.0133 year

con un R
2
del 98.9%, mejorando el R
2
del modelo lineal que era de 98.7%. Para predecir
la poblacin para el ao 2000 se obtiene que:

2 . 15 6 . 26 4 . 11 2000 * 0133 . 0 4 . 11 ) ( Poblac Ln
luego 787 , 992 , 3
2 . 15
e Poblac . As, 3,992,787 ser la poblacin estimada de PR para
el ao 2000.

9.5 Regresin lineal mltiple

Frecuentemente una sola variable predictora no es suficiente para explicar el
comportamiento de la variable de respuesta. Por ejemplo, para explicar la nota que un
estudiante saca en un examen lo primero que uno piensa es en el nmero de horas que
estudio para tomarlo (X
1
), pero tambin puede influir el nmero de crditos que lleva (X
2
),
el nmero de horas semanales que mira televisin (X
3
), el nmero de horas que se divierte
(X
4
), el nmero de personas que viven con el o ella (X
5
), etc. La idea en regresin lineal
mltiple es usar ms de una variable predictora para explicar el comportamiento de la
variable de respuesta.

El modelo de regresin lineal mltiple con p variables predictoras X
1
,X
p
, es de la
siguiente forma:

p p
X b X b X b X b b Y ...
3 3 2 2 1 1 0

Las constantes
p
b b b ,..., ,
1 0
, llamadas coeficientes de regresin, se estiman usando el
mtodo de mnimos cuadrados, y usando n observaciones de la forma
ip i i i
x x x y ,..., , ,
2 1
,
donde n i ,..., 1 . La cantidad es una variable aleatoria con media 0 y varianza
2
.
Usando notacin vectorial y matricial se puede escribir una frmula explcita para los
coeficientes de regresin, pero esto cae ms all del alcance de este texto. Se har uso de
MINITAB para hallar dichos coeficientes.

Interpretacin del coeficiente de regresin estimado
j

El estimado del coeficiente de regresin poblacional b
j
, con p j ,..., 1 , se
representar por
j
. Este estimado indica el cambio promedio en la variable de respuesta
Y cuando la variable predictora X
j
cambia en una unidad adicional asumiendo que las
otras variables predictoras permanecen constantes.

Ejemplo 9.4 Se desea explicar el comportamiento de la variable de respuesta IGS (Indice
General del Estudiante admitido a la Universidad de Puerto Rico) de acuerdo a X
1

(puntaje en la parte de aptitud matemtica del College Borrad), X
2
(puntaje en la parte de
aprovechamiento matemtico) y X
3
(Tipo de Escuela; 1: Pblica, 2: Privada). La muestra
de 50 observaciones est disponible en el archivo igs de la pgina del texto.

Solucin:
La ventana de dilogo de Regression se completa como se muestra en la siguiente figura:

Figura 9.14. Ventana de dilogo para la regresin multiple del ejemplo 9.4

En la ventanita de Response se escribe la columna que contiene los datos de la variable
dependiente igs, y en Predictors, se escriben las columnas que contienen las variables
dependientes.

La ventana session cuando se ejecuta una regresin tendr un contenido como el que
sigue:

Regression Analysis: igs versus escuela, aprovech, aptitud

igs = 136 + 1.93 escuela + 0.197 aprovech + 0.0569 aptitud

Predictor Coef SE Coef T P
Constant 135.93 24.50 5.55 0.000
escuela 1.933 3.091 0.63 0.535
aprovech 0.19698 0.03152 6.25 0.000
aptitud 0.05688 0.03140 1.81 0.077

S = 10.8896 R-Sq = 56.0% R-Sq(adj) = 53.2%


Source DF SS MS F P
Regression 3 6952.0 2317.3 19.54 0.000
Residual Error 46 5454.8 118.6
Total 49 12406.9

Source DF Seq SS
escuela 1 52.9
aprovech 1 6510.1
aptitud 1 389.0

Unusual Observations

Obs escuela igs Fit SE Fit Residual St Resid
18 1.00 263.00 286.58 6.47 -23.58 -2.69RX
27 1.00 347.00 315.10 2.95 31.90 3.04R
48 2.00 285.00 307.09 2.76 -22.09 -2.10R

R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large influence.

I nterpretacin: El coeficiente de una variable predictora indica el cambio promedio en
la variable de respuesta igs cuando, se incrementa en una unidad la variable predictora
asumiendo que las otras variables permanecen constantes. En este ejemplo, el aumento
promedio en el igs es de 0.0569 por cada punto adicional en la parte de aptitud
matemtica, asumiendo que las otras dos variables permanecen constantes, asmismo el
aumento promedio en el igs es de 0.197 por cada punto adicional en la parte de
aprovechamiento matemtico asumiendo que las otras variables permanezcan constantes
y hay un aumento promedio de 1.93 en el igs cuando nos movemos de escuela pblica a
privada asumiendo que las otras variables permanecen constantes.

An cuando el R
2
es bajo del 56%, eligiendo el botn Options se puede predecir el
igs de un estudiante para hacer predicciones de la variable de respuesta Y para valores
dados de las variables predictoras.

Por ejemplo el igs estimado de un estudiante que obtuvo 600 puntos en la prueba de
aptitud y 750 en la prueba de aprovechamiento y que proviene de escuela privada ser
321.66, como lo muestra el contenido de la ventana session:

Predicted Values for New Observations

New
Obs Fit SE Fit 95% CI 95% PI
1 321.66 4.05 (313.51, 329.81) (298.28, 345.05)

Values of Predictors for New Observations

New
Obs escuela aprovech aptitud
1 2.00 750 600

Estimacin de la varianza
2

La estimacin de la varianza de los errores
2
es crucial para hacer inferencias
acerca de los coeficientes de regresin. Si en nuestro modelo hay p variables predictoras
entonces,
2
es estimada por:
MSE
p n
SSE
p n
Y Y
s
n
i
i i
1 1
)
(
1
2
2

Aqu, SSE representa la suma de cuadrados del error y MSE representa el cuadrado medio
del error.

9.6 Inferencia en regresin lineal mltiple

9.6.1 Prueba de hiptesis de que cada coeficiente de regresin es cero

En este caso la hiptesis nula es 0 :
0

j
H ( p j ,..., 1 ), o sea, la variable X
j
no es
importante en el modelo, versus la hiptesis alterna 0 :
j a
H , que significa que la
variable X
j
si es importante. La prueba estadstica es la prueba de t dada por:

)
( .
j
j
e s
t

MINITAB da el valor de la prueba estadstica y de los p-values correspondientes.
En el Ejemplo 9.4 los "P-values" de la prueba de t que son mayores que .05 sugieren que
las variables Escuela y aptitud no contribuyen al modelo, pues se acepta la hiptesis nula
de que dicho coeficiente es cero. La variable aprovechamiento si es importante en el
modelo ya que su P-value es menor que .05.

9.6.2 Prueba de hiptesis de que todos los coeficientes de regresin son ceros.

En este caso la hiptesis nula es 0 ... :
2 1 0

p
H , o sea, que el modelo
no sirve, versus la hiptesis alterna H
a
: Al menos uno de los coeficientes es distinto de
cero, o sea, al menos una de las variables del modelo sirve.

La prueba estadstica es la prueba de F que se obtiene al hacer la tabla del anlisis de
varianza para la regresin mltiple. La suma de cuadrados de Regresin tiene p grados de
libertad que es igual al nmero de variables predictoras en el modelo. La Suma de
Cuadrados del Total tiene 1 n grados de libertad y la suma de cuadrados del error tiene
1 p n grados de libertad. Si la hiptesis nula es cierta, entonces:

MSE
MSR
p n
SSE
p
SSR
F

1

Se distribuye como una F con p grados de libertad en el numerador y 1 p n grados de
libertad en el denominador.

En el Ejemplo 9.4, el "P-value" de la Prueba de F es 0.0000. Esto lleva a la
conclusin de que el al menos una de las variables predictoras presentes en el modelo es
importante para predecir el igs.

Por otro lado, el R
2
del 56% indica que el modelo no es muy confiable para hacer
predicciones, porque slo el 56% de la variacin en el igs es explicada por su relacin con
las variables predoctoras.

9.6.3 Prueba de hiptesis para un subconjunto de coeficientes de regresin

Algunas veces estamos interesados en probar si algunos coeficientes del modelo de
regresin son iguales a 0 simultnemente. Por ejemplo, si el modelo tiene p variables
predictoras y quisiramos probar si los k primeros coeficientes son ceros. O sea,
0 ... :
2 1 0

k
H . En este caso al modelo que tiene las p variables se le llama
el modelo completo y al modelo que queda, asumiendo que la hiptesis nula es cierta, se
le llama modelo reducido. Para probar si la hiptesis nula es cierta se usa una prueba de
F que es llamada F-parcial. La prueba de F parcial se calcula por:

) (
) ( ) (
1
) (
) ( ) (
C MSE
k
R SSR C SSR
p n
C SSE
k
R SSR C SSR
F
p

Donde, SSR(C) y MSE(C), representan la suma de cuadrados de regresin y el cuadrado
medio del error del modelo completo, respectivamente, y SSR(R) es la suma de cuadrados
de regresin del modelo reducido. Si
p
F es mayor que
1
F , usando k grados de libertad
para el numerador y 1 p n para el denominador, entonces se rechaza H
o
en caso
contrario se acepta.

MINITAB no tiene una opcin que haga directamente la prueba de F parcial. Hay
que calcular los dos modelos de regresin y usar las sumas de cuadrados de regresin de
ambos modelos para calcular la prueba de F parcial usando Calculator.

Ejemplo 9.5. Usando los datos del Ejemplo 9.4, probar la hiptesis 0 :
2 1 0
H ,
versus Ha: al menos uno de los dos:
1
o
2
no es cero. Interpretar sus resultados.

Solucin:

0 :
2 1 0
H (significa que las variables: aptitud y aprovechamiento no influyen
simultneamente en la prediccin del igs).

H
a
: al menos uno de los dos:
1
o
2
no es cero (significa que al menos una de las dos
variables influye en el comportamiento de Y)

En este caso p=3, k=2, p-k = 1, y de la tabla del anlisis de varianza del Ejemplo 9.4,
SSR(C) = 6952 y MSE(C) = 118.6. Para obtener SSR(R), se hace la regresin simple
entre Y = igs y X = aptitud y de la tabla del anlisis de varianza se obtiene SSR(R) = 203.
Luego la prueba de F parcial ser igual a 6952 203 2 118.6 29.128
p
F . Por otro
lado, para obtener la F con 2 g.l en el numerador y 46 en el denominador se usa la
secuencia calcprobability distributionsF y se obtiene una 1996 . 3 F . Luego, se
rechaza la hiptesis nula y se concluye, que al 5% de significacin hay suficiente evidencia
estadstica para afirmar que al menos una de las dos variables (aptitud o aprovechamiento)
influye en el comportamiento de la variable de respuesta Y.

En forma similar a la regresin lineal simple se pueden hacer predicciones de la variable
de respuesta asignando valores adecuados a las variables predictoras. Asmismo, las
grficas que se usan para analizar los residuales pueden ser obtenidas usando la secuencia
statregressionregression. Luego escoger opcin Graph en la ventana de dilogo de
Regresin. Escoger la opcin Four in one. Para el Ejemplo 9.4 las grficas resultantes
son las siguientes:
Standardized Residual
P
e
r
c
e
n
t
3.0 1.5 0.0 -1.5 -3.0
99
90
50
10
1
Fitted Value
S
t
a
n
d
a
r
d
i
z
e
d

R
e
s
i
d
u
a
l
340 320 300
3.0
1.5
0.0
-1.5
-3.0
Standardized Residual
F
r
e
q
u
e
n
c
y
2.4 1.2 0.0 -1.2 -2.4
16
12
8
4
0
Observation Order
S
t
a
n
d
a
r
d
i
z
e
d

R
e
s
i
d
u
a
l
50 45 40 35 30 25 20 15 10 5 1
3.0
1.5
0.0
-1.5
-3.0
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
Plot de Residuales para IGS

Figura 9.15. Anlisis de Residuales para el Ejemplo 9.4
I nterpretacin: El plot de normalidad y el histograma de los residuales indican que hay
algo de normalidad en la distribucin de los errores, debido a que los puntos no se alejan
mucho de una lnea recta en el primer plot y algo de simetra que se puede ver en el
segundo. Sin embargo es clara la presencia de los outliers en ambos extremos, lo cual
afecta la condicin de normalidad.
El plot de residuales versus el orden de la observacin sugiere que las observaciones 18,
27 y 48 son "outliers" en el sentido vertical, estos "outliers" tambin se pueden notar en
el plot de residuales versus valores predichos ("fits").
El plot de residuales versus valores predichos sugiere que la varianza de los errores es
constante, porque no hay un patrn definido que siguen los puntos.

9.7 Seleccin de variables en Regresin Mltiple

Una buena propiedad de un modelo de regresin lineal es que permita explicar el
comportamiento de la variable de respuesta Y lo mejor posible, haciendo uso del menor
nmero de variables predictoras posibles, esta propiedad es llamada parsimona.

Existen dos mtodos generales de lograr este objetivo: los mtodos stepwise y el
mtodo de los mejores subconjuntos.

9.7.1 Los metodos "stepwise"

Comprenden los siguientes mtodos:

Mtodo de eliminacin hacia atrs (Backward Elimination): Aqui en el paso
inicial se incluyen en el modelo a todas las variables predictoras y en cada paso se elimina
la variable cuyo "P-value" es ms grande para la prueba de t o cuyo valor de la prueba t
menor que 2 en valor absoluto. Una variable que es eliminada del modelo ya no puede
volver a entrar en un paso subsiguiente. El proceso termina cuando todos los "P-values"
son menores que .05, o cuando todos los valores de la prueba t son mayores que 2 en valor
absoluto. Lo anterior tambin se puede hacer con una prueba F-parcial, puesto que F = t
2

(cuando el numerador tiene grados de libertad igual a 1). Luego, el mtodo terminar
cuando todas las F son mayores que 4.

Mtodo de Seleccin hacia adelante (Forward Selection): Aqui en el paso inicial
se considera una regresin lineal simple que incluye a la variable predictora que da la
correlacin ms alta con la variable de respuesta. Luego se incluye una segunda variable
en el modelo, que es aquella variable dentro de las no incluidas an, que da el "P-value"
ms bajo para la prueba t o el valor de la prueba de t ms grande en valor absoluto. Y as
se siguen incluyendo variables, notando que una vez que sta es incluida ya no puede ser
sacada del modelo. El proceso termina cuando los "P-values" para la prueba t de todas las
variables que an no han sido incluidas son mayores que .05 la prueba de t es menor que
2 para dichas variables. Si se usa la prueba de F, entonces el proceso termina cuando
todas las F son menores que 4.

Mtodo Paso a Paso ("Stepwise"): Es una modificacin del mtodo Forward,
donde una variable que ha sido incluida en el modelo en un paso previo puede ser
eliminada posteriormente. En cada paso se cotejan si todas las variables que estn en el
modelo deben permanecer alli. La mayora de las veces, pero no siempre, los tres mtodos
dan el mismo resultado para el mejor modelo de regresin.

En MINITAB, la opcin Stepwise del submen Regression selecciona el mejor
modelo de regresin usando los mtodos "Stepwise". En el siguiente ejemplo se muestra
el mtodo "stepwise" paso por paso y luego directamente usando la opcin stepwise.

Ejemplo 9.6. El conjunto de datos grasa contiene 13 variables que sirven para predecir
el porcentaje de grasa en el cuerpo humano.

Columna Nombre
C1 grasa VARIABLE DE RESPUESTA
C2 edad en aos
C3 peso en libras
C4 altura en pulgadas
C5 cuello en cms
C6 pecho en cms
C7 abdomen en cms
C8 cadera en cms
C9 muslo en cms
C10 rodilla en cms
C11 tobillo en cms
C12 biceps en cms
C13 antebrazo en cms
C14 mueca en cms

Se tomaron las mediciones en 250 sujetos.

Se trata de hallar el mejor modelo de regresin usando los mtodos "Stepwise".

Solucin:

A) Usando el mtodo de eliminacin hacia atrs.

Primero, haremos paso a paso el mtodo "Backward" y luego directamente con las
opciones que estn disponibles en MINITAB.

Paso 1. Se hace la regresin con todas las variables

grasa = - 18.2 + 0.0621 edad - 0.0884 peso - 0.0696 altura - 0.471 cuello
- 0.0239 pecho + 0.955 abdomen - 0.208 cadera + 0.236 muslo
+ 0.015 rodilla + 0.174 tobillo - 1.62 mueca + 0.182 biceps
+ 0.452 antebrazo

Constant -18.19 17.35 -1.05 0.296
edad 0.06208 0.03235 1.92 0.056
peso -0.08844 0.05353 -1.65 0.100
altura -0.06959 0.09601 -0.72 0.469
cuello -0.4706 0.2325 -2.02 0.044
pecho -0.02386 0.09915 -0.24 0.810
abdomen 0.95477 0.08645 11.04 0.000
cadera -0.2075 0.1459 -1.42 0.156
muslo 0.2361 0.1444 1.64 0.103
rodilla 0.0153 0.2420 0.06 0.950
tobillo 0.1740 0.2215 0.79 0.433
mueca -1.6206 0.5349 -3.03 0.003
biceps 0.1816 0.1711 1.06 0.290
antebraz 0.4520 0.1991 2.27 0.024

S = 4.305 R-Sq = 74.9% R-Sq(adj) = 73.5%

Se elimina del modelo la variable rodilla, pus su "P-value"=0.950 es el mayor.

Paso 2. Regresion sin la variable rodilla

- 0.0244 pecho + 0.954 abdomen - 0.207 cadera + 0.239 muslo
+ 0.176 tobillo - 1.62 mueca + 0.181 biceps + 0.453 antebrazo

Constant -17.93 16.84 -1.06 0.288
edad 0.06259 0.03125 2.00 0.046
peso -0.08758 0.05165 -1.70 0.091
altura -0.06907 0.09545 -0.72 0.470
cuello -0.4728 0.2293 -2.06 0.040
pecho -0.02442 0.09855 -0.25 0.805
abdomen 0.95440 0.08606 11.09 0.000
cadera -0.2071 0.1455 -1.42 0.156
muslo 0.2386 0.1384 1.72 0.086
tobillo 0.1763 0.2179 0.81 0.419
mueca -1.6181 0.5323 -3.04 0.003
biceps 0.1808 0.1703 1.06 0.289
antebraz 0.4532 0.1979 2.29 0.023

S = 4.296 R-Sq = 74.9% R-Sq(adj) = 73.6%

Se elimina del modelo la variable pecho, pus su "p-value"=0.805 es el mayor.

Paso 3. Regresin sin las variables rodilla y pecho

+ 0.944 abdomen - 0.200 cadera + 0.245 muslo + 0.179 tobillo
- 1.61 mueca + 0.177 biceps + 0.448 antebrazo

Constant -19.69 15.24 -1.29 0.198
edad 0.06249 0.03118 2.00 0.046
peso -0.09271 0.04723 -1.96 0.051
altura -0.06378 0.09285 -0.69 0.493
cuello -0.4754 0.2287 -2.08 0.039
abdomen 0.94421 0.07545 12.51 0.000
cadera -0.2004 0.1427 -1.41 0.161
muslo 0.2451 0.1356 1.81 0.072
tobillo 0.1785 0.2173 0.82 0.412
mueca -1.6149 0.5311 -3.04 0.003
biceps 0.1771 0.1693 1.05 0.297
antebraz 0.4477 0.1963 2.28 0.023

S = 4.288 R-Sq = 74.9% R-Sq(adj) = 73.7%

Se elimina del modelo la variable altura, pus su "p-value"=0.493 es el mayor.

Paso 4. Regresion sin las variables rodilla, pecho y altura

grasa = - 26.0 + 0.0651 edad - 0.107 peso - 0.467 cuello + 0.958 abdomen
- 0.179 cadera + 0.259 muslo + 0.185 tobillo - 1.66 mueca
+ 0.186 biceps + 0.453 antebrazo


Constant -26.00 12.15 -2.14 0.033
edad 0.06509 0.03092 2.11 0.036
peso -0.10740 0.04207 -2.55 0.011
cuello -0.4675 0.2281 -2.05 0.042
abdomen 0.95772 0.07276 13.16 0.000
cadera -0.1791 0.1391 -1.29 0.199
muslo 0.2593 0.1339 1.94 0.054
tobillo 0.1845 0.2169 0.85 0.396
mueca -1.6567 0.5271 -3.14 0.002
biceps 0.1862 0.1686 1.10 0.271
antebraz 0.4530 0.1959 2.31 0.022

S = 4.283 R-Sq = 74.8% R-Sq(adj) = 73.8%

Se elimina del modelo la variable tobillo, pues su "p-value"=.396 es el mayor.

Paso 5. Regresin sin incluir las variables: rodilla, pecho, altura y tobillo

- 0.183 cadera + 0.265 muslo - 1.54 mueca + 0.179 biceps
+ 0.451 antebrazo

Constant -23.30 11.73 -1.99 0.048
edad 0.06348 0.03084 2.06 0.041
peso -0.09843 0.04070 -2.42 0.016
cuello -0.4933 0.2260 -2.18 0.030
abdomen 0.94926 0.07204 13.18 0.000
cadera -0.1829 0.1389 -1.32 0.189
muslo 0.2654 0.1336 1.99 0.048
muneca -1.5421 0.5093 -3.03 0.003
biceps 0.1789 0.1683 1.06 0.289
antebraz 0.4515 0.1958 2.31 0.022

S = 4.281 R-Sq = 74.8% R-Sq(adj) = 73.8%

Se elimina del modelo la variable biceps, pus su "p-value"=.289 es el mayor.

Paso 6. Regresin sin incluir las variables: rodilla, pecho, altura, tobillo y biceps

- 0.195 cadera + 0.302 muslo - 1.54 muneca + 0.516 antebrazo

Constant -22.66 11.71 -1.93 0.054
edad 0.06578 0.03078 2.14 0.034
peso -0.08985 0.03991 -2.25 0.025
cuello -0.4666 0.2246 -2.08 0.039
abdomen 0.94482 0.07193 13.13 0.000
cadera -0.1954 0.1385 -1.41 0.159
muslo 0.3024 0.1290 2.34 0.020
mueca -1.5367 0.5094 -3.02 0.003
antebraz 0.5157 0.1863 2.77 0.006

S = 4.282 R-Sq = 74.7% R-Sq(adj) = 73.8%

Se elimina del modelo la variable cadera, pus su "p-value"=.159 es el mayor.

Paso 7. Regresin sin incluir las variables: rodilla, pecho, altura, tobillo, biceps y
cadera.

+ 0.222 muslo - 1.53 muneca + 0.553 antebrazo

Constant -33.258 9.007 -3.69 0.000
edad 0.06817 0.03079 2.21 0.028
peso -0.11944 0.03403 -3.51 0.001
cuello -0.4038 0.2206 -1.83 0.068
abdomen 0.91788 0.06950 13.21 0.000
muslo 0.2220 0.1160 1.91 0.057
muneca -1.5324 0.5104 -3.00 0.003
antebraz 0.5531 0.1848 2.99 0.003

S = 4.291 R-Sq = 74.4% R-Sq(adj) = 73.7%

Se elimina del modelo la variable cuello, pus su "p-value"=.068 es el mayor.

Paso 8. Regresin sin incluir las variables: rodilla, pecho, altura, tobillo, biceps,
cadera y cuello.

grasa = - 38.3 + 0.0629 edad - 0.136 peso + 0.912 abdomen + 0.220 muslo
- 1.78 mueca + 0.489 antebrazo

Constant -38.322 8.612 -4.45 0.000
edad 0.06290 0.03080 2.04 0.042
peso -0.13648 0.03288 -4.15 0.000
abdomen 0.91179 0.06975 13.07 0.000
muslo 0.2202 0.1166 1.89 0.060
muneca -1.7788 0.4947 -3.60 0.000
antebraz 0.4891 0.1823 2.68 0.008

S = 4.311 R-Sq = 74.1% R-Sq(adj) = 73.5%

Se elimina del modelo la variable muslo, pus su "p-value".060 es el mayor.

cadera, cuello y muslo.

grasa = - 31.0 + 0.0410 edad - 0.111 peso + 0.939 abdomen - 1.83 mueca
+ 0.508 antebrazo

Constant -30.970 7.724 -4.01 0.000
edad 0.04100 0.02869 1.43 0.154
peso -0.11095 0.03014 -3.68 0.000
abdomen 0.93901 0.06860 13.69 0.000
mueca -1.8296 0.4965 -3.68 0.000
antebraz 0.5085 0.1830 2.78 0.006

S = 4.334 R-Sq = 73.7% R-Sq(adj) = 73.2%

Se elimina del modelo la variable edad, pus su "p-value"=.154 es el mayor.

cadera, cuello, muslo y edad.

grasa = - 34.9 - 0.136 peso + 0.996 abdomen - 1.51 mueca + 0.473 antebrazo

Constant -34.854 7.245 -4.81 0.000
peso -0.13563 0.02475 -5.48 0.000
abdomen 0.99575 0.05607 17.76 0.000
mueca -1.5056 0.4427 -3.40 0.001
antebraz 0.4729 0.1817 2.60 0.010

S = 4.343 R-Sq = 73.5% R-Sq(adj) = 73.1%

El proceso termina, porque todos los "p-values" son menores que 0.05 o las pruebas t en valor
absoluto son mayores que 2. El mejor modelo para predecir el porcentaje de grasa en el cuerpo
ser el que incluyea las variables:peso, circunferencia de abdomen, nueca y antebrazo.

Ahora, haremos todo lo anterior en forma directa. La ventana de dilogo para hacer
seleccin de variables en MINITAB se obtiene al elegir la opcin Stepwise del men
regresin. La ventana de dilogo se completara como se muestra en la Figura 9.16

Figura 9.16. Ventana de dilogo para el mtodo "Stepwise"

Al seleccionar Methods aparece la ventana de dilogo de la Figura 9.17:


Figura 9.17. Ventana de dilogo que aparece al oprimir methods en "stepwise".

En el mtodo de eliminacin hacia atrs se selecciona Backward Elimination.
Aparece seleccionado 0.15 en Alpha to remove. Este 0.15 es el nivel de significacin que
se usa en la prueba de F al momento de decidir si se elimina o no una variable del modelo.
Este valor puede ser cambiado por el usuario. Si se elige un valor ms pequeo de alpha
entonces, es probable que el modelo incluya ms variables predictoras, lo contrario ocurre
si se elige un alpha grande.

En las versiones anteriores de MINITAB se usaba un valor de 4.0 en F to Remove.
Este valor corresponde a un alpha de 0.05 cuando se tiene una F con 1 grado de libertad
en el numerador y grados de libertad del denominador relativamente grande, mayor que
30. Con este cambio MINITAB ha adoptado la tcnica de hacer stepwise que aparece
en la mayora de los programas estadsticos.

Para los datos de la hoja de trabajo grasa.mtw en donde se trata de ver qu medidas
del cuerpo sirven para determinar el porcentaje de grasa en el cuerpo humano, el mtodo
de eliminacin hacia atrs da los siguientes resultados:

Stepwise Regression: grasa versus edad, peso, ...

Backward elimination. Alpha-to-Remove: 0.05

Response is grasa on 13 predictors, with N = 252

Step 1 2 3 4 5 6 7
Constant -18.19 -17.93 -19.69 -26.00 -23.30 -22.66 -33.26

edad 0.062 0.063 0.062 0.065 0.063 0.066 0.068
T-Value 1.92 2.00 2.00 2.11 2.06 2.14 2.21
P-Value 0.056 0.046 0.046 0.036 0.041 0.034 0.028

peso -0.088 -0.088 -0.093 -0.107 -0.098 -0.090 -0.119
T-Value -1.65 -1.70 -1.96 -2.55 -2.42 -2.25 -3.51
P-Value 0.100 0.091 0.051 0.011 0.016 0.025 0.001

altura -0.070 -0.069 -0.064
T-Value -0.72 -0.72 -0.69
P-Value 0.469 0.470 0.493

cuello -0.47 -0.47 -0.48 -0.47 -0.49 -0.47 -0.40
T-Value -2.02 -2.06 -2.08 -2.05 -2.18 -2.08 -1.83
P-Value 0.044 0.040 0.039 0.042 0.030 0.039 0.068

pecho -0.024 -0.024
T-Value -0.24 -0.25
P-Value 0.810 0.805

abdomen 0.955 0.954 0.944 0.958 0.949 0.945 0.918
T-Value 11.04 11.09 12.51 13.16 13.18 13.13 13.21
P-Value 0.000 0.000 0.000 0.000 0.000 0.000 0.000

cadera -0.21 -0.21 -0.20 -0.18 -0.18 -0.20
T-Value -1.42 -1.42 -1.41 -1.29 -1.32 -1.41
P-Value 0.156 0.156 0.161 0.199 0.189 0.159

muslo 0.24 0.24 0.25 0.26 0.27 0.30 0.22
T-Value 1.64 1.72 1.81 1.94 1.99 2.34 1.91
P-Value 0.103 0.086 0.072 0.054 0.048 0.020 0.057

rodilla 0.02
T-Value 0.06
P-Value 0.950

tobillo 0.17 0.18 0.18 0.18
T-Value 0.79 0.81 0.82 0.85
P-Value 0.433 0.419 0.412 0.396

biceps 0.18 0.18 0.18 0.19 0.18
T-Value 1.06 1.06 1.05 1.10 1.06
P-Value 0.290 0.289 0.297 0.271 0.289

antebraz 0.45 0.45 0.45 0.45 0.45 0.52 0.55
T-Value 2.27 2.29 2.28 2.31 2.31 2.77 2.99
P-Value 0.024 0.023 0.023 0.022 0.022 0.006 0.003

muneca -1.62 -1.62 -1.61 -1.66 -1.54 -1.54 -1.53
T-Value -3.03 -3.04 -3.04 -3.14 -3.03 -3.02 -3.00
P-Value 0.003 0.003 0.003 0.002 0.003 0.003 0.003

S 4.31 4.30 4.29 4.28 4.28 4.28 4.29
R-Sq 74.90 74.90 74.90 74.85 74.77 74.66 74.45
R-Sq(adj) 73.53 73.64 73.75 73.81 73.84 73.82 73.71
C-p 14.0 12.0 10.1 8.5 7.2 6.4 6.3

Step 8 9 10
Constant -38.32 -30.97 -34.85

edad 0.063 0.041
T-Value 2.04 1.43
P-Value 0.042 0.154

peso -0.136 -0.111 -0.136
T-Value -4.15 -3.68 -5.48
P-Value 0.000 0.000 0.000

altura
T-Value
P-Value

cuello
T-Value
P-Value

pecho
T-Value
P-Value

abdomen 0.912 0.939 0.996
T-Value 13.07 13.69 17.76
P-Value 0.000 0.000 0.000

cadera
T-Value
P-Value

muslo 0.22
T-Value 1.89
P-Value 0.060

rodilla
T-Value
P-Value

tobillo
T-Value
P-Value

biceps
T-Value
P-Value

antebraz 0.49 0.51 0.47
T-Value 2.68 2.78 2.60
P-Value 0.008 0.006 0.010

muneca -1.78 -1.83 -1.51
T-Value -3.60 -3.68 -3.40
P-Value 0.000 0.000 0.001

S 4.31 4.33 4.34
R-Sq 74.10 73.72 73.50
R-Sq(adj) 73.46 73.19 73.07
C-p 7.7 9.2 9.3

I nterpretacin: El mtodo termina en 10 pasos. La primera variable eliminada del
modelo es rodilla, cuyo valor de la prueba t, 0.06, es el ms pequeo de todos, luego se
eliminan, pecho, altura, tobillo, biceps, cadera, cuello, muslo y edad en ese orden. El
mejor modelo ser:
Grasa= 34.85 -.136 peso+ .996 abdomen +0.47 antebrazo - 1.51mueca
El cual tiene un R
2
de 73.50, mientras que el modelo completo con 13 variable predictoras
tiene un R
2
de 74.90%, se ha perdido un 1.40% de confiablidad en las predicciones pero
se ha economizado 9 variables, lo cual es ms conveniente.

B) Usando el mtodo "Forward"

Haciendo paso a paso el mtodo "Forward":

Paso 1. Se halla la regresin simple con la variable predictora ms altamente correlacionada
con la variable de respuesta En este caso, es abdomen que tiene correlacin 0.803 con grasa.

grasa = - 39.3 + 0.631 abdomen

Constant -39.280 2.660 -14.77 0.000
abdomen 0.63130 0.02855 22.11 0.000

S = 4.877 R-Sq = 66.2% R-Sq(adj) = 66.0%

Paso 2. Se halla todas las regresiones con dos variables predictoras, una de las cuales es
abdomen. Aqui se muestran slo dos de las 12 regresiones posibles.

Con la variables aabdomen y pecho
grasa = - 30.3 + 0.818 abdomen - 0.261 pecho

Constant -30.274 4.057 -7.46 0.000
abdomen 0.81794 0.07006 11.67 0.000
pecho -0.26066 0.08961 -2.91 0.004
S = 4.806 R-Sq = 67.3% R-Sq(adj) = 67.0%

Con las variables adomen y peso

grasa = - 46.0 + 0.990 abdomen - 0.148 peso

Constant -45.952 2.605 -17.64 0.000
abdomen 0.98950 0.05672 17.45 0.000
peso -0.14800 0.02081 -7.11 0.000

S = 4.456 R-Sq = 71.9% R-Sq(adj) = 71.7%

Notar que el valor absoluto de la prueba t para la variable pecho es 2.91 (p-value = .004), y para la
variable peso es 7.11 ( p-value = 0.000). La variable peso entra al modelo porque es aquella con
valor de t ms grande en valor absoluto entre todas las variables que an no estaban includas.

Paso 3. Se hallan todas las regresiones con tres variables predictoras, las dos incluidas en
los dos pasos anteriores y cada una de las variables no incluidas an. Aqui se muestran slo
dos de las 11 regresiones posibles.

grasa = - 45.8 + 0.990 abdomen - 0.148 peso - 0.002 cadera

Constant -45.846 7.059 -6.49 0.000
abdomen 0.98974 0.05866 16.87 0.000
peso -0.14763 0.03087 -4.78 0.000
cadera -0.0020 0.1199 -0.02 0.987

S = 4.465 R-Sq = 71.9% R-Sq(adj) = 71.5%

Regression Analysis

grasa = - 27.9 + 0.975 abdomen - 0.114 peso - 1.24 muneca

Constant -27.930 6.817 -4.10 0.000
abdomen 0.97513 0.05615 17.37 0.000
peso -0.11446 0.02364 -4.84 0.000
mueca -1.2449 0.4362 -2.85 0.005

S = 4.393 R-Sq = 72.8% R-Sq(adj) = 72.4%

La variable mueca entra al modelo porque es aquella con el valor de t ms grande en valor
absoluto entre todas las variables que an no estaban includas.

Paso 4. Se hallan todas las regresiones con cuatro variables predictoras, las tres includas
en los tres pasos anteriores y cada una de las variables no incluidas an. Aqui se muestran
slo dos de las 10 regresiones posibles.

Regression Analysis

grasa = - 35.1 + 0.979 abdomen - 0.144 peso - 1.10 mueca + 0.158 muslo

Constant -35.117 8.414 -4.17 0.000
abdomen 0.97856 0.05607 17.45 0.000
peso -0.14355 0.03096 -4.64 0.000
mueca -1.0990 0.4467 -2.46 0.015
muslo 0.1585 0.1092 1.45 0.148

S = 4.383 R-Sq = 73.0% R-Sq(adj) = 72.6%

Regression Analysis

grasa = - 34.9 + 0.996 abdomen - 0.136 peso - 1.51 mueca + 0.473 antebrazo

Constant -34.854 7.245 -4.81 0.000
abdomen 0.99575 0.05607 17.76 0.000
peso -0.13563 0.02475 -5.48 0.000
mueca -1.5056 0.4427 -3.40 0.001
antebraz 0.4729 0.1817 2.60 0.010

S = 4.343 R-Sq = 73.5% R-Sq(adj) = 73.1%

La variable antebrazo entra al modelo porque es aquella con el valor de t ms grande en valor
absoluto entre todas las variables que an no estaban includas.

Aqu termina el proceso porque al hacer las regresiones de grasa con las cuatro variables
consideradas hasta ahora y cada una de las 9 variables no incluidas hasta ahora se obtienen p-
values para la prueba t mayores de 0.05.

Para hacer seleccin hacia adelante en MINITAB se sigue la secuencia
STATRegressionStepwiseMethods y luego se elige Forward Selection. En la
ventanita Alpha-to-Enter aparece 0.25, que es el nivel de significacin que usa la prueba
de F para decidir si una variable debe o no entrar en el modelo. Este valor puede ser
cambiado por el usuario, tomando en cuenta que si elige un valor de alpha ms pequeo
es ms probable que el modelo incluya un menor nmero de variables que cuando se
escoge una alpha ms grande.

En las versiones anteriores de MINITAB se usaba un valor de 4.0 en F to Enter.
Este valor corresponde a un alpha de 0.05 cuando se tiene una F con 1 grado de libertad
en el numerador y grados de libertad del denominador relativamente grande, mayor que
30.

Para los datos de la hoja de trabajo grasa.mtw, el mtodo de seleccin hacia
adelante da los siguientes resultados, usando alpha = 0.05.


Forward selection. Alpha-to-Enter: 0.05

Step 1 2 3 4
Constant -39.28 -45.95 -27.93 -34.85

abdomen 0.631 0.990 0.975 0.996
T-Value 22.11 17.45 17.37 17.76
P-Value 0.000 0.000 0.000 0.000

peso -0.148 -0.114 -0.136
T-Value -7.11 -4.84 -5.48
P-Value 0.000 0.000 0.000

muneca -1.24 -1.51
T-Value -2.85 -3.40
P-Value 0.005 0.001

antebraz 0.47
T-Value 2.60
P-Value 0.010

S 4.88 4.46 4.39 4.34
R-Sq 66.17 71.88 72.77 73.50
R-Sq(adj) 66.03 71.65 72.44 73.07
C-p 72.9 20.7 14.2 9.3

C) Usando el mtodo Stepwise.

Para llevar a cabo en MINITAB seleccin de variables usando el mtodo stepwise
se sigue la secuencia STATRegressionStepwiseMethods y luego se elige
Stepwise. Aparece la ventana de dilogo de la Figura 9.18. En las ventanitas Alpha-to-
Enter y Alpha to-Remove, aparece el mismo valor 0.15, el cual puede ser cambiado por
el usuario. El valor de Alpha-to-Enter debe ser menor que Alpha to-Remove. En las
versiones anteriores de MINITAB aparecan las ventanitas F-to-Enter y F-to-Remove
donde se asignaba el valor de 4.0

Figura 9.18. Ventana de dilogo para hacer seleccin stepwise.
Para el conjunto de datos grasa el mtodo stepwise usando Alpha-to-Enter =
0.10 y Alpha to-Remove = 0.05, produce los siguientes resultados:


Alpha-to-Enter: 0.1 Alpha-to-Remove: 0.15


Step 1 2 3 4 5
Constant -39.28 -45.95 -27.93 -34.85 -30.65

abdomen 0.631 0.990 0.975 0.996 1.008
T-Value 22.11 17.45 17.37 17.76 17.89
P-Value 0.000 0.000 0.000 0.000 0.000

peso -0.148 -0.114 -0.136 -0.123
T-Value -7.11 -4.84 -5.48 -4.75
P-Value 0.000 0.000 0.000 0.000

muneca -1.24 -1.51 -1.25
T-Value -2.85 -3.40 -2.66
P-Value 0.005 0.001 0.008

antebraz 0.47 0.53
T-Value 2.60 2.86
P-Value 0.010 0.005

cuello -0.37
T-Value -1.65
P-Value 0.100

S 4.88 4.46 4.39 4.34 4.33
R-Sq 66.17 71.88 72.77 73.50 73.79
R-Sq(adj) 66.03 71.65 72.44 73.07 73.26
C-p 72.9 20.7 14.2 9.3 8.6

9.7.2 Mtodo de los mejores subconjuntos.

La opcin Best Subsets del submen Regression del men Stat se usa para
seleccionar los mejores modelos para un nmero dado de variables de acuerdo a 3
criterios:
El coeficiente de Determinacin. El mejor modelo es aqul con
SST
SSR
R
2
ms
alto pero con el menor nmero de variables posibles. Por decir, si con 3 variables
predictoras se obtiene un R
2
de .84 y con 4 variables se obtiene un R
2
de .87 se debera
preferir el primer modelo porque la cuarta variable ha incrementado el R
2
pero por muy
poco.

El coeficiente de Determinacin Ajustado. Es una variante del R
2
y que a
diferencia de ste no aumenta necesariamente al incluir una variable adicional en el
modelo. Se calcula por:

1
1
) 1 ( 1
2 2

p n
n
R
MST
MSR
R
Ajust

La manera de usar este criterio es similar al anterior.

El Coeficiente C
p
de Mallows. Se calcula por:

Donde SSE
p
es la suma de cuadrados del error del modelo que incluye p variables
predictoras y s
2
es la varianza estimada del error en el modelo que incluye todas las
variables.

El mejor modelo es aquel para el cual se cumple aproximadamente 1 p C
p
, pero
con el menor nmero de variables posibles. Notar que la igualdad anterior tambin se
cumple cuando se usa el modelo completo.

n p
s
SSE
C
p
p
) 1 ( 2
2
Para el ejemplo anterior, la ventana de dilogo aparece a continuacin:

Figura 9.19. Ventana de dilogo para Bests Subsets, usando los datos del Ejemplo 9.6

y la ventana session contendr los siguientes resultados:

Best Subsets Regression

Response is grasa

a
a r t n
a c b c o o b t m
l u p d a m d b i e u
e p t e e o d u i i c b n
d e u l c m e s l l e r e
Adj. a s r l h e r l l l p a c
Vars R-Sq R-Sq C-p s d o a o o n a o a o s z a

1 66.2 66.0 72.9 4.8775 X
1 49.4 49.2 232.2 5.9668 X
2 71.9 71.7 20.7 4.4556 X X
2 70.2 70.0 36.6 4.5866 X X
3 72.8 72.4 14.2 4.3930 X X X
3 72.4 72.0 18.0 4.4251 X X X
4 73.5 73.1 9.3 4.3427 X X X X
4 73.3 72.8 11.4 4.3609 X X X X
5 73.8 73.3 8.6 4.3276 X X X X X
5 73.7 73.2 9.2 4.3336 X X X X X
6 74.1 73.5 7.7 4.3111 X X X X X X
6 74.1 73.4 8.0 4.3138 X X X X X X
7 74.4 73.7 6.3 4.2906 X X X X X X X
7 74.3 73.6 7.4 4.2998 X X X X X X X
8 74.7 73.8 6.4 4.2819 X X X X X X X X
8 74.6 73.8 7.0 4.2872 X X X X X X X X
9 74.8 73.8 7.2 4.2808 X X X X X X X X X
9 74.7 73.8 7.7 4.2851 X X X X X X X X X
10 74.8 73.8 8.5 4.2832 X X X X X X X X X X
10 74.8 73.8 8.7 4.2850 X X X X X X X X X X
11 74.9 73.7 10.1 4.2879 X X X X X X X X X X X
11 74.8 73.7 10.5 4.2920 X X X X X X X X X X X
12 74.9 73.6 12.0 4.2963 X X X X X X X X X X X X
12 74.9 73.6 12.1 4.2968 X X X X X X X X X X X X
13 74.9 73.5 14.0 4.3053 X X X X X X X X X X X X X

I nterpretacin: De acuerdo al R
2
el mejor modelo podra ser aqul con las dos variables
predoctoras peso y abdomen que an cundo su R
2
es de 71.9 est cerca del mayor posible
que es de 74.9 y adems es donde el R
2
ha tenido un mayor incremento. Un resultado
similar cuando se usa el R
2
ajustado. De acuerdo al C
p
de Mallows, el mejor modelo es
aqul que tiene las siguientes 6 variables predictoras: edad, peso, muslo, abdomen,
antebrazo y cadera con un valor de 7 . 7
p
C muy prximo a 7 1 6 1 p .
EJERCICIOS

Para conseguir los archivos de datos accesar a la siguiente direccin en la internet
www.math.uprm.edu/~edgar.datos.html o mandar un mensaje al autor.

1. Los siguientes datos corresponden el tiempo de experiencia en dias de 10 tcnicos
recientemente contratados por una compaia de electricidad, y el tiempo (en minutos)
que demoran en hacer una instalacin.

experiencia (X) : 5 2 3 10 7 6 5 7 1 8
tiempo de demora (Y) : 30 42 35 20 28 31 32 19 39 25

a) Construir un diagrama de dispersin (scatterplot) de los datos.
b) Hallar la lnea de cuadrados mnimos que representa la relacin entre la experiencia
y el tiempo de demora.
c) Calcular el coeficiente de Determinacin e interpretar el resultado.
d) Probar usando un 5% de significacin si la pendiente de sta relacin es cero.
e) Si se sabe que un tcnico tiene 5 dias de experiencia, En cunto tiempo se espera
que realice una instalacin?
f) Hallar el intervalo de confianza del 95% del tiempo medio de duracin para todos
los tnicos que tienen 5 das de experiencia. Calcular tambin el intervalo de
prediccion. Interpretar sus resultados.
g) Hacer un anlisis de varianza y sacar sus conclusiones.

2. La tienda Sweet Dreams, especializada en vender dulces y regalos, registra durante
12 das el nmero de personas que entran a la tienda y la cantidad de venta (en
dlares) de dulces en cada uno de esos das.

# de personas (X) : 174 112 166 138 172 90 148 116 196 116 124 95
ventas (Y) :145.2 83.2 120.5 113.6 119 67 109.3 96.8 140.8 77.8 105 98.6

a) Construir un diagrama de dispersin (scatterplot) de los datos.
b) Hallar la linea de cuadrados mnimos para aproximar la relacin entre el nmero de
personas que entran a la tienda y la venta de dulces por da.
c) Probar a un 5% de nivel de significancia si la pendiente es cero.
d) Probar a un 5% de nivel de significancia si el intercepto es cero.
e) Calcular el coeficiente de correlacin entre el nmero de personas y las ventas.
f) Calcular el coeficiente de Determinacin e interpretar ste resultado.
g) Si el nmero de personas que entran a la tienda es de 130, predecir las ventas de
ese da a un 95% de confianza.
h) Obtener las bandas de confianza para el valor medio y de prediccin
i) Realizar un anlisis de varianza y sacar sus conclusiones.

3. En un pas se eligen 10 pueblos al azar y se anota el ingreso personal promedio de los
habitantes ( en miles ) y la tasa de divorcio ( por cada 1000 personas). Los datos estn
en el archivo divorcio.

a) Hacer un plot de los datos
b) Hallar el coeficiente de correlacin r e interpretarlo
c) Hallar la lnea de regresin estimada e interpretar las constantes a y b
d) Probar si la pendiente de la lnea de regresin es cero.
e) Trazar la lnea de regresin sobre el plot de los puntos
f) Cunto es el coeficiente de Determinacin y qu significa?
g) Cul ser la tasa de divorcio estimada de un pueblo en donde el ingreso promedio
anual es 12,500.
h) Hallar adems el intervalo de confianza del valor medio y el intervalo de
prediccin. Interpretar cada uno de ellos.
i) Obtener la grfica de las bandas de confianza.
j) Qu conclusin se obtendr de la siguiente tabla de anlisis de varianza?
k) Hallar una regresin que pase por el origen e interpretar el resultado.

4. En un pueblo se eligen 15 personas al azar y se anota su salario mensual (X) y la
cantidad que ahorran mensualmente (Y):

Salario Ahorro
800 150
850 100
900 280
1200 400
1500 350
1700 500
1900 635
2000 600
2300 750
2500 680
2700 900
3000 800
3200 300
3500 1200
5000 1000

a) Hallar la lnea de regresin. e interpretar sus coeficientes.
b) Trazar la linea de regresin por encima del diagrama de puntos.
c) Probar la hiptesis de que la pendiente es cero. Comentar su resultado
d) Hacer una regresin que pase por el orgen e interpretar la pendiente
e) Asigne un valor adecuado a la variable predictora y halle un intervalo de confianza
del 90 por ciento para el valor medio de la variable de respuesta e intrepretar el
resultado.
f) Asigne un valor adecuado a la variable predictora y halle un intervalo de
prediccin del 95% para un valor individual de la variable, de respuesta e
interpretar su resultado.
g) Obtenga las bandas de confianza para el valor medio y de prediccin y explicar
para qu se usan..
h) Interpretar el coeficiente de determinacin
i) Hacer un anlisis de residuales y comentar sus resultados
j) Si existen "outliers" eliminar uno de ellos y explicar su efecto en los clculos del
coeficiente de determinacin y de la linea de regresin.
k) Hacer una regresin cuadrtica y compararla con la regresin lineal

5. El conjunto de datos brain contiene las variables:
MRI (X), conteo en pixels del 18 scans de resonancia magntica del cerebro de una
persona
Score_IQ, (Y) score en un test de inteligencia.
Mientras ms alto sea el conteo de pixels ms grande es el cerebro de las personas.

a) Hallar la lnea de regresin. e interpretar los coeficientes de la linea de regresin
b) Trazar la lnea de regresin encima del diagrama de puntos.
d) Hacer una regresin que pase por el origen e interpretar la pendiente
del 90 por ciento para el valor medio de la variable, de respuesta e intrepretar el
resultado.
prediccion del 95% para un valor individual de la variable, de respuesta e
g) Obtenga las bandas de confianza para el valor medio y de prediccion y explicar
para qu se usan.

6. El conjunto de datos pesobajo contiene las variables:
peso, (Y): peso del recin nacido en gramos
duracin (X): duracin del perodo de gestacin

a) Hallar la linea de regresin. e interpretar los coeficientes de la linea de regresin
b) Trazar la linea de regresin encima del diagrama de puntos.
d) Hacer una regresin que pase por el origen e interpretar la pendiente
del 90 por ciento para el valor medio de la variable, de respuesta e intrepretar el
resultado.
prediccin del 95% para un valor individual de la variable, de respuesta e
g) Obtenga las bandas de confianza para el valor medio y de prediccin y explicar
para qu se usan.

7. En la siguiente tabla se presentan las presiones arteriales Sistlica y Diastlica de 20
personas

persona pres. Sisto pres. Dias Persona pres. Sisto pres. Dias
1 130 80 11 120 75
2 100 70 12 130 95
3 130 80 13 130 80
4 140 80 14 140 90
5 130 70 15 110 80
6 115 75 16 160 95
7 120 85 17 150 110
8 125 75 18 130 95
9 110 65 19 125 75
10 125 70 20 130 80

a) Construya un diagrama de dispersin (scatteplot) para los datos.
b) Hallar la Regresin lineal, considerando como variable dependiente la Presin
Arterial Diastlica.
c) Interpretar los coeficientes de la regresin obtenida en la parte a).
d) Trazar la lnea de regresin estimada encima del diagrama de Dispersin.
e) Estime la presin Arterial Diastlica de una persona que tiene una presin Arterial
Sistlica de 128.
f) Determine un intervalo al 95% para el valor medio de la variable, de respuesta si
la presin arterial Sistlica es de 128, interpretarlo.
g) Graficar las bandas de confianza para el valor medio y de prediccin.
h) Realizar un anlisis de Residuales.

8. La siguiente tabla muestra el nmero (en cientos) de bacterias que sobreviven despus
de ser expuestas a rayos X de 200 kilovoltios por perodos de tiempo T de 6 minutos
de duracin cada uno:

Tiempo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Bacterias 355 211 197 166 142 106 104 60 56 38 36 32 21 19 13
a) Hacer un plot de los datos que relacione el nmero de bacterias sobrevivientes
versus el tiempo.
b) Ajustar varios modelos que pueden ser linealizados y decidir acercar el mejor
modelo para representar la relacin entre las variables.
c) Predecir el nmero de bacterias sobrevivientes despus de 18 periodos de
exposicin

9. Usar los archivos de datos homedat.mtw, salary.mtw y pulse.mtw que estn dentro
de MINITAB. Para homedat escoger Y=c1, para salary escoger Y=C7 y no usar las
columnas c1 y c2, para Pulse escoger Y=c2.

a) Hallar el modelo de regresin mltiple e interpretar tres de los coeficientes de
regresin.
b) Interpretar el coeficiente de Determinacin.
c) Probar que todos los coeficientes del modelo de regresin son ceros. Comentar el
resultado.
d) Probar que cada uno de los coeficientes del modelo de regresin es cero. Comentar
el resultado.
e) Probar la hiptesis Ho: B
2
=B
4
=0. Comentar su resultado.
f) Hallar un Intervalo de Confianza para el valor medio de Y y el valor Predicho del
99% para Y, escogiendo valores adecuados de las variables predictoras. Comentar
sus resultados
g) Usar los mtodos Backward y "Forward" para elegir el modelo de Regresin.
Interpretar la salida de MINITAB. Osea explicar cada paso del mtodo y porqu es
que se detiene.

10. Dada la siguiente informacin:

Y: medida de severidad de la enfermedad respiratoria
X1: aos de educacin
X2: nmero de personas en el edificio donde vive la persona
X3: medida de la calidad del aire (un nmero grande indica pobre calidad)
X4: nivel de nutricin
X5: 0 es no fuma y 1 si fuma.

Y X1 X2 X3 X4 X5
40 7 25 22 94 0
67 7 33 61 18 1
30 6 19 30 103 0
71 15 29 50 17 1
47 11 21 43 109 0
53 10 24 54 0 1
39 8 21 28 33 0
55 14 22 35 21 1
47 10 26 22 76 0
56 9 32 43 97 1
43 8 22 48 104 0
41 8 19 27 37 0
51 9 28 32 87 1
48 8 22 62 131 0
36 8 19 37 53 0

a) Hallar la regresin lineal mltiple. Comentar los coeficientes.
b) Hacer un anlisis de residuales y comentar sus resultados.
c) Aplicar el mtodo "stepwise" para elegir el mejor modelo. Comentar los
resultados.
d) Aplicar el mtodo de "Los mejores subconjuntos" para elegir el mejor modelo.
Comentar sus resultados.

11. El archivo de datos rendimiento contiene la siguiente informacin:

Y=rendimiento de la enfermera
X1=firmeza de carcter
X2=entusiasmo
X3=ambicin
X4=habilidad para comunicarse
X5=habilidad para resolver problemas
X6=iniciativa

a) Hallar la regresin lineal mltiple. Comentar los coeficientes.
b) Probar las hiptesis de que las variables entusiasmo e iniciativa no son importantes
para predecir el rendimiento de la enfremera.
c) Hacer una anlisis de residuales y comentar sus resultados.
d) Aplicar el mtodo "stepwise" para elegir el mejor modelo. Comentar los
resultados.
e) Aplicar el mtodo de "Los mejores subconjuntos" para elegir el mejor modelo.

12. El archivo de datos detroit que aparece en la pgina de internet del texto contiene la
siguiente informacin acerca de la tasa de homicidio en Detroit entre 1966 y 1973

FTP - Full-time police per 100,000 population
UEMP - % unemployed in the population
LIC - Number of handgun licences per 100,000 population
CLEAR - % homicides cleared by arrests
WM - Number of white males in the population
NMAN - Number of non-manufacturing workers in thousands
GOV - Number of government workers in thousands
HE - Average hourly earnings
HOM - Number of homicides per 100,000 of population

a) Hallar la regresin lineal mltiple considerando Y=HOM. Comentar los
coeficientes.
b) Hacer un anlisis de residuales y comentar sus resultados.
c) Aplicar el mtodo "stepwise" para elegir el mejor modelo. Comentar los
resultados.
d) Aplicar el mtodo de "Los mejores subconjuntos" para elegir el mejor modelo.

13. Los siguientes datos corresponden al precio de venta (en dlares) de 25 propiedades.
Para cada una de ellas se tom datos acerca del nmero de cuartos, aos de
antiguedad, rea total de la propiedad (en metros cuadrados) y rea patio exterior (en
metros cuadrados)

Precio Cuartos Antiguedad rea Patio
108360 5 41 463 243
460800 20 7 1779 340
189000 5 33 594 379
611440 20 32 1775 395
198000 5 28 520 175
360000 10 32 1250 150
130500 4 41 730 426
331846 11 12 515 160
504000 20 9 1175 750
714000 32 36 1750 1400
672000 26 37 1121 821
321600 13 28 1200 400
348000 9 38 1600 469
207840 6 11 550 100
387600 11 12 1180 280
195000 5 9 530 150
424200 20 31 1500 160
161280 4 35 600 100
224400 8 10 908 158
186840 4 29 650 100
111000 4 41 658 248
132000 4 25 460 80
887000 14 5 11200 8820
96600 4 41 762 372
336600 4 42 910 510

a) Construir diagramas de dispersin entre el precio y el rea total, el precio y la
antiguedad de la propiedad.
b) Hallar el modelo de Regresin Lineal Mltiple e interpretar los coeficientes de
Regresin.
c) Presentan los datos evidencia suficiente para concluir que los coeficientes de
regresin son distintos de cero? , use un = 0.05.
d) Hacer un anlisis de varianza, e interpretar los resultados.

14. Los siguientes datos corresponden a las mediciones de peso (en libras), estatura (en
pulgadas) y edad de 26 personas

Peso (y) Talla (x1) Edad (x2)
123 4.7 17
111 4.9 19
130 4.9 19
150 5.1 19
164 5.3 23
151 5 23
147 5.2 26
138 5.1 27
159 5.2 28
160 5.1 28
150 4.8 28
175 5 28
152 4.9 29
156 5.2 30
145 4.8 30
143 5.3 30
171 5.4 30
172 5.2 30
177 5.5 31
202 5.3 36
199 5.5 38
174 5.1 40
186 5.3 44
170 5.2 44
210 5.3 50
199 5.4 55

a) Hallar un modelo de regresin lineal mltiple de la variable peso en funcin de las
variables predictoras; estatura y edad. Interpretar los coeficientes.
b) Hacer un Anlisis de Residuales y comentar sus resultados.

CAPTULO 10

DISEOS EXPERIMENTALES

10.1 Diseos Experimentales de Clasificacin Simple

En un diseo experimental de clasificacin simple, se trata de comparar varios
grupos generalmente llamados Mtodos o Tratamientos, como por ejemplo diferentes
maneras de tratar una enfermedad: con medicamentos, quirrgicamente, acupuntura, etc. o
de ensear un curso: dando conferencias, usando transparencias, cooperativamente, etc.
Para hacer la comparacin se usa una variable de respuesta cuantitativa Y que es medida
en cada uno de los grupos. Los grupos tambin pueden ser los niveles de una variable
cualitativa que es llamada Factor, como por ejemplo niveles de conocimiento: bsico,
intermedio, avanzado.

Los datos deben ser recolectados de la siguiente manera:

Grupo 1 Grupo 2 Grupo 3 Grupo k
Y
11
Y
21
Y
31
Y
k1

Y
12
Y
22
Y
32
Y
k2

Y
13
Y
23
Y
33
Y
k3

Y
1n1
Y
2n2
Y
3n3
Ykn
k

Donde el Grupo 1 tiene n
1
observaciones, el Grupo 2 tiene n
2
observaciones, y as
sucesivamente. Un Diseo experimental se puede escribir como un modelo lineal al estilo
de un modelo de regresin. As
ij i ij
y , donde:
ij
y : Es la j-sima observacin del grupo i .
: Es la media total.
i
: Es el efecto del grupo i .
ij
: Error aleatorio de la j-sima observacin del grupo i .

Comparar los grupos se reduce a determinar si hay igualdad de medias poblacionales
de la variable de respuesta en todos los grupos. Es decir,

H
o
:
1
=
2
=
3
= =
k
( Los k grupos tienen medias poblacionales iguales) versus
H
a
: Al menos un grupo tiene distinta media poblacional

La prueba estadstica que se usa para tomar una decisin es la prueba de F. Para que
la prueba sea vlida se requiere que se cumplan ciertas suposiciones tales como, que la
variable de respuesta se distribuya normalmente y con igual variabilidad en cada grupo.
La prueba F es obtenida al completar la tabla del anlisis de varianza.

Edgar Acua Captulo 10 Diseos Experimentales 257
La tabla del anlisis de varianza tiene el siguiente formato:

Fuentes de
Variacin
Grados de
Libertad
Suma de
Cuadrados
Cuadrados Medios F
Entre Grupos k-1 BSS BMS = BSS/k-1 BMS/MSE
Dentro de Grupos n-k SSE MSE = SSE/n-k
Total n-1 SST

Aqu
k
i
i
n n
1
representa el total de datos tomados,

La Suma de cuadrados del total (SST) se calcula por:

n
y
y SST
k
i
n
j
ij
k
i
n
i
ij
k
k

1 1
2
1 1
2
) (

La Suma de cuadrados Entre Grupos (BSS) se calcula por:

n
y
n
T
n
T
n
T
BSS
k
i
n
j
ij
k
k
k

1 1
2
2
2
2
2
1
2
1
) (
....

donde: T
i
representa el total del i-simo Grupo.

SSE es la suma de cuadrados del Error, llamado tambin Suma de Cuadrados
Dentro de Grupos y se calcula por diferencia: SSE = SST BSS.

Si la F calculada es mayor que una F con k-1 y n-k al nivel de significacin
entonces, se rechaza la hiptesis nula. MINITAB da el p-value para la prueba de F y
con ese valor se puede llegar a tomar una decisin.

En MINITAB, el anlisis de Diseos Experimentales se lleva a cabo usando la
opcin ANOVA del men Stat, cuyo submen aparece en figura 10.1.
La opcin One-Way del men ANOVA se usa para hacer anlisis de varianza de
clasificacin simple cuando los datos de la variable de respuesta van en una sola columna
y los niveles del factor (o Grupos) van en otra columna. La opcin One-Way (Unstacked),
se usa tambin para hacer diseos de clasificacin simple, pero cuando los datos de los
grupos a comparar son entrados columna por columna.


Figura 10.1. Las opciones del men ANOVA

Ejemplo 10.1. Se desea comparar 3 mtodos de enseanza A, B y C, se eligen al azar una
muestra de estudiantes de cada mtodo y se le aplica una prueba final comn. Los
resultados son como sigue:

mtodo A mtodo B mtodo C

89 78 64
45 85 69
59 93 82
46 81 74
64 79 79
71 98
94

Habr suficiente evidencia para concluir que hay diferencia entre mtodos?

Solucin:
Los datos son escritos en tres columnas llamadas: mtodo A, mtodo B y mtodo c
respectivamente. Usando la opcin One-way[Unstacked] la ventana de dilogo se
completar como sigue:


Figura 10.2. Ventana de dilogo de One-way[Unstacked] para el ejemplo 10.1

y la ventana session mostrar el siguiente contenido:

One-way ANOVA: Mtodo A, Mtodo B, Mtodo C

Source DF SS MS F P
Factor 2 1957 978 7.44 0.006
Error 15 1971 131
Total 17 3928

S = 11.46 R-Sq = 49.81% R-Sq(adj) = 43.12%

Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ------+---------+---------+---------+---
Mtodo A 6 62.33 16.54 (-------*-------)
Mtodo B 7 86.86 8.07 (------*-------)
Mtodo C 5 73.60 7.30 (--------*--------)
------+---------+---------+---------+---
60 72 84 96

Pooled StDev = 11.46

I nterpretacin: Observando el P-value=.006 se rechaza la afirmacin, todos los
mtodos sean iguales, o sea en al menos uno de los mtodos el rendimiento de los
estudiantes es distinto al de los otros mtodos. Tambin aparecen los intervalos de
confianza para las medias de los tres grupos y se puede ver que no hay superposicin
entre los intervalos de confianza para los mtodos A y B, lo cual sugiere tambin que se
debe rechazar la hiptesis nula.

Tambin se puede hacer una comparacin grfica de los grupos oprimiendo el botn
Graph, en la ventana de dilogo lo cual produce:

Figura 10.3 Ventana de dilogo para elegir la grfica en un Anova de clasificacin simple.

Eligiendo boxplots se obtiene la grfica que aparece en la figura 10.4.

Figura 10.4. Boxplots para comparar los tres mtodos del ejemplo 10.1

I nterpretacin: La posicin de la mediana y las medias sugiere que an cuando los
mtodos B y C no estn muy distantes, si existe una diferencia marcada entre los mtodos
B y A, lo cual llevar a rechazar la hiptesis de iguldad de medias. Hay que notar que la
variabilidad del mtodo A es mucho mayor que los otros dos mtodos.

Para usar la opcin One-Way los datos deben ser entrados en dos columnas: Una de ellas
conteniendo los valores de la variable de respuesta y la otra los valores que indican a que
grupo pertenecen dichos datos. Para el ejemplo anterior se han usado dos columnas: notas,
que contiene los valores de la variable de respuesta y mtodo que contiene los grupos.
De la siguiente manera:
notas mtodo
89 1
45 1
59 1
46 1
64 1
71 1
78 2
85 2
93 2
81 2
79 2
98 2
94 2
64 3
69 3
82 3
74 3
79 3

La ventana de dilogo se completar como lo muestra la figura 10.5


Figura 10.5. Ventana de dilogo para la opcin oneway de ANOVA

y el contenido de la ventana session ser similar al anterior:

One-way ANOVA: notas versus mtodo

Source DF SS MS F P
mtodo 2 1957 978 7.44 0.006
Error 15 1971 131
Total 17 3928

S = 11.46 R-Sq = 49.81% R-Sq(adj) = 43.12%

Pooled StDev
Level N Mean StDev ------+---------+---------+---------+---
1 6 62.33 16.54 (-------*-------)
2 7 86.86 8.07 (------*-------)
3 5 73.60 7.30 (--------*--------)
------+---------+---------+---------+---
60 72 84 96


Es posible convertir datos de grupos que aparecen en varias columnas a datos en dos
columnas, esto se llama hacer un stack, ver el ejemplo 2.1.

10.2 Comparaciones Mltiples

Una vez que se ha rechazado que todos los grupos son iguales hay que determinar
cules de ellos son comparables entre si. Existen muchos mtodos para hacer estas
comparaciones, pero los mtodos ms usados son: Tukey y Fisher. Todos los mtodos
son similares y aplican el siguiente criterio:

Los Grupos i y j son comparables entre ellos, si se cumple:

| media del Grupo i -Media del Grupo j | <valor crtico

La diferencia entre ellos est en la manera como se calcula el valor crtico.

En MINITAB las pruebas de comparaciones mltiples se obtienen al oprimir el
botn Comparisons de Oneway. Aparece la ventana de dilogo que se muestra en la
figura 10.6

En el mtodo de Tukey, el valor crtico est dado por:
j i
n n
s
Q 1 1
2

donde: n
i
es el tamao del i-simo grupo y, n
j
es el tamao del j-simo grupo, s es igual a
la desviacin estndar combinada de los grupos y es igual a la raz cuadrada del cuadrado
medio del error (MSE), y Q es el percentil de 100% de la distribucin del rango
estudentizado con parmetros k-1 y n-k..

En el mtodo de Fisher, el valor crtico est dado por:
j i
k n
n n
s t
1 1
) , 2 / (

Aqu, t
(/2,n-k)
representa el valor de la distribucin t tal que, el rea a la derecha es /2.

Figura 10.6. Ventana de dilogo para la opcin comparisons de one-way.

Los resultados para los datos del ejemplo anterior sern como sigue:

Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons among Levels of mtodo

Individual confidence level = 97.97%

mtodo = 1 subtracted from:

mtodo Lower Center Upper -----+---------+---------+---------+----
2 7.97 24.52 41.08 (-------*--------)
3 -6.75 11.27 29.28 (--------*--------)
-----+---------+---------+---------+----
-20 0 20 40


mtodo Lower Center Upper -----+---------+---------+---------+----
3 -30.68 -13.26 4.16 (-------*--------)
-----+---------+---------+---------+----
-20 0 20 40

Fisher 95% Individual Confidence Intervals
All Pairwise Comparisons among Levels of mtodo

Simultaneous confidence level = 88.31%


mtodo Lower Center Upper ----+---------+---------+---------+-----
2 10.93 24.52 38.12 (------*------)
3 -3.53 11.27 26.06 (-------*------)
----+---------+---------+---------+-----
-20 0 20 40


mtodo Lower Center Upper ----+---------+---------+---------+-----
3 -27.56 -13.26 1.05 (------*-------)
----+---------+---------+---------+-----
-20 0 20 40

I nterpretacin: Por cada combinacin de grupos aparecen los limites inferiores y
superiores de los intervalos de confianza para la diferencia poblacional de las dos
medias. Si los limites de los intervalos son de signos distintos entonces los grupos son
comparables de lo contario no. Bsicamente esto equivale a ver si CERO est contenido o
no en el intervalo.
En este ejemplo los mtodos de Tukey y Fisher llevan a la conclusin que los mtodos
de enseanza A y C son comparables al igual que B y C pero A y B no lo son. Hay un
nivel superior formado por los mtodos B y C y un nivel inferior formado por C y A. Notar
que C aparece en ambos niveles.

Ejemplo 10.2. Los siguientes datos representan los tiempos de sobrevivencia a varios
tipos de cncer, despus que se lo ha diagnosticado

Estmago Pulmn Colon Ovario Seno

248 124 1234 81 1235
377 42 89 461 24
189 25 201 20 1581
1843 45 356 450 1166
180 412 2970 246 40
537 51 456 166 727
519 1112 63 3808
455 46 64 791
406 103 155 1804
365 876 859 3460
942 146 151 719
776 340 166
372 396 37
163 223
101 138
20 72
283 245

Hacer un anlisis de varianza para probar si hay igual tiempo de sobrevivencia para los
diversos tipos de cncer. Aplicar los mtodos de comparaciones mltiples de Fisher y
Tukey para identificar los tipos de cncer con tiempos de sobrevivencia similares.

Solucin:
o
: Los tiempos promedios de sobrevivencia de los pacientes
diagnosticados con cncer de estmago, pulmn, colon, ovario y seno son iguales.
La hipotesis alterna es H
a
: Al menos uno de los tipos de cncer tiene tiempo de
sobrevivencia promedio distinto a los otros.
Primero se entran los datos en dos columnas: Sobrevivencia, que contiene los tiempos de
sobrevivencia y Organo, que contiene los rganos donde el cncer es detectado. Luego se
sigue la secuencia Stat ANOVA One-Way , y oprimiendo el botn comparisons se
obtiene los siguientes resultados en la ventana session:

One-way ANOVA: tiempo versus cancer

Source DF SS MS F P
cancer 4 11535761 2883940 6.43 0.000
Error 59 26448144 448274
Total 63 37983905

S = 669.5 R-Sq = 30.37% R-Sq(adj) = 25.65%

Pooled StDev
Level N Mean StDev --+---------+---------+---------+-------
colon 6 884.3 1098.6 (----------*----------)
estomago 17 457.4 427.2 (-----*------)
ovario 17 211.6 209.9 (-----*------)
pulmon 13 286.0 346.3 (-------*------)
seno 11 1395.9 1239.0 (-------*-------)
--+---------+---------+---------+-------
0 500 1000 1500


Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons among Levels of cancer

Individual confidence level = 99.34%

cancer = colon subtracted from:

cancer Lower Center Upper ---------+---------+---------+---------+
estomago -1321.7 -426.9 467.8 (--------*--------)
ovario -1567.5 -672.7 222.0 (--------*--------)
pulmon -1528.3 -598.3 331.6 (--------*--------)
seno -444.7 511.6 1467.9 (--------*---------)
---------+---------+---------+---------+
-1000 0 1000 2000

cancer = estomago subtracted from:

ovario -892.1 -245.8 400.5 (------*-----)
pulmon -865.6 -171.4 522.8 (------*------)
seno 209.4 938.5 1667.6 (------*-------)
---------+---------+---------+---------+
-1000 0 1000 2000


cancer = ovario subtracted from:

pulmon -619.8 74.4 768.6 (------*------)
seno 455.2 1184.3 1913.4 (------*------)
---------+---------+---------+---------+
-1000 0 1000 2000

cancer = pulmon subtracted from:

seno 338.0 1109.9 1881.8 (-------*-------)
---------+---------+---------+---------+
-1000 0 1000 2000

Fisher 95% Individual Confidence Intervals
All Pairwise Comparisons among Levels of cancer

Simultaneous confidence level = 72.17%

cancer = colon subtracted from:

cancer Lower Center Upper -------+---------+---------+---------+--
estomago -1063.1 -426.9 209.3 (------*-----)
ovario -1308.9 -672.7 -36.6 (-----*------)
pulmon -1259.6 -598.3 62.9 (------*------)
seno -168.4 511.6 1191.5 (------*------)
-------+---------+---------+---------+--
-1000 0 1000 2000

cancer = estomago subtracted from:

ovario -705.3 -245.8 213.7 (----*---)
pulmon -665.0 -171.4 322.2 (----*----)
seno 420.1 938.5 1456.9 (----*-----)
-------+---------+---------+---------+--
-1000 0 1000 2000

cancer = ovario subtracted from:

pulmon -419.2 74.4 568.0 (----*----)
seno 665.9 1184.3 1702.7 (----*----)
-------+---------+---------+---------+--
-1000 0 1000 2000

cancer = pulmon subtracted from:

seno 561.1 1109.9 1658.8 (----*-----)
-------+---------+---------+---------+--
-1000 0 1000 2000


Interpretacin:
El "P-value" de la prueba de F es .0000, lo cual sugiere que la hiptesis nula se rechaza y
se concluye que hay suficiente evidencia estadstica para afirmar que al menos uno de los
tipos de cncer tiene tiempo de sobrevivencia promedio distinto a los otros.

De acuerdo al mtodo de Tukey:
El tiempo promedio de sobrevivencia para cncer de estmago es similar al cncer al
pulmn, al colon y al ovario, pero no al seno.
El tiempo promedio de sobrevivencia para cncer de pulmon es similar al cncer al
estmago y al colon, pero no al ovario, ni al seno.
El tiempo promedio de sobrevivencia para cncer de colon es similar al cncer al
estmago, al pulmn y al ovario, pero no al seno.
El tiempo promedio de sobrevivencia para cncer de ovarios es similar al cncer al
estmago, al colon, al pulmn, y al seno.
El tiempo promedio de sobrevivencia para cncer de senos es similar al cncer a los
ovarios, pero no al estmago, ni al pulmn, ni al colon.
En resumen: Los cncer al pulmn, estmago, colon y ovarios tienen tiempos de
sobrevivencia similares, formado una categora inferior. Los cncer de ovarios y senos
tienen tiempos promedios de sobrevivencias similares, formando una categora superior.

De acuerdo al mtodo de Fisher:
Hay un slo cambio con respecto al mtodo de Tukey y es que los tiempos promedios de
sobrevivencia de cncer de pulmn y ovarios son similares.
En resumen: Los cncer al pulmn, estmago y colon tienen tiempos de sobrevivencia
similares y forman una categora inferior. Los cncer al estmago, colon y ovarios tienen
tiempos de sobrevivencia similares y forman una categora intermedia. Los cncer de
ovarios y senos tienen tiempos promedios de sobrevivencias similares y forman la
categora superior.

10.3 Diseos Experimentales de clasificacin Doble

En este caso se trata de comparar grupos (mtodos o tratamientos) pero, tomando en
cuenta un segundo factor el cual podra afectar la comparacin de los mismos. Los datos
de un experimento de clasificacin doble con k grupos, B bloques y con dos observaciones
por celdas, pueden ser representados de la siguiente manera:

Grupo 1 Grupo 2 Grupo k
Bloque 1 Y
111
Y
112

Y
211
Y
212

Y
k11
Y
k12

Bloque 2 Y
121
Y
122

Y
221
Y
222

Y
k21
Y
k22

Bloque B Y
1B1
Y
2B1
Y
kB1
Y
1B2
Y
2B2
Y
kB2

Hay dos pruebas de hiptesis que se pueden hacer:

H
o
:
1
=
2
=
3
= =
k
( Los k grupos tienen medias poblacionales iguales) versus
H
a
: Al menos un grupo tiene distinta media poblacional que los otros

y,

H
o
:
1
=
2
=
3
==
B
( Los B bloques tienen medias poblacionales iguales) versus
H
a
: Al menos un bloque tiene media poblacional distinta al de los otros.

La prueba estadstica correspondiente es la prueba de F, la cual es obtenida al completar la
tabla del anlisis de varianza.

La tabla del anlisis de varianza para un diseo con k grupos, b bloques y c observaciones
en cada celda tiene el siguiente formato:

Fuentes de
Variacin
Grados de
Libertad
Suma de
Cuadrados
Cuadrados Medios F
Grupos k-1 SSG MSG=SSG/k-1 MSG/MSE
MSB/MSE Bloques b-1 SSB MSB=SSB/b-1
Error kbc-k-b+1 SSE MSE=SSE/kbc-k-b+1
Total kbc-1 SST

Donde MSG es el cuadrado medio de Grupos, y MSB es el cuadrado medio de Bloques y
MSE es el cuadrado medio del Error. Si la F calculada es mayor que una F con k-1 y kbc-
k-b+1 al nivel de significacin entonces, se rechaza la hiptesis nula de igualdad de
medias de grupos, y si la F calculada es mayor que una F con b-1 y kbc-k-b+1 al nivel de
significacin entonces se rechaza la hiptesis nula de igualdad de medias de bloques.

MINITAB da el p-value para ambas prueba de F y con ese valor se puede llegar
a tomar una decisin.

La opcin Two-Way se usa para analizar diseos de clasificacin doble siempre y cuando
haya igual nmero de observaciones por celda.

Ejemplo 10.3 Se trata de comparar 3 mtodos de enseanza (a, b y c) pero tomando en
cuenta adems el factor turno (m, t y n), es decir el tiempo del da al cual se da clase. Los
datos son como siguen:

a b c

m 80.000 65.000 66.000
78.000 79.000 49.000

t 69.000 50.000 34.000
72.000 58.000 58.000

n 73.000 62.000 46.000
74.000 65.000 59.000

Solucin:
Primero se entran los datos en tres columnas:

nota mtodo turno

80 a m
78 a m
69 a t
72 a t
73 a n
74 a n
65 b m
79 b m
50 b t
58 b t
62 b n
65 b n
66 c m
49 c m
34 c t
58 c t
46 c n
59 c n

Las hiptesis que se deben probar son:

Ho: No hay diferencia entre los tres mtodos de enseanza
Ha: Al menos uno de los mtodos de enseanza tiene un rendimiento distinto a los otros, y

Ho: Hay igual rendimiento de los estudiantes en los tres turnos
Ha: En al menos uno de los turnos los estudiantes rinden distinto a los otros dos turnos.

Eligiendo la secuencia Stat Anova Two-Way se obtiene la ventana de dilogo de la figura
10.7.

Notar que la opcin Fit Additive model debe ser seleccionada, de lo contario se ajustar
un modelo con Interaccin que ser discutido en la siguiente seccin.


Figura 10.7. Ventana de dilogo para la opcin two-way del men ANOVA.

Los resultados son los siguientes:

Two-way ANOVA: nota versus turno, mtodo

Source DF SS MS F P
turno 2 481.33 240.667 4.41 0.034
mtodo 2 1496.33 748.167 13.72 0.001
Error 13 708.83 54.526
Total 17 2686.50

S = 7.384 R-Sq = 73.61% R-Sq(adj) = 65.50%

Pooled StDev
turno Mean --------+---------+---------+---------+-
m 69.5000 (--------*---------)
n 63.1667 (--------*---------)
t 56.8333 (--------*--------)
--------+---------+---------+---------+-
56.0 63.0 70.0 77.0

Pooled StDev
mtodo Mean -----+---------+---------+---------+----
a 74.3333 (-----*------)
b 63.1667 (-----*------)
c 52.0000 (------*------)
-----+---------+---------+---------+----
50 60 70 80


Una mejor alternativa es usar la opcin General Linear Model del men ANOVA la cual
permite analizar diseos de clasificacin doble an cuando no haya igual nmero de
observaciones por celda y adems tiene una opcin que permite hacer comparaciones
mltiples. Para el ejemplo anterior la ventana de dilogo lucir as:

Figura 10.8 Ventana de dilogo para la opcin General Linear Model de ANOVA.

Los resultados obtenidos sern:

General Linear Model: nota versus mtodo, turno

Factor Type Levels Values
mtodo fixed 3 a, b, c
turno fixed 3 m, n, t

Analysis of Variance for nota, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P
mtodo 2 1496.33 1496.33 748.17 13.72 0.001
turno 2 481.33 481.33 240.67 4.41 0.034
Error 13 708.83 708.83 54.53
Total 17 2686.50

S = 7.38415 R-Sq = 73.61% R-Sq(adj) = 65.50
I nterpretacin: Viendo los P-values correpondientes a ambos factores se llega a la
conclusin de que en al menos uno de los mtodos de enseanza el rendimiento es distinto
y que en al menos uno de los turnos los estudiantes rinden distinto a los de los otros dos
turnos.

Oprimiendo el botn comparisons se puede hacer comparaciones de medias de los dos
factores. La ventana de dilogo se muestra en la siguiente figura:

Figura 10.9. Ventana de dilogo para hacer comparaciones mltiples usando General
Linear Model.

y los resultados sern:

Tukey 95.0% Simultaneous Confidence Intervals
Response Variable Nota
All Pairwise Comparisons among Levels of Mtodo
Mtodo = a subtracted from:

Mtodo Lower Center Upper ----+---------+---------+---------+--
b -22.41 -11.17 0.08 (----------*----------)
c -33.58 -22.33 -11.09 (-----------*----------)
----+---------+---------+---------+--
-30 -20 -10 0

Mtodo = b subtracted from:

Mtodo Lower Center Upper ----+---------+---------+---------+--
c -22.41 -11.17 0.07766 (----------*----------)
----+---------+---------+---------+--
-30 -20 -10 0

Tukey Simultaneous Tests
All Pairwise Comparisons among Levels of Mtodo
Mtodo = a subtracted from:

Difference SE of Adjusted
Mtodo of Means Difference T-Value P-Value
b -11.17 4.263 -2.619 0.0520
c -22.33 4.263 -5.239 0.0004

Mtodo = b subtracted from:

Mtodo of Means Difference T-Value P-Value
c -11.17 4.263 -2.619 0.0520

Tukey 95.0% Simultaneous Confidence Intervals
All Pairwise Comparisons among Levels of Turno
Turno = m subtracted from:

Turno Lower Center Upper +---------+---------+---------+------
n -17.58 -6.33 4.911 (-------------*-------------)
t -23.91 -12.67 -1.422 (-------------*-------------)
+---------+---------+---------+------
-24.0 -16.0 -8.0 0.0

Turno = n subtracted from:

Turno Lower Center Upper +---------+---------+---------+------
t -17.58 -6.333 4.911 (-------------*-------------)
+---------+---------+---------+------
-24.0 -16.0 -8.0 0.0

Tukey Simultaneous Tests
All Pairwise Comparisons among Levels of Turno
Turno = m subtracted from:

Turno of Means Difference T-Value P-Value
n -6.33 4.263 -1.486 0.3293
t -12.67 4.263 -2.971 0.0273

Turno = n subtracted from:

Turno of Means Difference T-Value P-Value
t -6.333 4.263 -1.486 0.3293

I nterpretacin:
El mtodo A es comparable con el B, pero no con el C. El mtodo B es comparable con
el C. El turno de la maana es comparable con el turno de la noche pero no con el de la
tarde. El turno de la noche es comparable con el de la tarde.

10.4 Modelos con Interaccin

En un diseo de clasificacin doble, algunas veces es conveniente cotejar si existe
un efecto combinado de ambos factores en el comportamiento de la variable de respuesta,
este efecto es llamado Interaccin.
El efecto interaccin puede ser detectado grficamente, usando los llamados plots de
interaccin. La ventana de dilogo de la opcin Interaction Plots de ANOVA para los
datos del ejemplo anterior se completar como se muestra en la figura 10.10. Los plots de
interaccin para los datos del ejemplo 10.3 son mostrados en la figura 10.11.

Figura 10.10. Ventana de dilogo para hacer los plots de interaccin para el ejemplo 10.3


Figura 10.11 Interaccin plots para el ejemplo 10.3

I nterpretacin: Si hay cierto paralelismo entre las lneas entonces, hay muy poca
interaccin. Si las lineas se cruzan bastante entonces hay bastante interaccin. En el
ejemplo se puede ver que no hay interaccin.

En este caso adems de las hiptesis acerca de igualdad de medias de grupos y de
igualdad de medias de bloques hay una tercera hiptesis referente a Interaccin:

H
o
: No hay interaccin entre grupos y bloques
H
a
: Si hay interaccin.

En MINITAB la tabla de Anlisis de varianza es obtenida usando two-way con la
opcin Fit Additve Model sin ser elegida. Los resultados son como siguen:

MTB > Twoway 'nota' 'turno' 'metodo'.

Two-way Analysis of Variance

Analysis of Variance for nota
Source DF SS MS F P
turno 2 481.3 240.7 3.29 0.085
mtodo 2 1496.3 748.2 10.23 0.005
Interaction 4 50.3 12.6 0.17 0.947
Error 9 658.5 73.2
Total 17 2686.5

Otra alternativa es usar General Linear Model. La interaccin est representada en el
modelo por la expresin mtodo*turno. Los resultados son como siguen:

MTB > GLM 'nota' = metodo turno mtodo*turno;
SUBC> Brief 2 .
General Linear Model

Factor Type Levels Values
metodo fixed 3 a b c
turno fixed 3 m n t

Analysis of Variance for nota, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P
mtodo 2 1496.33 1496.33 748.17 10.23 0.005
turno 2 481.33 481.33 240.67 3.29 0.085
mtodo*turno 4 50.33 50.33 12.58 0.17 0.947
Error 9 658.50 658.50 73.17
Total 17 2686.50

I nterpretacin: El valor del "P-value" para Interaccin es .947 que lleva a concluir que
se debe aceptar la hiptesis nula de que no existe interaccin entre los factores, lo cual ya
se habia concluido grficamente.

EJERCICIOS

1. Se toma una muestra de la produccion de 36 fincas donde se han sembrado 4
variedades de maz y se observan los siguientes resultados:

VAR 1 VAR 2 VAR 3 VAR 4

29.5 30.1 23.7 35.7
24.7 29.0 26.4 36.9
28.0 26.6 26.5 35.0
31.5 36.4 37.5 36.5
39.8 36.6 34.6 34.9
29.8 35.3 35.6 48.2
33.8 54.7 39.7 41.3
37.7 53.2 46.2 43.3
35.5 31.4 34.2 51.7

a) Habr diferencia entre las producciones promedios de cada variedad de maz?
Escribir las hiptesis y comentar sus resultados.
b) Hacer Boxplots para comparar las producciones promedio por variedad Comentar
la grfica.

2. Los siguientes datos representan los niveles de colesterol para consumidores de tres
tipos de carne:

Res Cerdo Pollo/Mariscos
241 245 249
218 197 222
261 199 221
190 162 215
238 191 207
256 182 193
248 160 205
224 180 227
225 208 203
238 227 180
178 174 200
185 209 154
194 225 211
224 271 204
221 187 169

a) Habr diferencia de niveles de colesterol entre los tres tipos de consumidores?.
Escribir las hiptesis y comentar sus resultados.
b) Hacer Boxplots para comparar los niveles de colesterol por tipo de consumidor
Comentar la grfica.

3. Se hace un experimento para probar los efectos de 5 diferentes dietas en pavos. Se
asignan al azar 6 pavos a cada una de las 5 dietas y, se los aliment por un perodo fijo
de tiempo. Luego se registr la ganancia en peso en libras. Los resultados son como
siguen.

dieta a dieta b dieta c dieta d dieta e

4.10000 5.20000 6.30000 6.50000 9.50000
3.30000 4.80000 6.50000 6.80000 9.60000
3.10000 4.50000 7.20000 7.30000 9.20000
4.20000 6.80000 7.40000 7.50000 9.10000
3.60000 5.50000 7.80000 6.90000 9.80000
4.40000 6.20000 6.70000 7.00000 9.10000

a) Probar si la ganancia en peso es la misma en todas las dietas.Justificar su
contestacin.
b) Hacer comparaciones mltiples para detectar qu dietas producen igual ganancia
en peso. Comentar sus resultados.

4. Los siguientes datos representas los niveles de Sarcodiosis en 5 grupos de pacientes

A B C D E
102 64 130 82 123
74 56 136 51 113
63 42 137 72 138
67 39 107 77 126
68 29 155 45 135
58 42 137 85 138
77 61 138 80 124
55 67 120 51 102
80 40 138 76 125
78 89 165 95 103
87 47 138 82 124
89 44 163 92 128

a) Probar si los niveles de sarcodiosis son los mismos para los 5 grupos.Justificar su
contestacin.
b) Hacer comparaciones mltiples para detectar qu tipos de pacientes tienen iguales
niveles de sarcodiosis. Comentar sus resultados

5. Se toma una muestra de los salarios y de los aos de educacion de 48 empleados de 4
departamentos de una cierta empresa y se observan los siguientes resultados:

Filas: EDUC Columnas: DEPT

1 2 3 4
0 29548 30115 23654 35487
24749 28985 26452 36487
27985 26578 26548 34987
Educ: Aos de educacion despus de la escuela superior
4 31528 36431 37548 36512
39828 36571 34632 34869
29876 35468 35631 48184
Dept: 1 = ventas, 2 = compras, 3 = publicidad, y 4 = ingenieria.
6 33791 54679 39743 41255
37674 53234 46211 43331
35467 31425 34231 51698

10 28985 24782 36578 65487
32920 56326 68425 58695
31889 47536 69246 54899

a) Habr diferencia entre los salarios promedios de cada departamento?
b) Hacer Boxplots para comparar los salarios promedios por departamentos.
Comentar la grfica
c) Hacer comparaciones mltiples para comparar los salarios promedios por
departamento. A qu conclusin se llegar?
d) Hacer un anlisis de clasificacin doble para ver si la variable educacin afecta a la
comparacin de los salarios por departamentos. A qu conclusiones se llegar?

6. Se seleccionaron al azar ministros de 3 religiones: 8 metodistas, 10 catlicos y 9
pentecostales y, se desea probar si poseen el mismo conocimiento sobre enfermedades
mentales. Los resultados de un test para medir sus conocimientos son los siguientes:

Metodista Catlico Pentecostal
32 32 28
30 32 21
30 26 15
29 26 15
26 22 14
23 20 14
18 14 09
19 16 11
14 08
15

a) Probar si los ministros de las 3 religiones poseen igual conocimiento de
enfermedades mentales.
b) Usar comparaciones mltiples para comparar los 3 grupos. Comentar sus
resultados.
c) Hacer un boxplot para comparar los 3 grupos. Comentar su grfica

7. Una panadera desea saber si hay un efecto de la posicin ( abajo, en medio, arriba)
en que se colocan en los anaqueles, y del ancho de los anaqueles (normal, bastante
ancho), en la venta de sus panes. Se registran el nmero de bolsas de panes vendidas
diariamente en 24 supermercados, y los datos que se obtienen son:

Posicin Ancho del anaquel
Normal Bastante Ancho
Abajo 47 43
50 55
46 40
41 38
En Medio 62 68
65 70
67 71
65 69
Arriba 41 39
35 37
42 46
40 45

a) Hacer una prueba de anlisis de varianza para probar las hiptesis de que los
promedios de ventas son los misnos para cada posicin . Comentar sus resultados
b) Hacer una grfica de boxplots para comparar los promedios de ventas segn la
posicin, comentar su grfica.
c) Hacer comparaciones de medias para identificar las posiciones en los anaqueles
que producen en promedio iguales ventas de los panes.
d) Hacer un diseo de clasificacin doble para determinar si hay un efecto del ancho
del anaquel en las ventas promedio segn la posicin. A qu conclusin se
llegar?

CAPTULO 11

PRUEBAS NOPARAMTRICAS

En las pruebas estadsticas que se han discutido hasta ahora se hacen suposiciones
acerca de la forma como se distribuye la poblacin, la que por lo general se asume que se
distribuye normalmente. De no haber normalidad las pruebas estadsticas no son vlidas.
Como se ha visto en el captulo 5 la normalidad de la poblacin se puede cotejar en base a
la muestra tomada. Frecuentemente se arriva a la conclusin de que no hay normalidad y
en consecuencia las pruebas que se hacen no son muy confiables, pero a pesar de todo se
usan.

En este captulo se estudiarn las pruebas noparamtricas, las cuales no requieren
asumir normalidad de la poblacin y que en su mayora se basan en el ordenamiento de los
datos. Todas las pruebas vistas en este captulo requieren que la poblacin sea contnua. El
parmetro que se usa para hacer las pruebas estadsticas es la Mediana y no la Media.
Existen una serie de pruebas noparmetricas, nosotros slo veremos las ms usadas.

En MINITAB, las pruebas noparamtricas aparecen cuando se elige la secuencia
STAT Noparametrics.

11.1 Pruebas Noparamtricas para una sola muestra

11.1.1 Prueba de los Signos

Se usa para hacer pruebas de hiptesis acerca de la mediana de una poblacin de una
variable continua. Es una alternativa a la prueba de Z o de t para la media poblacional.
o
: La Mediana poblacional es igual a un valor dado y la Hiptesis
alterna H
a
: La mediana es menor (mayor distinta ) del valor dado.

La prueba estadstica est basada en la distribucin Binomial con probabilidad de
xito p=1/2, puesto que la probabilidad de que un dato sea mayor o menor que la mediana
es . Para calcularla se determinan las diferencias de los datos con respecto al valor dado
de la mediana y se cuenta los signos positivos y negativos.

Cuando la hiptesis alterna es "mayor que" y el nmero de diferencias positivas es
mayor que las diferencias negativas entonces, el "p-value" se calcula por
n
c
i
i
n
P )
2
1
(
0
1
,
donde c es el nmero de diferencias positivas y, n es igual al nmero de datos pero, si hay
datos de valor igual a la mediana que se asume en la hiptesis nula entonces, n es igual al
nmero de datos menos la cantidad de datos iguales a la mediana asumida, cuando el
Edgar Acua Captulo 11 Pruebas Noparamtricas 280
nmero de diferencias positivas es menor que el nmero de diferencias negativas entonces
el "p-value" es igual a
n
n
c i
i
n
P )
2
1
(
2
.

Si la hiptesis alterna es "menor que", y el nmero de diferencias positivas es mayor
que el nmero de diferencias negativas entonces "p-value"=P
2
en caso contrario "p-
value"=P
1
. Cuando la hiptesis alterna es de dos lados y el nmero de diferencias
positivas son mayores que el nmero de diferencias negativas entonces, el p-value"=2P
2
,
si hay menor nmero de diferencias positivas entonces "p-value"=2P
1,
y si hay igual
nmero de diferencias positivas y negativas entonces, "p-value"=1.0.

Si n>20 se puede usar aproximacin Normal a una Binomial con p=q=.5, para
calcular los "p-values". Es decir,
n
n X
Z
5 .
. 5 .

La aproximacin mejora si inclumos el factor de correccin por continuidad igual a 1/2.

En MINITAB, para hacer la prueba de los signos, se sigue la secuencia STAT
Noparametrics 1-sample Sign.

Ejemplo 11.1 Probar si los datos del tiempo de vida despus del transplante del ejemplo
7.5 sugieren que la mediana sea distinta de 5.

Solucin:
La hiptesis nula H
o
, es que la mediana del tiempo de sobrevivencia es igual a 5
aos y, la hiptesis alterna H
a
, es que la mediana de los tiempos de sobrevivencia es
distinta de 5 aos.
La ventana de dilogo se completar como se muestra en la figura 11.1. En la
ventana session aparecern los siguientes resultados:

Sign Test for Median: tiempo

Sign test of median = 5.000 versus not = 5.000

N Below Equal Above P Median
tiempo 12 7 0 5 0.7744 3.700

I nterpretacin: Como el "P-value" es mayor que .05 se aceptar la hiptesis nula. Es
decir que la mediana del tiempo de vida despus del transplante es 5.0. En este ejemplo el
"P-value" es 2 veces la probabilidad de que una binomial con n=12 y p=.5 sea menor o
igual que 5, ya que el nmero de diferencias positivas es menor que el de las negativas.
Si usamos aproximacin normal a la binomial el P-value=2P(X5)=2P(Z<
12 5 .
6 5 . 5
)=2P(Z<-.2886)=2(.38864)=.77728. El valor aproximado est bastante cerca al
valor exacto a pesar de que el tamao de muestra es n=12 menor que 20.

Figura 11.1. Ventana de dilogo para la prueba de signo del ejemplo 11.1

11.1.2 La Prueba de Rangos con signos de Wilcoxon

Al igual que la prueba de los signos, es usada para hacer pruebas de hiptesis acerca
de la mediana. La prueba estadstica se basa en el estadstico de Wilcoxon (1945), el cual
se calcula de la siguiente manera:

i) Se resta de cada dato el valor de la mediana que se considera en la hiptesis nula.
ii) Se calcula los rangos de las diferencias sin tomar en cuenta el signo de las mismas ( o
sea en valor absoluto). En el caso de haber empate se asigna un rango promedio a
todas las diferencias empatadas es decir; se les asigna el rango: (menor rango del
grupo del empate + mayor rango del grupo del empate)/2.
iii) Finalmente el estadstico W de Wilcoxon ser la suma de los rangos correspondientes
a las diferencias positivas.

Cuando la hiptesis alterna es "mayor que" y la suma de los rangos
correspondientes a las diferencias positivas es mayor que el de las diferencias negativas,
entonces el "p-value" se calcula por P
1
=P(WW
c
), donde W
c
es el valor calculado de la
prueba de Wilcoxon. Cuando la suma de los rangos correspondientes a las diferencias
positivas es menor que el de las diferencias negativas, entonces el "p-value" se calcula por
P
2
=P(WW
c
).
Si la hiptesis alterna es "menor que", y la suma de los rangos correspondientes a
las diferencias positivas es mayor que el de las diferencias negativas, entonces "p-
value"=P
2
. En caso contrario "p-value"=P
1
.
Cuando la hiptesis alterna es de dos lados y la suma de los rangos correspondientes
a las diferencias positivas es mayor que el de las diferencias negativas, entonces el p-
value"=2P
2
, si la suma de los rangos correspondientes a las diferencias positivas es la
menor entonces "p-value"=2P
1
y si las sumas de los rangos correpondientes a las
diferencias positivas y negativas son iguales entonces "p-value"=1.0.

Sea n, nmero de diferencias distintas de cero, es decir se est considerando que
todos los valores de la muestra son distintos que el valor de la mediana que aparece en la
hiptesis nula. Si n.16 entonces, los "p-values" se encuentran usando tablas de la
distribucion del estadstico de Wilcoxon.
Cuando n es mayor que 16, se usa aproximacin Normal para hallar el "P-value" de
la prueba pus, se puede mostrar que el estadstico de Wilcoxon se aproxima a una normal
con media igual a n(n+1)/4, y varianza n(n+1)(2n+1)/24 , cuando no hay empates. Ms
especificamente, si no hay empates se tiene que:

) 1 , 0 ( ~
24
) 1 2 )( 1 (
4
) 1 (
N
n n n
n n
W
z

No hay que olvidarse de aplicar un factor de correccin por continuidad igual a 1/2, pues
se est aproximando una distribucin discreta por una contnua. Si hubieran empates
entonces, la varianza sufre una ligera moddificacin.y se aplica:

) 1 , 0 ( ~
2 24
) 1 2 )( 1 (
4
) 1 (
1
3
N
t t n n n
n n
W
z
g
i
i i

donde, g es el nmero de grupos empatados y t
i
es el tamao del i-simo grupo empatado.

En MINITAB, para hacer la prueba de Wilcoxon se sigue la secuencia STAT
Noparametrics 1-Sample Wilcoxon.

Ejemplo 11.2. Aplicar la prueba de Wilcoxon a los datos del ejemplo anterior.

Solucin: La ventana de dilogo se completar como se muestra en la figura 11.2

Los resultados en la ventana session sern:

Wilcoxon Signed Rank CI: tiempo

Confidence
Estimated Achieved Interval
N Median Confidence Lower Upper
tiempo 12 4.63 94.5 1.85 7.30

Figura 11.2 . La ventana de dilogo para la prueba de Wilcoxon del ejemplo 11.2

I nterpretacin: Como el P-value=.906 es mayor que .05 no se rechaza la hiptesis
nula. Es decir, hay suficiente evidencia estadstica para concluir que la mediana de los
tiempos de vida es 5.0.

La media del estadstico de Wilcoxon es 39 y su varianza es 162.5. Como la hiptesis
alterna es de dos lados entonces, el "P-value" es dos veces la probabilidad de que W37.
Usando aproximacin normal para calcular el P-value, despus de aplicar el factor de
correcin por continuidad y estandarizar, resulta que el P-value=2P(Z<-
1.5/12.7475)=2(0.4532)=0.9064.

11.2 Pruebas Noparamtricas para muestras pareadas.

La prueba de los signos y la prueba de Wilcoxon se pueden usar tambin como una
prueba alterna a la prueba de t para comparaciones pareadas. En este caso se aplica la
prueba noparamtrica a las diferencias entre los dos grupos. En el siguiente ejemplo se
ilustra la prueba de Wilcoxon para comparar dos muestras pareadas.

Ejemplo 11.3. Se desea probar si el rendimiento en la prueba de aprovechamiento
matemtico es mejor que en la prueba de aptitud matemtica. Para ello se toma una
muestra de los resultados de 40 estudiantes:

Row aprovech aptitud diferenc

1 658 598 60
2 562 623 -61
3 679 587 92
4 731 644 87
5 710 630 80
6 631 616 15
7 663 682 -19
8 654 598 56
9 565 673 -108
10 654 567 87
11 669 694 -25
12 710 647 63
13 720 674 46
14 700 609 91
15 657 644 13
16 721 720 1
17 795 673 122
18 635 673 -38
19 617 694 -77
20 580 619 -39
21 638 651 -13
22 642 688 -46
23 704 661 43
24 767 674 93
25 641 660 -19
26 721 705 16
27 625 643 -18
28 694 780 -86
29 615 619 -4
30 617 609 8
31 623 457 166
32 689 662 27
33 689 641 48
34 683 717 -34
35 702 624 78
36 694 630 64
37 729 664 65
38 710 598 112
39 689 673 16
40 741 636 105

Wilcoxon Signed Rank Test: diferenc

Test of median = 0.000000 versus median > 0.000000

N
for Wilcoxon Estimated
N Test Statistic P Median
diferenc 40 40 591.0 0.008 27.75

I nterpretacin: Como el "P-value" es menor que .05, se rechaza la hiptesis nula y se concluye
que hay evidencia estadstica de que el rendimiento en aprovechamiento es mejor que en aptitud.

11.3. La prueba de Mann-Withney para dos muestras independientes

Se usa cuando se quiere comparar dos poblaciones usando muestras independientes,
es decir; es una prueba alterna a la prueba de t para comparar dos medias usando muestras
independientes. Tambin es conocida como la prueba de suma de rangos de Wilcoxon.
La hiptesis nula es que la mediana de las dos poblaciones son iguales y la hiptesis
alterna puede ser que la mediana de la poblacin 1 sea mayor ( menor distinta) de la
mediana de la poblacin 2.
Consideremos que se ha tomado una muestra de tamao n
1
de la poblacin 1 y de
tamao n
2
de la poblacin 2. Para calcular la prueba estadstica se combinan las dos
muestras tomadas en una sola y se calculan los rangos en orden ascendente, en caso de
datos empatados se asigna un rango promedio a ellos. Luego el estadstico W es igual a la
suma de los rangos correspondientes a la muestra tomada de la poblacin 1. Existen
tablas para calcular los p-values de la prueba estadstica.
Cuando tanto n
1
como n
2
sean mayores que 10, se puede demostrar que si no hay
empates, entonces W se distribuye aproximadamente como una normal con media
n
1
(n
1
+n
2
+1)/2 y varianza n
1
n
2
(n
1
+n
2
+1)/12. Es decir; cuando no hay empates:

) 1 , 0 ( ~
12
) 1 (
2
) 1 (
2 1 2 1
2 1 1
N
n n n n
n n n
W
z

No hay que olvidarse de aplicar un factor de correccin por continuidad igual a 1/2, pus
se est aproximando una distribucin discreta por una continua. Cuando hay empates
entonces, la varianza es modificada.y se obtiene:

) 1 , 0 ( ~
) 1 )( (
1 [
12
2
) 1 (
1 2 1 2 1
3
2 1
2 1
2 1 1
N
n n n n
t t
n n
n n
n n n
W
z
g
i
i i

donde, g y t
i
tienen el mismo significado dado anteriormente.

En MINITAB, para hacer la prueba de Mann-Withney, se sigue la secuencia STAT
Noparametrics Mann-Withney.

Ejemplo 11.4. Usando los datos del ejemplo 7.11 probar si el rendimiento en la prueba de
aprovechamiento matemtico de los estudiantes de escuela pblica y privada es el mismo.
Los datos son como siguen:

privada pblica
642 580
767 638
641 704
721 694
625 615
689 617
623
689

Solucin: La ventana de dilogo se completar as:

Figura 11.3. Ventana de dilogo para la prueba de Mann-Whitney del ejemplo 11.4

La ventana session mostrar los siguientes resultados:

Mann-Whitney Test and CI: privada, pblica

N Median
privada 6 665.5
pblica 8 630.5

Point estimate for ETA1-ETA2 is 26.5
95.5 Percent CI for ETA1-ETA2 is (-47.0,104.0)
W = 56.5
Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.1556
The test is significant at 0.1551 (adjusted for ties)

I nterpretacin: Como el "P-value" 0.1551 (ajustado por empates), es mayor que 0.05 se
acepta hiptesis nula. Es decir; que hay evidencia estadstica para concluir que el
rendimiento en aprovechamiento matemtico es el mismo para estudiantes de escuela
pblica y privada.

11.4 La prueba de Kruskal-Wallis para comparar ms de dos grupos

La prueba de Kruskal-Wallis, es una alternativa a la prueba F del anlisis de varianza
para diseos de clasificacin simple. En este caso se comparan varios grupos pero usando
la mediana de cada uno de ellos, en lugar de las medias. Es decir, la hiptesis nula es Ho:
La mediana de las k poblaciones consideradas son iguales, y la alterna Ha: Al menos una
de las poblaciones tiene mediana distinta a las otras.
La prueba estadstica, denotada por H, se calcula hallando primero los rangos de
cada una de los k grupos pero, considerando que se ha combinado todos los grupos en
uno slo. En caso de haber datos empatados se asigna un rango promedio a cada dato del
grupo empatado.

Sea R
k
la suma de los rangos del grupo k, el estadstico de Kruskal-Wallis necesario
para hacer la prueba estadstica se calcula por.

) 1 ( 3
) 1 (
12
1
2

n
n
R
n n
H
k
i i
i

donde, n es el total de datos. Si hay empates en los datos entonces, se aplica la siguiente
modificacin a H.

n n
t t
H
H
g
i
i i
3
1
3
1
'

Se puede mostrar que si los tamaos de cada grupo son mayores que 5 entonces, H se
distribuye como una Chi-Cuadrado con, k-1 grados de libertad. Luego, la hiptesis nula se
rechaza si
2
1 , 1
k
H .
Para hacer la prueba de Kruskal-Wallis en MINITAB, los datos de la variable
cuantitativa deben ir en una columna y los niveles del factor en otra. No se permite en este
caso entrar los grupos en columnas separadas.

Ejemplo 11.5. Usar la prueba de Kruskal-Wallis para comparar los mtodos de enseanza
del ejemplo 10.1

Solucin:
La hiptesis nula es Ho: Las medianas de los tres mtodos de enseanza son iguales y la
hiptesis alterna es Ha: Al menos uno de los mtodos de enseanza tiene mediana distinta
a los otros.
La ventana de dilogo se completar as:

Figura 11.4 Ventana de dilogo para la prueba de Kruskal-Wallis del ejemplo 11.5

En la ventana session se obtendr:

Kruskal-Wallis Test: notas versus mtodo

Kruskal-Wallis Test on notas

mtodo N Median Ave Rank Z
1 6 61.50 5.4 -2.29
2 7 85.00 13.8 2.72
3 5 74.00 8.4 -0.54
Overall 18 9.5

H = 8.23 DF = 2 P = 0.016
H = 8.25 DF = 2 P = 0.016 (adjusted for ties)

I nterpretacin: Como el P-value es 0.016 menor que .05, se rechaza la hiptesis nula
y se concluye que los mtodos no son todos iguales. Es decir; al menos uno de los mtodos
tiene mediana distinta a los otros.

11.5. El Coeficiente de Correlacin de Spearman.

La correlacin de Spearman mide el grado de asociacin entre dos variables
cuantitativas que siguen una tendencia siempre creciente o siempre decreciente. Es decir,
es ms general que el Coeficiente de correlacin de Pearson, el cual asume que la relacin
entre las dos variables solamente es lineal, la correlacin de Spearman, en cambio se
puede calcular para relaciones exponenciales o logaritmicas entre las variables.
El coeficiente de correlacin de Spearman es simplemente la correlacin de Pearson
entre los rangos del los valores de las dos variables. Para hallar los ordenamientos, se usa
la opcin Rank del men Calc. Los ordenamientos se guardan en otras columnas y, luego
se halla simplemente el coeficiente de correlacin usual entre stas dos columnas usando
la opcin correlacin del submen Basic Statistics del men STAT.

Ejemplo 11.6. Calcular el coeficiente de Correlacin de Spearman y compararlo con el
coeficiente de correlacin de Pearson para los siguientes datos:

Aos como
Realtor (X)
3 4 6 7 8 12 15 20 22 26
Casas
Vendidas(Y)
9 12 16 19 23 119 34 37 40 45

Solucin:
Ordenando los datos de cada variable se obtiene:

rankx
1 2 3 4 5 6 7 8 9 10
ranky
1 2 3 4 5 10 6 7 8 9

La correlacin de Spearman de las variables X e Y ser igual a la correlacin de
Pearson entre las variables rankx y ranky dando un valor de 0.879 lo que indica una alta
asociacin entre las variables. Sin embargo; la correlacin de Pearson entre las variables X
e Y da solamente 0.371, lo que indica una baja asociacin lineal entre las variables. Notar
que el "outlier" 119 ha afectado grandemente al coeficiente de correlacin de Pearson,
pero no ha tenido efecto sobre la correlacin de Spearman.

MINITAB tambin incluye en el men de Pruebas Noparamtricas a la Prueba de
Friedman para anlisis de diseos en bloques al azar y la prueba de Mood.

EJERCICIOS

1. En un hospital oncolgico se llevan estadisticas acerca del tiempo de supervivencia de
pacientes de cncer Los resultados en una muestra aleatoria de 25 pacientes fueron
los siguientes.

42 45 51 46 340 81 246 63 155 151 37 138 245 377 455 365 776 163 20 1234 201 2970 456
1235 1581

Usar una prueba noparamtrica para probar que la mediana del tiempo de
supervivencia de pacientes de cncer, es mayor de 300 dias. Escribir las hiptesis y
comentar sus resultados.

2. Se eligen al azar 10 empleados de una empresa y se anotan sus sueldos mensuales
(en dlares
1500 1250 900 800 1450 990 1200 1900 1300 1050

Usando un nivel de significacin del 10% se podr concluir que el sueldo mediana
excede a 1200?

3. El tiempo de produccin (en horas) de un artculo de 15 mquinas elegidas al azar en
una gran planta de fabricacin son:
5.80 6.06 5.90 5.92 5.68 6.27 6.08 6.15 5.93 5.96 5.88 5.63 6.00 5.96 5.70
A un nivel de significacin de 0.05:
a) Probar si la mediana del tiempo requerido difiere de 5.8
b) Probar si la mediana es mayor a 5.8

4. Las notas de una evaluacin hecha a 40 estudiantes elegidos al azar son:
78 75 52 65 68 75 52 62 73 75 77 70 50 72 66 62 77 76 74 75
68 71 70 66 68 66 67 85 82 66 72 65 71 77 67 82 65 69 82 87
a) Probar si la mediana de las notas difiere de 70. Usar = 0.05
b) Probar si la mediana de las notas es menor de 70. Usar = 0.05

5. La efectividad de Bezendrine en acelerar el rtmo cardaco (medido en pulsaciones por
minuto), fue cotejado en 10 pacientes elegidos al azar. Cada paciente sirvi como su
propio control con la mitad de los pacientes asignados al recibir Bezendrine durante el
primer perodo de estudio y, la otra mitad a recibir un Placebo(solucin alcalina).
Todos los pacientes fueron examinados para determinar su rtmo cardiaco, 2 horas
despus de recibir el medicamento. Despus de dos semanas donde no se les dio
ninguna medicina a los pacientes que haban recibido el Placebo se les dio
Bezendrine, y a la otra mitad el Placebo. Los resultados son como siguen:

Paciente Placebo Bezendrine
1 250 258
2 271 285
3 243 245
4 252 250
5 266 268
6 272 278
7 293 280
8 296 305
9 301 319
10 298 308

Usar una prueba no paramtrica para probar la efectividad del Bezendrine. Escribir las
hiptesis correspondientes. Comparar su resultado con el de la prueba T

6. Se est estudiando la efectividad de un nuevo medicamento para reducir la presin
arterial Sistlica, el medicamento fue suministrado a 20 pacientes . Se les ha medido
la presin arterial, antes y dos horas despus de suministrarles el medicamento.
Los datos se presentan en la siguiente tabla:

Sujeto pre. Inic Pre. Post sujeto pre. Inic pre. Post
1 102 103 11 118 114
2 142 140 12 144 139
3 185 182 13 136 137
4 110 108 14 130 126
5 143 140 15 121 125
6 131 129 16 151 150
7 115 111 17 137 135
8 124 126 18 142 136
9 150 145 19 120 117
10 108 108 20 153 149

A un nivel se significacin del 1%, probar si hay evidencia suficiente para afirmar que
el medicamento es efectivo.

7. Se desea comparar la eficacia de dos compuestos en la produccin de glucosa en la
sangre, para tratar a personas que padecen de Hipoglicemia, para tal propsito se
seleccionaron al azar 7 ratones, los resultados del estudio se presentan en la siguiente
tabla:

Ratn Comp 1 Comp 2
1 4.6 5
2 5.3 5.2
3 3.8 3.5
4 7.2 6.3
5 8.4 8.6
6 4.8 4.2
7 3.5 4.4

A qu conclusin llegar usando un nivel de significacin del 5 por ciento?

8. El presidente de una empresa piensa que el nmero de ausencias injustificadas para el
personal gerencial es menor que la de los obreros. Para esto se eligen al azar 7 gerentes y 10
obreros, y se registran sus ausencias injustificadas durante un ao.
Gerentes: 20 14 19 22 25 30 17
Obreros: 37 29 51 18 40 26 41 24 19 28

a) Probar la hiptesis usando una prueba noparametrica. A qu conclusin llega?
b) Probar la hiptesis usando una prueba de t. A qu conclusin llega? Cmo se
comparan los P-values?

9. Se seleccionaron al azar ministros de 3 religiones: 8 metodistas, 10 catlicos y 9
pentecostales y se desea probar si poseen el mismo conocimiento sobre enfermedades
mentales. Los resultados de un test para medir sus conocimientos son los siguientes

Metodista Catlico Pentecostal
32 32 28
30 32 21
30 26 15
29 26 15
26 22 14
23 20 14
18 14 09
19 16 11
14 08
15

Escribir la hiptesis correspondiente y usar una prueba noparamtrica para probarla.
Analizar sus resultados y compararlo con la prueba F del anlisis de varianza.

10. El peso (en libras), y estatura (en pulgadas) de 15 jvenes se muestra en la siguiente
tabla. Calcule el coeficiente de correlacin de Spearman y compararlo con el
coeficiente de correlacin de Pearson.

estatura Peso
4.8 115.3
4.9 124.9
5.1 123.8
5.2 137.2
5.3 138.3
4.8 113.1
5.2 137.9
4.8 101.2
5.4 131.9
4.8 102.7
4.9 115.0
5.3 130.5
5.2 108.0

Estadistica Con Mitab PDF

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estadistica Con Mitab PDF

Enviado por

Direitos autorais:

Formatos disponíveis

CAPTULO 1

es la pendiente de la linea de regresin.

son hallados usando el mtodo de mnimos cuadrados, que

se interpreta como el cambio promedio en la variable de respuesta Y

La probabilidad es el valor en el cual se estabiliza la frecuencia relativa del evento

Como Q O 1& se tiene que

maneras de elegir el comit1!

invitaciones posibles donde las dos personas en disputa pueden ser

invitaciones que se pueden 4acer!

maneras de elegir sin ninguna restricci'n los 6 representantes!

maneras de elegir los 9 pisos donde bajan las personas& 4ay

manera de elegir las

al error estndar de la media muestral. Pero en la prctica este factor es omitido a

= < < ~ < <

es el alor de la normal estndar tal que el rea a la derecha de dicho alor

para representar a una distribucin Mi>/uadrado con

, donde t es el menor de los nmeros r-1 y c-1, aqui r representa el nmero

de son hallados usando el mtodo de

, es llamada la lnea de regresin estimada. Para obtener

= 38.5 indica que por cada pe cuadrado adicional

. En el Ejemplo 9.1, s=14,118 y s.e(

se obtiene que un Intervalo de confianza del 100

Z=Log Y W=Log X Z= Log +W

Você também pode gostar