Você está na página 1de 349

Elestadsticoaccidental

AlejandroQuinteladelRo
CatedrticodelaUniversidaddeACorua
readeEstadsticaeInvestigacinOperativa
http://alejandroquintela.com

Autor: Alejandro Quintela del Ro


1 edicin: Julio, 2013
ISBN: 978-1-291-46166-4
Todos los derechos reservados
http://alejandroquintela.com

P g i n a |1

CONTENIDO
2 Prlogo.CaractersticasdelLibro..............................................................7
2.1 Sobrelaestructura.............................................................................9
2.2 Ytenamosmsportadas.................................................................10
3 Introduccin.............................................................................................13
3.1 QueslaEstadstica.........................................................................13
4 Estadsticadescriptiva..............................................................................15
4.1 Breveintroduccinhistrica............................................................15
4.2 Variablesyatributos.........................................................................16
4.3 Variablesdiscretasycontinuas........................................................17
4.4 Distribucionesdefrecuencias..........................................................18
4.5 Representacionesgrficas................................................................22
4.5.1 DiagramadeSectores(Tarta).....................................................22
4.5.2 Pictograma..................................................................................23
4.5.3 Diagramadebarras....................................................................24
4.5.4 Histograma(defrecuencias).......................................................25
4.5.5 Polgonodefrecuencias.............................................................29
4.5.6 reabajoelhistogramadefrecuencias.....................................30
4.6 Medidasdeposicinotendenciacentral........................................31
4.6.1 Lamedia......................................................................................32
4.6.2 Lamediana..................................................................................36
4.6.3 Lamoda......................................................................................38
4.6.4 Cuantiles.....................................................................................39
4.7 Medidasdedispersin.....................................................................45
4.7.1 Lavarianzaydesviacintpica....................................................45
4.7.2 Divisinporn1...........................................................................46

2|P g i n a

4.7.3 Otrasmedidasdedispersin......................................................48
4.7.1 DesigualdaddeTchebychev.......................................................51
4.8 Medidasdeforma............................................................................54
4.8.1 Simetra.......................................................................................54
4.8.2 Curtosis.......................................................................................59
4.9 Transformaciones.............................................................................62
4.9.1 Normalizacinotipificacin.......................................................62
4.10

Anlisisexploratoriodedatos......................................................64

4.10.1 Diagramadetalloyhojas.........................................................64
4.10.2 Diagramadecaja(boxplot).....................................................66
5 Anlisisconjuntodevariables.................................................................73
5.1 Distribucinconjuntadedoscaracteres..........................................74
5.2 Representacionesgrficas................................................................75
5.2.1 Representaciones3D..................................................................75
5.2.2 Diagramadedispersinonubedepuntos................................76
5.2.3 Covarianza.Correlacinlineal....................................................78
5.2.4 CoeficientedecorrelacindePearson......................................79
5.3 Ajusteyregresinbidimensional.....................................................82
5.3.1 Casolineal...................................................................................83
5.3.2 Problemasconlaprediccin......................................................87
5.3.3 Otrosajustes...............................................................................88
5.4 Otrosaspectosatenerencuenta....................................................93
6 Probabilidad.............................................................................................97
6.1 Antecedenteshistricos...................................................................97
6.2 Probabilidad.....................................................................................99
6.2.1 Definicionesbsicas..................................................................100
6.2.2 Sucesosyconjuntos..................................................................102
6.2.3 Probabilidad..............................................................................104

P g i n a |3
6.2.4 Asignacindeprobabilidades...................................................107
6.2.5 Probabilidadesgeomtricas.....................................................114
6.2.6 ProbabilidadCondicionada.......................................................115
6.2.7 Regladelproducto....................................................................119
6.2.8 Teoremadelasprobabilidadestotales....................................123
6.2.9 RegladeBayes..........................................................................127
6.2.10 Resumenparavagos...............................................................131
7 Variablesaleatorias................................................................................133
7.1 Variablesaleatoriasdiscretas.........................................................134
7.1.1 Funcindedistribucin............................................................135
7.1.2 Variablesdiscretasinfinitasnumerables..................................139
7.2 Variablesaleatoriascontinuas.......................................................141
7.2.1 Funcindedensidad.................................................................142
7.3 Medidascaractersticasdeunavariablealeatoria.........................150
7.3.1 Esperanzadeunavariablealeatoria........................................150
7.3.2 Lavarianza................................................................................151
7.3.3 Propiedadesdelamediayvarianza.........................................153
7.3.4 Mediana....................................................................................154
7.3.5 Cuantil.......................................................................................155
7.3.6 Moda.........................................................................................155
7.3.7 Resumenparavagos.................................................................173
8 Principalesvariablesdiscretas...............................................................175
8.1 VariabledeBernoulli......................................................................175
8.1.1 Mediayvarianza.......................................................................175
8.2 VariableBinomial............................................................................176
8.2.1 Mediayvarianza.......................................................................179
8.2.2 Propiedadaditiva......................................................................181
8.3 VariabledePoisson........................................................................182

4|P g i n a

8.3.1 Mediayvarianza.......................................................................184
8.4 VariableGeomtricaodePascal....................................................188
8.4.1 Mediayvarianza.......................................................................189
8.5 VariableBinomialnegativa.............................................................191
8.5.1 Mediayvarianza.......................................................................192
8.6 VariableHipergeomtrica..............................................................195
8.6.1 Mediayvarianza.......................................................................196
9 Principalesvariablescontinuas..............................................................201
9.1 VariableUniforme..........................................................................201
9.1.1 Mediayvarianza.......................................................................202
9.2 VariableExponencial......................................................................204
9.2.1 Mediayvarianza.......................................................................204
9.3 VariableNormal..............................................................................205
9.3.1 Mediayvarianza.......................................................................206
9.3.2 Propiedades..............................................................................206
9.3.3 Tipificacin................................................................................209
9.3.4 Propiedadaditiva......................................................................212
9.4 Teoremacentraldellmite.............................................................214
9.5 Otrasvariablesaleatoriasdeinters..............................................221
9.5.1 VariableChicuadrado..............................................................221
9.5.2 Variable deStudent...............................................................222
9.5.3 VariableFdeFisherSnedecor..................................................223
10 Inferenciaestadstica.Introduccin......................................................229
11 Muestreo...............................................................................................231
11.1

Procedimientosdemuestreo.....................................................231

11.1.1 Muestreoaleatoriosimple.....................................................231
11.1.2 Muestreoaleatoriosinreposicin.........................................232
11.1.3 Muestreoestratificado...........................................................232

P g i n a |5
11.1.4 Muestreosistemtico.............................................................235
12 Estimacinpuntual................................................................................237
12.1

Estimacindelamediadeunavariable.Mediamuestral.........239

12.2

Estimacindelavarianza.Cuasivarianzamuestral...................241

12.3

Estimacindeunaproporcin.Proporcinmuestral.................242

12.3.1 Otrosestimadores..................................................................243
12.4

Distribucinenelmuestreodeunestimador............................244

12.5

Calidaddelosestimadores.........................................................247

12.5.1 Sesgodeunestimador...........................................................248
12.5.2 Consistencia............................................................................249
12.6

Intervalosdeconfianza...............................................................250

12.6.1 Definicionesbsicas................................................................251
12.6.2 Intervalosdeconfianzaparavariablesaleatoriasnormales..252
12.7

Intervalosparalacomparacindepoblaciones.........................261

12.7.1 Intervalodeconfianzaparaladiferenciademedias.............262
12.7.2 Intervalodeconfianzaparalarazndevarianzas.................265
12.8

Casodemuestrasrelacionadasopareadas...............................268

12.9

Intervalosparaproporciones......................................................269

12.9.1 Intervaloparaunaproporcin...............................................270
12.9.2 Intervalodeconfianzaparaladiferenciadeproporciones....271
13 Contrastesdehiptesis.........................................................................275
13.1

Introduccin.Conceptosesenciales...........................................275

13.2

ErrortipoIyerrortipoII.Potencia.............................................279

13.3

Ejemploprctico:Unapelcula...................................................281

13.4

Contrastesdehiptesisparamtricas........................................287

13.4.1 Comorealizaruncontrastedehiptesisparamtrico...........289
13.4.2 Regincrticadeuncontraste................................................294
13.4.3 Potenciadelcontraste............................................................297

6|P g i n a

13.4.4 Resumen:Etapasbsicasdeuncontrastedehiptesis.........299
13.5

Contrastesuniybilaterales........................................................301

13.5.1 Resumen:clculogeneraldelpvalor....................................306
13.5.2 Contrastesparamtricosmsusuales...................................308
13.5.3 Paralamediadeunavariablenormal....................................308
13.5.4 Paralavarianza.......................................................................310
13.5.5 Paraladiferenciademedias..................................................311
13.5.6 Paralarazndevarianzas......................................................312
13.5.7 Paraunaproporcin...............................................................316
13.5.8 Paraladiferenciadeproporciones........................................316
13.5.9 Casodedosmuestrasrelacionadas(apareadas)...................318
14 Referencias............................................................................................325
15 ApndiceA.InstalacindeR.................................................................327
15.1

Descargadelprograma...............................................................327

15.1.1 Instalacindepaquetes.........................................................338
15.2

BibliografaespecficadeR.........................................................340

P g i n a |7

PRLOGO.CARACTERSTICASDELLIBRO

Existenmilesdelibrosdeestadsticayprobabilidadenelmercado.Inclusolos
hay gratuitos en Internet. Quien est leyendo este prlogo, es casi seguro que ha
ojeado el libro, lo cual le habr provocado la impresin de que le resultar difcil
encontrar otro con tantas fotografas y dibujos por el medio (no tratndose de
grficosmatemticos),niqueaparezcaTomCruise,elseorMiyagi,VladimirPutino
elmismoBrcenas.

8|P g i n a

Muchas veces escuchamos que las matemticas son infumables, y que hay
quetragarlastalcualporquenosepuedencontardeotraforma,nisepuederodar
una pelcula como si se tratara de una leccin de historia. Bueno, aqu vamos a
intentar desmontar un poco esa idea. En este texto vamos a intentar que el
estudiantetengamsfcilrecordarciertasideas,lahistoria,lasfrmulasylasnuevas
nociones,utilizandodibujos,ancdotas,mencionandopelculas,confotogramasde
cine,conayudadeTomCruise,deRussellCrowe,delosXmenyquienhagafalta.
Pretendemosamenizar,enloposible,elestudiodeunamateriaqueesten
muchos planes de estudio y en ocasiones, resulta ingrata. Tambin intentaremos
aprovechar la gran cantidad de material disponible en la red para minimizar el
esfuerzoenclculos(tablasdelanormalydemsfuera.Vivimosenlapocadonde
hastaelmstorpetieneuntelfonoounTabletparaconectarseainternet,asque
podemos evitarnos muchos los). Existen muchas aplicaciones gratuitas y pginas
webdondepodremosrealizargrficasyclculos.Alavez,existesoftwareparatodos
losgustos,desdeelmuycaroymuycompleto,comoelSPSS,hastaeltambinmuy
completoygratuitoR.Cierto,sabemosquehaymuchoprofesorantediluvianoque,
o bien no sabe de qu estamos hablando, o no va a dejar usar ordenador en el
examen,osimplementeleencantaquelosdemssufranigualquel,ysilaprendi
ausarlastablasdelasdistribuciones,losdemsquerabienBueno,esonoestan
complicadonimuchomenos.Lofundamentalquesepretendeesqueseentiendan
los conceptos. Si despus a uno le exigen usar tablas, o un paquete estadstico
diferentealR(elqueusaremosaqu),seguroquelellevarmuypocotiempopreparar
esasnocionesextra.Si,comohemosdichoenlacontraportada,elquetieneahora
estelibroesunprofesionalquepretenderepasarsusconocimientosdeestadstica,
oaprenderlosdeunamanerasencilla,esperamosallanarleelcaminoyquelatarea
leseamscmoda.

P g i n a |9

2.1

SOBRELAESTRUCTURA

El texto est enfocado a los contenidos de una asignatura de estadstica


bsica de una carrera (ahora se llaman grados) de tipo experimental o aplicado.
Desarrolla los contenidos de estadstica descriptiva de una y dos variables,
probabilidad,variablesaleatoriaseinferencia(estimacin,intervalodeconfianzay
testdehiptesis).Altratardehacereltextolomsamenoeintuitivoposible,hemos
evitadoprofundizarencontenidosmatemticos,porloquesloserarecomendable
comolecturacomplementariaencarrerasdondesinteresenlosaspectostericos
(matemticas,ingenierasdeesasqueprecisanquinceaosparaterminarlas...).
Todoslosconceptostericosestnacompaadosdeejemplosyejercicios,
queseresuelvenalapardedescribirlaformaderealizarlosclculospertinentesen
R, o en alguna aplicacin de Internet (siempre que sea posible). Adems, en el
ApndiceAincluimosunmanualdedescargaeinstalacindelsoftware,ydecmo
dar los primeros pasos en el mismo, que es muy fcil (hasta los de letras pueden
hacerlo). Recomendamos leer primero este apndice, y tener instalado el R en el
ordenador,sisequierenrealizarlosejerciciosdellibrosimultneamenteasulectura.
Algunos ficheros de datos sobre los que trabajaremos en el libro pueden
obtenerse en mi pgina web, http://alejandroquintela.com, a la cual tambin
haremosreferenciaenocasiones,porqueincluyevarioswidgetsoaplicacionesdonde
realizarclculos.TambinseencuentranlosficherosdesintaxisdeRconlosquese
han realizado algunos de los ejercicios del libro. A los datos se accede mediante
http://alejandroquintela.com/libro_teoria_datos, y a los ficheros de R mediante
http://alejandroquintela.com/libro_teoria_sintaxis_r.
Por ltimo, quiero agradecer la colaboracin de Leolux, que ha realizado
variosdelosdibujosdellibro.Podisvisitarsupginahttp://leolux2.blogspot.com.

10|P g i n a

2.2

YTENAMOSMSPORTADAS

Pero,comoslosepuedeponeruna,dejamosaqulasotras.

P g i n a |11

12|P g i n a

P g i n a |13

INTRODUCCIN

3.1

QUESLAESTADSTICA

Unhombremuertoesunadesgracia.Unmillndemuertosesuna
estadstica.
JosefStalin

Nunca nadie tan bestia dijo


algo tan cierto. En su acepcin ms
conocida,laestadsticaseutilizapara
resumirlainformacindeunconjunto
dedatos,seadeltipoquesea.Espor
ello que escuchamos tan a menudo
frases como el 90 por ciento de los
espaoles (varones) asegura que
compra la revista Intervi por los
reportajes de poltica, el 90 por ciento de los espaoles afirman tener un
coeficienteintelectualmayorquelamediaounporcentajealtsimodeencuestados
nocreeenlasencuestas.
Sin embargo, el sentido cientfico de la palabra se refiere a la rama de las
matemticasqueseutilizaparaestudiarpoblacionesapartirdemuestras.Loquehoy
se conoce como Cienca Estadstica es el resultado de la unin de dos disciplinas,

14|P g i n a

diferenciadasensusorgenes,yqueevolucionarondeformaindependiente,hasta
que se agruparon en el siglo XIX: la Estadstica Descriptiva y el Clculo de
Probabilidades.Laprimera,quecomosupropionombreindicaestudialadescripcin
dedatos,seremontaalaantigedadysurgeporelintersdelosgobernantesporel
conocimiento de los recursos disponibles. Habitualmente, los gobernantes suelen
creersedotadosdenaturalezadivinaeinteligenciasobrehumana,aunquenecesiten
siempre del poder de los ejercitos para recaudar el dinero de sus sbditos.
Actualmentelodisfrazandedemocracia,peroelafnrecaudatoriodelosgobiernos
nuncahacesadonicesar.
Por otra parte, el clculo de probabilidades fue introducido en la segunda
mitaddelsigloXVII,ysuorigenfuelaaficindelanoblezafrancesaporlosjuegosde
azar.SusprimerospasoscorrespondenalaresolucinporBlaisePascal(16231662)
yPierreFermat(16071665)dealgunosproblemasformuladosporelcaballeroMr
(16071684)relacionadosconlosjuegosdedados.Laintegracindeambaslneasde
pensamiento(estadsticayprobabilidad)diolugaraunacienciaqueestudiacmo
obtener conclusiones de la investigacin emprica mediante el uso de modelos
probabilistas.Enloscaptuloscorrespondientesampliaremosalgomsestaresea
histrica.
Acontinuacinresumimos,enelsiguientegrfico,elprocesocientficodel
anlisisestadstico.

P g i n a |15

ESTADSTICADESCRIPTIVA

Estecaptulotieneporfinalidadladescripcindeunconjuntodedatos,sin
considerarquestospuedanpertenecerauncolectivomsamplio,ysinlaintencin
deproyectarlosresultadosqueseobtenganalcolectivoglobal;objetoestoltimo
deloqueseconocecomoInferenciaEstadstica.

4.1

BREVEINTRODUCCINHISTRICA

Los orgenes histricos de la Estadstica descriptiva se encuentran en los


procesos de recogida de datos, censos y registros sistemticos, en una suerte de
aritmticaestatalparaasistiralgobernante1,quenecesitabaconocerlariquezayel
nmero de sus sbditos con fines raras veces honorables. Quien se crea que el
ministeriodeHaciendaesuninventorecienteestmuyequivocado.Losprimeros
registrosderiquezaypoblacinqueseconocensedebenalosegipcios.RamssII,
en el 1400 a.C., realiz el primer censo conocido de las tierras de Egipto.
Posteriormente,desdeelsigloIIIa.C.,enlascivilizacioneschinayromanasellevaron
a cabo censos e inventarios de posesiones. Las intenciones eran, son y han sido
siemprelasmismas:elquemandadecidetoopam,yleaaquienseleoponga.
Comomodelo,podemosmencionarlaprimerapelculagalardonadacononce
Oscar:BenHur.Alprincipiodelapelcula,noscuentancomolosromanos,invasores
deJudea,exigenquelosjudiosvayanaempadronarseasulugardenacimiento,con
elfindehaceruncensoycobrarlesimpuestos.MarayJosacudenasualdeapara
ello,yenelcaminonaceJessdeNazaret.

Estadista.

16|P g i n a

EnEspaa,esteintersnaciconla
preocupacin de los Reyes Catlicos por
mejorarelestadodelasCosasPblicas
(administracin
del
reino),
establecindoseelprimercensodelquese
tienereferenciaen14822.

Los datos constituyen la materia


prima de la Estadstica, establecindose distintas clasificaciones en funcin de la
forma de los mismos. Se obtienen datos al realizar cualquier tipo de prueba,
experimento,observacin...

4.2

VARIABLESYATRIBUTOS

Una primera clasificacin del tipo de datos procede del hecho de que las
observacionesseandetipocualitativoocuantitativo.Enelprimerodeloscasosse

2
SedesconocesienlamejoradelascosaspblicaslareinaIsabelincluasuestadofsico,

despusdeestarunaosinlavarse(prometinohacerlohastaqueseconquistaraGranada).

P g i n a |17
tieneunatributo,yenelsegundounavariable.Parahacerreferenciagenricamente
aunavariableoaunatributoseutilizaeltrminocarcter.
Como ejemplos de atributos tenemos el color del pelo, raza, idioma de un
grupo de personas, y como variables su estatura, peso, dinero que lleven en el
bolsillo,etc.
Siesnecesariooperarconunatributo,seleasignaracadaunadesusclases
unvalornumrico,conloquesetransformaenunavariable.Estaasignacinsehar
de forma que los resultados que se obtengan al final del estudio sean fcilmente
interpretables. Por ejemplo, si hay 3 idiomas posibles (ingles, francs y espaol)
podemosusar1,2y3.

4.3

VARIABLESDISCRETASYCONTINUAS

Si las observaciones corresponden a cantidades, las variables pueden


distinguirseentrediscretasycontinuas.Sedicequeunavariableesdiscretacuando
no puede tomar ningn valor entre dos consecutivos, y que es continua cuando
puedetomarcualquiervalordentrodeunintervalo.
Ejemplosdevariablediscreta:nmerodeempleadosdeunafbrica;nmero
dehijos;nmerodecuentasocultasenSuiza.
Ejemplosdevariablecontinua:temperaturasregistradasenunobservatorio;
tiempoenrecorrerunadistanciaenunacarrera;contenidodealcoholenuncuba
libre;estatura;tiempodndoleelcoazoaunataenladiscoteca.
Enlaprctica,todaslasvariablessondiscretasdebidoalalimitacindelos
aparatosdemedida.Pensemosenelejemplodelaestatura;quizsepodradetectar
unadiferenciadeunacienmilsimademetro,odeunamillonsima,perodadosdos
individuosquesediferencienenunamillonsima,seguramenteyanoexisteotroque
tenga una estatura intermedia. De la misma forma, por insignificante que sea la
diferenciaentrelallegadadedoscorredoresolmpicosaunameta,lalimitacinde
la precisin en la medida siempre puede acabar produciendo un posible (aunque

18|P g i n a

improbable)empate.Obviandoestetipodelimitaciones,lasvariablescontinuasse
elegirn, desde un punto de vista terico, con toda la precisin que deseemos
(decimales), de manera que siempre podamos escribir un valor que est entre
cualesquieraotrosdos.

4.4

DISTRIBUCIONESDEFRECUENCIAS

Laorganizacindelosdatosconstituyelaprimeraetapadesutratamiento,
pues facilita los clculos posteriores y evita posibles confusiones. Realmente, la
organizacin de la informacin tiene una raz histrica y, actualmente, con el
desarrollodelosmediosinformticos,tienemenosimportanciadesdeunpuntode
vista aplicado. Cuando no existan ordenadores, o ni siquiera calculadoras, si se
disponadeunconjuntodedatos,eranecesariodotarlosdealgunaestructuraque
permitieraresumirlosycomprenderlosdeunaformamsomenossencilla.
Laorganizacinvaadependerdelnmerodeobservacionesdistintasquese
tengan y de las veces que se repitan cada una de ellas. En base a lo anterior, se
puedenestructurarlosdatosdetresmanerasdistintas:

Tipo I: Cuando se tiene un nmero pequeo de observaciones casi todas


distintas,stassedarnsinms.
Ejemplo 4-1 La variable

que toma los valores 2,3,5,7,7,8,11,14,16,19.

TipoII:Cuandosetieneungrannmerodeobservaciones,peromuypocas
distintas,sepuedenorganizarenunatabladefrecuencias,esdecir,cadaunodelos
valoresacompaadodelafrecuencia(tambinllamadafrecuenciaabsoluta)conla
queaparece.

P g i n a |19
Ejemplo 4-2 La tabla
2
4
5
6
7
8
9

4
4
3
2
3
3
1

indica que el valor 2 se repite 4 veces, el valor 4 se repite 4 veces, etc....


Este es el formato con que suele representarse tambin una variable
cualitativa, como el equipo de ftbol preferido por 10 personas de un bar:

2
1
6
1

TipoIII:Enelcasodequehayamuchasobservaciones,lamayoradeellas
distintas,puedendisponerseagrupndolasenintervaloseindicandoelnmerode
observacionesquecaendentrodecadaintervalo.
Paraelloseeligeunnmero
min ,yotro
max
intervalo
en intervalos(generalmentedeiguallongitud).

,ysedivideel

Ejemplo 4-3 Supongamos que tenemos los datos de una variable :


2,3,4,4.5,4.5,5.6,5.7,5.8,6,6.1,6.5,7,7,7,7.5,7.5,7.5,
8.3,9,10.2,10.4,11,11.1,11.5,12,13.
Una posible representacin en intervalos es la siguiente:

20|P g i n a

2,4
4,6
6,8
8,10
10,12
12,14

3
6
8
2
6
1

Esta clasificacin nos dice que en el intervalo 2,4 hay 3 observaciones,


que en el 4,6 hay 6, etc... El indicar los intervalos de la forma , indica
que el dato no se cuenta en este intervalo, y s se cuenta el dato . En el
primer caso hemos escrito 2,4 porque no hay ms datos a la izquierda de
2.
Encualquieradelostrescasosotipossetieneunadistribucindefrecuencias.
AlavariablequerepresentaaladistribucinselellamagenricamenteX;acadauno
delosvaloresquetomalavariableseledenotapor ,yalafrecuenciaconquese
repitedichovalorpor frecuenciaabsoluta .Paraevitarconfusiones,puedeser
aconsejable ordenar los valores de la variable de menor a mayor. Los valores
ordenadosdeunadistribucinserepresentan,enocasiones,conlossubndicesentre
parntesis:
,

,,

,donde

(41)

Para efectuar clculos, sea cul sea el tipo dedistribucin, se disponen los
datosenformadetabla(tabladefrecuencias):
.

donde:

P g i n a |21

representaalnmerototaldeobservaciones,yserigualalasuma
.3
eslafrecuenciarelativa,definidacomo .Muchasvecessemultiplica

por100paraindicarqueeseltantoporcientooporcentajedevecesqueapareceel
valor correspondiente.
.

eslafrecuenciaabsolutaacumulada,queseobtienecomo
.

eslafrecuenciarelativaacumulada,quevienedadapor

Ejemplo

4-4

En

la primera tabla del Ejemplo


Valor ni Ni
fi
2
4 4
4/20=0.2 (20%)
4
4 8
4/20=0.2 (20%)
5
3 11
3/20=0.15 (15%)
6
2 13
2/20=0.1 (10%)
7
3 16
3/20=0.15 (15%)
8
3 19
3/20=0.15 (15%)
9
1 n=20 1/20=0.05 (5%)

4-2

tendramos

Fi
0.2 (20%)
0.4 (40%)
0.55 (55%)
0.65 (65%)
0.8 (80%)
0.95 (95%)
1 (100%)

ObsrvesequesiladistribucinesdetipoIlatablaprcticamentenoaporta
informacin. Si la distribucin es de tipo III, los valores correspondern a las
llamadasmarcasdeclaseopuntosmediosdelosintervalos4.Actualmente,comolo
lgico es tener los datos en alguna variable para su tratamiento en un paquete o
programa estadstico, la representacin de los datos en una tabla de frecuencias
nicamente suele realizarse para los datos de tipo II. En el caso de una variable
continua,larepresentacinenunatablaconintervalosresultaalgoobsoleta,puesto
que la mejor forma de comprender la distribucin es por medio de una

Laletragriega(sigmamayscula)representasuma.
ndicesdesdeel1hastaelr,n1+n2++nr.
4

Dadoelintervalo

,lamarcadeclasevienedadapor

representasumartodoslos

22|P g i n a

representacingrfica,yconelclculodemedidasestadsticasquetrataremosms
adelante. Si una cantidad muy grande de datos se resume en forma de tabla de
intervalos,realmenteloqueseesthaciendoesperderinformacin.Puestoquehoy
endatodoelmundotieneunordenadorcapazdetratarconunnmerograndede
datos,resumirunconjuntodedatosenintervalosytrabajarconlasmarcasdeclase,
envezdecontodoslosdatos,haperdidogranpartedesusentido.

4.5

REPRESENTACIONESGRFICAS

En funcin de la naturaleza de los datos y de la forma en que stos se


presenten,existendistintostiposderepresentaciones.Ahoramostramosalgunasde
lasmsutilizadas.
4.5.1 DiagramadeSectores(Tarta)
Seempleapararepresentaratributosyvariablesdiscretas.

Nota 4-1 En R, hacer un grfico de este tipo son 3 instrucciones.


Supongamos que tenemos los resultados de una encuesta donde se pregunt la
opinin sobre ir desnudo por la calle. El 40 por ciento dijo que le parece bien, al 40
por ciento le parece mal y el 20 por ciento restante no tena opinin formada. Pasos a
seguir:

P g i n a |23
1.- Definir los porcentajes de los resultados:
x=c(0.4,0.4,0.2)
2.- Definir los nombres que aparecern en el grfico asociado a cada
porcentaje:
names(x)=c(BIEN, MAL, No sabe/No contesta)
3.- El grfico se hace con la instruccin
pie(x)
Para ver las muchas opciones que se podran construir (colores, ttulo, etc)
habra que hacer help(pie)

4.5.2 Pictograma
Consiste en indicar el tamao de cada categora o atributo mediante un
dibujo, tanto ms grande a medida que la categora se repite en ms ocasiones
(primeraimagen),obienconelmismodibujorepetidounnmeromayordeveces
(segundaimagen).

24|P g i n a

Suponemos que todo el mundo entiende lo que significa este grfico y el


anterior. Este tipo de representacin no suele aparecer en ningn programa
estadstico;debehacersemanualmenteconalgnprogramadeedicin.
4.5.3 Diagramadebarras
PararepresentarunadistribucindeltipoII,sesueleutilizarundiagramade
barras, levantando sobre cada valor de la variable una barra, tanto ms grande
cuantomayorsealafrecuencia.

P g i n a |25
Nota 4-2 En R esto se hace igual que en el caso del diagrama de sectores,
cambiando el comando pie por barplot:
x=c(0.4,0.4,0.2)
names(x)=c(BIEN, MAL, No sabe/No contesta)
barplot(x)

4.5.4 Histograma(defrecuencias)
Sisedisponedeunavariablecontinua,larepresentacingrficamsutilizada
eslaqueseconocecomohistograma.Larealizacindeunhistogramadefrecuencias
(absolutaorelativa)consisteenclasificarlosdatosenintervalos,delaformavistaen
loquehemosdenominadotipoIII.Unavezquesetienenlosintervalos,sobrecada
uno de ellos se levanta un rectngulo de rea o altura la frecuencia (absoluta o
relativa).ElhistogramaconlosdatosdelEjemplo43eselquesigue:

Nota 4-3 Habitualmente, al introducir los datos en un programa estadstico


para hacer un histograma, no tenemos que indicarle la clasificacin en intervalos; el

26|P g i n a

programa suele hacerlo automticamente. El grfico anterior lo hemos hecho con la


opcin hist del software R.
Tambin, en la pgina web http://alejandroquintela.com/calculos,
disponemos de un widget (aplicacin) en el que nicamente tenemos que introducir
los datos separados por comas. En el software R, es tan fcil como, una vez
arrancado el programa, escribir:
x=c(2,3,4,4.5,4.5,5.6,5.7,5.8,6,6.1,6.5,7,7,7,7.5,7.5,7.5,8.3,9,10.2,10.4,11,11.
1,11.5,12,13) (o sea, los datos que tengamos separados por comas) y, a
continuacin, ejecutar el comando
hist(x)
El software permite multitud de opciones, como indicar el titulo con
main=Histograma, el rotulo del eje X con xlab=Datos del Ejemplo, hacer
maravillas con el color, etc. (Figura 4-1).

Figura41

P g i n a |27
Ejemplo 4-5 Los siguientes datos corresponden al cociente intelectual de una
muestra de asesores de un gobierno, elegidos al azar:
70.2 62.4 72.3 63.3 62.8 60.4 73.4 72.4 68.4 67.0 70.1 69.4 65.2 62.9 70.0
71.3 66.3 65.9 68.3 70.2 70.7 67.5 65.0 70.4 72.8 66.6 72.1 64.1 68.7 67.8
66.1 69.1 71.9 73.5 65.5 66.4 64.4 63.1 62.0 65.2
Representar grficamente los datos anteriores por medio de un histograma.
Por medio del software R, la grfica que obtenemos es la de la Figura 42
(sobrecadaintervaloindicamoselnmerodedatosquehayenelmismo).

Figura42

Encualquierhistograma,sitodoslosintervalostienenlamismalongitud,es
equivalente considerar que la frecuencia es el rea o la altura de un rectngulo,
puestoqueambasmedidassonproporcionalesyeldibujoeselmismo,perorealizado

28|P g i n a

en diferente escala. Lo que representa grficamente el histograma es la


concentracindelosdatos,ocomoserepartenlosmismosalolargodelosvalores
delavariable.Cuntosmsdatoshayenunintervalo,msaltoserelrectngulo
correspondiente.
Anteshemosdichoquelaclasificacindeunavariableenintervalosserealiza,
generalmente,conintervalosdelamismalongitud.Silosintervalossondediferente
longitud, la representacin geomtrica podra dar lugar a confusin, y por ello no
sueleutilizarse.
Mencinapartemerecelaconsideracindelnmerodeintervalos.Elaspecto
deunhistograma(yportantoeldeladistribucindelosdatos)puedecambiarmucho
dependiendo del nmero de intervalos que se utilice. Los programas estadsticos
suelenutilizaralgunafrmulaquedependedelnmero dedatos.Porejemplo,por
defecto,RutilizalallamadafrmuladeSturges:

.ElExcelusa .

Sueleresultarinteresantecompararvariosgrficoscambiandoelnmerode
intervalos para una serie de datos concreta. En la Figura 43 dibujamos la misma
variabledelEjemplo45primeroconunnmerograndedeintervalos,ydespuscon
unnmeropequeo.

Figura43

P g i n a |29
UsandotambinenlacomparacinlaFigura42,puedeapreciarsecomo,a
medidaqueelnmerodeintervalosaumenta(oloqueeslomismo,elanchodelos
intervalosdisminuye)aumentalavariabilidaddelagrfica,resultandocadavezen
unagrficamenoshomognea,yquepuededistorsionarlainformacingrficaque
proporcionanlosdatos.

4.5.5 Polgonodefrecuencias
Consiste en unir los puntos medios de los rectngulos superiores en un
histograma.Veamoselresultado,conlosdatosqueestamosutilizando,enlaFigura
44. El polgono, como vemos, parte del eje X y regresa al eje X, simplemente
marcandocomoorigenyfinalunadistanciadelosextremosigualalalongituddeun
intervalo dividida entre 2. Estas dos lneas finales, adems de darle una mayor
vistosidadalgrfico(loestticonoestreidoconlaestadstica),tieneunsignificado
matemticoqueexplicamosacontinuacin.

Figura44

30|P g i n a

4.5.6 reabajoelhistogramadefrecuencias.
Pensemosenunhistogramadondehemosconsideradocomoreadecada
rectngulolafrecuenciaabsoluta(nmerodedatos)delintervalocorrespondiente.
Elreaencerradaentreelhistogramayelejehorizontalsera ,nmerototaldedatos
(simplemente sumamos el rea de todos los rectngulos). Si en vez de utilizar la
frecuenciaabsolutausamoslarelativa,elreadecadarectnguloserelporcentaje
dedatosquehayenelmismo.Elreaencerradaentoncesportodoelhistogramay
elejehorizontalseriguala1(eselcienporciendelosdatos).Anlogamente,puede
comprobarse que el rea encerrada entre el polgono de frecuencias y el eje
horizontaltambinvale1.
EnlaFigura45vemosundibujodeunhistogramaconfrecuenciasrelativas,
ylaexplicacingeomtricadeporquelpolgonodefrecuenciasencierratambin
rea uno aparece en la Figura 46 (slo hay que pensar que, en el polgono de
frecuencias,acadarectngulolerestamosysumamoselreadedostringulos,que
sevancompensandoalolargodelafigura).Elreatotaldevalorunoesunhecho
muy relevante a la hora de introducir, en el captulo de variables aleatorias, el
conceptodefuncindedensidad.

Figura45

P g i n a |31

Figura46

4.6

MEDIDASDEPOSICINOTENDENCIACENTRAL

Una vez organizados los datos en su correspondiente distribucin de


frecuencias,procedemosadarunaseriedemedidasqueresuman,delamejorforma
posible, la informacin existente en los mismos y que, de alguna manera,
representen a la distribucin en su conjunto. De alguna manera, estas medidas
centralizanlainformacin,yporellosellamandetendenciacentralopromedios.
Con estas medidas, se pretende tambin facilitar la comparacin entre distintas
variables.

32|P g i n a

A partir de ahora trabajaremos con una variable , con valores


, . . . , , ordenadosdemenoramayor,quepuedenrepetirseono,yasincluimos
todosLoscasosdescritos.

4.6.1 Lamedia
Lamediaesunamedidaderepresentacinodetendenciacentralquedebe
cumplirtresrequisitos:
1.Parasuobtencindebenutilizarsetodaslasobservaciones.
2.Debeserunvalorcomprendidoentreelmenoryelmayordelosvalores
deladistribucin.
3. Debe venir expresada en las mismas unidades que los datos (si
representakilos,lamediatambin).
Entretodaslasfuncionesqueverificanestastrespropiedadessedestacala
mediaaritmtica,apartirdeahorasimplementemedia,quesedefinedelasiguiente
manera:

...

.
Ejemplo 4-6 La nota media de los exmenes de una asignatura, el tiempo
medio de realizacin de los mismos, la estatura media, la ganancia media en
comisiones ilegales, etc.

Conelmismoesquematambinsepuededefinirlamediageomtricacomo:

quesueleutilizarse,fundamentalmente,eneconoma(generalmenteparapromediar
porcentajes).
Ejemplo 4-7 En los 3 ltimos aos, el precio de cierto producto de primera
necesidad ha subido un 10%, un 18% y un 30%. Cunto ha subido en
promedio?

P g i n a |33
Solucin.
Nosreferimosaqumismoporcentajetendraquehabersubidocadaao
para obtener, al cabo de los tres aos, el mismo valor que con estas subidas
desiguales.Paraobtenerelpreciodelprimerao(trasunasubidadel10%),tenemos
que multiplicar por 1.1 el precio inicial (P+P10/100=P+0.1P=1.1P). Al precio as
obtenidotenemosquemultiplicarlopor1.18(subidadel18%)paraobtenerelprecio
traselsegundoao.Yesteltimovalorhemosdemultiplicarlopor1.30(subidadel
30%)paraobtenerelpreciofinal.Entonces,sielprecioinicialesP,elresultadofinal
ser:
P1.11.181.30=1.6874P
Sin embargo, si consideramos la media aritmtica de 10%, 18% y 30%,
obtenemosunporcentajedel19.33%(omultiplicarpor1.1933),perosiaplicamos
esasubidadel19.33%cadaao,elresultadoqueobtenemosser:
P1.19331.19331.1933=1.6992P.
Encambio,sicalculamoslamediageomtricadelostresporcentajes:
1.1 1.18 1.3

1.1905,

podemos comprobar que P 1.19051.19051.1905=1.6873P, con lo que el


porcentajepromedioeslamediageomtricadelosporcentajes.

Otramediaeslallamadamediaarmnica,quesedefinecomo

...

Ejemplo 4-8 Un coche efecta un recorrido de 100 km en dos sentidos. En


un sentido a velocidad constante 60 km/h, y en el otro a velocidad constante
70 km/h. Calcular la velocidad media del recorrido total.
Solucin.
Comolavelocidadeselespacioentreeltiempo,
2

2
.

34|P g i n a

/
/60, y el
Como el tiempo que tard en el primer sentido es
tiempoquetardenelsegundosentidoes
/
/70,tenemosque
2
2
,
1
1
60 70 60 70
queeslamediaarmnicadelasdosvelocidades.
Otra media que tiene inters prctico es la media ponderada. Consiste en
asignaracadavalor unpeso quedependedelaimportanciarelativadedicho
valor,bajoalgncriterio.Suexpresinrespondea:

...

.
...
Ejemplo 4-9 Para ganar una plaza de funcionario en una diputacin, un
aspirante debe ser evaluado en distintas pruebas: conocimientos, pertenencia
al partido gobernante y aptitudes para el peloteo, cada una de ellas ponderada
segn su importancia o contribucin en la nota final. As, los pesos de cada
apartado sern del 30, 50 y 20 por ciento, respectivamente. Sabiendo que las
notas obtenidas por un aspirante en cada prueba son 7, 3 y 5 respectivamente,
cul es la nota global en la oposicin?
Solucin.
La media aritmtica de las calificaciones, ponderada por los pesos de cada
pruebaes

7 0.3 3 0.5 5 0.2


0.3 0.5 0.2

4.6

Caractersticasdelamediaaritmtica
Seanalizanacontinuacinunaseriedepropiedadesdelamedia(aritmtica).
1.Siacadaobservacindeunavariable selesumaunaconstante ,se
tieneunanuevavariable
conmediaigualalade mslaconstante
(verFigura47).
2.Sisemultiplicaunavariable porunaconstante ,lavariableresultante
tendrmediaiguala porlamediade .

P g i n a |35
Estasdospropiedadessepuedenresumirenlasiguiente:

Figura47

Ejemplo 4-10 Sea


1,2,3. 2. Si le sumamos 10 a X, tendremos
11,12,13; la media es 2 10. Si multiplicamos por 4, tendremos los valores
4,8,12, y la media es 4 2.
3. La media aritmtica se ve muy alterada por valores extremos de la
variable.
Supongamos,porejemplo,queunavariabletomalosvalores
1,4,12.Su
mediaes 5.66.Siaadimosunnuevovalor,porejemplo100,ahoralamediaes
29.25.Esdecir,valoresgrandesde desplazanlamediahacialaderecha.Lo
mismoocurreconvalorespequeosde ,quedesplazanlamediahacialaizquierda.

36|P g i n a

4.6.2 Lamediana
La mediana es un valor que, previa ordenacin, deja la mitad de las
observacionesasuizquierdaylaotramitadasuderecha.Esdecir,el50%delos
datossonmenoresoigualesquelamediana,yelotro50%mayoresoigualesasta.
Para su clculo, y suponiendo que los valores estn ordenados, se procede de la
siguientemanera:sihayunnmeroimpardedatos,lamedianaeselelementoque
seencuentraenelcentro,esdecir
.Sielnmerodedatosfueraparhabrados
elementoscentrales,ylamedianaseobtendracomolamediadeambos,esdecir:
2

Ejemplo 4-11 Sea


la variable que toma los valores 1,2,3,4,5 (hay
5
datos). La mediana es
3 (deja 2 valores a la izquierda y 2
a la derecha).Si toma los valores 1,2,2,3,4,5, ahora hay un nmero par de
valores. En el medio tenemos los valores
2y
3. La mediana
2

es

3 /2

2.5.

Ejemplo 4-12 Sea la variable que toma los valores 16,19,7,8,7,2,5,3,11,14.


Calcular la mediana.
Solucin.
Primeroordenamoslosvalores:2,3,5,7,7,8,11,14,16,19.Como
nmeropar,lamedianaser
7
2

8
2

10esun

7.5.

Nota 4-4 Como todo en esta vida, conviene saber cmo se hacen las cosas,
pero tambin est claro que si alguien nos las hace, mucho mejor. Si tenemos pocos
datos, los clculos son sencillos, pero se complican si hay muchos datos. Con
cualquier programa de ordenador o pgina web no habr ms que dar la orden
adecuada, con lo que tenemos que preocuparnos mucho ms de saber el significado

P g i n a |37
de media, mediana o cualquier otro valor, que cmo calcularlo. En el programa R,
con definir primero un vector x de datos y despus escribir mean(x) obtendremos la
media, y con median(x) la mediana.

Comparacinentrelamediaaritmticaylamediana.
La mediana se llama as porque est en el medio, mientras la media
aritmtica es el valor medio. Cuando un padre con tres hijas habla de ellas, se
refierealamayor,lamedianaylapequea.Sisusedadesson,porejemplo,18,15y
3,obviamenteladelmedionotienecomoedadlamediaaritmticadelasedades.Y
estahijasiempreserlamediana,aunquepaseeltiempoylosvaloresdesusedades
vayancambiando.
Lamediaaritmticasuponeunamedidacentraldelavariablequetieneen
cuentalosvaloresdelamisma.Lamediana,encambio,tieneencuentaelnmero
de datos. En el ejemplo que vimos antes, cuando
1,4,12,100 frente a
1,4,12,lamediapasdeser5.66aser29.25.Lamediana,encambio,si
1,4,12,
ser
4 y si
1,4,12,100 ser
4 12 /2 8. Como vemos, la
mediana es una medida ms robusta (se ve poco afectada) frente a valores
extremosdelavariable.
Si en vez del dato 100 lo cambiamos a 10000, la media es 2504.25 y la
medianasiguesiendo8.

38|P g i n a

Ejemplo 4-13 Supongamos que sean las calificaciones de un alumno en 4


exmenes
0,6,6,6.
La media aritmtica es 4.5 (suspenso), frente a la mediana que sera
6 (bien).

Alahoradehablar,porejemplo,delsueldopromedioorentamediadeun
pas,resultaevidentequedeberaindicarselamedidaqueseutiliza.As,unsueldo
mediodadoporlamedianaseraaqueltalqueel50porcientodelapoblacintendra
sueldomsbajoquelamediana,yelotro50porcientomsaltoquelamediana.En
cambio,elsueldomediaaritmticaeselvalorcorrespondienteasumartodoslos
sueldosydividirporelnmerodepersonas.Siexistepocagenteconsueldosmuy
altos, el sueldo media aritmtica puede ser alto, pero no ser representativo del
conjuntototaldelapoblacin.

4.6.3

Lamoda

Lamoda(absoluta)deunadistribucineselvalorquemsvecesserepite(el
valorconmayorfrecuenciaomsfrecuente).Ademsdelamodaabsoluta,aquellos
valores que tengan frecuencia mayor a la de los valores adyacentes sern modas
relativas. Por ejemplo, si tenemos la variable que toma los valores
2,3,3,4,6,7,7,7,10,lamodaabsolutaes7,puestoqueeselvalorqueserepitems
veces. Adems, el valor 3 es una moda relativa, puesto que su frecuencia es 2,
superioraladelosvalores2y4,ambasigualesa1.

P g i n a |39
Silasobservacionesvienenagrupadasenintervalos,sehablardeintervalo
modal(absoluto)eintervalosmodalesrelativos.Elintervalomodalesaquelquetiene
mayorfrecuencia(absolutaorelativa),oseaelmsaltoenelhistograma.

Figura48:Histogramadelavariablequemideelniveldecolesterolen100personas.

Ejemplo 4-14
Si consideramos la distribucin de sueldos en una
multinacional, es casi seguro que el sueldo ms alto ser el del presidente,
pero no sera el sueldo modal. El sueldo modal seguramente sera el ms bajo
(el de los curritos que menos ganan, que seguro son mayora).

4.6.4 Cuantiles
Se llama cuantil de orden 0
100 a aquel valor que divide a la
variableendospartes,dejandoasuizquierda(oinferioresal)el porcientodelos
datos(asuderechael100
porciento).Porejemplo,si
50,elcuantildeorden
50correspondealamediana.
Paracalcularlo,haremoslosiguiente:
Calculamosculesel %delosdatos

40|P g i n a

Sielvalor esunnmeronoentero,elcuantildeorden ser

(donde

representalaparteenterade ,esdecirquitamoslosdecimales).
Sielvalor esunnmeroentero,elcuantilseelige

/2(ytodos

tranquilos,queestascuentasnoslahaceelordenador).
Deentreloscuantilesdestacanloscuartiles,losdecilesylospercentiles.
Loscuartilesdividenaladistribucinencuatropartesiguales,losdecilesen
, ,
, nueve
diez y los percentiles en cien. Habr, por tanto, tres cuartiles
deciles
, ,,
y noventa y nueve percentiles
, ,,
. El segundo
cuartil,elquintodecilyelquincuagsimopercentilcoincidenconlamediana.
Muchos textos llaman cuantiles y percentiles a los mismos valores.
Realmente,uncuantilpermitequeelvalor seaunnmeronoentero(puedeser
1.45porejemplo).Comonosueleinteresarcalcularcuantilesconvaloresde no
enteros,enlaprcticavieneaserlomismo.
Con la Figura 49 y la Figura 410 comprobamos que, como siempre, una
imagenvalemsquemilpalabras.

Figura49

P g i n a |41

Figura410

Ejemplo 4-15 Sea la variable que toma los valores 16,19,7,8,7,2,5,3,11,14.


Calcular el percentil de orden 23 y el segundo decil.
Solucin.
Primeroordenamoslosvalores:2,3,5,7,7,8,11,14,16,19.Elpercentildeorden
23correspondea

10

2.3,luego

5.

Elsegundodecilcorrespondea

10

2,luego
3

4.
2
2
Podemos comprobar que ste mtodo de clculo coincide con lo utilizado
50,calculamos

anteriormenteparalamediana.Si

quelamedianaser
7
2

8
2

7.5.

10

5,conlo

42|P g i n a

Ejemplo 4-16 Con los datos del Ejemplo 4-5 calcular el valor tal que el 10 por
ciento de los asesores tienen un cociente intelectual menor o igual al mismo.
Calcular tambin el cociente intelectual medio, en el sentido de que haya
tantos asesores con cociente mayor como menor a l.
Solucin.
Con el programa R, calculamos el primer decil, que es el valor 62.89, y la
mediana, que es 67.65. El histograma con los valores sealados aparece a
continuacin.Losasesoresconcocienteintelectualmenoroiguala62.89seranel
diezporcientodelosmsburros,pordecirlodealgunamanera(dentrodelgrupo
total).Losquetienencocientemayorque67.65seranel50porcientodelosms
listos.

Nota 4-5 Segn vimos en el Ejemplo 4-15, el segundo decil no era un valor
de la variable, sino que se toma por convenio el valor medio entre los valores
y

. En vez de elegir este valor podra haberse acordado tomar otro, a lo mejor ms

cercano al primero. Ahora mismo, en el Ejemplo 4-16, calculamos con R el primer

P g i n a |43
decil y nos da 62.89, que es diferente del que nosotros calcularamos a mano
(nosotros tomaramos el primer decil como el punto medio entre
y
.
Incluso, si probamos a calcular con otro software el primer decil (como el
SPSS) es posible que resulte un valor distinto. En general, el valor de un cuantil
calculado con un software u otro no tiene por qu dar el mismo valor, sino un
nmero cercano. Qu ocurre? Pues que, como para gustos se pintan colores, existen
ms formas de definir la forma de calcular cuantiles que la vista aqu, que es la ms
clsica y aparece en la mayora de textos espaoles. Hay tambin razones de tipo
terico, en las que no podemos entrar, que aconsejaran utilizar una definicin en
algunos casos y otra diferente en otros. Independientemente de estos hechos, los
clculos segn el software no diferirn demasiado, sobre todo cuando se dispone de
un nmero grande de datos.
Veamos como se hace en R. Para calcular un cuantil determinado (por ejemplo el 44
y el 61.4) para una variable x, se escribira
quantile(x, probs=c(0.44, 0.614)) (esto es, siempre se dan los valores entre 0 y 1).
Si escribimos help(quantile)veremos que se pueden calcular cuantiles utilizando
varios mtodos, que pueden dar resultados diferentes. Esto es por lo comentado
anteriormente.
Regla para vagos: no preocuparse. Elegir el valor que d el ordenador y listo, salvo
que el profesor exija una forma determinada. Para calculos a mano, el mtodo
habitual es el que hemos explicado aqu.

Ejemplo 4-17 La importancia en la vida real de los cuantiles es notorio.


Despejemos un poco la mente leyendo este comentario sacado ntegramente
del blog (con copy paste; si hay faltas de ortografa clpese a la autora
del blog):
http://www3.rosario3.com/blogs/insomne/?tag=percentiles
HacealgunassemanasfuiaveralcineBajounmismotecho(aquenEspaa
sellamComolavidamisma;notadelautor),unapeliquecuentalahistoriade
dossolterosquetienenquehacersecargodeunanenadeunao,hijadeunapareja
deamigosquemuerenenunaccidente.Unacomediadramticaconmuchosguios
paralospadresrecientes.Losquenosonpadresoyaseolvidaronloqueimplicaba

44|P g i n a

quiznoserantanto,peroparaelrestolarecomiendo.Unchistetontosobrelos
percentiles,porejemplo,meparecisupergracioso.Alladomo,doschicasnomadres
se miraron sin entender. Con toda lgica. El percentil es como la FUM, palabras y
siglasquevienenconlamaternidad.Unavezquequedsembarazada,laFechadetu
ltima Menstruacin (FUM) pasa a ser un hito en tu vida porque ante cualquier
consulta,ecografaoprcticatelapiden.Ylospercentilesvienendespacito,aparecen
primero en los informes de las ecografas y despus, ! zas!, resultan ser parte
indispensabledelavisitaalpediatra.
Esas benditas tablas que existen para, supuestamente, contarte si tu beb
creceaunritmonormal.Lodenormalestotalmentedebatible.Acasosituhijoes
unflacuchoalqueselecaentodoslospantalonesquelecomprsnoesnormal?Es
definitivamenteanormalqueunbebotetengapesodemsyseacumuleenmejillas
quetodosquierenpellizcar?
Elpesosiempreesuntema,tengalaedadquesetenga.Ysiseesmujer,un
pocopeor.Enelcasodeloschicos,cadavisitaalpediatrasemidepesoyaltura.Esos
dosndicesteubicanalbebsentablasyahteentersdesitubebespercentil90
25,porejemplo.Sies25enpeso,implicaquede100chicosdesumismaedad75
sonmsgordos.Sies60enaltura,implicaqueslo40sonmsaltos.Noestnmal
lospercentiles,sonmuytiles,porejemplo,cuandosecombatetantoladesnutricin
comolaobesidad.Perofueradeesosextremos,sirvenrealmenteparaalgo?Esque
terminsescuchandoridculasconversacionesentremadrescompetitivas.Mibeba
estenelpercentil30delpeso,lediceunaalaotra,comosisuchiquitadetresmeses
estuvieralistaparalapasarelaporelnmeroqueledioelpediatra.Ah,peroelmo
vieneenel85dealtura.S,s,todounGinbili,seguro.Perolopeornosonquizlas
queusanlospercentilesparaalabarasushijos(despusdetodo,cualquierexcusaes
buenaparahablarbiendetusretoosunavezqueteconvertsenmadre).Lopeor,
creo,sonlasqueseobsesionan.Lasqueacortanlasvisitasalmdicosimplemente
paraconfirmarqueelneneestentalocualpuntito.Medaganasdecontarlesque
yoera90enalturadurantemiinfancia,s,ltimadelafilahastacuartogradoyque
luegoeldestinorevirtilatendencia:ahoraslollegoal90simesuboatremendos
tacos.Yadivinenqu:soyfelizigual.

P g i n a |45
Paralaschusmas,quequieransaberms(peroplease,noseobsesionen!)les
pasounlinkaunsitiodebebsquetienetablasdecrecimientodelnacimientoalao.

4.7

MEDIDASDEDISPERSIN

Lasmedidasdetendenciacentralreducenlainformacindeunamuestraa
unnicovalor,pero,enalgunoscasos,estevalorestarmsprximoalarealidadde
lasobservacionesqueenotros.Porejemplo,consideremoslavariable
0,50,100
ylavariable
49,50.Enseguidapodemosverquelasmediasaritmticasdeambas
variablessoniguales 50 ,perotambinquelavariable estmsdispersa(omenos
concentrada)quelavariable ,demaneraquelarepresentatividadde esmayor
quelade .
Acontinuacinseestudianunaseriedemedidasque,porunaparte,indicarn
elniveldeconcentracindelosdatosqueseestnanalizandoy,porotra,informarn
sobrelabondaddelospromedioscalculadoscomorepresentativosdelconjuntode
datos.

4.7.1 Lavarianzaydesviacintpica
Lavarianzaysurazcuadradapositiva,ladesviacintpica,sonlasmedidas
de dispersin ms importantes, estando ntimamente ligadas a la media como
medidaderepresentacindesta.Lavarianzavienedadaporlaexpresin:

...

Elmotivodeutilizarestafrmulaesqueeslamediaaritmticadelavariable
cuyosvaloresson
.Esdecir,estamosconsiderandolasdistanciasentrelos
datosylamediaaritmtica,ylaspromediamos(fijmonosenlaFigura411).
Silasdistanciasentrelosdatosylamedia,engeneral,songrandes,lamedia
deestasdistanciastambinloser.Silasdistanciasentrelosdatosylamedia,en
general,sonpequeas,lamediadelasdistanciastambinloser.Ahorabien,las
distancias
las elevamos al cuadrado para evitar que se compensen las

46|P g i n a

distancias positivas y negativas (segn que los datos estn a la izquierda de la


media o a la derecha). Realmente, puede demostrarse que, si no lo hacemos, y
considersemoselpromedio

,siempreseobtieneelvalorcero.

Figura411

Debidoaquelavarianzavieneexpresadaenlasunidadesdelavariable,pero
elevadasalcuadrado,sedefineladesviacintpicacomolaraizcuadradaconsigno
positivodelavarianza
.Ladesviacintpicayaapareceexpresadaenlas
mismasunidadesquelavariable.
4.7.2 Divisinporn1
Enmuchosprogramasestadsticos(comoelRoelSPSS)lavarianzasecalcula
dividiendopor
1envezdepor .

1
1

Elmotivoesdetipoterico,puestoquesilosdatossonobservacionesdeuna
variablealeatoria(adefinirencaptulosposteriores),esteltimovalorrepresenta
mejoralavarianzatericadelavariable(noospreocupisporentenderestedetalle
en este preciso momento). En cualquier caso, si es un nmero relativamente
grande, los valores que se obtienen diviendo entre o
1 son prcticamente
iguales.Tambin,enmuchasocasiones,alvalor
1 selellamadesviacinestndar.

(dondesedividepor

P g i n a |47
Enlascalculadorasquehacenclculosestadsticossueleexistirunbotncon
elsmbolo
(oalgoparecido),yotrobotnconelsmbolo
1 ,indicando
queelprimerocalculalavarianzadividiendopor ,yelsegundodividiendopor
1.LapropiacalculadoradeWindowslostiene.

Nota 4-6 Tanto la varianza como la desviacin tpica son siempre positivas, y
valen cero slo en el caso de que todos los valores coincidan con la media
(representatividad absoluta de la media).

0,50,100 e

Ejemplo 4-18 Para

50, pero

1666.67

40.82.

2500

49,50 tenemos que

1
2

50.
1.

1.4142.

Como vemos, las medias aritmticas de las variables coinciden, pero la


representatividad de la media es ms alta en el caso de la variable , porque
los valores estn mucho ms prximos entre s (y ms prximos a la media),
que en el caso de la variable . El hecho de dividir por o por
1 tiene poca
importancia cuando se trata de comparar la dispersin de 2 variables, puesto
que el valor realmente no nos importa, sino que la dispersin de una variable
sea mayor o menor que la otra.

Caractersticasdelavarianza.
1.Siselesumaunaconstanteaunavariable,lavarianzadelanueva
variable no cambia (porque la distancia de los datos a la media sigue siendo la
misma:

48|P g i n a

2.Sisemultiplicaunavariableporunaconstante,lavarianzadelanueva
variable es igual a la de la antigua multiplicada por la constante al cuadrado (al
multiplicar los datos, multiplicamos la dispersin. Pensemos por ejemplo en
X=10,20,30,eY=2X=20,40,60.Hemosmultiplicadopor2ladistanciaentrelosdatos).
Estasdospropiedadespuedenresumirseenlasiguienteexpresin:
Y

aX

b S

a S S

aS .

Ejemplo 4-19 Dada la variable con media 12 y desviacin tpica


la variable
3
4 tendr de media y desviacin tpica:
3
3 12 4 32
3
97
441
21.

7,
4

4.7.3 Otrasmedidasdedispersin.

Recorrido,AmplitudoRango.

P g i n a |49
Sedefinecomoladiferenciaentreelmayoryelmenordelosvalores.Tiene
la ventaja de que es fcil de calcular, aunque cuando hay valores aislados en las
puntasoextremosdeladistribucin,daunavisindistorsionadadeladispersinde
sta.

Recorrido

Recorridointercuartlico.
Vienedadopor:
.

son el tercer y primer cuartil, respectivamente. Es una medida


( ,
adecuadaparaelcasoenquesedeseequedeterminadasobservacionesextremasno
intervengan.Comoinconvenienteprincipal,puesqueslointervienenel50%delos
valorescentrales.
Lasexpresionesqueseacabandevermidenladispersindeladistribucin
entrminosabsolutos(vienenexpresadasenlasunidadesdelavariable,seankilos,
euros,metroscbicos...).Seprecisadefinir,apartirdeellas,otrasquehaganposible
lacomparacinentrediferentesvariablesyquetenganencuentaeltamaodelas
observaciones.
Obsrvesequelavariable formadaporloselementos 0.1,0.2,0.3,0.4,0.5
ylavariable
1000.1,1000.2,1000.3,1000.4,1000.5 tienenlamismavarianza
(nonecesitamoscalcularlas:fijmonosquelasegundavariable esunaconstante
mslaprimera:
1000
).Sinembargo,esevidenteque,enelprimerodelos
casos,loselementosestnmuydispersosy,enelsegundo,bastanteconcentrados.
Paraevitarestassituacionesseestudialasiguientemedida.

Coeficientedevariacin.
Sedefinecomoelcocienteentreladesviacintpicayelvalorabsolutodela
media.

| |

50|P g i n a

Se suele llamar, en ocasiones, coeficiente de variacin de Pearson, por el


matemticoinglsKarlPearson(18571936).Setratadeunamedidaadimensional
(no tiene unidades), y permite comparar la dispersin de varias distribuciones. A
mayorvalorde ,menorrepresentatividadde ,yviceversa.
Nota:Si

0,nosepuedecalcular.

Engeneral,sesueleconvenirenquevaloresde menoresa0.1indicanuna
altaconcentracin,entre0.1y0.5unaconcentracinmedia,yvaloressuperioresa
0.5unaaltadispersinyunamediapocoonadarepresentativa.
Enelejemplocomentado(donde =0.1,0.2,0.3,0.4,0.5e

1000.1,1000.2,1000.3,1000.4,1000.5 ,tendramos
0.14,pero
0.14
0.14
0.46 y
0.00013.
0.3
1000.3

P g i n a |51
Ejemplo 4-20 Consideremos dos variables e , tales que viene expresada
en metros e en centmetros, con medias y desviacines tpicas:

10

1000

10 ;

200

3.

A primera vista, la variable est menos dispersa que la variable , si no


atendemos a las unidades. Si las tenemos en cuenta, sera al reves. En
cualquier caso, podra interesar comparar la dispersin de variables entre las
que no sea posible la conversin de unidades. Es por ello que debemos utilizar
para este caso medidas adimensionales, como el coeficiente de variacin. As,
tendramos que
2
3
0.2 ;
0.3.
10
10

Recorridosemiintercuartlicorespectoalamediana.
Vienedadopor

que, al igual que la anterior, es una medida adimensional, con las ventajas e
inconvenientesmencionadosparaelrecorridointercuartlico.
En la Figura 412 tenemos un resumen de las caractersticas de una
distribucinatendiendoaladispersindelamisma.

4.7.1 DesigualdaddeTchebychev

Esta desigualdad, formulada por el matemtico ruso Pafnuti Lvvich


Chebyshov (1821 1894) (y cuyo apellido se ha escrito de todas las maneras
imaginables excepto Chebyshov: aparece como Tchebychev, Tchebycheff,
Schebyshev,ytodaslasvariacionesquesenosocurran)relacionaalamediayala
varianzaytienelaexpresin:

52|P g i n a

Figura412

1.

(quequieredecirquelafrecuenciarelativadelnmerodedatosqueestnalrededor
delamedia vecesladesviacintpicaessiempremayoroigualquelacantidad1
. Esta desigualdad es una justificacin terica del caracter de medida de
dispersindeladesviacintpica o .Veamos,supongamos3valoresconcretosdel
nmero (quetienequesermayorque1),calculemoselvalordeladerechadela
desigualdad,ypongamosloquesignificaloqueestalaizquierda:
2 1
3 1
4 1

1
1
1

0.75
0.88

0.9375

P g i n a |53
2
3
4

|
|
|

|
|
|

2
3
4

0.75.
0.88.
0.9375.

Tengamospresentequelosdatos
|
| a sonlosdatos que
estn en el intervalo de centro y radio a , es decir a , a . As, en un
intervalo de centro la media y radio 2 veces la desviacin tpica
2 se
encuentran,almenos,el75porcientodelosdatos.
Enunintervalodecentrolamediayradio3vecesladesviacintpica
seencuentran,almenos,el88porcientodelosdatos.

Enunintervalodecentrolamediayradio4vecesladesviacintpica
seencuentran,almenos,el93.75porcientodelosdatos.

Loquevemosesquecualquiervariabletienequetenerunaagrupacindesus
datos alrededor de la media conforme a esta desigualdad; es decir, los datos no
pueden hacer lo que les d la gana, han de estar concentrados alrededor de la
mediasegnestosporcentajes,queestnrelacionadosconladesviacintpica.
Enlasiguienteimagenvemosunhistogramaconlosvalores
marcadosenelejeX.

54|P g i n a

Ejemplo 4-21 Dada una distribucin con media 25 y desviacin tpica


4, el intervalo 3 , 3
13,37 garantiza la presencia en su interior
de, al menos, el 88.88% de los datos.

Ejemplo 4-22 Un colegio lleva a una clase de la ESO al mdico, para realizar
unos anlisis de salud. El mdico toma nota, entre otras variables, del peso
de los 50 chavales de la clase. El peso medio que obtiene es 45, y la
desviacin tpica es 6. Todos los chavales han ido con alguno de sus padres
excepto Marianito que ha ido con su abuela Antonia. La abuela, al ver que su
nieto pesa 1 kg menos que la media, le dice al mdico que por qu no le receta
algunas vitaminitas que le den ganas de comer. El mdico le dice a la abuela:
Seora, el nio no est delgado, y mejor que haga ejercicio, que va sobrado
para su edad. Por qu es el mdico as de grosero?
Solucin.
Al ser 45 y
6, en el intervalo 3 , 3
45 18,45
18 = 27,63 estn el 88.88 por ciento de los datos. Quiere esto decir que, slo
pesandounkilomenosquelamedia,elnietodelaseoraAntoniaestaconcasiel90
porcientodelresto.Comoparecelgico,laseoratieneelmaldelasabuelas,que
pasaronhambreenlaposguerra,ylesparecequetodoelmundocomepoco.

4.8

MEDIDASDEFORMA

Ahora nos fijaremos en la forma de la distribucin. En primer lugar se


examinalasimetray,acontinuacin,elapuntamiento.

4.8.1 Simetra
Diremosqueunadistribucinessimtricarespectoaunparmetrocuando
los valores de la variable equidistantes de dicho parmetro tienen la misma

P g i n a |55
frecuencia.Lasimetrasuelereferirsealasimetrarespectodelamediaaritmtica,o
respectodelamediana.
Unadistribucinovariableessimtricasi,grficamente,levantamosunejeo
lneaverticalsobrelamedia(omediana,segnelcaso)yeldibujoaambosladosde
dichoejeesidntico.Lamayorpartedelasveces,aunquenoseindique,lasimetra
serefiereasimetrarespectoalamedia.
Si una distribucin no es simtrica, entonces es asimtrica, y la asimetra
puedepresentarse:
a la derecha (asimetra positiva: cola de la distribucin ms larga a la
derecha)
a la izquierda (asimetra negativa: cola de la distribucin ms larga a la
izquierda).

Los coeficientes de simetra son valores numricos que indican si la


distribucinessimtricay,casodenoserlo,latendenciaosignodesuasimetra.Uno
de los coeficientes de simetra ms utilizados es el llamado primer coeficiente de
Fisher:

,
siendo
1

(mediadelasdesviacionesalamediaelevadasalcubo),

56|P g i n a

y la desviacin tpica. Como vemos, es una medida adimensional (tanto en el


numeradorcomoeneldenominadorlasunidadesdelavariableaparecenelevadas
al cubo, por lo que al efectuar la divisin no hay unidades), y esto nos permite
compararsimetrasdedistintasvariables.Siunadistribucinessimtrica,
0.Si
0 entonces la distribucin es asimtrica negativa, y si
0 entonces es
asimtricapositiva.
Cuando la distribucin es simtrica, coinciden la media y la mediana. Si,
adems,ladistribucintieneformadecampana5,ambassonigualesalamoda.
Ejemplo 4-23 El peso de la poblacin mayor de 18 aos tiene una distribucin
aproximadamente simtrica. Si seleccionamos una muestra representativa de
la poblacin y realizamos un histograma, obtendremos uno parecido al de la
figura siguiente (Figura 4-13).

Figura413

NosreferimosalacampanadeGauss,delaquehablaremosenunmomento.

P g i n a |57
Siahora,deesamuestra,nosquedamosconlosvaloresqueseanmsgrandes
(mayores que 90 kilos; llammosles los gordos) obtenemos una distribucin
asimtrica a la derecha y, si nos quedamos con los valores de la gente delgada
(elegimoslosvaloresmenoresque55),obtenemosunadistribucinasimtricaala
izquierda(imgenessuperioreinferiordelaFigura414).

Figura414

58|P g i n a

Nota 4-7 Al igual que ocurra con la varianza, por mtivos tcnicos, la
frmula del coeficiente de asimetra puede variar, dependiendo del programa
estadstico que se utilice. Conviene siempre mirar el manual para tener clara la
frmula. En todo caso, los valores deben ser parecidos, y lo ms importante es el
signo (positivo para asimetra a la derecha y negativo al contrario), que no debe
depender del programa utilizado

Ejemplo 4-24 Con los datos del Ejemplo 4-5 vamos a realizar un estudio de
la simetra. El histograma con la media resaltada es el que aparece a
continuacin.
Grficamente,estclaroquelavariablenoessimtrica,perolaasimetrano
esgrande.Elvalordelcoeficiente es 0.08(lohemoscalculadoenR,cargando
anteselpaquetefBasics,ydespusconlainstruccinskewness(x)).

P g i n a |59

4.8.2 Curtosis
Lasmedidasdecurtosistratandeestudiarladistribucindefrecuenciasenla
zona central de la distribucin. La mayor o menor concentracin de frecuencias
alrededordelamediadarlugaraunadistribucinmsomenosapuntada.Elgrado
de apuntamiento de una distribucin (que slo se examina en distribuciones
simtricasoligeramenteasimtricas,yconundibujoparecidoaldeunacampana)
se calcula a travs del coeficiente de apuntamiento o de curtosis, para lo cual se
compara con la distribucin Normal, que se tratar en otro captulo. Se puede
adelantar, no obstante, que la distribucin Normal tiene forma de campana (la
llamadaCampanadeGauss)yquesuestructuraprobabilsticavienedadaporla
funcin
1
2

(42)

Enestafrmula, eslamediadelosdatosy ladesviacintpica.Lagrfica


deestafuncin (para
1y 0 eslaqueapareceacontinuacin.Muchas
vecessedicequeunavariableodistribucin esmsapuntadaqueladistribucin
Normal,omenosapuntada(oigual)queladistribucinNormal.

60|P g i n a

Fisher)tomalaexpresin:

Para estudiar el apuntamiento se


dibujaelhistogramadelavariablejuntoconla
grficadelafuncin(alaizquierda,lafamosa
campanadeGauss).Detodasformas,aligual
que en el caso de la simetra, existe un
coeficientenumricoparamedirlacurtosis.El
coeficientedecurtosis(segundocoeficientede

3,

siendo

Como vemos, el coeficiente es adimensional, con lo cual sirve para


comparar la curtosis de diferentes variables. Cuando dicho coeficiente vale 0,
coincideconeldela 0,1 ,ysedicequeladistribucinesmesocrtica(oquela
variable tiene el mismo apuntamiento que la normal). Si es menor que 0, la
distribucin o variable correspondiente se dice que es platicrtica (la variable es
menosapuntadaquelanormal);y,siesmayorque0,leptocrtica(lavariableesms
apuntada que la normal). Las diferentes posibilidades aparecen reflejadas en el
siguientegrfico.

Bsicamente,elclculodelacurtosisdeunavariableseutilizaparaestablecer
una comparacin con la variable normal que tenga la misma media y desviacin
tpica. El objetivo es analizar si podemos considerar que la variable en estudio es

P g i n a |61
aproximadamente normal. En el captulo de variables aleatorias se ampliar la
informacinsobrelasvariablesnormales.Parauncursointroductoriodeestadstica,
comoesnuestrocaso,eltemadelacurtosistienepocaimportancia.Repetimosque
la curtosis slo tiene inters medirla en distribuciones simtricas o ligeramente
asimtricas,quepuedanparecersealacurvaNormalodeGauss.Enlaprctica,
podemosencontrarnoscondistribucionescuyohistogramaseamuyirregularyque,
visualmente, sea de imposible comparacin con dicha curva. En estos casos, el
coeficientedecurtosis puedecalcularse,peronotendraintersprcticoalguno.

Nota 4-8 De nuevo es necesario indicar que la frmula exacta del coeficiente
de curtosis puede variar segn el programa utilizado, y puede ser alguna variacin
del coeficiente aqu definido, por motivos puramente tericos. Igual que ocurra con
el caso de la simetra, ms que el valor nos interesa el signo.

Ejemplo 4-25 Con los datos del Ejemplo 4-5 realizar un estudio de la curtosis.
Grficamente,intuimosquelaformaesplaticrtica,mirandoalhistograma
defrecuenciassuperpuestoconlacurvanormal.Calculandoelcoeficientedecurtosis
con R (hay que cargar el paquete fBasics y utilizar la instruccin kurtosis(x)) se
obtiene
1.12.

62|P g i n a

4.9

TRANSFORMACIONES

Enocasiones,lavariableenestudiopuedepresentarmuchasirregularidades,
como asimetra acentuada, valores muy extremos, etc. En otras ocasiones, se
necesita comparar la posicin de dos valores pertenecientes a variables con
caractersticas muy diferentes. En estos casos es recomendable efectuar una
transformacin que haga ms regular la distribucin y, por tanto, con mejores
condiciones para su estudio. Tiene particular importancia la tipificacin de una
variable.
4.9.1 Normalizacinotipificacin
Dadaunavariable conmedia ydesviacintpica ,latipificacinconsiste
enrealizarlasiguientetransformacin:

P g i n a |63
A la nueva variable se le llama variable normalizada o tipificada, y tiene
media 0 y desviacin tpica 1. Desde un punto de vista geomtrico, la media y la
desviacintpicadeunavariablepuedenconsiderarsecomoelcentrodegravedad
deladistribucinysuescala,respectivamente.Deestaforma,altipificardistintas
variables, las centramos en el mismo punto y las dotamos de la misma escala.
Adems,losvalorestipificadosseconviertenendatosadimensionales.Portodolo
anterior,latipificacintienelapropiedaddehacercomparablesvaloresindividuales
que pertenecen a distintas distribuciones, an en el caso de que stas vinieran
expresadasendiferentesunidades.
Ejemplo 4-26 Sea
3,14,17,24,24,53 . Obtenemos que 22.5 y
18.44. La variable
(tipificada de
) toma los valores
3 22.5 14 22.5 17 22.5 24 22.5 24 22.5 53 22.5
,
,
,
,
,
,
18.44
18.44
18.44
18.44
18.44
18.44
es decir
Secompruebaque

1.05, 0.46, 0.29,0.081,0.081,1.65 .


0y
1.

Ejemplo 4-27 Elosa trabaja en el Mercamona y gana 1000 al mes. En su


categora laboral, la retribucin media y desviacin tpica vienen dadas por:
800 y
25. Por otro lado, Guillermo Collarte (diputado) realiz unas
declaraciones en 2012 diciendo: gano 5100 euros al mes y no llego a fin de
mes. Si el salario medio de los diputados es 5000 al mes y
50, tanto
uno como el otro ganan salarios por encima de la media. Si se quiere
conocer cul de los dos ocupa mejor posicin relativa dentro de su
categora, hay que tipificar sus sueldos:
1000 800

8,
25
mientras que
5100 5000
2.
50
En trminos absolutos, el diputado gana ms que Elosa. Sin embargo, en
relacin al conjunto de los empleados de cada categora, la empleada de
Mercamona ocupa mejor posicin. Es grandioso el espritu de sacrificio de

64|P g i n a

aquellos diputados que, ganando tan poco (segn ellos) siguen en su


puesto, sacrificndose por el pas.

4.10 ANLISISEXPLORATORIODEDATOS

El anlisis exploratorio de datos est formado por un conjunto de tcnicas


estadsticas, fundamentalmente grficas, que pretenden dar una visin simple e
intuitivadelasprincipalescaractersticasdeladistribucinenestudio.Puedeserun
finporsmismoo,generalmente,unaprimeraetapadeunestudiomscompleto.
Comoaspectosmsdestacablesqueabarcaestnlosqueserefierenalaformadela
distribucinyaladeteccindevaloresanmalos(datosextraoscomparadosconel
conjunto). Evidentemente, las tcnicas de representacin grfica que hemos visto
constituyenpartedelanlisisexploratoriodedatos.

4.10.1 Diagramadetalloyhojas
Eldiagramadetalloyhojas(Stem&Leaf)esunarepresentacinsemigrfica
dondesemuestraelrangoydistribucindelosdatos,lasimetraysihaycandidatos
a valores atpicos (valores muy extremos o incluso errores). Su uso slo es
recomendablesiemprequeelnmerodedatosnoseamuygrande(sobre50).Para
construirlo basta separar en cada dato el ltimo(s) dgito(s) de la derecha (que
constituyelahoja)delbloquedecifrasrestantes(queformareltallo).
Estetipodediagramasepopularizenlosaos80apartirdelapublicacin
dellibroExploratorydataanalysisdelestadsticoJohnTukey(19152000),porsu
facilidad para hacerse a mano, o rpidamente con las computadoras de aquella
poca.Actualmente,dadalacapacidadgrficadelosordenadores,seutilizapoco.

Ejemplo 4-28 Unos adolescentes anotan, desde la ventana de su casa, la


edad de las mujeres que pasan por delante, tratando de hacer una
estimacin de posibles vctimas:
24 17 10 14 19 21 25 41 12 24 10 34 34 45 59 51 78.

P g i n a |65
En el diagrama de tallo y hojas se representa el primer dgito de los datos a
la izquierda de la barra de separacin y el segundo a la derecha.
1
2
3
4
5
7

002479
1445
44
5
19
8

De esta forma vemos rpidamente que la mayora de las mujeres son del
rango 10-30 aos. Es un diagrama del estilo de un histograma o diagrama
de barras, pero colocado en horizontal. Cuenta adems con la ventaja de tener
los datos sobre la propia grfica.

Comocuriosidad,enlasiguientefotografapodemosverundiagramadeeste
tipoenunaestacindetrenjaponesa(fuente:Wikipedia).Eneldiagramadetalloy
hojasserepresentanlosdgitosdelahoraalaizquierda(lacolumnaennegro)yala
derechalosminutos.Lamayoromenorfrecuenciadeparadassededucefcilmente
delalongituddelasfilasyes,adems,muyfcilverenquminutosdecadahora
paranlosautobuses,yhacercomparaciones.

66|P g i n a

4.10.2 Diagramadecaja(boxplot)
Losdiagramasdecaja(boxplot)odiagramasdecajaybigotes(boxwhisker)
son representaciones grficas sencillas que no necesitan un nmero elevado de
valores para su construccin. Se utilizan para estudiar tanto la dispersin como la
formadeunavariable.Asimismo,sonespecialmentetilesparacomparardistintas
distribucionesentres.
Comodicesunombre,constandeunacaja,dondelamismarepresentael
50%centraldeladistribucin(vade oprimercuartila otercercuartil),yla
lneasituadaenelinteriordelacajaeslamediana(Figura415).
Los extremos inferiores y superiores de los segmentos (tambin llamados
bigotes) delimitan lo que se denomina como valores normales, y coinciden,
respectivamente, con el mnimo y el mximo de los valores una vez excluidos los
candidatosavaloresanmalos.Loscandidatosavaloresanmalosseetiquetancomo
atpicosycoincidenconaquellasobservacionesqueseencuentranfueradelintervalo
,
,donde:
1.5
1.5 ,
esdecir,aunadistanciade ,porlaizquierda,ode ,porladerecha,superiora
unavezymediaelrecorridointercuartlico(
.Enestecasosellaman
atpicosdeprimernivel.Cuandoladistancia,porunodelosdoslados,essuperiora
tresrecorridosintercuartlicos,elvaloratpicosedenominadesegundonivel,odato
extremo.
Los valores atpicos de primer y segundo nivel quedan normalmente
identificadoseneldiagramadecajasporsmbolosdiferenciados( , ,),debiendo
considerarse la revisin de los mismos (pueden corresponder a mediciones mal
efectuadas)paraposibledepuracinantesdelanlisisdelosdatos.Elresumendelas
caractersticasobservablesenundiagramadecajaapareceenlaFigura415.

P g i n a |67

Figura415

Datoanmalo:hayquerevisarsisehaintroducidoporerror,sehaobservado
mal,lohanhechoapropsito,etc.

68|P g i n a

Ejemplo 4-29 Con los datos del Ejemplo 4-5 vamos a realizar un diagrama de
caja y bigotes (boxplot), que vemos a continuacin. En el grfico podemos ver
que existe una muy ligera asimetra a la izquierda (la cola es ms larga a la
izquierda), algo que comprobamos anteriormente. Entre los valores 65 y 70 se
encuentra el 50 por ciento central de la distribucin. No hay valores atpicos
en este caso concreto.

Ejemplo 4-30 En la siguienta tabla se han recogido las edades que tenan los
actores y actrices que ganaron el Oscar a la mejor interpretacin, en todos los
aos de existencia de dichos premios (1929-2013). En la tabla aparece, por
orden cronlogico, la edad que tena la actriz (actor) que gan el Oscar en la
primera celebracin de los premios, y sucesivamente hasta la actualidad (los
datos se encuentran en el fichero edades-oscar.csv).
Actrices: 22 37 28 63 32 26 31 27 27 28 30 26 29 24 38 25 29 41 30 35 35 33
29 38 54 24 25 46 41 28 40 39 29 27 31 38 29 25 35 60 43 35 34 34 27 37
42 41 36 32 41 33 31 74 33 50 38 61 21 41 26 80 42 29 33 35 45 49 39 34 26
25 33 35 35 28 30 29 61 32 33 45 28 62 22
Actores: 44 41 62 52 41 34 34 52 41 37 38 34 32 40 43 56 41 39 49 57 41
38 42 52 51 35 30 39 41 44 49 35 47 31 47 37 57 42 45 42 44 62 43 42 48
49 56 38 60 30 40 42 36 76 39 53 45 36 62 43 51 32 42 54 52 37 38 32 45
60 46 40 36 47 29 43 37 38 45 50 48 60 50 39 55

P g i n a |69
Realizar un anlisis exploratorio de los datos y ver si existen diferencias
entre las edades de actores y actrices ganadores de premio.
Solucin.
Primerorealizamosunboxplotdelasvariables.

Comprobamosqueelboxplotesuninstrumentogrficomuyefectivopara
comparardosvariables.Lamedianadeedad(labarradentrodelascajas)esmsalta
paralosactoresqueparalasactrices.Estehechoseguramenteestamparadoporla
queja mayoritaria entre las actrices de Hollywood, que sealan que escasean los
buenospapelesparaactricesmayoresde40.Enelgrficovemosquelosvaloresde
edadaltossonatpicosparalavariabledelasactrices,mientrasqueslohayundato
atpicoenelcasodeloshombres.Enelboxplotsevisualizatambincongranclaridad
lasimetraoasimetradeunadistribucin,puesvemosqueambassonmslargas
hacia la derecha que hacia la izquierda. En contrapartida, la mayor agrupacin de
datos se da a la izquierda (la mayora de los Oscar se consiguen a edades no
demasiado altas). El anlisis puede complementarse por medio del histograma de
ambasvariables,dondesealamoslamediaylamedianaque,comoapreciamos,son
muysimilares.

70|P g i n a

P g i n a |71

Preguntaderepaso:

72|P g i n a

P g i n a |73

ANLISISCONJUNTODEVARIABLES

Lasestadsticassoncomolosbikinis.Tepermitenvermuchoyteocultanlo
msimportante.
AaronLevenstein.

Enelcaptuloanteriorsehaconsideradoelestudiodeunnicocarctero
variable. Sin embargo, es frecuente estudiar conjuntamente varios caracteres y
preguntarsesiexisteonoalgntipoderelacinentreellos.Estecaptulosededica
al estudio de la relacin entre dos caracteres. Comenzamos con la organizacin y
resumen de la informacin, siguiendo un esquema anlogo al establecido en el
captulo anterior, y conclumos con el estudio de la relacin entre ambos.
Habitualmente,cuandosetieneunamuestradeunapoblacin,siesposibleyno
resultaespecialmentecostoso,seobservanvariasvariablesy/oatributos(cuanta

msinformacinsepuedaobtener,siempreesmejor).Enunanlisisdesangre,se
miden varios niveles; si se elige una muestra de personas para una encuesta,
normalmente se le realizan varias preguntas, etc. A continuacin, resulta lgico
cuestionarsesobrequgradoderelacinodependenciaexisteentrelasvariables
analizadas:hayrelacinentrelaestaturayelpeso?,yentreelnivelderentayel
consumo(dedrogasono)?;entrelaestadsticaylasmentiras?,lapolticayla

74|P g i n a

corrupcin?,laruinaylosimpuestos?,lapesadezdeunapelculayelnmerode
premiosenfestivaleseuropeos?...

5.1

DISTRIBUCINCONJUNTADEDOSCARACTERES

Cuandoelinvestigadorestinteresadoenelestudiodedoscaracteresdeuna
poblacin, se obtienen dos observaciones para cada individuo, que se recogen en
formadeparesdevalores,ydebenorganizarseenfuncindelanaturalezadedichos
caracteres.Apartirdeahora,trabajaremosconunpardevariables , deinters,
medidasen individuos(sienalgncasonosreferimosaatributos,supondremos
que le hemos asignado un valor numrico). En vez de disponer de valores,
tendremosparesdevalores
,
,...,
,
(quepodrnrepetirseono).La
variable , esunavariableestadsticabidimensional.Situvieramos,engeneral,
variables,lavariableconjuntasellamara
dimensional.

Nota 5-1 En muchos textos y apuntes se realiza una primera clasificacin, o


resumen de los datos, en forma de tabla de doble entrada (ver imagen siguiente),
indicando en vertical los valores de , en horizontal los valores de , y por cada par
,
se introduce en la posicin , la frecuencia de dicho par. Esta representacin
resulta, actualmente, bastante desfasada, puesto que la manera de trabajar con datos en
cualquier programa estadstico es por medio de una tabla con columnas, donde cada
columna representa una variable (Excel, R, SPSS, Statgraphics... )

P g i n a |75

Izquierda:Tabladedobleentrada(tilslosihaypocosvaloresdexeypero
que se repiten). Derecha: tabla habitual en los programas estadsticos, con una
variableporcolumna,contantasfilascomoseanecesario.

5.2

REPRESENTACIONESGRFICAS

5.2.1 Representaciones3D

Si ambas variables e son cuantitativas discretas, se puede realizar un


diagramadebarrasentresdimensiones.Siambasvariables e soncuantitativas
continuas,elhistogramavistoparaunavariablepuedegeneralizarseparaestecaso,
yobtenerunarepresentacintridimensional.Enamboscasosselevantaunabarra
dealturalafrecuencia(absolutaorelativa).Ahora,labarra,envezdecorresponder
aunvalor concreto,serdelpar , (estoparaeldiagramadebarras).Enel
caso del histograma 3d tendremos que la altura de la barra ser proporcional al
,
(endondelos
nmerodedatosdelrectngulocuyosladosson ,

76|P g i n a

correspondenalaclasificacindelavariable enintervalos,y
intervalos ,
los ,
alaclasificacindelavariable .Elsentidodelasgrficasestansimple
comoenelcasounidimensional.Cuantosmsdatoshayenunacuadrcula,selevanta
unprismarectangularmsgrande.

5.2.2 Diagramadedispersinonubedepuntos
Siambasvariables e sonnumricas,larepresentacindelospares ,
enunplanorecibeelnombredenubedepuntoso,tambin,diagramadedispersin.

Figura51

P g i n a |77
EnlaFigura51dibujamoslosvalorescorrespondientesalasvariables =muertes
por cirrosisfrentea =consumo de alcohol (per cpita)delficherodatos-consumoalcohol.txt (fichero que contiene datos de varias poblaciones, consumo de vino y
licores,ymuerteporcirrosis.ObtenidodeloslibrosdeSpaeth[13]yBrownlee[2].Se
puede consultar ms informacin en el fichero informacion-datos-consumoalcohol.txt).

Nota 5-2 En la columna izquierda de la Figura 5-5, aparece la sintaxis para


leer el fichero de datos y dibujar la nube de puntos de la Figura 5-1. El fichero de
datos debe descargarse en nuestro ordenador en el mismo directorio o carpeta donde
estemos trabajando con R (donde guardemos los ficheros de sintaxis). Estas
instrucciones tambin estn en el fichero sintaxis-r, que puede descargarse de la
pgina alejandroquintela.com/libro_teoria/sintaxis_r

Elpuntoquevienedeterminadoporlamediade ylamediade constituye


elcentrodegravedaddelanubedepuntos(Figura52).Comopodemosobservaren
eldiagramadedispersin,cuandolavariable (consumodealcohol)crece,parece
quetambincrecelavariable (muerteporcirrosis).Laverdadonodetalrelacin

Figura52

78|P g i n a

esloquepretendemosestudiar,ascomolaformademedirmatemticamentela
misma.

5.2.3 Covarianza.Correlacinlineal
Lacovarianzavienedadaporlaexpresin
1

esunamedidasimtrica(porqueesiguala

ysepuedeleercomola

suma de los productos de las desviaciones de por las desviaciones de con


respectoasusrespectivasmedias.Sielsignodeladesviacinde coincideconlade
, como ocurre en el primer y tercer cuadrante (ver Figura 52), se genera un
sumando positivo; y cuando el signo es distinto segundo y cuarto cuadrante la
aportacinalacovarianzaesnegativa.
e

Veamos:porprimercuadranteentendemoslospuntos ,
.Portercercuadrantelospuntos , donde
e

Porsegundocuadrantelospuntos ,
cuadrantelospuntos , donde
e

donde
.

donde
.

,yporcuarto

Entonces, en el primer y tercer cuadrante

siempre es un
nmeromayoroigualacero,encambioenelsegundoycuartocuadrante,

siempreesunnmeromenoroigualacero.
Por lo tanto, la concentracin de valores en los distintos cuadrantes
determinaelsignoyelvalorde .Lacovarianzamide,pues,lacantidadderelacin
linealentrelasvariablesyelsentidodesta,delaforma:

0, relacin lineal positiva si crece una variable, la otra tambin .


0, relacin lineal negativa si crece una variable, la otra decrece .

0, no hay relacin lineal entre las variables.

Delasimpleobservacindelanubedepuntospodemosdeducirqueexiste
unarelacinlinealpositivaentrelasdosvariables;estoes,sicreceelconsumode
alcohol, crece el porcentaje de fallecimientos. Tambin vemos que esa relacin

P g i n a |79
podra venir caracterizada, matemticamente, mediante una linea recta. Si
calculamos la covarianza
nos dar un nmero positivo (en este caso,
137.055;sepuedecalcularenRconlaordencov(x,y)).Detodasformas,elnmero
queresulteesdedificilinterpretacin,puestoquedependedelasunidadesenque
venganexpresadaslasvariables.Esporelloque,envezdetrabajarconlacovarianza,
se trabaja con el llamado coeficiente de correlacin (o coeficiente de correlacin
linealdePearson)(s,eselmismoPearsondelquehablamosenelcaptuloanterior,
quenosolaperderseningnbotellnestadstico).

5.2.4 CoeficientedecorrelacindePearson
El coeficiente de correlacin lineal o coeficiente de correlacin de Pearson
vienedadopor

,
queesunamedidaadimensional,siempretomavaloresenelintervalo
tieneelsignode Porlotanto,severifica:

cuandolarelacinlinealentre e esexactaydirecta,esdecir,todoslos
puntosseencuentransobreunarectaconpendientepositiva, vale1.
cuandolarelacinlinealesexactaeinversa,esdecir,todoslospuntosse
encuentransobreunarectaconpendientenegativa, vale 1.
losvaloresintermedios(0
1 o 1
0 darnlugaraquelos
puntosseaproximenmsomenosaunarectaquepasaporelmediodelosmismos.
cuandonohayrelacinlineal, vale0.

80|P g i n a

Este ltimo caso se llama incorrelacin, y se dice que las variables estn
incorreladas.Losdistintoscasosaparecenrepresentadosenestaimagen:

Alcuadradode selellamacoeficientededeterminacin,yseledenotapor
.Lgicamente,severifica

1,

y,cuntomsprximoest a 1,mayoreslarelacinlinealexistenteentrelas
variables,ymenorcuantomsprximoest a0.
Se concluye este apartado indicando que la independencia implica incorrelacin,
peroelrecproconosiempreescierto(verelEjemplo51).

P g i n a |81

82|P g i n a

Ejemplo 5-1 Las variables


a)

0 1

1 0 0

de las siguiente distribuciones:

y
b)

2 1 0

854 5 8
estn incorreladas, pero no son independientes; es ms, existe una relacin
funcional entre ellas. En efecto, los puntos de la variable bidimensional del
caso a) son puntos de una circunferencia de frmula
1 (las estrellas
encima de Chvez, en el caso de incorrelacin). En el caso b), las variables
cumplen la relacin
4. Esto quiere decir que, en ambos casos, existe
una relacin entre e (si sabemos el valor de , obtenemos directamente
el de ), pero esta relacin no es de tipo lineal. En este texto nicamente
estudiaremos la posible relacin de tipo lineal entre dos variables.

5.3

AJUSTEYREGRESINBIDIMENSIONAL

Considerada una serie estadstica


,
,,
,
, procedente de una
distribucin , ,elproblemaquesedenominaajustedeunanubedepuntoso
regresin bidimensional consiste en encontrar alguna relacin que exprese los
valoresdeunavariableenfuncindelosdelaotra.Lacuestinserelegirlamejor
funcin,ydeterminarlosparmetros(frmula)delamisma.Estarelacinpodrser
utilizada,posteriormente,parahacerprediccionesaproximadas;porejemplo,para
hacerprevisionesdeventasacortoomedioplazo,estimarelvolumendecosechaen
funcindelalluviacada,etc...
Laeleccindelafuncinparticularquemejorseadaptealasvariablesesel
primerproblemaquehabrquesolventar.Enunprincipio,laobservacindelanube

P g i n a |83
de puntos puede dar una idea de la evolucin de los valores de la variable
dependiente(apartirdeahora )enfuncindelosdelaindependiente( ).

5.3.1 Casolineal
Sean ,
,
,
,,
,
losvaloresobservados,ysupongamosque
lanubedepuntosnosindicaquelafuncinlineal(recta)puedeserunabuenaforma
de ajustar los datos. Sea
la recta de ajuste de los valores de en
funcindelosde .Estarectasellamarectaderegresin,ysirveparapredecirel
valorde paraunvalornuevodelavariable .

Figura53

Consideremos otra vez el ejemplo de la seccin anterior ( muertes por


cirrosis, consumo de alcohol). En la nube de puntos intumos que la lnea recta
podraserunbuenajusteparalosdatos,yenlaFigura53vemosunejemplodetres
posiblesrectasqueseacercanalanubedepuntos(obviamentepodramosdibujar
muchasms).

84|P g i n a

Paracalcularlamejorrecta,seutilizaelmtododelosmnimoscuadrados.
Consisteenlosiguiente:paracadapuntodelanube , seconsideraelllamado
residuo,queesladistanciaentredichopuntoysucorrespondienteenlarecta,es
decir , ,donde eselvalorpredichoporlaecuacindelarecta(verFigura
54).

Figura54

Ahoraseconsideralafuncindedosvariablesquemidelasumadetodoslos
residuosparatodoslospuntosdelanube,elevadosalcuadradoparaevitarquese
compensenresiduospositivosconnegativos:
,

Los parmetros y de la recta se obtendrn como aquellos valores que


minimizanlafuncin .Matemticamente,seconsideranlasderivadasparcialesde
estafuncinrespectodelosparmetros y yseigualanacero,paraobtenerlos
coeficientesdelarecta.Formalmente,lasfrmulasson:

Nota 5-3 Y de nuevo sealar que, salvo que algn malvado profesor lo solicite
expresamente, ni siquiera tenemos que saber que y se calculan con estas frmulas,
puesto que cualquier software estadstico cutre salchichero, con pasarle los datos, nos
calcula la recta.

P g i n a |85
Ejemplo 5-2 Realizamos a continuacin el clculo, mediante el software R, de
la lnea de regresin del ejemplo que estamos utilizando. A continuacin
vemos el cdigo R utilizado para dibujar la nube de puntos y la recta de
regresin (que es la de la Figura 5-4), adems de obtener los resultados
numricos, que son:
30.3347,
2.8617 y el coeficiente de determinacin
0.7134. Se conviene que este nmero, multiplicado por cien, da el
porcentaje de relacin entre las variables que puede explicarse mediante
la lnea recta (un 71.34%).

Figura55

86|P g i n a

Ejemplo 5-3 En la prestigiosa revista New England Journal of Medicine sali


publicado en 2012 un trabajo donde se estudi la relacin existente entre la
obtencin del premio nobel y el consumo de chocolate (Chocolate
Consumption, Cognitive Function, and Nobel Laureates. Franz H. Messerli,
M.D., N Engl J Med 2012; 367:1562-1564. October 18, 2012. DOI:
10.1056/NEJMon1211064).
Lospuntosdelasvariables e aparecendibujadosenlaFigura56,donde
tambinaparecelarectaderegresinyelvalordelcoeficientedecorrelacinlineal
(
0.791 entrelasvariables
=consumo de chocolate anual (kg/per cpita)e =nmero de premios nobel por
cada 10 millones de habitantes.
Enlagrficaseveclaramentelaexistenciadeunarelacinlinealpositivaentre
e .ElcoeficientedecorrelacinlinealdePearson,convalor0.791,cuantificala
cantidadderelacin(altapuesseaproximaa1).Elestudioparececoncluirqueel
consumir chocolate acenta el desarrollo neuronal que favorece la creacin
cientfica.

Figura56

P g i n a |87
Recomendamos al lector leer el trabajo completo para conocer los pases
evaluadosytomarunadecisinpropiasobrelavalidezonodeestasconclusiones.

5.3.2 Problemasconlaprediccin
Laprediccinusandounarectaderegresintieneclarosproblemas.Unoes
el de la extrapolacin (salirnos de los lmites del rango de valores analizado). Un
ejemploclsicoeseldelosrcordshumanos.EnlaFigura57apareceunagrficade
losrcordsmundialesenlacompeticindelos100metroslisos(tiemporealizado
frentealaodelacarrera),juntoconlarectademnimoscuadrados(elvalorquese
obtienepara es0.94).Elficherodedatosquepuedebajarsedelawebesrecord
100m.txt.
Comosabemos,lamarcamundialdelos100metroslisoshaidodisminuyendo
conelpasodelosaos.Sicalculamoslarectaderegresinquerelacione =aoe
=tiempo rcord para recorrer los 100 metros,podramospredecircualseraelao

88|P g i n a

en que se llegara a un tiempo de 0 segundos, o incluso un tiempo negativo. Es


evidente que este tipo de previsiones no tiene sentido, puesto que los valores
mnimosde paralosaosactualesparecemuydifcilrebajarlos.EnInternetpueden
encontrarse estudios de cul es la funcin ms adecuada para el ajuste de estas
variables,conelfindeobtenerunaposibleprediccindentrodelmitesrazonables.

Figura57

5.3.3 Otrosajustes
A travs del dibujo de la nube de puntos podemos, en muchas ocasiones,
intuirqueexistirnmejoresfuncionesquelalnearecta(queeslamssencillade
todas)paraexplicarlavariable enfuncindelavariable .Elprocesodeelegirla
mejor funcin no tiene por qu ser sencillo ni simple. Debemos tener tambin en
cuentaquequiznohayaunanicavariable influyendoenlavariable ,sinoque
pueden existir diferentes variables explicativas , , . . . , que sean necesarias
parapoderestablecerprediccionesdelavariable deinters.Sisedisponedeuna
grficacomoladelaFigura58,lanubedepuntosnodalaideadeajustarunarecta

P g i n a |89
alamisma,sinounafuncinmsvariable;unpolinomio,talvez,peronoesfcilde
intuirasimplevista.

Figura58

El problema de la regresin puede complicarse notablemente, y existen


muchos textos con los procedimientos analticos necesarios para una resolucin
completa, que se escapan totalmente del mbito de este texto. nicamente
comentaremos que, utilizando el mtodo de los mnimos cuadrados, se pueden
ajustarmuchosotrostiposdefuncionesaunanubedepuntos,ytambinsepueden
calcular coeficientes que nos midan la calidad del ajuste de la curva a los puntos
(similaresalcoeficientededeterminacin,quetambinsuelendenotarsecomo y
varanentre0y1,siendotantomejorelajustecuantomsseaproxime a1).A
continuacin, vemos algunos ejemplos, slo a titulo de muestra. Para ampliar
bastantemstodosestosconceptospuedeconsultarseeltextodeWackerly[16],y
unlibromuycompletoperotambinbastanteavanzadoquerecomendamoseselde
DraperySmith[4].

Ejemplo 5-4 Con el xito creciente de la franquicia A todo gas (Fast &
Furious), cantidades ingentes de idiotas se estn lanzando a hacer carreras
de coches e imitar lo que ven en las pelculas, creyendo que son escenas
reales. Despus del rodaje de la sexta pelcula en las islas Canarias, un
fisioterapeuta local est comprobando que su negocio crece da a da. A travs

90|P g i n a

de las variables =nmero de accidentados por hacer gansadas, que acuden a su


clnica e =ganancias en euros, se est planteando contratar personal nuevo,
puesto que las ganancias, lgicamente crecientes en funcin del nmero de
lesionados, parecen no slo regirse por una relacin de tipo lineal creciente,
sino incluso parablica. Los datos que tiene en el ordenador, para cada una
de las variables antes mencionadas, son:
X 2 4 7 10 14 18 24 27 30 32 35 36 39 41 43 45 47 50
Y 612 2256 1665 2830 3386 8096 8173 10381 10982 12037 14001
14657 13517 15057 17210 15642 17881 18154
Comprobar si una relacin de tipo parablico entre las variables podra darle
un mejor nivel de prediccin de ganancias que una relacin simplemente
lineal.
Solucin.
Puede verse en la Figura 59 la nube de puntos, junto con la lnea recta
ajustada por mnimos cuadrados, adems de una parbola (

ajustadatambinmedianteelmismomtodo.Elcoeficiente enamboscasoses
parecido(0.97ellinealy0.91elparablico),porloque,enprincipioelegiramoscomo

Figura59

P g i n a |91
msadecuadoelajustelineal,peroquizserainteresantedisponerdemsdatos
paradiscriminarculpodraofrecermejorajusteymejorprediccin.

Ejemplo 5-5 En el archivo de datos "50-peliculas-mas-taquilleras.xls" (o


recaudacion-pelis.txt) se encuentran los datos de las 50 pelculas ms
taquilleras (fuente:Wikipedia, Abril 2013) de la historia, donde se considera el
presupuesto de la pelcula y su recaudacin (nota: no se incluy la pelcula El
hobbit por no haber terminado de exhibirse en el cine en el momento de
realizar este problema). En la siguiente tabla aparecen resumidas las
principales medidas estadsticas (expresadas en millones de dolares):

10.5
742

310
2782

150
893

159.7
982

.
70.23
357

0.56
13.31

0.007
3.48

Primerodibujamosloshistogramasdeambasvariables.

Compreselapocaasimetradelavariablepresupuestoconlaasimetraala
derechadelavariablerecaudacin,loquesignificaquetriunfanmenospelculasde
lasquelosproductoresdesearan.Enlasiguientegrficaaparecelanubedepuntos

92|P g i n a

(sealamoslaspelculasdemayorpresupuestoy/orecaudacin).Sehacalculadola
rectaderegresinytambinunaparbola,queaparecenrepresentadasenlagrfica,
yserecogenlosvaloresdeajuste (0.15y0.21,respectivamente),siendolosdos
bajos,peroalgomejorelcorrespondienteaunaparbolaopolinomiodegrado2.

Ejemplo 5-6 En una capital espaola se fue anotando el nmero de habitantes


que compraron un Ipad (variable
y el nmero de incapacitados por enfermedad
psiquitrica grave ( , durante una serie de meses.
13501960227024832730309136474620549762607012
7618
8 8 9 10 11 11 12 16 18 19 30 21
Calcular el coeficiente de determinacin entre las dos variables en estudio, y
explicar el resultado.
Solucin.

P g i n a |93
Haciendolosclculos,seobtienequeelcoeficientededeterminacin
0.85.Sedejacomoejercicioparaellectordibujarlanubedepuntosyverquese
aprecia un buen ajuste por medio de una lnea recta creciente, esto es, crece el
nmerodeIPad,creceelnmerodeenfermos.
Resulta claro que se trata de dos variables con nmeros inventados a
propsitoparaquesalgaunvaloraltodelacorrelacinlineal.Evidentemente,puede
ocurrirquesecalculeestecoeficienteparacualesquieradosvariableselegidasalazar
y se obtenga un valor alto, pero quien haga un estudio debe preocuparse de
seleccionarvariablesquetengasentidorelacionarentres.

5.4

OTROSASPECTOSATENERENCUENTA

94|P g i n a

Algunos ejemplos tomados de la literatura estadstica (resumidos en la


wikipedia)danideadeerrorescomunesydetallesquecualquierinvestigadordebe
considerar siempre que relacione dos variables. Los siguientes son ejemplos de
conclusioneserrneasobtenidasdeunamalainterpretacindelacorrelacinentre
dosvariables.
Dormirsinquitarseloszapatostieneunaaltacorrelacincondespertarse
con dolor de cabeza. Por lo tanto, el dormir con los zapatos puestos ocasiona
levantarsecondolordecabeza.
Este resultado mezcla los conceptos de correlacin y causalidad, porque
concluyequedormirconloszapatospuestosprovocadolordecabezaallevantarse.
Hayuntercerfactorquenosehatenidoencuenta,queesqueirseborrachoala
camaprovocaambosefectos:nopoderniquitarseloszapatosylevantarsemareado.
Los nios pequeos que duermen con la luz encendida son mucho ms
propensosadesarrollarmiopaenlaedadadulta.
Esta fue la conclusin de un estudio de la Universidad de Pennsylvania,
publicado en 1999 en la revista Nature. Un estudio posterior de la Ohio State
Universityrefutestateora,yencontrunafuerterelacinentrelamiopadelos
padresyeldesarrollodelamiopainfantil,advirtiendoquelospadresmiopestenan
ms probabilidades de dejar una luz encendida en el dormitorio de sus hijos. De
nuevounaterceravariablenotenidaencuenta(lamiopiadelospadres),causabala
altacorrelacinentrelasotrasdosvariablesrelacionadas.
Cuandoaumentanlasventasdehelado,latasademuertesporahogamiento
tambinaumenta.Porlotanto,elconsumodeheladoprovocaahogamiento.
Elheladosevendedurantelosmesesdeveranoaunritmomuchomayorque
enpocasmsfras,yesduranteestosmesesdeveranoquelaspersonassonms
propensasaparticiparenactividadesrelacionadasconelagua,comolanatacin.El
mayorporcentajedemuertesporahogamientoescausadoporunamayorexposicin
alasactividadesacuticas.
Desde1950,tantoelniveldedixidodecarbono(CO2)enlaatmsferacomo
los niveles de obesidad han aumentado considerablemente. Por lo tanto, el CO2
atmosfricoprovocalaobesidad.

P g i n a |95
Obviamente,enlasciudadesquehanmejoradosuniveldevidaapartirdelos
aos50,secomemsyseexpulsamsCO2alaatmsfera(coches,fbricas...).
Conunadisminucinenelusodesombreros,hahabidounaumentoenel
calentamientoglobalduranteelmismoperodo.Porlotanto,elcalentamientoglobal
escausadoporpersonasqueabandonanlaprcticadeusarsombreros.
Laexplicacindeesteefectoseramuyparecidaaladelejemploanterior.

P g i n a |97

PROBABILIDAD

Cuandolasestadsticasnosdicenquelafamiliamexicanatieneunpromedio
decuatrohijosymedio,nosexplicamosporqusiemprehayunochaparrito.
MarcoAntonioAlmazn,mejicano.

Esteesuntemaenelqueempezamosaolvidarnosdelarealidadytenemos
que empezar a trabajar en lo que adora cualquier matemtico: el abstracto. La
ruptura con la realidad es brusca: nos olvidamos de los paquetes estadsticos, el
ordenador,etc.,ytrabajaremosconlamente(losquehayanhecholaESOquese
preparen).Apartirdeahora,vamosaconsiderarcomoherramientadetrabajolos
llamadosexperimentosaleatorios,que,comosunombreindica(ynosdiracualquier
ministro),sonaleatorios;esdecir,elresultadodelmismodependedelazar(aveces
llamadasuerte.Pero,cuidado,quehaybuenaymalasuerte).

6.1

ANTECEDENTESHISTRICOS

Lateoramatemticadelclculodeprobabilidadessedesarrollaapartirdel
sigloXVII,asociadaalosjuegosdeazar.Afindecuentas,lagranmayoradelosjuegos
llevaaparejadounsistemadeapuestasalrededordelmismo.Onoesmsdivertido
jugarcondineroquecongarbanzos,oporelsimplehechodeentretenerse?Porello,
siempreresultamuyconvenienteteneralgunaideadelaprobabilidaddeganar,ode
laprobabilidaddequeocurraalgnsucesofavorablealjugador.
Los juegos de azar son casi tan antiguos como el ser humano. Sumerios y
Asirios utilizaban un hueso extrado del taln de animales como ovejas, ciervos o

98|P g i n a

caballos,denominadoastrgalootalus,quetallabanparaquepudiesecaerencuatro
posicionesdistintas.Esteesconsideradoelprecursordelosdados.Asimismo,enlas
pirmidesdeEgiptosehanencontradopinturasquedatandelapocadelaprimera
dinasta(3.500a.C.)enlas
quesemuestranjuegosde
azar.

Quien haya visto


alguna de romanos (Ben
hur, Espartaco... ) ya sabe
que eran muy aficionados
a los juegos de azar
(ademsdeabarbaridades
como crucificar gente,
arrojaralosesclavosalas
fieras...).ElemperadorClaudio(10a.C.54d.C.)escribiuntratadosobreeljuego
delosdados.Peseatenerunascuantastarasfsicas(porejemplocojera,tartamudez,
ticsnerviososoaerofagia),ysersealadocomotontohastaporsumadre,Claudio
accedialtronodeemperadordeunamaneramsomenosfortuita,traselasesinato
desusobrinoCalgula.
Comogobernante,fuemuyqueridoporelpuebloyserevelcomoungran
poltico,gestoryestrategamilitar.Sinembargo,suxitoconlasmujeresfuebastante
escaso(apesardecasarsecuatroveces),yesmerecedorademencinunadeellas,
lafamosaValeriaMesalina6.

Mesalinaeraninfmanayadictaaencuentrosextramatrimoniales,quesumaridoconocay
consenta.UndalanzunretoalgremiodelasprostitutasdeRoma:ellaorganizaraenpalacio,aprovechando
laausenciadeClaudio,unacompeticinparaverquinpodaatenderamshombresenunanoche.
6

LasprostitutasaceptaronelretoyenviaronalamsfamosadeRoma,unasicilianallamada
Escila.Aquellanoche,despusdehabersidoposedapor25hombres,EscilaserindiyMesalina
salivictoriosa,puessuperlacifraalllegaralamaneceryseguircompitiendo.Segnsecuenta,

P g i n a |99
La historia de la probabilidad comienza realmente en el siglo XVII, cuando
PierreFermat(juristaymatemtico;16011665)yBlaisePascal(matemtico,fsico,
filsofo cristiano y escritor; 1623 1662) tratan de resolver algunos problemas
relacionadosconlosjuegosdeazar.Resultainteresantedestacardeunodeloslibros
de este ltimo, la Apuesta de Pascal, una discusin sobre la creencia en Dios,
basadaenprobabilidades:SiDiosnoexiste,nadapierdeunoencreerenl,mientras
quesiexiste,loperdertodopornocreer.
En aquella poca vivi tambin Antoine Gombaud, escritor francs (1607
1684) que, a pesar de no pertenecer a la nobleza, adopt el ttulo de Chevalier
(Caballero) para asignrselo al personaje de sus dilogos que representaba sus
propiasopiniones(elcaballerodeMr).Suintersporconocerculeralaapuesta
msfavorableenlosjuegosdedadosocasionunaseriedecartasentreBlaisePascal
yPierredeFermatqueestablecieronlosfundamentosdelateoramodernadela
probabilidad.

6.2

PROBABILIDAD

La probabilidad toma su forma actual a partir de los aos 30 del siglo XX,
cuando Andrey Nicolaievich Kolmogorov (como est claro, era ruso; 1903 1987)
establececonsusaxiomaslasbasesmatemticasdelateoradelaprobabilidad.Esta
apareceensufamosamonografaGrundbegriffederWahrscheinlichkeitsrechnung

lleghasta200.CuandoMesalinapidiaEscilaqueregresara,staseretirdiciendo:Estainfeliz
tienelasentraasdeacero.
TodaestabonitahistoriapuedeleerseenlanovelahistricaClaudio,eldios,ysuesposaMesalina,
deRobertGraves,excelentementedesarrolladaenlaseriedelaBBCYo,Claudio.ElpersonajedeMesalina
tambinapareceenlapelculade1954Demetriusylosgladiadores,interpretadaporlaactrizSusanHayward.
Estapelculaeslasegundapartedeotraobraclsica:Latnicasagrada,ycuyovisionadorecomendamosa
todoelquelegusteelcinederomanos.Enestapelcula,sinembargo,nopuedeadivinarsesemejante
personalidadpromiscuaenelpersonaje.

100|P g i n a

(1933) (que corresponde a una publicacin alemana, y por cuyo nombre se


comprendeque,apesardesuimportancia,noseconvirtieraenunbestseller).
Para introducir la nocin de probabilidad, hay que tener diferenciados dos
tiposdeexperimentos:
Experimento determinista. Es aquel que, al realizarse repetidas veces, en
idnticascondiciones,proporcionasiempreelmismoresultado.
Ejemplos: una reaccin qumica en condiciones prefijadas de antemano;
cualquierexperimentofsicoqueserealiceenlasmismascondiciones
Experimentoaleatorio(enelqueintervieneelazar).Esaquelquepuededar
lugar a diferentes resultados conocidos previamente, sin que sea posible predecir
culvaaocurrirenunarealizacinparticulardelexperimento.Verificalassiguientes
propiedades:
1.Puederepetirsesiempreenlasmismascondiciones.
2.Antesderealizarlonosepuedepredecirelresultadoquesevaaobtener.
3.Elconjuntodeposiblesresultadosesconocidodeantemano.

6.2.1 Definicionesbsicas
Elconjuntodelosposiblesresultadosdeunexperimentoaleatoriosellama
espaciomuestral.Serepresentaconlaletragriega.
Ejemplos:
Experimentoaleatorio:lanzamientodeunamonedadeuneuro.Posibles
resultados=Espaciomuestral={caradedonJuanCarlos,nmero1}.
Experimento aleatorio: lanzamiento de un dado de tasca. Posibles
resultados=Espaciomuestral ={1,2,3,4,5,6}.
Experimento aleatorio: nmero de amores de Mesalina en una noche de
lujuria.={0,1,2,3,...}.
Experimentoaleatorio:partidodefutbol. ={00,01,10,11,...,824,...}.

P g i n a |101
Suceso elemental. Cada uno de los posibles resultados de un experimento
aleatorio.Enelejemplodellanzamientodeundado,cualquieradelosnmerosdel
1al6esunsucesoelemental.
Suceso.Esunsubconjuntodelespaciomuestral, . Sedicequeocurre
unsucesosiocurrealgunodelossucesoselementalesquelocomponen.
Ejemplo: en el lanzamiento de un dado, el suceso
par= 2,4,6 .

=salir nmero

Sucesoimposible.Eselsucesoquenopuedeocurrirnunca.Comoconjunto,
es el conjunto vaco . Ejemplo: al lanzar un dado, =el resultado es 7, 8, o el
nmeropi.

Dossucesossellamanincompatiblessinopuedenocurrirsimultaneamente
(allanzarundadonopuedesalirunnmeropareimparalavez).Dossucesosson
incompatiblessicomoconjuntossondisjuntos(
.

102|P g i n a

6.2.2 Sucesosyconjuntos
Comoacabamosdever,unsucesoesunsubconjuntodelespaciototal.Las
propiedades de los conjuntos se vieron en algn curso muy lejano enel colegio o
instituto,peroconvienerecordarlas,porquevanaserdegranutilidadparaelclculo
deprobabilidades.
Unin(deconjuntososucesos): eselconjuntoosucesoformadopor
loselementosqueestnen estnen .
Interseccin:
est formado por los elementos que estn
simultneamenteen yen .
Diferencia:

estformadoporloselementosde queNOestnenB.

Complementariodeunsuceso :seescribe o .Eselsucesoformadopor


todosloselementosdelespaciototalquenoestnen .Severificaque
y .
PodemosverungrficodeestasoperacionesenlaFigura61.

P g i n a |103

Figura61

Launineinterseccindesucesosoconjuntoscumplenlaspropiedades
conmutativayasociativa:

,
y,obviamente,operacionescomolauninointerseccinpuedengeneralizarseams
dedossucesosoconjuntos.Quientengadudas,queloverifiquehaciendolosdibujos
comoenlaFigura61(siemprequesetengandudasdelresultadodeoperacionescon
sucesosoconjuntos,serecomiendahacerlosdibujos).

104|P g i n a

Ejemplo 6-1 Supongamos que se lanza un dado. Considerar los sucesos


=salir nmero par y =salir nmero mayor o igual a 3.
2,4,6 ,
3,4,5,6 .
Vamos a calcular , ,
y
.
=el resultado es par o mayor o igual a 3 2,3,4,5,6 .
=el resultado es par y mayor o igual a 3 4,6 .
=el resultado es par pero no mayor o igual a 3 2 .
="el resultado es mayor o igual a 3 pero no par 3,5 .

6.2.3 Probabilidad
Esunafuncinqueleasignaacadasuceso deunespaciomuestralun
nmerollamadoprobabilidadde ,verificando:
1.)Esunnmeroentre0y1.0

1.

2.)Laprobabilidaddelespaciomuestrales1.

1.

3.)Siseconsideran sucesosincompatibles(coninterseccinelvaco,
,si
,laprobabilidaddelaunineslasumadelasprobabilidades:

. . .

...

EstastrespropiedadessellamanaxiomasdeKolmogorov.Paraentenderlas
mejor, as como para entender las propiedades que daremos a continuacin,
convienepensarenlaprobabilidadcomolamedidadeunconjunto,siendoeltotal
eldemayormedida(mide1 ,ycualquierotrosucesomidemenosqueeltotaly,
comomuypoco,0.Latercerapropiedadestablecequesitenemosvariossucesoso
conjuntosquenotieneninterseccinentres,lamedidadelaunindetodosesla
sumadelasmedidas.
ApartirdelosaxiomasdeKolmogorov,yteniendoencuentaqueunsuceso
esunconjunto ,puedecomprobarsequeseverificantambinlassiguientes
propiedades:
P1) La probabilidad del complementario de un suceso es 1 menos la

probabilidaddedichosuceso:
1
(vereldibujodeladerechaenla
Figura61).

P g i n a |105
P2) La probabilidad del suceso imposible es cero (porque es el
complementariodeltotal .
P3)Si (siemprequeocurre ocurre

,entonces

P4)

(fijmonos que esto no es


contradictorioconlapropiedad3.Endichapropiedaddecimosquelaprobabilidadde
launindesucesoseslasumadeprobabilidades,cuandolasintersecciones2a2
entreelloseselvaco.Silainterseccinnoeselvaco,hayquerestarlelaprobabilidad
delamisma).
Generalizacinatressucesos:

(vase
probabilidad=medida).

la

siguiente

figura

recurdese que

Figura62

Generalizacina sucesos:

. . .

...

...

106|P g i n a

...

. ..
1

. . .

P5)

(verFigura61).

Adems,alcumplirselasleyesdeMorgan,quedicen:
a)elcomplementariodelaunineslainterseccindeloscomplementarios:
. . .

. . . ,

b)elcomplementariodelainterseccineslaunindeloscomplementarios:

. . . ,

. . .

podremosutilizartambinque
1

P6)

. . .
. . .
.

. . .

. . .

Dejamosunresumen.Consejo:imprimir,agrandarypegarenlapuerta
de la habitacin en vez del poster de Justin Bieber/El Ch/Scarlett/Los
Beatles/Zapatero...
P(total)=1
P(cualquiersuceso)esunnmeroentre0y1
P(sucesoimposible)=0
SiAestcontenidoenB,P(A)P(B)
P(complementariodeA )=1P(A)
P A B
P A
P B
P A B .SiAB= entoncesP(AUB)=P(A)+P(B)
P(AUBUC)=P(A)+P(B)+P(C)P(AB)P(AC)P(BC)+
+P(ABC)ysilauninesdemssevacomplicando
P(AB)=P(A)P(AB)

1


. . .

1

. . .
.

P g i n a |107

6.2.4 Asignacindeprobabilidades
Hemos visto las propiedades que cumple la probabilidad. Ahora, cuando
consideramosunexperimentoaleatorio,ylosposiblessucesosquepuedenocurrir
en el mismo, cmo se sabe cul es su probabilidad? Hay 3 maneras de asignar
probabilidadesasucesos.

1.)Asignacinfrecuentista.
Consiste en tener en cuenta que, a medida que se repite un experimento
aleatorio un nmero grande de veces, la frecuencia relativa de ocurrencia de
cualquiersucesoconvergeaunvalorfijo.
Esdecir,sielexperimentoserepite veces( muygrande),y esunsuceso,
entonces

nmero de veces que ocurre

108|P g i n a

Pensemos en el lanzamiento de una moneda un nmero muy grande de


veces. La frecuencia relativa de aparicin del suceso =cara tiende a 0.5.
Igualmente, al lanzar un dado, la frecuencia relativa de aparicin de un nmero
tiende hacia 1/6. Este tipo de asignacin es el que se utiliza para hablar de
probabilidaddeaccidentedetrfico(trashaberobtenidomuchosdatosalolargode
los aos) o la probabilidad de que un medicamento cure una enfermedad (tras la
observacindemuchoscasos).

2.)Asignacinequiprobable.
Si el experimento aleatorio da lugar a un espacio muestral finito de
elementos:

, ,...,

seleasignaatodoslossucesoselementaleslamismaprobabilidad1/ .
Entonces,cualquiersuceso estarformadopor sucesoselementales,yla
probabilidaddelsuceso ser

casos favorables

casos posibles
EstafrmulaeslaconocidaregladeLaplace.
Estatipodeasignacinvaldra,porcitaruncasosencillo,cuandolanzamosun
dado.Laprobabilidaddeque,porejemplo,salgaunnmeropar,es3entre6(casos
favorablesentreposibles).

3.)Asignacinsubjetiva.
Cuando no es posible una asignacin de las dos formas anteriores, ser
necesarioasignarprobabilidadesalossucesosdeacuerdoconlaexperienciadela
personaquerealiceuobserveelexperimento(probabilidaddequellueva,dequese
produzcaunterremotodeciertamagnitud,dequeunaparejaseacabecasando,de
queunmatrimonioacabeconcuernos,dequeungordofeopuedaseduciraNatalie
Portman...).

P g i n a |109
Unavezquesabemoscomoasignarprobabilidadesalosprincipalessucesos
de un experimento aleatorio, podremos calcular la probabilidad de otros sucesos
asociadosmediantelaspropiedadesvistasanteriormente(P1P6).

Ejemplosvariados:

110|P g i n a

P g i n a |111

Ejemplo 6-2 Se sortea un viaje a Tailandia entre los 120 mejores clientes de
una agencia de automviles. De ellos, 65 son mujeres, 80 estn casados y 45
son mujeres casadas. Cul es la probabilidad de que le toque el viaje a un
hombre? Cul es la probabilidad de que le toque a un hombre soltero?
Solucin.
Denotamoslossucesos =casado, =soltero, =hombre, =mujer.
Conlosdatosquenosdanpodemosformarlatabla:

45
80
Ahorarellenamosloshuecos

65
120

112|P g i n a

35
45
80

20 55
20 65
40 120

La probabilidad de que le toque a un hombre es casos favorables entre


posibles:
55/120.
Laprobabilidaddequeletoqueaunhombresolteroeslaprobabilidaddela
interseccin :

20/120 1/6.

Ejemplo 6-3 En un partido poltico, el 70 por ciento de los altos cargos recibe
un sueldo fijo o un sobre con dinero negro, si bien el 40 por ciento recibe
ambas cosas. Si hay un 50 por ciento de altos cargos que no acepta sobres
con dinero negro, calcular la probabilidad de que, escogido al azar un alto
cargo: a) slo reciba el sueldo fijo, b) cobre dinero, pero de una sla de las
maneras, no de ambas, c) est ah por amor al arte (no cobre nada).
Solucin.
Definimos los sucesos
recibir sueldo fijo y
enunciadodelproblemanosdalasprobabilidades

0.5.

recibir sobres. El
0.7,

0.4,

0.5, y,como

Apartirdeestosdatos,podemosobtener:

, entonces

0.7 0.5 0.4 0.6.

P g i n a |113
Ahorapodemosresolverlosapartados.
0.6

a)
0.4

b)
fijo)]=

recibasueldofijoYnorecibasobres)=
0.2.

recibasueldofijoYnorecibasobres)O(recibasobresYnorecibasueldo

0.6

0.5

2 0.4

0.3.

c) (no reciba sueldo Y no reciba sobres) =

1 0.7 0.3.

Ejemplo 6-4 En un centro de salud se est haciendo una estadstica contable


de los gastos en medicacin. El 70% de los usuarios toman medicacin para
el corazn, el 60% para el estmago y el 65% para los huesos. El 45% toma
medicacin para corazn y estmago, el 40% para corazn y huesos y el 50%
para estmago y huesos. El 30% tiene que tomar medicacin para las tres
dolencias. Cul es la probabilidad de que la seora Antonia salga del centro
de salud sin otra recomendacin que la de hacer mucho ejercicio?
Solucin.
Denominemoslossucesos =tomarmedicacinparaelcorazn, =tomar
medicacinparaelestmagoy =tomarmedicacinparaloshuesos.Losdatos
quenosdanson:
0.4,

0.7,
0.5y

0.6,

0.65,
0.3.

0.45,

La probabilidad de que una persona no tome nada es la probabilidad del


complementariodetomaralgunacosa,esdecir1menoslaprobabilidaddelaunin
de , y ,yestaes:

114|P g i n a

0.3

Luegolaprobabilidadpedidaes1
1 0.9 0.1.

0.7

0.6

0.65

0.45

0.4

0.5

6.2.5 Probabilidadesgeomtricas
La regla de Laplace puede aplicarse a ciertas situaciones donde aparecen
sucesos asociados a conjuntos en el plano o en el espacio que podamos medir
(longitud, rea, volumen... ). La probabilidad de un suceso ser la medida de
divididaporlamedidadeltotal.

Ejemplo 6-5 Yonathan y Kevin van a gastarle una bromita a su primo el


Christian. Mientras est fumndose un porro sentado en la taza del wc del
instituto, van a lanzarle un globo lleno de agua sucia desde la entrada del
lavabo. Aunque tienen bastante punteria, justo cuando van a lanzar el globo
aparece por el pasillo el bedel. Esto hace que el Kevin, que es el que tiene el
globo en la mano, se pone nervioso y lo tira a lo loco, de manera que todos
los puntos del recinto resultan igualmente probables para la cada del globo.
Si la cabeza del Christian, vista desde arriba, viene a ser una elipse con ejes
que miden 17 y 22 cm, y los lavabos en su conjunto miden 6 5 metros, cul
es la probabilidad de que le caiga el globo en la cabeza?
Solucin.
Enestecaso,elespaciototaleselcuartodebaoensuconjunto,cuyamedida
eselrea,6 5metros=30metroscuadrados.
17

Elsuceso eslacabezadeKevin,cuyamedidaeselreadeunaelipse,
22 1174.955centmetroscuadrados.
Porlotantolaprobabilidaddeacertares
1174.955
1174.955
30
30
10000

0.00391,

que,comovemos,esmuypequea.YonathanyKevinestnpensandoahoraencmo
vengarseadecuadamentedelbedeldelinstituto.

P g i n a |115

6.2.6 ProbabilidadCondicionada
SupongamosqueunadelegacindeAmnistiaInternacinalvisitaporsorpresa
unacrcelenGrecia,trasunajornadareivindicativaanteelparlamento.Seleccionan
alazar100presosyrealizanunaclasificacindelasiguientemanera:Hombres(H)y
Mujeres(H),quenopresentenlesionestrasladetencin(NL),quepresentenlesiones
moderadas (LM) y que presenten lesiones serias (LS). La tabla resultante es la
siguiente:
50 15
15 10
5
5
70 30

65
25
10
100

La delegacin de Amnistia Internacional pacta con el director de la prisin


elegir a un preso/a de los cien, para entrevistarlo en directo en televisin. La
probabilidaddequeseaunamujerypresentelesionesmoderadases

10
.

100
Apareceenlaprisinporsorpresaunadiputadafeministaradical,queexige
entrevistaraunamujer.Siahoracalculamoslaprobabilidaddequelamujerelegida
presentelesionesmoderadas,dichaprobabilidadnocoincideconlaanterior.Enel
primercaso,elegamosalazarunpresodelos100,yqueramosquecumpliesedos
condiciones:fuesemujerytuvieselesionesmoderadas.Encambio,ahoraelegimos
unamujer(estamosbuscandoenungrupomspequeo:loscasosposiblesahora
son 30). La probabilidad pedida se escribe (probabilidad del suceso
dado o
condicionadoaelsuceso ):

10
/
.
30
Y,comolaprobabilidaddeque,alescogerunpresodelgrupoalazar,seauna
mujer,es

30
,
100

116|P g i n a

severificaque

10
100

30 10
,
100 30

o, lo que es lo mismo,

Dedondeobtenemosque

/
Generalizacin:Dados2sucesos y
laprobabilidadcondicionadasecalculacomo

/
y

.
0,

(talesque

0 ,

Enconsecuencia,vemosquelaprobabilidaddeunainterseccinsepuede
obtenercomo

(61)

(hasta ahora, en las propiedades vistas, sabamos calcular la probabilidad de una


unin;nuncahabamosvistocomocalcularlaprobabilidaddeunainterseccin).

6.2.6.1 Propiedadesdelaprobabilidadcondicionada
La probabilidad condicionada verifica las mismas propiedades que hemos
/
vistoparalaprobabilidad,estoes,si estalque
0,entonces
1
/
/ ,etc.
/ ;si ,entonces
Si,porejemplo,apareceenlacrcelunministroquequieresacardelaprisin
a su hijo gatoflauta (no puede con l, a pesar de haberlo enviado a hermano
mayor),culeslaprobabilidaddequesuhijonoaparezcaconlacarahechaun
poema?Podemoscalcular

5/100
65
/
1
/
1
1
.
70/100 70

P g i n a |117

Nota: Recordemos que todo parecido de este problema con la realidad es


mera coincidencia y, adems, sucede en GRECIA.

Ejemplo 6-6 El 12% de los individuos de una poblacin es idiota. El 25% de


ellos lo sabe. Qu tasa de individuos es idiota y lo desconoce?
Solucin.
Consideramoslossucesos =seridiota, =saberlo.Tenemosque
0.12,
/
0.25.Nospiden
.

0.25

0.12 1

0.09,

esdecirel9porciento.

Ejemplo 6-7 Por culpa de los recortes, en una habitacin de 3 camas de un


hospital hay 10 enfermos, y 2 tienen tendinitis de hombro. El cirujano est
terminando el turno y pide que le bajen a los dos enfermos del hombro para

118|P g i n a

operarlos a la vez. El camillero, que ya no sabe lo que hace tras una jornada
maratoniana de 23 horas sin dormir, selecciona a dos enfermos al azar y se
los lleva al quirfano. Calcular la probabilidad de que slo uno de los operados
tuviera tendinitis en el hombro, y la probabilidad de que el enfermero haga un
pleno (la tuvieran los dos).
Solucin.
Consideramos los sucesos =primero seleccionado tiene tendinitis y
=segundo seleccionado tiene tendinitis. La primera probabilidad que debemos
.Estaprobabilidades
calculares

,donde
y

Es posible que alguien piense que en esta ltima frmula faltara restar la
probabilidaddelainterseccin.Loqueocurreesquelainterseccinde con es
elvaco:
,puestoqueestnlossucesosysuscomplementarios.

Ahora,

= el primero seleccionado tiene tendinitis) P(el segundo no la tiene,


condicionadoaqueelprimeroslatena)=
=

casosfavorablesentreposibles)

dadoqueelprimeronolatiene)=
Resulta:

hayuncasoposiblemenos).

elprimeronotienetendinitis) P(elsegundos
.

2 8

10 9

8 2

10 9

0.355.

Laprobabilidaddequelosdosaoperartengantendinitises

0.022.

P g i n a |119
6.2.7 Regladelproducto
Generalizandolafrmula(61)paralainterseccindedossucesos,cuando
consideramoslainterseccinde sucesos,suprobabilidadseobtieneporlallamada
regladelproducto:

. . .

. . .

que,comovemos,consisteenquelaprobabilidaddelainterseccinde sucesosse
calculamultiplicandolasprobabilidadessucesivas,perocondicionandocadasuceso
aqueocurrantodoslosinmediatamenteanteriores.

Ejemplo 6-8 Con dibujos, especial Bolonia.

120|P g i n a

Ejemplo 6-9 Una asignatura de derecho tiene un porcentaje de aprobados del


50 por ciento. La leyenda urbana de dicha asignatura asegura que el profesor
de la misma, como le joroba realizar exmenes extraordinarios, pone en cada
convocatoria un examen que es ms duro que el anterior, disminuyendo la
probabilidad de aprobar en un 15 por ciento. Un padre avisa a su hija de que,
como llegue a la quinta convocatoria, la enva a un convento. Cul es la
probabilidad de que la hija suspenda las tres primeras convocatorias y
apruebe justo en la cuarta?
Solucin.
Llamemos =aprobar en la convocatoria . La probabilidad de aprobar
desciendeun15porcientoencadanuevaconvocatoria,esdecir
0.15
0.85
,conloquelaprobabilidaddesuspenderenesaconvocatoriaser
1 0.85
.Tenemosquecalcular:

P g i n a |121

/ ,

donde

/
/

1
1

/
Entonces

0.5;
0.85 0.5

0.575;

0.85 1

0.575

0.63875;

0.85 1

0.63875

0.30706.

0.5 0.575 0.63875 0.30706

0.056.

6.2.7.1 Independenciadesucesos
2sucesos y sonindependientessilaocurrenciadeunonoinfluyeenla
ocurrenciadelotro.Severificaentoncesque
/

esdecir,queelquehayaocurridounonoinfluyeparanadaenlaocurrenciadelotro.
Si sucesossonindependientes,entonceslaprobabilidaddelainterseccin
eselproductodelasprobabilidades:

. . .

. . .

Nota 6-1 Muchas veces hay confusin entre probabilidad condicionada y


probabilidad de una interseccin. Para no despistarse, pinsese en el aprobado
condicionado: suspendes un examen parcial, y el profesor te lo aprueba, pero
condicionado a aprobar el siguiente parcial. Llamemos =aprobar el primero y
=aprobar el segundo.
Si al aprobar el segundo te dan el aprobado del primero,
/
1. En
cambio, calcular la probabilidad de la interseccin

correspondera a
preguntarnos, antes de hacer los exmenes, cul es la probabilidad de aprobar los
dos. Si el profesor no tiene en cuenta la nota del primero para el segundo (ni al
revs), los sucesos seran independientes, y

.
La probabilidad de una interseccin supone calcular la probabilidad de que
sucedan 2 cosas simultneamente. La probabilidad condicionada supone que una de

122|P g i n a

ellas ha ocurrido, la sabemos, y entonces calculamos la probabilidad de la otra (en


funcin de lo que ha ocurrido).

Ejemplo 6-10 Continuando con las leyendas urbanas de la universidad,


quin no ha odo hablar de que a los profesores se les exige un cupo o
porcentaje de aprobados mximo? Si en un curso cualquiera de una ingeniera
hay cuatro asignaturas, y los porcentajes mximos que permite el rectorado
son el 80 por ciento (para la asignatura mara), el 30, el 50 y el 10 (para la
dura, la del catedrtico), cul es la probabilidad de que un alumno apruebe
todas?
Solucin.
Si el aprobar una asignatura no depende de aprobar otra, los sucesos
=aprobar la asignatura son independientes, por lo tanto la probabilidad de
aprobartodoes

0.5 0.1

0.8 0.3

0.012.

Yporfinentendemosquehayatantossuspensosenlasingenieras.

Ejemplo 6-11 Por una carretera de Texas circula Charlie un poco borracho
porque acaba de dejarle la novia. Al saltarse una milla el lmite de velocidad,
le aparecen 2 coches de polica que le invitan amablemente a parar y salir
del coche con las manos en alto. Charlie sale del coche y es encaonado por
3 agentes, que le dicen que suba las manos o le disparan. Charlie est
pensando en echar la mano al bolsillo para que lo fran a disparos, porque
total vivir sin Marujita va a ser un sinvivir. Con lo cocido que est, la
probabilidad de que haga lo que est pensando es 1/2. Teniendo en cuenta
que los 3 policas lo tienen encaonado a muy poca distancia, la probabilidad
de que le den es 0.95 para 2 de ellos y slo 0.5 para uno con gafas que entr
por recomendacin. Cul es la probabilidad de que haya que asistir al
entierro de Charlie?
Solucin.

P g i n a |123
Denuevoestamosenunasituacindondelossucesossonindependientes.
Sea =Charlie lleva la mano al bolsillo y =El polica acierta el disparo. La
probabilidaddequematenaCharliees

0.5 0.95 0.95 0.5

0.2256.

VemosqueanhayposibilidadesdequeCharliesufraunnuevodesamor.

6.2.8 Teoremadelasprobabilidadestotales
,

Un sistema completo de sucesos es un conjunto de sucesos


, . . . , queverifican:
Sonsucesosincompatibles2a2:

, si
Launindetodoseseltotal:

yademslaprobabilidaddecadaunodeellosesdistintadecero.
Visualmente, un sistema completo de
sucesos es una particin del espacio total en
conjuntos, todos disjuntos (no tienen
interseccin entre s), y todos midiendo algo
(tienenprobabilidaddiferenteacero).

Elteoremadelasprobabilidadestotalesdicelosiguiente:
Consideremosunsistemacompletodesucesos,ysea otrosuceso, ,
para el que se conocen las probabilidades
/ para todo . Entonces, la
probabilidaddelsuceso vienedadapor:

124|P g i n a

Demostracin.
Lademostracinestansencillaqueconvieneverlaparaseguirpracticando
conlasprobabilidadesdelossucesos.

podemos expresarlo como la unin

,esdecir intersecadoconcadaunodelossucesos .

Como puede verse facilmente en la figura, dado que los


tambinlosonlosconjuntos ,luegopodemosescribir:

. . .

son disjuntos,

y ahora, simplemente escribiendo la


probabilidaddeunainterseccinenfuncin
de las probabilidades condicionadas,
tendremosque
/

Ejemplo 6-12 El presidente Budin acaba de ver la pelcula 1997, Rescate en


Nueva York, que le ha dado una idea de qu hacer con los terroristas
chechenos. Recordemos que, en esta pelcula, a los presos, en vez de
tenerlos en la crcel gastndole dinero al estado, los transportaban a la isla
de Manhattan, que haba sido aislada del resto de la ciudad, les tiraban comida

P g i n a |125
de vez en cuando, y ah se las vieran y desearan. Budin elije un antiguo Gulag
en Siberia; un destartalado campo de trabajo de 500 metros de ancho por 1
kilmetro de largo, rodeado de alambradas para que no puedan escapar. El
recinto se encuentra dentro de una llanura siberiana de 25 km cuadrados de
nieve y minas antipersona.
Como la flota area rusa est muy desvencijada, no disponen de
helicpteros para llevar a los presos encima del recinto carcelario y soltarlos
dentro, as que se sita un caon en la frontera de la llanura siberiana con la
intencin de usar los presos como proyectiles, y que caigan dentro del recinto
carcelario. Ahora bien, el can dispara correctamente slo una de cada tres
veces. Otra vez lanza aleatoriamente el preso dentro de la llanura siberiana,
y otra vez no dispara nada y el preso explota dentro del can. Cul es la
probabilidad de que un preso introducido en el can llegue al Gulag?
Solucin.
Denotemos por =caer dentro del Gulag,
correctamente, =el can dispara aleatoriamente y
mataalpreso.

=el can dispara


=el can explota y

Al dispararel can, slo hay 3 opciones, que son , y . Adems, si


ocurreunanoocurreningunadelasotras.Porlotanto,severificaque

y son sucesos incompatibles. Tenemos entonces un sistema completo de


sucesos.
,yque

Enlaprctica,loquehacemosesversi
lossucesos nopuedanocurrirsimultaneamente.

Adems, sabemos que


/
1,
/
0 y
/
la tenemos
que calcular como una probabilidad geomtrica, puesto que el preso cae
aleatoriamenteenlasuperficie.Porlotanto,laprobabilidaddecaerenlacrceles
/

0.5 1
25

0.02.

Entonces,laprobabilidaddequeunpresolleguealGulages

126|P g i n a

1
3

0.02

1
3

1
0
3

0.34.

Ejemplo 6-13 En el planeta de los simios, el 50 por ciento son chimpances, el


30 por ciento gorilas y el 20 por ciento orangutanes. El 5 por ciento de los
chimpances machos tiene tendencia a usar como juguete sexual a cualquiera
que no sea un simio y se le ponga a tiro, igual que hacen el 10 por ciento de
gorilas macho y orangutanes macho. Un astronauta que cae en el planeta es
enviado como esclavo a la casa de una familia cualquiera. Cul es la
probabilidad de que el astronauta conserve ntegra su identidad sexual?
Solucin.Definimoslossucesos =permanecerasalvo, =seresclavoen
casadechimpances,
seresclavoencasadegorilasy
seresclavoencasa
deorangutanes.Esteesotroejemplodondelossucesos sonincompatiblesyla
suma de probabilidades da uno. Por lo tanto, forman un sistema completo de
sucesos.
Los datos que tenemos son:
otrolado,
/
0.95,
/

0.5,

0.3,
0.9.Entonces

/
/

0.2. Por

P g i n a |127

0.95 0.5

0.9 0.3

0.9 0.2

0.925.

6.2.9 RegladeBayes
ElllamadoTeoremadeBayes7utilizalasmismashiptesisosupuestosqueel
teoremadelasprobabilidadestotales:
,

Seaunsistemacompletodesucesos
Sonsucesosincompatibles2a2:

,...,

,esdecir:

,si

ysontalesquelaprobabilidaddecadaunodeellosesdistinta
decero,ysea unsucesoparaelqueseconocenlasprobabilidades
/ .
Entonces,lasprobabilidades
/ sepuedenobtenerdelaforma
/

/
,
1, . . . , .

EstafrmulaesconocidacomoreglaofrmuladeBayes.
Lademostracintambinlaescribimos,porsermuysimple:porlafrmulade
laprobabilidadcondicionada,setieneque

/
.
Ahora,paracalcular
, eneldenominador,podemosusarlafrmuladela
probabilidadtotal.Enelnumerador,laprobabilidadlacalculamossegnladefinicin
delaprobabilidaddeunainterseccin(61):

/ ,
yyaestlistoelresultado.

Nota 6-2 Las probabilidades


se conocen como probabilidades a
priori, y las probabilidades
/ se denominan a posteriori, puesto que se
obtienen posteriormente a que ha ocurrido el suceso .

7
ThomasBayes,matemticoyministropresbiteriano(curaprotestante).

128|P g i n a

Ejemplo 6-14 Mesalina se acuesta con Marco Aurelio el 30 por ciento de las
veces, con Augusto Csar el 60 por ciento, y el 10 por ciento restante con
alguno de los criados. La probabilidad de que se quede embarazada de Marco
Aurelio es 0.9, de Augusto Csar es 0.75 y de los criados 0.5. Tras la amenaza
de su marido Claudio de mandarla ejecutar, Mesalina promete dejarse de
tonteras y no volver a serle infiel. Una noche, un criado observa a Mesalina
saliendo a escondidas de su habitacin para ir a un cuarto oscuro. Tras una
temporada, aparece embarazada. Cul es la probabilidad de que se hubiera
acostado con Augusto Csar (sabiendo que el hijo no puede ser de Claudio,
porque es estril)?
Solucin.
Definimoslossucesos:

P g i n a |129
=acostarseconMarcoAurelio,
=acostarseconAugustoCsar,
=acostarseconalgncriado,
=quedarseembarazada.
Lasprobabilidadesquesabemosson:
0.3,
0.6,
0.1. Como vemos, las probabilidades
suman1,luegoestos3sucesos(queademssonincompatibles,porqueelenunciado
nohablaparanadadecamastriples)formanunsistemacompletodesucesos.
Tambinsabemosque

0.9,

0.75,

0.5.

Mesalinasehaquedadoembarazada,yqueremoscalcularlaprobabilidadde
quehayapodidoacostarseconAugustoCsar.Tenemosquecalcularlaprobabilidad
condicionada
/ .PorelteoremadeBayes:

/
/

0.9 0.3

0.75 0.6
0.75 0.6

0.5 0.1

0.584.

Comopodemosobservar,laprobabilidadapriorideacostarseconAugusto
era0.6.Unavezqueelsuceso haocurrido,laprobabilidadaposterioricambia
0.584.

Ejemplo 6-15 El coazo del moroso es una compaa de cobro a morosos


que utiliza 3 mtodos diferentes:
, enviar matones que escriben amenazas en el portal, del estilo paga la
coca, primer aviso, y que consiguen su objetivo el 90 por ciento de las
veces;
, loquear a llamadas telefnicas, consiguiendo el objetivo el 60 por ciento
de las veces, y
, enviar un modelo/a del sexo contrario del moroso, para liarlo y conseguir

130|P g i n a

fotos comprometedoras para colgar en facebook. Esta ltima tctica funciona


el 70 por ciento de las veces.
El porcentaje de uso de cada mtodo es: el el 50 por ciento, el el 35 por
ciento y el el 15 por ciento de las veces.
Un moroso, que le haba dejado a deber 10.000 euros a un fabricante de
churros, aparece en casa de este ltimo con la cara hinchada y las piernas
escayoladas (a preguntas de un vecino, el moroso dice que ha resbalado en
la ducha), para devolverle el dinero. Cul es la probabilidad de que le
hayan aplicado el mtodo ?
Solucin.
Lasprobabilidadesquenosdan,paracadaunodelostresmtodos,son:
0.5,
0.35,
0.15. Como vemos, las probabilidades
suman 1, luego estos 3 sucesos (que son incompatibles, entendiendo que no se
aplicandosalavez)formanunsistemacompletodesucesos.
Tambin sabemos que las probabilidades de =xito, dependiendo del
mtodoempleado,son
/
0.9,
/
0.6,
/
0.7.
Nospiden

.PorelteoremadeBayes:

/
/

0.9 0.5

0.9 0.5
0.6 0.35

0.7 0.15

0.588.

Observamos que, a priori, la probabilidad del suceso (que le enviaran


matones)era0.5.Unavezquehahabidoxito(hadevueltoeldinero, hasucedido),
laprobabilidadaposterioriaumentaa0.588.

P g i n a |131

6.2.10 Resumenparavagos

Probabilidadcondicionada.
Si

0,entonces

.Si

0entonces

Probabilidaddelainterseccin.

/
.

Si y son independientes,
Enconsecuencia

.
/

Sitenemos sucesos(Regladelproducto):

. . .
/

. . .

. . .

Ahorabien,sisonindependientes(quelaocurrenciadecadaunonoinfluya
enlaocurrenciadeningnotro):

. . .

. . .

Probabilidadtotal.
Si tenemos , , . . . , , tales que
...
sucesossonincompatibles

,entonces,paraotrosucesoB,
/

Regla de Bayes. Si tenemos


, ,...,
...
1,ylossucesossonincompatibles
losvalores

,entonces
/

1, y los

, tales que

,yconocemos

132|P g i n a

Conclusinfinal.

Recuerda:cualquierprobabilidadesunnmeroentre0y1.Siestshaciendo
un problema, y despus de calcular la probabilidad del complementario, luego la
interseccin,luegolaunin,Bayes,tarar,tarar...tesaleunnmeronegativooms
grandeque1,tuprobabilidaddeaprobarelexamenesprcticamentenula.

Msejerciciosdeestetema,eninternet,enlibroscomo[14],omsdivertidos
en[12].

P g i n a |133

VARIABLESALEATORIAS

El80porcientodelagentedicenocreerenlasestadsticas.El20porciento
restantevivedelasestadsticas.
Estudioserio.

Enocasiones,estilasociarunnmeroacadaresultadodeunexperimento
aleatorio. Por ejemplo,en elexperimento aleatorio lanzar una moneda 3 veces,
podemosconsiderarlavariable =nmero de caras. tomarlosvalores0,1,2,3.
En el experimento aleatorio elegir un enfermo al azar de un hospital,
podemos considerar las variables =peso en kilos, =estatura en metros,
=temperatura...
Una variable que asocia a cada resultado de un experimento aleatorio un
nmerorecibeelnombredevariablealeatoria.
DefinimosRangoosoportedelavariablealeatoria comoelconjuntode
todos los posibles valores de la variable. En funcin de su rango, una variable
aleatoriapuedeser:
Discreta:surangoesunconjuntofinitooinfinitonumerable8devalores.
Continua:elrangoesunintervalodenmerosreales.
Ejemplo:lavariableAltura de personas.Rango= 0,3 .

Unconjuntoinfinitonumerableesaquelquetienetantoselementoscomoelconjuntode
los nmeros naturales. Los nmeros naturales son 1,2,3,... y hasta infinito. Entre cada 2 nmeros
consecutivos no hay ningn otro. Este conjunto se dice que es infinito pero numerable, por
contraposicinaotrosconjuntostambinconinfinitoselementos,perocondiferenteforma,como
puedeserunintervalodenmerosreales:porejemplo, 0,1 .Dentrodeesteintervaloestntodos
aquellos nmeros entre el 0 y el 1, y con tantos decimales como queramos. Evidentemente hay
infinitosnmerostambin,peroentrecadadospodemosescribirtantoscomoqueramos.

134|P g i n a

Ejemplo:lavariablenmero de hijos de una pareja.Rango={0,1,2,}.Esun


casodeunavariablediscretaquetomaunconjuntoinfinitonumerabledevalores
(porquenosabemosdndeterminaelconjunto;otracuestinesquelaprobabilidad
decadavalorvayapaulatinamentedisminuyendo,perodeesohablaremosenbreve).
7.1

VARIABLESALEATORIASDISCRETAS

Unavariablealeatoriadiscreta estdefinidaporlosvaloresquetomaysus
probabilidades,lascualesdebernsumar1.
(71)

dondelasprobabilidades

...

1.

Estatablaseconocecomoleydeprobabilidad,distribucindeprobabilidad,
funcin de probabilidad o funcin de masa de probabilidad. Grficamente, se
representaconundiagramadebarras(verlaFigura71ylaFigura72).

Ejemplo 7-1 Cuando realizamos el experimento aleatorio lanzar un dado,


podemos considerar la variable =1 si el resultado es par, y 0 si es impar.
Su ley de probabilidad es
0
1

1/2
1/2

Ejemplo 7-2 Cuando realizamos el experimento aleatorio elegir un nmero


al azar entre 1 y , la variable aleatoria =valor que se observa se llama
variable uniforme discreta. Su funcin de probabilidad es muy simple, y

P g i n a |135
8 .

aparece dibujada en la Figura 7-1 (para


1
2

1/
1/

1/

Figura71

7.1.1 Funcindedistribucin
Eslafuncinqueasociaaunpunto laprobabilidadacumuladahastaese
punto:
.
Enelcasodeunavariablediscreta,

siendo todos los

136|P g i n a

EnlaFigura72ylaFigura73podemosverlaleydeprobabilidadylafuncin
dedistribucindeunavariablediscreta .

Figura72

Lafuncindedistribucines,comovemos,unafuncinescalonadaque,en
cadavalor ,aumentaelvalorcorrespondientedelaprobabilidadenesepunto
.
Es, por lo tanto, una funcin no decreciente que siempre vara entre 0 y 1.
Matemticamente,lafuncindedistribucinparalavariable generalqueaparece
en(71)seescribedelaforma:

...

,
,
,

donde, como vemos, en los puntos , en los que precisamente la funcin no es


continua(hayunsalto),a
seleasignaelvalorinmediatamentesuperior;por
...
si ,
.Enelpunto
yaledamoselvalor
esoescribimos
siguiente:

P g i n a |137
...

Ejemplo 7-3 En las fiestas de Berlusconi se ha ido anotando el nmero de


personas que se mete en la misma cama en el mismo momento. Las
frecuencias observadas se presentan en la siguiente tabla:
2
3
4
5
6
7
8

0.01 0.08 0.25 0.32 0.28 0.05 0.01
Dado que el nmero de fiestas observado ha sido muy grande, podemos
considerar las frecuencias relativas anteriores como probabilidades,
disponiendo as de la distribucin de la variable aleatoria =Nmero de
personas en la misma cama. a) Obtener y representar las funciones de masa
de probabilidad y de distribucin. b) Acaba de llegar a la mansin el Papa
buscando a Berlusconi para darle un recado, pero Berlusconi est encamado.
El Papa est mayor y le puede dar un infarto si ve ms de cuatro personas en
la misma cama. Cul es la probabilidad de que el Papa regrese sano y salvo
al Vaticano?

138|P g i n a

Solucin.
a) Construimos una columna sumando las probabilidades para obtener la
funcindedistribucin.
2
3
4
5
6
7
8

0.01
0.08
0.25
0.32
0.28
0.05
0.01

0.01
0.09
0.34
0.66
0.94
0.99
1

Paraescribirdeformacorrectalafuncindedistribucinnicamentehayque
tenerencuentalasdiscontinuidadesenlospuntosdelavariable .
0
0.01
0.09
0.34
0.66
0.94
0.99
1

2
2,3
3,4
4,5

5,6
6,7
7,8
8.

Las grficas de la funcin de masa de probabilidad y de la funcin de


distribucinaparecendibujadasenlaFigura73.

b)Laprobabilidadquetenemosquecalculares
4
4 ,que,sin
msquebuscarenlatabladelafuncindedistribucin,vemosquees0.34.

P g i n a |139

Figura73

7.1.2 Variablesdiscretasinfinitasnumerables.
Lasvariablesdiscretaspuedentomarunconjuntoinfinitodevalores,siempre
queesteseanumerable.Porejemplo,lavariable =nmero de hombres con los
que podra yacer Mesalinatomalosvalores
1,2,3. .. Lgicamente,laprobabilidad
de tomar un valor deber ir disminuyendo de alguna forma, puesto que debe
verificarsesiemprequelasumadeprobabilidades
sea1(ynohay
ningn ser humano catalogado a da de hoy como capaz de infinitos encuentros
amorososincluyendoaLisaSparx,quecitaremosenelprximocaptulo,quese
sepa).

Ejemplo 7-4 La universidad americana es un lugar de infinitas ancdotas. Se


cuenta que un estudiante de ingeniera, harto de escuchar frases del estilo
las mujeres no nos fijamos en el fsico ni en el dinero, sino que el hombre sea
sensato, detallista, reflexivo, que nos haga reir, etc. decidi preguntarle a
Einstein cual era su probabilidad de conseguir una cita con una mujer.
Einstein le contest que, segn sus aos de investigaciones, para la gente
normal,correctamentevestidayeducada,lavariablenmero de citas por noche

140|P g i n a

es una variable de Poisson de parmetro


0.2. El estudiante le dijo que era su
primeraoenlauniversidadyquenoconocalavariabledePoisson,porquetodava
nohaballegadoaesetema,yquenicamentehabavistoladefinicindevariable
aleatoriadiscreta.Einsteinledijoquenosepreocupara,queprecisamentesetrataba
deunavariablealeatoriadiscretaquetomavalores
0,1,2, . ..y,enprincipio,hasta
infinito,siendolaprobabilidaddecadavalordelaforma

, siendo unnmeromayorquecero.

Einstein le explic que, adems, como buena variable aleatoria, se puede


comprobar que siempre (independientemente del valor de la suma de
probabilidadesda1:
1,
peroque,enrealidad,nohacafaltasumartanto,porquepara
0.2,conpocos
valores(12,porejemplo)lasumayavale1,conlocuallaprobabilidaddeligarera
bastantealta.
Como aquel domingo era la fiesta de entrega de los Oscar, el estudiante
decidi colarse. Fue una a una a todas las actrices (incluida Whoopi Goldberg)
preguntndolessiqueranpasarlanocheconl,ynoslosellevvariosbofetones,
sino que, tras entrarle a 200 actrices,
terminencomisaraporacosador.
Mientrasestabaenloscalabozos,
el estudiante trat de distraerse
calculando las probabilidades en una
variable de Poisson con
0.2,
comprobandoqueeldiagramadebarras
esdelaformadelaizquierda,endonde
vemos que
0 es mucho ms
grande que las dems (o sea que la
probabilidaddenoligaresaltsima).

P g i n a |141
Hay quien dice que, finalmente, el estudiante consigui una cita con un
travestiqueestabaenelcalabozo,perodeesoyanohaypruebas.

7.2

VARIABLESALEATORIASCONTINUAS

Unavariablealeatoriacontinuaesaquellaquepuedetomarcualquiervalor
(al menos tericamente) entre 2 fijados. Los valores de la variable (al menos
tericamente)noserepiten.
Ejemplos: =Tiempo observado al recorrer una cierta distancia, estatura, peso,
nivel de colesterol en sangre.... Todas las precisiones realizadas en el captulo de
variables estadsticas son igual de adecuadas en este caso. Cuando observamos
valoresdeunavariablealeatoriacontinua,existeunalimitacinencuantoalnmero
devaloresquepuedetenerlamisma.Estoes,enlaprctica,lavariablenopuede
tomar infinitos valores. A la hora de medir el peso o la estatura, por ejemplo, se
trabajaconunnmeroprecisodedecimales(quepuedesergrandeperonuncaser
infinito).Loqueseesthaciendoesunallamadadiscretizacinalahoradetomar
datos.Sinembargo,desdeunpuntodevistamatemtico,consideraremossiempre
queunavariablecontinuapuedetomarinfinitosvalores.Estonospermitirtrabajar

142|P g i n a

conpropiedadesmatemticasquenosaportarnmuchainformacindelavariable
considerada.

7.2.1 Funcindedensidad

Lasvariablesaleatoriascontinuasvienencaracterizadasporunafuncin que
sellamafuncindedensidad,queesunageneralizacindelafuncindemasade
probabilidad. Esta funcin (real, de variable real), debe verificar que
0 en
cualquiervalorde (eldibujodelafuncindebeestarporencimadelejehorizontal)
yquelaintegral

1(elreabajolacurvayelejehorizontalvaleuno),

comovemosenlafigurasiguiente.
Elconceptodefuncindedensidadsurgedelageneralizacindelpolgonode
frecuencias. En el captulo de estadstica descriptiva vimos que el polgono de
frecuenciasconsistesimplementeenunirlospuntosmediosdelasbarrassuperiores
delosrectngulos,enelhistogramadefrecuencias,ycomprobbamosqueelrea
encerrada por el histograma o el polgono de frecuencias es 1 (considerando
frecuenciasrelativas).

P g i n a |143
Supongamosahoraquetomamossucesivamentediferentesmuestrasdeuna
variablecontinua,cadavezconmayornmero dedatos.Amedidaque aumenta,
elnmerodeintervalosalrealizarunhistograma(opolgono)defrecuenciastambin
crece.Lalneadelpolgonodefrecuenciassevadibujandoconsegmentoscadavez
mspequeos,queacabandefiniendounafuncinmatemticaconalgunafrmula
especfica.EnlaFigura74ylaFigura75vemosunejemplo,dondeelegimosuna
variable,yvamoscogiendomuestrasdelamisma,aumentandoeltamaomuestral
sucesivamente.Comprobamosqueelpolgonodefrecuenciassevaperfilandocada
vezms.

Figura74

144|P g i n a

Figura75

Lafrmulaexactadelafuncin secorresponderconalgunadelasmuchas
funcionesdedensidadquehansidodefinidasalolargodelahistoria(cadaunasuele
tenerunnombreespecfico,ysufrmulayafueinventada,oescrita,poralguienms
listo que nosotros Gauss, Student, Snedecor... , as que no tenemos que
preocuparnosdeadivinarculeslafuncin).EnlaFigura76tenemosunejemplode
unafuncindedensidaddetipoexponencial(quecorrespondealafuncinqueva
dibujando el polgono de frecuencias de las figuras anteriores), cuya expresin
matemticaes
0

si
si

0
0

con

(72)

P g i n a |145
Estetipodefuncincorrespondealafuncindedensidaddevariablesque
mideneltiempodevida.Comopodemosobservarenlagrfica,elhistogramade
frecuenciasseadaptaperfectamentealamedicindeltiempodevidadeunconjunto
muygrandedeseresvivos,odecomponentesdeaparatoselectrnicos(transistores,
circuitos). Volveremos a citar esta variable, con mayor detalle, en el captulo
siguiente.

Figura76

Unavezexpuestoque,enunavariablealeatoriacontinua,laspropiedadesde
la misma vendrn descritas por la funcin de densidad, indiquemos que las
probabilidadessecalcularncomounaintegraldefinida:

,
quecorrespondealreabajolacurva entrelosvalores y

(Figura77).

146|P g i n a

Figura77

En el caso de una variable aleatoria continua, la probabilidad de cualquier


puntoconcreto escero,porquenohayreabajolacurva:
0.
Estopuedesonarunpocoraro,alprincipio.Sihablamos,porejemplo,dela
variablealtura,nospodemospreguntar:culeslaprobabilidaddemedir1.72?.
Segnloqueacabamosdedecir,laprobabilidaddeunpuntoescero.Qusucede?
Pues que, como dijimos antes, en la prctica realizamos una discretizacin de la
variablecontinuaaltura.Lapreguntamatemticamentecorrectasera:Culesla
probabilidaddetenerunaestaturaentre2valores y ?Enfuncindelaprecisin
queestemosutilizando,cogeremos y muycercanosa1.72.Esaprobabilidades
laprobabilidaddeunintervalo(porpequeoquesea),yesaprobabilidadsserun
nmeromsgrandequecero.

P g i n a |147

Precisamenteporestehecho,cuandocalculemoslaprobabilidaddequeuna
variablecontinuatomevaloresentredosnmeros y ,tendremosque

,
osea,todasesasprobabilidadesdanlomismo,porqueconsiderarunpuntomsno
cuenta (al tener probabilidad cero). Esto va a venir muy bien cuando se hagan
ejerciciosdevariablescontinuas,porquelaprobabilidaddeequivocarsesercero.
Funcindedistribucin.Lafuncindedistribucintieneelmismosignificado
para una variable aleatoria continua que para una discreta, y es la probabilidad
acumuladahastaunpunto .Elequivalentecontinuodeunasumaeslaintegral:
,

148|P g i n a

quecorrespondealreaacumulada,bajolafuncindedensidad ,desde hasta


elvalor . Grficamente,podemosverloenlaFigura78.Enestafiguraenconcreto,

Figura78

lafuncintomavaloresmayoresqueceroapartirde 4,porloqueelareadesde
hastacualquiervalor seconvierteenelreadesde 4hasta .
La funcin de distribucin, matemticamente, ser una funcin no
decrecientequevaraentre0y1. Alcontrarioqueenelcasodeunavariablediscreta,
la funcin de distribucin de una variable continua es una funcin continua. Por
ejemplo,lafuncindedistribucincorrespondientealadensidadexponencial(72)
es:

0
1

si
si

EstafuncinaparecedibujadaenlaFigura79.Ampliaremosmsdetallesde
lavariableexponencialenelcaptulosiguiente.Porltimo,indicarque,debidoaque
lafuncindedistribucinsecalculacomolaintegraldelafuncindedensidad,sta
ltimaesladerivadadelafuncindedistribucin:

P g i n a |149
,

demaneraquesi,paraunavariablecontinua,conocemossufuncindedistribucin,
nohaymsquederivarlaparaobtenerlafuncindedensidad.

Figura79

150|P g i n a

7.3

MEDIDASCARACTERSTICASDEUNAVARIABLEALEATORIA

Igualqueenelcasodevariablesestadsticas,paralasvariablesaleatoriasse
puedendefinirmedidasdecentralizacin,dispersinyforma.Lasmsutilizadasson
elvalormediooesperanza(generalizacindelamediaaritmtica)ylavarianza(osu
raizcuadradaladesviacintpica).Tambinpodemosdefinirycalcularlosmismos
parmetros que hemos visto en variables estadsticas: mediana, cuartiles, moda,
coeficientedesimetra,etc.,yelsignificadodelosmismoscoincideconeldefinido
encadacaso.Vamosavercomosecalculanlosparmetrosmsutilizados.

7.3.1 Esperanzadeunavariablealeatoria

Eslageneralizacindelamediaaritmtica.Tambinsellamavalormedioo
valoresperado,yserepresentaporlaletragriega .
Si
es una
variable
aleatoria
discreta (representada,
demanerageneral,porla
tabla (71), se calcula
comolamediaaritmtica
delosvalores,esdecirla
suma de los valores por
sus probabilidades (las
probabilidadesseranlasfrecuenciasrelativas).
.
Recordemos que la media aritmtica de una variable estadstica se defini
como

P g i n a |151
...

que,obviamente,seraequivalenteaescribir

es decir, sera la esperanza de una variable cuyos valores aparecen todos con la
mismaprobabilidad
1/ . Siaunavariableestadsticalarepresentamosporsus
valores ysusfrecuenciasrelativasson
/ ,entonceslamediaaritmticase
puedeescribircomo

o,comovemos,sumadevaloresporfrecuencias.Enelcasodeunavariablealeatoria,
las frecuencias se transforman en probabilidades (de ocurrencia). Por eso la
esperanzaesunvalormedioesperado.
Si es una variable aleatoria continua, la variable toma infinitos valores.
Comovimosenlafuncindedistribucin,elequivalentecontinuodelasumaesla
integral.Lafrmulamatemticaincluyeenestecasoalafuncindedensidad:

.
Nota 7-1 Puede ocurrir, tanto en variables discretas como continuas, que el valor que
se obtenga al calcular la esperanza sea un nmero que tiende a infinito. En este caso,
se dice que la variable aleatoria no tiene esperanza. Si la variable aleatoria no tiene
esperanza, tampoco tiene varianza. Ms adelante veremos algn ejemplo.

7.3.2 Lavarianza

Serepresenta
,yladesviacintpica eslaraizcuadrada(con
signopositivo)delavarianza.Igualqueenelcasodevariablesestadsticas,midela
dispersindelavariable,ysecalculacomolamediadelasdesviaciones(elevadasal
cuadrado)delosvaloresasumedia:

152|P g i n a

.
Tambinpuedecalcularsecomo
.

(73)

SiXesunavariablediscreta,laformadehacerlosclculosser
,

enfuncindelafrmula(73).
SiXesunavariablecontinua,

yque,igualqueantes,envirtuddelafrmula(73),puedecalcularsecomo

Ejemplo 7-5 Calcular la media o esperanza de la variable aleatoria del


Ejemplo 7-3.
Solucin.
Utilizandolafrmula,tenemosquesumarvaloresporprobabilidades:

2 0.01

3 0.08

4 0.25

5 0.32

6 0.28

7 0.05

8 0.01

4.97.

Lavarianzalacalculamosmediantelafrmula
.
Comolamediayalahemoscalculado,calculamoselprimertrmino(quees
igualquecalcularlamediadelosvaloresalcuadrado):

P g i n a |153

0.28

7 0.05

2 0.01 3 0.08
8 0.01 25.93.

4 0.25

5 0.32

Porlotanto,lavarianza
25.93

4.97

1.22.

7.3.3 Propiedadesdelamediayvarianza
La media y la varianza de una variable aleatoria poseen las mismas
caractersticasopropiedadesvistasparalasvariablesestadsticasunidimensionales,
enlaseccincorrespondiente.Concretamente,podemosresumirquesi

, donde , son nmeros cualesquiera

y
.

(74)

Adems, tenemos que, si sumamos variables independientes (el valor de


cualquier variable no depende de los valores de ninguna otra), la esperanza de la
sumaeslasumadeesperanzas,eigualocurreconlavarianza:
...

...

...

...

(75)
.

Unageneralizacindeestasdosltimasfrmulaseselsiguienteresultado:si
tenemos , . . . , variables independientes, y nmeros reales , , . . . , ,
entonces:
...

...

...

(76)

154|P g i n a

Ejemplo 7-6 La variable


mide el peso de las pizzas sencillas de la marca
Parradellos, y tienen de media 500 gramos y varianza 5. La variable
mide
el peso de los yogures de la marca Dadonde, y tiene de media 120 gramos
con varianza 2. Manuel y Manuela cenan todos los das una pizza doble y un
yogur y medio. Cul es la media y varianza de la variable que mide el peso
de la cena?
Solucin.
Elpesodelacenaes
2
1.5
120 1180 gramos, y la varianza es
5 2.25 2 24.50.

.Porlotanto
2

2 500
1. 5

1.5
4

7.3.4 Mediana
Lamediana eselvalorquedejaacadaladoel50porcientodelapoblacin
(laprobabilidadacadaladoes0.5):

0.5 y
0.5 si es discreta,

0.5 si es continua.

P g i n a |155
7.3.5 Cuantil
Eslageneralizacindelamediana.Dadounvalor , 0

1,elcuantil

eselpuntoquedejaunaprobabilidad asuizquierda.

si es continua.

si es discreta,

Aligualqueenelprimercaptulo,podemosdefinir:

loscuartiles,quedividenalapoblacinen4partesiguales: eselcuantil
, eselcuantil . oMediana,y seraelcuantil . (verlaFigura710).
losdeciles,quedividenalapoblacinen10partesiguales.
lospercentiles,quedividenalapoblacinen100partesiguales.

Figura710:cuantil

,quedejaalaizquierdareaoprobabilidadp.

7.3.6 Moda
Lamoda eselvalormsprobableofrecuente,esdecir,elvalor con
mayor si esdiscreta(elvalorqueaparececonmayorprobabilidad),oelvalorque
maximizalafuncindedensidad si escontinua.Lamodanotieneporquser
nica.Enelcasodeunanicamodasedicequeladistribucinesunimodal,ycon
msmodasmultimodal.

156|P g i n a

UnejemplolovemosenlaFigura711.Lavariablequeposeelafuncinde
densidad que vemos en la grfica tiene 2 modas relativas (los valores que hacen
mximalafuncinenciertosintervalos,yunamodaabsoluta,sealadaenelgrfico).
Enestaimageninclumostambinlaposicindeloscuartiles,ovaloresque
dividen la variable en cuatro partes iguales segn el rea o probabilidad, que
aparecenresaltadosenelejehorizontaldelagrfica.

Figura711

Ejemplo 7-7 Como nos ensearon en la pelcula Origen (Inception, 2010),


dentro de un sueo el tiempo pasa mucho ms lentamente que en la
realidad. A la vez, si se va bajando el nivel, es decir, si se suea dentro de
un sueo (sera sueo nivel 2) el tiempo todava es mucho ms lento, y as
sucesivamente.
Un ejecutivo de bolsa, que liga habitualmente con probabilidad , se

P g i n a |157
est volviendo cada da ms adicto al sexo, y se encuentra decidido a
descender por lo menos a un sueo de nivel 4 para ligar con una ta y estar
dale que te pego durante 50 aos (tiempo del sueo). Para entrar en cada
nivel del sueo le ha comprado unos tripis a un mdico deportivo, que le
garantizan un sueo lcido (como se llaman los sueos donde se controla
lo que uno hace) con probabilidad .
a) Determinar la funcin de masa de probabilidad de la variable =nivel del
sueo en el que liga el ejecutivo.
b) Calcular la probabilidad de que consiga llegar al nivel 4 y all ligar.
c) Calcular el nivel medio esperado al cual se llega (y se liga) con las
pastillas del mdico.
Solucin.
a)Llamemos =ligary =niveldesueo .Tenemosque

Nivel0(vidareal):
1
.
4

0
Nivel1(sueo):
1

3 1
.
4 4

Nivel2(sueodentrodeunsueo):
2

3 3 1
.
4 4 4

Engeneral:

. . .

3
4

1
.
4

Secompruebaqueesunaleydeprobabilidad,puestoquelasprobabilidades
suman1:
1 3
4 4

1.

b)Laprobabilidaddeligarenelnivel4es

158|P g i n a

1 3

4 4

0.079.

c)Elnmeromediodenivelesquesealcanzaeslaesperanzadelavariable,
1 3

4 4
quepuedecomprobarsequees3.
Mala suerte para el ejecutivo de bolsa, que necesita llegar al nivel 4 para
cumplirsusueo(nuncamejordicho).

Nota 7-2 Cmo pueden calcularse las sumas infinitas? En programas como
Mathematica o Maple es muy sencillo. Tenemos en internet recursos tambin para
hacerlo. Una pgina muy til para clculos matemticos y estadsticos es la de
Wolfram Alpha. Para calcular una suma (que puede ser infinita) el enlace es:

P g i n a |159
http://www.wolframalpha.com/examples/Sums.html
y en l ya se ven ejemplos de la sintaxis que hay que utilizar (muy sencilla).

Ejemplo 7-8 Infinitus est stultorum numerus (Eclesiasts, de la biblia,


aunque hay quien se la atribuye a Einstein). Es algo as como que el nmero
de tontos es infinito. Cuenta la leyenda que Zenn de Citium hizo un alto en
el regreso a su citium y par a cenar (para dar honor a su nombre) en una
ciudad famosa por la cantidad de familiares que se haban casado entre s.
Despus de mucho deambular por dicha ciudad, y con su mente privilegiada,
Zenn lleg a la conclusin de que el nmero de necios que uno poda
encontrarse paseando por cualquier calle de la ciudad era una variable
aleatoria, tomando valores con la siguiente ley de probabilidad:
1
2
3

12
1/4
1/9

1/

/6

Como vemos aparece el nmero en ella, smbolo de la armona matemtica


en toda tabla de la antigedad que se precie. Demostrar que la famosa frase
es cierta, calculando el nmero medio de necios en una calle cualquiera.
Solucin.
Excepto el 1, que aparece con probabilidad

, el resto de valores

aparecenconprobabilidad . Puedecomprobarseque,enefecto,setratadeuna
leydeprobabilidad,puestoquelasumadeprobabilidadesda1:
12

1
6

1.

Vamosaintentarcalcularelnmeromediodeneciosenunacalle.Cuando
escribimoslafrmulade
:

160|P g i n a

12

1
6

12

1
6

ylasumainfinitadeladerechadiverge(tiendeainfinito),porloqueelnmeromedio
tiendeainfinito.Comodijimosanteriormente,cuandoestosucede,sedicequela
variablealeatorianotieneesperanza(locualnolequitaraznalgunaalafrase).

Ejemplo 7-9 En teletimo TV anuncian dos pastillas hechas con componentes


naturales, destinadas a aumentar el rendimiento de las parejas de la tercera
edad en las noches de amor. En los prospectos de las pastillas incluyen los
valores de los minutos de rendimiento en el lecho (aproximados en intervalos
de cinco minutos) y las probabilidades correspondientes.
,

5
10
15
0.2 0.15 0.15
0.1 0.1
0.05

20
0.2
0.2

25
0.1
0.2

30
0.1
0.15

35
0.05
0.08

40
0.05
0.07

45
0

0.05

a) Hallar el rendimiento medio para cada pastilla. b) Cul de las dos


provocar una mayor variacin en el rendimiento medio de las parejas?
Solucin.

P g i n a |161
a) Elrendimientomedioencadapastillacorrespondealamediaoesperanza
decadavariable.
5 0.2

10 0.15
40 0.05

15 0.15
18.

20 0.2

5 0.1

10 0.1 15 0.05 20 0.2


40 0.07 45 0.05 23.6.

25 0.1
25 0.2

30 0.1

35 0.05

30 0.15

35 0.08

b)Paracalcularculdelasdospastillastienemayorvariacin,calculamoslas
varianzasyloscoeficientesdevariacin.
5 0.2

10 0.15

15 0.15

35 0.05
5 0.1

20 0.2

40 0.05

15 0.05

20 0.2

35 0.08

40 0.07

45 0.05

675

30 0.1

427.5.

10 0.1

427.5

25 0.1

25 0.2

30 0.15

675.

18

103.5.

10.17.

23. 6

118.04

10.86.

Finalmente:
10.17
0.56,
18
10.86
0.46.
23.6
Porlotanto,elprimerfrmacotienemayorvariacin.

Ejemplo 7-10 Sea la variable aleatoria que mide el tiempo que la gente
aguanta sin acostarse con su pareja, en semanas, despus de un
diagnstico de enfermedad venrea. La funcin de densidad de esta variable
aleatoria viene dada por:
1

0,2

.
0
0,2
a) Determinar y representar la funcin de distribucin de esta variable. b)
Cul es la probabilidad de que un diagnosticado de venreas vuelva ya a la
2

162|P g i n a

cama con la pareja antes de 3 das y medio? Y exactamente a los tres das
y medio? c) Cul es la probabilidad de que aguante ms de tres das y
medio y menos de 1 semana?
Solucin.
Dibujamoslafuncindedensidadacontinuacin.

a)Alestarlafuncindedensidaddefinidaen3tramos(antesde0,entre0y
2,ydespusde2),lafuncindedistribucintendrquecalcularseendichostramos,
como la integral desde hasta . En cada tramo el rea se calcular segn la
funcinquetengamos.PodemosverlodeformadetalladaenlasgrficasF1,F2yF3.

F1

P g i n a |163

F2

F3

Matemticamente:
0

1
1

0
4
0

2
2

164|P g i n a

Estafuncinladibujamosacontinuacin.

b)Elrecorridodelavariablees2semanas.Tresdasymediocorrespondea
(semana)

0.5.
0.5

es
cero.

0.5

0.5 0.5

0.4375.

Laprobabilidaddevolveraacostarseconsuparejajustoalostresdasymedio
0.5
0porqueesunavariablecontinua;laprobabilidaddeunpuntoes
c) La probabilidad de que aguante ms de tres das y medio y menos de 1

semanaes

0.5

0.5

1 1

0.4375

0.3125.

Ejemplo 7-11 En una antigua empresa pblica privatizada por el gobierno, el


sueldo mensual, en miles de euros, que cobran los polticos consejeros de la
empresa (slo por ir a sentarse) est representado por una variable aleatoria
continua con funcin de densidad
4
4

4
0


a) Determinar la funcin de distribucin. b) Un periodista sabe que un
consejero no ha llegado este mes a juntar 3000 euros. Cul es la

P g i n a |165
probabilidad de que haya tenido un sueldo mayor de 1500 euros? c) Calcular
el sueldo mensual medio.
Solucin.PrimerodibujamoslafuncindedensidadenlaFigura712.
a)Alestarlafuncindedensidaddefinidaen4tramos(antesde0,entre0y
2,entre2y4,ydespusde4),lafuncindedistribucintendrquecalcularseen
dichostramos,comolaintegraldesde hasta .Encadatramoelreasecalcular
integrando la funcin que tengamos. Podemos verlo de forma detallada en las
grficasF1yF2.

Figura712

Matemticamente,lafuncindedistribucinseescribe:
0

0
1

0
0

4
4

166|P g i n a

F1

F2

Lagrficadelafuncindedistribucineslaquesigue.

P g i n a |167
1500/

b) Tenemos que calcular


probabilidadcondicionada,es

1500

3000
3000

3000

3000 . Por la definicin de


1

1500
3000

1
3
8
1

1
1. 5
8

3
1
3
8

0.67.
.Enestecaso,laintegral

c)Elsueldomensualmedioes

sedivideenunasumade4integrales,unaporcadaparteenque sedefinedeforma
diferente.

4
4

2
3

4
3

2.

Porlotanto,elsueldomedioson2000euros.
Ejemplo 7-12 La duracin, en horas de espera, en las urgencias de un gran
hospital pblico, es una variable aleatoria continua con funcin de densidad
,

100,

a) Calcular el valor de y la funcin de distribucin. b) Calcular la probabilidad


de que una paciente espere menos de 200 horas, si ya lleva 150 horas en la
sala de espera. c) Calcular el valor que, como mnimo, esperan el 50 por ciento
de los pacientes. d) Calcular el tiempo medio de espera.
Solucin.

168|P g i n a

a)Eldibujodelafuncindedensidadeselquesigue:

Comoelreabajolafuncindedensidaddebeser1,setieneque
1

Tenemosque
,
conloque

100

100

Comoesteltimovalordebeseriguala1,obtenemosque
Lafuncindedistribucinser
0

100,resulta

100

100

0
1

Dibujamoslafuncin:

100

100.

100
Como

100
100

P g i n a |169

200/

b)Nospidencalcular

200/

150 .

150

150

200
150

200
1

150
150

100
200
1

1
1

100
150

100
150

1
4

0.25

c) Nos piden calcular el valor tal que


probabilidaddelsucesocomplementario,tenemosque
Porlotanto,elvalor esprecisamentelamediana.Como
tenemosque
100
100
1
0.5
200
.
0.5
d)Eltiempodeesperamedioeslaesperanzadelavariable.
100
0

100

100

0.5. Usando la
1 0.5 0.5.
,

170|P g i n a

Comovemos,elresultadoesunnmeroquetiendeainfinito.Estavariable
aleatorianotieneesperanza.

Ejemplo 7-13 Un cientfico muy templado ha experimentado, en su propio


cuerpo, sobre cierta estructura orgnica que puede sufrir, debido a algunos
estmulos, una dilatacin que (medida en cm) ha logrado describir como una
variable aleatoria continua con funcin de densidad dada por:
0
3
5

3
5
8

a) Sabiendo que la funcin de densidad es una funcin continua de ,


determinar y . b) Calcular la probabilidad de que la dilatacin sea inferior a
3 cm. c) Si ha observado que la estructura ha dilatado ms de 3 cm, con qu
probabilidad la dilatacin estar entre 3 y 5 cm? d) Calcular el valor de la
variable que ms probabilidad tiene de repetirse. e) Calcular que dilatacin
ser superada por, como mucho, el 10 por ciento de las personas.
Solucin.
a)Comonosdicenquelafuncinescontinua,tendremosque,enlosvalores
3y5,coincidenlasdistintasfunciones,esdecir:
3

dedondenicamenteobtenemos3
Porotrolado,laintegral
1

5 ,
.
debeser1:

P g i n a |171
9
2
Como 3
3/15

3
2

9
2

7
.
2

, tenemos que 1

15 , con lo que

1/15 y

1/5.

Lafuncindedensidadtieneestaforma:

b)
c)

3
3

.
5/
5
3

3
1

5
3

1
5
1

3
10

2
5
7
10

4
.
7

d) Nos piden la moda de la variable, es decir el mximo de la funcin de


densidad.Sinmsquemiraralafuncindedensidad,vemosqueelintervalo 3,5 es
elintervalomodal,puesendichointervaloelvalorquetomalafuncinesconstante
(ymximo).
e) Nos piden el valor tal que
0.10, o, lo que es lo mismo,
0.9;estoes,nosestnpidiendocalcularelpercentil90.
Enlagrficadelafuncindedensidadvemosqueel90porcientoderea
acumuladaestarenelintervalo 5,8 ,conloquepodemosescribir

172|P g i n a

1
8
15

0.1.

Integrando,
1
8
15

0.1,

que,haciendocuentas,quedaunaecuacindesegundogrado:
16
61 0,
cuyassolucionesson6.27y9.73.Como9.73estfueradelintervalo 5.8 ,elvalor
delpercentil90es6.27.

P g i n a |173

7.3.7 Resumenparavagos

Variable
Discreta

Funcindeprobabilidad

Variable
Continua

Tabla
con
valores
y Funcin ,verificando
probabilidades(quesuman1)
0 y
1

Funcindedistribucin

Sumadeprobabilidadeshasta

,
con

Media

Areaointegraldesde hasta

Varianza

Msejercicios,paralosinquietos,en[12].

174|P g i n a

Imagenpararecordarconceptos(aunqueestanodecimosquelarecortisy
lapeguisenningnsitio)

EsperanzaAguirre,solicitandoelvotodelosestadsticos,sinsaberlo.

P g i n a |175

PRINCIPALESVARIABLESDISCRETAS

Unodecada7mdicosopinaquelosotros6sonidiotas.
LosseisamigosdeldoctorHouse.

8.1

VARIABLEDEBERNOULLI

Supongamosunexperimentoaleatorioqueadmiteslo2posiblesresultados:
xito ( ) o fracaso ( , que ocurren con probabilidad
y
1
,
respectivamente.EstetipodeexperimentorecibeelnombredepruebadeBernoulli.
Lavariablealeatoriaconfuncindeprobabilidad
0
1

recibeelnombredevariablealeatoriadeBernoulli(seescribe

8.1.1 Mediayvarianza
Seobtienefcilmenteque
0
1
.
0

y
1

Ejemplo 8-1 La variable que toma el valor cero si sale cara al lanzar una
moneda, y uno en caso contrario.
Ejemplo 8-2 Analizando una persona para saber si tiene una enfermedad. La
variable toma el valor 1 si tiene la enfermedad, 0 en caso contrario. en este
caso es la probabilidad de tener la enfermedad. Obviamente, a tener una

176|P g i n a

enfermedad no se le llamara coloquialmente xito, pero suele denominarse


as a aquel suceso en el que estemos interesados.

8.2

VARIABLEBINOMIAL

Supongamosqueserealizan experimentosdeBernoullidemanerasucesiva,
siendocadaexperimentoopruebaindependientedelanterior(porejemplo,lanzar
vecesunamoneda;analizar personasparasabersitienenonounaenfermedad).
LaVariable
nmerodevecesqueocurreelsuceso enlas pruebaso
nmero de xitos en pruebas recibe el nombre de variable binomial de
parmetros y (

en1prueba)).Seescribe
, .
Lavariable puedetomarlosvalores0,1,2, . . . (en pruebaspuedehaber
desde0hasta xitos)siendolaprobabilidadconquelostoma:

P g i n a |177
!

, donde

yrecordemosqueelfactorialdeunnmero es !
2 1.

,
!
1

2 . . . 3

Laobtencindeestafrmulaesrelativamentesencilla(sialgunonolasigue
bien,guiarseporlosmacacosdelapginasiguiente):
Sien pruebashay xitos,elsuceso (probabilidad habrocurrrido
veces. En consecuencia, el suceso (fracaso) habr ocurrido
veces. A
continuacin escribimos una situacin posible: los primeros experimentos o
pruebas
dan
xito
y
los

restantes
fracasos.
1

.2

La probabilidad de que se d esta situacin es la probabilidad de la


interseccindetodosesossucesos
. . . ,que,porserunainterseccin
de sucesos independientes (pensemos en el experimento ms facil, lanzar una
mneda,xitocara)es

. . .

. . .

. . .

Ahora ste ltimo valor (


debemos multiplicarlo por el nmero de
psiblesopcionesquepuedendarse,en pruebas,dequeocurran xitosy

9
fracasos (que se vayan alternando xitos y fracasos, etc.) . Se demuestra que el
nmerodeposiblesopcioneses:

!
!

, y,porlotanto,

Supongamos un caso muy sencillo:


darse son , y .

3,

1. Las posibles situaciones que podran

178|P g i n a

P g i n a |179
8.2.1 Mediayvarianza.
Puededemostrarsequelamediaylavarianzason:
y

de

Nota 8-1 Es conveniente darse cuenta de que la variable Binomial es la suma


variables de Bernoulli, independientes, esto es:
...

siendo la variable que mide si hay xito en la prueba . Claramente, la variable de


Bernoulli es
1, . Por ello, y por las propiedades de la media y la varianza que
vimos en el captulo anterior (la media de una suma es la suma de las medias, y la
varianza es la suma de varianzas, refirindonos siempre a variables independientes),
es trivial comprobar que, en efecto, la esperanza de una variable binomial es
y su
varianza es
, puesto que la esperanza de una Bernoulli es y su varianza es .

Ejemplo 8-3 El 65 por ciento de los alumnos de un instituto han dicho que
piensan acudir a la proxima convocatoria para rodear el congreso de los
diputados. El director se chiva al comisario de polica y ste, para ahorrar
tiempo, decide detener a 4 alumnos al salir del instituto. Cul es la
probabilidad de que, al menos uno de ellos, tuviera pensado acudir a la
manifestacin, y as el comisario poder justificar que fue una detencin
preventiva para evitar males mayores?
Solucin.
0.65.

Definimos =xito acudiralamanifestacin.

Plantear la variable
nmero de alumnos que piensan acudir a la
manifestacin de un grupo de 4esequivalenteaplantear =nmerodexitosen4
pruebas.Porlotanto,
4,0.65 . Laprobabilidadquenospreguntanes
1 .
1

4
0.65 1
0

0.65

0
1

0.015

0.985,

180|P g i n a

esdecir,queelcomisariotienejustificacincasisegura.

Ejemplo 8-4 Una leyenda urbana que suele circular por todas las
universidades es que siempre hay algn profesor que decide el aprobado o
suspenso lanzando los exmenes al aire. Los que caen en la mesa aprueban,
y los que no, suspenden. Si la probabilidad de que un examen caiga sobre la
mesa (es la pequea del ordenador, no la suya de despacho) es 0.2, calcular
la probabilidad de que al menos la mitad de una clase de 40 alumnos apruebe.
Solucin.
Sea
nmero de exmenes que caen sobre la mesa, de 40 lanzados. Esta
variable sigue una distribucin binomial
40,0.2 , pues sera xito caer sobre la
mesa.
Laprobabilidaddequealmenoslamitadapruebenes
20
1
20
1
19

40

0. 2 1

0.2

0.99

0.01.

(81)

Parece bastante lgico pensar que sera bueno comprarle una mesa ms
grandealprofesorparamejorarelratiodeaprobadosporclase.

Nota 8-2 La suma que aparece en (8-1) la hemos calculado en la pgina


Statistics Calculator, dentro de la web www.danielsoper.com. Es una pgina donde
podemos calcular probabilidades y sumas acumuladas de todas las variables que vemos
en este captulo, y as no es necesario utilizar las famosas tablas que suelen traer (casi)
todos los libros de estadstica.

Nota 8-3 Tambin podemos hacerlo de forma muy sencilla mediante R. R


trae las funciones de probabilidad/densidad y distribucin, adems de los cuantiles,
de todas las variables que se ven en este texto. Para calcular las probabilidades de los

P g i n a |181
ejemplos anteriores escribiramos
dbinom(0,4,0.65) (con esto calculamos
0 , con
4,0.65 .

El resultado da:
[1] 0.01500625
Para sumar varias probabilidades:
sum(dbinom(0:19, 40, 0.2)) (con esto sumamos
, con
40,0.2 . El resultado da:
[1] 0.9999783
Para ver cul es la sintaxis para cada variable slo hay que escribir
help(Distributions)

8.2.2 Propiedadaditiva
La Variable binomial es reproductiva respecto al parmetro . Esto quiere
decirqueSi
, e
, son2variablesindependientes,lasuma
, (esta propiedad es generalizable a un nmero finito de

variables).

Ejemplo 8-5 Un activista del grupo Anonymous logra colar un virus en las
pginas web de una cadena editorial propiedad de un grupo religioso. El virus
hace arrancar de repente videos pornogrficos en proporcin del 5 por ciento
por pgina web (del total de videos informativos reales de dicha pgina o
direccin web). 6 sacerdotes se conectan al da a 20 direcciones diferentes
del mismo grupo editorial. Clcular el nmero medio de videos que podrn
bajarse de internet al final del da.
Solucin.
Sea el nmero de videos pornogrficos que se cuelan en un grupo de 20
direcciones web,sabiendoquelaprobabilidaddequesalgaunvideopornogrficopor
pgina es 0.05. Suponiendo que los videos pornogrficos surgen de manera
independiente,
20,0.05 .

182|P g i n a

...
(siendo lavariable medidapara
Igualmente,lavariable
elsacerdote ,porlapropiedaddereproductividad,sigueunadistribucin 20
6,0.05
120,0.05 .
120 0.05

Elnmeromediodevideosalfinaldeldaes
8.3

6.

VARIABLEDEPOISSON

UnprocesodePoissonesunexperimentoaleatorioqueconsisteenobservar
la aparicin de sucesos puntuales sobre un soporte continuo (tiempo, longitud,
superficie...),demaneraque:
Elprocesoseaestable,esdecir,alargoplazoelnmeromediodesucesos
(quedenominaremos )porunidaddemedidaesconstante,ylossucesosocurren
aleatoriamentedeformaindependiente.
Ejemplos:clientesqueacudenaunmostradorporunidaddetiempo,llamadas
por unidad de tiempo a una centralita, pelmazos por unidad de tiempo a una tia
buenaenunadisco,defectospormetrodecable...
Estoseentiendemejorconunagrfica:describimosunprocesodePoisson
enlaFigura81.
EnunprocesodePoisson,lavariable =nmerodesucesosocurridosenun
intervalosedicequesigueunadistribucindePoissondeparmetro .Seescribe

. Sudistribucindeprobabilidades
!

0,1,2, . ..

Elnmerodevalores puedellegarhastainfinito.Esuncasodeunavariable
aleatoriadiscretaquetomaunnmeroinfinitonumerabledevalores.

P g i n a |183

Figura81

LavariabledePoissonestambinunageneralizacindelavariablebinomial.
Supongamos que, en un experimento de Bernoulli, el suceso xito tiene una
probabilidad
muy pequea (se dice que es un suceso raro). Puede
demostrarse que si es la variable
, , que mide el nmero de xitos en
pruebas,y tiendeainfinito, puedeaproximarseporunavariabledePoissonde
parmetro
.Porestemotivo,ladistribucindePoissontambinesconocida
comodistribucindelosprocesosraros.

con

Enlaprctica,nohayquesuponerqueserealizanmuchsimaspruebas.Esta
aproximacinfuncionabiensi
30y
0.1.

184|P g i n a

8.3.1 Mediayvarianza
Setieneque

Propiedadaditiva.Aligualquelavariablebinomial,lavariabledePoissones
reproductiva respecto al parmetro . Si
e
son 2
variables independientes, la suma

(y esto se puede
generalizaraunasumafinitadevariables).
Ejemplo 8-6 Un ejemplo de variable de Poisson lo vimos en el ejercicio 4 del
captulo anterior.

Ejemplo 8-7 En los aos 80 del siglo XX, la probabilidad de encontrar un


poltico espaol valiente y con coraje era de 0.05 (hoy en da el nmero ha
descendido prcticamente a cero). Si se considera una muestra de 350
diputados de aquella poca, cul es la probabilidad de que, ante una patrulla
de guardias civiles disparando al aire y gritando al suelo, coo!, haya 3 que
se queden sentados en su escao?
Solucin.
Definimos =xito

servaliente.

nmero de xitos en 350 pruebas


Alser
30y
Poissondeparmetro
La

probabilidad

0.05.
350,0.05 .

0.1,lavariable sepuedeaproximarporunavariablede
350 0.05 17.5.
de

.
!

2.2429 10

0.000022429.
Con lo cual, queda demostrado que el golpe de Tejero estaba destinado al
fracasodesdeelprincipio,porqueTejeroempezteniendomuymalasuerte(como
vemoseramuydifcilque3tosnoseecharanalsuelo,comorealmentesucedi).
Todosloshechosposterioresfueronconsecuenciadelaleyenunciadaporun
estadsticoapellidadoMurphy:sialgopuedeirmal,irmal.

P g i n a |185

Nota 8-4 En R, para calcular la probabilidad, nada ms arrancar el programa


escribimos dpois(3,lambda=17.5)
El resultado es: [1] 2.242898e-05

Ejemplo 8-8 Supongamos que el nmero de frases coherentes dichas por un


poltico, en respuesta a una pregunta de los periodistas es, en media, de 2.
Tras salir de votar en contra de la destitucin de dos compaeros del
consistorio, uno condenado por racismo y otra por robar carteras, el poltico
responde a 5 preguntas antes de que el pblico asistente rompa el cordn
policial y tenga que salir corriendo. Calcular: a) La probabilidad de que haya
dicho una frase coherente, cuando le preguntaron si le haban pagado por su
voto. b) La probabilidad de 10 frases coherentes en la contestacin de las 5
preguntas.

186|P g i n a

Solucin.
La variable
nmero de frases coherentes en una respuesta sigue una
distribucindePoissondemedia
2.
a)Nospiden
1

2
1!

0.270.

b) Al ser la variable de Poisson reproductiva, podemos considerar que la


variable =nmero de frases coherentes en 5 respuestas sigue una distribucin de
Poissondemedia
5 2 10.Laprobabilidadpedidaes

10
10

0.125.
10!

P g i n a |187

Ejemplo 8-9 El gerente de un club de carretera ha calculado que el promedio


de atencin correcta (los clientes tomen una copita con una chica, suban a un
reservado, etc. y luego se marchen con la sonrisa en la boca) es 16 clientes
cada 4 horas. Le acaban de avisar de que, en la hora siguiente a que termine
el Madrid-Bara, va a llegar un minibs con 12 clientes juntos. Cul es la
probabilidad de que al menos la mitad sean atendidos correctamente, para no
tener pelea garantizada?
Solucin.
16clientesen4horassupone4clientesporhora,luegolavariable =nmero
de clientes correctamente atendidos por hora sigue una distribucin de Poisson de
parmetro
4.
La probabilidad de atender correctamente al menos a la mitad de los 12
clienteses
6

188|P g i n a

4
!

0.785

0.215.

Va a ser mejor que el gerente tenga las pistolas cargadas, porqu parece
bastanteprobablequesevaaliar.

Nota 8-5 En R, para calcular la probabilidad, como


5
5 ,
podemos escribir:
1-ppois(5,lambda=4) (ppois es la funcin de distribucin de la variable de
Poisson).
El resultado es [1] 0.2148696

8.4

VARIABLEGEOMTRICAODEPASCAL

SupongamosqueserealizaunexperimentodeBernoullihastaqueseobtiene
el primer xito (por ejemplo, lanzar una moneda hasta obtener cara, mover una
ruletahastaquesalganegro).
Definamos la variable
"nmero de la prueba en que se obtiene por
primeravezunxito.Sediceque sigueunadistribucingeomtricaodePascalde
prametro

.
Sufuncindeprobabilidadesfcildecalcular:
Losvaloresquepuedetomar son1,2,3,...yas,enprincipiohastainfinito,
pues el primer xito puede ocurrir en la primera prueba, en la segunda, etc...
Obviamente, la probabilidad de que tome valores grandes ser cada vez ms
pequea.Setratadeotravariablealeatoriadiscretaquetomaunconjuntoinfinito
numerabledevalores.
Laprobabilidaddequelavariable tomeunvalor concretocorrespondea
queocurranexactamente
1fracasosy1xitoenlaprueba .Laprobabilidadde
queesoocurraes(recurdeseque esxitoy esfracaso).

P g i n a |189
1
2
3

. . .

. . .

Porlotanto,laleydeprobabilidaddeestavariablees
,
1,2, . ..

Puedecomprobarsequeestbiendefinida,esdecirquelasumadetodaslas
probabilidadesda1,puestoque

,
ylasuma
correspondealasumadeunaprogresingeomtricaderazn
1,cuyovaloresexactamenteelprimertrmino,divididoporunomenoslarazn,
estoes

1
1
.
1
1
Por lo tanto, la suma de probabilidades es 1/
1. Las progresiones
geomtricassolandarseenloscursosdeeducacinsecundaria,poresolocitamos.
De todas formas, siempre se puede calcular la suma infinita en la pgina
WolframAlpha,queyaseindicanteriormente.

8.4.1 Mediayvarianza
Seobtieneque

1
y

Nota 8-6 En algunos textos definen esta variable como nmero de fracasos
antes del primer xito. Es decir, si aparece definida la variable geomtrica de esta
forma, =nmero de fracasos antes del primer xito, tngase en cuenta que contar

190|P g i n a

es equivalente a contar
1. La variable
tomar los valores
0,1,2, . . ..(antes empezbamos en el 1) y sus probabilidades sern
.
En este caso, la media y la varianza son
/ y
/ .

Ejemplo 8-10 Un pringado se ha enamorado de una comercial de un banco


que le ha llamado por telfono. Gracias a su seductora voz, le ha contratado
la cuenta nmina y varios depsitos de participaciones preferentes. El caso es
que el pringado quiere hablar con ella de nuevo, pero ocurre que hay 40
agentes de atencin telfonica y la centralita asigna la llamada de forma
totalmente aleatoria. Cul es la probabilidad de que deba de llamar ms de
8 veces para conseguir hablar con la telefonista? Cul es el nmero medio
de llamadas que deber hacer?

Comocadallamadaseasignaaleatoriamenteaunatelefonista,laprobabilidadde
queletoquelaqueestbuscandoes
1/40 0.025.

P g i n a |191
Lavariable =nmero de la prueba en que consigue hablar con la chica que est
buscandosigueunadistribucingeomtricadeparmetro . Laprobabilidadque
tenemosquecalculares
1

0.183

0.025

0.025

0.817.

Elnmeromediodellamadasquedeberhaceres

1/

40.

Nota 8-7 Para calcular esta probabilidad por medio de R, debemos tener en
cuenta que R define la variable geomtrica como nmero de fracasos antes del primer
xito. Esto quiere decir que deberamos calcular
7
1
7
1
7 , siendo la funcin de distribucin en el valor 7. La sintaxis de 7 en R es
pgeom(7,prob=0.025).
El resultado es [1] 0.1833482

8.5

VARIABLEBINOMIALNEGATIVA

Esta variable supone una generalizacin de la anterior. En la variable


geomtricasecuentaelnmerodefracasosantesdelprimerxito.Ahora,vamosa
suponer que se realiza un experimento de Bernoulli hasta que se obtiene el xito
nmero
1 .
Definamoslavariable
"nmerodefracasosantesdelxito . sedice
quesigueunadistribucinBinomialNegativadeprametros y .Seescribe
, .
Suleydeprobabilidades
1

0,1,2, . ..

(82)

Laformadecalcularlaleydeprobabilidadesdelmismoestiloquelavistaen
ladistribucinbinomial.Veamoscomosehace:

192|P g i n a

Lavariable cuentalosfracasoshastaquehaya xitos.Supongamosque


vamos realizando pruebas (hasta llegar al xito , y supongamos que las
1
primeraspruebassonxitos,yluegotodassonfracasos( fracasos):

1 2 ...
1
1
2 ...
1

...
...
Comovemos,paraque
serunxito.

,esdecirhaya fracasos,laprueba

Laprobabilidaddequesucedaloquevemosenlatabladearriba(
acontinuacin fracasos,yacontinuacinelltimoxito)es

debe
1xitos,
.

Como, obviamente, debemos tener en cuenta que los xitos y los fracasos
puedenmezclarse,hayquemultiplicar
portodaslasposibilidadesquepueden
darse.Sepuedecomprobarqueelnmerodeposibilidadeses

1 !
1
,
1 ! !
y,porlotanto,laprobabilidaddeque tomeunvalor cualquieraeslaexpresada
enlafrmula(82).
Puedecomprobarsequesetrata,enefecto,deunaleydeprobabilidad,es
decir
1

1.

8.5.1 Mediayvarianza
Seobtieneque

Nota 8-8 Si la variable geomtrica o de Pascal se define como nmero de


fracasos antes del primer xito (Nota 8-6), est claro que la binomial negativa es suma
de variables independientes geomtricas. Esto relacin es anloga a la existente entre
la variable de Bernoulli y la variable Binomial, que es suma de variables de Bernoulli.

P g i n a |193
Por lo tanto, es facil de ver que la media de la binomial negativa es veces la media
de la geomtrica ( / ), y la varianza veces la varianza de la geomtrica ( / .

Ejemplo 8-11 Despus de conseguir hablar por fin con su amor platnico, el
pringado del ejercicio anterior le ha pedido una cita pero la chica ha colgado
el telfono. En otra llamada, una compaera apenada por el chico le dice que
insista, que ya se sabe que el que la persigue la consigue, y que le da la
impresin de que la compaera, si ve que l la llama al menos 5 veces,
acabar accediendo.

Como el telfono al que tiene que llamar el chico es un 902, cada llamada
tiene un coste medio de 4 euros. Si llama ms de 50 veces la factura superar
los 200 euros que tiene el padre para terminar el mes, y es capaz de tirar al
hijo por la ventana. Cul es la probabilidad de que, para conseguir que la

194|P g i n a

telefonista amada le coja hasta 5 veces, deba de llamar ms de 50 veces al


nmero?
Solucin.
Lavariable =nmero de fracasos hasta obtener el xito 5
5,0.025 .
Necesitamoscalcular
45 (porquesern45fracasosantesdel5 xito=50
llamadas).
45
1
45
5

0.025

0.025

0.0081

Tambinpodemoscalcularestaprobabilidadcomo
1

45

45 , y calculamos

45

0.9919.

45 en R, simplemente

como:
pnbinom(45, size=5, prob=0.025)
[1] 0.008132778

P g i n a |195
8.6

VARIABLEHIPERGEOMTRICA

Supongamosquetenemosunapoblacinde elementos,quesedivideen
dosclases: y .Elnmerodeelementosdecadaclaselosdenotamoscomo y
.Supongamosqueseextraeunamuestradetamao
. Lgicamente

delapoblacin,sinreemplazamiento.Lavariable
nmerodeelementosdela
clase en la muestra se dice que sigue una distribucin hipergeomtrica de
parmetros , y .Seescribe
, , silellamamosxitoaobtener
unelementodelaclase ,lavariable
nosmideelnmerodexitosobtenidos
enlamuestra).
NO se trata de una variable
binomial, puesto que en la variable
binomiallaspruebassonindependientes.
Porlotanto,enunexperimentobinomial
lo que haramos sera quitar de la
poblacinunamuestradetamao con
reemplazamiento;estoes,elegirunelementodelapoblacin,versiesdelaclase
onoloes,devolverloalapoblacin,extraerotroelementodelapoblacin,versies
delaclase . . .,yassucesivamentehasta veces.

Ejemplo 8-12 Supongamos una baraja de


40 cartas, donde
consideramos dos clases: , los oros, y el resto de cartas, y extraemos de
la baraja, por ejemplo,
5 cartas (todas a la vez, no hay reemplazamiento).
La variable =nmero de oros en 5 cartas sera una variable hipergeomtrica
40,10,5 . En cambio, si sacamos una carta, comprobamos si es oro o no lo
es y anotamos el resultado, devolvemos la carta a la baraja, y hacemos esto
5 veces, la variable =nmero de oros en 5 cartas sera una variable
5,

196|P g i n a

Laleydeprobabilidaddelavariablehipergeomtricaesdelaforma

,
donde vara desde max 0,

hasta min

Nohayningunacosararaenlosposiblesvaloresdelavariable.Lgicamente,
puedeser0,1...peroestlimitadoporlostamaosdelapoblacin,elnmerode
elementosde ,etc.Losvaloresmnimoymximosonlosqueestnescritosarriba.

8.6.1 Mediayvarianza
Puedecomprobarsequeestosvaloresson,respectivamente,

,
1
.
1

Siseescribe

( eslaprobabilidaddeelegirunelementodelaclase

y llamamos
1
(que equivaldra a elegir un elemento de la clase , las
frmulasdelamediaylavarianzaquedandelaforma:

Comovemosenlasfrmulasescritasdeestamanera,lamediaeslamisma
queladelavariablebinomial,ylavarianzaesladelabinomialmultiplicadaporun
factor.Estacoincidenciasedebeaquelavariablebinomialpuedeconsiderarseun
casoextremodeunavariablehipergeomtrica,cuandoeltamaodelapoblacin
esinfinito(muygrande).Siconsideramosunapoblacindetamaoinfinito,sacaruna
muestra sin reemplazamiento es prcticamente lo mismo que sacarla con
reemplazamiento.
En la prctica, si es grande respecto a , se pueden calcular las
probabilidadesdelahipergeomtricapormediodeladistribucinbinomial.Estoes
posiblecuando /
0.1.Estosehacaantesporqueladistribucinbinomialestaba
tabulada (las famosas tablas de los libros) pero la hipergeomtrica no, lo cual
conllevabahacercuentasconlacalculadora;yenocasionesniconestaeraposible.

P g i n a |197
Hoyenda,siqueremos,nosolvidamosdelaaproximacin(salvoqueelprofesorlo
exija).
Ejemplo 8-13 Volvamos a considerar los cuatro colegas del captulo de
probabilidades, que iban al bar donde haba un camarero resfriado.

La variable =nmero de
cervezas negras en la muestra de tamao
4
sigue
una
distribucin
hipergeomtrica de parmetros
25,
10,
4.

La probabilidad de que les


toquealmenosunacervezanegraes
1
1
2

198|P g i n a

10
15

1
3
25
4

10
15

2
2
25
4

10
15

3
1
25
4

10
15

4
0 ,
25
4

quetambinpuedecalcularsecomo
1

10
15

0
4
25
4

0.89.

Porloqueparece,algunosevaatragaralgodesagradable.

Nota 8-9 De nuevo, para ver la diferencia con una binomial, supongamos que
todas las cervezas estn en la barra, y cada uno de los cuatro clientes puede echar un
trago y devolver la jarra al mostrador (s, sera una guarrada, pero estamos en un
ejemplo y, adems, seguro que cualquiera que est leyendo esto ha hecho cosas
peores). En este caso, la variable =nmero de tragos de cerveza negra en la muestra
de tamao 4 sera una variable binomial (al devolver la jarra al mostrador la situacin
siempre queda la misma, por lo que hay independencia entre cada trago y el siguiente)
(ojo: estamos obviando que una jarra se acabe).

Ejemplo 8-14 En una clase de 30 alumnos, solo 5 se han estudiado la leccin.


El profesor saca a 3 alumnos al encerado y advierte de que, como haya ms
de uno que no se sepa la leccin, toda la clase se queda sin recreo. Cul es
la probabilidad de que eso suceda?
Solucin.
Dividimos la poblacin, de tamao
30, en 2 clases: los que saben la
leccin ( , con
5) y los que no la saben ( , con 25). La variable
=nmerodealumnosquesabenlaleccinenlamuestradetamao3sigueuna
distribucinhipergeomtricadeparmetros
20,
5,
3.
Comoslopuedehaberunoquenosesepalaleccin,almenos2sdeben
saberla.Tenemosquecalcular

P g i n a |199

5
25

2
1
30
3

5
25

3
0
30
3

0.061

0.002

0.063,
conloquelaprobabilidaddequelaclasesequedesinrecreoeslaprobabilidaddel
complementariodelsuceso
2 ,esdecir1 0.063 0.937.

Nota 8-10 En R,
escribiendo

en una variable

dhyper , , , . Entonces, podemos calcular


como dhyper(2,5,25,3) + dhyper(3,5,25,3)

se calcula
2

Ejemplo 8-15 En la planta de aparato digestivo de un hospital, un enfermero


est eligiendo las pastillas para llevar a los pacientes. En el momento que
tiene en la mano la caja de laxantes, da un traspis y le caen todas (25) en la
bandeja de pastillas para la salmonelosis (que contiene 60 pastillas), que
casualmente son del mismo color y tamao. Como el jefe de planta es un
montabroncas, el enfermero decide confiar en la suerte y esperar que no pase
nada. En la habitacin 211, un seor mayor tiene que tomar, por prescripcin
mdica, 3 pastillas para la salmonelosis. Cul es la probabilidad de que le
toque algn laxante y se vaya por la pata abajo?
Solucin.
Tenemos que realizar un planteamiento similar al del ejercicio anterior. La
25delaclase
poblacintotalcontiene
25 60pastillas,delascualeshay
(laxantes) y 60 de la clase (para la salmonela). El enfermero coge
aleatoriamenteunamuestrade
3paradrselasalpacientedela211.Entonces,
lavariable
"nmero de laxantes en la muestra de tamao 3sigueunadistribucin
25,
3.
hipergeomtricadeparmetros
85,
Laprobabilidadacalculares

200|P g i n a

60
25

3
0
85
3

0.34

0.66.

Fijmonosque,enesteejercicio,laproporcin /
3/85
0.035
0.1,conlocualpodramosrealizarlaaproximacinmedianteladistribucinbinomial,
esdecir seaproximaraporuna

3,

3,0.29 .

Sicalculamoslaprobabilidad
0 medianteestadistribucinbinomial,
tendramos
3
0
0.29 1 0.29
0.35,
0
quees,comovemos,muyparecidoalresultadodirectomediantelahipergeomtrica.

P g i n a |201

PRINCIPALESVARIABLESCONTINUAS

9.1

VARIABLEUNIFORME

Unavariablealeatoriacontinua sedicequesigueunadistribucinuniforme
entredosvalores y (serepresenta
,
sisufuncindedensidadtiene
laexpresin

1
,

0
,
Sufuncindedistribucines
0

1
Lasgrficasdelasfuncionesdedensidadydistribucinpuedenverseenla
Figura91(grficosdeWikipedia).

Figura91

202|P g i n a

Estavariableeslageneralizacin,alcasocontinuo,delavariableuniforme
discreta(laquedaatodoslosvaloreslamismaprobabilidad).Lavariableuniforme
repartedemaneracontinuayequivalentelaprobabilidad,esdecir,intervalosdeigual
longitud(dentrode , tienenigualprobabilidad.Recurdeseque,enlasvariables
continuas, la probabilidad entre 2 puntos y es el rea bajo la funcin de
densidad.Enestecaso,elreaseraelreadeunrectngulo,esdecir(verFigura
92):

9.1.1 Mediayvarianza
Susparmetrosmediayvarianzason:
2

12

Ejemplo 9-1 La Vane termina de arreglarse para ir al botelln un tiempo de


duracin variable, que sigue una distribucin uniforme continua entre 1 y 2

P g i n a |203
horas. El Keni est escondido detrs del portal esperando que baje para
pillarla antes de ir al botelln, porque tiene esperanzas de liarse con ella esa
noche. Lo malo es que se ha metido varios litros de RedBull y est cardaco
perdido, despus de una hora de que la Vane comenz a arreglarse. Si la
Vane tarda ms de cuarenta y cinco minutos, al Keni le puede dar un vahdo
y echarlo todo a perder. Cul es la probabilidad de que eso suceda?
Solucin.
El tiempo en arreglarsees 60,120 (expresadoenminutos).Porlotanto,
laprobabilidaddequetardemsde45minutosenarreglarsees

60

45

105

105

105

105
120

Tambinpuedecalcularseusandolafuncindedensidad:
105

60
60

0.25.

queseraelreabajolacurvaentrelosvalores105y120;loque,enestecaso,se
reducealreadeunrectngulo,comoseobservaenlaFigura92.

Figura92

204|P g i n a

9.2

VARIABLEEXPONENCIAL

Una variable continua se dice que sigue una distribucin exponencial de


parmetro
0sisufuncindedensidades
0
0

0
Sufuncindedistribucines
0
1

Se representa
. Suele representar la duracin o tiempo de
supervivenciadeunsistemabiolgicoomecnico,ademsdeadaptarsebienaotras
medidas,comolamagnituddelosterremotosenunadeterminadazona.Lasgrficas
delafuncindedensidadydistribucin,paraalgunosvaloresde ,sonlassiguientes
(fuente:wikipedia):

9.2.1 Mediayvarianza
Sepuedecomprobarqueson:

1
ver figura siguiente y

P g i n a |205

Ejemplo 9-2 El tiempo de espera, para ser atendido por Mesalina, sigue una
distribucin exponencial de media 60 minutos, segn uno se pone en la cola.
Cul es la probabilidad de que a Petronio le de tiempo a llegar a casa antes
de 50 minutos (tngase en cuenta que Mesalina te atiende en 2 minutos y la
casa de Petronio est a la vuelta de la esquina (1 minuto para volver)?
Solucin.
=tiempo de espera en minutos sigue una distribucin exponencial. Como
nos dicen que la media es 60, y la esperanza es 1/ , entonces
probabilidadquenospidenes

47

47

. La
0.54.

9.3

VARIABLENORMAL

Una variable aleatoria continua sigue una distribucin Normal de


parmetros y (seescribe
,
sisufuncindedensidades

1
2

206|P g i n a

Esta variable, cuando se consideran los valores


0 y
1, se llama
NormalestndaroNormaltipificada.Lafuncin definidasegnestafrmulatiene
formadecampana,llamadalacampanadeGauss(porCarlFriedrichGauss;1777
1855).Esladistribucincontinuamsimportante,porlafrecuenciaconqueaparece,
yporsuspropiedadestericas.Midegrancantidaddecaracterescomopuedenser
morfolgicos(peso,talla,dimetros,permetros),sociolgicos(consumodeuncierto
producto,puntuacionesenunexamen),fisiolgicos(efectodeunamismadosisde
unfrmaco),fsicos(erroresenmedidas),etc.
La funcin de distribucin no podemos escribirla, porque no fue capaz ni
Gauss.
10

9.3.1 Mediayvarianza
Lamediaoesperanzacorrespondealvalor queapareceenlafrmula,yla
desviacintpicaalvalor .
9.3.2 Propiedades
Lafuncindedensidadessimtricarespectodelamedia ,esdecir,reasa
laderechayreasalaizquierda(probabilidades)coinciden.EnlaFigura93podemos
observar distintas funciones de densidad cambiando la desviacin tpica (a mayor
desviacin tpica la curva se aplana, a menor desviacin tpica la curva es ms
puntiagudaenlamedia).Cambiarlamediasuponesimplementedesplazarlacurvaa
derechaoizquierda.Estosucedeporqueelreabajolacurvasiempreesiguala1.
Lasreasentrevaloresde
y

1,2,3 puedenverseenla
Figura94.Entrelosvalores y seconcentrael68.2porcientodeladistribucin,
yentre 2 y 2 seconcentrael95.4porciento.Estohacequelosvalores
2
y
2 se consideren los valores mximos y mnimos comunes. Dicho de otro

10
Paraobtenerlafuncindedistribucinseranecesariocalcularlaintegraldelade
funcindedensidad,quenotieneprimitiva.PoresoseconstruyeronlasfamosasTablasdela
normal,queaparecenentantosytantoslibrosdeestadstica.Hoyenda,igualquehacemosaqu,
paracalcularreasoprobabilidadesasociadasaladistribucinnormal,seacudeaalgunapgina
webosoftwareestadstico,querealizanaproximacionesdetiponumrico.

P g i n a |207
modo,losvaloresqueestnmsalejadosdelamediadosvecesladesviacintpica
sonvaloresrarosenladistribucin(suelenllamarselmites2 .

Figura93

Figura94

208|P g i n a

Podemospensar,comoejemplo,enlavariableestatura.Los valoresms
alejadosdelamediaendosvecesladesviacintpicaseranvaloresanormalmente
bajosoanormalmentealtos,ytantomscuantomssealejendelamedia.Lomismo
podemos considerar en variables como el peso, ndice de colesterol, presin
sanguinea,cocienteintelectual,etc.
Otro ejemplo clsico de aplicacin de estos lmites es el de los anlisis de
sangre.EnlaFigura95tenemosunejemplo,dondelacolumnadeladerecha(valores
dereferencia)correspondealintervalo
2 ,
2 ,donde y sonlosvalores
mediaydesviacintpicadelapoblacingeneral(calculadostrasrealizarunnmero
muygrandedeobservaciones).Lacolumnaderesultadoseselvalorcorrespondiente
al paciente y, si dicho valor no est dentro del intervalo de referencia
correspondiente,esqueesevalorsalefueradel95.4porcientomsnormal.

Figura95

P g i n a |209

9.3.3 Tipificacin
Sirveparacompararindividuosdiferentesobtenidosdesendaspoblaciones
normales. Si

, entonces

0,1 , es decir, es una variable

normal tipificada o normal estndar. Las probabilidades asociadas a cualquier


variablenormal puedencalcularseatravsdelanormaltipificada:

Nota 9-1 Como vemos, la tipificacin sirve para calcular probabilidades


asociadas a cualquier variable normal, a travs de la normal 0,1 , si tenemos la tabla
de sta ltima. Si disponemos de acceso a algn software o pgina web es innecesario
utilizar este sistema (que aparece en muchsimos libros, por eso es interesante
conocerlo).

Ejemplo 9-3 En una granja de Viladecns se cran dos razas de vacas: Marela
y Ciones. El peso de las vacas Marela se distribuye segn una N(750 Kg, 30
kg), mientras que el de las vacas Ciones tiene distribucin N(500 Kg, 10 kg).
Un ao en particular se observaron dos enormes ejemplares de cada raza:

210|P g i n a

uno de la raza Marela que pes 870 Kg, y otro de la raza Ciones que pes
550 Kg. a) Deducir cul de los dos ejemplares fue el que ms destac. b) De
la raza a la que pertenezca este ejemplar, decir qu porcentaje de vacas
pueden ser levantadas sin problemas por Andresn, el bestia del pueblo, que
mueve hasta 530 kilos haciendo pesas en el Gym.
Solucin.
Tipificamosambosvalores:
4,frentea

5.Porlotanto,destacmselejemplardela

razaCiones.
Llamemosahora =peso de las vacas de la raza Ciones.Nosdicenque
500,10 . Calculamos
530 suponemos que Andresn, lo que mueve
haciendopesastambinlolevantaenbrazos).Estolopodemoshacerdirectamente
otipificando.
500 530 500
530
3
0.99865.
,
10
10
Enestecaso,hemosidoalapginastatdistributions.com,ybuscadoelrea
a la izquierda del valor 3 en una 0,1 , como puede verse en esta captura de
pantalla:

P g i n a |211
Se ve que el valor 3 deja a la izquierda 0.999 de rea, lo que significa que
Andresnlevantael99.9porcientodelasvacasdeesaraza(ocasitodas).Elvalor3
eselcuantilp,conp=0.999.
Ejemplo 9-4 El colesterol total en la poblacin tiene distribucin normal, con
media 200 y desviacin tpica 10. Ilitri acude al mdico para unos anlisis
rutinarios, luego de seis meses de espartana vida sin ejercicio alguno,
desayunando en Churro-King y cenando lacn con grelos. Ante los resultados,
el mdico le felicita, porque tiene un valor del colesterol que slo lo supera el
2% de la poblacin (los que estn a nada de irse al otro barrio). A qu valor
del colesterol se refiere?
Solucin.
Elvalor seraqueltalque
200,10 .

0.02,siendo =nivel de colesterol

Elvalor quehayquecalcularesequivalenteacalcularelcuantildeorden98
(percentil98),puestoque
1 0.02 0.98.
,

0.98, con lo que

2.054

220.54.

Nota 9-2 El valor


se puede calcular muy facilmente en la pgina
statdistributions.com, escribiendo mean=200, std.dev=10 y p-value=0.98, y
marcando la opcin left tail (rea a la izquierda 0.98). Aparecer en la grfica el valor
z=220.5 con un rea graficada a su izquierda con valor 0.98.

Nota 9-3 En R, la probabilidad a la izquierda de un valor , en una distribucin


, se calcula como pnorm( ,a,b). Si se quiere calcular el cuantil tal que
se escribe qnorm(p,a,b). As, los calculos de los dos ltimos ejemplos

seran
pnorm(530,500,10) (nos dara 0.99865 del ejercicio de Andresn)
qnorm(0.98,200,10) nos dara el valor
220.54 en el ltimo ejemplo.

212|P g i n a

Ejemplo 9-5 Jaimito llega a su casa y le dice a su madre: mam, mam, en


el colegio me llaman cabezn. Sabemos que el permetro craneal, medido en
cm, de los hombres en donde vive Jaimito, es una 60,2 , y que se considera
cabezn a aquel que tenga un permetro craneal que supera al 80 por ciento
de sus paisanos. Sobre qu valor deber referenciarse Jaimito para asumir
la frase como una triste realidad?
Solucin.
Como el permetro craneal es una variable 60,2 , el valor que
buscamosesaquel talque
0.8,esdecirelpercentil80.
0.80, con lo que

0.842

61.68.
ComoJaimitotieneunpermetrocranealde63,lamadreledicequesecalle
ypermitaalasmoscasjugaralfutboltranquilasensucabeza.

9.3.4 Propiedadaditiva
Igualquevimosenotrasvariables,lavariablenormalesreproductiva:lasuma
devariablesaleatoriasnormalesindependientesesotravariablealeatorianormal,
conmedialasumadelasmediasyvarianzalasumadevarianzas.
Puede establecerse un resultado ms general: sean
nmerosreales,
1, . . . , .Severifica:

, y

91

esto es, una combinacin lineal de variables aleatorias normales es otra variable
aleatorianormal,cuyamediaeslacombinacinlinealdelasmedias,ylavarianzaes
lacombinacinlinealdelasvarianzas,peroconlostrminos elevadosalcuadrado.

P g i n a |213
Nota 9-4 Y aunque parezca un coazo, esto no es nuevo. Es lo mismo que se
vio en el captulo donde definimos las variables aleatorias, en la seccin de
propiedades de la esperanza y la varianza.

Ejemplo 9-6 Segn publica la web info-pene.com, en el estudio Tamao del


Pene Definitivo, despus de analizados 3100 hombres y muchachos
adolescentes, la longitud del pene erecto en varones caucsicos, medida a lo
largo por encima del pene de la punta al abdomen, se modeliza segn una
distribucin normal de promedio 16.3 centmetros y una desviacin tpica de 3
cm. Encontrar la probabilidad de que el tamao del miembro del actual novio
de Marujita no difiera en ms de 1.5 cm del de su ex, para que no haya
problemas comparativos (Marujita piensa que media desviacin tpica arriba o
abajo no importa).
Solucin.
Llamemos
16.3,3 .

=longitud. Esta variable sigue una distribucin normal

Ladiferenciaentredoslongitudes
sigueunadistribucinnormal.
Paraverquparmetrossigue,aplicamoslafrmula 91 .
Aqu tenemos

1 y
1

1. Por lo tanto, la media sera


1

ylavarianza
1
demaneraque

16.3

16.3, 1 3

1 3

0, 18

0,4.24 .

La probabilidad solicitada es
| | 1.5
1.5
1.5 . Esta
probabilidadpodemoscalcularlatipificandoybuscandoenlatabladeuna 0,1 ,o
directamente,segndispongamosdeherramientadeclculoadecuada.Encualquier
caso | | 1.5
0.276, que vemos en la Figura 96 (obtenida de la pgina
statdistributions).

214|P g i n a

Figura96

Recurdeseque

1.5

1.5

1.5

1.5 .EnRsecalculara

como
pnorm(1.5,0,4.24)-pnorm(-1.5,0,4.24)

9.4

TEOREMACENTRALDELLMITE

Este teorema dice, de manera esquemtica, que, cuando sumamos un


nmerograndedevariables,lavariableresultantesigueunadistribucinnormal.De
y
manerageneral,si , , . . . , sonvariablesdemediaoesperanza
varianza
,
1, . . . , , se verifica que la variable suma
...
(si es un nmero tendiendo a infinito) se puede aproximar por una
variable normal, de media la suma de las medias y varianza la suma de varianzas
(desviacintpica=raizdelasumadevarianzas),esdecir

P g i n a |215

...

Nota 9-5 En el caso de sumar variables aleatorias normales, la aproximacin


anterior no es tal, sino que es una distribucin exacta, como hemos visto
anteriormente, en la frmula 91 .

Esteteorema(delquedamosnicamenteunaideageneral,sinestablecerlas
hiptesismatemticasreales)establecelaimportanciadeladistribucinnormal.Su
resultado es que, cuando se suma un nmero grande de variables aleatorias, la
variable resultante es una variable con distribucin aproximadamente igual a la
distribucinnormal.Incluso,eltrminonmerogrande(porquematemticamente
el teorema se establece cuando tiende a infinito) no lo es tanto, porque, en la
prctica,con
30laaproximacinyaproporcionabuenasresultados.Adems,el
teoremaesciertoindependientementedeladistribucinquesiganlasvariablesque
sesumen(noimportasisonexponenciales,binomiales,etc.).Lonicoquesenecesita
essabersumediaysuvarianza.
Es a causa de este teorema que muchas variables aleatorias como pesos,
alturas,tallas,etc.siguenunadistribucinnormal,porquecadaunadeellasessuma
de un gran nmero de variables aleatorias independientes. As, la altura de una
persona es suma de muchos factores: hereditario, alimentacin, tipo de vida... El
consumodecombustible(gas,electricidad...)pordadeunacompaaessumade
losconsumosindividualesdelosusuarios.Loserrores,llamadosaleatorios,quese
presentan en observaciones de pesos, distancias, o, en general, en la mayora de
medidas de algn aparato, son la suma de un nmero elevado de errores
elementales,talescomocorrientesdeaire,vibraciones,erroresdeapreciacin,etc.
EneltextoThecartoonguidetostatistics(GonickySmith)[5]podemosleer:
Los datos que se ven influidos por efectos aleatorios muy pequeos y sin
relacinentres,sedistribuyenaproximadamentedemaneranormal.Estoexplicapor

216|P g i n a

qulanormalidadestentodoslados:enlasfluctuacionesdelmercadodeacciones,
en los pesos de estudiantes, en los promedios anuales de temperatura y en las
calificaciones.Todossonelresultadodemuchosefectosdiferentes.Laestaturadelas
personas,porejemplo,eselresultadodefactoreshereditarios,factoresambientales,
nutricin,cuidadodelasalud,regingeogrficayotrasinfluenciasque,cuandose
combinan,producenvaloresdistribuidosdeformanormal.
Enalgnqueotrolibrodetextoaparecetambinlasiguientefrase:todoslos
caminosconducenaladistribucinnormal.Conello,losautorespretenderresaltar
la importancia de la distribucin normal y su aparicin en muchas tcnicas
estadsticas,debidoprecisamentealteoremacentraldellmite.Esteeselmotivode
queseatanconocidao,porlomenos,sueneainvestigadoresoprofesionalesde
muchas reas cientficas y tcnicas no necesariamente matemticas. En algunas
ocasiones, algn que otro atrevido estadstico o autor de libros de estadstica ha
denominadoaladistribucinnormalcomolamadredetodaslasdistribuciones.

Ejemplo 9-7 Supongamos que un determinado tratamiento fisioteraputico es


eficaz (al cabo de un tiempo determinado), en una proporcin del 80 por

P g i n a |217
ciento. Un seguro mdico paga ms a una clnica si, por cada 300 asegurados
que reciben el tratamiento, al menos se curan 260. Cul es la probabilidad
de que esto suceda?
Solucin.
Definamoslavariable quetomalosvalores0sielpacientenosecura(al
cabodeesetiempoestablecido),y1sisecura. esunavariabledeBernoullide
parmetro
0.8.
Como hemos visto al principio del captulo, una variable de Bernoulli tiene
media yvarianza 1
,enestecasomedia0.8yvarianza0.8 0.2 0.16.
Si consideramos la variable

, mide el nmero de
pacientesquesecurande300queacudenalaclnica.Usandoelteoremacentraldel
lmite, puedeaproximarseporunadistribucinnormaldemedialasumadelas
mediasyvarianzalasumadevarianzas,esdecir
300 0.8 240 y
300 0.16 48
48 6.92.
Porlotanto,podemoscalcularlaprobabilidad
260 usandoladistribucin
240,6.92 .Tipificando:

260

2.89

0.002,

queesunaprobabilidadmuypequea.Lossegurossiempreprocuranhacerclculos
parapagarlomenosposible.

Nota 9-6 Est claro que la variable del ejercicio anterior era una variable
Binomial de prametros
300 y
0.8. En el captulo de variables discretas
vimos que una variable aleatoria binomial puede aproximarse tambin mediante una
variable de Poisson. La diferencia con el teorema central del lmite (que aproxima la
binomial por la normal) es que la aproximacin a la Poisson es cuando
0.1 (el
suceso es un suceso raro). Si
0.1 como en este caso), la aproximacin se hace
mediante la normal.

218|P g i n a

Ejemplo 9-8 Supongamos que la variable mide la proporcin de impurezas


en la droga que le llega cortada al camello del barrio, y que tiene una funcin
de densidad dada por
3
0,1
.
0
0,1
Un comprador habitual necesita 40 paquetitos de droga para satisfacer la
demanda de su discoteca de zona. Como est harto de problemas con los
clientes por culpa de que, en vez de agarrar colocones, ltimamentes slo se
agarran cabreos, decide rechazar la muestra si la media de impurezas de los
40 paquetes supera el 80 por ciento. Calcular la probabilidad de rechazo.

Solucin.
Lavariable tieneunaesperanzaovalormedio

Suvarianzaes

P g i n a |219
3

Laproporcindeimpurezasenlamediamuestralde40paquetitosdedroga
ser
...

...

...

Ahora, utilizando el teorema central del lmite, aproximamos la suma


...

porunanormal,demedialasumadelasmedias(osea40
.

varianzalasumadevarianzas(40
Luego

30,

30 y

.Porlotanto
30,

ya que, si multiplicamos una variable por un nmero (positivo), su media y su


desviacin tpica se multiplican por ese nmero (propiedades de la media y la
varianza). Por lo tanto, se puede aproximar por una 0.75,0.03 . Entonces, la
probabilidadderechazoes
0.8
0.048.

Ejemplo 9-9 Mesalina ha cruzado una apuesta con Zerdn de Citium, famoso
filsofo y comedor de jabales, a que ella aguanta ms en la cama que Zerdn
en la mesa del restaurante. Mesalina atiende por noche una cantidad de
hombres que ronda los 200, tardando con cada uno de ellos un tiempo medio
de 4 minutos y desviacin tpica 2, mientras que Zerdn es capaz de comer
50 jabales, tardando de media 12 minutos y desviacin tpica 3. Cul de los
dos desfallecer antes?
Solucin.
El tiempo que aguanta Mesalina durante una noche ( es la suma de 200
variablesaleatorias independientes,donde eseltiempoqueestconelhombre

,demedia
4y
2.

220|P g i n a

El tiempo que aguanta Zerdn de Citium cenando jabales( )eslasumade50


variablesaleatorias independientes,donde eseltiempoquetardaencomerel
jabal

,demedia
12y
3.
Utilizamoselteoremacentraldellmiteparaaproximarlasdistribucionesde
lasvariables y .
...

200 4, 200 2
...

50 12, 50 3

800,28.28 .

600,21.21 .

Vamos a calcular cul es la probabilidad de que, por ejemplo, Mesalina


aguantemsqueZerdn,esdecir:
0 .
Ladiferencia
sigue,aproximadamente,unadistribucinnormal,
yaque e sonaproximadamentenormales.Paraverquparmetros(mediay
1y
1.
desviacintpica)tiene,aplicamoslafrmula 91 .Enestecaso
Por lo tanto la media sera 1 800 1 600 y la varianza 1 28.28
1
21.21 .
Demaneraque
que

200, 1249.62

200,35.3 .Laprobabilidadde

0 lacalculamos,porejemplo,conR,obteniendo:
0 =pnorm(0,200,35.3) 0,yentonces

0 1.

Esdecir,eltiempoqueaguantaMesalinaessiempre(conprobabilidadcasi
uno)mayorqueelqueaguantaZerdn.

P g i n a |221
9.5

OTRASVARIABLESALEATORIASDEINTERS

9.5.1 VariableChicuadrado
Seescribevariable .Elhechodequesufuncindedensidaddependade
un nmero entero positivo llamado grados de libertad hace que se hable de la
distribucin con gradosdelibertad.As,existeunavariableparacadavalorde
mayoroiguala1.Estavariableaparececuandosesuman variablesaleatorias
independientescondistribucin 0,1 ,elevadasalcuadrado.

...
, con 0,1 .
A continuacin aparecen dibujadas varias funciones de densidad,
dependiendodelnmerodegradosdelibertad .

Noreproducimosaqulafrmuladeladensidadporinnecesaria.Quienest
interesadopuedeacudir,porejemplo,alawikipedia(igualquetampocoharemosen
losdoscasossiguientes,ladistribucin deStudentyladistribucin .Elintersde
estadistribucinradicaensuusoparalaconstruccindeintervalosdeconfianzay
realizacindecontrastesdehiptesis.

222|P g i n a

9.5.2 Variable deStudent


Lavariable (o deStudent)apareceapartirdeladistribucinnormalyla
Chicuadrado,puestoquesi esunavariable 0,1 ,e esunavariablealeatoria
independiente de , con distribucin Chicuadrado con grados de libertad,
entonceslavariable

es una variable con distribucin con grados de libertad. La distribucin de


Student(con gradosdelibertad)esunavariablealeatoriacuyafuncindedensidad
tambintieneformadecampanayessimtrica.Es,porlotanto,muyparecidaala
densidaddelavariable 0,1 (dehecho,lamediaoesperanzadecualquiervariable
de Student es cero). Sin embargo, tiene colas ms pesadas que la campana de
Gauss,loquesignificaqueelreaoprobabilidadenlosextremosizquierdoyderecho

delacurvaesmayorqueenelcasodeladistribucinnormal.Estoshechospueden
visualizarseenlaimagendelafuncindedensidad(tomadadewikipedia),dondese
representan diferentes valores del parmetro (df en la grfica, de degree
freedom).Hay que resear que, a medida que el nmero de grados de libertad
aumenta,lacurvaseparececadavezmsalacampanadeGauss,locualsucedea
partirdevalorescomo
40,siendolacoincidenciatotalpara
. Elinters

P g i n a |223
deestavariablees,igualqueenelcasodelavariableChicuadrado,suaparicinen
laconstruccindeintervalosdeconfianzayrealizacindecontrastesdehiptesis.
Lafrmuladelafuncindedensidaddelavariable fuepublicadaen1908
porWilliamSealyGosset(18761937),mientrastrabajabaenlafbricadecervezas
Guinness,enDublin.ExistelaancdotadequeelorigendelseudnimoStudent,
quefueelseudnimoutilizadoporGossetparaescribirelartculodeinvestigacin
matemticodondedefinelavariable,vinomotivadoporqueladireccindelafabrica
impedaalosempleadoslapublicacindetrabajoscientficos.

9.5.3 VariableFdeFisherSnedecor
La distribucin es conocida habitualmente como la distribucin F de
Snedecor,odistribucinFdeFisherSnedecor,enhonoraR.A.Fisher(18901962)y
GeorgeW.Snedecor(18811974).Sufuncindedensidadesbastantecomplicada,
ydependededosparmetros y quesonsusgradosdelibertad.Lautilidadde

224|P g i n a

estadistribucines,denuevo,laconstruccindeintervalosdeconfianzayrealizacin
decontrastesdehiptesis.Ladistribucin apareceatravsdeladistribucinChi
cuadrado, puesto que si sigue una distribucin , e es otra variable
(independientede condistribucin ,entonceslavariable definidacomo
/
,
/
sigueunadistribucin con y gradosdelibertad.Acontinuacin,algunoscasos
concretosparaladensidad(fuente:wikipedia).

P g i n a |225
Antesdeterminar,unosestiramientos,buenosdespusdecualquierejercicio
y/oesfuerzo.

226|P g i n a

Por ltimo, si fuisteis dolos de jvenes de estos superheroes, y tenais un


posterdeellosenlahabitacin,

ahorapodissustituirloporlossuperheroesdelaestadsticaylaciencia.

P g i n a |227

228|P g i n a

P g i n a |229

10

INFERENCIAESTADSTICA.INTRODUCCIN

Un80porcientodeencuestadoscreeenlaexistenciadevidaextraterrestre.
Esimposiblequeestemossolos,afirman.
Esemismoporcentajedicenocreeranadiequeasegurehaberse
encontradoconunextraterrestre.

LaInferenciaEstadsticaesaquellaramadelaEstadsticamediantelacualse
intentasacarconclusionesdeunapoblacinenestudio,apoyndoseenelclculode
probabilidades, a partir de la informacin que proporciona una muestra
representativadelamisma.Recordemoselgrficoquepusimosenelprimercaptulo.

Lasconclusionessobrelapoblacinsebasarnenlarealizacindeinferencias
(deducciones) sobre caractersticas concretas de la misma, que, en general, sern

230|P g i n a

variables aleatorias (nos interesa conocer la proporcin de poblacin contraria al


gobierno,sucocienteintelectual,elcapitalquelesapoya...).
Existendostiposgeneralesdeinferencia:
LaInferenciaParamtricasuponequeladistribucindeprobabilidaddela
variable objeto de estudio es conocida pero los parmetros son desconocidos. Se
intentaraproximaropredecirdealgunaformaelvalordedichosparmetros.Por
ejemplo:nosinteresalaproporcin degenteconcolesterolalto,conosteoporosis,
que cree en los extraterrestres con forma de lagarto... o el peso medio de la
poblacin,laculturaenmatemticasatravsdelanotamedia...
LaInferencianoParamtricatratardeaveriguarelmodeloconcretodela
variable objeto de estudio, o bien intentar profundizar en el conocimiento de la
mismasinpresuponerningunafuncindedensidadenconcreto.Porejemplo:La
poblacinsigueunadistribucinnormalencuantoalpeso?Olamayorasongordos,
teniendoasunadistribucinasimtricaaladerecha?Eseltiempoqueduranlos
polticosantesdecorromperseexponencial?
Enestetextonosreferiremosnicamentealainferenciaparamtrica,aunque
hagamosalgunamencinalotrotipo.

P g i n a |231

11

MUESTREO

Recordemosqueelobjetivodelaestadstica,bsicamente,eselestudiode
poblaciones.Engeneral,noesposibleestudiartodalapoblacin,bienportamao,
bien por cuestiones de tipo econmico (por ejemplo, saber el peso o la altura de
todoslosindividuosdelapoblacinespaolamayordeedad).Elmuestreoconsiste
enelegirunamuestradeunapoblacin,suficientementerepresentativadelamisma,
conelfindeinvestigarlaspropiedadesestadsticasdeesta.As,parapoderconocer
culeselpesomedio,olaestaturamediade,porejemplo,hombresomujeresdela
poblacinespaolamayoresde18aos,seelegirunamuestrarepresentativade
dichosgruposyseestudiarlamisma,paraextenderlosresultadosdelamuestraa
lapoblacinengeneral.LlamamosMuestreoalprocesodeobtencindemuestras,
quepuedeserdemuchostipos.

11.1 PROCEDIMIENTOSDEMUESTREO

11.1.1 Muestreoaleatoriosimple

Todos los individuos de la poblacin tienen la misma probabilidad de ser


elegidosparalamuestra.Enprincipio,sesuponequelapoblacinesinfinita(enla
prctica,muygrande),conlocual,siseeligeunindividuodelapoblacin,serealiza
la medida de la caracterstica deseada (peso, estatura, opinin sobre los
extraterrestres,capitalenelbanco,etc.)y,acontinuacin,sedevuelvealapoblacin.
La probabilidad de que se vuelva a elegir al mismo individuo en la muestra es
prcticamentenula.

232|P g i n a

En el ejemplo que ponamos ms arriba, se supone que elegiramos un


hombre mayor de 18 aos, por ejemplo, anotaramos su peso y edad y dicho
individuo,enteora,podravolveraserelegidoparatomarsusmedidas(aunquecon
unaprobabilidadprcticamentenulasilapoblacingeneralesmuygrande).

11.1.2 Muestreoaleatoriosinreposicin

Se elige el individuo, se anotan las caractersticas o variables de inters, y


dichoindividuonopuedevolveraserelegidoporquenosedevuelvealapoblacin.
Coincideconelmuestreoaleatoriosimpleenlaprctica,enmuchasocasiones(sila
poblacionesmuygrande).Tambinseraunmuestreoaleatoriosinreposicinuna
encuestadetipotelfonico,dondeseeligennmerosdetelfonoalazar,porejemplo
100nmeros,ynosellamadosvecesalmismonmero.

11.1.3 Muestreoestratificado

Seaplicacuandosabemosquehayciertosfactores(variables,subpoblaciones
oestratos)quepuedeninfluirenelestudio,yqueremosasegurarnosdetenercierta
cantidadmnimadeindividuosdecadaestratoosubpoblacin.Consisteenladivisin
previadelapoblacindeestudioengruposoclasesquesesuponenhomogneos
conrespectoaalgunacaractersticadelasquesevanaestudiar.Acadaunodeestos
estratosseleasignaunacuotaquedeterminaelnmerodemiembrosdelmismo
que compondrn la muestra. Dentro de cada estrato se suele usar la tcnica de
muestreosistemtico,unadelastcnicasdeseleccinmsusadasenlaprctica.
Segnlacantidaddeelementosdelamuestraquesehandeelegirdecada
unodelosestratos,existendostcnicasdemuestreoestratificado:

Asignacinproporcional:eltamaodelamuestradentrodecadaestratoes
proporcionalaltamaodelestratodentrodelapoblacin.

P g i n a |233
Por ejemplo, para un estudio de opinin o de salud, puede resultar
interesante estudiar por separado hombres y mujeres si se piensa que, dentro de
cada uno de estos grupos, puede haber cierta homogeneidad. Por ejemplo, si la
poblacinestcompuestadeun55%demujeresyun45%dehombres,setomara
unamuestraquecontengatambinesosmismosporcentajesporsexo.

Asignacinptima:lamuestrarecogermsindividuosdeaquellosestratos
que tengan ms variabilidad. Para ello es necesario un conocimiento previo de la
poblacin. Si sabemos, por ejemplo, que el estrato de hombres est mucho ms
disperso (tiene mayor varianza) que el de mujeres, deberemos tomar un mayor
nmero de datos en este estrato, para obtener mayor representatividad de la
muestra.

234|P g i n a

P g i n a |235
11.1.4 Muestreosistemtico

Sisedisponedelosindividuosdeunapoblacinordenados,dealgunaforma,
enunalista,elmuestreosistemticoconsisteenelegirunprimerindividuoalazar,y
los siguientes de forma sistemtica o peridica a travs de dicha lista. De manera
general,si eseltamaodelapoblacinyqueremoselegirunamuestradetamao
, entonces dividimos entre . Sea la parte entera de / . Se elige
aleatoriamenteunnmero
entre1y ,ylamuestrasetomaconloselementos
delalista: ,
,
2 , . ..hastacompletarlos elementosquesenecesiten.
En la siguiente figura podemos ver un ejemplo grfico de toma de datos en una
muestradetamao enunapoblacinde vacas.Sesuponequelasvacasestn
ordenadasenunalista(numeradas).Tambinpodeispensarenlalistadevacas
comouncarruseldeferia,yStevenSeagalpegandotirosalasvacas ,
,
2 , . ..

Estetipodemuestreopodrapresentarproblemasencasodeperiodicidad.
Supongamosunmuestreoparaconocerlacalidaddevidadelosvecinosdevarios

236|P g i n a

bloques de viviendas de la misma altura. Un muestreo sistemtico podra llevar a


preguntarsiemprealosresidentesenlospisosmsaltos,queposiblementetuviesen
mscalidad(menosruido,mssol...)quelosresidentesenpisosmsbajos.
Existenmstiposdemuestreo,ypodrahablarsebastantemsdelosaqu
vistos, estudiando propiedades matemticas de los mismos. En todo caso, no es
objetivodeestetextoelestudiodelmuestreo,puesesteesuntemamuyamplioy
quehadadolugaraestupendosmanuales.Apartirdeahora,supondremosquela
poblacinenestudiotieneuntamaoinfinito(omuygrande),yeltipodemuestreo
consideradoeselmuestreoaleatoriosimple(todosloselementostienenlamisma
probabilidaddeserelegidos,yestosehacedeformaindependiente:laeleccinde
unelementonoinfluyeenlaeleccindeningnotro),puestoque,conestetipode
muestreo,sepuedenverificarmuchaspropiedadesmatemticasdeintersquede
otraformanosepodra,oseramsdifcil.

P g i n a |237

12

ESTIMACINPUNTUAL

Cuando nos referimos al estudio de una poblacin, nos centramos en el


estudiodevariablesaleatoriasquemidencaractersticasdelamisma,ylaestimacin
detipopuntualconsisteentratardeobtenervaloresdesusparmetrosatravesde
muestras.
Porejemplo,supongamosqueestamosinteresadosenconocerdetallesdela
poblacinespaola(ocualquierpais)mayorde18aos.Estaramosinteresadosen
tenerlamayorinformacinposibleencuantoacaractersticascomoelpeso,laedad,
elndicedemasacorporal,elnivelderenta,tendenciadevoto,elniveldecolesterol,
elnmerodepersonasquepadecenunaenfermedad...Todasestascaractersticas
constituyenvariablesaleatoriasqueseguirnalgunadistribucindeterminada(como
ladistribucindePoisson,labinomial,lanormal,laexponencial,oalgunaotraque
nohayamosvistoenestetexto).
Cualquieradeestasvariablesaleatoriasquedaperfectamentedeterminadasi
conocemos los parmetros de los que depende. La distribucin normal queda
perfectamente determinada si conocemos la media y la desviacin tpica . La
distribucinexponencialquedadeterminadaporelinversodesumedia,queesel
parmetro .LadistribucindePoissonquedadeterminadaporsuvalormedio .La
variablebinomialestcaracterizadaporlosvalores y ,etc.
Porlotanto,parapoderrealizarinferencias,previsionesoprediccionessobre
la poblacin (o las variables aleatorias de inters en la misma) necesitaremos dar
estimaciones(aproximaciones)delosparmetroscorrespondientes.
Enestemomentonecesitamosdarunasdefinicionesmatemticas.
Estadstico:Unafuncindevariablesaleatorias.

238|P g i n a

Unestadstico,ademsdeserunapersonaqueestudiayutilizalaestadstica,
se define como una funcin de varias variables aleatorias: si , , . . . , son
variables aleatorias, una funcin (que cumpla algunos requisitos matemticos)
, ,...,
sellamaestadstico.
Estimador:Estadsticoqueseusaparaestimarunparmetrodesconocido.
Si el estadstico (esa funcin de antes) se utiliza para estimar (tratar de
aproximar)unparmetrodelapoblacinovariable,sellamaestimador.
Porejemplo,estamosinteresadosenestimarelpesomediodelasmujeres
mayoresde18aos.Paraelloelegiriamosunamuestradelapoblacindetamao .
, , . . . , seran variablesaleatorias,cadaunadeellasnosmedirel
pesodelamujer delamuestra.Lafuncin

...
, ,...,

esunestadstico(porqueesfuncindevariablesaleatorias),ytambinunestimador,
porqueloutilizaremosparaestimarelpesomedio.
Estimacin:Valorconcretodelestimadorparaunamuestraenparticular.La
estimacinvieneaserunaprediccindelvalortericodesconocido.

P g i n a |239
Enelejemploanterior,( , , . . . ,
eslamuestraenabstracto,esdecir,
eslabasematemticaqueutilizamosparatratardepredeciroestimarelpesomedio
delasmujeresmayoresde18aosenlapoblacinengeneral.
Lamediamuestral:

...

es un estimador de la media. A los estimadores se les pone una tilde o algun


sombreroencimaparaindicarqueestimanoaproximanunparmetro.Enestecaso
esunestimadordelamedia .
Muestraaleatoriasimple.
Cuando tomamos la muestra de forma numrica, tendremos datos
, ,...,
.Estamuestrasellamamuestraaleatoriasimple.Los sonnmeros,
serepresentanenminsculasparadiferenciarlosdelasvariablesaleatorias.
Elvalordelamediadelamuestra

...

esunaestimacin.Sidisponemosdeunamuestrade pesos, 54.5,64, . . . ,70 ,


porejemplo,63.4,esunaestimacindelpesomedio.

12.1 ESTIMACINDELAMEDIADEUNAVARIABLE.MEDIAMUESTRAL

Profundizaremosahoraenelejemploanterior,paraverconmayorprecisin
culeslaformadeestimarlamediadeunavariablealeatoria.
Supongamosquesedeseaconocereltiempomediodehorasdesueoque
provoca un sedante determinado. Para realizar una inferencia estadstica, se elige
unamuestraaleatoriasimplede enfermosalosqueselesharecetadoelfrmaco.
Traslatomadeunapastilla,medimoslavariable =horas de sueo.

240|P g i n a

Enesteejemplo,lacaractersticaenlaqueestamosinteresados,comovemos,
esunavariablealeatoria.Esacaracterstica,lgicamente,semideenunapoblacin
(enestecasosernlaspersonasalosqueselespuedesuministrarelfrmaco).
NosinteresaconocerelparmetroMediadelavariable .
Paraelloseleccionamosunamuestraaleatoriasimpledetamao .Enella
medimos veces la variable y, por lo tanto, tendremos variables aleatorias
( , ,...,
.
Estadsticoautilizar:lamediamuestral.
...

Estimador:dadaunamuestraconcreta , , . . . ,
...

Estimacin:paraunamuestraparticular,porejemplo,
6,tenemos6datos
concretos: 0.8,2.1,1.5,1,2,2.3

0.8 2.1 1.5 1 2 2.3

1.61.
6
Podramosconsiderarotrosestimadoresparalamediadeunavariable?S
tenemos una muestra
, ,...,
no resulta muy descabellado usar este
posibleestimador:

min
max

.
2
Para la muestra anterior, la estimacin resultante sera
queesunnmeroparecidoalanterior.
Otraposibilidad:

...
1

nosdaralaestimacin

0.8

2.1

1.5
5

2.3

1.94.

1.55,

P g i n a |241
Y seguro que se nos pueden ocurrir bastantes ms. Cul es el mejor de
todos?Haymtodosmatemticosparapoderelegirentreunosestimadoresyotros.
Ahorabien,enprincipio,cualquierestadstico(recordad,nounapersona,sinouna
funcindevariablesaleatorias)utilizadoparaestimarunparmetro,esunestimador.
Cuandoeseestimadorsecuantifica(cuandoyatenemoslosdatosdelamuestraylo
valoramos),tenemosunaestimacin.Queeseestadstico,estimadoroestimacin
seabuenoomalo,yaesotrocantar.

12.2 ESTIMACINDELAVARIANZA.CUASIVARIANZAMUESTRAL

Para estimar la varianza de una variable , a partir de una muestra


aleatoria simple de tamao ,
, ,...,
, podemos usar la llamada varianza
muestral(lavarianzadelamuestra).

.
Sienvezdedividirpor sedividepor
llamacuasivarianzamuestral:

1,setieneotroestimadorquese

(121)

242|P g i n a

Esteestimador,queseescribemuchasveces (oenmuchoslibrossingorro,
simplemente , supongo que para marear) guarda una relacin sencilla con la
varianzamuestral:

1
1

(122)

Matemticamente,comopodemosobservar,cuandoelvalorde esgrande,
los valores son similares (

tiende a 1). Desde un punto de vista terico, puede

demostrarse que la cuasivarianza muestral posee mejores propiedades que la


varianzamuestralcuandoqueremosaproximarlaverdadera(desconocida)varianza
deunavariable.Esporesoque,enbastantesocasiones,sedefinedirectamentela
varianza de una muestra (tal y como la vimos en el primer captulo de estadstica
descriptiva)comolafrmula(121).Estosucedeenmuchoslibrosdetexto(sobre
todoescritosenEstadosUnidos),yensoftwarecomoelRoelSPSS.

12.3 ESTIMACINDEUNAPROPORCIN.PROPORCINMUESTRAL

Supongamos que interesa estimar la proporcin de individuos de una


poblacinconunadeterminadacaracterstica(proporcindeposiblesvotantesdel
partidoenelgobierno,depersonasconartritis,demutantesconsuperpoderes...).
Pararealizarunainferenciaestadstica,seeligeunamuestraaleatoriasimple
de individuosyseanota10segnqueelindividuotengaonolacaractersticade
inters. Cada vez que elegimos un individuo, estamos observando la variable
aleatoriadeBernoullideparmetrotorico (quequeremosprecisamenteestimar).
Elestimadorde ,llamadoproporcinmuestral,es:
nmero de unos

,
esdecir,laproporcindelacaractersticaenlamuestra.

P g i n a |243

12.3.1 Otrosestimadores

En funcin de la caracterstica que deseemos estudiar observamos una


variablealeatoriauotra.Cadavariabledependedeunosparmetrosylaformade
estimaresosparmetrospodrserdiferente.Estetemapodraalargarsemuchoms,
pero nicamente vamos a dar el ejemplo tpico que aparece en la mayora de los
libros:
Supongamosquequeremosconocerelmximovalor deunavariable(edad
mximadeunapoblacin,estaturamxima,notamximaenunexamen...).Dada
una muestra aleatoria simple
, ,...,
, un buen estimador es
max , , . . . ,
, pues esa ser la mejor aproximacin que podamos hacer (sin
usar artificios matemticos, que tambin los hay, pero se ven en textos ms
avanzados).
Ahoradejamoselclsicoresumenparalosvagos:

244|P g i n a

12.4 DISTRIBUCINENELMUESTREODEUNESTIMADOR

Un estimador es una variable aleatoria, y, como tal, seguir alguna


distribucin(quevendrespecificadaporunaleydeprobabilidadounafuncinde
densidad),quesellamadistribucinenelmuestreo.Ocurreaspuestoque,cadavez
queescogemosunamuestradeunapoblacinymedimoselestimador,elnmero
queobtenemosvara.
Supongamos que hay organizada una manifestacin multitudinaria en
Madrid,alaquevanaasistirtodoslosmiembrosdetodaslasorganizacionesanti
partidos tradicionales (gatoflautas, neonazis, indignados con bob esponja,
yayogaitas,fontaneroserticos,volturis,gticos,etc,etc.).Lapolicarecibelaorden
de obtener informacin de una nueva asociacin llamada querubines del
purgatorio, que est arrasando en las redes sociales. Para tener la mayor
informacin posible de dicha asociacin, reciben la orden de preguntar, a los

P g i n a |245
manifestantesquedetengan,sipertenecenonoalamisma(trasuninterrogatorio
amabley,alavez,persuasivo).
Supongamos que en cada furgn policial caben 40 detenidos. Cada furgn
puederecoger,entonces,unamuestradelapoblacindetamao40.Dentrodecada
muestrasemidelaestimacin

miembros de los querubines del purgatorio

,
40
queesunaaproximacindelaproporcin demiembrosdeesaasociacinenla
poblacingeneraldeantipartidos.
Alfinaldelajornadadelucha,sehanmovilizadountotalde300furgones.
As,tenemos300estimaciones , , . . . , delparmetro .
En el sistema informtico de la polica se tienen los datos de todos los
furgones(muestras).Enlatabla(123)aparecereflejadalainformacin(valor1enla
muestrasieldetenidoesdelosquerubinesy0sinoloes).Enlaterceracolumna
delatablaescribimosunvalorficticioparacadaestimacin .

1
2
3

300

0.11

1,0,1, . . . . ,0,1,0
0,0,1, . . . ,0,1,0
0,1,1, . . . ,1,1,0

0.19
0.06

0,1,1, . . . ,1,1,0

(123)

Con la informacin de la tercera columna de la tabla podemos realizar un


histograma, y de este modo aproximamos la distribucin en el muestreo de la
variablealeatoria ,quedibujamosenlaFigura121.
Conlosdatosdelejemploanterior,supongamosqueacadadetenidosele
fichayselemidepesoyestatura.Enlatabla(124),enlosvaloresdelasmuestras
tendriamos, por ejemplo, datos del peso. De cada muestra podramos calcular la
media y tener la distribucin en el muestreo del peso medio (cuyo histograma
dibujamos en la Figura 122, donde observamos peso medio mnimo y mximo,
podemos calcular cuantiles, etc.). Al ministerio del interiorle interesamucho este

246|P g i n a

tipodedatosporqueaspodrorganizarunapoliticadedetencionesadecuadaano
gastardemasiadoencomidadepresosydetenidos.

Figura121:histogramadeladistribucinenelmuestreodelavariableproporcinmuestral.

1
2

300


63.97,48.81, . . . ,86.83
65.14,86.35, . . . ,84.35

67.03
71.78

(124)

73.25,57.68, , . . . ,168.44

79.02

Si nos fijamos con un poco de detenimiento en la Figura 122, podemos


reconocerlaformadelacampanadeGausseneldibujodelhistograma.Realmente,
estoocurreporqueestamosdibujandoelpesomedio .Debidoaqueelestadstico
(oestimador,comoseprefiera)mediamuestrales

...

,esdecirla

sumade variables,divididapor ,elteoremacentraldellmitegarantizaquela


distribucinenelmuestreodeesteestadsticosigueunadistribucinnormal.Osea,

P g i n a |247
quesiemprequecalculemosmediasdemuestras,elhistogramaresultanteformado
por esas medias (ya sean medias de pesos, de alturas, de temperaturas...) se
aproximaralacampanadeGauss.

Figura122:histogramadeladistribucinenelmuestreodelpesomedio.

12.5 CALIDADDELOSESTIMADORES

Cuandopretendemosestimarunparametrodesconocidodeunapoblacin,
yasealamedia,laproporcinocualquierotroparmetro,estclaroquepodemos
definirdiferentesestimadores.
Comovimosantes,otroestimadorparalamediadeunapoblacinpodraser,
dadaunamuestra
, ,...,
,

min
max

.
2

248|P g i n a

Cmo sabemos si este ltimo estimador es mejor o peor que la media


muestral?Paraelegirentreunestimadoryotro,setienenencuentaunaseriede
propiedades matemticas, que pueden decirnos qu estimador es mejor o peor.
Algunas de estas propiedades son insesgadez y consistencia. Estas propiedades se
definenyestudiandesdeunpuntodevistamatemtico.nicamenteintentaremos
darunaideaintuitivadeellas.

12.5.1 Sesgodeunestimador

Si esunestimadordeunparmetro ,sedefineelsesgodelestimadorcomo
.

Recordemos que un estimador es una variable aleatoria, por lo tanto


podemoscalcularsumediaoesperanza(podramoscalcularlamediadelosvalores
en la tabla (123)). El sesgo es la distancia entre la media y el parmetro que
queremos estimar. Obviamente, cuanto ms pequeo es el sesgo, mejor es el
estimador.
Sielsesgodeunestimadorescero,elestimadorsedicequeesinsesgado.

P g i n a |249
Ejemplo 12-1 Puede demostrarse matemticamente que la media muestral
es un estimador insesgado de la media verdadera, y que (proporcin
muestral) es un estimador insesgado de la proporcin verdadera. La cuasivarianza muestral
es un estimador insesgado de la varianza terica de la
poblacin. Sin embargo, la varianza muestral
NO es un estimador
insesgado. Este es uno de los motivos por los que, en muchas ocasiones, la
varianza se define ya directamente como la cuasi-varianza, y por qu muchos
paquetes estadsticos, cuando les pedimos calcular la varianza, realmente
calculan la cuasi-varianza.

12.5.2 Consistencia
Un estimador es una variable aleatoria que depende de una muestra de
tamao .Pareceintuitivoque,cuantoms grandesealamuestraquetomemos,
mejorserlaestimacin.Unestimadorsediceconsistentesilim

Ejemplo 12-2 Los estimadores que hemos visto (media muestral, proporcin
muestral, varianza y cuasi-varianza muestral) son consistentes.

Ejemplos claros de Estimaciones Sesgadas:


El deficit pblico este ao ser de X por ciento, dicho por cualquier

250|P g i n a

gobierno. Al final de ao siempre se demuestra que esa estimacin era


inferior a lo real. Son estimaciones sesgadas por debajo siempre.
El paro se reducir este ao un X por ciento, dicho por cualquier gobierno.
Como sabemos, siempre se demuestra que esa estimacin era superior a lo
real. Ejemplo de estimacin sesgada por arriba.
Este arreglo se lo hago yo por mil euritos de nada, dicho por un albail a
un cliente. Estimacin sesgada por abajo siempre (y sin tener en cuenta los
destrozos posteriores). Usted me dijo que la obra seran mil euros, y ahora
quiere que le pague 2000, protesta el cliente. Eso era una estimacin,
seor, contesta el albail, experto en estadstica sin darse cuenta.
La vivienda nunca baja. Alquilar es tirar el dinero. Compra un piso e
hipotcate lo que haga falta. En el peor de los casos, si no puedes pagar la
hipoteca, vendes el piso y ganas dinero. Estimacin repetida hasta la
saciedad en bancos y bares durante varios aos.

12.6 INTERVALOSDECONFIANZA

Darunaestimacinconcretaestbien,porqueesunaaproximacindealgo
quedesconocemos.Ahorabien,aefectosprcticos,nopodemossaberladistanciao
diferencia que existe entre la estimacin que demos y el parmetro a estimar. Si
decimosquelaproporcindegentealaquelegustaelchocolateconchurrosesun
60porciento,basndonosenunaencuesta,aunqueseadeuntamaomuygrande,
nopodemoscalcularladiferenciaentreesevaloryelreal.
Parece bastante ms prctico dar un intervalo aprximado por donde
sepamosquesemueveelvalorrealqueestamosestimandoyquedesconocemos;
deciralgoascomo:laproporcindegentealaquelegustaelchocolateconchurros
se mueve entre el 55 y el 65 por ciento, con una probabilidad muy alta. De esta
maneradamosmuchamsinformacin,puestoqueacotamostantoporarribacomo
porabajoelporcentajedelquehablamos,ydamoslaprobabilidaddelintervalo.

P g i n a |251
12.6.1 Definicionesbsicas

Unintervalodeconfianzadenivel (donde esunnmeroentre0y1)para


estimarunparmetro esunintervalodevalores , quecontienealparmetro
conprobabilidad1
,esdecir
,
1
.
sellamaniveldesignificacin.1
esunnmeroprximoa0,conloque1

eselniveldeconfianza.Engeneral,
estprximoa1.

Cojamos,porejemplo,
0.05.Queelparmetro estenunintervalocon
unaconfianzadel95%significaque,sidispusiramosdetodaslasposiblesmuestras
quepudisemosextraerdelapoblacin,el95%deellascontendranalparmetro,y
habraun5%demuestrasquenolocontendran(envezde95lase 1
100
paracualquierotro .
Los valores que, tradicionalmente, se suelen utilizar para el nivel de
significacin son0.01,0.05y0.1.
Lamanerageneraldeconstruir,matemticamente,unintervalodeconfianza
para un parmetro , suele ser a travs de un estadstico llamado pivote, con
distribucinconocida(comolanormal,la deStudent,laChicuadradoola .Dicho
estadsticopivoteseutilizatambinpararealizarloscontrastesdehiptesisparael
parmetro ,queveremosenelsiguientecaptulo.Losintervalosdeconfianzapara
unparmetro suelentenerlaforma
,
,donde esunestimadorde y
es una cierta cantidad que depende del tamao de la muestra y del nivel de
que pretendamos,
significacin . Cuanto mayor sea el nivel de confianza 1
mayorlongitudtendrelintervalo.Anlogamente,amenornivel,menorlongitud.
Asimismo, cuanto mayor sea el tamao de la muestra, menor ser la longitud del
intervalo.
Enestetextonoslimitaremosadarlasfrmulasdelosintervalosdeconfianza.
Elestadsticopivoteapartirdelcualseconstruyecadaintervalopuedeconsultarse
enelapartadocorrespondiente,dentrodelcaptulodetestdehiptesis(tampoco
nosinteresalaformadeconstruirelintervalo).Paraprofundizarcualquieradeestas
cuestiones,otambineltemadelaconstruccinypropiedadesmatemticasdelos

252|P g i n a

estimadores,recomendamosmiraralgnlibrodeestadsticatericadeingeniera,
comoeldeArdanuy[1]oMontgomeryyRunger[9].

12.6.2 Intervalosdeconfianzaparavariablesaleatoriasnormales

Sea unavariablealeatorianormal,quemideunacaractersticadeinters
enunapoblacin,
, .Exponemos,acontinuacin,culessonlasfrmulas
delosintervalosdeconfianzaparalosparmetros y .
,

Separtedeunamuestraaleatoriasimple

,,

12.6.2.1 Intervalosdeconfianzaparalamedia
Existen dos posibilidades para calcular un intervalo de confianza para el
parmetro :conocerladesviacintpicaonoconocerla.

Intervaloconociendoladesviacintpica
Elintervalotienelafrmula
/

siendo

(125)

...

lamediamuestral,y

elvalordeunadistribucin

0,1 quedejaasuderecha

de rea (Figura 123), es decir es el cuantil o valor que deja a la izquierda una
probabilidad1

P g i n a |253

Figura123

Conunagrficasiempresevenlascosasmsclaras(Figura124).Lamedia
tericaestenelintervalodeconfianzaconlaprobabilidadprefijadadeantemano.
Comovemos,elintervaloestcentradoenlaestimacinpuntualdelamedia(media
muestral ),yesdelaforma:( menosunacantidad, msunacantidad).

Figura124

Intervalodesconociendoladesviacintpica
Es muy dificil que, en un caso real, se tenga la informacin de cul es la
desviacin tpica terica o verdadera de la poblacin, por lo que el intervalo

254|P g i n a

anterior no resulta, en la prctica, eficaz. Al desconocerse lo que se hace es


estimarla,usandolacuasidesviacintpicamuestral.Elintervaloqueresultautiliza
ladistribucin deStudent,vistaenelcaptuloanterior.
Elintervaloes

, /

siendo

, /

, /

elvalordeuna deStudentcon

(126

1gradosdelibertadquedejaa

la derecha /2 de rea (igual que en el caso anterior, es el cuantil que deja a la


izquierdareaoprobabilidad1

,perodebemosbuscardichovalorenladensidad

con
1gradosdelibertad).
(111)).
Lacantidad
delamedia.

eslacuasidesviacintpicamuestral(frmula

/ suelerecibirelnombredeerrortpicooerrorestndar

Ejemplo 12-3 El Yoshua vende paquetes de costo para los porritos que fuman
en su calle, diciendo que de media tienen 10 gramos de hachs. La Yesi y el
Richar le compran 7 paquetitos para una fiesta y los pesan:
9.8,10.2,10.4,9.8,10.2,10.2,8.6. Ser cierta la afirmacin del Yoshua?
Solucin.
Vamos a calcular un intervalo de confianza para la media de los paquetes
(suponemosqueelpesosigueunadistribucinnormal).Acabamosdeescribirqueel
intervalodeconfianzaparalamediaes

, /

, /

En este caso 9.88 y


0.609. Vamos ahora a calcular los 3
intervalosdeconfianzamscomunes,quesonlosqueusan
0.1, 0.05y0.01.
Paraellotendremosquebuscarelvalor
, / .Lomscmodoesiralapginaweb
statdistributions.comybuscarelvalor,indicandop-value=0.1(cuandoqueremos
que sea0.1),d.f.=6ymarcandolaopcintwo tails,comovemosenlaFigura125.

P g i n a |255

Figura125

El valor

, /

es 1.943. En la siguiente tabla calculamos los intervalos e

indicamossulongitud.
1
0.9 90%
0.95 95%
0.99 99%

, /

0.1
1. 943
0.05 2. 446
0.01 3. 707

9.43,10.33
9.32,10.44
9.03,10.73

0.9
1.12
1.7

Segnlosvaloresdelatabla,vemosquelaverdaderamedia(desconocida)
estenelintervalo 9.43,10.33 conprobabilidad0.9;enelintervalo 9.32,10.44
con probabilidad 0.95, y en el intervalo 9.03,10.73 con probabilidad 0.99.
Observamosque,cuantamayoreslaconfianza,lalongituddelintervaloaumenta.
Para conseguir un intervalo de menor longitud (lgicamente ms preciso) con la
mismaconfianza,tendramosqueaumentareltamaodelamuestra.

256|P g i n a

Nota 12-1 En cualquier paquete de software puede calcularse el intervalo


directamente. En R, por ejemplo, con pasarle una muestra como un vector x,
podemos ejecutar la opcin t.test(x), que ejecutara un test de hiptesis (ya veremos
qu es en el captulo siguiente), y adems proporciona el intervalo de confianza para
la media.
x=c(9.8,10.2,10.4,9.8,10.2,10.2,8.6)
t.test(x, conf.level = 0.95)
Lgicamente, en conf.level escribimos el valor que nos interesa. Entre los
resultados que se obtienen, nos quedaramos con:
95 percent confidence interval:
9.322068 10.449361

Clculodeltamaodelamuestra.

Ejemplo 12-4 Despus de un mes de la externalizacin del servicio de


comedor de un hospital pblico, y para evitar problemas con los sindicatos
mdicos, se quiere comprobar que el peso medio de los pacientes no ha
variado considerablemente con la nueva comida. Antes de la externalizacin
del servicio, se saba que el peso de los pacientes segua una distribucin
normal con desviacin tpica 16.5 kilos.
Cuntos pacientes debern considerarse para que, con una confianza del 99
por ciento, el error cometido al estimar el peso medio de los pacientes
mediante el peso medio muestral no exceda de 2.5 kilos?
Solucin.
Trabajamosconlasuposicindeque =peso de los pacientes

Conunaprobabilidadde0.99,queremosqueelerroralestimar mediante
noexcedade2.5kg,esdecirque|
| 2.5. Comoelintervalodeconfianzapara
lamedia(cuandoladesviacintpicaesconocida,queenestecasoes
16.5)es
elformuladoen(125),

P g i n a |257
yquieredecirque esteneseintervaloconprobabilidad1
|

entonces|

,conprobabilidad1

(verlaFigura124),

Unimoslasdoscosas:
|

y
|
Entonces,acotamos
ycomo

0.99

|
/

2.5.

por2.5,donde esloquebuscamos,

0.001,secalculaelvalor
2.57

loquesignificaque

(127)

16.5

16,

2.57.Porconsiguiente:

2.5

2.57 16.5
2.5

16.962,

287.709 Sedeberpesar,almenos,a288pacientes.

Nota 12-2 Como dijimos anteriormente, es muy difcil que, en la prctica, se


conozca la desviacin tpica real . Si no es as, para calcular el tamao de la muestra
deberamos utilizar el intervalo basado en la de Student (12-6 . La relacin que
aparece en la primera lnea de la frmula (12-7) sera ahora:

, /

El problema que tendramos es que necesitariamos saber

.
, /

que depende de

y
. Para ello se debera elegir alguna muestra inicial un poco grande (30 o ms) y
calcular
. Esto nos dara una estimacin de la desviacin tpica de la poblacin.
Por otro lado, como lo que queremos calcular es un tamao muestral, ste
seguramente deber ser grande, con lo que
, / lo podemos aproximar por
/
(pues hemos visto que la de Student, a medida que se hace grande, se convierte
en la distribucin normal). De esta manera, la frmula para estimar el tamao
muestral queda:

258|P g i n a

donde 1
sera la confianza deseada, y el mximo error que deseemos cometer
al estimar la media mediante la media muestral.

Nota 12-3 En la prctica, el intervalo de confianza para la media puede


utilizarse igual aunque la variable considerada no sea una variable normal, sino
cualquier otra. Esto es debido al teorema central del lmite, donde se deca que la
suma de variables se aproxima por una distribucin normal. En general, si tenemos
variables , , . . . , , todas de media y desviacin tpica , el teorema central
del lmite dice que
...

conloquelamediamuestral

...

Como no vamos a detenernos en planteamientos tericos, lo que queremos


resaltar es que la media muestral de n variables se aproxima por una distribucin
normal, mientras que si dichas variables son normales, entonces la media muestral
sigue exactamente una distribucin normal. A efectos prcticos, podemos utilizar
el mismo intervalo de confianza para la media, en el caso de que las variables
sean o no normales. Cuando no lo sean, simplemente sucede que el intervalo tendr
algo menos de fiabilidad.

12.6.2.2 Intervalodeconfianzapara (para


alcuadrado)

simplementeseelevanlosvalores

Conociendolamedia
Lafrmuladelintervaloes(sealemosque,enestecaso,elintervalonotiene
laformadeestimacinmenosalgo,estimacinmsalgo)

,
, /

,
,

P g i n a |259
siendo

, /

elvalordeunaChicuadrado,con gradosdelibertad,quedejaala

derecha /2derea(Figura126),ocuantilquedejaasuizquierda1

derea.

Comoocurraenelcasodelamedia,esteintervalonosueleutilizarse,puestoquelo
habitual,sinoseconoceladesviacintpica,esnoconocertampocolamedia.

Figura126

Desconociendolamedia
Cuandolamediatericanoseconoce,seestimamediantelamediamuestral.
En este caso, la distribucin Chicuadrado de referencia tiene un grado menos de
libertad.Elintervaloes:

, /

quepuedeescribirseenfuncindelavarianzaocuasivarianzamuestral,delmodo:
1

,
, /

siendo

, /

(128)

1
,

,
/

, /

elvalordeunaChicuadradocon

aladerecha /2derea.

,
,

1gradosdelibertadquedeja

260|P g i n a

Ejemplo 12-5 El dueo de un pub est dudando si, para el da de fin de ao,
le compensa ms cobrar por consumicin un euro, que es lo que van a hacer
la mayora de los pubs del barrio (dando garrafn, por supuesto) o vender una
entrada a un precio alto y que el cliente tenga barra libre. Para decidirse, invita
a 12 vecinos para comprobar cuntas consumiciones alcohlicas pueden
tomarse hasta caer redondos. Los datos que obtiene son:
3, 8, 12, 13, 15, 18, 20, 24, 24,30, 32, 40.
De estos datos se obtienen los valores
18.75, y
9.15. Vamos a
calcularlosintervalosdeconfianzaparalamediayladesviacintpica,paraunnivel
0.05.
Elintervalodeconfianzaparalamediaeseldadoporlafrmula(126 .El
.
valor
2.201.
, /
,
ParacalcularelvalorenR,escribimos
qt(0.025,11) y nos da 2.20 (el valor opuesto). Otra forma es ir a
statdistributions.comycalcularloconlagrfica,quepuedesermsintuitivo.
Elintervaloresulta 18.75

2.201

18.75

5.81,18.75

5.81

12.94,24.56 .
Elintervaloparaladesviacintpicaeselexpresadoen(128).Calculamoslos
valores

, /

21.92y

3.816.

ParacalcularestoscuantilesenR,escribimos
qchisq(0.025, 11); qchisq(0.975,11)yobtenemoslosdosvalores.
Elintervaloqueda

11 9.15
11 9.15
,
21.92
3.816

6.48,15.53 .

Si se elige como valor para la media y la desviacin tpica los extremos


superioresdelosintervaloscorrespondientes,tendramosquelamediapodraser

P g i n a |261
24.56yladesviacintpica15.53.Entonces,comocasomuydesfavorable,elvalor
ms alto que podra tomar la variable cantidad de alcohol estara cerca de
2




24.56 2 15.53 55.62.
Estrategia del dueo del pub: vender entradas de barra libre, cobrando un
precioalto,deltipoalgomsde40euros(dehecho,enlamuestravemosque40es
unvalorextremo).Si,porejemplo,fijaelvalordelaentradaen50o55eurosyasera
muydifcilqueperdieraconnadie,pormuybebedorempedernidoquefuera.

12.7 INTERVALOSPARALACOMPARACINDEPOBLACIONES

Ahora estamos interesados en comparar dos poblaciones o variables


,
e
,
,independientes.
Son ms altos los espaoles que los portugueses? Son ms gordos, ms
listos... ? Son los polticos espaoles ms corruptos que los italianos? Son ms
guapaslasmujerespolicaquelasdelaguardiacivil?Todosloshombresguaposy
sensiblesongays?
Para contestar preguntas de este
tipopuedenrealizarseinferencias(o
calcular intervalos de confianza) de
ladiferenciademedias
,o
delaproporcindevarianzas / .
Se parte de dos muestras
, ,...,
e
aleatorias simples
, ,...,
,delasvariables
,

,
,
respectivamente.

262|P g i n a

12.7.1 Intervalodeconfianzaparaladiferenciademedias
Paradarunintervalopara

tenemoscuatroposibilidades.

12.7.1.1 Conociendolasdesviacionestpicas

Elintervaloes

Podemosverqueesteesunintervalodelaformadelescritoen(125),pero
ahoraaparecendosmediasmuestrales,dostamaosmuestralesydosvarianzas.

12.7.1.2 Desconociendolasdesviacionestpicasperosuponiendoquesoniguales
1

, /

Sinoconocemoslavarianza(perosuponemosquelasdosvariablestienenla

misma),entonceslaestimamos.Cmo?Puesmediantelamuestra , , . . . ,
realizamosunaestimacin

;mediantelamuestra

,...,

realizamosuna

y, a continuacin, se toma la media ponderada (como


segunda estimacin
ponderacionesusamoslostamaosmuestrales):
1

1
2

Estaesunaestimacindelavarianza.Calculandolaraizcuadradatenemos
unaestimacindeladesviacintpica.Ahora,enelintervalodeconfianza,envezde
utilizarlavariable onormal,utilizamosla deStudent.

P g i n a |263
12.7.1.3 Desconociendolasdesviacionestpicasysuponiendoquelostamaosde
lasmuestrassongrandes ,

Si los tamaos de muestra son grandes (y no se conocen las desviaciones


tpicas ni se puede suponer que sean iguales), entonces se aprovecha que la de
Student se parece a la distribucin normal, tanto ms cuanto ms grande es el
nmerodegradosdelibertad.Poresosaleahoraunintervalodeconfianzaigualal
delprimercaso(dondeconocamoslasvarianzas),peroahoranolasconocemosylas
sustituimosporsusestimaciones.
12.7.1.4 Desconociendolasdesviacionestpicasysuponiendoquelostamaosde
lasmuestrassonpequeos ,

(129)

, /

siendoelenteromsprximoa

Cuandoyaestamosenelpeordeloscasosposibles,queesnoconocerlas
varianzasyanencimatenertamaosdemuestrapequeos,resultaqueunseor
muy listo (que no obtuvo demasiado reconocimiento, la verdad, porque en pocas
ocasionessedasunombre11)calculelintervaloausar.Comovemos,esigualque
enelcasoanterior,perosustituyendolavariablenormalporla deStudent.Lapega
estenelnmeroquetieneunaformaunpelncompleja,sobretodosisehacen
lascuentasamano.

11

B.Welchfueelestadsticoencuestinquecalcullafrmulade.Hayquiendiceque
despusdeesotuvoqueestaratratamiento,peroquizseaunaleyendaurbana.

264|P g i n a

Nota 12-4 Por si algn novato est a punto de tener un desmayo a causa de
tanto formuln (sobre todo despus de ver la frmula de ), recurdese que todos estos
intervalos estn programados. En general, con introducir los datos de las muestras en
la web o programa estadstico correspondiente, elegir el que queremos y el intervalo
que necesitamos, las cuentas no hay que hacerlas.

Ejemplo 12-6 Para decidirse entre dos proveedores de internet, un friki


informtico decide aprovechar el da de prueba gratis que da cada
compaa, para bajarse los 10 episodios de la serie porno Tcamela otra
vez, Sam. Para cada episodio anota el tiempo de descarga (minutos) con
cada proveedor, obteniendo
\
1
2
3
4
5
6
7
8
9
10
2.2 2.1 4.2 1.6 3.2 2.8 1.7 4.8 3.4 7.9
3.1 2.8 3.8 2.8 4.5 2.8 1.9 5.4 3.1 7.2
Calcular un intervalo de confianza, al 95 por ciento, para la diferencia de
medias, y razonar si alguno de los proveedores de internet puede
considerarse ms rpido que el otro.
Solucin.
Estamosenelcasodequelasmuestrassonpequeasydesconocemoslas
desviaciones tpicas. Si las muestras fueran grandes, tendramos que decidir si las
varianzaspuedenconsiderarseigualesono.Paraellohabraquehaceruncontraste
dehiptesisparasabersilaproporcin / puedeconsiderarseiguala1.Estose
veenelcaptulosiguiente.
Con las muestras que nos dan, tenemos que
3.61,

2.46,

1.Elegimos

0.05,conloque

3.39,

3.74,
, /

, /

2.11.Elintervalodeconfianza(para
0.05 esel(129)quesale 1.99,1.29 ,es
decir,ladiferenciadetiemposmediosdedescargaperteneceaesteintervalocon
probabilidad0.95.Comopodemosver,elintervalodeconfianzacontienealcero,o
sea que hay poca diferencia entre la velocidad media de un proveedor y otro. De
todas formas, para tomar una decisin ms acertada, desde el punto de vista
estadstico,esmejorrealizaruncontrastedehiptesis.

P g i n a |265
Nota 12-5 De nuevo vemos lo fcil que es hacerlo en R: declarar los datos
(muestras) como vectores y ejecutar una instruccin
x=c(2.2,2.1,4.2,1.6,3.2,2.8,1.7,4.8,3.4,7.9)
y=c(3.1,2.8,3.8,2.8,4.5,2.8,1.9,5.4,3.1,7.2)
t.test(x,y, conf.level=0.95)
En los resultados, entre otros valores, tenemos el intervalo de confianza al 95
por ciento:
95 percent confidence interval:
-1.991689 1.291689

Por ltimo, para comparar las varianzas podemos dar un intervalo para la
proporcinococienteentrelasmismas.

12.7.2 Intervalodeconfianzaparalarazndevarianzas
Elintervalodeconfianzaparalaproporcinococientedevarianzas

es

siendo

, /

, /

el valor de una F de Snedecor, con

,
1 y

1 grados de

libertad,quedejaaladerecha /2derea(oseaelcuantilquedejaalaizquierda
1

derea).

Acontinuacin,vamosarealizarunacomparacinentredosmuestrasreales.

Pequeacomparacinentrepoblacionesindependientes(aunque
notannormales).UnejemplodeEstadosUnidoscontraunodeEspaa:

266|P g i n a

P g i n a |267

268|P g i n a

12.8 CASODEMUESTRASRELACIONADASOPAREADAS

Puede darse el caso de que las muestras que tengamos no sean


independientes,sinoqueestnrelacionadasopareadas(segnlostextos,apareceel
trmino pareadas o apareadas). La diferencia entre muestras independientes o
relacionadasesque,enelsegundocaso,sedandosmedicionesdelamismaosimilar
caractersticaparacadaindividuo,oparadosindividuosdeidnticascaractersticas
relevantesdelamuestra.Porejemplo,cuandoobservamoselpesodeunaseriede
personasantesydespusderealizarunadieta,obiensideunaseriedepersonas
medimoslascaractersticaspesoyestatura,nopodemosconsiderarquelasmuestras
sonindependientes.Enamboscasostendramosejemplosdemuestrasapareadas.
Eltratamientodeestecasoesmuysencillo.Sidisponemosdedosmuestras
(debernserdeigualtamao) , , . . . ,
e , , . . . ,
,delasvariables
e ,
, lo que haremos ser trabajar con la variable de
,
diferencias
(o
,esindiferente),yportantoconunasolamuestra
, ,...,
, donde
. Lo que nos puede interesar ser calcular
intervalos de confianza o estimaciones de la media de la variable (o de su
desviacintpica).

Ejemplo 12-7 La direccin general de seguridad convoca oposiciones para


interrogador profesional. Una de las pruebas consiste en interrogar a una
serie de detenidos, midiendo la cantidad de oxgeno consumido durante un
periodo de 10 minutos, dando por entendido que, si el interrogador es mejor,
asusta ms y el detenido respira menos. Sobre la base de los resultados a 7
detenidos, que aparecen en la tabla, cul de los dos interrogadores le
interesa ms a la direccin general de seguridad? Utilizar un nivel de
significacin del 5%.
\
1
2
3
4
5
6
7
1

6.1 6.3 5.7 6.4 5.8 6.2 4.1
2

5.4 6.7 5.4 6.2 6.0 6.1 4.5
Solucin.

P g i n a |269
Construimos la muestra de diferencias
entre los datos de los
interrogadores
0.7,0.4, 0.3, 0.2,0.2, 0.1,0.4 ,
ycalculamoselintervalodeconfianzaparalamediadelavariable .Elintervaloes
, /

0.042

0.36, 0.042

0.042
0.36

2.447

0.4
7

0.402,0.318 .

Elintervalodeconfianzacontienealcero,aunqueesalgomslargohaciala
izquierda(loqueotorgaraventajaalprimerinterrogador).Estadsticamente,debera
optarse por elevar el nmero de detenidos para obtener un intervalo de mayor
precisin.Adems,paratomarunadecisindesdeelpuntodevistaestadstico,sera
mejor realizar un contraste de hiptesis. Sin embargo, creemos que la direccin
generaldeseguridadvaaestablecerundesempatemedianteunapeleaamuerte
sbitaentrelosinterrogadores.

12.9 INTERVALOSPARAPROPORCIONES

270|P g i n a

12.9.1 Intervaloparaunaproporcin

Supongamosquesemideunaciertacaracterstica enunapoblacin.Sea
laproporcindeelementosdelapoblacincondichacaracterstica.Como
hemos visto, se estima puntualmente mediante la proporcin muestral
nmero de elementos con la carcterstica en la muestra de tamao / . El
intervalodeconfianzadenivel paraelparmetro esdelaforma

donde

eselvalordeuna

0,1 quedejaasuderecha /2derea.

Ejemplo 12-8 Tras una encuesta del Centro de Investigaciones


Escatolgicas, se ha encontrado que 42 de los 60 hombres encuestados no
bajan la tapa del wc, bien por desidia, bien porque lo ven intil. Determinar un
intervalo de confianza para la proporcin p de hombres que no bajan la tapa
del wc, con un nivel de significacin del 1 por ciento.
Solucin.
Niveldesignificacindel1porciento:
2.64. Porotrolado,nosdicenque
42
60

42
42
1 60 42
60
2.64
,
60
60

yque

0.01 1

0.99

60. Elintervalosale:

42
42
1 60
60
2.64
60

0.54,0.85 ,

esdecir,elintervalovadel54al85porciento.Cualquierperidicosacaraeltitular:
segnunaencuestadelCIE,msdelamitaddeloshombresnobajanlatapadel
W.C., y lo acompaara de alguna fotografa indicativa, que nos negamos a
reproducir.
Nota 12-6 En paquetes estadsticos como SPSS o R, lo habitual es disponer
de una variable con todos los datos (que, en un caso como este seran SI o NO, o del
tipo 0-1), y el propio programa nos realiza el clculo de las proporciones muestrales

P g i n a |271
y el intervalo correspondiente, de un tirn. De todas formas, en R podra calcularse
como:
x1=42; n1=60
prop.test(x=x1, n=n1, conf.level = 0.99, correct=F)
El resultado (entre otras cosas):
99 percent confidence interval:
0.5341185 0.8260532

12.9.2 Intervalodeconfianzaparaladiferenciadeproporciones
Ahora suponemos dos poblaciones en donde se considera la misma
caracterstica . es la proporcin de elementos con dicha caracterstica en la
primera poblacin, y es la proporcin en la segunda poblacin. Se toma una

272|P g i n a

muestradetamao delaprimerapoblacin,yotradetamao enlasegunda,


y se calculan las respectivas proporciones muestrales y . El intervalo de
confianzaparaladiferencia
es

Ejemplo 12-9 En una encuesta realizada a 420 estudiantes de Bachillerato,


250 de ellos dijeron que era poco tico que los padres revisen el correo
electrnico, facebook, etc., de los hijos menores de edad. Se entrevist a 140
padres de familia, y 42 dijeron que era poco tico revisar los correos privados
u otro material del ordenador de los hijos. Calcular un intervalo de confianza
para la diferencia de proporciones entre opiniones de hijos y padres, con una
confianza del 95 por ciento.
Solucin.
Tenemosque =estimacindelaproporcindeestudiantesquevenpoco
0.59.

ticoquelospadresrevisenelordenadordeloshijos=

Asimismo, =estimacin de la proporcin de padres que ven poco tico


revisarelordenadordeloshijos=

0.3.

Confianzadel95porcientosignificaque1

0.95

0.05

1.96.
Calculamosentonceselintervalodeconfianza:
0.59

0.29

0.3
0.081

1.96

0.59 1 0.59
420

0.3 1 0.3
180

0.209,0.371 ,

conloqueobtenemosqueladiferenciarealdeproporciones
deesteintervalo,conprobabilidad0.95.

estdentro

P g i n a |273
Nota 12-7 En R se calculara de la forma:
x1=c(250,42); n1=c(420,140)
prop.test(x=x1, n=n1, conf.level = 0.95, correct=F)
y el resultado dara
95 percent confidence interval: 0.2059867 0.3844895

274|P g i n a

P g i n a |275

13

CONTRASTESDEHIPTESIS

Segnunaencuestareciente,el80porcientodelasmujeresafirmano
fijarseenelfsico.
Claro,sefijanenelmdico,elfutbolistayelnotario,dijountoenunbar.

13.1 INTRODUCCIN.CONCEPTOSESENCIALES

Una hiptesis estadstica es una afirmacin que se hace sobre una o ms


caractersticasdeunapoblacin(decirquelavidamediadeunabaterasonxhoras,
que un determinado producto hace adelgazar, que a la gente le gusta
mayoritariamente el morbo...). Un test o contraste de hiptesis es algn
procedimientoparaaceptarorebatirdichahiptesisoafirmacin.
Loscontrastespuedenserdetipoparamtricoonoparamtrico,segnse
refieran o no a parmetros de una poblacin (a la media, a la varianza, a una
proporcin...).
Unahiptesisparamtricaesunaafirmacinsobreunaomscaractersticas
(parmetros)deunapoblacin.Sidichahiptesisespecificaunnicovalorparael
parmetrolallamaremoshiptesissimple.Ejemplo:laestaturamediadelosvarones
espaolesmayoresde18aoses1.77m(
1.77 .
Si se especifica ms deun valor para el parmetro la llamaremos hiptesis
compuesta.Ejemplo:
1.75.
Ejemplosdehiptesisnoparamtricas:

276|P g i n a

Lasnotasdeunaasignaturasonnormales(lavariable =notasigueuna
distribucinnormal).
Losresultadosdeunsorteonosonaleatorios(lavariable =resultadono
sigueunadistribucinuniforme).
Larealizacindeuncontrasteimplicalaexistenciadedoshiptesis:

Hiptesisnula.
Sedenotapor

,yseasumecomocorrecta.

Hiptesisalternativa.
Sedenotapor
hiptesisnula.

,yeslaquepretendemoscontrastarcomoopuestaala

Elplanteamientodeunahiptesisestadstica(ysualternativa)esunaprimera
formadeafrontarlallamadateoraestadsticadeladecisin.As,pormediodeun
testocontrastedehiptesis,elinvestigadordebertomarunadecisinentredos
alternativas. La manera de hacerlo ser elegir una muestra lo suficientemente
representativadelapoblacinenestudio,yversilosresultadosqueseobtienenson
coherentesconlahiptesisformulada.Porejemplo,cuandoqueremoscomprobarsi
las notas de una asignatura siguen una distribucin normal, una posible forma de
tomarunadecisinserarepresentarlosresultadosdeunexamenpormediodeun
histograma de frecuencias y chequear el parecido con la campana de Gauss.
Lgicamente,altomarunamuestrasiemprehabrdesviacionesconformealabase
terica que planteemos en la hiptesis nula. Lo que habr que estudiar es si esas
desviacionessonfrutodelacasualidadono.
Enocasiones,lahiptesisnulasellamadeigualdad,porquesepresupone
que es la hiptesis que cumple la poblacin, y la alternativa ha de demostrar lo
contrario.Veamosacontinuacinunejemploreferidoalamediadeunapoblacin.

P g i n a |277

Esteseraunejemplodelprimererrorquenodebemoscometer:elegiruna
muestra mala, o no representativa de la poblacin. Hemos visto en el apartado
anterior varias maneras de seleccionar una muestra. A lo largo de este captulo,
supondremosquelasmuestrasseeligenmediantemuestreoaleatoriosimple,yque
lapoblacintieneuntamaomuygrande(quepodraentendersecomoinfinito).
Planteamientogeneral.
Hiptesisnula

Hiptesisalternativa

Laquecontrastamos.

Niegaalanula.

Losdatospuedenrefutarla.

Losdatospuedenserfavorables
aella.

Nodeberechazarsesinuna
buenarazn.

No debe aceptarse sin grandes


evidenciasasufavor.

278|P g i n a

Lahiptesisnulaeslaqueelinvestigadorasumecomocorrecta,ysetrabaja
con el principio bsico de que es cierta mientras los datos no prueben con gran
certidumbrelocontrario.Ahorabien,trasrealizaruntestocontraste,laaceptacin
de noimplicaquestahayasidoprobadaal100por100,sinoquelosdatosno
han proporcionado evidencia suficiente como para refutarla. En este sentido, la
consideraremosneutraperonuncatotalmenteprobada.
Eshabitualponercomoejemplosdehiptesisnulayalternativalassiguientes:
a)Unapersonallegaaunhospital.
:enfermo.

:noenfermo.

b)Unacusadoenunjuicio.
:inocente.

:culpable.

Obviamente, hemos indicado dos problemas que, generalmente, no se


resuelvenconayudadelasmatemticas.Sinembargo,losejemplosnosvanaservir
perfectamente para ilustrar los diferentes conceptos y tcnicas de trabajo que
tendremosquedesarrollarenunanlisisnumricoestadstico.
Centrmonos en el caso b) y recordemos lo dicho un par de parrfos ms
arriba.Lahiptesisnula(enestecaso :inocente)esciertamientrasnosepruebe
locontrario.Eselprincipiobsicodelajusticiaentodopascivilizado.Estclaroque
parademostrarlocontrariohayquepresentarunbuennmerodepruebasquela
tirenportierra.
Cmoseprocede?Comotodossabemos,unjuradopopularoprofesional
analizalaspruebaspresentadascontraelacusadoytomaunadecisin.Laspruebas
presentadas por el fiscal son las que muestran evidencia a favor de : culpable.
Seranelarmadelcrimen,lashuellas,lostestigos,lacarademalodelsospechoso,
los vecinos que siempre sospecharon de l porque les pareca raro, sus dudas, la
autoinculpacinenunprimerinterrogatorio(estonosuelecontarsihayhematomas
porelmedio)...

P g i n a |279
13.2 ERRORTIPOIYERRORTIPOII.POTENCIA

Cuando estamos realizando un contraste pueden darse las situaciones que


vemosenlasiguientetabla:

REALIDAD

RECHAZO

(131)

ErrortipoI

Decisin
correcta

Decisin
Correcta

ErrortipoII

Denotamospor:
P(rechazar
siendo cierta)=P(Error tipo I).
significacindelcontraste.
P(aceptar

se llama nivel de

siendofalsa)=P(ErrortipoII).

1
rechazar siendofalsa)sellamaPotenciadelcontraste(midela
probabilidaddeacertarcuandorechazamos ).
Enelejemplob)delaseccinanterior, eslaprobabilidadderechazarla
inocencia,cuandorealmenteelacusadoesinocente. eslaprobabilidaddeaceptar
lainocenciacuandoelacusadoesculpable.Segnvemos,elerrordetipoIesmucho
msgravequeeldetipoII.SisecometeunerrordetipoIsemeteenlacrcel(oen
elcorredordelamuertesieselcaso...)auninocente.Sisecometeunerrordetipo
IIsedejalibreaunculpable.
La potencia del contraste medir la probabilidad de rechazar la inocencia,
cuandoenefectoelacusadonoesinocente.

280|P g i n a

Enelejemploa)delaseccinanterior, eslaprobabilidadderechazarque
alguienestenfermo,cuandoenrealidadloest. eslaprobabilidaddedecirques
estenfermo,cuandoenrealidadnoloest.Tambinobservamosquecometerun
errordetipoIesmsgravequecometerunodetipoII(dejemosdeladoeltipode
pruebas que le haran a la persona que ingresa sin estar enfermo, tipo contrastes
radioactivos,puncioneslumbares,tactosrectales...).
Parececlaroque,encualquiercontraste,interesaminimizarlaprobabilidad
de cometer ambos errores. Desgraciadamente, al minimizar la probabilidad de
cometer un error, aumenta la probabilidad de cometer el otro. Esto es fcil de
comprobar:unamanerademinimizarlaprobabilidaddemeterinocentesenlacrcel
sera soltar a todo el mundo ante la mnima duda, pero eso aumentara la
probabilidaddedejarenlacalleautnticosculpables.Igualmente,ingresaratodoel
mundo en el hospital minimiza la probabilidad de mandar a casa a una persona
enferma, pero aumenta la probabilidad de ingresar personas sanas... Ambos
planteamientossoninviables.Porlotanto,laformadeprocederalahoradeplantear
cualquiercontrastedehiptesiseshacerqueelerrordetipoIseasiempreelms
importante.

P g i n a |281
13.3 EJEMPLOPRCTICO:UNAPELCULA

Conunejemploconcretoquepodramosencontrarenunvideoclub(siesque
quedaalguno),vamosatratardeentenderloquemstardeseharunpocoms
abstracto, por culpa de las matemticas. Atencin: spoilers!12 Si no has visto la
pelculayteapeteceverla,vetedirectamentealapartematemtica,alaSeccinde
lapgina287.

12

Definicindespoiler,copiadatalcualdelafrikipedia(sihayfaltasdeortografao
gramtica,noculparalautor):Selellamaspoileracuandounhijodeputa(Tuhermano,el
padre/madredetuhijo,elhijodetumam,elqueescribiesto,etc.)tecuentaunapartedealgo
queaunnohasvisto,tepicasylomatas,luegonotedanganasdeveresaputamierdaporqueyate
lacontaronytecagaronlamalditahistoria.Tambiensellamaspoilersalosespaguetiscaducados
peroesonotienenadaquever.

282|P g i n a

Argumento: dos pardillos de New York, Bill (Ralph Maccio, el que


protagoniz Karate Kid) y Stan (Mitchell Whitfield, conocido en su casa a
la hora de comer) van en coche por la Alabama profunda, y deciden pararse
en un ultramarinos a comprar suministros. A uno de ellos le da por llevarse
una lata de atn sin pagar. Cuando, al cabo de un rato, son detenidos por la
polica, se declaran culpables. Pero en realidad estn siendo acusados del
asesinato a tiros del dueo del ultramarinos.

Al ser encerrados en la crcel, llaman en su ayuda al abogado de la


familia de Bill, su primo Vinny Gambini (en su primer caso ante un tribunal).
Este acude con su prometida Mona Lisa Vito.

Granpartedelapelculasedesarrollaeneltribunal,comootramsdelas
tpicaspelculasdejuiciosquetodoshemosvistoalgunavez.Utilicemosloqueocurre
enlapelculaparaseguirlosdistintospasosdeuncontrastedehiptesis.

P g i n a |283

1.Establecimientodelashiptesisnulayalternativa.

284|P g i n a

2.

Establecer un procedimiento de contraste o test


apropiado.
Seexaminanlaspruebasdelcasoysevesiestasdiscrepanconlahiptesis
nula,esdecirsiexistendudassuficientespararechazarlahiptesisnula.
El fiscal presenta las pruebas para acusar a los dos amigos.

P g i n a |285

3.Podranlaspruebasserfrutodelacasualidad?
(odetestigosfalsos,comprados,enemigosdelosacusados...).
El abogado llama a declarar a su prometida, que casualmente es
experta en automviles, porque procede de una familia de mecnicos de
coches, y ella misma ha trabajado muchos aos en un taller.

286|P g i n a

4. Con todos los datos delante, se toma la decisin


definitiva.
El juez debe tener en cuenta las consecuencias de los errores que
puede cometer. Si los declara culpables, van a la silla electrca (en Alabama
desde los 10 aos ya pueden tener esa suerte).

P g i n a |287

13.4 CONTRASTESDEHIPTESISPARAMTRICAS

Como se ha comentado al principio del captulo, las hiptesis que pueden


plantearse son de tipo paramtrico o no paramtrico, es decir, referidas o no a
parmetros de poblaciones. Las hiptesis que hemos visto de inocente frente a
culpable seran no paramtricas. Veamos ahora unos ejemplos un poco ms
estadsticos.
Supongamos que queremos contrastar si una distribucin, por ejemplo, de
notasdeexmenes,sigueonounadistribucinnormal.
: =nota sigue una distribucin normal frente a
distribucinnormal.

: no sigue una

Unaposibleformaderealizaruncontrasteserapormediodeunhistograma.
Fijmonos en la Figura 131. Tenemos 3 muestras o 3 grupos de notas de 250
alumnos.Claramente,elprimerodeloshistogramasnosdiraquelavariable es
normal,mientrasqueelsegundohistogramanosdiraqueexisteunaasimetraala
derecha,yconeltercerhistogramaclaramenterechazariamoslahiptesisnula.
Este ejemplo sera un contraste de tipo no paramtrico, puesto que no se
realizaningunaafirmacinsobreparmetrosdelavariable.Intentamossabersi es
unavariablenormalono.Veamosahorauncasoparamtrico:

Ejemplo 13-1 Un contraste de tipo paramtrico en el mismo mbito podra


establecerse del modo:
: la nota media de la asignatura es 5

frente a

: la nota media de la asignatura es menor a 5.

288|P g i n a

Figura131

Dequestaramoshablando?Sisesuponequelaasignaturaseimpartede
unaforma,llamemoscorrecta,eigualmentesucedeconlosexmenes,unestudio
estadsticoalolargodevariosaosdeberaarrojarunanotamediaiguala5.Esta
notamediaseranuestroparmetrotericodelapoblacinovariableenestudio.
SupongamosqueseincorporaadarlaasignaturaelCidcateadory,apartir
de ese momento, los alumnos comienzan a quejarse de que la asignatura es muy
difcildeaprobar,quesuspendemuchagente,etc.Elrectordelauniversidadhabla
conelprofesoryledicequeestrecibiendomuchasquejas,peroelprofesorinsiste
enquenadahacambiadoenlaasignatura,yquetodoestigualquesiempre.Cmo
sepuederesolverlacuestin?Porejemplo,realizandounexamenconunnmero

P g i n a |289
elevadodealumnos,yviendosiexistemuchadiferenciaentrelanotamediaquese
obtiene en el mismo y el parmetro terico (
5). Ahora bien, est claro que,
aunquelamediasigavaliendo5,siemprepuedenexistirdesviacionesentreloterico
yloqueocurraenlamuestra.Sienlamuestradeexmenesobtenemosunamedia
de 4.8, aceptamos
? Seguramente no. Seguramente buscaramos un
valormsalejadode5paradecirquelanotamediahabajado.Eselmismocasodel
ejemplo de culpables frente a inocentes. Las pruebas deben ser precisas y
clarificadoras.Encasodeduda,nosepuederechazar (enderecho,esteprincipio
sellamaindubioproreoencasodeduda,sefallaafavordelreo.Silaspruebas
danlugaradudas,hayquefavoreceralacusado).

13.4.1 Comorealizaruncontrastedehiptesisparamtrico

Loscontrastesreferidosaunparmetropuedenserdedostipos:bilaterales
ounilaterales.Uncontrasteesbilateralcuandotienelaforma
:
(Por nosreferimosaunparmetrotericoypor aunvalor
constante,unnmero)frentea
:

Uncontrasteunilateralesdelaforma:
:

frentea
:

obien
:

frentea

Enestosdosltimoscasos,lahiptesisnulapodraser :
(primer
caso)obien :
(segundocaso).Elcontrasteserealizaexactamenteigual.
Comohemosindicadoanteriormente,paratomarunadecisinseeligeuna
muestraaleatoriasimpledelapoblacin . , . . . ,
yseestima pormediode

290|P g i n a

algunestimador .Paraversi esmuydiferenteonode ,hayquedisponerde


alguna medida de discrepancia (o estadstico del contraste) entre y . Esta
medidadediscrepanciahadeserunavariablealeatoriacondistribucinconocida,
parapodermedirsiladiscrepanciaesgrandeono(enlapelcula,eseljuezoeljurado
quien decide si la discrepancia es grande o no. Ahora sustituimos al juez por un
estadstico: ojo, nos referimos a una variable aleatoria, recurdese el captulo
anterior).
EnelEjemplo131:Sisuponemosquelamedia
5,calculamos yvemos
sisonmuydiferentescalculando
, ,siendo unamedidaquenosdela
distanciaentrelamediatericaylamuestral.
Si es pequea, no hay razones para sospechar que sea falsa, y se
acepta (si la media muestral de un nmero grande de exmenes da 4.8 no
sospecharamosquelamedianosea5).
Si esgrande,podemosdecidirentredosopciones:
a) escierta,peroelazarhaproducidounamuestrapocorepresentativa
(silamediamuestraldeunnmerograndedeexmenesda4,sospecharamosque
elCidcateadoresthaciendodelassuyas,peroquizesquehayamostenidomala
suerteyhayamosescogidojustounamuestradegentequehaestudiadopoco).
b) La hiptesis realmente no es cierta (si la media muestral da 4, y la
muestraestbienelegida,esqueelCidcateadornotieneremedio).
Paraayudarnosatomarunadecisin,deberemoscalcularelNivelcrticoo
valor: es la probabilidad de tener un valor del estadstico igual o mayor al
observado cuando es cierta (si la media muestral da 4, la diferencia
, entreloterico(5)yloobservado(4)es1.Debemoscalcularlaprobabilidad
deobteneresadistanciaounamayoran).

Ejemplo 13-2 Para poder disfrutar de unas buenas vacaciones de verano en


su finca de Chorizolandia, la vicerrectora de planificacin familiar ha decidido
montar una timba en el patio del rectorado y sacarse as unos euros extra. All
obliga a jugar a los dados y apostar a todos los profesores y alumnos que se

P g i n a |291
acercan al rectorado para realizar alguna gestin. Un alumno que ya ha
aprobado la estadstica sospecha que la vicerrectora est utilizando dados
trucados, porque cree que gana demasiadas veces, que es cuando sale el 6.
Para tratar de demostrarlo, se esconde detrs de un rbol en el patio del
rectorado y anota los resultados de 30 jugadas seguidas, contando que el 6
sale 10 veces. Gracias a sus conocimientos de estadstica, el alumno va a
intentar que la vicerrectora, en vez de ir a su finca, pase el verano en AlcalMeco con su amiga Mary Chalar. Crees que lo conseguir?
Solucin.
Sieldadoestcargadoenel6,laprobabilidaddesalirsermayordeloque
1/6.Igualqueenelcasoanteriormentevisto
lecorrespondera,esdecir 6
(yapesardequeunvicerrectoresunpolticoenpotencia),debemosconsiderarla
inocentesalvodemostrarlocontrario.Vamosaplantearentonceslashiptesisnula
yalternativacomo
:Lavicerrectoraesinocente,porlotantoeldadonoestcargado:
1/6.

:Lavicerrectorahacetrampas:

1/6.

Lamuestraobservadaporelestudianteesunamuestraaleatoria,apartirde
lacualvamosacalcularunaestimacindelparmetro . Comohemosvistoenel
captuloanterior,unestimadornaturaldelparmetro eslaproporcinmuestral .
Enestamuestra, 10/30 0.33,queesdistintaymsgrandeque
1/6
0.16.
La discrepancia existe. Ahora bien, es porque realmente el dado est
trucado,oelresultadoesfrutodelacasualidadenlamuestraelegida?Dichodeotra
manera:quprobabilidadexistedequeeldadonoestpreparado( escierta)y
quelamuestraarrojeunaproporcinmuestralde0.33? Quprobabilidadexistede
que el dado no este trucado ( es cierta) y que exista esa diferencia entre lo
observado(0.33)yloterico(0.16)?
Enestecaso,lamedidadediscrepancia(oestadsticodelcontraste13)es

13

Dedndesaleesteestadstico?Comoyadijimos,alnoestarestetextoenfocadoalos

292|P g i n a

donde eseltamaodelamuestra.

esunavariablealeatoria(concadamuestradiferentequesetome, tomaunvalor
diferente),ypuededemostrarse(medianteelteoremacentraldellmite:lohabis
adivinado)quesigue,aproximadamente,unadistribucinnormalestndar.

0,1 .
Enestecasoconcreto:

10 1
30 6
1
1
6 1 6
30

2.44.

Siseescogeotramuestra(sepuedeespiaralavicerrectoraotrorato,anotar
tiradasnuevas,calcular ycalcular ,obtendremosotrovalordiferente .Esto
podemos hacerlo un montn de veces y obtener as una aproximacin de la
distribucin(enelmuestreo)defrecuenciasdelavariable .Porloindicadoarriba,
puede demostrarse que esa distribucin de frecuencias se corresponder con una
normalestndar.Esdecir,elhistogramadefrecuenciastenderaserlacampanade
Gauss.
Recordemosque,enla 0,1 (igualqueencualquiervariablecontinua),la
probabilidadentredospuntossecalculacomoelreabajolacurva.
Culeslaprobabilidaddequeunvalorconcreto discrepedelterico en
unacantidadconcreta,porejemplo0.1?Bien,laprobabilidaddeunpuntoessiempre

aspectosmstericos,simplementeindicamosque,tantoenestecasocomoenelrestodecontrastes
que veremos, este estadstico es el mismo que se utiliza para construir el intervalo de confianza
correspondiente.

P g i n a |293
cero,porserunavariablecontinua.Loquedebemoshacerescalcularprobabilidades
deintervalos.Podemosentoncescontestarpreguntascomo:culeslaprobabilidad
deobtenerdiscrepanciasquevaren,porejemplo,entre0.5y1.5?
Lorecordamosenlaimagenquemostramosacontinuacin.

Laprobabilidad 0.5
1.5
0.2417.Ennuestrocasoconcreto,nos
interesasabercuntodiscrepaelvalormuestral 0.33delterico
0.16.Es
decir, nos interesa saber la probabilidad
.
2.44 . De nuevo
tenemos que decir que esta probabillidad es cero, pero lo que podemos hacer es
calcular la probabilidad de obtener esa discrepancia o discrepancias mayores, es
decir
2.44 =0.0073.Podemosverloenlasiguienteimagen:

294|P g i n a

Figura132

A esta probabilidad se le llama pvalor: probabilidad de obtener una


discrepanciaigualomayoralaobservada(cuando escierta).Elpvaloreneste
casoes0.0073,porlotanto,muypequeo.Eslaprobabilidaddequeelresultado
observadoporelalumnoseafrutodelacasualidad.Alserunaprobabilidadtanbaja,
serechazaralahiptesisnula.Diramosque,almenosconestamuestra,noescreble
lahiptesisnuladequelavicerrectoranohacetrampas.Elalumnoyatienealgopara
escribiralaprensaycomenzarunacampaadeacosoyderribocontraestaseora.

13.4.2 Regincrticadeuncontraste
Enelejemplovisto,elpvalor,oprobabilidad,eraunnmeromuyprximoa
cero.Aspues,parececlaroqueladiscrepanciaconlotericoesmuyalta,puestoque
el pvalor, recordemos, mide la probabilidad (suponiendo que la hiptesis nula es
cierta)deobtencindelvalorobservadoounomayor.
Supongamos que, en vez de observar 10 seises en 30 lanzamientos, se
hubieranobservado7seises.Culseraelpvalor?Puesahora

P g i n a |295
7 1
30 6
1
1
1 6
6
30

0.97.

El pvalor es la probabilidad
deobtenerunadiscrepanciamayoro
iguala0.97:
,

0.97

0.16

(figuradeladerecha).
Con este pvalor, podra
aceptarselahiptesisnuladequela
vicerrectoranohacetrampas?Dicho
deotramanera:lamuestraobtenidapodrasercoherenteconqueeldadonoest
trucado,esdecir 6
1/6,yladiscrepanciasedebaalefectodelazar?
Obviamente,cuantomspequeasealadiscrepancia,mayorserelpvalor,
yviceversa.Luegoelpvalor(recordemosqueesunaprobabilidad,ysemoverentre
0y1)sirvecomoformadeestablecerunaregladedecisinenelsentidodeaceptar
orechazarlahiptesisnula.
Paraexplicarestoconmayordetalle,debemoshablardequseentiendepor
regincrticadeuncontraste.
Recordemos que hemos definido como =P(error tipo I)=P(rechazar
siendocierta)elniveldesignificacindelcontraste.Hastahaceunosaos,enquelos
ordenadoresylosprogramasestadsticosnoerandeusocomn,ylasprobabilidades
delasdistribucioneshabaqueconsultarlasenlastablas,laformadeprocederpara
tomar una decisin en cuanto a aceptar o rechazar una hiptesis nula era
estableciendo la llamada regin crtica, que depende de dicho valor . Llamemos
genricamente a esa regin crtica. Una vez calculado el valor nmerico del
estadsticoparaelcontraste, ,seprocedadeunmodotansimplecomo:
Si

se rechaza

Si

se acepta

(132)

296|P g i n a

Laformadeconstruir dependede .PongmonosenelcasodelEjemplo


132.Simarcamosunlmite,digamos
0.05,esdecirun5%mximodeerrorque
estamosdispuestosaasumirpararechazarlahiptesisnulasiendocierta,entonces
laregincrticasera 1.64, .
En efecto, 1.64 es el valor de la normal 0,1 (distribucin que sigue el
estadsticodelcontraste)quedejaaladerechareaoprobabilidad0.05(Figura133).
Estaregincorrespondealcincoporcientodevaloresmsraros(positivos)deuna
variable 0,1 . mideladiscrepancia.Si esunvalorraro( rechazamosla
hiptesisnula.Si noesunvalorraro,aceptamoslahiptesisnula.

Figura133

EnloscasosquehemosvistoenelEjemplo132,primeroobtuvimosque
2.44,queesunpuntode
1.64, ,yrechazariamos .Enelsegundocaso
supusimosqueseobservaban7seisesen30lanzamientosyobtuvimos
0.97.En
estecasoestaramosfueradelaregincrticayaceptaramos .
Losvaloreshabitualesquesetomabanpara (probabilidaddeerrordetipo
I)(y,enconsecuencia,paradefinirlaregincrtica)eran
0.01, 0.05y0.1.Hoyen
da,enmuchoscasossesiguetrabajandoconunvalor predeterminado(antesde
realizarelexperimento),pero,generalmente,nosecalculalaregincrticacomotal

P g i n a |297
(puestoqueelordenadornosdaelpvalor).Aspues,sedecidecualeselvalorde
queelexperimentadorestdispuestoaaceptarcomomximoriesgodecometerun
errordetipoI,ylaregladedecisines,trascalcularelpvalor:
Si p

valor

aceptamos

Si p

valor

rechazamos

13.4.3 Potenciadelcontraste
Lapotenciadeuntestsedefinicomo1
rechazar siendofalsa).
Para el ejemplo de Mi primo Vinny la potencia nos medira la probabilidad de
declararculpablesalossospechososcuandorealmenteloson.EnunjuicioenEstados
Unidos,laprobabilidaddependeradelbuenhacerdeljuradopopular:sieljuradoes
mslisto,msprobabilidadderechazar
siesfalsa.
ParaelEjemplo132podemoscalcularlapotenciamatemticamente.Como
est indicado en (132), la manera de rechazar la hiptesis nula es: si se
rechaza , donde, para un nivel de significacin
0.05 hemos visto que
1.64, ,esdecirserechaza si
1.64,donde

1
6
.
1
1
6 1 6
30
Entonces,vemosqueserechaza

1
6

1
1
1 6
6
30

1.64

0.11

1
6

cuando

1.64,esdecir

1
1
1 6
6
1.64
30

0.166

0.11

0.276.

Entonces,paraunamuestradetamao
30serechaza
designificacin
0.05)siempreque seamayorque0.276.

(paraunnivel

298|P g i n a

Calculemosentonceslapotencia:
1.64/ es falsa
0.276/

cierta

0.276/

1/6 .

Se puede comprobar que, por el teorema central del lmite,


,

. Es decir, para cada valor (que sea mayor que 1/6), la potencia

cambia.Podemoscalcularlacomo

0.276
1

0.276

0.2,lapotenciaes
0.276

0.2

Pongamosporejemplo

0.276

0.2

0.2 1 0.2
30

1.04

0.149.

Calculemoslapotenciaparaotrosvalores,porejemplo:
Para

0.3,

0.3

0.61

Para

0.4,

0.4

0.91

Para

0.5,

0.5

0.992

Para

0.8yhasta1,

1.

Estos valores obtenidos resultan lgicos: pensemos que, si el dado est


trucado,demodoquelaprobabilidaddequesalgael6esmuygrande,laprobabilidad
derechazarlahiptesisnula( :
1/6 esmsgrande(puestoquelaproporcin
muestralestarcadavezmsalejadade1/6 .
Engeneral,lapotenciaseutilizaparadiferenciarentredosprocedimientoso
testdistintosparacontrastarlasmismashiptesis.Cmodijimosanteriormente,no
esposibleminimizarsimultaneamentelasprobabilidades y delosdosposibles
erroresquesepuedencometer(sidisminuyeuna,aumentalaotra),porloque,al
realizar un test, se fija un pequeo. Si tenemos dos test matemticos para
contrastarlasmismashiptesis,quetenganelmismo ,seprefiereaquelquetenga
mayorpotencia.

P g i n a |299
Enloscasosquesevenenestetexto,elprocedimientoquesedapararealizar
loscontrastessonlosque,precisamente,tienenmayorpotencia(osea,losmejores
procedimientos).
Referimosallectoratextosmsespecializadossisequiereampliarestetema,
como por ejemplo el de Cao y otros [3]. Si alguien tiene inters en ver ejemplos
concretos,puedenencontrarseen[12].

13.4.4 Resumen:Etapasbsicasdeuncontrastedehiptesis
:Hiptesisnula.
esladenodiferencia.
(Ejemplo1)Esinocente.
(Ej.2)Lanotamedianohavariado.
(Ej.3)Laalturamedia,enlosltimosaos,nohacambiado.
(Ej.4)Eldadonohasidomodificado.
(Ej.5)Elejercicionoinfluyeenelritmocardaco.

300|P g i n a

(Ej.6)ElnuevomedicamentoinventadoporeldoctorCitonoesmejorquela
Viagra.
:Hiptesisalternativa.
(Ej.1)Esculpable.
(Ej.2)Lanotamediahadescendido.
(Ej.3)Laalturamedia,enlosltimosaos,haaumentado.
(Ej.4)Eldadohasidomodificado.
(Ej.5)Elejercicioinfluyeenelritmocardaco.
(Ej.6)ElnuevomedicamentodeldoctorCitoesmejorquelaViagra.
Elpesodelapruebarecaeen

Etapas:
1.)Especificarlashiptesisnulayalternativa.
2.)Elegirunestadsticodecontrasteapropiado (paramedirladiscrepancia
entreloobservadoyloterico).
bajo

3.)Tomarunamuestra . , . . . ,
,esdecir
. ,..., ;
.

yevaluarelestadsticodelcontraste

4.)Concluirsiladiferencia esestadsticamentesignificativa(serechaza
ono),segnelpvalordelestadstico.Paraellopodemosfijarunniveldeconfianza
1
determinadoytomarunadecisinenbasealmismo.
Laregladedecisin,trascalcularelpvalor,es:

Si p

valor

aceptamos

Si p

valor

rechazamos

P g i n a |301
Recordemosque
ErrortipoI
rechazar siendocierta).Conla
reglaanterior,nosotrosfijamoselmayorvalorparalaprobabilidaddelerrortipoI
que estamos dispuestos a admitir; es decir, estamos dispuestos a rechazar la
hipotesisnulasiendociertaconunaprobabilidadmximadeequivocarnosiguala .
Sinosefijaningn ,lareglagenerales
Si p

valor

0.1

aceptamos

Si p

valor

0.1

rechazamos

Si p

(133)

valor est entre 0.1 y 0.2 mejor ampliar la muestra.

Importante:Lashiptesisnoseplanteandespusdeobservarlosdatos.
Rechazar una hiptesis no prueba que sea totalmente falsa. Podemos
cometerunerrordetipoI.
Norechazarunahiptesisnopruebaqueseatotalmentecierta.Podemos
cometerunerrordetipoII.

13.5 CONTRASTESUNIYBILATERALES.

En el Ejemplo 132 las hiptesis planteadas fueron :


1/6 frente a
:
1/6. El test planteado fue un ejemplo de contraste unilateral. Veamos un
ejemplodetestbilateral.

Ejemplo 13-3: En un club de cine exclusivo para gafapastas y adoradores del


mtodo Stanislavski se abre la posibilidad de admitir 100 socios ms. Lo cierto
es que el local social tiene fama de ser un sitio calentito, con buena bebida y
muy barata, con lo cual es posible que haya gente que quiera hacerse socio
slo por este ltimo detalle. Para evitar admitir como socios a niatos que
gozan con Jackie Chan y/o gentuza del estilo, a cualquier aspirante a socio se

302|P g i n a

le efecta una nica pregunta: Cree usted que Torrente 3 debera estar en
la lista de las 100 mejores pelculas de la historia?.
La directiva del club de cine estima que la proporcin de gente que dir
que s ronda el 15 por ciento, pues siempre hay quien cree que se trata de
una pregunta trampa y a lo mejor existe alguna pelcula china, iran o
americana de principios del siglo XX con ese nombre; o que, tal vez, realmente
tiene valores desconocidos ocultos que se descubren en el club de cine tras
aos de experiencia y estudio.
De los 100 nuevos aspirantes a entrar en el club, finalmente contestan
que s a la pregunta 20 personas. Son coherentes los resultados de la
muestra con la hiptesis de la directiva del club?
Solucin.
Planteamos

0.15 frentea

0.15.

ElestadsticodelcontrasteeselmismoqueeldelEjemplo132,sibienahora,
altenerenlahiptesisalternativaque
0.15,vaacambiarlaregincrtica.
Recordemosquelamedidadediscrepanciaoestadsticodelcontraste

,
,
1
mideladiferenciaentrela tericaylaproporcinmuestral( 20/100 0.2en
este caso). Ocurre ahora que, si bien en el Ejemplo 132, slo nos interesaban las
diferenciaspositivas(puestoquequeramossabersi
1/6 ,ahoratendremosque
tener en cuenta las diferencias tanto positivas como negativas (pues estamos
chequeandosi esiguala0.15odiferente).
Porconsiguiente,elpvalorser
| |

donde
0.20

0.15

0.15 1 0.15
100

1.4

P g i n a |303
y,como esunavariableaproximadamente

0,1 ,elpvalores

1.4 .

EstocorrespondealreasealadaenlaFigura134comoreaaladerechade1.4
msreaalaizquierdade1.4,quees0.08 0.08 0.16.

Figura134

Alserelpvalormsgrandeque0.1,enprincipioseaceptaralahiptesisnula.
Siutilizamoslaregla(133)deberamosaconsejaraladireccindelcineclubquehaga
unanuevapruebaconunamuestramayor.
Comoejemplo,escribimoscomoseralaregincrticaparaunnivel

0.1:

, 1.69 1.69, , cayendo el valor del estadstico, en este


ejercicio,fueradedicharegin.
Como hemos visto en el ejemplo, la diferencia entre el test unilateral del
Ejemplo132yesteltimoradicanicamenteenelclculodelpvalor(ylaregin
crtica).Enuntestunilateralelpvaloreselreaenunacola(aladerechadelpvalor
enelejemplousado)yeneltestbilateralelpvaloreslasumadelreaenambas
colas (izquierda y derecha). Queda patente que si queremos plantear un test
unilateraldeltipo
:

frentea

serealizaraexactamenteigual,yelpvalorserelreaalaizquierdadelvalor del
estadsticodelcontraste.

304|P g i n a

Porltimo,indiquemosquelostestunilateralesdondelahiptesisnulasea
:
obien
serealizanexactamenteigualqueelcorrespondientecon
, es decir el pvalor depende de la direccin o en la hiptesis
alternativa.
Todoesto,aunquepuedanoparecerlo,esmuyfcilderecordar,porqueslo
hay3casos(Figura135),yaque,pormotivostericos,recurdesequeelvalor
debeestarenlahiptesisnula,nuncapuedeestarenlaalternativa.

Figura135:resumendelclculodelpvalor(reasombreadaencadacaso).

P g i n a |305

Ejemplo 13-4: Padecen las mujeres ms enfermedades de huesos que los


hombres? Pregunta muy habitual en ciencias de la salud. Est claro que en
ciertas enfermedades, como la osteoporosis, hay mayor proporcin de casos
en el sexo femenino que en el masculino.
Luis de Bingos, mdico del centro de salud doctor Mengele, piensa que,
ltimamente, con los malos habitos de vida, colesterol, falta de ejercicio, etc.,
la frecuencia de la enfermedad en hombres es cada vez mayor. Segn el
historial del centro de salud, la proporcin de mujeres con osteoporosis suele
superar el 70 por ciento del total de pacientes. Este mdico, que quiere pasar
a la historia publicando un artculo cientfico cargndose esta proporcin,
reune las fichas de los 100 ltimos pacientes con osteoporosis y cuenta que
hay 68 mujeres a tratamiento. Lograr Luis su objetivo de hacerse famoso?
Solucin.
Si definimos como =proporcin de mujeres con osteoporosis, debemos
hacerelcontrasteunilateral:
:

0.7frentea

0.7.

Lahiptesisnulacorrespondealoqueesconocido(laproporcinesalmenos
el70porciento).EstoserciertomientraselDr.deBingosnodemuestrelocontrario.
Elestadsticodelcontrasteeselquehemosvenidoutilizando:

,
1
quesigue,aproximadamente,unadistribucin

0,1 si

escierta.

Para la muestra particular


68/100 0.68, con lo que
0.44.
Ahoranosfijamosenqueestecontraste
es del tercer tipo (recurdese que en la
hiptesisnulaesequivalentequeestel
signo=queel ;loqueinteresaesel

306|P g i n a

signodelahiptesisalternativa,quees<).
Alserlahiptesisalternativacon<,elpvaloreselreaalaizquierda,en
unadistribucin 0,1 ,de0.44(figuraadjunta),quees0.33.Obviamente,estep
valor implica aceptar la hiptesis nula, con lo que el Dr. de Bingos va a tener que
olvidarse,porahora,desaltaralafama.

13.5.1 Resumen:clculogeneraldelpvalor

El
valorsecalculaenfuncindeladistribucinquesigueelestadsticodel
contraste,ydequeelcontrasteseabilateralounilateral.Supongamoselcontraste
quehemosestadoviendoenlosltimosejemplos,referenteaunaproporcin.Enla
hiptesisnulatenemos :
.Si esdelaforma :
,entonceselnivel
crticoopvalores2veceselreaaladerechadelvalorabsolutodelestadsticodel
contraste .Si esdelaforma :
,elnivelcrticoeselreaaladerechadel

P g i n a |307
estadsticodelcontraste.Porltimo,si esdelaforma :
,elnivelcrtico
eselreaalaizquierdadelestadsticodelcontraste.Lastresposibilidadessonlas
queaparecenenlaFigura135.
Enelrestodecontrastes(sealoquesealoquecontrastemos:lamedia,la
varianza, la diferencia de medias, el razonamiento para el clculo del pvalor es
equivalente; nicamente cambia el estadstico del contraste, y la distribucin en
donde debemos buscar el rea correspondiente. La Figura 135 es siempre vlida
(recomendacin habitual: recortar y tener a mano). En el caso de variables con
funcindedensidadnosimtricas,comolaChicuadradoolaFdeSnedecor,puede
aparecerunproblemaenelcasodecontrastesbilaterales,puestoqueelvalordel
estadstico notieneunvalorsimtrico .Lonicoquedebemoshacerescalcular
elreaaladerechaeizquierdade ,yelpvalorserlacantidadmnimamultiplicada
por2.
Porejemplo,enlagrficasiguientevemoseldibujodeladensidaddelaChi
cuadrado con 6 grados de libertad. Hemos marcado un valor para donde,
claramente,elreaasuderechaesmspequeaqueelreaasuizquierda.Siel
contrastequeestamosrealizandoestalque,enlahiptesisalternativa apareceel
signo >, entonces el pvalor sera dicho rea a la derecha. Si el contraste fuese
bilateral(estoes,enla hiptesisalternativa aparece ,elpvalorseraelrea
sombreadaperomultiplicadapor2).

308|P g i n a

13.5.2 Contrastesparamtricosmsusuales
Acontinuacin,indicamoslosestadsticosqueseutilizanparalosprincipales
contrastesdetipoparamtrico,yladistribucinquesiguencuandolahiptesisnula
es cierta. Los casos considerados son los mismos que en el captulo anterior de
intervalosdeconfianza.

13.5.3 Paralamediadeunavariablenormal
:

13.5.3.1 Siseconoceladesviacintpica
Elestadstico(ysudistribucin)es
/

0,1 .

Comoyasecomentenelcaptulodeintervalosdeconfianza,noeshabitual
conocerladesviacintpicarealdeunapoblacin,porloque,pararealizarcontrastes
relativos a la media de una poblacin normal, se utiliza casi exclusivamente el
siguienteestadsticobasadoenladistribucin deStudent.

13.5.3.2 Sinoseconoceladesviacintpica
/

Nota 13-1 Como indicamos en el captulo anterior, si realizamos el contraste


para la media de una variable que NO sea normal, podemos utilizar estos mismos
estadsticos y el mismo procedimiento. La nica diferencia es que la distribucin que
sigue el estadstico es una aproximacin, y el contraste pierde algo de fiabilidad, que
en la prctica ni se tiene en cuenta.

P g i n a |309
Ejemplo 13-5 En 1923 se tuvo constancia de una mujer neozelandesa que
tuvo 28 hijos, cuyos pesos al nacer fueron los siguientes:
4.3 5.2 6.2 6.3 5.3 4.9 4.7 5.5 5.3 4.0 4.9 5.2 4.9 5.3 5.4 5.5 3.9 5.8 5.6 5.0
5.2 5.8 6.1 4.9 4.5 4.8 5.4 4.7
Iker Jimnez y sus colaboradores creen que esta mujer pudo tratarse de una
extraterrestre del planeta Coneja, cuyo peso medio en los neonatos es
superior a 5 Kg (segn consta en antiguos escritos incas). Qu debera
hacer Iker Jimnez para contrastar la posibilidad de que la mujer fuera
extraterrestre?
Solucin.
Sedebeplantearuntestparalamediadelavariablepeso al nacer,delmodo

5frentea

5.

Conlamuestraquetenemos,de

...

5.16

28datos,debemoscalcular

Elvalordelestadsticoenelcontrastees
5.16 5
/

0.597/28

0.597.

1.41.

El pvalor es el rea a la
derechade1.41(imagen),enuna
deStudentcon
1 27grados
delibertad,quees0.083.
Utilizando la regla general
paraaceptarorechazar ,vemos
queelpvaloresmspequeoque
0.1, por lo tanto rechazamos la
hiptesis nula. Sin embargo, para
algunosniveles clsicos,como0.01o0.05,elpvaloresmsgrande,porloquese
aceptara .Talvezsedeberaencontrarunamuestramsgrandeantesdetomar
ningunadecisin.IkerJimnezdeberponeratrabajarasusarquelogosporqueel

310|P g i n a

misteriosigueabierto(yentodocaso,sisedeciderechazar ,recordemosquelas
pruebas rechazaran que el peso medio al nacer en los hijos de esta seora sea
menor o igual a 5 kilos. Despus, si con esto alguien acepta que la seora era
extraterrestre,lsabr).
Nota 13-2 En R, realizar este test es tan simple como:
1.- Introducir los datos como x=c(4.3, 5.2, 6.2, 6.3, 5.3, 4.9, 4.7, 5.5, 5.3, 4.0,
4.9, 5.2, 4.9, 5.3, 5.4, 5.5, 3.9, 5.8, 5.6, 5.0, 5.2, 5.8, 6.1, 4.9, 4.5, 4.8, 5.4,
4.7)
2.- Realizar el test t con la orden: t.test(x, mu=5, alternative="greater")
El programa nos devuelve:
data: x
t = 1.4545, df = 27, p-value = 0.07866
alternative hypothesis: true mean is greater than 5
95 percent confidence interval:
4.971905 Inf
sample estimates:
mean of x
5.164286
en donde vemos que el valor del estadstico es t=1.45 y el p-valor es 0.07 (lo que
obtuvimos nosotros, con los lgicos errores de redondeo).
Como observamos, el test para la media se escribe indicando el vector x, el valor
teorico mu y el signo de la hiptesis alternativa.
Si el test es bilateral ponemos alternative ="two.sided", si el test es unilateral
ponermos "greater" (>) o "less" (<).

13.5.4 Paralavarianza
:

P g i n a |311
13.5.4.1 Siseconocelamedia
w

13.5.4.2 Sinoseconocelamedia

Volvemosasealarque,enlaprctica,parecebastanteirrealelconocerla
mediatericadelapoblacin,conlocualelestadsticoautilizarhabitualmentees
esteltimo.

13.5.5 Paraladiferenciademedias
Suponemos
aleatorias simples
contrastar
:

,
,...,

e
e
,

,
,...,

, y que tenemos dos muestras


de las variables. Queremos

0.

Losestadsticosparaestecontrastesonlossiguientes.

13.5.5.1 Conociendolasdesviacionestpicas

0,1 .

13.5.5.2 Desconociendolasdesviacionestpicasperosuponindolasiguales
w

x
n

1 S

y
m

1 S

1
m

312|P g i n a

13.5.5.3 Desconociendolasdesviacionestpicasysupuestoquelostamaosdelas
muestrassongrandes ,

0,1

(elsmbolo indicaqueladistribucin,enlugardeserexacta,esunaaproximacin).

13.5.5.4 Desconociendolasdesviacionestpicasysupuestoquelostamaosdelas
muestrassonpequeos ,

siendoelenteromsprximoa
1
1

Denuevo,recordemosqueelordenadorseencargarpornosotrosdeevaluar
estasfrmulas,conlocualnuestratareaconsistirnicamenteenestablecereltest
de hiptesis adecuado. Es posible que debamos chequear primero si podemos
consideraronolasvarianzas(odesviacionestpicas)iguales,aunquesedesconozcan
(queparecelomsprobable).Paraellodeberemos,entodocaso,realizarenprimer
lugar un test para saber si las varianzas pueden considerarse iguales o no (en
ocasiones, el software correspondiente se ocupa automticamente de eso, como
haceporejemploelSPSS;alRdeberemosindicrselo).

13.5.6 Paralarazndevarianzas
Pararealizarelcontraste

,elestadsticoautilizares

P g i n a |313

Este test nos sirve para saber si podemos considerar las varianzas de 2
variables e igualesono,queesnecesarioparacontrastardespuslaigualdadde

lasmedias.Paraello,tendremosquecontrastar

1frentea

1.

Ejemplo 13-6 Dos laboratorios farmacuticos pugnan por llevarse el contrato


del nico laxante que pagar a partir de ahora la seguridad social. Se supone
que el tiempo que tarda el laxante en hacer efecto sigue una distribucin
normal. 31 voluntarios extreidos del ministerio de sanidad toman el laxante
del primer laboratorio, mientras que 25 lo toman del segundo, anotando el
tiempo que tarda en provocar una estampida al cuarto de bao. Se obtienen
unas cuasi-varianzas muestrales de 50 y 24 segundos, respectivamente.
Contrastar si la diferencia observada entre la varianza de las variables es
estadsticamente significativa.
Solucin.
Queremoscontrastar
:

frentea
queeslomismoque
:

1.

frentea

Elestadsticoautilizar,enestecasotomaunvalorde

50
1
24

2.083.

El estadstico que usamos sigue una distribucin (con 31 1 y 25 1


gradosdelibertad).Comolafuncindedensidaddeladistribucin noessimtrica,
calculamoselreaalaizquierdayderechadelvalor
2.083.Elreaalaizquierda

314|P g i n a

es0.973,luegoelreaaladerechaes0.034.Elpvalores,porlotanto,2 0.034
0.068(Figura136).
Entonces,enprincipioserechazaralahiptesisdeigualdad,porserelpvalor
ms pequeo que 0.1. Sin embargo, para algunos niveles clsicos, como 0.01 o
0.05,noserechazara.Enfuncindelaprecisinqueelministeriodesee(obiende
quealministro/adelramoleinteresetirarhaciaunlaboratoriouotro,quizdebera
repetirseelexperimentoconmuestrasmsgrandes).

Figura136

Ejemplo 13-7 Seguimos en el mismo ministerio, encantado de buscar los


mejores productos para el ciudadano espaol. Un laboratorio farmacutico ha
sacado al mercado las pastillas Inteligentium, que afirman favorecer la
memoria y facilitar el estudio de los adolescentes. Por otro lado, una
asociacin ecologista afirma que ese producto es una porquera y que no
consigue ms efecto que la combinacin de toda la vida, que es mezclar acido
acetilsaliclico con refresco de cola. Para realizar un estudio comparativo entre
ambos productos, se elige a 7 alumnos que nunca han aprobado ms que
educacin fsica, y se valora la mejora tras un curso tomando Inteligentium.

P g i n a |315
Paralelamente, se hace lo mismo con otro grupo de 7 fenmenos a los que se
les da la mezcla casera. En la siguiente tabla, tenemos las variables
=exmenes totales aprobados en un curso tras tomar Inteligentium e
=exmenes totales aprobados en un curso tras tomar la mezcla:
1
2
3
4
5
6
7
10 15 18 23 12 16 15
15 10 19 9
14 12 18
a) Admitiendo normalidad en las variables, puede aceptarse la igualdad de
varianzas de las variables, para un nivel de significacin de 0.1? b) Un mdico
de cabecera cobra una alta comisin por recetar Inteligentium. Proporcionan
estos datos suficiente evidencia estadstica, con un nivel de significacin de
0.1, para concluir que este producto consigue que se aprueben ms
exmenes?
Solucin.
es

a)Paracontrastar

frentea

,elestadsticoautilizar

Enestecaso
4.19
3. 8
0.41

1. 21.

Elpvalorparaelcontrastees2veceselreaaladerechade1.21,quees2
0.82,conloqueaceptamosclaramentelaigualdaddevarianzas.

b)Elmdicoquieresabersielnmerodeexmenesaprobadosesmayorcon
el producto farmacutico (variable que con la mezcla (variable . Para ello
tenemosqueplantearelcontraste :
frentea :
.
Elestadsticodelcontrastees(estamosenelcasodequedesconocemoslas
desviacionestpicasperosesuponeniguales,yaqueenelapartadoanteriorhemos
aceptadolaigualdad):

316|P g i n a

Lasmediasmuestralesson
15.57e
13.85y,bajo ,
0.
Entonces
0.804.Elpvaloreselreaaladerechade enunadistribucin con
2 12gradosdelibertad.Elpvalorqueseobtienees0.21,conloque,con
estamuestra,nopodemosrechazar (igualdaddeefectosdeambasmarcas).

Nota 13-3 En R, como siempre, muy sencillo. Lo nico que debemos es tener
instalada la librera fBasics y llamarla, para realizar el test para la igualdad de
varianzas.
require(fBasics)
x=c(10,15,18,23,12,16,15)
y=c(15,10,19,9,14,12,18)
El apartado a lo hacemos con la instruccin:
varianceTest(x, y)
El apartado b con:
t.test(x, y , alternative = "greater", mu = 0, paired = FALSE, var.equal =
TRUE)
Ambas instrucciones aportan bastante informacin, que quedara demasiado
grande para escribir aqu. Sugerimos hacer el ejemplo y confirmar los resultados.

13.5.7 Paraunaproporcin
:

13.5.8 Paraladiferenciadeproporciones
:

0.

0,1 .

P g i n a |317

0,1 .

Ejemplo 13-8 En el ltimo concierto de Justin Bieber, las 64 primeras chavalas


que consiguieron entrar (tras dormir a la intemperie ms de una semana)
pudieron fotografiarse con su dolo. De ellas, a 12 les dio un desmayo al
hacerlo. Pocos meses atrs, Robert Pattinson acudi en Madrid al pre-estreno
de su ltima pelcula Crepsculo 27: el despertar del eclipse del amanecer
nocturno, dejndose fotografiar tambin con 51 fans, de las cuales 6 se
cayeron redondas. Dado que parece que existe una guerra abierta entre fans
de uno y otro actor, no hay posibilidad de que ninguna de las chavalas
estuviera en ambos sitios a la vez. Realizar el contraste de hiptesis adecuado
para saber si el porcentaje de adolescentes embobadas con Justin Bieber es
significativamente diferente al porcentaje de adolescentes embobadas con
Patinson.
Solucin.
Vamosacontrastar
:

0,frentea

0,

donde eslaproporcindeadolescentesquesueanconcasarseconJustinBieber
y lamismaproporcinreferidaaRobertPattinson.
0.187,

Lasproporcionesmuestralesson

0.117.

Elestadsticodelcontrastetomaelvalor(tenemosencuentaque,si
cierta,
0 :

0.187
0.187 1 0.187
64

0.117

0.117 1 0.117
51

1.0551.

es

318|P g i n a

Elpvaloresdosveceselreaaladerechadeestevalor,quees2 0.147
0.294,conloqueaceptamosclaramentelahiptesisnula.Parecelgicopensarque
laboberadependedelaedad,nodeldoloencuestin.

Nota 13-4 Con R, un test para comparacin de proporciones se efectua con el


comando prop.test (que vimos en el captulo anterior de intervalos). Sin embargo,
este comando permite comparar ms de 2 proporciones muestrales, con lo cual
efecta un test diferente al que acabamos de ver. Si lo realizamos con tamaos de
muestra grandes, la aceptacin o rechazo de la hiptesis nula no variar, pero el pvalor puede ser ligeramente distinto.

13.5.9 Casodedosmuestrasrelacionadas(apareadas)
Por ltimo, si suponemos 2 variables o poblaciones e ,
,
,

,
, pero dependientes (observaciones antes y despus en los mismos
individuos, etc.), estaremos en el caso de muestras o variables apareadas, que ya
tratamosenelcaptuloanterior.Igualquevimosall,delavariable seescogeruna
, ,,
y de otra muestra
, ,,
(los tamaos de las
muestra
muestrashandeseriguales),ytrabajaremosconlavariable
o
,con
loqueestaremosenlasituacindeanlisisdeunanicamuestra.

Ejemplo 13-9 Se quiere estudiar el tiempo de reaccin ante un estmulo


subliminal (que no es captado a simple vista, pero deja su huella en la mente)
en un programa de televisin. Para ello se ha elegido una muestra aleatoria
de 9 ex-concursantes de Gran marrano, los cuales han sido estimulados, en
primer lugar, haciendo pasar imgenes subliminales de una mujer. Al da
siguiente se emite el mismo programa y se emiten imgenes subliminales de
un animal de granja.
Los tiempos de reaccin, en centsimas de segundo (lo que tardan en
darle al botn de grabar en el mando a distancia), aparecen en la siguiente
tabla:

P g i n a |319
\

1
2
14 12
17 11
Puede suponerse que los tiempos
estmulo?

3
4
5
6
7
9
13 15 17 13
12 10 11 16 16
de reduccin difieren

8
9
12 13
15 13
segn cada

Solucin.
Debido a que las pruebas han sido realizadas con las mismas personas,
debemos considerar las diferencias entre los tiempos de reaccin, pues estamos
tratando muestras apareadas. Si llamamos al tiempo tardado en responder al
estmulo A y al tiempo tardado en responder al estmulo B, consideramos la
variable
.
Elcontrasteaplantearessi

0frentea

0.

Construimoslamuestradediferencias

3, 1,3, 3, 4, 1,3,3,0 .
Delamuestraobtenemos

9,

Elestadsticodelcontrastees

0.33,

2.78.

Elvalordelestadsticoparaestamuestraes
0.33 0
0.35.
2.78/9

Elpvalores2veceselreaaladerechade0.35enuna con8gradosde
libertad,esdecir2 0.368 0.736,conloqueaceptamosclaramente ,esdecirno
hay diferencias entre los estmulos (en los individuos exconcursantes de gran
marrano).

Ejemplo 13-10 Un grupo de tertulianos de la televisin recibe regalos de dos


empresas A y B, en formas de sobres de herona. La valoracin del efecto
de la misma se mide en funcin del nmero de horas de cuelgue. Los datos
de la tabla siguiente recogen las medidas del efecto en los tertulianos,
indicndose si la herona ha sido inyectada en vena (I) o esnifada (E) (los

320|P g i n a

datos de la experimentacin de cada tipo de droga se supone que son


tomados con el tiempo suficiente para dejar pasar los efectos de una, y
poder captar en toda su esencia los de la otra).

1
13.2
14

2
8.2
8.8

3
10.9
11.2

4
14.3
14.2

5
10.7
11.8

6
6.6
6.4

7
9.5
9.8

8
10.8
11.3

9
8.8
9.3

10
13.3
13.6

Calcular qu tipo de herona tiene ms efecto, y si existe diferencia entre


esnifar droga o inyectrsela.
Solucin.
ParaverculdelosdostiposAoBcausamayorefecto,tenemosquerealizar
untestdecomparacindemediasentremuestrasindependientes.Nosetratade
muestrasapareadas,puestoque,comovemos,cadaindividuorecibeladrogaAde
unaforma(inyectada)ylaBdeotra(esnifada),conloqueescomosituviramos
individuosdiferentesencadacaso.SitodoslosindividuosseinyectasenladrogaAy
laB(otodoslaesnifasen),lasmuestrasseranpareadas,porqueloquedeberamos
esmedirlasdiferenciasentreefectosdeunadrogayotra.
,
:

Suponemos =duracin del efecto de la herona A


del efecto de la herona B
,
.Queremoscontrastar
0.

e =duracin
o

Para realizar este test, antes debemos comprobar si las varianzas pueden
considerarse iguales o no, pues ello influir en el estadstico a utilizar. Es decir,
debemos resolver primero :
frente a :
. Como hemos visto
anteriormente,elestadsticoautilizares

Elvalordelestadsticoenestecasoparticulares
2.45
0.95.
2.51
El estadstico que usamos sigue una distribucin (con 9 y 9 grados de
libertad). Como la funcin de densidad de la distribucin no es simtrica,
calculamoselreaalaizquierdayderechadelvalor
0.95.Elreaalaizquierda

P g i n a |321
es0.47,porlotantoelreaaladerechaes0.53.Elpvalores,porlotanto,2 0.47
0.94,conloqueclaramenteaceptamoslaigualdaddevarianzas.
:

A continuacin, realizamos el test para las medias:


,dondeelegimoselestadstico
1

frente a

(estadsticocuandosedesconocenlasdesviacionestpicasperosesuponeniguales).
Enestecaso
10.63

11.04

9 2.51
9 2.45
10 10 2

1
10

0.37,

1
10

ycalculamoselpvalor,queresultaser 2 0.358 0.716,conloqueseaceptala


igualdad de medias, es decir los efectos de ambas heronas pueden considerarse
iguales.
Porltimo,paraversiexistendiferenciasentreesnifaroinyectarseladroga,
hayquetenerencuentaqueelefectopuededependerdelindividuo(yquecomo
vemosenlatabladelenunciado,primerotomandrogaA,quealgunosseinyectany
otrosesnifan,ydespusdeuntiempotomandrogaB,quedenuevounosseinyectan
yotrosesnifan).Debemosconstruirunanuevatabla,dondetendremosqueconstruir
unanuevacolumnaconlasdiferencias,parahaceruntestparadatosapareados.
Tertuliano12345678910
Inyectada13.28.211.214.311.86.69.510.89.313.3
Esnifada14.08.810.914.210.76.49.811.38.813.6
Elcontrasteaplantearessi

0frentea

0.

Conlamuestradediferencias

0.8, 0.6,0.3,0.1,1.1,0.2, 0.3, 0.5,0.5, 0.3 .


De la muestra obtenemos
valordelestadstico

10,

0.03,

0.57, con lo que el

322|P g i n a

0.03 0
0.57
10

0.16

yelpvalorcorrespondiente(2veceselreaalaizquierdade0.16)es0.87,conlo
queseaceptalahiptesisnula,quedaigualesnifarquepincharse.

Ys,llegadoaqu,piensasquenotehasenteradodemucho,recuerdaque
siempreestsatiempodemeterteenlapoltica.

Entodocaso,sitehaparecidointeresanteellibro,recortaeldibujoquesigue,
hazfotocopiasyreprtelasentretodoslosposiblesinteresados.

P g i n a |323

324|P g i n a

P g i n a |325

14

REFERENCIAS

[1]ArdanuyAlbajar,R.Estadsticaparaingenieros.Hesprides,Salamanca.
[2]Brownlee,K.StatisticaltheoryandMethodology.EditorialWiley.

[3] Cao Abad, R., Francisco Fernndez, M., Naya Fernndez, S., Presedo
Quindimil,M.P.,VzquezBrage,M.,VilarFernndez,J.A.yVilarFernndez,J.M.
Introduccinalaestadsticaysusaplicaciones.EdicionesPirmide.
[4]Draper,N.R.ySmith,H.Appliedregressionanalysis.JohnWileyandSons.
[5]Gonick,L.ySmith,W.Laestadsticaencmic.EditorialZendreraZariquiey,
Barcelona.
[6]GuisandeGonzlez,C.yVaamondeListe,A.Grficosestadsticosymapas
conR.EditorialDazdeSantos.
[7] Guisande Gonzlez, C., Vaamonde Liste, A. y Barreiro Felpeto, A.
TratamientodedatosconR,StatisticaySPSS.EditorialDazdeSantos.
[8]Milton,S.Estadsticaparabiologaycienciasdelasalud.McGrawHill.
[9]Montgomery,D.C.yRunger,G.C.Probabilidadyestadsticaaplicadasa
laingeniera.McGrawHill.
[10]PeaSnchezdeRivera,D.Fundamentosdeestadstica.AlianzaEditorial.
[11]PoblacinSez,A.Lasmatemticasenelcine.ProyectoSurdeEdiciones.
[12] Quintela del Ro, A. Problemas estimulantes de probabilidad y
estadstica. Editorial Lulu. Tambin en venta directa (en formato pdf) en
http://alejandroquintela.com/libro.
[13] Spaeth, H. Mathematical Algorithms for Linear Regression. Academic
Press.

326|P g i n a

[14]Spiegel,M.R.Teoray760problemasresueltos.McGrawHill.
[15]UaJurez,I.,TomeoPerucha,V.ySanMartnMoreno,J.Leccionesde
clculodeprobabilidades.EditorialThomson.
[16]Wackerly,D.,Mendenhall,R.yScheaffer,L.Estadsticamatemticacon
aplicaciones.EditorialThomson.

Eninternetpodemosencontrarmultituddeapuntesyejerciciosdedistintas
asignaturas de estadstica, tanto de educacin secundaria y bachillerato, como de
carreras universitarias y cursos monogrficos. Recomendamos hacer una buena
busquedaparaconseguirmaterialadecuadoanuestrosintereses.
Porejemplo,recomendamosporsucalidadellibrodeF.RusDaz,F.J.Barn
Lopez,E.SnchezFontyL.ParrasGuijosa:Bioestadstica.Mtodosyaplicaciones,
quepuededescargarseenladireccin:
http://www.bioestadistica.uma.es/baron/bioestadistica.pdf

P g i n a |327

15

APNDICEA.INSTALACINDER.

El100por100delasmujeresrespondennadacuandolessucedealgo.
Dichoenunbar.

Enrelacinalainstalacinyuso,tantode
este programa, como de cualquier otro, existe la
opcin de buscar videos en youtube. A m esta
opcin me ha resultado bastante til para
encontrar rpidamente la forma de realizar
muchas tareas, y en ocasiones las explicaciones
resultanmsgilesymejoresquelasdemanuales
en texto. Hasta el momento, en cambio, no he
encontrado videos de inters para aprender
teora. La mayora de ellos se limitan a exponer
conceptosyhacerejerciciosigualqueencualquier
clase habitual. Hay muchos videos de este tipo
tambin,igualqueaunqueparezcaincreblecada
vezexistenmsdondelagente(joven,engeneral)sededicaadeformarcanciones,
cambiando la letra e introduciendo la estadstica y la probabilidad por el medio
(podisveralgunosenmiblog).Bueno,consutiempolibrecadaunohaceloquele
parece, y esto siempre es mejor que emplearlo en maquinar maldades, como
nuestrosgobernantes.

15.1 DESCARGADELPROGRAMA.

LapginaoficialdeReshttp://www.rproject.org/.RfuncionaenWindows,
LinuxyMacOS.AquveremoslainstalacinenWindows.LosdeLinuxsesuponeque

328|P g i n a

sabenlosuficienteparanotenerqueusarunmanualcomoeste,ylosdeMacOSse
suponequetienensuficientedineropara,encasodeproblemas,pagarleaalguien
queseloinstale.
El mirror o servidor ms cercano para descargar el programa est en
Espaa,en:
http://cran.es.r-project.org/

Unavezpinchadaesaopcin,nosaparecenotras.Debemoselegirlaopcin
bsica(base):

P g i n a |329

Y,unavezmarcadaesta,nosaparecelaversinmsactual,enestecasonos
aparecelaversin3.0.1

Pinchando ah nos preguntar si deseamos descargar esa versin. Decimos


ques,ylaguardarendondecadaunoguardelasdescargasdeinternet(losvideos
porno,paraentendernos,quesiemprehayalguienquenoencuentraloquedescarga.
Pueseso,elprogramaestarenelmismositioadondevanapararlasfotosguarras
ydems...).Aqudejounacapturadepantallademiordenador,conelprogramade
instalacinquesehadescargadodeinternet.

330|P g i n a

Haciendo doble click en el programa, lo normal es dejar que se intale


confirmandolasopcionesqueaparezcanpordefecto.Generalmente,enprimerlugar
nospedirpermisodeinstalacin.Decmosques,yledamosunaodosveceshasta
esta otra ventana donde nos pregunta en que directorio o carpeta queremos
instalarlo:

Lonormalesdarlealaopcinsiguiente.Enlasdemsopcionesquevienena
continuacin,tambinserecomiendadejarlasqueestnpordefecto.Elprograma
seirinstalando(notardamucho,peroestodependerdelordenador.Sitenisuno
lento,podisaprovecharpararevisarelfacebook,elperidico,forocoches...)

P g i n a |331

y,unavezquetermine,nosavisa,ytendremosenelescritoriodosnuevosiconos
(fotodemiescritorio,nosoyyo).

332|P g i n a

Comopodiscomprobar,tenemosdosversionesdeR:lade32ylade64bits,
porque por defecto instala las dos (en la instalacin hay una opcin que podis
desmarcarsivuestroordenadornotieneprocesadorde64bits).Sepuedenusarlas
dosparalascosasbsicas,lasdeestelibro?S.Ladiferenciaentreunayotraversin
esquealgunospaquetes,delosqueseinstalanamayorespararealizarcosasms
rarasquelasdeestetexto,puedennofuncionarenunauotraversin.
ParaejecutarelRen64bits(sitenisprocesadoras),dobleclickyyaarranca
elprograma:

Enlaventanaqueaparece,llamadaRconsole,abajohayunsmbolo>de
color rojo. Ah ya se pueden escribir comandos y ejecutarlos (dandole a Enter).
Ejemplotonto:
> 2+2 (Enter)
> [1] 4

P g i n a |333
Se recomienda, en vez de escribir en la consola, abrir una ventana para
escribircomandos,queluegosepodrguardarparanotenerquerepetirtodaslas
instrucciones en
otra sesin. Vais,
dentro del men
de arriba, a la
opcin
Archivo>Nuevo
Script
ysenosabriruna
ventana nueva,
que
podemos
colocar
donde
queramos,
por
ejemplo a la
derecha de la que
tenemos.Eslaventanadeedicin.Comoveis,sellamaSinnombre.Lomejoresya
asignarleunnombreyguardarla,dandoleenelmenaArchivoyGuardarcomo...

334|P g i n a

Seabriruncuadrodedilogo(ventana)deWindowsparaqueguardemosel
archivoconelnombrequequeramos(laextensinpordefectoesR;estoes,sile
llamamosprueba,enelordenadorlograbacomoprueba.R),yeneldirectorioque
queramos.

Ledamosaguardaryyatenemosquelaventanadeedicintieneelnombre
prueba.R(conlarutadeldirectoriodondelohayamosguardado).

Estaventanadeedicinesuneditordetextobsico,podemosescribir,borrar,
buscar,copiarypegar,etc.Unavezquequeramosejecutaralgodeberemossealar
las lneas correspondientes con el ratn (botn izquierdo del ratn pulsado e ir
marcandolaslneas,exactamenteigualqueencualquierotroeditoroprograma)y
luegodarleaControlR(teclaControlyletraR:eslamaneradeejecutarordenes).

P g i n a |335

Elresultadodeloquelemandemoshacerseverenlaventanadelaizquierda
(consola):primerolasrdenesydespuslosresultados.

336|P g i n a

Parapracticarunpocoms,pongamosunejemploconunagrfica.Vamosa
introducirunoscuantosdatos,ylepediremosquenoscalculelamediaaritmticay
dibuje un histograma (si no os suena de nada, aparte de estar comprobando que
procedisdelaESO,podismirardequhablamosenelprimercaptulo).
Primero guardamos los datos que queramos en un vector o variable x, y
despuslepedimosquecalculesumedia,delmodo:
x=c(2,3,4,5,13,14,28); mean(x)
Fijmonosque,envezdeponercadaordenoinstruccinenunafila,podemos
ponervariasinstruccionesseparadasporpuntoycoma.

Acontinuacinlepedimosquedibujeunhistograma,conlaorden:
hist(x)

P g i n a |337

El programa abre una nueva ventana con el grfico correspondiente. Esta


ventanapuedecopiarsesituandoelratnsobreellaydndolealbotnderecho,para
guardarloenelportapapelesoenunacarpeta,yllevarloaunprocesadordetextos,
unprogramaparagrficos,etc.Comprobadque,enlalneaanteriordelaquehemos
escritohist(x)apareceuncomentario:
# dibujo del histograma
hist(x)
Loscomentariosseindicanconelsmbolo#asuizquierda.Elprogramano
tieneencuentatodoloquevayaacontinuacindeestesmbolo(hayqueponerun
smbolo # por lnea que queramos comentar). De esta forma, podemos ir
describiendo las tareas que realizamos, y nos resultar ms fcil entender lo que
hemoshechocuandoabramosesteficherodeinstruccionesenunasesinposterior.
Elgrficoquehaaparecidotieneunasopcionespordefecto,comoelttulo
principal,elttulodelejevertical,colorenblanco,etc.,quesonmodificables.Para
conocer las opciones de un comando se escribe en la ventana de la izquierda (la
consola):

338|P g i n a

help(hist)(ohelp(cualquier comando))
y se abrir una ventana externa al programa (generalmente una ventana de
navegacinporinternet,comofirefoxoelnavegadorqueusemospordefecto)con
laayudaparaelcomando.
Sinonosacordamosdecmoseescribeuncomando,podemosescribirenla
ventanadelaizquierdaalgunoscaracteres
??his
ynosindicarcualessonloscomandosquemsseparecenaloquehemosescrito.
Alolargodeloscaptulosdellibroseindicalasintaxisylosresultadospara
losdiferentesprocedimientosdelosejemplosyejercicios.Comoestelibroespara
aprenderestadstica,noesnecesariovernadamsreferentealprogramaR.Enla
seccinsiguienteseindicadndeconseguirmanualesdeformagratuita.Algunosde
ellos ensean simultneamente estadstica. Con respecto a lo que nosotros
acabamos de hacer, quiz el paso siguiente podra ser instalar el R-Commander
(aunquenoesnecesario).Setratadeunpaqute(omsbienunalibreradepaquetes)
que configura un entorno de trabajo con mens, resultando de gran ayuda en la
realizacin de anlisis estadsticos de ficheros con muchos datos, y/o donde
aparezcanunnmerograndedevariables.El R-Commanderconfiguratambinlas
variablesenformatodetabla,comoelexcel,oelSPSS(unacolumnaporvariable)y
posee multitud de opciones. Ya existen tambin bastantes manuales y textos que
tratandeesteentorno,conlocualpodisconsultarbibliografaespecficaparasu
instalacinymanejo,atravsdelosenlacesquesemencionanalfinal.

15.1.1 Instalacindepaquetes
LainstalacinquehemosrealizadodeRinstalaelllamadopaquetebsico.En
ocasionespodemosnecesitarinstalarpaquetesextra(comoelR-Commander)para
realizarclculosogrficosqueelpaquetebsiconohaga.Porejemplo,paraelclculo
delacurtosisolasimetradeunavariablenecesitamosinstalarelpaquetefBasics.
Para instalar cualquier paquete, debemos ir al menu, a la opcin Paquetes y
seleccionarelpasdedondebajaremoselpaquete(espejoCRAN).

P g i n a |339

Nos aparecer una lista de pases, elegimos el que nos apetezca, o el ms


cercano si la conexin a internet no es muy rpida, y despus de eso vamos a la
opcinPaquetes>Instalarpaquete(s).EnelmenqueseabrebuscamosfBasics (ojo
quehaymaysculasyminsculas).

340|P g i n a

UnavezencontradoelpaquetequebuscamosledamosaOKyelprograma
sedescarga.Acontinuacin,debemoscargarloenmemoriaatravsdelmen,porla
opcin Paquetes>Cargar Paquete, y seleccionar fBasics del men que salga (son
nicamentelosquetenemosinstaladosenelordenador).Unaopcionmscmoda
es,enlaventanadelaconsola(ladelaizquierda)escribirelcomando
require(fBasics)
yyapodremosusartodosloscomandosdeestepaquete.Escribiendoenla
consolahelp(fBasics) podremosverlaayudadelpaquete,contodaslasopciones.
15.2 BIBLIOGRAFAESPECFICADER
SivamosalapginawebdeR(dondedescargamoselprograma),enelmen
de la izquierda tenemos un apartado Documentation, y en l la opcin Manuals.
Pinchandoahyanosapareceunalistademanualesenpdfyhtml,peroeningls.
Abajo (lo marcamos en la siguiente grfica) podis pinchar en contributed
documentation

P g i n a |341
Pinchandoenesaopcinseabrirunapginaenlaqueaparecenenlacesa
documentacinenotrosidiomas.EnlaopcinSpanishestn,entreotros:
RparaPrincipiantestheSpanishversionofRforBeginners,translated
byJorgeA.Ahumada.
ASpanishtranslationofAnIntroductiontoRbyAndrsGonzlezandSilvia
Gonzlez.
y,paraaprendersimultneamenteestadstica,
MetodosEstadisticosconRyRCommanderbyAntonioJoseSaezCastillo.
Apartedeestosmanuales,esdestacabletambinEstadsticabsicaconRy
RCommander,devariosautores,quepuededescargarseen
http://knuth.uca.es/repos/ebrcmdr/pdf/actual/ebrcmdr.pdf.

342|P g i n a

P g i n a |343

16 NDICEALFABTICO

Aditividad,175
Asimetra
negativaoalaizquierda,49
positivaoaladerecha,49
atributos,10
Bayes
Teoremade,121
Bernoulli
variablede,169
Binomial
variable,170
Binomialnegativa
variable,185
ClculodeProbabilidades,8
CampanadeGauss,53,200
carcter,11
Centraldellmite
teorema,208
Centrodegravedad,71
Claudio,92
Coeficiente
decorrelacin,73
dedeterminacin,74
CoeficientedeFisher
(primero),49
(segundo),54
Consistencia
deunestimador,243
Contraste
bilateral,283
unilateral,283
Contrastes

dehiptesis,269
dehiptesisparamtricas,281
Correlacin,72
Covarianza,72
Cuantil
deunavariablealeatoria,148,149
Cuartil,34
Cuasivarianza
muestral,235
Dato
anmalo,60
atpico,60
extremo,60
datos,10
Decil,34
Densidad
funcinde,136
Desigualdad
deTchebychev,45
Desviacintpica
deunavariablealeatoria,145
Diagrama
dedispersin,70
Diagramadebarras
tridimensional,69
Distribucin
defrecuencias,12
enelmuestreo,238
funcinde,129
error
estndar,248
tpico,248

344|P g i n a

ErrortipoI,273
ErrortipoII,273
Espacio
muestral,94
Esperanza
matemtica,144
EstadsticaDescriptiva,8
Estadstico,231
deuncontraste,284
estadsticopivote,245
Estimacin,232
puntual,231
Estimador,232
Experimento
aleatorio,94
determinista,94
Exponencial
variable,198
FdeFisherSnedecor
variable,217
Fermat,8
Pierre,93
Fermat,
Pierre,92
Frecuencia
absoluta,14
absolutaacumulada,15
relativa,15
Frecuencia
relativaacumulada,15
Geomtrica
variable,182
gradosdelibertad,215
Hipergeomtrica
variable,189
Hiptesis
alternativa,270
nula,270
Histograma
tridimensional,69

Incorrelacin,74
Inferencia
estadstica,223
noparamtrica,224
paramtrica,224
Intervalo
deconfianza,244
Kolmogorov,93
Laplace
reglade,102
leptocrtica,54
Media
armnica,27
geomtrica,26
muestral,233
Mediana
deunavariablealeatoria,148
Mere
Chevalierde,93
Mr,8
Mesalina,92
mesocrtica,54
Mnimos
cuadrados,78
Moda
deunavariablealeatoria,149
Morgan
leyesde,100
Muestra
aleatoriasimple,233
Muestreo,225
aleatoriosimple,225
estratificado,226
sinreposicin,226
sistemtico,229
Nivel
deconfianza,245
designificacin,245
Nivelcrtico,284
Niveldesignificacin,273

P g i n a |345
Normal
variable,199
Nubedepuntos,70
Pascal,8
Blaise,93
variablede,182
Percentil,34
platicrtica,54
Poisson
variablede,176
Potencia
deuncontraste,273
Prediccin,81
Probabilidad,91
axiomas,98
condicionada,109
deunainterseccin,110
ley,funcin,distribucinde,128
total,117
Probabilidades
asignacinde,101
geomtricas,108
Proporcin
muestral,236
pvalor,284
Rsoftware,321
Recta
deregresin,77
Regincrtica
deuncontraste,288
Regladelproducto,113
Regresin,76
Sesgo
deunestimador,242

Suceso,95
complementario,96
elemental,95
imposible,95
Sucesos
incompatibles,95
independientes,115
propiedades,96
tdeStudent
variable,216
Tabla
defrecuencias,14
Tchebychev,45
Tipificacin
devariablesaleatorias,203
Uniformecontinua
variable,195
Valor
esperado,144
Variable
aleatoria,127
aleatoriacontinua.Vase
aleatoriadiscreta,128
aleatoriadiscretanumerable,133
discreta,11
estadsticabidimensional,68
estadsticacontinua,11
estadsticadiscreta,11
tipificada,57
Variables,10
Varianza
deunavariablealeatoria,145
muestral,235

Você também pode gostar