Escolar Documentos
Profissional Documentos
Cultura Documentos
AlejandroQuinteladelRo
CatedrticodelaUniversidaddeACorua
readeEstadsticaeInvestigacinOperativa
http://alejandroquintela.com
P g i n a |1
CONTENIDO
2 Prlogo.CaractersticasdelLibro..............................................................7
2.1 Sobrelaestructura.............................................................................9
2.2 Ytenamosmsportadas.................................................................10
3 Introduccin.............................................................................................13
3.1 QueslaEstadstica.........................................................................13
4 Estadsticadescriptiva..............................................................................15
4.1 Breveintroduccinhistrica............................................................15
4.2 Variablesyatributos.........................................................................16
4.3 Variablesdiscretasycontinuas........................................................17
4.4 Distribucionesdefrecuencias..........................................................18
4.5 Representacionesgrficas................................................................22
4.5.1 DiagramadeSectores(Tarta).....................................................22
4.5.2 Pictograma..................................................................................23
4.5.3 Diagramadebarras....................................................................24
4.5.4 Histograma(defrecuencias).......................................................25
4.5.5 Polgonodefrecuencias.............................................................29
4.5.6 reabajoelhistogramadefrecuencias.....................................30
4.6 Medidasdeposicinotendenciacentral........................................31
4.6.1 Lamedia......................................................................................32
4.6.2 Lamediana..................................................................................36
4.6.3 Lamoda......................................................................................38
4.6.4 Cuantiles.....................................................................................39
4.7 Medidasdedispersin.....................................................................45
4.7.1 Lavarianzaydesviacintpica....................................................45
4.7.2 Divisinporn1...........................................................................46
2|P g i n a
4.7.3 Otrasmedidasdedispersin......................................................48
4.7.1 DesigualdaddeTchebychev.......................................................51
4.8 Medidasdeforma............................................................................54
4.8.1 Simetra.......................................................................................54
4.8.2 Curtosis.......................................................................................59
4.9 Transformaciones.............................................................................62
4.9.1 Normalizacinotipificacin.......................................................62
4.10
Anlisisexploratoriodedatos......................................................64
4.10.1 Diagramadetalloyhojas.........................................................64
4.10.2 Diagramadecaja(boxplot).....................................................66
5 Anlisisconjuntodevariables.................................................................73
5.1 Distribucinconjuntadedoscaracteres..........................................74
5.2 Representacionesgrficas................................................................75
5.2.1 Representaciones3D..................................................................75
5.2.2 Diagramadedispersinonubedepuntos................................76
5.2.3 Covarianza.Correlacinlineal....................................................78
5.2.4 CoeficientedecorrelacindePearson......................................79
5.3 Ajusteyregresinbidimensional.....................................................82
5.3.1 Casolineal...................................................................................83
5.3.2 Problemasconlaprediccin......................................................87
5.3.3 Otrosajustes...............................................................................88
5.4 Otrosaspectosatenerencuenta....................................................93
6 Probabilidad.............................................................................................97
6.1 Antecedenteshistricos...................................................................97
6.2 Probabilidad.....................................................................................99
6.2.1 Definicionesbsicas..................................................................100
6.2.2 Sucesosyconjuntos..................................................................102
6.2.3 Probabilidad..............................................................................104
P g i n a |3
6.2.4 Asignacindeprobabilidades...................................................107
6.2.5 Probabilidadesgeomtricas.....................................................114
6.2.6 ProbabilidadCondicionada.......................................................115
6.2.7 Regladelproducto....................................................................119
6.2.8 Teoremadelasprobabilidadestotales....................................123
6.2.9 RegladeBayes..........................................................................127
6.2.10 Resumenparavagos...............................................................131
7 Variablesaleatorias................................................................................133
7.1 Variablesaleatoriasdiscretas.........................................................134
7.1.1 Funcindedistribucin............................................................135
7.1.2 Variablesdiscretasinfinitasnumerables..................................139
7.2 Variablesaleatoriascontinuas.......................................................141
7.2.1 Funcindedensidad.................................................................142
7.3 Medidascaractersticasdeunavariablealeatoria.........................150
7.3.1 Esperanzadeunavariablealeatoria........................................150
7.3.2 Lavarianza................................................................................151
7.3.3 Propiedadesdelamediayvarianza.........................................153
7.3.4 Mediana....................................................................................154
7.3.5 Cuantil.......................................................................................155
7.3.6 Moda.........................................................................................155
7.3.7 Resumenparavagos.................................................................173
8 Principalesvariablesdiscretas...............................................................175
8.1 VariabledeBernoulli......................................................................175
8.1.1 Mediayvarianza.......................................................................175
8.2 VariableBinomial............................................................................176
8.2.1 Mediayvarianza.......................................................................179
8.2.2 Propiedadaditiva......................................................................181
8.3 VariabledePoisson........................................................................182
4|P g i n a
8.3.1 Mediayvarianza.......................................................................184
8.4 VariableGeomtricaodePascal....................................................188
8.4.1 Mediayvarianza.......................................................................189
8.5 VariableBinomialnegativa.............................................................191
8.5.1 Mediayvarianza.......................................................................192
8.6 VariableHipergeomtrica..............................................................195
8.6.1 Mediayvarianza.......................................................................196
9 Principalesvariablescontinuas..............................................................201
9.1 VariableUniforme..........................................................................201
9.1.1 Mediayvarianza.......................................................................202
9.2 VariableExponencial......................................................................204
9.2.1 Mediayvarianza.......................................................................204
9.3 VariableNormal..............................................................................205
9.3.1 Mediayvarianza.......................................................................206
9.3.2 Propiedades..............................................................................206
9.3.3 Tipificacin................................................................................209
9.3.4 Propiedadaditiva......................................................................212
9.4 Teoremacentraldellmite.............................................................214
9.5 Otrasvariablesaleatoriasdeinters..............................................221
9.5.1 VariableChicuadrado..............................................................221
9.5.2 Variable deStudent...............................................................222
9.5.3 VariableFdeFisherSnedecor..................................................223
10 Inferenciaestadstica.Introduccin......................................................229
11 Muestreo...............................................................................................231
11.1
Procedimientosdemuestreo.....................................................231
11.1.1 Muestreoaleatoriosimple.....................................................231
11.1.2 Muestreoaleatoriosinreposicin.........................................232
11.1.3 Muestreoestratificado...........................................................232
P g i n a |5
11.1.4 Muestreosistemtico.............................................................235
12 Estimacinpuntual................................................................................237
12.1
Estimacindelamediadeunavariable.Mediamuestral.........239
12.2
Estimacindelavarianza.Cuasivarianzamuestral...................241
12.3
Estimacindeunaproporcin.Proporcinmuestral.................242
12.3.1 Otrosestimadores..................................................................243
12.4
Distribucinenelmuestreodeunestimador............................244
12.5
Calidaddelosestimadores.........................................................247
12.5.1 Sesgodeunestimador...........................................................248
12.5.2 Consistencia............................................................................249
12.6
Intervalosdeconfianza...............................................................250
12.6.1 Definicionesbsicas................................................................251
12.6.2 Intervalosdeconfianzaparavariablesaleatoriasnormales..252
12.7
Intervalosparalacomparacindepoblaciones.........................261
12.7.1 Intervalodeconfianzaparaladiferenciademedias.............262
12.7.2 Intervalodeconfianzaparalarazndevarianzas.................265
12.8
Casodemuestrasrelacionadasopareadas...............................268
12.9
Intervalosparaproporciones......................................................269
12.9.1 Intervaloparaunaproporcin...............................................270
12.9.2 Intervalodeconfianzaparaladiferenciadeproporciones....271
13 Contrastesdehiptesis.........................................................................275
13.1
Introduccin.Conceptosesenciales...........................................275
13.2
ErrortipoIyerrortipoII.Potencia.............................................279
13.3
Ejemploprctico:Unapelcula...................................................281
13.4
Contrastesdehiptesisparamtricas........................................287
13.4.1 Comorealizaruncontrastedehiptesisparamtrico...........289
13.4.2 Regincrticadeuncontraste................................................294
13.4.3 Potenciadelcontraste............................................................297
6|P g i n a
13.4.4 Resumen:Etapasbsicasdeuncontrastedehiptesis.........299
13.5
Contrastesuniybilaterales........................................................301
13.5.1 Resumen:clculogeneraldelpvalor....................................306
13.5.2 Contrastesparamtricosmsusuales...................................308
13.5.3 Paralamediadeunavariablenormal....................................308
13.5.4 Paralavarianza.......................................................................310
13.5.5 Paraladiferenciademedias..................................................311
13.5.6 Paralarazndevarianzas......................................................312
13.5.7 Paraunaproporcin...............................................................316
13.5.8 Paraladiferenciadeproporciones........................................316
13.5.9 Casodedosmuestrasrelacionadas(apareadas)...................318
14 Referencias............................................................................................325
15 ApndiceA.InstalacindeR.................................................................327
15.1
Descargadelprograma...............................................................327
15.1.1 Instalacindepaquetes.........................................................338
15.2
BibliografaespecficadeR.........................................................340
P g i n a |7
PRLOGO.CARACTERSTICASDELLIBRO
Existenmilesdelibrosdeestadsticayprobabilidadenelmercado.Inclusolos
hay gratuitos en Internet. Quien est leyendo este prlogo, es casi seguro que ha
ojeado el libro, lo cual le habr provocado la impresin de que le resultar difcil
encontrar otro con tantas fotografas y dibujos por el medio (no tratndose de
grficosmatemticos),niqueaparezcaTomCruise,elseorMiyagi,VladimirPutino
elmismoBrcenas.
8|P g i n a
Muchas veces escuchamos que las matemticas son infumables, y que hay
quetragarlastalcualporquenosepuedencontardeotraforma,nisepuederodar
una pelcula como si se tratara de una leccin de historia. Bueno, aqu vamos a
intentar desmontar un poco esa idea. En este texto vamos a intentar que el
estudiantetengamsfcilrecordarciertasideas,lahistoria,lasfrmulasylasnuevas
nociones,utilizandodibujos,ancdotas,mencionandopelculas,confotogramasde
cine,conayudadeTomCruise,deRussellCrowe,delosXmenyquienhagafalta.
Pretendemosamenizar,enloposible,elestudiodeunamateriaqueesten
muchos planes de estudio y en ocasiones, resulta ingrata. Tambin intentaremos
aprovechar la gran cantidad de material disponible en la red para minimizar el
esfuerzoenclculos(tablasdelanormalydemsfuera.Vivimosenlapocadonde
hastaelmstorpetieneuntelfonoounTabletparaconectarseainternet,asque
podemos evitarnos muchos los). Existen muchas aplicaciones gratuitas y pginas
webdondepodremosrealizargrficasyclculos.Alavez,existesoftwareparatodos
losgustos,desdeelmuycaroymuycompleto,comoelSPSS,hastaeltambinmuy
completoygratuitoR.Cierto,sabemosquehaymuchoprofesorantediluvianoque,
o bien no sabe de qu estamos hablando, o no va a dejar usar ordenador en el
examen,osimplementeleencantaquelosdemssufranigualquel,ysilaprendi
ausarlastablasdelasdistribuciones,losdemsquerabienBueno,esonoestan
complicadonimuchomenos.Lofundamentalquesepretendeesqueseentiendan
los conceptos. Si despus a uno le exigen usar tablas, o un paquete estadstico
diferentealR(elqueusaremosaqu),seguroquelellevarmuypocotiempopreparar
esasnocionesextra.Si,comohemosdichoenlacontraportada,elquetieneahora
estelibroesunprofesionalquepretenderepasarsusconocimientosdeestadstica,
oaprenderlosdeunamanerasencilla,esperamosallanarleelcaminoyquelatarea
leseamscmoda.
P g i n a |9
2.1
SOBRELAESTRUCTURA
10|P g i n a
2.2
YTENAMOSMSPORTADAS
Pero,comoslosepuedeponeruna,dejamosaqulasotras.
P g i n a |11
12|P g i n a
P g i n a |13
INTRODUCCIN
3.1
QUESLAESTADSTICA
Unhombremuertoesunadesgracia.Unmillndemuertosesuna
estadstica.
JosefStalin
14|P g i n a
diferenciadasensusorgenes,yqueevolucionarondeformaindependiente,hasta
que se agruparon en el siglo XIX: la Estadstica Descriptiva y el Clculo de
Probabilidades.Laprimera,quecomosupropionombreindicaestudialadescripcin
dedatos,seremontaalaantigedadysurgeporelintersdelosgobernantesporel
conocimiento de los recursos disponibles. Habitualmente, los gobernantes suelen
creersedotadosdenaturalezadivinaeinteligenciasobrehumana,aunquenecesiten
siempre del poder de los ejercitos para recaudar el dinero de sus sbditos.
Actualmentelodisfrazandedemocracia,peroelafnrecaudatoriodelosgobiernos
nuncahacesadonicesar.
Por otra parte, el clculo de probabilidades fue introducido en la segunda
mitaddelsigloXVII,ysuorigenfuelaaficindelanoblezafrancesaporlosjuegosde
azar.SusprimerospasoscorrespondenalaresolucinporBlaisePascal(16231662)
yPierreFermat(16071665)dealgunosproblemasformuladosporelcaballeroMr
(16071684)relacionadosconlosjuegosdedados.Laintegracindeambaslneasde
pensamiento(estadsticayprobabilidad)diolugaraunacienciaqueestudiacmo
obtener conclusiones de la investigacin emprica mediante el uso de modelos
probabilistas.Enloscaptuloscorrespondientesampliaremosalgomsestaresea
histrica.
Acontinuacinresumimos,enelsiguientegrfico,elprocesocientficodel
anlisisestadstico.
P g i n a |15
ESTADSTICADESCRIPTIVA
Estecaptulotieneporfinalidadladescripcindeunconjuntodedatos,sin
considerarquestospuedanpertenecerauncolectivomsamplio,ysinlaintencin
deproyectarlosresultadosqueseobtenganalcolectivoglobal;objetoestoltimo
deloqueseconocecomoInferenciaEstadstica.
4.1
BREVEINTRODUCCINHISTRICA
Estadista.
16|P g i n a
EnEspaa,esteintersnaciconla
preocupacin de los Reyes Catlicos por
mejorarelestadodelasCosasPblicas
(administracin
del
reino),
establecindoseelprimercensodelquese
tienereferenciaen14822.
4.2
VARIABLESYATRIBUTOS
Una primera clasificacin del tipo de datos procede del hecho de que las
observacionesseandetipocualitativoocuantitativo.Enelprimerodeloscasosse
2
SedesconocesienlamejoradelascosaspblicaslareinaIsabelincluasuestadofsico,
despusdeestarunaosinlavarse(prometinohacerlohastaqueseconquistaraGranada).
P g i n a |17
tieneunatributo,yenelsegundounavariable.Parahacerreferenciagenricamente
aunavariableoaunatributoseutilizaeltrminocarcter.
Como ejemplos de atributos tenemos el color del pelo, raza, idioma de un
grupo de personas, y como variables su estatura, peso, dinero que lleven en el
bolsillo,etc.
Siesnecesariooperarconunatributo,seleasignaracadaunadesusclases
unvalornumrico,conloquesetransformaenunavariable.Estaasignacinsehar
de forma que los resultados que se obtengan al final del estudio sean fcilmente
interpretables. Por ejemplo, si hay 3 idiomas posibles (ingles, francs y espaol)
podemosusar1,2y3.
4.3
VARIABLESDISCRETASYCONTINUAS
18|P g i n a
improbable)empate.Obviandoestetipodelimitaciones,lasvariablescontinuasse
elegirn, desde un punto de vista terico, con toda la precisin que deseemos
(decimales), de manera que siempre podamos escribir un valor que est entre
cualesquieraotrosdos.
4.4
DISTRIBUCIONESDEFRECUENCIAS
Laorganizacindelosdatosconstituyelaprimeraetapadesutratamiento,
pues facilita los clculos posteriores y evita posibles confusiones. Realmente, la
organizacin de la informacin tiene una raz histrica y, actualmente, con el
desarrollodelosmediosinformticos,tienemenosimportanciadesdeunpuntode
vista aplicado. Cuando no existan ordenadores, o ni siquiera calculadoras, si se
disponadeunconjuntodedatos,eranecesariodotarlosdealgunaestructuraque
permitieraresumirlosycomprenderlosdeunaformamsomenossencilla.
Laorganizacinvaadependerdelnmerodeobservacionesdistintasquese
tengan y de las veces que se repitan cada una de ellas. En base a lo anterior, se
puedenestructurarlosdatosdetresmanerasdistintas:
TipoII:Cuandosetieneungrannmerodeobservaciones,peromuypocas
distintas,sepuedenorganizarenunatabladefrecuencias,esdecir,cadaunodelos
valoresacompaadodelafrecuencia(tambinllamadafrecuenciaabsoluta)conla
queaparece.
P g i n a |19
Ejemplo 4-2 La tabla
2
4
5
6
7
8
9
4
4
3
2
3
3
1
2
1
6
1
TipoIII:Enelcasodequehayamuchasobservaciones,lamayoradeellas
distintas,puedendisponerseagrupndolasenintervaloseindicandoelnmerode
observacionesquecaendentrodecadaintervalo.
Paraelloseeligeunnmero
min ,yotro
max
intervalo
en intervalos(generalmentedeiguallongitud).
,ysedivideel
20|P g i n a
2,4
4,6
6,8
8,10
10,12
12,14
3
6
8
2
6
1
,,
,donde
(41)
Para efectuar clculos, sea cul sea el tipo dedistribucin, se disponen los
datosenformadetabla(tabladefrecuencias):
.
donde:
P g i n a |21
representaalnmerototaldeobservaciones,yserigualalasuma
.3
eslafrecuenciarelativa,definidacomo .Muchasvecessemultiplica
por100paraindicarqueeseltantoporcientooporcentajedevecesqueapareceel
valor correspondiente.
.
eslafrecuenciaabsolutaacumulada,queseobtienecomo
.
eslafrecuenciarelativaacumulada,quevienedadapor
Ejemplo
4-4
En
4-2
tendramos
Fi
0.2 (20%)
0.4 (40%)
0.55 (55%)
0.65 (65%)
0.8 (80%)
0.95 (95%)
1 (100%)
ObsrvesequesiladistribucinesdetipoIlatablaprcticamentenoaporta
informacin. Si la distribucin es de tipo III, los valores correspondern a las
llamadasmarcasdeclaseopuntosmediosdelosintervalos4.Actualmente,comolo
lgico es tener los datos en alguna variable para su tratamiento en un paquete o
programa estadstico, la representacin de los datos en una tabla de frecuencias
nicamente suele realizarse para los datos de tipo II. En el caso de una variable
continua,larepresentacinenunatablaconintervalosresultaalgoobsoleta,puesto
que la mejor forma de comprender la distribucin es por medio de una
Laletragriega(sigmamayscula)representasuma.
ndicesdesdeel1hastaelr,n1+n2++nr.
4
Dadoelintervalo
,lamarcadeclasevienedadapor
representasumartodoslos
22|P g i n a
representacingrfica,yconelclculodemedidasestadsticasquetrataremosms
adelante. Si una cantidad muy grande de datos se resume en forma de tabla de
intervalos,realmenteloqueseesthaciendoesperderinformacin.Puestoquehoy
endatodoelmundotieneunordenadorcapazdetratarconunnmerograndede
datos,resumirunconjuntodedatosenintervalosytrabajarconlasmarcasdeclase,
envezdecontodoslosdatos,haperdidogranpartedesusentido.
4.5
REPRESENTACIONESGRFICAS
P g i n a |23
1.- Definir los porcentajes de los resultados:
x=c(0.4,0.4,0.2)
2.- Definir los nombres que aparecern en el grfico asociado a cada
porcentaje:
names(x)=c(BIEN, MAL, No sabe/No contesta)
3.- El grfico se hace con la instruccin
pie(x)
Para ver las muchas opciones que se podran construir (colores, ttulo, etc)
habra que hacer help(pie)
4.5.2 Pictograma
Consiste en indicar el tamao de cada categora o atributo mediante un
dibujo, tanto ms grande a medida que la categora se repite en ms ocasiones
(primeraimagen),obienconelmismodibujorepetidounnmeromayordeveces
(segundaimagen).
24|P g i n a
P g i n a |25
Nota 4-2 En R esto se hace igual que en el caso del diagrama de sectores,
cambiando el comando pie por barplot:
x=c(0.4,0.4,0.2)
names(x)=c(BIEN, MAL, No sabe/No contesta)
barplot(x)
4.5.4 Histograma(defrecuencias)
Sisedisponedeunavariablecontinua,larepresentacingrficamsutilizada
eslaqueseconocecomohistograma.Larealizacindeunhistogramadefrecuencias
(absolutaorelativa)consisteenclasificarlosdatosenintervalos,delaformavistaen
loquehemosdenominadotipoIII.Unavezquesetienenlosintervalos,sobrecada
uno de ellos se levanta un rectngulo de rea o altura la frecuencia (absoluta o
relativa).ElhistogramaconlosdatosdelEjemplo43eselquesigue:
26|P g i n a
Figura41
P g i n a |27
Ejemplo 4-5 Los siguientes datos corresponden al cociente intelectual de una
muestra de asesores de un gobierno, elegidos al azar:
70.2 62.4 72.3 63.3 62.8 60.4 73.4 72.4 68.4 67.0 70.1 69.4 65.2 62.9 70.0
71.3 66.3 65.9 68.3 70.2 70.7 67.5 65.0 70.4 72.8 66.6 72.1 64.1 68.7 67.8
66.1 69.1 71.9 73.5 65.5 66.4 64.4 63.1 62.0 65.2
Representar grficamente los datos anteriores por medio de un histograma.
Por medio del software R, la grfica que obtenemos es la de la Figura 42
(sobrecadaintervaloindicamoselnmerodedatosquehayenelmismo).
Figura42
Encualquierhistograma,sitodoslosintervalostienenlamismalongitud,es
equivalente considerar que la frecuencia es el rea o la altura de un rectngulo,
puestoqueambasmedidassonproporcionalesyeldibujoeselmismo,perorealizado
28|P g i n a
.ElExcelusa .
Sueleresultarinteresantecompararvariosgrficoscambiandoelnmerode
intervalos para una serie de datos concreta. En la Figura 43 dibujamos la misma
variabledelEjemplo45primeroconunnmerograndedeintervalos,ydespuscon
unnmeropequeo.
Figura43
P g i n a |29
UsandotambinenlacomparacinlaFigura42,puedeapreciarsecomo,a
medidaqueelnmerodeintervalosaumenta(oloqueeslomismo,elanchodelos
intervalosdisminuye)aumentalavariabilidaddelagrfica,resultandocadavezen
unagrficamenoshomognea,yquepuededistorsionarlainformacingrficaque
proporcionanlosdatos.
4.5.5 Polgonodefrecuencias
Consiste en unir los puntos medios de los rectngulos superiores en un
histograma.Veamoselresultado,conlosdatosqueestamosutilizando,enlaFigura
44. El polgono, como vemos, parte del eje X y regresa al eje X, simplemente
marcandocomoorigenyfinalunadistanciadelosextremosigualalalongituddeun
intervalo dividida entre 2. Estas dos lneas finales, adems de darle una mayor
vistosidadalgrfico(loestticonoestreidoconlaestadstica),tieneunsignificado
matemticoqueexplicamosacontinuacin.
Figura44
30|P g i n a
4.5.6 reabajoelhistogramadefrecuencias.
Pensemosenunhistogramadondehemosconsideradocomoreadecada
rectngulolafrecuenciaabsoluta(nmerodedatos)delintervalocorrespondiente.
Elreaencerradaentreelhistogramayelejehorizontalsera ,nmerototaldedatos
(simplemente sumamos el rea de todos los rectngulos). Si en vez de utilizar la
frecuenciaabsolutausamoslarelativa,elreadecadarectnguloserelporcentaje
dedatosquehayenelmismo.Elreaencerradaentoncesportodoelhistogramay
elejehorizontalseriguala1(eselcienporciendelosdatos).Anlogamente,puede
comprobarse que el rea encerrada entre el polgono de frecuencias y el eje
horizontaltambinvale1.
EnlaFigura45vemosundibujodeunhistogramaconfrecuenciasrelativas,
ylaexplicacingeomtricadeporquelpolgonodefrecuenciasencierratambin
rea uno aparece en la Figura 46 (slo hay que pensar que, en el polgono de
frecuencias,acadarectngulolerestamosysumamoselreadedostringulos,que
sevancompensandoalolargodelafigura).Elreatotaldevalorunoesunhecho
muy relevante a la hora de introducir, en el captulo de variables aleatorias, el
conceptodefuncindedensidad.
Figura45
P g i n a |31
Figura46
4.6
MEDIDASDEPOSICINOTENDENCIACENTRAL
32|P g i n a
4.6.1 Lamedia
Lamediaesunamedidaderepresentacinodetendenciacentralquedebe
cumplirtresrequisitos:
1.Parasuobtencindebenutilizarsetodaslasobservaciones.
2.Debeserunvalorcomprendidoentreelmenoryelmayordelosvalores
deladistribucin.
3. Debe venir expresada en las mismas unidades que los datos (si
representakilos,lamediatambin).
Entretodaslasfuncionesqueverificanestastrespropiedadessedestacala
mediaaritmtica,apartirdeahorasimplementemedia,quesedefinedelasiguiente
manera:
...
.
Ejemplo 4-6 La nota media de los exmenes de una asignatura, el tiempo
medio de realizacin de los mismos, la estatura media, la ganancia media en
comisiones ilegales, etc.
Conelmismoesquematambinsepuededefinirlamediageomtricacomo:
quesueleutilizarse,fundamentalmente,eneconoma(generalmenteparapromediar
porcentajes).
Ejemplo 4-7 En los 3 ltimos aos, el precio de cierto producto de primera
necesidad ha subido un 10%, un 18% y un 30%. Cunto ha subido en
promedio?
P g i n a |33
Solucin.
Nosreferimosaqumismoporcentajetendraquehabersubidocadaao
para obtener, al cabo de los tres aos, el mismo valor que con estas subidas
desiguales.Paraobtenerelpreciodelprimerao(trasunasubidadel10%),tenemos
que multiplicar por 1.1 el precio inicial (P+P10/100=P+0.1P=1.1P). Al precio as
obtenidotenemosquemultiplicarlopor1.18(subidadel18%)paraobtenerelprecio
traselsegundoao.Yesteltimovalorhemosdemultiplicarlopor1.30(subidadel
30%)paraobtenerelpreciofinal.Entonces,sielprecioinicialesP,elresultadofinal
ser:
P1.11.181.30=1.6874P
Sin embargo, si consideramos la media aritmtica de 10%, 18% y 30%,
obtenemosunporcentajedel19.33%(omultiplicarpor1.1933),perosiaplicamos
esasubidadel19.33%cadaao,elresultadoqueobtenemosser:
P1.19331.19331.1933=1.6992P.
Encambio,sicalculamoslamediageomtricadelostresporcentajes:
1.1 1.18 1.3
1.1905,
Otramediaeslallamadamediaarmnica,quesedefinecomo
...
34|P g i n a
/
/60, y el
Como el tiempo que tard en el primer sentido es
tiempoquetardenelsegundosentidoes
/
/70,tenemosque
2
2
,
1
1
60 70 60 70
queeslamediaarmnicadelasdosvelocidades.
Otra media que tiene inters prctico es la media ponderada. Consiste en
asignaracadavalor unpeso quedependedelaimportanciarelativadedicho
valor,bajoalgncriterio.Suexpresinrespondea:
...
.
...
Ejemplo 4-9 Para ganar una plaza de funcionario en una diputacin, un
aspirante debe ser evaluado en distintas pruebas: conocimientos, pertenencia
al partido gobernante y aptitudes para el peloteo, cada una de ellas ponderada
segn su importancia o contribucin en la nota final. As, los pesos de cada
apartado sern del 30, 50 y 20 por ciento, respectivamente. Sabiendo que las
notas obtenidas por un aspirante en cada prueba son 7, 3 y 5 respectivamente,
cul es la nota global en la oposicin?
Solucin.
La media aritmtica de las calificaciones, ponderada por los pesos de cada
pruebaes
4.6
Caractersticasdelamediaaritmtica
Seanalizanacontinuacinunaseriedepropiedadesdelamedia(aritmtica).
1.Siacadaobservacindeunavariable selesumaunaconstante ,se
tieneunanuevavariable
conmediaigualalade mslaconstante
(verFigura47).
2.Sisemultiplicaunavariable porunaconstante ,lavariableresultante
tendrmediaiguala porlamediade .
P g i n a |35
Estasdospropiedadessepuedenresumirenlasiguiente:
Figura47
36|P g i n a
4.6.2 Lamediana
La mediana es un valor que, previa ordenacin, deja la mitad de las
observacionesasuizquierdaylaotramitadasuderecha.Esdecir,el50%delos
datossonmenoresoigualesquelamediana,yelotro50%mayoresoigualesasta.
Para su clculo, y suponiendo que los valores estn ordenados, se procede de la
siguientemanera:sihayunnmeroimpardedatos,lamedianaeselelementoque
seencuentraenelcentro,esdecir
.Sielnmerodedatosfueraparhabrados
elementoscentrales,ylamedianaseobtendracomolamediadeambos,esdecir:
2
es
3 /2
2.5.
8
2
10esun
7.5.
Nota 4-4 Como todo en esta vida, conviene saber cmo se hacen las cosas,
pero tambin est claro que si alguien nos las hace, mucho mejor. Si tenemos pocos
datos, los clculos son sencillos, pero se complican si hay muchos datos. Con
cualquier programa de ordenador o pgina web no habr ms que dar la orden
adecuada, con lo que tenemos que preocuparnos mucho ms de saber el significado
P g i n a |37
de media, mediana o cualquier otro valor, que cmo calcularlo. En el programa R,
con definir primero un vector x de datos y despus escribir mean(x) obtendremos la
media, y con median(x) la mediana.
Comparacinentrelamediaaritmticaylamediana.
La mediana se llama as porque est en el medio, mientras la media
aritmtica es el valor medio. Cuando un padre con tres hijas habla de ellas, se
refierealamayor,lamedianaylapequea.Sisusedadesson,porejemplo,18,15y
3,obviamenteladelmedionotienecomoedadlamediaaritmticadelasedades.Y
estahijasiempreserlamediana,aunquepaseeltiempoylosvaloresdesusedades
vayancambiando.
Lamediaaritmticasuponeunamedidacentraldelavariablequetieneen
cuentalosvaloresdelamisma.Lamediana,encambio,tieneencuentaelnmero
de datos. En el ejemplo que vimos antes, cuando
1,4,12,100 frente a
1,4,12,lamediapasdeser5.66aser29.25.Lamediana,encambio,si
1,4,12,
ser
4 y si
1,4,12,100 ser
4 12 /2 8. Como vemos, la
mediana es una medida ms robusta (se ve poco afectada) frente a valores
extremosdelavariable.
Si en vez del dato 100 lo cambiamos a 10000, la media es 2504.25 y la
medianasiguesiendo8.
38|P g i n a
Alahoradehablar,porejemplo,delsueldopromedioorentamediadeun
pas,resultaevidentequedeberaindicarselamedidaqueseutiliza.As,unsueldo
mediodadoporlamedianaseraaqueltalqueel50porcientodelapoblacintendra
sueldomsbajoquelamediana,yelotro50porcientomsaltoquelamediana.En
cambio,elsueldomediaaritmticaeselvalorcorrespondienteasumartodoslos
sueldosydividirporelnmerodepersonas.Siexistepocagenteconsueldosmuy
altos, el sueldo media aritmtica puede ser alto, pero no ser representativo del
conjuntototaldelapoblacin.
4.6.3
Lamoda
Lamoda(absoluta)deunadistribucineselvalorquemsvecesserepite(el
valorconmayorfrecuenciaomsfrecuente).Ademsdelamodaabsoluta,aquellos
valores que tengan frecuencia mayor a la de los valores adyacentes sern modas
relativas. Por ejemplo, si tenemos la variable que toma los valores
2,3,3,4,6,7,7,7,10,lamodaabsolutaes7,puestoqueeselvalorqueserepitems
veces. Adems, el valor 3 es una moda relativa, puesto que su frecuencia es 2,
superioraladelosvalores2y4,ambasigualesa1.
P g i n a |39
Silasobservacionesvienenagrupadasenintervalos,sehablardeintervalo
modal(absoluto)eintervalosmodalesrelativos.Elintervalomodalesaquelquetiene
mayorfrecuencia(absolutaorelativa),oseaelmsaltoenelhistograma.
Figura48:Histogramadelavariablequemideelniveldecolesterolen100personas.
Ejemplo 4-14
Si consideramos la distribucin de sueldos en una
multinacional, es casi seguro que el sueldo ms alto ser el del presidente,
pero no sera el sueldo modal. El sueldo modal seguramente sera el ms bajo
(el de los curritos que menos ganan, que seguro son mayora).
4.6.4 Cuantiles
Se llama cuantil de orden 0
100 a aquel valor que divide a la
variableendospartes,dejandoasuizquierda(oinferioresal)el porcientodelos
datos(asuderechael100
porciento).Porejemplo,si
50,elcuantildeorden
50correspondealamediana.
Paracalcularlo,haremoslosiguiente:
Calculamosculesel %delosdatos
40|P g i n a
(donde
representalaparteenterade ,esdecirquitamoslosdecimales).
Sielvalor esunnmeroentero,elcuantilseelige
/2(ytodos
tranquilos,queestascuentasnoslahaceelordenador).
Deentreloscuantilesdestacanloscuartiles,losdecilesylospercentiles.
Loscuartilesdividenaladistribucinencuatropartesiguales,losdecilesen
, ,
, nueve
diez y los percentiles en cien. Habr, por tanto, tres cuartiles
deciles
, ,,
y noventa y nueve percentiles
, ,,
. El segundo
cuartil,elquintodecilyelquincuagsimopercentilcoincidenconlamediana.
Muchos textos llaman cuantiles y percentiles a los mismos valores.
Realmente,uncuantilpermitequeelvalor seaunnmeronoentero(puedeser
1.45porejemplo).Comonosueleinteresarcalcularcuantilesconvaloresde no
enteros,enlaprcticavieneaserlomismo.
Con la Figura 49 y la Figura 410 comprobamos que, como siempre, una
imagenvalemsquemilpalabras.
Figura49
P g i n a |41
Figura410
10
2.3,luego
5.
Elsegundodecilcorrespondea
10
2,luego
3
4.
2
2
Podemos comprobar que ste mtodo de clculo coincide con lo utilizado
50,calculamos
anteriormenteparalamediana.Si
quelamedianaser
7
2
8
2
7.5.
10
5,conlo
42|P g i n a
Ejemplo 4-16 Con los datos del Ejemplo 4-5 calcular el valor tal que el 10 por
ciento de los asesores tienen un cociente intelectual menor o igual al mismo.
Calcular tambin el cociente intelectual medio, en el sentido de que haya
tantos asesores con cociente mayor como menor a l.
Solucin.
Con el programa R, calculamos el primer decil, que es el valor 62.89, y la
mediana, que es 67.65. El histograma con los valores sealados aparece a
continuacin.Losasesoresconcocienteintelectualmenoroiguala62.89seranel
diezporcientodelosmsburros,pordecirlodealgunamanera(dentrodelgrupo
total).Losquetienencocientemayorque67.65seranel50porcientodelosms
listos.
Nota 4-5 Segn vimos en el Ejemplo 4-15, el segundo decil no era un valor
de la variable, sino que se toma por convenio el valor medio entre los valores
y
. En vez de elegir este valor podra haberse acordado tomar otro, a lo mejor ms
P g i n a |43
decil y nos da 62.89, que es diferente del que nosotros calcularamos a mano
(nosotros tomaramos el primer decil como el punto medio entre
y
.
Incluso, si probamos a calcular con otro software el primer decil (como el
SPSS) es posible que resulte un valor distinto. En general, el valor de un cuantil
calculado con un software u otro no tiene por qu dar el mismo valor, sino un
nmero cercano. Qu ocurre? Pues que, como para gustos se pintan colores, existen
ms formas de definir la forma de calcular cuantiles que la vista aqu, que es la ms
clsica y aparece en la mayora de textos espaoles. Hay tambin razones de tipo
terico, en las que no podemos entrar, que aconsejaran utilizar una definicin en
algunos casos y otra diferente en otros. Independientemente de estos hechos, los
clculos segn el software no diferirn demasiado, sobre todo cuando se dispone de
un nmero grande de datos.
Veamos como se hace en R. Para calcular un cuantil determinado (por ejemplo el 44
y el 61.4) para una variable x, se escribira
quantile(x, probs=c(0.44, 0.614)) (esto es, siempre se dan los valores entre 0 y 1).
Si escribimos help(quantile)veremos que se pueden calcular cuantiles utilizando
varios mtodos, que pueden dar resultados diferentes. Esto es por lo comentado
anteriormente.
Regla para vagos: no preocuparse. Elegir el valor que d el ordenador y listo, salvo
que el profesor exija una forma determinada. Para calculos a mano, el mtodo
habitual es el que hemos explicado aqu.
44|P g i n a
quiznoserantanto,peroparaelrestolarecomiendo.Unchistetontosobrelos
percentiles,porejemplo,meparecisupergracioso.Alladomo,doschicasnomadres
se miraron sin entender. Con toda lgica. El percentil es como la FUM, palabras y
siglasquevienenconlamaternidad.Unavezquequedsembarazada,laFechadetu
ltima Menstruacin (FUM) pasa a ser un hito en tu vida porque ante cualquier
consulta,ecografaoprcticatelapiden.Ylospercentilesvienendespacito,aparecen
primero en los informes de las ecografas y despus, ! zas!, resultan ser parte
indispensabledelavisitaalpediatra.
Esas benditas tablas que existen para, supuestamente, contarte si tu beb
creceaunritmonormal.Lodenormalestotalmentedebatible.Acasosituhijoes
unflacuchoalqueselecaentodoslospantalonesquelecomprsnoesnormal?Es
definitivamenteanormalqueunbebotetengapesodemsyseacumuleenmejillas
quetodosquierenpellizcar?
Elpesosiempreesuntema,tengalaedadquesetenga.Ysiseesmujer,un
pocopeor.Enelcasodeloschicos,cadavisitaalpediatrasemidepesoyaltura.Esos
dosndicesteubicanalbebsentablasyahteentersdesitubebespercentil90
25,porejemplo.Sies25enpeso,implicaquede100chicosdesumismaedad75
sonmsgordos.Sies60enaltura,implicaqueslo40sonmsaltos.Noestnmal
lospercentiles,sonmuytiles,porejemplo,cuandosecombatetantoladesnutricin
comolaobesidad.Perofueradeesosextremos,sirvenrealmenteparaalgo?Esque
terminsescuchandoridculasconversacionesentremadrescompetitivas.Mibeba
estenelpercentil30delpeso,lediceunaalaotra,comosisuchiquitadetresmeses
estuvieralistaparalapasarelaporelnmeroqueledioelpediatra.Ah,peroelmo
vieneenel85dealtura.S,s,todounGinbili,seguro.Perolopeornosonquizlas
queusanlospercentilesparaalabarasushijos(despusdetodo,cualquierexcusaes
buenaparahablarbiendetusretoosunavezqueteconvertsenmadre).Lopeor,
creo,sonlasqueseobsesionan.Lasqueacortanlasvisitasalmdicosimplemente
paraconfirmarqueelneneestentalocualpuntito.Medaganasdecontarlesque
yoera90enalturadurantemiinfancia,s,ltimadelafilahastacuartogradoyque
luegoeldestinorevirtilatendencia:ahoraslollegoal90simesuboatremendos
tacos.Yadivinenqu:soyfelizigual.
P g i n a |45
Paralaschusmas,quequieransaberms(peroplease,noseobsesionen!)les
pasounlinkaunsitiodebebsquetienetablasdecrecimientodelnacimientoalao.
4.7
MEDIDASDEDISPERSIN
Lasmedidasdetendenciacentralreducenlainformacindeunamuestraa
unnicovalor,pero,enalgunoscasos,estevalorestarmsprximoalarealidadde
lasobservacionesqueenotros.Porejemplo,consideremoslavariable
0,50,100
ylavariable
49,50.Enseguidapodemosverquelasmediasaritmticasdeambas
variablessoniguales 50 ,perotambinquelavariable estmsdispersa(omenos
concentrada)quelavariable ,demaneraquelarepresentatividadde esmayor
quelade .
Acontinuacinseestudianunaseriedemedidasque,porunaparte,indicarn
elniveldeconcentracindelosdatosqueseestnanalizandoy,porotra,informarn
sobrelabondaddelospromedioscalculadoscomorepresentativosdelconjuntode
datos.
4.7.1 Lavarianzaydesviacintpica
Lavarianzaysurazcuadradapositiva,ladesviacintpica,sonlasmedidas
de dispersin ms importantes, estando ntimamente ligadas a la media como
medidaderepresentacindesta.Lavarianzavienedadaporlaexpresin:
...
Elmotivodeutilizarestafrmulaesqueeslamediaaritmticadelavariable
cuyosvaloresson
.Esdecir,estamosconsiderandolasdistanciasentrelos
datosylamediaaritmtica,ylaspromediamos(fijmonosenlaFigura411).
Silasdistanciasentrelosdatosylamedia,engeneral,songrandes,lamedia
deestasdistanciastambinloser.Silasdistanciasentrelosdatosylamedia,en
general,sonpequeas,lamediadelasdistanciastambinloser.Ahorabien,las
distancias
las elevamos al cuadrado para evitar que se compensen las
46|P g i n a
,siempreseobtieneelvalorcero.
Figura411
Debidoaquelavarianzavieneexpresadaenlasunidadesdelavariable,pero
elevadasalcuadrado,sedefineladesviacintpicacomolaraizcuadradaconsigno
positivodelavarianza
.Ladesviacintpicayaapareceexpresadaenlas
mismasunidadesquelavariable.
4.7.2 Divisinporn1
Enmuchosprogramasestadsticos(comoelRoelSPSS)lavarianzasecalcula
dividiendopor
1envezdepor .
1
1
Elmotivoesdetipoterico,puestoquesilosdatossonobservacionesdeuna
variablealeatoria(adefinirencaptulosposteriores),esteltimovalorrepresenta
mejoralavarianzatericadelavariable(noospreocupisporentenderestedetalle
en este preciso momento). En cualquier caso, si es un nmero relativamente
grande, los valores que se obtienen diviendo entre o
1 son prcticamente
iguales.Tambin,enmuchasocasiones,alvalor
1 selellamadesviacinestndar.
(dondesedividepor
P g i n a |47
Enlascalculadorasquehacenclculosestadsticossueleexistirunbotncon
elsmbolo
(oalgoparecido),yotrobotnconelsmbolo
1 ,indicando
queelprimerocalculalavarianzadividiendopor ,yelsegundodividiendopor
1.LapropiacalculadoradeWindowslostiene.
Nota 4-6 Tanto la varianza como la desviacin tpica son siempre positivas, y
valen cero slo en el caso de que todos los valores coincidan con la media
(representatividad absoluta de la media).
0,50,100 e
50, pero
1666.67
40.82.
2500
1
2
50.
1.
1.4142.
Caractersticasdelavarianza.
1.Siselesumaunaconstanteaunavariable,lavarianzadelanueva
variable no cambia (porque la distancia de los datos a la media sigue siendo la
misma:
48|P g i n a
2.Sisemultiplicaunavariableporunaconstante,lavarianzadelanueva
variable es igual a la de la antigua multiplicada por la constante al cuadrado (al
multiplicar los datos, multiplicamos la dispersin. Pensemos por ejemplo en
X=10,20,30,eY=2X=20,40,60.Hemosmultiplicadopor2ladistanciaentrelosdatos).
Estasdospropiedadespuedenresumirseenlasiguienteexpresin:
Y
aX
b S
a S S
aS .
7,
4
4.7.3 Otrasmedidasdedispersin.
Recorrido,AmplitudoRango.
P g i n a |49
Sedefinecomoladiferenciaentreelmayoryelmenordelosvalores.Tiene
la ventaja de que es fcil de calcular, aunque cuando hay valores aislados en las
puntasoextremosdeladistribucin,daunavisindistorsionadadeladispersinde
sta.
Recorrido
Recorridointercuartlico.
Vienedadopor:
.
Coeficientedevariacin.
Sedefinecomoelcocienteentreladesviacintpicayelvalorabsolutodela
media.
| |
50|P g i n a
0,nosepuedecalcular.
Engeneral,sesueleconvenirenquevaloresde menoresa0.1indicanuna
altaconcentracin,entre0.1y0.5unaconcentracinmedia,yvaloressuperioresa
0.5unaaltadispersinyunamediapocoonadarepresentativa.
Enelejemplocomentado(donde =0.1,0.2,0.3,0.4,0.5e
1000.1,1000.2,1000.3,1000.4,1000.5 ,tendramos
0.14,pero
0.14
0.14
0.46 y
0.00013.
0.3
1000.3
P g i n a |51
Ejemplo 4-20 Consideremos dos variables e , tales que viene expresada
en metros e en centmetros, con medias y desviacines tpicas:
10
1000
10 ;
200
3.
Recorridosemiintercuartlicorespectoalamediana.
Vienedadopor
que, al igual que la anterior, es una medida adimensional, con las ventajas e
inconvenientesmencionadosparaelrecorridointercuartlico.
En la Figura 412 tenemos un resumen de las caractersticas de una
distribucinatendiendoaladispersindelamisma.
4.7.1 DesigualdaddeTchebychev
52|P g i n a
Figura412
1.
(quequieredecirquelafrecuenciarelativadelnmerodedatosqueestnalrededor
delamedia vecesladesviacintpicaessiempremayoroigualquelacantidad1
. Esta desigualdad es una justificacin terica del caracter de medida de
dispersindeladesviacintpica o .Veamos,supongamos3valoresconcretosdel
nmero (quetienequesermayorque1),calculemoselvalordeladerechadela
desigualdad,ypongamosloquesignificaloqueestalaizquierda:
2 1
3 1
4 1
1
1
1
0.75
0.88
0.9375
P g i n a |53
2
3
4
|
|
|
|
|
|
2
3
4
0.75.
0.88.
0.9375.
Tengamospresentequelosdatos
|
| a sonlosdatos que
estn en el intervalo de centro y radio a , es decir a , a . As, en un
intervalo de centro la media y radio 2 veces la desviacin tpica
2 se
encuentran,almenos,el75porcientodelosdatos.
Enunintervalodecentrolamediayradio3vecesladesviacintpica
seencuentran,almenos,el88porcientodelosdatos.
Enunintervalodecentrolamediayradio4vecesladesviacintpica
seencuentran,almenos,el93.75porcientodelosdatos.
Loquevemosesquecualquiervariabletienequetenerunaagrupacindesus
datos alrededor de la media conforme a esta desigualdad; es decir, los datos no
pueden hacer lo que les d la gana, han de estar concentrados alrededor de la
mediasegnestosporcentajes,queestnrelacionadosconladesviacintpica.
Enlasiguienteimagenvemosunhistogramaconlosvalores
marcadosenelejeX.
54|P g i n a
Ejemplo 4-22 Un colegio lleva a una clase de la ESO al mdico, para realizar
unos anlisis de salud. El mdico toma nota, entre otras variables, del peso
de los 50 chavales de la clase. El peso medio que obtiene es 45, y la
desviacin tpica es 6. Todos los chavales han ido con alguno de sus padres
excepto Marianito que ha ido con su abuela Antonia. La abuela, al ver que su
nieto pesa 1 kg menos que la media, le dice al mdico que por qu no le receta
algunas vitaminitas que le den ganas de comer. El mdico le dice a la abuela:
Seora, el nio no est delgado, y mejor que haga ejercicio, que va sobrado
para su edad. Por qu es el mdico as de grosero?
Solucin.
Al ser 45 y
6, en el intervalo 3 , 3
45 18,45
18 = 27,63 estn el 88.88 por ciento de los datos. Quiere esto decir que, slo
pesandounkilomenosquelamedia,elnietodelaseoraAntoniaestaconcasiel90
porcientodelresto.Comoparecelgico,laseoratieneelmaldelasabuelas,que
pasaronhambreenlaposguerra,ylesparecequetodoelmundocomepoco.
4.8
MEDIDASDEFORMA
4.8.1 Simetra
Diremosqueunadistribucinessimtricarespectoaunparmetrocuando
los valores de la variable equidistantes de dicho parmetro tienen la misma
P g i n a |55
frecuencia.Lasimetrasuelereferirsealasimetrarespectodelamediaaritmtica,o
respectodelamediana.
Unadistribucinovariableessimtricasi,grficamente,levantamosunejeo
lneaverticalsobrelamedia(omediana,segnelcaso)yeldibujoaambosladosde
dichoejeesidntico.Lamayorpartedelasveces,aunquenoseindique,lasimetra
serefiereasimetrarespectoalamedia.
Si una distribucin no es simtrica, entonces es asimtrica, y la asimetra
puedepresentarse:
a la derecha (asimetra positiva: cola de la distribucin ms larga a la
derecha)
a la izquierda (asimetra negativa: cola de la distribucin ms larga a la
izquierda).
,
siendo
1
(mediadelasdesviacionesalamediaelevadasalcubo),
56|P g i n a
Figura413
NosreferimosalacampanadeGauss,delaquehablaremosenunmomento.
P g i n a |57
Siahora,deesamuestra,nosquedamosconlosvaloresqueseanmsgrandes
(mayores que 90 kilos; llammosles los gordos) obtenemos una distribucin
asimtrica a la derecha y, si nos quedamos con los valores de la gente delgada
(elegimoslosvaloresmenoresque55),obtenemosunadistribucinasimtricaala
izquierda(imgenessuperioreinferiordelaFigura414).
Figura414
58|P g i n a
Nota 4-7 Al igual que ocurra con la varianza, por mtivos tcnicos, la
frmula del coeficiente de asimetra puede variar, dependiendo del programa
estadstico que se utilice. Conviene siempre mirar el manual para tener clara la
frmula. En todo caso, los valores deben ser parecidos, y lo ms importante es el
signo (positivo para asimetra a la derecha y negativo al contrario), que no debe
depender del programa utilizado
Ejemplo 4-24 Con los datos del Ejemplo 4-5 vamos a realizar un estudio de
la simetra. El histograma con la media resaltada es el que aparece a
continuacin.
Grficamente,estclaroquelavariablenoessimtrica,perolaasimetrano
esgrande.Elvalordelcoeficiente es 0.08(lohemoscalculadoenR,cargando
anteselpaquetefBasics,ydespusconlainstruccinskewness(x)).
P g i n a |59
4.8.2 Curtosis
Lasmedidasdecurtosistratandeestudiarladistribucindefrecuenciasenla
zona central de la distribucin. La mayor o menor concentracin de frecuencias
alrededordelamediadarlugaraunadistribucinmsomenosapuntada.Elgrado
de apuntamiento de una distribucin (que slo se examina en distribuciones
simtricasoligeramenteasimtricas,yconundibujoparecidoaldeunacampana)
se calcula a travs del coeficiente de apuntamiento o de curtosis, para lo cual se
compara con la distribucin Normal, que se tratar en otro captulo. Se puede
adelantar, no obstante, que la distribucin Normal tiene forma de campana (la
llamadaCampanadeGauss)yquesuestructuraprobabilsticavienedadaporla
funcin
1
2
(42)
60|P g i n a
Fisher)tomalaexpresin:
3,
siendo
Bsicamente,elclculodelacurtosisdeunavariableseutilizaparaestablecer
una comparacin con la variable normal que tenga la misma media y desviacin
tpica. El objetivo es analizar si podemos considerar que la variable en estudio es
P g i n a |61
aproximadamente normal. En el captulo de variables aleatorias se ampliar la
informacinsobrelasvariablesnormales.Parauncursointroductoriodeestadstica,
comoesnuestrocaso,eltemadelacurtosistienepocaimportancia.Repetimosque
la curtosis slo tiene inters medirla en distribuciones simtricas o ligeramente
asimtricas,quepuedanparecersealacurvaNormalodeGauss.Enlaprctica,
podemosencontrarnoscondistribucionescuyohistogramaseamuyirregularyque,
visualmente, sea de imposible comparacin con dicha curva. En estos casos, el
coeficientedecurtosis puedecalcularse,peronotendraintersprcticoalguno.
Nota 4-8 De nuevo es necesario indicar que la frmula exacta del coeficiente
de curtosis puede variar segn el programa utilizado, y puede ser alguna variacin
del coeficiente aqu definido, por motivos puramente tericos. Igual que ocurra con
el caso de la simetra, ms que el valor nos interesa el signo.
Ejemplo 4-25 Con los datos del Ejemplo 4-5 realizar un estudio de la curtosis.
Grficamente,intuimosquelaformaesplaticrtica,mirandoalhistograma
defrecuenciassuperpuestoconlacurvanormal.Calculandoelcoeficientedecurtosis
con R (hay que cargar el paquete fBasics y utilizar la instruccin kurtosis(x)) se
obtiene
1.12.
62|P g i n a
4.9
TRANSFORMACIONES
Enocasiones,lavariableenestudiopuedepresentarmuchasirregularidades,
como asimetra acentuada, valores muy extremos, etc. En otras ocasiones, se
necesita comparar la posicin de dos valores pertenecientes a variables con
caractersticas muy diferentes. En estos casos es recomendable efectuar una
transformacin que haga ms regular la distribucin y, por tanto, con mejores
condiciones para su estudio. Tiene particular importancia la tipificacin de una
variable.
4.9.1 Normalizacinotipificacin
Dadaunavariable conmedia ydesviacintpica ,latipificacinconsiste
enrealizarlasiguientetransformacin:
P g i n a |63
A la nueva variable se le llama variable normalizada o tipificada, y tiene
media 0 y desviacin tpica 1. Desde un punto de vista geomtrico, la media y la
desviacintpicadeunavariablepuedenconsiderarsecomoelcentrodegravedad
deladistribucinysuescala,respectivamente.Deestaforma,altipificardistintas
variables, las centramos en el mismo punto y las dotamos de la misma escala.
Adems,losvalorestipificadosseconviertenendatosadimensionales.Portodolo
anterior,latipificacintienelapropiedaddehacercomparablesvaloresindividuales
que pertenecen a distintas distribuciones, an en el caso de que stas vinieran
expresadasendiferentesunidades.
Ejemplo 4-26 Sea
3,14,17,24,24,53 . Obtenemos que 22.5 y
18.44. La variable
(tipificada de
) toma los valores
3 22.5 14 22.5 17 22.5 24 22.5 24 22.5 53 22.5
,
,
,
,
,
,
18.44
18.44
18.44
18.44
18.44
18.44
es decir
Secompruebaque
8,
25
mientras que
5100 5000
2.
50
En trminos absolutos, el diputado gana ms que Elosa. Sin embargo, en
relacin al conjunto de los empleados de cada categora, la empleada de
Mercamona ocupa mejor posicin. Es grandioso el espritu de sacrificio de
64|P g i n a
4.10 ANLISISEXPLORATORIODEDATOS
4.10.1 Diagramadetalloyhojas
Eldiagramadetalloyhojas(Stem&Leaf)esunarepresentacinsemigrfica
dondesemuestraelrangoydistribucindelosdatos,lasimetraysihaycandidatos
a valores atpicos (valores muy extremos o incluso errores). Su uso slo es
recomendablesiemprequeelnmerodedatosnoseamuygrande(sobre50).Para
construirlo basta separar en cada dato el ltimo(s) dgito(s) de la derecha (que
constituyelahoja)delbloquedecifrasrestantes(queformareltallo).
Estetipodediagramasepopularizenlosaos80apartirdelapublicacin
dellibroExploratorydataanalysisdelestadsticoJohnTukey(19152000),porsu
facilidad para hacerse a mano, o rpidamente con las computadoras de aquella
poca.Actualmente,dadalacapacidadgrficadelosordenadores,seutilizapoco.
P g i n a |65
En el diagrama de tallo y hojas se representa el primer dgito de los datos a
la izquierda de la barra de separacin y el segundo a la derecha.
1
2
3
4
5
7
002479
1445
44
5
19
8
De esta forma vemos rpidamente que la mayora de las mujeres son del
rango 10-30 aos. Es un diagrama del estilo de un histograma o diagrama
de barras, pero colocado en horizontal. Cuenta adems con la ventaja de tener
los datos sobre la propia grfica.
Comocuriosidad,enlasiguientefotografapodemosverundiagramadeeste
tipoenunaestacindetrenjaponesa(fuente:Wikipedia).Eneldiagramadetalloy
hojasserepresentanlosdgitosdelahoraalaizquierda(lacolumnaennegro)yala
derechalosminutos.Lamayoromenorfrecuenciadeparadassededucefcilmente
delalongituddelasfilasyes,adems,muyfcilverenquminutosdecadahora
paranlosautobuses,yhacercomparaciones.
66|P g i n a
4.10.2 Diagramadecaja(boxplot)
Losdiagramasdecaja(boxplot)odiagramasdecajaybigotes(boxwhisker)
son representaciones grficas sencillas que no necesitan un nmero elevado de
valores para su construccin. Se utilizan para estudiar tanto la dispersin como la
formadeunavariable.Asimismo,sonespecialmentetilesparacomparardistintas
distribucionesentres.
Comodicesunombre,constandeunacaja,dondelamismarepresentael
50%centraldeladistribucin(vade oprimercuartila otercercuartil),yla
lneasituadaenelinteriordelacajaeslamediana(Figura415).
Los extremos inferiores y superiores de los segmentos (tambin llamados
bigotes) delimitan lo que se denomina como valores normales, y coinciden,
respectivamente, con el mnimo y el mximo de los valores una vez excluidos los
candidatosavaloresanmalos.Loscandidatosavaloresanmalosseetiquetancomo
atpicosycoincidenconaquellasobservacionesqueseencuentranfueradelintervalo
,
,donde:
1.5
1.5 ,
esdecir,aunadistanciade ,porlaizquierda,ode ,porladerecha,superiora
unavezymediaelrecorridointercuartlico(
.Enestecasosellaman
atpicosdeprimernivel.Cuandoladistancia,porunodelosdoslados,essuperiora
tresrecorridosintercuartlicos,elvaloratpicosedenominadesegundonivel,odato
extremo.
Los valores atpicos de primer y segundo nivel quedan normalmente
identificadoseneldiagramadecajasporsmbolosdiferenciados( , ,),debiendo
considerarse la revisin de los mismos (pueden corresponder a mediciones mal
efectuadas)paraposibledepuracinantesdelanlisisdelosdatos.Elresumendelas
caractersticasobservablesenundiagramadecajaapareceenlaFigura415.
P g i n a |67
Figura415
Datoanmalo:hayquerevisarsisehaintroducidoporerror,sehaobservado
mal,lohanhechoapropsito,etc.
68|P g i n a
Ejemplo 4-29 Con los datos del Ejemplo 4-5 vamos a realizar un diagrama de
caja y bigotes (boxplot), que vemos a continuacin. En el grfico podemos ver
que existe una muy ligera asimetra a la izquierda (la cola es ms larga a la
izquierda), algo que comprobamos anteriormente. Entre los valores 65 y 70 se
encuentra el 50 por ciento central de la distribucin. No hay valores atpicos
en este caso concreto.
Ejemplo 4-30 En la siguienta tabla se han recogido las edades que tenan los
actores y actrices que ganaron el Oscar a la mejor interpretacin, en todos los
aos de existencia de dichos premios (1929-2013). En la tabla aparece, por
orden cronlogico, la edad que tena la actriz (actor) que gan el Oscar en la
primera celebracin de los premios, y sucesivamente hasta la actualidad (los
datos se encuentran en el fichero edades-oscar.csv).
Actrices: 22 37 28 63 32 26 31 27 27 28 30 26 29 24 38 25 29 41 30 35 35 33
29 38 54 24 25 46 41 28 40 39 29 27 31 38 29 25 35 60 43 35 34 34 27 37
42 41 36 32 41 33 31 74 33 50 38 61 21 41 26 80 42 29 33 35 45 49 39 34 26
25 33 35 35 28 30 29 61 32 33 45 28 62 22
Actores: 44 41 62 52 41 34 34 52 41 37 38 34 32 40 43 56 41 39 49 57 41
38 42 52 51 35 30 39 41 44 49 35 47 31 47 37 57 42 45 42 44 62 43 42 48
49 56 38 60 30 40 42 36 76 39 53 45 36 62 43 51 32 42 54 52 37 38 32 45
60 46 40 36 47 29 43 37 38 45 50 48 60 50 39 55
P g i n a |69
Realizar un anlisis exploratorio de los datos y ver si existen diferencias
entre las edades de actores y actrices ganadores de premio.
Solucin.
Primerorealizamosunboxplotdelasvariables.
Comprobamosqueelboxplotesuninstrumentogrficomuyefectivopara
comparardosvariables.Lamedianadeedad(labarradentrodelascajas)esmsalta
paralosactoresqueparalasactrices.Estehechoseguramenteestamparadoporla
queja mayoritaria entre las actrices de Hollywood, que sealan que escasean los
buenospapelesparaactricesmayoresde40.Enelgrficovemosquelosvaloresde
edadaltossonatpicosparalavariabledelasactrices,mientrasqueslohayundato
atpicoenelcasodeloshombres.Enelboxplotsevisualizatambincongranclaridad
lasimetraoasimetradeunadistribucin,puesvemosqueambassonmslargas
hacia la derecha que hacia la izquierda. En contrapartida, la mayor agrupacin de
datos se da a la izquierda (la mayora de los Oscar se consiguen a edades no
demasiado altas). El anlisis puede complementarse por medio del histograma de
ambasvariables,dondesealamoslamediaylamedianaque,comoapreciamos,son
muysimilares.
70|P g i n a
P g i n a |71
Preguntaderepaso:
72|P g i n a
P g i n a |73
ANLISISCONJUNTODEVARIABLES
Lasestadsticassoncomolosbikinis.Tepermitenvermuchoyteocultanlo
msimportante.
AaronLevenstein.
Enelcaptuloanteriorsehaconsideradoelestudiodeunnicocarctero
variable. Sin embargo, es frecuente estudiar conjuntamente varios caracteres y
preguntarsesiexisteonoalgntipoderelacinentreellos.Estecaptulosededica
al estudio de la relacin entre dos caracteres. Comenzamos con la organizacin y
resumen de la informacin, siguiendo un esquema anlogo al establecido en el
captulo anterior, y conclumos con el estudio de la relacin entre ambos.
Habitualmente,cuandosetieneunamuestradeunapoblacin,siesposibleyno
resultaespecialmentecostoso,seobservanvariasvariablesy/oatributos(cuanta
msinformacinsepuedaobtener,siempreesmejor).Enunanlisisdesangre,se
miden varios niveles; si se elige una muestra de personas para una encuesta,
normalmente se le realizan varias preguntas, etc. A continuacin, resulta lgico
cuestionarsesobrequgradoderelacinodependenciaexisteentrelasvariables
analizadas:hayrelacinentrelaestaturayelpeso?,yentreelnivelderentayel
consumo(dedrogasono)?;entrelaestadsticaylasmentiras?,lapolticayla
74|P g i n a
corrupcin?,laruinaylosimpuestos?,lapesadezdeunapelculayelnmerode
premiosenfestivaleseuropeos?...
5.1
DISTRIBUCINCONJUNTADEDOSCARACTERES
Cuandoelinvestigadorestinteresadoenelestudiodedoscaracteresdeuna
poblacin, se obtienen dos observaciones para cada individuo, que se recogen en
formadeparesdevalores,ydebenorganizarseenfuncindelanaturalezadedichos
caracteres.Apartirdeahora,trabajaremosconunpardevariables , deinters,
medidasen individuos(sienalgncasonosreferimosaatributos,supondremos
que le hemos asignado un valor numrico). En vez de disponer de valores,
tendremosparesdevalores
,
,...,
,
(quepodrnrepetirseono).La
variable , esunavariableestadsticabidimensional.Situvieramos,engeneral,
variables,lavariableconjuntasellamara
dimensional.
P g i n a |75
Izquierda:Tabladedobleentrada(tilslosihaypocosvaloresdexeypero
que se repiten). Derecha: tabla habitual en los programas estadsticos, con una
variableporcolumna,contantasfilascomoseanecesario.
5.2
REPRESENTACIONESGRFICAS
5.2.1 Representaciones3D
76|P g i n a
correspondenalaclasificacindelavariable enintervalos,y
intervalos ,
los ,
alaclasificacindelavariable .Elsentidodelasgrficasestansimple
comoenelcasounidimensional.Cuantosmsdatoshayenunacuadrcula,selevanta
unprismarectangularmsgrande.
5.2.2 Diagramadedispersinonubedepuntos
Siambasvariables e sonnumricas,larepresentacindelospares ,
enunplanorecibeelnombredenubedepuntoso,tambin,diagramadedispersin.
Figura51
P g i n a |77
EnlaFigura51dibujamoslosvalorescorrespondientesalasvariables =muertes
por cirrosisfrentea =consumo de alcohol (per cpita)delficherodatos-consumoalcohol.txt (fichero que contiene datos de varias poblaciones, consumo de vino y
licores,ymuerteporcirrosis.ObtenidodeloslibrosdeSpaeth[13]yBrownlee[2].Se
puede consultar ms informacin en el fichero informacion-datos-consumoalcohol.txt).
Figura52
78|P g i n a
esloquepretendemosestudiar,ascomolaformademedirmatemticamentela
misma.
5.2.3 Covarianza.Correlacinlineal
Lacovarianzavienedadaporlaexpresin
1
esunamedidasimtrica(porqueesiguala
ysepuedeleercomola
Veamos:porprimercuadranteentendemoslospuntos ,
.Portercercuadrantelospuntos , donde
e
Porsegundocuadrantelospuntos ,
cuadrantelospuntos , donde
e
donde
.
donde
.
,yporcuarto
siempre es un
nmeromayoroigualacero,encambioenelsegundoycuartocuadrante,
siempreesunnmeromenoroigualacero.
Por lo tanto, la concentracin de valores en los distintos cuadrantes
determinaelsignoyelvalorde .Lacovarianzamide,pues,lacantidadderelacin
linealentrelasvariablesyelsentidodesta,delaforma:
Delasimpleobservacindelanubedepuntospodemosdeducirqueexiste
unarelacinlinealpositivaentrelasdosvariables;estoes,sicreceelconsumode
alcohol, crece el porcentaje de fallecimientos. Tambin vemos que esa relacin
P g i n a |79
podra venir caracterizada, matemticamente, mediante una linea recta. Si
calculamos la covarianza
nos dar un nmero positivo (en este caso,
137.055;sepuedecalcularenRconlaordencov(x,y)).Detodasformas,elnmero
queresulteesdedificilinterpretacin,puestoquedependedelasunidadesenque
venganexpresadaslasvariables.Esporelloque,envezdetrabajarconlacovarianza,
se trabaja con el llamado coeficiente de correlacin (o coeficiente de correlacin
linealdePearson)(s,eselmismoPearsondelquehablamosenelcaptuloanterior,
quenosolaperderseningnbotellnestadstico).
5.2.4 CoeficientedecorrelacindePearson
El coeficiente de correlacin lineal o coeficiente de correlacin de Pearson
vienedadopor
,
queesunamedidaadimensional,siempretomavaloresenelintervalo
tieneelsignode Porlotanto,severifica:
cuandolarelacinlinealentre e esexactaydirecta,esdecir,todoslos
puntosseencuentransobreunarectaconpendientepositiva, vale1.
cuandolarelacinlinealesexactaeinversa,esdecir,todoslospuntosse
encuentransobreunarectaconpendientenegativa, vale 1.
losvaloresintermedios(0
1 o 1
0 darnlugaraquelos
puntosseaproximenmsomenosaunarectaquepasaporelmediodelosmismos.
cuandonohayrelacinlineal, vale0.
80|P g i n a
Este ltimo caso se llama incorrelacin, y se dice que las variables estn
incorreladas.Losdistintoscasosaparecenrepresentadosenestaimagen:
Alcuadradode selellamacoeficientededeterminacin,yseledenotapor
.Lgicamente,severifica
1,
y,cuntomsprximoest a 1,mayoreslarelacinlinealexistenteentrelas
variables,ymenorcuantomsprximoest a0.
Se concluye este apartado indicando que la independencia implica incorrelacin,
peroelrecproconosiempreescierto(verelEjemplo51).
P g i n a |81
82|P g i n a
0 1
1 0 0
y
b)
2 1 0
854 5 8
estn incorreladas, pero no son independientes; es ms, existe una relacin
funcional entre ellas. En efecto, los puntos de la variable bidimensional del
caso a) son puntos de una circunferencia de frmula
1 (las estrellas
encima de Chvez, en el caso de incorrelacin). En el caso b), las variables
cumplen la relacin
4. Esto quiere decir que, en ambos casos, existe
una relacin entre e (si sabemos el valor de , obtenemos directamente
el de ), pero esta relacin no es de tipo lineal. En este texto nicamente
estudiaremos la posible relacin de tipo lineal entre dos variables.
5.3
AJUSTEYREGRESINBIDIMENSIONAL
P g i n a |83
de puntos puede dar una idea de la evolucin de los valores de la variable
dependiente(apartirdeahora )enfuncindelosdelaindependiente( ).
5.3.1 Casolineal
Sean ,
,
,
,,
,
losvaloresobservados,ysupongamosque
lanubedepuntosnosindicaquelafuncinlineal(recta)puedeserunabuenaforma
de ajustar los datos. Sea
la recta de ajuste de los valores de en
funcindelosde .Estarectasellamarectaderegresin,ysirveparapredecirel
valorde paraunvalornuevodelavariable .
Figura53
84|P g i n a
Paracalcularlamejorrecta,seutilizaelmtododelosmnimoscuadrados.
Consisteenlosiguiente:paracadapuntodelanube , seconsideraelllamado
residuo,queesladistanciaentredichopuntoysucorrespondienteenlarecta,es
decir , ,donde eselvalorpredichoporlaecuacindelarecta(verFigura
54).
Figura54
Ahoraseconsideralafuncindedosvariablesquemidelasumadetodoslos
residuosparatodoslospuntosdelanube,elevadosalcuadradoparaevitarquese
compensenresiduospositivosconnegativos:
,
Nota 5-3 Y de nuevo sealar que, salvo que algn malvado profesor lo solicite
expresamente, ni siquiera tenemos que saber que y se calculan con estas frmulas,
puesto que cualquier software estadstico cutre salchichero, con pasarle los datos, nos
calcula la recta.
P g i n a |85
Ejemplo 5-2 Realizamos a continuacin el clculo, mediante el software R, de
la lnea de regresin del ejemplo que estamos utilizando. A continuacin
vemos el cdigo R utilizado para dibujar la nube de puntos y la recta de
regresin (que es la de la Figura 5-4), adems de obtener los resultados
numricos, que son:
30.3347,
2.8617 y el coeficiente de determinacin
0.7134. Se conviene que este nmero, multiplicado por cien, da el
porcentaje de relacin entre las variables que puede explicarse mediante
la lnea recta (un 71.34%).
Figura55
86|P g i n a
Figura56
P g i n a |87
Recomendamos al lector leer el trabajo completo para conocer los pases
evaluadosytomarunadecisinpropiasobrelavalidezonodeestasconclusiones.
5.3.2 Problemasconlaprediccin
Laprediccinusandounarectaderegresintieneclarosproblemas.Unoes
el de la extrapolacin (salirnos de los lmites del rango de valores analizado). Un
ejemploclsicoeseldelosrcordshumanos.EnlaFigura57apareceunagrficade
losrcordsmundialesenlacompeticindelos100metroslisos(tiemporealizado
frentealaodelacarrera),juntoconlarectademnimoscuadrados(elvalorquese
obtienepara es0.94).Elficherodedatosquepuedebajarsedelawebesrecord
100m.txt.
Comosabemos,lamarcamundialdelos100metroslisoshaidodisminuyendo
conelpasodelosaos.Sicalculamoslarectaderegresinquerelacione =aoe
=tiempo rcord para recorrer los 100 metros,podramospredecircualseraelao
88|P g i n a
Figura57
5.3.3 Otrosajustes
A travs del dibujo de la nube de puntos podemos, en muchas ocasiones,
intuirqueexistirnmejoresfuncionesquelalnearecta(queeslamssencillade
todas)paraexplicarlavariable enfuncindelavariable .Elprocesodeelegirla
mejor funcin no tiene por qu ser sencillo ni simple. Debemos tener tambin en
cuentaquequiznohayaunanicavariable influyendoenlavariable ,sinoque
pueden existir diferentes variables explicativas , , . . . , que sean necesarias
parapoderestablecerprediccionesdelavariable deinters.Sisedisponedeuna
grficacomoladelaFigura58,lanubedepuntosnodalaideadeajustarunarecta
P g i n a |89
alamisma,sinounafuncinmsvariable;unpolinomio,talvez,peronoesfcilde
intuirasimplevista.
Figura58
Ejemplo 5-4 Con el xito creciente de la franquicia A todo gas (Fast &
Furious), cantidades ingentes de idiotas se estn lanzando a hacer carreras
de coches e imitar lo que ven en las pelculas, creyendo que son escenas
reales. Despus del rodaje de la sexta pelcula en las islas Canarias, un
fisioterapeuta local est comprobando que su negocio crece da a da. A travs
90|P g i n a
ajustadatambinmedianteelmismomtodo.Elcoeficiente enamboscasoses
parecido(0.97ellinealy0.91elparablico),porloque,enprincipioelegiramoscomo
Figura59
P g i n a |91
msadecuadoelajustelineal,peroquizserainteresantedisponerdemsdatos
paradiscriminarculpodraofrecermejorajusteymejorprediccin.
10.5
742
310
2782
150
893
159.7
982
.
70.23
357
0.56
13.31
0.007
3.48
Primerodibujamosloshistogramasdeambasvariables.
Compreselapocaasimetradelavariablepresupuestoconlaasimetraala
derechadelavariablerecaudacin,loquesignificaquetriunfanmenospelculasde
lasquelosproductoresdesearan.Enlasiguientegrficaaparecelanubedepuntos
92|P g i n a
(sealamoslaspelculasdemayorpresupuestoy/orecaudacin).Sehacalculadola
rectaderegresinytambinunaparbola,queaparecenrepresentadasenlagrfica,
yserecogenlosvaloresdeajuste (0.15y0.21,respectivamente),siendolosdos
bajos,peroalgomejorelcorrespondienteaunaparbolaopolinomiodegrado2.
P g i n a |93
Haciendolosclculos,seobtienequeelcoeficientededeterminacin
0.85.Sedejacomoejercicioparaellectordibujarlanubedepuntosyverquese
aprecia un buen ajuste por medio de una lnea recta creciente, esto es, crece el
nmerodeIPad,creceelnmerodeenfermos.
Resulta claro que se trata de dos variables con nmeros inventados a
propsitoparaquesalgaunvaloraltodelacorrelacinlineal.Evidentemente,puede
ocurrirquesecalculeestecoeficienteparacualesquieradosvariableselegidasalazar
y se obtenga un valor alto, pero quien haga un estudio debe preocuparse de
seleccionarvariablesquetengasentidorelacionarentres.
5.4
OTROSASPECTOSATENERENCUENTA
94|P g i n a
P g i n a |95
Obviamente,enlasciudadesquehanmejoradosuniveldevidaapartirdelos
aos50,secomemsyseexpulsamsCO2alaatmsfera(coches,fbricas...).
Conunadisminucinenelusodesombreros,hahabidounaumentoenel
calentamientoglobalduranteelmismoperodo.Porlotanto,elcalentamientoglobal
escausadoporpersonasqueabandonanlaprcticadeusarsombreros.
Laexplicacindeesteefectoseramuyparecidaaladelejemploanterior.
P g i n a |97
PROBABILIDAD
Cuandolasestadsticasnosdicenquelafamiliamexicanatieneunpromedio
decuatrohijosymedio,nosexplicamosporqusiemprehayunochaparrito.
MarcoAntonioAlmazn,mejicano.
Esteesuntemaenelqueempezamosaolvidarnosdelarealidadytenemos
que empezar a trabajar en lo que adora cualquier matemtico: el abstracto. La
ruptura con la realidad es brusca: nos olvidamos de los paquetes estadsticos, el
ordenador,etc.,ytrabajaremosconlamente(losquehayanhecholaESOquese
preparen).Apartirdeahora,vamosaconsiderarcomoherramientadetrabajolos
llamadosexperimentosaleatorios,que,comosunombreindica(ynosdiracualquier
ministro),sonaleatorios;esdecir,elresultadodelmismodependedelazar(aveces
llamadasuerte.Pero,cuidado,quehaybuenaymalasuerte).
6.1
ANTECEDENTESHISTRICOS
Lateoramatemticadelclculodeprobabilidadessedesarrollaapartirdel
sigloXVII,asociadaalosjuegosdeazar.Afindecuentas,lagranmayoradelosjuegos
llevaaparejadounsistemadeapuestasalrededordelmismo.Onoesmsdivertido
jugarcondineroquecongarbanzos,oporelsimplehechodeentretenerse?Porello,
siempreresultamuyconvenienteteneralgunaideadelaprobabilidaddeganar,ode
laprobabilidaddequeocurraalgnsucesofavorablealjugador.
Los juegos de azar son casi tan antiguos como el ser humano. Sumerios y
Asirios utilizaban un hueso extrado del taln de animales como ovejas, ciervos o
98|P g i n a
caballos,denominadoastrgalootalus,quetallabanparaquepudiesecaerencuatro
posicionesdistintas.Esteesconsideradoelprecursordelosdados.Asimismo,enlas
pirmidesdeEgiptosehanencontradopinturasquedatandelapocadelaprimera
dinasta(3.500a.C.)enlas
quesemuestranjuegosde
azar.
Mesalinaeraninfmanayadictaaencuentrosextramatrimoniales,quesumaridoconocay
consenta.UndalanzunretoalgremiodelasprostitutasdeRoma:ellaorganizaraenpalacio,aprovechando
laausenciadeClaudio,unacompeticinparaverquinpodaatenderamshombresenunanoche.
6
LasprostitutasaceptaronelretoyenviaronalamsfamosadeRoma,unasicilianallamada
Escila.Aquellanoche,despusdehabersidoposedapor25hombres,EscilaserindiyMesalina
salivictoriosa,puessuperlacifraalllegaralamaneceryseguircompitiendo.Segnsecuenta,
P g i n a |99
La historia de la probabilidad comienza realmente en el siglo XVII, cuando
PierreFermat(juristaymatemtico;16011665)yBlaisePascal(matemtico,fsico,
filsofo cristiano y escritor; 1623 1662) tratan de resolver algunos problemas
relacionadosconlosjuegosdeazar.Resultainteresantedestacardeunodeloslibros
de este ltimo, la Apuesta de Pascal, una discusin sobre la creencia en Dios,
basadaenprobabilidades:SiDiosnoexiste,nadapierdeunoencreerenl,mientras
quesiexiste,loperdertodopornocreer.
En aquella poca vivi tambin Antoine Gombaud, escritor francs (1607
1684) que, a pesar de no pertenecer a la nobleza, adopt el ttulo de Chevalier
(Caballero) para asignrselo al personaje de sus dilogos que representaba sus
propiasopiniones(elcaballerodeMr).Suintersporconocerculeralaapuesta
msfavorableenlosjuegosdedadosocasionunaseriedecartasentreBlaisePascal
yPierredeFermatqueestablecieronlosfundamentosdelateoramodernadela
probabilidad.
6.2
PROBABILIDAD
La probabilidad toma su forma actual a partir de los aos 30 del siglo XX,
cuando Andrey Nicolaievich Kolmogorov (como est claro, era ruso; 1903 1987)
establececonsusaxiomaslasbasesmatemticasdelateoradelaprobabilidad.Esta
apareceensufamosamonografaGrundbegriffederWahrscheinlichkeitsrechnung
lleghasta200.CuandoMesalinapidiaEscilaqueregresara,staseretirdiciendo:Estainfeliz
tienelasentraasdeacero.
TodaestabonitahistoriapuedeleerseenlanovelahistricaClaudio,eldios,ysuesposaMesalina,
deRobertGraves,excelentementedesarrolladaenlaseriedelaBBCYo,Claudio.ElpersonajedeMesalina
tambinapareceenlapelculade1954Demetriusylosgladiadores,interpretadaporlaactrizSusanHayward.
Estapelculaeslasegundapartedeotraobraclsica:Latnicasagrada,ycuyovisionadorecomendamosa
todoelquelegusteelcinederomanos.Enestapelcula,sinembargo,nopuedeadivinarsesemejante
personalidadpromiscuaenelpersonaje.
100|P g i n a
6.2.1 Definicionesbsicas
Elconjuntodelosposiblesresultadosdeunexperimentoaleatoriosellama
espaciomuestral.Serepresentaconlaletragriega.
Ejemplos:
Experimentoaleatorio:lanzamientodeunamonedadeuneuro.Posibles
resultados=Espaciomuestral={caradedonJuanCarlos,nmero1}.
Experimento aleatorio: lanzamiento de un dado de tasca. Posibles
resultados=Espaciomuestral ={1,2,3,4,5,6}.
Experimento aleatorio: nmero de amores de Mesalina en una noche de
lujuria.={0,1,2,3,...}.
Experimentoaleatorio:partidodefutbol. ={00,01,10,11,...,824,...}.
P g i n a |101
Suceso elemental. Cada uno de los posibles resultados de un experimento
aleatorio.Enelejemplodellanzamientodeundado,cualquieradelosnmerosdel
1al6esunsucesoelemental.
Suceso.Esunsubconjuntodelespaciomuestral, . Sedicequeocurre
unsucesosiocurrealgunodelossucesoselementalesquelocomponen.
Ejemplo: en el lanzamiento de un dado, el suceso
par= 2,4,6 .
=salir nmero
Sucesoimposible.Eselsucesoquenopuedeocurrirnunca.Comoconjunto,
es el conjunto vaco . Ejemplo: al lanzar un dado, =el resultado es 7, 8, o el
nmeropi.
Dossucesossellamanincompatiblessinopuedenocurrirsimultaneamente
(allanzarundadonopuedesalirunnmeropareimparalavez).Dossucesosson
incompatiblessicomoconjuntossondisjuntos(
.
102|P g i n a
6.2.2 Sucesosyconjuntos
Comoacabamosdever,unsucesoesunsubconjuntodelespaciototal.Las
propiedades de los conjuntos se vieron en algn curso muy lejano enel colegio o
instituto,peroconvienerecordarlas,porquevanaserdegranutilidadparaelclculo
deprobabilidades.
Unin(deconjuntososucesos): eselconjuntoosucesoformadopor
loselementosqueestnen estnen .
Interseccin:
est formado por los elementos que estn
simultneamenteen yen .
Diferencia:
estformadoporloselementosde queNOestnenB.
P g i n a |103
Figura61
Launineinterseccindesucesosoconjuntoscumplenlaspropiedades
conmutativayasociativa:
,
y,obviamente,operacionescomolauninointerseccinpuedengeneralizarseams
dedossucesosoconjuntos.Quientengadudas,queloverifiquehaciendolosdibujos
comoenlaFigura61(siemprequesetengandudasdelresultadodeoperacionescon
sucesosoconjuntos,serecomiendahacerlosdibujos).
104|P g i n a
6.2.3 Probabilidad
Esunafuncinqueleasignaacadasuceso deunespaciomuestralun
nmerollamadoprobabilidadde ,verificando:
1.)Esunnmeroentre0y1.0
1.
2.)Laprobabilidaddelespaciomuestrales1.
1.
3.)Siseconsideran sucesosincompatibles(coninterseccinelvaco,
,si
,laprobabilidaddelaunineslasumadelasprobabilidades:
. . .
...
EstastrespropiedadessellamanaxiomasdeKolmogorov.Paraentenderlas
mejor, as como para entender las propiedades que daremos a continuacin,
convienepensarenlaprobabilidadcomolamedidadeunconjunto,siendoeltotal
eldemayormedida(mide1 ,ycualquierotrosucesomidemenosqueeltotaly,
comomuypoco,0.Latercerapropiedadestablecequesitenemosvariossucesoso
conjuntosquenotieneninterseccinentres,lamedidadelaunindetodosesla
sumadelasmedidas.
ApartirdelosaxiomasdeKolmogorov,yteniendoencuentaqueunsuceso
esunconjunto ,puedecomprobarsequeseverificantambinlassiguientes
propiedades:
P1) La probabilidad del complementario de un suceso es 1 menos la
probabilidaddedichosuceso:
1
(vereldibujodeladerechaenla
Figura61).
P g i n a |105
P2) La probabilidad del suceso imposible es cero (porque es el
complementariodeltotal .
P3)Si (siemprequeocurre ocurre
,entonces
P4)
(vase
probabilidad=medida).
la
siguiente
figura
recurdese que
Figura62
Generalizacina sucesos:
. . .
...
...
106|P g i n a
...
. ..
1
. . .
P5)
(verFigura61).
Adems,alcumplirselasleyesdeMorgan,quedicen:
a)elcomplementariodelaunineslainterseccindeloscomplementarios:
. . .
. . . ,
b)elcomplementariodelainterseccineslaunindeloscomplementarios:
. . . ,
. . .
podremosutilizartambinque
1
P6)
. . .
. . .
.
. . .
. . .
Dejamosunresumen.Consejo:imprimir,agrandarypegarenlapuerta
de la habitacin en vez del poster de Justin Bieber/El Ch/Scarlett/Los
Beatles/Zapatero...
P(total)=1
P(cualquiersuceso)esunnmeroentre0y1
P(sucesoimposible)=0
SiAestcontenidoenB,P(A)P(B)
P(complementariodeA )=1P(A)
P A B
P A
P B
P A B .SiAB= entoncesP(AUB)=P(A)+P(B)
P(AUBUC)=P(A)+P(B)+P(C)P(AB)P(AC)P(BC)+
+P(ABC)ysilauninesdemssevacomplicando
P(AB)=P(A)P(AB)
1
. . .
1
. . .
.
P g i n a |107
6.2.4 Asignacindeprobabilidades
Hemos visto las propiedades que cumple la probabilidad. Ahora, cuando
consideramosunexperimentoaleatorio,ylosposiblessucesosquepuedenocurrir
en el mismo, cmo se sabe cul es su probabilidad? Hay 3 maneras de asignar
probabilidadesasucesos.
1.)Asignacinfrecuentista.
Consiste en tener en cuenta que, a medida que se repite un experimento
aleatorio un nmero grande de veces, la frecuencia relativa de ocurrencia de
cualquiersucesoconvergeaunvalorfijo.
Esdecir,sielexperimentoserepite veces( muygrande),y esunsuceso,
entonces
108|P g i n a
2.)Asignacinequiprobable.
Si el experimento aleatorio da lugar a un espacio muestral finito de
elementos:
, ,...,
seleasignaatodoslossucesoselementaleslamismaprobabilidad1/ .
Entonces,cualquiersuceso estarformadopor sucesoselementales,yla
probabilidaddelsuceso ser
casos favorables
casos posibles
EstafrmulaeslaconocidaregladeLaplace.
Estatipodeasignacinvaldra,porcitaruncasosencillo,cuandolanzamosun
dado.Laprobabilidaddeque,porejemplo,salgaunnmeropar,es3entre6(casos
favorablesentreposibles).
3.)Asignacinsubjetiva.
Cuando no es posible una asignacin de las dos formas anteriores, ser
necesarioasignarprobabilidadesalossucesosdeacuerdoconlaexperienciadela
personaquerealiceuobserveelexperimento(probabilidaddequellueva,dequese
produzcaunterremotodeciertamagnitud,dequeunaparejaseacabecasando,de
queunmatrimonioacabeconcuernos,dequeungordofeopuedaseduciraNatalie
Portman...).
P g i n a |109
Unavezquesabemoscomoasignarprobabilidadesalosprincipalessucesos
de un experimento aleatorio, podremos calcular la probabilidad de otros sucesos
asociadosmediantelaspropiedadesvistasanteriormente(P1P6).
Ejemplosvariados:
110|P g i n a
P g i n a |111
Ejemplo 6-2 Se sortea un viaje a Tailandia entre los 120 mejores clientes de
una agencia de automviles. De ellos, 65 son mujeres, 80 estn casados y 45
son mujeres casadas. Cul es la probabilidad de que le toque el viaje a un
hombre? Cul es la probabilidad de que le toque a un hombre soltero?
Solucin.
Denotamoslossucesos =casado, =soltero, =hombre, =mujer.
Conlosdatosquenosdanpodemosformarlatabla:
45
80
Ahorarellenamosloshuecos
65
120
112|P g i n a
35
45
80
20 55
20 65
40 120
20/120 1/6.
Ejemplo 6-3 En un partido poltico, el 70 por ciento de los altos cargos recibe
un sueldo fijo o un sobre con dinero negro, si bien el 40 por ciento recibe
ambas cosas. Si hay un 50 por ciento de altos cargos que no acepta sobres
con dinero negro, calcular la probabilidad de que, escogido al azar un alto
cargo: a) slo reciba el sueldo fijo, b) cobre dinero, pero de una sla de las
maneras, no de ambas, c) est ah por amor al arte (no cobre nada).
Solucin.
Definimos los sucesos
recibir sueldo fijo y
enunciadodelproblemanosdalasprobabilidades
0.5.
recibir sobres. El
0.7,
0.4,
0.5, y,como
Apartirdeestosdatos,podemosobtener:
, entonces
P g i n a |113
Ahorapodemosresolverlosapartados.
0.6
a)
0.4
b)
fijo)]=
recibasueldofijoYnorecibasobres)=
0.2.
recibasueldofijoYnorecibasobres)O(recibasobresYnorecibasueldo
0.6
0.5
2 0.4
0.3.
1 0.7 0.3.
0.7,
0.5y
0.6,
0.65,
0.3.
0.45,
114|P g i n a
0.3
Luegolaprobabilidadpedidaes1
1 0.9 0.1.
0.7
0.6
0.65
0.45
0.4
0.5
6.2.5 Probabilidadesgeomtricas
La regla de Laplace puede aplicarse a ciertas situaciones donde aparecen
sucesos asociados a conjuntos en el plano o en el espacio que podamos medir
(longitud, rea, volumen... ). La probabilidad de un suceso ser la medida de
divididaporlamedidadeltotal.
Elsuceso eslacabezadeKevin,cuyamedidaeselreadeunaelipse,
22 1174.955centmetroscuadrados.
Porlotantolaprobabilidaddeacertares
1174.955
1174.955
30
30
10000
0.00391,
que,comovemos,esmuypequea.YonathanyKevinestnpensandoahoraencmo
vengarseadecuadamentedelbedeldelinstituto.
P g i n a |115
6.2.6 ProbabilidadCondicionada
SupongamosqueunadelegacindeAmnistiaInternacinalvisitaporsorpresa
unacrcelenGrecia,trasunajornadareivindicativaanteelparlamento.Seleccionan
alazar100presosyrealizanunaclasificacindelasiguientemanera:Hombres(H)y
Mujeres(H),quenopresentenlesionestrasladetencin(NL),quepresentenlesiones
moderadas (LM) y que presenten lesiones serias (LS). La tabla resultante es la
siguiente:
50 15
15 10
5
5
70 30
65
25
10
100
10
.
100
Apareceenlaprisinporsorpresaunadiputadafeministaradical,queexige
entrevistaraunamujer.Siahoracalculamoslaprobabilidaddequelamujerelegida
presentelesionesmoderadas,dichaprobabilidadnocoincideconlaanterior.Enel
primercaso,elegamosalazarunpresodelos100,yqueramosquecumpliesedos
condiciones:fuesemujerytuvieselesionesmoderadas.Encambio,ahoraelegimos
unamujer(estamosbuscandoenungrupomspequeo:loscasosposiblesahora
son 30). La probabilidad pedida se escribe (probabilidad del suceso
dado o
condicionadoaelsuceso ):
10
/
.
30
Y,comolaprobabilidaddeque,alescogerunpresodelgrupoalazar,seauna
mujer,es
30
,
100
116|P g i n a
severificaque
10
100
30 10
,
100 30
o, lo que es lo mismo,
Dedondeobtenemosque
/
Generalizacin:Dados2sucesos y
laprobabilidadcondicionadasecalculacomo
/
y
.
0,
(talesque
0 ,
Enconsecuencia,vemosquelaprobabilidaddeunainterseccinsepuede
obtenercomo
(61)
6.2.6.1 Propiedadesdelaprobabilidadcondicionada
La probabilidad condicionada verifica las mismas propiedades que hemos
/
vistoparalaprobabilidad,estoes,si estalque
0,entonces
1
/
/ ,etc.
/ ;si ,entonces
Si,porejemplo,apareceenlacrcelunministroquequieresacardelaprisin
a su hijo gatoflauta (no puede con l, a pesar de haberlo enviado a hermano
mayor),culeslaprobabilidaddequesuhijonoaparezcaconlacarahechaun
poema?Podemoscalcular
5/100
65
/
1
/
1
1
.
70/100 70
P g i n a |117
0.25
0.12 1
0.09,
esdecirel9porciento.
118|P g i n a
operarlos a la vez. El camillero, que ya no sabe lo que hace tras una jornada
maratoniana de 23 horas sin dormir, selecciona a dos enfermos al azar y se
los lleva al quirfano. Calcular la probabilidad de que slo uno de los operados
tuviera tendinitis en el hombro, y la probabilidad de que el enfermero haga un
pleno (la tuvieran los dos).
Solucin.
Consideramos los sucesos =primero seleccionado tiene tendinitis y
=segundo seleccionado tiene tendinitis. La primera probabilidad que debemos
.Estaprobabilidades
calculares
,donde
y
Es posible que alguien piense que en esta ltima frmula faltara restar la
probabilidaddelainterseccin.Loqueocurreesquelainterseccinde con es
elvaco:
,puestoqueestnlossucesosysuscomplementarios.
Ahora,
casosfavorablesentreposibles)
dadoqueelprimeronolatiene)=
Resulta:
hayuncasoposiblemenos).
elprimeronotienetendinitis) P(elsegundos
.
2 8
10 9
8 2
10 9
0.355.
Laprobabilidaddequelosdosaoperartengantendinitises
0.022.
P g i n a |119
6.2.7 Regladelproducto
Generalizandolafrmula(61)paralainterseccindedossucesos,cuando
consideramoslainterseccinde sucesos,suprobabilidadseobtieneporlallamada
regladelproducto:
. . .
. . .
que,comovemos,consisteenquelaprobabilidaddelainterseccinde sucesosse
calculamultiplicandolasprobabilidadessucesivas,perocondicionandocadasuceso
aqueocurrantodoslosinmediatamenteanteriores.
120|P g i n a
P g i n a |121
/ ,
donde
/
/
1
1
/
Entonces
0.5;
0.85 0.5
0.575;
0.85 1
0.575
0.63875;
0.85 1
0.63875
0.30706.
0.056.
6.2.7.1 Independenciadesucesos
2sucesos y sonindependientessilaocurrenciadeunonoinfluyeenla
ocurrenciadelotro.Severificaentoncesque
/
esdecir,queelquehayaocurridounonoinfluyeparanadaenlaocurrenciadelotro.
Si sucesossonindependientes,entonceslaprobabilidaddelainterseccin
eselproductodelasprobabilidades:
. . .
. . .
correspondera a
preguntarnos, antes de hacer los exmenes, cul es la probabilidad de aprobar los
dos. Si el profesor no tiene en cuenta la nota del primero para el segundo (ni al
revs), los sucesos seran independientes, y
.
La probabilidad de una interseccin supone calcular la probabilidad de que
sucedan 2 cosas simultneamente. La probabilidad condicionada supone que una de
122|P g i n a
0.5 0.1
0.8 0.3
0.012.
Yporfinentendemosquehayatantossuspensosenlasingenieras.
Ejemplo 6-11 Por una carretera de Texas circula Charlie un poco borracho
porque acaba de dejarle la novia. Al saltarse una milla el lmite de velocidad,
le aparecen 2 coches de polica que le invitan amablemente a parar y salir
del coche con las manos en alto. Charlie sale del coche y es encaonado por
3 agentes, que le dicen que suba las manos o le disparan. Charlie est
pensando en echar la mano al bolsillo para que lo fran a disparos, porque
total vivir sin Marujita va a ser un sinvivir. Con lo cocido que est, la
probabilidad de que haga lo que est pensando es 1/2. Teniendo en cuenta
que los 3 policas lo tienen encaonado a muy poca distancia, la probabilidad
de que le den es 0.95 para 2 de ellos y slo 0.5 para uno con gafas que entr
por recomendacin. Cul es la probabilidad de que haya que asistir al
entierro de Charlie?
Solucin.
P g i n a |123
Denuevoestamosenunasituacindondelossucesossonindependientes.
Sea =Charlie lleva la mano al bolsillo y =El polica acierta el disparo. La
probabilidaddequematenaCharliees
0.2256.
VemosqueanhayposibilidadesdequeCharliesufraunnuevodesamor.
6.2.8 Teoremadelasprobabilidadestotales
,
, si
Launindetodoseseltotal:
yademslaprobabilidaddecadaunodeellosesdistintadecero.
Visualmente, un sistema completo de
sucesos es una particin del espacio total en
conjuntos, todos disjuntos (no tienen
interseccin entre s), y todos midiendo algo
(tienenprobabilidaddiferenteacero).
Elteoremadelasprobabilidadestotalesdicelosiguiente:
Consideremosunsistemacompletodesucesos,ysea otrosuceso, ,
para el que se conocen las probabilidades
/ para todo . Entonces, la
probabilidaddelsuceso vienedadapor:
124|P g i n a
Demostracin.
Lademostracinestansencillaqueconvieneverlaparaseguirpracticando
conlasprobabilidadesdelossucesos.
,esdecir intersecadoconcadaunodelossucesos .
. . .
son disjuntos,
P g i n a |125
de vez en cuando, y ah se las vieran y desearan. Budin elije un antiguo Gulag
en Siberia; un destartalado campo de trabajo de 500 metros de ancho por 1
kilmetro de largo, rodeado de alambradas para que no puedan escapar. El
recinto se encuentra dentro de una llanura siberiana de 25 km cuadrados de
nieve y minas antipersona.
Como la flota area rusa est muy desvencijada, no disponen de
helicpteros para llevar a los presos encima del recinto carcelario y soltarlos
dentro, as que se sita un caon en la frontera de la llanura siberiana con la
intencin de usar los presos como proyectiles, y que caigan dentro del recinto
carcelario. Ahora bien, el can dispara correctamente slo una de cada tres
veces. Otra vez lanza aleatoriamente el preso dentro de la llanura siberiana,
y otra vez no dispara nada y el preso explota dentro del can. Cul es la
probabilidad de que un preso introducido en el can llegue al Gulag?
Solucin.
Denotemos por =caer dentro del Gulag,
correctamente, =el can dispara aleatoriamente y
mataalpreso.
Enlaprctica,loquehacemosesversi
lossucesos nopuedanocurrirsimultaneamente.
0.5 1
25
0.02.
Entonces,laprobabilidaddequeunpresolleguealGulages
126|P g i n a
1
3
0.02
1
3
1
0
3
0.34.
0.5,
0.3,
0.9.Entonces
/
/
0.2. Por
P g i n a |127
0.95 0.5
0.9 0.3
0.9 0.2
0.925.
6.2.9 RegladeBayes
ElllamadoTeoremadeBayes7utilizalasmismashiptesisosupuestosqueel
teoremadelasprobabilidadestotales:
,
Seaunsistemacompletodesucesos
Sonsucesosincompatibles2a2:
,...,
,esdecir:
,si
ysontalesquelaprobabilidaddecadaunodeellosesdistinta
decero,ysea unsucesoparaelqueseconocenlasprobabilidades
/ .
Entonces,lasprobabilidades
/ sepuedenobtenerdelaforma
/
/
,
1, . . . , .
EstafrmulaesconocidacomoreglaofrmuladeBayes.
Lademostracintambinlaescribimos,porsermuysimple:porlafrmulade
laprobabilidadcondicionada,setieneque
/
.
Ahora,paracalcular
, eneldenominador,podemosusarlafrmuladela
probabilidadtotal.Enelnumerador,laprobabilidadlacalculamossegnladefinicin
delaprobabilidaddeunainterseccin(61):
/ ,
yyaestlistoelresultado.
7
ThomasBayes,matemticoyministropresbiteriano(curaprotestante).
128|P g i n a
Ejemplo 6-14 Mesalina se acuesta con Marco Aurelio el 30 por ciento de las
veces, con Augusto Csar el 60 por ciento, y el 10 por ciento restante con
alguno de los criados. La probabilidad de que se quede embarazada de Marco
Aurelio es 0.9, de Augusto Csar es 0.75 y de los criados 0.5. Tras la amenaza
de su marido Claudio de mandarla ejecutar, Mesalina promete dejarse de
tonteras y no volver a serle infiel. Una noche, un criado observa a Mesalina
saliendo a escondidas de su habitacin para ir a un cuarto oscuro. Tras una
temporada, aparece embarazada. Cul es la probabilidad de que se hubiera
acostado con Augusto Csar (sabiendo que el hijo no puede ser de Claudio,
porque es estril)?
Solucin.
Definimoslossucesos:
P g i n a |129
=acostarseconMarcoAurelio,
=acostarseconAugustoCsar,
=acostarseconalgncriado,
=quedarseembarazada.
Lasprobabilidadesquesabemosson:
0.3,
0.6,
0.1. Como vemos, las probabilidades
suman1,luegoestos3sucesos(queademssonincompatibles,porqueelenunciado
nohablaparanadadecamastriples)formanunsistemacompletodesucesos.
Tambinsabemosque
0.9,
0.75,
0.5.
Mesalinasehaquedadoembarazada,yqueremoscalcularlaprobabilidadde
quehayapodidoacostarseconAugustoCsar.Tenemosquecalcularlaprobabilidad
condicionada
/ .PorelteoremadeBayes:
/
/
0.9 0.3
0.75 0.6
0.75 0.6
0.5 0.1
0.584.
Comopodemosobservar,laprobabilidadapriorideacostarseconAugusto
era0.6.Unavezqueelsuceso haocurrido,laprobabilidadaposterioricambia
0.584.
130|P g i n a
.PorelteoremadeBayes:
/
/
0.9 0.5
0.9 0.5
0.6 0.35
0.7 0.15
0.588.
P g i n a |131
6.2.10 Resumenparavagos
Probabilidadcondicionada.
Si
0,entonces
.Si
0entonces
Probabilidaddelainterseccin.
/
.
Si y son independientes,
Enconsecuencia
.
/
Sitenemos sucesos(Regladelproducto):
. . .
/
. . .
. . .
Ahorabien,sisonindependientes(quelaocurrenciadecadaunonoinfluya
enlaocurrenciadeningnotro):
. . .
. . .
Probabilidadtotal.
Si tenemos , , . . . , , tales que
...
sucesossonincompatibles
,entonces,paraotrosucesoB,
/
,entonces
/
1, y los
, tales que
,yconocemos
132|P g i n a
Conclusinfinal.
Recuerda:cualquierprobabilidadesunnmeroentre0y1.Siestshaciendo
un problema, y despus de calcular la probabilidad del complementario, luego la
interseccin,luegolaunin,Bayes,tarar,tarar...tesaleunnmeronegativooms
grandeque1,tuprobabilidaddeaprobarelexamenesprcticamentenula.
Msejerciciosdeestetema,eninternet,enlibroscomo[14],omsdivertidos
en[12].
P g i n a |133
VARIABLESALEATORIAS
El80porcientodelagentedicenocreerenlasestadsticas.El20porciento
restantevivedelasestadsticas.
Estudioserio.
Enocasiones,estilasociarunnmeroacadaresultadodeunexperimento
aleatorio. Por ejemplo,en elexperimento aleatorio lanzar una moneda 3 veces,
podemosconsiderarlavariable =nmero de caras. tomarlosvalores0,1,2,3.
En el experimento aleatorio elegir un enfermo al azar de un hospital,
podemos considerar las variables =peso en kilos, =estatura en metros,
=temperatura...
Una variable que asocia a cada resultado de un experimento aleatorio un
nmerorecibeelnombredevariablealeatoria.
DefinimosRangoosoportedelavariablealeatoria comoelconjuntode
todos los posibles valores de la variable. En funcin de su rango, una variable
aleatoriapuedeser:
Discreta:surangoesunconjuntofinitooinfinitonumerable8devalores.
Continua:elrangoesunintervalodenmerosreales.
Ejemplo:lavariableAltura de personas.Rango= 0,3 .
Unconjuntoinfinitonumerableesaquelquetienetantoselementoscomoelconjuntode
los nmeros naturales. Los nmeros naturales son 1,2,3,... y hasta infinito. Entre cada 2 nmeros
consecutivos no hay ningn otro. Este conjunto se dice que es infinito pero numerable, por
contraposicinaotrosconjuntostambinconinfinitoselementos,perocondiferenteforma,como
puedeserunintervalodenmerosreales:porejemplo, 0,1 .Dentrodeesteintervaloestntodos
aquellos nmeros entre el 0 y el 1, y con tantos decimales como queramos. Evidentemente hay
infinitosnmerostambin,peroentrecadadospodemosescribirtantoscomoqueramos.
134|P g i n a
VARIABLESALEATORIASDISCRETAS
Unavariablealeatoriadiscreta estdefinidaporlosvaloresquetomaysus
probabilidades,lascualesdebernsumar1.
(71)
dondelasprobabilidades
...
1.
Estatablaseconocecomoleydeprobabilidad,distribucindeprobabilidad,
funcin de probabilidad o funcin de masa de probabilidad. Grficamente, se
representaconundiagramadebarras(verlaFigura71ylaFigura72).
1/2
1/2
P g i n a |135
8 .
1/
1/
1/
Figura71
7.1.1 Funcindedistribucin
Eslafuncinqueasociaaunpunto laprobabilidadacumuladahastaese
punto:
.
Enelcasodeunavariablediscreta,
136|P g i n a
EnlaFigura72ylaFigura73podemosverlaleydeprobabilidadylafuncin
dedistribucindeunavariablediscreta .
Figura72
Lafuncindedistribucines,comovemos,unafuncinescalonadaque,en
cadavalor ,aumentaelvalorcorrespondientedelaprobabilidadenesepunto
.
Es, por lo tanto, una funcin no decreciente que siempre vara entre 0 y 1.
Matemticamente,lafuncindedistribucinparalavariable generalqueaparece
en(71)seescribedelaforma:
...
,
,
,
P g i n a |137
...
138|P g i n a
Solucin.
a) Construimos una columna sumando las probabilidades para obtener la
funcindedistribucin.
2
3
4
5
6
7
8
0.01
0.08
0.25
0.32
0.28
0.05
0.01
0.01
0.09
0.34
0.66
0.94
0.99
1
Paraescribirdeformacorrectalafuncindedistribucinnicamentehayque
tenerencuentalasdiscontinuidadesenlospuntosdelavariable .
0
0.01
0.09
0.34
0.66
0.94
0.99
1
2
2,3
3,4
4,5
5,6
6,7
7,8
8.
b)Laprobabilidadquetenemosquecalculares
4
4 ,que,sin
msquebuscarenlatabladelafuncindedistribucin,vemosquees0.34.
P g i n a |139
Figura73
7.1.2 Variablesdiscretasinfinitasnumerables.
Lasvariablesdiscretaspuedentomarunconjuntoinfinitodevalores,siempre
queesteseanumerable.Porejemplo,lavariable =nmero de hombres con los
que podra yacer Mesalinatomalosvalores
1,2,3. .. Lgicamente,laprobabilidad
de tomar un valor deber ir disminuyendo de alguna forma, puesto que debe
verificarsesiemprequelasumadeprobabilidades
sea1(ynohay
ningn ser humano catalogado a da de hoy como capaz de infinitos encuentros
amorososincluyendoaLisaSparx,quecitaremosenelprximocaptulo,quese
sepa).
140|P g i n a
, siendo unnmeromayorquecero.
P g i n a |141
Hay quien dice que, finalmente, el estudiante consigui una cita con un
travestiqueestabaenelcalabozo,perodeesoyanohaypruebas.
7.2
VARIABLESALEATORIASCONTINUAS
Unavariablealeatoriacontinuaesaquellaquepuedetomarcualquiervalor
(al menos tericamente) entre 2 fijados. Los valores de la variable (al menos
tericamente)noserepiten.
Ejemplos: =Tiempo observado al recorrer una cierta distancia, estatura, peso,
nivel de colesterol en sangre.... Todas las precisiones realizadas en el captulo de
variables estadsticas son igual de adecuadas en este caso. Cuando observamos
valoresdeunavariablealeatoriacontinua,existeunalimitacinencuantoalnmero
devaloresquepuedetenerlamisma.Estoes,enlaprctica,lavariablenopuede
tomar infinitos valores. A la hora de medir el peso o la estatura, por ejemplo, se
trabajaconunnmeroprecisodedecimales(quepuedesergrandeperonuncaser
infinito).Loqueseesthaciendoesunallamadadiscretizacinalahoradetomar
datos.Sinembargo,desdeunpuntodevistamatemtico,consideraremossiempre
queunavariablecontinuapuedetomarinfinitosvalores.Estonospermitirtrabajar
142|P g i n a
conpropiedadesmatemticasquenosaportarnmuchainformacindelavariable
considerada.
7.2.1 Funcindedensidad
Lasvariablesaleatoriascontinuasvienencaracterizadasporunafuncin que
sellamafuncindedensidad,queesunageneralizacindelafuncindemasade
probabilidad. Esta funcin (real, de variable real), debe verificar que
0 en
cualquiervalorde (eldibujodelafuncindebeestarporencimadelejehorizontal)
yquelaintegral
1(elreabajolacurvayelejehorizontalvaleuno),
comovemosenlafigurasiguiente.
Elconceptodefuncindedensidadsurgedelageneralizacindelpolgonode
frecuencias. En el captulo de estadstica descriptiva vimos que el polgono de
frecuenciasconsistesimplementeenunirlospuntosmediosdelasbarrassuperiores
delosrectngulos,enelhistogramadefrecuencias,ycomprobbamosqueelrea
encerrada por el histograma o el polgono de frecuencias es 1 (considerando
frecuenciasrelativas).
P g i n a |143
Supongamosahoraquetomamossucesivamentediferentesmuestrasdeuna
variablecontinua,cadavezconmayornmero dedatos.Amedidaque aumenta,
elnmerodeintervalosalrealizarunhistograma(opolgono)defrecuenciastambin
crece.Lalneadelpolgonodefrecuenciassevadibujandoconsegmentoscadavez
mspequeos,queacabandefiniendounafuncinmatemticaconalgunafrmula
especfica.EnlaFigura74ylaFigura75vemosunejemplo,dondeelegimosuna
variable,yvamoscogiendomuestrasdelamisma,aumentandoeltamaomuestral
sucesivamente.Comprobamosqueelpolgonodefrecuenciassevaperfilandocada
vezms.
Figura74
144|P g i n a
Figura75
Lafrmulaexactadelafuncin secorresponderconalgunadelasmuchas
funcionesdedensidadquehansidodefinidasalolargodelahistoria(cadaunasuele
tenerunnombreespecfico,ysufrmulayafueinventada,oescrita,poralguienms
listo que nosotros Gauss, Student, Snedecor... , as que no tenemos que
preocuparnosdeadivinarculeslafuncin).EnlaFigura76tenemosunejemplode
unafuncindedensidaddetipoexponencial(quecorrespondealafuncinqueva
dibujando el polgono de frecuencias de las figuras anteriores), cuya expresin
matemticaes
0
si
si
0
0
con
(72)
P g i n a |145
Estetipodefuncincorrespondealafuncindedensidaddevariablesque
mideneltiempodevida.Comopodemosobservarenlagrfica,elhistogramade
frecuenciasseadaptaperfectamentealamedicindeltiempodevidadeunconjunto
muygrandedeseresvivos,odecomponentesdeaparatoselectrnicos(transistores,
circuitos). Volveremos a citar esta variable, con mayor detalle, en el captulo
siguiente.
Figura76
Unavezexpuestoque,enunavariablealeatoriacontinua,laspropiedadesde
la misma vendrn descritas por la funcin de densidad, indiquemos que las
probabilidadessecalcularncomounaintegraldefinida:
,
quecorrespondealreabajolacurva entrelosvalores y
(Figura77).
146|P g i n a
Figura77
P g i n a |147
Precisamenteporestehecho,cuandocalculemoslaprobabilidaddequeuna
variablecontinuatomevaloresentredosnmeros y ,tendremosque
,
osea,todasesasprobabilidadesdanlomismo,porqueconsiderarunpuntomsno
cuenta (al tener probabilidad cero). Esto va a venir muy bien cuando se hagan
ejerciciosdevariablescontinuas,porquelaprobabilidaddeequivocarsesercero.
Funcindedistribucin.Lafuncindedistribucintieneelmismosignificado
para una variable aleatoria continua que para una discreta, y es la probabilidad
acumuladahastaunpunto .Elequivalentecontinuodeunasumaeslaintegral:
,
148|P g i n a
Figura78
lafuncintomavaloresmayoresqueceroapartirde 4,porloqueelareadesde
hastacualquiervalor seconvierteenelreadesde 4hasta .
La funcin de distribucin, matemticamente, ser una funcin no
decrecientequevaraentre0y1. Alcontrarioqueenelcasodeunavariablediscreta,
la funcin de distribucin de una variable continua es una funcin continua. Por
ejemplo,lafuncindedistribucincorrespondientealadensidadexponencial(72)
es:
0
1
si
si
EstafuncinaparecedibujadaenlaFigura79.Ampliaremosmsdetallesde
lavariableexponencialenelcaptulosiguiente.Porltimo,indicarque,debidoaque
lafuncindedistribucinsecalculacomolaintegraldelafuncindedensidad,sta
ltimaesladerivadadelafuncindedistribucin:
P g i n a |149
,
demaneraquesi,paraunavariablecontinua,conocemossufuncindedistribucin,
nohaymsquederivarlaparaobtenerlafuncindedensidad.
Figura79
150|P g i n a
7.3
MEDIDASCARACTERSTICASDEUNAVARIABLEALEATORIA
Igualqueenelcasodevariablesestadsticas,paralasvariablesaleatoriasse
puedendefinirmedidasdecentralizacin,dispersinyforma.Lasmsutilizadasson
elvalormediooesperanza(generalizacindelamediaaritmtica)ylavarianza(osu
raizcuadradaladesviacintpica).Tambinpodemosdefinirycalcularlosmismos
parmetros que hemos visto en variables estadsticas: mediana, cuartiles, moda,
coeficientedesimetra,etc.,yelsignificadodelosmismoscoincideconeldefinido
encadacaso.Vamosavercomosecalculanlosparmetrosmsutilizados.
7.3.1 Esperanzadeunavariablealeatoria
Eslageneralizacindelamediaaritmtica.Tambinsellamavalormedioo
valoresperado,yserepresentaporlaletragriega .
Si
es una
variable
aleatoria
discreta (representada,
demanerageneral,porla
tabla (71), se calcula
comolamediaaritmtica
delosvalores,esdecirla
suma de los valores por
sus probabilidades (las
probabilidadesseranlasfrecuenciasrelativas).
.
Recordemos que la media aritmtica de una variable estadstica se defini
como
P g i n a |151
...
que,obviamente,seraequivalenteaescribir
es decir, sera la esperanza de una variable cuyos valores aparecen todos con la
mismaprobabilidad
1/ . Siaunavariableestadsticalarepresentamosporsus
valores ysusfrecuenciasrelativasson
/ ,entonceslamediaaritmticase
puedeescribircomo
o,comovemos,sumadevaloresporfrecuencias.Enelcasodeunavariablealeatoria,
las frecuencias se transforman en probabilidades (de ocurrencia). Por eso la
esperanzaesunvalormedioesperado.
Si es una variable aleatoria continua, la variable toma infinitos valores.
Comovimosenlafuncindedistribucin,elequivalentecontinuodelasumaesla
integral.Lafrmulamatemticaincluyeenestecasoalafuncindedensidad:
.
Nota 7-1 Puede ocurrir, tanto en variables discretas como continuas, que el valor que
se obtenga al calcular la esperanza sea un nmero que tiende a infinito. En este caso,
se dice que la variable aleatoria no tiene esperanza. Si la variable aleatoria no tiene
esperanza, tampoco tiene varianza. Ms adelante veremos algn ejemplo.
7.3.2 Lavarianza
Serepresenta
,yladesviacintpica eslaraizcuadrada(con
signopositivo)delavarianza.Igualqueenelcasodevariablesestadsticas,midela
dispersindelavariable,ysecalculacomolamediadelasdesviaciones(elevadasal
cuadrado)delosvaloresasumedia:
152|P g i n a
.
Tambinpuedecalcularsecomo
.
(73)
SiXesunavariablediscreta,laformadehacerlosclculosser
,
enfuncindelafrmula(73).
SiXesunavariablecontinua,
yque,igualqueantes,envirtuddelafrmula(73),puedecalcularsecomo
2 0.01
3 0.08
4 0.25
5 0.32
6 0.28
7 0.05
8 0.01
4.97.
Lavarianzalacalculamosmediantelafrmula
.
Comolamediayalahemoscalculado,calculamoselprimertrmino(quees
igualquecalcularlamediadelosvaloresalcuadrado):
P g i n a |153
0.28
7 0.05
2 0.01 3 0.08
8 0.01 25.93.
4 0.25
5 0.32
Porlotanto,lavarianza
25.93
4.97
1.22.
7.3.3 Propiedadesdelamediayvarianza
La media y la varianza de una variable aleatoria poseen las mismas
caractersticasopropiedadesvistasparalasvariablesestadsticasunidimensionales,
enlaseccincorrespondiente.Concretamente,podemosresumirquesi
y
.
(74)
...
...
...
(75)
.
Unageneralizacindeestasdosltimasfrmulaseselsiguienteresultado:si
tenemos , . . . , variables independientes, y nmeros reales , , . . . , ,
entonces:
...
...
...
(76)
154|P g i n a
.Porlotanto
2
2 500
1. 5
1.5
4
7.3.4 Mediana
Lamediana eselvalorquedejaacadaladoel50porcientodelapoblacin
(laprobabilidadacadaladoes0.5):
0.5 y
0.5 si es discreta,
0.5 si es continua.
P g i n a |155
7.3.5 Cuantil
Eslageneralizacindelamediana.Dadounvalor , 0
1,elcuantil
eselpuntoquedejaunaprobabilidad asuizquierda.
si es continua.
si es discreta,
Aligualqueenelprimercaptulo,podemosdefinir:
loscuartiles,quedividenalapoblacinen4partesiguales: eselcuantil
, eselcuantil . oMediana,y seraelcuantil . (verlaFigura710).
losdeciles,quedividenalapoblacinen10partesiguales.
lospercentiles,quedividenalapoblacinen100partesiguales.
Figura710:cuantil
,quedejaalaizquierdareaoprobabilidadp.
7.3.6 Moda
Lamoda eselvalormsprobableofrecuente,esdecir,elvalor con
mayor si esdiscreta(elvalorqueaparececonmayorprobabilidad),oelvalorque
maximizalafuncindedensidad si escontinua.Lamodanotieneporquser
nica.Enelcasodeunanicamodasedicequeladistribucinesunimodal,ycon
msmodasmultimodal.
156|P g i n a
UnejemplolovemosenlaFigura711.Lavariablequeposeelafuncinde
densidad que vemos en la grfica tiene 2 modas relativas (los valores que hacen
mximalafuncinenciertosintervalos,yunamodaabsoluta,sealadaenelgrfico).
Enestaimageninclumostambinlaposicindeloscuartiles,ovaloresque
dividen la variable en cuatro partes iguales segn el rea o probabilidad, que
aparecenresaltadosenelejehorizontaldelagrfica.
Figura711
P g i n a |157
est volviendo cada da ms adicto al sexo, y se encuentra decidido a
descender por lo menos a un sueo de nivel 4 para ligar con una ta y estar
dale que te pego durante 50 aos (tiempo del sueo). Para entrar en cada
nivel del sueo le ha comprado unos tripis a un mdico deportivo, que le
garantizan un sueo lcido (como se llaman los sueos donde se controla
lo que uno hace) con probabilidad .
a) Determinar la funcin de masa de probabilidad de la variable =nivel del
sueo en el que liga el ejecutivo.
b) Calcular la probabilidad de que consiga llegar al nivel 4 y all ligar.
c) Calcular el nivel medio esperado al cual se llega (y se liga) con las
pastillas del mdico.
Solucin.
a)Llamemos =ligary =niveldesueo .Tenemosque
Nivel0(vidareal):
1
.
4
0
Nivel1(sueo):
1
3 1
.
4 4
Nivel2(sueodentrodeunsueo):
2
3 3 1
.
4 4 4
Engeneral:
. . .
3
4
1
.
4
Secompruebaqueesunaleydeprobabilidad,puestoquelasprobabilidades
suman1:
1 3
4 4
1.
b)Laprobabilidaddeligarenelnivel4es
158|P g i n a
1 3
4 4
0.079.
c)Elnmeromediodenivelesquesealcanzaeslaesperanzadelavariable,
1 3
4 4
quepuedecomprobarsequees3.
Mala suerte para el ejecutivo de bolsa, que necesita llegar al nivel 4 para
cumplirsusueo(nuncamejordicho).
Nota 7-2 Cmo pueden calcularse las sumas infinitas? En programas como
Mathematica o Maple es muy sencillo. Tenemos en internet recursos tambin para
hacerlo. Una pgina muy til para clculos matemticos y estadsticos es la de
Wolfram Alpha. Para calcular una suma (que puede ser infinita) el enlace es:
P g i n a |159
http://www.wolframalpha.com/examples/Sums.html
y en l ya se ven ejemplos de la sintaxis que hay que utilizar (muy sencilla).
12
1/4
1/9
1/
/6
, el resto de valores
aparecenconprobabilidad . Puedecomprobarseque,enefecto,setratadeuna
leydeprobabilidad,puestoquelasumadeprobabilidadesda1:
12
1
6
1.
Vamosaintentarcalcularelnmeromediodeneciosenunacalle.Cuando
escribimoslafrmulade
:
160|P g i n a
12
1
6
12
1
6
ylasumainfinitadeladerechadiverge(tiendeainfinito),porloqueelnmeromedio
tiendeainfinito.Comodijimosanteriormente,cuandoestosucede,sedicequela
variablealeatorianotieneesperanza(locualnolequitaraznalgunaalafrase).
5
10
15
0.2 0.15 0.15
0.1 0.1
0.05
20
0.2
0.2
25
0.1
0.2
30
0.1
0.15
35
0.05
0.08
40
0.05
0.07
45
0
0.05
P g i n a |161
a) Elrendimientomedioencadapastillacorrespondealamediaoesperanza
decadavariable.
5 0.2
10 0.15
40 0.05
15 0.15
18.
20 0.2
5 0.1
25 0.1
25 0.2
30 0.1
35 0.05
30 0.15
35 0.08
b)Paracalcularculdelasdospastillastienemayorvariacin,calculamoslas
varianzasyloscoeficientesdevariacin.
5 0.2
10 0.15
15 0.15
35 0.05
5 0.1
20 0.2
40 0.05
15 0.05
20 0.2
35 0.08
40 0.07
45 0.05
675
30 0.1
427.5.
10 0.1
427.5
25 0.1
25 0.2
30 0.15
675.
18
103.5.
10.17.
23. 6
118.04
10.86.
Finalmente:
10.17
0.56,
18
10.86
0.46.
23.6
Porlotanto,elprimerfrmacotienemayorvariacin.
Ejemplo 7-10 Sea la variable aleatoria que mide el tiempo que la gente
aguanta sin acostarse con su pareja, en semanas, despus de un
diagnstico de enfermedad venrea. La funcin de densidad de esta variable
aleatoria viene dada por:
1
0,2
.
0
0,2
a) Determinar y representar la funcin de distribucin de esta variable. b)
Cul es la probabilidad de que un diagnosticado de venreas vuelva ya a la
2
162|P g i n a
cama con la pareja antes de 3 das y medio? Y exactamente a los tres das
y medio? c) Cul es la probabilidad de que aguante ms de tres das y
medio y menos de 1 semana?
Solucin.
Dibujamoslafuncindedensidadacontinuacin.
a)Alestarlafuncindedensidaddefinidaen3tramos(antesde0,entre0y
2,ydespusde2),lafuncindedistribucintendrquecalcularseendichostramos,
como la integral desde hasta . En cada tramo el rea se calcular segn la
funcinquetengamos.PodemosverlodeformadetalladaenlasgrficasF1,F2yF3.
F1
P g i n a |163
F2
F3
Matemticamente:
0
1
1
0
4
0
2
2
164|P g i n a
Estafuncinladibujamosacontinuacin.
b)Elrecorridodelavariablees2semanas.Tresdasymediocorrespondea
(semana)
0.5.
0.5
es
cero.
0.5
0.5 0.5
0.4375.
Laprobabilidaddevolveraacostarseconsuparejajustoalostresdasymedio
0.5
0porqueesunavariablecontinua;laprobabilidaddeunpuntoes
c) La probabilidad de que aguante ms de tres das y medio y menos de 1
semanaes
0.5
0.5
1 1
0.4375
0.3125.
4
0
a) Determinar la funcin de distribucin. b) Un periodista sabe que un
consejero no ha llegado este mes a juntar 3000 euros. Cul es la
P g i n a |165
probabilidad de que haya tenido un sueldo mayor de 1500 euros? c) Calcular
el sueldo mensual medio.
Solucin.PrimerodibujamoslafuncindedensidadenlaFigura712.
a)Alestarlafuncindedensidaddefinidaen4tramos(antesde0,entre0y
2,entre2y4,ydespusde4),lafuncindedistribucintendrquecalcularseen
dichostramos,comolaintegraldesde hasta .Encadatramoelreasecalcular
integrando la funcin que tengamos. Podemos verlo de forma detallada en las
grficasF1yF2.
Figura712
Matemticamente,lafuncindedistribucinseescribe:
0
0
1
0
0
4
4
166|P g i n a
F1
F2
Lagrficadelafuncindedistribucineslaquesigue.
P g i n a |167
1500/
1500
3000
3000
3000
1500
3000
1
3
8
1
1
1. 5
8
3
1
3
8
0.67.
.Enestecaso,laintegral
c)Elsueldomensualmedioes
sedivideenunasumade4integrales,unaporcadaparteenque sedefinedeforma
diferente.
4
4
2
3
4
3
2.
Porlotanto,elsueldomedioson2000euros.
Ejemplo 7-12 La duracin, en horas de espera, en las urgencias de un gran
hospital pblico, es una variable aleatoria continua con funcin de densidad
,
100,
168|P g i n a
a)Eldibujodelafuncindedensidadeselquesigue:
Comoelreabajolafuncindedensidaddebeser1,setieneque
1
Tenemosque
,
conloque
100
100
Comoesteltimovalordebeseriguala1,obtenemosque
Lafuncindedistribucinser
0
100,resulta
100
100
0
1
Dibujamoslafuncin:
100
100.
100
Como
100
100
P g i n a |169
200/
b)Nospidencalcular
200/
150 .
150
150
200
150
200
1
150
150
100
200
1
1
1
100
150
100
150
1
4
0.25
100
100
0.5. Usando la
1 0.5 0.5.
,
170|P g i n a
Comovemos,elresultadoesunnmeroquetiendeainfinito.Estavariable
aleatorianotieneesperanza.
3
5
8
dedondenicamenteobtenemos3
Porotrolado,laintegral
1
5 ,
.
debeser1:
P g i n a |171
9
2
Como 3
3/15
3
2
9
2
7
.
2
, tenemos que 1
15 , con lo que
1/15 y
1/5.
Lafuncindedensidadtieneestaforma:
b)
c)
3
3
.
5/
5
3
3
1
5
3
1
5
1
3
10
2
5
7
10
4
.
7
172|P g i n a
1
8
15
0.1.
Integrando,
1
8
15
0.1,
que,haciendocuentas,quedaunaecuacindesegundogrado:
16
61 0,
cuyassolucionesson6.27y9.73.Como9.73estfueradelintervalo 5.8 ,elvalor
delpercentil90es6.27.
P g i n a |173
7.3.7 Resumenparavagos
Variable
Discreta
Funcindeprobabilidad
Variable
Continua
Tabla
con
valores
y Funcin ,verificando
probabilidades(quesuman1)
0 y
1
Funcindedistribucin
Sumadeprobabilidadeshasta
,
con
Media
Areaointegraldesde hasta
Varianza
Msejercicios,paralosinquietos,en[12].
174|P g i n a
Imagenpararecordarconceptos(aunqueestanodecimosquelarecortisy
lapeguisenningnsitio)
EsperanzaAguirre,solicitandoelvotodelosestadsticos,sinsaberlo.
P g i n a |175
PRINCIPALESVARIABLESDISCRETAS
Unodecada7mdicosopinaquelosotros6sonidiotas.
LosseisamigosdeldoctorHouse.
8.1
VARIABLEDEBERNOULLI
Supongamosunexperimentoaleatorioqueadmiteslo2posiblesresultados:
xito ( ) o fracaso ( , que ocurren con probabilidad
y
1
,
respectivamente.EstetipodeexperimentorecibeelnombredepruebadeBernoulli.
Lavariablealeatoriaconfuncindeprobabilidad
0
1
recibeelnombredevariablealeatoriadeBernoulli(seescribe
8.1.1 Mediayvarianza
Seobtienefcilmenteque
0
1
.
0
y
1
Ejemplo 8-1 La variable que toma el valor cero si sale cara al lanzar una
moneda, y uno en caso contrario.
Ejemplo 8-2 Analizando una persona para saber si tiene una enfermedad. La
variable toma el valor 1 si tiene la enfermedad, 0 en caso contrario. en este
caso es la probabilidad de tener la enfermedad. Obviamente, a tener una
176|P g i n a
8.2
VARIABLEBINOMIAL
Supongamosqueserealizan experimentosdeBernoullidemanerasucesiva,
siendocadaexperimentoopruebaindependientedelanterior(porejemplo,lanzar
vecesunamoneda;analizar personasparasabersitienenonounaenfermedad).
LaVariable
nmerodevecesqueocurreelsuceso enlas pruebaso
nmero de xitos en pruebas recibe el nombre de variable binomial de
parmetros y (
en1prueba)).Seescribe
, .
Lavariable puedetomarlosvalores0,1,2, . . . (en pruebaspuedehaber
desde0hasta xitos)siendolaprobabilidadconquelostoma:
P g i n a |177
!
, donde
yrecordemosqueelfactorialdeunnmero es !
2 1.
,
!
1
2 . . . 3
Laobtencindeestafrmulaesrelativamentesencilla(sialgunonolasigue
bien,guiarseporlosmacacosdelapginasiguiente):
Sien pruebashay xitos,elsuceso (probabilidad habrocurrrido
veces. En consecuencia, el suceso (fracaso) habr ocurrido
veces. A
continuacin escribimos una situacin posible: los primeros experimentos o
pruebas
dan
xito
y
los
restantes
fracasos.
1
.2
. . .
. . .
. . .
9
fracasos (que se vayan alternando xitos y fracasos, etc.) . Se demuestra que el
nmerodeposiblesopcioneses:
!
!
, y,porlotanto,
3,
178|P g i n a
P g i n a |179
8.2.1 Mediayvarianza.
Puededemostrarsequelamediaylavarianzason:
y
de
Ejemplo 8-3 El 65 por ciento de los alumnos de un instituto han dicho que
piensan acudir a la proxima convocatoria para rodear el congreso de los
diputados. El director se chiva al comisario de polica y ste, para ahorrar
tiempo, decide detener a 4 alumnos al salir del instituto. Cul es la
probabilidad de que, al menos uno de ellos, tuviera pensado acudir a la
manifestacin, y as el comisario poder justificar que fue una detencin
preventiva para evitar males mayores?
Solucin.
0.65.
Plantear la variable
nmero de alumnos que piensan acudir a la
manifestacin de un grupo de 4esequivalenteaplantear =nmerodexitosen4
pruebas.Porlotanto,
4,0.65 . Laprobabilidadquenospreguntanes
1 .
1
4
0.65 1
0
0.65
0
1
0.015
0.985,
180|P g i n a
esdecir,queelcomisariotienejustificacincasisegura.
Ejemplo 8-4 Una leyenda urbana que suele circular por todas las
universidades es que siempre hay algn profesor que decide el aprobado o
suspenso lanzando los exmenes al aire. Los que caen en la mesa aprueban,
y los que no, suspenden. Si la probabilidad de que un examen caiga sobre la
mesa (es la pequea del ordenador, no la suya de despacho) es 0.2, calcular
la probabilidad de que al menos la mitad de una clase de 40 alumnos apruebe.
Solucin.
Sea
nmero de exmenes que caen sobre la mesa, de 40 lanzados. Esta
variable sigue una distribucin binomial
40,0.2 , pues sera xito caer sobre la
mesa.
Laprobabilidaddequealmenoslamitadapruebenes
20
1
20
1
19
40
0. 2 1
0.2
0.99
0.01.
(81)
Parece bastante lgico pensar que sera bueno comprarle una mesa ms
grandealprofesorparamejorarelratiodeaprobadosporclase.
P g i n a |181
ejemplos anteriores escribiramos
dbinom(0,4,0.65) (con esto calculamos
0 , con
4,0.65 .
El resultado da:
[1] 0.01500625
Para sumar varias probabilidades:
sum(dbinom(0:19, 40, 0.2)) (con esto sumamos
, con
40,0.2 . El resultado da:
[1] 0.9999783
Para ver cul es la sintaxis para cada variable slo hay que escribir
help(Distributions)
8.2.2 Propiedadaditiva
La Variable binomial es reproductiva respecto al parmetro . Esto quiere
decirqueSi
, e
, son2variablesindependientes,lasuma
, (esta propiedad es generalizable a un nmero finito de
variables).
Ejemplo 8-5 Un activista del grupo Anonymous logra colar un virus en las
pginas web de una cadena editorial propiedad de un grupo religioso. El virus
hace arrancar de repente videos pornogrficos en proporcin del 5 por ciento
por pgina web (del total de videos informativos reales de dicha pgina o
direccin web). 6 sacerdotes se conectan al da a 20 direcciones diferentes
del mismo grupo editorial. Clcular el nmero medio de videos que podrn
bajarse de internet al final del da.
Solucin.
Sea el nmero de videos pornogrficos que se cuelan en un grupo de 20
direcciones web,sabiendoquelaprobabilidaddequesalgaunvideopornogrficopor
pgina es 0.05. Suponiendo que los videos pornogrficos surgen de manera
independiente,
20,0.05 .
182|P g i n a
...
(siendo lavariable medidapara
Igualmente,lavariable
elsacerdote ,porlapropiedaddereproductividad,sigueunadistribucin 20
6,0.05
120,0.05 .
120 0.05
Elnmeromediodevideosalfinaldeldaes
8.3
6.
VARIABLEDEPOISSON
UnprocesodePoissonesunexperimentoaleatorioqueconsisteenobservar
la aparicin de sucesos puntuales sobre un soporte continuo (tiempo, longitud,
superficie...),demaneraque:
Elprocesoseaestable,esdecir,alargoplazoelnmeromediodesucesos
(quedenominaremos )porunidaddemedidaesconstante,ylossucesosocurren
aleatoriamentedeformaindependiente.
Ejemplos:clientesqueacudenaunmostradorporunidaddetiempo,llamadas
por unidad de tiempo a una centralita, pelmazos por unidad de tiempo a una tia
buenaenunadisco,defectospormetrodecable...
Estoseentiendemejorconunagrfica:describimosunprocesodePoisson
enlaFigura81.
EnunprocesodePoisson,lavariable =nmerodesucesosocurridosenun
intervalosedicequesigueunadistribucindePoissondeparmetro .Seescribe
. Sudistribucindeprobabilidades
!
0,1,2, . ..
Elnmerodevalores puedellegarhastainfinito.Esuncasodeunavariable
aleatoriadiscretaquetomaunnmeroinfinitonumerabledevalores.
P g i n a |183
Figura81
LavariabledePoissonestambinunageneralizacindelavariablebinomial.
Supongamos que, en un experimento de Bernoulli, el suceso xito tiene una
probabilidad
muy pequea (se dice que es un suceso raro). Puede
demostrarse que si es la variable
, , que mide el nmero de xitos en
pruebas,y tiendeainfinito, puedeaproximarseporunavariabledePoissonde
parmetro
.Porestemotivo,ladistribucindePoissontambinesconocida
comodistribucindelosprocesosraros.
con
Enlaprctica,nohayquesuponerqueserealizanmuchsimaspruebas.Esta
aproximacinfuncionabiensi
30y
0.1.
184|P g i n a
8.3.1 Mediayvarianza
Setieneque
Propiedadaditiva.Aligualquelavariablebinomial,lavariabledePoissones
reproductiva respecto al parmetro . Si
e
son 2
variables independientes, la suma
(y esto se puede
generalizaraunasumafinitadevariables).
Ejemplo 8-6 Un ejemplo de variable de Poisson lo vimos en el ejercicio 4 del
captulo anterior.
servaliente.
probabilidad
0.05.
350,0.05 .
0.1,lavariable sepuedeaproximarporunavariablede
350 0.05 17.5.
de
.
!
2.2429 10
0.000022429.
Con lo cual, queda demostrado que el golpe de Tejero estaba destinado al
fracasodesdeelprincipio,porqueTejeroempezteniendomuymalasuerte(como
vemoseramuydifcilque3tosnoseecharanalsuelo,comorealmentesucedi).
Todosloshechosposterioresfueronconsecuenciadelaleyenunciadaporun
estadsticoapellidadoMurphy:sialgopuedeirmal,irmal.
P g i n a |185
186|P g i n a
Solucin.
La variable
nmero de frases coherentes en una respuesta sigue una
distribucindePoissondemedia
2.
a)Nospiden
1
2
1!
0.270.
10
10
0.125.
10!
P g i n a |187
188|P g i n a
4
!
0.785
0.215.
Va a ser mejor que el gerente tenga las pistolas cargadas, porqu parece
bastanteprobablequesevaaliar.
8.4
VARIABLEGEOMTRICAODEPASCAL
SupongamosqueserealizaunexperimentodeBernoullihastaqueseobtiene
el primer xito (por ejemplo, lanzar una moneda hasta obtener cara, mover una
ruletahastaquesalganegro).
Definamos la variable
"nmero de la prueba en que se obtiene por
primeravezunxito.Sediceque sigueunadistribucingeomtricaodePascalde
prametro
.
Sufuncindeprobabilidadesfcildecalcular:
Losvaloresquepuedetomar son1,2,3,...yas,enprincipiohastainfinito,
pues el primer xito puede ocurrir en la primera prueba, en la segunda, etc...
Obviamente, la probabilidad de que tome valores grandes ser cada vez ms
pequea.Setratadeotravariablealeatoriadiscretaquetomaunconjuntoinfinito
numerabledevalores.
Laprobabilidaddequelavariable tomeunvalor concretocorrespondea
queocurranexactamente
1fracasosy1xitoenlaprueba .Laprobabilidadde
queesoocurraes(recurdeseque esxitoy esfracaso).
P g i n a |189
1
2
3
. . .
. . .
Porlotanto,laleydeprobabilidaddeestavariablees
,
1,2, . ..
Puedecomprobarsequeestbiendefinida,esdecirquelasumadetodaslas
probabilidadesda1,puestoque
,
ylasuma
correspondealasumadeunaprogresingeomtricaderazn
1,cuyovaloresexactamenteelprimertrmino,divididoporunomenoslarazn,
estoes
1
1
.
1
1
Por lo tanto, la suma de probabilidades es 1/
1. Las progresiones
geomtricassolandarseenloscursosdeeducacinsecundaria,poresolocitamos.
De todas formas, siempre se puede calcular la suma infinita en la pgina
WolframAlpha,queyaseindicanteriormente.
8.4.1 Mediayvarianza
Seobtieneque
1
y
Nota 8-6 En algunos textos definen esta variable como nmero de fracasos
antes del primer xito. Es decir, si aparece definida la variable geomtrica de esta
forma, =nmero de fracasos antes del primer xito, tngase en cuenta que contar
190|P g i n a
es equivalente a contar
1. La variable
tomar los valores
0,1,2, . . ..(antes empezbamos en el 1) y sus probabilidades sern
.
En este caso, la media y la varianza son
/ y
/ .
Comocadallamadaseasignaaleatoriamenteaunatelefonista,laprobabilidadde
queletoquelaqueestbuscandoes
1/40 0.025.
P g i n a |191
Lavariable =nmero de la prueba en que consigue hablar con la chica que est
buscandosigueunadistribucingeomtricadeparmetro . Laprobabilidadque
tenemosquecalculares
1
0.183
0.025
0.025
0.817.
Elnmeromediodellamadasquedeberhaceres
1/
40.
Nota 8-7 Para calcular esta probabilidad por medio de R, debemos tener en
cuenta que R define la variable geomtrica como nmero de fracasos antes del primer
xito. Esto quiere decir que deberamos calcular
7
1
7
1
7 , siendo la funcin de distribucin en el valor 7. La sintaxis de 7 en R es
pgeom(7,prob=0.025).
El resultado es [1] 0.1833482
8.5
VARIABLEBINOMIALNEGATIVA
0,1,2, . ..
(82)
Laformadecalcularlaleydeprobabilidadesdelmismoestiloquelavistaen
ladistribucinbinomial.Veamoscomosehace:
192|P g i n a
1 2 ...
1
1
2 ...
1
...
...
Comovemos,paraque
serunxito.
,esdecirhaya fracasos,laprueba
Laprobabilidaddequesucedaloquevemosenlatabladearriba(
acontinuacin fracasos,yacontinuacinelltimoxito)es
debe
1xitos,
.
Como, obviamente, debemos tener en cuenta que los xitos y los fracasos
puedenmezclarse,hayquemultiplicar
portodaslasposibilidadesquepueden
darse.Sepuedecomprobarqueelnmerodeposibilidadeses
1 !
1
,
1 ! !
y,porlotanto,laprobabilidaddeque tomeunvalor cualquieraeslaexpresada
enlafrmula(82).
Puedecomprobarsequesetrata,enefecto,deunaleydeprobabilidad,es
decir
1
1.
8.5.1 Mediayvarianza
Seobtieneque
P g i n a |193
Por lo tanto, es facil de ver que la media de la binomial negativa es veces la media
de la geomtrica ( / ), y la varianza veces la varianza de la geomtrica ( / .
Ejemplo 8-11 Despus de conseguir hablar por fin con su amor platnico, el
pringado del ejercicio anterior le ha pedido una cita pero la chica ha colgado
el telfono. En otra llamada, una compaera apenada por el chico le dice que
insista, que ya se sabe que el que la persigue la consigue, y que le da la
impresin de que la compaera, si ve que l la llama al menos 5 veces,
acabar accediendo.
Como el telfono al que tiene que llamar el chico es un 902, cada llamada
tiene un coste medio de 4 euros. Si llama ms de 50 veces la factura superar
los 200 euros que tiene el padre para terminar el mes, y es capaz de tirar al
hijo por la ventana. Cul es la probabilidad de que, para conseguir que la
194|P g i n a
0.025
0.025
0.0081
Tambinpodemoscalcularestaprobabilidadcomo
1
45
45 , y calculamos
45
0.9919.
45 en R, simplemente
como:
pnbinom(45, size=5, prob=0.025)
[1] 0.008132778
P g i n a |195
8.6
VARIABLEHIPERGEOMTRICA
Supongamosquetenemosunapoblacinde elementos,quesedivideen
dosclases: y .Elnmerodeelementosdecadaclaselosdenotamoscomo y
.Supongamosqueseextraeunamuestradetamao
. Lgicamente
delapoblacin,sinreemplazamiento.Lavariable
nmerodeelementosdela
clase en la muestra se dice que sigue una distribucin hipergeomtrica de
parmetros , y .Seescribe
, , silellamamosxitoaobtener
unelementodelaclase ,lavariable
nosmideelnmerodexitosobtenidos
enlamuestra).
NO se trata de una variable
binomial, puesto que en la variable
binomiallaspruebassonindependientes.
Porlotanto,enunexperimentobinomial
lo que haramos sera quitar de la
poblacinunamuestradetamao con
reemplazamiento;estoes,elegirunelementodelapoblacin,versiesdelaclase
onoloes,devolverloalapoblacin,extraerotroelementodelapoblacin,versies
delaclase . . .,yassucesivamentehasta veces.
196|P g i n a
Laleydeprobabilidaddelavariablehipergeomtricaesdelaforma
,
donde vara desde max 0,
hasta min
Nohayningunacosararaenlosposiblesvaloresdelavariable.Lgicamente,
puedeser0,1...peroestlimitadoporlostamaosdelapoblacin,elnmerode
elementosde ,etc.Losvaloresmnimoymximosonlosqueestnescritosarriba.
8.6.1 Mediayvarianza
Puedecomprobarsequeestosvaloresson,respectivamente,
,
1
.
1
Siseescribe
( eslaprobabilidaddeelegirunelementodelaclase
y llamamos
1
(que equivaldra a elegir un elemento de la clase , las
frmulasdelamediaylavarianzaquedandelaforma:
Comovemosenlasfrmulasescritasdeestamanera,lamediaeslamisma
queladelavariablebinomial,ylavarianzaesladelabinomialmultiplicadaporun
factor.Estacoincidenciasedebeaquelavariablebinomialpuedeconsiderarseun
casoextremodeunavariablehipergeomtrica,cuandoeltamaodelapoblacin
esinfinito(muygrande).Siconsideramosunapoblacindetamaoinfinito,sacaruna
muestra sin reemplazamiento es prcticamente lo mismo que sacarla con
reemplazamiento.
En la prctica, si es grande respecto a , se pueden calcular las
probabilidadesdelahipergeomtricapormediodeladistribucinbinomial.Estoes
posiblecuando /
0.1.Estosehacaantesporqueladistribucinbinomialestaba
tabulada (las famosas tablas de los libros) pero la hipergeomtrica no, lo cual
conllevabahacercuentasconlacalculadora;yenocasionesniconestaeraposible.
P g i n a |197
Hoyenda,siqueremos,nosolvidamosdelaaproximacin(salvoqueelprofesorlo
exija).
Ejemplo 8-13 Volvamos a considerar los cuatro colegas del captulo de
probabilidades, que iban al bar donde haba un camarero resfriado.
La variable =nmero de
cervezas negras en la muestra de tamao
4
sigue
una
distribucin
hipergeomtrica de parmetros
25,
10,
4.
198|P g i n a
10
15
1
3
25
4
10
15
2
2
25
4
10
15
3
1
25
4
10
15
4
0 ,
25
4
quetambinpuedecalcularsecomo
1
10
15
0
4
25
4
0.89.
Porloqueparece,algunosevaatragaralgodesagradable.
Nota 8-9 De nuevo, para ver la diferencia con una binomial, supongamos que
todas las cervezas estn en la barra, y cada uno de los cuatro clientes puede echar un
trago y devolver la jarra al mostrador (s, sera una guarrada, pero estamos en un
ejemplo y, adems, seguro que cualquiera que est leyendo esto ha hecho cosas
peores). En este caso, la variable =nmero de tragos de cerveza negra en la muestra
de tamao 4 sera una variable binomial (al devolver la jarra al mostrador la situacin
siempre queda la misma, por lo que hay independencia entre cada trago y el siguiente)
(ojo: estamos obviando que una jarra se acabe).
P g i n a |199
5
25
2
1
30
3
5
25
3
0
30
3
0.061
0.002
0.063,
conloquelaprobabilidaddequelaclasesequedesinrecreoeslaprobabilidaddel
complementariodelsuceso
2 ,esdecir1 0.063 0.937.
Nota 8-10 En R,
escribiendo
en una variable
se calcula
2
200|P g i n a
60
25
3
0
85
3
0.34
0.66.
Fijmonosque,enesteejercicio,laproporcin /
3/85
0.035
0.1,conlocualpodramosrealizarlaaproximacinmedianteladistribucinbinomial,
esdecir seaproximaraporuna
3,
3,0.29 .
Sicalculamoslaprobabilidad
0 medianteestadistribucinbinomial,
tendramos
3
0
0.29 1 0.29
0.35,
0
quees,comovemos,muyparecidoalresultadodirectomediantelahipergeomtrica.
P g i n a |201
PRINCIPALESVARIABLESCONTINUAS
9.1
VARIABLEUNIFORME
Unavariablealeatoriacontinua sedicequesigueunadistribucinuniforme
entredosvalores y (serepresenta
,
sisufuncindedensidadtiene
laexpresin
1
,
0
,
Sufuncindedistribucines
0
1
Lasgrficasdelasfuncionesdedensidadydistribucinpuedenverseenla
Figura91(grficosdeWikipedia).
Figura91
202|P g i n a
Estavariableeslageneralizacin,alcasocontinuo,delavariableuniforme
discreta(laquedaatodoslosvaloreslamismaprobabilidad).Lavariableuniforme
repartedemaneracontinuayequivalentelaprobabilidad,esdecir,intervalosdeigual
longitud(dentrode , tienenigualprobabilidad.Recurdeseque,enlasvariables
continuas, la probabilidad entre 2 puntos y es el rea bajo la funcin de
densidad.Enestecaso,elreaseraelreadeunrectngulo,esdecir(verFigura
92):
9.1.1 Mediayvarianza
Susparmetrosmediayvarianzason:
2
12
P g i n a |203
horas. El Keni est escondido detrs del portal esperando que baje para
pillarla antes de ir al botelln, porque tiene esperanzas de liarse con ella esa
noche. Lo malo es que se ha metido varios litros de RedBull y est cardaco
perdido, despus de una hora de que la Vane comenz a arreglarse. Si la
Vane tarda ms de cuarenta y cinco minutos, al Keni le puede dar un vahdo
y echarlo todo a perder. Cul es la probabilidad de que eso suceda?
Solucin.
El tiempo en arreglarsees 60,120 (expresadoenminutos).Porlotanto,
laprobabilidaddequetardemsde45minutosenarreglarsees
60
45
105
105
105
105
120
Tambinpuedecalcularseusandolafuncindedensidad:
105
60
60
0.25.
queseraelreabajolacurvaentrelosvalores105y120;loque,enestecaso,se
reducealreadeunrectngulo,comoseobservaenlaFigura92.
Figura92
204|P g i n a
9.2
VARIABLEEXPONENCIAL
0
Sufuncindedistribucines
0
1
Se representa
. Suele representar la duracin o tiempo de
supervivenciadeunsistemabiolgicoomecnico,ademsdeadaptarsebienaotras
medidas,comolamagnituddelosterremotosenunadeterminadazona.Lasgrficas
delafuncindedensidadydistribucin,paraalgunosvaloresde ,sonlassiguientes
(fuente:wikipedia):
9.2.1 Mediayvarianza
Sepuedecomprobarqueson:
1
ver figura siguiente y
P g i n a |205
Ejemplo 9-2 El tiempo de espera, para ser atendido por Mesalina, sigue una
distribucin exponencial de media 60 minutos, segn uno se pone en la cola.
Cul es la probabilidad de que a Petronio le de tiempo a llegar a casa antes
de 50 minutos (tngase en cuenta que Mesalina te atiende en 2 minutos y la
casa de Petronio est a la vuelta de la esquina (1 minuto para volver)?
Solucin.
=tiempo de espera en minutos sigue una distribucin exponencial. Como
nos dicen que la media es 60, y la esperanza es 1/ , entonces
probabilidadquenospidenes
47
47
. La
0.54.
9.3
VARIABLENORMAL
1
2
206|P g i n a
9.3.1 Mediayvarianza
Lamediaoesperanzacorrespondealvalor queapareceenlafrmula,yla
desviacintpicaalvalor .
9.3.2 Propiedades
Lafuncindedensidadessimtricarespectodelamedia ,esdecir,reasa
laderechayreasalaizquierda(probabilidades)coinciden.EnlaFigura93podemos
observar distintas funciones de densidad cambiando la desviacin tpica (a mayor
desviacin tpica la curva se aplana, a menor desviacin tpica la curva es ms
puntiagudaenlamedia).Cambiarlamediasuponesimplementedesplazarlacurvaa
derechaoizquierda.Estosucedeporqueelreabajolacurvasiempreesiguala1.
Lasreasentrevaloresde
y
1,2,3 puedenverseenla
Figura94.Entrelosvalores y seconcentrael68.2porcientodeladistribucin,
yentre 2 y 2 seconcentrael95.4porciento.Estohacequelosvalores
2
y
2 se consideren los valores mximos y mnimos comunes. Dicho de otro
10
Paraobtenerlafuncindedistribucinseranecesariocalcularlaintegraldelade
funcindedensidad,quenotieneprimitiva.PoresoseconstruyeronlasfamosasTablasdela
normal,queaparecenentantosytantoslibrosdeestadstica.Hoyenda,igualquehacemosaqu,
paracalcularreasoprobabilidadesasociadasaladistribucinnormal,seacudeaalgunapgina
webosoftwareestadstico,querealizanaproximacionesdetiponumrico.
P g i n a |207
modo,losvaloresqueestnmsalejadosdelamediadosvecesladesviacintpica
sonvaloresrarosenladistribucin(suelenllamarselmites2 .
Figura93
Figura94
208|P g i n a
Podemospensar,comoejemplo,enlavariableestatura.Los valoresms
alejadosdelamediaendosvecesladesviacintpicaseranvaloresanormalmente
bajosoanormalmentealtos,ytantomscuantomssealejendelamedia.Lomismo
podemos considerar en variables como el peso, ndice de colesterol, presin
sanguinea,cocienteintelectual,etc.
Otro ejemplo clsico de aplicacin de estos lmites es el de los anlisis de
sangre.EnlaFigura95tenemosunejemplo,dondelacolumnadeladerecha(valores
dereferencia)correspondealintervalo
2 ,
2 ,donde y sonlosvalores
mediaydesviacintpicadelapoblacingeneral(calculadostrasrealizarunnmero
muygrandedeobservaciones).Lacolumnaderesultadoseselvalorcorrespondiente
al paciente y, si dicho valor no est dentro del intervalo de referencia
correspondiente,esqueesevalorsalefueradel95.4porcientomsnormal.
Figura95
P g i n a |209
9.3.3 Tipificacin
Sirveparacompararindividuosdiferentesobtenidosdesendaspoblaciones
normales. Si
, entonces
Ejemplo 9-3 En una granja de Viladecns se cran dos razas de vacas: Marela
y Ciones. El peso de las vacas Marela se distribuye segn una N(750 Kg, 30
kg), mientras que el de las vacas Ciones tiene distribucin N(500 Kg, 10 kg).
Un ao en particular se observaron dos enormes ejemplares de cada raza:
210|P g i n a
uno de la raza Marela que pes 870 Kg, y otro de la raza Ciones que pes
550 Kg. a) Deducir cul de los dos ejemplares fue el que ms destac. b) De
la raza a la que pertenezca este ejemplar, decir qu porcentaje de vacas
pueden ser levantadas sin problemas por Andresn, el bestia del pueblo, que
mueve hasta 530 kilos haciendo pesas en el Gym.
Solucin.
Tipificamosambosvalores:
4,frentea
5.Porlotanto,destacmselejemplardela
razaCiones.
Llamemosahora =peso de las vacas de la raza Ciones.Nosdicenque
500,10 . Calculamos
530 suponemos que Andresn, lo que mueve
haciendopesastambinlolevantaenbrazos).Estolopodemoshacerdirectamente
otipificando.
500 530 500
530
3
0.99865.
,
10
10
Enestecaso,hemosidoalapginastatdistributions.com,ybuscadoelrea
a la izquierda del valor 3 en una 0,1 , como puede verse en esta captura de
pantalla:
P g i n a |211
Se ve que el valor 3 deja a la izquierda 0.999 de rea, lo que significa que
Andresnlevantael99.9porcientodelasvacasdeesaraza(ocasitodas).Elvalor3
eselcuantilp,conp=0.999.
Ejemplo 9-4 El colesterol total en la poblacin tiene distribucin normal, con
media 200 y desviacin tpica 10. Ilitri acude al mdico para unos anlisis
rutinarios, luego de seis meses de espartana vida sin ejercicio alguno,
desayunando en Churro-King y cenando lacn con grelos. Ante los resultados,
el mdico le felicita, porque tiene un valor del colesterol que slo lo supera el
2% de la poblacin (los que estn a nada de irse al otro barrio). A qu valor
del colesterol se refiere?
Solucin.
Elvalor seraqueltalque
200,10 .
Elvalor quehayquecalcularesequivalenteacalcularelcuantildeorden98
(percentil98),puestoque
1 0.02 0.98.
,
2.054
220.54.
seran
pnorm(530,500,10) (nos dara 0.99865 del ejercicio de Andresn)
qnorm(0.98,200,10) nos dara el valor
220.54 en el ltimo ejemplo.
212|P g i n a
0.842
61.68.
ComoJaimitotieneunpermetrocranealde63,lamadreledicequesecalle
ypermitaalasmoscasjugaralfutboltranquilasensucabeza.
9.3.4 Propiedadaditiva
Igualquevimosenotrasvariables,lavariablenormalesreproductiva:lasuma
devariablesaleatoriasnormalesindependientesesotravariablealeatorianormal,
conmedialasumadelasmediasyvarianzalasumadevarianzas.
Puede establecerse un resultado ms general: sean
nmerosreales,
1, . . . , .Severifica:
, y
91
esto es, una combinacin lineal de variables aleatorias normales es otra variable
aleatorianormal,cuyamediaeslacombinacinlinealdelasmedias,ylavarianzaes
lacombinacinlinealdelasvarianzas,peroconlostrminos elevadosalcuadrado.
P g i n a |213
Nota 9-4 Y aunque parezca un coazo, esto no es nuevo. Es lo mismo que se
vio en el captulo donde definimos las variables aleatorias, en la seccin de
propiedades de la esperanza y la varianza.
Ladiferenciaentredoslongitudes
sigueunadistribucinnormal.
Paraverquparmetrossigue,aplicamoslafrmula 91 .
Aqu tenemos
1 y
1
ylavarianza
1
demaneraque
16.3
16.3, 1 3
1 3
0, 18
0,4.24 .
La probabilidad solicitada es
| | 1.5
1.5
1.5 . Esta
probabilidadpodemoscalcularlatipificandoybuscandoenlatabladeuna 0,1 ,o
directamente,segndispongamosdeherramientadeclculoadecuada.Encualquier
caso | | 1.5
0.276, que vemos en la Figura 96 (obtenida de la pgina
statdistributions).
214|P g i n a
Figura96
Recurdeseque
1.5
1.5
1.5
1.5 .EnRsecalculara
como
pnorm(1.5,0,4.24)-pnorm(-1.5,0,4.24)
9.4
TEOREMACENTRALDELLMITE
P g i n a |215
...
Esteteorema(delquedamosnicamenteunaideageneral,sinestablecerlas
hiptesismatemticasreales)establecelaimportanciadeladistribucinnormal.Su
resultado es que, cuando se suma un nmero grande de variables aleatorias, la
variable resultante es una variable con distribucin aproximadamente igual a la
distribucinnormal.Incluso,eltrminonmerogrande(porquematemticamente
el teorema se establece cuando tiende a infinito) no lo es tanto, porque, en la
prctica,con
30laaproximacinyaproporcionabuenasresultados.Adems,el
teoremaesciertoindependientementedeladistribucinquesiganlasvariablesque
sesumen(noimportasisonexponenciales,binomiales,etc.).Lonicoquesenecesita
essabersumediaysuvarianza.
Es a causa de este teorema que muchas variables aleatorias como pesos,
alturas,tallas,etc.siguenunadistribucinnormal,porquecadaunadeellasessuma
de un gran nmero de variables aleatorias independientes. As, la altura de una
persona es suma de muchos factores: hereditario, alimentacin, tipo de vida... El
consumodecombustible(gas,electricidad...)pordadeunacompaaessumade
losconsumosindividualesdelosusuarios.Loserrores,llamadosaleatorios,quese
presentan en observaciones de pesos, distancias, o, en general, en la mayora de
medidas de algn aparato, son la suma de un nmero elevado de errores
elementales,talescomocorrientesdeaire,vibraciones,erroresdeapreciacin,etc.
EneltextoThecartoonguidetostatistics(GonickySmith)[5]podemosleer:
Los datos que se ven influidos por efectos aleatorios muy pequeos y sin
relacinentres,sedistribuyenaproximadamentedemaneranormal.Estoexplicapor
216|P g i n a
qulanormalidadestentodoslados:enlasfluctuacionesdelmercadodeacciones,
en los pesos de estudiantes, en los promedios anuales de temperatura y en las
calificaciones.Todossonelresultadodemuchosefectosdiferentes.Laestaturadelas
personas,porejemplo,eselresultadodefactoreshereditarios,factoresambientales,
nutricin,cuidadodelasalud,regingeogrficayotrasinfluenciasque,cuandose
combinan,producenvaloresdistribuidosdeformanormal.
Enalgnqueotrolibrodetextoaparecetambinlasiguientefrase:todoslos
caminosconducenaladistribucinnormal.Conello,losautorespretenderresaltar
la importancia de la distribucin normal y su aparicin en muchas tcnicas
estadsticas,debidoprecisamentealteoremacentraldellmite.Esteeselmotivode
queseatanconocidao,porlomenos,sueneainvestigadoresoprofesionalesde
muchas reas cientficas y tcnicas no necesariamente matemticas. En algunas
ocasiones, algn que otro atrevido estadstico o autor de libros de estadstica ha
denominadoaladistribucinnormalcomolamadredetodaslasdistribuciones.
P g i n a |217
ciento. Un seguro mdico paga ms a una clnica si, por cada 300 asegurados
que reciben el tratamiento, al menos se curan 260. Cul es la probabilidad
de que esto suceda?
Solucin.
Definamoslavariable quetomalosvalores0sielpacientenosecura(al
cabodeesetiempoestablecido),y1sisecura. esunavariabledeBernoullide
parmetro
0.8.
Como hemos visto al principio del captulo, una variable de Bernoulli tiene
media yvarianza 1
,enestecasomedia0.8yvarianza0.8 0.2 0.16.
Si consideramos la variable
, mide el nmero de
pacientesquesecurande300queacudenalaclnica.Usandoelteoremacentraldel
lmite, puedeaproximarseporunadistribucinnormaldemedialasumadelas
mediasyvarianzalasumadevarianzas,esdecir
300 0.8 240 y
300 0.16 48
48 6.92.
Porlotanto,podemoscalcularlaprobabilidad
260 usandoladistribucin
240,6.92 .Tipificando:
260
2.89
0.002,
queesunaprobabilidadmuypequea.Lossegurossiempreprocuranhacerclculos
parapagarlomenosposible.
Nota 9-6 Est claro que la variable del ejercicio anterior era una variable
Binomial de prametros
300 y
0.8. En el captulo de variables discretas
vimos que una variable aleatoria binomial puede aproximarse tambin mediante una
variable de Poisson. La diferencia con el teorema central del lmite (que aproxima la
binomial por la normal) es que la aproximacin a la Poisson es cuando
0.1 (el
suceso es un suceso raro). Si
0.1 como en este caso), la aproximacin se hace
mediante la normal.
218|P g i n a
Solucin.
Lavariable tieneunaesperanzaovalormedio
Suvarianzaes
P g i n a |219
3
Laproporcindeimpurezasenlamediamuestralde40paquetitosdedroga
ser
...
...
...
porunanormal,demedialasumadelasmedias(osea40
.
varianzalasumadevarianzas(40
Luego
30,
30 y
.Porlotanto
30,
Ejemplo 9-9 Mesalina ha cruzado una apuesta con Zerdn de Citium, famoso
filsofo y comedor de jabales, a que ella aguanta ms en la cama que Zerdn
en la mesa del restaurante. Mesalina atiende por noche una cantidad de
hombres que ronda los 200, tardando con cada uno de ellos un tiempo medio
de 4 minutos y desviacin tpica 2, mientras que Zerdn es capaz de comer
50 jabales, tardando de media 12 minutos y desviacin tpica 3. Cul de los
dos desfallecer antes?
Solucin.
El tiempo que aguanta Mesalina durante una noche ( es la suma de 200
variablesaleatorias independientes,donde eseltiempoqueestconelhombre
,demedia
4y
2.
220|P g i n a
,demedia
12y
3.
Utilizamoselteoremacentraldellmiteparaaproximarlasdistribucionesde
lasvariables y .
...
200 4, 200 2
...
50 12, 50 3
800,28.28 .
600,21.21 .
200, 1249.62
200,35.3 .Laprobabilidadde
0 lacalculamos,porejemplo,conR,obteniendo:
0 =pnorm(0,200,35.3) 0,yentonces
0 1.
Esdecir,eltiempoqueaguantaMesalinaessiempre(conprobabilidadcasi
uno)mayorqueelqueaguantaZerdn.
P g i n a |221
9.5
OTRASVARIABLESALEATORIASDEINTERS
9.5.1 VariableChicuadrado
Seescribevariable .Elhechodequesufuncindedensidaddependade
un nmero entero positivo llamado grados de libertad hace que se hable de la
distribucin con gradosdelibertad.As,existeunavariableparacadavalorde
mayoroiguala1.Estavariableaparececuandosesuman variablesaleatorias
independientescondistribucin 0,1 ,elevadasalcuadrado.
...
, con 0,1 .
A continuacin aparecen dibujadas varias funciones de densidad,
dependiendodelnmerodegradosdelibertad .
Noreproducimosaqulafrmuladeladensidadporinnecesaria.Quienest
interesadopuedeacudir,porejemplo,alawikipedia(igualquetampocoharemosen
losdoscasossiguientes,ladistribucin deStudentyladistribucin .Elintersde
estadistribucinradicaensuusoparalaconstruccindeintervalosdeconfianzay
realizacindecontrastesdehiptesis.
222|P g i n a
delacurvaesmayorqueenelcasodeladistribucinnormal.Estoshechospueden
visualizarseenlaimagendelafuncindedensidad(tomadadewikipedia),dondese
representan diferentes valores del parmetro (df en la grfica, de degree
freedom).Hay que resear que, a medida que el nmero de grados de libertad
aumenta,lacurvaseparececadavezmsalacampanadeGauss,locualsucedea
partirdevalorescomo
40,siendolacoincidenciatotalpara
. Elinters
P g i n a |223
deestavariablees,igualqueenelcasodelavariableChicuadrado,suaparicinen
laconstruccindeintervalosdeconfianzayrealizacindecontrastesdehiptesis.
Lafrmuladelafuncindedensidaddelavariable fuepublicadaen1908
porWilliamSealyGosset(18761937),mientrastrabajabaenlafbricadecervezas
Guinness,enDublin.ExistelaancdotadequeelorigendelseudnimoStudent,
quefueelseudnimoutilizadoporGossetparaescribirelartculodeinvestigacin
matemticodondedefinelavariable,vinomotivadoporqueladireccindelafabrica
impedaalosempleadoslapublicacindetrabajoscientficos.
9.5.3 VariableFdeFisherSnedecor
La distribucin es conocida habitualmente como la distribucin F de
Snedecor,odistribucinFdeFisherSnedecor,enhonoraR.A.Fisher(18901962)y
GeorgeW.Snedecor(18811974).Sufuncindedensidadesbastantecomplicada,
ydependededosparmetros y quesonsusgradosdelibertad.Lautilidadde
224|P g i n a
estadistribucines,denuevo,laconstruccindeintervalosdeconfianzayrealizacin
decontrastesdehiptesis.Ladistribucin apareceatravsdeladistribucinChi
cuadrado, puesto que si sigue una distribucin , e es otra variable
(independientede condistribucin ,entonceslavariable definidacomo
/
,
/
sigueunadistribucin con y gradosdelibertad.Acontinuacin,algunoscasos
concretosparaladensidad(fuente:wikipedia).
P g i n a |225
Antesdeterminar,unosestiramientos,buenosdespusdecualquierejercicio
y/oesfuerzo.
226|P g i n a
ahorapodissustituirloporlossuperheroesdelaestadsticaylaciencia.
P g i n a |227
228|P g i n a
P g i n a |229
10
INFERENCIAESTADSTICA.INTRODUCCIN
Un80porcientodeencuestadoscreeenlaexistenciadevidaextraterrestre.
Esimposiblequeestemossolos,afirman.
Esemismoporcentajedicenocreeranadiequeasegurehaberse
encontradoconunextraterrestre.
LaInferenciaEstadsticaesaquellaramadelaEstadsticamediantelacualse
intentasacarconclusionesdeunapoblacinenestudio,apoyndoseenelclculode
probabilidades, a partir de la informacin que proporciona una muestra
representativadelamisma.Recordemoselgrficoquepusimosenelprimercaptulo.
Lasconclusionessobrelapoblacinsebasarnenlarealizacindeinferencias
(deducciones) sobre caractersticas concretas de la misma, que, en general, sern
230|P g i n a
P g i n a |231
11
MUESTREO
Recordemosqueelobjetivodelaestadstica,bsicamente,eselestudiode
poblaciones.Engeneral,noesposibleestudiartodalapoblacin,bienportamao,
bien por cuestiones de tipo econmico (por ejemplo, saber el peso o la altura de
todoslosindividuosdelapoblacinespaolamayordeedad).Elmuestreoconsiste
enelegirunamuestradeunapoblacin,suficientementerepresentativadelamisma,
conelfindeinvestigarlaspropiedadesestadsticasdeesta.As,parapoderconocer
culeselpesomedio,olaestaturamediade,porejemplo,hombresomujeresdela
poblacinespaolamayoresde18aos,seelegirunamuestrarepresentativade
dichosgruposyseestudiarlamisma,paraextenderlosresultadosdelamuestraa
lapoblacinengeneral.LlamamosMuestreoalprocesodeobtencindemuestras,
quepuedeserdemuchostipos.
11.1 PROCEDIMIENTOSDEMUESTREO
11.1.1 Muestreoaleatoriosimple
232|P g i n a
11.1.2 Muestreoaleatoriosinreposicin
11.1.3 Muestreoestratificado
Seaplicacuandosabemosquehayciertosfactores(variables,subpoblaciones
oestratos)quepuedeninfluirenelestudio,yqueremosasegurarnosdetenercierta
cantidadmnimadeindividuosdecadaestratoosubpoblacin.Consisteenladivisin
previadelapoblacindeestudioengruposoclasesquesesuponenhomogneos
conrespectoaalgunacaractersticadelasquesevanaestudiar.Acadaunodeestos
estratosseleasignaunacuotaquedeterminaelnmerodemiembrosdelmismo
que compondrn la muestra. Dentro de cada estrato se suele usar la tcnica de
muestreosistemtico,unadelastcnicasdeseleccinmsusadasenlaprctica.
Segnlacantidaddeelementosdelamuestraquesehandeelegirdecada
unodelosestratos,existendostcnicasdemuestreoestratificado:
Asignacinproporcional:eltamaodelamuestradentrodecadaestratoes
proporcionalaltamaodelestratodentrodelapoblacin.
P g i n a |233
Por ejemplo, para un estudio de opinin o de salud, puede resultar
interesante estudiar por separado hombres y mujeres si se piensa que, dentro de
cada uno de estos grupos, puede haber cierta homogeneidad. Por ejemplo, si la
poblacinestcompuestadeun55%demujeresyun45%dehombres,setomara
unamuestraquecontengatambinesosmismosporcentajesporsexo.
Asignacinptima:lamuestrarecogermsindividuosdeaquellosestratos
que tengan ms variabilidad. Para ello es necesario un conocimiento previo de la
poblacin. Si sabemos, por ejemplo, que el estrato de hombres est mucho ms
disperso (tiene mayor varianza) que el de mujeres, deberemos tomar un mayor
nmero de datos en este estrato, para obtener mayor representatividad de la
muestra.
234|P g i n a
P g i n a |235
11.1.4 Muestreosistemtico
Sisedisponedelosindividuosdeunapoblacinordenados,dealgunaforma,
enunalista,elmuestreosistemticoconsisteenelegirunprimerindividuoalazar,y
los siguientes de forma sistemtica o peridica a travs de dicha lista. De manera
general,si eseltamaodelapoblacinyqueremoselegirunamuestradetamao
, entonces dividimos entre . Sea la parte entera de / . Se elige
aleatoriamenteunnmero
entre1y ,ylamuestrasetomaconloselementos
delalista: ,
,
2 , . ..hastacompletarlos elementosquesenecesiten.
En la siguiente figura podemos ver un ejemplo grfico de toma de datos en una
muestradetamao enunapoblacinde vacas.Sesuponequelasvacasestn
ordenadasenunalista(numeradas).Tambinpodeispensarenlalistadevacas
comouncarruseldeferia,yStevenSeagalpegandotirosalasvacas ,
,
2 , . ..
Estetipodemuestreopodrapresentarproblemasencasodeperiodicidad.
Supongamosunmuestreoparaconocerlacalidaddevidadelosvecinosdevarios
236|P g i n a
P g i n a |237
12
ESTIMACINPUNTUAL
238|P g i n a
Unestadstico,ademsdeserunapersonaqueestudiayutilizalaestadstica,
se define como una funcin de varias variables aleatorias: si , , . . . , son
variables aleatorias, una funcin (que cumpla algunos requisitos matemticos)
, ,...,
sellamaestadstico.
Estimador:Estadsticoqueseusaparaestimarunparmetrodesconocido.
Si el estadstico (esa funcin de antes) se utiliza para estimar (tratar de
aproximar)unparmetrodelapoblacinovariable,sellamaestimador.
Porejemplo,estamosinteresadosenestimarelpesomediodelasmujeres
mayoresde18aos.Paraelloelegiriamosunamuestradelapoblacindetamao .
, , . . . , seran variablesaleatorias,cadaunadeellasnosmedirel
pesodelamujer delamuestra.Lafuncin
...
, ,...,
esunestadstico(porqueesfuncindevariablesaleatorias),ytambinunestimador,
porqueloutilizaremosparaestimarelpesomedio.
Estimacin:Valorconcretodelestimadorparaunamuestraenparticular.La
estimacinvieneaserunaprediccindelvalortericodesconocido.
P g i n a |239
Enelejemploanterior,( , , . . . ,
eslamuestraenabstracto,esdecir,
eslabasematemticaqueutilizamosparatratardepredeciroestimarelpesomedio
delasmujeresmayoresde18aosenlapoblacinengeneral.
Lamediamuestral:
...
...
12.1 ESTIMACINDELAMEDIADEUNAVARIABLE.MEDIAMUESTRAL
Profundizaremosahoraenelejemploanterior,paraverconmayorprecisin
culeslaformadeestimarlamediadeunavariablealeatoria.
Supongamosquesedeseaconocereltiempomediodehorasdesueoque
provoca un sedante determinado. Para realizar una inferencia estadstica, se elige
unamuestraaleatoriasimplede enfermosalosqueselesharecetadoelfrmaco.
Traslatomadeunapastilla,medimoslavariable =horas de sueo.
240|P g i n a
Enesteejemplo,lacaractersticaenlaqueestamosinteresados,comovemos,
esunavariablealeatoria.Esacaracterstica,lgicamente,semideenunapoblacin
(enestecasosernlaspersonasalosqueselespuedesuministrarelfrmaco).
NosinteresaconocerelparmetroMediadelavariable .
Paraelloseleccionamosunamuestraaleatoriasimpledetamao .Enella
medimos veces la variable y, por lo tanto, tendremos variables aleatorias
( , ,...,
.
Estadsticoautilizar:lamediamuestral.
...
Estimador:dadaunamuestraconcreta , , . . . ,
...
Estimacin:paraunamuestraparticular,porejemplo,
6,tenemos6datos
concretos: 0.8,2.1,1.5,1,2,2.3
1.61.
6
Podramosconsiderarotrosestimadoresparalamediadeunavariable?S
tenemos una muestra
, ,...,
no resulta muy descabellado usar este
posibleestimador:
min
max
.
2
Para la muestra anterior, la estimacin resultante sera
queesunnmeroparecidoalanterior.
Otraposibilidad:
...
1
nosdaralaestimacin
0.8
2.1
1.5
5
2.3
1.94.
1.55,
P g i n a |241
Y seguro que se nos pueden ocurrir bastantes ms. Cul es el mejor de
todos?Haymtodosmatemticosparapoderelegirentreunosestimadoresyotros.
Ahorabien,enprincipio,cualquierestadstico(recordad,nounapersona,sinouna
funcindevariablesaleatorias)utilizadoparaestimarunparmetro,esunestimador.
Cuandoeseestimadorsecuantifica(cuandoyatenemoslosdatosdelamuestraylo
valoramos),tenemosunaestimacin.Queeseestadstico,estimadoroestimacin
seabuenoomalo,yaesotrocantar.
12.2 ESTIMACINDELAVARIANZA.CUASIVARIANZAMUESTRAL
.
Sienvezdedividirpor sedividepor
llamacuasivarianzamuestral:
1,setieneotroestimadorquese
(121)
242|P g i n a
Esteestimador,queseescribemuchasveces (oenmuchoslibrossingorro,
simplemente , supongo que para marear) guarda una relacin sencilla con la
varianzamuestral:
1
1
(122)
Matemticamente,comopodemosobservar,cuandoelvalorde esgrande,
los valores son similares (
12.3 ESTIMACINDEUNAPROPORCIN.PROPORCINMUESTRAL
,
esdecir,laproporcindelacaractersticaenlamuestra.
P g i n a |243
12.3.1 Otrosestimadores
244|P g i n a
12.4 DISTRIBUCINENELMUESTREODEUNESTIMADOR
P g i n a |245
manifestantesquedetengan,sipertenecenonoalamisma(trasuninterrogatorio
amabley,alavez,persuasivo).
Supongamos que en cada furgn policial caben 40 detenidos. Cada furgn
puederecoger,entonces,unamuestradelapoblacindetamao40.Dentrodecada
muestrasemidelaestimacin
,
40
queesunaaproximacindelaproporcin demiembrosdeesaasociacinenla
poblacingeneraldeantipartidos.
Alfinaldelajornadadelucha,sehanmovilizadountotalde300furgones.
As,tenemos300estimaciones , , . . . , delparmetro .
En el sistema informtico de la polica se tienen los datos de todos los
furgones(muestras).Enlatabla(123)aparecereflejadalainformacin(valor1enla
muestrasieldetenidoesdelosquerubinesy0sinoloes).Enlaterceracolumna
delatablaescribimosunvalorficticioparacadaestimacin .
1
2
3
300
0.11
1,0,1, . . . . ,0,1,0
0,0,1, . . . ,0,1,0
0,1,1, . . . ,1,1,0
0.19
0.06
0,1,1, . . . ,1,1,0
(123)
246|P g i n a
tipodedatosporqueaspodrorganizarunapoliticadedetencionesadecuadaano
gastardemasiadoencomidadepresosydetenidos.
Figura121:histogramadeladistribucinenelmuestreodelavariableproporcinmuestral.
1
2
300
63.97,48.81, . . . ,86.83
65.14,86.35, . . . ,84.35
67.03
71.78
(124)
73.25,57.68, , . . . ,168.44
79.02
...
,esdecirla
P g i n a |247
quesiemprequecalculemosmediasdemuestras,elhistogramaresultanteformado
por esas medias (ya sean medias de pesos, de alturas, de temperaturas...) se
aproximaralacampanadeGauss.
Figura122:histogramadeladistribucinenelmuestreodelpesomedio.
12.5 CALIDADDELOSESTIMADORES
Cuandopretendemosestimarunparametrodesconocidodeunapoblacin,
yasealamedia,laproporcinocualquierotroparmetro,estclaroquepodemos
definirdiferentesestimadores.
Comovimosantes,otroestimadorparalamediadeunapoblacinpodraser,
dadaunamuestra
, ,...,
,
min
max
.
2
248|P g i n a
12.5.1 Sesgodeunestimador
Si esunestimadordeunparmetro ,sedefineelsesgodelestimadorcomo
.
P g i n a |249
Ejemplo 12-1 Puede demostrarse matemticamente que la media muestral
es un estimador insesgado de la media verdadera, y que (proporcin
muestral) es un estimador insesgado de la proporcin verdadera. La cuasivarianza muestral
es un estimador insesgado de la varianza terica de la
poblacin. Sin embargo, la varianza muestral
NO es un estimador
insesgado. Este es uno de los motivos por los que, en muchas ocasiones, la
varianza se define ya directamente como la cuasi-varianza, y por qu muchos
paquetes estadsticos, cuando les pedimos calcular la varianza, realmente
calculan la cuasi-varianza.
12.5.2 Consistencia
Un estimador es una variable aleatoria que depende de una muestra de
tamao .Pareceintuitivoque,cuantoms grandesealamuestraquetomemos,
mejorserlaestimacin.Unestimadorsediceconsistentesilim
Ejemplo 12-2 Los estimadores que hemos visto (media muestral, proporcin
muestral, varianza y cuasi-varianza muestral) son consistentes.
250|P g i n a
12.6 INTERVALOSDECONFIANZA
Darunaestimacinconcretaestbien,porqueesunaaproximacindealgo
quedesconocemos.Ahorabien,aefectosprcticos,nopodemossaberladistanciao
diferencia que existe entre la estimacin que demos y el parmetro a estimar. Si
decimosquelaproporcindegentealaquelegustaelchocolateconchurrosesun
60porciento,basndonosenunaencuesta,aunqueseadeuntamaomuygrande,
nopodemoscalcularladiferenciaentreesevaloryelreal.
Parece bastante ms prctico dar un intervalo aprximado por donde
sepamosquesemueveelvalorrealqueestamosestimandoyquedesconocemos;
deciralgoascomo:laproporcindegentealaquelegustaelchocolateconchurros
se mueve entre el 55 y el 65 por ciento, con una probabilidad muy alta. De esta
maneradamosmuchamsinformacin,puestoqueacotamostantoporarribacomo
porabajoelporcentajedelquehablamos,ydamoslaprobabilidaddelintervalo.
P g i n a |251
12.6.1 Definicionesbsicas
eselniveldeconfianza.Engeneral,
estprximoa1.
Cojamos,porejemplo,
0.05.Queelparmetro estenunintervalocon
unaconfianzadel95%significaque,sidispusiramosdetodaslasposiblesmuestras
quepudisemosextraerdelapoblacin,el95%deellascontendranalparmetro,y
habraun5%demuestrasquenolocontendran(envezde95lase 1
100
paracualquierotro .
Los valores que, tradicionalmente, se suelen utilizar para el nivel de
significacin son0.01,0.05y0.1.
Lamanerageneraldeconstruir,matemticamente,unintervalodeconfianza
para un parmetro , suele ser a travs de un estadstico llamado pivote, con
distribucinconocida(comolanormal,la deStudent,laChicuadradoola .Dicho
estadsticopivoteseutilizatambinpararealizarloscontrastesdehiptesisparael
parmetro ,queveremosenelsiguientecaptulo.Losintervalosdeconfianzapara
unparmetro suelentenerlaforma
,
,donde esunestimadorde y
es una cierta cantidad que depende del tamao de la muestra y del nivel de
que pretendamos,
significacin . Cuanto mayor sea el nivel de confianza 1
mayorlongitudtendrelintervalo.Anlogamente,amenornivel,menorlongitud.
Asimismo, cuanto mayor sea el tamao de la muestra, menor ser la longitud del
intervalo.
Enestetextonoslimitaremosadarlasfrmulasdelosintervalosdeconfianza.
Elestadsticopivoteapartirdelcualseconstruyecadaintervalopuedeconsultarse
enelapartadocorrespondiente,dentrodelcaptulodetestdehiptesis(tampoco
nosinteresalaformadeconstruirelintervalo).Paraprofundizarcualquieradeestas
cuestiones,otambineltemadelaconstruccinypropiedadesmatemticasdelos
252|P g i n a
estimadores,recomendamosmiraralgnlibrodeestadsticatericadeingeniera,
comoeldeArdanuy[1]oMontgomeryyRunger[9].
12.6.2 Intervalosdeconfianzaparavariablesaleatoriasnormales
Sea unavariablealeatorianormal,quemideunacaractersticadeinters
enunapoblacin,
, .Exponemos,acontinuacin,culessonlasfrmulas
delosintervalosdeconfianzaparalosparmetros y .
,
Separtedeunamuestraaleatoriasimple
,,
12.6.2.1 Intervalosdeconfianzaparalamedia
Existen dos posibilidades para calcular un intervalo de confianza para el
parmetro :conocerladesviacintpicaonoconocerla.
Intervaloconociendoladesviacintpica
Elintervalotienelafrmula
/
siendo
(125)
...
lamediamuestral,y
elvalordeunadistribucin
0,1 quedejaasuderecha
de rea (Figura 123), es decir es el cuantil o valor que deja a la izquierda una
probabilidad1
P g i n a |253
Figura123
Conunagrficasiempresevenlascosasmsclaras(Figura124).Lamedia
tericaestenelintervalodeconfianzaconlaprobabilidadprefijadadeantemano.
Comovemos,elintervaloestcentradoenlaestimacinpuntualdelamedia(media
muestral ),yesdelaforma:( menosunacantidad, msunacantidad).
Figura124
Intervalodesconociendoladesviacintpica
Es muy dificil que, en un caso real, se tenga la informacin de cul es la
desviacin tpica terica o verdadera de la poblacin, por lo que el intervalo
254|P g i n a
, /
siendo
, /
, /
elvalordeuna deStudentcon
(126
1gradosdelibertadquedejaa
,perodebemosbuscardichovalorenladensidad
con
1gradosdelibertad).
(111)).
Lacantidad
delamedia.
eslacuasidesviacintpicamuestral(frmula
/ suelerecibirelnombredeerrortpicooerrorestndar
Ejemplo 12-3 El Yoshua vende paquetes de costo para los porritos que fuman
en su calle, diciendo que de media tienen 10 gramos de hachs. La Yesi y el
Richar le compran 7 paquetitos para una fiesta y los pesan:
9.8,10.2,10.4,9.8,10.2,10.2,8.6. Ser cierta la afirmacin del Yoshua?
Solucin.
Vamos a calcular un intervalo de confianza para la media de los paquetes
(suponemosqueelpesosigueunadistribucinnormal).Acabamosdeescribirqueel
intervalodeconfianzaparalamediaes
, /
, /
P g i n a |255
Figura125
El valor
, /
indicamossulongitud.
1
0.9 90%
0.95 95%
0.99 99%
, /
0.1
1. 943
0.05 2. 446
0.01 3. 707
9.43,10.33
9.32,10.44
9.03,10.73
0.9
1.12
1.7
Segnlosvaloresdelatabla,vemosquelaverdaderamedia(desconocida)
estenelintervalo 9.43,10.33 conprobabilidad0.9;enelintervalo 9.32,10.44
con probabilidad 0.95, y en el intervalo 9.03,10.73 con probabilidad 0.99.
Observamosque,cuantamayoreslaconfianza,lalongituddelintervaloaumenta.
Para conseguir un intervalo de menor longitud (lgicamente ms preciso) con la
mismaconfianza,tendramosqueaumentareltamaodelamuestra.
256|P g i n a
Clculodeltamaodelamuestra.
Conunaprobabilidadde0.99,queremosqueelerroralestimar mediante
noexcedade2.5kg,esdecirque|
| 2.5. Comoelintervalodeconfianzapara
lamedia(cuandoladesviacintpicaesconocida,queenestecasoes
16.5)es
elformuladoen(125),
P g i n a |257
yquieredecirque esteneseintervaloconprobabilidad1
|
entonces|
,conprobabilidad1
(verlaFigura124),
Unimoslasdoscosas:
|
y
|
Entonces,acotamos
ycomo
0.99
|
/
2.5.
por2.5,donde esloquebuscamos,
0.001,secalculaelvalor
2.57
loquesignificaque
(127)
16.5
16,
2.57.Porconsiguiente:
2.5
2.57 16.5
2.5
16.962,
287.709 Sedeberpesar,almenos,a288pacientes.
, /
.
, /
que depende de
y
. Para ello se debera elegir alguna muestra inicial un poco grande (30 o ms) y
calcular
. Esto nos dara una estimacin de la desviacin tpica de la poblacin.
Por otro lado, como lo que queremos calcular es un tamao muestral, ste
seguramente deber ser grande, con lo que
, / lo podemos aproximar por
/
(pues hemos visto que la de Student, a medida que se hace grande, se convierte
en la distribucin normal). De esta manera, la frmula para estimar el tamao
muestral queda:
258|P g i n a
donde 1
sera la confianza deseada, y el mximo error que deseemos cometer
al estimar la media mediante la media muestral.
conloquelamediamuestral
...
simplementeseelevanlosvalores
Conociendolamedia
Lafrmuladelintervaloes(sealemosque,enestecaso,elintervalonotiene
laformadeestimacinmenosalgo,estimacinmsalgo)
,
, /
,
,
P g i n a |259
siendo
, /
elvalordeunaChicuadrado,con gradosdelibertad,quedejaala
derecha /2derea(Figura126),ocuantilquedejaasuizquierda1
derea.
Comoocurraenelcasodelamedia,esteintervalonosueleutilizarse,puestoquelo
habitual,sinoseconoceladesviacintpica,esnoconocertampocolamedia.
Figura126
Desconociendolamedia
Cuandolamediatericanoseconoce,seestimamediantelamediamuestral.
En este caso, la distribucin Chicuadrado de referencia tiene un grado menos de
libertad.Elintervaloes:
, /
quepuedeescribirseenfuncindelavarianzaocuasivarianzamuestral,delmodo:
1
,
, /
siendo
, /
(128)
1
,
,
/
, /
elvalordeunaChicuadradocon
aladerecha /2derea.
,
,
1gradosdelibertadquedeja
260|P g i n a
Ejemplo 12-5 El dueo de un pub est dudando si, para el da de fin de ao,
le compensa ms cobrar por consumicin un euro, que es lo que van a hacer
la mayora de los pubs del barrio (dando garrafn, por supuesto) o vender una
entrada a un precio alto y que el cliente tenga barra libre. Para decidirse, invita
a 12 vecinos para comprobar cuntas consumiciones alcohlicas pueden
tomarse hasta caer redondos. Los datos que obtiene son:
3, 8, 12, 13, 15, 18, 20, 24, 24,30, 32, 40.
De estos datos se obtienen los valores
18.75, y
9.15. Vamos a
calcularlosintervalosdeconfianzaparalamediayladesviacintpica,paraunnivel
0.05.
Elintervalodeconfianzaparalamediaeseldadoporlafrmula(126 .El
.
valor
2.201.
, /
,
ParacalcularelvalorenR,escribimos
qt(0.025,11) y nos da 2.20 (el valor opuesto). Otra forma es ir a
statdistributions.comycalcularloconlagrfica,quepuedesermsintuitivo.
Elintervaloresulta 18.75
2.201
18.75
5.81,18.75
5.81
12.94,24.56 .
Elintervaloparaladesviacintpicaeselexpresadoen(128).Calculamoslos
valores
, /
21.92y
3.816.
ParacalcularestoscuantilesenR,escribimos
qchisq(0.025, 11); qchisq(0.975,11)yobtenemoslosdosvalores.
Elintervaloqueda
11 9.15
11 9.15
,
21.92
3.816
6.48,15.53 .
P g i n a |261
24.56yladesviacintpica15.53.Entonces,comocasomuydesfavorable,elvalor
ms alto que podra tomar la variable cantidad de alcohol estara cerca de
2
24.56 2 15.53 55.62.
Estrategia del dueo del pub: vender entradas de barra libre, cobrando un
precioalto,deltipoalgomsde40euros(dehecho,enlamuestravemosque40es
unvalorextremo).Si,porejemplo,fijaelvalordelaentradaen50o55eurosyasera
muydifcilqueperdieraconnadie,pormuybebedorempedernidoquefuera.
12.7 INTERVALOSPARALACOMPARACINDEPOBLACIONES
,
,
respectivamente.
262|P g i n a
12.7.1 Intervalodeconfianzaparaladiferenciademedias
Paradarunintervalopara
tenemoscuatroposibilidades.
12.7.1.1 Conociendolasdesviacionestpicas
Elintervaloes
Podemosverqueesteesunintervalodelaformadelescritoen(125),pero
ahoraaparecendosmediasmuestrales,dostamaosmuestralesydosvarianzas.
12.7.1.2 Desconociendolasdesviacionestpicasperosuponiendoquesoniguales
1
, /
Sinoconocemoslavarianza(perosuponemosquelasdosvariablestienenla
misma),entonceslaestimamos.Cmo?Puesmediantelamuestra , , . . . ,
realizamosunaestimacin
;mediantelamuestra
,...,
realizamosuna
1
2
Estaesunaestimacindelavarianza.Calculandolaraizcuadradatenemos
unaestimacindeladesviacintpica.Ahora,enelintervalodeconfianza,envezde
utilizarlavariable onormal,utilizamosla deStudent.
P g i n a |263
12.7.1.3 Desconociendolasdesviacionestpicasysuponiendoquelostamaosde
lasmuestrassongrandes ,
(129)
, /
siendoelenteromsprximoa
Cuandoyaestamosenelpeordeloscasosposibles,queesnoconocerlas
varianzasyanencimatenertamaosdemuestrapequeos,resultaqueunseor
muy listo (que no obtuvo demasiado reconocimiento, la verdad, porque en pocas
ocasionessedasunombre11)calculelintervaloausar.Comovemos,esigualque
enelcasoanterior,perosustituyendolavariablenormalporla deStudent.Lapega
estenelnmeroquetieneunaformaunpelncompleja,sobretodosisehacen
lascuentasamano.
11
B.Welchfueelestadsticoencuestinquecalcullafrmulade.Hayquiendiceque
despusdeesotuvoqueestaratratamiento,peroquizseaunaleyendaurbana.
264|P g i n a
Nota 12-4 Por si algn novato est a punto de tener un desmayo a causa de
tanto formuln (sobre todo despus de ver la frmula de ), recurdese que todos estos
intervalos estn programados. En general, con introducir los datos de las muestras en
la web o programa estadstico correspondiente, elegir el que queremos y el intervalo
que necesitamos, las cuentas no hay que hacerlas.
2.46,
1.Elegimos
0.05,conloque
3.39,
3.74,
, /
, /
2.11.Elintervalodeconfianza(para
0.05 esel(129)quesale 1.99,1.29 ,es
decir,ladiferenciadetiemposmediosdedescargaperteneceaesteintervalocon
probabilidad0.95.Comopodemosver,elintervalodeconfianzacontienealcero,o
sea que hay poca diferencia entre la velocidad media de un proveedor y otro. De
todas formas, para tomar una decisin ms acertada, desde el punto de vista
estadstico,esmejorrealizaruncontrastedehiptesis.
P g i n a |265
Nota 12-5 De nuevo vemos lo fcil que es hacerlo en R: declarar los datos
(muestras) como vectores y ejecutar una instruccin
x=c(2.2,2.1,4.2,1.6,3.2,2.8,1.7,4.8,3.4,7.9)
y=c(3.1,2.8,3.8,2.8,4.5,2.8,1.9,5.4,3.1,7.2)
t.test(x,y, conf.level=0.95)
En los resultados, entre otros valores, tenemos el intervalo de confianza al 95
por ciento:
95 percent confidence interval:
-1.991689 1.291689
Por ltimo, para comparar las varianzas podemos dar un intervalo para la
proporcinococienteentrelasmismas.
12.7.2 Intervalodeconfianzaparalarazndevarianzas
Elintervalodeconfianzaparalaproporcinococientedevarianzas
es
siendo
, /
, /
,
1 y
1 grados de
libertad,quedejaaladerecha /2derea(oseaelcuantilquedejaalaizquierda
1
derea).
Acontinuacin,vamosarealizarunacomparacinentredosmuestrasreales.
Pequeacomparacinentrepoblacionesindependientes(aunque
notannormales).UnejemplodeEstadosUnidoscontraunodeEspaa:
266|P g i n a
P g i n a |267
268|P g i n a
12.8 CASODEMUESTRASRELACIONADASOPAREADAS
P g i n a |269
Construimos la muestra de diferencias
entre los datos de los
interrogadores
0.7,0.4, 0.3, 0.2,0.2, 0.1,0.4 ,
ycalculamoselintervalodeconfianzaparalamediadelavariable .Elintervaloes
, /
0.042
0.36, 0.042
0.042
0.36
2.447
0.4
7
0.402,0.318 .
Elintervalodeconfianzacontienealcero,aunqueesalgomslargohaciala
izquierda(loqueotorgaraventajaalprimerinterrogador).Estadsticamente,debera
optarse por elevar el nmero de detenidos para obtener un intervalo de mayor
precisin.Adems,paratomarunadecisindesdeelpuntodevistaestadstico,sera
mejor realizar un contraste de hiptesis. Sin embargo, creemos que la direccin
generaldeseguridadvaaestablecerundesempatemedianteunapeleaamuerte
sbitaentrelosinterrogadores.
12.9 INTERVALOSPARAPROPORCIONES
270|P g i n a
12.9.1 Intervaloparaunaproporcin
Supongamosquesemideunaciertacaracterstica enunapoblacin.Sea
laproporcindeelementosdelapoblacincondichacaracterstica.Como
hemos visto, se estima puntualmente mediante la proporcin muestral
nmero de elementos con la carcterstica en la muestra de tamao / . El
intervalodeconfianzadenivel paraelparmetro esdelaforma
donde
eselvalordeuna
42
42
1 60 42
60
2.64
,
60
60
yque
0.01 1
0.99
60. Elintervalosale:
42
42
1 60
60
2.64
60
0.54,0.85 ,
esdecir,elintervalovadel54al85porciento.Cualquierperidicosacaraeltitular:
segnunaencuestadelCIE,msdelamitaddeloshombresnobajanlatapadel
W.C., y lo acompaara de alguna fotografa indicativa, que nos negamos a
reproducir.
Nota 12-6 En paquetes estadsticos como SPSS o R, lo habitual es disponer
de una variable con todos los datos (que, en un caso como este seran SI o NO, o del
tipo 0-1), y el propio programa nos realiza el clculo de las proporciones muestrales
P g i n a |271
y el intervalo correspondiente, de un tirn. De todas formas, en R podra calcularse
como:
x1=42; n1=60
prop.test(x=x1, n=n1, conf.level = 0.99, correct=F)
El resultado (entre otras cosas):
99 percent confidence interval:
0.5341185 0.8260532
12.9.2 Intervalodeconfianzaparaladiferenciadeproporciones
Ahora suponemos dos poblaciones en donde se considera la misma
caracterstica . es la proporcin de elementos con dicha caracterstica en la
primera poblacin, y es la proporcin en la segunda poblacin. Se toma una
272|P g i n a
ticoquelospadresrevisenelordenadordeloshijos=
0.3.
Confianzadel95porcientosignificaque1
0.95
0.05
1.96.
Calculamosentonceselintervalodeconfianza:
0.59
0.29
0.3
0.081
1.96
0.59 1 0.59
420
0.3 1 0.3
180
0.209,0.371 ,
conloqueobtenemosqueladiferenciarealdeproporciones
deesteintervalo,conprobabilidad0.95.
estdentro
P g i n a |273
Nota 12-7 En R se calculara de la forma:
x1=c(250,42); n1=c(420,140)
prop.test(x=x1, n=n1, conf.level = 0.95, correct=F)
y el resultado dara
95 percent confidence interval: 0.2059867 0.3844895
274|P g i n a
P g i n a |275
13
CONTRASTESDEHIPTESIS
Segnunaencuestareciente,el80porcientodelasmujeresafirmano
fijarseenelfsico.
Claro,sefijanenelmdico,elfutbolistayelnotario,dijountoenunbar.
13.1 INTRODUCCIN.CONCEPTOSESENCIALES
276|P g i n a
Lasnotasdeunaasignaturasonnormales(lavariable =notasigueuna
distribucinnormal).
Losresultadosdeunsorteonosonaleatorios(lavariable =resultadono
sigueunadistribucinuniforme).
Larealizacindeuncontrasteimplicalaexistenciadedoshiptesis:
Hiptesisnula.
Sedenotapor
,yseasumecomocorrecta.
Hiptesisalternativa.
Sedenotapor
hiptesisnula.
,yeslaquepretendemoscontrastarcomoopuestaala
Elplanteamientodeunahiptesisestadstica(ysualternativa)esunaprimera
formadeafrontarlallamadateoraestadsticadeladecisin.As,pormediodeun
testocontrastedehiptesis,elinvestigadordebertomarunadecisinentredos
alternativas. La manera de hacerlo ser elegir una muestra lo suficientemente
representativadelapoblacinenestudio,yversilosresultadosqueseobtienenson
coherentesconlahiptesisformulada.Porejemplo,cuandoqueremoscomprobarsi
las notas de una asignatura siguen una distribucin normal, una posible forma de
tomarunadecisinserarepresentarlosresultadosdeunexamenpormediodeun
histograma de frecuencias y chequear el parecido con la campana de Gauss.
Lgicamente,altomarunamuestrasiemprehabrdesviacionesconformealabase
terica que planteemos en la hiptesis nula. Lo que habr que estudiar es si esas
desviacionessonfrutodelacasualidadono.
Enocasiones,lahiptesisnulasellamadeigualdad,porquesepresupone
que es la hiptesis que cumple la poblacin, y la alternativa ha de demostrar lo
contrario.Veamosacontinuacinunejemploreferidoalamediadeunapoblacin.
P g i n a |277
Esteseraunejemplodelprimererrorquenodebemoscometer:elegiruna
muestra mala, o no representativa de la poblacin. Hemos visto en el apartado
anterior varias maneras de seleccionar una muestra. A lo largo de este captulo,
supondremosquelasmuestrasseeligenmediantemuestreoaleatoriosimple,yque
lapoblacintieneuntamaomuygrande(quepodraentendersecomoinfinito).
Planteamientogeneral.
Hiptesisnula
Hiptesisalternativa
Laquecontrastamos.
Niegaalanula.
Losdatospuedenrefutarla.
Losdatospuedenserfavorables
aella.
Nodeberechazarsesinuna
buenarazn.
278|P g i n a
Lahiptesisnulaeslaqueelinvestigadorasumecomocorrecta,ysetrabaja
con el principio bsico de que es cierta mientras los datos no prueben con gran
certidumbrelocontrario.Ahorabien,trasrealizaruntestocontraste,laaceptacin
de noimplicaquestahayasidoprobadaal100por100,sinoquelosdatosno
han proporcionado evidencia suficiente como para refutarla. En este sentido, la
consideraremosneutraperonuncatotalmenteprobada.
Eshabitualponercomoejemplosdehiptesisnulayalternativalassiguientes:
a)Unapersonallegaaunhospital.
:enfermo.
:noenfermo.
b)Unacusadoenunjuicio.
:inocente.
:culpable.
P g i n a |279
13.2 ERRORTIPOIYERRORTIPOII.POTENCIA
REALIDAD
RECHAZO
(131)
ErrortipoI
Decisin
correcta
Decisin
Correcta
ErrortipoII
Denotamospor:
P(rechazar
siendo cierta)=P(Error tipo I).
significacindelcontraste.
P(aceptar
se llama nivel de
siendofalsa)=P(ErrortipoII).
1
rechazar siendofalsa)sellamaPotenciadelcontraste(midela
probabilidaddeacertarcuandorechazamos ).
Enelejemplob)delaseccinanterior, eslaprobabilidadderechazarla
inocencia,cuandorealmenteelacusadoesinocente. eslaprobabilidaddeaceptar
lainocenciacuandoelacusadoesculpable.Segnvemos,elerrordetipoIesmucho
msgravequeeldetipoII.SisecometeunerrordetipoIsemeteenlacrcel(oen
elcorredordelamuertesieselcaso...)auninocente.Sisecometeunerrordetipo
IIsedejalibreaunculpable.
La potencia del contraste medir la probabilidad de rechazar la inocencia,
cuandoenefectoelacusadonoesinocente.
280|P g i n a
Enelejemploa)delaseccinanterior, eslaprobabilidadderechazarque
alguienestenfermo,cuandoenrealidadloest. eslaprobabilidaddedecirques
estenfermo,cuandoenrealidadnoloest.Tambinobservamosquecometerun
errordetipoIesmsgravequecometerunodetipoII(dejemosdeladoeltipode
pruebas que le haran a la persona que ingresa sin estar enfermo, tipo contrastes
radioactivos,puncioneslumbares,tactosrectales...).
Parececlaroque,encualquiercontraste,interesaminimizarlaprobabilidad
de cometer ambos errores. Desgraciadamente, al minimizar la probabilidad de
cometer un error, aumenta la probabilidad de cometer el otro. Esto es fcil de
comprobar:unamanerademinimizarlaprobabilidaddemeterinocentesenlacrcel
sera soltar a todo el mundo ante la mnima duda, pero eso aumentara la
probabilidaddedejarenlacalleautnticosculpables.Igualmente,ingresaratodoel
mundo en el hospital minimiza la probabilidad de mandar a casa a una persona
enferma, pero aumenta la probabilidad de ingresar personas sanas... Ambos
planteamientossoninviables.Porlotanto,laformadeprocederalahoradeplantear
cualquiercontrastedehiptesiseshacerqueelerrordetipoIseasiempreelms
importante.
P g i n a |281
13.3 EJEMPLOPRCTICO:UNAPELCULA
Conunejemploconcretoquepodramosencontrarenunvideoclub(siesque
quedaalguno),vamosatratardeentenderloquemstardeseharunpocoms
abstracto, por culpa de las matemticas. Atencin: spoilers!12 Si no has visto la
pelculayteapeteceverla,vetedirectamentealapartematemtica,alaSeccinde
lapgina287.
12
Definicindespoiler,copiadatalcualdelafrikipedia(sihayfaltasdeortografao
gramtica,noculparalautor):Selellamaspoileracuandounhijodeputa(Tuhermano,el
padre/madredetuhijo,elhijodetumam,elqueescribiesto,etc.)tecuentaunapartedealgo
queaunnohasvisto,tepicasylomatas,luegonotedanganasdeveresaputamierdaporqueyate
lacontaronytecagaronlamalditahistoria.Tambiensellamaspoilersalosespaguetiscaducados
peroesonotienenadaquever.
282|P g i n a
Granpartedelapelculasedesarrollaeneltribunal,comootramsdelas
tpicaspelculasdejuiciosquetodoshemosvistoalgunavez.Utilicemosloqueocurre
enlapelculaparaseguirlosdistintospasosdeuncontrastedehiptesis.
P g i n a |283
1.Establecimientodelashiptesisnulayalternativa.
284|P g i n a
2.
P g i n a |285
3.Podranlaspruebasserfrutodelacasualidad?
(odetestigosfalsos,comprados,enemigosdelosacusados...).
El abogado llama a declarar a su prometida, que casualmente es
experta en automviles, porque procede de una familia de mecnicos de
coches, y ella misma ha trabajado muchos aos en un taller.
286|P g i n a
P g i n a |287
13.4 CONTRASTESDEHIPTESISPARAMTRICAS
: no sigue una
Unaposibleformaderealizaruncontrasteserapormediodeunhistograma.
Fijmonos en la Figura 131. Tenemos 3 muestras o 3 grupos de notas de 250
alumnos.Claramente,elprimerodeloshistogramasnosdiraquelavariable es
normal,mientrasqueelsegundohistogramanosdiraqueexisteunaasimetraala
derecha,yconeltercerhistogramaclaramenterechazariamoslahiptesisnula.
Este ejemplo sera un contraste de tipo no paramtrico, puesto que no se
realizaningunaafirmacinsobreparmetrosdelavariable.Intentamossabersi es
unavariablenormalono.Veamosahorauncasoparamtrico:
frente a
288|P g i n a
Figura131
Dequestaramoshablando?Sisesuponequelaasignaturaseimpartede
unaforma,llamemoscorrecta,eigualmentesucedeconlosexmenes,unestudio
estadsticoalolargodevariosaosdeberaarrojarunanotamediaiguala5.Esta
notamediaseranuestroparmetrotericodelapoblacinovariableenestudio.
SupongamosqueseincorporaadarlaasignaturaelCidcateadory,apartir
de ese momento, los alumnos comienzan a quejarse de que la asignatura es muy
difcildeaprobar,quesuspendemuchagente,etc.Elrectordelauniversidadhabla
conelprofesoryledicequeestrecibiendomuchasquejas,peroelprofesorinsiste
enquenadahacambiadoenlaasignatura,yquetodoestigualquesiempre.Cmo
sepuederesolverlacuestin?Porejemplo,realizandounexamenconunnmero
P g i n a |289
elevadodealumnos,yviendosiexistemuchadiferenciaentrelanotamediaquese
obtiene en el mismo y el parmetro terico (
5). Ahora bien, est claro que,
aunquelamediasigavaliendo5,siemprepuedenexistirdesviacionesentreloterico
yloqueocurraenlamuestra.Sienlamuestradeexmenesobtenemosunamedia
de 4.8, aceptamos
? Seguramente no. Seguramente buscaramos un
valormsalejadode5paradecirquelanotamediahabajado.Eselmismocasodel
ejemplo de culpables frente a inocentes. Las pruebas deben ser precisas y
clarificadoras.Encasodeduda,nosepuederechazar (enderecho,esteprincipio
sellamaindubioproreoencasodeduda,sefallaafavordelreo.Silaspruebas
danlugaradudas,hayquefavoreceralacusado).
13.4.1 Comorealizaruncontrastedehiptesisparamtrico
Loscontrastesreferidosaunparmetropuedenserdedostipos:bilaterales
ounilaterales.Uncontrasteesbilateralcuandotienelaforma
:
(Por nosreferimosaunparmetrotericoypor aunvalor
constante,unnmero)frentea
:
Uncontrasteunilateralesdelaforma:
:
frentea
:
obien
:
frentea
Enestosdosltimoscasos,lahiptesisnulapodraser :
(primer
caso)obien :
(segundocaso).Elcontrasteserealizaexactamenteigual.
Comohemosindicadoanteriormente,paratomarunadecisinseeligeuna
muestraaleatoriasimpledelapoblacin . , . . . ,
yseestima pormediode
290|P g i n a
P g i n a |291
acercan al rectorado para realizar alguna gestin. Un alumno que ya ha
aprobado la estadstica sospecha que la vicerrectora est utilizando dados
trucados, porque cree que gana demasiadas veces, que es cuando sale el 6.
Para tratar de demostrarlo, se esconde detrs de un rbol en el patio del
rectorado y anota los resultados de 30 jugadas seguidas, contando que el 6
sale 10 veces. Gracias a sus conocimientos de estadstica, el alumno va a
intentar que la vicerrectora, en vez de ir a su finca, pase el verano en AlcalMeco con su amiga Mary Chalar. Crees que lo conseguir?
Solucin.
Sieldadoestcargadoenel6,laprobabilidaddesalirsermayordeloque
1/6.Igualqueenelcasoanteriormentevisto
lecorrespondera,esdecir 6
(yapesardequeunvicerrectoresunpolticoenpotencia),debemosconsiderarla
inocentesalvodemostrarlocontrario.Vamosaplantearentonceslashiptesisnula
yalternativacomo
:Lavicerrectoraesinocente,porlotantoeldadonoestcargado:
1/6.
:Lavicerrectorahacetrampas:
1/6.
Lamuestraobservadaporelestudianteesunamuestraaleatoria,apartirde
lacualvamosacalcularunaestimacindelparmetro . Comohemosvistoenel
captuloanterior,unestimadornaturaldelparmetro eslaproporcinmuestral .
Enestamuestra, 10/30 0.33,queesdistintaymsgrandeque
1/6
0.16.
La discrepancia existe. Ahora bien, es porque realmente el dado est
trucado,oelresultadoesfrutodelacasualidadenlamuestraelegida?Dichodeotra
manera:quprobabilidadexistedequeeldadonoestpreparado( escierta)y
quelamuestraarrojeunaproporcinmuestralde0.33? Quprobabilidadexistede
que el dado no este trucado ( es cierta) y que exista esa diferencia entre lo
observado(0.33)yloterico(0.16)?
Enestecaso,lamedidadediscrepancia(oestadsticodelcontraste13)es
13
Dedndesaleesteestadstico?Comoyadijimos,alnoestarestetextoenfocadoalos
292|P g i n a
donde eseltamaodelamuestra.
esunavariablealeatoria(concadamuestradiferentequesetome, tomaunvalor
diferente),ypuededemostrarse(medianteelteoremacentraldellmite:lohabis
adivinado)quesigue,aproximadamente,unadistribucinnormalestndar.
0,1 .
Enestecasoconcreto:
10 1
30 6
1
1
6 1 6
30
2.44.
Siseescogeotramuestra(sepuedeespiaralavicerrectoraotrorato,anotar
tiradasnuevas,calcular ycalcular ,obtendremosotrovalordiferente .Esto
podemos hacerlo un montn de veces y obtener as una aproximacin de la
distribucin(enelmuestreo)defrecuenciasdelavariable .Porloindicadoarriba,
puede demostrarse que esa distribucin de frecuencias se corresponder con una
normalestndar.Esdecir,elhistogramadefrecuenciastenderaserlacampanade
Gauss.
Recordemosque,enla 0,1 (igualqueencualquiervariablecontinua),la
probabilidadentredospuntossecalculacomoelreabajolacurva.
Culeslaprobabilidaddequeunvalorconcreto discrepedelterico en
unacantidadconcreta,porejemplo0.1?Bien,laprobabilidaddeunpuntoessiempre
aspectosmstericos,simplementeindicamosque,tantoenestecasocomoenelrestodecontrastes
que veremos, este estadstico es el mismo que se utiliza para construir el intervalo de confianza
correspondiente.
P g i n a |293
cero,porserunavariablecontinua.Loquedebemoshacerescalcularprobabilidades
deintervalos.Podemosentoncescontestarpreguntascomo:culeslaprobabilidad
deobtenerdiscrepanciasquevaren,porejemplo,entre0.5y1.5?
Lorecordamosenlaimagenquemostramosacontinuacin.
Laprobabilidad 0.5
1.5
0.2417.Ennuestrocasoconcreto,nos
interesasabercuntodiscrepaelvalormuestral 0.33delterico
0.16.Es
decir, nos interesa saber la probabilidad
.
2.44 . De nuevo
tenemos que decir que esta probabillidad es cero, pero lo que podemos hacer es
calcular la probabilidad de obtener esa discrepancia o discrepancias mayores, es
decir
2.44 =0.0073.Podemosverloenlasiguienteimagen:
294|P g i n a
Figura132
13.4.2 Regincrticadeuncontraste
Enelejemplovisto,elpvalor,oprobabilidad,eraunnmeromuyprximoa
cero.Aspues,parececlaroqueladiscrepanciaconlotericoesmuyalta,puestoque
el pvalor, recordemos, mide la probabilidad (suponiendo que la hiptesis nula es
cierta)deobtencindelvalorobservadoounomayor.
Supongamos que, en vez de observar 10 seises en 30 lanzamientos, se
hubieranobservado7seises.Culseraelpvalor?Puesahora
P g i n a |295
7 1
30 6
1
1
1 6
6
30
0.97.
El pvalor es la probabilidad
deobtenerunadiscrepanciamayoro
iguala0.97:
,
0.97
0.16
(figuradeladerecha).
Con este pvalor, podra
aceptarselahiptesisnuladequela
vicerrectoranohacetrampas?Dicho
deotramanera:lamuestraobtenidapodrasercoherenteconqueeldadonoest
trucado,esdecir 6
1/6,yladiscrepanciasedebaalefectodelazar?
Obviamente,cuantomspequeasealadiscrepancia,mayorserelpvalor,
yviceversa.Luegoelpvalor(recordemosqueesunaprobabilidad,ysemoverentre
0y1)sirvecomoformadeestablecerunaregladedecisinenelsentidodeaceptar
orechazarlahiptesisnula.
Paraexplicarestoconmayordetalle,debemoshablardequseentiendepor
regincrticadeuncontraste.
Recordemos que hemos definido como =P(error tipo I)=P(rechazar
siendocierta)elniveldesignificacindelcontraste.Hastahaceunosaos,enquelos
ordenadoresylosprogramasestadsticosnoerandeusocomn,ylasprobabilidades
delasdistribucioneshabaqueconsultarlasenlastablas,laformadeprocederpara
tomar una decisin en cuanto a aceptar o rechazar una hiptesis nula era
estableciendo la llamada regin crtica, que depende de dicho valor . Llamemos
genricamente a esa regin crtica. Una vez calculado el valor nmerico del
estadsticoparaelcontraste, ,seprocedadeunmodotansimplecomo:
Si
se rechaza
Si
se acepta
(132)
296|P g i n a
Figura133
EnloscasosquehemosvistoenelEjemplo132,primeroobtuvimosque
2.44,queesunpuntode
1.64, ,yrechazariamos .Enelsegundocaso
supusimosqueseobservaban7seisesen30lanzamientosyobtuvimos
0.97.En
estecasoestaramosfueradelaregincrticayaceptaramos .
Losvaloreshabitualesquesetomabanpara (probabilidaddeerrordetipo
I)(y,enconsecuencia,paradefinirlaregincrtica)eran
0.01, 0.05y0.1.Hoyen
da,enmuchoscasossesiguetrabajandoconunvalor predeterminado(antesde
realizarelexperimento),pero,generalmente,nosecalculalaregincrticacomotal
P g i n a |297
(puestoqueelordenadornosdaelpvalor).Aspues,sedecidecualeselvalorde
queelexperimentadorestdispuestoaaceptarcomomximoriesgodecometerun
errordetipoI,ylaregladedecisines,trascalcularelpvalor:
Si p
valor
aceptamos
Si p
valor
rechazamos
13.4.3 Potenciadelcontraste
Lapotenciadeuntestsedefinicomo1
rechazar siendofalsa).
Para el ejemplo de Mi primo Vinny la potencia nos medira la probabilidad de
declararculpablesalossospechososcuandorealmenteloson.EnunjuicioenEstados
Unidos,laprobabilidaddependeradelbuenhacerdeljuradopopular:sieljuradoes
mslisto,msprobabilidadderechazar
siesfalsa.
ParaelEjemplo132podemoscalcularlapotenciamatemticamente.Como
est indicado en (132), la manera de rechazar la hiptesis nula es: si se
rechaza , donde, para un nivel de significacin
0.05 hemos visto que
1.64, ,esdecirserechaza si
1.64,donde
1
6
.
1
1
6 1 6
30
Entonces,vemosqueserechaza
1
6
1
1
1 6
6
30
1.64
0.11
1
6
cuando
1.64,esdecir
1
1
1 6
6
1.64
30
0.166
0.11
0.276.
Entonces,paraunamuestradetamao
30serechaza
designificacin
0.05)siempreque seamayorque0.276.
(paraunnivel
298|P g i n a
Calculemosentonceslapotencia:
1.64/ es falsa
0.276/
cierta
0.276/
1/6 .
. Es decir, para cada valor (que sea mayor que 1/6), la potencia
cambia.Podemoscalcularlacomo
0.276
1
0.276
0.2,lapotenciaes
0.276
0.2
Pongamosporejemplo
0.276
0.2
0.2 1 0.2
30
1.04
0.149.
Calculemoslapotenciaparaotrosvalores,porejemplo:
Para
0.3,
0.3
0.61
Para
0.4,
0.4
0.91
Para
0.5,
0.5
0.992
Para
0.8yhasta1,
1.
P g i n a |299
Enloscasosquesevenenestetexto,elprocedimientoquesedapararealizar
loscontrastessonlosque,precisamente,tienenmayorpotencia(osea,losmejores
procedimientos).
Referimosallectoratextosmsespecializadossisequiereampliarestetema,
como por ejemplo el de Cao y otros [3]. Si alguien tiene inters en ver ejemplos
concretos,puedenencontrarseen[12].
13.4.4 Resumen:Etapasbsicasdeuncontrastedehiptesis
:Hiptesisnula.
esladenodiferencia.
(Ejemplo1)Esinocente.
(Ej.2)Lanotamedianohavariado.
(Ej.3)Laalturamedia,enlosltimosaos,nohacambiado.
(Ej.4)Eldadonohasidomodificado.
(Ej.5)Elejercicionoinfluyeenelritmocardaco.
300|P g i n a
(Ej.6)ElnuevomedicamentoinventadoporeldoctorCitonoesmejorquela
Viagra.
:Hiptesisalternativa.
(Ej.1)Esculpable.
(Ej.2)Lanotamediahadescendido.
(Ej.3)Laalturamedia,enlosltimosaos,haaumentado.
(Ej.4)Eldadohasidomodificado.
(Ej.5)Elejercicioinfluyeenelritmocardaco.
(Ej.6)ElnuevomedicamentodeldoctorCitoesmejorquelaViagra.
Elpesodelapruebarecaeen
Etapas:
1.)Especificarlashiptesisnulayalternativa.
2.)Elegirunestadsticodecontrasteapropiado (paramedirladiscrepancia
entreloobservadoyloterico).
bajo
3.)Tomarunamuestra . , . . . ,
,esdecir
. ,..., ;
.
yevaluarelestadsticodelcontraste
4.)Concluirsiladiferencia esestadsticamentesignificativa(serechaza
ono),segnelpvalordelestadstico.Paraellopodemosfijarunniveldeconfianza
1
determinadoytomarunadecisinenbasealmismo.
Laregladedecisin,trascalcularelpvalor,es:
Si p
valor
aceptamos
Si p
valor
rechazamos
P g i n a |301
Recordemosque
ErrortipoI
rechazar siendocierta).Conla
reglaanterior,nosotrosfijamoselmayorvalorparalaprobabilidaddelerrortipoI
que estamos dispuestos a admitir; es decir, estamos dispuestos a rechazar la
hipotesisnulasiendociertaconunaprobabilidadmximadeequivocarnosiguala .
Sinosefijaningn ,lareglagenerales
Si p
valor
0.1
aceptamos
Si p
valor
0.1
rechazamos
Si p
(133)
Importante:Lashiptesisnoseplanteandespusdeobservarlosdatos.
Rechazar una hiptesis no prueba que sea totalmente falsa. Podemos
cometerunerrordetipoI.
Norechazarunahiptesisnopruebaqueseatotalmentecierta.Podemos
cometerunerrordetipoII.
13.5 CONTRASTESUNIYBILATERALES.
302|P g i n a
le efecta una nica pregunta: Cree usted que Torrente 3 debera estar en
la lista de las 100 mejores pelculas de la historia?.
La directiva del club de cine estima que la proporcin de gente que dir
que s ronda el 15 por ciento, pues siempre hay quien cree que se trata de
una pregunta trampa y a lo mejor existe alguna pelcula china, iran o
americana de principios del siglo XX con ese nombre; o que, tal vez, realmente
tiene valores desconocidos ocultos que se descubren en el club de cine tras
aos de experiencia y estudio.
De los 100 nuevos aspirantes a entrar en el club, finalmente contestan
que s a la pregunta 20 personas. Son coherentes los resultados de la
muestra con la hiptesis de la directiva del club?
Solucin.
Planteamos
0.15 frentea
0.15.
ElestadsticodelcontrasteeselmismoqueeldelEjemplo132,sibienahora,
altenerenlahiptesisalternativaque
0.15,vaacambiarlaregincrtica.
Recordemosquelamedidadediscrepanciaoestadsticodelcontraste
,
,
1
mideladiferenciaentrela tericaylaproporcinmuestral( 20/100 0.2en
este caso). Ocurre ahora que, si bien en el Ejemplo 132, slo nos interesaban las
diferenciaspositivas(puestoquequeramossabersi
1/6 ,ahoratendremosque
tener en cuenta las diferencias tanto positivas como negativas (pues estamos
chequeandosi esiguala0.15odiferente).
Porconsiguiente,elpvalorser
| |
donde
0.20
0.15
0.15 1 0.15
100
1.4
P g i n a |303
y,como esunavariableaproximadamente
0,1 ,elpvalores
1.4 .
EstocorrespondealreasealadaenlaFigura134comoreaaladerechade1.4
msreaalaizquierdade1.4,quees0.08 0.08 0.16.
Figura134
Alserelpvalormsgrandeque0.1,enprincipioseaceptaralahiptesisnula.
Siutilizamoslaregla(133)deberamosaconsejaraladireccindelcineclubquehaga
unanuevapruebaconunamuestramayor.
Comoejemplo,escribimoscomoseralaregincrticaparaunnivel
0.1:
frentea
serealizaraexactamenteigual,yelpvalorserelreaalaizquierdadelvalor del
estadsticodelcontraste.
304|P g i n a
Porltimo,indiquemosquelostestunilateralesdondelahiptesisnulasea
:
obien
serealizanexactamenteigualqueelcorrespondientecon
, es decir el pvalor depende de la direccin o en la hiptesis
alternativa.
Todoesto,aunquepuedanoparecerlo,esmuyfcilderecordar,porqueslo
hay3casos(Figura135),yaque,pormotivostericos,recurdesequeelvalor
debeestarenlahiptesisnula,nuncapuedeestarenlaalternativa.
Figura135:resumendelclculodelpvalor(reasombreadaencadacaso).
P g i n a |305
0.7frentea
0.7.
Lahiptesisnulacorrespondealoqueesconocido(laproporcinesalmenos
el70porciento).EstoserciertomientraselDr.deBingosnodemuestrelocontrario.
Elestadsticodelcontrasteeselquehemosvenidoutilizando:
,
1
quesigue,aproximadamente,unadistribucin
0,1 si
escierta.
306|P g i n a
signodelahiptesisalternativa,quees<).
Alserlahiptesisalternativacon<,elpvaloreselreaalaizquierda,en
unadistribucin 0,1 ,de0.44(figuraadjunta),quees0.33.Obviamente,estep
valor implica aceptar la hiptesis nula, con lo que el Dr. de Bingos va a tener que
olvidarse,porahora,desaltaralafama.
13.5.1 Resumen:clculogeneraldelpvalor
El
valorsecalculaenfuncindeladistribucinquesigueelestadsticodel
contraste,ydequeelcontrasteseabilateralounilateral.Supongamoselcontraste
quehemosestadoviendoenlosltimosejemplos,referenteaunaproporcin.Enla
hiptesisnulatenemos :
.Si esdelaforma :
,entonceselnivel
crticoopvalores2veceselreaaladerechadelvalorabsolutodelestadsticodel
contraste .Si esdelaforma :
,elnivelcrticoeselreaaladerechadel
P g i n a |307
estadsticodelcontraste.Porltimo,si esdelaforma :
,elnivelcrtico
eselreaalaizquierdadelestadsticodelcontraste.Lastresposibilidadessonlas
queaparecenenlaFigura135.
Enelrestodecontrastes(sealoquesealoquecontrastemos:lamedia,la
varianza, la diferencia de medias, el razonamiento para el clculo del pvalor es
equivalente; nicamente cambia el estadstico del contraste, y la distribucin en
donde debemos buscar el rea correspondiente. La Figura 135 es siempre vlida
(recomendacin habitual: recortar y tener a mano). En el caso de variables con
funcindedensidadnosimtricas,comolaChicuadradoolaFdeSnedecor,puede
aparecerunproblemaenelcasodecontrastesbilaterales,puestoqueelvalordel
estadstico notieneunvalorsimtrico .Lonicoquedebemoshacerescalcular
elreaaladerechaeizquierdade ,yelpvalorserlacantidadmnimamultiplicada
por2.
Porejemplo,enlagrficasiguientevemoseldibujodeladensidaddelaChi
cuadrado con 6 grados de libertad. Hemos marcado un valor para donde,
claramente,elreaasuderechaesmspequeaqueelreaasuizquierda.Siel
contrastequeestamosrealizandoestalque,enlahiptesisalternativa apareceel
signo >, entonces el pvalor sera dicho rea a la derecha. Si el contraste fuese
bilateral(estoes,enla hiptesisalternativa aparece ,elpvalorseraelrea
sombreadaperomultiplicadapor2).
308|P g i n a
13.5.2 Contrastesparamtricosmsusuales
Acontinuacin,indicamoslosestadsticosqueseutilizanparalosprincipales
contrastesdetipoparamtrico,yladistribucinquesiguencuandolahiptesisnula
es cierta. Los casos considerados son los mismos que en el captulo anterior de
intervalosdeconfianza.
13.5.3 Paralamediadeunavariablenormal
:
13.5.3.1 Siseconoceladesviacintpica
Elestadstico(ysudistribucin)es
/
0,1 .
Comoyasecomentenelcaptulodeintervalosdeconfianza,noeshabitual
conocerladesviacintpicarealdeunapoblacin,porloque,pararealizarcontrastes
relativos a la media de una poblacin normal, se utiliza casi exclusivamente el
siguienteestadsticobasadoenladistribucin deStudent.
13.5.3.2 Sinoseconoceladesviacintpica
/
P g i n a |309
Ejemplo 13-5 En 1923 se tuvo constancia de una mujer neozelandesa que
tuvo 28 hijos, cuyos pesos al nacer fueron los siguientes:
4.3 5.2 6.2 6.3 5.3 4.9 4.7 5.5 5.3 4.0 4.9 5.2 4.9 5.3 5.4 5.5 3.9 5.8 5.6 5.0
5.2 5.8 6.1 4.9 4.5 4.8 5.4 4.7
Iker Jimnez y sus colaboradores creen que esta mujer pudo tratarse de una
extraterrestre del planeta Coneja, cuyo peso medio en los neonatos es
superior a 5 Kg (segn consta en antiguos escritos incas). Qu debera
hacer Iker Jimnez para contrastar la posibilidad de que la mujer fuera
extraterrestre?
Solucin.
Sedebeplantearuntestparalamediadelavariablepeso al nacer,delmodo
5frentea
5.
Conlamuestraquetenemos,de
...
5.16
28datos,debemoscalcular
Elvalordelestadsticoenelcontrastees
5.16 5
/
0.597/28
0.597.
1.41.
El pvalor es el rea a la
derechade1.41(imagen),enuna
deStudentcon
1 27grados
delibertad,quees0.083.
Utilizando la regla general
paraaceptarorechazar ,vemos
queelpvaloresmspequeoque
0.1, por lo tanto rechazamos la
hiptesis nula. Sin embargo, para
algunosniveles clsicos,como0.01o0.05,elpvaloresmsgrande,porloquese
aceptara .Talvezsedeberaencontrarunamuestramsgrandeantesdetomar
ningunadecisin.IkerJimnezdeberponeratrabajarasusarquelogosporqueel
310|P g i n a
misteriosigueabierto(yentodocaso,sisedeciderechazar ,recordemosquelas
pruebas rechazaran que el peso medio al nacer en los hijos de esta seora sea
menor o igual a 5 kilos. Despus, si con esto alguien acepta que la seora era
extraterrestre,lsabr).
Nota 13-2 En R, realizar este test es tan simple como:
1.- Introducir los datos como x=c(4.3, 5.2, 6.2, 6.3, 5.3, 4.9, 4.7, 5.5, 5.3, 4.0,
4.9, 5.2, 4.9, 5.3, 5.4, 5.5, 3.9, 5.8, 5.6, 5.0, 5.2, 5.8, 6.1, 4.9, 4.5, 4.8, 5.4,
4.7)
2.- Realizar el test t con la orden: t.test(x, mu=5, alternative="greater")
El programa nos devuelve:
data: x
t = 1.4545, df = 27, p-value = 0.07866
alternative hypothesis: true mean is greater than 5
95 percent confidence interval:
4.971905 Inf
sample estimates:
mean of x
5.164286
en donde vemos que el valor del estadstico es t=1.45 y el p-valor es 0.07 (lo que
obtuvimos nosotros, con los lgicos errores de redondeo).
Como observamos, el test para la media se escribe indicando el vector x, el valor
teorico mu y el signo de la hiptesis alternativa.
Si el test es bilateral ponemos alternative ="two.sided", si el test es unilateral
ponermos "greater" (>) o "less" (<).
13.5.4 Paralavarianza
:
P g i n a |311
13.5.4.1 Siseconocelamedia
w
13.5.4.2 Sinoseconocelamedia
Volvemosasealarque,enlaprctica,parecebastanteirrealelconocerla
mediatericadelapoblacin,conlocualelestadsticoautilizarhabitualmentees
esteltimo.
13.5.5 Paraladiferenciademedias
Suponemos
aleatorias simples
contrastar
:
,
,...,
e
e
,
,
,...,
0.
Losestadsticosparaestecontrastesonlossiguientes.
13.5.5.1 Conociendolasdesviacionestpicas
0,1 .
13.5.5.2 Desconociendolasdesviacionestpicasperosuponindolasiguales
w
x
n
1 S
y
m
1 S
1
m
312|P g i n a
13.5.5.3 Desconociendolasdesviacionestpicasysupuestoquelostamaosdelas
muestrassongrandes ,
0,1
(elsmbolo indicaqueladistribucin,enlugardeserexacta,esunaaproximacin).
13.5.5.4 Desconociendolasdesviacionestpicasysupuestoquelostamaosdelas
muestrassonpequeos ,
siendoelenteromsprximoa
1
1
Denuevo,recordemosqueelordenadorseencargarpornosotrosdeevaluar
estasfrmulas,conlocualnuestratareaconsistirnicamenteenestablecereltest
de hiptesis adecuado. Es posible que debamos chequear primero si podemos
consideraronolasvarianzas(odesviacionestpicas)iguales,aunquesedesconozcan
(queparecelomsprobable).Paraellodeberemos,entodocaso,realizarenprimer
lugar un test para saber si las varianzas pueden considerarse iguales o no (en
ocasiones, el software correspondiente se ocupa automticamente de eso, como
haceporejemploelSPSS;alRdeberemosindicrselo).
13.5.6 Paralarazndevarianzas
Pararealizarelcontraste
,elestadsticoautilizares
P g i n a |313
Este test nos sirve para saber si podemos considerar las varianzas de 2
variables e igualesono,queesnecesarioparacontrastardespuslaigualdadde
lasmedias.Paraello,tendremosquecontrastar
1frentea
1.
frentea
queeslomismoque
:
1.
frentea
Elestadsticoautilizar,enestecasotomaunvalorde
50
1
24
2.083.
314|P g i n a
es0.973,luegoelreaaladerechaes0.034.Elpvalores,porlotanto,2 0.034
0.068(Figura136).
Entonces,enprincipioserechazaralahiptesisdeigualdad,porserelpvalor
ms pequeo que 0.1. Sin embargo, para algunos niveles clsicos, como 0.01 o
0.05,noserechazara.Enfuncindelaprecisinqueelministeriodesee(obiende
quealministro/adelramoleinteresetirarhaciaunlaboratoriouotro,quizdebera
repetirseelexperimentoconmuestrasmsgrandes).
Figura136
P g i n a |315
Paralelamente, se hace lo mismo con otro grupo de 7 fenmenos a los que se
les da la mezcla casera. En la siguiente tabla, tenemos las variables
=exmenes totales aprobados en un curso tras tomar Inteligentium e
=exmenes totales aprobados en un curso tras tomar la mezcla:
1
2
3
4
5
6
7
10 15 18 23 12 16 15
15 10 19 9
14 12 18
a) Admitiendo normalidad en las variables, puede aceptarse la igualdad de
varianzas de las variables, para un nivel de significacin de 0.1? b) Un mdico
de cabecera cobra una alta comisin por recetar Inteligentium. Proporcionan
estos datos suficiente evidencia estadstica, con un nivel de significacin de
0.1, para concluir que este producto consigue que se aprueben ms
exmenes?
Solucin.
es
a)Paracontrastar
frentea
,elestadsticoautilizar
Enestecaso
4.19
3. 8
0.41
1. 21.
Elpvalorparaelcontrastees2veceselreaaladerechade1.21,quees2
0.82,conloqueaceptamosclaramentelaigualdaddevarianzas.
b)Elmdicoquieresabersielnmerodeexmenesaprobadosesmayorcon
el producto farmacutico (variable que con la mezcla (variable . Para ello
tenemosqueplantearelcontraste :
frentea :
.
Elestadsticodelcontrastees(estamosenelcasodequedesconocemoslas
desviacionestpicasperosesuponeniguales,yaqueenelapartadoanteriorhemos
aceptadolaigualdad):
316|P g i n a
Lasmediasmuestralesson
15.57e
13.85y,bajo ,
0.
Entonces
0.804.Elpvaloreselreaaladerechade enunadistribucin con
2 12gradosdelibertad.Elpvalorqueseobtienees0.21,conloque,con
estamuestra,nopodemosrechazar (igualdaddeefectosdeambasmarcas).
Nota 13-3 En R, como siempre, muy sencillo. Lo nico que debemos es tener
instalada la librera fBasics y llamarla, para realizar el test para la igualdad de
varianzas.
require(fBasics)
x=c(10,15,18,23,12,16,15)
y=c(15,10,19,9,14,12,18)
El apartado a lo hacemos con la instruccin:
varianceTest(x, y)
El apartado b con:
t.test(x, y , alternative = "greater", mu = 0, paired = FALSE, var.equal =
TRUE)
Ambas instrucciones aportan bastante informacin, que quedara demasiado
grande para escribir aqu. Sugerimos hacer el ejemplo y confirmar los resultados.
13.5.7 Paraunaproporcin
:
13.5.8 Paraladiferenciadeproporciones
:
0.
0,1 .
P g i n a |317
0,1 .
0,frentea
0,
donde eslaproporcindeadolescentesquesueanconcasarseconJustinBieber
y lamismaproporcinreferidaaRobertPattinson.
0.187,
Lasproporcionesmuestralesson
0.117.
Elestadsticodelcontrastetomaelvalor(tenemosencuentaque,si
cierta,
0 :
0.187
0.187 1 0.187
64
0.117
0.117 1 0.117
51
1.0551.
es
318|P g i n a
Elpvaloresdosveceselreaaladerechadeestevalor,quees2 0.147
0.294,conloqueaceptamosclaramentelahiptesisnula.Parecelgicopensarque
laboberadependedelaedad,nodeldoloencuestin.
13.5.9 Casodedosmuestrasrelacionadas(apareadas)
Por ltimo, si suponemos 2 variables o poblaciones e ,
,
,
,
, pero dependientes (observaciones antes y despus en los mismos
individuos, etc.), estaremos en el caso de muestras o variables apareadas, que ya
tratamosenelcaptuloanterior.Igualquevimosall,delavariable seescogeruna
, ,,
y de otra muestra
, ,,
(los tamaos de las
muestra
muestrashandeseriguales),ytrabajaremosconlavariable
o
,con
loqueestaremosenlasituacindeanlisisdeunanicamuestra.
P g i n a |319
\
1
2
14 12
17 11
Puede suponerse que los tiempos
estmulo?
3
4
5
6
7
9
13 15 17 13
12 10 11 16 16
de reduccin difieren
8
9
12 13
15 13
segn cada
Solucin.
Debido a que las pruebas han sido realizadas con las mismas personas,
debemos considerar las diferencias entre los tiempos de reaccin, pues estamos
tratando muestras apareadas. Si llamamos al tiempo tardado en responder al
estmulo A y al tiempo tardado en responder al estmulo B, consideramos la
variable
.
Elcontrasteaplantearessi
0frentea
0.
Construimoslamuestradediferencias
3, 1,3, 3, 4, 1,3,3,0 .
Delamuestraobtenemos
9,
Elestadsticodelcontrastees
0.33,
2.78.
Elvalordelestadsticoparaestamuestraes
0.33 0
0.35.
2.78/9
Elpvalores2veceselreaaladerechade0.35enuna con8gradosde
libertad,esdecir2 0.368 0.736,conloqueaceptamosclaramente ,esdecirno
hay diferencias entre los estmulos (en los individuos exconcursantes de gran
marrano).
320|P g i n a
1
13.2
14
2
8.2
8.8
3
10.9
11.2
4
14.3
14.2
5
10.7
11.8
6
6.6
6.4
7
9.5
9.8
8
10.8
11.3
9
8.8
9.3
10
13.3
13.6
e =duracin
o
Para realizar este test, antes debemos comprobar si las varianzas pueden
considerarse iguales o no, pues ello influir en el estadstico a utilizar. Es decir,
debemos resolver primero :
frente a :
. Como hemos visto
anteriormente,elestadsticoautilizares
Elvalordelestadsticoenestecasoparticulares
2.45
0.95.
2.51
El estadstico que usamos sigue una distribucin (con 9 y 9 grados de
libertad). Como la funcin de densidad de la distribucin no es simtrica,
calculamoselreaalaizquierdayderechadelvalor
0.95.Elreaalaizquierda
P g i n a |321
es0.47,porlotantoelreaaladerechaes0.53.Elpvalores,porlotanto,2 0.47
0.94,conloqueclaramenteaceptamoslaigualdaddevarianzas.
:
frente a
(estadsticocuandosedesconocenlasdesviacionestpicasperosesuponeniguales).
Enestecaso
10.63
11.04
9 2.51
9 2.45
10 10 2
1
10
0.37,
1
10
0frentea
0.
Conlamuestradediferencias
10,
0.03,
322|P g i n a
0.03 0
0.57
10
0.16
yelpvalorcorrespondiente(2veceselreaalaizquierdade0.16)es0.87,conlo
queseaceptalahiptesisnula,quedaigualesnifarquepincharse.
Ys,llegadoaqu,piensasquenotehasenteradodemucho,recuerdaque
siempreestsatiempodemeterteenlapoltica.
Entodocaso,sitehaparecidointeresanteellibro,recortaeldibujoquesigue,
hazfotocopiasyreprtelasentretodoslosposiblesinteresados.
P g i n a |323
324|P g i n a
P g i n a |325
14
REFERENCIAS
[1]ArdanuyAlbajar,R.Estadsticaparaingenieros.Hesprides,Salamanca.
[2]Brownlee,K.StatisticaltheoryandMethodology.EditorialWiley.
[3] Cao Abad, R., Francisco Fernndez, M., Naya Fernndez, S., Presedo
Quindimil,M.P.,VzquezBrage,M.,VilarFernndez,J.A.yVilarFernndez,J.M.
Introduccinalaestadsticaysusaplicaciones.EdicionesPirmide.
[4]Draper,N.R.ySmith,H.Appliedregressionanalysis.JohnWileyandSons.
[5]Gonick,L.ySmith,W.Laestadsticaencmic.EditorialZendreraZariquiey,
Barcelona.
[6]GuisandeGonzlez,C.yVaamondeListe,A.Grficosestadsticosymapas
conR.EditorialDazdeSantos.
[7] Guisande Gonzlez, C., Vaamonde Liste, A. y Barreiro Felpeto, A.
TratamientodedatosconR,StatisticaySPSS.EditorialDazdeSantos.
[8]Milton,S.Estadsticaparabiologaycienciasdelasalud.McGrawHill.
[9]Montgomery,D.C.yRunger,G.C.Probabilidadyestadsticaaplicadasa
laingeniera.McGrawHill.
[10]PeaSnchezdeRivera,D.Fundamentosdeestadstica.AlianzaEditorial.
[11]PoblacinSez,A.Lasmatemticasenelcine.ProyectoSurdeEdiciones.
[12] Quintela del Ro, A. Problemas estimulantes de probabilidad y
estadstica. Editorial Lulu. Tambin en venta directa (en formato pdf) en
http://alejandroquintela.com/libro.
[13] Spaeth, H. Mathematical Algorithms for Linear Regression. Academic
Press.
326|P g i n a
[14]Spiegel,M.R.Teoray760problemasresueltos.McGrawHill.
[15]UaJurez,I.,TomeoPerucha,V.ySanMartnMoreno,J.Leccionesde
clculodeprobabilidades.EditorialThomson.
[16]Wackerly,D.,Mendenhall,R.yScheaffer,L.Estadsticamatemticacon
aplicaciones.EditorialThomson.
Eninternetpodemosencontrarmultituddeapuntesyejerciciosdedistintas
asignaturas de estadstica, tanto de educacin secundaria y bachillerato, como de
carreras universitarias y cursos monogrficos. Recomendamos hacer una buena
busquedaparaconseguirmaterialadecuadoanuestrosintereses.
Porejemplo,recomendamosporsucalidadellibrodeF.RusDaz,F.J.Barn
Lopez,E.SnchezFontyL.ParrasGuijosa:Bioestadstica.Mtodosyaplicaciones,
quepuededescargarseenladireccin:
http://www.bioestadistica.uma.es/baron/bioestadistica.pdf
P g i n a |327
15
APNDICEA.INSTALACINDER.
El100por100delasmujeresrespondennadacuandolessucedealgo.
Dichoenunbar.
Enrelacinalainstalacinyuso,tantode
este programa, como de cualquier otro, existe la
opcin de buscar videos en youtube. A m esta
opcin me ha resultado bastante til para
encontrar rpidamente la forma de realizar
muchas tareas, y en ocasiones las explicaciones
resultanmsgilesymejoresquelasdemanuales
en texto. Hasta el momento, en cambio, no he
encontrado videos de inters para aprender
teora. La mayora de ellos se limitan a exponer
conceptosyhacerejerciciosigualqueencualquier
clase habitual. Hay muchos videos de este tipo
tambin,igualqueaunqueparezcaincreblecada
vezexistenmsdondelagente(joven,engeneral)sededicaadeformarcanciones,
cambiando la letra e introduciendo la estadstica y la probabilidad por el medio
(podisveralgunosenmiblog).Bueno,consutiempolibrecadaunohaceloquele
parece, y esto siempre es mejor que emplearlo en maquinar maldades, como
nuestrosgobernantes.
15.1 DESCARGADELPROGRAMA.
LapginaoficialdeReshttp://www.rproject.org/.RfuncionaenWindows,
LinuxyMacOS.AquveremoslainstalacinenWindows.LosdeLinuxsesuponeque
328|P g i n a
sabenlosuficienteparanotenerqueusarunmanualcomoeste,ylosdeMacOSse
suponequetienensuficientedineropara,encasodeproblemas,pagarleaalguien
queseloinstale.
El mirror o servidor ms cercano para descargar el programa est en
Espaa,en:
http://cran.es.r-project.org/
Unavezpinchadaesaopcin,nosaparecenotras.Debemoselegirlaopcin
bsica(base):
P g i n a |329
Y,unavezmarcadaesta,nosaparecelaversinmsactual,enestecasonos
aparecelaversin3.0.1
330|P g i n a
Lonormalesdarlealaopcinsiguiente.Enlasdemsopcionesquevienena
continuacin,tambinserecomiendadejarlasqueestnpordefecto.Elprograma
seirinstalando(notardamucho,peroestodependerdelordenador.Sitenisuno
lento,podisaprovecharpararevisarelfacebook,elperidico,forocoches...)
P g i n a |331
y,unavezquetermine,nosavisa,ytendremosenelescritoriodosnuevosiconos
(fotodemiescritorio,nosoyyo).
332|P g i n a
Comopodiscomprobar,tenemosdosversionesdeR:lade32ylade64bits,
porque por defecto instala las dos (en la instalacin hay una opcin que podis
desmarcarsivuestroordenadornotieneprocesadorde64bits).Sepuedenusarlas
dosparalascosasbsicas,lasdeestelibro?S.Ladiferenciaentreunayotraversin
esquealgunospaquetes,delosqueseinstalanamayorespararealizarcosasms
rarasquelasdeestetexto,puedennofuncionarenunauotraversin.
ParaejecutarelRen64bits(sitenisprocesadoras),dobleclickyyaarranca
elprograma:
Enlaventanaqueaparece,llamadaRconsole,abajohayunsmbolo>de
color rojo. Ah ya se pueden escribir comandos y ejecutarlos (dandole a Enter).
Ejemplotonto:
> 2+2 (Enter)
> [1] 4
P g i n a |333
Se recomienda, en vez de escribir en la consola, abrir una ventana para
escribircomandos,queluegosepodrguardarparanotenerquerepetirtodaslas
instrucciones en
otra sesin. Vais,
dentro del men
de arriba, a la
opcin
Archivo>Nuevo
Script
ysenosabriruna
ventana nueva,
que
podemos
colocar
donde
queramos,
por
ejemplo a la
derecha de la que
tenemos.Eslaventanadeedicin.Comoveis,sellamaSinnombre.Lomejoresya
asignarleunnombreyguardarla,dandoleenelmenaArchivoyGuardarcomo...
334|P g i n a
Seabriruncuadrodedilogo(ventana)deWindowsparaqueguardemosel
archivoconelnombrequequeramos(laextensinpordefectoesR;estoes,sile
llamamosprueba,enelordenadorlograbacomoprueba.R),yeneldirectorioque
queramos.
Ledamosaguardaryyatenemosquelaventanadeedicintieneelnombre
prueba.R(conlarutadeldirectoriodondelohayamosguardado).
Estaventanadeedicinesuneditordetextobsico,podemosescribir,borrar,
buscar,copiarypegar,etc.Unavezquequeramosejecutaralgodeberemossealar
las lneas correspondientes con el ratn (botn izquierdo del ratn pulsado e ir
marcandolaslneas,exactamenteigualqueencualquierotroeditoroprograma)y
luegodarleaControlR(teclaControlyletraR:eslamaneradeejecutarordenes).
P g i n a |335
Elresultadodeloquelemandemoshacerseverenlaventanadelaizquierda
(consola):primerolasrdenesydespuslosresultados.
336|P g i n a
Parapracticarunpocoms,pongamosunejemploconunagrfica.Vamosa
introducirunoscuantosdatos,ylepediremosquenoscalculelamediaaritmticay
dibuje un histograma (si no os suena de nada, aparte de estar comprobando que
procedisdelaESO,podismirardequhablamosenelprimercaptulo).
Primero guardamos los datos que queramos en un vector o variable x, y
despuslepedimosquecalculesumedia,delmodo:
x=c(2,3,4,5,13,14,28); mean(x)
Fijmonosque,envezdeponercadaordenoinstruccinenunafila,podemos
ponervariasinstruccionesseparadasporpuntoycoma.
Acontinuacinlepedimosquedibujeunhistograma,conlaorden:
hist(x)
P g i n a |337
338|P g i n a
help(hist)(ohelp(cualquier comando))
y se abrir una ventana externa al programa (generalmente una ventana de
navegacinporinternet,comofirefoxoelnavegadorqueusemospordefecto)con
laayudaparaelcomando.
Sinonosacordamosdecmoseescribeuncomando,podemosescribirenla
ventanadelaizquierdaalgunoscaracteres
??his
ynosindicarcualessonloscomandosquemsseparecenaloquehemosescrito.
Alolargodeloscaptulosdellibroseindicalasintaxisylosresultadospara
losdiferentesprocedimientosdelosejemplosyejercicios.Comoestelibroespara
aprenderestadstica,noesnecesariovernadamsreferentealprogramaR.Enla
seccinsiguienteseindicadndeconseguirmanualesdeformagratuita.Algunosde
ellos ensean simultneamente estadstica. Con respecto a lo que nosotros
acabamos de hacer, quiz el paso siguiente podra ser instalar el R-Commander
(aunquenoesnecesario).Setratadeunpaqute(omsbienunalibreradepaquetes)
que configura un entorno de trabajo con mens, resultando de gran ayuda en la
realizacin de anlisis estadsticos de ficheros con muchos datos, y/o donde
aparezcanunnmerograndedevariables.El R-Commanderconfiguratambinlas
variablesenformatodetabla,comoelexcel,oelSPSS(unacolumnaporvariable)y
posee multitud de opciones. Ya existen tambin bastantes manuales y textos que
tratandeesteentorno,conlocualpodisconsultarbibliografaespecficaparasu
instalacinymanejo,atravsdelosenlacesquesemencionanalfinal.
15.1.1 Instalacindepaquetes
LainstalacinquehemosrealizadodeRinstalaelllamadopaquetebsico.En
ocasionespodemosnecesitarinstalarpaquetesextra(comoelR-Commander)para
realizarclculosogrficosqueelpaquetebsiconohaga.Porejemplo,paraelclculo
delacurtosisolasimetradeunavariablenecesitamosinstalarelpaquetefBasics.
Para instalar cualquier paquete, debemos ir al menu, a la opcin Paquetes y
seleccionarelpasdedondebajaremoselpaquete(espejoCRAN).
P g i n a |339
340|P g i n a
UnavezencontradoelpaquetequebuscamosledamosaOKyelprograma
sedescarga.Acontinuacin,debemoscargarloenmemoriaatravsdelmen,porla
opcin Paquetes>Cargar Paquete, y seleccionar fBasics del men que salga (son
nicamentelosquetenemosinstaladosenelordenador).Unaopcionmscmoda
es,enlaventanadelaconsola(ladelaizquierda)escribirelcomando
require(fBasics)
yyapodremosusartodosloscomandosdeestepaquete.Escribiendoenla
consolahelp(fBasics) podremosverlaayudadelpaquete,contodaslasopciones.
15.2 BIBLIOGRAFAESPECFICADER
SivamosalapginawebdeR(dondedescargamoselprograma),enelmen
de la izquierda tenemos un apartado Documentation, y en l la opcin Manuals.
Pinchandoahyanosapareceunalistademanualesenpdfyhtml,peroeningls.
Abajo (lo marcamos en la siguiente grfica) podis pinchar en contributed
documentation
P g i n a |341
Pinchandoenesaopcinseabrirunapginaenlaqueaparecenenlacesa
documentacinenotrosidiomas.EnlaopcinSpanishestn,entreotros:
RparaPrincipiantestheSpanishversionofRforBeginners,translated
byJorgeA.Ahumada.
ASpanishtranslationofAnIntroductiontoRbyAndrsGonzlezandSilvia
Gonzlez.
y,paraaprendersimultneamenteestadstica,
MetodosEstadisticosconRyRCommanderbyAntonioJoseSaezCastillo.
Apartedeestosmanuales,esdestacabletambinEstadsticabsicaconRy
RCommander,devariosautores,quepuededescargarseen
http://knuth.uca.es/repos/ebrcmdr/pdf/actual/ebrcmdr.pdf.
342|P g i n a
P g i n a |343
16 NDICEALFABTICO
Aditividad,175
Asimetra
negativaoalaizquierda,49
positivaoaladerecha,49
atributos,10
Bayes
Teoremade,121
Bernoulli
variablede,169
Binomial
variable,170
Binomialnegativa
variable,185
ClculodeProbabilidades,8
CampanadeGauss,53,200
carcter,11
Centraldellmite
teorema,208
Centrodegravedad,71
Claudio,92
Coeficiente
decorrelacin,73
dedeterminacin,74
CoeficientedeFisher
(primero),49
(segundo),54
Consistencia
deunestimador,243
Contraste
bilateral,283
unilateral,283
Contrastes
dehiptesis,269
dehiptesisparamtricas,281
Correlacin,72
Covarianza,72
Cuantil
deunavariablealeatoria,148,149
Cuartil,34
Cuasivarianza
muestral,235
Dato
anmalo,60
atpico,60
extremo,60
datos,10
Decil,34
Densidad
funcinde,136
Desigualdad
deTchebychev,45
Desviacintpica
deunavariablealeatoria,145
Diagrama
dedispersin,70
Diagramadebarras
tridimensional,69
Distribucin
defrecuencias,12
enelmuestreo,238
funcinde,129
error
estndar,248
tpico,248
344|P g i n a
ErrortipoI,273
ErrortipoII,273
Espacio
muestral,94
Esperanza
matemtica,144
EstadsticaDescriptiva,8
Estadstico,231
deuncontraste,284
estadsticopivote,245
Estimacin,232
puntual,231
Estimador,232
Experimento
aleatorio,94
determinista,94
Exponencial
variable,198
FdeFisherSnedecor
variable,217
Fermat,8
Pierre,93
Fermat,
Pierre,92
Frecuencia
absoluta,14
absolutaacumulada,15
relativa,15
Frecuencia
relativaacumulada,15
Geomtrica
variable,182
gradosdelibertad,215
Hipergeomtrica
variable,189
Hiptesis
alternativa,270
nula,270
Histograma
tridimensional,69
Incorrelacin,74
Inferencia
estadstica,223
noparamtrica,224
paramtrica,224
Intervalo
deconfianza,244
Kolmogorov,93
Laplace
reglade,102
leptocrtica,54
Media
armnica,27
geomtrica,26
muestral,233
Mediana
deunavariablealeatoria,148
Mere
Chevalierde,93
Mr,8
Mesalina,92
mesocrtica,54
Mnimos
cuadrados,78
Moda
deunavariablealeatoria,149
Morgan
leyesde,100
Muestra
aleatoriasimple,233
Muestreo,225
aleatoriosimple,225
estratificado,226
sinreposicin,226
sistemtico,229
Nivel
deconfianza,245
designificacin,245
Nivelcrtico,284
Niveldesignificacin,273
P g i n a |345
Normal
variable,199
Nubedepuntos,70
Pascal,8
Blaise,93
variablede,182
Percentil,34
platicrtica,54
Poisson
variablede,176
Potencia
deuncontraste,273
Prediccin,81
Probabilidad,91
axiomas,98
condicionada,109
deunainterseccin,110
ley,funcin,distribucinde,128
total,117
Probabilidades
asignacinde,101
geomtricas,108
Proporcin
muestral,236
pvalor,284
Rsoftware,321
Recta
deregresin,77
Regincrtica
deuncontraste,288
Regladelproducto,113
Regresin,76
Sesgo
deunestimador,242
Suceso,95
complementario,96
elemental,95
imposible,95
Sucesos
incompatibles,95
independientes,115
propiedades,96
tdeStudent
variable,216
Tabla
defrecuencias,14
Tchebychev,45
Tipificacin
devariablesaleatorias,203
Uniformecontinua
variable,195
Valor
esperado,144
Variable
aleatoria,127
aleatoriacontinua.Vase
aleatoriadiscreta,128
aleatoriadiscretanumerable,133
discreta,11
estadsticabidimensional,68
estadsticacontinua,11
estadsticadiscreta,11
tipificada,57
Variables,10
Varianza
deunavariablealeatoria,145
muestral,235