Você está na página 1de 349

 

   

El estadístico accidental 

Alejandro Quintela del Río 
Catedrático de la Universidad de A Coruña 
Área de Estadística e Investigación Operativa  
http://alejandroquintela.com 
 
 
 

Autor: Alejandro Quintela del Río


1ª edición: Julio, 2013
ISBN: 978-1-291-46166-4
© Todos los derechos reservados
http://alejandroquintela.com
 

 
 
                                                                                              P á g i n a  | 1 

1 CONTENIDO 
2  Prólogo. Características del Libro .............................................................. 7 
2.1  Sobre la estructura ............................................................................. 9 
2.2  Y teníamos más portadas ................................................................. 10 
3  Introducción ............................................................................................. 13 
3.1  Qué es la Estadística ......................................................................... 13 
4  Estadística descriptiva .............................................................................. 15 
4.1  Breve introducción histórica ............................................................ 15 
4.2  Variables y atributos ......................................................................... 16 
4.3  Variables discretas y continuas ........................................................ 17 
4.4  Distribuciones de frecuencias .......................................................... 18 
4.5  Representaciones gráficas ................................................................ 22 
4.5.1  Diagrama de Sectores (Tarta) ..................................................... 22 
4.5.2  Pictograma .................................................................................. 23 
4.5.3  Diagrama de barras .................................................................... 24 
4.5.4  Histograma (de frecuencias) ....................................................... 25 
4.5.5  Polígono de frecuencias ............................................................. 29 
4.5.6  Área bajo el histograma de frecuencias. .................................... 30 
4.6  Medidas de posición o tendencia central ........................................ 31 
4.6.1  La media ...................................................................................... 32 
4.6.2  La mediana .................................................................................. 36 
4.6.3  La moda ...................................................................................... 38 
4.6.4  Cuantiles ..................................................................................... 39 
4.7  Medidas de dispersión ..................................................................... 45 
4.7.1  La varianza y desviación típica .................................................... 45 
4.7.2  División por n‐1 ........................................................................... 46 
 2 | P á g i n a  
 
4.7.3  Otras medidas de dispersión. ..................................................... 48 
4.7.1  Desigualdad de Tchebychev ....................................................... 51 
4.8  Medidas de forma ............................................................................ 54 
4.8.1  Simetría ....................................................................................... 54 
4.8.2  Curtosis ....................................................................................... 59 
4.9  Transformaciones ............................................................................. 62 
4.9.1  Normalización o tipificación ....................................................... 62 
4.10  Análisis exploratorio de datos ...................................................... 64 
4.10.1  Diagrama de tallo y hojas ......................................................... 64 
4.10.2  Diagrama de caja (box‐plot) ..................................................... 66 
5  Análisis conjunto de variables ................................................................. 73 
5.1  Distribución conjunta de dos caracteres .......................................... 74 
5.2  Representaciones gráficas ................................................................ 75 
5.2.1  Representaciones 3D .................................................................. 75 
5.2.2  Diagrama de dispersión o nube de puntos ................................ 76 
5.2.3  Covarianza. Correlación lineal .................................................... 78 
5.2.4  Coeficiente de correlación de Pearson ...................................... 79 
5.3  Ajuste y regresión bidimensional ..................................................... 82 
5.3.1  Caso lineal ................................................................................... 83 
5.3.2  Problemas con la predicción ...................................................... 87 
5.3.3  Otros ajustes ............................................................................... 88 
5.4  Otros aspectos a tener en cuenta .................................................... 93 
6  Probabilidad ............................................................................................. 97 
6.1  Antecedentes históricos ................................................................... 97 
6.2  Probabilidad ..................................................................................... 99 
6.2.1  Definiciones básicas.................................................................. 100 
6.2.2  Sucesos y conjuntos.................................................................. 102 
6.2.3  Probabilidad.............................................................................. 104 
                                                                                              P á g i n a  | 3 

6.2.4  Asignación de probabilidades ................................................... 107 
6.2.5  Probabilidades geométricas ..................................................... 114 
6.2.6  Probabilidad Condicionada ....................................................... 115 
6.2.7  Regla del producto .................................................................... 119 
6.2.8  Teorema de las probabilidades totales .................................... 123 
6.2.9  Regla de Bayes .......................................................................... 127 
6.2.10  Resumen para vagos ............................................................... 131 
7  Variables aleatorias ................................................................................ 133 
7.1  Variables aleatorias discretas ......................................................... 134 
7.1.1  Función de distribución ............................................................ 135 
7.1.2  Variables discretas infinitas numerables. ................................. 139 
7.2  Variables aleatorias continuas ....................................................... 141 
7.2.1  Función de densidad ................................................................. 142 
7.3  Medidas características de una variable aleatoria ......................... 150 
7.3.1  Esperanza de una variable aleatoria ........................................ 150 
7.3.2  La varianza ................................................................................ 151 
7.3.3  Propiedades de la media y varianza ......................................... 153 
7.3.4  Mediana .................................................................................... 154 
7.3.5  Cuantil ....................................................................................... 155 
7.3.6  Moda ......................................................................................... 155 
7.3.7  Resumen para vagos ................................................................. 173 
8  Principales variables discretas ............................................................... 175 
8.1  Variable de Bernoulli ...................................................................... 175 
8.1.1  Media y varianza ....................................................................... 175 
8.2  Variable Binomial ............................................................................ 176 
8.2.1  Media y varianza. ...................................................................... 179 
8.2.2  Propiedad aditiva ...................................................................... 181 
8.3  Variable de Poisson ........................................................................ 182 
 4 | P á g i n a  
 
8.3.1  Media y varianza ....................................................................... 184 
8.4  Variable Geométrica o de Pascal .................................................... 188 
8.4.1  Media y varianza ....................................................................... 189 
8.5  Variable Binomial negativa ............................................................. 191 
8.5.1  Media y varianza ....................................................................... 192 
8.6  Variable Hipergeométrica .............................................................. 195 
8.6.1  Media y varianza ....................................................................... 196 
9  Principales variables continuas .............................................................. 201 
9.1  Variable Uniforme .......................................................................... 201 
9.1.1  Media y varianza ....................................................................... 202 
9.2  Variable Exponencial ...................................................................... 204 
9.2.1  Media y varianza ....................................................................... 204 
9.3  Variable Normal .............................................................................. 205 
9.3.1  Media y varianza ....................................................................... 206 
9.3.2  Propiedades .............................................................................. 206 
9.3.3  Tipificación ................................................................................ 209 
9.3.4  Propiedad aditiva ...................................................................... 212 
9.4  Teorema central del límite ............................................................. 214 
9.5  Otras variables aleatorias de interés .............................................. 221 
9.5.1  Variable Chi‐cuadrado .............................................................. 221 
9.5.2  Variable   de Student ............................................................... 222 
9.5.3  Variable F de Fisher‐Snedecor .................................................. 223 
10  Inferencia estadística. Introducción ...................................................... 229 
11  Muestreo ............................................................................................... 231 
11.1  Procedimientos de muestreo ..................................................... 231 
11.1.1  Muestreo aleatorio simple ..................................................... 231 
11.1.2  Muestreo aleatorio sin reposición ......................................... 232 
11.1.3  Muestreo estratificado ........................................................... 232 
                                                                                              P á g i n a  | 5 

11.1.4  Muestreo sistemático ............................................................. 235 
12  Estimación puntual ................................................................................ 237 
12.1  Estimación de la media de una variable. Media muestral ......... 239 
12.2  Estimación de la varianza. Cuasi‐varianza muestral ................... 241 
12.3  Estimación de una proporción. Proporción muestral ................. 242 
12.3.1  Otros estimadores .................................................................. 243 
12.4  Distribución en el muestreo de un estimador ............................ 244 
12.5  Calidad de los estimadores ......................................................... 247 
12.5.1  Sesgo de un estimador ........................................................... 248 
12.5.2  Consistencia ............................................................................ 249 
12.6  Intervalos de confianza ............................................................... 250 
12.6.1  Definiciones básicas ................................................................ 251 
12.6.2  Intervalos de confianza para variables aleatorias normales .. 252 
12.7  Intervalos para la comparación de poblaciones ......................... 261 
12.7.1  Intervalo de confianza para la diferencia de medias ............. 262 
12.7.2  Intervalo de confianza para la razón de varianzas ................. 265 
12.8  Caso de muestras relacionadas o pareadas ............................... 268 
12.9  Intervalos para proporciones ...................................................... 269 
12.9.1  Intervalo para una proporción ............................................... 270 
12.9.2  Intervalo de confianza para la diferencia de proporciones.... 271 
13  Contrastes de hipótesis ......................................................................... 275 
13.1  Introducción. Conceptos esenciales ........................................... 275 
13.2  Error tipo I y error tipo II. Potencia ............................................. 279 
13.3  Ejemplo práctico: Una película ................................................... 281 
13.4  Contrastes de hipótesis paramétricas ........................................ 287 
13.4.1  Como realizar un contraste de hipótesis paramétrico ........... 289 
13.4.2  Región crítica de un contraste ................................................ 294 
13.4.3  Potencia del contraste ............................................................ 297 
 6 | P á g i n a  
 
13.4.4  Resumen: Etapas básicas de un contraste de hipótesis ......... 299 
13.5  Contrastes uni y bilaterales. ....................................................... 301 
13.5.1  Resumen: cálculo general del p‐valor .................................... 306 
13.5.2  Contrastes paramétricos más usuales ................................... 308 
13.5.3  Para la media de una variable normal .................................... 308 
13.5.4  Para la varianza ....................................................................... 310 
13.5.5  Para la diferencia de medias .................................................. 311 
13.5.6  Para la razón de varianzas ...................................................... 312 
13.5.7  Para una proporción ............................................................... 316 
13.5.8  Para la diferencia de proporciones ........................................ 316 
13.5.9  Caso de dos muestras relacionadas (apareadas) ................... 318 
14  Referencias ............................................................................................ 325 
15  Apéndice A. Instalación de R. ................................................................ 327 
15.1  Descarga del programa. .............................................................. 327 
15.1.1  Instalación de paquetes ......................................................... 338 
15.2  Bibliografía específica de R ......................................................... 340 
 
 
 
 
 
 
 
 
                                                                                              P á g i n a  | 7 

2 PRÓLOGO. CARACTERÍSTICAS DEL LIBRO 
 
 

 
 
Existen miles de libros de estadística y probabilidad en el mercado. Incluso los 
hay  gratuitos  en  Internet.  Quien  esté  leyendo  este  prólogo,  es  casi  seguro  que  ha 
ojeado  el  libro,  lo  cual  le  habrá  provocado  la  impresión  de  que  le  resultará  difícil 
encontrar  otro  con  tantas  fotografías  y  dibujos  por  el  medio  (no  tratándose  de 
gráficos matemáticos), ni que aparezca Tom Cruise, el señor Miyagi, Vladimir Putin o 
el mismo Bárcenas. 
 8 | P á g i n a  
 
Muchas  veces  escuchamos  que  las  matemáticas  son  infumables,  y  que  hay 
que tragarlas tal cual porque no se pueden contar de otra forma, ni se puede rodar 
una  película  como  si  se  tratara  de  una  lección  de  historia.  Bueno,  aquí  vamos  a 
intentar  desmontar  un  poco  esa  idea.  En  este  texto  vamos  a  intentar  que  el 
estudiante tenga más fácil recordar ciertas ideas, la historia, las fórmulas y las nuevas 
nociones, utilizando dibujos, anécdotas, mencionando películas, con fotogramas de 
cine, con ayuda de Tom Cruise, de Russell Crowe, de los X‐men y quien haga falta. 
Pretendemos amenizar, en lo posible, el estudio de una materia que está en 
muchos  planes  de  estudio  y  en  ocasiones,  resulta  ingrata.  También  intentaremos 
aprovechar  la  gran  cantidad  de  material  disponible  en  la  red  para  minimizar  el 
esfuerzo en cálculos (tablas de la normal y demás fuera. Vivimos en la época donde 
hasta el más torpe tiene un teléfono o un Tablet para conectarse a internet, así que 
podemos  evitarnos  muchos  líos).  Existen  muchas  aplicaciones  gratuitas  y  páginas 
web donde podremos realizar gráficas y cálculos. A la vez, existe software para todos 
los gustos, desde el muy caro y muy completo, como el SPSS, hasta el también muy 
completo y gratuito R. Cierto, sabemos que hay mucho profesor antediluviano que, 
o  bien  no  sabe  de  qué  estamos  hablando,  o  no  va  a  dejar  usar  ordenador  en  el 
examen, o simplemente le encanta que los demás sufran igual que él, y si él aprendió 
a usar las tablas de las distribuciones, los demás que rabien… Bueno, eso no es tan 
complicado ni mucho menos. Lo fundamental que se pretende es que se entiendan 
los  conceptos.  Si  después  a  uno  le  exigen  usar  tablas,  o  un  paquete  estadístico 
diferente al R (el que usaremos aquí), seguro que le llevará muy poco tiempo preparar 
esas nociones extra. Si, como hemos dicho en la contraportada, el que tiene ahora 
este libro es un profesional que pretende repasar sus conocimientos de estadística, 
o aprenderlos de una manera sencilla, esperamos allanarle el camino y que la tarea 
le sea más cómoda. 
   
                                                                                              P á g i n a  | 9 

2.1 SOBRE LA ESTRUCTURA  

    
 El  texto  está  enfocado  a  los  contenidos  de  una  asignatura  de  estadística 
básica  de  una  carrera  (ahora  se  llaman  grados)  de  tipo  experimental  o  aplicado. 
Desarrolla  los  contenidos  de  estadística  descriptiva  de  una  y  dos  variables, 
probabilidad, variables aleatorias e inferencia (estimación, intervalo de confianza y 
test de hipótesis). Al tratar de hacer el texto lo más ameno e intuitivo posible, hemos 
evitado profundizar en contenidos matemáticos, por lo que sólo sería recomendable 
como lectura complementaria en carreras donde sí interesen los aspectos teóricos 
(matemáticas, ingenierías de esas que precisan quince años para terminarlas...). 
    Todos los conceptos teóricos están acompañados de ejemplos y ejercicios, 
que se resuelven a la par de describir la forma de realizar los cálculos pertinentes en 
R,  o  en  alguna  aplicación  de  Internet  (siempre  que  sea  posible).  Además,  en  el 
Apéndice A incluimos un manual de descarga e instalación del software, y de cómo 
dar  los  primeros  pasos  en  el  mismo,  que  es  muy  fácil  (hasta  los  de  letras  pueden 
hacerlo).  Recomendamos  leer  primero  este  apéndice,  y  tener  instalado  el  R  en  el 
ordenador, si se quieren realizar los ejercicios del libro simultáneamente a su lectura. 
Algunos  ficheros  de  datos  sobre  los  que  trabajaremos  en  el  libro  pueden 
obtenerse  en  mi  página  web,  http://alejandroquintela.com,  a  la  cual  también 
haremos referencia en ocasiones, porque incluye varios widgets o aplicaciones donde 
realizar cálculos. También se encuentran los ficheros de sintaxis de R con los que se 
han  realizado  algunos  de  los  ejercicios  del  libro.  A  los  datos  se  accede  mediante 
http://alejandroquintela.com/libro_teoria_datos,  y  a  los  ficheros  de  R  mediante 
http://alejandroquintela.com/libro_teoria_sintaxis_r. 
Por  último,  quiero  agradecer  la  colaboración  de  Leolux,  que  ha  realizado 
varios de los dibujos del libro. Podéis visitar su página http://leolux2.blogspot.com.
 
   
 10 | P á g i n a  
 
2.2 Y TENÍAMOS MÁS PORTADAS 

 
Pero, como sólo se puede poner una, dejamos aquí las otras. 

 
                                                                                              P á g i n a  | 11 

 
 
 
 

 
 12 | P á g i n a  
 

 
 
                                                                                              P á g i n a  | 13 

   

3 INTRODUCCIÓN 
 

3.1 QUÉ ES LA ESTADÍSTICA 

 
 
 Un hombre muerto es una desgracia. Un millón de muertos es una 
estadística. 
Josef Stalin  
 
  Nunca  nadie  tan  bestia  dijo 
algo  tan  cierto.  En  su  acepción  más 
conocida, la estadística se utiliza para 
resumir la información de un conjunto 
de datos, sea del tipo que sea. Es por 
ello  que  escuchamos  tan  a  menudo 
frases  como  “el  90  por  ciento  de  los 
españoles  (varones)  asegura  que 
compra  la  revista  Interviú  por  los 
reportajes  de  política”,  “el  90  por  ciento  de  los  españoles  afirman  tener  un 
coeficiente intelectual mayor que la media” o “un porcentaje altísimo de encuestados 
no cree en las encuestas”.  
Sin  embargo,  el  sentido  científico  de  la  palabra  se  refiere  a  la  rama  de  las 
matemáticas que se utiliza para estudiar poblaciones a partir de muestras. Lo que hoy 
se  conoce  como  Ciencía  Estadística  es  el  resultado  de  la  unión  de  dos  disciplinas, 
 14 | P á g i n a  
 
diferenciadas en sus orígenes, y que evolucionaron de forma independiente, hasta 
que  se  agruparon  en  el  siglo  XIX:  la  Estadística  Descriptiva  y  el  Cálculo  de 
Probabilidades. La primera, que como su propio nombre indica estudia la descripción 
de datos, se remonta a la antigüedad y surge por el interés de los gobernantes por el 
conocimiento  de  los  recursos  disponibles.  Habitualmente,  los  gobernantes  suelen 
creerse dotados de naturaleza divina e inteligencia sobrehumana, aunque necesiten 
siempre  del  poder  de  los  ejercitos  para  recaudar  el  dinero  de  sus  súbditos. 
Actualmente lo disfrazan de democracia, pero el afán recaudatorio de los gobiernos 
nunca ha cesado ni cesará. 
Por  otra  parte,  el  cálculo  de  probabilidades  fue  introducido  en  la  segunda 
mitad del siglo XVII, y su origen fue la afición de la nobleza francesa por los juegos de 
azar. Sus primeros pasos corresponden a la resolución por Blaise Pascal (1623‐1662) 
y Pierre Fermat (1607‐1665) de algunos problemas formulados por el caballero Méré 
(1607‐1684) relacionados con los juegos de dados. La integración de ambas líneas de 
pensamiento (estadística y probabilidad) dio lugar a una ciencia que estudia cómo 
obtener  conclusiones  de  la  investigación  empírica  mediante  el  uso  de  modelos 
probabilistas. En los capítulos correspondientes ampliaremos algo más esta reseña 
histórica. 
A continuación resumimos, en el siguiente gráfico, el proceso científico del 
análisis estadístico. 

   
                                                                                              P á g i n a  | 15 
 
 

4 ESTADÍSTICA DESCRIPTIVA  
 
Este capítulo tiene por finalidad la descripción de un conjunto de datos, sin 
considerar que éstos puedan pertenecer a un colectivo más amplio, y sin la intención 
de proyectar los resultados que se obtengan al colectivo global; objeto esto último 
de lo que se conoce como Inferencia Estadística. 
 

4.1 BREVE INTRODUCCIÓN HISTÓRICA 

 
Los  orígenes  históricos  de  la  Estadística  descriptiva  se  encuentran  en  los 
procesos  de  recogida  de  datos,  censos  y  registros  sistemáticos,  en  una  suerte  de 
aritmética estatal para asistir al gobernante1, que necesitaba conocer la riqueza y el 
número  de  sus  súbditos  con  fines  raras  veces  honorables.  Quien  se  crea  que  el 
ministerio de Hacienda es un invento reciente está muy equivocado. Los primeros 
registros de riqueza y población que se conocen se deben a los egipcios. Ramsés II, 
en  el  1400  a.C.,  realizó  el  primer  censo  conocido  de  las  tierras  de  Egipto. 
Posteriormente, desde el siglo III a.C., en las civilizaciones china y romana se llevaron 
a  cabo  censos  e  inventarios  de  posesiones.  Las  intenciones  eran,  son  y  han  sido 
siempre las mismas: el que manda decide “too pa mí”, y leña a quien se le oponga.  
 Como modelo, podemos mencionar la primera película galardonada con once 
Oscar: Ben‐Hur. Al principio de la película, nos cuentan como los romanos, invasores 
de Judea, exigen que los judios vayan a empadronarse a su lugar de nacimiento, con 
el fin de hacer un censo y cobrarles impuestos. María y José acuden a su aldea para 
ello, y en el camino nace Jesús de Nazaret.  

                                                       
1
 Estadista.
 16 | P á g i n a  
 
En España, este interés nació con la 
preocupación  de  los  Reyes  Católicos  por 
mejorar el estado de las “Cosas Públicas” 
(administración  del  reino), 
estableciéndose el primer censo del que se 
tiene referencia en 14822. 
 
Los  datos  constituyen  la  materia 
prima  de  la  Estadística,  estableciéndose  distintas  clasificaciones  en  función  de  la 
forma  de  los  mismos.  Se  obtienen  datos  al  realizar  cualquier  tipo  de  prueba, 
experimento, observación... 
 
 
 
 
 
 
 
 
 

4.2 VARIABLES Y ATRIBUTOS 

 
Una  primera  clasificación  del  tipo  de  datos  procede  del  hecho  de  que  las 
observaciones sean de tipo cualitativo o cuantitativo. En el primero de los casos se 
                                                       
2
  Se desconoce si en la mejora de las cosas públicas la reina Isabel incluía su estado físico, 
después de estar un año sin lavarse (prometió no hacerlo hasta que se conquistara Granada). 

 
                                                                                              P á g i n a  | 17 

tiene un atributo, y en el segundo una variable. Para hacer referencia genéricamente 
a una variable o a un atributo se utiliza el término carácter. 
Como  ejemplos  de  atributos  tenemos  el  color  del  pelo,  raza,  idioma  de  un 
grupo  de  personas,  y  como  variables  su  estatura,  peso,  dinero  que  lleven  en  el 
bolsillo, etc. 
Si es necesario operar con un atributo, se le asignará a cada una de sus clases 
un valor numérico, con lo que se transforma en una variable. Esta asignación se hará 
de  forma  que  los  resultados  que  se  obtengan  al  final  del  estudio  sean  fácilmente 
interpretables.  Por  ejemplo,  si  hay  3  idiomas  posibles  (ingles,  francés  y  español) 
podemos usar 1, 2 y 3. 
 

4.3 VARIABLES DISCRETAS Y CONTINUAS 

 
Si  las  observaciones  corresponden  a  cantidades,  las  variables  pueden 
distinguirse entre discretas y continuas. Se dice que una variable es discreta cuando 
no  puede  tomar  ningún  valor  entre  dos  consecutivos,  y  que  es  continua  cuando 
puede tomar cualquier valor dentro de un intervalo. 
Ejemplos de variable discreta: número de empleados de una fábrica; número 
de hijos; número de cuentas ocultas en Suiza. 
Ejemplos de variable continua: temperaturas registradas en un observatorio;  
tiempo en recorrer una distancia en una carrera; contenido de alcohol en un cuba‐
libre; estatura; tiempo dándole el coñazo a una tía en la discoteca. 
En la práctica, todas las variables son discretas debido a la limitación de los 
aparatos de medida. Pensemos en el ejemplo de la estatura; quizá se podría detectar 
una diferencia de una cienmilésima de metro, o de una millonésima, pero dados dos 
individuos que se diferencien en una millonésima, seguramente ya no existe otro que 
tenga  una  estatura  intermedia.  De  la  misma  forma,  por  insignificante  que  sea  la 
diferencia entre la llegada de dos corredores olímpicos a una meta, la limitación de 
la  precisión  en  la  medida  siempre  puede  acabar  produciendo  un  posible  (aunque 
 18 | P á g i n a  
 
improbable) empate. Obviando este tipo de limitaciones, las variables continuas se 
elegirán,  desde  un  punto  de  vista  teórico,  con  toda  la  precisión  que  deseemos 
(decimales),  de  manera  que  siempre  podamos  escribir  un  valor  que  esté  entre 
cualesquiera otros dos. 
 

4.4 DISTRIBUCIONES DE FRECUENCIAS 

 
La organización de los datos constituye la primera etapa de su tratamiento, 
pues  facilita  los  cálculos  posteriores  y  evita  posibles  confusiones.  Realmente,  la 
organización  de  la  información  tiene  una  raíz  histórica  y,  actualmente,  con  el 
desarrollo de los medios informáticos, tiene menos importancia desde un punto de 
vista  aplicado.  Cuando  no  existían  ordenadores,  o  ni  siquiera  calculadoras,  si  se 
disponía de un conjunto de datos, era necesario dotarlos de alguna estructura que 
permitiera resumirlos y comprenderlos de una forma más o menos sencilla. 
La organización va a depender del número de observaciones distintas que se 
tengan  y  de  las  veces  que  se  repitan  cada  una  de  ellas.  En  base  a  lo  anterior,  se 
pueden estructurar los datos de tres maneras distintas: 
 
Tipo  I:  Cuando  se  tiene  un  número  pequeño  de  observaciones  casi  todas 
distintas, éstas se darán sin más. 

Ejemplo 4-1 La variable que toma los valores 2,3,5,7,7,8,11,14,16,19.

 
Tipo II:  Cuando se tiene un gran número de observaciones, pero muy pocas 
distintas, se pueden organizar en una tabla de frecuencias, es decir, cada uno de los 
valores acompañado de la frecuencia (también llamada frecuencia absoluta ) con la 
que aparece. 
                                                                                              P á g i n a  | 19 

Ejemplo 4-2 La tabla

2 4
4 4
5 3
6 2
7 3
8 3
9 1

indica que el valor 2 se repite 4 veces, el valor 4 se repite 4 veces, etc....


Este es el formato con que suele representarse también una variable
cualitativa, como el equipo de fútbol preferido por 10 personas de un bar:

2
ó 1
6
1

 
 Tipo III:  En el caso de que haya muchas observaciones, la mayoría de ellas 
distintas, pueden disponerse agrupándolas en intervalos e indicando el número de 
observaciones que caen dentro de cada intervalo.  
Para ello se elige un número  min , y otro  max , y se divide el 
intervalo   en   intervalos (generalmente de igual longitud). 
 

Ejemplo 4-3 Supongamos que tenemos los datos de una variable :


2,3,4,4.5,4.5,5.6,5.7,5.8,6,6.1,6.5,7,7,7,7.5,7.5,7.5,  
8.3,9,10.2,10.4,11,11.1,11.5,12,13.  
Una posible representación en intervalos es la siguiente:
 20 | P á g i n a  
 

2,4 3
4,6 6
6,8 8

8,10 2
10,12 6
12,14 1

Esta clasificación nos dice que en el intervalo 2,4 hay 3 observaciones,


que en el 4,6 hay 6, etc... El indicar los intervalos de la forma , indica
que el dato no se cuenta en este intervalo, y sí se cuenta el dato . En el
primer caso hemos escrito 2,4 porque no hay más datos a la izquierda de
2.

En cualquiera de los tres casos o tipos se tiene una distribución de frecuencias. 
A la variable que representa a la distribución se le llama genéricamente X; a cada uno 
de los valores que toma la variable se le denota por  , y a la frecuencia con que se 
repite dicho valor por  frecuencia absoluta . Para evitar confusiones, puede ser 
aconsejable  ordenar  los  valores  de  la  variable  de  menor  a  mayor.  Los  valores 
ordenados de una distribución se representan, en ocasiones, con los subíndices entre 
paréntesis:  

, ,⋯, , donde  .            (4‐1) 


Para  efectuar  cálculos,  sea  cuál  sea  el  tipo  de distribución,  se  disponen  los 
datos en forma de tabla (tabla de frecuencias):  
. .

⋮ ⋮ ⋮ ⋮ ⋮
1

donde: 
                                                                                              P á g i n a  | 21 

     •   representa al número total de observaciones, y será igual a la suma 
∑ .3 

    •   es la frecuencia relativa, definida como  .  Muchas veces se multiplica 


por 100 para indicar que es el tanto por ciento o porcentaje de veces que aparece el 
valor   correspondiente. 

    •   es la frecuencia absoluta acumulada, que se obtiene como ∑ . 

    •   es la frecuencia relativa acumulada, que viene dada por ∑ .  

Ejemplo 4-4 En la primera tabla del Ejemplo 4-2 tendríamos


Valor ni Ni fi Fi
2 4 4 4/20=0.2 (20%) 0.2 (20%)
4 4 8 4/20=0.2 (20%) 0.4 (40%)
5 3 11 3/20=0.15 (15%) 0.55 (55%)
6 2 13 2/20=0.1 (10%) 0.65 (65%)
7 3 16 3/20=0.15 (15%) 0.8 (80%)
8 3 19 3/20=0.15 (15%) 0.95 (95%)
9 1 n=20 1/20=0.05 (5%) 1 (100%)

Obsérvese que si la distribución es de tipo I la tabla prácticamente no aporta 
información.  Si  la  distribución  es  de  tipo  III,  los  valores    corresponderán  a  las 
llamadas marcas de clase o puntos medios de los intervalos4. Actualmente, como lo 
lógico  es  tener  los  datos  en  alguna  variable  para  su  tratamiento  en  un  paquete  o 
programa  estadístico,  la  representación  de  los  datos  en  una  tabla  de  frecuencias 
únicamente  suele  realizarse  para  los  datos  de  tipo  II.  En  el  caso  de  una  variable 
continua, la representación en una tabla con intervalos resulta algo obsoleta, puesto 
que  la  mejor  forma  de  “comprender”  la  distribución  es  por  medio  de  una 

                                                       
3
  La letra griega ∑ (sigma mayúscula) representa suma. ∑ representa sumar todos los 
índices desde el 1 hasta el r, n1 + n2 +…+nr. 
4
 Dado el intervalo  , , la marca de clase viene dada por   

 
 22 | P á g i n a  
 
representación gráfica, y con el cálculo de medidas estadísticas que trataremos más 
adelante.  Si  una  cantidad  muy  grande  de  datos  se  resume  en  forma  de  tabla  de 
intervalos, realmente lo que se está haciendo es perder información. Puesto que hoy 
en día todo el mundo tiene un ordenador capaz de tratar con un número grande de 
datos, resumir un conjunto de datos en intervalos y trabajar con las marcas de clase, 
en vez de con todos los datos, ha perdido gran parte de su sentido. 
 

4.5 REPRESENTACIONES GRÁFICAS 
 
En  función  de  la  naturaleza  de  los  datos  y  de  la  forma  en  que  éstos  se 
presenten, existen distintos tipos de representaciones. Ahora mostramos algunas de 
las más utilizadas. 

4.5.1 Diagrama de Sectores (Tarta) 
Se emplea para representar atributos y variables discretas. 

 
 

Nota 4-1 En R, hacer un gráfico de este tipo son 3 instrucciones.


Supongamos que tenemos los resultados de una encuesta donde se preguntó la
opinión sobre ir desnudo por la calle. El 40 por ciento dijo que le parece bien, al 40
por ciento le parece mal y el 20 por ciento restante no tenía opinión formada. Pasos a
seguir:
                                                                                              P á g i n a  | 23 

1.- Definir los porcentajes de los resultados:


x=c(0.4,0.4,0.2)
2.- Definir los nombres que aparecerán en el gráfico asociado a cada
porcentaje:
names(x)=c(“BIEN”, “MAL”, “No sabe/No contesta”)
3.- El gráfico se hace con la instrucción
pie(x)
Para ver las muchas opciones que se podrían construir (colores, título, etc)
habría que hacer help(pie)

4.5.2 Pictograma 
Consiste  en  indicar  el  tamaño  de  cada  categoría  o  atributo  mediante  un 
dibujo,  tanto  más  grande  a  medida  que  la  categoría  se  repite  en  más  ocasiones 
(primera imagen), o bien con el mismo dibujo repetido un número mayor de veces 
(segunda imagen). 
 24 | P á g i n a  
 

 
Suponemos  que  todo  el  mundo  entiende  lo  que  significa  este  gráfico  y  el 
anterior.  Este  tipo  de  representación  no  suele  aparecer  en  ningún  programa 
estadístico; debe hacerse manualmente con algún programa de edición.   

4.5.3 Diagrama de barras 
Para representar una distribución del tipo II, se suele utilizar un diagrama de 
barras,  levantando  sobre  cada  valor  de  la  variable  una  barra,  tanto  más  grande 
cuanto mayor sea la frecuencia. 
                                                                                              P á g i n a  | 25 

Nota 4-2 En R esto se hace igual que en el caso del diagrama de sectores,
cambiando el comando pie por barplot:
x=c(0.4,0.4,0.2)
names(x)=c(“BIEN”, “MAL”, “No sabe/No contesta”)
barplot(x)

4.5.4 Histograma (de frecuencias) 
Si se dispone de una variable continua, la representación gráfica más utilizada 
es la que se conoce como histograma. La realización de un histograma de frecuencias 
(absoluta o relativa) consiste en clasificar los datos en intervalos, de la forma vista en 
lo que hemos denominado tipo III. Una vez que se tienen los intervalos, sobre cada 
uno  de  ellos  se  levanta  un  rectángulo  de  área  o  altura  la  frecuencia  (absoluta  o 
relativa). El histograma con los datos del Ejemplo 4‐3 es el que sigue: 

Nota 4-3 Habitualmente, al introducir los datos en un programa estadístico


para hacer un histograma, no tenemos que indicarle la clasificación en intervalos; el
 26 | P á g i n a  
 
programa suele hacerlo automáticamente. El gráfico anterior lo hemos hecho con la
opción hist del software R.
También, en la página web http://alejandroquintela.com/calculos,
disponemos de un widget (aplicación) en el que únicamente tenemos que introducir
los datos separados por comas. En el software R, es tan fácil como, una vez
arrancado el programa, escribir:
x=c(2,3,4,4.5,4.5,5.6,5.7,5.8,6,6.1,6.5,7,7,7,7.5,7.5,7.5,8.3,9,10.2,10.4,11,11.
1,11.5,12,13) (o sea, los datos que tengamos separados por comas) y, a
continuación, ejecutar el comando
hist(x)
El software permite multitud de opciones, como indicar el titulo con
main=“Histograma”, el rotulo del eje X con xlab=“Datos del Ejemplo”, hacer
maravillas con el color, etc. (Figura 4-1).

   

Figura 4‐1
                                                                                              P á g i n a  | 27 

Ejemplo 4-5 Los siguientes datos corresponden al cociente intelectual de una


muestra de asesores de un gobierno, elegidos al azar:
70.2 62.4 72.3 63.3 62.8 60.4 73.4 72.4 68.4 67.0 70.1 69.4 65.2 62.9 70.0
71.3 66.3 65.9 68.3 70.2 70.7 67.5 65.0 70.4 72.8 66.6 72.1 64.1 68.7 67.8
66.1 69.1 71.9 73.5 65.5 66.4 64.4 63.1 62.0 65.2
Representar gráficamente los datos anteriores por medio de un histograma.

Por  medio  del  software  R,  la  gráfica  que  obtenemos  es  la  de  la  Figura  4‐2 
(sobre cada intervalo indicamos el número de datos que hay en el mismo).  

Figura 4‐2 

 
En cualquier histograma, si todos los intervalos tienen la misma longitud, es 
equivalente  considerar  que  la  frecuencia  es  el  área  o  la  altura  de  un  rectángulo, 
puesto que ambas medidas son proporcionales y el dibujo es el mismo, pero realizado 
 28 | P á g i n a  
 
en  diferente  escala.  Lo  que  representa  gráficamente  el  histograma  es  la 
concentración de los datos, o como se reparten los mismos a lo largo de los valores 
de la variable. Cuántos más datos hay en un intervalo, más alto será el rectángulo 
correspondiente. 
Antes hemos dicho que la clasificación de una variable en intervalos se realiza, 
generalmente, con intervalos de la misma longitud. Si los intervalos son de diferente 
longitud,  la  representación  geométrica  podría  dar  lugar  a  confusión,  y  por  ello  no 
suele utilizarse. 
Mención aparte merece la consideración del número de intervalos. El aspecto 
de un histograma (y por tanto el de la distribución de los datos) puede cambiar mucho 
dependiendo  del  número  de  intervalos  que  se  utilice.  Los  programas  estadísticos 
suelen utilizar alguna fórmula que depende del número   de datos. Por ejemplo, por 
defecto, R utiliza la llamada fórmula de Sturges:  . El Excel usa √ .  
Suele resultar interesante comparar varios gráficos cambiando el número de 
intervalos  para  una  serie  de  datos  concreta.  En  la  Figura  4‐3  dibujamos  la  misma 
variable del Ejemplo 4‐5 primero con un número grande de intervalos, y después con 
un número pequeño. 

 
Figura 4‐3 
                                                                                              P á g i n a  | 29 

Usando también en la comparación la Figura 4‐2, puede apreciarse como, a 
medida que el número de intervalos aumenta (o lo que es lo mismo, el ancho de los 
intervalos disminuye) aumenta la variabilidad de la gráfica, resultando cada vez en 
una gráfica menos homogénea, y que puede distorsionar la información gráfica que 
proporcionan los datos. 
 

4.5.5 Polígono de frecuencias 
Consiste  en  unir  los  puntos  medios  de  los  rectángulos  superiores  en  un 
histograma. Veamos el resultado, con los datos que estamos utilizando, en la Figura 
4‐4.  El  polígono,  como  vemos,  parte  del  eje  X  y  regresa  al  eje  X,  simplemente 
marcando como origen y final una distancia de los extremos igual a la longitud de un 
intervalo  dividida  entre  2.  Estas  dos  líneas  finales,  además  de  darle  una  mayor 
vistosidad al gráfico (lo estético no está reñido con la estadística), tiene un significado 
matemático que explicamos a continuación. 

Figura 4‐4 
 30 | P á g i n a  
 
4.5.6 Área bajo el histograma de frecuencias. 
Pensemos en un histograma donde hemos considerado como área de cada 
rectángulo la frecuencia absoluta (número de datos) del intervalo correspondiente. 
El área encerrada entre el histograma y el eje horizontal sera  , número total de datos 
(simplemente  sumamos  el  área  de  todos  los  rectángulos).  Si  en  vez  de  utilizar  la 
frecuencia absoluta usamos la relativa, el área de cada rectángulo será el porcentaje 
de datos que hay en el mismo. El área encerrada entonces por todo el histograma y 
el eje horizontal será igual a 1 (es el cien por cien de los datos). Análogamente, puede 
comprobarse  que  el  área  encerrada  entre  el  polígono  de  frecuencias  y  el  eje 
horizontal también vale 1.  
En la Figura 4‐5 vemos un dibujo de un histograma con frecuencias relativas, 
y la explicación geométrica de por qué el polígono de frecuencias encierra también 
área  uno  aparece  en  la  Figura  4‐6  (sólo  hay  que  pensar  que,  en  el  polígono  de 
frecuencias, a cada rectángulo le restamos y sumamos el área de dos triángulos, que 
se van compensando a lo largo de la figura). El área total de valor uno es un hecho 
muy  relevante  a  la  hora  de  introducir,  en  el  capítulo  de  variables  aleatorias,  el 
concepto de función de densidad. 
 

 
Figura 4‐5 
                                                                                              P á g i n a  | 31 

 
Figura 4‐6 
 
 
 

4.6 MEDIDAS DE POSICIÓN O TENDENCIA CENTRAL 
 
 
Una  vez  organizados  los  datos  en  su  correspondiente  distribución  de 
frecuencias, procedemos a dar una serie de medidas que resuman, de la mejor forma 
posible,  la  información  existente  en  los  mismos  y  que,  “de  alguna  manera”, 
representen  a  la  distribución  en  su  conjunto.  De  alguna  manera,  estas  medidas 
“centralizan” la información, y por ello se llaman de tendencia central o promedios. 
Con  estas  medidas,  se  pretende  también  facilitar  la  comparación  entre  distintas 
variables. 
 32 | P á g i n a  
 
A  partir  de  ahora  trabajaremos  con  una  variable  ,  con  valores 
, . . . , , ordenados de menor a mayor, que pueden repetirse o no, y así incluimos 
todos Los casos descritos. 
  
 
4.6.1 La media 
La media es una medida de representación o de tendencia central que debe 
cumplir tres requisitos: 
     1.  Para su obtención deben utilizarse todas las observaciones. 
    2.  Debe ser un valor comprendido entre el menor y el mayor de los valores 
de la distribución. 
    3.    Debe  venir  expresada  en  las  mismas  unidades  que  los  datos  (si   
representa kilos, la media también).  
Entre todas las funciones que verifican estas tres propiedades se destaca la 
media aritmética, a partir de ahora simplemente media, que se define de la siguiente 
manera:    
...
̅ . 

Ejemplo 4-6 La nota media de los exámenes de una asignatura, el tiempo


medio de realización de los mismos, la estatura media, la ganancia media en
comisiones ilegales, etc.

 
Con el mismo esquema también se puede definir la media geométrica como:  
̅ ⋅ ⋅ …⋅ , 

que suele utilizarse, fundamentalmente, en economía (generalmente para promediar 
porcentajes). 

Ejemplo 4-7 En los 3 últimos años, el precio de cierto producto de primera


necesidad ha subido un 10%, un 18% y un 30%. ¿Cuánto ha subido en
promedio?
                                                                                              P á g i n a  | 33 

Solución. 
Nos referimos a qué mismo porcentaje tendría que haber subido cada año 
para  obtener,  al  cabo  de  los  tres  años,  el  mismo  valor  que  con  estas  subidas 
desiguales. Para obtener el precio del primer año (tras una subida del 10%), tenemos 
que  multiplicar  por  1.1  el  precio  inicial  (P+P×10/100=P+0.1P=1.1P).  Al  precio  así 
obtenido tenemos que multiplicarlo por 1.18 (subida del 18%) para obtener el precio 
tras el segundo año. Y este último valor hemos de multiplicarlo por 1.30 (subida del 
30%) para obtener el precio final. Entonces, si el precio inicial  es P, el resultado final 
será: 
P×1.1×1.18×1.30=1.6874P  
Sin  embargo,  si  consideramos  la  media  aritmética  de  10%,  18%  y  30%, 
obtenemos un porcentaje del 19.33% (o multiplicar por 1.1933), pero si aplicamos 
esa subida del 19.33% cada año, el resultado que obtenemos será: 
P × 1.1933×1.1933×1.1933=1.6992P. 
En cambio, si calculamos la media geométrica de los tres porcentajes:  

√1.1 ⋅ 1.18 ⋅ 1.3 1.1905, 


podemos  comprobar  que  P  ×  1.1905×1.1905×1.1905=1.6873P,  con  lo  que  el 
porcentaje promedio es la media geométrica de los porcentajes. 
 
Otra media es la llamada media armónica, que se define como   
̅ . 
1 1 1
...

Ejemplo 4-8 Un coche efectúa un recorrido de 100 km en dos sentidos. En


un sentido a velocidad constante 60 km/h, y en el otro a velocidad constante
70 km/h. Calcular la velocidad media del recorrido total.

Solución.  
Como la velocidad es el espacio entre el tiempo,    
2⋅ 2


 34 | P á g i n a  
 
Como  el  tiempo  que  tardó  en  el  primer  sentido  es  / /60,  y  el 
tiempo que tardó en el segundo sentido es  / /70, tenemos que   
2 2

1 1
60 70 60 70
que es la media armónica de las dos velocidades.  
Otra  media  que  tiene  interés  práctico  es  la  media  ponderada.  Consiste  en 
asignar a cada valor   un peso   que depende de la importancia relativa de dicho 
valor, bajo algún criterio. Su expresión responde a:    
⋅ ⋅ ... ⋅
̅ . 
...

Ejemplo 4-9 Para ganar una plaza de funcionario en una diputación, un


aspirante debe ser evaluado en distintas pruebas: conocimientos, pertenencia
al partido gobernante y aptitudes para el peloteo, cada una de ellas ponderada
según su importancia o contribución en la nota final. Así, los pesos de cada
apartado serán del 30, 50 y 20 por ciento, respectivamente. Sabiendo que las
notas obtenidas por un aspirante en cada prueba son 7, 3 y 5 respectivamente,
¿cuál es la nota global en la oposición?

Solución.  
La  media  aritmética  de  las  calificaciones,  ponderada  por  los  pesos  de  cada 
prueba es   
7 ⋅ 0.3 3 ⋅ 0.5 5 ⋅ 0.2
̅ 4.6 
0.3 0.5 0.2
 
Características de la media aritmética 
Se analizan a continuación una serie de propiedades de la media (aritmética). 
1.  Si a cada observación de una variable   se le suma una constante  , se 
tiene una nueva variable   con media igual a la de   más la constante   
(ver Figura 4‐7). 
2.  Si se multiplica una variable   por una constante  , la variable resultante 
 tendrá media igual a   por la media de  . 
                                                                                              P á g i n a  | 35 

Estas dos propiedades se pueden resumir en la siguiente:  
⇒ a ̅  

Figura 4‐7 

Ejemplo 4-10 Sea 1,2,3. ̅ 2. Si le sumamos 10 a X, tendremos


11,12,13; la media es 2 10. Si multiplicamos por 4, tendremos los valores
4,8,12, y la media es 4 ⋅ 2.

3.    La  media  aritmética  se  ve  muy  alterada  por  valores  extremos  de  la 
variable. 
Supongamos, por ejemplo, que una variable toma los valores  1,4,12. Su 
media es  ̅ 5.66. Si añadimos un nuevo valor, por ejemplo 100, ahora la media es 
̅ 29.25. Es decir, valores grandes de   desplazan la media hacia la derecha. Lo 
mismo ocurre con valores pequeños de  , que desplazan la media hacia la izquierda.  

 
 36 | P á g i n a  
 
4.6.2 La mediana 
La  mediana  es  un  valor  que,  previa  ordenación,  deja  la  mitad  de  las 
observaciones a su izquierda y la otra mitad a su derecha. Es decir, el 50% de los 
datos son menores o iguales que la mediana, y el otro 50% mayores o iguales a ésta. 
Para  su  cálculo,  y  suponiendo  que  los  valores  están  ordenados,  se  procede  de  la 
siguiente manera: si hay un número impar de datos, la mediana es el elemento que 
se encuentra en el centro, es decir  . Si el número de datos fuera par habría dos 
elementos centrales, y la mediana se obtendría como la media de ambos, es decir:    


2
Ejemplo 4-11 Sea la variable que toma los valores 1,2,3,4,5 (hay 5
datos). La mediana es 3 (deja 2 valores a la izquierda y 2
a la derecha).Si toma los valores 1,2,2,3,4,5, ahora hay un número par de
valores. En el medio tenemos los valores 2y 3. La mediana
es 2 3 /2 2.5.

Ejemplo 4-12 Sea la variable que toma los valores 16,19,7,8,7,2,5,3,11,14.


Calcular la mediana.

Solución.  
Primero ordenamos los valores: 2,3,5,7,7,8,11,14,16,19. Como  10 es un 
número par, la mediana será  
7 8
7.5. 
2 2 2
  

Nota 4-4 Como todo en esta vida, conviene saber cómo se hacen las cosas,
pero también está claro que si alguien nos las hace, mucho mejor. Si tenemos pocos
datos, los cálculos son sencillos, pero se complican si hay muchos datos. Con
cualquier programa de ordenador o página web no habrá más que dar la orden
adecuada, con lo que tenemos que preocuparnos mucho más de saber el significado
                                                                                              P á g i n a  | 37 

de media, mediana o cualquier otro valor, que cómo calcularlo. En el programa R,


con definir primero un vector x de datos y después escribir mean(x) obtendremos la
media, y con median(x) la mediana.

 
Comparación entre la media aritmética y la mediana. 
La  mediana  se  llama  así  porque  está  “en  el  medio”,  mientras  la  media 
aritmética  es  el  “valor  medio”.  Cuando  un  padre  con  tres  hijas  habla  de  ellas,  se 
refiere a la mayor, la mediana y la pequeña. Si sus edades son, por ejemplo, 18, 15 y 
3, obviamente la del medio no tiene como edad la media aritmética de las edades. Y 
esta hija siempre será la mediana, aunque pase el tiempo y los valores de sus edades 
vayan cambiando. 
La media aritmética supone una medida central de la variable que tiene en 
cuenta los valores de la misma. La mediana, en cambio, tiene en cuenta el número 
de  datos.  En  el  ejemplo  que  vimos  antes,  cuando  1,4,12,100  frente  a 
1,4,12, la media pasó de ser 5.66 a ser 29.25. La mediana, en cambio, si  1,4,12, 
será  4  y  si  1,4,12,100  será  4 12 /2 8.  Como  vemos,  la 
mediana  es  una  medida  “más  robusta”  (se  ve  poco  afectada)  frente  a  valores 
extremos de la variable. 
Si  en  vez  del  dato  100  lo  cambiamos  a  10000,  la  media  es  2504.25  y  la 
mediana sigue siendo 8. 

 
 38 | P á g i n a  
 
Ejemplo 4-13 Supongamos que sean las calificaciones de un alumno en 4
exámenes 0,6,6,6.
La media aritmética es ̅ 4.5 (suspenso), frente a la mediana que sería
6 (bien).
 
A la hora de hablar, por ejemplo, del sueldo promedio o renta “media” de un 
país, resulta evidente que debería indicarse la medida que se utiliza. Así, un sueldo 
medio dado por la mediana sería aquel tal que el 50 por ciento de la población tendría 
sueldo más bajo que la mediana, y el otro 50 por ciento más alto que la mediana. En 
cambio, el sueldo “media aritmética” es el valor correspondiente a sumar todos los 
sueldos y dividir por el número de personas. Si existe poca gente con sueldos muy 
altos,  el  sueldo  media  aritmética  puede  ser  alto,  pero  no  será  representativo  del 
conjunto total de la población.    
 

4.6.3 La moda 
La moda (absoluta) de una distribución es el valor que más veces se repite (el 
valor con mayor frecuencia o más frecuente). Además de la moda absoluta, aquellos 
valores  que  tengan  frecuencia  mayor  a  la  de  los  valores  adyacentes  serán  modas 
relativas.  Por  ejemplo,  si  tenemos  la  variable    que  toma  los  valores 
2,3,3,4,6,7,7,7,10, la moda absoluta es 7, puesto que es el valor que se repite más 
veces.  Además,  el  valor  3  es  una  moda  relativa,  puesto  que  su  frecuencia  es  2, 
superior a la de los valores 2 y 4, ambas iguales a 1. 
                                                                                              P á g i n a  | 39 

 Si las observaciones vienen agrupadas en intervalos, se hablará de intervalo 
modal (absoluto) e intervalos modales relativos. El intervalo modal es aquel que tiene 
mayor frecuencia (absoluta o relativa), o sea el más alto en el histograma. 

Figura 4‐8: Histograma de la variable que mide el nivel de colesterol en 100 personas. 

 
 
Ejemplo 4-14 Si consideramos la distribución de sueldos en una
multinacional, es casi seguro que el sueldo más alto será el del presidente,
pero no sería el sueldo modal. El sueldo modal seguramente sería el más bajo
(el de los curritos que menos ganan, que seguro son mayoría).

 
 
4.6.4 Cuantiles 
Se  llama  cuantil  de  orden  0 100   a  aquel  valor  que  divide  a  la 
variable en dos partes, dejando a su izquierda (o inferiores a él) el   por ciento de los 
datos (a su derecha el 100  por ciento). Por ejemplo, si  50, el cuantil de orden 
50 corresponde a la mediana. 
Para calcularlo, haremos lo siguiente:  

Calculamos cuál es el  % de los datos ⋅ . 
 40 | P á g i n a  
 
Si el valor   es un número no entero, el cuantil de orden   será   (donde 
 representa la parte entera de  , es decir quitamos los decimales). 
Si el valor   es un número entero, el cuantil se elige  /2 (y todos 
tranquilos, que estas cuentas nos la hace el ordenador). 
De entre los cuantiles destacan los  cuartiles, los  deciles y los  percentiles. 
Los cuartiles dividen a la distribución en cuatro partes iguales, los deciles en 
diez  y  los  percentiles  en  cien.  Habrá,  por  tanto,  tres  cuartiles  , , ,  nueve 
deciles  , ,⋯,   y  noventa  y  nueve  percentiles  , ,⋯, .  El  segundo 
cuartil, el quinto decil y el quincuagésimo percentil coinciden con la mediana. 
Muchos  textos  llaman  cuantiles  y  percentiles  a  los  mismos  valores. 
Realmente, un cuantil permite que el valor   sea un número no entero (puede ser 
1.45 por ejemplo). Como no suele interesar calcular cuantiles con valores de   no 
enteros, en la práctica viene a ser lo mismo.  
Con  la  Figura  4‐9  y  la  Figura  4‐10  comprobamos  que,  como  siempre,  una 
imagen vale más que mil palabras.  

Figura 4‐9 
                                                                                              P á g i n a  | 41 

 
Figura 4‐10 

Ejemplo 4-15 Sea la variable que toma los valores 16,19,7,8,7,2,5,3,11,14.


Calcular el percentil de orden 23 y el segundo decil.

Solución.  
Primero ordenamos los valores: 2,3,5,7,7,8,11,14,16,19. El percentil de orden 
23 corresponde a  ⋅ 10 2.3, luego    
5.
             El segundo decil corresponde a  ⋅ 10 2, luego   
3 5
4.
2 2
             Podemos  comprobar  que  éste  método  de  cálculo  coincide  con  lo  utilizado 
anteriormente para la mediana. Si  50, calculamos  ⋅ ⋅ 10 5, con lo 
que la mediana será    
7 8
7.5. 
2 2
 42 | P á g i n a  
 
 

Ejemplo 4-16 Con los datos del Ejemplo 4-5 calcular el valor tal que el 10 por
ciento de los asesores tienen un cociente intelectual menor o igual al mismo.
Calcular también el cociente intelectual medio, en el sentido de que haya
tantos asesores con cociente mayor como menor a él.

 Solución. 
Con  el  programa  R,  calculamos  el  primer  decil,  que  es  el  valor  62.89,  y  la 
mediana,  que  es  67.65.  El  histograma  con  los  valores  señalados  aparece  a 
continuación. Los asesores con cociente intelectual menor o igual a 62.89 serían el 
diez por ciento de los “más burros”, por decirlo de alguna manera (dentro del grupo 
total). Los que tienen cociente mayor que 67.65 serían el 50 por ciento de los “más 
listos”.  

  

Nota 4-5 Según vimos en el Ejemplo 4-15, el segundo decil no era un valor
de la variable, sino que se toma “por convenio” el valor medio entre los valores
y . En vez de elegir este valor podría haberse acordado tomar otro, a lo mejor más
cercano al primero. Ahora mismo, en el Ejemplo 4-16, calculamos con R el primer
                                                                                              P á g i n a  | 43 

decil y nos da 62.89, que es diferente del que nosotros calcularíamos a mano
(nosotros tomaríamos el primer decil como el punto medio entre y .

Incluso, si probamos a calcular con otro software el primer decil (como el


SPSS) es posible que resulte un valor distinto. En general, el valor de un cuantil
calculado con un software u otro no tiene por qué dar el mismo valor, sino un
número cercano. ¿Qué ocurre? Pues que, como para gustos se pintan colores, existen
más formas de definir la forma de calcular cuantiles que la vista aquí, que es la más
“clásica” y aparece en la mayoría de textos españoles. Hay también razones de tipo
teórico, en las que no podemos entrar, que aconsejarían utilizar una definición en
algunos casos y otra diferente en otros. Independientemente de estos hechos, los
cálculos según el software no diferirán demasiado, sobre todo cuando se dispone de
un número grande de datos.
Veamos como se hace en R. Para calcular un cuantil determinado (por ejemplo el 44
y el 61.4) para una variable x, se escribiría
quantile(x, probs=c(0.44, 0.614)) (esto es, siempre se dan los valores entre 0 y 1).
Si escribimos help(quantile) veremos que se pueden calcular cuantiles utilizando
varios métodos, que pueden dar resultados diferentes. Esto es por lo comentado
anteriormente.
Regla para vagos: no preocuparse. Elegir el valor que dé el ordenador y listo, salvo
que el profesor exija una forma determinada. Para calculos a mano, el método
“habitual” es el que hemos explicado aquí.

Ejemplo 4-17 La importancia en la vida real de los cuantiles es notorio.


Despejemos un poco la mente leyendo este comentario sacado íntegramente
del blog (con copy – paste; si hay faltas de ortografía cúlpese a la autora
del blog):
http://www3.rosario3.com/blogs/insomne/?tag=percentiles

Hace algunas semanas fui a ver al cine “Bajo un mismo techo” (aquí en España 
se llamó “Como la vida misma”; nota del autor), una peli que cuenta la historia de 
dos solteros que tienen que hacerse cargo de una nena de un año, hija de una pareja 
de amigos que mueren en un accidente. Una comedia dramática con muchos guiños 
para los padres recientes. Los que no son padres o ya se olvidaron lo que implicaba 
 44 | P á g i n a  
 
quizá no se rían tanto, pero para el resto la recomiendo. Un chiste tonto sobre los 
percentiles, por ejemplo, me pareció super gracioso. Al lado mío, dos chicas no madres 
se  miraron  sin  entender.  Con  toda  lógica.  El  percentil  es  como  la  FUM,  palabras  y 
siglas que vienen con la maternidad. Una vez que quedás embarazada, la Fecha de tu 
Última  Menstruación  (FUM)  pasa  a  ser  un  hito  en  tu  vida  porque  ante  cualquier 
consulta, ecografía o práctica te la piden. Y los percentiles vienen despacito, aparecen 
primero  en  los  informes  de  las  ecografías  y  después,  !  zas!,  resultan  ser  parte 
indispensable de la visita al pediatra. 
Esas  benditas  tablas  que  existen  para,  supuestamente,  contarte  si  tu  bebé 
crece a un ritmo normal. Lo de “normal” es totalmente debatible. ¿Acaso si tu hijo es 
un flacucho al que se le caen todos los pantalones que le comprás no es normal? ¿Es 
definitivamente anormal que un bebote tenga peso de más y se acumule en mejillas 
que todos quieren pellizcar? 
El peso siempre es un tema, tenga la edad que se tenga. Y si se es mujer, un 
poco peor. En el caso de los chicos, cada visita al pediatra se mide peso y altura. Esos 
dos índices te ubican al bebés en tablas y ahí te enterás de si tu bebé es percentil 90 
ó 25, por ejemplo. Si es 25 en peso, implica que de 100 chicos de su misma edad 75 
son más gordos. Si es 60 en altura, implica que sólo 40 son más altos. No están mal 
los percentiles, son muy útiles, por ejemplo, cuando se combate tanto la desnutrición 
como la obesidad. Pero fuera de esos extremos, ¿sirven realmente para algo?  Es que 
terminás escuchando ridículas conversaciones entre madres competitivas. “Mi beba 
está en el percentil 30 del peso”, le dice una a la otra, como si su chiquita de tres meses 
estuviera lista para la pasarela por el número que le dio el pediatra. “Ah, pero el mío 
viene en el 85 de altura”. Sí, sí, todo un Ginóbili, seguro. Pero lo peor no son quizá las 
que usan los percentiles para alabar a sus hijos (después de todo, cualquier excusa es 
buena para hablar bien de tus retoños una vez que te convertís en madre). Lo peor, 
creo, son las que se obsesionan. Las que acortan las visitas al médico simplemente 
para confirmar que el nene está en tal o cual puntito. Me da ganas de contarles que 
yo era 90 en altura durante mi infancia, sí, última de la fila hasta cuarto grado y que 
luego el destino revirtió la tendencia: ahora sólo llego al 90 si me subo a tremendos 
tacos. Y adivinen qué: soy feliz igual. 
                                                                                              P á g i n a  | 45 

Para las chusmas, que quieran saber más (pero please, no se obsesionen!) les 
paso un link a un sitio de bebés que tiene tablas de crecimiento del nacimiento al año.  
 

4.7 MEDIDAS DE DISPERSIÓN 
 
 
Las medidas de tendencia central reducen la información de una muestra a 
un único valor, pero, en algunos casos, este valor estará más próximo a la realidad de 
las observaciones que en otros. Por ejemplo, consideremos la variable  0,50,100 
y la variable  49,50. Enseguida podemos ver que las medias aritméticas de ambas 
variables son iguales  50 , pero también que la variable   está más dispersa (o menos 
concentrada) que la variable  , de manera que la representatividad de   es mayor 
que la de  ̅ . 
A continuación se estudian una serie de medidas que, por una parte, indicarán 
el nivel de concentración de los datos que se están analizando y, por otra, informarán 
sobre la bondad de los promedios calculados como representativos del conjunto de 
datos. 
 
4.7.1 La varianza y desviación típica 
La varianza y su raíz cuadrada positiva, la desviación típica, son las medidas 
de  dispersión  más  importantes,  estando  íntimamente  ligadas  a  la  media  como 
medida de representación de ésta. La varianza viene dada por la expresión:    
̅ ̅ ... ̅ 1
̅ . 

El motivo de utilizar esta fórmula es que es la media aritmética de la variable 
cuyos valores son  ̅ . Es decir, estamos considerando las distancias entre los 
datos y la media aritmética, y las promediamos (fijémonos en la Figura 4‐11). 
Si las distancias entre los datos y la media, en general, son grandes, la media 
de estas distancias también lo será. Si las distancias entre los datos y la media, en 
general, son pequeñas, la media de las distancias también lo será. Ahora bien, las 
distancias  ̅   las  elevamos  al  cuadrado  para  evitar  que  se  compensen  las 
 46 | P á g i n a  
 
distancias  positivas  y  negativas  (según  que  los  datos    estén  a  la  izquierda  de  la 
media  o  a  la  derecha).  Realmente,  puede  demostrarse  que,  si  no  lo  hacemos,  y 
considerásemos el promedio  ∑ ̅ , siempre se obtiene el valor cero. 

 
Figura 4‐11 

Debido a que la varianza viene expresada en las unidades de la variable, pero 
elevadas al cuadrado, se define la desviación típica como la raiz cuadrada con signo 
positivo de la varianza  √ . La desviación típica ya aparece expresada en las 
mismas unidades que la variable. 

4.7.2 División por n‐1 
En muchos programas estadísticos (como el R o el SPSS) la varianza se calcula 
dividiendo por  1 en vez de por  .   
1
̅ . 
1

El motivo es de tipo teórico, puesto que si los datos son observaciones de una 
variable aleatoria (a definir en capítulos posteriores), este último valor representa 
mejor a la varianza teórica de la variable (no os preocupéis por entender este detalle 
en  este  preciso  momento).  En  cualquier  caso,  si    es  un  número  relativamente 
grande,  los  valores  que  se  obtienen  diviendo  entre    o  1  son  prácticamente 
iguales. También, en muchas ocasiones, al valor  √  (donde se divide por 
1 se le llama desviación estándar. 
                                                                                              P á g i n a  | 47 

En las calculadoras que hacen cálculos estadísticos suele existir un botón con 
el símbolo   (o algo parecido), y otro botón con el símbolo  1 , indicando 
que el primero calcula la varianza dividiendo por  , y el segundo dividiendo por 
1. La propia calculadora de Windows los tiene. 
 
 
Nota 4-6 Tanto la varianza como la desviación típica son siempre positivas, y
valen cero sólo en el caso de que todos los valores coincidan con la media
(representatividad absoluta de la media).

Ejemplo 4-18 Para 0,50,100 e 49,50 tenemos que ̅ 50, pero

  1666.67 ⇒ 40.82. 

  1 2500 ⇒ 50. 

  1⇒ 1. 

  1 2⇒ 1.4142. 
Como vemos, las medias aritméticas de las variables coinciden, pero la
representatividad de la media es más alta en el caso de la variable , porque
los valores están mucho más próximos entre sí (y más próximos a la media),
que en el caso de la variable . El hecho de dividir por o por 1 tiene poca
importancia cuando se trata de comparar la dispersión de 2 variables, puesto
que el valor realmente no nos importa, sino que la dispersión de una variable
sea mayor o menor que la otra.

 
Características de la varianza.  
     1.  Si se le suma una constante a una variable, la varianza de la nueva 
variable  no  cambia  (porque  la  distancia  de  los  datos  a  la  media  sigue  siendo  la 
misma:  
̅ ̅ . 
 48 | P á g i n a  
 
    2.  Si se multiplica una variable por una constante, la varianza de la nueva 
variable  es  igual  a  la  de  la  antigua  multiplicada  por  la  constante  al  cuadrado  (al 
multiplicar  los  datos,  multiplicamos  la  dispersión.  Pensemos  por  ejemplo  en 
X=10,20,30, e Y=2X=20,40,60. Hemos multiplicado por 2 la distancia entre los datos). 
Estas dos propiedades pueden resumirse en la siguiente expresión: 

Y aX b ⇒ S a S ⇒ S aS . 

Ejemplo 4-19 Dada la variable con media ̅ 12 y desviación típica 7,


la variable 3 4 tendrá de media y desviación típica: 3 ̅ 4
3 ⋅ 12 4 32 3 ⋅ 9⋅7 441 ⇒ 21.
 
 

 
 

4.7.3 Otras medidas de dispersión. 
 
Recorrido, Amplitud o Rango. 
                                                                                              P á g i n a  | 49 

Se define como la diferencia entre el mayor y el menor de los valores. Tiene 
la  ventaja  de  que  es  fácil  de  calcular,  aunque  cuando  hay  valores  aislados  en  las 
puntas o extremos de la distribución, da una visión distorsionada de la dispersión de 
ésta. 
  Recorrido . 
 
Recorrido intercuartílico.  
Viene dado por:  
  . 
( , son  el  tercer  y  primer  cuartil,  respectivamente.  Es  una  medida 
adecuada para el caso en que se desee que determinadas observaciones extremas no 
intervengan. Como inconveniente principal, pues que sólo intervienen el 50% de los 
valores centrales. 
Las expresiones que se acaban de ver miden la dispersión de la distribución 
en términos absolutos (vienen expresadas en las unidades de la variable, sean kilos, 
euros, metros cúbicos...). Se precisa definir, a partir de ellas, otras que hagan posible 
la comparación entre diferentes variables y que tengan en cuenta el tamaño de las 
observaciones. 
Obsérvese que la variable   formada por los elementos  0.1,0.2,0.3,0.4,0.5  
y la variable    1000.1,1000.2,1000.3,1000.4,1000.5  tienen la misma varianza 
(no necesitamos calcularlas: fijémonos que la segunda variable   es una constante 
más la primera: 1000 ). Sin embargo, es evidente que, en el primero de los 
casos, los elementos están muy dispersos y, en el segundo, bastante concentrados. 
Para evitar estas situaciones se estudia la siguiente medida. 
 
Coeficiente de variación.  
Se define como el cociente entre la desviación típica y el valor absoluto de la 
media.    


| ̅|
 50 | P á g i n a  
 
Se  suele  llamar,  en  ocasiones,  coeficiente  de  variación  de  Pearson,  por  el 
matemático inglés Karl Pearson (1857 – 1936). Se trata de una medida adimensional 
(no  tiene  unidades),  y  permite  comparar  la  dispersión  de  varias  distribuciones.  A 
mayor valor de  , menor representatividad de  ̅ , y viceversa.  
Nota: Si  ̅ 0, no se puede calcular. 
En general, se suele convenir en que valores de   menores a 0.1 indican una 
alta concentración, entre 0.1 y 0.5 una concentración media, y valores superiores a 
0.5 una alta dispersión y una media poco o nada representativa. 
En el ejemplo comentado (donde  =0.1,0.2,0.3,0.4,0.5 e   
1000.1,1000.2,1000.3,1000.4,1000.5  , tendríamos  0.14, pero 
0.14 0.14
0.46 y 0.00013. 
0.3 1000.3
 

 
 
                                                                                              P á g i n a  | 51 

Ejemplo 4-20 Consideremos dos variables e , tales que viene expresada


en metros e en centímetros, con medias y desviaciónes típicas:
  ̅ 10 1000 ; 2 200 . 
  10 ; 3. 
A primera vista, la variable está menos dispersa que la variable , si no
atendemos a las unidades. Si las tenemos en cuenta, sería al reves. En
cualquier caso, podría interesar comparar la dispersión de variables entre las
que no sea posible la conversión de unidades. Es por ello que debemos utilizar
para este caso medidas adimensionales, como el coeficiente de variación. Así,
tendríamos que
2 3
0.2 ; 0.3. 
10 10
 
Recorrido semiintercuartílico respecto a la mediana. 
Viene dado por   

que,  al  igual  que  la  anterior,  es  una  medida  adimensional,  con  las  ventajas  e 
inconvenientes mencionados para el recorrido intercuartílico. 
En  la  Figura  4‐12  tenemos  un  resumen  de  las  características  de  una 
distribución atendiendo a la dispersión de la misma. 
 

4.7.1 Desigualdad de Tchebychev 
 
Esta  desigualdad,  formulada  por  el  matemático  ruso  Pafnuti  Lvóvich 
Chebyshov  (1821  ‐  1894)  (y  cuyo  apellido  se  ha  escrito  de  todas  las  maneras 
imaginables  excepto  Chebyshov:  aparece  como  Tchebychev,  Tchebycheff, 
Schebyshev, y todas las variaciones que se nos ocurran) relaciona a la media y a la 
varianza y tiene la expresión:  
 52 | P á g i n a  
 

Figura 4‐12 

   
1
| ̅| 1 , 1. 

(que quiere decir que la frecuencia relativa del número de datos que están alrededor 
de la media   veces la desviación típica es siempre mayor o igual que la cantidad 1
. Esta  desigualdad  es  una  justificación  teórica  del  caracter  de  medida  de 
dispersión de la desviación típica   o  . Veamos, supongamos 3 valores concretos del 
número  (que tiene que ser mayor que 1), calculemos el valor de la derecha de la 
desigualdad, y pongamos lo que significa lo que está a la izquierda: 
1
2 1 0.75
1
3 1 0.88  
1
4 1 0.9375
                                                                                              P á g i n a  | 53 

2 | ̅| 2 0.75.
3 | ̅| 3 0.88.  
4 | ̅| 4 0.9375.
Tengamos presente que los datos  | ̅ | a  son los datos   que 
están  en  el  intervalo  de  centro  ̅   y  radio  a ,  es  decir  ̅ a , ̅ a . Así,  en  un 
intervalo  de  centro  la  media  y  radio  2  veces  la  desviación  típica  2   se 
encuentran, al menos, el 75 por ciento de los datos. 
En un intervalo de centro la media y radio 3 veces la desviación típica  3  
se encuentran, al menos, el 88 por ciento de los datos. 
En un intervalo de centro la media y radio 4 veces la desviación típica  4  
se encuentran, al menos, el 93.75 por ciento de los datos. 
Lo que vemos es que cualquier variable tiene que tener una agrupación de sus 
datos  alrededor  de  la  media  conforme  a  esta  desigualdad;  es  decir,  los  datos  no 
pueden  “hacer  lo  que  les  dé  la  gana”,  han  de  estar  concentrados  alrededor  de  la 
media según estos porcentajes, que están relacionados con la desviación típica.  
En la siguiente imagen vemos un histograma con los valores  ̅  y  ̅ 2  
marcados en el eje X. 

 
 54 | P á g i n a  
 
Ejemplo 4-21 Dada una distribución con media ̅ 25 y desviación típica
4, el intervalo ̅ 3 , ̅ 3 13,37 garantiza la presencia en su interior
de, al menos, el 88.88% de los datos.

Ejemplo 4-22 Un colegio lleva a una clase de la ESO al médico, para realizar
unos análisis de salud. El médico toma nota, entre otras variables, del peso
de los 50 chavales de la clase. El peso medio que obtiene es 45, y la
desviación típica es 6. Todos los chavales han ido con alguno de sus padres
excepto Marianito que ha ido con su abuela Antonia. La abuela, al ver que su
nieto pesa 1 kg menos que la media, le dice al médico que por qué no le receta
algunas vitaminitas que le den ganas de comer. El médico le dice a la abuela:
“Señora, el niño no está delgado, y mejor que haga ejercicio, que va sobrado
para su edad”. ¿Por qué es el médico así de grosero?

Solución.  
 Al  ser  ̅ 45  y  6,  en  el  intervalo  ̅ 3 , ̅ 3 45 18,45
18 = 27,63   están  el  88.88  por  ciento  de  los  datos.  Quiere  esto  decir  que,  sólo 
pesando un kilo menos que la media, el nieto de la señora Antonia esta con casi el 90 
por ciento del resto. Como parece lógico, la señora tiene el mal de las abuelas, que 
pasaron hambre en la posguerra, y les parece que todo el mundo come poco.  
 

4.8 MEDIDAS DE FORMA 

 
Ahora  nos  fijaremos  en  la  “forma”  de  la  distribución.  En  primer  lugar  se 
examina la simetría y, a continuación, el apuntamiento. 
 

4.8.1 Simetría 
Diremos que una distribución es simétrica respecto a un parámetro cuando 
los  valores  de  la  variable  equidistantes  de  dicho  parámetro  tienen  la  misma 
                                                                                              P á g i n a  | 55 

frecuencia. La simetría suele referirse a la simetría respecto de la media aritmética, o 
respecto de la mediana. 
Una distribución o variable es simétrica si, gráficamente, levantamos un eje o 
línea vertical sobre la media (o mediana, según el caso) y el dibujo a ambos lados de 
dicho eje es idéntico. La mayor parte de las veces, aunque no se indique, la simetría 
se refiere a simetría respecto a la media. 
Si  una  distribución  no  es  simétrica,  entonces  es  asimétrica,  y  la  asimetría 
puede presentarse: 
‐  a  la  derecha  (asimetría  positiva:  cola  de  la  distribución  más  larga  a  la 
derecha)  
‐  a  la  izquierda  (asimetría  negativa:  cola  de  la  distribución  más  larga  a  la 
izquierda). 

 
Los  coeficientes  de  simetría  son  valores  numéricos  que  indican  si  la 
distribución es simétrica y, caso de no serlo, la tendencia o signo de su asimetría. Uno 
de  los  coeficientes  de  simetría  más  utilizados  es  el  llamado  primer  coeficiente  de 
Fisher:   

siendo  
1
̅  

(media de las desviaciones a la media elevadas al cubo),  
 56 | P á g i n a  
 
y    la  desviación  típica.  Como  vemos,  es  una  medida  adimensional  (tanto  en  el 
numerador como en el denominador las unidades de la variable aparecen elevadas 
al  cubo,  por  lo  que  al  efectuar  la  división  no  hay  unidades),  y  esto  nos  permite 
comparar simetrías de distintas variables. Si una distribución es simétrica,  0. Si 
0  entonces  la  distribución  es  asimétrica  negativa,  y  si  0  entonces  es 
asimétrica positiva. 
Cuando  la  distribución  es  simétrica,  coinciden  la  media  y  la  mediana.  Si, 
además, la distribución tiene forma de campana5, ambas son iguales a la moda. 

Ejemplo 4-23 El peso de la población mayor de 18 años tiene una distribución


aproximadamente simétrica. Si seleccionamos una muestra representativa de
la población y realizamos un histograma, obtendremos uno parecido al de la
figura siguiente (Figura 4-13).

 
Figura 4‐13 

                                                       
5
 Nos referimos a la campana de Gauss, de la que hablaremos en un momento. 
                                                                                              P á g i n a  | 57 

Si ahora, de esa muestra, nos quedamos con los valores que sean más grandes 
(mayores  que  90  kilos;  llamémosles  “los  gordos”)  obtenemos  una  distribución 
asimétrica  a  la  derecha  y,  si  nos  quedamos  con  los  valores  de  la  gente  “delgada” 
(elegimos los valores menores que 55), obtenemos una distribución asimétrica a la 
izquierda (imágenes superior e inferior de la Figura 4‐14). 

 
Figura 4‐14 
 58 | P á g i n a  
 
Nota 4-7 Al igual que ocurría con la varianza, por mótivos técnicos, la
fórmula del coeficiente de asimetría puede variar, dependiendo del programa
estadístico que se utilice. Conviene siempre mirar el manual para tener clara la
fórmula. En todo caso, los valores deben ser parecidos, y lo más importante es el
signo (positivo para asimetría a la derecha y negativo al contrario), que no debe
depender del programa utilizado

Ejemplo 4-24 Con los datos del Ejemplo 4-5 vamos a realizar un estudio de
la simetría. El histograma con la media resaltada es el que aparece a
continuación.

Gráficamente, está claro que la variable no es simétrica, pero la asimetría no 
es grande. El valor del coeficiente   es  0.08 (lo hemos calculado en R, cargando 
antes el paquete fBasics, y después con la instrucción skewness(x)).  
 
                                                                                              P á g i n a  | 59 

 
 

4.8.2 Curtosis 
Las medidas de curtosis tratan de estudiar la distribución de frecuencias en la 
zona  central  de  la  distribución.  La  mayor  o  menor  concentración  de  frecuencias 
alrededor de la media dará lugar a una distribución más o menos apuntada. El grado 
de  apuntamiento  de  una  distribución  (que  sólo  se  examina  en  distribuciones 
simétricas o ligeramente asimétricas, y con un dibujo “parecido” al de una campana) 
se  calcula  a  través  del  coeficiente  de  apuntamiento  o  de  curtosis,  para  lo  cual  se 
compara  con  la  distribución  Normal,  que  se  tratará  en  otro  capítulo.  Se  puede 
adelantar,  no  obstante,  que  la  distribución  Normal  tiene  forma  de  campana  (la 
llamada “Campana de Gauss”) y que su estructura “probabilística” viene dada por la 
función  

1 ̅            (4‐2) 
 
√2
 

En esta fórmula,  ̅ es la media de los datos y   la desviación típica. La gráfica 


de esta función   (para  1 y  ̅ 0  es la que aparece a continuación. Muchas 
veces se dice que una variable o distribución   es más apuntada que la distribución 
Normal, o menos apuntada (o igual) que la distribución Normal. 
 60 | P á g i n a  
 
Para  estudiar  el  apuntamiento  se 
dibuja el histograma de la variable junto con la 
gráfica de la función (a la izquierda, la famosa 
campana de Gauss). De todas formas, al igual 
que  en  el  caso  de  la  simetría,  existe  un 
coeficiente numérico para medir la curtosis. El 
coeficiente de curtosis (segundo coeficiente de 
Fisher) toma la expresión:    
3, 

siendo   
1
̅ . 

Como  vemos,  el  coeficiente    es  adimensional,  con  lo  cual  sirve  para 
comparar  la  curtosis  de  diferentes  variables.  Cuando  dicho  coeficiente  vale  0, 
coincide con el de la  0,1 , y se dice que la distribución es mesocúrtica (o que la 
variable  tiene  el  mismo  apuntamiento  que  la  normal).  Si  es  menor  que  0,  la 
distribución  o  variable  correspondiente  se  dice  que  es  platicúrtica  (la  variable  es 
menos apuntada que la normal); y, si es mayor que 0, leptocúrtica (la variable es más 
apuntada  que  la  normal).  Las  diferentes  posibilidades  aparecen  reflejadas  en  el 
siguiente gráfico. 

 
Básicamente, el cálculo de la curtosis de una variable se utiliza para establecer 
una  comparación  con  la  variable  normal  que  tenga  la  misma  media  y  desviación 
típica.  El  objetivo  es  analizar  si  podemos  considerar  que  la  variable  en  estudio  es 
                                                                                              P á g i n a  | 61 

“aproximadamente  normal”.  En  el  capítulo  de  variables  aleatorias  se  ampliará  la 
información sobre las variables normales. Para un curso introductorio de estadística, 
como es nuestro caso, el tema de la curtosis tiene poca importancia. Repetimos que 
la  curtosis  sólo  tiene  interés  medirla  en  distribuciones  simétricas  o  ligeramente 
asimétricas, que “puedan parecerse” a la curva Normal o de Gauss. En la práctica, 
podemos encontrarnos con distribuciones cuyo histograma sea muy irregular y que, 
visualmente,  sea  de  imposible  comparación  con  dicha  curva.  En  estos  casos,  el 
coeficiente de curtosis   puede calcularse, pero no tendría interés práctico alguno. 
 

Nota 4-8 De nuevo es necesario indicar que la fórmula exacta del coeficiente
de curtosis puede variar según el programa utilizado, y puede ser alguna variación
del coeficiente aquí definido, por motivos puramente teóricos. Igual que ocurría con
el caso de la simetría, más que el valor nos interesa el signo.

Ejemplo 4-25 Con los datos del Ejemplo 4-5 realizar un estudio de la curtosis.

Gráficamente, intuimos que la forma es platicúrtica, mirando al histograma 
de frecuencias superpuesto con la curva normal. Calculando el coeficiente de curtosis 
con  R  (hay  que  cargar  el  paquete  fBasics  y  utilizar  la  instrucción  kurtosis(x))  se 
obtiene  ‐1.12. 
 
 

 
 62 | P á g i n a  
 

 
 

4.9 TRANSFORMACIONES 
 
En ocasiones, la variable en estudio puede presentar muchas irregularidades, 
como  asimetría  acentuada,  valores  muy  extremos,  etc.  En  otras  ocasiones,  se 
necesita  comparar  la  posición  de  dos  valores  pertenecientes  a  variables  con 
características  muy  diferentes.  En  estos  casos  es  recomendable  efectuar  una 
transformación  que  haga  más  regular  la  distribución  y,  por  tanto,  con  mejores 
condiciones  para  su  estudio.  Tiene  particular  importancia  la  tipificación  de  una 
variable. 

4.9.1 Normalización o tipificación 
Dada una variable   con media  ̅  y desviación típica  , la tipificación consiste 
en realizar la siguiente transformación:    
̅

                                                                                              P á g i n a  | 63 

A  la  nueva  variable    se  le  llama  variable  normalizada  o  tipificada,  y  tiene 
media  0  y  desviación  típica  1.  Desde  un  punto  de  vista  geométrico,  la  media  y  la 
desviación típica de una variable pueden considerarse como el centro de gravedad 
de la distribución y su escala, respectivamente. De esta forma, al tipificar distintas 
variables,  las  centramos  en  el  mismo  punto  y  las  dotamos  de  la  misma  escala. 
Además, los valores tipificados se convierten en datos adimensionales. Por todo lo 
anterior, la tipificación tiene la propiedad de hacer comparables valores individuales 
que  pertenecen  a  distintas  distribuciones,  aún  en  el  caso  de  que  éstas  vinieran 
expresadas en diferentes unidades. 

Ejemplo 4-26 Sea 3,14,17,24,24,53 . Obtenemos que ̅ 22.5 y


18.44. La variable (tipificada de ) toma los valores
3 22.5 14 22.5 17 22.5 24 22.5 24 22.5 53 22.5
, , , , , ,
18.44 18.44 18.44 18.44 18.44 18.44
es decir
1.05, 0.46, 0.29,0.081,0.081,1.65 .
 Se comprueba que  ̅ 0 y  1.  

Ejemplo 4-27 Eloísa trabaja en el Mercamona y gana 1000 al mes. En su


categoría laboral, la retribución media y desviación típica vienen dadas por:
̅ 800 y 25. Por otro lado, Guillermo Collarte (diputado) realizó unas
declaraciones en 2012 diciendo: “gano 5100 euros al mes y no llego a fin de
mes”. Si el salario medio de los diputados es 5000 al mes y 50, tanto
uno como el otro ganan salarios por encima de la media. Si se quiere
conocer cuál de los dos ocupa mejor posición relativa dentro de su
categoría, hay que tipificar sus sueldos:
1000 800
í 8,
25
mientras que
5100 5000
2.
50
En términos absolutos, el diputado gana más que Eloísa. Sin embargo, en
relación al conjunto de los empleados de cada categoría, la empleada de
Mercamona ocupa mejor posición. Es grandioso el espíritu de sacrificio de
 64 | P á g i n a  
 
aquellos diputados que, ganando tan poco (según ellos) siguen en su
puesto, sacrificándose por el país.
 
 

4.10 ANÁLISIS EXPLORATORIO DE DATOS 
 
El  análisis  exploratorio  de  datos  está  formado  por  un  conjunto  de  técnicas 
estadísticas,  fundamentalmente  gráficas,  que  pretenden  dar  una  visión  simple  e 
intuitiva de las principales características de la distribución en estudio. Puede ser un 
fin por sí mismo o, generalmente, una primera etapa de un estudio más completo. 
Como aspectos más destacables que abarca están los que se refieren a la forma de la 
distribución y a la detección de valores anómalos (datos extraños comparados con el 
conjunto).  Evidentemente,  las  técnicas  de  representación  gráfica  que  hemos  visto 
constituyen parte del análisis exploratorio de datos. 
 

4.10.1 Diagrama de tallo y hojas 
El diagrama de tallo y hojas (Stem & Leaf)  es una representación semigráfica 
donde se muestra el rango y distribución de los datos, la simetría y si hay candidatos 
a  valores  atípicos  (valores  muy  extremos  o  incluso  errores).  Su  uso  sólo  es 
recomendable siempre que el número de datos no sea muy grande (sobre 50). Para 
construirlo  basta  separar  en  cada  dato  el  último(s)  dígito(s)  de  la  derecha  (que 
constituye la hoja) del bloque de cifras restantes (que formará el tallo). 
Este tipo de diagrama se popularizó en los años 80 a partir de la publicación 
del libro “Exploratory data analysis” del estadístico John Tukey (1915 ‐ 2000), por su 
facilidad  para  hacerse  a  mano,  o  rápidamente  con  las  computadoras  de  aquella 
época. Actualmente, dada la capacidad gráfica de los ordenadores, se utiliza poco. 
 

Ejemplo 4-28 Unos adolescentes anotan, desde la ventana de su casa, la


edad de las mujeres que pasan por delante, tratando de hacer una
estimación de posibles “víctimas”:
24 17 10 14 19 21 25 41 12 24 10 34 34 45 59 51 78.
                                                                                              P á g i n a  | 65 

En el diagrama de tallo y hojas se representa el primer dígito de los datos a


la izquierda de la barra de separación y el segundo a la derecha.
1ǁ 002479
2ǁ 1445
3ǁ 44
4ǁ 5
5ǁ 19
7ǁ 8
De esta forma vemos rápidamente que la mayoría de las mujeres son del
rango 10-30 años. Es un diagrama “del estilo” de un histograma o diagrama
de barras, pero colocado en horizontal. Cuenta además con la ventaja de tener
los datos sobre la propia gráfica.

 
Como curiosidad, en la siguiente fotografía podemos ver un diagrama de este 
tipo en una estación de tren japonesa (fuente: Wikipedia). En el diagrama de tallo y 
hojas se representan los dígitos de la hora a la izquierda (la columna en negro) y a la 
derecha los minutos. La mayor o menor frecuencia de paradas se deduce fácilmente 
de la longitud de las filas y es, además, muy fácil ver en qué minutos de cada hora 
paran los autobuses, y hacer comparaciones.  

 
 66 | P á g i n a  
 
 

4.10.2 Diagrama de caja (box‐plot) 
Los diagramas de caja (box‐plot) o diagramas de caja y bigotes (box‐whisker) 
son  representaciones  gráficas  sencillas  que  no  necesitan  un  número  elevado  de 
valores  para  su  construcción.  Se  utilizan  para  estudiar  tanto  la  dispersión  como  la 
forma de una variable. Asimismo, son especialmente útiles para comparar distintas 
distribuciones entre sí. 
Como dice  su nombre, constan de una caja, donde la misma representa el 
50% central de la distribución (va de   o primer cuartil a   o tercer cuartil), y la 
línea situada en el interior de la caja es la mediana (Figura 4‐15).  
Los  extremos  inferiores  y  superiores  de  los  segmentos  (también  llamados 
bigotes)  delimitan  lo  que  se  denomina  como  valores  “normales”,  y  coinciden, 
respectivamente,  con  el  mínimo  y  el  máximo  de  los  valores  una  vez  excluidos  los 
candidatos a valores anómalos. Los candidatos a valores anómalos se etiquetan como 
atípicos y coinciden con aquellas observaciones que se encuentran fuera del intervalo 
, , donde:  
1.5  
1.5 , 
es decir, a una distancia de  , por la izquierda, o de  , por la derecha, superior a 
una vez y media el recorrido intercuartílico ( . En este caso se llaman 
atípicos de primer nivel. Cuando la distancia, por uno de los dos lados, es superior a 
tres recorridos intercuartílicos, el valor atípico se denomina de segundo nivel, o dato 
extremo. 
Los  valores  atípicos  de  primer  y  segundo  nivel  quedan  normalmente 
identificados en el diagrama de cajas por símbolos diferenciados ( ,  , ⋅), debiendo 
considerarse  la  revisión  de  los  mismos  (pueden  corresponder  a  mediciones  mal 
efectuadas) para posible depuración antes del análisis de los datos. El resumen de las 
características observables en un diagrama de caja aparece en la Figura 4‐15. 
                                                                                              P á g i n a  | 67 

 
Figura 4‐15 

 
Dato anómalo: hay que revisar si se ha introducido por error, se ha observado 
mal, lo han hecho a propósito, etc.  
 68 | P á g i n a  
 
Ejemplo 4-29 Con los datos del Ejemplo 4-5 vamos a realizar un diagrama de
caja y bigotes (boxplot), que vemos a continuación. En el gráfico podemos ver
que existe una muy ligera asimetría a la izquierda (la cola es más larga a la
izquierda), algo que comprobamos anteriormente. Entre los valores 65 y 70 se
encuentra el 50 por ciento central de la distribución. No hay valores atípicos
en este caso concreto.

 
 

Ejemplo 4-30 En la siguienta tabla se han recogido las edades que tenían los
actores y actrices que ganaron el Oscar a la mejor interpretación, en todos los
años de existencia de dichos premios (1929-2013). En la tabla aparece, por
orden cronólogico, la edad que tenía la actriz (actor) que ganó el Oscar en la
primera celebración de los premios, y sucesivamente hasta la actualidad (los
datos se encuentran en el fichero edades-oscar.csv).
Actrices: 22 37 28 63 32 26 31 27 27 28 30 26 29 24 38 25 29 41 30 35 35 33
29 38 54 24 25 46 41 28 40 39 29 27 31 38 29 25 35 60 43 35 34 34 27 37
42 41 36 32 41 33 31 74 33 50 38 61 21 41 26 80 42 29 33 35 45 49 39 34 26
25 33 35 35 28 30 29 61 32 33 45 28 62 22
Actores: 44 41 62 52 41 34 34 52 41 37 38 34 32 40 43 56 41 39 49 57 41
38 42 52 51 35 30 39 41 44 49 35 47 31 47 37 57 42 45 42 44 62 43 42 48
49 56 38 60 30 40 42 36 76 39 53 45 36 62 43 51 32 42 54 52 37 38 32 45
60 46 40 36 47 29 43 37 38 45 50 48 60 50 39 55
                                                                                              P á g i n a  | 69 

Realizar un análisis exploratorio de los datos y ver si existen diferencias


entre las edades de actores y actrices ganadores de premio.

Solución. 
Primero realizamos un box‐plot de las variables.   

 
Comprobamos que el box‐plot es un instrumento gráfico muy efectivo para 
comparar dos variables. La mediana de edad (la barra dentro de las cajas)  es más alta 
para los actores que para las actrices. Este hecho seguramente está amparado por la 
queja  mayoritaria  entre  las  actrices  de  Hollywood,  que  señalan  que  escasean  los 
buenos papeles para actrices mayores de 40. En el gráfico vemos que los valores de 
edad altos son atípicos para la variable de las actrices, mientras que sólo hay un dato 
atípico en el caso de los hombres. En el box‐plot se visualiza también con gran claridad 
la simetría o asimetría de una distribución, pues vemos que ambas son más largas 
hacia  la  derecha  que  hacia  la  izquierda.  En  contrapartida,  la  mayor  agrupación  de 
datos  se  da  a  la  izquierda  (la  mayoría  de  los  Oscar  se  consiguen  a  edades  no 
demasiado  altas).  El  análisis  puede  complementarse  por  medio  del  histograma  de 
ambas variables, donde señalamos la media y la mediana que, como apreciamos, son 
muy similares.  
 
 
 70 | P á g i n a  
 
 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
                                                                                              P á g i n a  | 71 

 
 
 

  Pregunta de repaso: 
 

 
 
 
 
 
 
 
 72 | P á g i n a  
 
 
   
                                                                                              P á g i n a  | 73 

5 ANÁLISIS CONJUNTO DE VARIABLES 
 
 Las estadísticas son como los bikinis. Te permiten ver mucho y te ocultan lo 
más importante. 
Aaron Levenstein.  
 
En el capítulo anterior se ha considerado el estudio de un único carácter o 
variable.  Sin  embargo,  es  frecuente  estudiar  conjuntamente  varios  caracteres  y 
preguntarse si existe o no algún tipo de relación entre ellos. Este capítulo se dedica 
al  estudio  de  la  relación  entre  dos  caracteres.  Comenzamos  con  la  organización  y 
resumen  de  la  información,  siguiendo  un  esquema  análogo  al  establecido  en  el 
capítulo  anterior,  y  concluímos  con  el  estudio  de  la  relación  entre  ambos. 
Habitualmente, cuando se tiene una muestra de una población, si es posible y no 
resulta especialmente costoso, se observan varias variables y/o atributos (cuanta 

más información se pueda obtener, siempre es mejor). En un análisis de sangre, se 
miden  varios  niveles;  si  se  elige  una  muestra  de  personas  para  una  encuesta, 
normalmente  se  le  realizan  varias  preguntas,  etc.  A  continuación,  resulta  lógico 
cuestionarse sobre qué grado de relación o dependencia existe entre las variables 
analizadas: ¿hay relación entre la estatura y el peso?, ¿y entre el nivel de renta y el 
consumo (de drogas o no)?;  ¿entre la estadística y las mentiras?,  ¿la política y la 
 74 | P á g i n a  
 
corrupción?, ¿la ruina y los impuestos?,  ¿la pesadez de una película y el número de 
premios en festivales europeos?... 
 

5.1 DISTRIBUCIÓN CONJUNTA DE DOS CARACTERES 

 
Cuando el investigador está interesado en el estudio de dos caracteres de una 
población,  se  obtienen  dos  observaciones  para  cada  individuo,  que  se  recogen  en 
forma de pares de valores, y deben organizarse en función de la naturaleza de dichos 
caracteres. A partir de ahora, trabajaremos con un par de variables  ,  de interés, 
medidas en   individuos (si en algún caso nos referimos a atributos, supondremos 
que  le  hemos  asignado  un  valor  numérico).  En  vez  de  disponer  de    valores, 
tendremos pares de valores  , ,..., ,  (que podrán repetirse o no). La 
variable  ,  es una variable estadística bidimensional. Si tuvieramos, en general, 
 variables, la variable conjunta se llamaría  dimensional. 
 

Nota 5-1 En muchos textos y apuntes se realiza una primera clasificación, o


resumen de los datos, en forma de tabla de doble entrada (ver imagen siguiente),
indicando en vertical los valores de , en horizontal los valores de , y por cada par
, se introduce en la posición , la frecuencia de dicho par. Esta representación
resulta, actualmente, bastante desfasada, puesto que la manera de trabajar con datos en
cualquier programa estadístico es por medio de una tabla con columnas, donde cada
columna representa una variable (Excel, R, SPSS, Statgraphics... )
                                                                                              P á g i n a  | 75 

Izquierda: Tabla de doble entrada (útil sólo si hay pocos valores de x e y pero 
que  se  repiten).  Derecha:  tabla  habitual  en  los  programas  estadísticos,  con  una 
variable por columna, con tantas filas como sea necesario.

 
 

5.2 REPRESENTACIONES GRÁFICAS 

5.2.1 Representaciones 3D 
 
Si  ambas  variables    e    son  cuantitativas  discretas,  se  puede  realizar  un 
diagrama de barras en tres dimensiones. Si ambas variables   e   son cuantitativas 
continuas, el histograma visto para una variable puede generalizarse para este caso, 
y obtener una representación tridimensional. En ambos casos se levanta una barra 
de altura la frecuencia (absoluta o relativa). Ahora, la barra, en vez de corresponder 
a un valor   concreto, será del par  ,  (esto para el diagrama de barras). En el 
caso  del  histograma  3d  tendremos  que  la  altura  de  la  barra  será  proporcional  al 
número de datos del rectángulo cuyos lados son  , , (en donde los 
 76 | P á g i n a  
 
intervalos  ,  corresponden a la clasificación de la variable   en intervalos, y 
los  ,  a la clasificación de la variable  . El sentido de las gráficas es tan simple 
como en el caso unidimensional. Cuantos más datos hay en una cuadrícula, se levanta 
un prisma rectangular más grande. 

5.2.2 Diagrama de dispersión o nube de puntos 
Si ambas variables   e   son numéricas, la representación de los pares  ,  
en un plano recibe el nombre de nube de puntos o, también, diagrama de dispersión. 

Figura 5‐1 
                                                                                              P á g i n a  | 77 

En la Figura 5‐1 dibujamos los valores correspondientes a las variables  =“muertes
por cirrosis” frente a  =“consumo de alcohol (per cápita)” del fichero datos-consumo-
alcohol.txt  (fichero  que  contiene  datos  de  varias  poblaciones,  consumo  de  vino  y 
licores, y muerte por cirrosis. Obtenido de los libros de Spaeth [13] y Brownlee [2]. Se 
puede  consultar  más  información  en  el  fichero  informacion-datos-consumo-
alcohol.txt). 
 

Nota 5-2 En la columna izquierda de la Figura 5-5, aparece la sintaxis para


leer el fichero de datos y dibujar la nube de puntos de la Figura 5-1. El fichero de
datos debe descargarse en nuestro ordenador en el mismo directorio o carpeta donde
estemos trabajando con R (donde guardemos los ficheros de sintaxis). Estas
instrucciones también están en el fichero sintaxis-r, que puede descargarse de la
página alejandroquintela.com/libro_teoria/sintaxis_r

 
El punto que viene determinado por la media de   y la media de   constituye 
el centro de gravedad de la nube de puntos (Figura 5‐2). Como podemos observar en 
el diagrama de dispersión, cuando la variable   (consumo de alcohol) crece, parece 
que también crece la variable   (muerte por cirrosis). La verdad o no de tal relación 

Figura 5‐2 
 78 | P á g i n a  
 
es lo que pretendemos estudiar, así como la forma de medir matemáticamente la 
misma. 
 

5.2.3 Covarianza. Correlación lineal 
La covarianza viene dada por la expresión   
1
̅ . 

 es una medida simétrica (porque es igual a   y se puede leer como la 
suma  de  los  productos  de  las  desviaciones  de    por  las  desviaciones  de    con 
respecto a sus respectivas medias. Si el signo de la desviación de   coincide con la de 
,  como  ocurre  en  el  primer  y  tercer  cuadrante  (ver  Figura  5‐2),  se  genera  un 
sumando  positivo;  y  cuando  el  signo  es  distinto  ‐segundo  y  cuarto  cuadrante‐  la 
aportación a la covarianza es negativa. 
 Veamos: por primer cuadrante entendemos los puntos  ,  donde  ̅ 
e  .  Por tercer cuadrante los puntos  ,  donde  ̅  e  . 
Por segundo cuadrante los puntos  ,  donde  ̅  e  , y por cuarto 
cuadrante los puntos  ,  donde  ̅  e  . 
Entonces,  en  el  primer  y  tercer  cuadrante  ̅   siempre  es  un 
número mayor o igual a cero, en cambio en el segundo y cuarto cuadrante, 
̅  siempre es un número menor o igual a cero. 
Por  lo  tanto,  la  concentración  de  valores  en  los  distintos  cuadrantes 
determina el signo y el valor de  . La covarianza mide, pues, la cantidad de relación 
lineal entre las variables y el sentido de ésta, de la forma:   
0, relación lineal positiva si crece una variable, la otra también .  
0, relación lineal negativa si crece una variable, la otra decrece . 

  0, no hay relación lineal entre las variables. 

De la simple observación de la nube de puntos podemos deducir que existe 
una relación lineal positiva entre las dos variables; esto es, si crece el consumo de 
alcohol,  crece  el  porcentaje  de  fallecimientos.  También  vemos  que  esa  relación 
                                                                                              P á g i n a  | 79 

podría  venir  caracterizada,  matemáticamente,  mediante  una  linea  recta.  Si 


calculamos  la  covarianza    nos  dará  un  número  positivo  (en  este  caso, 
137.055; se puede calcular en R con la orden cov(x,y)). De todas formas, el número 
que resulte es de dificil interpretación, puesto que depende de las unidades en que 
vengan expresadas las variables. Es por ello que, en vez de trabajar con la covarianza, 
se  trabaja  con  el  llamado  coeficiente  de  correlación  (o  coeficiente  de  correlación 
lineal de Pearson) (sí, es el mismo Pearson del que hablamos en el capítulo anterior, 
que no solía perderse ningún botellón estadístico). 
 

5.2.4 Coeficiente de correlación de Pearson 
El  coeficiente  de  correlación  lineal  o  coeficiente  de  correlación  de  Pearson  
viene dado por    

que es una medida adimensional, siempre toma valores en el intervalo  ,  y 
tiene el signo de   Por lo tanto, se verifica: 

‐ cuando la relación lineal entre   e   es exacta y directa, es decir, todos los 


puntos se encuentran sobre una recta con pendiente positiva,   vale 1. 
‐ cuando la relación lineal es exacta e inversa, es decir, todos los puntos se 
encuentran sobre una recta con pendiente negativa,  vale  1. 
‐ los valores intermedios (0 1  o   1 0  darán lugar a que los 
puntos se aproximen más o menos a una recta que pasa por el medio de los mismos. 
‐ cuando no hay relación lineal,   vale 0. 
 
 
 
 80 | P á g i n a  
 
Este  último  caso  se  llama  incorrelación,  y  se  dice  que  las  variables  están 
incorreladas. Los distintos casos aparecen representados en esta imagen: 

 
Al cuadrado de   se le llama coeficiente de determinación, y se le denota por 
. Lógicamente, se verifica   
0 1,  
y, cuánto más próximo esté  a  1, mayor es la relación lineal existente entre las 
variables, y menor cuanto más próximo esté  a 0.  
Se  concluye  este  apartado    indicando  que  la  independencia  implica  incorrelación, 
pero el recíproco no siempre es cierto (ver el Ejemplo 5‐1). 
                                                                                              P á g i n a  | 81 

 
 82 | P á g i n a  
 
 

Ejemplo 5-1 Las variables e de las siguiente distribuciones:


a) 0 1 1
1 0 0
y
b) 2 1 0 1 2
    8   5   4    5    8  
están incorreladas, pero no son independientes; es más, existe una relación
funcional entre ellas. En efecto, los puntos de la variable bidimensional del
caso a) son puntos de una circunferencia de fórmula 1 (las estrellas
encima de Chávez, en el caso de incorrelación). En el caso b), las variables
cumplen la relación 4. Esto quiere decir que, en ambos casos, existe
una relación entre e (si sabemos el valor de , obtenemos directamente
el de ), pero esta relación no es de tipo lineal. En este texto únicamente
estudiaremos la posible relación de tipo lineal entre dos variables.

5.3 AJUSTE Y REGRESIÓN BIDIMENSIONAL 

 
Considerada  una  serie  estadística  , ,…, , ,  procedente  de  una 
distribución  , , el problema que se denomina ajuste de una nube de puntos o 
regresión  bidimensional  consiste  en  encontrar  alguna  relación  que  exprese  los 
valores de una variable en función de los de la otra. La cuestión será elegir la mejor 
función, y determinar los parámetros (fórmula) de la misma. Esta relación podrá ser 
utilizada, posteriormente, para hacer predicciones aproximadas; por ejemplo, para 
hacer previsiones de ventas a corto o medio plazo, estimar el volumen de cosecha en 
función de la lluvia caída, etc... 
La elección de la función particular que mejor se adapte a las variables es el 
primer problema que habrá que solventar. En un principio, la observación de la nube 
                                                                                              P á g i n a  | 83 

de  puntos  puede  dar  una  idea  de  la  evolución  de  los  valores  de  la  variable 
dependiente (a partir de ahora  ) en función de los de la independiente ( ). 
 

5.3.1 Caso lineal 
Sean  , , , ,⋯, ,  los valores observados, y supongamos que 
la nube de puntos nos indica que la función lineal (recta) puede ser una buena forma 
de  “ajustar  los  datos”.  Sea    la  recta  de  ajuste  de  los  valores  de    en 
función de los de  . Esta recta se llama recta de regresión, y sirve para “predecir”el 
valor de   para un valor nuevo de la variable  . 

Figura 5‐3 

 
Consideremos  otra  vez  el  ejemplo  de  la  sección  anterior  (   muertes  por 
cirrosis,    consumo  de  alcohol).  En  la  nube  de  puntos  intuímos  que  la  línea  recta 
podría ser un buen ajuste para los datos, y en la Figura 5‐3 vemos un ejemplo de tres 
posibles rectas que se “acercan” a la nube de puntos (obviamente podríamos dibujar 
muchas más). 
 84 | P á g i n a  
 
Para calcular la “mejor recta”, se utiliza el método de los mínimos cuadrados. 
Consiste en lo siguiente: para cada punto de la nube  ,  se considera el llamado 
residuo, que es la distancia entre dicho punto y su correspondiente en la recta, es 
decir  , , donde   es el valor predicho por la ecuación de la recta (ver  Figura 
5‐4). 

Figura 5‐4 

Ahora se considera la función de dos variables que mide la suma de todos los 
residuos para todos los puntos de la nube, elevados al cuadrado para evitar que se 
compensen residuos positivos con negativos:  

, . 

Los  parámetros    y    de  la  recta  se  obtendrán  como  aquellos  valores  que 
minimizan la función  . Matemáticamente, se consideran las derivadas parciales de 
esta función respecto de los parámetros   y   y se igualan a cero, para obtener los 
coeficientes de la recta. Formalmente, las fórmulas son:   

̅ , . 

Nota 5-3 Y de nuevo señalar que, salvo que algún malvado profesor lo solicite
expresamente, ni siquiera tenemos que saber que y se calculan con estas fórmulas,
puesto que cualquier software estadístico cutre salchichero, con pasarle los datos, nos
calcula la recta.
                                                                                              P á g i n a  | 85 

Ejemplo 5-2 Realizamos a continuación el cálculo, mediante el software R, de


la línea de regresión del ejemplo que estamos utilizando. A continuación
vemos el código R utilizado para dibujar la nube de puntos y la recta de
regresión (que es la de la Figura 5-4), además de obtener los resultados
numéricos, que son: 30.3347, 2.8617 y el coeficiente de determinación
0.7134. Se conviene que este número, multiplicado por cien, da el
porcentaje de relación entre las variables que puede explicarse mediante
la línea recta (un 71.34%).

Figura 5‐5 

 
 86 | P á g i n a  
 
Ejemplo 5-3 En la prestigiosa revista New England Journal of Medicine salió
publicado en 2012 un trabajo donde se estudió la relación existente entre la
obtención del premio nobel y el consumo de chocolate (Chocolate
Consumption, Cognitive Function, and Nobel Laureates. Franz H. Messerli,
M.D., N Engl J Med 2012; 367:1562-1564. October 18, 2012. DOI:
10.1056/NEJMon1211064).

Los puntos de las variables   e   aparecen dibujados en la Figura 5‐6, donde 


también aparece la recta de regresión y el valor del coeficiente de correlación lineal 
( 0.791  entre las variables  
= “consumo de chocolate anual (kg/per cápita)” e   =“número de premios nobel por
cada 10 millones de habitantes”.  
En la gráfica se ve claramente la existencia de una relación lineal positiva entre 
 e  . El coeficiente de correlación lineal de Pearson, con valor 0.791, cuantifica la 
cantidad de relación (alta pues se aproxima a 1). El estudio parece concluir que el 
consumir  chocolate  acentúa  el  desarrollo  neuronal  que  favorece  la  creación 
científica.  

Figura 5‐6 
                                                                                              P á g i n a  | 87 

Recomendamos  al  lector  leer  el  trabajo  completo  para  conocer  los  países 
evaluados y tomar una decisión propia sobre la validez o no de estas conclusiones.  

 
 

5.3.2 Problemas con la predicción 
La predicción usando una recta de regresión tiene claros problemas. Uno es 
el  de  la  extrapolación  (salirnos  de  los  límites  del  rango  de  valores  analizado).  Un 
ejemplo clásico es el de los récords humanos.  En la Figura 5‐7 aparece una gráfica de 
los récords mundiales en la competición de los 100 metros lisos (tiempo realizado 
frente al año de la carrera), junto con la recta de mínimos cuadrados (el valor que se 
obtiene para   es 0.94). El fichero de datos que puede bajarse de la web es record‐
100‐m.txt.  
Como sabemos, la marca mundial de los 100 metros lisos ha ido disminuyendo 
con el paso de los años. Si calculamos la recta de regresión que relacione  =“año” e 
=“tiempo récord para recorrer los 100 metros”, podríamos predecir cual sería el año 
 88 | P á g i n a  
 
en  que  se  llegaría  a  un  tiempo  de  0  segundos,  o  incluso  un  tiempo  negativo.  Es 
evidente  que  este  tipo  de  previsiones  no  tiene  sentido,  puesto  que  los  valores 
mínimos de   para los años actuales parece muy difícil rebajarlos. En Internet pueden 
encontrarse  estudios  de  cuál  es  la  función  más  adecuada  para  el  ajuste  de  estas 
variables, con el fin de obtener una posible predicción dentro de límites razonables.  

 
Figura 5‐7 

5.3.3 Otros ajustes 
A  través  del  dibujo  de  la  nube  de  puntos  podemos,  en  muchas  ocasiones, 
intuir que existirán mejores funciones que la línea recta (que es la más sencilla de 
todas) para explicar la variable   en función de la variable  . El proceso de elegir la 
mejor  función  no  tiene  por  qué  ser  sencillo  ni  simple.  Debemos  tener  también  en 
cuenta que quizá no haya una única variable   influyendo en la variable  , sino que 
pueden  existir  diferentes  variables  explicativas  , , . . . ,   que  sean  necesarias 
para poder establecer predicciones de la variable   de interés. Si se dispone de una 
gráfica como la de la Figura 5‐8, la nube de puntos no da la idea de ajustar una recta 
                                                                                              P á g i n a  | 89 

a la misma, sino una función más variable; un polinomio, tal vez, pero no es fácil de 
intuir a simple vista. 

Figura 5‐8 

El  problema  de  la  regresión  puede  complicarse  notablemente,  y  existen 


muchos  textos  con  los  procedimientos  analíticos  necesarios  para  una  resolución 
completa,  que  se  escapan  totalmente  del  ámbito  de  este  texto.  Únicamente 
comentaremos  que,  utilizando  el  método  de  los  mínimos  cuadrados,  se  pueden 
ajustar muchos otros tipos de funciones a una nube de puntos, y también se pueden 
calcular  coeficientes  que  nos  midan  la  calidad  del  ajuste  de  la  curva  a  los  puntos 
(similares al coeficiente de determinación, que también suelen denotarse como   y 
varían entre 0 y 1, siendo tanto mejor el ajuste cuanto más se aproxime   a 1). A 
continuación,  vemos  algunos  ejemplos,  sólo  a  titulo  de  muestra.  Para  ampliar 
bastante más todos estos conceptos puede consultarse el texto de Wackerly [16], y 
un libro muy completo pero también bastante avanzado que recomendamos es el de 
Draper y Smith [4]. 
 

Ejemplo 5-4 Con el éxito creciente de la franquicia “A todo gas (Fast &
Furious)”, cantidades ingentes de idiotas se están lanzando a hacer carreras
de coches e imitar lo que ven en las películas, creyendo que son escenas
reales. Después del rodaje de la sexta película en las islas Canarias, un
fisioterapeuta local está comprobando que su negocio crece día a día. A través
 90 | P á g i n a  
 
de las variables =“número de accidentados por hacer gansadas, que acuden a su
clínica” e =“ganancias en euros”, se está planteando contratar personal nuevo,
puesto que las ganancias, lógicamente crecientes en función del número de
lesionados, parecen no sólo regirse por una relación de tipo lineal creciente,
sino incluso parabólica. Los datos que tiene en el ordenador, para cada una
de las variables antes mencionadas, son:
X 2 4 7 10 14 18 24 27 30 32 35 36 39 41 43 45 47 50
Y 612 2256 1665 2830 3386 8096 8173 10381 10982 12037 14001
14657 13517 15057 17210 15642 17881 18154
Comprobar si una relación de tipo parabólico entre las variables podría darle
un mejor nivel de predicción de ganancias que una relación simplemente
lineal.

Solución. 
 Puede  verse  en  la  Figura  5‐9  la  nube  de  puntos,  junto  con  la  línea  recta 
ajustada  por  mínimos  cuadrados,  además  de  una  parábola  (  
ajustada también mediante el mismo método. El coeficiente   en ambos casos es 
parecido (0.97 el lineal y 0.91 el parabólico), por lo que, en principio elegiríamos como 

Figura 5‐9 
                                                                                              P á g i n a  | 91 

más adecuado el ajuste lineal, pero quizá sería interesante disponer de más datos 
para discriminar cuál podría ofrecer mejor ajuste y mejor predicción. 
 

Ejemplo 5-5 En el archivo de datos "50-peliculas-mas-taquilleras.xls" (o


recaudacion-pelis.txt) se encuentran los datos de las 50 películas más
taquilleras (fuente:Wikipedia, Abril 2013) de la historia, donde se considera el
presupuesto de la película y su recaudación (nota: no se incluyó la película “El
hobbit” por no haber terminado de exhibirse en el cine en el momento de
realizar este problema). En la siguiente tabla aparecen resumidas las
principales medidas estadísticas (expresadas en millones de dolares):
í á . í í
10.5 310 150 159.7 70.23 0.56 0.007  
ó 742 2782 893 982 357 13.31 3.48

Primero dibujamos los histogramas de ambas variables. 
 

 
 Compárese la poca asimetría de la variable presupuesto con la asimetría a la 
derecha de la variable recaudación, lo que significa que triunfan menos películas de 
las que los productores desearían. En la siguiente gráfica aparece la nube de puntos 
 92 | P á g i n a  
 
(señalamos las películas de mayor presupuesto y/o recaudación). Se ha calculado la 
recta de regresión y también una parábola, que aparecen representadas en la gráfica, 
y se recogen los valores de ajuste   (0.15 y 0.21, respectivamente), siendo los dos 
bajos, pero algo mejor el correspondiente a una parábola o polinomio de grado 2.  

Ejemplo 5-6 En una capital española se fue anotando el número de habitantes


que compraron un Ipad (variable y el número de incapacitados por enfermedad
psiquiátrica grave ( , durante una serie de meses.
   1350   1960   2270   2483   2730   3091   3647   4620   5497   6260   7012   
7618  
8 8 9 10 11 11 12 16 18 19 30 21
Calcular el coeficiente de determinación entre las dos variables en estudio, y
explicar el resultado.

Solución. 
                                                                                              P á g i n a  | 93 

Haciendo los cálculos, se obtiene que el coeficiente de determinación 
0.85. Se deja como ejercicio para el lector dibujar la nube de puntos y ver que se 
aprecia  un  buen  ajuste  por  medio  de  una  línea  recta  creciente,  esto  es,  crece  el 
número de IPad, crece el número de enfermos. 
Resulta  claro  que  se  trata  de  dos  variables  con  números  inventados  a 
propósito para que salga un valor alto de la correlación lineal. Evidentemente, puede 
ocurrir que se calcule este coeficiente para cualesquiera dos variables elegidas al azar 
y  se  obtenga  un  valor  alto,  pero  quien  haga  un  estudio  debe  preocuparse  de 
seleccionar variables que tenga sentido relacionar entre sí.  
 

 
 

5.4 OTROS ASPECTOS A TENER EN CUENTA  

 
 94 | P á g i n a  
 
Algunos  ejemplos  tomados  de  la  literatura  estadística  (resumidos  en  la 
wikipedia) dan idea de errores comunes y detalles que cualquier investigador debe 
considerar  siempre  que  relacione  dos  variables.  Los  siguientes  son  ejemplos  de 
conclusiones erróneas obtenidas de una mala interpretación de la correlación entre 
dos variables. 
‐ Dormir sin quitarse los zapatos tiene una alta correlación con despertarse 
con  dolor  de  cabeza.  Por  lo  tanto,  el  dormir  con  los  zapatos  puestos  ocasiona 
levantarse con dolor de cabeza. 
Este  resultado  mezcla  los  conceptos  de  correlación  y  causalidad,  porque 
concluye que dormir con los zapatos puestos provoca dolor de cabeza al levantarse. 
Hay un tercer factor que no se ha tenido en cuenta, que es que irse borracho a la 
cama provoca ambos efectos: no poder ni quitarse los zapatos y levantarse mareado. 
‐  Los  niños  pequeños  que  duermen  con  la  luz  encendida  son  mucho  más 
propensos a desarrollar miopía en la edad adulta. 
Esta  fue  la  conclusión  de  un  estudio  de  la  Universidad  de  Pennsylvania, 
publicado  en  1999  en  la  revista  Nature.  Un  estudio  posterior  de  la  Ohio  State 
University refutó esta teoría, y encontró una fuerte relación entre la miopía de los 
padres y el desarrollo de la miopía infantil, advirtiendo que los padres miopes tenían 
más  probabilidades  de  dejar  una  luz  encendida  en  el  dormitorio  de  sus  hijos.  De 
nuevo una tercera variable no tenida en cuenta (la miopia de los padres), causaba la 
alta correlación entre las otras dos variables relacionadas. 
‐ Cuando aumentan las ventas de helado, la tasa de muertes por ahogamiento 
también aumenta. Por lo tanto, el consumo de helado provoca ahogamiento. 
El helado se vende durante los meses de verano a un ritmo mucho mayor que 
en épocas más frías, y es durante estos meses de verano que las personas son más 
propensas a participar en actividades relacionadas con el agua, como la natación. El 
mayor porcentaje de muertes por ahogamiento es causado por una mayor exposición 
a las actividades acuáticas. 
‐ Desde 1950, tanto el nivel de dióxido de carbono (CO2) en la atmósfera como 
los  niveles  de  obesidad  han  aumentado  considerablemente.  Por  lo  tanto,  el  CO2 
atmosférico provoca la obesidad. 
                                                                                              P á g i n a  | 95 

Obviamente, en las ciudades que han mejorado su nivel de vida a partir de los 
años 50, se come más y se expulsa más CO2 a la atmósfera (coches, fábricas... ). 
‐ Con una disminución en el uso de sombreros, ha habido un aumento en el 
calentamiento global durante el mismo período. Por lo tanto, el calentamiento global 
es causado por personas que abandonan la práctica de usar sombreros. 
La explicación de este efecto sería muy parecida a la del ejemplo anterior. 
 
 
                                                                                              P á g i n a  | 97 

6 PROBABILIDAD 
 
 Cuando las estadísticas nos dicen que la familia mexicana tiene un promedio 
de cuatro hijos y medio, nos explicamos por qué siempre hay uno chaparrito. 
Marco Antonio Almazán, mejicano.  
 
Este es un tema en el que empezamos a olvidarnos de la realidad y tenemos 
que  empezar  a  trabajar  en  lo  que  adora  cualquier  matemático:  el  abstracto.  La 
ruptura  con  la  realidad  es  brusca:  nos  olvidamos  de  los  paquetes  estadísticos,  el 
ordenador, etc., y trabajaremos con la mente (los que hayan hecho la ESO que se 
preparen). A partir de ahora, vamos a considerar como herramienta de trabajo los 
llamados experimentos aleatorios, que, como su nombre indica (y nos diría cualquier 
ministro), son aleatorios; es decir, el resultado del mismo depende del azar (a veces 
llamada suerte. Pero, cuidado, que hay buena y mala suerte). 
 

6.1 ANTECEDENTES HISTÓRICOS 

 
La teoría matemática del cálculo de probabilidades se desarrolla a partir del 
siglo XVII, asociada a los juegos de azar. A fin de cuentas, la gran mayoría de los juegos 
lleva aparejado un sistema de apuestas alrededor del mismo. ¿O no es más divertido 
jugar con dinero que con garbanzos, o por el simple hecho de entretenerse? Por ello, 
siempre resulta muy conveniente tener alguna idea de la probabilidad de ganar, o de 
la probabilidad de que ocurra algún suceso favorable al jugador. 
Los  juegos  de  azar  son  casi  tan  antiguos  como  el  ser  humano.  Sumerios  y 
Asirios  utilizaban  un  hueso  extraído  del  talón  de  animales  como  ovejas,  ciervos  o 
 98 | P á g i n a  
 
caballos, denominado astrágalo o talus, que tallaban para que pudiese caer en cuatro 
posiciones distintas. Este es considerado el precursor de los dados. Asimismo, en las 
pirámides de Egipto se han encontrado pinturas que datan de la época de la primera 
dinastía (3.500 a.C.) en las 
que se muestran juegos de 
azar. 
 
Quien  haya  visto 
alguna  de  romanos  (Ben‐
hur,  Espartaco...  )  ya  sabe 
que  eran  muy  aficionados 
a  los  juegos  de  azar 
(además de a barbaridades 
como  crucificar  gente, 
arrojar a los esclavos a las 
fieras... ). El emperador Claudio (10 a.C. ‐ 54 d.C.) escribió un tratado sobre el juego 
de los dados. Pese a tener unas cuantas taras físicas (por ejemplo cojera, tartamudez, 
tics nerviosos o aerofagia), y ser señalado como tonto hasta por su madre, Claudio 
accedió al trono de emperador de una manera más o menos fortuita, tras el asesinato 
de su sobrino Calígula.  
Como gobernante, fue muy querido por el pueblo y se reveló como un gran 
político, gestor y estratega militar. Sin embargo, su éxito con las mujeres fue bastante 
escaso (a pesar de casarse cuatro veces), y es merecedora de mención una de ellas, 
la famosa Valeria Mesalina6. 

                                                       
6
 Mesalina era ninfómana y adicta a encuentros extra‐matrimoniales, que su marido conocía y 
consentía. Un día lanzó un reto al gremio de las prostitutas de Roma: ella organizaría en palacio, aprovechando 
la ausencia de Claudio, una competición para ver quién podía atender a más hombres en una noche.  

 Las prostitutas aceptaron el reto y enviaron a la más famosa de Roma, una siciliana llamada 
Escila. Aquella noche, después de haber sido poseída por 25 hombres, Escila se rindió y Mesalina 
salió victoriosa, pues superó la cifra al llegar al amanecer y seguir compitiendo. Según se cuenta, 
                                                                                              P á g i n a  | 99 

La  historia  de  la  probabilidad  comienza  realmente  en  el  siglo  XVII,  cuando 
Pierre Fermat (jurista y matemático; 1601 ‐ 1665) y Blaise Pascal (matemático, físico, 
filósofo  cristiano  y  escritor;  1623  ‐  1662)  tratan  de  resolver  algunos  problemas 
relacionados con los juegos de azar. Resulta interesante destacar de uno de los libros 
de  este  último,  “la  Apuesta  de  Pascal”,  una  discusión  sobre  la  creencia  en  Dios, 
basada en probabilidades: “Si Dios no existe, nada pierde uno en creer en él, mientras 
que si existe, lo perderá todo por no creer”. 
En  aquella  época  vivió  también  Antoine  Gombaud,  escritor  francés  (1607  ‐ 
1684)  que,  a  pesar  de  no  pertenecer  a  la  nobleza,  adoptó  el  título  de  Chevalier 
(Caballero)  para  asignárselo  al  personaje  de  sus  diálogos  que  representaba  sus 
propias opiniones (el caballero de Méré). Su interés por conocer cuál era la apuesta 
más favorable en los juegos de dados ocasionó una serie de cartas entre Blaise Pascal 
y Pierre de Fermat que establecieron los fundamentos de la teoría moderna de la 
probabilidad. 
 

6.2 PROBABILIDAD 

 
La  probabilidad  toma  su  forma  actual  a  partir  de  los  años  30  del  siglo  XX, 
cuando  Andrey  Nicolaievich  Kolmogorov  (como  está  claro,  era  ruso;  1903  ‐  1987) 
establece con sus axiomas las bases matemáticas de la teoría de la probabilidad. Esta 
aparece en su famosa monografía Grundbegriffe der Wahrscheinlichkeitsrechnung 

                                                       
llegó hasta 200. Cuando Mesalina pidió a Escila que regresara, ésta se retiró diciendo: «Esta infeliz 
tiene las entrañas de acero».  
Toda esta bonita historia puede leerse en la novela histórica “Claudio, el dios, y su esposa Mesalina”, 
de Robert Graves, excelentemente desarrollada en la serie de la BBC “Yo, Claudio”. El personaje de Mesalina 
también aparece en la película de 1954 “Demetrius y los gladiadores”, interpretada por la actriz Susan Hayward. 
Esta película es la segunda parte de otra obra clásica: “La túnica sagrada”, y cuyo visionado recomendamos a 
todo el que le guste el cine de romanos. En esta película, sin embargo, no puede adivinarse semejante 
personalidad promiscua en el personaje.  
 
 100 | P á g i n a  
 
(1933)  (que  corresponde  a  una  publicación  alemana,  y  por  cuyo  nombre  se 
comprende que, a pesar de su importancia, no se convirtiera en un best‐seller). 
Para  introducir  la  noción  de  probabilidad,  hay  que  tener  diferenciados  dos 
tipos de experimentos: 
Experimento  determinista.  Es  aquel  que,  al  realizarse  repetidas  veces,  en 
idénticas condiciones, proporciona siempre el mismo resultado. 
Ejemplos:  una  reacción  química  en  condiciones  prefijadas  de  antemano; 
cualquier experimento físico que se realice en las mismas condiciones… 
Experimento aleatorio (en el que interviene el azar). Es aquel que puede dar 
lugar  a  diferentes  resultados  conocidos  previamente,  sin  que  sea  posible  predecir 
cuál va a ocurrir en una realización particular del experimento. Verifica las siguientes 
propiedades: 
1. Puede repetirse siempre en las mismas condiciones. 
2. Antes de realizarlo no se puede predecir el resultado que se va a obtener. 
3. El conjunto de posibles resultados es conocido de antemano. 
 

6.2.1 Definiciones básicas 
El conjunto de los posibles resultados de un experimento aleatorio se llama 
espacio muestral. Se representa con la letra griega Ω. 
Ejemplos: 
 Experimento aleatorio: “lanzamiento de una moneda de un euro”. Posibles 
resultados = Espacio muestral Ω={cara de don Juan Carlos, número 1}. 
 Experimento  aleatorio:  “lanzamiento  de  un  dado  de  tasca”.  Posibles 
resultados = Espacio muestral  Ω={1,2,3,4,5,6}. 
 Experimento  aleatorio:  “número  de  amores  de  Mesalina  en  una  noche  de 
lujuria”.  Ω={0,1,2,3,... }. 
 Experimento aleatorio: “partido de futbol”.  Ω={0‐0, 0‐1,1‐0,1‐1,... ,8‐24,... }. 
                                                                                              P á g i n a  | 101 

Suceso  elemental.  Cada  uno  de  los  posibles  resultados  de  un  experimento 
aleatorio. En el ejemplo del lanzamiento de un dado, cualquiera de los números del 
1 al 6 es un suceso elemental. 
Suceso. Es un subconjunto del espacio muestral,  ⊂ Ω. Se dice que ocurre 
un suceso si ocurre alguno de los sucesos elementales que lo componen. 
Ejemplo:  en  el  lanzamiento  de  un  dado,  el  suceso  =“salir  número 
par”= 2,4,6 . 
Suceso imposible. Es el suceso que no puede ocurrir nunca. Como conjunto, 
es  el  conjunto  vacío  ∅. Ejemplo:  al  lanzar  un  dado,  ∅=“el  resultado  es  7,  8,  o  el 
número pi”. 

 
Dos sucesos se llaman incompatibles si no pueden ocurrir simultaneamente 
(al lanzar un dado no puede salir un número par e impar a la vez). Dos sucesos son 
incompatibles si como conjuntos son disjuntos ( ∩ ∅ . 

 
 102 | P á g i n a  
 

 
 

6.2.2 Sucesos y conjuntos 
Como acabamos de ver, un suceso es un subconjunto del espacio total Ω. Las 
propiedades  de  los  conjuntos  se  vieron  en  algún  curso  muy  lejano  en el  colegio  o 
instituto, pero conviene recordarlas, porque van a ser de gran utilidad para el cálculo 
de probabilidades. 
Unión (de conjuntos o sucesos):  ∪  es el conjunto o suceso formado por 
los elementos que están en   ó están en  . 
Intersección:  ∩   está  formado  por  los  elementos  que  están 
simultáneamente en   y en  . 
Diferencia:   está formado por los elementos de   que NO están en B. 
Complementario de un suceso  : se escribe   o  ̅. Es el suceso formado por 
todos los elementos del espacio total Ω que no están en  . Se verifica que  ∩ ̅ ∅ 
y  ∪ ̅ Ω. 
Podemos ver un gráfico de estas operaciones en la Figura 6‐1. 
                                                                                              P á g i n a  | 103 

Figura 6‐1 

 
La unión e intersección de sucesos o conjuntos cumplen las propiedades 
conmutativa y asociativa: 
∪ ∪ , ∩ ∩ , 
∪ ∩ ∪ ∩ ∪ , ∩ ∪ ∩ ∪ ∩ , 
y, obviamente, operaciones como la unión o intersección pueden generalizarse a más 
de dos sucesos o conjuntos. Quien tenga dudas, que lo verifique haciendo los dibujos 
como en la Figura 6‐1 (siempre que se tengan dudas del resultado de operaciones con 
sucesos o conjuntos, se recomienda hacer los dibujos). 
 

 
 
 104 | P á g i n a  
 
Ejemplo 6-1 Supongamos que se lanza un dado. Considerar los sucesos
=“salir número par” y =“salir número mayor o igual a 3”.
2,4,6 , 3,4,5,6 .
Vamos a calcular ∪ , ∩ , y .
∪ =“el resultado es par o mayor o igual a 3” 2,3,4,5,6 .
∩ =“el resultado es par y mayor o igual a 3” 4,6 .
=“el resultado es par pero no mayor o igual a 3” 2 .
="el resultado es mayor o igual a 3 pero no par” 3,5 .

6.2.3 Probabilidad 
Es una función que le asigna a cada suceso   de un espacio muestral Ω un 
número llamado probabilidad de  , verificando: 

1.‐) Es un número entre 0 y 1. 0 1. 
2.‐) La probabilidad del espacio muestral es 1.  Ω 1. 
3.‐) Si se consideran   sucesos incompatibles (con intersección el vacío,  ∩
∅, si  , la probabilidad de la unión es la suma de las probabilidades:    
∪ ∪. . .∪ ... . 

Estas tres propiedades se llaman axiomas de Kolmogorov. Para entenderlas 
mejor,  así  como  para  entender  las  propiedades  que  daremos  a  continuación, 
conviene pensar en la probabilidad como la “medida” de un conjunto, siendo el total 
Ω el de mayor medida (mide 1 , y cualquier otro suceso mide menos que el total y, 
como muy poco, 0. La tercera propiedad establece que si tenemos varios sucesos o 
conjuntos que no tienen intersección entre sí, la medida de la unión de todos es la 
suma de las medidas. 
A partir de los axiomas de Kolmogorov, y teniendo en cuenta que un suceso 
es un conjunto  ⊂ Ω, puede comprobarse que se verifican también las siguientes 
propiedades: 
P1)  La  probabilidad  del  complementario  de  un  suceso  es  1  menos  la 
probabilidad de dicho suceso:  ̅ 1  (ver el dibujo de la derecha en la 
Figura 6‐1). 
                                                                                              P á g i n a  | 105 

P2)  La  probabilidad  del  suceso  imposible  ∅  es  cero  (porque  es  el 
complementario del total Ω . 
P3) Si  ⊂  (siempre que ocurre   ocurre  , entonces  . 
P4)  ∪ ∩   (fijémonos  que  esto  no  es 
contradictorio con la propiedad 3. En dicha propiedad decimos que la probabilidad de 
la unión de sucesos es la suma de probabilidades, cuando las intersecciones 2 a 2 
entre ellos es el vacío. Si la intersección no es el vacío, hay que restarle la probabilidad 
de la misma). 
Generalización a tres sucesos: 
∪ ∪ ∩ ∩ ∩
∩ ∩ (véase  la  siguiente  figura  y  recuérdese  que 
probabilidad=medida). 

Figura 6‐2 

 
Generalización a   sucesos: 
  ∪ ∪. . .∪ ...  
  ∩ ∩ ... ∩  
 106 | P á g i n a  
 
  ∩ ∩ ... ∩ ∩  
  . .. 
  1 ∩ ∩. . .∩ . 
P5)  ∩  (ver Figura 6‐1). 
‐ Además, al cumplirse las leyes de Morgan, que dicen: 
a) el complementario de la unión es la intersección de los complementarios: 

  ∪. . .∪ ̅ ∩. . .∩ ̅ , 

b) el complementario de la intersección es la unión de los complementarios: 

  ∩ ∩. . .∩ ̅ ∪. . .∪ ̅ , 

              podremos utilizar también que  
P6)  ̅ ∩. . .∩ ̅ 1 ∪ ∪. . .∪ y ̅ ∪. . .∪ ̅
1 ∩ ∩. . .∩ . 
 
Dejamos un resumen. Consejo: imprimir, agrandar y pegar en la puerta 
de  la  habitación  en  vez  del  poster  de  Justin  Bieber/El  Ché/Scarlett/Los 
Beatles/Zapatero... 

• P(total Ω)=1 
• P(cualquier suceso) es un número entre 0 y 1 
• P(suceso imposible ∅) = 0 
• Si A está contenido en B, P(A)≤P(B) 
• P(complementario de A   ̅)=1‐P(A) 
• P A ∪ B P A P B P A ∩ B .   Si A∩B=∅ entonces  P(AUB)=P(A)+P(B) 
• P(AUBUC)=P(A)+P(B)+P(C)‐P(A∩B)‐P(A∩C) ‐P(B ∩ C)+ 
        + P(A ∩B ∩C)   y si la unión es de más se va complicando… 
• P(A‐B)=P(A)‐P(A∩B)  
•  ̅ ∩ …∩ ̅ 1 ∪ ∪ …∪
• ̅ ∪. . .∪ ̅ 1 ∩ ∩. . .∩ . 

 
                                                                                              P á g i n a  | 107 

 
 

6.2.4 Asignación de probabilidades 
Hemos  visto  las  propiedades  que  cumple  la  probabilidad.  Ahora,  cuando 
consideramos un experimento aleatorio, y los posibles sucesos que pueden ocurrir 
en  el  mismo,  ¿cómo  se  sabe  cuál  es  su  probabilidad?  Hay  3  maneras  de  asignar 
probabilidades a sucesos. 
 
1.‐) Asignación frecuentista. 
Consiste  en  tener  en  cuenta  que,  a  medida  que  se  repite  un  experimento 
aleatorio  un  número  grande  de  veces,  la  frecuencia  relativa  de  ocurrencia  de 
cualquier suceso converge a un valor fijo. 
Es decir, si el experimento se repite   veces (  muy grande), y   es un suceso, 
entonces    
número de veces que ocurre
→ . 
 108 | P á g i n a  
 
Pensemos  en  el  lanzamiento  de  una  moneda  un  número  muy  grande  de 
veces.  La  frecuencia  relativa  de  aparición  del  suceso  =“cara” tiende  a  0.5. 
Igualmente,  al  lanzar  un  dado,  la  frecuencia  relativa  de  aparición  de  un  número 
tiende  hacia  1/6. Este  tipo  de  asignación  es  el  que  se  utiliza  para  hablar  de 
probabilidad de accidente de tráfico (tras haber obtenido muchos datos a lo largo de 
los  años)  o  la  probabilidad  de  que  un  medicamento  cure  una  enfermedad  (tras  la 
observación de muchos casos). 
 
2.‐) Asignación equiprobable. 
Si  el  experimento  aleatorio  da  lugar  a  un  espacio  muestral  finito  de   
elementos: 
Ω , ,...,  
se le asigna a todos los sucesos elementales la misma probabilidad 1/ . 

Entonces, cualquier suceso   estará formado por   sucesos elementales, y la 


probabilidad del suceso   será    
casos favorables
 
casos posibles
Esta fórmula es la conocida regla de Laplace. 

Esta tipo de asignación valdría, por citar un caso sencillo, cuando lanzamos un 
dado. La probabilidad de que, por ejemplo, salga un número par, es 3 entre 6 (casos 
favorables entre posibles). 
 
3.‐) Asignación subjetiva. 
Cuando  no  es  posible  una  asignación  de  las  dos  formas  anteriores,  será 
necesario asignar probabilidades a los sucesos de acuerdo con la experiencia de la 
persona que realice u observe el experimento (probabilidad de que llueva, de que se 
produzca un terremoto de cierta magnitud, de que una pareja se acabe casando, de 
que un matrimonio acabe con cuernos, de que un gordo feo pueda seducir a Natalie 
Portman...). 
                                                                                              P á g i n a  | 109 

Una vez que sabemos como asignar probabilidades a los principales sucesos 
de  un  experimento  aleatorio,  podremos  calcular  la  probabilidad  de  otros  sucesos 
asociados mediante las propiedades vistas anteriormente (P1 – P6). 
 
 

Ejemplos variados: 
 

 
 110 | P á g i n a  
 

 
                                                                                              P á g i n a  | 111 

 
 

Ejemplo 6-2 Se sortea un viaje a Tailandia entre los 120 mejores clientes de
una agencia de automóviles. De ellos, 65 son mujeres, 80 están casados y 45
son mujeres casadas. ¿Cuál es la probabilidad de que le toque el viaje a un
hombre? ¿Cuál es la probabilidad de que le toque a un hombre soltero?

Solución. 
Denotamos los sucesos  =“casado”,  =“soltero”, =“hombre”,  =“mujer”. 
Con los datos que nos dan podemos formar la tabla:   

45 65  
80 120

Ahora rellenamos los huecos  
 112 | P á g i n a  
 

35 20 55
45 20 65  
80 40 120

La  probabilidad  de  que  le  toque  a  un  hombre  es  casos  favorables  entre 
posibles:  55/120. 
La probabilidad de que le toque a un hombre soltero es la probabilidad de la 
intersección  ∩ : ∩ 20/120 1/6.    

 
 

Ejemplo 6-3 En un partido político, el 70 por ciento de los altos cargos recibe
un sueldo fijo o un sobre con dinero negro, si bien el 40 por ciento recibe
ambas cosas. Si hay un 50 por ciento de altos cargos que no acepta sobres
con dinero negro, calcular la probabilidad de que, escogido al azar un alto
cargo: a) sólo reciba el sueldo fijo, b) cobre dinero, pero de una sóla de las
maneras, no de ambas, c) esté ahí por amor al arte (no cobre nada).

Solución.  
Definimos  los  sucesos  “recibir  sueldo  fijo”  y  “recibir  sobres”. El 
enunciado del problema nos da las probabilidades  ∪ 0.7,  ∩ 0.4,
0.5.  
A partir de estos datos, podemos obtener:  1 0.5, y, como 
∪ ∩ ,  entonces  ∪
∩ 0.7 0.5 0.4 0.6. 
                                                                                              P á g i n a  | 113 

Ahora podemos resolver los apartados. 
a)  reciba sueldo fijo Y no reciba sobres)= ∩
0.6 0.4 0.2. 
b)  reciba sueldo fijo Y no reciba sobres) O (reciba sobres Y no reciba sueldo 
fijo)]=  
∪  
∩ ∩  
2⋅ ∩ 0.6 0.5 2 ⋅ 0.4 0.3. 

c)  (no  reciba  sueldo  Y  no  reciba  sobres)  =  ̅∩ ∪ 1


∪ 1 0.7 0.3.  
 

Ejemplo 6-4 En un centro de salud se está haciendo una estadística contable


de los gastos en medicación. El 70% de los usuarios toman medicación para
el corazón, el 60% para el estómago y el 65% para los huesos. El 45% toma
medicación para corazón y estómago, el 40% para corazón y huesos y el 50%
para estómago y huesos. El 30% tiene que tomar medicación para las tres
dolencias. ¿Cuál es la probabilidad de que la señora Antonia salga del centro
de salud sin otra recomendación que la de hacer mucho ejercicio?

Solución. 
Denominemos los sucesos  =“tomar medicación para el corazón”,  =“tomar 
medicación para el estómago” y  =“tomar medicación para los huesos”. Los datos 
que nos dan son: 
0.7, 0.6, 0.65, ∩ 0.45, ∩
0.4, ∩ 0.5 y  ∩ ∩ 0.3. 
La  probabilidad  de  que  una  persona  no  tome  nada  es  la  probabilidad  del 
complementario de tomar alguna cosa, es decir 1 menos la probabilidad de la unión 
de  ,  y  , y esta es:  
  ∪ ∪  
  ∩ ∩ ∩  
 114 | P á g i n a  
 
  ∩ ∩ . 
Luego la probabilidad pedida es 1 0.7 0.6 0.65 0.45 0.4 0.5
0.3   1  0.9 0.1.  
 

6.2.5 Probabilidades geométricas 
La  regla  de  Laplace  puede  aplicarse  a  ciertas  situaciones  donde  aparecen 
sucesos  asociados  a  conjuntos  en  el  plano  o  en  el  espacio  que  podamos  medir 
(longitud,  área,  volumen...  ).  La  probabilidad  de  un  suceso    será  la  medida  de   
dividida por la medida del total. 
 

Ejemplo 6-5 Yonathan y Kevin van a gastarle una bromita a su primo el


Christian. Mientras está fumándose un porro sentado en la taza del wc del
instituto, van a lanzarle un globo lleno de agua sucia desde la entrada del
lavabo. Aunque tienen bastante punteria, justo cuando van a lanzar el globo
aparece por el pasillo el bedel. Esto hace que el Kevin, que es el que tiene el
globo en la mano, se pone nervioso y lo tira a lo loco, de manera que todos
los puntos del recinto resultan igualmente probables para la caída del globo.
Si la cabeza del Christian, vista desde arriba, viene a ser una elipse con ejes
que miden 17 y 22 cm, y los lavabos en su conjunto miden 6 5 metros, ¿cuál
es la probabilidad de que le caiga el globo en la cabeza?

Solución. 
En este caso, el espacio total es el cuarto de baño en su conjunto, cuya medida 
es el área, 6 5 metros= 30 metros cuadrados. 
El suceso   es la cabeza de Kevin, cuya medida es el área de una elipse, 
17 22 1174.955 centímetros cuadrados. 
Por lo tanto la probabilidad de acertar es   
1174.955 1174.955
0.00391, 
30 30 10000
que, como vemos, es muy pequeña. Yonathan y Kevin están pensando ahora en cómo 
vengarse adecuadamente del bedel del instituto.  
                                                                                              P á g i n a  | 115 

6.2.6 Probabilidad Condicionada 
Supongamos que una delegación de Amnistia Internaciónal visita por sorpresa 
una cárcel en Grecia, tras una jornada reivindicativa ante el parlamento. Seleccionan 
al azar 100 presos y realizan una clasificación de la siguiente manera: Hombres (H) y 
Mujeres (H), que no presenten lesiones tras la detención (NL), que presenten lesiones 
moderadas  (LM)  y  que  presenten  lesiones  serias  (LS).  La  tabla  resultante  es  la 
siguiente: 

50 15 65
15 10 25  
5 5 10
70 30 100

La  delegación  de  Amnistia  Internacional  pacta  con  el  director  de  la  prisión 
elegir  a  un  preso/a  de  los  cien,  para  entrevistarlo  en  directo  en  televisión.  La 
probabilidad de que sea una mujer y presente lesiones moderadas es     
10
∩ . 
100
Aparece en la prisión por sorpresa una diputada feminista radical, que exige 
entrevistar a una mujer. Si ahora calculamos la probabilidad de que la mujer elegida 
presente lesiones moderadas, dicha probabilidad no coincide con la anterior. En el 
primer caso, elegíamos al azar un preso de los 100, y queríamos que cumpliese dos 
condiciones: fuese mujer y tuviese lesiones moderadas. En cambio, ahora elegimos 
una mujer (estamos buscando en un grupo más pequeño: los casos posibles ahora 
son  30).  La  probabilidad  pedida  se  escribe  (probabilidad  del  suceso    dado  o 
condicionado a el suceso  ):   
10
/ . 
30
Y, como la probabilidad de que, al escoger un preso del grupo al azar, sea una 
mujer, es   
30

100
 116 | P á g i n a  
 
se verifica que    
10 30 10
⋅ ,  
100 100 30
o, lo que es lo mismo,   
∩ ⋅ / . 
De donde obtenemos que   

/ . 

Generalización: Dados 2 sucesos   y   (tales que  0, 0 , 


la probabilidad condicionada se calcula como    
∩ ∩
/ y / . 

 
En consecuencia, vemos que la probabilidad de una intersección se puede 
obtener como 

∩ ⋅ / ⋅ /    (6‐1) 

(hasta  ahora,  en  las  propiedades  vistas,  sabíamos  calcular  la  probabilidad  de  una 
unión; nunca habíamos visto como calcular la probabilidad de una intersección). 
 

6.2.6.1 Propiedades de la probabilidad condicionada 
La  probabilidad  condicionada  verifica  las  mismas  propiedades  que  hemos 
visto para la probabilidad, esto es, si   es tal que  0, entonces  ̅/ 1
/ ; si  ⊂ , entonces  / / , etc. 
Si, por ejemplo, aparece en la cárcel un ministro que quiere sacar de la prisión 
a  su  hijo  gatoflauta  (no  puede  con  él,  a  pesar  de  haberlo  enviado  a  “hermano 
mayor”), ¿cuál es la probabilidad de que su hijo no aparezca con la cara hecha un 
poema? Podemos calcular    
∩ 5/100 65
/ 1 / 1 1 . 
70/100 70
                                                                                              P á g i n a  | 117 

Nota: Recordemos que todo parecido de este problema con la realidad es


mera coincidencia y, además, sucede en GRECIA.

Ejemplo 6-6 El 12% de los individuos de una población es idiota. El 25% de


ellos lo sabe. ¿Qué tasa de individuos es idiota y lo desconoce?

Solución. 
Consideramos los sucesos  =“ser idiota”,  =“saberlo”. Tenemos que 
0.12, / 0.25. Nos piden  ∩ ̅ . 
  ∩ ̅ ⋅ ̅/ ⋅ 1 / 0.12 ⋅ 1
0.25 0.09, 
es decir el 9 por ciento.  
 

Ejemplo 6-7 Por culpa de los recortes, en una habitación de 3 camas de un


hospital hay 10 enfermos, y 2 tienen tendinitis de hombro. El cirujano está
terminando el turno y pide que le bajen a los dos enfermos del hombro para
 118 | P á g i n a  
 
operarlos a la vez. El camillero, que ya no sabe lo que hace tras una jornada
maratoniana de 23 horas sin dormir, selecciona a dos enfermos al azar y se
los lleva al quirófano. Calcular la probabilidad de que sólo uno de los operados
tuviera tendinitis en el hombro, y la probabilidad de que el enfermero haga un
pleno (la tuvieran los dos).

Solución.  
Consideramos  los  sucesos  =“primero  seleccionado  tiene  tendinitis”  y 
=“segundo  seleccionado  tiene  tendinitis”.  La  primera  probabilidad  que  debemos 
calcular es  ∪ , donde  ∩  y  ̅ ∩ . Esta probabilidad es 

  ∪ ∩ ̅∩ . 
Es  posible  que  alguien  piense  que  en  esta  última  fórmula  faltaría  restar  la 
probabilidad de la intersección. Lo que ocurre es que la intersección de   con   es 
el vacío: ∩ ∩ ̅ ∩ ∅, puesto que están los sucesos y sus complementarios. 
Ahora,  ∩ ⋅ /  
= el  primero  seleccionado  tiene  tendinitis) P(el  segundo  no  la  tiene, 
condicionado a que el primero sí la tenía)= 

= casos favorables entre posibles) hay un caso posible menos). 

̅ ⋅ / ̅ el primero no tiene tendinitis) P(el segundo sí 
dado que el primero no la tiene)= ⋅ . 

Resulta:   
2 8 8 2
∪ ⋅ ⋅ 0.355. 
10 9 10 9
La probabilidad de que los dos a operar tengan tendinitis es  ∩
⋅ / ⋅ 0.022.  

 
                                                                                              P á g i n a  | 119 

6.2.7 Regla del producto 
Generalizando la fórmula (6‐1) para la intersección de dos sucesos, cuando 
consideramos la intersección de   sucesos, su probabilidad se obtiene por la llamada 
regla del producto:   
∩ ∩ …∩  
/ / ∩ / ∩ ∩ ⋅. . .⋅ / ∩. . . , 
que, como vemos, consiste en que la probabilidad de la intersección de   sucesos se 
calcula multiplicando las probabilidades sucesivas, pero condicionando cada suceso 
a que ocurran todos los inmediatamente anteriores. 
 

Ejemplo 6-8 Con dibujos, especial Bolonia.

 
 
 
 120 | P á g i n a  
 

 
Ejemplo 6-9 Una asignatura de derecho tiene un porcentaje de aprobados del
50 por ciento. La leyenda urbana de dicha asignatura asegura que el profesor
de la misma, como le joroba realizar exámenes extraordinarios, pone en cada
convocatoria un examen que es más duro que el anterior, disminuyendo la
probabilidad de aprobar en un 15 por ciento. Un padre avisa a su hija de que,
como llegue a la quinta convocatoria, la envía a un convento. ¿Cuál es la
probabilidad de que la hija suspenda las tres primeras convocatorias y
apruebe justo en la cuarta?

Solución. 
Llamemos    =“aprobar  en  la  convocatoria  ”.  La  probabilidad  de  aprobar 
desciende un 15 por ciento en cada nueva convocatoria, es decir  0.15 ⋅
0.85 ⋅ , con lo que la probabilidad de suspender en esa convocatoria será 
1 0.85 ⋅ . Tenemos que calcular:   
̅ ∩ ̅ ∩ ̅ ∩  
                                                                                              P á g i n a  | 121 

  ̅ ⋅ ̅ / ̅ ⋅ ̅ / ̅ ∩ ̅ ⋅ / ̅ ∩ ̅ ∩ ̅ , 
donde  
̅ 1 0.5; 
̅ / ̅ 1 0.85 ⋅ 0.5 0.575; 
̅ / ̅ ∩ ̅ 1 0.85 ⋅ 1 0.575 0.63875; 
/ ̅ ∩ ̅ ∩ ̅ 0.85 ⋅ 1 0.63875 0.30706. 
Entonces  ̅ ∩ ̅ ∩ ̅ ∩ 0.5 ⋅ 0.575 ⋅ 0.63875 ⋅ 0.30706 0.056.  
 

6.2.7.1 Independencia de sucesos 
2 sucesos   y   son independientes si la ocurrencia de uno no influye en la 
ocurrencia del otro. Se verifica entonces que 
  / y / , 
es decir, que el que haya ocurrido uno no influye para nada en la ocurrencia del otro. 
Si   sucesos son independientes, entonces la probabilidad de la intersección 
es el producto de las probabilidades: 
∩ ∩. . .∩ ⋅ ⋅. . .⋅ . 

Nota 6-1 Muchas veces hay confusión entre probabilidad condicionada y


probabilidad de una intersección. Para no despistarse, piénsese en el aprobado
condicionado: suspendes un examen parcial, y el profesor te lo aprueba, pero
condicionado a aprobar el siguiente parcial. Llamemos =“aprobar el primero” y
=“aprobar el segundo”.
Si al aprobar el segundo te dan el aprobado del primero, / 1. En
cambio, calcular la probabilidad de la intersección ∩ correspondería a
preguntarnos, antes de hacer los exámenes, cuál es la probabilidad de aprobar los
dos. Si el profesor no tiene en cuenta la nota del primero para el segundo (ni al
revés), los sucesos serían independientes, y ∩ ⋅ .
La probabilidad de una intersección supone calcular la probabilidad de que
sucedan 2 cosas simultáneamente. La probabilidad condicionada supone que una de
 122 | P á g i n a  
 
ellas ha ocurrido, la sabemos, y entonces calculamos la probabilidad de la otra (en
función de lo que ha ocurrido).

Ejemplo 6-10 Continuando con las leyendas urbanas de la universidad,


¿quién no ha oído hablar de que a los profesores se les exige un cupo o
porcentaje de aprobados máximo? Si en un curso cualquiera de una ingeniería
hay cuatro asignaturas, y los porcentajes máximos que permite el rectorado
son el 80 por ciento (para la asignatura maría), el 30, el 50 y el 10 (para la
dura, la del catedrático), ¿cuál es la probabilidad de que un alumno apruebe
todas?

Solución. 
Si  el  aprobar  una  asignatura  no  depende  de  aprobar  otra,  los  sucesos 
=“aprobar  la  asignatura  ”  son  independientes,  por  lo  tanto  la  probabilidad  de 
aprobar todo es 
  ∩ ∩ ∩ ⋅ ⋅ ⋅ 0.8 ⋅ 0.3 ⋅
0.5 ⋅ 0.1 0.012. 
Y por fin entendemos que haya tantos suspensos en las ingenierías.  
 

Ejemplo 6-11 Por una carretera de Texas circula Charlie un poco borracho
porque acaba de dejarle la novia. Al saltarse una milla el límite de velocidad,
le aparecen 2 coches de policía que le invitan “amablemente” a parar y salir
del coche con las manos en alto. Charlie sale del coche y es encañonado por
3 agentes, que le dicen que suba las manos o le disparan. Charlie está
pensando en echar la mano al bolsillo para que lo frían a disparos, porque
total vivir sin Marujita va a ser un sinvivir. Con lo cocido que está, la
probabilidad de que haga lo que está pensando es 1/2. Teniendo en cuenta
que los 3 policías lo tienen encañonado a muy poca distancia, la probabilidad
de que le den es 0.95 para 2 de ellos y sólo 0.5 para uno con gafas que entró
por recomendación. ¿Cuál es la probabilidad de que haya que asistir al
entierro de Charlie?

Solución. 
                                                                                              P á g i n a  | 123 

De nuevo estamos en una situación donde los sucesos son independientes. 
Sea  =“Charlie  lleva  la  mano  al  bolsillo”  y  =“El  policía    acierta  el  disparo”.  La 
probabilidad de que maten a Charlie es 
  ⋅ ⋅ ⋅ 0.5 ⋅ 0.95 ⋅ 0.95 ⋅ 0.5 0.2256. 
Vemos que aún hay posibilidades de que Charlie sufra un nuevo desamor.  
 

6.2.8 Teorema de las probabilidades totales 
Un  sistema  completo  de  sucesos  es  un  conjunto  de  sucesos 
, , . . . , que verifican: 
‐ Son sucesos incompatibles 2 a 2: 
∩ , si . 

‐ La unión de todos es el total: 
∪ Ω, 
y además la probabilidad de cada uno de ellos es distinta de cero. 
Visualmente,  un  sistema  completo  de 
sucesos  es  una  partición  del  espacio  total  Ω  en 
conjuntos,  todos  disjuntos  (no  tienen 
intersección  entre  sí),  y  todos  “midiendo  algo” 
(tienen probabilidad diferente a cero). 
 
 
 
El teorema de las probabilidades totales dice lo siguiente: 
Consideremos un sistema completo de sucesos, y sea   otro suceso,  ⊂ Ω, 
para  el  que  se  conocen  las  probabilidades  / para  todo  .  Entonces,  la 
probabilidad del suceso   viene dada por:   

/ . 
 124 | P á g i n a  
 
Demostración.  
La demostración es tan sencilla que conviene verla para seguir practicando 
con las probabilidades de los sucesos. 
⊂ Ω  podemos  expresarlo  como  la  unión  ∩ ∪ ∩ ∪. . .∪
∩ , es decir   intersecado con cada uno de los sucesos  . 
Como  puede  verse  facilmente  en  la  figura,  dado  que  los    son  disjuntos, 
también lo son los conjuntos  ∩ , luego podemos escribir: 

∩ , 

y  ahora,  simplemente  escribiendo  la 


probabilidad de una intersección en función 
de  las  probabilidades  condicionadas, 
tendremos que   

/ . 

Ejemplo 6-12 El presidente Budin acaba de ver la película “1997, Rescate en


Nueva York”, que le ha dado una idea de qué hacer con los terroristas
chechenos. Recordemos que, en esta película, a los presos, en vez de
tenerlos en la cárcel gastándole dinero al estado, los transportaban a la isla
de Manhattan, que había sido aislada del resto de la ciudad, les tiraban comida
                                                                                              P á g i n a  | 125 

de vez en cuando, y ahí se las vieran y desearan. Budin elije un antiguo Gulag
en Siberia; un destartalado campo de trabajo de 500 metros de ancho por 1
kilómetro de largo, rodeado de alambradas para que no puedan escapar. El
recinto se encuentra dentro de una llanura siberiana de 25 km cuadrados de
nieve y minas antipersona.
Como la flota aérea rusa está muy desvencijada, no disponen de
helicópteros para llevar a los presos encima del recinto carcelario y soltarlos
dentro, así que se sitúa un cañon en la frontera de la llanura siberiana con la
intención de usar los presos como proyectiles, y que caigan dentro del recinto
carcelario. Ahora bien, el cañón dispara correctamente sólo una de cada tres
veces. Otra vez lanza aleatoriamente el preso dentro de la llanura siberiana,
y otra vez no dispara nada y el preso explota dentro del cañón. ¿Cuál es la
probabilidad de que un preso introducido en el cañón llegue al Gulag?

Solución. 
Denotemos  por  =“caer  dentro  del  Gulag”,  =“el  cañón  dispara 
correctamente”,  =“el  cañón  dispara  aleatoriamente”  y  =“el  cañón  explota  y 
mata al preso”. 
Al  disparar el  cañón,  sólo  hay  3  opciones,  que  son  ,    y  .  Además,  si 
ocurre una no ocurre ninguna de las otras. Por lo tanto, se verifica que  ∪ ∪
  y  son  sucesos  incompatibles.  Tenemos  entonces  un  sistema  completo  de 
sucesos. 
En la práctica, lo que hacemos es ver si  , y que 
los sucesos   no puedan ocurrir simultaneamente. 
Además,  sabemos  que  / 1, / 0  y  /   la  tenemos 
que  calcular  como  una  probabilidad  geométrica,  puesto  que  el  preso  cae 
aleatoriamente en la superficie. Por lo tanto, la probabilidad de caer en la cárcel es 
á á 0.5 ⋅ 1
/ 0.02. 
á 25
Entonces, la probabilidad de que un preso llegue al Gulag es 
 126 | P á g i n a  
 
/ ⋅ / ⋅ / ⋅
1 1 1
1⋅ 0.02 ⋅ 0⋅ 0.34. 
3 3 3

 
 

Ejemplo 6-13 En el planeta de los simios, el 50 por ciento son chimpances, el


30 por ciento gorilas y el 20 por ciento orangutanes. El 5 por ciento de los
chimpances machos tiene tendencia a usar como juguete sexual a cualquiera
que no sea un simio y se le ponga a tiro, igual que hacen el 10 por ciento de
gorilas macho y orangutanes macho. Un astronauta que cae en el planeta es
enviado como esclavo a la casa de una familia cualquiera. ¿Cuál es la
probabilidad de que el astronauta conserve íntegra su identidad sexual?

 Solución. Definimos los sucesos  =“permanecer a salvo”, =“ser esclavo en 


casa de chimpances”,  “ser esclavo en casa de gorilas” y  “ser esclavo en casa 
de orangutanes”. Este es otro ejemplo donde los sucesos   son incompatibles y la 
suma  de  probabilidades  da  uno.  Por  lo  tanto,  forman  un  sistema  completo  de 
sucesos. 
Los  datos  que  tenemos  son:  0.5, 0.3, 0.2.  Por 
otro lado,   / 0.95,  / / 0.9. Entonces 
  / ⋅ / ⋅ / ⋅  
                                                                                              P á g i n a  | 127 

  0.95 ⋅ 0.5 0.9 ⋅ 0.3 0.9 ⋅ 0.2 0.925. 


 

6.2.9 Regla de Bayes 
El llamado Teorema de Bayes7 utiliza las mismas hipótesis o supuestos que el 
teorema de las probabilidades totales: 
Sea un sistema completo de sucesos  , ,..., , es decir: 
‐ Son sucesos incompatibles 2 a 2:  ∩   , si  . 

‐ ∪ Ω  y son tales que la probabilidad de cada uno de ellos es distinta 
de cero, y sea   un suceso para el que se conocen las probabilidades  / .  
Entonces, las probabilidades  /  se pueden obtener de la forma   
/ ⋅
/ , ∀ 1, . . . , . 
∑ / ⋅
Esta fórmula es conocida como regla o fórmula de Bayes. 
La demostración también la escribimos, por ser muy simple: por la fórmula de 
la probabilidad condicionada, se tiene que   

/ . 

Ahora, para calcular  , en el denominador, podemos usar la fórmula de la 
probabilidad total. En el numerador, la probabilidad la calculamos según la definición 
de la probabilidad de una intersección (6‐1):   
∩ ⋅ / , 

y ya está listo el resultado. 
 

Nota 6-2 Las probabilidades se conocen como probabilidades “a


priori”, y las probabilidades / se denominan “a posteriori”, puesto que se
obtienen posteriormente a que ha ocurrido el suceso .

                                                       
7
 Thomas Bayes, matemático y ministro presbiteriano (cura protestante). 
 128 | P á g i n a  
 
 

 
 

Ejemplo 6-14 Mesalina se acuesta con Marco Aurelio el 30 por ciento de las
veces, con Augusto César el 60 por ciento, y el 10 por ciento restante con
alguno de los criados. La probabilidad de que se quede embarazada de Marco
Aurelio es 0.9, de Augusto César es 0.75 y de los criados 0.5. Tras la amenaza
de su marido Claudio de mandarla ejecutar, Mesalina promete dejarse de
tonterías y no volver a serle infiel. Una noche, un criado observa a Mesalina
saliendo a escondidas de su habitación para ir a un cuarto oscuro. Tras una
temporada, aparece embarazada. ¿Cuál es la probabilidad de que se hubiera
acostado con Augusto César (sabiendo que el hijo no puede ser de Claudio,
porque es estéril)?

Solución. 
Definimos los sucesos: 
                                                                                              P á g i n a  | 129 

=“acostarse con Marco Aurelio”, 
=“acostarse con Augusto César”, 
=“acostarse con algún criado”, 
=“quedarse embarazada”. 
Las probabilidades que sabemos son: 
0.3, 0.6, 0.1.  Como  vemos,  las  probabilidades 
suman 1, luego estos 3 sucesos (que además son incompatibles, porque el enunciado 
no habla para nada de camas triples) forman un sistema completo de sucesos. 
También sabemos que  / 0.9, / 0.75, / 0.5. 
Mesalina se ha quedado embarazada, y queremos calcular la probabilidad de 
que haya podido acostarse con Augusto César. Tenemos que calcular la probabilidad 
condicionada  / . Por el teorema de Bayes: 
   
/ ⋅
/  
/ ⋅ / ⋅ / ⋅
   
0.75 ⋅ 0.6
0.584. 
0.9 ⋅ 0.3 0.75 ⋅ 0.6 0.5 ⋅ 0.1
Como podemos observar, la probabilidad “a priori” de acostarse con Augusto 
era 0.6. Una vez que el suceso   ha ocurrido, la probabilidad “a posteriori” cambió a 
0.584.  
 

Ejemplo 6-15 El “coñazo del moroso” es una compañía de cobro a morosos


que utiliza 3 métodos diferentes:
, enviar matones que escriben amenazas en el portal, del estilo “paga la
coca, primer aviso”, y que consiguen su objetivo el 90 por ciento de las
veces;
, loquear a llamadas telefónicas, consiguiendo el objetivo el 60 por ciento
de las veces, y
, enviar un modelo/a del sexo contrario del moroso, para liarlo y conseguir
 130 | P á g i n a  
 
fotos comprometedoras para colgar en facebook. Esta última táctica funciona
el 70 por ciento de las veces.
El porcentaje de uso de cada método es: el el 50 por ciento, el el 35 por
ciento y el el 15 por ciento de las veces.
Un moroso, que le había dejado a deber 10.000 euros a un fabricante de
churros, aparece en casa de este último con la cara hinchada y las piernas
escayoladas (a preguntas de un vecino, el moroso dice que ha resbalado en
la ducha), para devolverle el dinero. ¿Cuál es la probabilidad de que le
hayan aplicado el método ?

Solución. 
Las probabilidades que nos dan, para cada uno de los tres métodos, son: 
0.5, 0.35, 0.15.  Como  vemos,  las  probabilidades 
suman  1,  luego  estos  3  sucesos  (que  son  incompatibles,  entendiendo  que  no  se 
aplican dos a la vez) forman un sistema completo de sucesos. 
También  sabemos  que  las  probabilidades  de  =“éxito”,  dependiendo  del 
método empleado, son  / 0.9, / 0.6, / 0.7. 
Nos piden  / . Por el teorema de Bayes: 
   
/ ⋅
/  
/ ⋅ / ⋅ / ⋅
   
0.9 ⋅ 0.5
0.588. 
0.9 ⋅ 0.5 0.6 ⋅ 0.35 0.7 ⋅ 0.15
Observamos  que,  “a  priori”,  la  probabilidad  del  suceso    (que  le  enviaran 
matones) era 0.5. Una vez que ha habido éxito (ha devuelto el dinero,   ha sucedido), 
la probabilidad “a posteriori” aumenta a 0.588.  
 
 
 
                                                                                              P á g i n a  | 131 

 
 

6.2.10 Resumen para vagos 
 

 Probabilidad condicionada.  
∩ ∩
Si  0, entonces  / .  Si  0 entonces  / . 

Probabilidad de la intersección. 
∩ ⋅ / ⋅ / . 
Si    y    son  independientes,  /   y  / . 
             En consecuencia  ∩ ⋅ . 
Si tenemos   sucesos (Regla del producto): 
∩ ∩. . .∩  
/ / ∩ / ∩ ∩ ⋅. . .⋅ / ∩. . . . 
Ahora bien, si son independientes (que la ocurrencia de cada uno no influya 
en la ocurrencia de ningún otro): 
∩ ∩. . .∩ ⋅ ⋅. . .⋅ . 
Probabilidad total. 
Si  tenemos  , , . . . , ,  tales  que  ... 1,  y  los 
sucesos son incompatibles  ∩ , entonces, para otro suceso B,   

/ ⋅ . 

Regla  de  Bayes.  Si  tenemos  , ,..., ,  tales  que 


... 1, y los sucesos son incompatibles  ∩ , y conocemos 
los valores  / , entonces   
/ ⋅
/ . 
∑ / ⋅
 132 | P á g i n a  
 
 
 
 

Conclusión final. 

 
 

Recuerda: cualquier probabilidad es un número entre 0 y 1. Si estás haciendo 
un  problema,  y  después  de  calcular  la  probabilidad  del  complementario,  luego  la 
intersección, luego la unión, Bayes, tararí, tarará. . . te sale un número negativo o más 
grande que 1, tu probabilidad de aprobar el examen es prácticamente nula. 

 
Más ejercicios de este tema, en internet, en libros como [14], o más divertidos 
en [12].
 
 
 
 
 
 
                                                                                              P á g i n a  | 133 

7 VARIABLES ALEATORIAS 
 
 El 80 por ciento de la gente dice no creer en las estadísticas. El 20 por ciento 
restante vive de las estadísticas. 
Estudio serio.  
 
En ocasiones, es útil asociar un número a cada resultado de un experimento 
aleatorio.  Por  ejemplo, en  el experimento  aleatorio  “lanzar  una  moneda  3  veces”, 
podemos considerar la variable  =“número de caras”.   tomará los valores 0,1,2,3.  
En  el  experimento  aleatorio  “elegir  un  enfermo  al  azar  de  un  hospital”, 
podemos  considerar  las  variables  =“peso en kilos”, =“estatura en metros”, 
=“temperatura”...  
Una  variable  que  asocia  a  cada  resultado  de  un  experimento  aleatorio  un 
número recibe el nombre de variable aleatoria.  
Definimos Rango o soporte de la variable aleatoria   como el conjunto de 
todos  los  posibles  valores  de  la  variable.  En  función  de  su  rango,  una  variable 
aleatoria puede ser: 
Discreta: su rango es un conjunto finito o infinito numerable8 de valores. 
Continua: el rango es un intervalo de números reales. 
Ejemplo:  la variable “Altura de personas”. Rango= 0,3 . 

                                                       
8
  Un conjunto infinito numerable es aquel que tiene tantos elementos como el conjunto de 
los  números  naturales.  Los  números  naturales  son  1,2,3,...  y  hasta  infinito.  Entre  cada  2  números 
consecutivos  no  hay  ningún  otro.  Este  conjunto  se  dice  que  es  infinito  pero  numerable,  por 
contraposición a otros conjuntos también con infinitos elementos, pero con diferente forma, como 
puede ser un intervalo de números reales: por ejemplo,  0,1 . Dentro de este intervalo están todos 
aquellos  números  entre  el  0  y  el  1,  y  con  tantos  decimales  como  queramos.  Evidentemente  hay 
infinitos números también, pero entre cada dos podemos escribir tantos como queramos. 

 
 134 | P á g i n a  
 
Ejemplo: la variable “número de hijos de una pareja”. Rango={0,1,2,…}. Es un 
caso de una variable discreta que toma un conjunto infinito numerable de valores 
(porque no sabemos dónde termina el conjunto; otra cuestión es que la probabilidad 
de cada valor vaya paulatinamente disminuyendo, pero de eso hablaremos en breve). 

7.1 VARIABLES ALEATORIAS DISCRETAS 

 
Una variable aleatoria discreta   está definida por los valores que toma y sus 
probabilidades, las cuales deberán sumar 1. 

 (7‐1) 

   
⋮ ⋮
 

donde las probabilidades  ... 1. 


Esta tabla se conoce como ley de probabilidad, distribución de probabilidad, 
función  de  probabilidad  o  función  de  masa  de  probabilidad.  Gráficamente,  se 
representa con un diagrama de barras (ver la Figura 7‐1 y la Figura 7‐2).   
 

Ejemplo 7-1 Cuando realizamos el experimento aleatorio “lanzar un dado”,


podemos considerar la variable =“1 si el resultado es par, y 0 si es impar”.
Su ley de probabilidad es

  0 1/2  
1 1/2

  

Ejemplo 7-2 Cuando realizamos el experimento aleatorio “elegir un número


al azar entre 1 y ”, la variable aleatoria =“valor que se observa” se llama
variable uniforme discreta. Su función de probabilidad es muy simple, y
                                                                                              P á g i n a  | 135 

aparece dibujada en la Figura 7-1 (para 8 .

1 1/
2 1/
⋮ ⋮
1/
 
 
 
 
 
 
 
 
 
 
 
 
  Figura 7‐1 

7.1.1 Función de distribución 
Es la función que asocia a un punto   la probabilidad acumulada hasta ese 
punto: 

En el caso de una variable discreta,    

⋯ , 

siendo todos los .  


 136 | P á g i n a  
 
En la Figura 7‐2 y la Figura 7‐3 podemos ver la ley de probabilidad y la función 
de distribución de una variable discreta  . 

Figura 7‐2 

 
La función de distribución es, como vemos, una función escalonada que, en 
cada valor  , aumenta el valor correspondiente de la probabilidad en ese punto  . 
Es,  por  lo  tanto,  una  función  no  decreciente  que  siempre  varía  entre  0  y  1. 
Matemáticamente, la función de distribución para la variable   general que aparece 
en  (7‐1) se escribe de la forma:   
 
0
∈ ,
∈ ,
⋮ ⋮  
... ∈ ,
⋮ ⋮
1
donde,  como  vemos,  en  los  puntos  ,  en  los  que  precisamente  la  función  no  es 
continua  (hay un salto), a   se le asigna el valor inmediatamente superior; por 
eso escribimos  ...  si  ∈ , . En el punto   ya le damos el valor 
siguiente:  
                                                                                              P á g i n a  | 137 

... . 
 
 
 
 
 
 
 
 
 
 
 
 

Ejemplo 7-3 En las fiestas de Berlusconi se ha ido anotando el número de


personas que se mete en la misma cama en el mismo momento. Las
frecuencias observadas se presentan en la siguiente tabla:
2 3 4 5 6 7 8
0.01 0.08 0.25 0.32 0.28 0.05 0.01

Dado que el número de fiestas observado ha sido muy grande, podemos


considerar las frecuencias relativas anteriores como probabilidades,
disponiendo así de la distribución de la variable aleatoria =“Número de
personas en la misma cama”. a) Obtener y representar las funciones de masa
de probabilidad y de distribución. b) Acaba de llegar a la mansión el Papa
buscando a Berlusconi para darle un recado, pero Berlusconi está encamado.
El Papa está mayor y le puede dar un infarto si ve más de cuatro personas en
la misma cama. ¿Cuál es la probabilidad de que el Papa regrese sano y salvo
al Vaticano?

 
 138 | P á g i n a  
 
Solución. 
a)  Construimos  una  columna  sumando  las  probabilidades  para  obtener  la 
función de distribución. 

2 0.01 0.01
3 0.08 0.09
4 0.25 0.34
5 0.32 0.66 
6 0.28 0.94
7 0.05 0.99
8 0.01 1

Para escribir de forma correcta la función de distribución únicamente hay que 
tener en cuenta las discontinuidades en los puntos de la variable  . 
0 2
0.01 ∈ 2,3
0.09 ∈ 3,4
0.34 ∈ 4,5
 
0.66 ∈ 5,6
0.94 ∈ 6,7
0.99 ∈ 7,8
1 8.
 
Las  gráficas  de  la  función  de  masa  de  probabilidad  y  de  la  función  de 
distribución aparecen dibujadas en la Figura 7‐3. 
 
b) La probabilidad que tenemos que calcular es  4 4 , que, sin 
más que buscar en la tabla de la función de distribución, vemos que es 0.34.  
 
                                                                                              P á g i n a  | 139 

Figura 7‐3 

 
 

7.1.2 Variables discretas infinitas numerables. 
Las variables discretas pueden tomar un conjunto infinito de valores, siempre 
que este sea “numerable”. Por ejemplo, la variable  =“número de hombres con los
que podría yacer Mesalina” toma los valores  1,2,3. .. Lógicamente, la probabilidad 
de  tomar  un  valor  deberá  ir  disminuyendo  de  alguna  forma,  puesto  que  debe 
verificarse siempre que la suma de probabilidades ∑  sea 1 (y no hay 
ningún  ser  humano  catalogado  a  día  de  hoy  como  capaz  de  infinitos  encuentros 
amorosos ‒incluyendo a Lisa Sparx, que citaremos en el próximo capítulo‒, que se 
sepa). 
 

Ejemplo 7-4 La universidad americana es un lugar de infinitas anécdotas. Se


cuenta que un estudiante de ingeniería, harto de escuchar frases del estilo
“las mujeres no nos fijamos en el físico ni en el dinero, sino que el hombre sea
sensato, detallista, reflexivo, que nos haga reir, etc.” decidió preguntarle a
Einstein cual era su probabilidad de conseguir una cita con una mujer.

 Einstein  le  contestó  que,  según  sus  años  de  investigaciones,  para  la  gente 
“normal, correctamente vestida y educada”, la variable “número de citas por noche” 
 140 | P á g i n a  
 
es  una  variable  de  Poisson  de  parámetro  0.2.  El  estudiante  le  dijo  que  era  su 
primer año en la universidad y que no conocía la variable de Poisson, porque todavía 
no había llegado a ese tema, y que únicamente había visto la definición de variable 
aleatoria discreta. Einstein le dijo que no se preocupara, que precisamente se trataba 
de una variable aleatoria discreta que toma valores  0,1,2, . .. y, en principio, hasta 
infinito, siendo la probabilidad de cada valor de la forma 

  , siendo   un número mayor que cero. 
!

Einstein  le  explicó  que,  además,  como  buena  variable  aleatoria,  se  puede 
comprobar  que  siempre  (independientemente  del  valor  de    la  suma  de 
probabilidades da 1:   

1, 

pero que, en realidad, no hacía falta sumar tanto, porque para  0.2, con pocos 
valores (12, por ejemplo) la suma ya vale 1, con lo cual la probabilidad de ligar era 
bastante alta. 
Como  aquel  domingo  era  la  fiesta  de  entrega  de  los  Oscar,  el  estudiante 
decidió  colarse.  Fue  una  a  una  a  todas  las  actrices  (incluida  Whoopi  Goldberg) 
preguntándoles si querían pasar la noche con él, y no sólo se llevó varios bofetones, 
sino  que,  tras  entrarle  a  200  actrices, 
terminó en comisaría por acosador. 
Mientras estaba en los calabozos, 
el  estudiante  trató  de  distraerse 
calculando  las  probabilidades  en  una 
variable  de  Poisson  con  0.2, 
comprobando que el diagrama de barras 
es de la forma de la izquierda, en donde 
vemos  que  0   es  mucho  más 
grande  que  las  demás  (o  sea  que  la 
probabilidad de no ligar es altísima). 
                                                                                              P á g i n a  | 141 

Hay  quien  dice  que,  finalmente,  el  estudiante  consiguió  una  cita  con  un 
travesti que estaba en el calabozo, pero de eso ya no hay pruebas.  

7.2 VARIABLES ALEATORIAS CONTINUAS 

 
Una variable aleatoria continua es aquella que puede tomar cualquier valor 
(al  menos  teóricamente)  entre  2  fijados.  Los  valores  de  la  variable  (al  menos 
teóricamente) no se repiten. 
Ejemplos:  =“Tiempo observado al recorrer una cierta distancia, estatura, peso,
nivel de colesterol en sangre...”.  Todas  las  precisiones  realizadas  en  el  capítulo  de 
variables  estadísticas  son  igual  de  adecuadas  en  este  caso.  Cuando  observamos 
valores de una variable aleatoria continua, existe una limitación en cuanto al número 
de valores que puede tener la misma. Esto es, en la práctica, la variable no puede 
tomar  infinitos  valores.  A  la  hora  de  medir  el  peso  o  la  estatura,  por  ejemplo,  se 
trabaja con un número preciso de decimales (que puede ser grande pero nunca será 
infinito). Lo que se está haciendo es una llamada discretización a la hora de tomar 
datos. Sin embargo, desde un punto de vista matemático, consideraremos siempre 
que una variable continua puede tomar infinitos valores. Esto nos permitirá trabajar 
 142 | P á g i n a  
 
con propiedades matemáticas que nos aportarán mucha información de la variable 
considerada. 
 

7.2.1 Función de densidad 
 
Las variables aleatorias continuas vienen caracterizadas por una función   que 
se llama función de densidad, que es una generalización de la función de masa de 
probabilidad.  Esta  función  (real,  de  variable  real),  debe  verificar  que  0  en 
cualquier valor de   (el dibujo de la función debe estar por encima del eje horizontal) 
y que la integral  1 (el área bajo la curva y el eje horizontal vale uno), 
como vemos en la figura siguiente.  
El concepto de función de densidad surge de la generalización del polígono de 
frecuencias.  En  el  capítulo  de  estadística  descriptiva  vimos  que  el  polígono  de 
frecuencias consiste simplemente en unir los puntos medios de las barras superiores 
de los rectángulos, en el histograma de frecuencias, y comprobábamos que el área 
encerrada  por  el  histograma  o  el  polígono  de  frecuencias  es  1  (considerando 
frecuencias relativas). 
                                                                                              P á g i n a  | 143 

Supongamos ahora que tomamos sucesivamente diferentes muestras de una 
variable continua, cada vez con mayor número   de datos. A medida que  aumenta, 
el número de intervalos al realizar un histograma (o polígono) de frecuencias también 
crece. La línea del polígono de frecuencias se va dibujando con segmentos cada vez 
más pequeños, que acaban definiendo una función matemática con alguna fórmula 
específica. En la Figura 7‐4 y la Figura 7‐5 vemos un ejemplo, donde elegimos una 
variable, y vamos cogiendo muestras de la misma, aumentando el tamaño muestral 
sucesivamente. Comprobamos que el polígono de frecuencias se va perfilando cada 
vez más. 

Figura 7‐4 
 144 | P á g i n a  
 

Figura 7‐5 

 
La fórmula exacta de la función   se corresponderá con alguna de las muchas 
funciones de densidad que han sido definidas a lo largo de la historia (cada una suele 
tener un nombre específico, y su fórmula ya fue inventada, o escrita, por alguien más 
listo  que  nosotros  ‒Gauss,  Student,  Snedecor...  ‒,  así  que  no  tenemos  que 
preocuparnos de adivinar cuál es la función). En la Figura 7‐6 tenemos un ejemplo de 
una función de densidad de tipo exponencial (que corresponde a la función que va 
dibujando  el  polígono  de  frecuencias  de  las  figuras  anteriores),  cuya  expresión 
matemática es  

0 si 0 (7‐2) 
 
si 0 con 0
                                                                                              P á g i n a  | 145 

Este tipo de función corresponde a la función de densidad de variables que 
miden el “tiempo de vida”. Como podemos observar en la gráfica, el histograma de 
frecuencias se adapta perfectamente a la medición del tiempo de vida de un conjunto 
muy grande de seres vivos, o de componentes de aparatos electrónicos (transistores, 
circuitos…).  Volveremos  a  citar  esta  variable,  con  mayor  detalle,  en  el  capítulo 
siguiente.  

Figura 7‐6 

 
Una vez expuesto que, en una variable aleatoria continua, las propiedades de 
la  misma  vendrán  descritas  por  la  función  de  densidad,  indiquemos  que  las 
probabilidades se calcularán como una integral definida:   

que corresponde al área bajo la curva   entre los valores   y   (Figura 7‐7). 


 146 | P á g i n a  
 

 
Figura 7‐7 

 
En  el  caso  de  una  variable  aleatoria  continua,  la  probabilidad  de  cualquier 
punto concreto   es cero, porque no hay área bajo la curva: 

0. 

Esto puede sonar un poco raro, al principio. Si hablamos, por ejemplo, de la 
variable altura, nos podemos preguntar: “¿cuál es la probabilidad de medir 1.72?”. 
Según lo que acabamos de decir, la probabilidad de un punto es cero. ¿Qué sucede? 
Pues  que,  como  dijimos  antes,  en  la  práctica  realizamos  una  discretización  de  la 
variable continua altura. La pregunta matemáticamente correcta sería: “¿Cuál es la 
probabilidad de tener una estatura entre 2 valores   y  ?” En función de la precisión 
que estemos utilizando, cogeremos   y   muy cercanos a 1.72. Esa probabilidad es 
la probabilidad de un intervalo (por pequeño que sea), y esa probabilidad sí será un 
número más grande que cero. 
                                                                                              P á g i n a  | 147 

 
 
 Precisamente por este hecho, cuando calculemos la probabilidad de que una 
variable continua tome valores entre dos números   y  , tendremos que   

o sea, todas esas probabilidades dan lo mismo, porque considerar un punto más no 
cuenta  (al  tener  probabilidad  cero).  Esto  va  a  venir  muy  bien  cuando  se  hagan 
ejercicios de variables continuas, porque la probabilidad de equivocarse será cero. 
Función de distribución. La función de distribución tiene el mismo significado 
para  una  variable  aleatoria  continua  que  para  una  discreta,  y  es  la  probabilidad 
acumulada hasta un punto  . El equivalente continuo de una suma es la integral:   


 148 | P á g i n a  
 
que corresponde al área acumulada, bajo la función de densidad  , desde  ∞ hasta 
el valor  . Gráficamente, podemos verlo en la Figura 7‐8. En esta figura en concreto, 

Figura 7‐8 

la función toma valores mayores que cero a partir de  4, por lo que el area desde 
∞ hasta cualquier valor   se convierte en el área desde  4 hasta  . 
La  función  de  distribución,  matemáticamente,  será  una  función  no 
decreciente que varía entre 0 y 1. Al contrario que en el caso de una variable discreta, 
la  función  de  distribución  de  una  variable  continua  es  una  función  continua.  Por 
ejemplo, la función de distribución correspondiente a la densidad exponencial (7‐2) 
es: 
0 si 0
   
1 si 0

Esta función aparece dibujada en la Figura 7‐9. Ampliaremos más detalles de 
la variable exponencial en el capítulo siguiente. Por último, indicar que, debido a que 
la función de distribución se calcula como la integral de la función de densidad, ésta 
última es la derivada de la función de distribución: 
                                                                                              P á g i n a  | 149 

  , 
de manera que si, para una variable continua, conocemos su función de distribución, 
no hay más que derivarla para obtener la función de densidad. 

Figura 7‐9 

 
 150 | P á g i n a  
 
7.3 MEDIDAS CARACTERÍSTICAS DE UNA VARIABLE ALEATORIA 

 
Igual que en el caso de variables estadísticas, para las variables aleatorias se 
pueden definir medidas de centralización, dispersión y forma. Las más utilizadas son 
el valor medio o esperanza (generalización de la media aritmética) y la varianza (o su 
raiz cuadrada la desviación típica). También podemos definir y calcular los mismos 
parámetros  que  hemos  visto  en  variables  estadísticas:  mediana,  cuartiles,  moda, 
coeficiente de simetría, etc., y el significado de los mismos coincide con el definido 
en cada caso. Vamos a ver como se calculan los parámetros más utilizados. 
 

7.3.1 Esperanza de una variable aleatoria 
 
Es la generalización de la media aritmética. También se llama valor medio o 
valor esperado, y se representa por la letra griega  .  
 Si    es  una 
variable  aleatoria 
discreta  (representada, 
de manera general, por la 
tabla  (7‐1),  se  calcula 
como la media aritmética 
de los valores, es decir la 
suma  de  los  valores  por 
sus  probabilidades  (las 
probabilidades serían las frecuencias relativas).  

Recordemos  que  la  media  aritmética  de  una  variable  estadística  se  definió 
como  
                                                                                              P á g i n a  | 151 

...
̅ , 

que, obviamente, sería equivalente a escribir    
1 1
̅ , 

es  decir,  sería  la  esperanza  de  una  variable  cuyos  valores  aparecen  todos  con  la 
misma probabilidad  1/ . Si a una variable estadística la representamos por sus 
valores   y sus frecuencias relativas son  / , entonces la media aritmética se 
puede escribir como 

̅ , 

o, como vemos, suma de valores por frecuencias. En el caso de una variable aleatoria, 
las  frecuencias  se  transforman  en  probabilidades  (de  ocurrencia).  Por  eso  la 
esperanza es un valor medio “esperado”.  
Si    es  una  variable  aleatoria  continua,  la  variable  toma  infinitos  valores. 
Como vimos en la función de distribución, el equivalente continuo de la suma es la 
integral. La fórmula matemática incluye en este caso a la función de densidad:    

Nota 7-1 Puede ocurrir, tanto en variables discretas como continuas, que el valor que
se obtenga al calcular la esperanza sea un número que tiende a infinito. En este caso,
se dice que la variable aleatoria no tiene esperanza. Si la variable aleatoria no tiene
esperanza, tampoco tiene varianza. Más adelante veremos algún ejemplo.

7.3.2 La varianza 
 
Se representa  , y la desviación típica   es la raiz cuadrada (con 
signo positivo) de la varianza. Igual que en el caso de variables estadísticas, mide la 
dispersión de la variable, y se calcula como la media de las desviaciones (elevadas al 
cuadrado) de los valores a su media:    
 152 | P á g i n a  
 

También puede calcularse como 

.   (7‐3) 

  Si X es una variable discreta, la forma de hacer los cálculos será    

en función de la fórmula (7‐3). 
Si X es una variable continua,   

y que, igual que antes, en virtud de la fórmula (7‐3), puede calcularse como   

Ejemplo 7-5 Calcular la media o esperanza de la variable aleatoria del


Ejemplo 7-3.

Solución. 
Utilizando la fórmula, tenemos que sumar valores por probabilidades:   

2 ⋅ 0.01 3 ⋅ 0.08 4 ⋅ 0.25 5 ⋅ 0.32 6 ⋅ 0.28 7 ⋅ 0.05 8 ⋅ 0.01 4.97. 


La varianza la calculamos mediante la fórmula 

Como la media ya la hemos calculado, calculamos el primer término (que es 
igual que calcular la media de los valores al cuadrado): 
                                                                                              P á g i n a  | 153 

  ∑ 2 ⋅ 0.01 3 ⋅ 0.08 4 ⋅ 0.25 5 ⋅ 0.32 6 ⋅


0.28 7 ⋅ 0.05 8 ⋅ 0.01 25.93. 
Por lo tanto, la varianza 
  25.93 4.97 1.22. 
  

7.3.3 Propiedades de la media y varianza 
La  media  y  la  varianza  de  una  variable  aleatoria  poseen  las  mismas 
características o propiedades vistas para las variables estadísticas unidimensionales, 
en la sección correspondiente . Concretamente, podemos resumir que si 

, donde , son números cualesquiera ⇒    (7‐4) 


 
⇒ y .

 
Además,  tenemos  que,  si  sumamos  variables  independientes  (el  valor  de 
cualquier  variable  no  depende  de  los  valores  de  ninguna  otra),  la  esperanza  de  la 
suma es la suma de esperanzas, e igual ocurre con la varianza: 

... ... ,      (7‐5) 


... V ... . 

 
Una generalización de estas dos últimas fórmulas es el siguiente resultado: si 
tenemos  , . . . ,     variables  independientes,  y    números  reales  , , . . . , , 
entonces: 

... ... ,   
   (7‐6) 
⋯  
 
... . 

 
 154 | P á g i n a  
 
Ejemplo 7-6 La variable mide el peso de las pizzas sencillas de la marca
Parradellos, y tienen de media 500 gramos y varianza 5. La variable mide
el peso de los yogures de la marca Dadonde, y tiene de media 120 gramos
con varianza 2. Manuel y Manuela cenan todos los días una pizza doble y un
yogur y medio. ¿Cuál es la media y varianza de la variable que mide el peso
de la cena?

Solución.  
             El peso de la cena es  2 1.5 . Por lo tanto  2 ⋅ 500 1.5 ⋅
120 1180  gramos,  y  la  varianza  es  2 1. 5 4⋅
5 2.25 ⋅ 2 24.50.  

 
 

7.3.4 Mediana 
La mediana   es el valor que deja a cada lado el 50 por ciento de la población 
(la probabilidad a cada lado es 0.5):   
0.5 y 0.5 si es discreta, 
  0.5 si es continua. 
 
                                                                                              P á g i n a  | 155 

7.3.5 Cuantil 
Es la generalización de la mediana. Dado un valor  , 0 1, el cuantil   
es el punto que deja una probabilidad   a su izquierda. 

  y 1 si es discreta, 

  si es continua. 

Al igual que en el primer capítulo, podemos definir: 
‐ los cuartiles, que dividen a la población en 4 partes iguales:   es el cuantil 
. ,  es el cuantil  .  o Mediana, y   sería el cuantil  .  (ver la Figura 7‐10). 
‐ los deciles, que dividen a la población en 10 partes iguales. 
‐ los percentiles, que dividen a la población en 100 partes iguales. 

Figura 7‐10:   cuantil  , que deja a la izquierda área o probabilidad p. 

  

7.3.6 Moda 
La moda  es el valor más probable o frecuente, es decir, el valor   con 
mayor   si   es discreta (el valor que aparece con mayor probabilidad), o el valor que 
maximiza la función de densidad   si   es continua. La moda no tiene por qué ser 
única. En el caso de una única moda se dice que la distribución es unimodal, y con 
más modas multimodal. 
 156 | P á g i n a  
 
Un ejemplo lo vemos en la Figura 7‐11. La variable que posee la función de 
densidad  que  vemos  en  la  gráfica  tiene  2  modas  relativas  (los  valores  que  hacen 
máxima la función en ciertos intervalos, y una moda  absoluta, señalada en el gráfico). 
 En esta imagen incluímos también la posición de los cuartiles, o valores que 
dividen  la  variable  en  cuatro  partes  iguales  según  el  área  o  probabilidad,  que 
aparecen resaltados en el eje horizontal de la gráfica.  

Figura 7‐11 

 
 

Ejemplo 7-7 Como nos enseñaron en la película Origen (Inception, 2010),


dentro de un sueño el tiempo pasa mucho más lentamente que en la
realidad. A la vez, si se va bajando el nivel, es decir, si se sueña dentro de
un sueño (sería sueño nivel 2) el tiempo todavía es mucho más lento, y así
sucesivamente.
Un ejecutivo de bolsa, que liga habitualmente con probabilidad , se
                                                                                              P á g i n a  | 157 

está volviendo cada día más adicto al sexo, y se encuentra decidido a


descender por lo menos a un sueño de nivel 4 para ligar con una tía y estar
dale que te pego durante 50 años (tiempo del sueño). Para entrar en cada
nivel del sueño le ha comprado unos tripis a un médico deportivo, que le
garantizan un “sueño lúcido” (como se llaman los sueños donde se controla
lo que uno hace) con probabilidad .
a) Determinar la función de masa de probabilidad de la variable =“nivel del
sueño en el que liga el ejecutivo”.
b) Calcular la probabilidad de que consiga llegar al nivel 4 y allí ligar.
c) Calcular el nivel medio esperado al cual se llega (y se liga) con las
pastillas del médico.

Solución. 

a) Llamemos  =“ligar” y   =“nivel de sueño  ”. Tenemos que  . 

Nivel 0 (vida real): 
1
0 . 
4
Nivel 1 (sueño): 
3 1
1 ∩ ⋅ .  
4 4
Nivel 2 (sueño dentro de un sueño): 
3 3 1
2 ∩ ∩ ⋅ ⋅ ⋅ ⋅ . 
4 4 4
En general: 
3 1
∩ ∩. . .∩ ∩ ⋅ . 
4 4
Se comprueba que es una ley de probabilidad, puesto que las probabilidades 
suman 1: 

1 3
1. 
4 4

b) La probabilidad de ligar en el nivel 4 es 
 158 | P á g i n a  
 
1 3
4 ⋅ 0.079. 
4 4
c) El número medio de niveles que se alcanza es la esperanza de la variable, 
1 3

4 4
 que puede comprobarse que es 3. 
Mala  suerte  para  el  ejecutivo  de  bolsa,  que  necesita  llegar  al  nivel  4  para 
cumplir su sueño (nunca mejor dicho). 
 

 
Nota 7-2 ¿Cómo pueden calcularse las sumas infinitas? En programas como
Mathematica o Maple es muy sencillo. Tenemos en internet recursos también para
hacerlo. Una página muy útil para cálculos matemáticos y estadísticos es la de
Wolfram Alpha. Para calcular una suma (que puede ser infinita) el enlace es:
                                                                                              P á g i n a  | 159 

http://www.wolframalpha.com/examples/Sums.html
y en él ya se ven ejemplos de la sintaxis que hay que utilizar (muy sencilla).

  

Ejemplo 7-8 “Infinitus est stultorum numerus” (Eclesiastés, de la biblia,


aunque hay quien se la atribuye a Einstein). Es algo así como que “el número
de tontos es infinito”. Cuenta la leyenda que Zenón de Citium hizo un alto en
el regreso a su citium y paró a cenar (para dar honor a su nombre) en una
ciudad famosa por la cantidad de familiares que se habían casado entre sí.
Después de mucho deambular por dicha ciudad, y con su mente privilegiada,
Zenón llegó a la conclusión de que el número de necios que uno podía
encontrarse paseando por cualquier calle de la ciudad era una variable
aleatoria, tomando valores con la siguiente ley de probabilidad:

1 12 /6
2 1/4
3 1/9
⋮ ⋮
1/
⋮ ⋮

Como vemos aparece el número en ella, símbolo de la armonía matemática


en toda tabla de la antigüedad que se precie. Demostrar que la famosa frase
es cierta, calculando el número medio de necios en una calle cualquiera.

Solución. 

Excepto  el  1,  que  aparece  con  probabilidad  ,  el  resto  de  valores   
aparecen con probabilidad  . Puede comprobarse que, en efecto, se trata de una 
ley de probabilidad, puesto que la suma de probabilidades da 1:   
12 1
1. 
6

Vamos a intentar calcular el número medio de necios en una calle. Cuando 
escribimos la fórmula de  :   
 160 | P á g i n a  
 
12 1 12 1
⋅ 1⋅ , 
6 6

y la suma infinita de la derecha diverge (tiende a infinito), por lo que el número medio 
tiende a infinito. Como dijimos anteriormente, cuando esto sucede, se dice que la 
variable aleatoria no tiene esperanza (lo cual no le quita razón alguna a la frase).  

 
 

Ejemplo 7-9 En teletimo TV anuncian dos pastillas hechas con componentes


naturales, destinadas a aumentar el rendimiento de las parejas de la tercera
edad en las noches de amor. En los prospectos de las pastillas incluyen los
valores de los minutos de rendimiento en el lecho (aproximados en intervalos
de cinco minutos) y las probabilidades correspondientes.
, 5 10 15 20 25 30 35 40 45
0.2 0.15 0.15 0.2 0.1 0.1 0.05 0.05 0
 
0.1 0.1 0.05 0.2 0.2 0.15 0.08 0.07 0.05

a) Hallar el rendimiento medio para cada pastilla. b) ¿Cuál de las dos


provocará una mayor variación en el rendimiento medio de las parejas?

Solución. 
                                                                                              P á g i n a  | 161 

a) El rendimiento medio en cada pastilla corresponde a la media o esperanza 
de cada variable. 
5 ⋅ 0.2 10 ⋅ 0.15 15 ⋅ 0.15 20 ⋅ 0.2 25 ⋅ 0.1 30 ⋅ 0.1 35 ⋅ 0.05
40 ⋅ 0.05 18. 
5 ⋅ 0.1 10 ⋅ 0.1 15 ⋅ 0.05 20 ⋅ 0.2 25 ⋅ 0.2 30 ⋅ 0.15 35 ⋅ 0.08
40 ⋅ 0.07 45 ⋅ 0.05 23.6. 
b) Para calcular cuál de las dos pastillas tiene mayor variación, calculamos las 
varianzas y los coeficientes de variación. 
5 ⋅ 0.2 10 ⋅ 0.15 15 ⋅ 0.15 20 ⋅ 0.2 25 ⋅ 0.1 30 ⋅ 0.1  
35 ⋅ 0.05 40 ⋅ 0.05 427.5. 
5 ⋅ 0.1 10 ⋅ 0.1 15 ⋅ 0.05 20 ⋅ 0.2 25 ⋅ 0.2 30 ⋅ 0.15  
35 ⋅ 0.08 40 ⋅ 0.07 45 ⋅ 0.05 675. 
427.5 18 103.5. ⇒ 10.17. 
675 23. 6 118.04 ⇒ 10.86. 
Finalmente: 
10.17
0.56,
18
10.86
0.46.  
23.6
Por lo tanto, el primer fármaco tiene mayor variación.  
 

Ejemplo 7-10 Sea la variable aleatoria que mide el tiempo que la gente
aguanta sin acostarse con su pareja, en semanas, después de un
diagnóstico de enfermedad venérea. La función de densidad de esta variable
aleatoria viene dada por:
1 ∈ 0,2
. 2
0 ∉ 0,2
a) Determinar y representar la función de distribución de esta variable. b)
¿Cuál es la probabilidad de que un diagnosticado de venéreas vuelva ya a la
 162 | P á g i n a  
 
cama con la pareja antes de 3 días y medio? ¿Y exactamente a los tres días
y medio? c) ¿Cuál es la probabilidad de que aguante más de tres días y
medio y menos de 1 semana?

Solución.   
Dibujamos la función de densidad a continuación. 

 
a) Al estar la función de densidad definida en 3 tramos (antes de 0, entre 0 y 
2, y después de 2), la función de distribución tendrá que calcularse en dichos tramos, 
como  la  integral  desde  ∞  hasta  .  En  cada  tramo  el  área  se  calculará  según  la 
función que tengamos. Podemos verlo de forma detallada en las gráficas F1, F2 y F3.  
 

F1 
                                                                                              P á g i n a  | 163 

F2 

F3 

   
Matemáticamente: 

0 0 0
  0 1 4 0 2 
1 0 1 2

 
 164 | P á g i n a  
 
Esta función la dibujamos a continuación. 

 
b) El recorrido de la variable es 2 semanas. Tres días y medio corresponde a 
(semana) 0.5. 

  0.5 0.5 0.5 0.5 4 0.4375. 

La probabilidad de volver a acostarse con su pareja justo a los tres días y medio 
es  0.5 0 porque es una variable continua; la probabilidad de un punto es 
cero. 
c)  La  probabilidad  de  que  aguante  más  de  tres  días  y  medio  y  menos  de  1 
semana es  0.5 1 1 0.5 1 1 4 0.4375 0.3125.  

Ejemplo 7-11 En una antigua empresa pública privatizada por el gobierno, el


sueldo mensual, en miles de euros, que cobran los políticos consejeros de la
empresa (sólo por ir a sentarse) está representado por una variable aleatoria
continua con función de densidad
0 2
4
4 .
2 4
4
0
a) Determinar la función de distribución. b) Un periodista sabe que un
consejero no ha llegado este mes a juntar 3000 euros. ¿Cuál es la
                                                                                              P á g i n a  | 165 

probabilidad de que haya tenido un sueldo mayor de 1500 euros? c) Calcular


el sueldo mensual medio.

Solución. Primero dibujamos la función de densidad en la Figura 7‐12. 
 a) Al estar la función de densidad definida en 4 tramos (antes de 0, entre 0 y 
2, entre 2 y 4, y después de 4), la función de distribución tendrá que calcularse en 
dichos tramos, como la integral desde  ∞ hasta  . En cada tramo el área se calculará 
integrando  la  función  que  tengamos.  Podemos  verlo  de  forma  detallada  en  las 
gráficas F1 y F2. 

Figura 7‐12 

 
Matemáticamente, la función de distribución se escribe: 

0 0 0
0 0 2
   
2 4
1 4
 
 
 
 
 166 | P á g i n a  
 

 
F1 

 
F2 

La gráfica de la función de distribución es la que sigue. 
                                                                                              P á g i n a  | 167 

b)  Tenemos  que  calcular  1500/ 3000 .  Por  la  definición  de 
probabilidad condicionada, es   
1 1
1500 3000 3000 1500 1 3 3 1. 5
8 8
3000 3000 1
1 3 3
8
0.67. 

c) El sueldo mensual medio es  .  En este caso, la integral 
se divide en una suma de 4 integrales, una por cada parte en que   se define de forma 
diferente.   

   
4
⋅0⋅ ⋅ ⋅ ⋅ ⋅ ⋅0⋅  
4 4
   
4
0 0  
4 4
   
2 4
2. 
3 3
Por lo tanto, el sueldo medio son 2000 euros.  

Ejemplo 7-12 La duración, en horas de espera, en las urgencias de un gran


hospital público, es una variable aleatoria continua con función de densidad

, 100, 0 .

a) Calcular el valor de y la función de distribución. b) Calcular la probabilidad


de que una paciente espere menos de 200 horas, si ya lleva 150 horas en la
sala de espera. c) Calcular el valor que, como mínimo, esperan el 50 por ciento
de los pacientes. d) Calcular el tiempo medio de espera.

Solución. 
 168 | P á g i n a  
 
a) El dibujo de la función de densidad es el que sigue: 

Como el área bajo la función de densidad debe ser 1, se tiene que    

1 0 0 . 

Tenemos que   

con lo que   

0 . 
→ 100 100
Como este último valor debe ser igual a 1, obtenemos que  100. 
La función de distribución será    
0 100
 
100
100

Como  100, resulta    
0 100
100 . 
1 100

Dibujamos la función: 
                                                                                              P á g i n a  | 169 

 
b) Nos piden calcular  200/ 150 . 
   
150 200 200 150
200/ 150  
150 1 150
   
100 100
1 1 1
200 150 0.25 
100 4
1 1
150
c)  Nos  piden  calcular  el  valor    tal  que  0.5.  Usando  la 
probabilidad del suceso complementario, tenemos que  1 0.5 0.5. 
Por lo tanto, el valor   es precisamente la mediana. Como  , 
tenemos que   
100 100
1 0.5 ⇒ 200 . 
0.5
d) El tiempo de espera medio es la esperanza de la variable.    
100
⋅0⋅  

   
100
100 . 
 170 | P á g i n a  
 
Como vemos, el resultado es un número que tiende a infinito. Esta variable 
aleatoria no tiene esperanza.  
 

Ejemplo 7-13 Un científico muy templado ha experimentado, en su propio


cuerpo, sobre cierta estructura orgánica que puede sufrir, debido a algunos
estímulos, una dilatación que (medida en cm) ha logrado describir como una
variable aleatoria continua con función de densidad dada por:
0 3
3 5
8 5 8

a) Sabiendo que la función de densidad es una función continua de ,


determinar y . b) Calcular la probabilidad de que la dilatación sea inferior a
3 cm. c) Si ha observado que la estructura ha dilatado más de 3 cm, ¿con qué
probabilidad la dilatación estará entre 3 y 5 cm? d) Calcular el valor de la
variable que más probabilidad tiene de repetirse. e) Calcular que dilatación
será superada por, como mucho, el 10 por ciento de las personas.

Solución. 
a) Como nos dicen que la función es continua, tendremos que, en los valores 
3 y 5, coinciden las distintas funciones, es decir: 

  ⋅3    y     8 5 , 

de donde únicamente obtenemos 3 . 

Por otro lado, la integral   debe ser 1:   

1 0 8  
3
   

8  
2 3 2

   
                                                                                              P á g i n a  | 171 

9 3 9 7
2 . 
2 2 2 2
Como  3 ,  tenemos  que  1 15 ,  con  lo  que    1/15  y 
3/15 1/5. 
La función de densidad tiene esta forma: 

b)  3 . 

c)  3 5/ 3    
1 2
3 5 ∩ 3 3 5 5 5 4

3 1 3 3 7 7
1 10
10
d)  Nos  piden  la  moda  de  la  variable,  es  decir  el  máximo  de  la  función  de 
densidad. Sin más que mirar a la función de densidad, vemos que el intervalo  3,5  es 
el intervalo modal, pues en dicho intervalo el valor que toma la función es constante 
(y máximo). 
e)  Nos  piden  el  valor    tal  que  0.10,  o,  lo  que  es  lo  mismo,  
0.9; esto es, nos están pidiendo calcular el percentil 90. 
En la gráfica de la función de densidad vemos que el 90 por ciento de área 
acumulada estará en el intervalo  5,8 , con lo que podemos escribir    
 172 | P á g i n a  
 
1
8 0.1. 
15

Integrando,   
1
8 0.1, 
15 2

que, haciendo cuentas, queda una ecuación de segundo grado:    
16 61 0, 
cuyas soluciones son 6.27 y 9.73. Como 9.73 está fuera del intervalo  5.8 , el valor 
del percentil 90 es 6.27.  
   
                                                                                              P á g i n a  | 173 

 
 

7.3.7 Resumen para vagos 
 

 
Variable  Variable 
Discreta     Continua 

Función de probabilidad    Tabla  con  valores  y  Función  , verificando   


probabilidades (que suman 1)    
0 y  

Función de distribución     Suma de probabilidades hasta    Area o integral desde  ∞ hasta    


,  

  con     

Media         


 
   
 

Varianza     
x    
   

 
Más ejercicios, para los inquietos, en [12]. 
 
 174 | P á g i n a  
 
 
Imagen para recordar conceptos (aunque esta no decimos que la recortéis y 
la peguéis en ningún sitio) 
 
 

 
Esperanza Aguirre,  solicitando el voto de los estadísticos, sin saberlo. 
 
 
 
 
 
 
                                                                                              P á g i n a  | 175 

8 PRINCIPALES VARIABLES DISCRETAS 
 
 Uno de cada 7 médicos opina que los otros 6 son idiotas. 
Los seis amigos del doctor House.  
 

8.1 VARIABLE DE BERNOULLI 

 
Supongamos un experimento aleatorio que admite sólo 2 posibles resultados: 
éxito  ( )  o  fracaso  ( ̅ ,  que  ocurren  con  probabilidad    y  1 , 
respectivamente. Este tipo de experimento recibe el nombre de prueba de Bernoulli. 
La variable aleatoria con función de probabilidad 

  0  
1
recibe el nombre de variable aleatoria de Bernoulli (se escribe  ∈ . 
 

8.1.1 Media y varianza 
Se obtiene fácilmente que   y  .   
0⋅ 1⋅ .
0 ⋅ 1 ⋅ ⋅ 1 ⋅ . 
 

Ejemplo 8-1 La variable que toma el valor cero si sale cara al lanzar una
moneda, y uno en caso contrario.
Ejemplo 8-2 Analizando una persona para saber si tiene una enfermedad. La
variable toma el valor 1 si tiene la enfermedad, 0 en caso contrario. en este
caso es la probabilidad de tener la enfermedad. Obviamente, a tener una
 176 | P á g i n a  
 
enfermedad no se le llamaría coloquialmente “éxito”, pero suele denominarse
así a aquel suceso en el que estemos interesados.

8.2 VARIABLE BINOMIAL 

 
Supongamos que se realizan   experimentos de Bernoulli de manera sucesiva, 
siendo cada experimento o prueba independiente del anterior (por ejemplo, lanzar   
veces una moneda; analizar   personas para saber si tienen o no una enfermedad). 
La Variable  “número de veces que ocurre el suceso   en las   pruebas” o 
“número  de  éxitos  en    pruebas”  recibe  el  nombre  de  variable  binomial  de 
parámetros   y   ( é  en 1 prueba)). Se escribe  ∈ , . 
La variable   puede tomar los valores 0,1,2, . . .  (en   pruebas puede haber 
desde 0 hasta   éxitos) siendo la probabilidad con que los toma:   
                                                                                              P á g i n a  | 177 

!
, donde , 
! !
y recordemos que el factorial de un número   es  ! ⋅ 1 ⋅ 2 ⋅. . .⋅ 3 ⋅
2 ⋅ 1. 
La obtención de esta fórmula es relativamente sencilla (si alguno no la sigue 
bien, guiarse por los macacos de la página siguiente): 
Si en   pruebas hay   éxitos, el suceso   (probabilidad   habrá ocurrrido   
veces.  En  consecuencia,  el  suceso  ̅  (fracaso)  habrá  ocurrido    veces.  A 
continuación  escribimos  una  situación  posible:  los    primeros  experimentos  o 
pruebas  dan  éxito  y  los    restantes  fracasos. 
1 .2 … . 1 . . 1 . 2 … . 1 .
… ̅ ̅ … ̅ ̅  

La  probabilidad  de  que  se  dé  esta  situación  es  la  probabilidad  de  la 
intersección de todos esos sucesos  ∩ ∩. . .∩ ̅ , que, por ser una intersección 
de  sucesos  independientes  (pensemos  en  el  experimento  más  facil,  lanzar  una 
móneda, éxito cara) es   

∩ ∩. . .∩ ̅ ⋅ ⋅. . .⋅ ⋅ ̅ ⋅ ̅ ⋅. . .⋅ ̅ . 
Ahora  éste  último  valor  (   debemos  multiplicarlo  por  el  número  de 
pósibles opciones que pueden darse, en   pruebas, de que ocurran   éxitos y   
9
fracasos  (que  se  vayan  alternando  éxitos  y  fracasos,  etc.) .  Se  demuestra  que  el 
número de posibles opciones es:   
!
, y, por lo tanto,   .  
! !

                                                       
9
Supongamos un caso muy sencillo: 3, 1. Las posibles situaciones que podrían
darse son ∩ ̅ ∩ ̅, ̅ ∩ ∩ ̅ y ̅ ∩ ̅ ∩ .
 178 | P á g i n a  
 

 
                                                                                              P á g i n a  | 179 

8.2.1 Media y varianza. 
Puede demostrarse que la media y la varianza son: 
  y . 
 

Nota 8-1 Es conveniente darse cuenta de que la variable Binomial es la suma


de variables de Bernoulli, independientes, esto es:
  ... , 
siendo la variable que mide si hay éxito en la prueba . Claramente, la variable de
Bernoulli es 1, . Por ello, y por las propiedades de la media y la varianza que
vimos en el capítulo anterior (la media de una suma es la suma de las medias, y la
varianza es la suma de varianzas, refiriéndonos siempre a variables independientes),
es trivial comprobar que, en efecto, la esperanza de una variable binomial es y su
varianza es , puesto que la esperanza de una Bernoulli es y su varianza es .

Ejemplo 8-3 El 65 por ciento de los alumnos de un instituto han dicho que
piensan acudir a la proxima convocatoria para rodear el congreso de los
diputados. El director se chiva al comisario de policía y éste, para ahorrar
tiempo, decide detener a 4 alumnos al salir del instituto. ¿Cuál es la
probabilidad de que, al menos uno de ellos, tuviera pensado acudir a la
manifestación, y así el comisario poder justificar que fue una detención
preventiva para evitar males mayores?

Solución. 
Definimos  =“éxito”  “acudir a la manifestación”.  0.65. 
Plantear  la  variable  “número de alumnos que piensan acudir a la
manifestación de un grupo de 4” es equivalente a plantear  =“número de éxitos en 4 
pruebas”. Por lo tanto,   ∈ 4,0.65 . La probabilidad que nos preguntan es 
1 . 
  1 1 1 1 0  
4
1 0.65 1 0.65 1 0.015 0.985, 
0
 180 | P á g i n a  
 
es decir, que el comisario tiene justificación casi segura.  
 

Ejemplo 8-4 Una leyenda urbana que suele circular por todas las
universidades es que siempre hay algún profesor que decide el aprobado o
suspenso lanzando los exámenes al aire. Los que caen en la mesa aprueban,
y los que no, suspenden. Si la probabilidad de que un examen caiga sobre la
mesa (es la pequeña del ordenador, no la suya de despacho) es 0.2, calcular
la probabilidad de que al menos la mitad de una clase de 40 alumnos apruebe.

Solución.  
Sea  “número de exámenes que caen sobre la mesa, de 40 lanzados”.  Esta 
variable  sigue  una  distribución  binomial  40,0.2 ,  pues  sería  éxito  caer  sobre  la 
mesa. 
La probabilidad de que al menos la mitad aprueben es   
20 1 20 1 19  

  
40
1 ⋅ 0. 2 ⋅ 1 0.2 ≅1 0.99 0.01.  
 (8‐1) 

Parece  bastante  lógico  pensar  que  sería  bueno  comprarle  una  mesa  más 
grande al profesor para mejorar el ratio de aprobados por clase.  
 

Nota 8-2 La suma que aparece en (8-1) la hemos calculado en la página


Statistics Calculator, dentro de la web www.danielsoper.com. Es una página donde
podemos calcular probabilidades y sumas acumuladas de todas las variables que vemos
en este capítulo, y así no es necesario utilizar las famosas tablas que suelen traer (casi)
todos los libros de estadística.

Nota 8-3 También podemos hacerlo de forma muy sencilla mediante R. R


trae las funciones de probabilidad/densidad y distribución, además de los cuantiles,
de todas las variables que se ven en este texto. Para calcular las probabilidades de los
                                                                                              P á g i n a  | 181 

ejemplos anteriores escribiríamos


dbinom(0,4,0.65) (con esto calculamos 0 , con ∈ 4,0.65 .
El resultado da:
[1] 0.01500625
Para sumar varias probabilidades:
sum(dbinom(0:19, 40, 0.2)) (con esto sumamos ∑ , con ∈
40,0.2 . El resultado da:
[1] 0.9999783
Para ver cuál es la sintaxis para cada variable sólo hay que escribir
help(Distributions)

8.2.2 Propiedad aditiva 
La  Variable  binomial  es  reproductiva  respecto  al  parámetro  .  Esto  quiere 
decir que Si  ∈ ,  e  ∈ ,  son 2 variables independientes, la suma 
∈ ,   (esta  propiedad  es  generalizable  a  un  número  finito  de 
variables). 
 

Ejemplo 8-5 Un activista del grupo Anonymous logra colar un virus en las
páginas web de una cadena editorial propiedad de un grupo religioso. El virus
hace arrancar de repente videos pornográficos en proporción del 5 por ciento
por página web (del total de videos informativos reales de dicha página o
dirección web). 6 sacerdotes se conectan al día a 20 direcciones diferentes
del mismo grupo editorial. Cálcular el número medio de videos que podrán
bajarse de internet al final del día.

Solución. 
Sea    el número de videos pornográficos que se cuelan en un grupo de 20
direcciones web, sabiendo que la probabilidad de que salga un video pornográfico por 
página  es  0.05.  Suponiendo  que  los  videos  pornográficos  surgen  de  manera 
independiente, ∈ 20,0.05 . 
 182 | P á g i n a  
 
Igualmente, la variable  ...  (siendo   la variable   medida para 
el sacerdote  , por la propiedad de reproductividad, sigue una distribución  20 ⋅
6,0.05 ≡ 120,0.05 . 
El número medio de videos al final del día es  120 ⋅ 0.05 6.  

8.3 VARIABLE DE POISSON 

 
Un proceso de Poisson es un experimento aleatorio que consiste en observar 
la  aparición  de  sucesos  puntuales  sobre  un  soporte  continuo  (tiempo,  longitud, 
superficie... ), de manera que: 
El proceso sea estable, es decir, a largo plazo el número medio de sucesos 
(que denominaremos  ) por unidad de medida es constante, y los sucesos ocurren 
aleatoriamente de forma independiente. 
Ejemplos: clientes que acuden a un mostrador por unidad de tiempo, llamadas 
por  unidad  de  tiempo  a  una  centralita,  pelmazos  por  unidad  de  tiempo  a  una  tia 
buena en una disco, defectos por metro de cable... 
Esto se entiende mejor con una gráfica: describimos un proceso de Poisson 
en la Figura 8‐1. 
En un proceso de Poisson, la variable  =“número de sucesos ocurridos en un 
intervalo”  se dice que sigue una distribución de Poisson de parámetro  . Se escribe 
∈ . Su distribución de probabilidad es   

, 0,1,2, . .. 
!
El número de valores   puede llegar hasta infinito. Es un caso de una variable 
aleatoria discreta que toma un número infinito numerable de valores. 
                                                                                              P á g i n a  | 183 

 
Figura 8‐1 

La variable de Poisson es también una generalización de la variable binomial. 
Supongamos  que,  en  un  experimento  de  Bernoulli,  el  suceso  éxito    tiene  una 
probabilidad    muy  pequeña  (se  dice  que    es  un  suceso  raro).  Puede 
demostrarse  que  si    es  la  variable  , ,  que  mide  el  número  de  éxitos  en   
pruebas, y   tiende a infinito,   puede aproximarse por una variable de Poisson de 
parámetro  . Por este motivo, la distribución de Poisson también es conocida 
como distribución de los “procesos raros”.   

⟶ con . 
→ !
En la práctica, no hay que suponer que se realizan muchísimas pruebas. Esta 
aproximación funciona bien si  30 y  0.1. 
 
 184 | P á g i n a  
 
8.3.1 Media y varianza 
Se tiene que    

Propiedad aditiva. Al igual que la variable binomial, la variable de Poisson es 
reproductiva  respecto  al  parámetro  .  Si  ∈   e  ∈ son  2 
variables  independientes,  la  suma  ∈ (y  esto  se  puede 
generalizar a una suma finita de variables). 

Ejemplo 8-6 Un ejemplo de variable de Poisson lo vimos en el ejercicio 4 del


capítulo anterior.

Ejemplo 8-7 En los años 80 del siglo XX, la probabilidad de encontrar un


político español valiente y con coraje era de 0.05 (hoy en día el número ha
descendido prácticamente a cero). Si se considera una muestra de 350
diputados de aquella época, ¿cuál es la probabilidad de que, ante una patrulla
de guardias civiles disparando al aire y gritando “¡al suelo, coño!”, haya 3 que
se queden sentados en su escaño?

Solución. 
Definimos  =“éxito” “ser valiente”.  0.05. 
“número de éxitos en 350 pruebas” ∈ 350,0.05 . 
Al ser  30 y  0.1, la variable   se puede aproximar por una variable de 
Poisson de parámetro  350 ⋅ 0.05 17.5. 
. .
La  probabilidad  de  3 ⋅ 2.2429 ⋅ 10   o 
!
0.000022429. 
Con  lo  cual,  queda  demostrado  que  el  golpe  de  Tejero  estaba  destinado  al 
fracaso desde el principio, porque Tejero empezó teniendo muy mala suerte (como 
vemos era muy difícil que 3 tíos no se echaran al suelo, como realmente sucedió).  
Todos los hechos posteriores fueron consecuencia de la ley enunciada por un 
estadístico apellidado Murphy: “si algo puede ir mal, irá mal”. 
                                                                                              P á g i n a  | 185 

 
Nota 8-4 En R, para calcular la probabilidad, nada más arrancar el programa
escribimos dpois(3,lambda=17.5)
El resultado es: [1] 2.242898e-05

Ejemplo 8-8 Supongamos que el número de frases coherentes dichas por un


político, en respuesta a una pregunta de los periodistas es, en media, de 2.
Tras salir de votar en contra de la destitución de dos compañeros del
consistorio, uno condenado por racismo y otra por robar carteras, el político
responde a 5 preguntas antes de que el público asistente rompa el cordón
policial y tenga que salir corriendo. Calcular: a) La probabilidad de que haya
dicho una frase coherente, cuando le preguntaron si le habían pagado por su
voto. b) La probabilidad de 10 frases coherentes en la contestación de las 5
preguntas.
 186 | P á g i n a  
 
Solución.  
La  variable    “número de frases coherentes en una respuesta”  sigue  una 
distribución de Poisson de media  2. 
a) Nos piden  
2
1 0.270. 
1!
b)  Al  ser  la  variable  de  Poisson  reproductiva,  podemos  considerar  que  la 
variable  =“número de frases coherentes en 5 respuestas”  sigue  una  distribución  de 
Poisson de media  5 ⋅ 2 10. La probabilidad pedida es    
10
10 ⋅ 0.125. 
10!
 

 
                                                                                              P á g i n a  | 187 

 
 

Ejemplo 8-9 El gerente de un club de carretera ha calculado que el promedio


de atención correcta (los clientes tomen una copita con una chica, suban a un
reservado, etc. y luego se marchen con la sonrisa en la boca) es 16 clientes
cada 4 horas. Le acaban de avisar de que, en la hora siguiente a que termine
el Madrid-Barça, va a llegar un minibús con 12 clientes juntos. ¿Cuál es la
probabilidad de que al menos la mitad sean atendidos correctamente, para no
tener pelea garantizada?

Solución. 
16 clientes en 4 horas supone 4 clientes por hora, luego la variable  =“número
de clientes correctamente atendidos por hora”  sigue  una  distribución  de  Poisson  de 
parámetro  4. 
La  probabilidad  de  atender  correctamente  al  menos  a  la  mitad  de  los  12 
clientes es  6  
 188 | P á g i n a  
 
4
1 6 1 5 1 1 0.785 0.215. 
!

Va  a  ser  mejor  que  el  gerente  tenga  las  pistolas  cargadas,  porqué  parece 
bastante probable que se va a liar. 
 

Nota 8-5 En R, para calcular la probabilidad, como 5 5 ,


podemos escribir:
1-ppois(5,lambda=4) (ppois es la función de distribución de la variable de
Poisson).
El resultado es [1] 0.2148696

  

8.4 VARIABLE GEOMÉTRICA O DE PASCAL 

 
Supongamos que se realiza un experimento de Bernoulli hasta que se obtiene 
el  primer  éxito  (por  ejemplo,  lanzar  una  moneda  hasta  obtener  cara,  mover  una 
ruleta hasta que salga negro). 
Definamos  la  variable  "número  de  la  prueba  en  que  se  obtiene  por 
primera vez un éxito”. Se dice que   sigue una distribución geométrica o de Pascal de 
párametro  é . 
Su función de probabilidad es fácil de calcular: 
Los valores que puede tomar   son 1,2,3,... y así, en principio hasta infinito, 
pues  el  primer  éxito  puede  ocurrir  en  la  primera  prueba,  en  la  segunda,  etc... 
Obviamente,  la  probabilidad  de  que    tome  valores  grandes  será  cada  vez  más 
pequeña. Se trata de otra variable aleatoria discreta que toma un conjunto infinito 
numerable de valores. 
La probabilidad de que la variable   tome un valor   concreto corresponde a 
que ocurran exactamente  1 fracasos y 1 éxito en la prueba  . La probabilidad de 
que eso ocurra es (recuérdese que   es éxito y  ̅ es fracaso).   
                                                                                              P á g i n a  | 189 

1
2 ̅ ⋅
3 ̅ ̅ ⋅  
⋮ ⋮ ⋮

̅ ̅ ̅. . . ̅ ⋅ ⋅. . .⋅ ⋅
Por lo tanto, la ley de probabilidad de esta variable es    
, 1,2, . .. 
Puede comprobarse que está bien definida, es decir que la suma de todas las 
probabilidades da 1, puesto que   

y la suma ∑  corresponde a la suma de una progresión geométrica de razón 
1, cuyo valor es exactamente el primer término, dividido por uno menos la razón, 
esto es   
1 1

1 1
Por  lo  tanto,  la  suma  de  probabilidades  es  ⋅ 1/ 1.  Las  progresiones 
geométricas solían darse en los cursos de educación secundaria, por eso lo citamos. 
De  todas  formas,  siempre  se  puede  calcular  la  suma  infinita  en  la  página 
WolframAlpha, que ya se indicó anteriormente. 
 

8.4.1 Media y varianza 
Se obtiene que    
1
y . 

Nota 8-6 En algunos textos definen esta variable como “número de fracasos
antes del primer éxito”. Es decir, si aparece definida la variable geométrica de esta
forma, =“número de fracasos antes del primer éxito”, téngase en cuenta que contar
 190 | P á g i n a  
 
es equivalente a contar 1. La variable tomará los valores
0,1,2, . . ..(antes empezábamos en el 1) y sus probabilidades serán ⋅ .
En este caso, la media y la varianza son / y / .

Ejemplo 8-10 Un pringado se ha enamorado de una comercial de un banco


que le ha llamado por teléfono. Gracias a su seductora voz, le ha contratado
la cuenta nómina y varios depósitos de participaciones preferentes. El caso es
que el pringado quiere hablar con ella de nuevo, pero ocurre que hay 40
agentes de atención teléfonica y la centralita asigna la llamada de forma
totalmente aleatoria. ¿Cuál es la probabilidad de que deba de llamar más de
8 veces para conseguir hablar con la telefonista? ¿Cuál es el número medio
de llamadas que deberá hacer?

 
Como cada llamada se asigna aleatoriamente a una telefonista, la probabilidad de 
que le toque la que está buscando es  1/40 0.025. 
                                                                                              P á g i n a  | 191 

La variable  =“número de la prueba en que consigue hablar con la chica que está
buscando” sigue una distribución geométrica de parámetro  . La probabilidad que 
tenemos que calcular es 

  8 1 8 1 ∑ 1 0.025 ⋅ 0.025
1 0.183 0.817. 
 El número medio de llamadas que deberá hacer es  1/ 40. 
 

Nota 8-7 Para calcular esta probabilidad por medio de R, debemos tener en
cuenta que R define la variable geométrica como “número de fracasos antes del primer
éxito”. Esto quiere decir que deberíamos calcular 7 1 7 1
7 , siendo la función de distribución en el valor 7. La sintaxis de 7 en R es
pgeom(7,prob=0.025).
El resultado es [1] 0.1833482

  

8.5 VARIABLE BINOMIAL NEGATIVA 

 
Esta  variable  supone  una  generalización  de  la  anterior.  En  la  variable 
geométrica se cuenta el número de fracasos antes del primer éxito. Ahora, vamos a 
suponer  que  se  realiza  un  experimento  de  Bernoulli  hasta  que  se  obtiene  el  éxito 
número  1 . 
Definamos la variable  "número de fracasos antes del éxito  ”.   se dice 
que sigue una distribución Binomial Negativa de párametros   y  . Se escribe  ∈
, . 
Su ley de probabilidad es  

1 (8‐2)  
, 0,1,2, . .. 

La forma de calcular la ley de probabilidad es del mismo estilo que la vista en 
la distribución binomial. Veamos como se hace: 
 192 | P á g i n a  
 
La variable   cuenta los fracasos hasta que haya   éxitos. Supongamos que 
vamos  realizando  pruebas  (hasta  llegar  al  éxito  ,  y  supongamos  que  las  1 
primeras pruebas son éxitos, y luego todas son fracasos (  fracasos):   
1 2 ... 1 1 2 ... 1
̅ ̅ ̅ ̅  
... ...
Como vemos, para que  , es decir haya   fracasos, la prueba   debe 
ser un éxito. 
La probabilidad de que suceda lo que vemos en la tabla de arriba ( 1 éxitos, 
a continuación   fracasos, y a continuación el último éxito) es  ⋅ ⋅ . 
Como,  obviamente,  debemos  tener  en  cuenta  que  los  éxitos  y  los  fracasos 
pueden mezclarse, hay que multiplicar   por todas las posibilidades que pueden 
darse. Se puede comprobar que el número de posibilidades es    
1 1 !

1 ! !
y, por lo tanto, la probabilidad de que   tome un valor   cualquiera es la expresada 
en la fórmula (8‐2). 
Puede comprobarse que se trata, en efecto, de una ley de probabilidad, es 
decir 
1
1. 

8.5.1 Media y varianza 
Se obtiene que    

Nota 8-8 Si la variable geométrica o de Pascal se define como “número de


fracasos antes del primer éxito” (Nota 8-6), está claro que la binomial negativa es suma
de variables independientes geométricas. Esto relación es análoga a la existente entre
la variable de Bernoulli y la variable Binomial, que es suma de variables de Bernoulli.
                                                                                              P á g i n a  | 193 

Por lo tanto, es facil de ver que la media de la binomial negativa es veces la media
de la geométrica ( / ), y la varianza veces la varianza de la geométrica ( / .

Ejemplo 8-11 Después de conseguir hablar por fin con su amor platónico, el
pringado del ejercicio anterior le ha pedido una cita pero la chica ha colgado
el teléfono. En otra llamada, una compañera apenada por el chico le dice que
insista, que ya se sabe que “el que la persigue la consigue”, y que le da la
impresión de que la compañera, si ve que él la llama al menos 5 veces,
acabará accediendo.

 
Como el teléfono al que tiene que llamar el chico es un 902, cada llamada
tiene un coste medio de 4 euros. Si llama más de 50 veces la factura superará
los 200 euros que tiene el padre para terminar el mes, y es capaz de tirar al
hijo por la ventana. ¿Cuál es la probabilidad de que, para conseguir que la
 194 | P á g i n a  
 
telefonista amada le coja hasta 5 veces, deba de llamar más de 50 veces al
número?

Solución.  
La variable  =“número de fracasos hasta obtener el éxito 5” ∈ 5,0.025 . 
Necesitamos calcular  45  (porque serán 45 fracasos antes del 5  éxito = 50 
llamadas).  45 1 45  

5 1
1 ⋅ 1 0.025 ⋅ 0.025 1 0.0081 0.9919. 

También podemos calcular esta probabilidad como  45  
1 45 1 45 ,  y  calculamos  45   en  R,  simplemente 
como: 
pnbinom(45, size=5, prob=0.025)
[1] 0.008132778

 
 
                                                                                              P á g i n a  | 195 

8.6 VARIABLE HIPERGEOMÉTRICA 

 
Supongamos que tenemos una población de   elementos, que se divide en 
dos clases:   y  ̅. El número de elementos de cada clase los denotamos como   y 
̅ .  Lógicamente  ̅ .   Supongamos que se extrae una muestra de tamaño 
 de la población, sin reemplazamiento. La variable  “número de elementos de la 
clase    en  la  muestra”  se  dice  que  sigue  una  distribución  hipergeométrica  de 
parámetros  ,  y  . Se escribe  ∈ , , si le llamamos “éxito” a obtener 
un elemento de la clase  , la variable   
nos mide el número de éxitos obtenidos 
en la muestra).  
NO  se  trata  de  una  variable 
binomial,  puesto  que  en  la  variable 
binomial las pruebas son independientes. 
Por lo tanto, en un experimento binomial 
lo  que  haríamos  sería  quitar  de  la 
población una muestra de tamaño   con 
reemplazamiento; esto es, elegir un elemento de la población, ver si es de la clase   
o no lo es, devolverlo a la población, extraer otro elemento de la población, ver si es 
de la clase  . . ., y así sucesivamente hasta   veces. 
 

Ejemplo 8-12 Supongamos una baraja de 40 cartas, donde


consideramos dos clases: , los oros, y ̅ el resto de cartas, y extraemos de
la baraja, por ejemplo, 5 cartas (todas a la vez, no hay reemplazamiento).
La variable =“número de oros en 5 cartas” sería una variable hipergeométrica
40,10,5 . En cambio, si sacamos una carta, comprobamos si es oro o no lo
es y anotamos el resultado, devolvemos la carta a la baraja, y hacemos esto
5 veces, la variable =“número de oros en 5 cartas ” sería una variable
5, .

 
 196 | P á g i n a  
 
La ley de probabilidad de la variable hipergeométrica es de la forma   
̅

,  

donde varía desde max 0, hasta min , . 


No hay ninguna cosa rara en los posibles valores de la variable. Lógicamente, 
 puede ser 0,1... pero está limitado por los tamaños de la población, el número de 
elementos de  , etc. Los valores mínimo y máximo son los que están escritos arriba. 
 

8.6.1 Media y varianza 
Puede comprobarse que estos valores son, respectivamente,   
⋅ ⋅
, 1 . 
1
Si se escribe   (  es la probabilidad de elegir un elemento de la clase  , 
y  llamamos  1   (que  equivaldría  a  elegir  un  elemento  de  la  clase  ̅ ,  las 
fórmulas de la media y la varianza quedan de la forma:   

, . 
1
Como vemos en las fórmulas escritas de esta manera, la media es la misma 
que la de la variable binomial, y la varianza es la de la binomial multiplicada por un 
factor. Esta coincidencia se debe a que la variable binomial puede considerarse un 
caso extremo de una variable hipergeométrica, cuando el tamaño de la población   
es infinito (muy grande). Si consideramos una población de tamaño infinito, sacar una 
muestra  sin  reemplazamiento  es  prácticamente  lo  mismo  que  sacarla  con 
reemplazamiento. 
En  la  práctica,  si    es  grande  respecto  a  ,  se  pueden  calcular  las 
probabilidades de la hipergeométrica por medio de la distribución binomial. Esto es 
posible cuando  / 0.1. Esto se hacía antes porque la distribución binomial estaba 
tabulada  (las  famosas  tablas  de  los  libros)  pero  la  hipergeométrica  no,  lo  cual 
conllevaba hacer cuentas con la calculadora; y en ocasiones ni con esta era posible. 
                                                                                              P á g i n a  | 197 

Hoy en día, si queremos, nos olvidamos de la aproximación (salvo que el profesor lo 
exija). 

Ejemplo 8-13 Volvamos a considerar los cuatro colegas del capítulo de


probabilidades, que iban al bar donde había un camarero resfriado.

 
La  variable  =“número de
cervezas negras en la muestra de tamaño
4”  sigue  una  distribución 
hipergeométrica  de  parámetros 
25, 10, 4. 
 
La  probabilidad  de  que  les 
toque al menos una cerveza negra es 
1 1  
2 3 4  
 198 | P á g i n a  
 
10 15 10 15 10 15 10 15
⋅ ⋅ ⋅ ⋅
1 3 2 2 3 1 4 0 , 
25 25 25 25
4 4 4 4
que también puede calcularse como  
10 15

1 1 1 1 0 1 0 4 0.89. 
25
4
Por lo que parece, alguno se va a tragar algo desagradable.  
 

Nota 8-9 De nuevo, para ver la diferencia con una binomial, supongamos que
todas las cervezas están en la barra, y cada uno de los cuatro clientes puede echar un
trago y devolver la jarra al mostrador (sí, sería una guarrada, pero estamos en un
ejemplo y, además, seguro que cualquiera que esté leyendo esto ha hecho cosas
peores). En este caso, la variable =“número de tragos de cerveza negra en la muestra
de tamaño 4” sería una variable binomial (al devolver la jarra al mostrador la situación
siempre queda la misma, por lo que hay independencia entre cada trago y el siguiente)
(ojo: estamos obviando que una jarra se acabe).

Ejemplo 8-14 En una clase de 30 alumnos, solo 5 se han estudiado la lección.


El profesor saca a 3 alumnos al encerado y advierte de que, como haya más
de uno que no se sepa la lección, toda la clase se queda sin recreo. ¿Cuál es
la probabilidad de que eso suceda?

Solución. 
Dividimos  la  población,  de  tamaño  30,  en  2  clases:  los  que  saben  la 
lección  ( ,  con  5)  y  los  que  no  la  saben  ( ̅, con  ̅ 25).  La  variable 
=“número de alumnos que saben la lección en la muestra de tamaño 3” sigue una 
distribución hipergeométrica de parámetros  20, 5, 3. 
Como sólo puede haber uno que no se sepa la lección, al menos 2 sí deben 
saberla. Tenemos que calcular   
                                                                                              P á g i n a  | 199 

5 25 5 25
⋅ ⋅
2 2 3 2 1 3 0 0.061 0.002
30 30
3 3
0.063, 
con lo que la probabilidad de que la clase se quede sin recreo es la probabilidad del 
complementario del suceso  2 , es decir 1 0.063 0.937. 
 

Nota 8-10 En R, en una variable , , se calcula


escribiendo
dhyper , , ̅ , . Entonces, podemos calcular 2 3
como dhyper(2,5,25,3) + dhyper(3,5,25,3)

Ejemplo 8-15 En la planta de aparato digestivo de un hospital, un enfermero


está eligiendo las pastillas para llevar a los pacientes. En el momento que
tiene en la mano la caja de laxantes, da un traspiés y le caen todas (25) en la
bandeja de pastillas para la salmonelosis (que contiene 60 pastillas), que
casualmente son del mismo color y tamaño. Como el jefe de planta es un
montabroncas, el enfermero decide confiar en la suerte y esperar que no pase
nada. En la habitación 211, un señor mayor tiene que tomar, por prescripción
médica, 3 pastillas para la salmonelosis. ¿Cuál es la probabilidad de que le
toque algún laxante y se vaya por la pata abajo?

 Solución. 
Tenemos  que  realizar  un  planteamiento  similar  al  del  ejercicio  anterior.  La 
población total contiene  25 60 pastillas, de las cuales hay  25 de la clase 
  (laxantes)  y  ̅ 60  de  la  clase  ̅  (para  la  salmonela).  El  enfermero  coge 
aleatoriamente una muestra de  3 para dárselas al paciente de la 211. Entonces, 
la variable  "número de laxantes en la muestra de tamaño 3” sigue una distribución 
hipergeométrica de parámetros  85, 25, 3. 
La probabilidad a calcular es   
 200 | P á g i n a  
 
25 60

1 1 0 1 0 3 1 0.34 0.66. 
85
3
Fijémonos que, en este ejercicio, la proporción / 3/85 0.035
0.1, con lo cual podríamos realizar la aproximación mediante la distribución binomial, 
es decir   se aproximaría por una  3, ≡ 3,0.29  . 

Si calculamos la probabilidad  0  mediante esta distribución binomial, 
tendríamos    
3
0 ⋅ 0.29 ⋅ 1 0.29 0.35, 
0
que es, como vemos, muy parecido al resultado directo mediante la hipergeométrica. 
 

 
                                                                                              P á g i n a  | 201 

9 PRINCIPALES VARIABLES CONTINUAS 
 

9.1 VARIABLE UNIFORME 

 
Una variable aleatoria continua   se dice que sigue una distribución uniforme 
entre dos valores   y   (se representa  ∈ ,  si su función de densidad tiene 
la expresión   
1
∈ ,
 
0 ∉ ,
Su función de distribución es   
0
∈ ,  
1
Las gráficas de las funciones de densidad y distribución pueden verse en la 
Figura 9‐1 (gráficos de Wikipedia). 

Figura 9‐1 
 202 | P á g i n a  
 

 
 
Esta variable es la generalización, al caso continuo, de la variable uniforme 
discreta (la que da a todos los valores la misma probabilidad). La variable uniforme 
reparte de manera continua y equivalente la probabilidad, es decir, intervalos de igual 
longitud (dentro de  ,  tienen igual probabilidad. Recuérdese que, en las variables 
continuas,  la  probabilidad  entre  2  puntos    y    es  el  área  bajo  la  función  de 
densidad. En este caso, el área sería el área de un rectángulo, es decir (ver Figura 
9‐2):   
1
⋅ . 

9.1.1 Media y varianza 
Sus parámetros media y varianza son:   


2 12
 

Ejemplo 9-1 La Vane termina de arreglarse para ir al botellón un tiempo de


duración variable, que sigue una distribución uniforme continua entre 1 y 2
                                                                                              P á g i n a  | 203 

horas. El Keni está escondido detrás del portal esperando que baje para
pillarla antes de ir al botellón, porque tiene esperanzas de liarse con ella esa
noche. Lo malo es que se ha metido varios litros de RedBull y está cardíaco
perdido, después de una hora de que la Vane comenzó a arreglarse. Si la
Vane tarda más de cuarenta y cinco minutos, al Keni le puede dar un vahído
y echarlo todo a perder. ¿Cuál es la probabilidad de que eso suceda?

Solución. 
El tiempo en arreglarse es  ∈ 60,120  (expresado en minutos). Por lo tanto, 
la probabilidad de que tarde más de 45 minutos en arreglarse es 
  60 45  
105 60
105 1 105 1 105 1 0.25. 
120 60
También puede calcularse usando la función de densidad:    

105 , 

que sería el área bajo la curva entre los valores 105 y 120; lo que, en este caso, se 
reduce al área de un rectángulo, como se observa en la Figura 9‐2. 

Figura 9‐2 
 204 | P á g i n a  
 
9.2 VARIABLE EXPONENCIAL 

 
Una  variable  continua    se  dice  que  sigue  una  distribución  exponencial  de 
parámetro  0 si su función de densidad es   
0 0
 
0
Su función de distribución es   
0 0
 
1 0
Se  representa  ∈ .  Suele  representar  la  duración  o  tiempo  de 
supervivencia de un sistema biológico o mecánico, además de adaptarse bien a otras 
medidas, como la magnitud de los terremotos en una determinada zona. Las gráficas 
de la función de densidad y distribución, para algunos valores de  , son las siguientes 
(fuente: wikipedia): 

  

9.2.1 Media y varianza 
Se puede comprobar que son:   
1 1
ver figura siguiente y . 
                                                                                              P á g i n a  | 205 

Ejemplo 9-2 El tiempo de espera, para ser atendido por Mesalina, sigue una
distribución exponencial de media 60 minutos, según uno se pone en la cola.
¿Cuál es la probabilidad de que a Petronio le de tiempo a llegar a casa antes
de 50 minutos (téngase en cuenta que Mesalina te atiende en 2 minutos y la
casa de Petronio está a la vuelta de la esquina (1 minuto para volver)?

 Solución. 
=“tiempo de espera en minutos”  sigue  una  distribución  exponencial.  Como 
nos  dicen  que  la  media  es  60,  y  la  esperanza  es  1/ ,  entonces  .    La 

probabilidad que nos piden es  47 47 1 0.54.  
 

9.3 VARIABLE NORMAL 

 
Una  variable  aleatoria  continua    sigue  una  distribución  Normal  de 
parámetros   y   (se escribe  ∈ , si su función de densidad es  

1
, ∞ ∞. 
√2
 206 | P á g i n a  
 
Esta  variable,  cuando  se  consideran  los  valores  0  y  1, se  llama 
Normal estándar o Normal tipificada. La función   definida según esta fórmula tiene 
forma de campana, llamada la campana de Gauss (por Carl Friedrich Gauss; 1777 ‐ 
1855). Es la distribución continua más importante, por la frecuencia con que aparece, 
y por sus propiedades teóricas. Mide gran cantidad de caracteres como pueden ser 
morfológicos (peso, talla, diámetros, perímetros), sociológicos (consumo de un cierto 
producto, puntuaciones en un examen), fisiológicos (efecto de una misma dosis de 
un fármaco), físicos (errores en medidas), etc. 
La  función  de  distribución  no  podemos  escribirla,  porque  no  fue  capaz  ni 
10
Gauss.  

9.3.1 Media y varianza 
La media o esperanza corresponde al valor   que aparece en la fórmula, y la 
desviación típica al valor  . 

9.3.2 Propiedades 
La función de densidad es simétrica respecto de la media  , es decir, áreas a 
la derecha y áreas a la izquierda (probabilidades) coinciden. En la Figura 9‐3 podemos 
observar  distintas  funciones  de  densidad  cambiando  la  desviación  típica  (a  mayor 
desviación  típica  la  curva  se  aplana,  a  menor  desviación  típica  la  curva  es  más 
puntiaguda en la media). Cambiar la media supone simplemente desplazar la curva a 
derecha o izquierda. Esto sucede porque el área bajo la curva siempre es igual a 1.  
Las áreas entre valores de   y  1,2,3  pueden verse en la  
Figura 9‐4. Entre los valores ‐  y   se concentra el 68.2 por ciento de la distribución, 
y entre  2  y  2  se concentra el 95.4 por ciento. Esto hace que los valores  2  
y  2   se  consideren  los  valores  máximos  y  mínimos  comunes.  Dicho  de  otro 

                                                       
10
  Para obtener la función de distribución sería necesario calcular la integral de la de 
función de densidad, que no tiene primitiva. Por eso se construyeron las famosas Tablas de la 
normal, que aparecen en tantos y tantos libros de estadística. Hoy en día, igual que hacemos aquí, 
para calcular áreas o probabilidades asociadas a la distribución normal, se acude a alguna página 
web o software estadístico, que realizan aproximaciones de tipo numérico.  
  
 
                                                                                              P á g i n a  | 207 

modo, los valores que están más alejados de la media dos veces la desviación típica 
son valores “raros” en la distribución (suelen llamarse límites 2‐ . 

Figura 9‐3 

 
Figura 9‐4 
 208 | P á g i n a  
 
 
Podemos pensar, como ejemplo, en la variable “estatura”. Los  valores más 
alejados de la media en dos veces la desviación típica serían valores anormalmente 
bajos o anormalmente altos, y tanto más cuanto más se alejen de la media. Lo mismo 
podemos  considerar  en  variables  como  el  peso,  índice  de  colesterol,  presión 
sanguinea, cociente intelectual, etc. 
 Otro  ejemplo  clásico  de  aplicación  de  estos  límites  es  el  de  los  análisis  de 
sangre. En la Figura 9‐5 tenemos un ejemplo, donde la columna de la derecha (valores 
de referencia) corresponde al intervalo  2 , 2 , donde   y   son los valores 
media y desviación típica de la población general (calculados tras realizar un número 
muy grande de observaciones). La columna de resultados es el valor correspondiente 
al  paciente  y,  si  dicho  valor  no  está  dentro  del  intervalo  de  referencia 
correspondiente, es que ese valor sale fuera del 95.4 por ciento más “normal”.  

Figura 9‐5 

 
                                                                                              P á g i n a  | 209 

9.3.3  Tipificación 
Sirve para comparar individuos diferentes obtenidos de sendas poblaciones 
normales.  Si  ∈ , ,  entonces  ∈ 0,1 , es  decir,    es  una  variable 
normal  tipificada  o  normal  estándar.  Las  probabilidades  asociadas  a  cualquier 
variable normal   pueden calcularse a través de la normal tipificada:   

Nota 9-1 Como vemos, la tipificación sirve para calcular probabilidades


asociadas a cualquier variable normal, a través de la normal 0,1 , si tenemos la tabla
de ésta última. Si disponemos de acceso a algún software o página web es innecesario
utilizar este sistema (que aparece en muchísimos libros, por eso es interesante
conocerlo).

Ejemplo 9-3 En una granja de Viladecáns se crían dos razas de vacas: Marela
y Ciones. El peso de las vacas Marela se distribuye según una N(750 Kg, 30
kg), mientras que el de las vacas Ciones tiene distribución N(500 Kg, 10 kg).
Un año en particular se observaron dos enormes ejemplares de cada raza:
 210 | P á g i n a  
 
uno de la raza Marela que pesó 870 Kg, y otro de la raza Ciones que pesó
550 Kg. a) Deducir cuál de los dos ejemplares fue el que más destacó. b) De
la raza a la que pertenezca este ejemplar, decir qué porcentaje de vacas
pueden ser levantadas sin problemas por Andresín, el bestia del pueblo, que
mueve hasta 530 kilos haciendo pesas en el Gym.

Solución.  
Tipificamos ambos valores: 

4, frente a  5. Por lo tanto, destacó más el ejemplar de la 
raza Ciones. 
Llamemos ahora  =“peso de las vacas de la raza Ciones”. Nos dicen que  ∈
500,10 .  Calculamos  530 suponemos  que  Andresín,  lo  que  mueve 
haciendo pesas también lo levanta en brazos). Esto lo podemos hacer directamente 
o tipificando.    
500 530 500
530 , 3 0.99865. 
10 10
En este caso, hemos ido a la página statdistributions.com, y buscado el área 
a  la  izquierda  del  valor  3  en  una  0,1 , como  puede  verse  en  esta  captura  de 
pantalla: 
                                                                                              P á g i n a  | 211 

Se  ve  que  el  valor  3  deja  a  la  izquierda  0.999  de  área,  lo  que  significa  que 
Andresín levanta el 99.9 por ciento de las vacas de esa raza (o casi todas). El valor 3 
es el cuantil p, con p=0.999. 

Ejemplo 9-4 El colesterol total en la población tiene distribución normal, con


media 200 y desviación típica 10. Ilitri acude al médico para unos análisis
rutinarios, luego de seis meses de espartana vida sin ejercicio alguno,
desayunando en Churro-King y cenando lacón con grelos. Ante los resultados,
el médico le felicita, porque tiene un valor del colesterol que sólo lo supera el
2% de la población (los que están a nada de irse al otro barrio). ¿A qué valor
del colesterol se refiere?

Solución. 
El valor  será aquel tal que  0.02, siendo  =“nivel de colesterol” 
∈ 200,10 . 
El valor   que hay que calcular es equivalente a calcular el cuantil de orden 98 
(percentil 98), puesto que  1 0.02 0.98. 

, 0.98,  con  lo  que  2.054 ⇒


220.54. 
 

Nota 9-2 El valor se puede calcular muy facilmente en la página


statdistributions.com, escribiendo mean=200, std.dev=10 y p-value=0.98, y
marcando la opción left tail (área a la izquierda 0.98). Aparecerá en la gráfica el valor
z=220.5 con un área graficada a su izquierda con valor 0.98.

Nota 9-3 En R, la probabilidad a la izquierda de un valor , en una distribución


, , se calcula como pnorm( ,a,b). Si se quiere calcular el cuantil tal que
se escribe qnorm(p,a,b). Así, los calculos de los dos últimos ejemplos
serían
pnorm(530,500,10) (nos daría 0.99865 del ejercicio de Andresín) y
qnorm(0.98,200,10) nos daría el valor 220.54 en el último ejemplo.
 212 | P á g i n a  
 
Ejemplo 9-5 Jaimito llega a su casa y le dice a su madre: “mamá, mamá, en
el colegio me llaman cabezón”. Sabemos que el perímetro craneal, medido en
cm, de los hombres en donde vive Jaimito, es una 60,2 , y que se considera
cabezón a aquel que tenga un perímetro craneal que supera al 80 por ciento
de sus paisanos. ¿Sobre qué valor deberá referenciarse Jaimito para asumir
la frase como una triste realidad?

Solución. 
Como  el  perímetro  craneal  es  una  variable  ∈ 60,2 , el  valor  que 
buscamos es aquel   tal que  0.8, es decir el percentil 80. 

, 0.80,    con  lo  que  0.842 ⇒


61.68. 
Como Jaimito tiene un perímetro craneal de 63, la madre le dice que se calle 
y permita a las moscas jugar al futbol tranquilas en su cabeza.  
 

9.3.4 Propiedad aditiva 
Igual que vimos en otras variables, la variable normal es reproductiva: la suma 
de variables aleatorias normales independientes es otra variable aleatoria normal, 
con media la suma de las medias y varianza la suma de varianzas. 
Puede  establecerse  un  resultado  más  general:  sean  ∈ , ,  y   
números reales,  1, . . . , . Se verifica:   

9‐1  
∈ , ,  

esto  es,  una  combinación  lineal  de  variables  aleatorias  normales  es  otra  variable 
aleatoria normal, cuya media es la combinación lineal de las medias, y la varianza es 
la combinación lineal de las varianzas, pero con los términos   elevados al cuadrado. 
                                                                                              P á g i n a  | 213 

Nota 9-4 Y aunque parezca un coñazo, esto no es nuevo. Es lo mismo que se


vio en el capítulo donde definimos las variables aleatorias, en la sección de
propiedades de la esperanza y la varianza.

Ejemplo 9-6 Según publica la web info-pene.com, en el estudio “Tamaño del


Pene Definitivo”, después de analizados 3100 hombres y muchachos
adolescentes, la longitud del pene erecto en varones caucásicos, medida a lo
largo por encima del pene de la punta al abdomen, se modeliza según una
distribución normal de promedio 16.3 centímetros y una desviación típica de 3
cm. Encontrar la probabilidad de que el tamaño del miembro del actual novio
de Marujita no difiera en más de 1.5 cm del de su ex, para que no haya
problemas comparativos (Marujita piensa que media desviación típica arriba o
abajo no importa).

Solución. 
Llamemos  =“longitud”.  Esta  variable  sigue  una  distribución  normal 
16.3,3 . 
La diferencia entre dos longitudes   sigue una distribución normal. 
Para ver qué parámetros sigue, aplicamos la fórmula  9‐1 . 
Aquí  tenemos  1  y  1.  Por  lo  tanto,  la  media  sera 
1⋅ 1⋅  
y la varianza 
1 ⋅ 1 ⋅ . 
de manera que  ∈ 16.3 16.3, √1 ⋅ 3 1 ⋅3 ≡ 0, √18 0,4.24 .  

La  probabilidad  solicitada  es  | | 1.5 1.5 1.5 . Esta 


probabilidad podemos calcularla tipificando y buscando en la tabla de una  0,1 , o 
directamente, según dispongamos de herramienta de cálculo adecuada. En cualquier 
caso  | | 1.5 0.276,  que  vemos  en  la  Figura  9‐6  (obtenida  de  la  página 
statdistributions). 
 
 214 | P á g i n a  
 

Figura 9‐6 

 
Recuérdese que  1.5 1.5 1.5 1.5 . En R se calcularía 
como 
pnorm(1.5,0,4.24)-pnorm(-1.5,0,4.24)
 

9.4 TEOREMA CENTRAL DEL LÍMITE 

 
Este  teorema  dice,  de  manera  esquemática,  que,  cuando  sumamos  un 
número grande de variables, la variable resultante sigue una distribución normal. De 
manera general, si  , , . . . ,  son variables de media o esperanza   y 
varianza  , 1, . . . , ,  se  verifica  que  la  variable  suma 
...   (si    es  un  número  tendiendo  a  infinito)  se  puede  aproximar  por  una 
variable  normal,  de  media  la  suma  de  las  medias  y  varianza  la  suma  de  varianzas 
(desviación típica = raiz de la suma de varianzas), es decir   
                                                                                              P á g i n a  | 215 

... , . 

Nota 9-5 En el caso de sumar variables aleatorias normales, la aproximación


anterior no es tal, sino que es una distribución exacta, como hemos visto
anteriormente, en la fórmula 9‐1 .

 
Este teorema (del que damos únicamente una idea general, sin establecer las 
hipótesis matemáticas reales) establece la importancia de la distribución normal. Su 
resultado  es  que,  cuando  se  suma  un  número  grande  de  variables  aleatorias,  la 
variable  resultante  es  una  variable  con  distribución  aproximadamente  igual  a  la 
distribución normal. Incluso, el término “número grande” (porque matemáticamente 
el  teorema  se  establece  cuando    tiende  a  infinito)  no  lo  es  tanto,  porque,  en  la 
práctica, con  30 la aproximación ya proporciona buenas resultados. Además, el 
teorema es cierto independientemente de la distribución que sigan las variables que 
se sumen (no importa si son exponenciales, binomiales, etc.). Lo único que se necesita 
es saber su media y su varianza. 
Es  a  causa  de  este  teorema  que  muchas  variables  aleatorias  como  pesos, 
alturas, tallas, etc. siguen una distribución normal, porque cada una de ellas es suma 
de  un  gran  número  de  variables  aleatorias  independientes.  Así,  la  altura  de  una 
persona  es  suma  de  muchos  factores:  hereditario,  alimentación,  tipo  de  vida...  El 
consumo de combustible (gas, electricidad...) por día de una compañía es suma de 
los consumos individuales de los usuarios. Los errores, llamados aleatorios, que se 
presentan  en  observaciones  de  pesos,  distancias,  o,  en  general,  en  la  mayoría  de 
medidas  de  algún  aparato,  son  la  suma  de  un  número  elevado  de  errores 
elementales, tales como corrientes de aire, vibraciones, errores de apreciación, etc. 
En el texto “The cartoon guide to statistics” (Gonick y Smith) [5] podemos leer: 
“Los  datos  que  se  ven  influidos  por  efectos  aleatorios  muy  pequeños  y  sin 
relación entre sí, se distribuyen aproximadamente de manera normal. Esto explica por 
 216 | P á g i n a  
 
qué la normalidad está en todos lados: en las fluctuaciones del mercado de acciones, 
en  los  pesos  de  estudiantes,  en  los  promedios  anuales  de  temperatura  y  en  las 
calificaciones. Todos son el resultado de muchos efectos diferentes. La estatura de las 
personas, por ejemplo, es el resultado de factores hereditarios, factores ambientales, 
nutrición, cuidado de la salud, región geográfica y otras influencias que, cuando se 
combinan, producen valores distribuidos de forma normal.” 
En algún que otro libro de texto aparece también la siguiente frase: “todos los 
caminos conducen a la distribución normal”. Con ello, los autores pretender resaltar 
la  importancia  de  la  distribución  normal  y  su  aparición  en  muchas  técnicas 
estadísticas, debido precisamente al teorema central del límite. Este es el motivo de 
que sea tan conocida o, por lo menos, “suene”a investigadores o profesionales de 
muchas  áreas  científicas  y  técnicas  no  necesariamente  matemáticas.  En  algunas 
ocasiones,  algún  que  otro  atrevido  estadístico  o  autor  de  libros  de  estadística  ha 
denominado a la distribución normal como “la madre de todas las distribuciones”.  
 

 
 

Ejemplo 9-7 Supongamos que un determinado tratamiento fisioterapéutico es


eficaz (al cabo de un tiempo determinado), en una proporción del 80 por
                                                                                              P á g i n a  | 217 

ciento. Un seguro médico paga más a una clínica si, por cada 300 asegurados
que reciben el tratamiento, al menos se curan 260. ¿Cuál es la probabilidad
de que esto suceda?

Solución. 
Definamos la variable   que toma los valores 0 si el paciente no se cura (al 
cabo de ese tiempo establecido), y 1 si se cura.   es una variable de Bernoulli de 
parámetro  0.8. 
Como  hemos  visto  al  principio  del  capítulo,  una  variable  de  Bernoulli  tiene 
media   y varianza  ⋅ 1 , en este caso media 0.8 y varianza 0.8 ⋅ 0.2 0.16. 
Si  consideramos  la  variable  ⋯ ,  mide  el  número  de 
pacientes que se curan de 300 que acuden a la clínica. Usando el teorema central del 
límite,   puede aproximarse por una distribución normal de media la suma de las 
medias y varianza la suma de varianzas, es decir  

300 ⋅ 0.8 240 y 300 ⋅ 0.16 48 ⇒ √48 6.92. 


Por lo tanto, podemos calcular la probabilidad  260  usando la distribución 
240,6.92 . Tipificando:  

  260 , 2.89 0.002, 


. .

que es una probabilidad muy pequeña. Los seguros siempre procuran hacer cálculos 
para pagar lo menos posible.  
 

Nota 9-6 Está claro que la variable del ejercicio anterior era una variable
Binomial de párametros 300 y 0.8. En el capítulo de variables discretas
vimos que una variable aleatoria binomial puede aproximarse también mediante una
variable de Poisson. La diferencia con el teorema central del límite (que aproxima la
binomial por la normal) es que la aproximación a la Poisson es cuando 0.1 (el
suceso es un suceso raro). Si 0.1 como en este caso), la aproximación se hace
mediante la normal.
 218 | P á g i n a  
 

 
 

Ejemplo 9-8 Supongamos que la variable mide la proporción de impurezas


en la droga que le llega cortada al camello del barrio, y que tiene una función
de densidad dada por
3 ∈ 0,1
  .
0 ∉ 0,1
Un comprador habitual necesita 40 paquetitos de droga para satisfacer la
demanda de su discoteca de zona. Como está harto de problemas con los
clientes por culpa de que, en vez de agarrar colocones, últimamentes sólo se
agarran cabreos, decide rechazar la muestra si la media de impurezas de los
40 paquetes supera el 80 por ciento. Calcular la probabilidad de rechazo.

Solución. 
La variable   tiene una esperanza o valor medio 

  ⋅3 . 

Su varianza es  
                                                                                              P á g i n a  | 219 

  ⋅3 . 

La proporción de impurezas en la media muestral de 40 paquetitos de droga 
será  
...
  ... ... . 

Ahora,  utilizando  el  teorema  central  del  límite,  aproximamos  la  suma 
...  por una normal, de media la suma de las medias (o sea 40 ⋅ 30  y 
varianza la suma de varianzas (40 ⋅ . 

Luego  30, . Por lo tanto 

  ⋅ ⋅ 30, ⋅ ≡ , , 

ya  que,  si  multiplicamos  una  variable  por  un  número  (positivo),  su  media  y  su 
desviación  típica  se  multiplican  por  ese  número  (propiedades  de  la  media  y  la 
varianza).  Por  lo  tanto,  se  puede  aproximar  por  una  0.75,0.03 .  Entonces,  la 
probabilidad de rechazo es  0.8 0.048.  
 

Ejemplo 9-9 Mesalina ha cruzado una apuesta con Zerdón de Citium, famoso
filósofo y comedor de jabalíes, a que ella aguanta más en la cama que Zerdón
en la mesa del restaurante. Mesalina atiende por noche una cantidad de
hombres que ronda los 200, tardando con cada uno de ellos un tiempo medio
de 4 minutos y desviación típica 2, mientras que Zerdón es capaz de comer
50 jabalíes, tardando de media 12 minutos y desviación típica 3. ¿Cuál de los
dos desfallecerá antes?

Solución.  
El tiempo que aguanta Mesalina durante una noche  (   es  la  suma  de  200 
variables aleatorias   independientes, donde   es el tiempo que está con el hombre 
é , de media  4 y  2. 
 220 | P á g i n a  
 
El tiempo que aguanta Zerdón de Citium cenando jabalíes ( ) es la suma de 50 
variables aleatorias   independientes, donde   es el tiempo que tarda en comer el 
jabalí  é , de media  12 y  3. 
Utilizamos el teorema central del límite para aproximar las distribuciones de 
las variables   y  . 

... 200 ⋅ 4, 200 ⋅ 2 ≡ 800,28.28 . 

... 50 ⋅ 12, 50 ⋅ 3 ≡ 600,21.21 . 


Vamos  a  calcular  cuál  es  la  probabilidad  de  que,  por  ejemplo,  Mesalina 
aguante más que Zerdón, es decir:  0 . 
La diferencia   sigue, aproximadamente, una distribución normal, 
ya que   e   son aproximadamente normales. Para ver qué parámetros (media y 
desviación típica) tiene, aplicamos la fórmula  9‐1 . En este caso  1 y  1. 
Por  lo  tanto  la  media  sera  1 ⋅ 800 1 ⋅ 600  y  la  varianza  1 ⋅ 28.28 1 ⋅
21.21 .   

De manera que  200, √1249.62 ≡ 200,35.3 . La probabilidad de 


que  0 la calculamos, por ejemplo, con R, obteniendo:  
0  = pnorm(0,200,35.3) ≅ 0, y entonces   0 1 0 ≅ 1. 
  Es decir, el tiempo que aguanta Mesalina es siempre (con probabilidad casi 
uno) mayor que el que aguanta Zerdón. 

 
                                                                                              P á g i n a  | 221 

9.5 OTRAS VARIABLES ALEATORIAS DE INTERÉS 

9.5.1 Variable Chi‐cuadrado 
Se escribe variable  . El hecho de que su función de densidad dependa de 
un  número  entero  positivo  llamado  “grados  de  libertad”  hace  que  se  hable  de  la 
distribución    con   grados de libertad. Así, existe una variable para cada valor de 
 mayor o igual a 1. Esta variable aparece cuando se suman   variables aleatorias 
independientes con distribución  0,1 , elevadas al cuadrado.    
... , con ∈ 0,1 . 
A  continuación  aparecen  dibujadas  varias  funciones  de  densidad, 
dependiendo del número de grados de libertad  .  

No reproducimos aquí la fórmula de la densidad por innecesaria. Quien esté 
interesado puede acudir, por ejemplo, a la wikipedia (igual que tampoco haremos en 
los dos casos siguientes, la distribución   de Student y la distribución  . El interés de 
esta distribución radica en su uso para la construcción de intervalos de confianza y 
realización de contrastes de hipótesis.  
 222 | P á g i n a  
 
9.5.2 Variable   de Student 
La variable   (o   de Student) aparece a partir de la distribución normal y la 
Chi‐cuadrado, puesto que si   es una variable  0,1 , e   es una variable aleatoria 
independiente  de  ,  con  distribución  Chi‐cuadrado  con    grados  de  libertad, 
entonces la variable   

 
/

es  una  variable  con  distribución    con    grados  de  libertad.  La  distribución    de 
Student (con   grados de libertad) es una variable aleatoria cuya función de densidad 
también tiene forma de campana y es simétrica. Es, por lo tanto, muy parecida a la 
densidad de la variable  0,1  (de hecho, la media o esperanza de cualquier variable 
  de  Student  es  cero).  Sin  embargo,  tiene  colas  más  pesadas  que  la  campana  de 
Gauss, lo que significa que el área o probabilidad en los extremos izquierdo y derecho 

de la curva es mayor que en el caso de la distribución normal. Estos hechos pueden 
visualizarse en la imagen de la función de densidad (tomada de wikipedia), donde se 
representan  diferentes  valores  del  parámetro  (df  en  la  gráfica,  de  “degree 
freedom”). Hay  que  reseñar  que,  a  medida  que  el  número  de  grados  de  libertad 
aumenta, la curva se parece cada vez más a la campana de Gauss, lo cual sucede a 
partir de valores como  40, siendo la coincidencia total para  ∞.  El interés 
                                                                                              P á g i n a  | 223 

de esta variable es, igual que en el caso de la variable Chi‐cuadrado, su aparición en 
la construcción de intervalos de confianza y realización de contrastes de hipótesis. 
La fórmula de la función de densidad de la variable   fue publicada en 1908 
por William Sealy Gosset (1876 ‐ 1937), mientras trabajaba en la fábrica de cervezas 
Guinness, en Dublin. Existe la anécdota de que el origen del seudónimo “Student”, 
que fue el seudónimo utilizado por Gosset para escribir el artículo de investigación 
matemático donde define la variable, vino motivado porque la dirección de la fabrica 
impedía a los empleados la publicación de trabajos científicos. 

 
 

9.5.3 Variable F de Fisher‐Snedecor 
La  distribución    es  conocida  habitualmente  como  la  distribución  F  de 
Snedecor, o distribución F de Fisher‐Snedecor, en honor a R.A. Fisher (1890 ‐ 1962) y 
George W. Snedecor (1881 ‐ 1974). Su función de densidad es bastante complicada, 
y depende de dos parámetros   y   que son sus grados de libertad. La utilidad de 
 224 | P á g i n a  
 
esta distribución es, de nuevo, la construcción de intervalos de confianza y realización 
de contrastes de hipótesis.  La distribución   aparece a través de la distribución Chi‐
cuadrado,  puesto  que  si    sigue  una  distribución  ,  e    es  otra  variable 
(independiente de   con distribución  , entonces la variable   definida como    
/

/
sigue una distribución   con   y   grados de libertad. A continuación, algunos casos 
concretos para la densidad (fuente: wikipedia). 

 
                                                                                              P á g i n a  | 225 

Antes de terminar, unos estiramientos, buenos después de cualquier ejercicio 
y/o esfuerzo.  

 
 
   
 226 | P á g i n a  
 
 
 Por  último,  si  fuisteis  ídolos  de  jóvenes  de  estos  superheroes,  y  teníais  un 
poster de ellos en la habitación, 

 
 
 
 
ahora podéis sustituirlo por los superheroes de la estadística y la ciencia.  
 
 
                                                                                              P á g i n a  | 227 

 
 
 
 
 
 
 
 
 
 
 
 
 
 228 | P á g i n a  
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
                                                                                              P á g i n a  | 229 

10 INFERENCIA ESTADÍSTICA. INTRODUCCIÓN 
 
 Un 80 por ciento de encuestados cree en la existencia de vida extraterrestre. 
“Es imposible que estemos solos”, afirman. 
Ese mismo porcentaje dice no creer a nadie que asegure haberse 
encontrado con un extraterrestre.  
 
La Inferencia Estadística es aquella rama de la Estadística mediante la cual se 
intenta sacar conclusiones de una población en estudio, apoyándose en el cálculo de 
probabilidades,  a  partir  de  la  información  que  proporciona  una  muestra 
representativa de la misma. Recordemos el gráfico que pusimos en el primer capítulo. 

 
Las conclusiones sobre la población se basarán en la realización de inferencias 
(deducciones)  sobre  características  concretas  de  la  misma,  que,  en  general,  serán 
 230 | P á g i n a  
 
variables  aleatorias  (nos  interesa  conocer  la  proporción  de  población  contraria  al 
gobierno, su cociente intelectual, el capital que les apoya... ). 
Existen dos tipos generales de inferencia: 
La Inferencia Paramétrica supone que la distribución de probabilidad de la 
variable  objeto  de  estudio  es  conocida  pero  los  parámetros  son  desconocidos.  Se 
intentará aproximar o predecir de alguna forma el valor de dichos parámetros. Por 
ejemplo: nos interesa la proporción   de gente con colesterol alto, con osteoporosis, 
que  cree  en  los  extraterrestres  con  forma  de  lagarto...  o  el  peso  medio  de  la 
población, la cultura en matemáticas a través de la nota media... 
La Inferencia no Paramétrica tratará de averiguar el modelo concreto de la 
variable  objeto  de  estudio,  o  bien  intentará  profundizar  en  el  conocimiento  de  la 
misma sin presuponer ninguna función de densidad en concreto. Por ejemplo: ¿La 
población sigue una distribución normal en cuanto al peso? ¿O la mayoría son gordos, 
teniendo así una distribución asimétrica a la derecha? ¿Es el tiempo que duran los 
políticos antes de corromperse exponencial? 
En este texto nos referiremos únicamente a la inferencia paramétrica, aunque 
hagamos alguna mención al otro tipo. 
                                                                                              P á g i n a  | 231 

11 MUESTREO 
 
Recordemos que el objetivo de la estadística, básicamente, es el estudio de 
poblaciones. En general, no es posible estudiar toda la población, bien por tamaño, 
bien  por  cuestiones  de  tipo  económico  (por  ejemplo,  saber  el  peso  o  la  altura  de 
todos los individuos de la población española mayor de edad). El muestreo consiste 
en elegir una muestra de una población, suficientemente representativa de la misma, 
con el fin de investigar las propiedades estadísticas de esta. Así, para poder conocer 
cuál es el peso medio, o la estatura media de, por ejemplo, hombres o mujeres de la 
población española mayores de 18 años, se elegirá una muestra representativa de 
dichos grupos y se estudiará la misma, para extender los resultados de la muestra a 
la población en general. Llamamos Muestreo al proceso de obtención de muestras, 
que puede ser de muchos tipos. 
 

11.1 PROCEDIMIENTOS DE MUESTREO 

 
 

11.1.1 Muestreo aleatorio simple  
 
Todos  los  individuos  de  la  población  tienen  la  misma  probabilidad  de  ser 
elegidos para la muestra. En principio, se supone que la población es infinita (en la 
práctica, muy grande), con lo cual, si se elige un individuo de la población, se realiza 
la  medida  de  la  característica  deseada  (peso,  estatura,  opinión  sobre  los 
extraterrestres, capital en el banco, etc.) y, a continuación, se devuelve a la población. 
La  probabilidad  de  que  se  vuelva  a  elegir  al  mismo  individuo  en  la  muestra  es 
prácticamente nula. 
 232 | P á g i n a  
 
En  el  ejemplo  que  poníamos  más  arriba,  se  supone  que  elegiríamos  un 
hombre  mayor  de  18  años,  por  ejemplo,  anotaríamos  su  peso  y  edad  y  dicho 
individuo, en teoría, podría volver a ser elegido para tomar sus medidas (aunque con 
una probabilidad prácticamente nula si la población general es muy grande).  
 

11.1.2 Muestreo aleatorio sin reposición  
 
Se  elige  el  individuo,  se  anotan  las  características  o  variables  de  interés,  y 
dicho individuo no puede volver a ser elegido porque no se devuelve a la población. 
Coincide con el muestreo aleatorio simple en la práctica, en muchas ocasiones (si la 
poblacion es muy grande). También sería un muestreo aleatorio sin reposición una 
encuesta de tipo teléfonico, donde se eligen números de teléfono al azar, por ejemplo 
100 números, y no se llama dos veces al mismo número. 
 

11.1.3 Muestreo estratificado 
 
Se aplica cuando sabemos que hay ciertos factores (variables, subpoblaciones 
o estratos) que pueden influir en el estudio, y queremos asegurarnos de tener cierta 
cantidad mínima de individuos de cada estrato o subpoblación. Consiste en la división 
previa de la población de estudio en grupos o clases que se suponen homogéneos 
con respecto a alguna característica de las que se van a estudiar. A cada uno de estos 
estratos se le asigna una cuota que determina el número de miembros del mismo 
que  compondrán  la  muestra.  Dentro  de  cada  estrato  se  suele  usar  la  técnica  de 
muestreo sistemático, una de las técnicas de selección más usadas en la práctica. 
Según la cantidad de elementos de la muestra que se han de elegir de cada 
uno de los estratos, existen dos técnicas de muestreo estratificado: 
 
Asignación proporcional: el tamaño de la muestra dentro de cada estrato es 
proporcional al tamaño del estrato dentro de la población. 
                                                                                              P á g i n a  | 233 

Por  ejemplo,  para  un  estudio  de  opinión  o  de  salud,  puede  resultar 
interesante  estudiar  por  separado  hombres  y  mujeres  si  se  piensa  que,  dentro  de 
cada  uno  de  estos  grupos,  puede  haber  cierta  homogeneidad.  Por  ejemplo,  si  la 
población está compuesta de un 55% de mujeres y un 45% de hombres, se tomaría 
una muestra que contenga también esos mismos porcentajes por sexo. 
 
Asignación óptima: la muestra recogerá más individuos de aquellos estratos 
que  tengan  más  variabilidad.  Para  ello  es  necesario  un  conocimiento  previo  de  la 
población.  Si  sabemos,  por  ejemplo,  que  el  estrato  de  hombres  está  mucho  más 
disperso  (tiene  mayor  varianza)  que  el  de  mujeres,  deberemos  tomar  un  mayor 
número  de  datos  en  este  estrato,  para  obtener  mayor  representatividad  de  la 
muestra. 

 
 234 | P á g i n a  
 

 
                                                                                              P á g i n a  | 235 

11.1.4 Muestreo sistemático  
 
Si se dispone de los individuos de una población ordenados, de alguna forma, 
en una lista, el muestreo sistemático consiste en elegir un primer individuo al azar, y 
los  siguientes  de  forma  sistemática  o  periódica  a  través  de  dicha  lista.  De  manera 
general, si   es el tamaño de la población y queremos elegir una muestra de tamaño 
,  entonces  dividimos    entre  .  Sea    la  parte  entera  de  / .  Se  elige 
aleatoriamente un número   entre 1 y  , y la muestra se toma con los elementos 
de la lista:  , , 2 , . .. hasta completar los   elementos que se necesiten. 
En  la  siguiente  figura  podemos  ver  un  ejemplo  gráfico  de  toma  de  datos  en  una 
muestra de tamaño   en una población de   vacas. Se supone que las vacas están 
“ordenadas” en una lista (numeradas). También podeis pensar en la lista de vacas 
como un carrusel de feria, y Steven Seagal pegando tiros a las vacas  , ,
2 , . .. 

 
Este tipo de muestreo podría presentar problemas en caso de periodicidad. 
Supongamos un muestreo para conocer la calidad de vida de los vecinos de varios 
 236 | P á g i n a  
 
bloques  de  viviendas  de  la  misma  altura.  Un  muestreo  sistemático  podría  llevar  a 
preguntar siempre a los residentes en los pisos más altos, que posiblemente tuviesen 
más calidad (menos ruido, más sol... ) que los residentes en pisos más bajos. 
Existen más tipos de muestreo, y podría hablarse bastante más de los aquí 
vistos,  estudiando  propiedades  matemáticas  de  los  mismos.  En  todo  caso,  no  es 
objetivo de este texto el estudio del muestreo, pues este es un tema muy amplio y 
que ha dado lugar a estupendos manuales. A partir de ahora, supondremos que la 
población en estudio tiene un tamaño infinito (o muy grande), y el tipo de muestreo 
considerado es el muestreo aleatorio simple (todos los elementos tienen la misma 
probabilidad de ser elegidos, y esto se hace de forma independiente: la elección de 
un elemento no influye en la elección de ningún otro), puesto que, con este tipo de 
muestreo, se pueden verificar muchas propiedades matemáticas de interés que de 
otra forma no se podría, o sería más difícil. 
 

 
 
                                                                                              P á g i n a  | 237 

12 ESTIMACIÓN PUNTUAL 
 
Cuando  nos  referimos  al  estudio  de  una  población,  nos  centramos  en  el 
estudio de variables aleatorias que miden características de la misma, y la estimación 
de tipo puntual consiste en tratar de obtener valores de sus parámetros a traves de 
muestras. 
Por ejemplo, supongamos que estamos interesados en conocer detalles de la 
población española (o cualquier pais) mayor de 18 años. Estaríamos interesados en 
tener la mayor información posible en cuanto a características como el peso, la edad, 
el índice de masa corporal, el nivel de renta, tendencia de voto, el nivel de colesterol, 
el número de personas que padecen una enfermedad... Todas estas características 
constituyen variables aleatorias que seguirán alguna distribución determinada (como 
la distribución de Poisson, la binomial, la normal, la exponencial, o alguna otra que 
no hayamos visto en este texto). 
Cualquiera de estas variables aleatorias queda perfectamente determinada si 
conocemos  los  parámetros  de  los  que  depende.  La  distribución  normal  queda 
perfectamente  determinada  si  conocemos  la  media    y  la  desviación  típica  .  La 
distribución exponencial queda determinada por el inverso de su media, que es el 
parámetro  . La distribución de Poisson queda determinada por su valor medio  . La 
variable binomial está caracterizada por los valores   y  , etc. 
Por lo tanto, para poder realizar inferencias, previsiones o predicciones sobre 
la  población  (o  las  variables  aleatorias  de  interés  en  la  misma)  necesitaremos  dar 
estimaciones (aproximaciones) de los parámetros correspondientes. 
En este momento necesitamos dar unas definiciones matemáticas. 
Estadístico: Una función de variables aleatorias. 
 238 | P á g i n a  
 

 
Un estadístico, además de ser una persona que estudia y utiliza la estadística, 
se  define  como  una  función  de  varias  variables  aleatorias:  si  , , . . . ,   son 
variables  aleatorias,  una  función  (que  cumpla  algunos  requisitos  matemáticos) 
, ,...,  se llama estadístico. 
Estimador: Estadístico que se usa para estimar un parámetro desconocido. 
Si  el  estadístico  (esa  función  de  antes)  se  utiliza  para  estimar  (tratar  de 
aproximar) un parámetro de la población o variable, se llama estimador. 
Por ejemplo, estamos interesados en estimar el peso medio de las mujeres 
mayores de 18 años. Para ello elegiriamos una muestra de la población de tamaño  . 
, , . . . ,  serían   variables aleatorias, cada una de ellas nos medirá el 
peso de la mujer   de la muestra. La función   
...
, ,...,  

es un estadístico (porque es función de variables aleatorias), y también un estimador, 
porque lo utilizaremos para estimar el peso medio. 
Estimación: Valor concreto del estimador para una muestra en particular. La 
estimación viene a ser una predicción del valor teórico desconocido. 
                                                                                              P á g i n a  | 239 

En el ejemplo anterior, ( , , . . . ,  es la muestra “en abstracto”, es decir, 
es la base matemática que utilizamos para tratar de predecir o estimar el peso medio 
de las mujeres mayores de 18 años en la población en general. 
La media muestral:   
...
̂  

es  un  estimador  de  la  media.  A  los  estimadores  se  les  pone  una  tilde  o  algun 
“sombrero” encima para indicar que estiman o aproximan un parámetro. En este caso 
̂  es un estimador de la media  . 
Muestra aleatoria simple. 
Cuando  tomamos  la  muestra  de  forma  numérica,  tendremos    datos 
, ,..., . Esta muestra se llama muestra aleatoria simple. Los   son números, 
se representan en minúsculas para diferenciarlos de las variables aleatorias. 
El valor de la media de la muestra 
...
̅  

es una estimación. Si disponemos de una muestra de   pesos,  54.5,64, . . . ,70 ,  ̅  


por ejemplo, 63.4, es una estimación del peso medio. 
 

12.1 ESTIMACIÓN DE LA MEDIA DE UNA VARIABLE. MEDIA MUESTRAL 

 
Profundizaremos ahora en el ejemplo anterior, para ver con mayor precisión 
cuál es la forma de estimar la media de una variable aleatoria. 
Supongamos que se desea conocer el tiempo medio de horas de sueño que 
provoca  un  sedante  determinado.  Para  realizar  una  inferencia  estadística,  se  elige 
una muestra aleatoria simple de   enfermos a los que se les ha recetado el fármaco. 
Tras la toma de una pastilla, medimos la variable  =“horas de sueño”. 
 240 | P á g i n a  
 
En este ejemplo, la característica en la que estamos interesados, como vemos, 
es una variable aleatoria. Esa característica, lógicamente, se mide en una población 
(en este caso serán las personas a los que se les puede suministrar el fármaco). 
Nos interesa conocer el parámetro Media de la variable  . 
Para ello seleccionamos una muestra aleatoria simple de tamaño  . En ella 
medimos    veces  la  variable    y,  por  lo  tanto,  tendremos    variables  aleatorias 
( , ,..., . 
Estadístico a utilizar: la media muestral.    
...
̂ . 

Estimador: dada una muestra concreta  , , . . . , .    
...
̂ ̅  

Estimación: para una muestra particular, por ejemplo,  6, tenemos 6 datos 
concretos:  0.8,2.1,1.5,1,2,2.3    
0.8 2.1 1.5 1 2 2.3
̂ 1.61. 
6
¿Podríamos considerar otros estimadores para la media de una variable? Sí 
tenemos  una  muestra  , ,..., no  resulta  muy  descabellado  usar  este 
posible estimador:   
min max
̂ . 
2
. .
Para  la  muestra  anterior,  la  estimación  resultante  sería  ̂ 1.55, 
que es un número parecido al anterior. 
Otra posibilidad:   
...
̂ , 
1
nos daría la estimación    
0.8 2.1 1.5 1 2 2.3
̂ 1.94. 
5
                                                                                              P á g i n a  | 241 

Y  seguro  que  se  nos  pueden  ocurrir  bastantes  más.  ¿Cuál  es  el  mejor  de 
todos? Hay métodos matemáticos para poder elegir entre unos estimadores y otros. 
Ahora bien, en principio, cualquier estadístico (recordad, no una persona, sino una 
función de variables aleatorias) utilizado para estimar un parámetro, es un estimador. 
Cuando ese estimador se cuantifica (cuando ya tenemos los datos de la muestra y lo 
valoramos), tenemos una estimación. Que ese estadístico, estimador o estimación 
sea bueno o malo, ya es otro cantar.  

 
 

12.2 ESTIMACIÓN DE LA VARIANZA. CUASI‐VARIANZA MUESTRAL 

 
Para  estimar  la  varianza    de  una  variable  ,  a  partir  de  una  muestra 
aleatoria  simple  de  tamaño  , , ,..., ,  podemos  usar  la  llamada  varianza 
muestral (la varianza de la muestra).   

Si en vez de dividir por   se divide por  1, se tiene otro estimador que se 


llama cuasi‐varianza muestral: 

∑ (12‐1) 
.  
1
 242 | P á g i n a  
 
Este estimador, que se escribe muchas veces   (o en muchos libros sin gorro, 
simplemente  ,  supongo  que  para  marear)  guarda  una  relación  sencilla  con  la 
varianza muestral: 

1 ⇔ (12‐2) 
.  
1

Matemáticamente, como podemos observar, cuando el valor de   es grande, 
los  valores  son  similares  (   tiende  a  1).  Desde  un  punto  de  vista  teórico,  puede 
demostrarse  que  la  cuasi‐varianza  muestral  posee  mejores  propiedades  que  la 
varianza muestral cuando queremos aproximar la verdadera (desconocida) varianza 
de una variable. Es por eso que, en bastantes ocasiones, se define directamente la 
varianza  de  una  muestra  (tal  y  como  la  vimos  en  el  primer  capítulo  de  estadística 
descriptiva) como la fórmula (12‐1). Esto sucede en muchos libros de texto (sobre 
todo escritos en Estados Unidos), y en software como el R o el SPSS. 
 

12.3 ESTIMACIÓN DE UNA PROPORCIÓN. PROPORCIÓN MUESTRAL 

 
Supongamos  que  interesa  estimar  la  proporción    de  individuos  de  una 
población con una determinada característica (proporción de posibles votantes del 
partido en el gobierno, de personas con artritis, de mutantes con superpoderes...). 
Para realizar una inferencia estadística, se elige una muestra aleatoria simple 
de   individuos y se anota 1 ó 0 según que el individuo tenga o no la característica de 
interés.  Cada  vez  que  elegimos  un  individuo,  estamos  observando  la  variable 
aleatoria de Bernoulli de parámetro téorico   (que queremos precisamente estimar). 
El estimador de  , llamado proporción muestral, es:    
número de unos
̂ , 

es decir, la proporción de la característica en la muestra. 
                                                                                              P á g i n a  | 243 

12.3.1 Otros estimadores 
 
En  función  de  la  característica  que  deseemos  estudiar  observamos  una 
variable aleatoria u otra. Cada variable depende de unos parámetros y la forma de 
estimar esos parámetros podrá ser diferente. Este tema podría alargarse mucho más, 
pero  únicamente  vamos  a  dar  el  ejemplo  típico  que  aparece  en  la  mayoría  de  los 
libros: 
Supongamos que queremos conocer el máximo valor   de una variable (edad 
máxima de una población, estatura máxima, nota máxima en un examen...). Dada 
una  muestra  aleatoria  simple  , ,..., ,  un  buen  estimador  es 
max , , . . . , , pues  esa  será  la  mejor  aproximación  que  podamos  hacer  (sin 
usar  artificios  matemáticos,  que  también  los  hay,  pero  se  ven  en  textos  más 
avanzados). 
Ahora dejamos el clásico resumen para los vagos: 

 
 244 | P á g i n a  
 
 

12.4 DISTRIBUCIÓN EN EL MUESTREO DE UN ESTIMADOR 

 
Un  estimador  es  una  variable  aleatoria,  y,  como  tal,  seguirá  alguna 
distribución (que vendrá especificada por una ley de probabilidad o una función de 
densidad), que se llama distribución en el muestreo. Ocurre así puesto que, cada vez 
que escogemos una muestra de una población y medimos el estimador, el número 
que obtenemos “varía”. 
Supongamos  que  hay  organizada  una  manifestación  multitudinaria  en 
Madrid, a la que van a asistir todos los miembros de todas las organizaciones anti‐
partidos  tradicionales  (gatoflautas,  neonazis,  indignados  con  bob  esponja, 
yayogaitas, fontaneros eróticos, volturis, góticos, etc, etc.). La policía recibe la orden 
de  obtener  información  de  una  nueva  asociación  llamada  “querubines  del 
purgatorio”,  que  está  arrasando  en  las  redes  sociales.  Para  tener  la  mayor 
información  posible  de  dicha  asociación,  reciben  la  orden  de  preguntar,  a  los 
                                                                                              P á g i n a  | 245 

manifestantes que detengan, si pertenecen o no a la misma (tras un interrogatorio 
amable y, a la vez, persuasivo). 
Supongamos  que  en  cada  furgón  policial  caben  40  detenidos.  Cada  furgón 
puede recoger, entonces, una muestra de la población de tamaño 40. Dentro de cada 
muestra se mide la estimación   
miembros de los querubines del purgatorio
̂ , 
40
que es una aproximación de la proporción   de miembros de esa asociación en la 
población general de anti‐partidos. 
Al final de la jornada de lucha, se han movilizado un total de 300 furgones. 
Así, tenemos 300 estimaciones  ̂ , ̂ , . . . , ̂  del parámetro  . 
En  el  sistema  informático  de  la  policía  se  tienen  los  datos  de  todos  los 
furgones (muestras). En la tabla (12‐3) aparece reflejada la información (valor 1 en la 
muestra si el detenido es de los “querubines” y 0 si no lo es). En la tercera columna 
de la tabla escribimos un valor ficticio para cada estimación  ̂ .  

ó ó
1 1,0,1, . . . . ,0,1,0 ̂ 0.19
 (12‐3) 
2 0,0,1, . . . ,0,1,0 ̂ 0.06
 
3 0,1,1, . . . ,1,1,0 ̂ 0  
⋮ ⋮ ⋮
300 0,1,1, . . . ,1,1,0 ̂ 0.11

Con  la  información  de  la  tercera  columna  de  la  tabla  podemos  realizar  un 
histograma,  y  de  este  modo  aproximamos  la  distribución  en  el  muestreo  de  la 
variable aleatoria  , que dibujamos en la Figura 12‐1. 
Con los datos del ejemplo anterior, supongamos que a cada detenido se le 
ficha y se le mide peso y estatura. En la tabla (12‐4), en los valores de las muestras 
tendriamos,  por  ejemplo,  datos  del  peso.  De  cada  muestra  podríamos  calcular  la 
media  y  tener  la  distribución  en  el  muestreo  del  peso  medio  (cuyo  histograma 
dibujamos  en  la  Figura  12‐2,  donde  observamos  peso  medio  mínimo  y  máximo, 
podemos  calcular  cuantiles,  etc.).  Al  ministerio  del  interior le  interesa mucho  este 
 246 | P á g i n a  
 
tipo de datos porque así podrá organizar una politica de detenciones adecuada a no 
gastar demasiado en comida de presos y detenidos. 

Figura 12‐1: histograma de la distribución en el muestreo de la variable proporción muestral. 

ó ó (12‐4)    
1 63.97,48.81, . . . ,86.83 67.03
 
2 65.14,86.35, . . . ,84.35 71.78  
⋮ ⋮ ⋮
300 73.25,57.68, , . . . ,168.44 79.02

 
Si  nos  fijamos  con  un  poco  de  detenimiento  en  la  Figura  12‐2,  podemos 
reconocer la forma de la campana de Gauss en el dibujo del histograma. Realmente, 
esto ocurre porque estamos dibujando el peso medio  . Debido a que el estadístico 
(o estimador, como se prefiera) media muestral es  ... , es decir la 
suma de   variables, dividida por  , el teorema central del límite garantiza que la 
distribución en el muestreo de este estadístico sigue una distribución normal. O sea, 
                                                                                              P á g i n a  | 247 

que siempre que calculemos medias de muestras, el histograma resultante formado 
por  esas  medias  (ya  sean  medias  de  pesos,  de  alturas,  de  temperaturas...)  se 
aproximará a la campana de Gauss. 

 
Figura 12‐2: histograma de la distribución en el muestreo del peso medio. 

12.5 CALIDAD DE LOS ESTIMADORES 

 
Cuando pretendemos estimar un parametro desconocido de una población, 
ya sea la media, la proporción o cualquier otro parámetro, está claro que podemos 
definir diferentes estimadores. 
Como vimos antes, otro estimador para la media de una población podría ser, 
dada una muestra  , ,..., ,    
min max
̂ . 
2
 248 | P á g i n a  
 
¿Cómo  sabemos  si  este  último  estimador  es  mejor  o  peor  que  la  media 
muestral? Para elegir entre un estimador y otro, se tienen en cuenta una serie de 
propiedades  matemáticas,  que  pueden  decirnos  qué  estimador  es  mejor  o  peor. 
Algunas  de  estas  propiedades  son  insesgadez  y  consistencia.  Estas  propiedades  se 
definen y estudian desde un punto de vista matemático. Únicamente intentaremos 
dar una idea intuitiva de ellas. 
 

12.5.1 Sesgo de un estimador 
 

Si   es un estimador de un parámetro  , se define el sesgo del estimador como  

  . 
Recordemos  que  un  estimador  es  una  variable  aleatoria,  por  lo  tanto 
podemos calcular su media o esperanza (podríamos calcular la media de los valores 
̂   en  la  tabla  (12‐3)).  El  sesgo  es  la  distancia  entre  la  media  y  el  parámetro  que 
queremos  estimar.  Obviamente,  cuanto  más  pequeño  es  el  sesgo,  mejor  es  el 
estimador.  
Si el sesgo de un estimador es cero, el estimador se dice que es insesgado.  

 
 
                                                                                              P á g i n a  | 249 

Ejemplo 12-1 Puede demostrarse matemáticamente que la media muestral


es un estimador insesgado de la media verdadera, y que ̂ (proporción
muestral) es un estimador insesgado de la proporción verdadera. La cuasi-
varianza muestral es un estimador insesgado de la varianza teórica de la
población. Sin embargo, la varianza muestral NO es un estimador
insesgado. Este es uno de los motivos por los que, en muchas ocasiones, la
varianza se define ya directamente como la cuasi-varianza, y por qué muchos
paquetes estadísticos, cuando les pedimos calcular la varianza, realmente
calculan la cuasi-varianza.

12.5.2 Consistencia  
Un  estimador  es  una  variable  aleatoria  que  depende  de  una  muestra  de 
tamaño  . Parece intuitivo que, cuanto más  grande sea la muestra que tomemos, 
mejor será la estimación. Un estimador se dice consistente si lim → . 
 

Ejemplo 12-2 Los estimadores que hemos visto (media muestral, proporción
muestral, varianza y cuasi-varianza muestral) son consistentes.

 
 

Ejemplos claros de Estimaciones Sesgadas:


• “El deficit público este año será de X por ciento”, dicho por cualquier
 250 | P á g i n a  
 
gobierno. Al final de año siempre se demuestra que esa estimación era
inferior a lo real. Son estimaciones sesgadas por debajo siempre.
• “El paro se reducirá este año un X por ciento”, dicho por cualquier gobierno.
Como sabemos, siempre se demuestra que esa estimación era superior a lo
real. Ejemplo de estimación sesgada por arriba.
• “Este arreglo se lo hago yo por mil euritos de nada”, dicho por un albañil a
un cliente. Estimación sesgada por abajo siempre (y sin tener en cuenta los
destrozos posteriores). “Usted me dijo que la obra serían mil euros, y ahora
quiere que le pague 2000”, protesta el cliente”. “Eso era una estimación,
señor”, contesta el albañil, experto en estadística sin darse cuenta.
• “La vivienda nunca baja. Alquilar es tirar el dinero. Compra un piso e
hipotécate lo que haga falta. En el peor de los casos, si no puedes pagar la
hipoteca, vendes el piso y ganas dinero”. Estimación repetida hasta la
saciedad en bancos y bares durante varios años.

12.6 INTERVALOS DE CONFIANZA 

 
Dar una estimación concreta está bien, porque es una aproximación de algo 
que desconocemos. Ahora bien, a efectos prácticos, no podemos saber la distancia o 
diferencia  que  existe  entre  la  estimación  que  demos  y  el  parámetro  a  estimar.  Si 
decimos que la proporción de gente a la que le gusta el chocolate con churros es un 
60 por ciento, basándonos en una encuesta, aunque sea de un tamaño muy grande, 
no podemos calcular la diferencia entre ese valor y el real. 
Parece  bastante  más  práctico  dar  un  intervalo  apróximado  por  donde 
sepamos que se mueve el valor real que estamos estimando y que desconocemos; 
decir algo así como: “la proporción de gente a la que le gusta el chocolate con churros 
se  mueve  entre  el  55  y  el  65  por  ciento,  con  una  probabilidad  muy  alta”.  De  esta 
manera damos mucha más información, puesto que acotamos tanto por arriba como 
por abajo el porcentaje del que hablamos, y damos la probabilidad del intervalo. 
 
                                                                                              P á g i n a  | 251 

12.6.1 Definiciones básicas 
 
Un intervalo de confianza de nivel  (donde   es un número entre 0 y 1) para 
estimar un parámetro  es un intervalo de valores  ,  que contiene al parámetro 
con probabilidad 1 , es decir  ∈ , 1 . 
 se llama nivel de significación. 1  es el nivel de confianza. En general,   
es un número próximo a 0, con lo que 1  está próximo a 1. 
Cojamos, por ejemplo,  0.05. Que el parámetro   esté en un intervalo con 
una confianza del 95% significa que, si dispusiéramos de todas las posibles muestras 
que pudiésemos extraer de la población, el 95% de ellas contendrían al parámetro, y 
habría un 5% de muestras que no lo contendrían (en vez de 95 léase  1 ⋅ 100 
para cualquier otro  . 
Los  valores  que,  tradicionalmente,  se  suelen  utilizar  para  el  nivel  de 
significación   son 0.01,0.05 y 0.1. 
La manera general de construir, matemáticamente, un intervalo de confianza 
para  un  parámetro  ,  suele  ser  a  través  de  un  estadístico  llamado  pivote,  con 
distribución conocida (como la normal, la   de Student, la Chi‐cuadrado o la  . Dicho 
estadístico pivote se utiliza también para realizar los contrastes de hipótesis para el 
parámetro  , que veremos en el siguiente capítulo. Los intervalos de confianza para 
un parámetro   suelen tener la forma  , , donde  es un estimador de  y 
  es  una  cierta  cantidad  que  depende  del  tamaño  de  la  muestra  y  del  nivel  de 
significación  .  Cuanto  mayor  sea  el  nivel  de  confianza  1   que  pretendamos, 
mayor longitud tendrá el intervalo. Análogamente, a menor nivel, menor longitud. 
Asimismo,  cuanto  mayor  sea  el  tamaño  de  la  muestra,  menor  será  la  longitud  del 
intervalo. 
En este texto nos limitaremos a dar las fórmulas de los intervalos de confianza. 
El estadístico pivote a partir del cual se construye cada intervalo puede consultarse 
en el apartado correspondiente, dentro del capítulo de test de hipótesis (tampoco 
nos interesa la forma de construir el intervalo). Para profundizar cualquiera de estas 
cuestiones, o también el tema de la construcción y propiedades matemáticas de los 
 252 | P á g i n a  
 
estimadores, recomendamos mirar algún libro de estadística teórica de ingeniería, 
como el de Ardanuy [1] o Montgomery y Runger [9]. 
 

12.6.2 Intervalos de confianza para variables aleatorias normales 
 
Sea   una variable aleatoria normal, que mide una característica de interés 
en una población,  ∈ , . Exponemos, a continuación, cuáles son las fórmulas 
de los intervalos de confianza para los parámetros   y  . 
Se parte de una muestra aleatoria simple  , ,…, . 
 

12.6.2.1 Intervalos de confianza para la media   
Existen  dos  posibilidades  para  calcular  un  intervalo  de  confianza  para  el 
parámetro  : conocer la desviación típica o no conocerla. 
 
Intervalo conociendo la desviación típica   
El intervalo tiene la fórmula 

, ,    (12‐5) 
/ /
√ √

siendo    
...
 

la media muestral, y  /  el valor de una distribución  0,1  que deja a su derecha  


    de  área  (Figura  12‐3),  es  decir  es  el  cuantil  o  valor  que  deja  a  la  izquierda  una 
probabilidad 1 . 
                                                                                              P á g i n a  | 253 

 
Figura 12‐3 

Con una gráfica siempre se ven las cosas más claras (Figura 12‐4). La media 
teórica está en el intervalo de confianza con la probabilidad prefijada de antemano. 
Como vemos, el intervalo está centrado en la estimación puntual de la media (media 
muestral  ), y es de la forma: (  menos una cantidad,   más una cantidad). 

Figura 12‐4 

 
Intervalo desconociendo la desviación típica 
Es  muy  dificil  que,  en  un  caso  real,  se  tenga  la  información  de  cuál  es  la 
desviación  típica  teórica  o  verdadera  σ  de  la  población,  por  lo  que  el  intervalo 
 254 | P á g i n a  
 
anterior  no  resulta,  en  la  práctica,  eficaz.  Al  desconocerse  σ  lo  que  se  hace  es 
estimarla, usando la cuasi‐desviación típica muestral. El intervalo que resulta utiliza 
la distribución   de Student, vista en el capítulo anterior.  
El intervalo es 

(12‐6  
, / , , / , 
√ √

siendo  , /  el valor de una   de Student con  1 grados de libertad que deja a 


la  derecha  /2  de  área  (igual  que  en  el  caso  anterior,  es  el  cuantil  que  deja  a  la 
izquierda área o probabilidad 1 , pero debemos buscar dicho valor en la densidad 
 con  1 grados de libertad).   es la cuasi‐desviación típica muestral (fórmula 
(11‐1)). 

La cantidad  /√  suele recibir el nombre de error típico o error estándar 
de la media. 
 

Ejemplo 12-3 El Yoshua vende paquetes de costo para los porritos que fuman
en su calle, diciendo que de media tienen 10 gramos de hachís. La Yesi y el
Richar le compran 7 paquetitos para una fiesta y los pesan:
9.8,10.2,10.4,9.8,10.2,10.2,8.6. ¿Será cierta la afirmación del Yoshua?

Solución.  
Vamos  a  calcular  un  intervalo  de  confianza  para  la  media  de  los  paquetes 
(suponemos que el peso sigue una distribución normal). Acabamos de escribir que el 
intervalo de confianza para la media es   

, / , , / . 
√ √
En  este  caso  ̅ 9.88 y 0.609.  Vamos  ahora  a  calcular  los  3 
intervalos de confianza más comunes, que son los que usan   0.1, 0.05 y 0.01. 
Para ello tendremos que buscar el valor  , / . Lo más cómodo es ir a la página web 
statdistributions.com y buscar el valor, indicando p-value=0.1 (cuando queremos 
que   sea 0.1), d.f.=6 y marcando la opción two tails, como vemos en la Figura 12‐5. 
                                                                                              P á g i n a  | 255 

Figura 12‐5 

El  valor  , /   es  1.943.  En  la  siguiente  tabla  calculamos  los  intervalos  e 
indicamos su longitud. 
1 , /
0.9 90% 0.1 1. 943 9.43,10.33 0.9
 
0.95 95% 0.05 2. 446 9.32,10.44 1.12
0.99 99% 0.01 3. 707 9.03,10.73 1.7
Según los valores de la tabla, vemos que la verdadera media (desconocida) 
está en el intervalo  9.43,10.33  con probabilidad 0.9; en el intervalo  9.32,10.44  
con  probabilidad  0.95,  y  en  el  intervalo  9.03,10.73   con  probabilidad  0.99.  
Observamos que, cuanta mayor es la confianza, la longitud del intervalo aumenta. 
 Para  conseguir  un  intervalo  de  menor  longitud  (lógicamente  más  preciso)  con  la 
misma confianza, tendríamos que aumentar el tamaño de la muestra. 
 
 256 | P á g i n a  
 
Nota 12-1 En cualquier paquete de software puede calcularse el intervalo
directamente. En R, por ejemplo, con pasarle una muestra como un vector x,
podemos ejecutar la opción t.test(x), que ejecutaría un test de hipótesis (ya veremos
qué es en el capítulo siguiente), y además proporciona el intervalo de confianza para
la media.
x=c(9.8,10.2,10.4,9.8,10.2,10.2,8.6)
t.test(x, conf.level = 0.95)
Lógicamente, en conf.level escribimos el valor que nos interesa. Entre los
resultados que se obtienen, nos quedaríamos con:
95 percent confidence interval:
9.322068 10.449361

 
Cálculo del tamaño de la muestra. 
 

Ejemplo 12-4 Después de un mes de la externalización del servicio de


comedor de un hospital público, y para evitar problemas con los sindicatos
médicos, se quiere comprobar que el peso medio de los pacientes no ha
variado considerablemente con la nueva comida. Antes de la externalización
del servicio, se sabía que el peso de los pacientes seguía una distribución
normal con desviación típica 16.5 kilos.
¿Cuántos pacientes deberán considerarse para que, con una confianza del 99
por ciento, el error cometido al estimar el peso medio de los pacientes
mediante el peso medio muestral no exceda de 2.5 kilos?

Solución.  
Trabajamos con la suposición de que  =“peso de los pacientes” ∈ , . 
Con una probabilidad de 0.99, queremos que el error al estimar   mediante  ̅  
no exceda de 2.5 kg, es decir que | ̅ | 2.5. Como el intervalo de confianza para 
la media (cuando la desviación típica es conocida, que en este caso es  16.5) es 
el formulado en  (12‐5),   

/ ⋅ , / ⋅ , 
√ √
                                                                                              P á g i n a  | 257 

y quiere decir que   está en ese intervalo con probabilidad 1  (ver la Figura 12‐4), 


entonces | ̅| / ⋅ , con probabilidad 1 . 

Unimos las dos cosas:  

| ̅| ⋅    
/

y  (12‐7) 
| ̅| 2.5.   

Entonces, acotamos / ⋅  por 2.5, donde   es lo que buscamos,  16, 



y como  1 0.99 0.001, se calcula el valor  / 2.57. Por consiguiente: 
16.5
2.57 ⋅ 2.5 ⇔ 

2.57 ⋅ 16.5
⇔√ 16.962, 
2.5
lo que significa que  287.709 ⇒ Se deberá pesar, al menos, a 288 pacientes. 
 

Nota 12-2 Como dijimos anteriormente, es muy difícil que, en la práctica, se


conozca la desviación típica real . Si no es así, para calcular el tamaño de la muestra
deberíamos utilizar el intervalo basado en la de Student (12-6 . La relación que
aparece en la primera línea de la fórmula (12-7) sería ahora:

  | ̅| , / . 

El problema que tendríamos es que necesitariamos saber , / que depende de
y . Para ello se debería elegir alguna muestra inicial un poco grande (30 o más) y
calcular . Esto nos daría una estimación de la desviación típica de la población.
Por otro lado, como lo que queremos calcular es un tamaño muestral, éste
seguramente deberá ser grande, con lo que , / lo podemos aproximar por /
(pues hemos visto que la de Student, a medida que se hace grande, se convierte
en la distribución normal). De esta manera, la fórmula para estimar el tamaño
muestral queda:
 258 | P á g i n a  
 
/ ⋅
,

donde 1 sería la confianza deseada, y el máximo error que deseemos cometer


al estimar la media mediante la media muestral.

Nota 12-3 En la práctica, el intervalo de confianza para la media puede


utilizarse igual aunque la variable considerada no sea una variable normal, sino
cualquier otra. Esto es debido al teorema central del límite, donde se decía que la
suma de variables se aproxima por una distribución normal. En general, si tenemos
variables , , . . . , , todas de media y desviación típica , el teorema central
del límite dice que
... , √ ,
con lo que la media muestral    
...
̅ .  ,

            Como no vamos a detenernos en planteamientos teóricos, lo que queremos
resaltar es que la media muestral de n variables se aproxima por una distribución
normal, mientras que si dichas variables son normales, entonces la media muestral
sigue exactamente una distribución normal. A efectos prácticos, podemos utilizar
el mismo intervalo de confianza para la media, en el caso de que las variables
sean o no normales. Cuando no lo sean, simplemente sucede que el intervalo tendrá
algo menos de fiabilidad.  

12.6.2.2 Intervalo de confianza para  (para   simplemente se elevan los valores 


al cuadrado) 
Conociendo la media   
La fórmula del intervalo es (señalemos que, en este caso, el intervalo no tiene 
la forma de estimación menos algo, estimación más algo)  

∑ ∑
, , 
, / , /
                                                                                              P á g i n a  | 259 

siendo  , /  el valor de una Chi‐cuadrado, con   grados de libertad, que deja a la 


derecha  /2 de área (Figura 12‐6), o cuantil que deja a su izquierda 1  de área.   
Como ocurría en el caso de la media, este intervalo no suele utilizarse, puesto que lo 
habitual, si no se conoce la desviación típica, es no conocer tampoco la media. 

Figura 12‐6 

 
 
Desconociendo la media 
Cuando la media teórica no se conoce, se estima mediante la media muestral. 
En  este  caso,  la  distribución  Chi‐cuadrado  de  referencia  tiene  un  grado  menos  de 
libertad. El intervalo es:    

∑ ∑
, , 
, / , /

que puede escribirse en función de la varianza o cuasi‐varianza muestral, del modo: 

(12‐8) 
1 1
, , , 
, / , / , / , /

siendo  , / el valor de una Chi‐cuadrado con  1 grados de libertad que deja 


a la derecha  /2 de área. 
 260 | P á g i n a  
 
 

Ejemplo 12-5 El dueño de un pub está dudando si, para el día de fin de año,
le compensa más cobrar por consumición un euro, que es lo que van a hacer
la mayoría de los pubs del barrio (dando garrafón, por supuesto) o vender una
entrada a un precio alto y que el cliente tenga barra libre. Para decidirse, invita
a 12 vecinos para comprobar cuántas consumiciones alcohólicas pueden
tomarse hasta caer redondos. Los datos que obtiene son:
3, 8, 12, 13, 15, 18, 20, 24, 24,30, 32, 40.

De  estos  datos  se  obtienen  los  valores  18.75,  y  9.15.  Vamos  a 
calcular los intervalos de confianza para la media y la desviación típica, para un nivel 
0.05. 
El intervalo de confianza para la media es el dado por la fórmula (12‐6 . El 
valor  , / ,
. 2.201.  

Para calcular el valor en R, escribimos 
qt(0.025,11)  y  nos  da  ‐2.20  (el  valor  opuesto).  Otra  forma  es  ir  a 
statdistributions.com y calcularlo con la gráfica, que puede ser más intuitivo. 
.
El intervalo resulta  18.75 2.201 ⋅ 18.75 5.81,18.75 5.81

12.94,24.56 . 
El intervalo para la desviación típica es el expresado en (12‐8). Calculamos los 
valores  , / ,
. 21.92 y  , / , . 3.816. 

Para calcular estos cuantiles en R, escribimos 
qchisq(0.025, 11); qchisq(0.975,11) y obtenemos los dos valores. 
El intervalo queda   

11 ⋅ 9.15 11 ⋅ 9.15
, 6.48,15.53 . 
21.92 3.816

Si  se  elige  como  valor  para  la  media  y  la  desviación  típica  los  extremos 
superiores de los intervalos correspondientes, tendríamos que la media podría ser 
                                                                                              P á g i n a  | 261 

24.56 y la desviación típica 15.53. Entonces, como caso muy desfavorable, el valor 
más  alto  que  podría  tomar  la  variable  “cantidad de alcohol”  estaría  cerca  de 
2 24.56 2 ⋅ 15.53 55.62. 
Estrategia  del  dueño  del  pub:  vender  entradas  de  barra  libre,  cobrando  un 
precio alto, del tipo algo más de 40 euros (de hecho, en la muestra vemos que 40 es 
un valor extremo). Si, por ejemplo, fija el valor de la entrada en 50 o 55 euros ya sería 
muy difícil que perdiera con nadie, por muy bebedor empedernido que fuera.  
 

12.7 INTERVALOS PARA LA COMPARACIÓN DE POBLACIONES  

 
Ahora  estamos  interesados  en  comparar  dos  poblaciones  o  variables  ∈
,  e  ∈ , , independientes.   
¿Son  más  altos  los  españoles  que  los  portugueses?  ¿Son  más  gordos,  más 
listos...  ?  ¿Son  los  políticos  españoles  más  corruptos  que  los  italianos?  ¿Son  más 
guapas las mujeres policía que las de la guardia civil?  ¿Todos los hombres guapos y 
sensible son gays? 
Para  contestar  preguntas  de  este 
tipo pueden realizarse inferencias (o 
calcular  intervalos  de  confianza)  de 
la diferencia de medias     , o 
de la proporción de varianzas  / . 
Se  parte  de  dos  muestras 
aleatorias  simples  , ,...,   e 
, ,..., , de las variables  ∈
,   e  ∈ , , 
respectivamente. 
 
 
 
 262 | P á g i n a  
 
12.7.1 Intervalo de confianza para la diferencia de medias  
Para dar un intervalo para     tenemos cuatro posibilidades. 
 

12.7.1.1 Conociendo las desviaciones típicas   y   


El intervalo es   

/ . 

Podemos ver que este es un intervalo de la forma del escrito en (12‐5), pero 
ahora aparecen dos medias muestrales, dos tamaños muestrales y dos varianzas. 
 

12.7.1.2 Desconociendo las desviaciones típicas pero suponiendo que son iguales 

1 1 1 1
, / ⋅ . 
2

Si no conocemos la varianza (pero suponemos que las dos variables tienen la 
misma), entonces la estimamos. ¿Cómo? Pues mediante la muestra  , , . . . ,  
realizamos una estimación  ; mediante la muestra  , ,...,  realizamos una 
segunda  estimación    y,  a  continuación,  se  toma  la  media  ponderada  (como 
ponderaciones usamos los tamaños muestrales):  
1 1

2
Esta es una estimación de la varianza. Calculando la raiz cuadrada tenemos 
una estimación de la desviación típica. Ahora, en el intervalo de confianza, en vez de 
utilizar la variable   o normal, utilizamos la   de Student. 
 
                                                                                              P á g i n a  | 263 

12.7.1.3 Desconociendo las desviaciones típicas y suponiendo que los tamaños de 
las muestras son grandes  ,  

/  

Si  los  tamaños  de  muestra  son  grandes  (y  no  se  conocen  las  desviaciones 
típicas  ni  se  puede  suponer  que  sean  iguales),  entonces  se  aprovecha  que  la    de 
Student  se  parece  a  la  distribución  normal,  tanto  más  cuanto  más  grande  es  el 
número de grados de libertad. Por eso sale ahora un intervalo de confianza igual al 
del primer caso (donde conocíamos las varianzas), pero ahora no las conocemos y las 
sustituimos por sus estimaciones. 

12.7.1.4 Desconociendo las desviaciones típicas y suponiendo que los tamaños de 
las muestras son pequeños  ,  
(12‐9) 
, /    

siendo Δ el entero más próximo a   

1 1

1 1

Cuando ya estamos en el peor de los casos posibles, que es no conocer las 
varianzas y aún encima tener tamaños de muestra pequeños, resulta que un señor 
muy  listo  (que  no  obtuvo  demasiado  reconocimiento,  la  verdad,  porque  en  pocas 
ocasiones se da su nombre11) calculó el intervalo a usar. Como vemos, es igual que 
en el caso anterior, pero sustituyendo la variable normal por la   de Student. La pega 
está en el número Δ que tiene una forma un pelín compleja, sobre todo si se hacen 
las cuentas a mano. 

                                                       
11
  B. Welch fue el estadístico en cuestión que calculó la fórmula de Δ. Hay quien dice que 
después de eso tuvo que estar a tratamiento, pero quizá sea una leyenda urbana. 
 264 | P á g i n a  
 
Nota 12-4 Por si algún novato está a punto de tener un desmayo a causa de
tanto formulón (sobre todo después de ver la fórmula de ), recuérdese que todos estos
intervalos están programados. En general, con introducir los datos de las muestras en
la web o programa estadístico correspondiente, elegir el que queremos y el intervalo
que necesitamos, las cuentas no hay que hacerlas.

Ejemplo 12-6 Para decidirse entre dos proveedores de internet, un friki


informático decide aprovechar el día de prueba gratis que da cada
compañía, para bajarse los 10 episodios de la serie porno “Tócamela otra
vez, Sam”. Para cada episodio anota el tiempo de descarga (minutos) con
cada proveedor, obteniendo
\ 1 2 3 4 5 6 7 8 9 10
2.2 2.1 4.2 1.6 3.2 2.8 1.7 4.8 3.4 7.9 
3.1 2.8 3.8 2.8 4.5 2.8 1.9 5.4 3.1 7.2
Calcular un intervalo de confianza, al 95 por ciento, para la diferencia de
medias, y razonar si alguno de los proveedores de internet puede
considerarse más rápido que el otro.

Solución. 
Estamos en el caso de que las muestras son pequeñas y desconocemos las 
desviaciones  típicas.  Si  las  muestras  fueran  grandes,  tendríamos  que  decidir  si  las 
varianzas pueden considerarse iguales o no. Para ello habría que hacer un contraste 
de hipótesis para saber si la proporción  /  puede considerarse igual a 1. Esto se 
ve en el capítulo siguiente. 

Con  las  muestras  que  nos  dan,  tenemos  que  3.39, 3.74,
3.61, 2.46, 1. Elegimos  0.05, con lo que  , / , /
2.11. El intervalo de confianza (para  0.05  es el (12‐9) que sale  1.99,1.29 , es 
decir, la diferencia de tiempos medios de descarga pertenece a este intervalo con 
probabilidad 0.95. Como podemos ver, el intervalo de confianza contiene al cero, o 
sea  que  hay  poca  diferencia  entre  la  velocidad  media  de  un  proveedor  y  otro.  De 
todas  formas,  para  tomar  una  decisión  más  acertada,  desde  el  punto  de  vista 
estadístico, es mejor realizar un contraste de hipótesis. 
 
                                                                                              P á g i n a  | 265 

Nota 12-5 De nuevo vemos lo fácil que es hacerlo en R: declarar los datos
(muestras) como vectores y ejecutar una instrucción
x=c(2.2,2.1,4.2,1.6,3.2,2.8,1.7,4.8,3.4,7.9)
y=c(3.1,2.8,3.8,2.8,4.5,2.8,1.9,5.4,3.1,7.2)
t.test(x,y, conf.level=0.95)
En los resultados, entre otros valores, tenemos el intervalo de confianza al 95
por ciento:
95 percent confidence interval:
-1.991689 1.291689

  
Por  último,  para  comparar  las  varianzas  podemos  dar  un  intervalo  para  la 
proporción o cociente entre las mismas. 
 

12.7.2 Intervalo de confianza para la razón de varianzas  
El intervalo de confianza para la proporción o cociente de varianzas  /  
es   

, , / , , , / , 

siendo  , , /   el  valor  de  una  F  de  Snedecor,  con  1  y  1  grados  de 
libertad, que deja a la derecha  /2 de área (o sea el cuantil que deja a la izquierda 
1  de área). 

A continuación, vamos a realizar una comparación entre dos muestras reales. 

Pequeña comparación entre poblaciones independientes (aunque 
no tan normales). Un ejemplo de Estados Unidos contra uno de España: 
 
 
 266 | P á g i n a  
 

 
 
                                                                                              P á g i n a  | 267 

 
 
 
   
 268 | P á g i n a  
 
12.8 CASO DE MUESTRAS RELACIONADAS O PAREADAS 

 
Puede  darse  el  caso  de  que  las  muestras  que  tengamos  no  sean 
independientes, sino que estén relacionadas o pareadas (según los textos, aparece el 
término  pareadas  o  apareadas).  La  diferencia  entre  muestras  independientes  o 
relacionadas es que, en el segundo caso, se dan dos mediciones de la misma o similar 
característica para cada individuo, o para dos individuos de idénticas características 
relevantes de la muestra. Por ejemplo, cuando observamos el peso de una serie de 
personas antes y después de realizar una dieta, o bien si de una serie de personas 
medimos las características peso y estatura, no podemos considerar que las muestras 
son independientes. En ambos casos tendríamos ejemplos de muestras apareadas. 
El tratamiento de este caso es muy sencillo. Si disponemos de dos muestras 
(deberán ser de igual tamaño)  , , . . . ,  e  , , . . . , , de las variables  ∈
  ,   e  ∈   , ,  lo  que  haremos  será  trabajar  con  la  variable  de 
diferencias   (o  , es indiferente), y por tanto con una sola muestra 
, ,..., ,  donde  .  Lo  que  nos  puede  interesar  será  calcular 
intervalos  de  confianza  o  estimaciones  de  la  media  de  la  variable    (o  de  su 
desviación típica). 
 

Ejemplo 12-7 La dirección general de seguridad convoca oposiciones para


interrogador profesional. Una de las pruebas consiste en interrogar a una
serie de detenidos, midiendo la cantidad de oxígeno consumido durante un
periodo de 10 minutos, dando por entendido que, si el interrogador es mejor,
asusta más y el detenido respira menos. Sobre la base de los resultados a 7
detenidos, que aparecen en la tabla, ¿cuál de los dos interrogadores le
interesa más a la dirección general de seguridad? Utilizar un nivel de
significación del 5%.
\ 1 2 3 4 5 6 7
1 6.1 6.3 5.7 6.4 5.8 6.2 4.1 
2 5.4 6.7 5.4 6.2 6.0 6.1 4.5

Solución. 
                                                                                              P á g i n a  | 269 

Construimos  la  muestra  de  diferencias  entre  los  datos  de  los 
interrogadores 
0.7,0.4, 0.3, 0.2,0.2, 0.1,0.4 , 
y calculamos el intervalo de confianza para la media de la variable  . El intervalo es 
0.4
, / ⋅ 0.042 2.447 ⋅  
√ √7
0.042 0.36, 0.042 0.36 0.402,0.318 . 
El intervalo de confianza contiene al cero, aunque es algo más largo hacia la 
izquierda (lo que otorgaría ventaja al primer interrogador). Estadísticamente, debería 
optarse  por  elevar  el  número  de  detenidos  para  obtener  un  intervalo  de  mayor 
precisión. Además, para tomar una decisión desde el punto de vista estadístico, sería 
mejor  realizar  un  contraste  de  hipótesis.  Sin  embargo,  creemos  que  la  dirección 
general de seguridad va a establecer un desempate mediante una pelea a muerte 
súbita entre los interrogadores. 
 

 
 

12.9 INTERVALOS PARA PROPORCIONES 
 
 
 
 
 270 | P á g i n a  
 
12.9.1 Intervalo para una proporción 
 
Supongamos que se mide una cierta característica   en una población. Sea 
 la proporción de elementos de la población con dicha característica. Como 
hemos  visto,    se  estima  puntualmente  mediante  la  proporción  muestral  ̂
número  de  elementos  con  la  carácterística    en  la  muestra  de  tamaño  / .  El 
intervalo de confianza de nivel   para el parámetro   es de la forma 

  ̂ / , 

donde  /  es el valor de una  0,1  que deja a su derecha  /2 de área. 

Ejemplo 12-8 Tras una encuesta del Centro de Investigaciones


Escatológicas, se ha encontrado que 42 de los 60 hombres encuestados no
bajan la tapa del wc, bien por desidia, bien porque lo ven inútil. Determinar un
intervalo de confianza para la proporción p de hombres que no bajan la tapa
del wc, con un nivel de significación del 1 por ciento.

Solución. 
Nivel de significación del 1 por ciento:  0.01 ⇒ 1 0.99 ⇒ /

2.64. Por otro lado, nos dicen que  ̂  y que  60. El intervalo sale:   


42 42 42 42
42 ⋅ 1 60 42 ⋅ 1 60
2.64 ⋅ 60 , 2.64 ⋅ 60 0.54,0.85 , 
60 60 60 60

es decir, el intervalo va del 54 al 85 por ciento. Cualquier periódico sacaría el titular: 
“según una encuesta del CIE, más de la mitad de los hombres no bajan la tapa del 
W.C.”,  y  lo  acompañaría  de  alguna  fotografía  indicativa,  que  nos  negamos  a 
reproducir. 

Nota 12-6 En paquetes estadísticos como SPSS o R, lo habitual es disponer


de una variable con todos los datos (que, en un caso como este serían SI o NO, o del
tipo 0-1), y el propio programa nos realiza el cálculo de las proporciones muestrales
                                                                                              P á g i n a  | 271 

y el intervalo correspondiente, de un tirón. De todas formas, en R podría calcularse


como:
x1=42; n1=60
prop.test(x=x1, n=n1, conf.level = 0.99, correct=F)
El resultado (entre otras cosas):
99 percent confidence interval:
0.5341185 0.8260532

 
  

12.9.2  Intervalo de confianza para la diferencia de proporciones 
Ahora  suponemos  dos  poblaciones  en  donde  se  considera  la  misma 
característica  .    es  la  proporción  de  elementos  con  dicha  característica  en  la 
primera  población,  y    es  la  proporción  en  la  segunda  población.  Se  toma  una 
 272 | P á g i n a  
 
muestra de tamaño   de la primera población, y otra de tamaño   en la segunda, 
y  se  calculan  las  respectivas  proporciones  muestrales  ̂   y  ̂ .  El  intervalo  de 
confianza para la diferencia   es 

̂ ⋅ 1 ̂ ̂ ⋅ 1 ̂
̂ ̂ / ⋅  

Ejemplo 12-9 En una encuesta realizada a 420 estudiantes de Bachillerato,


250 de ellos dijeron que era poco ético que los padres revisen el correo
electrónico, facebook, etc., de los hijos menores de edad. Se entrevistó a 140
padres de familia, y 42 dijeron que era poco ético revisar los correos privados
u otro material del ordenador de los hijos. Calcular un intervalo de confianza
para la diferencia de proporciones entre opiniones de hijos y padres, con una
confianza del 95 por ciento.

Solución. 
Tenemos que  ̂ =estimación de la proporción de estudiantes que ven poco 
ético que los padres revisen el ordenador de los hijos= 0.59. 

Asimismo,  ̂ =estimación  de  la  proporción  de  padres  que  ven  poco  ético 
revisar el ordenador de los hijos= 0.3. 

Confianza del 95 por ciento significa que 1 0.95 ⇒ 0.05 ⇒ /


1.96. 
Calculamos entonces el intervalo de confianza:   

0.59 ⋅ 1 0.59 0.3 ⋅ 1 0.3


0.59 0.3 1.96 ⋅  
420 180

  0.29 0.081 0.209,0.371 , 


con lo que obtenemos que la diferencia real de proporciones   está dentro 
de este intervalo, con probabilidad 0.95.  
 
                                                                                              P á g i n a  | 273 

Nota 12-7 En R se calcularía de la forma:


x1=c(250,42); n1=c(420,140)
prop.test(x=x1, n=n1, conf.level = 0.95, correct=F)
y el resultado daría
95 percent confidence interval: 0.2059867 0.3844895
 
 
 

 
 
 
 
 
 
 
 274 | P á g i n a  
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
                                                                                              P á g i n a  | 275 

13 CONTRASTES DE HIPÓTESIS 
 
 Según una encuesta reciente, el 80 por ciento de las mujeres afirma no 
fijarse en el físico. 
“Claro, se fijan en el médico, el futbolista y el notario”, dijo un tío en un bar.  
 
 

13.1 INTRODUCCIÓN. CONCEPTOS ESENCIALES 

 
Una  hipótesis  estadística  es  una  afirmación  que  se  hace  sobre  una  o  más 
características de una población (decir que la vida media de una batería son x horas, 
que  un  determinado  producto  hace  adelgazar,  que  a  la  gente  le  gusta 
mayoritariamente  el  morbo...).  Un  test  o  contraste  de  hipótesis  es  algún 
procedimiento para aceptar o rebatir dicha hipótesis o afirmación. 
Los contrastes pueden ser de tipo paramétrico o no paramétrico, según se 
refieran  o  no  a  parámetros  de  una  población  (a  la  media,  a  la  varianza,  a  una 
proporción...). 
Una hipótesis paramétrica es una afirmación sobre una o más características 
(parámetros) de una población. Si dicha hipótesis especifica un único valor para el 
parámetro la llamaremos hipótesis simple. Ejemplo: la estatura media de los varones 
españoles mayores de 18 años es 1.77 m ( 1.77 . 
Si  se  especifica  más  de un  valor  para  el  parámetro  la  llamaremos  hipótesis 
compuesta. Ejemplo:  1.75. 
Ejemplos de hipótesis no paramétricas:   
 276 | P á g i n a  
 
‐ Las notas de una asignatura son normales (la variable  =“nota” sigue una 
distribución normal). 
‐ Los resultados de un sorteo no son aleatorios (la variable  =“resultado” no 
sigue una distribución uniforme). 
La realización de un contraste implica la existencia de dos hipótesis: 
  

    •  Hipótesis nula. 
 Se denota por   , y se asume como correcta. 
    •  Hipótesis alternativa. 
 Se denota por  ,  y es la que pretendemos contrastar como opuesta a la 
hipótesis nula.  

 
El planteamiento de una hipótesis estadística (y su alternativa) es una primera 
forma de afrontar la llamada teoría estadística de la decisión. Así, por medio de un 
test o contraste de hipótesis, el investigador deberá tomar una decisión entre dos 
alternativas.  La  manera  de  hacerlo  será  elegir  una  muestra  lo  suficientemente 
representativa de la población en estudio, y ver si los resultados que se obtienen son 
coherentes con la hipótesis formulada. Por ejemplo, cuando queremos comprobar si 
las  notas  de  una  asignatura  siguen  una  distribución  normal,  una  posible  forma  de 
tomar una decisión sería representar los resultados de un examen por medio de un 
histograma  de  frecuencias  y  chequear  el  parecido  con  la  campana  de  Gauss. 
Lógicamente, al tomar una muestra siempre habrá desviaciones conforme a la base 
teórica  que  planteemos  en  la  hipótesis  nula.  Lo  que  habrá  que  estudiar  es  si  esas 
desviaciones son fruto de la casualidad o no. 
En ocasiones, la hipótesis nula se llama “de igualdad”, porque se presupone 
que  es  la  hipótesis  que  cumple  la  población,  y  la  alternativa  ha  de  demostrar  lo 
contrario. Veamos a continuación un ejemplo referido a la media de una población. 
 
                                                                                              P á g i n a  | 277 

 
Este sería un ejemplo del primer error que no debemos cometer: elegir una 
muestra  mala,  o  no  representativa  de  la  población.  Hemos  visto  en  el  apartado 
anterior  varias  maneras  de  seleccionar  una  muestra.  A  lo  largo  de  este  capítulo, 
supondremos que las muestras se eligen mediante muestreo aleatorio simple, y que 
la población tiene un tamaño muy grande (que podría entenderse como infinito). 
Planteamiento general. 

Hipótesis nula      Hipótesis alternativa       

La que contrastamos.  Niega a la nula. 

Los datos pueden refutarla.  Los datos pueden ser favorables 
a ella. 

No debe rechazarse sin una  No  debe  aceptarse  sin  grandes 


buena razón.  evidencias a su favor. 
 278 | P á g i n a  
 
 
La hipótesis nula es la que el investigador asume como correcta, y se trabaja 
con  el  principio  básico  de  que  es  cierta  mientras  los  datos  no  prueben  con  gran 
certidumbre lo contrario. Ahora bien, tras realizar un test o contraste, la aceptación 
de   no implica que ésta haya sido probada al 100 por 100, sino que los datos no 
han  proporcionado  evidencia  suficiente  como  para  refutarla.  En  este  sentido,  la 
consideraremos neutra pero nunca totalmente probada. 
Es habitual poner como ejemplos de hipótesis nula y alternativa las siguientes: 
a) Una persona llega a un hospital. 
:  enfermo.    :  no enfermo. 
b) Un acusado en un juicio. 
:  inocente.    :  culpable. 
Obviamente,  hemos  indicado  dos  problemas  que,  generalmente,  no  se 
resuelven con ayuda de las matemáticas. Sin embargo, los ejemplos nos van a servir 
perfectamente  para  ilustrar  los  diferentes  conceptos  y  técnicas  de  trabajo  que 
tendremos que desarrollar en un análisis numérico ‐ estadístico. 
Centrémonos  en  el  caso  b)  y  recordemos  lo  dicho  un  par  de  parráfos  más 
arriba. La hipótesis nula (en este caso  : inocente) es cierta mientras no se pruebe 
lo contrario. Es el principio básico de la justicia en todo país civilizado. Está claro que 
para demostrar lo contrario hay que presentar un buen número de pruebas que la 
tiren por tierra. 
¿Cómo se procede? Como todos sabemos, un jurado popular o profesional 
analiza las pruebas presentadas contra el acusado y toma una decisión. Las pruebas 
presentadas  por  el  fiscal  son  las  que  muestran  evidencia  a  favor  de  :  culpable. 
Serían el arma del crimen, las huellas, los testigos, la cara de malo del sospechoso, 
los  vecinos  que  siempre  sospecharon  de  él  porque  les  parecía  raro,  sus  dudas,  la 
autoinculpación en un primer interrogatorio (esto no suele contar si hay hematomas 
por el medio)... 
 
                                                                                              P á g i n a  | 279 

13.2 ERROR TIPO I Y ERROR TIPO II. POTENCIA 

 
Cuando  estamos  realizando  un  contraste  pueden  darse  las  situaciones  que 
vemos en la siguiente tabla: 

REALIDAD   
 
     
RECHAZO 

(13‐1) 
  Error tipo I  Decisión 
 

correcta 

  Decisión  Error tipo II 
Correcta 
 

 
Denotamos por: 
P(rechazar    siendo  cierta)=P(Error  tipo  I).    se  llama  nivel  de 
significación del contraste. 
P(aceptar   siendo falsa)=P(Error tipo II). 
1‐ rechazar   siendo falsa) se llama Potencia del contraste (mide la 
probabilidad de acertar cuando rechazamos  ). 
En el ejemplo b) de la sección anterior,   es la probabilidad de rechazar la 
inocencia, cuando realmente el acusado es inocente.   es la probabilidad de aceptar 
la inocencia cuando el acusado es culpable. Según vemos, el error de tipo I es mucho 
más grave que el de tipo II. Si se comete un error de tipo I se mete en la cárcel (o en 
el corredor de la muerte si es el caso...) a un inocente. Si se comete un error de tipo 
II se deja libre a un culpable. 
La  potencia  del  contraste  medirá  la  probabilidad  de  rechazar  la  inocencia, 
cuando en efecto el acusado no es inocente. 
 280 | P á g i n a  
 
En el ejemplo a) de la sección anterior,   es la probabilidad de rechazar que 
alguien esté enfermo, cuando en realidad lo está.   es la probabilidad de decir que sí 
está enfermo, cuando en realidad no lo está. También observamos que cometer un 
error de tipo I es más grave que cometer uno de tipo II (dejemos de lado el tipo de 
pruebas  que  le  harían  a  la  persona  que  ingresa  sin  estar  enfermo,  tipo  contrastes 
radioactivos,  punciones lumbares, tactos rectales...). 
Parece claro que, en cualquier contraste, interesa minimizar la probabilidad 
de  cometer  ambos  errores.  Desgraciadamente,  al  minimizar  la  probabilidad  de 
cometer  un  error,  aumenta  la  probabilidad  de  cometer  el  otro.  Esto  es  fácil  de 
comprobar: una manera de minimizar la probabilidad de meter inocentes en la cárcel 
sería  soltar  a  todo  el  mundo  ante  la  mínima  duda,  pero  eso  aumentaría  la 
probabilidad de dejar en la calle auténticos culpables. Igualmente, ingresar a todo el 
mundo  en  el  hospital  minimiza  la  probabilidad  de  mandar  a  casa  a  una  persona 
enferma,  pero  aumenta  la  probabilidad  de  ingresar  personas  sanas...  Ambos 
planteamientos son inviables. Por lo tanto, la forma de proceder a la hora de plantear 
cualquier contraste de hipótesis es hacer que el error de tipo I sea siempre el más 
importante. 
   
                                                                                              P á g i n a  | 281 

13.3 EJEMPLO PRÁCTICO: UNA PELÍCULA 

 
Con un ejemplo concreto que podríamos encontrar en un videoclub (si es que 
queda alguno), vamos a tratar de entender lo que más tarde se hará un poco más 
abstracto,  por  culpa  de  las  matemáticas.  ¡Atención:  spoilers!12  Si  no  has  visto  la 
película y te apetece verla, vete directamente a la parte matemática,  a la Sección de 
la página 287. 

                                                       
12
 Definición de spoiler, copiada tal cual de la frikipedia (si hay faltas de ortografía o 
gramática, no culpar al autor): Se le llama spoiler a cuando un hijo de puta (Tu hermano, el 
padre/madre de tu hijo, el hijo de tu mamá, el que escribió esto, etc.) te cuenta una parte de algo 
que aun no has visto, te picas y lo matas, luego no te dan ganas de ver esa puta mierda por que ya te 
la contaron y te cagaron la maldita historia. Tambien se llama spoilers a los espaguetis caducados 
pero eso no tiene nada que ver.  
  
 
 282 | P á g i n a  
 
 
 Argumento: dos pardillos de New York, Bill (Ralph Maccio, el que
protagonizó “Karate Kid”) y Stan (Mitchell Whitfield, conocido en su casa a
la hora de comer) van en coche por la Alabama profunda, y deciden pararse
en un ultramarinos a comprar suministros. A uno de ellos le da por llevarse
una lata de atún sin pagar. Cuando, al cabo de un rato, son detenidos por la
policía, se declaran culpables. Pero en realidad están siendo acusados del
asesinato a tiros del dueño del ultramarinos.

 
Al ser encerrados en la cárcel, llaman en su ayuda al abogado de la
familia de Bill, su primo Vinny Gambini (en su primer caso ante un tribunal).
Este acude con su prometida Mona Lisa Vito.

Gran parte de la película se desarrolla en el tribunal, como otra más de las 
típicas películas de juicios que todos hemos visto alguna vez. Utilicemos lo que ocurre 
en la película para seguir los distintos pasos de un contraste de hipótesis. 
                                                                                              P á g i n a  | 283 

 
 

1.‐ Establecimiento de las hipótesis nula y alternativa. 
 
 

 
   
 284 | P á g i n a  
 

 2.‐ 
Establecer  un  procedimiento  de  contraste  o  test 
apropiado. 
Se examinan las pruebas del caso y se ve si estas discrepan con la hipótesis 
nula, es decir si existen dudas suficientes para rechazar la hipótesis nula. 
El fiscal presenta las pruebas para acusar a los dos amigos.
 
 

 
                                                                                              P á g i n a  | 285 

 3.‐ ¿Podrían las pruebas ser fruto de la casualidad? 
(o de testigos falsos, comprados, enemigos de los acusados... ). 
El abogado llama a declarar a su prometida, que casualmente es
experta en automóviles, porque procede de una familia de mecánicos de
coches, y ella misma ha trabajado muchos años en un taller.
 

 
 286 | P á g i n a  
 

 
 

4.‐  Con  todos  los  datos  delante,  se  toma  la  decisión 
definitiva. 
El juez debe tener en cuenta las consecuencias de los errores que
puede cometer. Si los declara culpables, van a la silla electríca (en Alabama
desde los 10 años ya pueden tener esa suerte).
 
 

 
   
                                                                                              P á g i n a  | 287 

13.4  CONTRASTES DE HIPÓTESIS PARAMÉTRICAS  

 
Como  se  ha  comentado  al  principio  del  capítulo,  las  hipótesis  que  pueden 
plantearse  son  de  tipo  paramétrico  o  no  paramétrico,  es  decir,  referidas  o  no  a 
parámetros  de  poblaciones.  Las  hipótesis  que  hemos  visto  de  “inocente”  frente  a 
“culpable”  serían  no  paramétricas.  Veamos  ahora  unos  ejemplos  un  poco  más 
estadísticos. 
Supongamos  que  queremos  contrastar  si  una  distribución,  por  ejemplo,  de 
notas de exámenes, sigue o no una distribución normal. 
: =“nota”  sigue  una  distribución  normal    frente  a    :    no  sigue  una 
distribución normal. 
Una posible forma de realizar un contraste sería por medio de un histograma. 
Fijémonos  en  la  Figura  13‐1.  Tenemos  3  muestras  o  3  grupos  de  notas  de  250 
alumnos. Claramente, el primero de los histogramas nos diría que la variable   es 
normal, mientras que el segundo histograma nos diría que existe una asimetría a la 
derecha, y con el tercer histograma claramente rechazariamos la hipótesis nula. 
Este  ejemplo  sería  un  contraste  de  tipo  no  paramétrico,  puesto  que  no  se 
realiza ninguna afirmación sobre parámetros de la variable. Intentamos saber si   es 
una variable normal o no. Veamos ahora un caso paramétrico: 
 

Ejemplo 13-1 Un contraste de tipo paramétrico en el mismo ámbito podría


establecerse del modo:
: la nota media de la asignatura es 5 frente a
: la nota media de la asignatura es menor a 5.

 
 
 288 | P á g i n a  
 

Figura 13‐1 

¿De qué estaríamos hablando? Si se supone que la asignatura se imparte de 
una forma, llamemos “correcta”, e igualmente sucede con los exámenes, un estudio 
estadístico a lo largo de varios años debería arrojar una nota media igual a 5. Esta 
nota media sería nuestro parámetro teórico de la población o variable en estudio. 
Supongamos que se incorpora a dar la asignatura el “Cid cateador” y, a partir 
de  ese  momento,  los  alumnos  comienzan  a  quejarse  de  que  la  asignatura  es  muy 
difícil de aprobar, que suspende mucha gente, etc. El rector de la universidad habla 
con el profesor y le dice que está recibiendo muchas quejas, pero el profesor insiste 
en que nada ha cambiado en la asignatura, y que todo está igual que siempre. ¿Cómo 
se puede resolver la cuestión? Por ejemplo, realizando un examen con un número 
                                                                                              P á g i n a  | 289 

elevado de alumnos, y viendo si existe mucha diferencia entre la nota media que se 
obtiene  en  el  mismo  y  el  parámetro  teórico  ( 5).  Ahora  bien,  está  claro  que, 
aunque la media siga valiendo 5, siempre pueden existir desviaciones entre lo teórico 
y lo que ocurra en la muestra. Si en la muestra de exámenes obtenemos una media 
de  4.8,  ¿aceptamos  ?  Seguramente  no.  Seguramente  buscaríamos  un 
valor más alejado de 5 para decir que la nota media ha bajado. Es el mismo caso del 
ejemplo  de  “culpables”  frente  a  “inocentes”.  Las  pruebas  deben  ser  precisas  y 
clarificadoras. En caso de duda, no se puede rechazar   (en derecho, este principio 
se llama in dubio pro reo ‒en caso de duda, se falla a favor del reo‒. Si las pruebas 
dan lugar a dudas, hay que favorecer al acusado).  
 

13.4.1  Como realizar un contraste de hipótesis paramétrico 
 
Los contrastes referidos a un parámetro pueden ser de dos tipos: bilaterales 
o unilaterales. Un contraste es bilateral cuando tiene la forma 
:  (Por   nos referimos a un parámetro teórico y por   a un valor 
constante, un número)  frente a 
: . 
Un contraste unilateral es de la forma: 
:   frente a 
:  
o bien 
:   frente a 
: . 
En estos dos últimos casos, la hipótesis nula podría ser  :   (primer 
caso) o bien  :   (segundo caso). El contraste se realiza exactamente igual. 
Como hemos indicado anteriormente, para tomar una decisión se elige una 
muestra aleatoria simple de la población  . , . . . ,  y se estima   por medio de 
 290 | P á g i n a  
 
algun estimador  . Para ver si   es “muy diferente” o no de  , hay que disponer de 
alguna  medida  de  discrepancia    (o  estadístico  del  contraste)  entre    y  .  Esta 
medida de discrepancia ha de ser una variable aleatoria con distribución conocida, 
para poder medir si la discrepancia es grande o no (en la película, es el juez o el jurado 
quien  decide  si  la  discrepancia  es  grande  o  no.  Ahora  sustituimos  al  juez  por  un 
estadístico:  ojo,  nos  referimos  a  una  variable  aleatoria,  recuérdese  el  capítulo 
anterior). 
En el Ejemplo 13‐1: Si suponemos que la media  5, calculamos  ̅  y vemos 
si son muy diferentes calculando  , ̅ , siendo   una medida que nos de la 
distancia entre la media teórica y la muestral. 
Si  es  “pequeña”,  no  hay  razones  para  sospechar  que    sea  falsa,  y  se 
acepta  (si  la  media  muestral  de  un  número  grande  de  exámenes  da  4.8  no 
sospecharíamos que la media no sea 5). 
Si  es “grande”, podemos decidir entre dos opciones: 
a)  es cierta, pero el azar ha producido una muestra poco representativa 
(si la media muestral de un número grande de exámenes da 4, sospecharíamos que 
el Cid cateador está haciendo de las suyas, pero quizá es que hayamos tenido mala 
suerte y hayamos escogido justo una muestra de gente que ha estudiado poco). 
b)  La  hipótesis    realmente  no  es  cierta  (si  la  media  muestral  da  4,  y  la 
muestra está bien elegida, es que el Cid cateador no tiene remedio). 
Para ayudarnos a tomar una decisión, deberemos calcular el Nivel crítico o 
valor:  es  la  probabilidad  de  tener  un  valor  del  estadístico  igual  o  mayor  al 
observado  cuando    es  cierta  (si  la  media  muestral  da  4,  la  diferencia 
, ̅ entre lo teórico (5) y lo observado (4) es 1. Debemos calcular la probabilidad 
de obtener esa distancia o una mayor aún). 
 

Ejemplo 13-2 Para poder disfrutar de unas buenas vacaciones de verano en


su finca de Chorizolandia, la vicerrectora de planificación familiar ha decidido
montar una timba en el patio del rectorado y sacarse así unos euros extra. Allí
obliga a jugar a los dados y apostar a todos los profesores y alumnos que se
                                                                                              P á g i n a  | 291 

acercan al rectorado para realizar alguna gestión. Un alumno que ya ha


aprobado la estadística sospecha que la vicerrectora está utilizando dados
trucados, porque cree que gana demasiadas veces, que es cuando sale el 6.
Para tratar de demostrarlo, se esconde detrás de un árbol en el patio del
rectorado y anota los resultados de 30 jugadas seguidas, contando que el 6
sale 10 veces. Gracias a sus conocimientos de estadística, el alumno va a
intentar que la vicerrectora, en vez de ir a su finca, pase el verano en Alcalá-
Meco con su amiga Mary Chalar. ¿Crees que lo conseguirá?

Solución. 
Si el dado está cargado en el 6, la probabilidad de salir será mayor de lo que 
le correspondería, es decir  6 1/6. Igual que en el caso anteriormente visto 
(y a pesar de que un vicerrector es un político en potencia), debemos considerarla 
inocente salvo demostrar lo contrario. Vamos a plantear entonces las hipótesis nula 
y alternativa como 
: La vicerrectora es inocente, por lo tanto el dado no está cargado: 
  1/6. 
: La vicerrectora hace trampas:     1/6. 
La muestra observada por el estudiante es una muestra aleatoria, a partir de 
la cual vamos a calcular una estimación del parámetro  . Como hemos visto en el 
capítulo anterior, un estimador natural del parámetro   es la proporción muestral  ̂ . 
En esta muestra,  ̂ 10/30 0.33, que es distinta y más grande que  1/6
0.16. 
La  discrepancia  existe.  Ahora  bien,  ¿es  porque  realmente  el  dado  está 
trucado, o el resultado es fruto de la casualidad en la muestra elegida? Dicho de otra 
manera: ¿qué probabilidad existe de que el dado no esté preparado (  es cierta) y 
que la muestra arroje una proporción muestral de 0.33? ¿Qué probabilidad existe de 
que  el  dado  no  este  trucado  (   es  cierta)  y  que  exista  esa  diferencia  entre  lo 
observado (0.33) y lo teórico (0.16)? 
En este caso, la medida de discrepancia (o estadístico del contraste13) es  
                                                       
13
  ¿De dónde sale este estadístico? Como ya dijimos, al no estar este texto enfocado a los 
 292 | P á g i n a  
 
̂
̂, , 
1

donde   es el tamaño de la muestra. 
̂

1

es una variable aleatoria (con cada muestra diferente que se tome,   toma un valor 
diferente), y puede demostrarse (mediante el teorema central del límite: lo habéis 
adivinado) que sigue, aproximadamente, una distribución normal estándar.   
0,1 . 
En este caso concreto:    
10 1
30 6 2.44. 
1 1
6 1 6
30
Si se escoge otra muestra (se puede espiar a la vicerrectora otro rato, anotar 
 tiradas nuevas, calcular  ̂  y calcular  , obtendremos otro valor diferente  . Esto 
podemos  hacerlo  un  montón  de  veces  y  obtener  así  una  aproximación  de  la 
distribución (en el muestreo) de frecuencias de la variable  . Por lo indicado arriba, 
puede  demostrarse  que  esa  distribución  de  frecuencias  se  corresponderá  con  una 
normal estándar. Es decir, el histograma de frecuencias tenderá a ser la campana de 
Gauss. 
Recordemos que, en la  0,1  (igual que en cualquier variable continua), la 
probabilidad entre dos puntos se calcula como el área bajo la curva.  
¿Cuál es la probabilidad de que un valor concreto  ̂  discrepe del teórico   en 
una cantidad concreta, por ejemplo 0.1? Bien, la probabilidad de un punto es siempre 

                                                       
aspectos más teóricos, simplemente indicamos que, tanto en este caso como en el resto de contrastes 
que  veremos,  este  estadístico  es  el  mismo  que  se  utiliza  para  construir  el  intervalo  de  confianza 
correspondiente. 

 
                                                                                              P á g i n a  | 293 

cero, por ser una variable continua. Lo que debemos hacer es calcular probabilidades 
de intervalos. Podemos entonces contestar preguntas como: ¿cuál es la probabilidad 
de obtener discrepancias que varíen, por ejemplo, entre 0.5 y 1.5? 
 Lo recordamos en la imagen que mostramos a continuación. 
 

 
 
La probabilidad  0.5 1.5 0.2417. En nuestro caso concreto, nos 
interesa saber cuánto “discrepa” el valor muestral  ̂ 0.33 del teórico  0.16. Es 
decir,  nos  interesa  saber  la  probabilidad  ̂. 2.44 .  De  nuevo 
tenemos  que  decir  que  esta  probabillidad  es  cero,  pero  lo  que  podemos  hacer  es 
calcular  la  probabilidad  de  obtener  esa  discrepancia  o  discrepancias  mayores,  es 
decir  2.44 =0.0073. Podemos verlo en la siguiente imagen: 
 294 | P á g i n a  
 

 
Figura 13‐2 

A  esta  probabilidad  se  le  llama  p‐valor:  probabilidad  de  obtener  una 
discrepancia igual o mayor a la observada (cuando   es cierta). El p‐valor en este 
caso es 0.0073, por lo tanto, muy pequeño. Es la probabilidad de que el resultado 
observado por el alumno sea fruto de la casualidad. Al ser una probabilidad tan baja, 
se rechazaría la hipótesis nula. Diríamos que, al menos con esta muestra, no es creíble 
la hipótesis nula de que la vicerrectora no hace trampas. El alumno ya tiene algo para 
escribir a la prensa y comenzar una campaña de acoso y derribo contra esta señora.  
 

13.4.2 Región crítica de un contraste 
En el ejemplo visto, el p‐valor, o probabilidad, era un número muy próximo a 
cero. Así pues, parece claro que la discrepancia con lo teórico es muy alta, puesto que 
el  p‐valor,  recordemos,  mide  la  probabilidad  (suponiendo  que  la  hipótesis  nula  es 
cierta) de obtención del valor observado o uno mayor. 
Supongamos  que,  en  vez  de  observar  10  seises  en  30  lanzamientos,  se 
hubieran observado 7 seises. ¿Cuál sería el p‐valor? Pues ahora   
                                                                                              P á g i n a  | 295 

7 1
30 6 0.97. 
1 1
⋅ 1 6
6
30
El  p‐valor  es  la  probabilidad 
de obtener una discrepancia mayor o 
igual a 0.97: 

, 0.97 0.16
    (figura de la derecha). 
Con  este  p‐valor,  ¿podría 
aceptarse la hipótesis nula de que la 
vicerrectora no hace trampas? Dicho 
de otra manera: ¿la muestra obtenida podría ser coherente con que el dado no esté 
trucado, es decir  6 1/6, y la discrepancia se deba al efecto del azar? 
Obviamente, cuanto más pequeña sea la discrepancia, mayor será el p‐valor, 
y viceversa. Luego el p‐valor (recordemos que es una probabilidad, y se moverá entre 
0 y 1) sirve como forma de establecer una regla de decisión en el sentido de aceptar 
o rechazar la hipótesis nula. 
Para explicar esto con mayor detalle, debemos hablar de qué se entiende por 
región crítica de un contraste.  
Recordemos  que  hemos  definido  como  =P(error  tipo  I)=P(rechazar   
siendo cierta) el nivel de significación del contraste. Hasta hace unos años, en que los 
ordenadores y los programas estadísticos no eran de uso común, y las probabilidades 
de las distribuciones había que consultarlas en las tablas, la forma de proceder para 
tomar  una  decisión  en  cuanto  a  aceptar  o  rechazar  una  hipótesis  nula  era 
estableciendo  la  llamada  región  crítica,  que  depende  de  dicho  valor  .  Llamemos 
genéricamente    a  esa  región  crítica.  Una  vez  calculado  el  valor  númerico  del 
estadístico para el contraste,  , se procedía de un modo tan simple como: 

Si ∈ se rechaza   (13‐2) 
Si ∈ se acepta  
 296 | P á g i n a  
 
La forma de construir   depende de  . Pongámonos en el caso del Ejemplo 
13‐2. Si marcamos un límite, digamos  0.05, es decir un 5% máximo de error que 
estamos dispuestos a asumir para rechazar la hipótesis nula siendo cierta, entonces 
la región crítica sería  1.64, ∞ .  
En  efecto,  1.64  es  el  valor  de  la  normal  0,1   (distribución  que  sigue  el 
estadístico del contraste) que deja a la derecha área o probabilidad 0.05 (Figura 13‐3). 
Esta región corresponde al cinco por ciento de valores más raros (positivos) de una 
variable  0,1 .  mide la discrepancia. Si   es un valor raro ( ∈  rechazamos la 
hipótesis nula. Si   no es un valor raro, aceptamos la hipótesis nula.  

Figura 13‐3 

En los casos que hemos visto en el Ejemplo 13‐2, primero obtuvimos que 
2.44, que es un punto de  1.64, ∞ , y rechazariamos  . En el segundo caso 
supusimos que se observaban 7 seises en 30 lanzamientos y obtuvimos  0.97. En 
este caso estaríamos fuera de la región crítica y aceptaríamos  . 
Los valores habituales que se tomaban para   (probabilidad de error de tipo 
I) (y, en consecuencia, para definir la región crítica) eran  0.01, 0.05 y 0.1. Hoy en 
día, en muchos casos se sigue trabajando con un valor   predeterminado (antes de 
realizar el experimento), pero, generalmente, no se calcula la región crítica como tal 
                                                                                              P á g i n a  | 297 

(puesto que el ordenador nos da el p‐valor). Así pues, se decide cual es el valor de   
que el experimentador está dispuesto a aceptar como máximo riesgo de cometer un 
error de tipo I, y la regla de decisión es, tras calcular el p‐valor: 

Si p valor   aceptamos  

Si p valor   rechazamos  

13.4.3 Potencia del contraste 
La potencia de un test se definió como 1 rechazar   siendo falsa). 
Para  el  ejemplo  de  “Mi  primo  Vinny”  la  potencia  nos  mediría  la  probabilidad  de 
declarar culpables a los sospechosos cuando realmente lo son. En un juicio en Estados 
Unidos, la probabilidad dependería del buen hacer del jurado popular: si el jurado es 
más listo, más probabilidad de rechazar   si es falsa.  
Para el Ejemplo 13‐2 podemos calcular la potencia matemáticamente. Como 
está  indicado  en  (13‐2),  la  manera  de  rechazar  la  hipótesis  nula  es:  si  ∈   se 
rechaza  ,  donde,  para  un  nivel  de  significación  0.05  hemos  visto  que 
1.64, ∞ , es decir se rechaza   si  1.64, donde    
1
̂ 6

1 1
6⋅ 1 6
30
Entonces, vemos que se rechaza   cuando  1.64, es decir    
1 1 1
̂ 1 ⋅ 1 6
6 1.64 ⇔ ̂ 1.64 ⋅ 6 0.11 ⇔ 
1 1 6 30
⋅ 1 6
6
30
⇔ ̂ 0.11 0.166 0.276. 
Entonces, para una muestra de tamaño  30 se rechaza   (para un nivel 
de significación  0.05) siempre que  ̂  sea mayor que 0.276. 
 298 | P á g i n a  
 
Calculemos entonces la potencia:   
1.64/ es falsa ̂ 0.276/ cierta ̂ 0.276/ 1/6 . 
Se  puede  comprobar  que,  por  el  teorema  central  del  límite,  ̂

, .  Es  decir,  para  cada  valor    (que  sea  mayor  que  1/6),  la  potencia 
cambia. Podemos calcularla como  ̂ 0.276  

̂ 0.276 0.276
, . 
1 1 1

Pongamos por ejemplo  0.2, la potencia es   

0.276 0.2
0.2 , , 1.04 0.149. 
0.2 ⋅ 1 0.2
30
Calculemos la potencia para otros valores, por ejemplo: 
Para  0.3,  0.3 0.61 
Para  0.4,  0.4 0.91 
Para  0.5,  0.5 0.992 
Para  0.8 y hasta 1,  1. 
Estos  valores  obtenidos  resultan  lógicos:  pensemos  que,  si  el  dado  está 
trucado, de modo que la probabilidad de que salga el 6 es muy grande, la probabilidad 
de rechazar la hipótesis nula ( : 1/6  es más grande (puesto que la proporción 
muestral estará cada vez más alejada de 1/6 . 
En general, la potencia se utiliza para diferenciar entre dos procedimientos o 
test distintos para contrastar las mismas hipótesis. Cómo dijimos anteriormente, no 
es posible minimizar simultaneamente las probabilidades   y   de los dos posibles 
errores que se pueden cometer (si disminuye una, aumenta la otra), por lo que, al 
realizar  un  test,  se  fija  un    pequeño.  Si  tenemos  dos  test  matemáticos  para 
contrastar las mismas hipótesis, que tengan el mismo  , se prefiere aquel que tenga 
mayor potencia.  
                                                                                              P á g i n a  | 299 

En los casos que se ven en este texto, el procedimiento que se da para realizar 
los contrastes son los que, precisamente, tienen mayor potencia (o sea, los mejores 
procedimientos).  
Referimos al lector a textos más especializados si se quiere ampliar este tema, 
como  por  ejemplo  el  de  Cao  y  otros  [3].  Si  alguien  tiene  interés  en  ver  ejemplos 
concretos, pueden encontrarse en [12]. 

13.4.4  Resumen: Etapas básicas de un contraste de hipótesis 
 : Hipótesis nula. 
es la de “no diferencia”. 
(Ejemplo 1) Es inocente. 
(Ej. 2) La nota media no ha variado. 
(Ej. 3) La altura media, en los últimos años, no ha cambiado. 
(Ej. 4) El dado no ha sido modificado. 
(Ej. 5) El ejercicio no influye en el ritmo cardíaco. 
 300 | P á g i n a  
 
(Ej. 6) El nuevo medicamento inventado por el doctor Cito no es mejor que la 
Viagra. 
:  Hipótesis alternativa. 
(Ej. 1) Es culpable. 
(Ej. 2) La nota media ha descendido. 
(Ej. 3) La altura media, en los últimos años, ha aumentado. 
(Ej. 4) El dado ha sido modificado. 
(Ej. 5) El ejercicio influye en el ritmo cardíaco. 
(Ej. 6) El nuevo medicamento del doctor Cito es mejor que la Viagra. 
El peso de la prueba recae en  . 
 
Etapas: 
1.‐) Especificar las hipótesis nula y alternativa. 
2.‐) Elegir un estadístico de contraste apropiado   (para medir la discrepancia 
entre lo observado y lo teórico). 
3.‐) Tomar una muestra  . , . . . ,  y evaluar el estadístico del contraste 
bajo  , es decir  . ,..., ; . 
4.‐) Concluir si la diferencia  es estadísticamente significativa (se rechaza   
o no), según el p‐valor del estadístico. Para ello podemos fijar un nivel de confianza 
1  determinado y tomar una decisión en base al mismo. 
La regla de decisión, tras calcular el p‐valor, es: 

Si p valor   aceptamos  

Si p valor   rechazamos  

 
                                                                                              P á g i n a  | 301 

Recordemos que  Error tipo I rechazar   siendo cierta). Con la 


regla anterior, nosotros fijamos el mayor valor para la probabilidad del error tipo I 
que  estamos  dispuestos  a  admitir;  es  decir,  estamos  dispuestos  a  rechazar  la 
hipotesis nula siendo cierta con una probabilidad máxima de equivocarnos igual a  . 

Si no se fija ningún  , la regla “general” es   
 
Si p valor 0.1  aceptamos  
(13‐3) 
Si p valor 0.1  rechazamos  

Si p valor está entre 0.1 y 0.2 mejor ampliar la muestra. 


 

Importante: Las hipótesis no se plantean después de observar los datos. 
Rechazar  una  hipótesis  no  prueba  que  sea  totalmente  falsa.  Podemos 
cometer un error de tipo I. 
No rechazar una hipótesis no prueba que sea totalmente cierta. Podemos 
cometer un error de tipo II. 
 

13.5 CONTRASTES UNI Y BILATERALES. 

 
En  el  Ejemplo  13‐2  las  hipótesis  planteadas  fueron  : 1/6  frente  a 
: 1/6.  El  test  planteado  fue  un  ejemplo  de  contraste  unilateral.  Veamos  un 
ejemplo de test bilateral. 
 

Ejemplo 13-3: En un club de cine exclusivo para gafapastas y adoradores del


método Stanislavski se abre la posibilidad de admitir 100 socios más. Lo cierto
es que el local social tiene fama de ser un sitio calentito, con buena bebida y
muy barata, con lo cual es posible que haya gente que quiera hacerse socio
sólo por este último detalle. Para evitar admitir como socios a niñatos que
gozan con Jackie Chan y/o gentuza del estilo, a cualquier aspirante a socio se
 302 | P á g i n a  
 
le efectúa una única pregunta: “¿Cree usted que Torrente 3 debería estar en
la lista de las 100 mejores películas de la historia?”.
La directiva del club de cine estima que la proporción de gente que dirá
que sí ronda el 15 por ciento, pues siempre hay quien cree que se trata de
una pregunta trampa y a lo mejor existe alguna película china, iraní o
americana de principios del siglo XX con ese nombre; o que, tal vez, realmente
tiene valores desconocidos ocultos que se descubren en el club de cine tras
años de experiencia y estudio.
De los 100 nuevos aspirantes a entrar en el club, finalmente contestan
que sí a la pregunta 20 personas. ¿Son coherentes los resultados de la
muestra con la hipótesis de la directiva del club?

Solución. 
Planteamos : 0.15  frente a  0.15. 
El estadístico del contraste es el mismo que el del Ejemplo 13‐2, si bien ahora, 
al tener en la hipótesis alternativa que  0.15, va a cambiar la región crítica. 
Recordemos que la medida de discrepancia o estadístico del contraste   
̂
̂, , 
1

mide la diferencia entre la   teórica y la proporción muestral ( ̂ 20/100 0.2 en 


este  caso).  Ocurre  ahora  que,  si  bien  en  el  Ejemplo  13‐2,  sólo  nos  interesaban  las 
diferencias positivas (puesto que queríamos saber si  1/6 , ahora tendremos que 
tener  en  cuenta  las  diferencias  tanto  positivas  como  negativas  (pues  estamos 
chequeando si   es igual a 0.15 o diferente). 
Por consiguiente, el p‐valor será    
| | , 
donde   
0.20 0.15
1.4 
0.15 ⋅ 1 0.15
100
                                                                                              P á g i n a  | 303 

y, como   es una variable aproximadamente  0,1 , el p‐valor es  , 1.4 . 


Esto corresponde al área señalada en la Figura 13‐4 como área a la derecha de 1.4 
más área a la izquierda de ‐1.4, que es 0.08 0.08 0.16. 

Figura 13‐4 

Al ser el p‐valor más grande que 0.1, en principio se aceptaría la hipótesis nula. 
Si utilizamos la regla (13‐3) deberíamos aconsejar a la dirección del cine club que haga 
una nueva prueba con una muestra mayor. 
Como ejemplo, escribimos como sería la región crítica para un nivel  0.1: 
∞, 1.69 ∪ 1.69, ∞ ,  cayendo  el  valor  del  estadístico,  en  este 
ejercicio, fuera de dicha región.  
Como  hemos  visto  en  el  ejemplo,  la  diferencia  entre  el  test  unilateral  del 
Ejemplo 13‐2 y este último radica únicamente en el cálculo del p‐valor (y la región 
crítica). En un test unilateral el p‐valor es el área en una cola (a la derecha del p‐valor 
en el ejemplo usado) y en el test bilateral el p‐valor es la suma del área en ambas 
colas  (izquierda  y  derecha).  Queda  patente  que  si  queremos  plantear  un  test 
unilateral del tipo 
:   frente a   :  
se realizaría exactamente igual, y el p‐valor será el área a la izquierda del valor   del 
estadístico del contraste. 
 304 | P á g i n a  
 
Por último, indiquemos que los test unilaterales donde la hipótesis nula sea 
:    o bien     se realizan exactamente igual que el correspondiente con 
  ,  es  decir  el  p‐valor  depende  de  la  dirección  “ “o  “ “en  la  hipótesis 
alternativa.  
Todo esto, aunque pueda no parecerlo, es muy fácil de recordar, porque sólo 
hay 3 casos (Figura 13‐5), ya que, por motivos teóricos, recuérdese que el valor “ “ 
debe estar en la hipótesis nula, nunca puede estar en la alternativa. 

 
Figura 13‐5: resumen del cálculo del p‐valor (área sombreada en cada caso). 
                                                                                              P á g i n a  | 305 

Ejemplo 13-4: ¿Padecen las mujeres más enfermedades de huesos que los
hombres? Pregunta muy habitual en ciencias de la salud. Está claro que en
ciertas enfermedades, como la osteoporosis, hay mayor proporción de casos
en el sexo femenino que en el masculino.
Luis de Bingos, médico del centro de salud “doctor Mengele”, piensa que,
últimamente, con los malos habitos de vida, colesterol, falta de ejercicio, etc.,
la frecuencia de la enfermedad en hombres es cada vez mayor. Según el
historial del centro de salud, la proporción de mujeres con osteoporosis suele
superar el 70 por ciento del total de pacientes. Este médico, que quiere pasar
a la historia publicando un artículo científico cargándose esta proporción,
reune las fichas de los 100 últimos pacientes con osteoporosis y cuenta que
hay 68 mujeres a tratamiento. ¿Logrará Luis su objetivo de hacerse famoso?

Solución. 
Si  definimos  como  =“proporción  de  mujeres  con  osteoporosis”,  debemos 
hacer el contraste unilateral: 
: 0.7 frente a  : 0.7.  
La hipótesis nula corresponde a lo que es conocido (la proporción es al menos 
el 70 por ciento). Esto será cierto mientras el Dr. de Bingos no demuestre lo contrario. 
El estadístico del contraste es el que hemos venido utilizando:   
̂

1

que sigue, aproximadamente, una distribución  0,1  si   es cierta. 


Para  la  muestra  particular  ̂
68/100 0.68,  con  lo  que  0.44. 
Ahora nos fijamos en que este contraste 
es  del  tercer  tipo  (recuérdese  que  en  la 
hipótesis nula es equivalente que esté el 
signo “=” que el “ ”; lo que interesa es el 
 306 | P á g i n a  
 
signo de la hipótesis alternativa, que es “<”). 
Al ser la hipótesis alternativa con “<”, el p‐valor es el área a la izquierda, en 
una distribución  0,1 , de ‐0.44 (figura adjunta), que es 0.33. Obviamente, este p‐
valor  implica  aceptar  la  hipótesis  nula,  con  lo  que  el  Dr.  de  Bingos  va  a  tener  que 
olvidarse, por ahora, de saltar a la fama. 

 
 

13.5.1 Resumen: cálculo general del p‐valor 
 
El  valor se calcula en función de la distribución que sigue el estadístico del 
contraste, y de que el contraste sea bilateral o unilateral. Supongamos el contraste 
que hemos estado viendo en los últimos ejemplos, referente a una proporción. En la 
hipótesis nula tenemos  : . Si   es de la forma  : , entonces el nivel 
crítico o p‐valor es 2 veces el área a la derecha del valor absoluto del estadístico del 
contraste  . Si   es de la forma  : , el nivel crítico es el área a la derecha del 
                                                                                              P á g i n a  | 307 

estadístico del contraste. Por último, si   es de la forma : , el nivel crítico 


es el área a la izquierda del estadístico del contraste. Las tres posibilidades son las 
que aparecen en la Figura 13‐5. 
En el resto de contrastes (sea lo que sea lo que contrastemos: la media, la 
varianza,  la  diferencia  de  medias…,  el  razonamiento  para  el  cálculo  del  p‐valor  es 
equivalente;  únicamente  cambia  el  estadístico  del  contraste,  y  la  distribución  en 
donde  debemos  buscar  el  área  correspondiente.  La  Figura  13‐5  es  siempre  válida 
(recomendación  habitual:  recortar  y  tener  a  mano).  En  el  caso  de  variables  con 
función de densidad no simétricas, como la Chi‐cuadrado o la F de Snedecor, puede 
aparecer un problema en el caso de contrastes bilaterales, puesto que el valor del 
estadístico   no tiene un valor simétrico  . Lo único que debemos hacer es calcular 
el área a la derecha e izquierda de  , y el p‐valor será la cantidad mínima multiplicada 
por 2.  
Por ejemplo, en la gráfica siguiente vemos el dibujo de la densidad de la Chi‐
cuadrado  con  6  grados  de  libertad.  Hemos  marcado  un  valor  para    donde, 
claramente, el área a su derecha es más pequeña que el área a su izquierda. Si el 
contraste que estamos realizando es tal que, en la hipótesis alternativa   aparece el 
signo  “>“,  entonces  el  p‐valor  sería  dicho  área  a  la  derecha.  Si  el  contraste  fuese 
bilateral (esto es, en la  hipótesis alternativa   aparece  , el p‐valor sería el área 
sombreada pero multiplicada por 2). 

 
 308 | P á g i n a  
 
13.5.2 Contrastes paramétricos más usuales 
A continuación, indicamos los estadísticos que se utilizan para los principales 
contrastes de tipo paramétrico, y la distribución que siguen cuando la hipótesis nula 
es  cierta.  Los  casos  considerados  son  los  mismos  que  en  el  capítulo  anterior  de 
intervalos de confianza. 
 

13.5.3 Para la media de una variable normal 
:   
 

13.5.3.1 Si se conoce la desviación típica   
El estadístico (y su distribución) es   

∈ 0,1 . 
/√
Como ya se comentó en el capítulo de intervalos de confianza, no es habitual 
conocer la desviación típica real de una población, por lo que, para realizar contrastes 
relativos  a  la  media  de  una  población  normal,  se  utiliza  casi  exclusivamente  el 
siguiente estadístico basado en la distribución   de Student. 
 

13.5.3.2 Si no se conoce la desviación típica 

∈ . 
/√

Nota 13-1 Como indicamos en el capítulo anterior, si realizamos el contraste


para la media de una variable que NO sea normal, podemos utilizar estos mismos
estadísticos y el mismo procedimiento. La única diferencia es que la distribución que
sigue el estadístico es una aproximación, y el contraste pierde algo de fiabilidad, que
en la práctica ni se tiene en cuenta.

 
                                                                                              P á g i n a  | 309 

Ejemplo 13-5 En 1923 se tuvo constancia de una mujer neozelandesa que


tuvo 28 hijos, cuyos pesos al nacer fueron los siguientes:
4.3 5.2 6.2 6.3 5.3 4.9 4.7 5.5 5.3 4.0 4.9 5.2 4.9 5.3 5.4 5.5 3.9 5.8 5.6 5.0
5.2 5.8 6.1 4.9 4.5 4.8 5.4 4.7
Iker Jiménez y sus colaboradores creen que esta mujer pudo tratarse de una
extraterrestre del planeta Coneja, cuyo peso medio en los neonatos es
superior a 5 Kg (según consta en antiguos escritos incas). ¿Qué debería
hacer Iker Jiménez para contrastar la posibilidad de que la mujer fuera
extraterrestre?

Solución. 
Se debe plantear un test para la media de la variable “peso al nacer”, del modo 
  : 5 frente a  : 5. 
Con la muestra que tenemos, de  28 datos, debemos calcular  

... ∑
̅ 5.16 0.597. 
1

El valor del estadístico en el contraste es    
5.16 5
1.41. 
/√ 0.597/√28
El  p‐valor  es  el  área  a  la 
derecha de 1.41 (imagen), en una   
de Student con  1 27 grados 
de libertad, que es 0.083. 
Utilizando  la  regla  general  
para aceptar o rechazar  , vemos 
que el p‐valor es más pequeño que 
0.1,  por  lo  tanto  rechazamos  la 
hipótesis  nula.  Sin  embargo,  para 
algunos niveles   clásicos, como 0.01 o 0.05, el p‐valor es más grande, por lo que se 
aceptaría  . Tal vez se debería encontrar una muestra más grande antes de tomar 
ninguna decisión. Iker Jiménez deberá poner a trabajar a sus arqueólogos porque el 
 310 | P á g i n a  
 
misterio sigue abierto (y en todo caso, si se decide rechazar  , recordemos que las 
pruebas  rechazarían  que  el  peso  medio  al  nacer  en  los  hijos  de  esta  señora  sea 
“menor  o  igual  a  5  kilos”.  Después,  si  con  esto  alguien  acepta  que  la  señora  era 
extraterrestre, él sabrá).  

Nota 13-2 En R, realizar este test es tan simple como:


1.- Introducir los datos como x=c(4.3, 5.2, 6.2, 6.3, 5.3, 4.9, 4.7, 5.5, 5.3, 4.0,
4.9, 5.2, 4.9, 5.3, 5.4, 5.5, 3.9, 5.8, 5.6, 5.0, 5.2, 5.8, 6.1, 4.9, 4.5, 4.8, 5.4,
4.7)
2.- Realizar el test t con la orden: t.test(x, mu=5, alternative="greater")
El programa nos devuelve:
data: x
t = 1.4545, df = 27, p-value = 0.07866
alternative hypothesis: true mean is greater than 5
95 percent confidence interval:
4.971905 Inf
sample estimates:
mean of x
5.164286
en donde vemos que el valor del estadístico es t=1.45 y el p-valor es 0.07 (lo que
obtuvimos nosotros, con los lógicos errores de redondeo).
Como observamos, el test para la media se escribe indicando el vector x, el valor
teorico mu y el signo de la hipótesis alternativa.
Si el test es bilateral ponemos alternative ="two.sided", si el test es unilateral
ponermos "greater" (>) o "less" (<).

13.5.4 Para la varianza  
:   
 
                                                                                              P á g i n a  | 311 

13.5.4.1 Si se conoce la media    
∑ x μ
w ∈ χ . 
σ

13.5.4.2 Si no se conoce la media 

1 ∑ ̅
∈ . 

Volvemos a señalar que, en la práctica, parece bastante irreal el conocer la 
media teórica de la población, con lo cual el estadístico a utilizar habitualmente es 
este último. 
 

13.5.5 Para la diferencia de medias  
Suponemos  ∈ ,   e  ∈ , ,  y  que  tenemos  dos  muestras 
aleatorias  simples  , ,...,   e  , ,...,   de  las  variables.  Queremos 
contrastar 
: o  0.  
Los estadísticos para este contraste son los siguientes. 
 

13.5.5.1 Conociendo las desviaciones típicas  

∈ 0,1 . 

13.5.5.2 Desconociendo las desviaciones típicas pero suponiéndolas iguales  
x y μ μ
w ∈ t . 
n 1 ⋅S m 1 ⋅S 1 1

n m 2 n m
 
 312 | P á g i n a  
 
13.5.5.3 Desconociendo las desviaciones típicas y supuesto que los tamaños de las 
muestras son grandes  ,    

0,1  

(el símbolo   indica que la distribución, en lugar de ser exacta, es una aproximación). 
 

13.5.5.4 Desconociendo las desviaciones típicas y supuesto que los tamaños de las 
muestras son pequeños  ,  

siendo Δ el entero más próximo a   

1 ⋅ 1 ⋅

1 1

De nuevo, recordemos que el ordenador se encargará por nosotros de evaluar 
estas fórmulas, con lo cual nuestra tarea consistirá únicamente en establecer el test 
de  hipótesis  adecuado.  Es  posible  que  debamos  chequear  primero  si  podemos 
considerar o no las varianzas (o desviaciones típicas) iguales, aunque se desconozcan 
(que parece lo más probable). Para ello deberemos, en todo caso, realizar en primer 
lugar  un  test  para  saber  si  las  varianzas  pueden  considerarse  iguales  o  no  (en 
ocasiones,  el  software  correspondiente  se  ocupa  automáticamente  de  eso,  como 
hace por ejemplo el SPSS; al R deberemos indicárselo). 
 

13.5.6 Para la razón de varianzas 
Para realizar el contraste  

: ,      el estadístico a utilizar es    
                                                                                              P á g i n a  | 313 

∈ , . 

Este  test  nos  sirve  para  saber  si  podemos  considerar  las  varianzas  de  2 
variables   e   iguales o no, que es necesario para contrastar después la igualdad de 

las medias. Para ello, tendremos que contrastar  : 1 frente a  : 1. 

Ejemplo 13-6 Dos laboratorios farmacéuticos pugnan por llevarse el contrato


del único laxante que pagará a partir de ahora la seguridad social. Se supone
que el tiempo que tarda el laxante en hacer efecto sigue una distribución
normal. 31 voluntarios extreñidos del ministerio de sanidad toman el laxante
del primer laboratorio, mientras que 25 lo toman del segundo, anotando el
tiempo que tarda en provocar una estampida al cuarto de baño. Se obtienen
unas cuasi-varianzas muestrales de 50 y 24 segundos, respectivamente.
Contrastar si la diferencia observada entre la varianza de las variables es
estadísticamente significativa.

Solución. 
Queremos contrastar 
:
 frente a 
: ,
que es lo mismo que 

: 1

frente a 

: 1.

El estadístico a utilizar, en este caso toma un valor de    
50
⋅ ⋅1 2.083. 
24

El  estadístico  que  usamos  sigue  una  distribución    (con  31 1  y  25 1 


grados de libertad). Como la función de densidad de la distribución   no es simétrica, 
calculamos el área a la izquierda y derecha del valor  2.083. El área a la izquierda 
 314 | P á g i n a  
 
es 0.973, luego el área a la derecha es 0.034. El p‐valor es, por lo tanto, 2 ⋅ 0.034
0.068 (Figura 13‐6). 
Entonces, en principio se rechazaría la hipótesis de igualdad, por ser el p‐valor 
más  pequeño  que  0.1.  Sin  embargo,  para  algunos  niveles    clásicos,  como  0.01  o 
0.05, no se rechazaría. En función de la precisión que el ministerio desee (o bien de 
que al ministro/a del ramo le interese tirar hacia un laboratorio u otro, quizá debería 
repetirse el experimento con muestras más grandes). 

Figura 13‐6 

 
 

Ejemplo 13-7 Seguimos en el mismo ministerio, encantado de buscar los


mejores productos para el ciudadano español. Un laboratorio farmacéutico ha
sacado al mercado las pastillas “Inteligentium”, que afirman favorecer la
memoria y facilitar el estudio de los adolescentes. Por otro lado, una
asociación ecologista afirma que ese producto es una porquería y que no
consigue más efecto que la combinación de toda la vida, que es mezclar acido
acetilsalicílico con refresco de cola. Para realizar un estudio comparativo entre
ambos productos, se elige a 7 alumnos que nunca han aprobado más que
educación física, y se valora la mejoría tras un curso tomando “Inteligentium”.
                                                                                              P á g i n a  | 315 

Paralelamente, se hace lo mismo con otro grupo de 7 fenómenos a los que se


les da la mezcla casera. En la siguiente tabla, tenemos las variables
=“exámenes totales aprobados en un curso tras tomar Inteligentium” e
=“exámenes totales aprobados en un curso tras tomar la mezcla”:
1 2 3 4 5 6 7
10 15 18 23 12 16 15
15 10 19 9 14 12 18

a) Admitiendo normalidad en las variables, ¿puede aceptarse la igualdad de


varianzas de las variables, para un nivel de significación de 0.1? b) Un médico
de cabecera cobra una alta comisión por recetar Inteligentium. ¿Proporcionan
estos datos suficiente evidencia estadística, con un nivel de significación de
0.1, para concluir que este producto consigue que se aprueben más
exámenes?

Solución. 
a) Para contrastar  :  frente a  : ,  el estadístico a utilizar 
es   

∈ , . 

En este caso   
4.19
1. 21. 
3. 8
 El p‐valor para el contraste es 2 veces el área a la derecha de 1.21, que es 2 ⋅
0.41 0.82, con lo que aceptamos claramente la igualdad de varianzas. 
b)  El médico quiere saber si el número de exámenes aprobados es mayor con 
el  producto  farmacéutico  (variable    que  con  la  mezcla  (variable  .  Para  ello 
tenemos que plantear el contraste  :  frente a  : . 
El estadístico del contraste es (estamos en el caso de que desconocemos las 
desviaciones típicas pero se suponen iguales, ya que en el apartado anterior hemos 
aceptado la igualdad):    
 316 | P á g i n a  
 

1 ⋅ 1 ⋅ 1 1

2
  Las medias muestrales son  15.57 e  13.85 y, bajo  ,  0. 
Entonces  0.804. El p‐valor es el área a la derecha de  en una distribución   con 
2 12 grados de libertad. El p‐valor que se obtiene es 0.21, con lo que, con 
esta muestra, no podemos rechazar  (igualdad de efectos de ambas marcas). 
 

Nota 13-3 En R, como siempre, muy sencillo. Lo único que debemos es tener
instalada la librería fBasics y llamarla, para realizar el test para la igualdad de
varianzas.
require(fBasics)
x=c(10,15,18,23,12,16,15)
y=c(15,10,19,9,14,12,18)
El apartado a lo hacemos con la instrucción:
varianceTest(x, y)
El apartado b con:
t.test(x, y , alternative = "greater", mu = 0, paired = FALSE, var.equal =
TRUE)
Ambas instrucciones aportan bastante información, que quedaría demasiado
grande para escribir aquí. Sugerimos hacer el ejemplo y confirmar los resultados.

  

13.5.7 Para una proporción 
: .    
̂
0,1 . 
1

13.5.8 Para la diferencia de proporciones 
:  o  0.   
                                                                                              P á g i n a  | 317 

̂ ̂
0,1 . 
̂ 1 ̂ ̂ 1 ̂

Ejemplo 13-8 En el último concierto de Justin Bieber, las 64 primeras chavalas


que consiguieron entrar (tras dormir a la intemperie más de una semana)
pudieron fotografiarse con su ídolo. De ellas, a 12 les dio un desmayo al
hacerlo. Pocos meses atrás, Robert Pattinson acudió en Madrid al pre-estreno
de su última película “Crepúsculo 27: el despertar del eclipse del amanecer
nocturno”, dejándose fotografiar también con 51 fans, de las cuales 6 se
cayeron redondas. Dado que parece que existe una “guerra abierta” entre fans
de uno y otro actor, no hay posibilidad de que ninguna de las chavalas
estuviera en ambos sitios a la vez. Realizar el contraste de hipótesis adecuado
para saber si el porcentaje de adolescentes embobadas con Justin Bieber es
significativamente diferente al porcentaje de adolescentes embobadas con
Patinson.

Solución. 
Vamos a contrastar  
:  o  0, frente a  :   o  0, 
donde   es la proporción de adolescentes que sueñan con casarse con Justin Bieber 
y   la misma proporción referida a Robert Pattinson. 

Las proporciones muestrales son  ̂ 0.187, ̂ 0.117. 

El estadístico del contraste toma el valor (tenemos en cuenta que, si   es 
cierta,  0 :   
̂ ̂
 
̂ 1 ̂ ̂ 1 ̂

0.187 0.117 0
1.0551. 
0.187 ⋅ 1 0.187 0.117 ⋅ 1 0.117
64 51
 318 | P á g i n a  
 
El p‐valor es dos veces el área a la derecha de este valor, que es 2 ⋅ 0.147
0.294, con lo que aceptamos claramente la hipótesis nula. Parece lógico pensar que 
la bobería depende de la edad, no del ídolo en cuestión. 
 

Nota 13-4 Con R, un test para comparación de proporciones se efectua con el


comando prop.test (que vimos en el capítulo anterior de intervalos). Sin embargo,
este comando permite comparar más de 2 proporciones muestrales, con lo cual
efectúa un test diferente al que acabamos de ver. Si lo realizamos con tamaños de
muestra grandes, la aceptación o rechazo de la hipótesis nula no variará, pero el p-
valor puede ser ligeramente distinto.

  

13.5.9 Caso de dos muestras relacionadas (apareadas) 
Por  último,  si  suponemos  2  variables  o  poblaciones    e  , ∈ , ,
∈ , ,  pero  dependientes  (observaciones  antes  y  después  en  los  mismos 
individuos,  etc.),  estaremos  en  el  caso  de  muestras  o  variables  apareadas,  que  ya 
tratamos en el capítulo anterior. Igual que vimos allí, de la variable   se escogerá una 
muestra    , ,…,   y  de    otra  muestra    , ,…,   (los  tamaños  de  las 
muestras han de ser iguales), y trabajaremos con la variable   o  , con 
lo que estaremos en la situación de análisis de una única muestra. 
 

Ejemplo 13-9 Se quiere estudiar el tiempo de reacción ante un estímulo


subliminal (que no es captado a simple vista, pero deja su huella en la mente)
en un programa de televisión. Para ello se ha elegido una muestra aleatoria
de 9 ex-concursantes de “Gran marrano”, los cuales han sido estimulados, en
primer lugar, haciendo pasar imágenes subliminales de una mujer. Al día
siguiente se emite el mismo programa y se emiten imágenes subliminales de
un animal de granja.
Los tiempos de reacción, en centésimas de segundo (lo que tardan en
darle al botón de grabar en el mando a distancia), aparecen en la siguiente
tabla:
                                                                                              P á g i n a  | 319 

\ 1 2 3 4 5 6 7 8 9
14 12 9 13 15 17 13 12 13
17 11 12 10 11 16 16 15 13
¿Puede suponerse que los tiempos de reducción difieren según cada
estímulo?

Solución. 
Debido  a  que  las  pruebas  han  sido  realizadas  con  las  mismas  personas, 
debemos  considerar  las  diferencias  entre  los  tiempos  de  reacción,  pues  estamos 
tratando  muestras  apareadas.  Si  llamamos    al  tiempo  tardado  en  responder  al 
estímulo  A  y    al  tiempo  tardado  en  responder  al  estímulo  B,  consideramos  la 
variable  . 
El contraste a plantear es si  : 0  frente a   : 0. 
Construimos la muestra de diferencias    
3, 1,3, 3, 4, 1,3,3,0 . 
De la muestra obtenemos  9, ̅ 0.33, ̂ 2.78.  
El estadístico del contraste es   
̅
∈ . 
/√
El valor del estadístico para esta muestra es   
0.33 0
0.35. 
2.78/√9
El p‐valor es 2 veces el área a la derecha de 0.35 en una   con 8 grados de 
libertad, es decir 2⋅ 0.368 0.736, con lo que aceptamos claramente  , es decir no 
hay  diferencias  entre  los  estímulos  (en  los  individuos  ex‐concursantes  de  “gran 
marrano”). 
 

Ejemplo 13-10 Un grupo de tertulianos de la televisión recibe regalos de dos


empresas A y B, en formas de sobres de heroína. La valoración del efecto
de la misma se mide en función del número de horas de cuelgue. Los datos
de la tabla siguiente recogen las medidas del efecto en los tertulianos,
indicándose si la heroína ha sido inyectada en vena (I) o esnifada (E) (los
 320 | P á g i n a  
 
datos de la experimentación de cada tipo de droga se supone que son
tomados con el tiempo suficiente para dejar pasar los efectos de una, y
poder captar en toda su esencia los de la otra).
1 2 3 4 5 6 7 8 9 10
í 13.2 8.2 10.9 14.3 10.7 6.6 9.5 10.8 8.8 13.3
í 14 8.8 11.2 14.2 11.8 6.4 9.8 11.3 9.3 13.6
Calcular qué tipo de heroína tiene más efecto, y si existe diferencia entre
esnifar droga o inyectársela.

Solución. 
Para ver cuál de los dos tipos A o B causa mayor efecto, tenemos que realizar 
un test de comparación de medias entre muestras independientes. No se trata de 
muestras apareadas, puesto que, como vemos, cada individuo recibe la droga A de 
una forma (inyectada) y la B de otra (esnifada), con lo que es como si tuviéramos 
individuos diferentes en cada caso. Si todos los individuos se inyectasen la droga A y 
la B (o todos la esnifasen), las muestras serían pareadas, porque lo que deberíamos 
es medir las diferencias entre efectos de una droga y otra. 
Suponemos  =“duración del efecto de la heroína A” ∈ ,  e  =“duración
del efecto de la heroína B” ∈ , . Queremos contrastar  : o 
0. 
Para  realizar  este  test,  antes  debemos  comprobar  si  las  varianzas  pueden 
considerarse  iguales  o  no,  pues  ello  influirá  en  el  estadístico  a  utilizar.  Es  decir, 
debemos  resolver  primero  :   frente  a  : .  Como  hemos  visto 
anteriormente, el estadístico a utilizar es 

∈ , . 

El valor del estadístico en este caso particular es   
2.45
0.95. 
2.51
El  estadístico  que  usamos  sigue  una  distribución    (con  9  y  9  grados  de 
libertad).  Como  la  función  de  densidad  de  la  distribución    no  es  simétrica, 
calculamos el área a la izquierda y derecha del valor  0.95. El área a la izquierda 
                                                                                              P á g i n a  | 321 

es 0.47, por lo tanto el área a la derecha es 0.53. El p‐valor es, por lo tanto, 2 ⋅ 0.47
0.94, con lo que claramente aceptamos la igualdad de varianzas. 
A  continuación,  realizamos  el  test  para  las  medias:  :   frente  a 
: , donde elegimos el estadístico   

∈  
1 ⋅ 1⋅ 1 1
2
(estadístico cuando se desconocen las desviaciones típicas pero se suponen iguales). 
En este caso   
10.63 11.04 0
0.37, 
9 ⋅ 2.45 9 ⋅ 2.51 1 1
10 10 2 10 10
y calculamos el p‐valor, que resulta ser 2 0.358 0.716, con lo que se acepta la 
igualdad  de  medias,  es  decir  los  efectos  de  ambas  heroínas  pueden  considerarse 
iguales. 
Por último, para ver si existen diferencias entre esnifar o inyectarse la droga, 
hay que tener en cuenta que el efecto puede depender del individuo (y que como 
vemos en la tabla del enunciado, primero toman droga A, que algunos se inyectan y 
otros esnifan, y después de un tiempo toman droga B, que de nuevo unos se inyectan 
y otros esnifan). Debemos construir una nueva tabla, donde tendremos que construir 
una nueva columna con las diferencias, para hacer un test para datos apareados.  
Tertuliano   1   2   3   4   5   6   7   8   9   10  
Inyectada   13.2   8.2   11.2   14.3   11.8   6.6   9.5   10.8   9.3   13.3  
Esnifada   14.0   8.8   10.9   14.2   10.7   6.4   9.8   11.3   8.8   13.6 
El contraste a plantear es si  : 0  frente a   : 0. 
Con la muestra de diferencias    
0.8, 0.6,0.3,0.1,1.1,0.2, 0.3, 0.5,0.5, 0.3 . 
De  la  muestra  obtenemos  10, ̅ 0.03, ̂ 0.57,  con  lo  que  el 
valor del estadístico   
 322 | P á g i n a  
 
̅ 0.03 0
0.16 
0.57
√ √10
y el p‐valor correspondiente (2 veces el área a la izquierda de ‐0.16) es 0.87, con lo 
que se acepta la hipótesis nula, que da igual esnifar que pincharse.  
 
 
 
 

 
 
 
Y sí, llegado aquí, piensas que no te has enterado de mucho, recuerda que 
siempre estás a tiempo de meterte en la política. 
 
En todo caso, si te ha parecido interesante el libro, recorta el dibujo que sigue, 
haz fotocopias y repártelas entre todos los posibles interesados. 
 
                                                                                              P á g i n a  | 323 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 324 | P á g i n a  
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
                                                                                              P á g i n a  | 325 

 
 

14 REFERENCIAS  
 
[1] Ardanuy Albajar, R. Estadística para ingenieros. Hespérides, Salamanca. 
[2] Brownlee, K. Statistical theory and Methodology. Editorial Wiley. 
[3]  Cao  Abad,  R.,  Francisco  Fernández,  M.,  Naya  Fernández,  S.,  Presedo 
Quindimil, M. P., Vázquez Brage, M., Vilar Fernández, J. A. y Vilar Fernández, J. M. 
Introducción a la estadística y sus aplicaciones. Ediciones Pirámide. 
[4] Draper, N.R. y Smith, H. Applied regression analysis. John Wiley and Sons. 
[5] Gonick, L. y Smith, W. La estadística en cómic. Editorial Zendrera Zariquiey, 
Barcelona. 
[6] Guisande González, C. y Vaamonde Liste, A. Gráficos estadísticos y mapas 
con R. Editorial Díaz de Santos. 
[7]  Guisande  González,  C.,  Vaamonde  Liste,  A.  y  Barreiro  Felpeto,  A. 
Tratamiento de datos con R, Statistica y SPSS. Editorial Díaz de Santos. 
[8] Milton, S. Estadística para biología y ciencias de la salud. McGraw‐Hill. 
[9] Montgomery, D. C. y Runger, G. C. Probabilidad y estadística aplicadas a 
la ingeniería. McGraw‐Hill. 
[10] Peña Sánchez de Rivera, D. Fundamentos de estadística. Alianza Editorial. 
[11]  Población Sáez, A. Las matemáticas en el cine. Proyecto Sur de Ediciones. 
[12]  Quintela  del  Río,  A.  Problemas  estimulantes  de  probabilidad  y 
estadística.  Editorial  Lulu.  También  en  venta  directa  (en  formato  pdf)  en 
http://alejandroquintela.com/libro. 
[13]  Spaeth,  H.  Mathematical  Algorithms  for  Linear  Regression.  Academic 
Press. 
 326 | P á g i n a  
 
[14] Spiegel, M. R. Teoría y 760 problemas resueltos. McGraw‐Hill. 
[15] Uña Juárez, I., Tomeo Perucha, V. y San Martín Moreno, J. Lecciones de 
cálculo de probabilidades. EditorialThomson. 
[16] Wackerly, D., Mendenhall, R. y Scheaffer, L. Estadística matemática con 
aplicaciones. Editorial Thomson.  
 
En internet podemos encontrar multitud de apuntes y ejercicios de distintas 
asignaturas  de  estadística,  tanto  de  educación  secundaria  y  bachillerato,  como  de 
carreras  universitarias  y  cursos  monográficos.  Recomendamos  hacer  una  buena 
busqueda para conseguir material adecuado a nuestros intereses. 
Por ejemplo, recomendamos por su calidad el libro de F. Ríus Díaz, F. J. Barón 
Lopez, E. Sánchez Font y L. Parras Guijosa: “Bioestadística. Métodos y aplicaciones”, 
que puede descargarse en la dirección: 
http://www.bioestadistica.uma.es/baron/bioestadistica.pdf
 
 
 
 
 
 
 
 
 
 
 
 
 
                                                                                              P á g i n a  | 327 

15  APÉNDICE A. INSTALACIÓN DE R. 

 
 El 100 por 100 de las mujeres responden “nada” cuando les sucede algo. 
Dicho en un bar.  
 
En relación a la instalación y uso, tanto de 
este  programa,  como  de  cualquier  otro,  existe  la 
opción  de  buscar  videos  en  youtube.  A  mí  esta 
opción  me  ha  resultado  bastante  útil  para 
encontrar  rápidamente  la  forma  de  realizar 
muchas  tareas,  y  en  ocasiones  las  explicaciones 
resultan más ágiles y mejores que las de manuales 
en  texto.  Hasta  el  momento,  en  cambio,  no  he 
encontrado  videos  de  interés  para  aprender 
teoría.  La  mayoría  de  ellos  se  limitan  a  exponer 
conceptos y hacer ejercicios igual que en cualquier 
clase  habitual.  Hay  muchos  videos  de  este  tipo 
también, igual que ‐aunque parezca increíble‐ cada 
vez existen más donde la gente (joven, en general) se dedica a deformar canciones, 
cambiando  la  letra  e  introduciendo  la  estadística  y  la  probabilidad  por  el  medio 
(podéis ver algunos en mi blog). Bueno, con su tiempo libre cada uno hace lo que le 
parece,  y  esto  siempre  es  mejor  que  emplearlo  en  maquinar  maldades,  como 
nuestros gobernantes. 
 

15.1 DESCARGA DEL PROGRAMA. 

 
La página oficial de R es http://www.r‐project.org/. R funciona en Windows, 
Linux y MacOS. Aquí veremos la instalación en Windows. Los de Linux se supone que 
 328 | P á g i n a  
 
saben lo suficiente para no tener que usar un manual como este, y los de MacOS se 
supone que tienen suficiente dinero para, en caso de problemas, pagarle a alguien 
que se lo instale. 
El  “mirror”  o  servidor  más  cercano  para  descargar  el  programa  está  en 
España, en: 
http://cran.es.r-project.org/
 

 
 
 Una vez pinchada esa opción, nos aparecen otras. Debemos elegir la opción 
básica (base): 
                                                                                              P á g i n a  | 329 

 
 
Y, una vez marcada esta, nos aparece la versión más actual, en este caso nos 
aparece la versión 3.0.1  

 
 
Pinchando  ahí  nos  preguntará  si  deseamos  descargar  esa  versión.  Decimos 
que sí, y la guardará en donde cada uno guarde las descargas de internet (los videos 
porno, para entendernos, que siempre hay alguien que no encuentra lo que descarga. 
Pues eso, el programa estará en el mismo sitio a donde van a parar las fotos guarras 
y demás... ). Aquí dejo una captura de pantalla de mi ordenador, con el programa de 
instalación que se ha descargado de internet.  
 330 | P á g i n a  
 

 
 
Haciendo  doble  click  en  el  programa,  lo  normal  es  dejar  que  se  intale 
confirmando las opciones que aparezcan por defecto. Generalmente, en primer lugar 
nos pedirá permiso de instalación. Decímos que sí, y le damos una o dos veces hasta 
esta  otra  ventana  donde  nos  pregunta  en  que  directorio  o  carpeta  queremos 
instalarlo:  

 
 
Lo normal es darle a la opción siguiente. En las demás opciones que vienen a 
continuación, también se recomienda dejar las que estén por defecto. El programa 
se irá instalando (no tarda mucho, pero esto dependerá del ordenador. Si tenéis uno 
lento, podéis aprovechar para revisar el facebook, el periódico, forocoches...)  
                                                                                              P á g i n a  | 331 

 
y, una vez que termine, nos avisa, y tendremos en el escritorio dos nuevos iconos 
(foto de mi escritorio, no soy yo). 

 
 
 332 | P á g i n a  
 
Como podéis comprobar, tenemos dos versiones de R: la de 32 y la de 64 bits, 
porque  por  defecto  instala  las  dos  (en  la  instalación  hay  una  opción  que  podéis 
desmarcar si vuestro ordenador no tiene procesador de 64 bits). ¿Se pueden usar las 
dos para las cosas básicas, las de este libro? Sí. La diferencia entre una y otra versión 
es que algunos paquetes, de los que se instalan a mayores para realizar cosas más 
raras que las de este texto, pueden no funcionar en una u otra versión. 
Para ejecutar el R en 64 bits (si tenéis procesador así), doble click y ya arranca 
el programa: 

 
 
 En la ventana que aparece, llamada R console, abajo hay un símbolo “ >” de 
color  rojo.  Ahí  ya  se  pueden  escribir  comandos  y  ejecutarlos  (dandole  a  Enter). 
Ejemplo tonto: 
> 2+2 (Enter)
> [1] 4
                                                                                              P á g i n a  | 333 

Se  recomienda,  en  vez  de  escribir  en  la  consola,  abrir  una  ventana  para 
escribir comandos, que luego se podrá guardar para no tener que repetir todas las 
instrucciones  en 
otra  sesión.  Vais, 
dentro  del  menú 
de  arriba,  a  la 
opción 
Archivo>Nuevo 
Script 
y se nos abrirá una 
ventana  nueva, 
que  podemos 
colocar  donde 
queramos,  por 
ejemplo  a  la 
derecha  de  la  que 
tenemos. Es la ventana de edición. Como veis, se llama Sin nombre. Lo mejor es ya 
asignarle un nombre y guardarla, dandole en el menú a Archivo y Guardar como... 

 
 334 | P á g i n a  
 
Se abrirá un cuadro de diálogo (ventana) de Windows para que guardemos el 
archivo con el nombre que queramos (la extensión por defecto es R; esto es, si le 
llamamos prueba, en el ordenador lo graba como prueba.R), y en el directorio que 
queramos. 

 
 
Le damos a guardar y ya tenemos que la ventana de edición tiene el nombre 
prueba.R (con la ruta del directorio donde lo hayamos guardado). 
 
Esta ventana de edición es un editor de texto básico, podemos escribir, borrar, 
buscar, copiar y pegar, etc. Una vez que queramos ejecutar algo deberemos señalar 
las  líneas  correspondientes  con  el  ratón  (botón  izquierdo  del  ratón  pulsado  e  ir 
marcando las líneas, exactamente igual que en cualquier otro editor o programa) y 
luego darle a Control ‐ R (tecla Control y letra R: es la manera de ejecutar ordenes). 
 
                                                                                              P á g i n a  | 335 

 
El resultado de lo que le mandemos hacer se verá en la ventana de la izquierda 
(consola): primero las órdenes y después los resultados. 

 
 336 | P á g i n a  
 
Para practicar un poco más, pongamos un ejemplo con una gráfica. Vamos a 
introducir unos cuantos datos, y le pediremos que nos calcule la media aritmética y 
dibuje  un  histograma  (si  no  os  suena  de  nada,  aparte  de  estar  comprobando  que 
procedéis de la ESO, podéis mirar de qué hablamos en el primer capítulo). 
Primero  guardamos  los  datos  que  queramos  en  un  vector  o  variable  x,  y 
después le pedimos que calcule su media, del modo: 
x=c(2,3,4,5,13,14,28); mean(x)
Fijémonos que, en vez de poner cada orden o instrucción en una fila, podemos 
poner varias instrucciones separadas por punto y coma. 

 
 
A continuación le pedimos que dibuje un histograma, con la orden:  
hist(x) 
                                                                                              P á g i n a  | 337 

 
El  programa  abre  una  nueva  ventana  con  el  gráfico  correspondiente.  Esta 
ventana puede copiarse situando el ratón sobre ella y dándole al botón derecho, para 
guardarlo en el portapapeles o en una carpeta, y llevarlo a un procesador de textos, 
un programa para gráficos, etc. Comprobad que, en la línea anterior de la que hemos 
escrito hist(x) aparece un comentario: 
# dibujo del histograma
hist(x)
Los comentarios se indican con el símbolo # a su izquierda. El programa no 
tiene en cuenta todo lo que vaya a continuación de este símbolo (hay que poner un 
símbolo  #  por  línea  que  queramos  comentar).  De  esta  forma,  podemos  ir 
describiendo  las  tareas  que  realizamos,  y  nos  resultará  más  fácil  entender  lo  que 
hemos hecho cuando abramos este fichero de instrucciones en una sesión posterior. 
El gráfico que ha aparecido tiene unas opciones por defecto, como el título 
principal, el título del eje vertical, color en blanco, etc., que son modificables. Para 
conocer  las  opciones  de  un  comando  se  escribe  en  la  ventana  de  la  izquierda  (la 
consola): 
 338 | P á g i n a  
 
help(hist) (o help(cualquier comando)) 
y  se  abrirá  una  ventana  externa  al  programa  (generalmente  una  ventana  de 
navegación por internet, como firefox o el navegador que usemos por defecto) con 
la ayuda para el comando. 
Si no nos acordamos de cómo se escribe un comando, podemos escribir en la 
ventana de la izquierda algunos caracteres 
??his
y nos indicará cuales son los comandos que más se parecen a lo que hemos escrito. 
A lo largo de los capítulos del libro se indica la sintaxis y los resultados para 
los diferentes procedimientos de los ejemplos y ejercicios. Como este libro es para 
aprender estadística, no es necesario ver nada más referente al programa R. En la 
sección siguiente se indica dónde conseguir manuales de forma gratuita. Algunos de 
ellos  enseñan  simultáneamente  estadística.  Con  respecto  a  lo  que  nosotros 
acabamos  de  hacer,  quizá  el  paso  siguiente  podría  ser  instalar  el  R-Commander 
(aunque no es necesario). Se trata de un paqute (o más bien una librería de paquetes) 
que  configura  un  entorno  de  trabajo  con  menús,  resultando  de  gran  ayuda  en  la 
realización  de  análisis  estadísticos  de  ficheros  con  muchos  datos,  y/o  donde 
aparezcan un número grande de variables. El R-Commander configura también las 
variables en formato de tabla, como el excel, o el SPSS (una columna por variable) y 
posee  multitud  de  opciones.  Ya  existen  también  bastantes  manuales  y  textos  que 
tratan de este entorno, con lo cual podéis consultar bibliografía específica para su 
instalación y manejo, a través de los enlaces que se mencionan al final. 
 

15.1.1 Instalación de paquetes 
La instalación que hemos realizado de R instala el llamado paquete básico. En 
ocasiones podemos necesitar instalar paquetes extra (como el R-Commander) para 
realizar cálculos o gráficos que el paquete básico no haga. Por ejemplo, para el cálculo 
de la curtosis o la simetría de una variable necesitamos instalar el paquete fBasics. 
Para  instalar  cualquier  paquete,  debemos  ir  al  menu,  a  la  opción  Paquetes  y 
seleccionar el país de donde bajaremos el paquete (espejo CRAN).  
                                                                                              P á g i n a  | 339 

 
Nos  aparecerá  una  lista  de  países,  elegimos  el  que  nos  apetezca,  o  el  más 
cercano  si  la  conexión  a  internet  no  es  muy  rápida,  y  después  de  eso  vamos  a  la 
opción Paquetes>Instalar paquete(s). En el menú que se abre buscamos fBasics (ojo 
que hay mayúsculas y minúsculas).  

 
 340 | P á g i n a  
 
Una vez encontrado el paquete que buscamos le damos a OK y el programa 
se descarga. A continuación, debemos cargarlo en memoria a través del menú, por la 
opción  Paquetes>Cargar  Paquete,  y  seleccionar  fBasics  del  menú  que  salga  (son 
únicamente los que tenemos instalados en el ordenador). Una opcion más cómoda 
es, en la ventana de la consola (la de la izquierda) escribir el comando 
require(fBasics)
y ya podremos usar todos los comandos de este paquete. Escribiendo en la 
consola help(fBasics) podremos ver la ayuda del paquete, con todas las opciones. 

15.2 BIBLIOGRAFÍA ESPECÍFICA DE R 

Si vamos a la página web de R (donde descargamos el programa), en el menú 
de  la  izquierda  tenemos  un  apartado  Documentation,  y  en  él  la  opción  Manuals. 
Pinchando ahí ya nos aparece una lista de manuales en pdf y html, pero en inglés. 
Abajo  (lo  marcamos  en  la  siguiente  gráfica)  podéis  pinchar  en  contributed 
documentation 


                                                                                              P á g i n a  | 341 

Pinchando en esa opción se abrirá una página en la que aparecen enlaces a 
documentación en otros idiomas. En la opción Spanish están, entre otros: 
‐ “R para Principiantes”  the Spanish version of “R for Beginners”, translated 
by Jorge A. Ahumada. 
‐ A Spanish translation of “An Introduction to R”  by Andrés González and Silvia 
González. 
y, para aprender simultáneamente estadística, 
‐ “Metodos Estadisticos con R y R Commander”  by Antonio Jose Saez Castillo. 
Aparte de estos manuales, es destacable también “Estadística básica con R y 
R Commander”, de varios autores, que puede descargarse en 
http://knuth.uca.es/repos/ebrcmdr/pdf/actual/ebrcmdr.pdf.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 342 | P á g i n a  
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
                                                                                              P á g i n a  | 343 

16 ÍNDICE ALFABÉTICO 
 
 

Aditividad, 175  de hipótesis, 269 
Asimetría  de hipótesis paramétricas, 281 
negativa o a la izquierda, 49  Correlación, 72 
positiva o a la derecha, 49  Covarianza, 72 
atributos, 10  Cuantil 
Bayes  de una variable aleatoria, 148, 149 
Teorema de, 121  Cuartil, 34 
Bernoulli  Cuasi‐varianza 
variable de, 169  muestral, 235 
Binomial  Dato 
variable, 170  anómalo, 60 
Binomial negativa  atípico, 60 
variable, 185  extremo, 60 
Cálculo de Probabilidades, 8  datos, 10 
Campana de Gauss, 53, 200  Decil, 34 
carácter, 11  Densidad 
Central del límite  función de, 136 
teorema, 208  Desigualdad 
Centro de gravedad, 71  de Tchebychev, 45 
Claudio, 92  Desviación típica 
Coeficiente  de una variable aleatoria, 145 
de correlación, 73  Diagrama 
de determinación, 74  de dispersión, 70 
Coeficiente de Fisher  Diagrama de barras 
(primero), 49  tridimensional, 69 
(segundo), 54  Distribución 
Consistencia  de frecuencias, 12 
de un estimador, 243  en el muestreo, 238 
Contraste  función de, 129 
bilateral, 283  error 
unilateral, 283  estándar, 248 
Contrastes  típico, 248 
 344 | P á g i n a  
 
Error tipo I, 273  Incorrelación, 74 
Error tipo II, 273  Inferencia 
Espacio  estadística, 223 
muestral, 94  no paramétrica, 224 
Esperanza  paramétrica, 224 
matemática, 144  Intervalo 
Estadística Descriptiva, 8  de confianza, 244 
Estadístico, 231  Kolmogorov, 93 
de un contraste, 284  Laplace 
estadístico pivote, 245  regla de, 102 
Estimación, 232  leptocúrtica, 54 
puntual, 231  Media 
Estimador, 232  armónica, 27 
Experimento  geométrica, 26 
aleatorio, 94  muestral, 233 
determinista, 94  Mediana 
Exponencial  de una variable aleatoria, 148 
variable, 198  Mere 
F de Fisher‐Snedecor  Chevalier de, 93 
variable, 217  Méré, 8 
Fermat, 8  Mesalina, 92 
Pierre, 93  mesocúrtica, 54 
Fermat,  Mínimos 
Pierre, 92  cuadrados, 78 
Frecuencia  Moda 
absoluta, 14  de una variable aleatoria, 149 
absoluta acumulada, 15  Morgan 
relativa, 15  leyes de, 100 
Frecuencia  Muestra 
relativa acumulada, 15  aleatoria simple, 233 
Geométrica  Muestreo, 225 
variable, 182  aleatorio simple, 225 
grados de libertad, 215  estratificado, 226 
Hipergeométrica  sin reposición, 226 
variable, 189  sistemático, 229 
Hipótesis  Nivel 
alternativa, 270  de confianza, 245 
nula, 270  de significación, 245 
Histograma  Nivel crítico, 284 
tridimensional, 69  Nivel de significación, 273 
                                                                                              P á g i n a  | 345 

Normal  Suceso, 95 
variable, 199  complementario, 96 
Nube de puntos, 70  elemental, 95 
Pascal, 8  imposible, 95 
Blaise, 93  Sucesos 
variable de, 182  incompatibles, 95 
Percentil, 34  independientes, 115 
platicúrtica, 54  propiedades, 96 
Poisson  t de Student 
variable de, 176  variable, 216 
Potencia  Tabla 
de un contraste, 273  de frecuencias, 14 
Predicción, 81  Tchebychev, 45 
Probabilidad, 91  Tipificación 
axiomas, 98  de variables aleatorias, 203 
condicionada, 109  Uniforme continua 
de una intersección, 110  variable, 195 
ley, función, distribución de, 128  Valor 
total, 117  esperado, 144 
Probabilidades  Variable 
asignación de, 101  aleatoria, 127 
geométricas, 108  aleatoria continua. Véase 
Proporción  aleatoria discreta, 128 
muestral, 236  aleatoria discreta numerable, 133 
p‐valor, 284  discreta, 11 
R software, 321  estadística bidimensional, 68 
Recta  estadística continua, 11 
de regresión, 77  estadística discreta, 11 
Región crítica  tipificada, 57 
de un contraste, 288  Variables, 10 
Regla del producto, 113  Varianza 
Regresión, 76  de una variable aleatoria, 145 
Sesgo  muestral, 235 
de un estimador, 242 
 

Você também pode gostar