Escolar Documentos
Profissional Documentos
Cultura Documentos
El estadístico accidental
Alejandro Quintela del Río
Catedrático de la Universidad de A Coruña
Área de Estadística e Investigación Operativa
http://alejandroquintela.com
P á g i n a | 1
1 CONTENIDO
2 Prólogo. Características del Libro .............................................................. 7
2.1 Sobre la estructura ............................................................................. 9
2.2 Y teníamos más portadas ................................................................. 10
3 Introducción ............................................................................................. 13
3.1 Qué es la Estadística ......................................................................... 13
4 Estadística descriptiva .............................................................................. 15
4.1 Breve introducción histórica ............................................................ 15
4.2 Variables y atributos ......................................................................... 16
4.3 Variables discretas y continuas ........................................................ 17
4.4 Distribuciones de frecuencias .......................................................... 18
4.5 Representaciones gráficas ................................................................ 22
4.5.1 Diagrama de Sectores (Tarta) ..................................................... 22
4.5.2 Pictograma .................................................................................. 23
4.5.3 Diagrama de barras .................................................................... 24
4.5.4 Histograma (de frecuencias) ....................................................... 25
4.5.5 Polígono de frecuencias ............................................................. 29
4.5.6 Área bajo el histograma de frecuencias. .................................... 30
4.6 Medidas de posición o tendencia central ........................................ 31
4.6.1 La media ...................................................................................... 32
4.6.2 La mediana .................................................................................. 36
4.6.3 La moda ...................................................................................... 38
4.6.4 Cuantiles ..................................................................................... 39
4.7 Medidas de dispersión ..................................................................... 45
4.7.1 La varianza y desviación típica .................................................... 45
4.7.2 División por n‐1 ........................................................................... 46
2 | P á g i n a
4.7.3 Otras medidas de dispersión. ..................................................... 48
4.7.1 Desigualdad de Tchebychev ....................................................... 51
4.8 Medidas de forma ............................................................................ 54
4.8.1 Simetría ....................................................................................... 54
4.8.2 Curtosis ....................................................................................... 59
4.9 Transformaciones ............................................................................. 62
4.9.1 Normalización o tipificación ....................................................... 62
4.10 Análisis exploratorio de datos ...................................................... 64
4.10.1 Diagrama de tallo y hojas ......................................................... 64
4.10.2 Diagrama de caja (box‐plot) ..................................................... 66
5 Análisis conjunto de variables ................................................................. 73
5.1 Distribución conjunta de dos caracteres .......................................... 74
5.2 Representaciones gráficas ................................................................ 75
5.2.1 Representaciones 3D .................................................................. 75
5.2.2 Diagrama de dispersión o nube de puntos ................................ 76
5.2.3 Covarianza. Correlación lineal .................................................... 78
5.2.4 Coeficiente de correlación de Pearson ...................................... 79
5.3 Ajuste y regresión bidimensional ..................................................... 82
5.3.1 Caso lineal ................................................................................... 83
5.3.2 Problemas con la predicción ...................................................... 87
5.3.3 Otros ajustes ............................................................................... 88
5.4 Otros aspectos a tener en cuenta .................................................... 93
6 Probabilidad ............................................................................................. 97
6.1 Antecedentes históricos ................................................................... 97
6.2 Probabilidad ..................................................................................... 99
6.2.1 Definiciones básicas.................................................................. 100
6.2.2 Sucesos y conjuntos.................................................................. 102
6.2.3 Probabilidad.............................................................................. 104
P á g i n a | 3
6.2.4 Asignación de probabilidades ................................................... 107
6.2.5 Probabilidades geométricas ..................................................... 114
6.2.6 Probabilidad Condicionada ....................................................... 115
6.2.7 Regla del producto .................................................................... 119
6.2.8 Teorema de las probabilidades totales .................................... 123
6.2.9 Regla de Bayes .......................................................................... 127
6.2.10 Resumen para vagos ............................................................... 131
7 Variables aleatorias ................................................................................ 133
7.1 Variables aleatorias discretas ......................................................... 134
7.1.1 Función de distribución ............................................................ 135
7.1.2 Variables discretas infinitas numerables. ................................. 139
7.2 Variables aleatorias continuas ....................................................... 141
7.2.1 Función de densidad ................................................................. 142
7.3 Medidas características de una variable aleatoria ......................... 150
7.3.1 Esperanza de una variable aleatoria ........................................ 150
7.3.2 La varianza ................................................................................ 151
7.3.3 Propiedades de la media y varianza ......................................... 153
7.3.4 Mediana .................................................................................... 154
7.3.5 Cuantil ....................................................................................... 155
7.3.6 Moda ......................................................................................... 155
7.3.7 Resumen para vagos ................................................................. 173
8 Principales variables discretas ............................................................... 175
8.1 Variable de Bernoulli ...................................................................... 175
8.1.1 Media y varianza ....................................................................... 175
8.2 Variable Binomial ............................................................................ 176
8.2.1 Media y varianza. ...................................................................... 179
8.2.2 Propiedad aditiva ...................................................................... 181
8.3 Variable de Poisson ........................................................................ 182
4 | P á g i n a
8.3.1 Media y varianza ....................................................................... 184
8.4 Variable Geométrica o de Pascal .................................................... 188
8.4.1 Media y varianza ....................................................................... 189
8.5 Variable Binomial negativa ............................................................. 191
8.5.1 Media y varianza ....................................................................... 192
8.6 Variable Hipergeométrica .............................................................. 195
8.6.1 Media y varianza ....................................................................... 196
9 Principales variables continuas .............................................................. 201
9.1 Variable Uniforme .......................................................................... 201
9.1.1 Media y varianza ....................................................................... 202
9.2 Variable Exponencial ...................................................................... 204
9.2.1 Media y varianza ....................................................................... 204
9.3 Variable Normal .............................................................................. 205
9.3.1 Media y varianza ....................................................................... 206
9.3.2 Propiedades .............................................................................. 206
9.3.3 Tipificación ................................................................................ 209
9.3.4 Propiedad aditiva ...................................................................... 212
9.4 Teorema central del límite ............................................................. 214
9.5 Otras variables aleatorias de interés .............................................. 221
9.5.1 Variable Chi‐cuadrado .............................................................. 221
9.5.2 Variable de Student ............................................................... 222
9.5.3 Variable F de Fisher‐Snedecor .................................................. 223
10 Inferencia estadística. Introducción ...................................................... 229
11 Muestreo ............................................................................................... 231
11.1 Procedimientos de muestreo ..................................................... 231
11.1.1 Muestreo aleatorio simple ..................................................... 231
11.1.2 Muestreo aleatorio sin reposición ......................................... 232
11.1.3 Muestreo estratificado ........................................................... 232
P á g i n a | 5
11.1.4 Muestreo sistemático ............................................................. 235
12 Estimación puntual ................................................................................ 237
12.1 Estimación de la media de una variable. Media muestral ......... 239
12.2 Estimación de la varianza. Cuasi‐varianza muestral ................... 241
12.3 Estimación de una proporción. Proporción muestral ................. 242
12.3.1 Otros estimadores .................................................................. 243
12.4 Distribución en el muestreo de un estimador ............................ 244
12.5 Calidad de los estimadores ......................................................... 247
12.5.1 Sesgo de un estimador ........................................................... 248
12.5.2 Consistencia ............................................................................ 249
12.6 Intervalos de confianza ............................................................... 250
12.6.1 Definiciones básicas ................................................................ 251
12.6.2 Intervalos de confianza para variables aleatorias normales .. 252
12.7 Intervalos para la comparación de poblaciones ......................... 261
12.7.1 Intervalo de confianza para la diferencia de medias ............. 262
12.7.2 Intervalo de confianza para la razón de varianzas ................. 265
12.8 Caso de muestras relacionadas o pareadas ............................... 268
12.9 Intervalos para proporciones ...................................................... 269
12.9.1 Intervalo para una proporción ............................................... 270
12.9.2 Intervalo de confianza para la diferencia de proporciones.... 271
13 Contrastes de hipótesis ......................................................................... 275
13.1 Introducción. Conceptos esenciales ........................................... 275
13.2 Error tipo I y error tipo II. Potencia ............................................. 279
13.3 Ejemplo práctico: Una película ................................................... 281
13.4 Contrastes de hipótesis paramétricas ........................................ 287
13.4.1 Como realizar un contraste de hipótesis paramétrico ........... 289
13.4.2 Región crítica de un contraste ................................................ 294
13.4.3 Potencia del contraste ............................................................ 297
6 | P á g i n a
13.4.4 Resumen: Etapas básicas de un contraste de hipótesis ......... 299
13.5 Contrastes uni y bilaterales. ....................................................... 301
13.5.1 Resumen: cálculo general del p‐valor .................................... 306
13.5.2 Contrastes paramétricos más usuales ................................... 308
13.5.3 Para la media de una variable normal .................................... 308
13.5.4 Para la varianza ....................................................................... 310
13.5.5 Para la diferencia de medias .................................................. 311
13.5.6 Para la razón de varianzas ...................................................... 312
13.5.7 Para una proporción ............................................................... 316
13.5.8 Para la diferencia de proporciones ........................................ 316
13.5.9 Caso de dos muestras relacionadas (apareadas) ................... 318
14 Referencias ............................................................................................ 325
15 Apéndice A. Instalación de R. ................................................................ 327
15.1 Descarga del programa. .............................................................. 327
15.1.1 Instalación de paquetes ......................................................... 338
15.2 Bibliografía específica de R ......................................................... 340
P á g i n a | 7
2 PRÓLOGO. CARACTERÍSTICAS DEL LIBRO
Existen miles de libros de estadística y probabilidad en el mercado. Incluso los
hay gratuitos en Internet. Quien esté leyendo este prólogo, es casi seguro que ha
ojeado el libro, lo cual le habrá provocado la impresión de que le resultará difícil
encontrar otro con tantas fotografías y dibujos por el medio (no tratándose de
gráficos matemáticos), ni que aparezca Tom Cruise, el señor Miyagi, Vladimir Putin o
el mismo Bárcenas.
8 | P á g i n a
Muchas veces escuchamos que las matemáticas son infumables, y que hay
que tragarlas tal cual porque no se pueden contar de otra forma, ni se puede rodar
una película como si se tratara de una lección de historia. Bueno, aquí vamos a
intentar desmontar un poco esa idea. En este texto vamos a intentar que el
estudiante tenga más fácil recordar ciertas ideas, la historia, las fórmulas y las nuevas
nociones, utilizando dibujos, anécdotas, mencionando películas, con fotogramas de
cine, con ayuda de Tom Cruise, de Russell Crowe, de los X‐men y quien haga falta.
Pretendemos amenizar, en lo posible, el estudio de una materia que está en
muchos planes de estudio y en ocasiones, resulta ingrata. También intentaremos
aprovechar la gran cantidad de material disponible en la red para minimizar el
esfuerzo en cálculos (tablas de la normal y demás fuera. Vivimos en la época donde
hasta el más torpe tiene un teléfono o un Tablet para conectarse a internet, así que
podemos evitarnos muchos líos). Existen muchas aplicaciones gratuitas y páginas
web donde podremos realizar gráficas y cálculos. A la vez, existe software para todos
los gustos, desde el muy caro y muy completo, como el SPSS, hasta el también muy
completo y gratuito R. Cierto, sabemos que hay mucho profesor antediluviano que,
o bien no sabe de qué estamos hablando, o no va a dejar usar ordenador en el
examen, o simplemente le encanta que los demás sufran igual que él, y si él aprendió
a usar las tablas de las distribuciones, los demás que rabien… Bueno, eso no es tan
complicado ni mucho menos. Lo fundamental que se pretende es que se entiendan
los conceptos. Si después a uno le exigen usar tablas, o un paquete estadístico
diferente al R (el que usaremos aquí), seguro que le llevará muy poco tiempo preparar
esas nociones extra. Si, como hemos dicho en la contraportada, el que tiene ahora
este libro es un profesional que pretende repasar sus conocimientos de estadística,
o aprenderlos de una manera sencilla, esperamos allanarle el camino y que la tarea
le sea más cómoda.
P á g i n a | 9
2.1 SOBRE LA ESTRUCTURA
El texto está enfocado a los contenidos de una asignatura de estadística
básica de una carrera (ahora se llaman grados) de tipo experimental o aplicado.
Desarrolla los contenidos de estadística descriptiva de una y dos variables,
probabilidad, variables aleatorias e inferencia (estimación, intervalo de confianza y
test de hipótesis). Al tratar de hacer el texto lo más ameno e intuitivo posible, hemos
evitado profundizar en contenidos matemáticos, por lo que sólo sería recomendable
como lectura complementaria en carreras donde sí interesen los aspectos teóricos
(matemáticas, ingenierías de esas que precisan quince años para terminarlas...).
Todos los conceptos teóricos están acompañados de ejemplos y ejercicios,
que se resuelven a la par de describir la forma de realizar los cálculos pertinentes en
R, o en alguna aplicación de Internet (siempre que sea posible). Además, en el
Apéndice A incluimos un manual de descarga e instalación del software, y de cómo
dar los primeros pasos en el mismo, que es muy fácil (hasta los de letras pueden
hacerlo). Recomendamos leer primero este apéndice, y tener instalado el R en el
ordenador, si se quieren realizar los ejercicios del libro simultáneamente a su lectura.
Algunos ficheros de datos sobre los que trabajaremos en el libro pueden
obtenerse en mi página web, http://alejandroquintela.com, a la cual también
haremos referencia en ocasiones, porque incluye varios widgets o aplicaciones donde
realizar cálculos. También se encuentran los ficheros de sintaxis de R con los que se
han realizado algunos de los ejercicios del libro. A los datos se accede mediante
http://alejandroquintela.com/libro_teoria_datos, y a los ficheros de R mediante
http://alejandroquintela.com/libro_teoria_sintaxis_r.
Por último, quiero agradecer la colaboración de Leolux, que ha realizado
varios de los dibujos del libro. Podéis visitar su página http://leolux2.blogspot.com.
10 | P á g i n a
2.2 Y TENÍAMOS MÁS PORTADAS
Pero, como sólo se puede poner una, dejamos aquí las otras.
P á g i n a | 11
12 | P á g i n a
P á g i n a | 13
3 INTRODUCCIÓN
3.1 QUÉ ES LA ESTADÍSTICA
Un hombre muerto es una desgracia. Un millón de muertos es una
estadística.
Josef Stalin
Nunca nadie tan bestia dijo
algo tan cierto. En su acepción más
conocida, la estadística se utiliza para
resumir la información de un conjunto
de datos, sea del tipo que sea. Es por
ello que escuchamos tan a menudo
frases como “el 90 por ciento de los
españoles (varones) asegura que
compra la revista Interviú por los
reportajes de política”, “el 90 por ciento de los españoles afirman tener un
coeficiente intelectual mayor que la media” o “un porcentaje altísimo de encuestados
no cree en las encuestas”.
Sin embargo, el sentido científico de la palabra se refiere a la rama de las
matemáticas que se utiliza para estudiar poblaciones a partir de muestras. Lo que hoy
se conoce como Ciencía Estadística es el resultado de la unión de dos disciplinas,
14 | P á g i n a
diferenciadas en sus orígenes, y que evolucionaron de forma independiente, hasta
que se agruparon en el siglo XIX: la Estadística Descriptiva y el Cálculo de
Probabilidades. La primera, que como su propio nombre indica estudia la descripción
de datos, se remonta a la antigüedad y surge por el interés de los gobernantes por el
conocimiento de los recursos disponibles. Habitualmente, los gobernantes suelen
creerse dotados de naturaleza divina e inteligencia sobrehumana, aunque necesiten
siempre del poder de los ejercitos para recaudar el dinero de sus súbditos.
Actualmente lo disfrazan de democracia, pero el afán recaudatorio de los gobiernos
nunca ha cesado ni cesará.
Por otra parte, el cálculo de probabilidades fue introducido en la segunda
mitad del siglo XVII, y su origen fue la afición de la nobleza francesa por los juegos de
azar. Sus primeros pasos corresponden a la resolución por Blaise Pascal (1623‐1662)
y Pierre Fermat (1607‐1665) de algunos problemas formulados por el caballero Méré
(1607‐1684) relacionados con los juegos de dados. La integración de ambas líneas de
pensamiento (estadística y probabilidad) dio lugar a una ciencia que estudia cómo
obtener conclusiones de la investigación empírica mediante el uso de modelos
probabilistas. En los capítulos correspondientes ampliaremos algo más esta reseña
histórica.
A continuación resumimos, en el siguiente gráfico, el proceso científico del
análisis estadístico.
P á g i n a | 15
4 ESTADÍSTICA DESCRIPTIVA
Este capítulo tiene por finalidad la descripción de un conjunto de datos, sin
considerar que éstos puedan pertenecer a un colectivo más amplio, y sin la intención
de proyectar los resultados que se obtengan al colectivo global; objeto esto último
de lo que se conoce como Inferencia Estadística.
4.1 BREVE INTRODUCCIÓN HISTÓRICA
Los orígenes históricos de la Estadística descriptiva se encuentran en los
procesos de recogida de datos, censos y registros sistemáticos, en una suerte de
aritmética estatal para asistir al gobernante1, que necesitaba conocer la riqueza y el
número de sus súbditos con fines raras veces honorables. Quien se crea que el
ministerio de Hacienda es un invento reciente está muy equivocado. Los primeros
registros de riqueza y población que se conocen se deben a los egipcios. Ramsés II,
en el 1400 a.C., realizó el primer censo conocido de las tierras de Egipto.
Posteriormente, desde el siglo III a.C., en las civilizaciones china y romana se llevaron
a cabo censos e inventarios de posesiones. Las intenciones eran, son y han sido
siempre las mismas: el que manda decide “too pa mí”, y leña a quien se le oponga.
Como modelo, podemos mencionar la primera película galardonada con once
Oscar: Ben‐Hur. Al principio de la película, nos cuentan como los romanos, invasores
de Judea, exigen que los judios vayan a empadronarse a su lugar de nacimiento, con
el fin de hacer un censo y cobrarles impuestos. María y José acuden a su aldea para
ello, y en el camino nace Jesús de Nazaret.
1
Estadista.
16 | P á g i n a
En España, este interés nació con la
preocupación de los Reyes Católicos por
mejorar el estado de las “Cosas Públicas”
(administración del reino),
estableciéndose el primer censo del que se
tiene referencia en 14822.
Los datos constituyen la materia
prima de la Estadística, estableciéndose distintas clasificaciones en función de la
forma de los mismos. Se obtienen datos al realizar cualquier tipo de prueba,
experimento, observación...
4.2 VARIABLES Y ATRIBUTOS
Una primera clasificación del tipo de datos procede del hecho de que las
observaciones sean de tipo cualitativo o cuantitativo. En el primero de los casos se
2
Se desconoce si en la mejora de las cosas públicas la reina Isabel incluía su estado físico,
después de estar un año sin lavarse (prometió no hacerlo hasta que se conquistara Granada).
P á g i n a | 17
tiene un atributo, y en el segundo una variable. Para hacer referencia genéricamente
a una variable o a un atributo se utiliza el término carácter.
Como ejemplos de atributos tenemos el color del pelo, raza, idioma de un
grupo de personas, y como variables su estatura, peso, dinero que lleven en el
bolsillo, etc.
Si es necesario operar con un atributo, se le asignará a cada una de sus clases
un valor numérico, con lo que se transforma en una variable. Esta asignación se hará
de forma que los resultados que se obtengan al final del estudio sean fácilmente
interpretables. Por ejemplo, si hay 3 idiomas posibles (ingles, francés y español)
podemos usar 1, 2 y 3.
4.3 VARIABLES DISCRETAS Y CONTINUAS
Si las observaciones corresponden a cantidades, las variables pueden
distinguirse entre discretas y continuas. Se dice que una variable es discreta cuando
no puede tomar ningún valor entre dos consecutivos, y que es continua cuando
puede tomar cualquier valor dentro de un intervalo.
Ejemplos de variable discreta: número de empleados de una fábrica; número
de hijos; número de cuentas ocultas en Suiza.
Ejemplos de variable continua: temperaturas registradas en un observatorio;
tiempo en recorrer una distancia en una carrera; contenido de alcohol en un cuba‐
libre; estatura; tiempo dándole el coñazo a una tía en la discoteca.
En la práctica, todas las variables son discretas debido a la limitación de los
aparatos de medida. Pensemos en el ejemplo de la estatura; quizá se podría detectar
una diferencia de una cienmilésima de metro, o de una millonésima, pero dados dos
individuos que se diferencien en una millonésima, seguramente ya no existe otro que
tenga una estatura intermedia. De la misma forma, por insignificante que sea la
diferencia entre la llegada de dos corredores olímpicos a una meta, la limitación de
la precisión en la medida siempre puede acabar produciendo un posible (aunque
18 | P á g i n a
improbable) empate. Obviando este tipo de limitaciones, las variables continuas se
elegirán, desde un punto de vista teórico, con toda la precisión que deseemos
(decimales), de manera que siempre podamos escribir un valor que esté entre
cualesquiera otros dos.
4.4 DISTRIBUCIONES DE FRECUENCIAS
La organización de los datos constituye la primera etapa de su tratamiento,
pues facilita los cálculos posteriores y evita posibles confusiones. Realmente, la
organización de la información tiene una raíz histórica y, actualmente, con el
desarrollo de los medios informáticos, tiene menos importancia desde un punto de
vista aplicado. Cuando no existían ordenadores, o ni siquiera calculadoras, si se
disponía de un conjunto de datos, era necesario dotarlos de alguna estructura que
permitiera resumirlos y comprenderlos de una forma más o menos sencilla.
La organización va a depender del número de observaciones distintas que se
tengan y de las veces que se repitan cada una de ellas. En base a lo anterior, se
pueden estructurar los datos de tres maneras distintas:
Tipo I: Cuando se tiene un número pequeño de observaciones casi todas
distintas, éstas se darán sin más.
Tipo II: Cuando se tiene un gran número de observaciones, pero muy pocas
distintas, se pueden organizar en una tabla de frecuencias, es decir, cada uno de los
valores acompañado de la frecuencia (también llamada frecuencia absoluta ) con la
que aparece.
P á g i n a | 19
2 4
4 4
5 3
6 2
7 3
8 3
9 1
2
ó 1
6
1
Tipo III: En el caso de que haya muchas observaciones, la mayoría de ellas
distintas, pueden disponerse agrupándolas en intervalos e indicando el número de
observaciones que caen dentro de cada intervalo.
Para ello se elige un número min , y otro max , y se divide el
intervalo en intervalos (generalmente de igual longitud).
2,4 3
4,6 6
6,8 8
8,10 2
10,12 6
12,14 1
En cualquiera de los tres casos o tipos se tiene una distribución de frecuencias.
A la variable que representa a la distribución se le llama genéricamente X; a cada uno
de los valores que toma la variable se le denota por , y a la frecuencia con que se
repite dicho valor por frecuencia absoluta . Para evitar confusiones, puede ser
aconsejable ordenar los valores de la variable de menor a mayor. Los valores
ordenados de una distribución se representan, en ocasiones, con los subíndices entre
paréntesis:
⋮ ⋮ ⋮ ⋮ ⋮
1
donde:
P á g i n a | 21
• representa al número total de observaciones, y será igual a la suma
∑ .3
• es la frecuencia absoluta acumulada, que se obtiene como ∑ .
Obsérvese que si la distribución es de tipo I la tabla prácticamente no aporta
información. Si la distribución es de tipo III, los valores corresponderán a las
llamadas marcas de clase o puntos medios de los intervalos4. Actualmente, como lo
lógico es tener los datos en alguna variable para su tratamiento en un paquete o
programa estadístico, la representación de los datos en una tabla de frecuencias
únicamente suele realizarse para los datos de tipo II. En el caso de una variable
continua, la representación en una tabla con intervalos resulta algo obsoleta, puesto
que la mejor forma de “comprender” la distribución es por medio de una
3
La letra griega ∑ (sigma mayúscula) representa suma. ∑ representa sumar todos los
índices desde el 1 hasta el r, n1 + n2 +…+nr.
4
Dado el intervalo , , la marca de clase viene dada por
22 | P á g i n a
representación gráfica, y con el cálculo de medidas estadísticas que trataremos más
adelante. Si una cantidad muy grande de datos se resume en forma de tabla de
intervalos, realmente lo que se está haciendo es perder información. Puesto que hoy
en día todo el mundo tiene un ordenador capaz de tratar con un número grande de
datos, resumir un conjunto de datos en intervalos y trabajar con las marcas de clase,
en vez de con todos los datos, ha perdido gran parte de su sentido.
4.5 REPRESENTACIONES GRÁFICAS
En función de la naturaleza de los datos y de la forma en que éstos se
presenten, existen distintos tipos de representaciones. Ahora mostramos algunas de
las más utilizadas.
4.5.1 Diagrama de Sectores (Tarta)
Se emplea para representar atributos y variables discretas.
4.5.2 Pictograma
Consiste en indicar el tamaño de cada categoría o atributo mediante un
dibujo, tanto más grande a medida que la categoría se repite en más ocasiones
(primera imagen), o bien con el mismo dibujo repetido un número mayor de veces
(segunda imagen).
24 | P á g i n a
Suponemos que todo el mundo entiende lo que significa este gráfico y el
anterior. Este tipo de representación no suele aparecer en ningún programa
estadístico; debe hacerse manualmente con algún programa de edición.
4.5.3 Diagrama de barras
Para representar una distribución del tipo II, se suele utilizar un diagrama de
barras, levantando sobre cada valor de la variable una barra, tanto más grande
cuanto mayor sea la frecuencia.
P á g i n a | 25
Nota 4-2 En R esto se hace igual que en el caso del diagrama de sectores,
cambiando el comando pie por barplot:
x=c(0.4,0.4,0.2)
names(x)=c(“BIEN”, “MAL”, “No sabe/No contesta”)
barplot(x)
4.5.4 Histograma (de frecuencias)
Si se dispone de una variable continua, la representación gráfica más utilizada
es la que se conoce como histograma. La realización de un histograma de frecuencias
(absoluta o relativa) consiste en clasificar los datos en intervalos, de la forma vista en
lo que hemos denominado tipo III. Una vez que se tienen los intervalos, sobre cada
uno de ellos se levanta un rectángulo de área o altura la frecuencia (absoluta o
relativa). El histograma con los datos del Ejemplo 4‐3 es el que sigue:
Figura 4‐1
P á g i n a | 27
Por medio del software R, la gráfica que obtenemos es la de la Figura 4‐2
(sobre cada intervalo indicamos el número de datos que hay en el mismo).
Figura 4‐2
En cualquier histograma, si todos los intervalos tienen la misma longitud, es
equivalente considerar que la frecuencia es el área o la altura de un rectángulo,
puesto que ambas medidas son proporcionales y el dibujo es el mismo, pero realizado
28 | P á g i n a
en diferente escala. Lo que representa gráficamente el histograma es la
concentración de los datos, o como se reparten los mismos a lo largo de los valores
de la variable. Cuántos más datos hay en un intervalo, más alto será el rectángulo
correspondiente.
Antes hemos dicho que la clasificación de una variable en intervalos se realiza,
generalmente, con intervalos de la misma longitud. Si los intervalos son de diferente
longitud, la representación geométrica podría dar lugar a confusión, y por ello no
suele utilizarse.
Mención aparte merece la consideración del número de intervalos. El aspecto
de un histograma (y por tanto el de la distribución de los datos) puede cambiar mucho
dependiendo del número de intervalos que se utilice. Los programas estadísticos
suelen utilizar alguna fórmula que depende del número de datos. Por ejemplo, por
defecto, R utiliza la llamada fórmula de Sturges: . El Excel usa √ .
Suele resultar interesante comparar varios gráficos cambiando el número de
intervalos para una serie de datos concreta. En la Figura 4‐3 dibujamos la misma
variable del Ejemplo 4‐5 primero con un número grande de intervalos, y después con
un número pequeño.
Figura 4‐3
P á g i n a | 29
Usando también en la comparación la Figura 4‐2, puede apreciarse como, a
medida que el número de intervalos aumenta (o lo que es lo mismo, el ancho de los
intervalos disminuye) aumenta la variabilidad de la gráfica, resultando cada vez en
una gráfica menos homogénea, y que puede distorsionar la información gráfica que
proporcionan los datos.
4.5.5 Polígono de frecuencias
Consiste en unir los puntos medios de los rectángulos superiores en un
histograma. Veamos el resultado, con los datos que estamos utilizando, en la Figura
4‐4. El polígono, como vemos, parte del eje X y regresa al eje X, simplemente
marcando como origen y final una distancia de los extremos igual a la longitud de un
intervalo dividida entre 2. Estas dos líneas finales, además de darle una mayor
vistosidad al gráfico (lo estético no está reñido con la estadística), tiene un significado
matemático que explicamos a continuación.
Figura 4‐4
30 | P á g i n a
4.5.6 Área bajo el histograma de frecuencias.
Pensemos en un histograma donde hemos considerado como área de cada
rectángulo la frecuencia absoluta (número de datos) del intervalo correspondiente.
El área encerrada entre el histograma y el eje horizontal sera , número total de datos
(simplemente sumamos el área de todos los rectángulos). Si en vez de utilizar la
frecuencia absoluta usamos la relativa, el área de cada rectángulo será el porcentaje
de datos que hay en el mismo. El área encerrada entonces por todo el histograma y
el eje horizontal será igual a 1 (es el cien por cien de los datos). Análogamente, puede
comprobarse que el área encerrada entre el polígono de frecuencias y el eje
horizontal también vale 1.
En la Figura 4‐5 vemos un dibujo de un histograma con frecuencias relativas,
y la explicación geométrica de por qué el polígono de frecuencias encierra también
área uno aparece en la Figura 4‐6 (sólo hay que pensar que, en el polígono de
frecuencias, a cada rectángulo le restamos y sumamos el área de dos triángulos, que
se van compensando a lo largo de la figura). El área total de valor uno es un hecho
muy relevante a la hora de introducir, en el capítulo de variables aleatorias, el
concepto de función de densidad.
Figura 4‐5
P á g i n a | 31
Figura 4‐6
4.6 MEDIDAS DE POSICIÓN O TENDENCIA CENTRAL
Una vez organizados los datos en su correspondiente distribución de
frecuencias, procedemos a dar una serie de medidas que resuman, de la mejor forma
posible, la información existente en los mismos y que, “de alguna manera”,
representen a la distribución en su conjunto. De alguna manera, estas medidas
“centralizan” la información, y por ello se llaman de tendencia central o promedios.
Con estas medidas, se pretende también facilitar la comparación entre distintas
variables.
32 | P á g i n a
A partir de ahora trabajaremos con una variable , con valores
, . . . , , ordenados de menor a mayor, que pueden repetirse o no, y así incluimos
todos Los casos descritos.
4.6.1 La media
La media es una medida de representación o de tendencia central que debe
cumplir tres requisitos:
1. Para su obtención deben utilizarse todas las observaciones.
2. Debe ser un valor comprendido entre el menor y el mayor de los valores
de la distribución.
3. Debe venir expresada en las mismas unidades que los datos (si
representa kilos, la media también).
Entre todas las funciones que verifican estas tres propiedades se destaca la
media aritmética, a partir de ahora simplemente media, que se define de la siguiente
manera:
...
̅ .
Con el mismo esquema también se puede definir la media geométrica como:
̅ ⋅ ⋅ …⋅ ,
que suele utilizarse, fundamentalmente, en economía (generalmente para promediar
porcentajes).
Solución.
Nos referimos a qué mismo porcentaje tendría que haber subido cada año
para obtener, al cabo de los tres años, el mismo valor que con estas subidas
desiguales. Para obtener el precio del primer año (tras una subida del 10%), tenemos
que multiplicar por 1.1 el precio inicial (P+P×10/100=P+0.1P=1.1P). Al precio así
obtenido tenemos que multiplicarlo por 1.18 (subida del 18%) para obtener el precio
tras el segundo año. Y este último valor hemos de multiplicarlo por 1.30 (subida del
30%) para obtener el precio final. Entonces, si el precio inicial es P, el resultado final
será:
P×1.1×1.18×1.30=1.6874P
Sin embargo, si consideramos la media aritmética de 10%, 18% y 30%,
obtenemos un porcentaje del 19.33% (o multiplicar por 1.1933), pero si aplicamos
esa subida del 19.33% cada año, el resultado que obtenemos será:
P × 1.1933×1.1933×1.1933=1.6992P.
En cambio, si calculamos la media geométrica de los tres porcentajes:
Solución.
Como la velocidad es el espacio entre el tiempo,
2⋅ 2
.
34 | P á g i n a
Como el tiempo que tardó en el primer sentido es / /60, y el
tiempo que tardó en el segundo sentido es / /70, tenemos que
2 2
,
1 1
60 70 60 70
que es la media armónica de las dos velocidades.
Otra media que tiene interés práctico es la media ponderada. Consiste en
asignar a cada valor un peso que depende de la importancia relativa de dicho
valor, bajo algún criterio. Su expresión responde a:
⋅ ⋅ ... ⋅
̅ .
...
Solución.
La media aritmética de las calificaciones, ponderada por los pesos de cada
prueba es
7 ⋅ 0.3 3 ⋅ 0.5 5 ⋅ 0.2
̅ 4.6
0.3 0.5 0.2
Características de la media aritmética
Se analizan a continuación una serie de propiedades de la media (aritmética).
1. Si a cada observación de una variable se le suma una constante , se
tiene una nueva variable con media igual a la de más la constante
(ver Figura 4‐7).
2. Si se multiplica una variable por una constante , la variable resultante
tendrá media igual a por la media de .
P á g i n a | 35
Estas dos propiedades se pueden resumir en la siguiente:
⇒ a ̅
Figura 4‐7
3. La media aritmética se ve muy alterada por valores extremos de la
variable.
Supongamos, por ejemplo, que una variable toma los valores 1,4,12. Su
media es ̅ 5.66. Si añadimos un nuevo valor, por ejemplo 100, ahora la media es
̅ 29.25. Es decir, valores grandes de desplazan la media hacia la derecha. Lo
mismo ocurre con valores pequeños de , que desplazan la media hacia la izquierda.
36 | P á g i n a
4.6.2 La mediana
La mediana es un valor que, previa ordenación, deja la mitad de las
observaciones a su izquierda y la otra mitad a su derecha. Es decir, el 50% de los
datos son menores o iguales que la mediana, y el otro 50% mayores o iguales a ésta.
Para su cálculo, y suponiendo que los valores están ordenados, se procede de la
siguiente manera: si hay un número impar de datos, la mediana es el elemento que
se encuentra en el centro, es decir . Si el número de datos fuera par habría dos
elementos centrales, y la mediana se obtendría como la media de ambos, es decir:
.
2
Ejemplo 4-11 Sea la variable que toma los valores 1,2,3,4,5 (hay 5
datos). La mediana es 3 (deja 2 valores a la izquierda y 2
a la derecha).Si toma los valores 1,2,2,3,4,5, ahora hay un número par de
valores. En el medio tenemos los valores 2y 3. La mediana
es 2 3 /2 2.5.
Solución.
Primero ordenamos los valores: 2,3,5,7,7,8,11,14,16,19. Como 10 es un
número par, la mediana será
7 8
7.5.
2 2 2
Nota 4-4 Como todo en esta vida, conviene saber cómo se hacen las cosas,
pero también está claro que si alguien nos las hace, mucho mejor. Si tenemos pocos
datos, los cálculos son sencillos, pero se complican si hay muchos datos. Con
cualquier programa de ordenador o página web no habrá más que dar la orden
adecuada, con lo que tenemos que preocuparnos mucho más de saber el significado
P á g i n a | 37
Comparación entre la media aritmética y la mediana.
La mediana se llama así porque está “en el medio”, mientras la media
aritmética es el “valor medio”. Cuando un padre con tres hijas habla de ellas, se
refiere a la mayor, la mediana y la pequeña. Si sus edades son, por ejemplo, 18, 15 y
3, obviamente la del medio no tiene como edad la media aritmética de las edades. Y
esta hija siempre será la mediana, aunque pase el tiempo y los valores de sus edades
vayan cambiando.
La media aritmética supone una medida central de la variable que tiene en
cuenta los valores de la misma. La mediana, en cambio, tiene en cuenta el número
de datos. En el ejemplo que vimos antes, cuando 1,4,12,100 frente a
1,4,12, la media pasó de ser 5.66 a ser 29.25. La mediana, en cambio, si 1,4,12,
será 4 y si 1,4,12,100 será 4 12 /2 8. Como vemos, la
mediana es una medida “más robusta” (se ve poco afectada) frente a valores
extremos de la variable.
Si en vez del dato 100 lo cambiamos a 10000, la media es 2504.25 y la
mediana sigue siendo 8.
38 | P á g i n a
Ejemplo 4-13 Supongamos que sean las calificaciones de un alumno en 4
exámenes 0,6,6,6.
La media aritmética es ̅ 4.5 (suspenso), frente a la mediana que sería
6 (bien).
A la hora de hablar, por ejemplo, del sueldo promedio o renta “media” de un
país, resulta evidente que debería indicarse la medida que se utiliza. Así, un sueldo
medio dado por la mediana sería aquel tal que el 50 por ciento de la población tendría
sueldo más bajo que la mediana, y el otro 50 por ciento más alto que la mediana. En
cambio, el sueldo “media aritmética” es el valor correspondiente a sumar todos los
sueldos y dividir por el número de personas. Si existe poca gente con sueldos muy
altos, el sueldo media aritmética puede ser alto, pero no será representativo del
conjunto total de la población.
4.6.3 La moda
La moda (absoluta) de una distribución es el valor que más veces se repite (el
valor con mayor frecuencia o más frecuente). Además de la moda absoluta, aquellos
valores que tengan frecuencia mayor a la de los valores adyacentes serán modas
relativas. Por ejemplo, si tenemos la variable que toma los valores
2,3,3,4,6,7,7,7,10, la moda absoluta es 7, puesto que es el valor que se repite más
veces. Además, el valor 3 es una moda relativa, puesto que su frecuencia es 2,
superior a la de los valores 2 y 4, ambas iguales a 1.
P á g i n a | 39
Si las observaciones vienen agrupadas en intervalos, se hablará de intervalo
modal (absoluto) e intervalos modales relativos. El intervalo modal es aquel que tiene
mayor frecuencia (absoluta o relativa), o sea el más alto en el histograma.
Figura 4‐8: Histograma de la variable que mide el nivel de colesterol en 100 personas.
Ejemplo 4-14 Si consideramos la distribución de sueldos en una
multinacional, es casi seguro que el sueldo más alto será el del presidente,
pero no sería el sueldo modal. El sueldo modal seguramente sería el más bajo
(el de los curritos que menos ganan, que seguro son mayoría).
4.6.4 Cuantiles
Se llama cuantil de orden 0 100 a aquel valor que divide a la
variable en dos partes, dejando a su izquierda (o inferiores a él) el por ciento de los
datos (a su derecha el 100 por ciento). Por ejemplo, si 50, el cuantil de orden
50 corresponde a la mediana.
Para calcularlo, haremos lo siguiente:
Calculamos cuál es el % de los datos ⋅ .
40 | P á g i n a
Si el valor es un número no entero, el cuantil de orden será (donde
representa la parte entera de , es decir quitamos los decimales).
Si el valor es un número entero, el cuantil se elige /2 (y todos
tranquilos, que estas cuentas nos la hace el ordenador).
De entre los cuantiles destacan los cuartiles, los deciles y los percentiles.
Los cuartiles dividen a la distribución en cuatro partes iguales, los deciles en
diez y los percentiles en cien. Habrá, por tanto, tres cuartiles , , , nueve
deciles , ,⋯, y noventa y nueve percentiles , ,⋯, . El segundo
cuartil, el quinto decil y el quincuagésimo percentil coinciden con la mediana.
Muchos textos llaman cuantiles y percentiles a los mismos valores.
Realmente, un cuantil permite que el valor sea un número no entero (puede ser
1.45 por ejemplo). Como no suele interesar calcular cuantiles con valores de no
enteros, en la práctica viene a ser lo mismo.
Con la Figura 4‐9 y la Figura 4‐10 comprobamos que, como siempre, una
imagen vale más que mil palabras.
Figura 4‐9
P á g i n a | 41
Figura 4‐10
Solución.
Primero ordenamos los valores: 2,3,5,7,7,8,11,14,16,19. El percentil de orden
23 corresponde a ⋅ 10 2.3, luego
5.
El segundo decil corresponde a ⋅ 10 2, luego
3 5
4.
2 2
Podemos comprobar que éste método de cálculo coincide con lo utilizado
anteriormente para la mediana. Si 50, calculamos ⋅ ⋅ 10 5, con lo
que la mediana será
7 8
7.5.
2 2
42 | P á g i n a
Ejemplo 4-16 Con los datos del Ejemplo 4-5 calcular el valor tal que el 10 por
ciento de los asesores tienen un cociente intelectual menor o igual al mismo.
Calcular también el cociente intelectual medio, en el sentido de que haya
tantos asesores con cociente mayor como menor a él.
Solución.
Con el programa R, calculamos el primer decil, que es el valor 62.89, y la
mediana, que es 67.65. El histograma con los valores señalados aparece a
continuación. Los asesores con cociente intelectual menor o igual a 62.89 serían el
diez por ciento de los “más burros”, por decirlo de alguna manera (dentro del grupo
total). Los que tienen cociente mayor que 67.65 serían el 50 por ciento de los “más
listos”.
Nota 4-5 Según vimos en el Ejemplo 4-15, el segundo decil no era un valor
de la variable, sino que se toma “por convenio” el valor medio entre los valores
y . En vez de elegir este valor podría haberse acordado tomar otro, a lo mejor más
cercano al primero. Ahora mismo, en el Ejemplo 4-16, calculamos con R el primer
P á g i n a | 43
decil y nos da 62.89, que es diferente del que nosotros calcularíamos a mano
(nosotros tomaríamos el primer decil como el punto medio entre y .
Hace algunas semanas fui a ver al cine “Bajo un mismo techo” (aquí en España
se llamó “Como la vida misma”; nota del autor), una peli que cuenta la historia de
dos solteros que tienen que hacerse cargo de una nena de un año, hija de una pareja
de amigos que mueren en un accidente. Una comedia dramática con muchos guiños
para los padres recientes. Los que no son padres o ya se olvidaron lo que implicaba
44 | P á g i n a
quizá no se rían tanto, pero para el resto la recomiendo. Un chiste tonto sobre los
percentiles, por ejemplo, me pareció super gracioso. Al lado mío, dos chicas no madres
se miraron sin entender. Con toda lógica. El percentil es como la FUM, palabras y
siglas que vienen con la maternidad. Una vez que quedás embarazada, la Fecha de tu
Última Menstruación (FUM) pasa a ser un hito en tu vida porque ante cualquier
consulta, ecografía o práctica te la piden. Y los percentiles vienen despacito, aparecen
primero en los informes de las ecografías y después, ! zas!, resultan ser parte
indispensable de la visita al pediatra.
Esas benditas tablas que existen para, supuestamente, contarte si tu bebé
crece a un ritmo normal. Lo de “normal” es totalmente debatible. ¿Acaso si tu hijo es
un flacucho al que se le caen todos los pantalones que le comprás no es normal? ¿Es
definitivamente anormal que un bebote tenga peso de más y se acumule en mejillas
que todos quieren pellizcar?
El peso siempre es un tema, tenga la edad que se tenga. Y si se es mujer, un
poco peor. En el caso de los chicos, cada visita al pediatra se mide peso y altura. Esos
dos índices te ubican al bebés en tablas y ahí te enterás de si tu bebé es percentil 90
ó 25, por ejemplo. Si es 25 en peso, implica que de 100 chicos de su misma edad 75
son más gordos. Si es 60 en altura, implica que sólo 40 son más altos. No están mal
los percentiles, son muy útiles, por ejemplo, cuando se combate tanto la desnutrición
como la obesidad. Pero fuera de esos extremos, ¿sirven realmente para algo? Es que
terminás escuchando ridículas conversaciones entre madres competitivas. “Mi beba
está en el percentil 30 del peso”, le dice una a la otra, como si su chiquita de tres meses
estuviera lista para la pasarela por el número que le dio el pediatra. “Ah, pero el mío
viene en el 85 de altura”. Sí, sí, todo un Ginóbili, seguro. Pero lo peor no son quizá las
que usan los percentiles para alabar a sus hijos (después de todo, cualquier excusa es
buena para hablar bien de tus retoños una vez que te convertís en madre). Lo peor,
creo, son las que se obsesionan. Las que acortan las visitas al médico simplemente
para confirmar que el nene está en tal o cual puntito. Me da ganas de contarles que
yo era 90 en altura durante mi infancia, sí, última de la fila hasta cuarto grado y que
luego el destino revirtió la tendencia: ahora sólo llego al 90 si me subo a tremendos
tacos. Y adivinen qué: soy feliz igual.
P á g i n a | 45
Para las chusmas, que quieran saber más (pero please, no se obsesionen!) les
paso un link a un sitio de bebés que tiene tablas de crecimiento del nacimiento al año.
4.7 MEDIDAS DE DISPERSIÓN
Las medidas de tendencia central reducen la información de una muestra a
un único valor, pero, en algunos casos, este valor estará más próximo a la realidad de
las observaciones que en otros. Por ejemplo, consideremos la variable 0,50,100
y la variable 49,50. Enseguida podemos ver que las medias aritméticas de ambas
variables son iguales 50 , pero también que la variable está más dispersa (o menos
concentrada) que la variable , de manera que la representatividad de es mayor
que la de ̅ .
A continuación se estudian una serie de medidas que, por una parte, indicarán
el nivel de concentración de los datos que se están analizando y, por otra, informarán
sobre la bondad de los promedios calculados como representativos del conjunto de
datos.
4.7.1 La varianza y desviación típica
La varianza y su raíz cuadrada positiva, la desviación típica, son las medidas
de dispersión más importantes, estando íntimamente ligadas a la media como
medida de representación de ésta. La varianza viene dada por la expresión:
̅ ̅ ... ̅ 1
̅ .
El motivo de utilizar esta fórmula es que es la media aritmética de la variable
cuyos valores son ̅ . Es decir, estamos considerando las distancias entre los
datos y la media aritmética, y las promediamos (fijémonos en la Figura 4‐11).
Si las distancias entre los datos y la media, en general, son grandes, la media
de estas distancias también lo será. Si las distancias entre los datos y la media, en
general, son pequeñas, la media de las distancias también lo será. Ahora bien, las
distancias ̅ las elevamos al cuadrado para evitar que se compensen las
46 | P á g i n a
distancias positivas y negativas (según que los datos estén a la izquierda de la
media o a la derecha). Realmente, puede demostrarse que, si no lo hacemos, y
considerásemos el promedio ∑ ̅ , siempre se obtiene el valor cero.
Figura 4‐11
Debido a que la varianza viene expresada en las unidades de la variable, pero
elevadas al cuadrado, se define la desviación típica como la raiz cuadrada con signo
positivo de la varianza √ . La desviación típica ya aparece expresada en las
mismas unidades que la variable.
4.7.2 División por n‐1
En muchos programas estadísticos (como el R o el SPSS) la varianza se calcula
dividiendo por 1 en vez de por .
1
̅ .
1
El motivo es de tipo teórico, puesto que si los datos son observaciones de una
variable aleatoria (a definir en capítulos posteriores), este último valor representa
mejor a la varianza teórica de la variable (no os preocupéis por entender este detalle
en este preciso momento). En cualquier caso, si es un número relativamente
grande, los valores que se obtienen diviendo entre o 1 son prácticamente
iguales. También, en muchas ocasiones, al valor √ (donde se divide por
1 se le llama desviación estándar.
P á g i n a | 47
En las calculadoras que hacen cálculos estadísticos suele existir un botón con
el símbolo (o algo parecido), y otro botón con el símbolo 1 , indicando
que el primero calcula la varianza dividiendo por , y el segundo dividiendo por
1. La propia calculadora de Windows los tiene.
Nota 4-6 Tanto la varianza como la desviación típica son siempre positivas, y
valen cero sólo en el caso de que todos los valores coincidan con la media
(representatividad absoluta de la media).
1666.67 ⇒ 40.82.
1 2500 ⇒ 50.
1⇒ 1.
1 2⇒ 1.4142.
Como vemos, las medias aritméticas de las variables coinciden, pero la
representatividad de la media es más alta en el caso de la variable , porque
los valores están mucho más próximos entre sí (y más próximos a la media),
que en el caso de la variable . El hecho de dividir por o por 1 tiene poca
importancia cuando se trata de comparar la dispersión de 2 variables, puesto
que el valor realmente no nos importa, sino que la dispersión de una variable
sea mayor o menor que la otra.
Características de la varianza.
1. Si se le suma una constante a una variable, la varianza de la nueva
variable no cambia (porque la distancia de los datos a la media sigue siendo la
misma:
̅ ̅ .
48 | P á g i n a
2. Si se multiplica una variable por una constante, la varianza de la nueva
variable es igual a la de la antigua multiplicada por la constante al cuadrado (al
multiplicar los datos, multiplicamos la dispersión. Pensemos por ejemplo en
X=10,20,30, e Y=2X=20,40,60. Hemos multiplicado por 2 la distancia entre los datos).
Estas dos propiedades pueden resumirse en la siguiente expresión:
Y aX b ⇒ S a S ⇒ S aS .
4.7.3 Otras medidas de dispersión.
Recorrido, Amplitud o Rango.
P á g i n a | 49
Se define como la diferencia entre el mayor y el menor de los valores. Tiene
la ventaja de que es fácil de calcular, aunque cuando hay valores aislados en las
puntas o extremos de la distribución, da una visión distorsionada de la dispersión de
ésta.
Recorrido .
Recorrido intercuartílico.
Viene dado por:
.
( , son el tercer y primer cuartil, respectivamente. Es una medida
adecuada para el caso en que se desee que determinadas observaciones extremas no
intervengan. Como inconveniente principal, pues que sólo intervienen el 50% de los
valores centrales.
Las expresiones que se acaban de ver miden la dispersión de la distribución
en términos absolutos (vienen expresadas en las unidades de la variable, sean kilos,
euros, metros cúbicos...). Se precisa definir, a partir de ellas, otras que hagan posible
la comparación entre diferentes variables y que tengan en cuenta el tamaño de las
observaciones.
Obsérvese que la variable formada por los elementos 0.1,0.2,0.3,0.4,0.5
y la variable 1000.1,1000.2,1000.3,1000.4,1000.5 tienen la misma varianza
(no necesitamos calcularlas: fijémonos que la segunda variable es una constante
más la primera: 1000 ). Sin embargo, es evidente que, en el primero de los
casos, los elementos están muy dispersos y, en el segundo, bastante concentrados.
Para evitar estas situaciones se estudia la siguiente medida.
Coeficiente de variación.
Se define como el cociente entre la desviación típica y el valor absoluto de la
media.
.
| ̅|
50 | P á g i n a
Se suele llamar, en ocasiones, coeficiente de variación de Pearson, por el
matemático inglés Karl Pearson (1857 – 1936). Se trata de una medida adimensional
(no tiene unidades), y permite comparar la dispersión de varias distribuciones. A
mayor valor de , menor representatividad de ̅ , y viceversa.
Nota: Si ̅ 0, no se puede calcular.
En general, se suele convenir en que valores de menores a 0.1 indican una
alta concentración, entre 0.1 y 0.5 una concentración media, y valores superiores a
0.5 una alta dispersión y una media poco o nada representativa.
En el ejemplo comentado (donde =0.1,0.2,0.3,0.4,0.5 e
1000.1,1000.2,1000.3,1000.4,1000.5 , tendríamos 0.14, pero
0.14 0.14
0.46 y 0.00013.
0.3 1000.3
P á g i n a | 51
que, al igual que la anterior, es una medida adimensional, con las ventajas e
inconvenientes mencionados para el recorrido intercuartílico.
En la Figura 4‐12 tenemos un resumen de las características de una
distribución atendiendo a la dispersión de la misma.
4.7.1 Desigualdad de Tchebychev
Esta desigualdad, formulada por el matemático ruso Pafnuti Lvóvich
Chebyshov (1821 ‐ 1894) (y cuyo apellido se ha escrito de todas las maneras
imaginables excepto Chebyshov: aparece como Tchebychev, Tchebycheff,
Schebyshev, y todas las variaciones que se nos ocurran) relaciona a la media y a la
varianza y tiene la expresión:
52 | P á g i n a
Figura 4‐12
1
| ̅| 1 , 1.
(que quiere decir que la frecuencia relativa del número de datos que están alrededor
de la media veces la desviación típica es siempre mayor o igual que la cantidad 1
. Esta desigualdad es una justificación teórica del caracter de medida de
dispersión de la desviación típica o . Veamos, supongamos 3 valores concretos del
número (que tiene que ser mayor que 1), calculemos el valor de la derecha de la
desigualdad, y pongamos lo que significa lo que está a la izquierda:
1
2 1 0.75
1
3 1 0.88
1
4 1 0.9375
P á g i n a | 53
2 | ̅| 2 0.75.
3 | ̅| 3 0.88.
4 | ̅| 4 0.9375.
Tengamos presente que los datos | ̅ | a son los datos que
están en el intervalo de centro ̅ y radio a , es decir ̅ a , ̅ a . Así, en un
intervalo de centro la media y radio 2 veces la desviación típica 2 se
encuentran, al menos, el 75 por ciento de los datos.
En un intervalo de centro la media y radio 3 veces la desviación típica 3
se encuentran, al menos, el 88 por ciento de los datos.
En un intervalo de centro la media y radio 4 veces la desviación típica 4
se encuentran, al menos, el 93.75 por ciento de los datos.
Lo que vemos es que cualquier variable tiene que tener una agrupación de sus
datos alrededor de la media conforme a esta desigualdad; es decir, los datos no
pueden “hacer lo que les dé la gana”, han de estar concentrados alrededor de la
media según estos porcentajes, que están relacionados con la desviación típica.
En la siguiente imagen vemos un histograma con los valores ̅ y ̅ 2
marcados en el eje X.
54 | P á g i n a
Ejemplo 4-21 Dada una distribución con media ̅ 25 y desviación típica
4, el intervalo ̅ 3 , ̅ 3 13,37 garantiza la presencia en su interior
de, al menos, el 88.88% de los datos.
Ejemplo 4-22 Un colegio lleva a una clase de la ESO al médico, para realizar
unos análisis de salud. El médico toma nota, entre otras variables, del peso
de los 50 chavales de la clase. El peso medio que obtiene es 45, y la
desviación típica es 6. Todos los chavales han ido con alguno de sus padres
excepto Marianito que ha ido con su abuela Antonia. La abuela, al ver que su
nieto pesa 1 kg menos que la media, le dice al médico que por qué no le receta
algunas vitaminitas que le den ganas de comer. El médico le dice a la abuela:
“Señora, el niño no está delgado, y mejor que haga ejercicio, que va sobrado
para su edad”. ¿Por qué es el médico así de grosero?
Solución.
Al ser ̅ 45 y 6, en el intervalo ̅ 3 , ̅ 3 45 18,45
18 = 27,63 están el 88.88 por ciento de los datos. Quiere esto decir que, sólo
pesando un kilo menos que la media, el nieto de la señora Antonia esta con casi el 90
por ciento del resto. Como parece lógico, la señora tiene el mal de las abuelas, que
pasaron hambre en la posguerra, y les parece que todo el mundo come poco.
4.8 MEDIDAS DE FORMA
Ahora nos fijaremos en la “forma” de la distribución. En primer lugar se
examina la simetría y, a continuación, el apuntamiento.
4.8.1 Simetría
Diremos que una distribución es simétrica respecto a un parámetro cuando
los valores de la variable equidistantes de dicho parámetro tienen la misma
P á g i n a | 55
frecuencia. La simetría suele referirse a la simetría respecto de la media aritmética, o
respecto de la mediana.
Una distribución o variable es simétrica si, gráficamente, levantamos un eje o
línea vertical sobre la media (o mediana, según el caso) y el dibujo a ambos lados de
dicho eje es idéntico. La mayor parte de las veces, aunque no se indique, la simetría
se refiere a simetría respecto a la media.
Si una distribución no es simétrica, entonces es asimétrica, y la asimetría
puede presentarse:
‐ a la derecha (asimetría positiva: cola de la distribución más larga a la
derecha)
‐ a la izquierda (asimetría negativa: cola de la distribución más larga a la
izquierda).
Los coeficientes de simetría son valores numéricos que indican si la
distribución es simétrica y, caso de no serlo, la tendencia o signo de su asimetría. Uno
de los coeficientes de simetría más utilizados es el llamado primer coeficiente de
Fisher:
,
siendo
1
̅
(media de las desviaciones a la media elevadas al cubo),
56 | P á g i n a
y la desviación típica. Como vemos, es una medida adimensional (tanto en el
numerador como en el denominador las unidades de la variable aparecen elevadas
al cubo, por lo que al efectuar la división no hay unidades), y esto nos permite
comparar simetrías de distintas variables. Si una distribución es simétrica, 0. Si
0 entonces la distribución es asimétrica negativa, y si 0 entonces es
asimétrica positiva.
Cuando la distribución es simétrica, coinciden la media y la mediana. Si,
además, la distribución tiene forma de campana5, ambas son iguales a la moda.
Figura 4‐13
5
Nos referimos a la campana de Gauss, de la que hablaremos en un momento.
P á g i n a | 57
Si ahora, de esa muestra, nos quedamos con los valores que sean más grandes
(mayores que 90 kilos; llamémosles “los gordos”) obtenemos una distribución
asimétrica a la derecha y, si nos quedamos con los valores de la gente “delgada”
(elegimos los valores menores que 55), obtenemos una distribución asimétrica a la
izquierda (imágenes superior e inferior de la Figura 4‐14).
Figura 4‐14
58 | P á g i n a
Nota 4-7 Al igual que ocurría con la varianza, por mótivos técnicos, la
fórmula del coeficiente de asimetría puede variar, dependiendo del programa
estadístico que se utilice. Conviene siempre mirar el manual para tener clara la
fórmula. En todo caso, los valores deben ser parecidos, y lo más importante es el
signo (positivo para asimetría a la derecha y negativo al contrario), que no debe
depender del programa utilizado
Ejemplo 4-24 Con los datos del Ejemplo 4-5 vamos a realizar un estudio de
la simetría. El histograma con la media resaltada es el que aparece a
continuación.
Gráficamente, está claro que la variable no es simétrica, pero la asimetría no
es grande. El valor del coeficiente es 0.08 (lo hemos calculado en R, cargando
antes el paquete fBasics, y después con la instrucción skewness(x)).
P á g i n a | 59
4.8.2 Curtosis
Las medidas de curtosis tratan de estudiar la distribución de frecuencias en la
zona central de la distribución. La mayor o menor concentración de frecuencias
alrededor de la media dará lugar a una distribución más o menos apuntada. El grado
de apuntamiento de una distribución (que sólo se examina en distribuciones
simétricas o ligeramente asimétricas, y con un dibujo “parecido” al de una campana)
se calcula a través del coeficiente de apuntamiento o de curtosis, para lo cual se
compara con la distribución Normal, que se tratará en otro capítulo. Se puede
adelantar, no obstante, que la distribución Normal tiene forma de campana (la
llamada “Campana de Gauss”) y que su estructura “probabilística” viene dada por la
función
1 ̅ (4‐2)
√2
siendo
1
̅ .
Como vemos, el coeficiente es adimensional, con lo cual sirve para
comparar la curtosis de diferentes variables. Cuando dicho coeficiente vale 0,
coincide con el de la 0,1 , y se dice que la distribución es mesocúrtica (o que la
variable tiene el mismo apuntamiento que la normal). Si es menor que 0, la
distribución o variable correspondiente se dice que es platicúrtica (la variable es
menos apuntada que la normal); y, si es mayor que 0, leptocúrtica (la variable es más
apuntada que la normal). Las diferentes posibilidades aparecen reflejadas en el
siguiente gráfico.
Básicamente, el cálculo de la curtosis de una variable se utiliza para establecer
una comparación con la variable normal que tenga la misma media y desviación
típica. El objetivo es analizar si podemos considerar que la variable en estudio es
P á g i n a | 61
“aproximadamente normal”. En el capítulo de variables aleatorias se ampliará la
información sobre las variables normales. Para un curso introductorio de estadística,
como es nuestro caso, el tema de la curtosis tiene poca importancia. Repetimos que
la curtosis sólo tiene interés medirla en distribuciones simétricas o ligeramente
asimétricas, que “puedan parecerse” a la curva Normal o de Gauss. En la práctica,
podemos encontrarnos con distribuciones cuyo histograma sea muy irregular y que,
visualmente, sea de imposible comparación con dicha curva. En estos casos, el
coeficiente de curtosis puede calcularse, pero no tendría interés práctico alguno.
Nota 4-8 De nuevo es necesario indicar que la fórmula exacta del coeficiente
de curtosis puede variar según el programa utilizado, y puede ser alguna variación
del coeficiente aquí definido, por motivos puramente teóricos. Igual que ocurría con
el caso de la simetría, más que el valor nos interesa el signo.
Ejemplo 4-25 Con los datos del Ejemplo 4-5 realizar un estudio de la curtosis.
Gráficamente, intuimos que la forma es platicúrtica, mirando al histograma
de frecuencias superpuesto con la curva normal. Calculando el coeficiente de curtosis
con R (hay que cargar el paquete fBasics y utilizar la instrucción kurtosis(x)) se
obtiene ‐1.12.
62 | P á g i n a
4.9 TRANSFORMACIONES
En ocasiones, la variable en estudio puede presentar muchas irregularidades,
como asimetría acentuada, valores muy extremos, etc. En otras ocasiones, se
necesita comparar la posición de dos valores pertenecientes a variables con
características muy diferentes. En estos casos es recomendable efectuar una
transformación que haga más regular la distribución y, por tanto, con mejores
condiciones para su estudio. Tiene particular importancia la tipificación de una
variable.
4.9.1 Normalización o tipificación
Dada una variable con media ̅ y desviación típica , la tipificación consiste
en realizar la siguiente transformación:
̅
.
P á g i n a | 63
A la nueva variable se le llama variable normalizada o tipificada, y tiene
media 0 y desviación típica 1. Desde un punto de vista geométrico, la media y la
desviación típica de una variable pueden considerarse como el centro de gravedad
de la distribución y su escala, respectivamente. De esta forma, al tipificar distintas
variables, las centramos en el mismo punto y las dotamos de la misma escala.
Además, los valores tipificados se convierten en datos adimensionales. Por todo lo
anterior, la tipificación tiene la propiedad de hacer comparables valores individuales
que pertenecen a distintas distribuciones, aún en el caso de que éstas vinieran
expresadas en diferentes unidades.
4.10 ANÁLISIS EXPLORATORIO DE DATOS
El análisis exploratorio de datos está formado por un conjunto de técnicas
estadísticas, fundamentalmente gráficas, que pretenden dar una visión simple e
intuitiva de las principales características de la distribución en estudio. Puede ser un
fin por sí mismo o, generalmente, una primera etapa de un estudio más completo.
Como aspectos más destacables que abarca están los que se refieren a la forma de la
distribución y a la detección de valores anómalos (datos extraños comparados con el
conjunto). Evidentemente, las técnicas de representación gráfica que hemos visto
constituyen parte del análisis exploratorio de datos.
4.10.1 Diagrama de tallo y hojas
El diagrama de tallo y hojas (Stem & Leaf) es una representación semigráfica
donde se muestra el rango y distribución de los datos, la simetría y si hay candidatos
a valores atípicos (valores muy extremos o incluso errores). Su uso sólo es
recomendable siempre que el número de datos no sea muy grande (sobre 50). Para
construirlo basta separar en cada dato el último(s) dígito(s) de la derecha (que
constituye la hoja) del bloque de cifras restantes (que formará el tallo).
Este tipo de diagrama se popularizó en los años 80 a partir de la publicación
del libro “Exploratory data analysis” del estadístico John Tukey (1915 ‐ 2000), por su
facilidad para hacerse a mano, o rápidamente con las computadoras de aquella
época. Actualmente, dada la capacidad gráfica de los ordenadores, se utiliza poco.
Como curiosidad, en la siguiente fotografía podemos ver un diagrama de este
tipo en una estación de tren japonesa (fuente: Wikipedia). En el diagrama de tallo y
hojas se representan los dígitos de la hora a la izquierda (la columna en negro) y a la
derecha los minutos. La mayor o menor frecuencia de paradas se deduce fácilmente
de la longitud de las filas y es, además, muy fácil ver en qué minutos de cada hora
paran los autobuses, y hacer comparaciones.
66 | P á g i n a
4.10.2 Diagrama de caja (box‐plot)
Los diagramas de caja (box‐plot) o diagramas de caja y bigotes (box‐whisker)
son representaciones gráficas sencillas que no necesitan un número elevado de
valores para su construcción. Se utilizan para estudiar tanto la dispersión como la
forma de una variable. Asimismo, son especialmente útiles para comparar distintas
distribuciones entre sí.
Como dice su nombre, constan de una caja, donde la misma representa el
50% central de la distribución (va de o primer cuartil a o tercer cuartil), y la
línea situada en el interior de la caja es la mediana (Figura 4‐15).
Los extremos inferiores y superiores de los segmentos (también llamados
bigotes) delimitan lo que se denomina como valores “normales”, y coinciden,
respectivamente, con el mínimo y el máximo de los valores una vez excluidos los
candidatos a valores anómalos. Los candidatos a valores anómalos se etiquetan como
atípicos y coinciden con aquellas observaciones que se encuentran fuera del intervalo
, , donde:
1.5
1.5 ,
es decir, a una distancia de , por la izquierda, o de , por la derecha, superior a
una vez y media el recorrido intercuartílico ( . En este caso se llaman
atípicos de primer nivel. Cuando la distancia, por uno de los dos lados, es superior a
tres recorridos intercuartílicos, el valor atípico se denomina de segundo nivel, o dato
extremo.
Los valores atípicos de primer y segundo nivel quedan normalmente
identificados en el diagrama de cajas por símbolos diferenciados ( , , ⋅), debiendo
considerarse la revisión de los mismos (pueden corresponder a mediciones mal
efectuadas) para posible depuración antes del análisis de los datos. El resumen de las
características observables en un diagrama de caja aparece en la Figura 4‐15.
P á g i n a | 67
Figura 4‐15
Dato anómalo: hay que revisar si se ha introducido por error, se ha observado
mal, lo han hecho a propósito, etc.
68 | P á g i n a
Ejemplo 4-29 Con los datos del Ejemplo 4-5 vamos a realizar un diagrama de
caja y bigotes (boxplot), que vemos a continuación. En el gráfico podemos ver
que existe una muy ligera asimetría a la izquierda (la cola es más larga a la
izquierda), algo que comprobamos anteriormente. Entre los valores 65 y 70 se
encuentra el 50 por ciento central de la distribución. No hay valores atípicos
en este caso concreto.
Ejemplo 4-30 En la siguienta tabla se han recogido las edades que tenían los
actores y actrices que ganaron el Oscar a la mejor interpretación, en todos los
años de existencia de dichos premios (1929-2013). En la tabla aparece, por
orden cronólogico, la edad que tenía la actriz (actor) que ganó el Oscar en la
primera celebración de los premios, y sucesivamente hasta la actualidad (los
datos se encuentran en el fichero edades-oscar.csv).
Actrices: 22 37 28 63 32 26 31 27 27 28 30 26 29 24 38 25 29 41 30 35 35 33
29 38 54 24 25 46 41 28 40 39 29 27 31 38 29 25 35 60 43 35 34 34 27 37
42 41 36 32 41 33 31 74 33 50 38 61 21 41 26 80 42 29 33 35 45 49 39 34 26
25 33 35 35 28 30 29 61 32 33 45 28 62 22
Actores: 44 41 62 52 41 34 34 52 41 37 38 34 32 40 43 56 41 39 49 57 41
38 42 52 51 35 30 39 41 44 49 35 47 31 47 37 57 42 45 42 44 62 43 42 48
49 56 38 60 30 40 42 36 76 39 53 45 36 62 43 51 32 42 54 52 37 38 32 45
60 46 40 36 47 29 43 37 38 45 50 48 60 50 39 55
P á g i n a | 69
Solución.
Primero realizamos un box‐plot de las variables.
Comprobamos que el box‐plot es un instrumento gráfico muy efectivo para
comparar dos variables. La mediana de edad (la barra dentro de las cajas) es más alta
para los actores que para las actrices. Este hecho seguramente está amparado por la
queja mayoritaria entre las actrices de Hollywood, que señalan que escasean los
buenos papeles para actrices mayores de 40. En el gráfico vemos que los valores de
edad altos son atípicos para la variable de las actrices, mientras que sólo hay un dato
atípico en el caso de los hombres. En el box‐plot se visualiza también con gran claridad
la simetría o asimetría de una distribución, pues vemos que ambas son más largas
hacia la derecha que hacia la izquierda. En contrapartida, la mayor agrupación de
datos se da a la izquierda (la mayoría de los Oscar se consiguen a edades no
demasiado altas). El análisis puede complementarse por medio del histograma de
ambas variables, donde señalamos la media y la mediana que, como apreciamos, son
muy similares.
70 | P á g i n a
P á g i n a | 71
Pregunta de repaso:
72 | P á g i n a
P á g i n a | 73
5 ANÁLISIS CONJUNTO DE VARIABLES
Las estadísticas son como los bikinis. Te permiten ver mucho y te ocultan lo
más importante.
Aaron Levenstein.
En el capítulo anterior se ha considerado el estudio de un único carácter o
variable. Sin embargo, es frecuente estudiar conjuntamente varios caracteres y
preguntarse si existe o no algún tipo de relación entre ellos. Este capítulo se dedica
al estudio de la relación entre dos caracteres. Comenzamos con la organización y
resumen de la información, siguiendo un esquema análogo al establecido en el
capítulo anterior, y concluímos con el estudio de la relación entre ambos.
Habitualmente, cuando se tiene una muestra de una población, si es posible y no
resulta especialmente costoso, se observan varias variables y/o atributos (cuanta
más información se pueda obtener, siempre es mejor). En un análisis de sangre, se
miden varios niveles; si se elige una muestra de personas para una encuesta,
normalmente se le realizan varias preguntas, etc. A continuación, resulta lógico
cuestionarse sobre qué grado de relación o dependencia existe entre las variables
analizadas: ¿hay relación entre la estatura y el peso?, ¿y entre el nivel de renta y el
consumo (de drogas o no)?; ¿entre la estadística y las mentiras?, ¿la política y la
74 | P á g i n a
corrupción?, ¿la ruina y los impuestos?, ¿la pesadez de una película y el número de
premios en festivales europeos?...
5.1 DISTRIBUCIÓN CONJUNTA DE DOS CARACTERES
Cuando el investigador está interesado en el estudio de dos caracteres de una
población, se obtienen dos observaciones para cada individuo, que se recogen en
forma de pares de valores, y deben organizarse en función de la naturaleza de dichos
caracteres. A partir de ahora, trabajaremos con un par de variables , de interés,
medidas en individuos (si en algún caso nos referimos a atributos, supondremos
que le hemos asignado un valor numérico). En vez de disponer de valores,
tendremos pares de valores , ,..., , (que podrán repetirse o no). La
variable , es una variable estadística bidimensional. Si tuvieramos, en general,
variables, la variable conjunta se llamaría dimensional.
Izquierda: Tabla de doble entrada (útil sólo si hay pocos valores de x e y pero
que se repiten). Derecha: tabla habitual en los programas estadísticos, con una
variable por columna, con tantas filas como sea necesario.
5.2 REPRESENTACIONES GRÁFICAS
5.2.1 Representaciones 3D
Si ambas variables e son cuantitativas discretas, se puede realizar un
diagrama de barras en tres dimensiones. Si ambas variables e son cuantitativas
continuas, el histograma visto para una variable puede generalizarse para este caso,
y obtener una representación tridimensional. En ambos casos se levanta una barra
de altura la frecuencia (absoluta o relativa). Ahora, la barra, en vez de corresponder
a un valor concreto, será del par , (esto para el diagrama de barras). En el
caso del histograma 3d tendremos que la altura de la barra será proporcional al
número de datos del rectángulo cuyos lados son , , (en donde los
76 | P á g i n a
intervalos , corresponden a la clasificación de la variable en intervalos, y
los , a la clasificación de la variable . El sentido de las gráficas es tan simple
como en el caso unidimensional. Cuantos más datos hay en una cuadrícula, se levanta
un prisma rectangular más grande.
5.2.2 Diagrama de dispersión o nube de puntos
Si ambas variables e son numéricas, la representación de los pares ,
en un plano recibe el nombre de nube de puntos o, también, diagrama de dispersión.
Figura 5‐1
P á g i n a | 77
En la Figura 5‐1 dibujamos los valores correspondientes a las variables =“muertes
por cirrosis” frente a =“consumo de alcohol (per cápita)” del fichero datos-consumo-
alcohol.txt (fichero que contiene datos de varias poblaciones, consumo de vino y
licores, y muerte por cirrosis. Obtenido de los libros de Spaeth [13] y Brownlee [2]. Se
puede consultar más información en el fichero informacion-datos-consumo-
alcohol.txt).
El punto que viene determinado por la media de y la media de constituye
el centro de gravedad de la nube de puntos (Figura 5‐2). Como podemos observar en
el diagrama de dispersión, cuando la variable (consumo de alcohol) crece, parece
que también crece la variable (muerte por cirrosis). La verdad o no de tal relación
Figura 5‐2
78 | P á g i n a
es lo que pretendemos estudiar, así como la forma de medir matemáticamente la
misma.
5.2.3 Covarianza. Correlación lineal
La covarianza viene dada por la expresión
1
̅ .
es una medida simétrica (porque es igual a y se puede leer como la
suma de los productos de las desviaciones de por las desviaciones de con
respecto a sus respectivas medias. Si el signo de la desviación de coincide con la de
, como ocurre en el primer y tercer cuadrante (ver Figura 5‐2), se genera un
sumando positivo; y cuando el signo es distinto ‐segundo y cuarto cuadrante‐ la
aportación a la covarianza es negativa.
Veamos: por primer cuadrante entendemos los puntos , donde ̅
e . Por tercer cuadrante los puntos , donde ̅ e .
Por segundo cuadrante los puntos , donde ̅ e , y por cuarto
cuadrante los puntos , donde ̅ e .
Entonces, en el primer y tercer cuadrante ̅ siempre es un
número mayor o igual a cero, en cambio en el segundo y cuarto cuadrante,
̅ siempre es un número menor o igual a cero.
Por lo tanto, la concentración de valores en los distintos cuadrantes
determina el signo y el valor de . La covarianza mide, pues, la cantidad de relación
lineal entre las variables y el sentido de ésta, de la forma:
0, relación lineal positiva si crece una variable, la otra también .
0, relación lineal negativa si crece una variable, la otra decrece .
De la simple observación de la nube de puntos podemos deducir que existe
una relación lineal positiva entre las dos variables; esto es, si crece el consumo de
alcohol, crece el porcentaje de fallecimientos. También vemos que esa relación
P á g i n a | 79
5.2.4 Coeficiente de correlación de Pearson
El coeficiente de correlación lineal o coeficiente de correlación de Pearson
viene dado por
,
que es una medida adimensional, siempre toma valores en el intervalo , y
tiene el signo de Por lo tanto, se verifica:
Al cuadrado de se le llama coeficiente de determinación, y se le denota por
. Lógicamente, se verifica
0 1,
y, cuánto más próximo esté a 1, mayor es la relación lineal existente entre las
variables, y menor cuanto más próximo esté a 0.
Se concluye este apartado indicando que la independencia implica incorrelación,
pero el recíproco no siempre es cierto (ver el Ejemplo 5‐1).
P á g i n a | 81
82 | P á g i n a
5.3 AJUSTE Y REGRESIÓN BIDIMENSIONAL
Considerada una serie estadística , ,…, , , procedente de una
distribución , , el problema que se denomina ajuste de una nube de puntos o
regresión bidimensional consiste en encontrar alguna relación que exprese los
valores de una variable en función de los de la otra. La cuestión será elegir la mejor
función, y determinar los parámetros (fórmula) de la misma. Esta relación podrá ser
utilizada, posteriormente, para hacer predicciones aproximadas; por ejemplo, para
hacer previsiones de ventas a corto o medio plazo, estimar el volumen de cosecha en
función de la lluvia caída, etc...
La elección de la función particular que mejor se adapte a las variables es el
primer problema que habrá que solventar. En un principio, la observación de la nube
P á g i n a | 83
de puntos puede dar una idea de la evolución de los valores de la variable
dependiente (a partir de ahora ) en función de los de la independiente ( ).
5.3.1 Caso lineal
Sean , , , ,⋯, , los valores observados, y supongamos que
la nube de puntos nos indica que la función lineal (recta) puede ser una buena forma
de “ajustar los datos”. Sea la recta de ajuste de los valores de en
función de los de . Esta recta se llama recta de regresión, y sirve para “predecir”el
valor de para un valor nuevo de la variable .
Figura 5‐3
Consideremos otra vez el ejemplo de la sección anterior ( muertes por
cirrosis, consumo de alcohol). En la nube de puntos intuímos que la línea recta
podría ser un buen ajuste para los datos, y en la Figura 5‐3 vemos un ejemplo de tres
posibles rectas que se “acercan” a la nube de puntos (obviamente podríamos dibujar
muchas más).
84 | P á g i n a
Para calcular la “mejor recta”, se utiliza el método de los mínimos cuadrados.
Consiste en lo siguiente: para cada punto de la nube , se considera el llamado
residuo, que es la distancia entre dicho punto y su correspondiente en la recta, es
decir , , donde es el valor predicho por la ecuación de la recta (ver Figura
5‐4).
Figura 5‐4
Ahora se considera la función de dos variables que mide la suma de todos los
residuos para todos los puntos de la nube, elevados al cuadrado para evitar que se
compensen residuos positivos con negativos:
, .
Los parámetros y de la recta se obtendrán como aquellos valores que
minimizan la función . Matemáticamente, se consideran las derivadas parciales de
esta función respecto de los parámetros y y se igualan a cero, para obtener los
coeficientes de la recta. Formalmente, las fórmulas son:
̅ , .
Nota 5-3 Y de nuevo señalar que, salvo que algún malvado profesor lo solicite
expresamente, ni siquiera tenemos que saber que y se calculan con estas fórmulas,
puesto que cualquier software estadístico cutre salchichero, con pasarle los datos, nos
calcula la recta.
P á g i n a | 85
Figura 5‐5
86 | P á g i n a
Ejemplo 5-3 En la prestigiosa revista New England Journal of Medicine salió
publicado en 2012 un trabajo donde se estudió la relación existente entre la
obtención del premio nobel y el consumo de chocolate (Chocolate
Consumption, Cognitive Function, and Nobel Laureates. Franz H. Messerli,
M.D., N Engl J Med 2012; 367:1562-1564. October 18, 2012. DOI:
10.1056/NEJMon1211064).
Figura 5‐6
P á g i n a | 87
Recomendamos al lector leer el trabajo completo para conocer los países
evaluados y tomar una decisión propia sobre la validez o no de estas conclusiones.
5.3.2 Problemas con la predicción
La predicción usando una recta de regresión tiene claros problemas. Uno es
el de la extrapolación (salirnos de los límites del rango de valores analizado). Un
ejemplo clásico es el de los récords humanos. En la Figura 5‐7 aparece una gráfica de
los récords mundiales en la competición de los 100 metros lisos (tiempo realizado
frente al año de la carrera), junto con la recta de mínimos cuadrados (el valor que se
obtiene para es 0.94). El fichero de datos que puede bajarse de la web es record‐
100‐m.txt.
Como sabemos, la marca mundial de los 100 metros lisos ha ido disminuyendo
con el paso de los años. Si calculamos la recta de regresión que relacione =“año” e
=“tiempo récord para recorrer los 100 metros”, podríamos predecir cual sería el año
88 | P á g i n a
en que se llegaría a un tiempo de 0 segundos, o incluso un tiempo negativo. Es
evidente que este tipo de previsiones no tiene sentido, puesto que los valores
mínimos de para los años actuales parece muy difícil rebajarlos. En Internet pueden
encontrarse estudios de cuál es la función más adecuada para el ajuste de estas
variables, con el fin de obtener una posible predicción dentro de límites razonables.
Figura 5‐7
5.3.3 Otros ajustes
A través del dibujo de la nube de puntos podemos, en muchas ocasiones,
intuir que existirán mejores funciones que la línea recta (que es la más sencilla de
todas) para explicar la variable en función de la variable . El proceso de elegir la
mejor función no tiene por qué ser sencillo ni simple. Debemos tener también en
cuenta que quizá no haya una única variable influyendo en la variable , sino que
pueden existir diferentes variables explicativas , , . . . , que sean necesarias
para poder establecer predicciones de la variable de interés. Si se dispone de una
gráfica como la de la Figura 5‐8, la nube de puntos no da la idea de ajustar una recta
P á g i n a | 89
a la misma, sino una función más variable; un polinomio, tal vez, pero no es fácil de
intuir a simple vista.
Figura 5‐8
Ejemplo 5-4 Con el éxito creciente de la franquicia “A todo gas (Fast &
Furious)”, cantidades ingentes de idiotas se están lanzando a hacer carreras
de coches e imitar lo que ven en las películas, creyendo que son escenas
reales. Después del rodaje de la sexta película en las islas Canarias, un
fisioterapeuta local está comprobando que su negocio crece día a día. A través
90 | P á g i n a
de las variables =“número de accidentados por hacer gansadas, que acuden a su
clínica” e =“ganancias en euros”, se está planteando contratar personal nuevo,
puesto que las ganancias, lógicamente crecientes en función del número de
lesionados, parecen no sólo regirse por una relación de tipo lineal creciente,
sino incluso parabólica. Los datos que tiene en el ordenador, para cada una
de las variables antes mencionadas, son:
X 2 4 7 10 14 18 24 27 30 32 35 36 39 41 43 45 47 50
Y 612 2256 1665 2830 3386 8096 8173 10381 10982 12037 14001
14657 13517 15057 17210 15642 17881 18154
Comprobar si una relación de tipo parabólico entre las variables podría darle
un mejor nivel de predicción de ganancias que una relación simplemente
lineal.
Solución.
Puede verse en la Figura 5‐9 la nube de puntos, junto con la línea recta
ajustada por mínimos cuadrados, además de una parábola (
ajustada también mediante el mismo método. El coeficiente en ambos casos es
parecido (0.97 el lineal y 0.91 el parabólico), por lo que, en principio elegiríamos como
Figura 5‐9
P á g i n a | 91
más adecuado el ajuste lineal, pero quizá sería interesante disponer de más datos
para discriminar cuál podría ofrecer mejor ajuste y mejor predicción.
Primero dibujamos los histogramas de ambas variables.
Compárese la poca asimetría de la variable presupuesto con la asimetría a la
derecha de la variable recaudación, lo que significa que triunfan menos películas de
las que los productores desearían. En la siguiente gráfica aparece la nube de puntos
92 | P á g i n a
(señalamos las películas de mayor presupuesto y/o recaudación). Se ha calculado la
recta de regresión y también una parábola, que aparecen representadas en la gráfica,
y se recogen los valores de ajuste (0.15 y 0.21, respectivamente), siendo los dos
bajos, pero algo mejor el correspondiente a una parábola o polinomio de grado 2.
Solución.
P á g i n a | 93
Haciendo los cálculos, se obtiene que el coeficiente de determinación
0.85. Se deja como ejercicio para el lector dibujar la nube de puntos y ver que se
aprecia un buen ajuste por medio de una línea recta creciente, esto es, crece el
número de IPad, crece el número de enfermos.
Resulta claro que se trata de dos variables con números inventados a
propósito para que salga un valor alto de la correlación lineal. Evidentemente, puede
ocurrir que se calcule este coeficiente para cualesquiera dos variables elegidas al azar
y se obtenga un valor alto, pero quien haga un estudio debe preocuparse de
seleccionar variables que tenga sentido relacionar entre sí.
5.4 OTROS ASPECTOS A TENER EN CUENTA
94 | P á g i n a
Algunos ejemplos tomados de la literatura estadística (resumidos en la
wikipedia) dan idea de errores comunes y detalles que cualquier investigador debe
considerar siempre que relacione dos variables. Los siguientes son ejemplos de
conclusiones erróneas obtenidas de una mala interpretación de la correlación entre
dos variables.
‐ Dormir sin quitarse los zapatos tiene una alta correlación con despertarse
con dolor de cabeza. Por lo tanto, el dormir con los zapatos puestos ocasiona
levantarse con dolor de cabeza.
Este resultado mezcla los conceptos de correlación y causalidad, porque
concluye que dormir con los zapatos puestos provoca dolor de cabeza al levantarse.
Hay un tercer factor que no se ha tenido en cuenta, que es que irse borracho a la
cama provoca ambos efectos: no poder ni quitarse los zapatos y levantarse mareado.
‐ Los niños pequeños que duermen con la luz encendida son mucho más
propensos a desarrollar miopía en la edad adulta.
Esta fue la conclusión de un estudio de la Universidad de Pennsylvania,
publicado en 1999 en la revista Nature. Un estudio posterior de la Ohio State
University refutó esta teoría, y encontró una fuerte relación entre la miopía de los
padres y el desarrollo de la miopía infantil, advirtiendo que los padres miopes tenían
más probabilidades de dejar una luz encendida en el dormitorio de sus hijos. De
nuevo una tercera variable no tenida en cuenta (la miopia de los padres), causaba la
alta correlación entre las otras dos variables relacionadas.
‐ Cuando aumentan las ventas de helado, la tasa de muertes por ahogamiento
también aumenta. Por lo tanto, el consumo de helado provoca ahogamiento.
El helado se vende durante los meses de verano a un ritmo mucho mayor que
en épocas más frías, y es durante estos meses de verano que las personas son más
propensas a participar en actividades relacionadas con el agua, como la natación. El
mayor porcentaje de muertes por ahogamiento es causado por una mayor exposición
a las actividades acuáticas.
‐ Desde 1950, tanto el nivel de dióxido de carbono (CO2) en la atmósfera como
los niveles de obesidad han aumentado considerablemente. Por lo tanto, el CO2
atmosférico provoca la obesidad.
P á g i n a | 95
Obviamente, en las ciudades que han mejorado su nivel de vida a partir de los
años 50, se come más y se expulsa más CO2 a la atmósfera (coches, fábricas... ).
‐ Con una disminución en el uso de sombreros, ha habido un aumento en el
calentamiento global durante el mismo período. Por lo tanto, el calentamiento global
es causado por personas que abandonan la práctica de usar sombreros.
La explicación de este efecto sería muy parecida a la del ejemplo anterior.
P á g i n a | 97
6 PROBABILIDAD
Cuando las estadísticas nos dicen que la familia mexicana tiene un promedio
de cuatro hijos y medio, nos explicamos por qué siempre hay uno chaparrito.
Marco Antonio Almazán, mejicano.
Este es un tema en el que empezamos a olvidarnos de la realidad y tenemos
que empezar a trabajar en lo que adora cualquier matemático: el abstracto. La
ruptura con la realidad es brusca: nos olvidamos de los paquetes estadísticos, el
ordenador, etc., y trabajaremos con la mente (los que hayan hecho la ESO que se
preparen). A partir de ahora, vamos a considerar como herramienta de trabajo los
llamados experimentos aleatorios, que, como su nombre indica (y nos diría cualquier
ministro), son aleatorios; es decir, el resultado del mismo depende del azar (a veces
llamada suerte. Pero, cuidado, que hay buena y mala suerte).
6.1 ANTECEDENTES HISTÓRICOS
La teoría matemática del cálculo de probabilidades se desarrolla a partir del
siglo XVII, asociada a los juegos de azar. A fin de cuentas, la gran mayoría de los juegos
lleva aparejado un sistema de apuestas alrededor del mismo. ¿O no es más divertido
jugar con dinero que con garbanzos, o por el simple hecho de entretenerse? Por ello,
siempre resulta muy conveniente tener alguna idea de la probabilidad de ganar, o de
la probabilidad de que ocurra algún suceso favorable al jugador.
Los juegos de azar son casi tan antiguos como el ser humano. Sumerios y
Asirios utilizaban un hueso extraído del talón de animales como ovejas, ciervos o
98 | P á g i n a
caballos, denominado astrágalo o talus, que tallaban para que pudiese caer en cuatro
posiciones distintas. Este es considerado el precursor de los dados. Asimismo, en las
pirámides de Egipto se han encontrado pinturas que datan de la época de la primera
dinastía (3.500 a.C.) en las
que se muestran juegos de
azar.
Quien haya visto
alguna de romanos (Ben‐
hur, Espartaco... ) ya sabe
que eran muy aficionados
a los juegos de azar
(además de a barbaridades
como crucificar gente,
arrojar a los esclavos a las
fieras... ). El emperador Claudio (10 a.C. ‐ 54 d.C.) escribió un tratado sobre el juego
de los dados. Pese a tener unas cuantas taras físicas (por ejemplo cojera, tartamudez,
tics nerviosos o aerofagia), y ser señalado como tonto hasta por su madre, Claudio
accedió al trono de emperador de una manera más o menos fortuita, tras el asesinato
de su sobrino Calígula.
Como gobernante, fue muy querido por el pueblo y se reveló como un gran
político, gestor y estratega militar. Sin embargo, su éxito con las mujeres fue bastante
escaso (a pesar de casarse cuatro veces), y es merecedora de mención una de ellas,
la famosa Valeria Mesalina6.
6
Mesalina era ninfómana y adicta a encuentros extra‐matrimoniales, que su marido conocía y
consentía. Un día lanzó un reto al gremio de las prostitutas de Roma: ella organizaría en palacio, aprovechando
la ausencia de Claudio, una competición para ver quién podía atender a más hombres en una noche.
Las prostitutas aceptaron el reto y enviaron a la más famosa de Roma, una siciliana llamada
Escila. Aquella noche, después de haber sido poseída por 25 hombres, Escila se rindió y Mesalina
salió victoriosa, pues superó la cifra al llegar al amanecer y seguir compitiendo. Según se cuenta,
P á g i n a | 99
La historia de la probabilidad comienza realmente en el siglo XVII, cuando
Pierre Fermat (jurista y matemático; 1601 ‐ 1665) y Blaise Pascal (matemático, físico,
filósofo cristiano y escritor; 1623 ‐ 1662) tratan de resolver algunos problemas
relacionados con los juegos de azar. Resulta interesante destacar de uno de los libros
de este último, “la Apuesta de Pascal”, una discusión sobre la creencia en Dios,
basada en probabilidades: “Si Dios no existe, nada pierde uno en creer en él, mientras
que si existe, lo perderá todo por no creer”.
En aquella época vivió también Antoine Gombaud, escritor francés (1607 ‐
1684) que, a pesar de no pertenecer a la nobleza, adoptó el título de Chevalier
(Caballero) para asignárselo al personaje de sus diálogos que representaba sus
propias opiniones (el caballero de Méré). Su interés por conocer cuál era la apuesta
más favorable en los juegos de dados ocasionó una serie de cartas entre Blaise Pascal
y Pierre de Fermat que establecieron los fundamentos de la teoría moderna de la
probabilidad.
6.2 PROBABILIDAD
La probabilidad toma su forma actual a partir de los años 30 del siglo XX,
cuando Andrey Nicolaievich Kolmogorov (como está claro, era ruso; 1903 ‐ 1987)
establece con sus axiomas las bases matemáticas de la teoría de la probabilidad. Esta
aparece en su famosa monografía Grundbegriffe der Wahrscheinlichkeitsrechnung
llegó hasta 200. Cuando Mesalina pidió a Escila que regresara, ésta se retiró diciendo: «Esta infeliz
tiene las entrañas de acero».
Toda esta bonita historia puede leerse en la novela histórica “Claudio, el dios, y su esposa Mesalina”,
de Robert Graves, excelentemente desarrollada en la serie de la BBC “Yo, Claudio”. El personaje de Mesalina
también aparece en la película de 1954 “Demetrius y los gladiadores”, interpretada por la actriz Susan Hayward.
Esta película es la segunda parte de otra obra clásica: “La túnica sagrada”, y cuyo visionado recomendamos a
todo el que le guste el cine de romanos. En esta película, sin embargo, no puede adivinarse semejante
personalidad promiscua en el personaje.
100 | P á g i n a
(1933) (que corresponde a una publicación alemana, y por cuyo nombre se
comprende que, a pesar de su importancia, no se convirtiera en un best‐seller).
Para introducir la noción de probabilidad, hay que tener diferenciados dos
tipos de experimentos:
Experimento determinista. Es aquel que, al realizarse repetidas veces, en
idénticas condiciones, proporciona siempre el mismo resultado.
Ejemplos: una reacción química en condiciones prefijadas de antemano;
cualquier experimento físico que se realice en las mismas condiciones…
Experimento aleatorio (en el que interviene el azar). Es aquel que puede dar
lugar a diferentes resultados conocidos previamente, sin que sea posible predecir
cuál va a ocurrir en una realización particular del experimento. Verifica las siguientes
propiedades:
1. Puede repetirse siempre en las mismas condiciones.
2. Antes de realizarlo no se puede predecir el resultado que se va a obtener.
3. El conjunto de posibles resultados es conocido de antemano.
6.2.1 Definiciones básicas
El conjunto de los posibles resultados de un experimento aleatorio se llama
espacio muestral. Se representa con la letra griega Ω.
Ejemplos:
Experimento aleatorio: “lanzamiento de una moneda de un euro”. Posibles
resultados = Espacio muestral Ω={cara de don Juan Carlos, número 1}.
Experimento aleatorio: “lanzamiento de un dado de tasca”. Posibles
resultados = Espacio muestral Ω={1,2,3,4,5,6}.
Experimento aleatorio: “número de amores de Mesalina en una noche de
lujuria”. Ω={0,1,2,3,... }.
Experimento aleatorio: “partido de futbol”. Ω={0‐0, 0‐1,1‐0,1‐1,... ,8‐24,... }.
P á g i n a | 101
Suceso elemental. Cada uno de los posibles resultados de un experimento
aleatorio. En el ejemplo del lanzamiento de un dado, cualquiera de los números del
1 al 6 es un suceso elemental.
Suceso. Es un subconjunto del espacio muestral, ⊂ Ω. Se dice que ocurre
un suceso si ocurre alguno de los sucesos elementales que lo componen.
Ejemplo: en el lanzamiento de un dado, el suceso =“salir número
par”= 2,4,6 .
Suceso imposible. Es el suceso que no puede ocurrir nunca. Como conjunto,
es el conjunto vacío ∅. Ejemplo: al lanzar un dado, ∅=“el resultado es 7, 8, o el
número pi”.
Dos sucesos se llaman incompatibles si no pueden ocurrir simultaneamente
(al lanzar un dado no puede salir un número par e impar a la vez). Dos sucesos son
incompatibles si como conjuntos son disjuntos ( ∩ ∅ .
102 | P á g i n a
6.2.2 Sucesos y conjuntos
Como acabamos de ver, un suceso es un subconjunto del espacio total Ω. Las
propiedades de los conjuntos se vieron en algún curso muy lejano en el colegio o
instituto, pero conviene recordarlas, porque van a ser de gran utilidad para el cálculo
de probabilidades.
Unión (de conjuntos o sucesos): ∪ es el conjunto o suceso formado por
los elementos que están en ó están en .
Intersección: ∩ está formado por los elementos que están
simultáneamente en y en .
Diferencia: está formado por los elementos de que NO están en B.
Complementario de un suceso : se escribe o ̅. Es el suceso formado por
todos los elementos del espacio total Ω que no están en . Se verifica que ∩ ̅ ∅
y ∪ ̅ Ω.
Podemos ver un gráfico de estas operaciones en la Figura 6‐1.
P á g i n a | 103
Figura 6‐1
La unión e intersección de sucesos o conjuntos cumplen las propiedades
conmutativa y asociativa:
∪ ∪ , ∩ ∩ ,
∪ ∩ ∪ ∩ ∪ , ∩ ∪ ∩ ∪ ∩ ,
y, obviamente, operaciones como la unión o intersección pueden generalizarse a más
de dos sucesos o conjuntos. Quien tenga dudas, que lo verifique haciendo los dibujos
como en la Figura 6‐1 (siempre que se tengan dudas del resultado de operaciones con
sucesos o conjuntos, se recomienda hacer los dibujos).
104 | P á g i n a
Ejemplo 6-1 Supongamos que se lanza un dado. Considerar los sucesos
=“salir número par” y =“salir número mayor o igual a 3”.
2,4,6 , 3,4,5,6 .
Vamos a calcular ∪ , ∩ , y .
∪ =“el resultado es par o mayor o igual a 3” 2,3,4,5,6 .
∩ =“el resultado es par y mayor o igual a 3” 4,6 .
=“el resultado es par pero no mayor o igual a 3” 2 .
="el resultado es mayor o igual a 3 pero no par” 3,5 .
6.2.3 Probabilidad
Es una función que le asigna a cada suceso de un espacio muestral Ω un
número llamado probabilidad de , verificando:
1.‐) Es un número entre 0 y 1. 0 1.
2.‐) La probabilidad del espacio muestral es 1. Ω 1.
3.‐) Si se consideran sucesos incompatibles (con intersección el vacío, ∩
∅, si , la probabilidad de la unión es la suma de las probabilidades:
∪ ∪. . .∪ ... .
Estas tres propiedades se llaman axiomas de Kolmogorov. Para entenderlas
mejor, así como para entender las propiedades que daremos a continuación,
conviene pensar en la probabilidad como la “medida” de un conjunto, siendo el total
Ω el de mayor medida (mide 1 , y cualquier otro suceso mide menos que el total y,
como muy poco, 0. La tercera propiedad establece que si tenemos varios sucesos o
conjuntos que no tienen intersección entre sí, la medida de la unión de todos es la
suma de las medidas.
A partir de los axiomas de Kolmogorov, y teniendo en cuenta que un suceso
es un conjunto ⊂ Ω, puede comprobarse que se verifican también las siguientes
propiedades:
P1) La probabilidad del complementario de un suceso es 1 menos la
probabilidad de dicho suceso: ̅ 1 (ver el dibujo de la derecha en la
Figura 6‐1).
P á g i n a | 105
P2) La probabilidad del suceso imposible ∅ es cero (porque es el
complementario del total Ω .
P3) Si ⊂ (siempre que ocurre ocurre , entonces .
P4) ∪ ∩ (fijémonos que esto no es
contradictorio con la propiedad 3. En dicha propiedad decimos que la probabilidad de
la unión de sucesos es la suma de probabilidades, cuando las intersecciones 2 a 2
entre ellos es el vacío. Si la intersección no es el vacío, hay que restarle la probabilidad
de la misma).
Generalización a tres sucesos:
∪ ∪ ∩ ∩ ∩
∩ ∩ (véase la siguiente figura y recuérdese que
probabilidad=medida).
Figura 6‐2
Generalización a sucesos:
∪ ∪. . .∪ ...
∩ ∩ ... ∩
106 | P á g i n a
∩ ∩ ... ∩ ∩
. ..
1 ∩ ∩. . .∩ .
P5) ∩ (ver Figura 6‐1).
‐ Además, al cumplirse las leyes de Morgan, que dicen:
a) el complementario de la unión es la intersección de los complementarios:
∪. . .∪ ̅ ∩. . .∩ ̅ ,
b) el complementario de la intersección es la unión de los complementarios:
∩ ∩. . .∩ ̅ ∪. . .∪ ̅ ,
podremos utilizar también que
P6) ̅ ∩. . .∩ ̅ 1 ∪ ∪. . .∪ y ̅ ∪. . .∪ ̅
1 ∩ ∩. . .∩ .
Dejamos un resumen. Consejo: imprimir, agrandar y pegar en la puerta
de la habitación en vez del poster de Justin Bieber/El Ché/Scarlett/Los
Beatles/Zapatero...
• P(total Ω)=1
• P(cualquier suceso) es un número entre 0 y 1
• P(suceso imposible ∅) = 0
• Si A está contenido en B, P(A)≤P(B)
• P(complementario de A ̅)=1‐P(A)
• P A ∪ B P A P B P A ∩ B . Si A∩B=∅ entonces P(AUB)=P(A)+P(B)
• P(AUBUC)=P(A)+P(B)+P(C)‐P(A∩B)‐P(A∩C) ‐P(B ∩ C)+
+ P(A ∩B ∩C) y si la unión es de más se va complicando…
• P(A‐B)=P(A)‐P(A∩B)
• ̅ ∩ …∩ ̅ 1 ∪ ∪ …∪
• ̅ ∪. . .∪ ̅ 1 ∩ ∩. . .∩ .
P á g i n a | 107
6.2.4 Asignación de probabilidades
Hemos visto las propiedades que cumple la probabilidad. Ahora, cuando
consideramos un experimento aleatorio, y los posibles sucesos que pueden ocurrir
en el mismo, ¿cómo se sabe cuál es su probabilidad? Hay 3 maneras de asignar
probabilidades a sucesos.
1.‐) Asignación frecuentista.
Consiste en tener en cuenta que, a medida que se repite un experimento
aleatorio un número grande de veces, la frecuencia relativa de ocurrencia de
cualquier suceso converge a un valor fijo.
Es decir, si el experimento se repite veces ( muy grande), y es un suceso,
entonces
número de veces que ocurre
→ .
108 | P á g i n a
Pensemos en el lanzamiento de una moneda un número muy grande de
veces. La frecuencia relativa de aparición del suceso =“cara” tiende a 0.5.
Igualmente, al lanzar un dado, la frecuencia relativa de aparición de un número
tiende hacia 1/6. Este tipo de asignación es el que se utiliza para hablar de
probabilidad de accidente de tráfico (tras haber obtenido muchos datos a lo largo de
los años) o la probabilidad de que un medicamento cure una enfermedad (tras la
observación de muchos casos).
2.‐) Asignación equiprobable.
Si el experimento aleatorio da lugar a un espacio muestral finito de
elementos:
Ω , ,...,
se le asigna a todos los sucesos elementales la misma probabilidad 1/ .
Esta tipo de asignación valdría, por citar un caso sencillo, cuando lanzamos un
dado. La probabilidad de que, por ejemplo, salga un número par, es 3 entre 6 (casos
favorables entre posibles).
3.‐) Asignación subjetiva.
Cuando no es posible una asignación de las dos formas anteriores, será
necesario asignar probabilidades a los sucesos de acuerdo con la experiencia de la
persona que realice u observe el experimento (probabilidad de que llueva, de que se
produzca un terremoto de cierta magnitud, de que una pareja se acabe casando, de
que un matrimonio acabe con cuernos, de que un gordo feo pueda seducir a Natalie
Portman...).
P á g i n a | 109
Una vez que sabemos como asignar probabilidades a los principales sucesos
de un experimento aleatorio, podremos calcular la probabilidad de otros sucesos
asociados mediante las propiedades vistas anteriormente (P1 – P6).
Ejemplos variados:
110 | P á g i n a
P á g i n a | 111
Ejemplo 6-2 Se sortea un viaje a Tailandia entre los 120 mejores clientes de
una agencia de automóviles. De ellos, 65 son mujeres, 80 están casados y 45
son mujeres casadas. ¿Cuál es la probabilidad de que le toque el viaje a un
hombre? ¿Cuál es la probabilidad de que le toque a un hombre soltero?
Solución.
Denotamos los sucesos =“casado”, =“soltero”, =“hombre”, =“mujer”.
Con los datos que nos dan podemos formar la tabla:
45 65
80 120
Ahora rellenamos los huecos
112 | P á g i n a
35 20 55
45 20 65
80 40 120
La probabilidad de que le toque a un hombre es casos favorables entre
posibles: 55/120.
La probabilidad de que le toque a un hombre soltero es la probabilidad de la
intersección ∩ : ∩ 20/120 1/6.
Ejemplo 6-3 En un partido político, el 70 por ciento de los altos cargos recibe
un sueldo fijo o un sobre con dinero negro, si bien el 40 por ciento recibe
ambas cosas. Si hay un 50 por ciento de altos cargos que no acepta sobres
con dinero negro, calcular la probabilidad de que, escogido al azar un alto
cargo: a) sólo reciba el sueldo fijo, b) cobre dinero, pero de una sóla de las
maneras, no de ambas, c) esté ahí por amor al arte (no cobre nada).
Solución.
Definimos los sucesos “recibir sueldo fijo” y “recibir sobres”. El
enunciado del problema nos da las probabilidades ∪ 0.7, ∩ 0.4,
0.5.
A partir de estos datos, podemos obtener: 1 0.5, y, como
∪ ∩ , entonces ∪
∩ 0.7 0.5 0.4 0.6.
P á g i n a | 113
Ahora podemos resolver los apartados.
a) reciba sueldo fijo Y no reciba sobres)= ∩
0.6 0.4 0.2.
b) reciba sueldo fijo Y no reciba sobres) O (reciba sobres Y no reciba sueldo
fijo)]=
∪
∩ ∩
2⋅ ∩ 0.6 0.5 2 ⋅ 0.4 0.3.
Solución.
Denominemos los sucesos =“tomar medicación para el corazón”, =“tomar
medicación para el estómago” y =“tomar medicación para los huesos”. Los datos
que nos dan son:
0.7, 0.6, 0.65, ∩ 0.45, ∩
0.4, ∩ 0.5 y ∩ ∩ 0.3.
La probabilidad de que una persona no tome nada es la probabilidad del
complementario de tomar alguna cosa, es decir 1 menos la probabilidad de la unión
de , y , y esta es:
∪ ∪
∩ ∩ ∩
114 | P á g i n a
∩ ∩ .
Luego la probabilidad pedida es 1 0.7 0.6 0.65 0.45 0.4 0.5
0.3 1 0.9 0.1.
6.2.5 Probabilidades geométricas
La regla de Laplace puede aplicarse a ciertas situaciones donde aparecen
sucesos asociados a conjuntos en el plano o en el espacio que podamos medir
(longitud, área, volumen... ). La probabilidad de un suceso será la medida de
dividida por la medida del total.
Solución.
En este caso, el espacio total es el cuarto de baño en su conjunto, cuya medida
es el área, 6 5 metros= 30 metros cuadrados.
El suceso es la cabeza de Kevin, cuya medida es el área de una elipse,
17 22 1174.955 centímetros cuadrados.
Por lo tanto la probabilidad de acertar es
1174.955 1174.955
0.00391,
30 30 10000
que, como vemos, es muy pequeña. Yonathan y Kevin están pensando ahora en cómo
vengarse adecuadamente del bedel del instituto.
P á g i n a | 115
6.2.6 Probabilidad Condicionada
Supongamos que una delegación de Amnistia Internaciónal visita por sorpresa
una cárcel en Grecia, tras una jornada reivindicativa ante el parlamento. Seleccionan
al azar 100 presos y realizan una clasificación de la siguiente manera: Hombres (H) y
Mujeres (H), que no presenten lesiones tras la detención (NL), que presenten lesiones
moderadas (LM) y que presenten lesiones serias (LS). La tabla resultante es la
siguiente:
50 15 65
15 10 25
5 5 10
70 30 100
La delegación de Amnistia Internacional pacta con el director de la prisión
elegir a un preso/a de los cien, para entrevistarlo en directo en televisión. La
probabilidad de que sea una mujer y presente lesiones moderadas es
10
∩ .
100
Aparece en la prisión por sorpresa una diputada feminista radical, que exige
entrevistar a una mujer. Si ahora calculamos la probabilidad de que la mujer elegida
presente lesiones moderadas, dicha probabilidad no coincide con la anterior. En el
primer caso, elegíamos al azar un preso de los 100, y queríamos que cumpliese dos
condiciones: fuese mujer y tuviese lesiones moderadas. En cambio, ahora elegimos
una mujer (estamos buscando en un grupo más pequeño: los casos posibles ahora
son 30). La probabilidad pedida se escribe (probabilidad del suceso dado o
condicionado a el suceso ):
10
/ .
30
Y, como la probabilidad de que, al escoger un preso del grupo al azar, sea una
mujer, es
30
,
100
116 | P á g i n a
se verifica que
10 30 10
⋅ ,
100 100 30
o, lo que es lo mismo,
∩ ⋅ / .
De donde obtenemos que
∩
/ .
En consecuencia, vemos que la probabilidad de una intersección se puede
obtener como
∩ ⋅ / ⋅ / (6‐1)
(hasta ahora, en las propiedades vistas, sabíamos calcular la probabilidad de una
unión; nunca habíamos visto como calcular la probabilidad de una intersección).
6.2.6.1 Propiedades de la probabilidad condicionada
La probabilidad condicionada verifica las mismas propiedades que hemos
visto para la probabilidad, esto es, si es tal que 0, entonces ̅/ 1
/ ; si ⊂ , entonces / / , etc.
Si, por ejemplo, aparece en la cárcel un ministro que quiere sacar de la prisión
a su hijo gatoflauta (no puede con él, a pesar de haberlo enviado a “hermano
mayor”), ¿cuál es la probabilidad de que su hijo no aparezca con la cara hecha un
poema? Podemos calcular
∩ 5/100 65
/ 1 / 1 1 .
70/100 70
P á g i n a | 117
Solución.
Consideramos los sucesos =“ser idiota”, =“saberlo”. Tenemos que
0.12, / 0.25. Nos piden ∩ ̅ .
∩ ̅ ⋅ ̅/ ⋅ 1 / 0.12 ⋅ 1
0.25 0.09,
es decir el 9 por ciento.
Solución.
Consideramos los sucesos =“primero seleccionado tiene tendinitis” y
=“segundo seleccionado tiene tendinitis”. La primera probabilidad que debemos
calcular es ∪ , donde ∩ y ̅ ∩ . Esta probabilidad es
∪ ∩ ̅∩ .
Es posible que alguien piense que en esta última fórmula faltaría restar la
probabilidad de la intersección. Lo que ocurre es que la intersección de con es
el vacío: ∩ ∩ ̅ ∩ ∅, puesto que están los sucesos y sus complementarios.
Ahora, ∩ ⋅ /
= el primero seleccionado tiene tendinitis) P(el segundo no la tiene,
condicionado a que el primero sí la tenía)=
= casos favorables entre posibles) hay un caso posible menos).
̅ ⋅ / ̅ el primero no tiene tendinitis) P(el segundo sí
dado que el primero no la tiene)= ⋅ .
Resulta:
2 8 8 2
∪ ⋅ ⋅ 0.355.
10 9 10 9
La probabilidad de que los dos a operar tengan tendinitis es ∩
⋅ / ⋅ 0.022.
P á g i n a | 119
6.2.7 Regla del producto
Generalizando la fórmula (6‐1) para la intersección de dos sucesos, cuando
consideramos la intersección de sucesos, su probabilidad se obtiene por la llamada
regla del producto:
∩ ∩ …∩
/ / ∩ / ∩ ∩ ⋅. . .⋅ / ∩. . . ,
que, como vemos, consiste en que la probabilidad de la intersección de sucesos se
calcula multiplicando las probabilidades sucesivas, pero condicionando cada suceso
a que ocurran todos los inmediatamente anteriores.
120 | P á g i n a
Ejemplo 6-9 Una asignatura de derecho tiene un porcentaje de aprobados del
50 por ciento. La leyenda urbana de dicha asignatura asegura que el profesor
de la misma, como le joroba realizar exámenes extraordinarios, pone en cada
convocatoria un examen que es más duro que el anterior, disminuyendo la
probabilidad de aprobar en un 15 por ciento. Un padre avisa a su hija de que,
como llegue a la quinta convocatoria, la envía a un convento. ¿Cuál es la
probabilidad de que la hija suspenda las tres primeras convocatorias y
apruebe justo en la cuarta?
Solución.
Llamemos =“aprobar en la convocatoria ”. La probabilidad de aprobar
desciende un 15 por ciento en cada nueva convocatoria, es decir 0.15 ⋅
0.85 ⋅ , con lo que la probabilidad de suspender en esa convocatoria será
1 0.85 ⋅ . Tenemos que calcular:
̅ ∩ ̅ ∩ ̅ ∩
P á g i n a | 121
̅ ⋅ ̅ / ̅ ⋅ ̅ / ̅ ∩ ̅ ⋅ / ̅ ∩ ̅ ∩ ̅ ,
donde
̅ 1 0.5;
̅ / ̅ 1 0.85 ⋅ 0.5 0.575;
̅ / ̅ ∩ ̅ 1 0.85 ⋅ 1 0.575 0.63875;
/ ̅ ∩ ̅ ∩ ̅ 0.85 ⋅ 1 0.63875 0.30706.
Entonces ̅ ∩ ̅ ∩ ̅ ∩ 0.5 ⋅ 0.575 ⋅ 0.63875 ⋅ 0.30706 0.056.
6.2.7.1 Independencia de sucesos
2 sucesos y son independientes si la ocurrencia de uno no influye en la
ocurrencia del otro. Se verifica entonces que
/ y / ,
es decir, que el que haya ocurrido uno no influye para nada en la ocurrencia del otro.
Si sucesos son independientes, entonces la probabilidad de la intersección
es el producto de las probabilidades:
∩ ∩. . .∩ ⋅ ⋅. . .⋅ .
Solución.
Si el aprobar una asignatura no depende de aprobar otra, los sucesos
=“aprobar la asignatura ” son independientes, por lo tanto la probabilidad de
aprobar todo es
∩ ∩ ∩ ⋅ ⋅ ⋅ 0.8 ⋅ 0.3 ⋅
0.5 ⋅ 0.1 0.012.
Y por fin entendemos que haya tantos suspensos en las ingenierías.
Ejemplo 6-11 Por una carretera de Texas circula Charlie un poco borracho
porque acaba de dejarle la novia. Al saltarse una milla el límite de velocidad,
le aparecen 2 coches de policía que le invitan “amablemente” a parar y salir
del coche con las manos en alto. Charlie sale del coche y es encañonado por
3 agentes, que le dicen que suba las manos o le disparan. Charlie está
pensando en echar la mano al bolsillo para que lo frían a disparos, porque
total vivir sin Marujita va a ser un sinvivir. Con lo cocido que está, la
probabilidad de que haga lo que está pensando es 1/2. Teniendo en cuenta
que los 3 policías lo tienen encañonado a muy poca distancia, la probabilidad
de que le den es 0.95 para 2 de ellos y sólo 0.5 para uno con gafas que entró
por recomendación. ¿Cuál es la probabilidad de que haya que asistir al
entierro de Charlie?
Solución.
P á g i n a | 123
De nuevo estamos en una situación donde los sucesos son independientes.
Sea =“Charlie lleva la mano al bolsillo” y =“El policía acierta el disparo”. La
probabilidad de que maten a Charlie es
⋅ ⋅ ⋅ 0.5 ⋅ 0.95 ⋅ 0.95 ⋅ 0.5 0.2256.
Vemos que aún hay posibilidades de que Charlie sufra un nuevo desamor.
6.2.8 Teorema de las probabilidades totales
Un sistema completo de sucesos es un conjunto de sucesos
, , . . . , que verifican:
‐ Son sucesos incompatibles 2 a 2:
∩ , si .
‐ La unión de todos es el total:
∪ Ω,
y además la probabilidad de cada uno de ellos es distinta de cero.
Visualmente, un sistema completo de
sucesos es una partición del espacio total Ω en
conjuntos, todos disjuntos (no tienen
intersección entre sí), y todos “midiendo algo”
(tienen probabilidad diferente a cero).
El teorema de las probabilidades totales dice lo siguiente:
Consideremos un sistema completo de sucesos, y sea otro suceso, ⊂ Ω,
para el que se conocen las probabilidades / para todo . Entonces, la
probabilidad del suceso viene dada por:
/ .
124 | P á g i n a
Demostración.
La demostración es tan sencilla que conviene verla para seguir practicando
con las probabilidades de los sucesos.
⊂ Ω podemos expresarlo como la unión ∩ ∪ ∩ ∪. . .∪
∩ , es decir intersecado con cada uno de los sucesos .
Como puede verse facilmente en la figura, dado que los son disjuntos,
también lo son los conjuntos ∩ , luego podemos escribir:
∩ ,
/ .
de vez en cuando, y ahí se las vieran y desearan. Budin elije un antiguo Gulag
en Siberia; un destartalado campo de trabajo de 500 metros de ancho por 1
kilómetro de largo, rodeado de alambradas para que no puedan escapar. El
recinto se encuentra dentro de una llanura siberiana de 25 km cuadrados de
nieve y minas antipersona.
Como la flota aérea rusa está muy desvencijada, no disponen de
helicópteros para llevar a los presos encima del recinto carcelario y soltarlos
dentro, así que se sitúa un cañon en la frontera de la llanura siberiana con la
intención de usar los presos como proyectiles, y que caigan dentro del recinto
carcelario. Ahora bien, el cañón dispara correctamente sólo una de cada tres
veces. Otra vez lanza aleatoriamente el preso dentro de la llanura siberiana,
y otra vez no dispara nada y el preso explota dentro del cañón. ¿Cuál es la
probabilidad de que un preso introducido en el cañón llegue al Gulag?
Solución.
Denotemos por =“caer dentro del Gulag”, =“el cañón dispara
correctamente”, =“el cañón dispara aleatoriamente” y =“el cañón explota y
mata al preso”.
Al disparar el cañón, sólo hay 3 opciones, que son , y . Además, si
ocurre una no ocurre ninguna de las otras. Por lo tanto, se verifica que ∪ ∪
y son sucesos incompatibles. Tenemos entonces un sistema completo de
sucesos.
En la práctica, lo que hacemos es ver si , y que
los sucesos no puedan ocurrir simultaneamente.
Además, sabemos que / 1, / 0 y / la tenemos
que calcular como una probabilidad geométrica, puesto que el preso cae
aleatoriamente en la superficie. Por lo tanto, la probabilidad de caer en la cárcel es
á á 0.5 ⋅ 1
/ 0.02.
á 25
Entonces, la probabilidad de que un preso llegue al Gulag es
126 | P á g i n a
/ ⋅ / ⋅ / ⋅
1 1 1
1⋅ 0.02 ⋅ 0⋅ 0.34.
3 3 3
6.2.9 Regla de Bayes
El llamado Teorema de Bayes7 utiliza las mismas hipótesis o supuestos que el
teorema de las probabilidades totales:
Sea un sistema completo de sucesos , ,..., , es decir:
‐ Son sucesos incompatibles 2 a 2: ∩ , si .
‐ ∪ Ω y son tales que la probabilidad de cada uno de ellos es distinta
de cero, y sea un suceso para el que se conocen las probabilidades / .
Entonces, las probabilidades / se pueden obtener de la forma
/ ⋅
/ , ∀ 1, . . . , .
∑ / ⋅
Esta fórmula es conocida como regla o fórmula de Bayes.
La demostración también la escribimos, por ser muy simple: por la fórmula de
la probabilidad condicionada, se tiene que
∩
/ .
Ahora, para calcular , en el denominador, podemos usar la fórmula de la
probabilidad total. En el numerador, la probabilidad la calculamos según la definición
de la probabilidad de una intersección (6‐1):
∩ ⋅ / ,
y ya está listo el resultado.
7
Thomas Bayes, matemático y ministro presbiteriano (cura protestante).
128 | P á g i n a
Ejemplo 6-14 Mesalina se acuesta con Marco Aurelio el 30 por ciento de las
veces, con Augusto César el 60 por ciento, y el 10 por ciento restante con
alguno de los criados. La probabilidad de que se quede embarazada de Marco
Aurelio es 0.9, de Augusto César es 0.75 y de los criados 0.5. Tras la amenaza
de su marido Claudio de mandarla ejecutar, Mesalina promete dejarse de
tonterías y no volver a serle infiel. Una noche, un criado observa a Mesalina
saliendo a escondidas de su habitación para ir a un cuarto oscuro. Tras una
temporada, aparece embarazada. ¿Cuál es la probabilidad de que se hubiera
acostado con Augusto César (sabiendo que el hijo no puede ser de Claudio,
porque es estéril)?
Solución.
Definimos los sucesos:
P á g i n a | 129
=“acostarse con Marco Aurelio”,
=“acostarse con Augusto César”,
=“acostarse con algún criado”,
=“quedarse embarazada”.
Las probabilidades que sabemos son:
0.3, 0.6, 0.1. Como vemos, las probabilidades
suman 1, luego estos 3 sucesos (que además son incompatibles, porque el enunciado
no habla para nada de camas triples) forman un sistema completo de sucesos.
También sabemos que / 0.9, / 0.75, / 0.5.
Mesalina se ha quedado embarazada, y queremos calcular la probabilidad de
que haya podido acostarse con Augusto César. Tenemos que calcular la probabilidad
condicionada / . Por el teorema de Bayes:
/ ⋅
/
/ ⋅ / ⋅ / ⋅
0.75 ⋅ 0.6
0.584.
0.9 ⋅ 0.3 0.75 ⋅ 0.6 0.5 ⋅ 0.1
Como podemos observar, la probabilidad “a priori” de acostarse con Augusto
era 0.6. Una vez que el suceso ha ocurrido, la probabilidad “a posteriori” cambió a
0.584.
Solución.
Las probabilidades que nos dan, para cada uno de los tres métodos, son:
0.5, 0.35, 0.15. Como vemos, las probabilidades
suman 1, luego estos 3 sucesos (que son incompatibles, entendiendo que no se
aplican dos a la vez) forman un sistema completo de sucesos.
También sabemos que las probabilidades de =“éxito”, dependiendo del
método empleado, son / 0.9, / 0.6, / 0.7.
Nos piden / . Por el teorema de Bayes:
/ ⋅
/
/ ⋅ / ⋅ / ⋅
0.9 ⋅ 0.5
0.588.
0.9 ⋅ 0.5 0.6 ⋅ 0.35 0.7 ⋅ 0.15
Observamos que, “a priori”, la probabilidad del suceso (que le enviaran
matones) era 0.5. Una vez que ha habido éxito (ha devuelto el dinero, ha sucedido),
la probabilidad “a posteriori” aumenta a 0.588.
P á g i n a | 131
6.2.10 Resumen para vagos
Probabilidad condicionada.
∩ ∩
Si 0, entonces / . Si 0 entonces / .
Probabilidad de la intersección.
∩ ⋅ / ⋅ / .
Si y son independientes, / y / .
En consecuencia ∩ ⋅ .
Si tenemos sucesos (Regla del producto):
∩ ∩. . .∩
/ / ∩ / ∩ ∩ ⋅. . .⋅ / ∩. . . .
Ahora bien, si son independientes (que la ocurrencia de cada uno no influya
en la ocurrencia de ningún otro):
∩ ∩. . .∩ ⋅ ⋅. . .⋅ .
Probabilidad total.
Si tenemos , , . . . , , tales que ... 1, y los
sucesos son incompatibles ∩ , entonces, para otro suceso B,
/ ⋅ .
Conclusión final.
Recuerda: cualquier probabilidad es un número entre 0 y 1. Si estás haciendo
un problema, y después de calcular la probabilidad del complementario, luego la
intersección, luego la unión, Bayes, tararí, tarará. . . te sale un número negativo o más
grande que 1, tu probabilidad de aprobar el examen es prácticamente nula.
Más ejercicios de este tema, en internet, en libros como [14], o más divertidos
en [12].
P á g i n a | 133
7 VARIABLES ALEATORIAS
El 80 por ciento de la gente dice no creer en las estadísticas. El 20 por ciento
restante vive de las estadísticas.
Estudio serio.
En ocasiones, es útil asociar un número a cada resultado de un experimento
aleatorio. Por ejemplo, en el experimento aleatorio “lanzar una moneda 3 veces”,
podemos considerar la variable =“número de caras”. tomará los valores 0,1,2,3.
En el experimento aleatorio “elegir un enfermo al azar de un hospital”,
podemos considerar las variables =“peso en kilos”, =“estatura en metros”,
=“temperatura”...
Una variable que asocia a cada resultado de un experimento aleatorio un
número recibe el nombre de variable aleatoria.
Definimos Rango o soporte de la variable aleatoria como el conjunto de
todos los posibles valores de la variable. En función de su rango, una variable
aleatoria puede ser:
Discreta: su rango es un conjunto finito o infinito numerable8 de valores.
Continua: el rango es un intervalo de números reales.
Ejemplo: la variable “Altura de personas”. Rango= 0,3 .
8
Un conjunto infinito numerable es aquel que tiene tantos elementos como el conjunto de
los números naturales. Los números naturales son 1,2,3,... y hasta infinito. Entre cada 2 números
consecutivos no hay ningún otro. Este conjunto se dice que es infinito pero numerable, por
contraposición a otros conjuntos también con infinitos elementos, pero con diferente forma, como
puede ser un intervalo de números reales: por ejemplo, 0,1 . Dentro de este intervalo están todos
aquellos números entre el 0 y el 1, y con tantos decimales como queramos. Evidentemente hay
infinitos números también, pero entre cada dos podemos escribir tantos como queramos.
134 | P á g i n a
Ejemplo: la variable “número de hijos de una pareja”. Rango={0,1,2,…}. Es un
caso de una variable discreta que toma un conjunto infinito numerable de valores
(porque no sabemos dónde termina el conjunto; otra cuestión es que la probabilidad
de cada valor vaya paulatinamente disminuyendo, pero de eso hablaremos en breve).
7.1 VARIABLES ALEATORIAS DISCRETAS
Una variable aleatoria discreta está definida por los valores que toma y sus
probabilidades, las cuales deberán sumar 1.
(7‐1)
⋮ ⋮
0 1/2
1 1/2
1 1/
2 1/
⋮ ⋮
1/
Figura 7‐1
7.1.1 Función de distribución
Es la función que asocia a un punto la probabilidad acumulada hasta ese
punto:
.
En el caso de una variable discreta,
⋯ ,
Figura 7‐2
La función de distribución es, como vemos, una función escalonada que, en
cada valor , aumenta el valor correspondiente de la probabilidad en ese punto .
Es, por lo tanto, una función no decreciente que siempre varía entre 0 y 1.
Matemáticamente, la función de distribución para la variable general que aparece
en (7‐1) se escribe de la forma:
0
∈ ,
∈ ,
⋮ ⋮
... ∈ ,
⋮ ⋮
1
donde, como vemos, en los puntos , en los que precisamente la función no es
continua (hay un salto), a se le asigna el valor inmediatamente superior; por
eso escribimos ... si ∈ , . En el punto ya le damos el valor
siguiente:
P á g i n a | 137
... .
138 | P á g i n a
Solución.
a) Construimos una columna sumando las probabilidades para obtener la
función de distribución.
2 0.01 0.01
3 0.08 0.09
4 0.25 0.34
5 0.32 0.66
6 0.28 0.94
7 0.05 0.99
8 0.01 1
Para escribir de forma correcta la función de distribución únicamente hay que
tener en cuenta las discontinuidades en los puntos de la variable .
0 2
0.01 ∈ 2,3
0.09 ∈ 3,4
0.34 ∈ 4,5
0.66 ∈ 5,6
0.94 ∈ 6,7
0.99 ∈ 7,8
1 8.
Las gráficas de la función de masa de probabilidad y de la función de
distribución aparecen dibujadas en la Figura 7‐3.
b) La probabilidad que tenemos que calcular es 4 4 , que, sin
más que buscar en la tabla de la función de distribución, vemos que es 0.34.
P á g i n a | 139
Figura 7‐3
7.1.2 Variables discretas infinitas numerables.
Las variables discretas pueden tomar un conjunto infinito de valores, siempre
que este sea “numerable”. Por ejemplo, la variable =“número de hombres con los
que podría yacer Mesalina” toma los valores 1,2,3. .. Lógicamente, la probabilidad
de tomar un valor deberá ir disminuyendo de alguna forma, puesto que debe
verificarse siempre que la suma de probabilidades ∑ sea 1 (y no hay
ningún ser humano catalogado a día de hoy como capaz de infinitos encuentros
amorosos ‒incluyendo a Lisa Sparx, que citaremos en el próximo capítulo‒, que se
sepa).
Einstein le contestó que, según sus años de investigaciones, para la gente
“normal, correctamente vestida y educada”, la variable “número de citas por noche”
140 | P á g i n a
es una variable de Poisson de parámetro 0.2. El estudiante le dijo que era su
primer año en la universidad y que no conocía la variable de Poisson, porque todavía
no había llegado a ese tema, y que únicamente había visto la definición de variable
aleatoria discreta. Einstein le dijo que no se preocupara, que precisamente se trataba
de una variable aleatoria discreta que toma valores 0,1,2, . .. y, en principio, hasta
infinito, siendo la probabilidad de cada valor de la forma
, siendo un número mayor que cero.
!
Einstein le explicó que, además, como buena variable aleatoria, se puede
comprobar que siempre (independientemente del valor de la suma de
probabilidades da 1:
1,
pero que, en realidad, no hacía falta sumar tanto, porque para 0.2, con pocos
valores (12, por ejemplo) la suma ya vale 1, con lo cual la probabilidad de ligar era
bastante alta.
Como aquel domingo era la fiesta de entrega de los Oscar, el estudiante
decidió colarse. Fue una a una a todas las actrices (incluida Whoopi Goldberg)
preguntándoles si querían pasar la noche con él, y no sólo se llevó varios bofetones,
sino que, tras entrarle a 200 actrices,
terminó en comisaría por acosador.
Mientras estaba en los calabozos,
el estudiante trató de distraerse
calculando las probabilidades en una
variable de Poisson con 0.2,
comprobando que el diagrama de barras
es de la forma de la izquierda, en donde
vemos que 0 es mucho más
grande que las demás (o sea que la
probabilidad de no ligar es altísima).
P á g i n a | 141
Hay quien dice que, finalmente, el estudiante consiguió una cita con un
travesti que estaba en el calabozo, pero de eso ya no hay pruebas.
7.2 VARIABLES ALEATORIAS CONTINUAS
Una variable aleatoria continua es aquella que puede tomar cualquier valor
(al menos teóricamente) entre 2 fijados. Los valores de la variable (al menos
teóricamente) no se repiten.
Ejemplos: =“Tiempo observado al recorrer una cierta distancia, estatura, peso,
nivel de colesterol en sangre...”. Todas las precisiones realizadas en el capítulo de
variables estadísticas son igual de adecuadas en este caso. Cuando observamos
valores de una variable aleatoria continua, existe una limitación en cuanto al número
de valores que puede tener la misma. Esto es, en la práctica, la variable no puede
tomar infinitos valores. A la hora de medir el peso o la estatura, por ejemplo, se
trabaja con un número preciso de decimales (que puede ser grande pero nunca será
infinito). Lo que se está haciendo es una llamada discretización a la hora de tomar
datos. Sin embargo, desde un punto de vista matemático, consideraremos siempre
que una variable continua puede tomar infinitos valores. Esto nos permitirá trabajar
142 | P á g i n a
con propiedades matemáticas que nos aportarán mucha información de la variable
considerada.
7.2.1 Función de densidad
Las variables aleatorias continuas vienen caracterizadas por una función que
se llama función de densidad, que es una generalización de la función de masa de
probabilidad. Esta función (real, de variable real), debe verificar que 0 en
cualquier valor de (el dibujo de la función debe estar por encima del eje horizontal)
y que la integral 1 (el área bajo la curva y el eje horizontal vale uno),
como vemos en la figura siguiente.
El concepto de función de densidad surge de la generalización del polígono de
frecuencias. En el capítulo de estadística descriptiva vimos que el polígono de
frecuencias consiste simplemente en unir los puntos medios de las barras superiores
de los rectángulos, en el histograma de frecuencias, y comprobábamos que el área
encerrada por el histograma o el polígono de frecuencias es 1 (considerando
frecuencias relativas).
P á g i n a | 143
Supongamos ahora que tomamos sucesivamente diferentes muestras de una
variable continua, cada vez con mayor número de datos. A medida que aumenta,
el número de intervalos al realizar un histograma (o polígono) de frecuencias también
crece. La línea del polígono de frecuencias se va dibujando con segmentos cada vez
más pequeños, que acaban definiendo una función matemática con alguna fórmula
específica. En la Figura 7‐4 y la Figura 7‐5 vemos un ejemplo, donde elegimos una
variable, y vamos cogiendo muestras de la misma, aumentando el tamaño muestral
sucesivamente. Comprobamos que el polígono de frecuencias se va perfilando cada
vez más.
Figura 7‐4
144 | P á g i n a
Figura 7‐5
La fórmula exacta de la función se corresponderá con alguna de las muchas
funciones de densidad que han sido definidas a lo largo de la historia (cada una suele
tener un nombre específico, y su fórmula ya fue inventada, o escrita, por alguien más
listo que nosotros ‒Gauss, Student, Snedecor... ‒, así que no tenemos que
preocuparnos de adivinar cuál es la función). En la Figura 7‐6 tenemos un ejemplo de
una función de densidad de tipo exponencial (que corresponde a la función que va
dibujando el polígono de frecuencias de las figuras anteriores), cuya expresión
matemática es
0 si 0 (7‐2)
si 0 con 0
P á g i n a | 145
Este tipo de función corresponde a la función de densidad de variables que
miden el “tiempo de vida”. Como podemos observar en la gráfica, el histograma de
frecuencias se adapta perfectamente a la medición del tiempo de vida de un conjunto
muy grande de seres vivos, o de componentes de aparatos electrónicos (transistores,
circuitos…). Volveremos a citar esta variable, con mayor detalle, en el capítulo
siguiente.
Figura 7‐6
Una vez expuesto que, en una variable aleatoria continua, las propiedades de
la misma vendrán descritas por la función de densidad, indiquemos que las
probabilidades se calcularán como una integral definida:
,
Figura 7‐7
En el caso de una variable aleatoria continua, la probabilidad de cualquier
punto concreto es cero, porque no hay área bajo la curva:
0.
Esto puede sonar un poco raro, al principio. Si hablamos, por ejemplo, de la
variable altura, nos podemos preguntar: “¿cuál es la probabilidad de medir 1.72?”.
Según lo que acabamos de decir, la probabilidad de un punto es cero. ¿Qué sucede?
Pues que, como dijimos antes, en la práctica realizamos una discretización de la
variable continua altura. La pregunta matemáticamente correcta sería: “¿Cuál es la
probabilidad de tener una estatura entre 2 valores y ?” En función de la precisión
que estemos utilizando, cogeremos y muy cercanos a 1.72. Esa probabilidad es
la probabilidad de un intervalo (por pequeño que sea), y esa probabilidad sí será un
número más grande que cero.
P á g i n a | 147
Precisamente por este hecho, cuando calculemos la probabilidad de que una
variable continua tome valores entre dos números y , tendremos que
,
o sea, todas esas probabilidades dan lo mismo, porque considerar un punto más no
cuenta (al tener probabilidad cero). Esto va a venir muy bien cuando se hagan
ejercicios de variables continuas, porque la probabilidad de equivocarse será cero.
Función de distribución. La función de distribución tiene el mismo significado
para una variable aleatoria continua que para una discreta, y es la probabilidad
acumulada hasta un punto . El equivalente continuo de una suma es la integral:
,
148 | P á g i n a
que corresponde al área acumulada, bajo la función de densidad , desde ∞ hasta
el valor . Gráficamente, podemos verlo en la Figura 7‐8. En esta figura en concreto,
Figura 7‐8
la función toma valores mayores que cero a partir de 4, por lo que el area desde
∞ hasta cualquier valor se convierte en el área desde 4 hasta .
La función de distribución, matemáticamente, será una función no
decreciente que varía entre 0 y 1. Al contrario que en el caso de una variable discreta,
la función de distribución de una variable continua es una función continua. Por
ejemplo, la función de distribución correspondiente a la densidad exponencial (7‐2)
es:
0 si 0
1 si 0
Esta función aparece dibujada en la Figura 7‐9. Ampliaremos más detalles de
la variable exponencial en el capítulo siguiente. Por último, indicar que, debido a que
la función de distribución se calcula como la integral de la función de densidad, ésta
última es la derivada de la función de distribución:
P á g i n a | 149
,
de manera que si, para una variable continua, conocemos su función de distribución,
no hay más que derivarla para obtener la función de densidad.
Figura 7‐9
150 | P á g i n a
7.3 MEDIDAS CARACTERÍSTICAS DE UNA VARIABLE ALEATORIA
Igual que en el caso de variables estadísticas, para las variables aleatorias se
pueden definir medidas de centralización, dispersión y forma. Las más utilizadas son
el valor medio o esperanza (generalización de la media aritmética) y la varianza (o su
raiz cuadrada la desviación típica). También podemos definir y calcular los mismos
parámetros que hemos visto en variables estadísticas: mediana, cuartiles, moda,
coeficiente de simetría, etc., y el significado de los mismos coincide con el definido
en cada caso. Vamos a ver como se calculan los parámetros más utilizados.
7.3.1 Esperanza de una variable aleatoria
Es la generalización de la media aritmética. También se llama valor medio o
valor esperado, y se representa por la letra griega .
Si es una
variable aleatoria
discreta (representada,
de manera general, por la
tabla (7‐1), se calcula
como la media aritmética
de los valores, es decir la
suma de los valores por
sus probabilidades (las
probabilidades serían las frecuencias relativas).
.
Recordemos que la media aritmética de una variable estadística se definió
como
P á g i n a | 151
...
̅ ,
que, obviamente, sería equivalente a escribir
1 1
̅ ,
es decir, sería la esperanza de una variable cuyos valores aparecen todos con la
misma probabilidad 1/ . Si a una variable estadística la representamos por sus
valores y sus frecuencias relativas son / , entonces la media aritmética se
puede escribir como
̅ ,
o, como vemos, suma de valores por frecuencias. En el caso de una variable aleatoria,
las frecuencias se transforman en probabilidades (de ocurrencia). Por eso la
esperanza es un valor medio “esperado”.
Si es una variable aleatoria continua, la variable toma infinitos valores.
Como vimos en la función de distribución, el equivalente continuo de la suma es la
integral. La fórmula matemática incluye en este caso a la función de densidad:
.
Nota 7-1 Puede ocurrir, tanto en variables discretas como continuas, que el valor que
se obtenga al calcular la esperanza sea un número que tiende a infinito. En este caso,
se dice que la variable aleatoria no tiene esperanza. Si la variable aleatoria no tiene
esperanza, tampoco tiene varianza. Más adelante veremos algún ejemplo.
7.3.2 La varianza
Se representa , y la desviación típica es la raiz cuadrada (con
signo positivo) de la varianza. Igual que en el caso de variables estadísticas, mide la
dispersión de la variable, y se calcula como la media de las desviaciones (elevadas al
cuadrado) de los valores a su media:
152 | P á g i n a
.
También puede calcularse como
. (7‐3)
Si X es una variable discreta, la forma de hacer los cálculos será
,
en función de la fórmula (7‐3).
Si X es una variable continua,
,
y que, igual que antes, en virtud de la fórmula (7‐3), puede calcularse como
.
Solución.
Utilizando la fórmula, tenemos que sumar valores por probabilidades:
.
Como la media ya la hemos calculado, calculamos el primer término (que es
igual que calcular la media de los valores al cuadrado):
P á g i n a | 153
7.3.3 Propiedades de la media y varianza
La media y la varianza de una variable aleatoria poseen las mismas
características o propiedades vistas para las variables estadísticas unidimensionales,
en la sección correspondiente . Concretamente, podemos resumir que si
Además, tenemos que, si sumamos variables independientes (el valor de
cualquier variable no depende de los valores de ninguna otra), la esperanza de la
suma es la suma de esperanzas, e igual ocurre con la varianza:
Una generalización de estas dos últimas fórmulas es el siguiente resultado: si
tenemos , . . . , variables independientes, y números reales , , . . . , ,
entonces:
... ... ,
(7‐6)
⋯
... .
154 | P á g i n a
Ejemplo 7-6 La variable mide el peso de las pizzas sencillas de la marca
Parradellos, y tienen de media 500 gramos y varianza 5. La variable mide
el peso de los yogures de la marca Dadonde, y tiene de media 120 gramos
con varianza 2. Manuel y Manuela cenan todos los días una pizza doble y un
yogur y medio. ¿Cuál es la media y varianza de la variable que mide el peso
de la cena?
Solución.
El peso de la cena es 2 1.5 . Por lo tanto 2 ⋅ 500 1.5 ⋅
120 1180 gramos, y la varianza es 2 1. 5 4⋅
5 2.25 ⋅ 2 24.50.
7.3.4 Mediana
La mediana es el valor que deja a cada lado el 50 por ciento de la población
(la probabilidad a cada lado es 0.5):
0.5 y 0.5 si es discreta,
0.5 si es continua.
P á g i n a | 155
7.3.5 Cuantil
Es la generalización de la mediana. Dado un valor , 0 1, el cuantil
es el punto que deja una probabilidad a su izquierda.
y 1 si es discreta,
si es continua.
Al igual que en el primer capítulo, podemos definir:
‐ los cuartiles, que dividen a la población en 4 partes iguales: es el cuantil
. , es el cuantil . o Mediana, y sería el cuantil . (ver la Figura 7‐10).
‐ los deciles, que dividen a la población en 10 partes iguales.
‐ los percentiles, que dividen a la población en 100 partes iguales.
Figura 7‐10: cuantil , que deja a la izquierda área o probabilidad p.
7.3.6 Moda
La moda es el valor más probable o frecuente, es decir, el valor con
mayor si es discreta (el valor que aparece con mayor probabilidad), o el valor que
maximiza la función de densidad si es continua. La moda no tiene por qué ser
única. En el caso de una única moda se dice que la distribución es unimodal, y con
más modas multimodal.
156 | P á g i n a
Un ejemplo lo vemos en la Figura 7‐11. La variable que posee la función de
densidad que vemos en la gráfica tiene 2 modas relativas (los valores que hacen
máxima la función en ciertos intervalos, y una moda absoluta, señalada en el gráfico).
En esta imagen incluímos también la posición de los cuartiles, o valores que
dividen la variable en cuatro partes iguales según el área o probabilidad, que
aparecen resaltados en el eje horizontal de la gráfica.
Figura 7‐11
Solución.
Nivel 0 (vida real):
1
0 .
4
Nivel 1 (sueño):
3 1
1 ∩ ⋅ .
4 4
Nivel 2 (sueño dentro de un sueño):
3 3 1
2 ∩ ∩ ⋅ ⋅ ⋅ ⋅ .
4 4 4
En general:
3 1
∩ ∩. . .∩ ∩ ⋅ .
4 4
Se comprueba que es una ley de probabilidad, puesto que las probabilidades
suman 1:
1 3
1.
4 4
b) La probabilidad de ligar en el nivel 4 es
158 | P á g i n a
1 3
4 ⋅ 0.079.
4 4
c) El número medio de niveles que se alcanza es la esperanza de la variable,
1 3
4 4
que puede comprobarse que es 3.
Mala suerte para el ejecutivo de bolsa, que necesita llegar al nivel 4 para
cumplir su sueño (nunca mejor dicho).
Nota 7-2 ¿Cómo pueden calcularse las sumas infinitas? En programas como
Mathematica o Maple es muy sencillo. Tenemos en internet recursos también para
hacerlo. Una página muy útil para cálculos matemáticos y estadísticos es la de
Wolfram Alpha. Para calcular una suma (que puede ser infinita) el enlace es:
P á g i n a | 159
http://www.wolframalpha.com/examples/Sums.html
y en él ya se ven ejemplos de la sintaxis que hay que utilizar (muy sencilla).
1 12 /6
2 1/4
3 1/9
⋮ ⋮
1/
⋮ ⋮
Solución.
Excepto el 1, que aparece con probabilidad , el resto de valores
aparecen con probabilidad . Puede comprobarse que, en efecto, se trata de una
ley de probabilidad, puesto que la suma de probabilidades da 1:
12 1
1.
6
Vamos a intentar calcular el número medio de necios en una calle. Cuando
escribimos la fórmula de :
160 | P á g i n a
12 1 12 1
⋅ 1⋅ ,
6 6
y la suma infinita de la derecha diverge (tiende a infinito), por lo que el número medio
tiende a infinito. Como dijimos anteriormente, cuando esto sucede, se dice que la
variable aleatoria no tiene esperanza (lo cual no le quita razón alguna a la frase).
Solución.
P á g i n a | 161
a) El rendimiento medio en cada pastilla corresponde a la media o esperanza
de cada variable.
5 ⋅ 0.2 10 ⋅ 0.15 15 ⋅ 0.15 20 ⋅ 0.2 25 ⋅ 0.1 30 ⋅ 0.1 35 ⋅ 0.05
40 ⋅ 0.05 18.
5 ⋅ 0.1 10 ⋅ 0.1 15 ⋅ 0.05 20 ⋅ 0.2 25 ⋅ 0.2 30 ⋅ 0.15 35 ⋅ 0.08
40 ⋅ 0.07 45 ⋅ 0.05 23.6.
b) Para calcular cuál de las dos pastillas tiene mayor variación, calculamos las
varianzas y los coeficientes de variación.
5 ⋅ 0.2 10 ⋅ 0.15 15 ⋅ 0.15 20 ⋅ 0.2 25 ⋅ 0.1 30 ⋅ 0.1
35 ⋅ 0.05 40 ⋅ 0.05 427.5.
5 ⋅ 0.1 10 ⋅ 0.1 15 ⋅ 0.05 20 ⋅ 0.2 25 ⋅ 0.2 30 ⋅ 0.15
35 ⋅ 0.08 40 ⋅ 0.07 45 ⋅ 0.05 675.
427.5 18 103.5. ⇒ 10.17.
675 23. 6 118.04 ⇒ 10.86.
Finalmente:
10.17
0.56,
18
10.86
0.46.
23.6
Por lo tanto, el primer fármaco tiene mayor variación.
Ejemplo 7-10 Sea la variable aleatoria que mide el tiempo que la gente
aguanta sin acostarse con su pareja, en semanas, después de un
diagnóstico de enfermedad venérea. La función de densidad de esta variable
aleatoria viene dada por:
1 ∈ 0,2
. 2
0 ∉ 0,2
a) Determinar y representar la función de distribución de esta variable. b)
¿Cuál es la probabilidad de que un diagnosticado de venéreas vuelva ya a la
162 | P á g i n a
cama con la pareja antes de 3 días y medio? ¿Y exactamente a los tres días
y medio? c) ¿Cuál es la probabilidad de que aguante más de tres días y
medio y menos de 1 semana?
Solución.
Dibujamos la función de densidad a continuación.
a) Al estar la función de densidad definida en 3 tramos (antes de 0, entre 0 y
2, y después de 2), la función de distribución tendrá que calcularse en dichos tramos,
como la integral desde ∞ hasta . En cada tramo el área se calculará según la
función que tengamos. Podemos verlo de forma detallada en las gráficas F1, F2 y F3.
F1
P á g i n a | 163
F2
F3
Matemáticamente:
0 0 0
0 1 4 0 2
1 0 1 2
164 | P á g i n a
Esta función la dibujamos a continuación.
b) El recorrido de la variable es 2 semanas. Tres días y medio corresponde a
(semana) 0.5.
La probabilidad de volver a acostarse con su pareja justo a los tres días y medio
es 0.5 0 porque es una variable continua; la probabilidad de un punto es
cero.
c) La probabilidad de que aguante más de tres días y medio y menos de 1
semana es 0.5 1 1 0.5 1 1 4 0.4375 0.3125.
Solución. Primero dibujamos la función de densidad en la Figura 7‐12.
a) Al estar la función de densidad definida en 4 tramos (antes de 0, entre 0 y
2, entre 2 y 4, y después de 4), la función de distribución tendrá que calcularse en
dichos tramos, como la integral desde ∞ hasta . En cada tramo el área se calculará
integrando la función que tengamos. Podemos verlo de forma detallada en las
gráficas F1 y F2.
Figura 7‐12
Matemáticamente, la función de distribución se escribe:
0 0 0
0 0 2
2 4
1 4
166 | P á g i n a
F1
F2
La gráfica de la función de distribución es la que sigue.
P á g i n a | 167
b) Tenemos que calcular 1500/ 3000 . Por la definición de
probabilidad condicionada, es
1 1
1500 3000 3000 1500 1 3 3 1. 5
8 8
3000 3000 1
1 3 3
8
0.67.
c) El sueldo mensual medio es . En este caso, la integral
se divide en una suma de 4 integrales, una por cada parte en que se define de forma
diferente.
4
⋅0⋅ ⋅ ⋅ ⋅ ⋅ ⋅0⋅
4 4
4
0 0
4 4
2 4
2.
3 3
Por lo tanto, el sueldo medio son 2000 euros.
, 100, 0 .
Solución.
168 | P á g i n a
a) El dibujo de la función de densidad es el que sigue:
Como el área bajo la función de densidad debe ser 1, se tiene que
1 0 0 .
Tenemos que
,
con lo que
0 .
→ 100 100
Como este último valor debe ser igual a 1, obtenemos que 100.
La función de distribución será
0 100
100
100
Como 100, resulta
0 100
100 .
1 100
Dibujamos la función:
P á g i n a | 169
b) Nos piden calcular 200/ 150 .
150 200 200 150
200/ 150
150 1 150
100 100
1 1 1
200 150 0.25
100 4
1 1
150
c) Nos piden calcular el valor tal que 0.5. Usando la
probabilidad del suceso complementario, tenemos que 1 0.5 0.5.
Por lo tanto, el valor es precisamente la mediana. Como ,
tenemos que
100 100
1 0.5 ⇒ 200 .
0.5
d) El tiempo de espera medio es la esperanza de la variable.
100
⋅0⋅
100
100 .
170 | P á g i n a
Como vemos, el resultado es un número que tiende a infinito. Esta variable
aleatoria no tiene esperanza.
Solución.
a) Como nos dicen que la función es continua, tendremos que, en los valores
3 y 5, coinciden las distintas funciones, es decir:
⋅3 y 8 5 ,
de donde únicamente obtenemos 3 .
Por otro lado, la integral debe ser 1:
1 0 8
3
8
2 3 2
P á g i n a | 171
9 3 9 7
2 .
2 2 2 2
Como 3 , tenemos que 1 15 , con lo que 1/15 y
3/15 1/5.
La función de densidad tiene esta forma:
b) 3 .
c) 3 5/ 3
1 2
3 5 ∩ 3 3 5 5 5 4
.
3 1 3 3 7 7
1 10
10
d) Nos piden la moda de la variable, es decir el máximo de la función de
densidad. Sin más que mirar a la función de densidad, vemos que el intervalo 3,5 es
el intervalo modal, pues en dicho intervalo el valor que toma la función es constante
(y máximo).
e) Nos piden el valor tal que 0.10, o, lo que es lo mismo,
0.9; esto es, nos están pidiendo calcular el percentil 90.
En la gráfica de la función de densidad vemos que el 90 por ciento de área
acumulada estará en el intervalo 5,8 , con lo que podemos escribir
172 | P á g i n a
1
8 0.1.
15
Integrando,
1
8 0.1,
15 2
que, haciendo cuentas, queda una ecuación de segundo grado:
16 61 0,
cuyas soluciones son 6.27 y 9.73. Como 9.73 está fuera del intervalo 5.8 , el valor
del percentil 90 es 6.27.
P á g i n a | 173
7.3.7 Resumen para vagos
Variable Variable
Discreta Continua
1
.
,
con
Media
Varianza
x
Más ejercicios, para los inquietos, en [12].
174 | P á g i n a
Imagen para recordar conceptos (aunque esta no decimos que la recortéis y
la peguéis en ningún sitio)
Esperanza Aguirre, solicitando el voto de los estadísticos, sin saberlo.
P á g i n a | 175
8 PRINCIPALES VARIABLES DISCRETAS
Uno de cada 7 médicos opina que los otros 6 son idiotas.
Los seis amigos del doctor House.
8.1 VARIABLE DE BERNOULLI
Supongamos un experimento aleatorio que admite sólo 2 posibles resultados:
éxito ( ) o fracaso ( ̅ , que ocurren con probabilidad y 1 ,
respectivamente. Este tipo de experimento recibe el nombre de prueba de Bernoulli.
La variable aleatoria con función de probabilidad
0
1
recibe el nombre de variable aleatoria de Bernoulli (se escribe ∈ .
8.1.1 Media y varianza
Se obtiene fácilmente que y .
0⋅ 1⋅ .
0 ⋅ 1 ⋅ ⋅ 1 ⋅ .
Ejemplo 8-1 La variable que toma el valor cero si sale cara al lanzar una
moneda, y uno en caso contrario.
Ejemplo 8-2 Analizando una persona para saber si tiene una enfermedad. La
variable toma el valor 1 si tiene la enfermedad, 0 en caso contrario. en este
caso es la probabilidad de tener la enfermedad. Obviamente, a tener una
176 | P á g i n a
enfermedad no se le llamaría coloquialmente “éxito”, pero suele denominarse
así a aquel suceso en el que estemos interesados.
8.2 VARIABLE BINOMIAL
Supongamos que se realizan experimentos de Bernoulli de manera sucesiva,
siendo cada experimento o prueba independiente del anterior (por ejemplo, lanzar
veces una moneda; analizar personas para saber si tienen o no una enfermedad).
La Variable “número de veces que ocurre el suceso en las pruebas” o
“número de éxitos en pruebas” recibe el nombre de variable binomial de
parámetros y ( é en 1 prueba)). Se escribe ∈ , .
La variable puede tomar los valores 0,1,2, . . . (en pruebas puede haber
desde 0 hasta éxitos) siendo la probabilidad con que los toma:
P á g i n a | 177
!
, donde ,
! !
y recordemos que el factorial de un número es ! ⋅ 1 ⋅ 2 ⋅. . .⋅ 3 ⋅
2 ⋅ 1.
La obtención de esta fórmula es relativamente sencilla (si alguno no la sigue
bien, guiarse por los macacos de la página siguiente):
Si en pruebas hay éxitos, el suceso (probabilidad habrá ocurrrido
veces. En consecuencia, el suceso ̅ (fracaso) habrá ocurrido veces. A
continuación escribimos una situación posible: los primeros experimentos o
pruebas dan éxito y los restantes fracasos.
1 .2 … . 1 . . 1 . 2 … . 1 .
… ̅ ̅ … ̅ ̅
La probabilidad de que se dé esta situación es la probabilidad de la
intersección de todos esos sucesos ∩ ∩. . .∩ ̅ , que, por ser una intersección
de sucesos independientes (pensemos en el experimento más facil, lanzar una
móneda, éxito cara) es
∩ ∩. . .∩ ̅ ⋅ ⋅. . .⋅ ⋅ ̅ ⋅ ̅ ⋅. . .⋅ ̅ .
Ahora éste último valor ( debemos multiplicarlo por el número de
pósibles opciones que pueden darse, en pruebas, de que ocurran éxitos y
9
fracasos (que se vayan alternando éxitos y fracasos, etc.) . Se demuestra que el
número de posibles opciones es:
!
, y, por lo tanto, .
! !
9
Supongamos un caso muy sencillo: 3, 1. Las posibles situaciones que podrían
darse son ∩ ̅ ∩ ̅, ̅ ∩ ∩ ̅ y ̅ ∩ ̅ ∩ .
178 | P á g i n a
P á g i n a | 179
8.2.1 Media y varianza.
Puede demostrarse que la media y la varianza son:
y .
Ejemplo 8-3 El 65 por ciento de los alumnos de un instituto han dicho que
piensan acudir a la proxima convocatoria para rodear el congreso de los
diputados. El director se chiva al comisario de policía y éste, para ahorrar
tiempo, decide detener a 4 alumnos al salir del instituto. ¿Cuál es la
probabilidad de que, al menos uno de ellos, tuviera pensado acudir a la
manifestación, y así el comisario poder justificar que fue una detención
preventiva para evitar males mayores?
Solución.
Definimos =“éxito” “acudir a la manifestación”. 0.65.
Plantear la variable “número de alumnos que piensan acudir a la
manifestación de un grupo de 4” es equivalente a plantear =“número de éxitos en 4
pruebas”. Por lo tanto, ∈ 4,0.65 . La probabilidad que nos preguntan es
1 .
1 1 1 1 0
4
1 0.65 1 0.65 1 0.015 0.985,
0
180 | P á g i n a
es decir, que el comisario tiene justificación casi segura.
Ejemplo 8-4 Una leyenda urbana que suele circular por todas las
universidades es que siempre hay algún profesor que decide el aprobado o
suspenso lanzando los exámenes al aire. Los que caen en la mesa aprueban,
y los que no, suspenden. Si la probabilidad de que un examen caiga sobre la
mesa (es la pequeña del ordenador, no la suya de despacho) es 0.2, calcular
la probabilidad de que al menos la mitad de una clase de 40 alumnos apruebe.
Solución.
Sea “número de exámenes que caen sobre la mesa, de 40 lanzados”. Esta
variable sigue una distribución binomial 40,0.2 , pues sería éxito caer sobre la
mesa.
La probabilidad de que al menos la mitad aprueben es
20 1 20 1 19
40
1 ⋅ 0. 2 ⋅ 1 0.2 ≅1 0.99 0.01.
(8‐1)
Parece bastante lógico pensar que sería bueno comprarle una mesa más
grande al profesor para mejorar el ratio de aprobados por clase.
8.2.2 Propiedad aditiva
La Variable binomial es reproductiva respecto al parámetro . Esto quiere
decir que Si ∈ , e ∈ , son 2 variables independientes, la suma
∈ , (esta propiedad es generalizable a un número finito de
variables).
Ejemplo 8-5 Un activista del grupo Anonymous logra colar un virus en las
páginas web de una cadena editorial propiedad de un grupo religioso. El virus
hace arrancar de repente videos pornográficos en proporción del 5 por ciento
por página web (del total de videos informativos reales de dicha página o
dirección web). 6 sacerdotes se conectan al día a 20 direcciones diferentes
del mismo grupo editorial. Cálcular el número medio de videos que podrán
bajarse de internet al final del día.
Solución.
Sea el número de videos pornográficos que se cuelan en un grupo de 20
direcciones web, sabiendo que la probabilidad de que salga un video pornográfico por
página es 0.05. Suponiendo que los videos pornográficos surgen de manera
independiente, ∈ 20,0.05 .
182 | P á g i n a
Igualmente, la variable ... (siendo la variable medida para
el sacerdote , por la propiedad de reproductividad, sigue una distribución 20 ⋅
6,0.05 ≡ 120,0.05 .
El número medio de videos al final del día es 120 ⋅ 0.05 6.
8.3 VARIABLE DE POISSON
Un proceso de Poisson es un experimento aleatorio que consiste en observar
la aparición de sucesos puntuales sobre un soporte continuo (tiempo, longitud,
superficie... ), de manera que:
El proceso sea estable, es decir, a largo plazo el número medio de sucesos
(que denominaremos ) por unidad de medida es constante, y los sucesos ocurren
aleatoriamente de forma independiente.
Ejemplos: clientes que acuden a un mostrador por unidad de tiempo, llamadas
por unidad de tiempo a una centralita, pelmazos por unidad de tiempo a una tia
buena en una disco, defectos por metro de cable...
Esto se entiende mejor con una gráfica: describimos un proceso de Poisson
en la Figura 8‐1.
En un proceso de Poisson, la variable =“número de sucesos ocurridos en un
intervalo” se dice que sigue una distribución de Poisson de parámetro . Se escribe
∈ . Su distribución de probabilidad es
, 0,1,2, . ..
!
El número de valores puede llegar hasta infinito. Es un caso de una variable
aleatoria discreta que toma un número infinito numerable de valores.
P á g i n a | 183
Figura 8‐1
La variable de Poisson es también una generalización de la variable binomial.
Supongamos que, en un experimento de Bernoulli, el suceso éxito tiene una
probabilidad muy pequeña (se dice que es un suceso raro). Puede
demostrarse que si es la variable , , que mide el número de éxitos en
pruebas, y tiende a infinito, puede aproximarse por una variable de Poisson de
parámetro . Por este motivo, la distribución de Poisson también es conocida
como distribución de los “procesos raros”.
⟶ con .
→ !
En la práctica, no hay que suponer que se realizan muchísimas pruebas. Esta
aproximación funciona bien si 30 y 0.1.
184 | P á g i n a
8.3.1 Media y varianza
Se tiene que
.
Propiedad aditiva. Al igual que la variable binomial, la variable de Poisson es
reproductiva respecto al parámetro . Si ∈ e ∈ son 2
variables independientes, la suma ∈ (y esto se puede
generalizar a una suma finita de variables).
Solución.
Definimos =“éxito” “ser valiente”. 0.05.
“número de éxitos en 350 pruebas” ∈ 350,0.05 .
Al ser 30 y 0.1, la variable se puede aproximar por una variable de
Poisson de parámetro 350 ⋅ 0.05 17.5.
. .
La probabilidad de 3 ⋅ 2.2429 ⋅ 10 o
!
0.000022429.
Con lo cual, queda demostrado que el golpe de Tejero estaba destinado al
fracaso desde el principio, porque Tejero empezó teniendo muy mala suerte (como
vemos era muy difícil que 3 tíos no se echaran al suelo, como realmente sucedió).
Todos los hechos posteriores fueron consecuencia de la ley enunciada por un
estadístico apellidado Murphy: “si algo puede ir mal, irá mal”.
P á g i n a | 185
Nota 8-4 En R, para calcular la probabilidad, nada más arrancar el programa
escribimos dpois(3,lambda=17.5)
El resultado es: [1] 2.242898e-05
P á g i n a | 187
Solución.
16 clientes en 4 horas supone 4 clientes por hora, luego la variable =“número
de clientes correctamente atendidos por hora” sigue una distribución de Poisson de
parámetro 4.
La probabilidad de atender correctamente al menos a la mitad de los 12
clientes es 6
188 | P á g i n a
4
1 6 1 5 1 1 0.785 0.215.
!
Va a ser mejor que el gerente tenga las pistolas cargadas, porqué parece
bastante probable que se va a liar.
8.4 VARIABLE GEOMÉTRICA O DE PASCAL
Supongamos que se realiza un experimento de Bernoulli hasta que se obtiene
el primer éxito (por ejemplo, lanzar una moneda hasta obtener cara, mover una
ruleta hasta que salga negro).
Definamos la variable "número de la prueba en que se obtiene por
primera vez un éxito”. Se dice que sigue una distribución geométrica o de Pascal de
párametro é .
Su función de probabilidad es fácil de calcular:
Los valores que puede tomar son 1,2,3,... y así, en principio hasta infinito,
pues el primer éxito puede ocurrir en la primera prueba, en la segunda, etc...
Obviamente, la probabilidad de que tome valores grandes será cada vez más
pequeña. Se trata de otra variable aleatoria discreta que toma un conjunto infinito
numerable de valores.
La probabilidad de que la variable tome un valor concreto corresponde a
que ocurran exactamente 1 fracasos y 1 éxito en la prueba . La probabilidad de
que eso ocurra es (recuérdese que es éxito y ̅ es fracaso).
P á g i n a | 189
1
2 ̅ ⋅
3 ̅ ̅ ⋅
⋮ ⋮ ⋮
̅ ̅ ̅. . . ̅ ⋅ ⋅. . .⋅ ⋅
Por lo tanto, la ley de probabilidad de esta variable es
, 1,2, . ..
Puede comprobarse que está bien definida, es decir que la suma de todas las
probabilidades da 1, puesto que
,
y la suma ∑ corresponde a la suma de una progresión geométrica de razón
1, cuyo valor es exactamente el primer término, dividido por uno menos la razón,
esto es
1 1
.
1 1
Por lo tanto, la suma de probabilidades es ⋅ 1/ 1. Las progresiones
geométricas solían darse en los cursos de educación secundaria, por eso lo citamos.
De todas formas, siempre se puede calcular la suma infinita en la página
WolframAlpha, que ya se indicó anteriormente.
8.4.1 Media y varianza
Se obtiene que
1
y .
Nota 8-6 En algunos textos definen esta variable como “número de fracasos
antes del primer éxito”. Es decir, si aparece definida la variable geométrica de esta
forma, =“número de fracasos antes del primer éxito”, téngase en cuenta que contar
190 | P á g i n a
es equivalente a contar 1. La variable tomará los valores
0,1,2, . . ..(antes empezábamos en el 1) y sus probabilidades serán ⋅ .
En este caso, la media y la varianza son / y / .
Como cada llamada se asigna aleatoriamente a una telefonista, la probabilidad de
que le toque la que está buscando es 1/40 0.025.
P á g i n a | 191
La variable =“número de la prueba en que consigue hablar con la chica que está
buscando” sigue una distribución geométrica de parámetro . La probabilidad que
tenemos que calcular es
8 1 8 1 ∑ 1 0.025 ⋅ 0.025
1 0.183 0.817.
El número medio de llamadas que deberá hacer es 1/ 40.
Nota 8-7 Para calcular esta probabilidad por medio de R, debemos tener en
cuenta que R define la variable geométrica como “número de fracasos antes del primer
éxito”. Esto quiere decir que deberíamos calcular 7 1 7 1
7 , siendo la función de distribución en el valor 7. La sintaxis de 7 en R es
pgeom(7,prob=0.025).
El resultado es [1] 0.1833482
8.5 VARIABLE BINOMIAL NEGATIVA
Esta variable supone una generalización de la anterior. En la variable
geométrica se cuenta el número de fracasos antes del primer éxito. Ahora, vamos a
suponer que se realiza un experimento de Bernoulli hasta que se obtiene el éxito
número 1 .
Definamos la variable "número de fracasos antes del éxito ”. se dice
que sigue una distribución Binomial Negativa de párametros y . Se escribe ∈
, .
Su ley de probabilidad es
1 (8‐2)
, 0,1,2, . ..
La forma de calcular la ley de probabilidad es del mismo estilo que la vista en
la distribución binomial. Veamos como se hace:
192 | P á g i n a
La variable cuenta los fracasos hasta que haya éxitos. Supongamos que
vamos realizando pruebas (hasta llegar al éxito , y supongamos que las 1
primeras pruebas son éxitos, y luego todas son fracasos ( fracasos):
1 2 ... 1 1 2 ... 1
̅ ̅ ̅ ̅
... ...
Como vemos, para que , es decir haya fracasos, la prueba debe
ser un éxito.
La probabilidad de que suceda lo que vemos en la tabla de arriba ( 1 éxitos,
a continuación fracasos, y a continuación el último éxito) es ⋅ ⋅ .
Como, obviamente, debemos tener en cuenta que los éxitos y los fracasos
pueden mezclarse, hay que multiplicar por todas las posibilidades que pueden
darse. Se puede comprobar que el número de posibilidades es
1 1 !
,
1 ! !
y, por lo tanto, la probabilidad de que tome un valor cualquiera es la expresada
en la fórmula (8‐2).
Puede comprobarse que se trata, en efecto, de una ley de probabilidad, es
decir
1
1.
8.5.1 Media y varianza
Se obtiene que
.
Por lo tanto, es facil de ver que la media de la binomial negativa es veces la media
de la geométrica ( / ), y la varianza veces la varianza de la geométrica ( / .
Ejemplo 8-11 Después de conseguir hablar por fin con su amor platónico, el
pringado del ejercicio anterior le ha pedido una cita pero la chica ha colgado
el teléfono. En otra llamada, una compañera apenada por el chico le dice que
insista, que ya se sabe que “el que la persigue la consigue”, y que le da la
impresión de que la compañera, si ve que él la llama al menos 5 veces,
acabará accediendo.
Como el teléfono al que tiene que llamar el chico es un 902, cada llamada
tiene un coste medio de 4 euros. Si llama más de 50 veces la factura superará
los 200 euros que tiene el padre para terminar el mes, y es capaz de tirar al
hijo por la ventana. ¿Cuál es la probabilidad de que, para conseguir que la
194 | P á g i n a
telefonista amada le coja hasta 5 veces, deba de llamar más de 50 veces al
número?
Solución.
La variable =“número de fracasos hasta obtener el éxito 5” ∈ 5,0.025 .
Necesitamos calcular 45 (porque serán 45 fracasos antes del 5 éxito = 50
llamadas). 45 1 45
5 1
1 ⋅ 1 0.025 ⋅ 0.025 1 0.0081 0.9919.
También podemos calcular esta probabilidad como 45
1 45 1 45 , y calculamos 45 en R, simplemente
como:
pnbinom(45, size=5, prob=0.025)
[1] 0.008132778
P á g i n a | 195
8.6 VARIABLE HIPERGEOMÉTRICA
Supongamos que tenemos una población de elementos, que se divide en
dos clases: y ̅. El número de elementos de cada clase los denotamos como y
̅ . Lógicamente ̅ . Supongamos que se extrae una muestra de tamaño
de la población, sin reemplazamiento. La variable “número de elementos de la
clase en la muestra” se dice que sigue una distribución hipergeométrica de
parámetros , y . Se escribe ∈ , , si le llamamos “éxito” a obtener
un elemento de la clase , la variable
nos mide el número de éxitos obtenidos
en la muestra).
NO se trata de una variable
binomial, puesto que en la variable
binomial las pruebas son independientes.
Por lo tanto, en un experimento binomial
lo que haríamos sería quitar de la
población una muestra de tamaño con
reemplazamiento; esto es, elegir un elemento de la población, ver si es de la clase
o no lo es, devolverlo a la población, extraer otro elemento de la población, ver si es
de la clase . . ., y así sucesivamente hasta veces.
196 | P á g i n a
La ley de probabilidad de la variable hipergeométrica es de la forma
̅
,
8.6.1 Media y varianza
Puede comprobarse que estos valores son, respectivamente,
⋅ ⋅
, 1 .
1
Si se escribe ( es la probabilidad de elegir un elemento de la clase ,
y llamamos 1 (que equivaldría a elegir un elemento de la clase ̅ , las
fórmulas de la media y la varianza quedan de la forma:
, .
1
Como vemos en las fórmulas escritas de esta manera, la media es la misma
que la de la variable binomial, y la varianza es la de la binomial multiplicada por un
factor. Esta coincidencia se debe a que la variable binomial puede considerarse un
caso extremo de una variable hipergeométrica, cuando el tamaño de la población
es infinito (muy grande). Si consideramos una población de tamaño infinito, sacar una
muestra sin reemplazamiento es prácticamente lo mismo que sacarla con
reemplazamiento.
En la práctica, si es grande respecto a , se pueden calcular las
probabilidades de la hipergeométrica por medio de la distribución binomial. Esto es
posible cuando / 0.1. Esto se hacía antes porque la distribución binomial estaba
tabulada (las famosas tablas de los libros) pero la hipergeométrica no, lo cual
conllevaba hacer cuentas con la calculadora; y en ocasiones ni con esta era posible.
P á g i n a | 197
Hoy en día, si queremos, nos olvidamos de la aproximación (salvo que el profesor lo
exija).
La variable =“número de
cervezas negras en la muestra de tamaño
4” sigue una distribución
hipergeométrica de parámetros
25, 10, 4.
La probabilidad de que les
toque al menos una cerveza negra es
1 1
2 3 4
198 | P á g i n a
10 15 10 15 10 15 10 15
⋅ ⋅ ⋅ ⋅
1 3 2 2 3 1 4 0 ,
25 25 25 25
4 4 4 4
que también puede calcularse como
10 15
⋅
1 1 1 1 0 1 0 4 0.89.
25
4
Por lo que parece, alguno se va a tragar algo desagradable.
Nota 8-9 De nuevo, para ver la diferencia con una binomial, supongamos que
todas las cervezas están en la barra, y cada uno de los cuatro clientes puede echar un
trago y devolver la jarra al mostrador (sí, sería una guarrada, pero estamos en un
ejemplo y, además, seguro que cualquiera que esté leyendo esto ha hecho cosas
peores). En este caso, la variable =“número de tragos de cerveza negra en la muestra
de tamaño 4” sería una variable binomial (al devolver la jarra al mostrador la situación
siempre queda la misma, por lo que hay independencia entre cada trago y el siguiente)
(ojo: estamos obviando que una jarra se acabe).
Solución.
Dividimos la población, de tamaño 30, en 2 clases: los que saben la
lección ( , con 5) y los que no la saben ( ̅, con ̅ 25). La variable
=“número de alumnos que saben la lección en la muestra de tamaño 3” sigue una
distribución hipergeométrica de parámetros 20, 5, 3.
Como sólo puede haber uno que no se sepa la lección, al menos 2 sí deben
saberla. Tenemos que calcular
P á g i n a | 199
5 25 5 25
⋅ ⋅
2 2 3 2 1 3 0 0.061 0.002
30 30
3 3
0.063,
con lo que la probabilidad de que la clase se quede sin recreo es la probabilidad del
complementario del suceso 2 , es decir 1 0.063 0.937.
Solución.
Tenemos que realizar un planteamiento similar al del ejercicio anterior. La
población total contiene 25 60 pastillas, de las cuales hay 25 de la clase
(laxantes) y ̅ 60 de la clase ̅ (para la salmonela). El enfermero coge
aleatoriamente una muestra de 3 para dárselas al paciente de la 211. Entonces,
la variable "número de laxantes en la muestra de tamaño 3” sigue una distribución
hipergeométrica de parámetros 85, 25, 3.
La probabilidad a calcular es
200 | P á g i n a
25 60
⋅
1 1 0 1 0 3 1 0.34 0.66.
85
3
Fijémonos que, en este ejercicio, la proporción / 3/85 0.035
0.1, con lo cual podríamos realizar la aproximación mediante la distribución binomial,
es decir se aproximaría por una 3, ≡ 3,0.29 .
Si calculamos la probabilidad 0 mediante esta distribución binomial,
tendríamos
3
0 ⋅ 0.29 ⋅ 1 0.29 0.35,
0
que es, como vemos, muy parecido al resultado directo mediante la hipergeométrica.
P á g i n a | 201
9 PRINCIPALES VARIABLES CONTINUAS
9.1 VARIABLE UNIFORME
Una variable aleatoria continua se dice que sigue una distribución uniforme
entre dos valores y (se representa ∈ , si su función de densidad tiene
la expresión
1
∈ ,
0 ∉ ,
Su función de distribución es
0
∈ ,
1
Las gráficas de las funciones de densidad y distribución pueden verse en la
Figura 9‐1 (gráficos de Wikipedia).
Figura 9‐1
202 | P á g i n a
Esta variable es la generalización, al caso continuo, de la variable uniforme
discreta (la que da a todos los valores la misma probabilidad). La variable uniforme
reparte de manera continua y equivalente la probabilidad, es decir, intervalos de igual
longitud (dentro de , tienen igual probabilidad. Recuérdese que, en las variables
continuas, la probabilidad entre 2 puntos y es el área bajo la función de
densidad. En este caso, el área sería el área de un rectángulo, es decir (ver Figura
9‐2):
1
⋅ .
9.1.1 Media y varianza
Sus parámetros media y varianza son:
.
2 12
horas. El Keni está escondido detrás del portal esperando que baje para
pillarla antes de ir al botellón, porque tiene esperanzas de liarse con ella esa
noche. Lo malo es que se ha metido varios litros de RedBull y está cardíaco
perdido, después de una hora de que la Vane comenzó a arreglarse. Si la
Vane tarda más de cuarenta y cinco minutos, al Keni le puede dar un vahído
y echarlo todo a perder. ¿Cuál es la probabilidad de que eso suceda?
Solución.
El tiempo en arreglarse es ∈ 60,120 (expresado en minutos). Por lo tanto,
la probabilidad de que tarde más de 45 minutos en arreglarse es
60 45
105 60
105 1 105 1 105 1 0.25.
120 60
También puede calcularse usando la función de densidad:
105 ,
que sería el área bajo la curva entre los valores 105 y 120; lo que, en este caso, se
reduce al área de un rectángulo, como se observa en la Figura 9‐2.
Figura 9‐2
204 | P á g i n a
9.2 VARIABLE EXPONENCIAL
Una variable continua se dice que sigue una distribución exponencial de
parámetro 0 si su función de densidad es
0 0
0
Su función de distribución es
0 0
1 0
Se representa ∈ . Suele representar la duración o tiempo de
supervivencia de un sistema biológico o mecánico, además de adaptarse bien a otras
medidas, como la magnitud de los terremotos en una determinada zona. Las gráficas
de la función de densidad y distribución, para algunos valores de , son las siguientes
(fuente: wikipedia):
9.2.1 Media y varianza
Se puede comprobar que son:
1 1
ver figura siguiente y .
P á g i n a | 205
Ejemplo 9-2 El tiempo de espera, para ser atendido por Mesalina, sigue una
distribución exponencial de media 60 minutos, según uno se pone en la cola.
¿Cuál es la probabilidad de que a Petronio le de tiempo a llegar a casa antes
de 50 minutos (téngase en cuenta que Mesalina te atiende en 2 minutos y la
casa de Petronio está a la vuelta de la esquina (1 minuto para volver)?
Solución.
=“tiempo de espera en minutos” sigue una distribución exponencial. Como
nos dicen que la media es 60, y la esperanza es 1/ , entonces . La
⋅
probabilidad que nos piden es 47 47 1 0.54.
9.3 VARIABLE NORMAL
Una variable aleatoria continua sigue una distribución Normal de
parámetros y (se escribe ∈ , si su función de densidad es
1
, ∞ ∞.
√2
206 | P á g i n a
Esta variable, cuando se consideran los valores 0 y 1, se llama
Normal estándar o Normal tipificada. La función definida según esta fórmula tiene
forma de campana, llamada la campana de Gauss (por Carl Friedrich Gauss; 1777 ‐
1855). Es la distribución continua más importante, por la frecuencia con que aparece,
y por sus propiedades teóricas. Mide gran cantidad de caracteres como pueden ser
morfológicos (peso, talla, diámetros, perímetros), sociológicos (consumo de un cierto
producto, puntuaciones en un examen), fisiológicos (efecto de una misma dosis de
un fármaco), físicos (errores en medidas), etc.
La función de distribución no podemos escribirla, porque no fue capaz ni
10
Gauss.
9.3.1 Media y varianza
La media o esperanza corresponde al valor que aparece en la fórmula, y la
desviación típica al valor .
9.3.2 Propiedades
La función de densidad es simétrica respecto de la media , es decir, áreas a
la derecha y áreas a la izquierda (probabilidades) coinciden. En la Figura 9‐3 podemos
observar distintas funciones de densidad cambiando la desviación típica (a mayor
desviación típica la curva se aplana, a menor desviación típica la curva es más
puntiaguda en la media). Cambiar la media supone simplemente desplazar la curva a
derecha o izquierda. Esto sucede porque el área bajo la curva siempre es igual a 1.
Las áreas entre valores de y 1,2,3 pueden verse en la
Figura 9‐4. Entre los valores ‐ y se concentra el 68.2 por ciento de la distribución,
y entre 2 y 2 se concentra el 95.4 por ciento. Esto hace que los valores 2
y 2 se consideren los valores máximos y mínimos comunes. Dicho de otro
10
Para obtener la función de distribución sería necesario calcular la integral de la de
función de densidad, que no tiene primitiva. Por eso se construyeron las famosas Tablas de la
normal, que aparecen en tantos y tantos libros de estadística. Hoy en día, igual que hacemos aquí,
para calcular áreas o probabilidades asociadas a la distribución normal, se acude a alguna página
web o software estadístico, que realizan aproximaciones de tipo numérico.
P á g i n a | 207
modo, los valores que están más alejados de la media dos veces la desviación típica
son valores “raros” en la distribución (suelen llamarse límites 2‐ .
Figura 9‐3
Figura 9‐4
208 | P á g i n a
Podemos pensar, como ejemplo, en la variable “estatura”. Los valores más
alejados de la media en dos veces la desviación típica serían valores anormalmente
bajos o anormalmente altos, y tanto más cuanto más se alejen de la media. Lo mismo
podemos considerar en variables como el peso, índice de colesterol, presión
sanguinea, cociente intelectual, etc.
Otro ejemplo clásico de aplicación de estos límites es el de los análisis de
sangre. En la Figura 9‐5 tenemos un ejemplo, donde la columna de la derecha (valores
de referencia) corresponde al intervalo 2 , 2 , donde y son los valores
media y desviación típica de la población general (calculados tras realizar un número
muy grande de observaciones). La columna de resultados es el valor correspondiente
al paciente y, si dicho valor no está dentro del intervalo de referencia
correspondiente, es que ese valor sale fuera del 95.4 por ciento más “normal”.
Figura 9‐5
P á g i n a | 209
9.3.3 Tipificación
Sirve para comparar individuos diferentes obtenidos de sendas poblaciones
normales. Si ∈ , , entonces ∈ 0,1 , es decir, es una variable
normal tipificada o normal estándar. Las probabilidades asociadas a cualquier
variable normal pueden calcularse a través de la normal tipificada:
.
Ejemplo 9-3 En una granja de Viladecáns se crían dos razas de vacas: Marela
y Ciones. El peso de las vacas Marela se distribuye según una N(750 Kg, 30
kg), mientras que el de las vacas Ciones tiene distribución N(500 Kg, 10 kg).
Un año en particular se observaron dos enormes ejemplares de cada raza:
210 | P á g i n a
uno de la raza Marela que pesó 870 Kg, y otro de la raza Ciones que pesó
550 Kg. a) Deducir cuál de los dos ejemplares fue el que más destacó. b) De
la raza a la que pertenezca este ejemplar, decir qué porcentaje de vacas
pueden ser levantadas sin problemas por Andresín, el bestia del pueblo, que
mueve hasta 530 kilos haciendo pesas en el Gym.
Solución.
Tipificamos ambos valores:
4, frente a 5. Por lo tanto, destacó más el ejemplar de la
raza Ciones.
Llamemos ahora =“peso de las vacas de la raza Ciones”. Nos dicen que ∈
500,10 . Calculamos 530 suponemos que Andresín, lo que mueve
haciendo pesas también lo levanta en brazos). Esto lo podemos hacer directamente
o tipificando.
500 530 500
530 , 3 0.99865.
10 10
En este caso, hemos ido a la página statdistributions.com, y buscado el área
a la izquierda del valor 3 en una 0,1 , como puede verse en esta captura de
pantalla:
P á g i n a | 211
Se ve que el valor 3 deja a la izquierda 0.999 de área, lo que significa que
Andresín levanta el 99.9 por ciento de las vacas de esa raza (o casi todas). El valor 3
es el cuantil p, con p=0.999.
Solución.
El valor será aquel tal que 0.02, siendo =“nivel de colesterol”
∈ 200,10 .
El valor que hay que calcular es equivalente a calcular el cuantil de orden 98
(percentil 98), puesto que 1 0.02 0.98.
Solución.
Como el perímetro craneal es una variable ∈ 60,2 , el valor que
buscamos es aquel tal que 0.8, es decir el percentil 80.
9.3.4 Propiedad aditiva
Igual que vimos en otras variables, la variable normal es reproductiva: la suma
de variables aleatorias normales independientes es otra variable aleatoria normal,
con media la suma de las medias y varianza la suma de varianzas.
Puede establecerse un resultado más general: sean ∈ , , y
números reales, 1, . . . , . Se verifica:
9‐1
∈ , ,
esto es, una combinación lineal de variables aleatorias normales es otra variable
aleatoria normal, cuya media es la combinación lineal de las medias, y la varianza es
la combinación lineal de las varianzas, pero con los términos elevados al cuadrado.
P á g i n a | 213
Solución.
Llamemos =“longitud”. Esta variable sigue una distribución normal
16.3,3 .
La diferencia entre dos longitudes sigue una distribución normal.
Para ver qué parámetros sigue, aplicamos la fórmula 9‐1 .
Aquí tenemos 1 y 1. Por lo tanto, la media sera
1⋅ 1⋅
y la varianza
1 ⋅ 1 ⋅ .
de manera que ∈ 16.3 16.3, √1 ⋅ 3 1 ⋅3 ≡ 0, √18 0,4.24 .
Figura 9‐6
Recuérdese que 1.5 1.5 1.5 1.5 . En R se calcularía
como
pnorm(1.5,0,4.24)-pnorm(-1.5,0,4.24)
9.4 TEOREMA CENTRAL DEL LÍMITE
Este teorema dice, de manera esquemática, que, cuando sumamos un
número grande de variables, la variable resultante sigue una distribución normal. De
manera general, si , , . . . , son variables de media o esperanza y
varianza , 1, . . . , , se verifica que la variable suma
... (si es un número tendiendo a infinito) se puede aproximar por una
variable normal, de media la suma de las medias y varianza la suma de varianzas
(desviación típica = raiz de la suma de varianzas), es decir
P á g i n a | 215
... , .
Este teorema (del que damos únicamente una idea general, sin establecer las
hipótesis matemáticas reales) establece la importancia de la distribución normal. Su
resultado es que, cuando se suma un número grande de variables aleatorias, la
variable resultante es una variable con distribución aproximadamente igual a la
distribución normal. Incluso, el término “número grande” (porque matemáticamente
el teorema se establece cuando tiende a infinito) no lo es tanto, porque, en la
práctica, con 30 la aproximación ya proporciona buenas resultados. Además, el
teorema es cierto independientemente de la distribución que sigan las variables que
se sumen (no importa si son exponenciales, binomiales, etc.). Lo único que se necesita
es saber su media y su varianza.
Es a causa de este teorema que muchas variables aleatorias como pesos,
alturas, tallas, etc. siguen una distribución normal, porque cada una de ellas es suma
de un gran número de variables aleatorias independientes. Así, la altura de una
persona es suma de muchos factores: hereditario, alimentación, tipo de vida... El
consumo de combustible (gas, electricidad...) por día de una compañía es suma de
los consumos individuales de los usuarios. Los errores, llamados aleatorios, que se
presentan en observaciones de pesos, distancias, o, en general, en la mayoría de
medidas de algún aparato, son la suma de un número elevado de errores
elementales, tales como corrientes de aire, vibraciones, errores de apreciación, etc.
En el texto “The cartoon guide to statistics” (Gonick y Smith) [5] podemos leer:
“Los datos que se ven influidos por efectos aleatorios muy pequeños y sin
relación entre sí, se distribuyen aproximadamente de manera normal. Esto explica por
216 | P á g i n a
qué la normalidad está en todos lados: en las fluctuaciones del mercado de acciones,
en los pesos de estudiantes, en los promedios anuales de temperatura y en las
calificaciones. Todos son el resultado de muchos efectos diferentes. La estatura de las
personas, por ejemplo, es el resultado de factores hereditarios, factores ambientales,
nutrición, cuidado de la salud, región geográfica y otras influencias que, cuando se
combinan, producen valores distribuidos de forma normal.”
En algún que otro libro de texto aparece también la siguiente frase: “todos los
caminos conducen a la distribución normal”. Con ello, los autores pretender resaltar
la importancia de la distribución normal y su aparición en muchas técnicas
estadísticas, debido precisamente al teorema central del límite. Este es el motivo de
que sea tan conocida o, por lo menos, “suene”a investigadores o profesionales de
muchas áreas científicas y técnicas no necesariamente matemáticas. En algunas
ocasiones, algún que otro atrevido estadístico o autor de libros de estadística ha
denominado a la distribución normal como “la madre de todas las distribuciones”.
ciento. Un seguro médico paga más a una clínica si, por cada 300 asegurados
que reciben el tratamiento, al menos se curan 260. ¿Cuál es la probabilidad
de que esto suceda?
Solución.
Definamos la variable que toma los valores 0 si el paciente no se cura (al
cabo de ese tiempo establecido), y 1 si se cura. es una variable de Bernoulli de
parámetro 0.8.
Como hemos visto al principio del capítulo, una variable de Bernoulli tiene
media y varianza ⋅ 1 , en este caso media 0.8 y varianza 0.8 ⋅ 0.2 0.16.
Si consideramos la variable ⋯ , mide el número de
pacientes que se curan de 300 que acuden a la clínica. Usando el teorema central del
límite, puede aproximarse por una distribución normal de media la suma de las
medias y varianza la suma de varianzas, es decir
que es una probabilidad muy pequeña. Los seguros siempre procuran hacer cálculos
para pagar lo menos posible.
Nota 9-6 Está claro que la variable del ejercicio anterior era una variable
Binomial de párametros 300 y 0.8. En el capítulo de variables discretas
vimos que una variable aleatoria binomial puede aproximarse también mediante una
variable de Poisson. La diferencia con el teorema central del límite (que aproxima la
binomial por la normal) es que la aproximación a la Poisson es cuando 0.1 (el
suceso es un suceso raro). Si 0.1 como en este caso), la aproximación se hace
mediante la normal.
218 | P á g i n a
Solución.
La variable tiene una esperanza o valor medio
⋅3 .
Su varianza es
P á g i n a | 219
⋅3 .
La proporción de impurezas en la media muestral de 40 paquetitos de droga
será
...
... ... .
Ahora, utilizando el teorema central del límite, aproximamos la suma
... por una normal, de media la suma de las medias (o sea 40 ⋅ 30 y
varianza la suma de varianzas (40 ⋅ .
⋅ ⋅ 30, ⋅ ≡ , ,
ya que, si multiplicamos una variable por un número (positivo), su media y su
desviación típica se multiplican por ese número (propiedades de la media y la
varianza). Por lo tanto, se puede aproximar por una 0.75,0.03 . Entonces, la
probabilidad de rechazo es 0.8 0.048.
Ejemplo 9-9 Mesalina ha cruzado una apuesta con Zerdón de Citium, famoso
filósofo y comedor de jabalíes, a que ella aguanta más en la cama que Zerdón
en la mesa del restaurante. Mesalina atiende por noche una cantidad de
hombres que ronda los 200, tardando con cada uno de ellos un tiempo medio
de 4 minutos y desviación típica 2, mientras que Zerdón es capaz de comer
50 jabalíes, tardando de media 12 minutos y desviación típica 3. ¿Cuál de los
dos desfallecerá antes?
Solución.
El tiempo que aguanta Mesalina durante una noche ( es la suma de 200
variables aleatorias independientes, donde es el tiempo que está con el hombre
é , de media 4 y 2.
220 | P á g i n a
El tiempo que aguanta Zerdón de Citium cenando jabalíes ( ) es la suma de 50
variables aleatorias independientes, donde es el tiempo que tarda en comer el
jabalí é , de media 12 y 3.
Utilizamos el teorema central del límite para aproximar las distribuciones de
las variables y .
P á g i n a | 221
9.5 OTRAS VARIABLES ALEATORIAS DE INTERÉS
9.5.1 Variable Chi‐cuadrado
Se escribe variable . El hecho de que su función de densidad dependa de
un número entero positivo llamado “grados de libertad” hace que se hable de la
distribución con grados de libertad. Así, existe una variable para cada valor de
mayor o igual a 1. Esta variable aparece cuando se suman variables aleatorias
independientes con distribución 0,1 , elevadas al cuadrado.
... , con ∈ 0,1 .
A continuación aparecen dibujadas varias funciones de densidad,
dependiendo del número de grados de libertad .
No reproducimos aquí la fórmula de la densidad por innecesaria. Quien esté
interesado puede acudir, por ejemplo, a la wikipedia (igual que tampoco haremos en
los dos casos siguientes, la distribución de Student y la distribución . El interés de
esta distribución radica en su uso para la construcción de intervalos de confianza y
realización de contrastes de hipótesis.
222 | P á g i n a
9.5.2 Variable de Student
La variable (o de Student) aparece a partir de la distribución normal y la
Chi‐cuadrado, puesto que si es una variable 0,1 , e es una variable aleatoria
independiente de , con distribución Chi‐cuadrado con grados de libertad,
entonces la variable
/
es una variable con distribución con grados de libertad. La distribución de
Student (con grados de libertad) es una variable aleatoria cuya función de densidad
también tiene forma de campana y es simétrica. Es, por lo tanto, muy parecida a la
densidad de la variable 0,1 (de hecho, la media o esperanza de cualquier variable
de Student es cero). Sin embargo, tiene colas más pesadas que la campana de
Gauss, lo que significa que el área o probabilidad en los extremos izquierdo y derecho
de la curva es mayor que en el caso de la distribución normal. Estos hechos pueden
visualizarse en la imagen de la función de densidad (tomada de wikipedia), donde se
representan diferentes valores del parámetro (df en la gráfica, de “degree
freedom”). Hay que reseñar que, a medida que el número de grados de libertad
aumenta, la curva se parece cada vez más a la campana de Gauss, lo cual sucede a
partir de valores como 40, siendo la coincidencia total para ∞. El interés
P á g i n a | 223
de esta variable es, igual que en el caso de la variable Chi‐cuadrado, su aparición en
la construcción de intervalos de confianza y realización de contrastes de hipótesis.
La fórmula de la función de densidad de la variable fue publicada en 1908
por William Sealy Gosset (1876 ‐ 1937), mientras trabajaba en la fábrica de cervezas
Guinness, en Dublin. Existe la anécdota de que el origen del seudónimo “Student”,
que fue el seudónimo utilizado por Gosset para escribir el artículo de investigación
matemático donde define la variable, vino motivado porque la dirección de la fabrica
impedía a los empleados la publicación de trabajos científicos.
9.5.3 Variable F de Fisher‐Snedecor
La distribución es conocida habitualmente como la distribución F de
Snedecor, o distribución F de Fisher‐Snedecor, en honor a R.A. Fisher (1890 ‐ 1962) y
George W. Snedecor (1881 ‐ 1974). Su función de densidad es bastante complicada,
y depende de dos parámetros y que son sus grados de libertad. La utilidad de
224 | P á g i n a
esta distribución es, de nuevo, la construcción de intervalos de confianza y realización
de contrastes de hipótesis. La distribución aparece a través de la distribución Chi‐
cuadrado, puesto que si sigue una distribución , e es otra variable
(independiente de con distribución , entonces la variable definida como
/
,
/
sigue una distribución con y grados de libertad. A continuación, algunos casos
concretos para la densidad (fuente: wikipedia).
P á g i n a | 225
Antes de terminar, unos estiramientos, buenos después de cualquier ejercicio
y/o esfuerzo.
226 | P á g i n a
Por último, si fuisteis ídolos de jóvenes de estos superheroes, y teníais un
poster de ellos en la habitación,
ahora podéis sustituirlo por los superheroes de la estadística y la ciencia.
P á g i n a | 227
228 | P á g i n a
P á g i n a | 229
10 INFERENCIA ESTADÍSTICA. INTRODUCCIÓN
Un 80 por ciento de encuestados cree en la existencia de vida extraterrestre.
“Es imposible que estemos solos”, afirman.
Ese mismo porcentaje dice no creer a nadie que asegure haberse
encontrado con un extraterrestre.
La Inferencia Estadística es aquella rama de la Estadística mediante la cual se
intenta sacar conclusiones de una población en estudio, apoyándose en el cálculo de
probabilidades, a partir de la información que proporciona una muestra
representativa de la misma. Recordemos el gráfico que pusimos en el primer capítulo.
Las conclusiones sobre la población se basarán en la realización de inferencias
(deducciones) sobre características concretas de la misma, que, en general, serán
230 | P á g i n a
variables aleatorias (nos interesa conocer la proporción de población contraria al
gobierno, su cociente intelectual, el capital que les apoya... ).
Existen dos tipos generales de inferencia:
La Inferencia Paramétrica supone que la distribución de probabilidad de la
variable objeto de estudio es conocida pero los parámetros son desconocidos. Se
intentará aproximar o predecir de alguna forma el valor de dichos parámetros. Por
ejemplo: nos interesa la proporción de gente con colesterol alto, con osteoporosis,
que cree en los extraterrestres con forma de lagarto... o el peso medio de la
población, la cultura en matemáticas a través de la nota media...
La Inferencia no Paramétrica tratará de averiguar el modelo concreto de la
variable objeto de estudio, o bien intentará profundizar en el conocimiento de la
misma sin presuponer ninguna función de densidad en concreto. Por ejemplo: ¿La
población sigue una distribución normal en cuanto al peso? ¿O la mayoría son gordos,
teniendo así una distribución asimétrica a la derecha? ¿Es el tiempo que duran los
políticos antes de corromperse exponencial?
En este texto nos referiremos únicamente a la inferencia paramétrica, aunque
hagamos alguna mención al otro tipo.
P á g i n a | 231
11 MUESTREO
Recordemos que el objetivo de la estadística, básicamente, es el estudio de
poblaciones. En general, no es posible estudiar toda la población, bien por tamaño,
bien por cuestiones de tipo económico (por ejemplo, saber el peso o la altura de
todos los individuos de la población española mayor de edad). El muestreo consiste
en elegir una muestra de una población, suficientemente representativa de la misma,
con el fin de investigar las propiedades estadísticas de esta. Así, para poder conocer
cuál es el peso medio, o la estatura media de, por ejemplo, hombres o mujeres de la
población española mayores de 18 años, se elegirá una muestra representativa de
dichos grupos y se estudiará la misma, para extender los resultados de la muestra a
la población en general. Llamamos Muestreo al proceso de obtención de muestras,
que puede ser de muchos tipos.
11.1 PROCEDIMIENTOS DE MUESTREO
11.1.1 Muestreo aleatorio simple
Todos los individuos de la población tienen la misma probabilidad de ser
elegidos para la muestra. En principio, se supone que la población es infinita (en la
práctica, muy grande), con lo cual, si se elige un individuo de la población, se realiza
la medida de la característica deseada (peso, estatura, opinión sobre los
extraterrestres, capital en el banco, etc.) y, a continuación, se devuelve a la población.
La probabilidad de que se vuelva a elegir al mismo individuo en la muestra es
prácticamente nula.
232 | P á g i n a
En el ejemplo que poníamos más arriba, se supone que elegiríamos un
hombre mayor de 18 años, por ejemplo, anotaríamos su peso y edad y dicho
individuo, en teoría, podría volver a ser elegido para tomar sus medidas (aunque con
una probabilidad prácticamente nula si la población general es muy grande).
11.1.2 Muestreo aleatorio sin reposición
Se elige el individuo, se anotan las características o variables de interés, y
dicho individuo no puede volver a ser elegido porque no se devuelve a la población.
Coincide con el muestreo aleatorio simple en la práctica, en muchas ocasiones (si la
poblacion es muy grande). También sería un muestreo aleatorio sin reposición una
encuesta de tipo teléfonico, donde se eligen números de teléfono al azar, por ejemplo
100 números, y no se llama dos veces al mismo número.
11.1.3 Muestreo estratificado
Se aplica cuando sabemos que hay ciertos factores (variables, subpoblaciones
o estratos) que pueden influir en el estudio, y queremos asegurarnos de tener cierta
cantidad mínima de individuos de cada estrato o subpoblación. Consiste en la división
previa de la población de estudio en grupos o clases que se suponen homogéneos
con respecto a alguna característica de las que se van a estudiar. A cada uno de estos
estratos se le asigna una cuota que determina el número de miembros del mismo
que compondrán la muestra. Dentro de cada estrato se suele usar la técnica de
muestreo sistemático, una de las técnicas de selección más usadas en la práctica.
Según la cantidad de elementos de la muestra que se han de elegir de cada
uno de los estratos, existen dos técnicas de muestreo estratificado:
Asignación proporcional: el tamaño de la muestra dentro de cada estrato es
proporcional al tamaño del estrato dentro de la población.
P á g i n a | 233
Por ejemplo, para un estudio de opinión o de salud, puede resultar
interesante estudiar por separado hombres y mujeres si se piensa que, dentro de
cada uno de estos grupos, puede haber cierta homogeneidad. Por ejemplo, si la
población está compuesta de un 55% de mujeres y un 45% de hombres, se tomaría
una muestra que contenga también esos mismos porcentajes por sexo.
Asignación óptima: la muestra recogerá más individuos de aquellos estratos
que tengan más variabilidad. Para ello es necesario un conocimiento previo de la
población. Si sabemos, por ejemplo, que el estrato de hombres está mucho más
disperso (tiene mayor varianza) que el de mujeres, deberemos tomar un mayor
número de datos en este estrato, para obtener mayor representatividad de la
muestra.
234 | P á g i n a
P á g i n a | 235
11.1.4 Muestreo sistemático
Si se dispone de los individuos de una población ordenados, de alguna forma,
en una lista, el muestreo sistemático consiste en elegir un primer individuo al azar, y
los siguientes de forma sistemática o periódica a través de dicha lista. De manera
general, si es el tamaño de la población y queremos elegir una muestra de tamaño
, entonces dividimos entre . Sea la parte entera de / . Se elige
aleatoriamente un número entre 1 y , y la muestra se toma con los elementos
de la lista: , , 2 , . .. hasta completar los elementos que se necesiten.
En la siguiente figura podemos ver un ejemplo gráfico de toma de datos en una
muestra de tamaño en una población de vacas. Se supone que las vacas están
“ordenadas” en una lista (numeradas). También podeis pensar en la lista de vacas
como un carrusel de feria, y Steven Seagal pegando tiros a las vacas , ,
2 , . ..
Este tipo de muestreo podría presentar problemas en caso de periodicidad.
Supongamos un muestreo para conocer la calidad de vida de los vecinos de varios
236 | P á g i n a
bloques de viviendas de la misma altura. Un muestreo sistemático podría llevar a
preguntar siempre a los residentes en los pisos más altos, que posiblemente tuviesen
más calidad (menos ruido, más sol... ) que los residentes en pisos más bajos.
Existen más tipos de muestreo, y podría hablarse bastante más de los aquí
vistos, estudiando propiedades matemáticas de los mismos. En todo caso, no es
objetivo de este texto el estudio del muestreo, pues este es un tema muy amplio y
que ha dado lugar a estupendos manuales. A partir de ahora, supondremos que la
población en estudio tiene un tamaño infinito (o muy grande), y el tipo de muestreo
considerado es el muestreo aleatorio simple (todos los elementos tienen la misma
probabilidad de ser elegidos, y esto se hace de forma independiente: la elección de
un elemento no influye en la elección de ningún otro), puesto que, con este tipo de
muestreo, se pueden verificar muchas propiedades matemáticas de interés que de
otra forma no se podría, o sería más difícil.
P á g i n a | 237
12 ESTIMACIÓN PUNTUAL
Cuando nos referimos al estudio de una población, nos centramos en el
estudio de variables aleatorias que miden características de la misma, y la estimación
de tipo puntual consiste en tratar de obtener valores de sus parámetros a traves de
muestras.
Por ejemplo, supongamos que estamos interesados en conocer detalles de la
población española (o cualquier pais) mayor de 18 años. Estaríamos interesados en
tener la mayor información posible en cuanto a características como el peso, la edad,
el índice de masa corporal, el nivel de renta, tendencia de voto, el nivel de colesterol,
el número de personas que padecen una enfermedad... Todas estas características
constituyen variables aleatorias que seguirán alguna distribución determinada (como
la distribución de Poisson, la binomial, la normal, la exponencial, o alguna otra que
no hayamos visto en este texto).
Cualquiera de estas variables aleatorias queda perfectamente determinada si
conocemos los parámetros de los que depende. La distribución normal queda
perfectamente determinada si conocemos la media y la desviación típica . La
distribución exponencial queda determinada por el inverso de su media, que es el
parámetro . La distribución de Poisson queda determinada por su valor medio . La
variable binomial está caracterizada por los valores y , etc.
Por lo tanto, para poder realizar inferencias, previsiones o predicciones sobre
la población (o las variables aleatorias de interés en la misma) necesitaremos dar
estimaciones (aproximaciones) de los parámetros correspondientes.
En este momento necesitamos dar unas definiciones matemáticas.
Estadístico: Una función de variables aleatorias.
238 | P á g i n a
Un estadístico, además de ser una persona que estudia y utiliza la estadística,
se define como una función de varias variables aleatorias: si , , . . . , son
variables aleatorias, una función (que cumpla algunos requisitos matemáticos)
, ,..., se llama estadístico.
Estimador: Estadístico que se usa para estimar un parámetro desconocido.
Si el estadístico (esa función de antes) se utiliza para estimar (tratar de
aproximar) un parámetro de la población o variable, se llama estimador.
Por ejemplo, estamos interesados en estimar el peso medio de las mujeres
mayores de 18 años. Para ello elegiriamos una muestra de la población de tamaño .
, , . . . , serían variables aleatorias, cada una de ellas nos medirá el
peso de la mujer de la muestra. La función
...
, ,...,
es un estadístico (porque es función de variables aleatorias), y también un estimador,
porque lo utilizaremos para estimar el peso medio.
Estimación: Valor concreto del estimador para una muestra en particular. La
estimación viene a ser una predicción del valor teórico desconocido.
P á g i n a | 239
En el ejemplo anterior, ( , , . . . , es la muestra “en abstracto”, es decir,
es la base matemática que utilizamos para tratar de predecir o estimar el peso medio
de las mujeres mayores de 18 años en la población en general.
La media muestral:
...
̂
es un estimador de la media. A los estimadores se les pone una tilde o algun
“sombrero” encima para indicar que estiman o aproximan un parámetro. En este caso
̂ es un estimador de la media .
Muestra aleatoria simple.
Cuando tomamos la muestra de forma numérica, tendremos datos
, ,..., . Esta muestra se llama muestra aleatoria simple. Los son números,
se representan en minúsculas para diferenciarlos de las variables aleatorias.
El valor de la media de la muestra
...
̅
12.1 ESTIMACIÓN DE LA MEDIA DE UNA VARIABLE. MEDIA MUESTRAL
Profundizaremos ahora en el ejemplo anterior, para ver con mayor precisión
cuál es la forma de estimar la media de una variable aleatoria.
Supongamos que se desea conocer el tiempo medio de horas de sueño que
provoca un sedante determinado. Para realizar una inferencia estadística, se elige
una muestra aleatoria simple de enfermos a los que se les ha recetado el fármaco.
Tras la toma de una pastilla, medimos la variable =“horas de sueño”.
240 | P á g i n a
En este ejemplo, la característica en la que estamos interesados, como vemos,
es una variable aleatoria. Esa característica, lógicamente, se mide en una población
(en este caso serán las personas a los que se les puede suministrar el fármaco).
Nos interesa conocer el parámetro Media de la variable .
Para ello seleccionamos una muestra aleatoria simple de tamaño . En ella
medimos veces la variable y, por lo tanto, tendremos variables aleatorias
( , ,..., .
Estadístico a utilizar: la media muestral.
...
̂ .
Estimador: dada una muestra concreta , , . . . , .
...
̂ ̅
Estimación: para una muestra particular, por ejemplo, 6, tenemos 6 datos
concretos: 0.8,2.1,1.5,1,2,2.3
0.8 2.1 1.5 1 2 2.3
̂ 1.61.
6
¿Podríamos considerar otros estimadores para la media de una variable? Sí
tenemos una muestra , ,..., no resulta muy descabellado usar este
posible estimador:
min max
̂ .
2
. .
Para la muestra anterior, la estimación resultante sería ̂ 1.55,
que es un número parecido al anterior.
Otra posibilidad:
...
̂ ,
1
nos daría la estimación
0.8 2.1 1.5 1 2 2.3
̂ 1.94.
5
P á g i n a | 241
Y seguro que se nos pueden ocurrir bastantes más. ¿Cuál es el mejor de
todos? Hay métodos matemáticos para poder elegir entre unos estimadores y otros.
Ahora bien, en principio, cualquier estadístico (recordad, no una persona, sino una
función de variables aleatorias) utilizado para estimar un parámetro, es un estimador.
Cuando ese estimador se cuantifica (cuando ya tenemos los datos de la muestra y lo
valoramos), tenemos una estimación. Que ese estadístico, estimador o estimación
sea bueno o malo, ya es otro cantar.
12.2 ESTIMACIÓN DE LA VARIANZA. CUASI‐VARIANZA MUESTRAL
Para estimar la varianza de una variable , a partir de una muestra
aleatoria simple de tamaño , , ,..., , podemos usar la llamada varianza
muestral (la varianza de la muestra).
∑
.
∑ (12‐1)
.
1
242 | P á g i n a
Este estimador, que se escribe muchas veces (o en muchos libros sin gorro,
simplemente , supongo que para marear) guarda una relación sencilla con la
varianza muestral:
1 ⇔ (12‐2)
.
1
Matemáticamente, como podemos observar, cuando el valor de es grande,
los valores son similares ( tiende a 1). Desde un punto de vista teórico, puede
demostrarse que la cuasi‐varianza muestral posee mejores propiedades que la
varianza muestral cuando queremos aproximar la verdadera (desconocida) varianza
de una variable. Es por eso que, en bastantes ocasiones, se define directamente la
varianza de una muestra (tal y como la vimos en el primer capítulo de estadística
descriptiva) como la fórmula (12‐1). Esto sucede en muchos libros de texto (sobre
todo escritos en Estados Unidos), y en software como el R o el SPSS.
12.3 ESTIMACIÓN DE UNA PROPORCIÓN. PROPORCIÓN MUESTRAL
Supongamos que interesa estimar la proporción de individuos de una
población con una determinada característica (proporción de posibles votantes del
partido en el gobierno, de personas con artritis, de mutantes con superpoderes...).
Para realizar una inferencia estadística, se elige una muestra aleatoria simple
de individuos y se anota 1 ó 0 según que el individuo tenga o no la característica de
interés. Cada vez que elegimos un individuo, estamos observando la variable
aleatoria de Bernoulli de parámetro téorico (que queremos precisamente estimar).
El estimador de , llamado proporción muestral, es:
número de unos
̂ ,
es decir, la proporción de la característica en la muestra.
P á g i n a | 243
12.3.1 Otros estimadores
En función de la característica que deseemos estudiar observamos una
variable aleatoria u otra. Cada variable depende de unos parámetros y la forma de
estimar esos parámetros podrá ser diferente. Este tema podría alargarse mucho más,
pero únicamente vamos a dar el ejemplo típico que aparece en la mayoría de los
libros:
Supongamos que queremos conocer el máximo valor de una variable (edad
máxima de una población, estatura máxima, nota máxima en un examen...). Dada
una muestra aleatoria simple , ,..., , un buen estimador es
max , , . . . , , pues esa será la mejor aproximación que podamos hacer (sin
usar artificios matemáticos, que también los hay, pero se ven en textos más
avanzados).
Ahora dejamos el clásico resumen para los vagos:
244 | P á g i n a
12.4 DISTRIBUCIÓN EN EL MUESTREO DE UN ESTIMADOR
Un estimador es una variable aleatoria, y, como tal, seguirá alguna
distribución (que vendrá especificada por una ley de probabilidad o una función de
densidad), que se llama distribución en el muestreo. Ocurre así puesto que, cada vez
que escogemos una muestra de una población y medimos el estimador, el número
que obtenemos “varía”.
Supongamos que hay organizada una manifestación multitudinaria en
Madrid, a la que van a asistir todos los miembros de todas las organizaciones anti‐
partidos tradicionales (gatoflautas, neonazis, indignados con bob esponja,
yayogaitas, fontaneros eróticos, volturis, góticos, etc, etc.). La policía recibe la orden
de obtener información de una nueva asociación llamada “querubines del
purgatorio”, que está arrasando en las redes sociales. Para tener la mayor
información posible de dicha asociación, reciben la orden de preguntar, a los
P á g i n a | 245
manifestantes que detengan, si pertenecen o no a la misma (tras un interrogatorio
amable y, a la vez, persuasivo).
Supongamos que en cada furgón policial caben 40 detenidos. Cada furgón
puede recoger, entonces, una muestra de la población de tamaño 40. Dentro de cada
muestra se mide la estimación
miembros de los querubines del purgatorio
̂ ,
40
que es una aproximación de la proporción de miembros de esa asociación en la
población general de anti‐partidos.
Al final de la jornada de lucha, se han movilizado un total de 300 furgones.
Así, tenemos 300 estimaciones ̂ , ̂ , . . . , ̂ del parámetro .
En el sistema informático de la policía se tienen los datos de todos los
furgones (muestras). En la tabla (12‐3) aparece reflejada la información (valor 1 en la
muestra si el detenido es de los “querubines” y 0 si no lo es). En la tercera columna
de la tabla escribimos un valor ficticio para cada estimación ̂ .
ó ó
1 1,0,1, . . . . ,0,1,0 ̂ 0.19
(12‐3)
2 0,0,1, . . . ,0,1,0 ̂ 0.06
3 0,1,1, . . . ,1,1,0 ̂ 0
⋮ ⋮ ⋮
300 0,1,1, . . . ,1,1,0 ̂ 0.11
Con la información de la tercera columna de la tabla podemos realizar un
histograma, y de este modo aproximamos la distribución en el muestreo de la
variable aleatoria , que dibujamos en la Figura 12‐1.
Con los datos del ejemplo anterior, supongamos que a cada detenido se le
ficha y se le mide peso y estatura. En la tabla (12‐4), en los valores de las muestras
tendriamos, por ejemplo, datos del peso. De cada muestra podríamos calcular la
media y tener la distribución en el muestreo del peso medio (cuyo histograma
dibujamos en la Figura 12‐2, donde observamos peso medio mínimo y máximo,
podemos calcular cuantiles, etc.). Al ministerio del interior le interesa mucho este
246 | P á g i n a
tipo de datos porque así podrá organizar una politica de detenciones adecuada a no
gastar demasiado en comida de presos y detenidos.
Figura 12‐1: histograma de la distribución en el muestreo de la variable proporción muestral.
ó ó (12‐4)
1 63.97,48.81, . . . ,86.83 67.03
2 65.14,86.35, . . . ,84.35 71.78
⋮ ⋮ ⋮
300 73.25,57.68, , . . . ,168.44 79.02
Si nos fijamos con un poco de detenimiento en la Figura 12‐2, podemos
reconocer la forma de la campana de Gauss en el dibujo del histograma. Realmente,
esto ocurre porque estamos dibujando el peso medio . Debido a que el estadístico
(o estimador, como se prefiera) media muestral es ... , es decir la
suma de variables, dividida por , el teorema central del límite garantiza que la
distribución en el muestreo de este estadístico sigue una distribución normal. O sea,
P á g i n a | 247
que siempre que calculemos medias de muestras, el histograma resultante formado
por esas medias (ya sean medias de pesos, de alturas, de temperaturas...) se
aproximará a la campana de Gauss.
Figura 12‐2: histograma de la distribución en el muestreo del peso medio.
12.5 CALIDAD DE LOS ESTIMADORES
Cuando pretendemos estimar un parametro desconocido de una población,
ya sea la media, la proporción o cualquier otro parámetro, está claro que podemos
definir diferentes estimadores.
Como vimos antes, otro estimador para la media de una población podría ser,
dada una muestra , ,..., ,
min max
̂ .
2
248 | P á g i n a
¿Cómo sabemos si este último estimador es mejor o peor que la media
muestral? Para elegir entre un estimador y otro, se tienen en cuenta una serie de
propiedades matemáticas, que pueden decirnos qué estimador es mejor o peor.
Algunas de estas propiedades son insesgadez y consistencia. Estas propiedades se
definen y estudian desde un punto de vista matemático. Únicamente intentaremos
dar una idea intuitiva de ellas.
12.5.1 Sesgo de un estimador
.
Recordemos que un estimador es una variable aleatoria, por lo tanto
podemos calcular su media o esperanza (podríamos calcular la media de los valores
̂ en la tabla (12‐3)). El sesgo es la distancia entre la media y el parámetro que
queremos estimar. Obviamente, cuanto más pequeño es el sesgo, mejor es el
estimador.
Si el sesgo de un estimador es cero, el estimador se dice que es insesgado.
P á g i n a | 249
12.5.2 Consistencia
Un estimador es una variable aleatoria que depende de una muestra de
tamaño . Parece intuitivo que, cuanto más grande sea la muestra que tomemos,
mejor será la estimación. Un estimador se dice consistente si lim → .
Ejemplo 12-2 Los estimadores que hemos visto (media muestral, proporción
muestral, varianza y cuasi-varianza muestral) son consistentes.
12.6 INTERVALOS DE CONFIANZA
Dar una estimación concreta está bien, porque es una aproximación de algo
que desconocemos. Ahora bien, a efectos prácticos, no podemos saber la distancia o
diferencia que existe entre la estimación que demos y el parámetro a estimar. Si
decimos que la proporción de gente a la que le gusta el chocolate con churros es un
60 por ciento, basándonos en una encuesta, aunque sea de un tamaño muy grande,
no podemos calcular la diferencia entre ese valor y el real.
Parece bastante más práctico dar un intervalo apróximado por donde
sepamos que se mueve el valor real que estamos estimando y que desconocemos;
decir algo así como: “la proporción de gente a la que le gusta el chocolate con churros
se mueve entre el 55 y el 65 por ciento, con una probabilidad muy alta”. De esta
manera damos mucha más información, puesto que acotamos tanto por arriba como
por abajo el porcentaje del que hablamos, y damos la probabilidad del intervalo.
P á g i n a | 251
12.6.1 Definiciones básicas
Un intervalo de confianza de nivel (donde es un número entre 0 y 1) para
estimar un parámetro es un intervalo de valores , que contiene al parámetro
con probabilidad 1 , es decir ∈ , 1 .
se llama nivel de significación. 1 es el nivel de confianza. En general,
es un número próximo a 0, con lo que 1 está próximo a 1.
Cojamos, por ejemplo, 0.05. Que el parámetro esté en un intervalo con
una confianza del 95% significa que, si dispusiéramos de todas las posibles muestras
que pudiésemos extraer de la población, el 95% de ellas contendrían al parámetro, y
habría un 5% de muestras que no lo contendrían (en vez de 95 léase 1 ⋅ 100
para cualquier otro .
Los valores que, tradicionalmente, se suelen utilizar para el nivel de
significación son 0.01,0.05 y 0.1.
La manera general de construir, matemáticamente, un intervalo de confianza
para un parámetro , suele ser a través de un estadístico llamado pivote, con
distribución conocida (como la normal, la de Student, la Chi‐cuadrado o la . Dicho
estadístico pivote se utiliza también para realizar los contrastes de hipótesis para el
parámetro , que veremos en el siguiente capítulo. Los intervalos de confianza para
un parámetro suelen tener la forma , , donde es un estimador de y
es una cierta cantidad que depende del tamaño de la muestra y del nivel de
significación . Cuanto mayor sea el nivel de confianza 1 que pretendamos,
mayor longitud tendrá el intervalo. Análogamente, a menor nivel, menor longitud.
Asimismo, cuanto mayor sea el tamaño de la muestra, menor será la longitud del
intervalo.
En este texto nos limitaremos a dar las fórmulas de los intervalos de confianza.
El estadístico pivote a partir del cual se construye cada intervalo puede consultarse
en el apartado correspondiente, dentro del capítulo de test de hipótesis (tampoco
nos interesa la forma de construir el intervalo). Para profundizar cualquiera de estas
cuestiones, o también el tema de la construcción y propiedades matemáticas de los
252 | P á g i n a
estimadores, recomendamos mirar algún libro de estadística teórica de ingeniería,
como el de Ardanuy [1] o Montgomery y Runger [9].
12.6.2 Intervalos de confianza para variables aleatorias normales
Sea una variable aleatoria normal, que mide una característica de interés
en una población, ∈ , . Exponemos, a continuación, cuáles son las fórmulas
de los intervalos de confianza para los parámetros y .
Se parte de una muestra aleatoria simple , ,…, .
12.6.2.1 Intervalos de confianza para la media
Existen dos posibilidades para calcular un intervalo de confianza para el
parámetro : conocer la desviación típica o no conocerla.
Intervalo conociendo la desviación típica
El intervalo tiene la fórmula
, , (12‐5)
/ /
√ √
siendo
...
Figura 12‐3
Con una gráfica siempre se ven las cosas más claras (Figura 12‐4). La media
teórica está en el intervalo de confianza con la probabilidad prefijada de antemano.
Como vemos, el intervalo está centrado en la estimación puntual de la media (media
muestral ), y es de la forma: ( menos una cantidad, más una cantidad).
Figura 12‐4
Intervalo desconociendo la desviación típica
Es muy dificil que, en un caso real, se tenga la información de cuál es la
desviación típica teórica o verdadera σ de la población, por lo que el intervalo
254 | P á g i n a
anterior no resulta, en la práctica, eficaz. Al desconocerse σ lo que se hace es
estimarla, usando la cuasi‐desviación típica muestral. El intervalo que resulta utiliza
la distribución de Student, vista en el capítulo anterior.
El intervalo es
(12‐6
, / , , / ,
√ √
La cantidad /√ suele recibir el nombre de error típico o error estándar
de la media.
Ejemplo 12-3 El Yoshua vende paquetes de costo para los porritos que fuman
en su calle, diciendo que de media tienen 10 gramos de hachís. La Yesi y el
Richar le compran 7 paquetitos para una fiesta y los pesan:
9.8,10.2,10.4,9.8,10.2,10.2,8.6. ¿Será cierta la afirmación del Yoshua?
Solución.
Vamos a calcular un intervalo de confianza para la media de los paquetes
(suponemos que el peso sigue una distribución normal). Acabamos de escribir que el
intervalo de confianza para la media es
, / , , / .
√ √
En este caso ̅ 9.88 y 0.609. Vamos ahora a calcular los 3
intervalos de confianza más comunes, que son los que usan 0.1, 0.05 y 0.01.
Para ello tendremos que buscar el valor , / . Lo más cómodo es ir a la página web
statdistributions.com y buscar el valor, indicando p-value=0.1 (cuando queremos
que sea 0.1), d.f.=6 y marcando la opción two tails, como vemos en la Figura 12‐5.
P á g i n a | 255
Figura 12‐5
El valor , / es 1.943. En la siguiente tabla calculamos los intervalos e
indicamos su longitud.
1 , /
0.9 90% 0.1 1. 943 9.43,10.33 0.9
0.95 95% 0.05 2. 446 9.32,10.44 1.12
0.99 99% 0.01 3. 707 9.03,10.73 1.7
Según los valores de la tabla, vemos que la verdadera media (desconocida)
está en el intervalo 9.43,10.33 con probabilidad 0.9; en el intervalo 9.32,10.44
con probabilidad 0.95, y en el intervalo 9.03,10.73 con probabilidad 0.99.
Observamos que, cuanta mayor es la confianza, la longitud del intervalo aumenta.
Para conseguir un intervalo de menor longitud (lógicamente más preciso) con la
misma confianza, tendríamos que aumentar el tamaño de la muestra.
256 | P á g i n a
Nota 12-1 En cualquier paquete de software puede calcularse el intervalo
directamente. En R, por ejemplo, con pasarle una muestra como un vector x,
podemos ejecutar la opción t.test(x), que ejecutaría un test de hipótesis (ya veremos
qué es en el capítulo siguiente), y además proporciona el intervalo de confianza para
la media.
x=c(9.8,10.2,10.4,9.8,10.2,10.2,8.6)
t.test(x, conf.level = 0.95)
Lógicamente, en conf.level escribimos el valor que nos interesa. Entre los
resultados que se obtienen, nos quedaríamos con:
95 percent confidence interval:
9.322068 10.449361
Cálculo del tamaño de la muestra.
Solución.
Trabajamos con la suposición de que =“peso de los pacientes” ∈ , .
Con una probabilidad de 0.99, queremos que el error al estimar mediante ̅
no exceda de 2.5 kg, es decir que | ̅ | 2.5. Como el intervalo de confianza para
la media (cuando la desviación típica es conocida, que en este caso es 16.5) es
el formulado en (12‐5),
/ ⋅ , / ⋅ ,
√ √
P á g i n a | 257
Unimos las dos cosas:
| ̅| ⋅
/
√
y (12‐7)
| ̅| 2.5.
| ̅| , / .
√
El problema que tendríamos es que necesitariamos saber , / que depende de
y . Para ello se debería elegir alguna muestra inicial un poco grande (30 o más) y
calcular . Esto nos daría una estimación de la desviación típica de la población.
Por otro lado, como lo que queremos calcular es un tamaño muestral, éste
seguramente deberá ser grande, con lo que , / lo podemos aproximar por /
(pues hemos visto que la de Student, a medida que se hace grande, se convierte
en la distribución normal). De esta manera, la fórmula para estimar el tamaño
muestral queda:
258 | P á g i n a
/ ⋅
,
∑ ∑
, ,
, / , /
P á g i n a | 259
Figura 12‐6
Desconociendo la media
Cuando la media teórica no se conoce, se estima mediante la media muestral.
En este caso, la distribución Chi‐cuadrado de referencia tiene un grado menos de
libertad. El intervalo es:
∑ ∑
, ,
, / , /
que puede escribirse en función de la varianza o cuasi‐varianza muestral, del modo:
(12‐8)
1 1
, , ,
, / , / , / , /
Ejemplo 12-5 El dueño de un pub está dudando si, para el día de fin de año,
le compensa más cobrar por consumición un euro, que es lo que van a hacer
la mayoría de los pubs del barrio (dando garrafón, por supuesto) o vender una
entrada a un precio alto y que el cliente tenga barra libre. Para decidirse, invita
a 12 vecinos para comprobar cuántas consumiciones alcohólicas pueden
tomarse hasta caer redondos. Los datos que obtiene son:
3, 8, 12, 13, 15, 18, 20, 24, 24,30, 32, 40.
De estos datos se obtienen los valores 18.75, y 9.15. Vamos a
calcular los intervalos de confianza para la media y la desviación típica, para un nivel
0.05.
El intervalo de confianza para la media es el dado por la fórmula (12‐6 . El
valor , / ,
. 2.201.
Para calcular el valor en R, escribimos
qt(0.025,11) y nos da ‐2.20 (el valor opuesto). Otra forma es ir a
statdistributions.com y calcularlo con la gráfica, que puede ser más intuitivo.
.
El intervalo resulta 18.75 2.201 ⋅ 18.75 5.81,18.75 5.81
√
12.94,24.56 .
El intervalo para la desviación típica es el expresado en (12‐8). Calculamos los
valores , / ,
. 21.92 y , / , . 3.816.
Para calcular estos cuantiles en R, escribimos
qchisq(0.025, 11); qchisq(0.975,11) y obtenemos los dos valores.
El intervalo queda
11 ⋅ 9.15 11 ⋅ 9.15
, 6.48,15.53 .
21.92 3.816
Si se elige como valor para la media y la desviación típica los extremos
superiores de los intervalos correspondientes, tendríamos que la media podría ser
P á g i n a | 261
24.56 y la desviación típica 15.53. Entonces, como caso muy desfavorable, el valor
más alto que podría tomar la variable “cantidad de alcohol” estaría cerca de
2 24.56 2 ⋅ 15.53 55.62.
Estrategia del dueño del pub: vender entradas de barra libre, cobrando un
precio alto, del tipo algo más de 40 euros (de hecho, en la muestra vemos que 40 es
un valor extremo). Si, por ejemplo, fija el valor de la entrada en 50 o 55 euros ya sería
muy difícil que perdiera con nadie, por muy bebedor empedernido que fuera.
12.7 INTERVALOS PARA LA COMPARACIÓN DE POBLACIONES
Ahora estamos interesados en comparar dos poblaciones o variables ∈
, e ∈ , , independientes.
¿Son más altos los españoles que los portugueses? ¿Son más gordos, más
listos... ? ¿Son los políticos españoles más corruptos que los italianos? ¿Son más
guapas las mujeres policía que las de la guardia civil? ¿Todos los hombres guapos y
sensible son gays?
Para contestar preguntas de este
tipo pueden realizarse inferencias (o
calcular intervalos de confianza) de
la diferencia de medias , o
de la proporción de varianzas / .
Se parte de dos muestras
aleatorias simples , ,..., e
, ,..., , de las variables ∈
, e ∈ , ,
respectivamente.
262 | P á g i n a
12.7.1 Intervalo de confianza para la diferencia de medias
Para dar un intervalo para tenemos cuatro posibilidades.
/ .
Podemos ver que este es un intervalo de la forma del escrito en (12‐5), pero
ahora aparecen dos medias muestrales, dos tamaños muestrales y dos varianzas.
12.7.1.2 Desconociendo las desviaciones típicas pero suponiendo que son iguales
1 1 1 1
, / ⋅ .
2
Si no conocemos la varianza (pero suponemos que las dos variables tienen la
misma), entonces la estimamos. ¿Cómo? Pues mediante la muestra , , . . . ,
realizamos una estimación ; mediante la muestra , ,..., realizamos una
segunda estimación y, a continuación, se toma la media ponderada (como
ponderaciones usamos los tamaños muestrales):
1 1
.
2
Esta es una estimación de la varianza. Calculando la raiz cuadrada tenemos
una estimación de la desviación típica. Ahora, en el intervalo de confianza, en vez de
utilizar la variable o normal, utilizamos la de Student.
P á g i n a | 263
12.7.1.3 Desconociendo las desviaciones típicas y suponiendo que los tamaños de
las muestras son grandes ,
/
Si los tamaños de muestra son grandes (y no se conocen las desviaciones
típicas ni se puede suponer que sean iguales), entonces se aprovecha que la de
Student se parece a la distribución normal, tanto más cuanto más grande es el
número de grados de libertad. Por eso sale ahora un intervalo de confianza igual al
del primer caso (donde conocíamos las varianzas), pero ahora no las conocemos y las
sustituimos por sus estimaciones.
12.7.1.4 Desconociendo las desviaciones típicas y suponiendo que los tamaños de
las muestras son pequeños ,
(12‐9)
, /
siendo Δ el entero más próximo a
1 1
.
1 1
Cuando ya estamos en el peor de los casos posibles, que es no conocer las
varianzas y aún encima tener tamaños de muestra pequeños, resulta que un señor
muy listo (que no obtuvo demasiado reconocimiento, la verdad, porque en pocas
ocasiones se da su nombre11) calculó el intervalo a usar. Como vemos, es igual que
en el caso anterior, pero sustituyendo la variable normal por la de Student. La pega
está en el número Δ que tiene una forma un pelín compleja, sobre todo si se hacen
las cuentas a mano.
11
B. Welch fue el estadístico en cuestión que calculó la fórmula de Δ. Hay quien dice que
después de eso tuvo que estar a tratamiento, pero quizá sea una leyenda urbana.
264 | P á g i n a
Nota 12-4 Por si algún novato está a punto de tener un desmayo a causa de
tanto formulón (sobre todo después de ver la fórmula de ), recuérdese que todos estos
intervalos están programados. En general, con introducir los datos de las muestras en
la web o programa estadístico correspondiente, elegir el que queremos y el intervalo
que necesitamos, las cuentas no hay que hacerlas.
Solución.
Estamos en el caso de que las muestras son pequeñas y desconocemos las
desviaciones típicas. Si las muestras fueran grandes, tendríamos que decidir si las
varianzas pueden considerarse iguales o no. Para ello habría que hacer un contraste
de hipótesis para saber si la proporción / puede considerarse igual a 1. Esto se
ve en el capítulo siguiente.
Con las muestras que nos dan, tenemos que 3.39, 3.74,
3.61, 2.46, 1. Elegimos 0.05, con lo que , / , /
2.11. El intervalo de confianza (para 0.05 es el (12‐9) que sale 1.99,1.29 , es
decir, la diferencia de tiempos medios de descarga pertenece a este intervalo con
probabilidad 0.95. Como podemos ver, el intervalo de confianza contiene al cero, o
sea que hay poca diferencia entre la velocidad media de un proveedor y otro. De
todas formas, para tomar una decisión más acertada, desde el punto de vista
estadístico, es mejor realizar un contraste de hipótesis.
P á g i n a | 265
Nota 12-5 De nuevo vemos lo fácil que es hacerlo en R: declarar los datos
(muestras) como vectores y ejecutar una instrucción
x=c(2.2,2.1,4.2,1.6,3.2,2.8,1.7,4.8,3.4,7.9)
y=c(3.1,2.8,3.8,2.8,4.5,2.8,1.9,5.4,3.1,7.2)
t.test(x,y, conf.level=0.95)
En los resultados, entre otros valores, tenemos el intervalo de confianza al 95
por ciento:
95 percent confidence interval:
-1.991689 1.291689
Por último, para comparar las varianzas podemos dar un intervalo para la
proporción o cociente entre las mismas.
12.7.2 Intervalo de confianza para la razón de varianzas
El intervalo de confianza para la proporción o cociente de varianzas /
es
, , / , , , / ,
siendo , , / el valor de una F de Snedecor, con 1 y 1 grados de
libertad, que deja a la derecha /2 de área (o sea el cuantil que deja a la izquierda
1 de área).
A continuación, vamos a realizar una comparación entre dos muestras reales.
Pequeña comparación entre poblaciones independientes (aunque
no tan normales). Un ejemplo de Estados Unidos contra uno de España:
266 | P á g i n a
P á g i n a | 267
268 | P á g i n a
12.8 CASO DE MUESTRAS RELACIONADAS O PAREADAS
Puede darse el caso de que las muestras que tengamos no sean
independientes, sino que estén relacionadas o pareadas (según los textos, aparece el
término pareadas o apareadas). La diferencia entre muestras independientes o
relacionadas es que, en el segundo caso, se dan dos mediciones de la misma o similar
característica para cada individuo, o para dos individuos de idénticas características
relevantes de la muestra. Por ejemplo, cuando observamos el peso de una serie de
personas antes y después de realizar una dieta, o bien si de una serie de personas
medimos las características peso y estatura, no podemos considerar que las muestras
son independientes. En ambos casos tendríamos ejemplos de muestras apareadas.
El tratamiento de este caso es muy sencillo. Si disponemos de dos muestras
(deberán ser de igual tamaño) , , . . . , e , , . . . , , de las variables ∈
, e ∈ , , lo que haremos será trabajar con la variable de
diferencias (o , es indiferente), y por tanto con una sola muestra
, ,..., , donde . Lo que nos puede interesar será calcular
intervalos de confianza o estimaciones de la media de la variable (o de su
desviación típica).
Solución.
P á g i n a | 269
Construimos la muestra de diferencias entre los datos de los
interrogadores
0.7,0.4, 0.3, 0.2,0.2, 0.1,0.4 ,
y calculamos el intervalo de confianza para la media de la variable . El intervalo es
0.4
, / ⋅ 0.042 2.447 ⋅
√ √7
0.042 0.36, 0.042 0.36 0.402,0.318 .
El intervalo de confianza contiene al cero, aunque es algo más largo hacia la
izquierda (lo que otorgaría ventaja al primer interrogador). Estadísticamente, debería
optarse por elevar el número de detenidos para obtener un intervalo de mayor
precisión. Además, para tomar una decisión desde el punto de vista estadístico, sería
mejor realizar un contraste de hipótesis. Sin embargo, creemos que la dirección
general de seguridad va a establecer un desempate mediante una pelea a muerte
súbita entre los interrogadores.
12.9 INTERVALOS PARA PROPORCIONES
270 | P á g i n a
12.9.1 Intervalo para una proporción
Supongamos que se mide una cierta característica en una población. Sea
la proporción de elementos de la población con dicha característica. Como
hemos visto, se estima puntualmente mediante la proporción muestral ̂
número de elementos con la carácterística en la muestra de tamaño / . El
intervalo de confianza de nivel para el parámetro es de la forma
̂ / ,
Solución.
Nivel de significación del 1 por ciento: 0.01 ⇒ 1 0.99 ⇒ /
es decir, el intervalo va del 54 al 85 por ciento. Cualquier periódico sacaría el titular:
“según una encuesta del CIE, más de la mitad de los hombres no bajan la tapa del
W.C.”, y lo acompañaría de alguna fotografía indicativa, que nos negamos a
reproducir.
12.9.2 Intervalo de confianza para la diferencia de proporciones
Ahora suponemos dos poblaciones en donde se considera la misma
característica . es la proporción de elementos con dicha característica en la
primera población, y es la proporción en la segunda población. Se toma una
272 | P á g i n a
muestra de tamaño de la primera población, y otra de tamaño en la segunda,
y se calculan las respectivas proporciones muestrales ̂ y ̂ . El intervalo de
confianza para la diferencia es
̂ ⋅ 1 ̂ ̂ ⋅ 1 ̂
̂ ̂ / ⋅
Solución.
Tenemos que ̂ =estimación de la proporción de estudiantes que ven poco
ético que los padres revisen el ordenador de los hijos= 0.59.
Asimismo, ̂ =estimación de la proporción de padres que ven poco ético
revisar el ordenador de los hijos= 0.3.
274 | P á g i n a
P á g i n a | 275
13 CONTRASTES DE HIPÓTESIS
Según una encuesta reciente, el 80 por ciento de las mujeres afirma no
fijarse en el físico.
“Claro, se fijan en el médico, el futbolista y el notario”, dijo un tío en un bar.
13.1 INTRODUCCIÓN. CONCEPTOS ESENCIALES
Una hipótesis estadística es una afirmación que se hace sobre una o más
características de una población (decir que la vida media de una batería son x horas,
que un determinado producto hace adelgazar, que a la gente le gusta
mayoritariamente el morbo...). Un test o contraste de hipótesis es algún
procedimiento para aceptar o rebatir dicha hipótesis o afirmación.
Los contrastes pueden ser de tipo paramétrico o no paramétrico, según se
refieran o no a parámetros de una población (a la media, a la varianza, a una
proporción...).
Una hipótesis paramétrica es una afirmación sobre una o más características
(parámetros) de una población. Si dicha hipótesis especifica un único valor para el
parámetro la llamaremos hipótesis simple. Ejemplo: la estatura media de los varones
españoles mayores de 18 años es 1.77 m ( 1.77 .
Si se especifica más de un valor para el parámetro la llamaremos hipótesis
compuesta. Ejemplo: 1.75.
Ejemplos de hipótesis no paramétricas:
276 | P á g i n a
‐ Las notas de una asignatura son normales (la variable =“nota” sigue una
distribución normal).
‐ Los resultados de un sorteo no son aleatorios (la variable =“resultado” no
sigue una distribución uniforme).
La realización de un contraste implica la existencia de dos hipótesis:
• Hipótesis nula.
Se denota por , y se asume como correcta.
• Hipótesis alternativa.
Se denota por , y es la que pretendemos contrastar como opuesta a la
hipótesis nula.
El planteamiento de una hipótesis estadística (y su alternativa) es una primera
forma de afrontar la llamada teoría estadística de la decisión. Así, por medio de un
test o contraste de hipótesis, el investigador deberá tomar una decisión entre dos
alternativas. La manera de hacerlo será elegir una muestra lo suficientemente
representativa de la población en estudio, y ver si los resultados que se obtienen son
coherentes con la hipótesis formulada. Por ejemplo, cuando queremos comprobar si
las notas de una asignatura siguen una distribución normal, una posible forma de
tomar una decisión sería representar los resultados de un examen por medio de un
histograma de frecuencias y chequear el parecido con la campana de Gauss.
Lógicamente, al tomar una muestra siempre habrá desviaciones conforme a la base
teórica que planteemos en la hipótesis nula. Lo que habrá que estudiar es si esas
desviaciones son fruto de la casualidad o no.
En ocasiones, la hipótesis nula se llama “de igualdad”, porque se presupone
que es la hipótesis que cumple la población, y la alternativa ha de demostrar lo
contrario. Veamos a continuación un ejemplo referido a la media de una población.
P á g i n a | 277
Este sería un ejemplo del primer error que no debemos cometer: elegir una
muestra mala, o no representativa de la población. Hemos visto en el apartado
anterior varias maneras de seleccionar una muestra. A lo largo de este capítulo,
supondremos que las muestras se eligen mediante muestreo aleatorio simple, y que
la población tiene un tamaño muy grande (que podría entenderse como infinito).
Planteamiento general.
Hipótesis nula Hipótesis alternativa
La que contrastamos. Niega a la nula.
Los datos pueden refutarla. Los datos pueden ser favorables
a ella.
13.2 ERROR TIPO I Y ERROR TIPO II. POTENCIA
Cuando estamos realizando un contraste pueden darse las situaciones que
vemos en la siguiente tabla:
REALIDAD
RECHAZO
(13‐1)
Error tipo I Decisión
correcta
Decisión Error tipo II
Correcta
Denotamos por:
P(rechazar siendo cierta)=P(Error tipo I). se llama nivel de
significación del contraste.
P(aceptar siendo falsa)=P(Error tipo II).
1‐ rechazar siendo falsa) se llama Potencia del contraste (mide la
probabilidad de acertar cuando rechazamos ).
En el ejemplo b) de la sección anterior, es la probabilidad de rechazar la
inocencia, cuando realmente el acusado es inocente. es la probabilidad de aceptar
la inocencia cuando el acusado es culpable. Según vemos, el error de tipo I es mucho
más grave que el de tipo II. Si se comete un error de tipo I se mete en la cárcel (o en
el corredor de la muerte si es el caso...) a un inocente. Si se comete un error de tipo
II se deja libre a un culpable.
La potencia del contraste medirá la probabilidad de rechazar la inocencia,
cuando en efecto el acusado no es inocente.
280 | P á g i n a
En el ejemplo a) de la sección anterior, es la probabilidad de rechazar que
alguien esté enfermo, cuando en realidad lo está. es la probabilidad de decir que sí
está enfermo, cuando en realidad no lo está. También observamos que cometer un
error de tipo I es más grave que cometer uno de tipo II (dejemos de lado el tipo de
pruebas que le harían a la persona que ingresa sin estar enfermo, tipo contrastes
radioactivos, punciones lumbares, tactos rectales...).
Parece claro que, en cualquier contraste, interesa minimizar la probabilidad
de cometer ambos errores. Desgraciadamente, al minimizar la probabilidad de
cometer un error, aumenta la probabilidad de cometer el otro. Esto es fácil de
comprobar: una manera de minimizar la probabilidad de meter inocentes en la cárcel
sería soltar a todo el mundo ante la mínima duda, pero eso aumentaría la
probabilidad de dejar en la calle auténticos culpables. Igualmente, ingresar a todo el
mundo en el hospital minimiza la probabilidad de mandar a casa a una persona
enferma, pero aumenta la probabilidad de ingresar personas sanas... Ambos
planteamientos son inviables. Por lo tanto, la forma de proceder a la hora de plantear
cualquier contraste de hipótesis es hacer que el error de tipo I sea siempre el más
importante.
P á g i n a | 281
13.3 EJEMPLO PRÁCTICO: UNA PELÍCULA
Con un ejemplo concreto que podríamos encontrar en un videoclub (si es que
queda alguno), vamos a tratar de entender lo que más tarde se hará un poco más
abstracto, por culpa de las matemáticas. ¡Atención: spoilers!12 Si no has visto la
película y te apetece verla, vete directamente a la parte matemática, a la Sección de
la página 287.
12
Definición de spoiler, copiada tal cual de la frikipedia (si hay faltas de ortografía o
gramática, no culpar al autor): Se le llama spoiler a cuando un hijo de puta (Tu hermano, el
padre/madre de tu hijo, el hijo de tu mamá, el que escribió esto, etc.) te cuenta una parte de algo
que aun no has visto, te picas y lo matas, luego no te dan ganas de ver esa puta mierda por que ya te
la contaron y te cagaron la maldita historia. Tambien se llama spoilers a los espaguetis caducados
pero eso no tiene nada que ver.
282 | P á g i n a
Argumento: dos pardillos de New York, Bill (Ralph Maccio, el que
protagonizó “Karate Kid”) y Stan (Mitchell Whitfield, conocido en su casa a
la hora de comer) van en coche por la Alabama profunda, y deciden pararse
en un ultramarinos a comprar suministros. A uno de ellos le da por llevarse
una lata de atún sin pagar. Cuando, al cabo de un rato, son detenidos por la
policía, se declaran culpables. Pero en realidad están siendo acusados del
asesinato a tiros del dueño del ultramarinos.
Al ser encerrados en la cárcel, llaman en su ayuda al abogado de la
familia de Bill, su primo Vinny Gambini (en su primer caso ante un tribunal).
Este acude con su prometida Mona Lisa Vito.
Gran parte de la película se desarrolla en el tribunal, como otra más de las
típicas películas de juicios que todos hemos visto alguna vez. Utilicemos lo que ocurre
en la película para seguir los distintos pasos de un contraste de hipótesis.
P á g i n a | 283
1.‐ Establecimiento de las hipótesis nula y alternativa.
284 | P á g i n a
2.‐
Establecer un procedimiento de contraste o test
apropiado.
Se examinan las pruebas del caso y se ve si estas discrepan con la hipótesis
nula, es decir si existen dudas suficientes para rechazar la hipótesis nula.
El fiscal presenta las pruebas para acusar a los dos amigos.
P á g i n a | 285
3.‐ ¿Podrían las pruebas ser fruto de la casualidad?
(o de testigos falsos, comprados, enemigos de los acusados... ).
El abogado llama a declarar a su prometida, que casualmente es
experta en automóviles, porque procede de una familia de mecánicos de
coches, y ella misma ha trabajado muchos años en un taller.
286 | P á g i n a
4.‐ Con todos los datos delante, se toma la decisión
definitiva.
El juez debe tener en cuenta las consecuencias de los errores que
puede cometer. Si los declara culpables, van a la silla electríca (en Alabama
desde los 10 años ya pueden tener esa suerte).
P á g i n a | 287
13.4 CONTRASTES DE HIPÓTESIS PARAMÉTRICAS
Como se ha comentado al principio del capítulo, las hipótesis que pueden
plantearse son de tipo paramétrico o no paramétrico, es decir, referidas o no a
parámetros de poblaciones. Las hipótesis que hemos visto de “inocente” frente a
“culpable” serían no paramétricas. Veamos ahora unos ejemplos un poco más
estadísticos.
Supongamos que queremos contrastar si una distribución, por ejemplo, de
notas de exámenes, sigue o no una distribución normal.
: =“nota” sigue una distribución normal frente a : no sigue una
distribución normal.
Una posible forma de realizar un contraste sería por medio de un histograma.
Fijémonos en la Figura 13‐1. Tenemos 3 muestras o 3 grupos de notas de 250
alumnos. Claramente, el primero de los histogramas nos diría que la variable es
normal, mientras que el segundo histograma nos diría que existe una asimetría a la
derecha, y con el tercer histograma claramente rechazariamos la hipótesis nula.
Este ejemplo sería un contraste de tipo no paramétrico, puesto que no se
realiza ninguna afirmación sobre parámetros de la variable. Intentamos saber si es
una variable normal o no. Veamos ahora un caso paramétrico:
288 | P á g i n a
Figura 13‐1
¿De qué estaríamos hablando? Si se supone que la asignatura se imparte de
una forma, llamemos “correcta”, e igualmente sucede con los exámenes, un estudio
estadístico a lo largo de varios años debería arrojar una nota media igual a 5. Esta
nota media sería nuestro parámetro teórico de la población o variable en estudio.
Supongamos que se incorpora a dar la asignatura el “Cid cateador” y, a partir
de ese momento, los alumnos comienzan a quejarse de que la asignatura es muy
difícil de aprobar, que suspende mucha gente, etc. El rector de la universidad habla
con el profesor y le dice que está recibiendo muchas quejas, pero el profesor insiste
en que nada ha cambiado en la asignatura, y que todo está igual que siempre. ¿Cómo
se puede resolver la cuestión? Por ejemplo, realizando un examen con un número
P á g i n a | 289
elevado de alumnos, y viendo si existe mucha diferencia entre la nota media que se
obtiene en el mismo y el parámetro teórico ( 5). Ahora bien, está claro que,
aunque la media siga valiendo 5, siempre pueden existir desviaciones entre lo teórico
y lo que ocurra en la muestra. Si en la muestra de exámenes obtenemos una media
de 4.8, ¿aceptamos ? Seguramente no. Seguramente buscaríamos un
valor más alejado de 5 para decir que la nota media ha bajado. Es el mismo caso del
ejemplo de “culpables” frente a “inocentes”. Las pruebas deben ser precisas y
clarificadoras. En caso de duda, no se puede rechazar (en derecho, este principio
se llama in dubio pro reo ‒en caso de duda, se falla a favor del reo‒. Si las pruebas
dan lugar a dudas, hay que favorecer al acusado).
13.4.1 Como realizar un contraste de hipótesis paramétrico
Los contrastes referidos a un parámetro pueden ser de dos tipos: bilaterales
o unilaterales. Un contraste es bilateral cuando tiene la forma
: (Por nos referimos a un parámetro teórico y por a un valor
constante, un número) frente a
: .
Un contraste unilateral es de la forma:
: frente a
:
o bien
: frente a
: .
En estos dos últimos casos, la hipótesis nula podría ser : (primer
caso) o bien : (segundo caso). El contraste se realiza exactamente igual.
Como hemos indicado anteriormente, para tomar una decisión se elige una
muestra aleatoria simple de la población . , . . . , y se estima por medio de
290 | P á g i n a
algun estimador . Para ver si es “muy diferente” o no de , hay que disponer de
alguna medida de discrepancia (o estadístico del contraste) entre y . Esta
medida de discrepancia ha de ser una variable aleatoria con distribución conocida,
para poder medir si la discrepancia es grande o no (en la película, es el juez o el jurado
quien decide si la discrepancia es grande o no. Ahora sustituimos al juez por un
estadístico: ojo, nos referimos a una variable aleatoria, recuérdese el capítulo
anterior).
En el Ejemplo 13‐1: Si suponemos que la media 5, calculamos ̅ y vemos
si son muy diferentes calculando , ̅ , siendo una medida que nos de la
distancia entre la media teórica y la muestral.
Si es “pequeña”, no hay razones para sospechar que sea falsa, y se
acepta (si la media muestral de un número grande de exámenes da 4.8 no
sospecharíamos que la media no sea 5).
Si es “grande”, podemos decidir entre dos opciones:
a) es cierta, pero el azar ha producido una muestra poco representativa
(si la media muestral de un número grande de exámenes da 4, sospecharíamos que
el Cid cateador está haciendo de las suyas, pero quizá es que hayamos tenido mala
suerte y hayamos escogido justo una muestra de gente que ha estudiado poco).
b) La hipótesis realmente no es cierta (si la media muestral da 4, y la
muestra está bien elegida, es que el Cid cateador no tiene remedio).
Para ayudarnos a tomar una decisión, deberemos calcular el Nivel crítico o
valor: es la probabilidad de tener un valor del estadístico igual o mayor al
observado cuando es cierta (si la media muestral da 4, la diferencia
, ̅ entre lo teórico (5) y lo observado (4) es 1. Debemos calcular la probabilidad
de obtener esa distancia o una mayor aún).
Solución.
Si el dado está cargado en el 6, la probabilidad de salir será mayor de lo que
le correspondería, es decir 6 1/6. Igual que en el caso anteriormente visto
(y a pesar de que un vicerrector es un político en potencia), debemos considerarla
inocente salvo demostrar lo contrario. Vamos a plantear entonces las hipótesis nula
y alternativa como
: La vicerrectora es inocente, por lo tanto el dado no está cargado:
1/6.
: La vicerrectora hace trampas: 1/6.
La muestra observada por el estudiante es una muestra aleatoria, a partir de
la cual vamos a calcular una estimación del parámetro . Como hemos visto en el
capítulo anterior, un estimador natural del parámetro es la proporción muestral ̂ .
En esta muestra, ̂ 10/30 0.33, que es distinta y más grande que 1/6
0.16.
La discrepancia existe. Ahora bien, ¿es porque realmente el dado está
trucado, o el resultado es fruto de la casualidad en la muestra elegida? Dicho de otra
manera: ¿qué probabilidad existe de que el dado no esté preparado ( es cierta) y
que la muestra arroje una proporción muestral de 0.33? ¿Qué probabilidad existe de
que el dado no este trucado ( es cierta) y que exista esa diferencia entre lo
observado (0.33) y lo teórico (0.16)?
En este caso, la medida de discrepancia (o estadístico del contraste13) es
13
¿De dónde sale este estadístico? Como ya dijimos, al no estar este texto enfocado a los
292 | P á g i n a
̂
̂, ,
1
donde es el tamaño de la muestra.
̂
1
es una variable aleatoria (con cada muestra diferente que se tome, toma un valor
diferente), y puede demostrarse (mediante el teorema central del límite: lo habéis
adivinado) que sigue, aproximadamente, una distribución normal estándar.
0,1 .
En este caso concreto:
10 1
30 6 2.44.
1 1
6 1 6
30
Si se escoge otra muestra (se puede espiar a la vicerrectora otro rato, anotar
tiradas nuevas, calcular ̂ y calcular , obtendremos otro valor diferente . Esto
podemos hacerlo un montón de veces y obtener así una aproximación de la
distribución (en el muestreo) de frecuencias de la variable . Por lo indicado arriba,
puede demostrarse que esa distribución de frecuencias se corresponderá con una
normal estándar. Es decir, el histograma de frecuencias tenderá a ser la campana de
Gauss.
Recordemos que, en la 0,1 (igual que en cualquier variable continua), la
probabilidad entre dos puntos se calcula como el área bajo la curva.
¿Cuál es la probabilidad de que un valor concreto ̂ discrepe del teórico en
una cantidad concreta, por ejemplo 0.1? Bien, la probabilidad de un punto es siempre
aspectos más teóricos, simplemente indicamos que, tanto en este caso como en el resto de contrastes
que veremos, este estadístico es el mismo que se utiliza para construir el intervalo de confianza
correspondiente.
P á g i n a | 293
cero, por ser una variable continua. Lo que debemos hacer es calcular probabilidades
de intervalos. Podemos entonces contestar preguntas como: ¿cuál es la probabilidad
de obtener discrepancias que varíen, por ejemplo, entre 0.5 y 1.5?
Lo recordamos en la imagen que mostramos a continuación.
La probabilidad 0.5 1.5 0.2417. En nuestro caso concreto, nos
interesa saber cuánto “discrepa” el valor muestral ̂ 0.33 del teórico 0.16. Es
decir, nos interesa saber la probabilidad ̂. 2.44 . De nuevo
tenemos que decir que esta probabillidad es cero, pero lo que podemos hacer es
calcular la probabilidad de obtener esa discrepancia o discrepancias mayores, es
decir 2.44 =0.0073. Podemos verlo en la siguiente imagen:
294 | P á g i n a
Figura 13‐2
A esta probabilidad se le llama p‐valor: probabilidad de obtener una
discrepancia igual o mayor a la observada (cuando es cierta). El p‐valor en este
caso es 0.0073, por lo tanto, muy pequeño. Es la probabilidad de que el resultado
observado por el alumno sea fruto de la casualidad. Al ser una probabilidad tan baja,
se rechazaría la hipótesis nula. Diríamos que, al menos con esta muestra, no es creíble
la hipótesis nula de que la vicerrectora no hace trampas. El alumno ya tiene algo para
escribir a la prensa y comenzar una campaña de acoso y derribo contra esta señora.
13.4.2 Región crítica de un contraste
En el ejemplo visto, el p‐valor, o probabilidad, era un número muy próximo a
cero. Así pues, parece claro que la discrepancia con lo teórico es muy alta, puesto que
el p‐valor, recordemos, mide la probabilidad (suponiendo que la hipótesis nula es
cierta) de obtención del valor observado o uno mayor.
Supongamos que, en vez de observar 10 seises en 30 lanzamientos, se
hubieran observado 7 seises. ¿Cuál sería el p‐valor? Pues ahora
P á g i n a | 295
7 1
30 6 0.97.
1 1
⋅ 1 6
6
30
El p‐valor es la probabilidad
de obtener una discrepancia mayor o
igual a 0.97:
, 0.97 0.16
(figura de la derecha).
Con este p‐valor, ¿podría
aceptarse la hipótesis nula de que la
vicerrectora no hace trampas? Dicho
de otra manera: ¿la muestra obtenida podría ser coherente con que el dado no esté
trucado, es decir 6 1/6, y la discrepancia se deba al efecto del azar?
Obviamente, cuanto más pequeña sea la discrepancia, mayor será el p‐valor,
y viceversa. Luego el p‐valor (recordemos que es una probabilidad, y se moverá entre
0 y 1) sirve como forma de establecer una regla de decisión en el sentido de aceptar
o rechazar la hipótesis nula.
Para explicar esto con mayor detalle, debemos hablar de qué se entiende por
región crítica de un contraste.
Recordemos que hemos definido como =P(error tipo I)=P(rechazar
siendo cierta) el nivel de significación del contraste. Hasta hace unos años, en que los
ordenadores y los programas estadísticos no eran de uso común, y las probabilidades
de las distribuciones había que consultarlas en las tablas, la forma de proceder para
tomar una decisión en cuanto a aceptar o rechazar una hipótesis nula era
estableciendo la llamada región crítica, que depende de dicho valor . Llamemos
genéricamente a esa región crítica. Una vez calculado el valor númerico del
estadístico para el contraste, , se procedía de un modo tan simple como:
Si ∈ se rechaza (13‐2)
Si ∈ se acepta
296 | P á g i n a
La forma de construir depende de . Pongámonos en el caso del Ejemplo
13‐2. Si marcamos un límite, digamos 0.05, es decir un 5% máximo de error que
estamos dispuestos a asumir para rechazar la hipótesis nula siendo cierta, entonces
la región crítica sería 1.64, ∞ .
En efecto, 1.64 es el valor de la normal 0,1 (distribución que sigue el
estadístico del contraste) que deja a la derecha área o probabilidad 0.05 (Figura 13‐3).
Esta región corresponde al cinco por ciento de valores más raros (positivos) de una
variable 0,1 . mide la discrepancia. Si es un valor raro ( ∈ rechazamos la
hipótesis nula. Si no es un valor raro, aceptamos la hipótesis nula.
Figura 13‐3
En los casos que hemos visto en el Ejemplo 13‐2, primero obtuvimos que
2.44, que es un punto de 1.64, ∞ , y rechazariamos . En el segundo caso
supusimos que se observaban 7 seises en 30 lanzamientos y obtuvimos 0.97. En
este caso estaríamos fuera de la región crítica y aceptaríamos .
Los valores habituales que se tomaban para (probabilidad de error de tipo
I) (y, en consecuencia, para definir la región crítica) eran 0.01, 0.05 y 0.1. Hoy en
día, en muchos casos se sigue trabajando con un valor predeterminado (antes de
realizar el experimento), pero, generalmente, no se calcula la región crítica como tal
P á g i n a | 297
(puesto que el ordenador nos da el p‐valor). Así pues, se decide cual es el valor de
que el experimentador está dispuesto a aceptar como máximo riesgo de cometer un
error de tipo I, y la regla de decisión es, tras calcular el p‐valor:
Si p valor aceptamos
Si p valor rechazamos
13.4.3 Potencia del contraste
La potencia de un test se definió como 1 rechazar siendo falsa).
Para el ejemplo de “Mi primo Vinny” la potencia nos mediría la probabilidad de
declarar culpables a los sospechosos cuando realmente lo son. En un juicio en Estados
Unidos, la probabilidad dependería del buen hacer del jurado popular: si el jurado es
más listo, más probabilidad de rechazar si es falsa.
Para el Ejemplo 13‐2 podemos calcular la potencia matemáticamente. Como
está indicado en (13‐2), la manera de rechazar la hipótesis nula es: si ∈ se
rechaza , donde, para un nivel de significación 0.05 hemos visto que
1.64, ∞ , es decir se rechaza si 1.64, donde
1
̂ 6
.
1 1
6⋅ 1 6
30
Entonces, vemos que se rechaza cuando 1.64, es decir
1 1 1
̂ 1 ⋅ 1 6
6 1.64 ⇔ ̂ 1.64 ⋅ 6 0.11 ⇔
1 1 6 30
⋅ 1 6
6
30
⇔ ̂ 0.11 0.166 0.276.
Entonces, para una muestra de tamaño 30 se rechaza (para un nivel
de significación 0.05) siempre que ̂ sea mayor que 0.276.
298 | P á g i n a
Calculemos entonces la potencia:
1.64/ es falsa ̂ 0.276/ cierta ̂ 0.276/ 1/6 .
Se puede comprobar que, por el teorema central del límite, ̂
, . Es decir, para cada valor (que sea mayor que 1/6), la potencia
cambia. Podemos calcularla como ̂ 0.276
̂ 0.276 0.276
, .
1 1 1
Pongamos por ejemplo 0.2, la potencia es
0.276 0.2
0.2 , , 1.04 0.149.
0.2 ⋅ 1 0.2
30
Calculemos la potencia para otros valores, por ejemplo:
Para 0.3, 0.3 0.61
Para 0.4, 0.4 0.91
Para 0.5, 0.5 0.992
Para 0.8 y hasta 1, 1.
Estos valores obtenidos resultan lógicos: pensemos que, si el dado está
trucado, de modo que la probabilidad de que salga el 6 es muy grande, la probabilidad
de rechazar la hipótesis nula ( : 1/6 es más grande (puesto que la proporción
muestral estará cada vez más alejada de 1/6 .
En general, la potencia se utiliza para diferenciar entre dos procedimientos o
test distintos para contrastar las mismas hipótesis. Cómo dijimos anteriormente, no
es posible minimizar simultaneamente las probabilidades y de los dos posibles
errores que se pueden cometer (si disminuye una, aumenta la otra), por lo que, al
realizar un test, se fija un pequeño. Si tenemos dos test matemáticos para
contrastar las mismas hipótesis, que tengan el mismo , se prefiere aquel que tenga
mayor potencia.
P á g i n a | 299
En los casos que se ven en este texto, el procedimiento que se da para realizar
los contrastes son los que, precisamente, tienen mayor potencia (o sea, los mejores
procedimientos).
Referimos al lector a textos más especializados si se quiere ampliar este tema,
como por ejemplo el de Cao y otros [3]. Si alguien tiene interés en ver ejemplos
concretos, pueden encontrarse en [12].
13.4.4 Resumen: Etapas básicas de un contraste de hipótesis
: Hipótesis nula.
es la de “no diferencia”.
(Ejemplo 1) Es inocente.
(Ej. 2) La nota media no ha variado.
(Ej. 3) La altura media, en los últimos años, no ha cambiado.
(Ej. 4) El dado no ha sido modificado.
(Ej. 5) El ejercicio no influye en el ritmo cardíaco.
300 | P á g i n a
(Ej. 6) El nuevo medicamento inventado por el doctor Cito no es mejor que la
Viagra.
: Hipótesis alternativa.
(Ej. 1) Es culpable.
(Ej. 2) La nota media ha descendido.
(Ej. 3) La altura media, en los últimos años, ha aumentado.
(Ej. 4) El dado ha sido modificado.
(Ej. 5) El ejercicio influye en el ritmo cardíaco.
(Ej. 6) El nuevo medicamento del doctor Cito es mejor que la Viagra.
El peso de la prueba recae en .
Etapas:
1.‐) Especificar las hipótesis nula y alternativa.
2.‐) Elegir un estadístico de contraste apropiado (para medir la discrepancia
entre lo observado y lo teórico).
3.‐) Tomar una muestra . , . . . , y evaluar el estadístico del contraste
bajo , es decir . ,..., ; .
4.‐) Concluir si la diferencia es estadísticamente significativa (se rechaza
o no), según el p‐valor del estadístico. Para ello podemos fijar un nivel de confianza
1 determinado y tomar una decisión en base al mismo.
La regla de decisión, tras calcular el p‐valor, es:
Si p valor aceptamos
Si p valor rechazamos
P á g i n a | 301
Si no se fija ningún , la regla “general” es
Si p valor 0.1 aceptamos
(13‐3)
Si p valor 0.1 rechazamos
Importante: Las hipótesis no se plantean después de observar los datos.
Rechazar una hipótesis no prueba que sea totalmente falsa. Podemos
cometer un error de tipo I.
No rechazar una hipótesis no prueba que sea totalmente cierta. Podemos
cometer un error de tipo II.
13.5 CONTRASTES UNI Y BILATERALES.
En el Ejemplo 13‐2 las hipótesis planteadas fueron : 1/6 frente a
: 1/6. El test planteado fue un ejemplo de contraste unilateral. Veamos un
ejemplo de test bilateral.
Solución.
Planteamos : 0.15 frente a 0.15.
El estadístico del contraste es el mismo que el del Ejemplo 13‐2, si bien ahora,
al tener en la hipótesis alternativa que 0.15, va a cambiar la región crítica.
Recordemos que la medida de discrepancia o estadístico del contraste
̂
̂, ,
1
Figura 13‐4
Al ser el p‐valor más grande que 0.1, en principio se aceptaría la hipótesis nula.
Si utilizamos la regla (13‐3) deberíamos aconsejar a la dirección del cine club que haga
una nueva prueba con una muestra mayor.
Como ejemplo, escribimos como sería la región crítica para un nivel 0.1:
∞, 1.69 ∪ 1.69, ∞ , cayendo el valor del estadístico, en este
ejercicio, fuera de dicha región.
Como hemos visto en el ejemplo, la diferencia entre el test unilateral del
Ejemplo 13‐2 y este último radica únicamente en el cálculo del p‐valor (y la región
crítica). En un test unilateral el p‐valor es el área en una cola (a la derecha del p‐valor
en el ejemplo usado) y en el test bilateral el p‐valor es la suma del área en ambas
colas (izquierda y derecha). Queda patente que si queremos plantear un test
unilateral del tipo
: frente a :
se realizaría exactamente igual, y el p‐valor será el área a la izquierda del valor del
estadístico del contraste.
304 | P á g i n a
Por último, indiquemos que los test unilaterales donde la hipótesis nula sea
: o bien se realizan exactamente igual que el correspondiente con
, es decir el p‐valor depende de la dirección “ “o “ “en la hipótesis
alternativa.
Todo esto, aunque pueda no parecerlo, es muy fácil de recordar, porque sólo
hay 3 casos (Figura 13‐5), ya que, por motivos teóricos, recuérdese que el valor “ “
debe estar en la hipótesis nula, nunca puede estar en la alternativa.
Figura 13‐5: resumen del cálculo del p‐valor (área sombreada en cada caso).
P á g i n a | 305
Ejemplo 13-4: ¿Padecen las mujeres más enfermedades de huesos que los
hombres? Pregunta muy habitual en ciencias de la salud. Está claro que en
ciertas enfermedades, como la osteoporosis, hay mayor proporción de casos
en el sexo femenino que en el masculino.
Luis de Bingos, médico del centro de salud “doctor Mengele”, piensa que,
últimamente, con los malos habitos de vida, colesterol, falta de ejercicio, etc.,
la frecuencia de la enfermedad en hombres es cada vez mayor. Según el
historial del centro de salud, la proporción de mujeres con osteoporosis suele
superar el 70 por ciento del total de pacientes. Este médico, que quiere pasar
a la historia publicando un artículo científico cargándose esta proporción,
reune las fichas de los 100 últimos pacientes con osteoporosis y cuenta que
hay 68 mujeres a tratamiento. ¿Logrará Luis su objetivo de hacerse famoso?
Solución.
Si definimos como =“proporción de mujeres con osteoporosis”, debemos
hacer el contraste unilateral:
: 0.7 frente a : 0.7.
La hipótesis nula corresponde a lo que es conocido (la proporción es al menos
el 70 por ciento). Esto será cierto mientras el Dr. de Bingos no demuestre lo contrario.
El estadístico del contraste es el que hemos venido utilizando:
̂
,
1
13.5.1 Resumen: cálculo general del p‐valor
El valor se calcula en función de la distribución que sigue el estadístico del
contraste, y de que el contraste sea bilateral o unilateral. Supongamos el contraste
que hemos estado viendo en los últimos ejemplos, referente a una proporción. En la
hipótesis nula tenemos : . Si es de la forma : , entonces el nivel
crítico o p‐valor es 2 veces el área a la derecha del valor absoluto del estadístico del
contraste . Si es de la forma : , el nivel crítico es el área a la derecha del
P á g i n a | 307
308 | P á g i n a
13.5.2 Contrastes paramétricos más usuales
A continuación, indicamos los estadísticos que se utilizan para los principales
contrastes de tipo paramétrico, y la distribución que siguen cuando la hipótesis nula
es cierta. Los casos considerados son los mismos que en el capítulo anterior de
intervalos de confianza.
13.5.3 Para la media de una variable normal
:
13.5.3.1 Si se conoce la desviación típica
El estadístico (y su distribución) es
∈ 0,1 .
/√
Como ya se comentó en el capítulo de intervalos de confianza, no es habitual
conocer la desviación típica real de una población, por lo que, para realizar contrastes
relativos a la media de una población normal, se utiliza casi exclusivamente el
siguiente estadístico basado en la distribución de Student.
13.5.3.2 Si no se conoce la desviación típica
∈ .
/√
P á g i n a | 309
Solución.
Se debe plantear un test para la media de la variable “peso al nacer”, del modo
: 5 frente a : 5.
Con la muestra que tenemos, de 28 datos, debemos calcular
... ∑
̅ 5.16 0.597.
1
El valor del estadístico en el contraste es
5.16 5
1.41.
/√ 0.597/√28
El p‐valor es el área a la
derecha de 1.41 (imagen), en una
de Student con 1 27 grados
de libertad, que es 0.083.
Utilizando la regla general
para aceptar o rechazar , vemos
que el p‐valor es más pequeño que
0.1, por lo tanto rechazamos la
hipótesis nula. Sin embargo, para
algunos niveles clásicos, como 0.01 o 0.05, el p‐valor es más grande, por lo que se
aceptaría . Tal vez se debería encontrar una muestra más grande antes de tomar
ninguna decisión. Iker Jiménez deberá poner a trabajar a sus arqueólogos porque el
310 | P á g i n a
misterio sigue abierto (y en todo caso, si se decide rechazar , recordemos que las
pruebas rechazarían que el peso medio al nacer en los hijos de esta señora sea
“menor o igual a 5 kilos”. Después, si con esto alguien acepta que la señora era
extraterrestre, él sabrá).
13.5.4 Para la varianza
:
P á g i n a | 311
13.5.4.1 Si se conoce la media
∑ x μ
w ∈ χ .
σ
13.5.4.2 Si no se conoce la media
1 ∑ ̅
∈ .
Volvemos a señalar que, en la práctica, parece bastante irreal el conocer la
media teórica de la población, con lo cual el estadístico a utilizar habitualmente es
este último.
13.5.5 Para la diferencia de medias
Suponemos ∈ , e ∈ , , y que tenemos dos muestras
aleatorias simples , ,..., e , ,..., de las variables. Queremos
contrastar
: o 0.
Los estadísticos para este contraste son los siguientes.
13.5.5.1 Conociendo las desviaciones típicas
∈ 0,1 .
13.5.5.2 Desconociendo las desviaciones típicas pero suponiéndolas iguales
x y μ μ
w ∈ t .
n 1 ⋅S m 1 ⋅S 1 1
⋅
n m 2 n m
312 | P á g i n a
13.5.5.3 Desconociendo las desviaciones típicas y supuesto que los tamaños de las
muestras son grandes ,
0,1
(el símbolo indica que la distribución, en lugar de ser exacta, es una aproximación).
13.5.5.4 Desconociendo las desviaciones típicas y supuesto que los tamaños de las
muestras son pequeños ,
,
siendo Δ el entero más próximo a
1 ⋅ 1 ⋅
.
1 1
De nuevo, recordemos que el ordenador se encargará por nosotros de evaluar
estas fórmulas, con lo cual nuestra tarea consistirá únicamente en establecer el test
de hipótesis adecuado. Es posible que debamos chequear primero si podemos
considerar o no las varianzas (o desviaciones típicas) iguales, aunque se desconozcan
(que parece lo más probable). Para ello deberemos, en todo caso, realizar en primer
lugar un test para saber si las varianzas pueden considerarse iguales o no (en
ocasiones, el software correspondiente se ocupa automáticamente de eso, como
hace por ejemplo el SPSS; al R deberemos indicárselo).
13.5.6 Para la razón de varianzas
Para realizar el contraste
: , el estadístico a utilizar es
P á g i n a | 313
∈ , .
Este test nos sirve para saber si podemos considerar las varianzas de 2
variables e iguales o no, que es necesario para contrastar después la igualdad de
Solución.
Queremos contrastar
:
frente a
: ,
que es lo mismo que
: 1
frente a
: 1.
El estadístico a utilizar, en este caso toma un valor de
50
⋅ ⋅1 2.083.
24
Figura 13‐6
Solución.
a) Para contrastar : frente a : , el estadístico a utilizar
es
∈ , .
En este caso
4.19
1. 21.
3. 8
El p‐valor para el contraste es 2 veces el área a la derecha de 1.21, que es 2 ⋅
0.41 0.82, con lo que aceptamos claramente la igualdad de varianzas.
b) El médico quiere saber si el número de exámenes aprobados es mayor con
el producto farmacéutico (variable que con la mezcla (variable . Para ello
tenemos que plantear el contraste : frente a : .
El estadístico del contraste es (estamos en el caso de que desconocemos las
desviaciones típicas pero se suponen iguales, ya que en el apartado anterior hemos
aceptado la igualdad):
316 | P á g i n a
.
1 ⋅ 1 ⋅ 1 1
⋅
2
Las medias muestrales son 15.57 e 13.85 y, bajo , 0.
Entonces 0.804. El p‐valor es el área a la derecha de en una distribución con
2 12 grados de libertad. El p‐valor que se obtiene es 0.21, con lo que, con
esta muestra, no podemos rechazar (igualdad de efectos de ambas marcas).
Nota 13-3 En R, como siempre, muy sencillo. Lo único que debemos es tener
instalada la librería fBasics y llamarla, para realizar el test para la igualdad de
varianzas.
require(fBasics)
x=c(10,15,18,23,12,16,15)
y=c(15,10,19,9,14,12,18)
El apartado a lo hacemos con la instrucción:
varianceTest(x, y)
El apartado b con:
t.test(x, y , alternative = "greater", mu = 0, paired = FALSE, var.equal =
TRUE)
Ambas instrucciones aportan bastante información, que quedaría demasiado
grande para escribir aquí. Sugerimos hacer el ejemplo y confirmar los resultados.
13.5.7 Para una proporción
: .
̂
0,1 .
1
13.5.8 Para la diferencia de proporciones
: o 0.
P á g i n a | 317
̂ ̂
0,1 .
̂ 1 ̂ ̂ 1 ̂
Solución.
Vamos a contrastar
: o 0, frente a : o 0,
donde es la proporción de adolescentes que sueñan con casarse con Justin Bieber
y la misma proporción referida a Robert Pattinson.
El estadístico del contraste toma el valor (tenemos en cuenta que, si es
cierta, 0 :
̂ ̂
̂ 1 ̂ ̂ 1 ̂
0.187 0.117 0
1.0551.
0.187 ⋅ 1 0.187 0.117 ⋅ 1 0.117
64 51
318 | P á g i n a
El p‐valor es dos veces el área a la derecha de este valor, que es 2 ⋅ 0.147
0.294, con lo que aceptamos claramente la hipótesis nula. Parece lógico pensar que
la bobería depende de la edad, no del ídolo en cuestión.
13.5.9 Caso de dos muestras relacionadas (apareadas)
Por último, si suponemos 2 variables o poblaciones e , ∈ , ,
∈ , , pero dependientes (observaciones antes y después en los mismos
individuos, etc.), estaremos en el caso de muestras o variables apareadas, que ya
tratamos en el capítulo anterior. Igual que vimos allí, de la variable se escogerá una
muestra , ,…, y de otra muestra , ,…, (los tamaños de las
muestras han de ser iguales), y trabajaremos con la variable o , con
lo que estaremos en la situación de análisis de una única muestra.
\ 1 2 3 4 5 6 7 8 9
14 12 9 13 15 17 13 12 13
17 11 12 10 11 16 16 15 13
¿Puede suponerse que los tiempos de reducción difieren según cada
estímulo?
Solución.
Debido a que las pruebas han sido realizadas con las mismas personas,
debemos considerar las diferencias entre los tiempos de reacción, pues estamos
tratando muestras apareadas. Si llamamos al tiempo tardado en responder al
estímulo A y al tiempo tardado en responder al estímulo B, consideramos la
variable .
El contraste a plantear es si : 0 frente a : 0.
Construimos la muestra de diferencias
3, 1,3, 3, 4, 1,3,3,0 .
De la muestra obtenemos 9, ̅ 0.33, ̂ 2.78.
El estadístico del contraste es
̅
∈ .
/√
El valor del estadístico para esta muestra es
0.33 0
0.35.
2.78/√9
El p‐valor es 2 veces el área a la derecha de 0.35 en una con 8 grados de
libertad, es decir 2⋅ 0.368 0.736, con lo que aceptamos claramente , es decir no
hay diferencias entre los estímulos (en los individuos ex‐concursantes de “gran
marrano”).
Solución.
Para ver cuál de los dos tipos A o B causa mayor efecto, tenemos que realizar
un test de comparación de medias entre muestras independientes. No se trata de
muestras apareadas, puesto que, como vemos, cada individuo recibe la droga A de
una forma (inyectada) y la B de otra (esnifada), con lo que es como si tuviéramos
individuos diferentes en cada caso. Si todos los individuos se inyectasen la droga A y
la B (o todos la esnifasen), las muestras serían pareadas, porque lo que deberíamos
es medir las diferencias entre efectos de una droga y otra.
Suponemos =“duración del efecto de la heroína A” ∈ , e =“duración
del efecto de la heroína B” ∈ , . Queremos contrastar : o
0.
Para realizar este test, antes debemos comprobar si las varianzas pueden
considerarse iguales o no, pues ello influirá en el estadístico a utilizar. Es decir,
debemos resolver primero : frente a : . Como hemos visto
anteriormente, el estadístico a utilizar es
∈ , .
El valor del estadístico en este caso particular es
2.45
0.95.
2.51
El estadístico que usamos sigue una distribución (con 9 y 9 grados de
libertad). Como la función de densidad de la distribución no es simétrica,
calculamos el área a la izquierda y derecha del valor 0.95. El área a la izquierda
P á g i n a | 321
es 0.47, por lo tanto el área a la derecha es 0.53. El p‐valor es, por lo tanto, 2 ⋅ 0.47
0.94, con lo que claramente aceptamos la igualdad de varianzas.
A continuación, realizamos el test para las medias: : frente a
: , donde elegimos el estadístico
∈
1 ⋅ 1⋅ 1 1
2
(estadístico cuando se desconocen las desviaciones típicas pero se suponen iguales).
En este caso
10.63 11.04 0
0.37,
9 ⋅ 2.45 9 ⋅ 2.51 1 1
10 10 2 10 10
y calculamos el p‐valor, que resulta ser 2 0.358 0.716, con lo que se acepta la
igualdad de medias, es decir los efectos de ambas heroínas pueden considerarse
iguales.
Por último, para ver si existen diferencias entre esnifar o inyectarse la droga,
hay que tener en cuenta que el efecto puede depender del individuo (y que como
vemos en la tabla del enunciado, primero toman droga A, que algunos se inyectan y
otros esnifan, y después de un tiempo toman droga B, que de nuevo unos se inyectan
y otros esnifan). Debemos construir una nueva tabla, donde tendremos que construir
una nueva columna con las diferencias, para hacer un test para datos apareados.
Tertuliano 1 2 3 4 5 6 7 8 9 10
Inyectada 13.2 8.2 11.2 14.3 11.8 6.6 9.5 10.8 9.3 13.3
Esnifada 14.0 8.8 10.9 14.2 10.7 6.4 9.8 11.3 8.8 13.6
El contraste a plantear es si : 0 frente a : 0.
Con la muestra de diferencias
0.8, 0.6,0.3,0.1,1.1,0.2, 0.3, 0.5,0.5, 0.3 .
De la muestra obtenemos 10, ̅ 0.03, ̂ 0.57, con lo que el
valor del estadístico
322 | P á g i n a
̅ 0.03 0
0.16
0.57
√ √10
y el p‐valor correspondiente (2 veces el área a la izquierda de ‐0.16) es 0.87, con lo
que se acepta la hipótesis nula, que da igual esnifar que pincharse.
Y sí, llegado aquí, piensas que no te has enterado de mucho, recuerda que
siempre estás a tiempo de meterte en la política.
En todo caso, si te ha parecido interesante el libro, recorta el dibujo que sigue,
haz fotocopias y repártelas entre todos los posibles interesados.
P á g i n a | 323
324 | P á g i n a
P á g i n a | 325
14 REFERENCIAS
[1] Ardanuy Albajar, R. Estadística para ingenieros. Hespérides, Salamanca.
[2] Brownlee, K. Statistical theory and Methodology. Editorial Wiley.
[3] Cao Abad, R., Francisco Fernández, M., Naya Fernández, S., Presedo
Quindimil, M. P., Vázquez Brage, M., Vilar Fernández, J. A. y Vilar Fernández, J. M.
Introducción a la estadística y sus aplicaciones. Ediciones Pirámide.
[4] Draper, N.R. y Smith, H. Applied regression analysis. John Wiley and Sons.
[5] Gonick, L. y Smith, W. La estadística en cómic. Editorial Zendrera Zariquiey,
Barcelona.
[6] Guisande González, C. y Vaamonde Liste, A. Gráficos estadísticos y mapas
con R. Editorial Díaz de Santos.
[7] Guisande González, C., Vaamonde Liste, A. y Barreiro Felpeto, A.
Tratamiento de datos con R, Statistica y SPSS. Editorial Díaz de Santos.
[8] Milton, S. Estadística para biología y ciencias de la salud. McGraw‐Hill.
[9] Montgomery, D. C. y Runger, G. C. Probabilidad y estadística aplicadas a
la ingeniería. McGraw‐Hill.
[10] Peña Sánchez de Rivera, D. Fundamentos de estadística. Alianza Editorial.
[11] Población Sáez, A. Las matemáticas en el cine. Proyecto Sur de Ediciones.
[12] Quintela del Río, A. Problemas estimulantes de probabilidad y
estadística. Editorial Lulu. También en venta directa (en formato pdf) en
http://alejandroquintela.com/libro.
[13] Spaeth, H. Mathematical Algorithms for Linear Regression. Academic
Press.
326 | P á g i n a
[14] Spiegel, M. R. Teoría y 760 problemas resueltos. McGraw‐Hill.
[15] Uña Juárez, I., Tomeo Perucha, V. y San Martín Moreno, J. Lecciones de
cálculo de probabilidades. EditorialThomson.
[16] Wackerly, D., Mendenhall, R. y Scheaffer, L. Estadística matemática con
aplicaciones. Editorial Thomson.
En internet podemos encontrar multitud de apuntes y ejercicios de distintas
asignaturas de estadística, tanto de educación secundaria y bachillerato, como de
carreras universitarias y cursos monográficos. Recomendamos hacer una buena
busqueda para conseguir material adecuado a nuestros intereses.
Por ejemplo, recomendamos por su calidad el libro de F. Ríus Díaz, F. J. Barón
Lopez, E. Sánchez Font y L. Parras Guijosa: “Bioestadística. Métodos y aplicaciones”,
que puede descargarse en la dirección:
http://www.bioestadistica.uma.es/baron/bioestadistica.pdf
P á g i n a | 327
15 APÉNDICE A. INSTALACIÓN DE R.
El 100 por 100 de las mujeres responden “nada” cuando les sucede algo.
Dicho en un bar.
En relación a la instalación y uso, tanto de
este programa, como de cualquier otro, existe la
opción de buscar videos en youtube. A mí esta
opción me ha resultado bastante útil para
encontrar rápidamente la forma de realizar
muchas tareas, y en ocasiones las explicaciones
resultan más ágiles y mejores que las de manuales
en texto. Hasta el momento, en cambio, no he
encontrado videos de interés para aprender
teoría. La mayoría de ellos se limitan a exponer
conceptos y hacer ejercicios igual que en cualquier
clase habitual. Hay muchos videos de este tipo
también, igual que ‐aunque parezca increíble‐ cada
vez existen más donde la gente (joven, en general) se dedica a deformar canciones,
cambiando la letra e introduciendo la estadística y la probabilidad por el medio
(podéis ver algunos en mi blog). Bueno, con su tiempo libre cada uno hace lo que le
parece, y esto siempre es mejor que emplearlo en maquinar maldades, como
nuestros gobernantes.
15.1 DESCARGA DEL PROGRAMA.
La página oficial de R es http://www.r‐project.org/. R funciona en Windows,
Linux y MacOS. Aquí veremos la instalación en Windows. Los de Linux se supone que
328 | P á g i n a
saben lo suficiente para no tener que usar un manual como este, y los de MacOS se
supone que tienen suficiente dinero para, en caso de problemas, pagarle a alguien
que se lo instale.
El “mirror” o servidor más cercano para descargar el programa está en
España, en:
http://cran.es.r-project.org/
Una vez pinchada esa opción, nos aparecen otras. Debemos elegir la opción
básica (base):
P á g i n a | 329
Y, una vez marcada esta, nos aparece la versión más actual, en este caso nos
aparece la versión 3.0.1
Pinchando ahí nos preguntará si deseamos descargar esa versión. Decimos
que sí, y la guardará en donde cada uno guarde las descargas de internet (los videos
porno, para entendernos, que siempre hay alguien que no encuentra lo que descarga.
Pues eso, el programa estará en el mismo sitio a donde van a parar las fotos guarras
y demás... ). Aquí dejo una captura de pantalla de mi ordenador, con el programa de
instalación que se ha descargado de internet.
330 | P á g i n a
Haciendo doble click en el programa, lo normal es dejar que se intale
confirmando las opciones que aparezcan por defecto. Generalmente, en primer lugar
nos pedirá permiso de instalación. Decímos que sí, y le damos una o dos veces hasta
esta otra ventana donde nos pregunta en que directorio o carpeta queremos
instalarlo:
Lo normal es darle a la opción siguiente. En las demás opciones que vienen a
continuación, también se recomienda dejar las que estén por defecto. El programa
se irá instalando (no tarda mucho, pero esto dependerá del ordenador. Si tenéis uno
lento, podéis aprovechar para revisar el facebook, el periódico, forocoches...)
P á g i n a | 331
y, una vez que termine, nos avisa, y tendremos en el escritorio dos nuevos iconos
(foto de mi escritorio, no soy yo).
332 | P á g i n a
Como podéis comprobar, tenemos dos versiones de R: la de 32 y la de 64 bits,
porque por defecto instala las dos (en la instalación hay una opción que podéis
desmarcar si vuestro ordenador no tiene procesador de 64 bits). ¿Se pueden usar las
dos para las cosas básicas, las de este libro? Sí. La diferencia entre una y otra versión
es que algunos paquetes, de los que se instalan a mayores para realizar cosas más
raras que las de este texto, pueden no funcionar en una u otra versión.
Para ejecutar el R en 64 bits (si tenéis procesador así), doble click y ya arranca
el programa:
En la ventana que aparece, llamada R console, abajo hay un símbolo “ >” de
color rojo. Ahí ya se pueden escribir comandos y ejecutarlos (dandole a Enter).
Ejemplo tonto:
> 2+2 (Enter)
> [1] 4
P á g i n a | 333
Se recomienda, en vez de escribir en la consola, abrir una ventana para
escribir comandos, que luego se podrá guardar para no tener que repetir todas las
instrucciones en
otra sesión. Vais,
dentro del menú
de arriba, a la
opción
Archivo>Nuevo
Script
y se nos abrirá una
ventana nueva,
que podemos
colocar donde
queramos, por
ejemplo a la
derecha de la que
tenemos. Es la ventana de edición. Como veis, se llama Sin nombre. Lo mejor es ya
asignarle un nombre y guardarla, dandole en el menú a Archivo y Guardar como...
334 | P á g i n a
Se abrirá un cuadro de diálogo (ventana) de Windows para que guardemos el
archivo con el nombre que queramos (la extensión por defecto es R; esto es, si le
llamamos prueba, en el ordenador lo graba como prueba.R), y en el directorio que
queramos.
Le damos a guardar y ya tenemos que la ventana de edición tiene el nombre
prueba.R (con la ruta del directorio donde lo hayamos guardado).
Esta ventana de edición es un editor de texto básico, podemos escribir, borrar,
buscar, copiar y pegar, etc. Una vez que queramos ejecutar algo deberemos señalar
las líneas correspondientes con el ratón (botón izquierdo del ratón pulsado e ir
marcando las líneas, exactamente igual que en cualquier otro editor o programa) y
luego darle a Control ‐ R (tecla Control y letra R: es la manera de ejecutar ordenes).
P á g i n a | 335
El resultado de lo que le mandemos hacer se verá en la ventana de la izquierda
(consola): primero las órdenes y después los resultados.
336 | P á g i n a
Para practicar un poco más, pongamos un ejemplo con una gráfica. Vamos a
introducir unos cuantos datos, y le pediremos que nos calcule la media aritmética y
dibuje un histograma (si no os suena de nada, aparte de estar comprobando que
procedéis de la ESO, podéis mirar de qué hablamos en el primer capítulo).
Primero guardamos los datos que queramos en un vector o variable x, y
después le pedimos que calcule su media, del modo:
x=c(2,3,4,5,13,14,28); mean(x)
Fijémonos que, en vez de poner cada orden o instrucción en una fila, podemos
poner varias instrucciones separadas por punto y coma.
A continuación le pedimos que dibuje un histograma, con la orden:
hist(x)
P á g i n a | 337
El programa abre una nueva ventana con el gráfico correspondiente. Esta
ventana puede copiarse situando el ratón sobre ella y dándole al botón derecho, para
guardarlo en el portapapeles o en una carpeta, y llevarlo a un procesador de textos,
un programa para gráficos, etc. Comprobad que, en la línea anterior de la que hemos
escrito hist(x) aparece un comentario:
# dibujo del histograma
hist(x)
Los comentarios se indican con el símbolo # a su izquierda. El programa no
tiene en cuenta todo lo que vaya a continuación de este símbolo (hay que poner un
símbolo # por línea que queramos comentar). De esta forma, podemos ir
describiendo las tareas que realizamos, y nos resultará más fácil entender lo que
hemos hecho cuando abramos este fichero de instrucciones en una sesión posterior.
El gráfico que ha aparecido tiene unas opciones por defecto, como el título
principal, el título del eje vertical, color en blanco, etc., que son modificables. Para
conocer las opciones de un comando se escribe en la ventana de la izquierda (la
consola):
338 | P á g i n a
help(hist) (o help(cualquier comando))
y se abrirá una ventana externa al programa (generalmente una ventana de
navegación por internet, como firefox o el navegador que usemos por defecto) con
la ayuda para el comando.
Si no nos acordamos de cómo se escribe un comando, podemos escribir en la
ventana de la izquierda algunos caracteres
??his
y nos indicará cuales son los comandos que más se parecen a lo que hemos escrito.
A lo largo de los capítulos del libro se indica la sintaxis y los resultados para
los diferentes procedimientos de los ejemplos y ejercicios. Como este libro es para
aprender estadística, no es necesario ver nada más referente al programa R. En la
sección siguiente se indica dónde conseguir manuales de forma gratuita. Algunos de
ellos enseñan simultáneamente estadística. Con respecto a lo que nosotros
acabamos de hacer, quizá el paso siguiente podría ser instalar el R-Commander
(aunque no es necesario). Se trata de un paqute (o más bien una librería de paquetes)
que configura un entorno de trabajo con menús, resultando de gran ayuda en la
realización de análisis estadísticos de ficheros con muchos datos, y/o donde
aparezcan un número grande de variables. El R-Commander configura también las
variables en formato de tabla, como el excel, o el SPSS (una columna por variable) y
posee multitud de opciones. Ya existen también bastantes manuales y textos que
tratan de este entorno, con lo cual podéis consultar bibliografía específica para su
instalación y manejo, a través de los enlaces que se mencionan al final.
15.1.1 Instalación de paquetes
La instalación que hemos realizado de R instala el llamado paquete básico. En
ocasiones podemos necesitar instalar paquetes extra (como el R-Commander) para
realizar cálculos o gráficos que el paquete básico no haga. Por ejemplo, para el cálculo
de la curtosis o la simetría de una variable necesitamos instalar el paquete fBasics.
Para instalar cualquier paquete, debemos ir al menu, a la opción Paquetes y
seleccionar el país de donde bajaremos el paquete (espejo CRAN).
P á g i n a | 339
Nos aparecerá una lista de países, elegimos el que nos apetezca, o el más
cercano si la conexión a internet no es muy rápida, y después de eso vamos a la
opción Paquetes>Instalar paquete(s). En el menú que se abre buscamos fBasics (ojo
que hay mayúsculas y minúsculas).
340 | P á g i n a
Una vez encontrado el paquete que buscamos le damos a OK y el programa
se descarga. A continuación, debemos cargarlo en memoria a través del menú, por la
opción Paquetes>Cargar Paquete, y seleccionar fBasics del menú que salga (son
únicamente los que tenemos instalados en el ordenador). Una opcion más cómoda
es, en la ventana de la consola (la de la izquierda) escribir el comando
require(fBasics)
y ya podremos usar todos los comandos de este paquete. Escribiendo en la
consola help(fBasics) podremos ver la ayuda del paquete, con todas las opciones.
15.2 BIBLIOGRAFÍA ESPECÍFICA DE R
Si vamos a la página web de R (donde descargamos el programa), en el menú
de la izquierda tenemos un apartado Documentation, y en él la opción Manuals.
Pinchando ahí ya nos aparece una lista de manuales en pdf y html, pero en inglés.
Abajo (lo marcamos en la siguiente gráfica) podéis pinchar en contributed
documentation
.
P á g i n a | 341
Pinchando en esa opción se abrirá una página en la que aparecen enlaces a
documentación en otros idiomas. En la opción Spanish están, entre otros:
‐ “R para Principiantes” the Spanish version of “R for Beginners”, translated
by Jorge A. Ahumada.
‐ A Spanish translation of “An Introduction to R” by Andrés González and Silvia
González.
y, para aprender simultáneamente estadística,
‐ “Metodos Estadisticos con R y R Commander” by Antonio Jose Saez Castillo.
Aparte de estos manuales, es destacable también “Estadística básica con R y
R Commander”, de varios autores, que puede descargarse en
http://knuth.uca.es/repos/ebrcmdr/pdf/actual/ebrcmdr.pdf.
342 | P á g i n a
P á g i n a | 343
16 ÍNDICE ALFABÉTICO
Aditividad, 175 de hipótesis, 269
Asimetría de hipótesis paramétricas, 281
negativa o a la izquierda, 49 Correlación, 72
positiva o a la derecha, 49 Covarianza, 72
atributos, 10 Cuantil
Bayes de una variable aleatoria, 148, 149
Teorema de, 121 Cuartil, 34
Bernoulli Cuasi‐varianza
variable de, 169 muestral, 235
Binomial Dato
variable, 170 anómalo, 60
Binomial negativa atípico, 60
variable, 185 extremo, 60
Cálculo de Probabilidades, 8 datos, 10
Campana de Gauss, 53, 200 Decil, 34
carácter, 11 Densidad
Central del límite función de, 136
teorema, 208 Desigualdad
Centro de gravedad, 71 de Tchebychev, 45
Claudio, 92 Desviación típica
Coeficiente de una variable aleatoria, 145
de correlación, 73 Diagrama
de determinación, 74 de dispersión, 70
Coeficiente de Fisher Diagrama de barras
(primero), 49 tridimensional, 69
(segundo), 54 Distribución
Consistencia de frecuencias, 12
de un estimador, 243 en el muestreo, 238
Contraste función de, 129
bilateral, 283 error
unilateral, 283 estándar, 248
Contrastes típico, 248
344 | P á g i n a
Error tipo I, 273 Incorrelación, 74
Error tipo II, 273 Inferencia
Espacio estadística, 223
muestral, 94 no paramétrica, 224
Esperanza paramétrica, 224
matemática, 144 Intervalo
Estadística Descriptiva, 8 de confianza, 244
Estadístico, 231 Kolmogorov, 93
de un contraste, 284 Laplace
estadístico pivote, 245 regla de, 102
Estimación, 232 leptocúrtica, 54
puntual, 231 Media
Estimador, 232 armónica, 27
Experimento geométrica, 26
aleatorio, 94 muestral, 233
determinista, 94 Mediana
Exponencial de una variable aleatoria, 148
variable, 198 Mere
F de Fisher‐Snedecor Chevalier de, 93
variable, 217 Méré, 8
Fermat, 8 Mesalina, 92
Pierre, 93 mesocúrtica, 54
Fermat, Mínimos
Pierre, 92 cuadrados, 78
Frecuencia Moda
absoluta, 14 de una variable aleatoria, 149
absoluta acumulada, 15 Morgan
relativa, 15 leyes de, 100
Frecuencia Muestra
relativa acumulada, 15 aleatoria simple, 233
Geométrica Muestreo, 225
variable, 182 aleatorio simple, 225
grados de libertad, 215 estratificado, 226
Hipergeométrica sin reposición, 226
variable, 189 sistemático, 229
Hipótesis Nivel
alternativa, 270 de confianza, 245
nula, 270 de significación, 245
Histograma Nivel crítico, 284
tridimensional, 69 Nivel de significación, 273
P á g i n a | 345
Normal Suceso, 95
variable, 199 complementario, 96
Nube de puntos, 70 elemental, 95
Pascal, 8 imposible, 95
Blaise, 93 Sucesos
variable de, 182 incompatibles, 95
Percentil, 34 independientes, 115
platicúrtica, 54 propiedades, 96
Poisson t de Student
variable de, 176 variable, 216
Potencia Tabla
de un contraste, 273 de frecuencias, 14
Predicción, 81 Tchebychev, 45
Probabilidad, 91 Tipificación
axiomas, 98 de variables aleatorias, 203
condicionada, 109 Uniforme continua
de una intersección, 110 variable, 195
ley, función, distribución de, 128 Valor
total, 117 esperado, 144
Probabilidades Variable
asignación de, 101 aleatoria, 127
geométricas, 108 aleatoria continua. Véase
Proporción aleatoria discreta, 128
muestral, 236 aleatoria discreta numerable, 133
p‐valor, 284 discreta, 11
R software, 321 estadística bidimensional, 68
Recta estadística continua, 11
de regresión, 77 estadística discreta, 11
Región crítica tipificada, 57
de un contraste, 288 Variables, 10
Regla del producto, 113 Varianza
Regresión, 76 de una variable aleatoria, 145
Sesgo muestral, 235
de un estimador, 242