Apuntes Estadistica Teorica PDF

Fundamentos de Estadı́stica Teórica
Javier Revuelta
2 de febrero de 2017
Índice general
I Teorı́a de la probabilidad
1. Introducción a la probabilidad 1
1.1. Espacio muestral y sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Probabilidad condicionada e independencia . . . . . . . . . . . . . . . . . . . . . . 7
1.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2. Variable aleatoria 11
2.1. Variable aleatoria y función de distribución . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2. Valores esperados y momentos de una distribución . . . . . . . . . . . . . . . . . . 18
2.3. Muestra aleatoria simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4. Prácticas en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.1. Representación gráfica de funciones . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.2. Maximización de funciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.3. Cálculo de los momentos de una distribución . . . . . . . . . . . . . . . . . 27
2.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3. Distribuciones 31
3.1. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.1. Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.1.2. Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2. Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.1. Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.2. Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3. Distribuciones en lenguaje R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.1. Función de densidad y función de distribución . . . . . . . . . . . . . . . . . 39
3.3.2. Función de distribución inversa . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.3. Simular datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
ÍNDICE GENERAL
3.3.4. Distribuciones incluidas en R . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4. Teorı́a de muestras grandes 45

4.1. Ley de los grandes números . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2. Teorema del lı́mite central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
II Inferencia estadı́stica 51
5. Estimación por máxima-verosimilitud 53

5.1. Función de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2. Estimación por máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3. Máxima verosimilitud en lenguaje R . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6. Propiedades asintóticas de los estimadores máximo-verosı́miles 61

6.1. Media, varianza y distribución de los estimadores . . . . . . . . . . . . . . . . . . . 61
6.2. Información observada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.4. Cálculo de la varianza del estimador en lenguaje R . . . . . . . . . . . . . . . . . . 68
6.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7. Contraste de hipótesis 71
7.1. Conceptos fundamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2. Contrastes basados en los estimadores máximo-verosı́miles . . . . . . . . . . . . . . 73
7.3. Contrastes basados en el teorema del lı́mite central . . . . . . . . . . . . . . . . . . 75
7.4. Prácticas en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
7.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
III Apendice 79
Parte I
Teorı́a de la probabilidad
Capı́tulo 1
Introducción a la probabilidad
Uno de los propósitos de la ciencia es enunciar leyes que expliquen el comportamiento de los
fenómenos del mundo real. En general, dichas leyes pueden clasificarse en dos tipos:
Determinı́sticas. Son aquellas que predicen con absoluta certeza. Son tı́picas de las ciencias
fı́sicas; por ejemplo, la relación entre la temperatura, el volumen y la presión de un gas.
Aleatorias. Se caracterizan porque realizan predicciones con incertidumbre asociada. Son

comunes en las ciencias sociales aunque también aparecen en fı́sica, biologı́a y otras ciencias.
Por ejemplo, el número de errores que una persona comete en una determinada tarea.
Este curso trata sobre los fundamentos de los modelos aleatorios con el objetivo de que el lector
pueda aplicarlos en ciencias sociales.
1.1. Espacio muestral y sucesos

Un experimento aleatorio es aquel cuyos resultados no pueden predecirse con absoluta certeza,
como el lanzamiento de una moneda o un dado. En el contexto de las ciencias sociales, una gran
parte de los procedimientos de recogida de datos pueden representarse como experimentos aleato-
rios. Por ejemplo, el resultado de la aplicación de un examen a un grupo de individuos, la cantidad
de dinero que una persona ahorra a lo largo de varios meses, el tiempo necesario para resolver una
tarea, el número de veces que se realiza una tarea en un periodo fijo de tiempo, etc.
Definición 1 (Suceso elemental) Cada uno de los posibles resultados de un experimento aleato-
rio se denomina suceso elemental. Los sucesos elementales se indican mediante letras mayúsculas:
A, B, etc.
Ejemplo 1 Se pide a un sujeto con dislexia que lea en alto cinco palabras. Un posible suceso es A =
{no cometer ningún error en la lectura}, otro suceso es B = {cometerunerrorenlaprimerapalabra},C
= {cometerunerrorenlasegundapalabra}, etc.
1
2 CAPÍTULO 1. INTRODUCCIÓN A LA PROBABILIDAD
Ejemplo 2 Como parte de un test de inteligencia, se pide a un sujeto que resuelva un rompecabezas
y no se fija tiempo lı́mite. Se mide el tiempo que tarda en completarlo. Un posible resultado es A =
{tardar 20 segundos}, otro serı́a B = {tardar 55 segundos}, etc. En este ejemplo, a diferencia del
anterior, el número de posibles resultados diferentes es infinito.
Definición 2 (Espacio muestral) El conjunto de todos los posibles resultados de un experimento

aleatorio se denomina espacio muestral y se designa por Ω.
La definición de Ω en un problema concreto depende de cual sean los aspectos que desean
analizarse. Una distinción básica es entre espacio muestral finito o infinito.
Ejemplo 3 Un sujeto responde al siguiente ı́tem perteneciente a una escala de actitudes: “Creo
que habrı́a que fomentar el uso del transporte público”. Las posibles respuestas son:
Ω = {De acuerdo, Neutral, En desacuerdo}
Ejemplo 4 Continuando con el ejemplo 1, el resultado de la lectura de cada palabra puede consi-
derarse en sı́ un experimento aleatorio con espacio muestral Ω = {E, A}. Si la lectura de las cinco
palabras se considera un único experimento aleatorio entonces el número de posibles resultados es
25 = 32 y el conjunto Ω es la colección de estos 32 resultados.
Ejemplo 5 Continuando con el ejemplo 2, supongamos que el tiempo de respuesta se mide en

segundos. El espacio muestral es:
Ω = {0, 1, 2, . . . }
Este serı́a un espacio muestral infinito numerable. Es decir, tiene infinitos elementos que pueden
contarse.
Ejemplo 6 Supongamos que en el ejemplo 2 el tiempo de respuesta se mide con absoluta precisión;
es decir, es una variable real. Como sucede a menudo, este caso es meramente teórico dado que en
la práctica es imposible disponer de dicho instrumento de medida, pero es útil formularlo ası́ para
simplificar el modelo matemático. El espacio muestral es:
Ω = {t; t ≥ 0}
Se trata de un espacio muestral infinito no numerable. Es decir, tiene infinitos elementos que,
por las propiedades de los números reales, no pueden contarse.
A partir de los sucesos elementales, es posible crear sucesos compuestos utilizando las siguientes
leyes de composición:
1. Unión de sucesos. Dados dos sucesos A y B, el suceso unión, A ∪ B, es el suceso que se realiza
cuando se realiza A o B.
1.1. ESPACIO MUESTRAL Y SUCESOS 3
2. Intersección de sucesos. Dados dos sucesos A y B, el suceso intersección, A ∩ B, es el suceso

que se realiza cuando se realizan A y B.
3. Negación o complementación de sucesos. Dado un suceso A, el suceso contrario, A, se realiza

si no se realiza A.
Ejemplo 7 Continuando con el ejemplo 3, supongamos que la escala de actitudes consta de dos
ı́tems con tres opciones de respuesta cada uno. El espacio muestral es el conjunto de todos los
posibles resultados:
Ω = {AA, AN, AD,

N A, N N, N D,
DA, DN, DD}
donde AA significa estar de acuerdo con el primer y con el segundo ı́tem, AN significa estar
de acuerdo con el primero y neutral en el segundo, etc.
A partir de Ω, es posible definir el subconjunto ‘Estar de acuerdo con el primer ı́tem’, cuyos
elementos son: A1 = {AA, AN, AD}. es decir, A1 está formado por aquellos resultados en los que
el sujeto está de acuerdo con el primer ı́tem, haga lo que haga en el segundo.
Del mismo modo, el subconjunto ‘Estar de acuerdo con el segundo ı́tem’ se define del modo:
A2 = {AA, N A, DA}
Algunos ejemplos de aplicación de las leyes de composición sobre estos subconjntos son los
siguientes:
El conjunto C = A1 ∪ A2 ; significa estar de acuerdo con el primer ı́tem o estarlo con el

segundo. Es decir:
C = {AA, AN, N A, AD, DA}
El conjunto D = A1 ∩ A2 significa estar de acuerdo con el primer ı́tem y también con el

segundo. Contiene los sucesos elementales que están contenidos simultaneamente en A1 y
A2 :
D = {AA}
El conjunto E = C significa no estar de acuerdo con alguno de los ı́tems. Contiene los
elementos:
E = {N N, N D, DN, DD}
Utilizando las leyes de composición se forma el denominado espacio de sucesos A. El espacio

de sucesos está compuesto por todos los subconjuntos del espacio muestral, incluyendo el conjunto
vacı́o o suceso imposible ∅ y el suceso seguro Ω.
Ejemplo 8 Se define el experimento aleatorio consistente en lanzar una moneda. El espacio mues-
tral es Ω = {c, x}. A partir de este espacio muestral es posible definir los siguientes subconjuntos:
∅, {c}, {x} y {c, x}
Donde ∅ es el conjunto vacı́o que indica que no se verifica ningún resultado en el lanzamiento
de la moneda. {c, x} es el suceso seguro, equivalente al espacio muestral, que indica que en el
lanzamiento se obtiene cara o cruz, por lo que dicho suceso se verificará con cualquier resultado.
Se dice que dos sucesos son excluyentes si su intersección es el conjunto vacı́o; es decir si
A ∩ B = ∅.
Ejemplo 9 Supongamos que se lanza un dado. El espacio muestra es
Ω = {1, 2, 3, 4, 5, 6}
Algunos sucesos compuestos son:
Obtener menos de tres: A = {1, 2}.
Obtener par: B = {2, 4, 6}
Obtener un múltiplo de tres: C = {3, 6}
El suceso “obtener un número par y múltiplo de tres” se define
B ∩ C = {6}
Sin embargo, los sucesos A y C son excluyentes. Como ni existe ningún múltiplo de tres que
sea menor que tres, no tienen ningún elemento en común. Es decir, la intersección de A y C es el
conjunto vacı́o: A ∩ B = ∅.
1.2. Probabilidad
En un experimento aleatorio no es posible determinar con exactitud cual será el resultado.
Sin embargo, unos resultados suelen ser más verosı́miles que otros. Intuitivamente, la probabilidad
indica el grado de confianza en que ocurra cada suceso. Existen diferentes interpretaciones del
concepto de probabilidad que pretenden dar sentido a esta idea. Algunas de ellas son las siguientes:
1. Probabilidad clásica. Se define la probabilidad como el cociente entre el número de casos

favorables y el número total de casos, siempre que todos ellos sean igualmente posibles. Por
ejemplo, si se lanza un dado, la probabilidad de cada cara es 1/6. Según esta definición, la
probabilidad depende de la geometrı́a o las propiedades fı́sicas del objeto en cuestión.
1.2. PROBABILIDAD 5
2. Probabilidad frecuentista. Supongamos que se lanza un dado N veces en las mismas condi-
ciones y sale la cara c un número n de veces. La definición frecuentista de la probabilidad de
obtener el resultado c es:
n
P (c) = lı́m .
N →∞ N
A diferencia del enfoque clásico, basado en la construcción teórica del objeto en cuestión, la
probabilidad frecuentista se basa en un recuento de resultados si se realizara empı́ricamente el
procedimiento aleatorio un número indefinido de veces. Esto supone una ampliación concep-
tual del rango de aplicaciones de la probabilidad dado que existen fenómenos para los que no
puede determinarse la probabilidad al modo clásico pero sı́ empı́ricamente atendiendo a las
sucesivas repeticiones. Por ejemplo, si hablamos de la probabilidad de que en una centralita
telefónica se reciban diez llamadas en cinco minutos, no existe una geometrı́a involucrada a
partir de la cual calcular una probabilidad, pero es posible obtenerla empı́ricamente mediante
observaciones repetidas en sucesivos intervalos temporales.
3. Probabilidad subjetiva. La probabilidad no se concibe como una propiedad del experimento

sino como un grado de creencia personal que el individuo tiene acerca del resultado del mismo.
Esta definición se ha utilizado, por ejemplo, en economı́a cuando se trata de fenómenos que
no involucran un objeto fı́sico definido ni tampoco es posible repetir el fenómeno sucesivas
veces. Por ejemplo, si hablamos de la probabilidad de que la economı́a mejore el próximo
trimestre, dicho fenómeno se realizará solamente una vez y no cabe hablar de un recuento de
casos posibles y casos favorables.
Además de estas definiciones que dan un sentido conceptual a la probabilidad, esta se define
desde un punto de vista estrictamente matemático mediante los denominados axiomas de Kolmo-
gorov.
Definición 3 (Probabilidad) Una medida de probabilidad es una función P que asigna a cada
suceso un valor numérico en el intervalo [0, 1] y que cumpla las propiedades:
1. P (A) ≥ 0 para todo suceso A.
2. P (Ω) = 1 .
Pn
3. Si A1 , A2 , . . . , An es un conjunto de sucesos excluyentes, entonces P (∪ni=1 Ai ) = i=1 P (Ai ).
Estas propiedades constituyen la definición axiomática de probabilidad, de la cual se derivan

algunas consecuencias importantes:
1. La probabilidad del suceso A, contrario del suceso A, es:
P (A) = 1 − P (A)
2. La probabilidad del suceso imposible es cero:
P (∅) = 0
3. Si A ⊂ B (A está incluido o es un subconjunto de B), entonces P (A) ≤ P (B).
4. Ley de la suma. Dados dos sucesos cualesquiera, la probabilidad de su unión es:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Ejemplo 10 Continuando con el ejemplo 9 sobre el lanzamiento de un dado, supongamos que la

probabilidad de cada suceso elemental (cada cara del dado) es 1/6. Entonces, la probabilidad de los
sucesos compuestos definidos en dicho ejemplo es:
Obtener menos de tres: P (A) = P ({1, 2}) = 2/6.
Obtener par: P (B) = P ({2, 4, 6}) = 3/6
Obtener un múltiplo de tres: P (C) = P ({3, 6}) = 2/6
Obtener un número par y múltiplo de tres: P (B ∩ C) = P ({6}) = 1/6
Si se define un nuevo suceso “obtener un número par o un múltiplo de tres”, sus elementos
son:
D = B ∪ C = {2, 3, 4, 6}
La probabilidad de dicho suceso se obtiene por la regla del producto:
P (B ∪ C) = P (B) + P (C) − P (B ∩ C)
3 2 1
= + −
6 6 6
4
= .
6
Es fácil ver por qué esto es ası́. El elemento 6 está contenido tanto en B como en C. Por tanto,
al sumar P (B) + P (C) la probabilidad del valor 6 aparece dos veces: P (B) + P (C) = P ({2, 4, 6}) +
P ({3, 6}) = P ({2}) + P ({3}) + P ({4}) + 2P ({6}). Por eso es necesario restar P (B ∩ C) = P ({6})
para obtener el resultado correcto.
Ejemplo 11 En un casino tienen una ruleta con 52 números, los 26 primeros son rojos y el resto
negros. Un jugador apuesta a que sale negro y otro a que sale impar.
La probabilidad de que gane el primer jugador es: P (G1 ) = 26/52 = 1/2. La de que gane el
segundo es P (G2 ) = 1/2.
1.3. PROBABILIDAD CONDICIONADA E INDEPENDENCIA 7
Para que ganen ambos a la vez, tiene que salir un número negro e impar. La probabilidad de
que esto suceda es P (G1 ∩ G2 ) = 13/52.
De acuerdo con la ley de la suma, la probabilidad de que gane alguno de ellos es: P (G1 ∪G2 ) =
P (G1 ) + P (G2 ) − P (G1 ∩ G2 ) = 26/52 + 26/52 − 13/52 = 39/52.
1.3. Probabilidad condicionada e independencia

La probabilidad condicionada indica la probabilidad de que se de uno de los sucesos sabiendo
que se ha dado el otro. La probabilidad de que ocurra A sabiendo que se ha dado B se define:
P (A ∩ B)
P (A | B) = .
P (B)
La probabilidad condicionada puede verse como una reducción en el espacio muestral. La pro-
babilidad P (A) se define en el espacio muestral Ω. Si se toma un subconjunto de Ω y se define un
nuevo espacio muestral B, entonces P (A | B) indica la probabilidad de A en dicho subconjunto.
Ejemplo 12 Supongamos que A indica la probabilidad de obtener par al lanzar un dado. Como Ω
contiene los números del 1 al 6 entonces
3 1
= .
P (A) =
6 2
Si se define el suceso B ≡ “obtener tres o menos”, entonces el suceso A | B es la obtención
de un número par en el conjunto de elementos B = {1, 2, 3}. Con un cálculo inmediato se obtiene
P (A | B) = 1/3. Aplicando la fórmula de la probabilidad condicionada se llega necesariamente al
mismo resultado:
P (A ∩ B) 1/6 1
P (A | B) = = = .
P (B) 3/6 3
Por el contrario, el suceso B es la obtención de un valor superior a tres, y consta de los
elementos4, 5, 6. Entonces
P (A ∩ B) 2/6 2
P (A | B) = = = .
P (B) 3/6 3
Ejemplo 13 Continuando con el ejemplo 11, la probabilidad de que gane el segundo jugador una
apuesta sabiendo que la ha ganado el primero es:
P (G2 ∩ G1 )
P (G2 | G1 ) =
P (G1 )
13/52
=
26/52
1
= .
2
A partir de la expresión de la probabilidad condicionada, se obtiene la ley del producto, que

indica cual es la probabilidad de que se den simultaneamente dos sucesos:
P (A ∩ B) = P (A | B)P (B).
En caso de que dos sucesos sean independientes, el saber que se ha dado uno no aporta ninguna
información para saber si se ha dado el otro. Matemáticamente esto se expresa como P (A | B) =
P (A); es decir, la probabilidad de que se de A sabiendo que se ha dado B es la misma que si no
sabemos nada acerca de B. De aquı́ se deduce que en caso de que A y B sean independientes:
P (A ∩ B) = P (A)P (B) .
Ejemplo 14 Según se ha visto en el ejemplo 12, los sucesos A y B no son independientes.

Esto se debe a que P (A), denominada probabilidad marginal de A, no es igual a su probabilidad
condicionada:
1
P (A) =
2
1
P (A | B) =
3
Por tanto, si conocemos que el resultado del lanzamiento es tres o menos, el suceso “obtener
par” se vuelve más inverosı́mil.
Ejemplo 15 En el caso de la ruleta, los dos sucesos mencionados en el ejemplo 11 son indepen-
dientes. Como se ha visto P (G2 | G1 ) = P (G2 ) = 1/2. Además, P (G2 ∩G1 ) = P (G1 )P (G2 ) = 1/4.
Continuando con el ejemplo, supongamos que un tercer jugador apuesta a que sale un número
primo, es decir, alguno de los siguientes: 2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43 y 47.
La probabilidad de que gane el tercer jugador es P (G3 ) = 15/52.
La probabilidad de que ganen simultáneamente el segundo y tercer jugador es P (G2 ∩ G3 ) =

14/52.
La probabilidad de que gane el tercer jugador sabiendo que ha ganado el segundo es:
P (G3 ∩ G2 )
P (G3 | G2 ) =
P (G2 )
14/52
=
26/52
7
= .
13
Por tanto, P (G3 | G2 ) 6= P (G3 ) y los sucesos G2 y G3 no son independientes.

1.4. EJERCICIOS 9
La probabilidad de que gane el segundo jugador sabiendo que ha ganado el tercero es:
P (G3 ∩ G2 )
P (G2 | G3 ) =
P (G3 )
14/52
=
15/52
14
= .
15
1.4. Ejercicios
Ejercicio 1 Un sujeto responde a dos preguntas de verdadero o falso. Asumiendo que la probabi-
lidad de acertar cada pregunta es π:
1. Indicar el espacio muestral
2. Obtenga la probabilidad de acertar 0, 1 o 2 preguntas.
Ejercicio 2 Sean dos sucesos A y B. Sabiendo que P (A) = 0,5 y P (A ∪ B) = 0,6:
Indicar el valor de P (B) si A y B son excluyentes.
Indicar el valor de P (B) si A y B son independientes.
Ejercicio 3 Supongamos que un sujeto resuelve tres problemas. La probabilidad de resolver un

problema correctamente es π.
1. Escriba el conjunto Ω.
2. Obtenga la probabilidad de cada suceso en Ω.
3. Obtenga la probabilidad del suceso D ≡ “cometer un error en la última palabra”.
4. Obtenga la probabilidad del suceso F ≡ “obtener un solo acierto”.
5. Obtenga la probabilidad P (D | F ).
Ejercicio 4 Se dispone de dos urnas con la siguiente composición:
Urna I: 2 bolas blancas y 3 bolas negras.
Urna II: 6 bolas blancas y 4 bolas negras.
Se realiza el experimento aleatorio consistente en lanzar una moneda. Si sale C se obtiene una
bola de la urna I, si sale X se obtiene una bola de la urna II.
1. Describir el espacio muestral Ω.

2. Sea A ≡ “obtener blanco”. Obtenga P (A).
3. Sea B ≡ “obtener X en el lanzamiento de la moneda”. ¿Cuanto vale P (B | A) y P (A ∪ B)?
Ejercicio 5 Sea f (x) una función de densidad cuyo valor es constante. Si el rango de x es (0, 3/4),
R 3/4
¿cuanto debe valer f (x) para que su integral definida sea 1 (es decir, para que 0 f (x) dx = 1)?
Capı́tulo 2
Variable aleatoria
2.1. Variable aleatoria y función de distribución

Definición 4 (Variable aleatoria) Una variable aleatoria X es una función con dominio Ω y
recorrido la recta real.
De acuerdo con esta definición, una variable aleatoria asigna un número real a cada suceso
elemental del espacio muestral Ω. Esto permite estudiar dichas variables y establecer relaciones
entre ellas utilizando las técnicas del análisis matemático.
Para denominar a las variables aleatorias se utilizan letras latinas mayúsculas mientras que sus
posibles valores se indican por letras minúsculas. Por ejemplo X es una variable aleatoria y x uno
de sus posibles valores.
Ejemplo 1 Cuatro personas juegan al parchı́s. El color de la persona ganadora puede ser
Ω = {Rojo, V erde, Azul, Amarillo}.
Sobre este espacio muestral puede definirse la variable aleatoria X = 1, . . . , 4, que indica el
color ganador. Los valores de esta variable son meras etiquetas que indican los colores, pero no
tiene sentido realizar sobre ellos cálculos matemáticos como medias, etc. Se trata de una variable
nominal.
Ejemplo 2 Un conductor tiene que pasar por un semáforo y no sabe si lo encontrará en rojo. El
experimento aleatorio tiene el siguiente espacio muestral:
Ω = {Rojo, Amarillo, Verde}
La variable X ≡ “color del semáforo” puede definirse del siguiente modo: X = 0 si el semáforo
está en rojo, X = 1 si está en amarillo y X = 2 si está en verde. Se trata de una variable discreta
que solo toma tres valores.
11
12 CAPÍTULO 2. VARIABLE ALEATORIA
En los ejemplos 1 y 2 no existe una correspondencia natural entre los sucesos elementales y
los valores numéricos asignados, estos últimos simplemente se utilizan para indicar los sucesos y
distinguirlos unos sucesos de otros. En los siguientes ejemplos sı́ que existe una forma natural de
asignar números a los sucesos elementales.
Ejemplo 3 Supongamos que se define el experimento aleatorio consistente en observar el número

de coches que están parados en un semáforo en rojo. El espacio muestral es:
X = 0, 1, 2, . . .
La variable aleatoria X ≡ ‘ número de coches’ toma un número contable e infinito de valores

diferentes.
Ejemplo 4 Si se define el experimento T ≡ “ tiempo de espera en el semáforo”, sabiendo que

como máximo está en rojo un tiempo Tmax , el espacio muestral es:
0 ≤ T ≤ Tmax
Se trata de una variable continua y acotada, que toma un número infinito no numerable de
valores.
Las variables aleatorias, además de por el conjunto de valores que pueden tomar, se caracterizan
por su función de probabilidad, densidad de probabilidad y función de distribución. La función de
distribución (en ocasiones denominada función de distribución acumulada) de una variable aleatoria
se define del siguiente modo:
Definición 5 (función de distribución) La función de distribución de una variable aleatoria

X, indicada por F (x), es una función con dominio la recta real e imagen el intervalo [0, 1], tal que
F (x) = P (X ≤ x).
Sea h > 0. Las propiedades más importantes de la función de distribución son:
1. lı́mx→−∞ F (x) = 0 .
2. lı́mx→∞ F (x) = 1 .
3. F (x + h) − F (x) = P (x < X ≤ x + h) .
4. F (x) ≤ F (x + h) .
Ejemplo 5 Sea T el tiempo en minutos que tarda una persona en ser atendido cuando acude a
una ventanilla. Puede hipotetizarse que la función de distribución de T es:
F (t) = 1 − exp(−t) .
Por ejemplo, la probabilidad de tener que esperar dos minutos o menos es:
2.1. VARIABLE ALEATORIA Y FUNCIÓN DE DISTRIBUCIÓN 13
F (2) = P (T ≤ 2)
= 1 − exp(−2) = 0,86 ,
y la probabilidad de tener que esperar más de tres minutos es 1 − F (3) = exp(−3) = 0,05. La figura
2.1 muestra la representación gráfica de F (t) en función de t. Puede verse que se trata de una
función creciente que toma valores entre 0 y 1.
Figura 2.1: Probabilidad de esperar t minutos o menos
2.1.1. Variable aleatoria discreta

Una variable aleatoria discreta es aquella que toma un número contable de valores, que puede
ser finito o infinito. En el ejemplo 2 se ha visto una variable aleatoria discreta, el color del semáforo,
que sólo toma tres valores. En el ejemplo 3, la variable aleatoria “número de coches” toma un
número infinito de valores.
Supongamos que los posibles valores de una variable discreta X se denominan x1 , x2 , . . . , xn ,
siendo x1 < x2 < . . . < xn . Entonces, La función de distribución de X se define como la pro-
babilidad de obtener en una muestra el valor xi o cualquiera de los valores más pequeños que
xi :
i
X
F (xi ) = P (X ≤ xi ) = P (X = xj ) ,
j=1
donde P (X = xj ) indica la probabilidad de que X tome el valor xj .

Definición 6 (Función de probabilidad) Sea X una variable aleatoria discreta. La función de

probabilidad de X, denominada f (x), indica la probabilidad de que X tome el valor x. Es decir
f (x) = P (X = x).
Ejemplo 6 Sea la variable aleatoria X ≡ “número de personas que han contraı́do la gripe en el
mes de diciembre”. Se trata de una variable discreta con valores X = 0, 1, 2, . . . . Obviamente en
la realidad existe un máximo para el rango de valores que puede tomar X, que es el tamaño de la
población. Sin embargo, dicho máximo es puede ser un valor muy alto y habitualmente desconocido,
por ejemplo, en torno a 47 millones para la población española, sin que se sepa con certeza la cifra
exacta. Por esto, de cara a la modelización matemática es común asumir que no existe un máximo
y que la variable X está definida en un espacio muestral infinito numerable. Además, por concretar,
supongamos que la función de probabilidad de X viene dada por la expresión:
2x
f (x) = exp(−2).
x!
Entonces, la probabilidad de que tres personas contraigan gripe es:
23 8
f (3) = exp(−2) = exp(−2) ≈ 0,18.
3! 6
2.1.2. Variable aleatoria continua

Las variables aleatorias continuas toman un número infinito no numerable de valores. A dife-
rencia de lo que hemos visto en en el ejemplo 6, los valores de una variable definida en un espacio
muestral infinito no numerable no se pueden contar. Por ejemplo, sea una variable aleatoria con
espacio muestral X ≥ 0. Los valores de X no se pueden contar porque tienen infinitas cifras deci-
males. Cuando se trabaja con variables continuas, la definición de F (x) dada anteriormente sigue
siendo válida: F (x) es la probabilidad de que X tome el valor x o cualquier otro valor menor que
x. Sin embargo, la probabilidad de que la variable tome un valor concreto es 0, por lo que f (x)
ya no indica la probabilidad del suceso X = x. En lugar de función de probabilidad, a f (x) se le
denomina función de densidad de probabilidad, o función de densidad por abreviar.
Definición 7 (Función de densidad) Sea X una variable aleatoria continua. La función de dis-
tribución de X se define del siguiente modo:
Z x
F (x) = f (t) dt
−∞
donde f es la denominada función de densidad de X.
La relación entre F (x) y f (x) viene dada por la relación entre derivación e integración. En
concreto, f (x) es la derivada de F (x):
f (x) = F 0 (x).
En el caso continuo, la función de distribución proporciona la probabilidad de que X tome

valores en un intervalo determinado gracias a las propiedades de la integral definida. En concreto,
la probabilidad de que X tome un valor comprendido entre a y b viene dada por:
P (a < X ≤ b) = F (a) − F (b)

Z b
= f (x)dx .
a
Según se ha mencionado, si X es continua, la probabilidad de que tome un valor concreto es 0

debido a la siguiente propiedad del cálculo integral:
Z x
P (X = x) = f (t) dt = 0 .
x
Por otra parte, cualquier función puede ser una función de densidad si cumple dos propiedades:
1. f (x) ≥ 0 para cada valor x de la variable X.

R∞
2. −∞
f (x) dx = 1 .
Lo cual no excluye los casos en que f (x) > 1. De hecho, es habitual encontrar funciones de densidad
que toman valores superiores a 1, lo cual de nuevo indica que f (x) no es la probabilidad de x.
Ejemplo 7 Sea X una variable aleatoria uniforme definida en el intervalo [0, 41 ]. Obtenga la fun-
ción de densidad y la función de distribución de X.
Al ser X uniforme, la función de densidad es igual a una constante: f (x) = c. Por tanto,
f (x) satisface la primera propiedad siempre y cuando c sea no negativa. Con respecto a la segunda
R 1/4
propiedad, debe cumplirse que 0 f (x) dx = 1. Resolvemos la integral:
Z 1/4 Z 1/4
f (x) dx = c dx
0 0
Z 1/4
= c dx
0
1/4
= c[x]0

1
= c −0
4
c
= .
4
R 1/4
Para que se cumpla 0
f (x) dx = 1 basta con fijar c = 4, con lo que la respuesta al primer
problema es
f (x) = 4.
La función de distribución, F (x), indica la probabilidad de encotrar valores entre 0 y x, y se

obtiene mediante una integral definida:
Z x
F (x) = 4 dt
0
Z x
= 4 dt
0
= 4[t]x0
= 4x.
Ejemplo 8 Sea T > 0 una variable aleatoria con función de densidad
f (t) = exp(−t)
La figura 2.2 muestra la representación gráfica de f (t) para valores de T entre 0 y 1,5.
Figura 2.2: Representación gráfica de f (t)
La función de distribución de T se obtiene a partir de f (t) mediante integración:
Z t
F (t) = exp(−x) dx
0
t
= (− exp(−x))|0
= (− exp(−t)) − (− exp(0))
= 1 − exp(−t).
Ejemplo 9 Queremos saber si la siguiente función es una función de densidad:
x2

f (x) = 2 1 − , donde -5 ≤ x ≤ 5
25
Para resolver el problema empezamos analizando el aspecto de f (x) mediate su representación

gráfica, que aparece en la figura 2.3.
Figura 2.3: Representación gráfica de f (x) = 2(1 − x2 /25)
La función f (x) es positiva en el intervalo (-5, 5), por lo que se satisface la primera propiedad.
Sin embargo, su integral definida entre -5 y 5 no es igual a 1, en concreto:
5 5
x2
Z Z
f (x)dx = 2 1− dx
−5 −5 25
5
x3

= 2 x−
75 −5

125 125
= 2 5− − −5 +
75 75
1000
=
75
40
=
3
Con lo cual la propiedad 2 no se cumple y f (x) no es una función de densidad. Sin embargo,
podemos definir la función
3
g(x) = f (x)
40
que sı́ es una función de densidad porque
Z 5 Z 5
3 3 40
g(x)dx = f (x) = = 1.
−5 40 −5 40 3
La constante 3/40 por la que se ha multiplicado f (x) para obtener en una función de densidad
se denomina en estadı́stica constante de integración.
2.2. Valores esperados y momentos de una distribución

La función de distribución, F (x), contiene toda la información acerca de X. Sin embargo, en
ocasiones resulta excesivamente complejo describir una variable aleatoria utilizando su distribución.
Por ello, se utilizan los denominados momentos para resumir la información contenida en una
distribución y enfatizar determinados aspectos relevantes.
El momento más sencillo es el valor esperado de la variable aleatoria. Se denomina valor esperado
de X y se indica por E(X) a la siguiente expresión:
( P
I
xi f (xi ), si X es discreta, donde I es el número de valores del espacio muestral
E(X) = R ∞i=1
−∞
x f (x)dx, si X es continua
El valor esperado, E(X), se denomina también media poblacional de X y se indica por la letra
µ.
Ejemplo 10 Sea X ∈ (0, 1) una variable aleatoria continua con función de densidad
f (x) = 2x.
Su valor esperado es
Z 1
E(X) = xf (x) dx
0
Z 1
= 2x2 dx
0
1
2x3
=
3 0
2
=
3
De forma más general se define el denominado momento de orden r:
Definición 8 (Momentos) El momento de orden r de una variable aleatoria X se define:
( P
n
xr f (x), si X es discreta
r
E(X ) = R ∞i=1 r i
−∞
x f (x) dx, si X es continua
Por ejemplo, los tres primeros momentos de una variable continua son:
2.2. VALORES ESPERADOS Y MOMENTOS DE UNA DISTRIBUCIÓN 19
Z ∞
Valor esperado o media poblacional: x f (x) dx
−∞
Z ∞
Media de los valores al cuadrado: x2 f (x) dx
−∞
Z ∞
Media de los valores al cubo: x3 f (x) dx
−∞
También se utilizan los momentos con respecto a la media, que se definen:

( P
n
r (xi − µ)r f (x), si X es discreta
E((X − µ) ) = R ∞i=1
−∞
(x − µ)r f (x) dx, si X es continua
Los momentos con respecto a la media más utilizados son:
La varianza de la variable, también indicado V ar(X) o σ 2 , es el momento de orden 2 con

respecto a la media:
V ar(X) = E((X − µ)2 ) .
La varianza también puede calcularse mediante la expresión V ar(X) = E(X 2 ) − µ2 , que es

equivalente a la anterior. La raı́z cuadrada de la varianza se denomina desviación tı́pica, y se
indica mediante σ.
El momento de orden 3, que es un indicador de la simetrı́a de la distribución: E((X − µ)3 ).
El momento de orden 4, que indica la curtosis o apuntamiento: E((X − µ)4 ).
Ejemplo 11 Continuando con el ejemplo 9, sea la función de densidad:
x2

3
g(x) = 1− , −5 ≤ x ≤ 5
20 25
Su valor esperado es:
5
x2
Z
3
E(X) = x 1− dx
20
−5 25
Z 5
x3

3
= x− dx
20 −5 25
2 5
3 x x4
= −
20 2 100 −5

3 25 625 25 625
= − − +
20 2 100 2 100
= 0
El momento de orden dos (α2 ) es:
5
x2
Z
3
E(X 2 ) = x2 1 − dx
20−5 25
Z 5
x4

3 2
= x − dx
20 −5 25
3 5
3 x x5
= −
20 3 125 −5

3 125 3125 125 3125
= − + −
20 3 125 3 125
= 5
Ejemplo 12 Continuando con el ejemplo 11, la varianza de X es:
V ar(X) = E(X 2 ) − E(X)2

= 5.
Ejemplo 13 Sea la distribución:
f (x) = 2(1 − x), 0 < x < 1
Su representación gráfica aparece en la figura 2.4.
Figura 2.4: Representación gráfica de f (x) = 2(1 − x)
La media de esta distribución es:

2.3. MUESTRA ALEATORIA SIMPLE 21
Z 1
E(X) = 2 (x − x2 )dx
0
1
x2 x3

= 2 −
2 3 0
1
= .
3
El momento de orden dos es:
Z 1
E(X 2 ) = 2 (x2 − x3 )dx
0
1
x3 x4

= 2 −
3 4 0
1
= .
6
Por tanto, la varianza es 1/6 - 1/9 = 1/18. La asimetrı́a de la distribución es:
Z 1 3
3 1
E((X − E(X)) ) = 2 x− (1 − x)dx
0 3
1
x5 x4 4x3 5x2

x
= 2 − + − + −
5 2 9 27 27 0
1
= .
135
2.3. Muestra aleatoria simple

Según se ha visto, el espacio muestral Ω es el conjunto de resultados posibles en un experimento
aleatorio, y una variable aleatoria X asigna a cada elemento de Ω un valor real. Se denomina
“tomar una muestra” o “realizar” un experimento al proceso consiste en observar el valor de X en
un determinado experimento. Al valor observado de la variable X suele indicársele con la misma
letra en minúscula, x, y se le denomina realización de la variable.
Normalmente una muestra consta de varias observaciones y se indica por n al tamaño mues-
tral. Cada una de las observaciones es la realización de una variable aleatoria: X1 , X2 , . . . , Xn . En
estadı́stica, por motivos de simplicidad matemática, se asume que la muestra es aleatoria simple
(m.a.s), o que las variables son independientes e y están igualmente distribuidas (en ingés “inde-
pendent and identically distributed”, i.i.d.). Una muestra aleatoria simple es aquella que cumple
dos condiciones:
1. Las variables X1 , . . . , Xn son independientes.
2. Las variables X1 , . . . , Xn tienen la misma función de probabilidad o densidad f (x).

Como consecuencia de estas dos condiciones, la función de probabilidad de la muestra es el

producto de la probabilidad de cada una de las observaciones. Supongamos que el vector x =
(x1 , . . . , xn ) indica la muestra; su función de probabilidad o densidad es el producto:
f (x ) = f (x1 , . . . , xn )
= f (x1 ) · · · f (xn ).
Ejemplo 14 Supongamos que la variable aleatoria X, definida intervalo (0, ∞), indica el número
de horas de duración continuada de un producto hasta que falla. La función de densidad de X es
f (x) = x exp(−x) ,
Si tomamos una muestra aleatoria de tamaño dos, x = (x1 , x2 ), su función de densidad será
f (x) = f (x1 )f (x2 )

= (x1 exp(−x1 ))(x2 exp(−x2 ))
= x1 x2 exp(−x1 − x2 ).
De modo general, si la muestra contiene un número n de observaciones, entonces viene descrita

por el vector x0 = (x1 , . . . , xn ), y la función de densidad de la muestra es
f (x) = f (x1 ) · · · f (xn )

= x1 · · · xn exp(−x1 − · · · − xn )
n n
!
Y X
= xi exp − xi .
i=1 i=1
Pn
Además, si tenemos en cuenta que la media muestral es X = i=1 xi /n, podemos escribir la
función de probabilidad de la muestra de un modo más compacto
n
Y
f (x) = xi exp −nX .
i=1
Por concretar con unos datos, si realizamos el experimento consistente en medir la duración de
tres productos el tamaño muestral serı́a n = 3 y una posible observación es x = (5, 2, 8). Entonces,
la función de densidad de la muestra es
f (5, 2, 8) = 80 exp(−15).
Ejemplo 15 Supongamos que π es la proporción de cerezas sanas en una cesta y la variable X

toma el valor 0 cuando una cereza no está sana y el valor 1 cuando si lo está. La función de
probabilidad de X es
2.3. MUESTRA ALEATORIA SIMPLE 23
f (x) = π x (1 − π)1−x .
Es fácil ver que la probabilidad de obtener una cereza sana es f (X = 1) = π 1 (1 − π)1−1 = π, y la
probabilidad de obtener una que no esté sana es f (X = 0) = π 0 (1 − π)1−0 = 1 − π.
Supongamos que una persona toma dos cerezas y el resultado se indica mediante x0 = (x1 , x2 ).
Por simplificar asumimos que la cesta contiene infinitas cerezas y por tanto la proporción de cerezas
sanas, π, no cambia de una extracción a otra. En consecuencia, la función de probabilidad de x es
f (x) = f (x1 )f (x2 )

= (π x1 (1 − π)1−x1 )(π x2 (1 − π)1−x2 )
= π x1 +x2 (1 − π)2−x1 −x2 .
De modo general, si x0 = (x1 , . . . , xn ) es un vector de n observaciones en el cual hay s =

P
i xi
cerezas sanas, la función de probabilidad de x es
f (x) = π s (1 − π)n−s .
El supuesto de muestra aleatoria, aunque en ocasiones no se ajuste exactamente a las con-

diciones reales del estudio estadı́stico, permite evitar complicaciones innecesarias en el análisis
matemático. En situaciones excepcionales no se asume que la muestra es aleatoria simple, por
ejemplo cuando se intenta modelizar explı́citamente como influye una observación en la siguiente,
aunque esos casos no se tratarán en este curso por su mayor complejidad. A continuación vere-
mos un ejemplo en el que la muestra no es aleatoria simple, lo que permite ilustrar el tipo de
complicaciones que aparecen al evitar este supuesto.
Ejemplo 16 Supongamos que una cesta contiene N cerezas y m de las cuales están sanas. En-
tonces la proporción de cerezas sanas es π = m/N . Si una persona toma dos cerezas al azar, la
probabilidad de que ambas estén sanas es
mm−1
f (x = (1, 1)) = ,
N N −1
Este resultado se debe a que, después de tomar la primera cereza y ver que está sana, el número
de cerezas que permanecen en la cesta es N − 1 y el número de estas que están sanas m − 1. Por
ese motivo, la probabilidad de que la segunda esté sana es (m − 1)/(N − 1). Del mismo modo, si
se tomara una tercera cereza la probabilidad de que las tres estén sanas es
mm−1m−2
f (x = (1, 1, 1)) = .
N N −1N −2
Podemos ver que la función de probabilidad de la muestra se va haciendo más compleja al ir
tomando datos porque para obtener la probabilidad de cada dato es necesario tener en cuenta cual
ha sido el resultado anterior.
A diferencia de lo anterior, el supuesto de muestra aleatoria simple implica que π es constante

a lo largo de las observaciones, lo cual es teóricamente incorrecto pero puede constituir una apro-
ximación razonable si el número de cerezas en la cesta es elevado. Entonces, la probabilidad de los
vector x = (1, 1, 1) es simplemente
f (x = (1, 1)) = π 3 .
Al asumir m.a.s. f (x) es más sencillo porque la probabilidad de cada observación es independiente
de cuales hayan sido los resultados anteriores. El supuesto de muestreo aleatorio simple puede
producir sesgos en el análisis si estamos trabajando con un pequeño número de cerezas y quisiéramos
estimar la proporción de ellas que están sanas. Pero en muchos casos reales (supongamos por
ejemplo que estamos trabajando en una explotación agrı́cola con decenas de miles de cerezas)
asumir m.a.s. es la única manera viable de realizar un análisis estadı́stico y la distorsión en los
resultados es insignificante.
2.4. Prácticas en R
El lenguaje R nos permite obtener una idea aproximada de las propiedades de una distribución.
Por una parte, podemos representar gráficamente las funciones de densidad y distribución para
obtener una impresión de cómo se distribuye la probabilidad a lo largo del rango de valores de
la variable aleatoria. En segundo lugar, veremos cómo maximizar funciones en R. Finalmente
calcularemos de forma numérica los momentos de una distribución.
2.4.1. Representación gráfica de funciones

Para representar gráficamente una función, en primer lugar tenemos que definir el conjunto de
valores que forman el eje de ordenadas y lo guardamos en un vector. A continuación obtenemos el
valor de la función para cada uno de dichos valores, y lo guardamos en un segundo vector. Después
le pasamos ambos valores a la función plot. Por ejemplo, supongamos que vamos a representar la
siguiente función
f (x) = 6x(1 − x) ,
definida en el intervalo (0, 1). La primera lı́nea del siguiente fragmento de código R utiliza el
comando seq para definir el vector de valores x = 0, 0, 01, 0, 02, . . . , 1. La segunda lı́nea de código
calcula la función f (x) = 6x(1 − x) y guarda sus valores en el vector f . La tercera lı́nea el comando
plot para representar la lı́nea que pasa por los pares de puntos (xi , fi ).
x <- seq(0, 1, by=0.01)

f <- 6*x*(1-x)
2.4. PRÁCTICAS EN R 25
plot(x, f, type="l", lwd=2, ylab="", col="red")
A continuación veremos cómo representar varias funciones en los mismos ejes. Esto ocurre
por ejemplo cuando queremos representar dos funciones de densidad distintas o una función de
densidad y su correspondiente función de distribución. Vamos a hacer una gráfica con la misma
función f (x) vista en el ejemplo anterior y además la función
g(x) = 18x(1 − x)4
Para ello, en primer lugar definimos los valores de x y calculamos los valores de f y g. A continuación
hay que representar f (x) mediante el comando plot, y se utiliza el comando lines para añadir
lı́neas a un gráfico ya existente. Por último, utilizando legend se añade una leyenda a la figura para
especificar cual es la lı́nea correspondiente a cada función.
x <- seq(0, 1, by=0.01)

f <- 6*x*(1-x)
g <- 18*x*(1-x)^4
plot(x, f, type="l", lwd=2, ylab="", col="red")

lines(x, g, lwd=2, col="blue")
legend(0.8, 1.4, c("f(x)", "g(x)"), lty=c(1,1), lwd=2, col=c("red", "blue"))
La figura 2.5 muestra el resultado de la representación gráfica.
2.4.2. Maximización de funciones

En matemáticas se denomina optimizar una función a buscar su valor máximo o mı́nimo. El
lenguaje R tiene incorporadas diversas funciones para realizar esta tarea, además de existir paquetes
adicionales de R destinados a aumentar sus capacidades de optimización de funciones. En este
apartado veremos cómo utilizar la función más sencilla de optimización en R, denominada optimize.
Vamos a aplicar esta función para buscar el máximo de la función de densidad g(x) = 18x(1 − x)4
representada gráficamente en la sección anterior.
Como el lector ya conoce, se denomina moda de una distribución al valor de la variable X para
el cual su función de probabilidad o densidad alcanza un máximo. La moda podemos obtenerla
acudiendo a los procedimientos del cálculo matemático. Para ello, basta con tener en cuenta que el
máximo de g(x) y el máximo de la función h(x) = log g(x) están en el mismo punto; esto se debe
Figura 2.5: Funciones f y g
a que el logaritmo es una función monótona, por lo que si x1 > x2 entonces log(x1 ) > log(x2 ). Por
tanto:
h(x) = log g(x) = log 18 + log x + 4 log(1 − x) .
En el máximo de h(x) su derivada h0 (x) toma el valor cero. La derivada de h(x) es
1 4
h0 (x) = − .
x 1−x
Entonces buscamos el valor de x para el que se cumple que h0 (x) = 0. Dicho valor serı́a:
1 4
− = 0
x 1−x
1−x = 4x
1
x = .
5
Hemos demostrado matemáticamente que la moda es 1/5. Ahora pondremos a prueba a la
función optimize. Esta función necesita dos argumentos de entrada, la función a maximizar y el
intervalo de valores en el que tiene que buscar el máximo. Además es necesario indicarle que busque
el máximo de la función, porque optimize por defecto lo que hace es buscar el mı́nimo de la función
que le hayamos pasado. El siguiente código R ilustra el procedimiento, la primera lı́nea de código
define la función g(x) y en la segunda se llama a optimize para que guarde el resultado en el objeto
fit. En la llamada a optimize le decimos que el intervalo de valores de x donde tiene que buscar
el máximo de g(x) es (0, 1), y para ello le pasamos el argumento c(0, 1). En la tercera linea de
código se llama a print para que muestre los elementos contenidos en el objeto fit, que son el valor
de x donde se encuentra el máximo y el valor de g(x) en dicho punto.
g <- function(x) 18 * x * (1-x)^4

fit <- optimize(g, c(0, 1), maximum=TRUE)
print(fit)
Al ejecutar este código puede advertirse que el resultado de R no es exacto, ya que indica que
el valor de x es 0,2000195 cuando antes habı́amos comprobado que el valor correcto es 1/5 = 0,2.
Esto es algo habitual cuando se trabaja con métodos numéricos, que por definición proporcionan
solo resultados aproximados.
2.4.3. Cálculo de los momentos de una distribución

El lenguaje R incorpora funciones para calcular de forma numérica integrales definidas. No
obstante hay que tener presente que R está más orientado al cálculo numérico que al cálculo
simbólico. Sus capacidades para el cálculo simbólico, por ejemplo derivar funciones u obtener una
integral indefinida, son muy limitadas por lo que no veremos ejemplos sobre ello.
La función integrate permite evaluar numéricamente integrales definidas. A modo de ejemplo,
supongamos que queremos comprobar en R qué valor toma la integral de la función f (x) = 6x(1−x)
entre 0 y 1. Para ello necesitamos tres lı́neas de código, la primera define la función en R, la segunda
calcula numéricamente la integral definida y la tercera muestra el resultado:
f1 <- function(x) {6*x*(1-x)}

integral <- integrate(f1, lower = 0, upper = 1)
print(integral)
El resultado indica que el valor de la integral es 1. Lo que este resultado implica desde el punto
de vista de la teorı́a de la probabilidad es que f (x) es una función de densidad de probabilidad, al
cumplirse que en el rango (0, 1) toma valores no negativos y su integral es 1.
Dado que f (x) es una función de densidad podemos plantearnos obtener su valor esperado, que
no es más que el resultado de la integral
Z 1 Z 1
E(x) = xf (x) dx = 6x2 (1 − x) dx .
0 0
Utilizaremos para ello el siguiente código
xfx <- function(x) {6*x^2*(1-x)}

Ex <- integrate(xfx, lower = 0, upper = 1)
print(Ex)
Al ejecutar el código vemos que el valor esperado es 0,5, como no puede ser de otra manera
observando la forma de f (x) en la gráfica 2.5. La función integrate proporciona un objeto de R, que
es un conjunto de elementos agrupados bajo un nombre común. Si quisiéramos saber qué elementos
contiene el objeto Ex que hemos obtenido como resultado de la ejecución del código anterior,
escribirı́amos names(Ex). El lenguaje R nos informa entonces de que el objeto Ex contiene los
campos value, abs.error, subdivisions, message y call. Para acceder a estos campos utilizamos el
signo $, y el más importante es el campo value, que contiene el resultado numérico de la integral.
Supongamos que queremos obtener el valor esperado de X elevado al cuadrado, E(X)2 . Para ello
ejecutamos el siguiente código
print(Ex\$value^2)
Además de para calcular momentos, la función integrate nos permite calcular la probabilidad
de un intervalo integrando la función de densidad entre los dos extremos de dicho intervalo. Por
ejemplo, queremos saber cuanto vale la probabilidad de que la variable X tome un valor superior
a 0,75. Matemáticamente el problema serı́a entonces obtener la integral de la función de densidad
entre 0,75 y el lı́mite superior de la variable aleatoria. Es decir
Z 1
P (X ≥ 0, 75) = 6x(1 − x) dx .
0,75
Para resolverlo utilizamos el código
Pr <- integrate(f1, lower = 0.75, upper = 1)

print(Pr)
El resultado es 0,15625.
Por último es importante advertir que, a diferencia de otros sistemas informáticos de cálculo
simbólico, el lenguaje R sólo realiza cálculo numérico y sus resultados están sujetos a errores de
aproximación. Por ejemplo, anteriormente comprobamos que el valor esperado de la distribución
f (x) = 2(1 − x) es
2.5. EJERCICIOS 29
Z 1
1
E(x) = 2 2(x − x2 ) dx = .
0 3
Vamos a replicar este resultado en R con el código
fx <- function(x) {2*(x-x^2)}

Ex <- integrate(fx, lower = 0, upper = 1)
print(Ex)
La ejecución de R da como resultado E(X) = 0, 33333 lo cual es matemáticamente falso porque

dicha cantidad no es igual a 1/3. El problema se debe a que el computador necesariamente debe
trabajar con un número finito de valores decimales y solo puede proporcionar una aproximación al
resultado exacto.
2.5. Ejercicios
Ejercicio 1 Se introducen dos ratas en un laberinto con cuatro salidas. Sea X el número de ratas
que salen por la primera salida. Asumiendo que cada rata puede salir por cualquier salida con igual
probabilidad y que el comportamiento de cada una es independiente de la otra.
1. ¿Cuanto vale la probabilidad de los sucesos X = 0, X = 1 y X = 2?
2. Obtenga la media y varianza de X .
Ejercicio 2 Dada la siguiente función:
g(x) = 3x2 , x ∈ (0, 1),

R1
1. Obtenga la integral 0
g(x) dx.
2. Obtenga la función de distribución G(x).
3. Obtenga el valor esperado y varianza de X.
4. Represente gráficamente g(x) y G(x).
Ejercicio 3 Sea X una variable aleatoria con rango −1 ≤ X ≤ 1 y función de densidad
3
f (x) = (1 − x2 ).
4
1. Represente f (x) gráficamente .
2. Obtenga E(X).
3. Obtenga V ar(X).
Ejercicio 4 Sea X una variable aleatoria con rango −1 ≤ X ≤ 1 y función de densidad
3
f (x) = (1 − x2 ).
4
1. Represente f (x) gráficamente .
2. Obtenga E(X).
3. Obtenga V ar(X).
Ejercicio 5 Sea X una variable aleatoria con función de densidad:
1 + αx
f (x) = , −1 ≤ x ≤ 1,
2
Obtenga E(X) y V ar(X).
Ejercicio 6 Sea X ≥ 0 una variable aleatoria con función de densidad
f (x) = exp(−x)
1. Obtenga E(X).
2. Obtenga f (x), donde x una muestra aleatoria simple de tamaño n.
Ejercicio 7 Sea X una variable aleatoria con función de densidad:
1 + αx
f (x) = , −1 ≤ x ≤ 1,
2
Obtenga E(X) y V ar(X).
Ejercicio 8 Sea X ≥ 0 una variable aleatoria con función de densidad
f (x) = exp(−x)
1. Obtenga E(X).
2. Obtenga f (x), donde x una muestra aleatoria simple de tamaño n.
Ejercicio 9 La función de distribución de X es:
F (x) = 1 − exp(−x/α) ,
siendo x ≥ 0.
1. Obtenga f (x).
2. Obtenga E(X).
3. Obtenga f (x), siendo x una muestra aleatoria simple de tamaño n.

Capı́tulo 3
Distribuciones
En este capı́tulo se describen algunas de las distribuciones mas conocidas y de mayor aplicación
en ciencias sociales. Habitualmente las distribuciones dependen de uno o varios valores denominados
parámetros. Los parámetros son cantidades que determinan las propiedades de las distribuciones.
El conjunto de posibles valores que pueden tomar los parámetros se denomina espacio paramétrico.
Ejemplo 1 Supongamos que π es la proporción de cerezas sanas que contiene una caja. Una
persona toma una cereza al azar, y la variable aleatoria X indica si está estropeada (X = 0) o
sana (X = 1). La función de probabilidad de X es:
f (x) = π x (1 − π)1−x .
La función f (x) depende del parámetro π, que determina las caracterı́sticas de la variable X.
Por ejemplo:
E(X) = π
V ar(X) = π(1 − π) .
Al ser π una probabilidad, el espacio paramétrico es el intervalo [0, 1].
En este capı́tulo veremos algunas de las distribuciones más utilizadas, los parámetros que con-
tienen y la relación que existe entre los parámetros y los estadı́sticos para cada distribución.
3.1. Distribuciones discretas

Son aquellas que corresponden a una variable aleatoria discreta; es decir, con un número finito
o infinito numerable de posibles valores.
31
32 CAPÍTULO 3. DISTRIBUCIONES
3.1.1. Bernoulli
La distribución de Bernoulli describe los experimentos aleatorios que solamente toman dos
resultados, que por conveniencia se indican mediante 0 y 1 y suelen denominarse fracaso y éxito.
La función de probabilidad de una variable de Bernoulli Y = (0, 1) es:
f (y) = π y (1 − π)1−y ,
donde el parámetro π indica la probabilidad de éxito (es decir, π = Prob.(Y = 1)). Se comprueba
fácilmente que la probabilidad de cada resultado es:
f (1) = π,
f (0) = 1−π .
Momentos: Para una variable de Bernoulli el valor esperado y la varianza son:
E(Y ) = π,
V ar(Y ) = π(1 − π) .
La figura 3.1 contiene varias distribuciones de Bernoulli en función del parámetro π.
Ejemplo 2 Supongamos que se toma una muestra aleatoria simple de dos observaciones proceden-
tes de una distribución de Bernoulli con parámetro π. El espacio muestral de dicho experimento
consiste en los cuatro posibles patrones de respuesta compuestos por 0 y 1, es decir:
Y1 Y2
0 0
0 1
1 0
1 1
Supongamos que los valores encontrados en la muestra se indican por el vector y = (y1 , y2 )0 ,
Al ser la muestra aleatoria simple, la función de probabilidad de la muestra es el producto de la
probabilidad de cada una de las dos observaciones:
f (y) = f (y1 )f (y2 )

π y1 (1 − π)1−y1 π y2 (1 − π)1−y2

=
= π y1 +y2 (1 − π)2−y1 −y2 .
Según se verá en el tema 3, en la estimación de parámetros se trabaja con el logaritmo de la

función de probabilidad de la muestra, que en este ejemplo toma la forma:
3.1. DISTRIBUCIONES DISCRETAS 33
Figura 3.1: Distribuciones de Bernoulli
log f (y) = log π y1 +y2 (1 − π)2−y1 −y2

= (y1 + y2 ) log π + (2 − y1 − y2 ) log(1 − π).
3.1.2. Poisson
La distribución de Poisson suele aplicarse cuando la variable aleatoria es una frecuencia (recuen-
to de un número de casos), por lo que tiene gran utilidad para el análisis de tablas de contingencia
y en modelos log-lineales. La variable aleatoria está definida en el conjunto de los números natu-
rales (Y = 0, 1, 2, . . . ), por lo que no existe un máximo y se trata de un espacio muestral infinito
numerable. La función de probabilidad de Y es:
λy
f (Y = y) = exp(−λ)
y!
Momentos: La distribución de distribución de Poisson tiene la peculiaridad de que su varianza

es igual a su media, y ambas coinciden con el parámetro λ:
E(Y ) = λ,
V ar(Y ) = λ.
La figura 3.2 contiene una distribución de Poisson con λ = 3.
Figura 3.2: Distribución de Poisson
Además tiene la propiedad de aditividad . Si X es Poisson (λ) e Y es Poisson (δ) e independiente

de X, entonces Z = X + Y también sigue la distribución de Poisson con parámetro λ + δ.
Ejemplo 3 Supongamos que estamos analizando si varones y mujeres difieren en sus preferencias
a la hora de escoger unos determinados estudios universitarios. Con los datos recogidos se elabora
la tabla
Filosofia Derecho
Varones n11 n12
Mujeres n21 n22
En el análisis de tablas de contingencia es común asumir que cada una de las casillas de la tabla
sigue una distribución de Poisson con parámetro λij , por lo que las frecuencias marginales también
siguen una distribución de Poisson. Por ejemplo, el número de varones es n1. = n11 + n12 y su
distribución es Poisson(λ11 + λ12 ), es decir:
(λ11 + λ12 )n1.

f (n1. ) = exp(−λ11 − λ12 )
n1. !
Por tanto, la probabilidad de encontrar un número n11 de varones que estudian filosofı́a y n12 que
estudian derecho sabiendo que el número total de varones es n1. es binomial:
f (n11 )f (n12 )
P (n11 , n12 |n1. ) =
f (n1. )
n n
λ1111 λ1212
n11 ! exp(−λ11 ) n12 ! exp(−λ12 )
= (λ11 +λ12 )n1.
n1. ! exp(−λ11 − λ12 )
n11 n12
n1. ! λ11 λ12
=
n11 !n12 ! λ11 + λ12 λ11 + λ12
3.2. DISTRIBUCIONES CONTINUAS 35
para ver que P (n11 , n12 |n1. ) es una distribución binomial basta darse cuenta de que n12 = n1. −n11 ,
λ11 /(λ11 + λ12 ) es la probabilidad de encontrar un estudiante de filosofia en el grupo de varones
(dado que lambda11 y lambda12 es el número de varones que estudian filosofia y derecho en la
población) y por tanto λ12 /(λ11 + λ12 ) es la probabilidad de estudiar derecho.
Cuando estudiemos la estimación de parámetros, veremos que otra función de gran utilidad
práctica es la función de probabilidad conjunta de las cuatro casillas:
f (n) = f (n11 )f (n12 )f (n21 )f (n22 )

λn1111 λn12 λn21 λn22
= exp(−λ11 ) 12 exp(−λ12 ) 21 exp(−λ21 ) 22 exp(−λ22 )
n11 ! n12 ! n21 ! n22 !
λn1 +n2 +n3
= exp(−3λ).
n1 !n2 !n3 !
3.2. Distribuciones continuas

Las distribuciones continuas se utilizan cuando la variable aleatoria toma valores en un intervalo
de números reales, siendo entonces el espacio muestral infinito no numerable.
3.2.1. Normal
Es una de las distribuciones más conocidas y utilizadas en ciencias sociales. Esto se debe en
parte a que es la distribución de la media en muestras grandes, según afirma el teorema del
lı́mite central. También se denomina distribución gaussiana en honor de Karl Friedrich Gauss, que
derivó su ecuación a partir del estudio de los errores que se cometen al realizar repetidas veces una
medición en determinadas condiciones.
Una variable aleatoria distribuida según la normal(µ, σ) toma valores en el intervalo (−∞, ∞)
y su función de densidad es:
2 !
1 1 y−µ
f (y) = √ exp − .
σ 2π 2 σ
Momentos: La distribución normal tiene varias propiedades que la hacen muy conveniente:
1. El valor esperado es el indicado por el parámetro µ:
E(Y ) = µ .
2. La varianza es igual a σ 2 :
V ar(Y ) = σ 2 .
3. Aditividad. Supongamos que X es una variable normal (µX , σX ) e Y es normal (µY , σY ).

Entonces la variable Z = X ± Y es normal (µZ , σZ ), donde µZ = µX ± µY , y la varianza es
2 2
σZ = σX + σY2 ± 2Cov(X, Y ).
Hay varias distribuciones muy conocidas que se obtienen a partir de la normal. Por ejemplo la
distribución de ((Y − µ)/σ)2 es la chi-cuadrado con un grado de libertad. Las distribuciones t de
Student y F de Snedecor también se obtienen mediante transformaciones de la normal.
Ejemplo 4 Las variables X e Y siguen una distribución normal (10, 6) y normal (15, 2), siendo
su covarianza 10. Se calcula Z = X + Y cuya distribución es normal con media 25 y varianza 60.
La figura 3.3 muestra las funciones de densidad de las tres distribuciones.
Figura 3.3: Distribuciones normales
La función de distribución de una variable normal es:
Z y
F (y) = f (t)dt
−∞
y 2 !
t−µ
Z
1 1
= √ exp − dt .
σ 2π −∞ 2 σ
Esta integral no puede resolverse analı́ticamente, aunque existen tablas que proporcionan F (y)
para distintos valores de y. En ocasiones se encuentra en la literatura estadı́stica el sı́mbolo φ(z)
para referirse a la función de densidad normal (0, 1) y Φ(z) para referirse a su función de distri-
bución.
Ejemplo 5 Una variable X se distribuye normal(µ, σ). Si se toma una muestra aleatoria de n
observaciones, x = (x1 , . . . , xn )0 , la función de densidad conjunta de las observaciones será:
n
Y
f (x) = f (xi )
i=1
n 2 !
1 1 Y xi − µ
= √ exp −
2 n
( σ 2π) i=1 2 σ
n 2 !
1 1 X xi − µ
= exp − .
(σ 2 2π)n/2 2 i=1 σ
3.2. DISTRIBUCIONES CONTINUAS 37
Otra función muy habitual en la estimación de parámetros, según veremos, es el logaritmo de la

función de densidad de la muestra, que en el caso de la normal toma la forma:
n 2
n 1X xi − µ
log f (x) = − log(σ 2 2π) − .
2 2 i=1 σ
3.2.2. Exponencial
La distribución exponencial se define en el intervalo (0, ∞). Se utiliza habitualmente con va-
riables aleatorias que indican tiempos de reacción. Por ejemplo, el tiempo que tarda un sujeto
en completar una determinada tarea. La función de densidad de una variable exponencial con
parámetro ω es:
f (y) = ω exp(−ωy) .
Momentos: La media y varianza son:
1
E(Y ) = y
ω
1
V ar(Y ) = ,
ω2
motivo por el cual el parámetro ω puede interpretarse como la velocidad de ejecución. A mayor
valor de ω menor tiempo esperado. En la figura 3.4 pueden verse tres densidades exponenciales
correspondientes a tres variables X, Y y Z cuya media es 1, 1/4 y 1/8.
Figura 3.4: Distribuciones exponenciales
Ejemplo 6 Supongamos que se toma una muestra aleatoria simple de dos valores procedentes de
una distribución exponencial. La función de densidad de probabilidad de la muestra es
f (y) = f (y1 )f (y2 )

= ω exp(−ωy1 )ω exp(−ωy2 )
= ω 2 exp(−ω(y1 + y2 ));
y la función logaritmo de f (y) toma la forma
log f (y) = 2 log ω + ω(y1 + y2 ).
Por concretar con unos datos, supongamos que la muestra observada ha sido y = (3, 2)0 . En-
tonces, la función de densidad de probabilidad de la muestra y su logaritmo son
f (y) = ω 2 exp(−ω5)
log f (y) = 2 log ω − ω5.
La figura 3.5 muestra los valores de f (y) y log f (y) en función de ω. En estas gráficas se apre-
cian dos resultados importantes para este curso. En primer lugar, el máximo de ambas funciones
se encuentra en el mismo valor de ω. Esto se debe a que la función logaritmo es monótona, es
decir, si a > b entonces log a > log b. Por este motivo, si f (y) aumenta al aumentar ω, también lo
hace log f (y), si f (y) disminuye también disminuye log f (y), y si f (y) tiene una máximo también
lo tiene log f (y). En segundo lugar, el máximo se sitúa en el valor ω = 0,4. Este es el valor de ω
que hace máxima la densidad de probabilidad de la muestra observada.
Figura 3.5: Función de densidad de probabilidad de la muestra y su logaritmo

3.3. DISTRIBUCIONES EN LENGUAJE R 39
3.3. Distribuciones en lenguaje R

El lenguaje R tiene asociadas cuatro funciones a cada distribución de probabilidad. Estas fun-
ciones llevan por nombre una letra (d, p, q o r ) seguida del nombre de la distribución. Por ejemplo,
en el caso de la distribución normal las funciones son
Función Utilidad
dnorm(x, mean = 0, sd = 1, log = FALSE) Función de densidad normal
pnorm(q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE) Función de distribución
qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE) Función de distribución inversa
rnorm(n, mean = 0, sd = 1) Simular datos
Veremos algunos ejemplos a continuación.
3.3.1. Función de densidad y función de distribución

El comando dnorm resulta útil para realizar la representación gráfica de la función de densidad.
Para ello, hay que definir en primer lugar el rango de valores de la variable X, después calculamos el
valor de la función de densidad para cada valor de X y finalmente representamos ambas cantidades.
x <- seq(-3, 3, by=0.01)

f <- dnorm(x)
plot(x, f, type="l", lwd=1.5)
El comando pnorm proporciona el valor de la función de distribución F (x), que indica la

probabilidad de que X sea menor o igual de un valor concreto: F (x) = Pr.(X ≤ x). Podemos utilizar
pnorm tanto para representar gráficamente una distribución como para conocer la probabilidad
asociada a una variable, tanto en el contraste de hipótesis como en otros contextos. Por ejemplo,
para conocer cual es la probabilidad de que Z sea menor o igual de -1,68, es decir F (−1, 68),
ejecutamos el código
z <- -1.68
pnorm(z)
Para calcular la probabilidad del lado derecho, Pr.(X ≥ −1, 68) = 1 − F (−1, 68), ejecutarı́amos
los comandos:
z <- -1.68
pnorm(z, lower.tail=F)
3.3.2. Función de distribución inversa

El comando qnorm proporciona el valor de la función de distribución inversa F −1 (p). Es decir,
dada una probabilidad p, proporciona el valor de X al que le corresponde dicha probabilidad.
Por ejemplo, supongamos que necesitamos conocer cual es el valor de Z deja a su izquierda la
probabilidad 0,05 en una distribución normal inversa. Esto podemos calcularlo con el código
qnorm(0.05)
Si quisiéramos saber cual es el valor de Z que deja a su derecha la probabilidad 0,05 podrı́amos
hacerlo de dos maneras:
qnorm(0.05, lower.tail=FALSE)
qnorm(0.95)
3.3.3. Simular datos

El comando rnorm permite simular una muestra de datos de tamaño n. Vamos a compro-
barlo con un pequeño estudio de simulación. Tomaremos una muestra de tamaño nueve de una
distribución normal(100, 15); después calculamos X, S 2 y SX
2
.
muestra <- rnorm(9, 100, 15)

mean(muestra)
sd(muestra)
sd(muestra)/sqrt(length(muestra))
Veremos a continuación un ejemplo más sofisticado. Simulamos 100 matrices de datos de tamaño
nueve de una distribución normal(100, 15). A continuacion calculamos la media de cada muestra,
obtenemos el histograma de frecuencias de las 100 medias, la estimación del valor esperado de la
distribución muestral de la media y la estimación de la varianza de las medias.
3.3. DISTRIBUCIONES EN LENGUAJE R 41
muestra <- rnorm(900, 100, 15)

muestra <- matrix(muestra, nrow=9)
medias <- colMeans(muestra)
hist(medias, ylab="Frecuencia", main="Histograma de medias")
mean(medias)
sd(medias)
legend(85, 30,
c(paste("Media = ", sprintf("%4.2f", mean(medias))),
paste("Sd = ", sprintf("%4.2f", sd(medias)))))
3.3.4. Distribuciones incluidas en R
La lista completa de funciones de densidad incluidas en R es la siguiente.
Distribución Función de densidad

beta dbeta
binomial dbinom
Cauchy dcauchy
chi-cuadrado dchisq
exponencial dexp
F df
gamma dgamma
geometrica dgeom
hipergeométrica dhyper
log-normal dlnorm
multinomial dmultinom
binomial negativa dnbinom
normal dnorm
Poisson dpois
t de Student dt
uniforme dunif
Weibull dweibull
Con estas distribuciones podemos realizar las mismas operaciones que hemos visto en el caso
de la distribución normal cambiando la primera letra del nombre de la función. Por ejemplo, para
obtener una muestra de 10000 datos procedente de la distribución beta(2,2) utilizamos el código:
muestra <- rbeta(10000, 0.5, 0.5)

hist(muestra)
Figura 3.6: Muestra aleatoria de 10000 casos procedentes de la distribución beta(0,5, 0,5)
Para obtener una explicación adicional sobre el sentido de cada función podemos utilizar el
comando ? de R. Por ejemplo, ejecutando ?pchisq obtendremos una explicación de las funciones
relativas a la distribución chi-cuadrado.
3.4. EJERCICIOS 43
3.4. Ejercicios
Ejercicio 1 Demuestre las expresiones de E(X) y V ar(X) siendo X una variable de Bernoulli.
Ejercicio 2 Obtenga la función de probabilidad acumulada de la distribución uniforme discreta.
Ejercicio 3 Obtenga la función de probabilidad acumulada de la distribución uniforme continua.
Ejercicio 4 Sea Y una variable normal (µ, σ). Se dice que la variable Z = (Y − µ)/σ sigue una
distribución normal estandar. Escriba la función de densidad de Z. Obtenga la función de densidad
de una muestra aleatoria simple compuesta por dos observaciones.
Ejercicio 5 Demuestre que la normal es simétrica en torno a la recta Y = µ, es decir f (µ + x) =

f (µ − x) para todo x.
Ejercicio 6 Obtenga la función de distribución acumulada exponencial (F (y)).
Ejercicio 7 Sea X una variable normal. Obtenga los puntos de inflexión de f (x) en los siguientes
casos
Si X es normal(0, 1).
Si X es normal(µ, σ).
Ejercicio 8 Sea x una muestra aleatoria procedente de una distribución f (x). Obtenga f (x) y
log f (x) en caso de que f (x) pertenezca a cada una de las distribuciones:
1. Bernoulli (π).
2. Poisson (λ).
3. Normal (µ, σ).
4. Exponencial (ω).
Ejercicio 9 Demuestre que en la distribución exponencial E(X) = 1/ω.

Capı́tulo 4
Teorı́a de muestras grandes
La teorı́a de muestras grandes proporciona resultados que se cumplen cuando el tamaño mues-
tral tiende a infinito, por lo que a este campo se le denomina también estadı́stica asintótica. En
las aplicaciones reales no existen muestras de tamaño infinito, por lo que estos resultados son
aproximaciones que funciona bien en muestras de gran tamaño.
Los resultados de esta sección se agrupan en dos categorı́as: la ley de los grandes números y el
teorem del lı́mite central, ambas tienen diversas variantes en función de las condiciones en que se
aplican y la generalidad de los resultados que proporcionan, por lo que en ocasiones aparece escrito
en plural (leyes de los grandes números y teoremas del lı́mite central). En este capı́tulo veremos
las versiones más sencillas de ambos resultados.
La ley de los grandes números trata sobre la convergencia de la media muestral hacia la media
poblacional cuando el tamaño de la muestra aumenta. El teorema del lı́mite central tiene que ver
con la distribución de una suma de variables aleatorias, que se aproxima a una distribución normal
en muestras grandes. Como la media muestral es una suma de variables aleatorias (una por cada
elemento de la muestra) dividida por el número de datos, estas dos leyes en conjunto permiten
concluir que en muestras grandes la distribución de la media muestral será aproximadamente
normal y estará centrada en la media poblacional.
Estos dos resultados, aparentemente sencillos, constituyen la base de la gran mayorı́a de los
procedimientos de inferencia empleados en estadı́stica aplicada. Procedimientos tales como los
contrastes de una y dos medias, los contrastes sobre proporciones, bondad de ajuste, etc. tienen
su base en estos métodos. Las propiedades asintóticas de los estimadores máximo-verosı́miles se
siguen de estos teoremas, gracias a los cuales podemos obtener el error tı́pico de los estimadores,
y calcular intervalos de confianza basándonos en una aproximación normal.
Una razón por la que resultan tan útiles es que son procedimientos libres de distribución. La
validez de ambos teoremas no depende de cual sea realmente la distribución de los datos en la
población de partida. Es indiferente que dicha distribución sea uniforme, Poisson, exponencial o
cualquier otra, la media poblacional converge a la media poblacional y la distribución de una media
(o también de una suma de variables) converge a una distribución normal. Esto permite utilizar
45
46 CAPÍTULO 4. TEORÍA DE MUESTRAS GRANDES
la normal, u otras distribuciones basadas en ella como t o chi-cuadrado, para realizar contras-
tes o construir intervalos de confianza sobre medias sin necesidad de saber cual es la verdadera
distribución de la variable.
Por último, existen fenómenos naturales que se explican en base a estos resultados, uno de
ellos es la distribución normal que se encuentra en las puntuaciones de los tests de inteligencia, a
la que por conveniencia se le asignan los parámetros µ = 100 y σ = 15. Esto se debe a que las
puntuaciones en un test se calculan como la suma de las respuestas a los cientos de preguntas que
lo componen. Por el teorema del lı́mite central, en una versión más general que la vista aquı́, la
distribución una suma de variables será aproximandamente normal cuando el número de preguntas
sumadas es elevado.
En primer lugar veremos una introducción a lo que significa el lı́mite n → ∞ en teorı́a de la
probabilidad y después veremos los resultados fundamentales del capı́tulo.
4.1. Ley de los grandes números

La media muestral es la suma de las observaciones de la muestra dividida por el tamaño
muestral:
X1 + · · · + Xn
X= .
n
En esta definición, cada uno de los elementos X1 , . . . , Xn es una variable aleatoria y, bajo las
condiciones del muestreo aleatorio simple, todas ellas tienen el mismo valor esperado E(Xi ) = µ,
siendo µ la media poblacional. Resulta intuitivo suponer que la media muestral, X, será similar a
la media poblacional, µ, y que cuanto mayor sea n más razonable es suponer que X estará próximo
a µ. Esto es justamente lo que dice la ley de los grandes números, que expresa que X converge en
probabilidad a µ.
Teorema 1 (Ley de los grandes números) . Sea X1 , X2 , . . . una secuencia de variables alea-
torias idénticamente distribuidas y con valor esperado finito E(Xi ) = µ. Entonces, para cada > 0
P (|X − µ| ≥ ) → 0 cuando n → ∞.
p p
Este resultado también puede expresarse como X → µ, donde → quiere decir convergencia en
probabilidad. En la formulación de este teorema, es la diferencia entre X y µ, y esta diferencia
podemos hacerla tan pequeña como queramos aumentando el tamaño muestral. En definitiva, la
probabilidad de encontrar valores de X − µ mayores que tenderá a cero al aumentar n sea cual
sea el valor de .
Ejemplo 1 Cuando se aplica a variables dicotómicas, la ley de los grandes números nos dice que
la proporción muestral tiende a la probabilidad de éxito. Intuitivamente es un resultado obvio, si
tenemos una moneda imparcial, cabe esperar que cuantos más lanzamientos realicemos más próxima
4.2. TEOREMA DEL LÍMITE CENTRAL 47
estará la proporción de caras a 0,5. En el lenguaje de la teorı́a de la probabilidad esto se expresa

del siguiente modo. Supongamos que X es una variable de Bernoulli (π), entonces E(X) = π y la
proporción muestral es
P
i Xi
P = .
n
p
Como P es la media muestral, P → π.
Ejemplo 2 La varianza muestral es la media de las puntuaciones diferenciales elevadas al cua-

drado:
1X
Sn2 = (Xi − X)2 .
n i
Podemos comprobar que la varianza muestral es asintóticamente insesgada mediante sucesivas
p
aplicaciones de la ley de los grandes número. En primer lugar, sabemos que X → µ, en consecuencia
P 2 p P 2
i (Xi − X) /n → i (Xi − µ) /n, por lo que asintóticamente tenemos una media de n términos,
(Xi − µ)2 , cuyo valor esperado es E((X − µ)2 ) = σ 2 . Aplicando nuevamente la ley de los grandes
números tenemos que la media de las variables (Xi − µ)2 converge en probabilidad a su valor
p
esperado, por lo que Sn2 → σ 2 .
Ejemplo 3 Según vimos al estudiar las distribuciones, si X ∼ P oisson(λ) entonces E(X) = λ.

Supongamos ahora que tenemos una m.a.s. procedente de una distribución de Poisson y queremos
estimar λ. Entonces el estimador natural es la media muestral, dado que gracias al resultado
p
X → λ sabemos que la media muestral es un estimador asintóticamente insesgado. Esto no resuelve
el problema de si existen otros estimadores más eficientes (con menor varianza) o de cual sea la
precisión del estimador, para ello habrı́a que realizar un análisis más detallado y estudiar otros
métodos de estimación, pero al menos proporciona una primera respuesta al problema de estimar
el parámetro desconocido.
Ejemplo 4 En un estudio sobre tiempos de reacción hemos encontrado que un sujeto tarda los
siguientes segundos en realizar cuatro tareas x = (4, 6, 1, 9)0 . Queremos estimar la velocidad de
p
ejecución. Para ello, asumimos que X ∼ exponencial(ω) y como E(X) = 1/ω entonces X → 1/ω.
Aplicado a nuestros datos, X = 5 y la velocidad estimada es ω̂ = 1/5 = 0, 2.
4.2. Teorema del lı́mite central

El teorema del lı́mite central es uno de los resultados más importantes de la teorı́a de la
probabilidad y constituye la base de innumerables procedimientos estadı́sticos. Tanto los contrastes
de hipótesis sobre medias hasta los de bondad de ajuste basados en chi-cuadrado, pasando por la
obtención de estimadores por intervalos, tienen su base en este teorema.
Expresado en palabras, el teorema del lı́mite central dice que la distribución de la suma de varias
variables aleatorias se aproxima a una distribución normal a medida que el número de variables
aumenta. Al igual que la ley de los grandes números, el teorema del lı́mite central tiene distintas
versiones en función de las caracterı́sticas de las variables sumadas, aunque una de las más sencillas
es la siguiente.
Teorema 2 (Teorema del lı́mite central) . Sea X1 , X2 , . . . una secuencia de variables alea-
torias cada una de ellas con valor esperado E(Xi ) = µ y varianza V ar(Xi ) = σ 2 . Entonces, la
distribución del estadı́stico
√
n(X − µ)
Z=
σ
tiende a una distribución normal estándar cuando n → ∞.
Según se ha formulado, el teorema del lı́mite central se refiere a la media de n variables. No

obstante, como la media no es más que la suma de variables dividida por n, el teorema podrı́a
formularse de igual modo haciendo referencia a la suma y no a la media. En concreto, el estadı́stico
Z puede escribirse del siguiente modo para hacer explı́cita la suma de variables
X1 + · · · + Xn − nµ
Z= √ .
σ n
El teorema del lı́mite central nos dice que la distribución de la media muestral es aproxima-
damente normal en muestras grandes. No existe un valor exacto de n a partir del cual dicha
aproximación es realmente precisa. En aplicaciones prácticas, de modo orientativo, se considera
que con n ≥ 30 el teorema proporciona resultados suficientemente correctos.
Ejemplo 5 (Distribución de Poisson) . Un grupo de 9 personas ha realizado una prueba con-

sistente en leer en voz alta un determinado texto. La variable Xi indica el número de errores
cometidos por el sujeto i. Como la longitud del texto es elevada y basándonos en nuestra experien-
cia previa, asumimos que Xi ∼ Poisson(λ = 4). Supongamos que queremos conocer la probabilidad
de que el número medio de errores cometidos sea menor o igual a cinco. Gracias al teorema del
lı́mite central sabemos que la variable
√
n(X − λ)
Z= √
λ
sigue aproximadamente una distribución normal estándar en muestras grandes. Por tanto
√
9(5 − 4)
Z= √ = 1, 5.
4
Buscando en la tabla de la normal encontramos P (X ≤ 5) = P (Z ≤ 1, 5) ≈ 0, 93.
Ejemplo 6 (Aproximación normal a la binomial) . Lanzamos 100 veces una moneda impar-
cial y queremos saber cual es la probabilidad de encontrar más de cincuenta caras. Como el re-
sultado de cada lanzamiento es Xi ∼ Bernoulli (π = 0, 5) tenemos que E(Xi ) = π = 0, 5 y
V ar(Xi ) = π(1 − π) = 0, 25. Aplicando el teorema del lı́mite central tenemos que la variable
4.3. EJERCICIOS 49
P
Xi − nπ
Z = pi
nπ(1 − π)
es aproximadamente normal(0, 1). Entonces
51 − 100(0, 5)
Z= p = 0, 2.
100(0, 25)
Por tanto P (X ≥ 51) ≈ P (Z ≥ 0, 2) ≈ 0, 42.
4.3. Ejercicios
Ejercicio 1 Sea U una variable distribuida según la uniforme en el intervalo (0, 1). Obtenga la
probabilidad de que obtener un valor superior a 0,9 mediante el cálculo exacto de F (u) y utilizando
la desigualdad de Tchebyshev.
Ejercicio 2 Sea X una variable distribuida según la normal(100, 15). Obtenga la probabilidad de
que obtener un valor igual o mayor que 130 de dos maneras distintas: acudiendo a las tablas de la
normal y mediante la desigualdad de Tchebyshev.
Ejercicio 3 Sea U una variable distribuida según la uniforme en el intervalo (0, 1). Obtenga la
probabilidad de que la media de una muestra de tamaño 16 sea superior a 0,5.
Ejercicio 4 Sea U una variable distribuida según la uniforme en el intervalo (0, 1). ¿Entre qué va-
lores se encuentra la media de una muestra de tamaño 16 con una probabilidad de 0,95?
Ejercicio 5 Sea X ∼ Poisson(8) y tomamos una muestra de tamaño 64. ¿Cual es la probabilidad
de encontrar una media mayor o igual a 10?
Ejercicio 6 ¿Cual es la probabilidad de que la suma de 25 variables independientes distribuidas

según Poisson(16) sea inferior a 360?
Ejercicio 7 Sea X ∼ Poisson(10) y tomamos una muestra de tamaño 36. ¿Entre qué valores se
encuentra la media muestral con una probabilidad de 0,99?
Ejercicio 8 Sea X ∼ exponencial (ω = 0, 2). ¿Entre qué valores se encuentra la media muestral
con probabilidad 0,95 si n = 16?
Ejercicio 9 Sea X ∼ chi-cuadrado con 10 grados de libertad (gl). Además sabemos que en una
distribución chi-cuadrado E(X) = gl y V ar(X) = 2gl. Calcule la probabilidad de que la media de
X sea inferior a 10 en una muestra de tamaño 25.
Ejercicio 10 Sea X una variable aleatoria definida en el intervalo (−4, 4) y con función de den-
sidad
f (x) = 4 − x4 .
1. Obtenga E(X).
2. Obtenga V ar(X).
3. Obtenga F (x) y la probabilidad de que X esté entre -1 y 1.
4. Obtenga la probabilidad de que la media de una m.a.s. de tamaño 20 sea menor o igual a 1.
Ejercicio 11 Sea X una variable de Bernoulli con parámetro
1
π= .
1 + exp(δ)
Obtenga el estimador de δ a partir de la siguiente muestra x = (0, 1, 0, 0)0 .
Ejercicio 12 Sea X una variable aleatoria definida en el intervalo (0, 2) y con función de densidad
1
f (x) = (3x2 + 1)
10
1. Obtenga E(X) y V ar(X).
2. Obtenga F (x) y calcule P (X ≥ 1,5).
3. Obtenga una aproximación a P (X ≥ 1,5) utilizando la desigualdad de Chebyshev.
4. ¿Cual es la probabilidad de que en una m.a.s. de tamaño 30 la media sea mayor o igual a
1,5?
Parte II
Inferencia estadı́stica
51
Capı́tulo 5
Estimación por
máxima-verosimilitud
En este capı́tulo veremos el método de estimación por máxima-verosimilitud, que es el más

extendido con modelos relativamente sofisticados. A diferencia de mı́nimos-cuadrados, el método
de máxima-verosimilitud se basa en supuestos fuertes acerca de los datos, lo que plantea el inconve-
niente de que no se cumplan los supuestos, y la ventaja de que los estimadores máximo-verosı́miles
tienen muy buenas propiedades que estudiaremos en el próximo capı́tulo. Los supuestos fundamen-
tales del método de máxima-verosimilitud son dos, en primer lugar que conocemos la función de
distribución de los datos observados, en segundo lugar que se cumple el muestreo aleatorio simple.
5.1. Función de verosimilitud

Supongamos que la función de probabilidad o densidad de los datos observados, f (x), es co-
nocida; puede ser la normal, Poisson, etc. pero su forma matemática debe ser conocida. Además,
como hemos visto al hablar del muestreo aleatorio simple, si se toma una muestra aleatoria simple
de n observaciones, la función de probabilidad (o densidad) de la muestra es el producto de la
función de probabilidad (o densidad) de cada una de las observaciones:
f (x ) = f (x1 , . . . , xn )
= f (x1 ) · · · f (xn )
Yn
= f (xi ),
i=1
Qn
donde el sı́mbolo i=1 representa el producto de n términos, siendo similar al sı́mbolo del sumatorio
Pn
( i=1 ) pero multiplicando los elementos en lugar de sumarlos. El método de máxima verosimilitud
toma f (x ) como base para realizar la estimación.
53
54 CAPÍTULO 5. ESTIMACIÓN POR MÁXIMA-VEROSIMILITUD
Definición 9 (Función de verosimilitud) . Supongamos que se ha tomado una m.a.s., x, y el

propósito es estimar el parámetro θ. La función de verosimilitud es la función f (x), entendida como
una función de θ y manteniendo x fijo al valor encontrado en la muestra. Esto suele indicarse del
modo
L(θ) = f (x)
donde L procede de likelihood (verosimilitud en inglés).
Ejemplo 1 Sea X > 0 una variable aleatoria con distribución Weibull, cuya función de densidad
es
1 x
f (x) = exp − .
λ λ
Si tomamos una muestra aleatoria simple de n observaciones, la función de densidad de la muestra
es:
n
Y 1 x
i
f (x) = exp −
i=1
λ λ
1 x 1
1
x
2 1 x
n
= exp − × exp − × · · · × exp −
λ λ
Pn λ λ λ λ
1 i=1 xi
= exp −
λn λ

1 nX
= exp −
λn λ
Por tanto, la función f (x) depende únicamente de la media muestral X, y no de ningún otro dato o
cantidad observada en la muestra. Cuando esto sucede ası́ se dice que X es un estadı́stico suficiente
para λ. Es decir, toda la información observada se resume en X, que contiene toda la información
necesaria para realizar la estimación de λ. Dicho de otra manera, bastarı́a con que supiéramos el
valor de X para poder estimar λ. No necesitamos conocer ninguna otra caracterı́stica de la muestra
tal como la varianza, etc.
Supongamos que hemos tomado una m.a.s. de tamaño tres y se encuentra el resultado x =
(2, 7, 3)0 . El estadı́stico suficiente es X = 4, a partir del cual la función de verosimilitud es

1 nX
L(λ) = exp −
λn λ

1 (3)4
= exp − .
λ3 λ
5.2. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD 55
5.2. Estimación por máxima verosimilitud

El método de máxima verosimilitud consiste en asignar a los parámetros aquel valor que haga
máxima la probabilidad de los datos observados.
Definición 10 Sea X una variable aleatoria cuya función de densidad (o probabilidad) es f (x) y
que depende del parámetro θ. Sea x una muestra aleatoria simple procedente de f (x). El estimador
máximo verosı́mil de θ es el valor de θ que hace máxima L(θ).
Es importante advertir que L(θ) no es la probabilidad de θ sino la probabilidad de x dado un

valor de θ. Por esto, al variar L(θ) en función de θ no estamos obteniendo la la probabilidad de que
cada valor de θ sea el correcto, sino como de verosı́mil es cada valor. Entendiendo que un valor es
inverosimil cuando, si ese valor fuese el correcto, harı́a improbable encontrar unos datos, x , como
los que realmente se han obtenido.
La forma práctica de saber cual es el estimador máximo verosı́mil consiste utilizar los conceptos
del cálculo diferencial para encontrar el máximo de una función. En primer lugar, en la mayorı́a
de las ocasiones no se trabaja directamente con L(θ) sino con su logaritmo, denominado l(θ) =
log L(θ). Entre otros motivos, esto se debe a que l(θ) suele ser más sencilla que L(θ) aunque ambas
alcanzan su valor máximo en el mismo punto de θ, por lo que es más cómodo trabajar con l(θ).
Concretando un poco más, para saber cual es el máximo de la función l(θ), se utiliza la propiedad
de que en el máximo de una función su derivada toma el valor cero. Por ello, se calcula la derivada
de l(θ) con respecto a θ, y se busca el valor de θ que hace que dicha derivada sea cero. Los siguientes
ejemplos ilustran este proceso.
Ejemplo 2 Continuando con el ejemplo 1, hemos visto que a partir de la muestra x = (2, 7, 3)0 se
obtenı́a X = 4. Entonces, la función de verosimilitud y su logaritmo son

1 12
L(λ) = exp −
λ3 λ
12
l(λ) = −3 log λ −
λ
La representación gráfica de ambas funciones aparece en la figura 5.1. Puede verse que alcanzan
su máximo en el valor del estimador λ̂ = 4. Además de buscar el valor λ̂ en las gráficas, es posible
obtenerlo analı́ticamente utilizando cálculo diferencial; la derivada de l(λ) con respecto a λ es
3 12
l0 (λ) = − +
λ λ2
El estimador máximo verosı́mil es el valor de λ que resuelve la ecuación de estimación: l0 (λ) = 0.
Es decir
3 12
− + = 0
λ λ2
12 3
=
λ2 λ
12
= 3
λ
12
λ̂ = = 4.
3
Figura 5.1: Función de verosimilitud y su logaritmo para la distribución Weibull con X = 4
A continuación vamos a obtener la fórmula genera del estimador máximo-verosı́mil, sin con-
cretar con los datos de una muestra particular. La función de verosimilitud era

1 nX
L(λ) = exp − ,
λn λ
cuyo logaritmo es
l(λ) = log L(λ)

1 nX
= log + log exp −
λn λ
1 nX
= log −
λn λ
nX
= − log λn −
λ
nX
= −n log λ − .
λ
Para encontrar el máximo de l(λ) se toma su primera derivada con respecto a λ:
n nX
l0 (λ) = − + 2 .
λ λ
5.2. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD 57
La ecuación de estimación es la primera derivada de l(λ) igualada a cero (l0 (λ) = 0), con lo que
queda:
n nX
− + 2 = 0
λ λ
n nX
=
λ λ2
nX
n =
λ
Despejando λ se obtiene el estimador máximo verosı́mil:
λ̂ = X.
Para comprobar que en este punto hay un máximo puede tomarse la segunda derivada:
n 2nX
l00 (λ) = − 3 .
λ2 λ
Sustituyendo el valor del estimado (λ̂ = X) en la segunda derivada se obtiene:
n 2nX n 2n n
l00 (X) = 2 − 3 = 2 − 2 =− 2 < 0.
X X X X X
Como la variable X sólo toma valores positivos, X > 0. Por lo tanto, la segunda derivada es
negativa cuando λ̂ = X, lo que indica que l(λ) tiene un máximo en este punto.
Ejemplo 3 (Distribución de Bernoulli) Supongamos que a un sujeto realiza 25 veces una de-
terminada tarea. El resultado de cada presentación se clasifica como éxito o fracaso, y se considera
que la probabilidad de éxito π permanece constante a lo largo del experimento. ¿Cuál es la proba-
bilidad estimada de éxito asumiendo independencia entre las distintas realizaciones?
La variable Xi describe el resultado de la ejecución i, y sigue la distribución de Bernoulli:
f (xi ; π) = π xi (1 − π)(1−xi ) .
La función de probabilidad del vector de resultados de las 25 ejecuciones tiene la forma:
25
Y
f (x; π) = π xi (1 − π)(1−xi )
i=1
P25 P25
xi
= π i=1 (1 − π)(25− i=1 xi )
.
P25
Supongamos que el numero de éxitos se indica por x, siendo x = i=1 xi . Entonces, la función
de verosimilitud es:
L(π) = π x (1 − π)(25−x) .
Tomamos el logaritmo de la función de verosimilitud por su mayor sencillez matemática:
l(π) = log L(π) = x log π + (25 − x) log(1 − π) .
El estimador máximo verosı́mil es el valor que maximiza l(π). Como hemos visto, en el punto
máximo de l(π), su derivada es cero:
x 25 − x
l0 (π) = −
π 1−π
= 0.
La solución de la ecuación de estimación l0 (π) = 0 proporciona el estimador máximo verosı́mil

de π:
x 25 − x
= ,
π 1−π
x − xπ = 25π − xπ ,
x
π̂ = .
25
Este razonamiento no basta para asegurar que π̂ es un estimador máximo verosı́mil. Esto se
debe a que la derivada l0 (π) se anula tanto si l(π) tiene un máximo como si tiene un mı́nimo.
En caso de que la función tenga un máximo, se cumple que su segunda derivada es negativa. En
nuestro ejemplo:
x 25 − x
l00 (π) = − − .
π2 (1 − π)2
La cual es necesariamente menor que 0, por lo que l(π) alcanza un máximo en π̂.
5.3. Máxima verosimilitud en lenguaje R

En R podemos realizar la estimación máximo-verosı́mil de una distribución cualquiera utilizando
las funciones optimize y optim. La función optimize, que ya hemos utilizado en un capı́tulo anterior,
sirve para buscar el máximo de una función univariante, es decir que depende de una única cantidad,
por lo que podrı́amos utilizarla para maximizar una función de verosimilitud que dependa de
un único parámetro. La función optim es más flexible ya que permite realizar la optimización
univariante y multivariante, es decir que permitirı́a estimar modelos que dependan de uno o más
parámetros, escoger el algoritmo de optimización y también proporciona el resultado de la segunda
derivada que, según veremos más adelante, sirve para obtener el error tı́pico del estimador máximo-
verosı́mil. Por todo ello, los estimadores los obtendremos utilizando la función optim.
5.4. EJERCICIOS 59
Vamos a ver este método en relación con el ejemplo 2. Tenı́amos que con la muestra x = (2, 7, 3)0 ,
la función que hay que maximizar para obtener el estimador máximo-verosı́mil es
12
l(λ) = −3 log λ −
.
λ
Para obtener el estimador en R es conveniente comenzar realizando el gráfico de l(λ) para
obtener una primera impresión de cual puede ser el estimador. Para ello programamos la función
en R y la representamos gráficamente.
x <- c(2, 7, 3)
suma <- sum(x)
lk <- function(lambda) -3*log(lambda) - suma / lambda
x <- seq(0, 10, by=0.001)

f <- lk(x)
plot(x, f, type="l")
A continuación llamamos a optim para que busque el máximo de la función. El primero de

los argumentos que le pasamos a optim es el valor 1, que es el valor inicial de λ a partir del cual
comienza a buscar el estimador utilizando un procedimiento iterativo. A continuación, el argumento
f=lk le dice a optim que la función a optimizar es la función lk definida anteriormente. “Brent” es
el método de estimación que se utiliza cuando solamente se estima un parámetro. lower y upper
son los valores mı́nimo y máximo de λ entre los que tiene que buscar el estimador. El argumento
control=list(fnscale=-1) le dice a opim que tiene que buscar el valor de λ que maximiza la función,
de no incluir este comando lo que harı́a optim serı́a buscar el valor que la minimiza. El resultado
de optim se guarda en el objeto fit.
fit <- optim(1, f=lk, method="Brent", lower=0, upper=10, control=list(fnscale=-1))

print(fit)
El resultado de la estimación se recoge en dos elementos del objeto fit. En fit$par tenemos el
valor del estimador y en fit$value aparece el valor máximo de la función lk, estos valores son 4 y
-7.158883 respectivamente.
5.4. Ejercicios
Ejercicio 1 Sea la distribución de Poisson:
λy
f (y | λ) = exp(−λ) .
y!
Se ha tomado una m.a.s. de tamaño cuatro, y se encuentra el resultado y = {4, 2, 6, 4}. Calcule
el estimador máximo-verosimil para esta muestra.
Ejercicio 2 Sea la distribución exponencial (ω). En una muestra se ha encontrado y = {2,5, 1,5, 1,25, 0,75}.
Obtenga el estimador máximo-verosimil.
Ejercicio 3 Obtenga el estimador máximo verosı́mil de una distribución geométrica:
f (x) = π (1 − π)x .
Ejercicio 4 Sea X una variable distribuida según la normal con µ = 10 y σ 2 desconocida. Obtenga
el estimador máximo-verosı́mil de σ 2 a partir de la muestra x = (7, 10, 7)0 .
Ejercicio 5 Se toman 5 muestras de una distribución de Bernoulli y se encuentra x = 3.
Represente gráficamente la función de verosimilitud L(π) .
Represente gráficamente la función log L(π) .
Represente gráficamente la función log L0 (π) .
Obtenga el estimador máximo verosı́mil y sitúelo en las gráficas anteriores.

Capı́tulo 6
Propiedades asintóticas de los

estimadores máximo-verosı́miles
Desde un punto de vista de estadı́stica clásica, la lógica de la inferencia consiste en asumir que
los parámetros son cantidades fijas aunque desconocidas. En un experimento aleatorio se concibe
que el valor de θ es una constante, es decir que permanecerı́a inalterable si se tomaran varias
muestras de la misma población. En un estudio estadı́stico se toma una de las posibles muestras, y
con estos datos se calcula un estimador θ̂ que puede o no diferir de θ. A diferencia de θ el estimador
θ̂ es una variable aleatoria, su valor cambiará de unas muestras a otras por el azar de muestreo
que hace que sean unas u otras las observaciones tomadas de la población. Lo deseable es que el
valor θ̂ que esté lo más próximo a θ, lo cual se analiza estudiando sus propiedades.
Las principales propiedades de un estimador son su media (a partir de la que se obtiene el
sesgo) y su error tı́pico. El error tı́pico es la desviación tı́pica de θ̂, e indica cuanto varı́a θ̂ de
una muestra a otra. A partir del error tı́pico es posible construir un intervalo de confianza que
indica entre qué valores estimamos que se encuentra el parámetro poblacional. En este apartado
veremos el estudio de las propiedades de los estimadores máximo-verosı́miles; con otros métodos
de estimación las propiedades de los estimadores son en muchos casos desconocidas.
Una de las grandes ventajas de los estimadores máximo-verosı́miles es que cumplen determina-
das propiedades asintóticas -es decir, propiedades que se dan en el lı́mite n → ∞- que los hacen
ser muy convenientes. Estas propiedades se demuestran dentro del marco de la teorı́a de muestras
grandes, por lo que cabe esperar que funcionen de modo razonable en muestras de elevado tamaño.
Con otros métodos de estimación, como mı́nimos cuadrados o la estimación por momentos, no
existe una teorı́a equivalente que de modo general informe de las propiedades de los estimadores.
6.1. Media, varianza y distribución de los estimadores

Sea θ un parámetro y θ̂ su estimador máximo verosı́mil. Cuando n → ∞ se cumple que
61
62CAPÍTULO 6. PROPIEDADES ASINTÓTICAS DE LOS ESTIMADORES MÁXIMO-VEROSÍMILES
1. El estimador θ̂ es insesgado, es decir E(θ̂) → θ.
2. La varianza del estimador cumple que V ar(θ̂) → 1/I(θ), donde I(θ) es la información obser-
vada en la muestra acerca del valor del parámetro.
3. La distribución de θ̂ es normal.
p
En definitiva, en muestras grandes podemos asumir que θ̂ es normal (θ, 1/ I(θ)). Gracias a
estas propiedades podemos calcular el error tı́pico de los estimadores y el intervalo de confianza
para el parámetro.
Las propiedades 1 y 2 de los estimadores máximo-verosı́miles significan que en muestras ilimita-
damente grandes su media coincide con el valor verdadero del parámetro y la varianza disminuye.
Es decir son correctos asintóticamente, no podemos garantizar que en una muestra de tamaño
finito su valor sea el correcto, pero sı́ cabe espera que al aumentar el tamaño muestral mejore su
precisión. Un procedimiento estadı́stico que cumpla estas propiedades, que aunque parecen obvias
no siempre se cumplen, se dice que es consistente.
Todas estas ventajas de los estimadores máximo verosı́miles se consiguen a costa de un precio:
los supuestos tan fuertes que asume el método. Para aplicar máxima verosimilitud hay que conocer
la función de distribución de las variables aleatorias y asumir muestreo aleatorio simple. Estos su-
puestos son información añadida al análisis estadı́stico, que tienen la contrapartida de proporcionar
estimadores con buenas propiedades. Sin embargo, no siempre sucede que se conozca la función de
distribución de las variables o que pueda asumirse que la muestra es aleatoria simple. Otros esti-
madores más sencillos, como mı́nimos cuadrados, no requieren conocer la forma de la distribución
y son aplicables aún cuando se desconozca esta; en cambio, sus propiedades estadı́sticas no suelen
ser conocidas y difı́cilmente serán mejores que las del estimador máximo-verosı́mil.
6.2. Información observada

La información observada se calcula como -1 multiplicado por la segunda derivada del logaritmo
de la función de verosimilitud, es decir:
∂2
I(θ) = −
l(θ) .
∂θ2
En consecuencia, podemos calcular una aproximación a la varianza que tendrı́a el estimador en
todas las posibles muestras de tamaño n que podrı́an obtenerse de la población del siguiente modo
1
V ar(θ) = .
I(θ̂)
La precisión del estimador también suele por su error tı́pico, que no es más que la desviación tı́pica
del valor de θ̂ en las distintas muestras. Por tanto, el error tı́pico es la raı́z cuadrada de la varianza
1
σθ̂ = q .
I(θ̂)
6.2. INFORMACIÓN OBSERVADA 63
La demostración de por qué la varianza del estimador puede obtenerse a partir de I(θ) excede
los objetivos de este curso. Sin embargo, debemos conocer que I(θ) básicamente está indicando
la curvatura de la función l(θ) evaluada en el punto θ̂. Si la curvatura es alta en este punto
el estimador será más preciso, cuando l(θ) es muy plana en torno al estimador θ̂ la estimación
será más imprecisa. Los siguientes ejemplos ilustran estos conceptos.
Ejemplo 1 (Distribución normal) La función de densidad de una distribución normal (µ, σ)

es
2 !
1 1 x−µ
f (x) = √ exp −
σ 2π 2 σ
Supongamos que hemos tomado una muestra aleatoria simple de n elementos. La función de
densidad de la muestra es
n
Y
f (x) = f (xi )
i=1
n 2 !
1 1X xi − µ
= n n/2
exp −
σ (2π) 2 i=1 σ
Vamos a obtener el estimador máximo-verosı́mil de µ y su varianza. La función de verosimilitud

es la función de densidad de la muestra: L(µ) = f (x). Para obtener el estimador, utilizamos el
logaritmo de la función de verosimilitud:
n 2
1X xi − µ
l(µ) = log L(µ) = − log(σ n (2π)n/2 ) − .
2 i=1 σ
La ecuación de estimación para la media poblacional se obtiene igualando a cero la derivada de

l(µ):
Pn
∂ i=1 (xi − µ)
l(µ) = =0.
∂µ σ2
Pn
De donde que se deduce i=1 (xi − µ) = 0, y por tanto el estimador máximo verosı́mil es
n
1X
µ̂ = xi = X .
n i=1
La segunda derivada de l(µ) es:

Pn
∂2 i=1 1 n
l(µ) = − =− .
∂µ2 σ2 σ2
Como hemos visto, obtenemos una aproximación a la varianza del estimador del siguiente modo
V ar(µ̂) = 1/I(µ̂), que en este ejemplo queda
σ2
V ar(µ̂) = .
n
En consecuencia, el error tı́pico del estimador es
σ
σ( µ̂) = √ .
n
Ejemplo 2 Vamos a aplicar los resultados obtenidos en el ejemplo 1 a una muestra concreta.
Supongamos que tenemos los datos x = (104, 96)0 procedentes de una distribución normal(µ,
σ = 2). El estimador máximo verosı́mil y su varianza son
µ̂ = X = 100.
σ2 4
V ar(µ̂) = = = 2.
n 2
√
Con lo cual tenemos que el error tı́pico del estimador es σµ̂ = 2, que es nuestro indicador de cual
serı́a la desviación tı́pica de µ̂ que habrı́amos observado al calcularlo en todas las posibles muestras
de tamaño n = 2 que habrı́an podido obtenerse de esta población.
Supongamos ahora que la muestra con la que contamos es x = (104, 105, 96, 99, 97, 95, 101, 103)0 .
Entonces el estimador y su varianza serı́an
µ̂ = X = 100.
σ2 4
V ar(µ̂) = = = 0, 5,
n 8
√
y el error tı́pico se ha reducido a σµ̂ = 0, 5 ≈ 0, 71 como consecuencia del mayor tamaño muestral.
La figura 6.1 representa la función l(µ) para ambas muestras. Es obvio que l(µ) toma valores
más pequeños en el caso de n = 8, lo cual se debe a que l(µ) es la suma de la contribución de cada
P
una de las observaciones de la muestra. Como l(µ) = i log f (xi ), cada observación contribuye a
l(µ) con un término log f (xi ) < 0, y la función l(µ) va disminuyendo al aumentar n. Además puede
verse que l(µ) alcanza su máximo en el mismo punto para ambas muestras, como consecuencia de
que la media de ambas es 100.
El resultado más relevante de la figura 6.1, de cara a este capı́tulo, es que l(µ) tiene una
curvatura mayor con n = 8 que con n = 2. En ambos casos el estimador está en el mismo
punto, pero cuando la curvatura es mayor está mas claro cual debe ser el estimador. Con n =
2 la verosimilitud de otros valores de µ distintos a µ̂ = 2 es relativamente alta, lo que quiere
decir que hay una mayor incertidumbre acerca del valor del estimador. Este fenómeno es el que
está recogiendo la información I(µ).
Otro aspecto relevante de este ejemplo es que permite comprobar fácilmente que el estimador
es consistente. Resumiendo, tenemos que el estimador y su varianza son
6.2. INFORMACIÓN OBSERVADA 65
Figura 6.1: Logaritmo de la función de verosimilitud normal con X = 100 y σ = 2
µ̂ = X, y
σ2
V ar(µ̂) = .
n
p
Por la ley de los grandes números X → µ, lo que significa que el estimador es consistente. Además,
existe una segunda manera de comprobar que un estimador es consistente sin necesidad de recurrir
a la ley de los grandes números, que consiste en verificar que es asintóticamente insesgado y con
varianza cero. En nuestro ejemplo tenemos que el estimador es insesgado porque E(X) = µ y es
obvio que V ar(µ̂) → 0 cuando n → ∞.
Ejemplo 3 En el capı́tulo anterior vimos que la función de verosimilitud, su logaritmo, la primera

y la segunda derivadas de la distribución Weibull eran respectivamente

1 nX
L(λ) = exp − ,
λn λ
nX
l(λ) = −n log λ − ,
λ
n nX
l0 (λ) = − + 2 y
λ λ
n 2nX
l00 (X) = − 3 .
λ2 λ
de donde se deducı́a que el estimador máximo-verosı́mil es λ̂ = X.
Ahora vamos a calcular el error tı́pico del estimador. La información observada es igual a
menos la segunda derivada:
n 2nX
I(λ) = − + 3 ,
λ2 λ
Si evaluamos la función I(λ) en el valor de λ̂ encontramos que
n 2nX
I(λ̂) = − 2 + 3
X X
n 2n
= − 2 + 2
X X
n
= 2.
X
Por tanto la varianza del estimador es:
2
X
V ar(λ̂) = .
n
En el ejemplo 2 vimos que con la muestra x = (2, 7, 3)0 se obtenı́a el estimador λ̂ = X = 4.
Entonces, su varianza es
2
X 42
V ar(λ̂) = = ≈ 5, 33,
n 3
√
y su error tı́pico es σλ̂ = 5, 33 ≈ 2, 31, bastante elevado debido al reducido tamaño muestral.
6.3. Intervalos de confianza

En muestras grandes, la propiedad de normalidad puede utilizarse para construir intervalos
de confianza para el valor verdadero del parámetro. Para ello basta seguir el procedimiento, ya
conocido de cursos anteriores, para construir un intervalo de confianza. Tipificando el estimador,
tenemos que el siguiente estadı́stico sigue una distribución aproximadamente normal estándar en
muestras grandes:
θ̂ − θ
Z= .
Se
Supongamos que se buscan dos valores, Zα/2 y Z1−α/2 , de una distribución normal estándar
que dejan dentro de sı́ una probabilidad de 1 − α. Por tanto, la probabilidad de encontrar valores
del estadı́stico Z dentro de este intervalo es 1 − α, es decir:
!
θ̂ − θ
P Zα/2 ≤ ≤ Z1−α/2 =1−α
Se
Desarrollando esta expresión se obtiene que el intervalo de confianza para el parámetro es:
6.3. INTERVALOS DE CONFIANZA 67
P (Li ≤ θ ≤ Ls ) = 1 − α ,
cuyos lı́mite superior e inferior son
Ls = θ̂ + |Zα/2 |Se
Li = θ̂ − |Zα/2 |Se
Además, ya hemos visto que el error tı́pico de estimación que necesitamos para calcular los
lı́mites es
1
Se = p .
I(θ)
Los valores más habituales de 1 − α son 0, 95 o 0, 99, a los que les corresponde un valor de |zα/2 |
igual a |z0,025 | = 1, 96 y |z0,005 | = 2, 575 respectivamente.
Para entender estos resultados hay que hacer algunas precisiones. En primer lugar es un resul-
tado asintótico, por lo que requiere de muestras grandes dado que, de no ser ası́, no se garantizan
los supuestos en que se ha basado este desarrollo: normalidad, estimador insesgado y con un Se
calculado con precisión a partir de los datos disponibles. En segundo lugar, 1 − α es la probabilidad
de que al tomar una muestra, el intervalo resultante contenga el valor verdadero de θ. Una vez que
se dispone de una muestra concreta, el intervalo que se construya contendrá o no el valor verdadero,
por lo que no tiene sentido hablar de la probabilidad de que dicho intervalo contenga el parámetro.
Al igual que L(θ) no indica la probabilidad de θ sino su verosimilitud, tenemos una determinada
confianza de que el intervalo (Li , Ls ) contenga dentro de si el valor esperado del parámetro, pero
no una probabilidad.
Ejemplo 4 Continuando con el ejemplo 1, el error tı́pico del estimador de µ es
σ
Se = √ .
n
Para obtener un intervalo de confianza al 99 %, se tiene que 1 − α = 0, 99, por lo que α = 0, 01
y α/2 = 0, 005. Por tanto |Z0,005 | = 2, 575, con lo que los lı́mites inferior y superior del intervalo
de confianza para µ son:
σ
Ls = X + 2, 575 √
n
σ
Li = X − 2, 575 √ .
n
Supongamos que σ 2 = 15 y se ha obtenido la muestra x = (102, 97, 110)0 . El estimador de µ es

µ̂ = 103, y su varianza es:
σ2 15
= =5.
n 3
Entonces, con un nivel de confianza del 99 %, el valor verdadero de µ estará dentro del intervalo:
σ √
Ls = X + 2, 575 √ = 103 + 2, 575 5 = 108, 75
n
σ √
Li = X − 2, 575 √ = 103 − 2, 575 5 = 97, 24
n
Esto no significa que exista una probabilidad de 0,99 de que µ esté entre 97, 24 y 180, 75. El
valor verdadero de µ, aún siendo desconocido, estará o no estará dentro de este intervalo. Lo que
sı́ sabemos es que en el 99 % de las muestra que tomemos de esta población, el intervalo resultante
contendrá el valor verdadero de µ. Por tanto, tenemos una confianza del 99 % de que esta sea una
de esas muestras. Por último, el término confianza carece de una definición matemática precisa, a
diferencia del término probabilidad, del que no es sinónimo.
Ejemplo 5 Continuando con el ejemplo 3, el estimador en la muestra x = (2, 7, 3)0 es λ̂ = 4 y

su varianza es
16
V ar(λ̂) =
.
3
Vamos ahora a construir un intervalo de confianza al 95 % para λ. Mirando en la distribución
normal se encuentra que |Z0,025 | = 1, 96, por lo que el intervalo resulta ser
4
Ls = 4 + 1, 96 √ ≈ 8, 53
3
4
Li = 4 − 1, 96 √ ≈ −0, 52
3
Puede verse que el lı́mite inferior del intervalo de confianza es un valor imposible del parámetro.
De hecho, si se sustituye el valor de Li en la función de densidad del ejemplo 1, esta toma un valor
negativo, lo cual no es admisible para una función de densidad. Este ejemplo nos recuerda que el
intervalo de confianza es un resultado aproximado que puede resultar adecuado cuando la muestra
es grande, pero en muestras pequeñas como la de este ejemplo puede dar resultados poco precisos
o incorrectos.
6.4. Cálculo de la varianza del estimador en lenguaje R

Para calcular la varianza del estimador en lenguaje R simplemente tenemos que pedirle a la
función optim que nos de el valor de la segunda derivada evaluada en el punto correspondiente al
6.4. CÁLCULO DE LA VARIANZA DEL ESTIMADOR EN LENGUAJE R 69
estimador. Continuando con el ejemplo del capı́tulo anterior sobre la distribución Weibull, tenı́amos
que la muestra era x = (2, 7, 3)0 . Para pedirle a optim que nos de la segunda derivada utilizamos
el argumento hessian:
x <- c(2, 7, 3)
suma <- sum(x)
lk <- function(lambda) -3*log(lambda) - suma / lambda
fit <- optim(1, f=lk, method="Brent", lower=0, upper=10, control=list(fnscale=-1),

hessian=TRUE)
print(fit)
Entre los elementos del objeto fit ahora tenemos que la segunda derivada (hessian) es -0.1875001.
A partir de ella podemos calcular la varianza, el error tı́pico del estimador y el intervalo de confianza
con el siguiente código
lambda <- fit$par

var_lambda <- -1/fit$hessian
Se <- sqrt(var_lambda)
Z <- abs(qnorm(0.025))
Ls <- lambda + Z *Se

Li <- lambda - Z *Se
cat(sprintf("El estimador es lambda = %5.3f con Se = %5.3f\n", lambda, Se))

cat(sprintf("Intervalo de confianza: (%5.3f, %5.3f)\n", Li, Ls))
Las únicas partes reseñables de este código, por su posible novedad, son el uso de la función
qnorm que proporciona el valor de la curva normal estándar asociada a una determinada proba-
bilidad, el comando cat que muestra un mensaje por pantalla y el uso de sprintf para construir
el mensaje que mostrará cat. Los argumentos %5.3f y \n pasados a sprintf tienen el siguiente
sentido, %5.3f indica la posición del mensaje donde insertar el valor de una variable real y el for-
mato en que se mostrará esta en cuanto a longitud y número de decimales, \n se denomina una
“secuencia de escape” que lo que hace es insertar un salto de linea en el mensaje.
6.5. Ejercicios
Ejercicio 1 Obtenga la varianza del estimador de ω en una distribución exponencial.
Ejercicio 2 Obtenga la varianza del estimador de π en una distribución binomial.
Ejercicio 3 Obtenga la varianz del estimador de λ en una distribución de Poisson.
Ejercicio 4 Sea la distribución de Poisson:
λy
f (y | λ) = exp(−λ) .
y!
Se ha tomado una m.a.s. de tamaño cuatro, y se encuentra el resultado y = {4, 2, 6, 4}. Obtenga
el estimador máximo-verosimil, su varianza y el intervalo de confianza al 95 %.
Ejercicio 5 Sea la distribución exponencial (ω). En una muestra se ha encontrado y = {2,5, 1,5, 1,25, 0,75}.
Obtenga el estimador ω̂.
Obtenga el error tı́pico de ω̂.
Obtenga el intervalo de confianza al 99 %.
Ejercicio 6 Una variable sigue la distribución normal (µ, σ = 2). Un investigador desea realizar
una estimación por intervalos de µ, con un nivel de confianza del 99 % y una anchura del intervalo
de 0.5. ¿Cual debe ser el tamaño muestral del experimento?
Capı́tulo 7
Contraste de hipótesis
7.1. Conceptos fundamentales

Según hemos visto, la inferencia estadı́stica tiene dos aspectos fundamentales, la estimación de
parámetros y contraste de hipótesis. Mediante la estimación de parámetros asignamos un valor a
los parámetros desconocidos del modelo estadı́stico a partir de la información muestral. Mediante
el contraste de hipótesis se intenta comprobar si un valor concreto de los parámetros es compatible
con los datos observados.
Definición 11 (Hipótesis estadı́stica) Se denomina hipótesis estadı́stica, H, a un afirmación

acerca de la distribución de una variable aleatoria.
Definición 12 (Contraste de hipótesis) Se denomina contraste o test de hipótesis a un pro-

cedimiento para tomar una decision acerca de H.
En este capı́tulo vamos a ver contrastes en los que aparecen dos hipótesis: la hipótesis nula
(H0 ) es una hipótesis concreta (especifica exactamente el valor de uno o más parámetros) que se
somete a prueba. La hipótesis alternativa (H1 ) que recoge todos aquellos casos que no se incluyen
en la nula. A su vez, las hipótesis pueden ser simples o compuestas. Una hipótesis simple especifica
un valor único para el parámetro, por ejemplo H1 : ω = 110. Una hipótesis compuesta especifica
un rango de valores, por ejemplo H1 : ω > 110. En este curso únicamente veremos el caso de la
hipótesis nula simple.
Ejemplo 1 Supongamos que se toma una muestra x = (x1 , . . . , xn )0 de una distribución de Poisson
y se desea contrastar la hipótesis nula: H0 : λ = 5 frente a la alternativa H1 : λ > 5. En este caso
la hipótesis nula es simple y la alternativa es compuesta.
La decisión sobre las hipótesis se toma en función de los valores muestrales, que suelen resu-
mirse en un estadı́stico de contraste T (x ) que es aquella cantidad muestral que resulta relevante
71
72 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS
para obtener información acerca del parámetro a contrastar en la hipótesis nula. Por ejemplo, en
un contraste sobre una varianza con la hipótesis nula H0 : σ 2 = 15, el dato relevante es la va-
rianza muestral, T (x ) = S 2 . En concreto, un estadı́stico de contraste debe reunir las siguientes
condiciones.
Definición 13 (Estadı́stico de contraste) Un estadı́stico de contraste para la hipótesis H0 es

una función de los datos muestrales, T (x) que cumple dos condiciones:
1. La distribución de T (x) debe ser conocida, al menos, de modo aproximado.
2. Cuanto mayor sea la magnitud de T (x), más fuerte es la evidencia en contra de H0 .
El conjunto de posibles valores de la muestra para los cuales se rechaza la hipótesis nula se
denomina zona critica o de riesgo, y puede indicarse por el signo C. Se define C mediante el nivel
de significación:
Definición 14 (Nivel de significación) Se denomina nivel de significación o de riesgo, y se

indica por α, a la probabilidad de que el estadı́stico de contraste caiga en la zona crı́tica siendo H0
verdadera:
P (T (x) ∈ C; H0 ) = α ,
donde x es un vector de datos que representa la muestra. La probabilidad complementaria, 1 − α,

se denomina nivel de confianza y es la probabilidad de mantener H0 cuando es verdadera.
Una vez obtenido T (x ) existen distintas formas de saber si está en zona de rechazo y ası́ tomar
una decisión en el contraste. Una de ellas es calcular el nivel crı́tico, p, denominado en ocasiones
p − valor (del inglés (p − value).
Definición 15 (Nivel crı́tico) El nivel crı́tico es la probabilidad que hay desde el valor observado
de los datos en la muestra hacia la zona de rechazo:
P (T (x) hacia C; H0 ) = p.
Si p > α el estadı́stico T (x ) está fuera de C, por lo que se mantiene H0 . Si p ≤ α, el valor de T (x )

están dentro de C y se rechaza H0 . La forma en que se concreta el cálculo de p (el significado del
término “T (x ) hacia C”) depende de los detalles del contraste que se esté realizando.
Por último, es importante considerar cual los cuatro posibles resultados de un contraste de
hipótesis:
Definición 16 (Resulados del contraste) Los cuatro posibles resultados de un contraste de

hipótesis son:
1. Mantener la hipótesis nula cuando es verdadera. Su probabilidad se denomina nivel de con-

fianza 1 − α, y se define 1 − α = P (T (x) ∈
/ C; H0 ).
7.2. CONTRASTES BASADOS EN LOS ESTIMADORES MÁXIMO-VEROSÍMILES 73
2. Error de tipo I. Rechazar la hipótesis nula cuando es verdadera, su probabilidad es α = P (T (x) ∈ C; H0 ).
3. Error de tipo II. Mantener la hipótesis nula cuando es falsa, su probabilidad es β = P (T (x) ∈
/ C; H1 ).
4. Potencia. Rechazar la hipótesis nula cuando es falsa, su probabilidad es 1 − β = P (T (x) ∈ C; H1 ).
Cuando se realiza un contraste, el primer paso es fijar el nivel de significación α. Como α es

la probabilidad de llegar a una decisión incorrecta, suele fijarse a un valor bajo como 0, 01 o 0, 05.
A continuación, se busca la zona la zona crı́tica C como el conjunto de valores de T (x ) a los que
corresponde la probabilidad α. El valor de β, en cambio, no puede fijarse de antemano porque
depende de cual sea el valor verdadero del parámetro, que es desconocido.
7.2. Contrastes basados en los estimadores máximo-verosı́mi-

les
Según hemos visto, cuando conocemos la función de densidad o probabilidad de una variable,
f (x), podemos estimar sus parámetros utilizando el método de máxima-verosimilitud. Gracias a
que los estimadores máximo-verosı́miles tienen propiedades conocidas, podemos realizar contrastes
de hipótesis acerca del valor de los parámetros. Sabemos que el estimador máximo verosı́mil θ̂ tiene
media el valor verdadero del parámetro, θ, su varianza es 1/I(θ) y su distribución es aproxima-
damente normal en muestras grandes. Entonces, podemos tipificar el estimador para construir un
estadı́stico de contraste basado en la distribución normal. Supongamos que estamos realizando un
contraste con las siguientes hipótesis
H0 : θ = θ0
H1 : θ 6= θ0
Si H0 fuese verdadera, la distribución asintótica del estimador θ̂ serı́a normal con media θ0 y error
p
tı́pico Se = 1/ I(θ0 )). Entonces, el estadı́stico de contraste lo obtenemos tipificando el estimador:
θ̂ − θ0
Z=
Se
La distribución asintótica de Z es normal (0, 1).
Ejemplo 2 Hemos tomado una m.a.s. procedente de una distribución de normal con µ desconocida
y σ = 4. El resultado es x = (19, 14, 13, 18)0 , y pretendemos hacer un contraste con las siguientes
hipótesis:
H0 : µ ≤ 12
H1 : µ > 12
Utilizaremos el estadı́stico de contraste Z, que no es más que el estimador µ̂ tipificado. Según

hemos visto en capı́tulos anteriores, el estimador máximo-verosı́mil y su varianza son
µ̂ = X
σ2
V ar(µ̂) =
n
Para establecer la zona crı́tica fijaremos arbitrariamente un nivel de significación α = 0, 05. Como
es un contraste unilateral derecho, la zona crı́tica viene definida por los valores que están en la
cola derecha de la distribución de Z. El punto crı́tico a partir del cual comienza la zona crı́tica es
el valor de Z que deja a su derecha la probabilidad 0,05, es decir Zc = 1, 64. Rechazaremos H0 en
caso de que encontremos en la muestra un valor Z ≥ 1, 64.
Realizando los cálculos con los datos de nuestro ejemplo, encontramos que µ̂ = 16, V ar(µ̂) =
√
16/4 = 4 y Se = 4 = 2. Por tanto, el estadı́stico de contraste es
µ̂ − µ0 16 − 12
Z= = = 2.
Se 2
Como 2 > 1, 64 rechazamos H0 y concluimos que µ es mayor de 12.
Por completar el ejercicio e ilustrar algunos conceptos fundamentales del contraste de hipótesis,
vamos a realizar algunos cálculos adicionales. En primer lugar el nivel crı́tico, denominado p o
p − valor, que es la probabilidad asociada al estadı́stico de contraste. En nuestro ejemplo, al ser un
contraste unilateral derecho, el nivel crı́tico es:
p = P (Z ≥ 2) ≈ 0, 023.
El nivel crı́tico también nos permite tomar una decisión sobre H0 . Como p < α, rechazamos H0 .
Además podemos averiguar a partir de qué valor de µ̂ se hubiera rechazado H0 , es decir el
punto crı́tico en puntuación directa. Como hemos dicho que se rechaza con Z ≥ 1, 64, trasladando
el punto crı́tico a puntuaciones directas encontramos
µˆc − 12
1, 64 =
2
µˆc = 12 + 2 × 1, 64 = 15, 28.
Lo que significa que encontrar un valor de µ̂ mayor o igual a 15,28 es una evidencia suficientemente
fuerte como para poder rechazar H0 .
7.3. CONTRASTES BASADOS EN EL TEOREMA DEL LÍMITE CENTRAL 75
Vamos ahora a calcular la potencia. Supongamos que µ1 es el valor verdadero del parámetro µ.
Entonces, la potencia es
1 − β = P (µ̂ ≥ 15, 28; µ1 ).

Obviamente, para poder calcular 1 − β es necesario saber cuanto vale µ1 . Como µ1 es desconocido,
vamos entonces a calcular lo que se conoce como potencia observada, que es la potencia de un
contraste si el valor del parámetro fuese igual al valor estimado. Es decir
1 − β = P (µ̂ ≥ 15, 28; µ1 = 16).

Para calcular la probabilidad P (µ̂ ≥ 15, 28; µ1 = 16), es necesario tipificar:
15, 28 − 16
Z= = −0, 36,
2
y mirando en tablas de la normal encontramos que la potencia observada es
P (µ̂ ≥ 15, 28; µ1 = 16) = P (Z ≥ −0, 36) = 0, 64.

Finalmente, para completar el análisis de este problema, obtendremos lo que se conoce como
curva de potencia, que es una representación gráfica de la potencia del contraste, 1 − β, en función
del valor verdadero de µ. La figura 7.1 muestra el valor de la potencia para µ entre 12 y 20 con
distintos valores de n. El resultado más obvio es que la potencia aumenta cuando aumenta el tamaño
muestral y cuando aumenta la distancia entre la hipótesis nula y el valor verdadero del parámetro.
Este tipo de curvas resultan útiles en diseño de investigaciones para calcular cual deberı́a ser el
tamaño de una muestra para alcanzar una potencia determinada; de este modo es posible hacer
una planificación de cuantas observaciones va a ser necesario recoger en un experimento aleatorio.
7.3. Contrastes basados en el teorema del lı́mite central

El teorema del lı́mite central nos permite hacer contrastes de hipótesis aunque no conozcamos
la forma de la distribución de una variable, f (x)). Cómo este teorema nos dice que la distribución
de la media de una variable es aproximadamente normal en muestras grandes, basta con conocer
el valor esperado y la varianza de X para poder calcular la probabilidad asociada a la media
muestral. El proceso consiste en calcular E(X) y V ar(X) a partir del valor del parámetro, calcular
el estadı́stico de contraste Z tipificando X y buscar la probabilidad de Z en la tabla de la curva
normal(0, 1).
Ejemplo 3 Una variable aleatoria, X tiene como valor esperado y varianza
E(X) = 1/θ
V ar(X) = 1/θ2
Figura 7.1: Curvas de potencia
Queremos contrastar la hipótesis H0 : θ = 4 frente a H1 : θ 6= 4. Para ello tomamos una m.a.s.

de 16 observaciones en la que se ha encontrado X = 0, 2, y vamos a utilizar un nivel de riesgo
α = 0, 01.
Si H0 fuese verdadera, el valor esperado y la varianza de X serı́an
E(X) = 0, 25
V ar(X) = 0, 0625
El estadı́stico de contraste lo obtenemos tipificando la media muestral de acuerdo con el teorema

del lı́mite central
√
n(X − E(X))
Z = p
V ar(X)
√
16(0, 2 − 0, 25)
= √
0, 0625
= −0, 8.
Calculamos el nivel crı́tico

p = P (Z ≤ −0, 8) = 0, 21.
Al ser un contraste bilateral comparamos el nivel crı́tico con α/2. Como 0, 21 > α/2 = 0, 005
mantenemos H0 y no podemos concluir que E(X) sea distinto de 0,25, es decir no podemos rechazar
la hipótesis nula.
7.4. Prácticas en R
Los ejercicios sobre contraste de hipótesis podemos replicarlos en R utilizado las funciones
vistas en el capı́tulo 3 para obtener las probabilidades asociadas a cada distribución, y a la inversa,
para conocer el valor de la variable asociado a una determinada probabilidad. Vamos a replicar el
cálculo de la potencia en el ejemplo del apartado 7.2. Los datos de entrada son los valores n = 4,
µ0 = 12, µ1 = 16, σ = 4 y α = 0, 05. El siguiente código R calcula el primer lugar el punto crı́tico,
es decir el valor de Z asociado a α, después lo convierte a puntuación directa, y por último busca
la probabilidad del punto critico en puntiación directa bajo la distribución de H1 .
n <- 4
mu_0 <- 12
mu_1 <- 16
sigma <- 4
alpha <- 0.05
Zc <- qnorm(alpha, lower.tail=FALSE) # Punto crı́tico en puntuación tı́pica

Xc <- mu_0 + Zc*sigma/sqrt(n) # Punto crı́tico en puntuación directa
# Probabilidad a la derecha del punto crı́tico en la distribución de H1

potencia <- pnorm(Xc, mu_1, sigma/sqrt(n), lower.tail=FALSE)
print(sprintf("El punto critico es %6.3f, Zc = %6.3f. La potencia vale %5.3f",

Xc, Zc, potencia))
7.5. Ejercicios
Ejercicio 1 Supongamos que se toma la siguiente muestra de una distribución normal (µ, 2):
x = (30, 33, 26, 29)0 .
Contraste la hipótesis H0 : µ = 32 frente a H1 : µ 6= 32.

Obtenga el estimador por intervalos de µ con un nivel de confianza de 0,99.
Calcule la potencia si el verdadero valor de µ es 34.
Ejercicio 2 Se ha tomado la siguiente muestra de una distribución de Poisson:
x = (8, 7, 11, 2)0 .
Contraste la hipótesis H0 : λ = 5.
Ejercicio 3 Se ha tomado la siguiente muestra de una distribución exponencial:
x = (2, 6, 5, 3)0 .
1. Obtenga el estimador máximo-verosı́mil de ω y su varianza.
2. Contraste la hipótesis H0 : ω ≥ 0,1 frente a H1 : ω < 0, 3.
Ejercicio 4 Se va a realizar el siguiente contraste en una distribución exponencial:
H0 : ω ≥ 0, 3
H1 : ω < 0, 3
Además se utilizará la siguiente regla de decisión: rechazar H0 si ω̂ ≤ 0, 2, mantener H0 en caso

contrario.
1. Obtenga el estimador máximo-verosı́mil de ω y su varianza.
2. Calcule α y 1 − β siendo ω = 0, 1 y n = 4.
Parte III
Apendice
79
Apéndice sobre análisis
matemático
Para seguir el curso de Fundamentos de Estadı́stica Teórica se requiere utilizar los conceptos de
análisis matemático que se estudian en el bachillerato. En este apéndice se describen brevemente
aquellos contenidos que más se utilizan en el curso.
1. Funciones
Una función real de variable real es una aplicación que asigna a cada elemento de un subconjunto
D ⊂ R, denominado dominio de la función, un elemento de R:
f :D→R
Ejemplo 1 Sea la función raı́z cuadrada
√
f (x) = x.
El dominio de la función son los números reales no negativos, dado que f (x) no está definida para
valores reales menores que cero.
A continuación se estudian tres tipos de funciones. Las polinómicas porque su sencillez las
hace útiles para repasar conceptos de cálculo diferencial. La exponencial y logarı́tmica por su
importancia para la estadı́stica.
1.1. Polinomios
Una función f : R → R se llama polinomio cuando viene dada por:
f (x) = a0 + a1 x + a2 x2 + · · · + an xn ,
siendo a1 , a2 , . . . , an los coeficientes del polinomio y n un número natural llamado grado del poli-
nomio.
81
82
Ejemplo 2 Sean los polinomios:
f (x) = 2 + 3x ,
g(x) = 2 + 3x + 4x2 .
Su representación gráfica puede verse en la figura 7.2, la función f (x) se denomina función
lineal, y g(x) se denomina función cuadrática porque el grado del polinomio es 2.
Figura 7.2: Polinomios
1.2. Función exponencial

La función exponencial toma como base el número e = 2,7182... La función es:
exp(x) = ex .
Algunas propiedades importantes de la función exponencial son:
1. exp(0) = 1 .
2. exp(x + y) = exp(x) exp(y) .
3. exp(−x) = 1/ exp(x) .
4. exp(x)n = exp(nx) .
5. lı́mx−>∞ exp(x) = ∞ .
6. lı́mx−>−∞ exp(x) = 0 .
Ejemplo 3 La figura 7.3 muestra la representación gráfica de tres funciones exponenciales:

83
f (x) = exp(x)
g(x) = exp(2x)
h(x) = 2 exp(2x)
Figura 7.3: Funciones exponenciales
La segunda propiedad de la función exponencial se utiliza con gran frecuencia en estadı́stica,

cuando se busca la probabilidad de una intersección de sucesos independientes. Supongamos que
f (Sx ) = exp(x) es la probabilidad de que ocurra un suceso Sx y f (Sy ) = exp(y) es la probabilidad
asignada a un suceso Sy . Entonces la probabilidad de que ocurran ambos simultáneamente es
f (Sx ∩ Sy ) = exp(x) exp(y)

= exp(x + y).
1.3. Función logaritmo

El logaritmo es la inversa de la exponencial. Si ex = y entonces el logaritmo en base e de y es
loge y = x, lo cual suele escribirse del modo:
log(y) = x .
En la expresión log(y) se asume implı́citamente que la base es e, y se denomina logaritmo natural

o neperiano. Algunas propiedades importantes son:
1. log(1) = 0 .
84
2. log(xy) = log(x) + log(y) .
3. log(1/x) = − log(x) .
4. log(x)n = n log(x) .
5. lı́mx−>∞ log(x) = ∞ .
6. lı́mx−>0 log(x) = −∞ .
7. log exp(x) = x .
El logaritmo, log(y), no está definido para valores de y negativos porque no existe ningún
número x tal que ex < 0.
Ejemplo 4 La figura 7.4 muestra las funciones
f (x) = log(x)
g(x) = log(2x)
h(x) = 2 log(2x)
Es importante apreciar en la figura 7.4 que cuando x → 0 el logaritmo log x → −∞, y que
log 1 = 0. Por tanto, al logaritmo de valores de x en el intervalo (0, 1] le corresponden valores en
el intervalo [−∞, 0). Esta propiedad será de utilidad en estadı́stica cuando tomemos el logaritmo
de funciones de probabilidad. Una función de probabilidad f (x) toma valores entre 0 y 1. Si f (x)
está próximo a 0 entonces log f (x) tomará un valor muy bajo que indica baja probabilidad. Si f (x)
está próximo a 1 entonces logf (x) será próximo a 0, lo que indica alta probabilidad.
Figura 7.4: Funciones logarı́tmicas
Una de las propiedades más importantes de la función logaritmo para la estadı́stica es que se
trata de una función monótona creciente, lo cual significa que si x > y entonces log x > log y. En
la estimación de parámetros de modelos estadı́sticos es necesario encontrar el valor de x que hace
85
máxima f (x); gracias a la propiedad de monotonı́a este valor también hace máxima la función
log f (x). En estadı́stica se utilizan funciones para las que la forma de log f (x) es más sencilla que
f (x). Por esta razón para encontrar el máximo de f (x) se busca el valor que maximiza log f (x) en
lugar de trabajar directamente con f (x).
Ejemplo 5 Supongamos que quisiéramos encontrar el valor de x que hace máxima la función
f (x) = exp(−0,5(x − 2)2 ).
Gracias a la propiedad de monotonı́a, resulta equivalente buscar el máximo de la siguiente función
g(x) = log f (x) = −0,5(x − 2)2 .
Como g(x) es más sencilla que f (x), al haberse eliminado la exponencial, resulta más sencillo
trabajar con ella para encontrar el máximo. La figura 7.5 muestra la representación gráfica de
las funciones f (x) y g(x). Puede verse que la forma de ambas no es igual, sin embargo, ambas
aumentan y disminuyen al mismo tiempo, por lo que el máximo se sitúa en el mismo punto: x = 2.
Figura 7.5: Monotonı́a de la función logaritmo
2. Cálculo diferencial
Se denomina derivada de la función f en el punto c al siguiente lı́mite, en caso de que exista y
sea finito:
86
f (x) − f (c)
lı́m .
x→c x−c
La derivada se indica por f 0 (x). Se interpreta como la pendiente de la recta tangente a f (x) en el
punto c. En el máximo y el mı́nimo de f (x) la pendiente de la tangente es 0. Esta propiedad se
utiliza en estadı́stica para buscar estimadores maximizando funciones.
Ejemplo 6 La figura 7.6 muestra la función
f (x) = 1 + 4(x − 5)2 + 6(x − 5)3
y la recta tangente en varios puntos. Podemos apreciar como una recta tangente plana, es decir
con pendiente cero, indica un máximo o un mı́nimo.
Figura 7.6: Tangentes a una curva
Ejemplo 7 Sea la función:
f (x) = x2 ,
su derivada en el punto c es:
f (x) − f (c)
f 0 (x) = lı́m
x→c x−c
x2 − c2
= lı́m
x→c x − c
(x + c)(x − c)
= lı́m
x→c x−c
= lı́m (x + c)
x→c
= 2c .
Como f 0 es constante no hay ningún valor de x que haga que f 0 (x) = 0, por lo que no hay máximos
ni mı́nimos.
87
2.1. Reglas de derivación

En la práctica, la derivada de una función no suele obtenerse aplicando la definición. En su
lugar, se emplean las reglas de derivación, que son el resultado de aplicar la definición de derivada
a las funciones elementales. Algunas reglas de derivación son:
1. Si f (x) = c, entonces f 0 (x) = 0 .
2. Si f (x) = x, entonces f 0 (x) = 1 .
3. Si f (x) = axb , entonces f 0 (x) = abxb−1 .
4. Si f (x) = exp(bx), entonces f 0 (x) = b exp0 (bx) .
5. Si f (x) = log(x), entonces f 0 (x) = 1

x .
6. Si f (x) = g(x)h(x), entonces f 0 (x) = g 0 (x)h(x) + g(x)h0 (x) .
7. Si
g(x)
f (x) = ,
h(x)
entonces
g 0 (x)h(x) − h(x)g 0 (x)

f 0 (x) =
h2 (x)
Ejemplo 8 . Sea la función polinómica
f (x) = x3 + 4x2 + 5x + 6 .
Su derivada primera es:
f 0 (x) = 3x2 + 8x + 5 ,
La segunda y tercera derivadas de f (x) son
f (2) (x) = 6x + 8,
f (3) (x) = 6.
88
2.2. Regla de la cadena

La regla de la cadena se utiliza para derivar funciones compuestas, es decir, funciones que
pueden escribirse del modo h(x) = f (g((x)), siendo f y g otras funciones. La derivada de una
función compuesta se calcula del modo:
h0 (x) = f 0 (g(x))g 0 (x) .
Ejemplo 9 Sea la función
h(x) = (x3 − 2)2 .
Dicha función puede entenderse como una función compuesta por las siguientes
f (y) = y2 ,
g(x) = x3 − 2 ,
dado que f (g(x)) = (x3 − 2)2 . Por tanto
f 0 (y) = 2y ,
g 0 (x) = 3x2 .
Teniendo en cuenta que f 0 (g(x)) = 2(x3 − 2), al aplicar la regla de la cadena se obtiene
h0 (x) = 2(x3 − 2)3x2 .
Ejemplo 10 Sean las funciones:
f (y) = exp(y) ,
g(x) = x3 .
La derivada de cada función es:
f 0 (y) = exp(y) ,
g 0 (x) = 3x2 .
La derivada de la función compuesta h(x) = f (g((x)) = exp(x3 ) es
h0 (x) = f 0 (g(x))g 0 (x)

= exp(x3 )3x2 .
89
La regla de la cadena da origen a la denominada derivación logarı́tmica, que se aplica cuando

es complejo obtener la derivada de una función pero la derivada de su logaritmo es más sencilla.
Sea la función:
h(x) = log f (x) .
Entonces, por la regla de la cadena puede demostrarse que
f 0 (x)
h0 (x) = .
f (x)
De donde se deduce la regla de derivación logarı́tmica:
f 0 (x) = f (x)h0 (x)

= f (x)(log f (x))0 .
Ejemplo 11 Obtenga la derivada de la función
f (x) = (x + 1)(x − 1)
Tomamos el logaritmo
log f (x) = log(x + 1) + log(x − 1),
y derivamos
1 1
(log f (x))0 = + .
x+1 x−1
Juntando todos los términos se encuentra el resultado
f 0 (x) = f (x)(log f (x))0

1 1
= (x + 1)(x − 1) +
x+1 x−1
= (x − 1) + (x + 1)
= 2x.
Ejemplo 12 Obtenga la derivada de:
f (x) = exp(x3 )x2 .
Su logaritmo es:
90
log f (x) = log[exp(x3 )x2 ]

= log[exp(x3 )] + log x2 (por la segunda propiedad de los logaritmos)
3
= x + 2 log(x) .
En consecuencia
0 2
(log f (x)) = 3x2 + .
x
Aplicando la regla de la derivación logarı́tmica:
f 0 (x) = f (x)(log f (x))0

3 2 2 2
= exp(x )x 3x +
x
= 3x4 exp(x3 ) + 2x exp(x3 ) .
Puede advertirse que la solución a este ejemplo también podı́a haberse obtenido mediante la sexta
regla de derivación, en lugar de emplear derivación logarı́tmica:
f 0 (x) = (exp(x3 ))0 x2 + exp(x3 )(x2 )0

= 3x4 exp(x3 ) + 2x exp(x3 ) .
3. Estudio de una función derivable

Utilizando las derivadas de una función, f , es posible determinar en qué puntos alcanza un
valor máximo, un mı́nimo y en qué intervalos es cóncava o convexa; se dice que una función tiene
un extremo en x0 si en dicho punto alcanza un máximo o un mı́nimo. Estas propiedades serán de
utilidad en la estimación de parámetros de modelos estadı́sticos:
Creciente. Una función es creciente en x0 si f 0 (x0 ) ≥ 0.
Decreciente. Una función es decreciente en x0 si f 0 (x0 ) ≤ 0.
La f alcanza un extremo en x0 si es derivable en x0 y f 0 (x0 ) = 0.
Para saber si un extremo es un máximo o un mı́nimo se utiliza el criterio de la segunda derivada.

Supongamos que f 0 (x0 ) = 0 entonces:
Si f 00 (x0 ) > 0 entonces f posee en x0 un mı́nimo local.
Si f 00 (x0 ) < 0 entonces f posee en x0 un máximo local.

91
Además, las funciones reales se estudian no sólo en puntos concretos de su dominio sino en
intervalos del mismo. Supongamos que una función, f (x), está definida en un intervalo x ∈ (a, b).
Entonces
Si f 00 (x) > 0 para todo x ∈ (a, b) entonces f es convexa en (a, b).
Si f 00 (x) < 0 para todo x ∈ (a, b) entonces f es cóncava en (a, b).
Ejemplo 13 Vamos a buscar los máximo y mı́nimos de la función
f (x) = 1 + 4(x − 5)2 + 6(x − 5)3
cuya representación gráfica se ha visto en la figura 7.6. La derivada de f (x) con respecto a x es
f 0 (x) = 8(x − 5) + 18(x − 5)2

= (x − 5)[8 + 18(x − 5)]
La derivada, f 0 (x), toma el valor cero cuando se cumple una de las dos condiciones
(x − 5)2 = 0
8 + 18(x − 5) = 0
Con respecto a la primera condición, (x − 5)2 = 0 cuando x = 5. Con respecto a la segunda

condición tenemos que 8 + 18(x − 5) = 18x − 82 = 0, por lo que x = 82/18 ≈ 4, 56. En cada uno de
estos puntos la función tiene un extremo (máximo o mı́nimo) o un punto de inflexión. Para saber
de qué tipo de punto se trata es necesario utilizar la segunda derivada:
f 00 (x) = 8 + 36(x − 5)
El valor de la segunda derivada nos informa del comportamiento de f (x) en cada uno de los puntos:
1. Cuando x = 5 la segunda derivada es f 00 (5) = 8 > 0, luego f tiene un mı́nimo en este punto.
2. Cuando x = 82/18 la segunda derivada es f 00 (82/18) = −8 < 0; luego f tiene un mı́nimo en

este punto.
Ejemplo 14 Consideremos la función f (x) = −x4 +2x2 . Sus derivadas de primer y segundo orden
son
92
f 0 (x) = −4x3 + 4x .
f 00 (x) = −12x2 + 4 .
Vamos a buscar los extremos de f utilizando su primera derivada, que se puede escribir:
f 0 (x) = x(−4x2 + 4) .
Obviamente f 0 = 0 cuando x = 0. Además, f 0 = 0 cuando 4x2 = 4, lo cual se cumple cuando

x = 1 o x = −1. Por tanto, hay que determinar el comportamiento de la función en los puntos
-1, 0 y 1, para lo cual empleamos la segunda derivada. El valor de f 00 en los puntos -1, 0 y 1 es
respectivamente -8, 4 y -8, lo que significa que en 0 la función tiene un mı́nimo en 0 y tiene un
máximo en -1 y 1.
Podemos completar el estudio de la función analizando su concavidad y convexidad. La ecuación
f = 0 se resuelve para los valores -0.577 y 0.577. Para valores de x entre -0.577 y 0.577 f 00 > 0
00
por lo que f es convexa. Para valores de x fuera de este intervalo f 00 < 0 y la función es cóncava.
La figura 7.7 muestra el gráfico de f , f 0 y f 00 .
Figura 7.7: Funciones f , f 0 y f 00
4. Cálculo integral
El cálculo integral tiene dos aplicaciones primordiales en estadı́stica: calcular probabilidades
utilizando el área comprendida dentro de una función de distribución y calcular momentos (como
medias o varianzas) de una distribución. Para ello necesitamos los conceptos de integral indefinida
y definida.
93
4.1. Integral indefinida

Se denomina integral indefinida de f a una función F cuya derivada es f . La integral indefinida
se representa del modo:
Z
f (y)dy = F (x) + C ,
donde C es una constante arbitraria. A la función F se le denomina primitiva de f .
Integrales inmediatas
Las integrales más sencillas son aquellas que pueden resolverse sin más que utilizar una tabla
de primitivas. Supongamos que k es una constante y f y g son dos funciones de x. Algunas reglas
de integración sencillas son:
R R
kf (x) dx = k f (x) dx .
R R R
(f (x) + g(x)) dx = f (x) dx + g(x) dx .
q+1
x dx = xq+1 + C .
R q
exp(qx) dx = exp(qx)
R
q +C .
R 1
x dx = log x + C .
Ejemplo 15 Obtenga una primitiva de la función
x5
f (x) = 1 + 2x + 3x2 + 4x3 + x4 + .
2
La integral indefinida es
x5
Z Z
f (x) dx = (1 + 2x + 3x2 + 4x3 + x4 + ) dx
2
x5 x6
= x + x2 + x3 + x4 + + +C .
5 12
x5 x6
Por lo que una primitiva es F (x) = x + x2 + x3 + x4 + 5 + 3 .
Ejemplo 16 Obtenga una primitiva de la función:
2
. f (x) =
x
Utilizando la quinta regla de integración y asumiendo que x es positivo:
F (x) = 2 log(x).
Se deja como ejercicio para el lector comprobar que F 0 (x) = f (x).

94
Ejemplo 17 Obtenga una primitiva de la función:
f (x) = exp(−2x).
Es una integral inmediata, utilizando la cuarta regla:
exp(−2x)
F (x) = .
−2
Se comprueba fácilmente que la derivada de F (x) es f (x):
−2 exp(−2x)
F 0 (x) = = exp(−2x).
−2
4.2. Integral definida

Imaginemos la curva determinada por la función y = 4 − x2 que aparece representada en la
figura 7.8 para valores de x entre -2 y 2. El problema es medir el área comprendida entre la curva
y el eje de abscisas, representada por una zona sombreada. En una función de distribución dicho
área debe ser 1.
Figura 7.8: Curva y = 4 − x2
El área de una curva puede aproximarse utilizando rectángulos. El área de un rectángulo de

dimensiones ab es a × b. Si se divide el eje de abscisas en varios puntos x1 , x2 , . . . , xn de modo que
la anchura entre ellos xk+1 − xk es constante, puede aproximarse el área de f (x) mediante la suma
del área de varios rectángulos inscritos en la función. La figura 7.9 muestra esta aproximación.
A medida que se reduce la base de los rectángulos y se incrementa el número de ellos, la suma
de las áreas de los rectángulos constituye una mejor aproximación al área de la curva. De modo
intuitivo, podemos entender la integral definida de una función f en el intervalo [a, b] como la suma
de las áreas de infinitos rectángulos incluidos en la figura. La integral definida se indica del modo
Z b
f (x) dx .
a
95
Figura 7.9: Aproximación al área mediante rectángulos
4.5. Relación entre derivación e integración

La relación entre derivación e integración viene dada por dos teoremas, denominados teoremas
fundamentales del cálculo. La primera de estas relaciones ya la hemos visto en la definición de
integral indefinida y está recogida en el primer teorema:
Teorema 3 (Primer teorema fundamental del cálculo) . Si f (x) es una función integrable
en [a, b] y continua en el punto x ∈ [a, b], entonces la integral indefinida F (x) es derivable en x y
además F 0 (x) = f (x).
El segundo teorema nos dice cómo obtener el área comprendida por una función f (x) entre
dos puntos a y b. Simplemente debemos calcular la primitiva F (x) y el área será la diferencia
F (b) − F (a). En concreto:
Teorema 4 (Segundo teorema fundamental del cálculo) . Sea f (x) es una función integra-
ble en [a, b] y supongamos que F (x) es una primitiva suya, entonces:
Z b
b
f (x)dx = [F (x)]a
a
= F (b) − F (a) ,
para todo x ∈ [a, b].
b b
Los sı́mbolos [F (x)]a y F (x)|a se utilizan con frecuencia en el contexto de la integral definida
para representar la diferencia entre los valores de F en b y a. Es decir
b
[F (x)]a = F (b) − F (a)
b
F (x)|a = F (b) − F (a)
96
Ejemplo 18 Vamos a obtener el área comprendida bajo la curva mostrada en la figura 7.8. Dicha
curva está definida por la función:
f (x) = 4 − x2 .
Además, la curva corta el eje de abscisas (es decir, f (x) = 0) en los puntos x = −2 y x = 2. Por
tanto, el área viene dada por la integral definida
Z 2
(4 − x2 ) dx .
−2
Para resolver el problema, obtenemos en primer lugar una primitiva de f (x):
x3
Z
(4 − x2 ) dx = 4x − + C,
3
x3
con lo que F (x) = 4x − 3 . El área pedida es el resultado del cálculo:
Z 2
(4 − x2 ) dx = F (2) − F (−2),
−2
es decir
2 2
x3
Z
2
(4 − x ) dx = 4x −
−2 3 −2
23 (−2)3

= 4(2) − − 4(−2) −
3 3

8
= 16 − 2
3
32
= .
3
Ejemplo 19 Vamos a obtener el área comprendida por la función
f (x) = x4
entre los puntos -1 y 1. La integral indefinida es
x5
Z
x4 dx = + C.
5
x5
Entonces, dada una primitiva F (x) = 5 , la integral definida es:
97
Z 1
x4 dx = F (1) − F (−1)
−1
1
x5
=
5 −1
15 −15
= −
5 5
2
= .
5
Ejemplo 20 Sea la función f (x) = 2 + 3x2 , obtenga f 0 (x) y la integral indefinida f 0 (x) dx.
R
La derivada de f (x) es:
f 0 (x) = 6x .
Integrando esta derivada se obtiene la integral indefinida:

Z
6x dx = 3x2 + C.
Por lo que una primitiva es F (x) = 3x2 .
6. Vectores y operaciones con vectores

Un vector es una ordenación de n objetos; en estadı́stica suelen utilizarse para representar una
muestra de datos. El objeto en la posición i se indica mediante el sı́mbolo xi , mientras que el vector
se indica del modo x , es decir, la misma letra en negrilla. Por ejemplo, un vector de tres objetos es
 
x1
x =  x2 
 
x3
De modo general, un vector de n observaciones tiene la forma
 
x1
x2
 
 
x =
 .. 

 . 
xn
0
Si no se indica lo contrario, un vector se coloca en forma de columna de elementos. El sı́mbolo
indica la operación de trasponer un vector, convirtiendo ası́ un vector columna en vector fila:
x = (x1 , . . . xn )0
98
6.1. Sumatorio y producto de vectores

Dos operaciones elementales sobre vectores son la suma y producto de sus elementos:
El sı́mbolo Σ indica la suma de los elementos de un vector. Si es necesario hacer explı́cito

qué elementos se están sumando, se utilizan subı́ndices. Por ejemplo:
n
X
xi = x1 + · · · + xn ,
i=1
3
X
xi = x1 + x2 + x3 ,
i=1
4
X
xi = x2 + x3 + x4 ,
i=2
3
X
xi = x1 + x3 ,
i=1
i6=2
5
X
xi = x1 + x3 + x5 ,
i=1
i impar
X
xi = x1 + · · · + xn .
i
Q
El sı́mbolo del producto ( ) es similar al del sumatorio, pero indica el producto de los
elementos del vector en lugar de la suma:
n
Y
= x1 x2 . . . xn .
i=1
6.2 Función exponencial y logaritmo

P Q
En el campo de la estadı́stica, los sı́mbolos y aparecen con mucha frecuencia en el cálculo
de funciones de probabilidad en las que intervienen las funciones exponencial y logaritmo. Según
hemos visto, una de las propiedades de la función exponencial es:
exp(x1 ) exp(x2 ) = exp(x1 + x2 ) .
De igual modo, para un vector de tres observaciones tenemos que
exp(x1 ) exp(x2 ) exp(x3 ) = exp(x1 + x2 + x3 )
y generalizando para un vector de n observaciones

99
n n
!
Y X
exp(xi ) = exp xi .
i=1 i=1
Por otra parte, supongamos que x = (x1 , . . . , xn )0 es un vector y se define la función
n
Y
f (x ) = exp(xi ) ,
i=1
entonces, la función logaritmo de f toma la forma
n
! n
X X
log f (x ) = log exp xi = xi ,
i=1 i=1
Con estas transformaciones, a partir de la función f (x ) que tenı́a una forma relativamente compli-
cada -el producto de n términos- se ha obtenido una función mucho más sencilla (log f (x )). Este
tipo de transformaciones aparecen continuamente el el campo de la estadı́stica.
Ejemplo 21 Supongamos que en un estudio estadı́stico hemos encontrado la muestra x = (x1 , x2 , x3 )0

y la siguiente función indica la probabilidad de encontrar un resultado x
g(x, ω) = exp((x − ω)2 ) ,
donde ω es un parámetro que describe la población de la que proceden estas observaciones. Vamos
a realizar algunas transformaciones sobre g(x, ω) que son comunes en estadı́stica. En primer lugar,
el producto de las tres funciones de probabilidad g(x1 , ω), g(x2 , ω) y g(x3 , ω) es
3
Y
f (x, ω) = g(xi , ω)
i=1
3
Y
= exp((xi − ω)2 )
i=1
3
X
= exp( (xi − ω)2 ).
i=1
Tomamos el logaritmo de f :
l(x, ω) = log f (x, ω)

3
X
= (xi − ω)2
i=1
Supongamos que la muestra concreta que hemos encontrado en nuestro estudio estadı́stico es x =
(1, 2, 3)0 , entonces
100
f (x, ω) = exp((1 − ω)2 + (2 − ω)2 + (3 − ω)2 )

l(x, ω) = (1 − ω)2 + (2 − ω)2 + (3 − ω)2
cuya representación gráfica para distintos valores de ω aparece en la figura 7.10. Puede verse que
ambas alcanzan el valor mı́nimo en el mismo punto. Esto se debe a que la función logaritmo es
monótona, por lo que cuando f (x, ω) aumenta también lo hace l(x, ω), al igual que cuando f (x, ω)
disminuye también disminuye l(x, ω). Por tanto, para buscar el valor de ω que maximiza f (x, ω)
basta buscar el que maximiza l(x, ω), que es una función más sencilla y cómoda de manejar.
Figura 7.10: Funciones f y l
Para buscar exactamente el mı́nimo de l(x, ω) tomamos su primera derivada con respecto a ω:
l0 (x, ω) = −2(1 − ω) − 2(2 − ω) − 2(3 − ω) = −12 + 6ω.

Igualamos la primera derivada a cero y despejamos ω:
−12 + 6ω = 0
ω = 2
Por tanto el mı́nimo de l(x, ω) se encuentra en ω = 2. Podemos comprobar que, efectivamente, el

el mı́nimo de una función la segunda derivada es positiva. Derivando de nuevo:
101
l00 (x, ω) = 6.
Por lo que l00 (x, ω) > 0 en el punto ω = 2, según vimos en el apartado del estudio local de una
función.
Ejercicios del suplemento de análisis matemático

Ejercicio 1 . Obtenega la derivada de las siguientes funciones:
f (x) = 2x3 + 4x2 − x + 1
f (x) = log(5x2 + 3)
f (x) = exp(5x2 + 3)
f (x) + g(x), siendo f (x) = log(2x5 ) y g(x) = log(x−3 )
f (x).g(x), siendo f (x) = exp(2x5 ) y g(x) = exp(x−5 + x2 )
Ejercicio 2 Sea la función:
f (x) = x2 + x + 1 .
Calcule la integral:
Z 1
f (x) dx.
−1
f (x) = x2 + ax + b .
Calcule la integral:
Z 1
f (x) dx.
−1
Ejercicio 4 . Obtener los máximos, mı́nimos y puntos de concavidad y convexidad de las funcio-
nes:
f (x) = exp(−x2 )
f (x) = x3 − x
Ejercicio 5 . Obtenga una primitiva de las funciones:
3x2 −6x
f (x) = x3 −3x2
102
f (x) = 6x exp(3x2 )
Ejercicio 6 . Obtenga las integrales:

R0
−∞
exp(x) dx
1
R6 2
36 0 (−x + 6x) dx
Ejercicio 7 . Encuentre el valor de x que maximiza la función:
f (x) = exp(−(x − 3)2 ).
Ejercicio 8 Obtenga la derivada y el valor de x que maximiza la función:
exp(x)
f (x) = .
1 + exp(x)
Ejercicio 9 Dadas las funciones:

1
f (x) = exp − (x − 2)2 ,
2
g(x) = log f (x) .
Responder a las siguientes cuestiones:
1. Obtenga la primera derivada de f (x) y g(x).
2. Obtenga la segunda derivada de f (x) y g(x).
3. Busque el máximo de f (x) y g(x).
f (x) = x(1 − x) .
donde 0 ≤ x ≤ 1. Responda a las siguientes cuestiones:
1. Obtenga log f (x).
2. Obtenga la primera derivada de log f (x) con respecto a x.
3. Busque el valor de x que maximiza log f (x).
f (x) = xa (1 − x)b .
donde 0 ≤ x ≤ 1. Responda a las siguientes cuestiones:

103
1. Obtenga log f (x).
2. Obtenga la primera derivada de log f (x) con respecto a x.
3. Busque el valor de x que maximiza log f (x).
Ejercicio 12 Dada la función:
f (x) = exp(λx) .
Obtenga la integral:
Z 0
h(x)dx .
−∞
f (x) = (x2 + 4x)(x3 − x5 ) exp(−x4 ) .
Obtenga f 0 (x) mediante derivación logarı́tmica.
Ejercicio 14 Obtenga la derivada de
f (x) = x3
utilizando la definición de derivada como un lı́mite.

Apuntes Estadistica Teorica PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apuntes Estadistica Teorica PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Fundamentos de Estadı́stica Teórica

3.3.4. Distribuciones incluidas en R . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4. Teorı́a de muestras grandes 45

5. Estimación por máxima-verosimilitud 53

6. Propiedades asintóticas de los estimadores máximo-verosı́miles 61

Aleatorias. Se caracterizan porque realizan predicciones con incertidumbre asociada. Son

1.1. Espacio muestral y sucesos

Definición 2 (Espacio muestral) El conjunto de todos los posibles resultados de un experimento

Ω = {De acuerdo, Neutral, En desacuerdo}

Ejemplo 5 Continuando con el ejemplo 2, supongamos que el tiempo de respuesta se mide en

2. Intersección de sucesos. Dados dos sucesos A y B, el suceso intersección, A ∩ B, es el suceso

3. Negación o complementación de sucesos. Dado un suceso A, el suceso contrario, A, se realiza

Ω = {AA, AN, AD,

El conjunto C = A1 ∪ A2 ; significa estar de acuerdo con el primer ı́tem o estarlo con el

C = {AA, AN, N A, AD, DA}

El conjunto D = A1 ∩ A2 significa estar de acuerdo con el primer ı́tem y también con el

Utilizando las leyes de composición se forma el denominado espacio de sucesos A. El espacio

∅, {c}, {x} y {c, x}

Ejemplo 9 Supongamos que se lanza un dado. El espacio muestra es

Algunos sucesos compuestos son:

Obtener menos de tres: A = {1, 2}.

Obtener par: B = {2, 4, 6}

Obtener un múltiplo de tres: C = {3, 6}

El suceso “obtener un número par y múltiplo de tres” se define

1. Probabilidad clásica. Se define la probabilidad como el cociente entre el número de casos

3. Probabilidad subjetiva. La probabilidad no se concibe como una propiedad del experimento

1. P (A) ≥ 0 para todo suceso A.

Estas propiedades constituyen la definición axiomática de probabilidad, de la cual se derivan

1. La probabilidad del suceso A, contrario del suceso A, es:

2. La probabilidad del suceso imposible es cero:

3. Si A ⊂ B (A está incluido o es un subconjunto de B), entonces P (A) ≤ P (B).

4. Ley de la suma. Dados dos sucesos cualesquiera, la probabilidad de su unión es:

Ejemplo 10 Continuando con el ejemplo 9 sobre el lanzamiento de un dado, supongamos que la

Obtener menos de tres: P (A) = P ({1, 2}) = 2/6.

Obtener par: P (B) = P ({2, 4, 6}) = 3/6

Obtener un múltiplo de tres: P (C) = P ({3, 6}) = 2/6

Obtener un número par y múltiplo de tres: P (B ∩ C) = P ({6}) = 1/6

La probabilidad de dicho suceso se obtiene por la regla del producto:

1.3. Probabilidad condicionada e independencia

A partir de la expresión de la probabilidad condicionada, se obtiene la ley del producto, que

Ejemplo 14 Según se ha visto en el ejemplo 12, los sucesos A y B no son independientes.

La probabilidad de que gane el tercer jugador es P (G3 ) = 15/52.

La probabilidad de que ganen simultáneamente el segundo y tercer jugador es P (G2 ∩ G3 ) =

Por tanto, P (G3 | G2 ) 6= P (G3 ) y los sucesos G2 y G3 no son independientes.

1. Indicar el espacio muestral

2. Obtenga la probabilidad de acertar 0, 1 o 2 preguntas.

Ejercicio 2 Sean dos sucesos A y B. Sabiendo que P (A) = 0,5 y P (A ∪ B) = 0,6:

Indicar el valor de P (B) si A y B son excluyentes.

Indicar el valor de P (B) si A y B son independientes.

Ejercicio 3 Supongamos que un sujeto resuelve tres problemas. La probabilidad de resolver un

2. Obtenga la probabilidad de cada suceso en Ω.

3. Obtenga la probabilidad del suceso D ≡ “cometer un error en la última palabra”.

4. Obtenga la probabilidad del suceso F ≡ “obtener un solo acierto”.

Ejercicio 4 Se dispone de dos urnas con la siguiente composición:

Urna I: 2 bolas blancas y 3 bolas negras.

Urna II: 6 bolas blancas y 4 bolas negras.

1. Describir el espacio muestral Ω.

2. Sea A ≡ “obtener blanco”. Obtenga P (A).

3. Sea B ≡ “obtener X en el lanzamiento de la moneda”. ¿Cuanto vale P (B | A) y P (A ∪ B)?

2.1. Variable aleatoria y función de distribución

Ω = {Rojo, V erde, Azul, Amarillo}.

Ω = {Rojo, Amarillo, Verde}

Ejemplo 3 Supongamos que se define el experimento aleatorio consistente en observar el número

f1 <- function(x) {6x(1-x)}

xfx <- function(x) {6x^2(1-x)}