Você está na página 1de 109

Fundamentos de Estadı́stica Teórica

Javier Revuelta

2 de febrero de 2017
Índice general

I Teorı́a de la probabilidad

1. Introducción a la probabilidad 1
1.1. Espacio muestral y sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Probabilidad condicionada e independencia . . . . . . . . . . . . . . . . . . . . . . 7
1.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2. Variable aleatoria 11
2.1. Variable aleatoria y función de distribución . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2. Valores esperados y momentos de una distribución . . . . . . . . . . . . . . . . . . 18
2.3. Muestra aleatoria simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4. Prácticas en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.1. Representación gráfica de funciones . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.2. Maximización de funciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.3. Cálculo de los momentos de una distribución . . . . . . . . . . . . . . . . . 27
2.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3. Distribuciones 31
3.1. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.1. Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.1.2. Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2. Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.1. Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.2. Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3. Distribuciones en lenguaje R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.1. Función de densidad y función de distribución . . . . . . . . . . . . . . . . . 39
3.3.2. Función de distribución inversa . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.3. Simular datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
ÍNDICE GENERAL

3.3.4. Distribuciones incluidas en R . . . . . . . . . . . . . . . . . . . . . . . . . . 41


3.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4. Teorı́a de muestras grandes 45


4.1. Ley de los grandes números . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2. Teorema del lı́mite central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

II Inferencia estadı́stica 51

5. Estimación por máxima-verosimilitud 53


5.1. Función de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2. Estimación por máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3. Máxima verosimilitud en lenguaje R . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

6. Propiedades asintóticas de los estimadores máximo-verosı́miles 61


6.1. Media, varianza y distribución de los estimadores . . . . . . . . . . . . . . . . . . . 61
6.2. Información observada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.4. Cálculo de la varianza del estimador en lenguaje R . . . . . . . . . . . . . . . . . . 68
6.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

7. Contraste de hipótesis 71
7.1. Conceptos fundamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2. Contrastes basados en los estimadores máximo-verosı́miles . . . . . . . . . . . . . . 73
7.3. Contrastes basados en el teorema del lı́mite central . . . . . . . . . . . . . . . . . . 75
7.4. Prácticas en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
7.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

III Apendice 79
Parte I

Teorı́a de la probabilidad
Capı́tulo 1

Introducción a la probabilidad

Uno de los propósitos de la ciencia es enunciar leyes que expliquen el comportamiento de los
fenómenos del mundo real. En general, dichas leyes pueden clasificarse en dos tipos:

Determinı́sticas. Son aquellas que predicen con absoluta certeza. Son tı́picas de las ciencias
fı́sicas; por ejemplo, la relación entre la temperatura, el volumen y la presión de un gas.

Aleatorias. Se caracterizan porque realizan predicciones con incertidumbre asociada. Son


comunes en las ciencias sociales aunque también aparecen en fı́sica, biologı́a y otras ciencias.
Por ejemplo, el número de errores que una persona comete en una determinada tarea.

Este curso trata sobre los fundamentos de los modelos aleatorios con el objetivo de que el lector
pueda aplicarlos en ciencias sociales.

1.1. Espacio muestral y sucesos


Un experimento aleatorio es aquel cuyos resultados no pueden predecirse con absoluta certeza,
como el lanzamiento de una moneda o un dado. En el contexto de las ciencias sociales, una gran
parte de los procedimientos de recogida de datos pueden representarse como experimentos aleato-
rios. Por ejemplo, el resultado de la aplicación de un examen a un grupo de individuos, la cantidad
de dinero que una persona ahorra a lo largo de varios meses, el tiempo necesario para resolver una
tarea, el número de veces que se realiza una tarea en un periodo fijo de tiempo, etc.

Definición 1 (Suceso elemental) Cada uno de los posibles resultados de un experimento aleato-
rio se denomina suceso elemental. Los sucesos elementales se indican mediante letras mayúsculas:
A, B, etc.

Ejemplo 1 Se pide a un sujeto con dislexia que lea en alto cinco palabras. Un posible suceso es A =
{no cometer ningún error en la lectura}, otro suceso es B = {cometerunerrorenlaprimerapalabra},C
= {cometerunerrorenlasegundapalabra}, etc.

1
2 CAPÍTULO 1. INTRODUCCIÓN A LA PROBABILIDAD

Ejemplo 2 Como parte de un test de inteligencia, se pide a un sujeto que resuelva un rompecabezas
y no se fija tiempo lı́mite. Se mide el tiempo que tarda en completarlo. Un posible resultado es A =
{tardar 20 segundos}, otro serı́a B = {tardar 55 segundos}, etc. En este ejemplo, a diferencia del
anterior, el número de posibles resultados diferentes es infinito.

Definición 2 (Espacio muestral) El conjunto de todos los posibles resultados de un experimento


aleatorio se denomina espacio muestral y se designa por Ω.

La definición de Ω en un problema concreto depende de cual sean los aspectos que desean
analizarse. Una distinción básica es entre espacio muestral finito o infinito.

Ejemplo 3 Un sujeto responde al siguiente ı́tem perteneciente a una escala de actitudes: “Creo
que habrı́a que fomentar el uso del transporte público”. Las posibles respuestas son:

Ω = {De acuerdo, Neutral, En desacuerdo}

Ejemplo 4 Continuando con el ejemplo 1, el resultado de la lectura de cada palabra puede consi-
derarse en sı́ un experimento aleatorio con espacio muestral Ω = {E, A}. Si la lectura de las cinco
palabras se considera un único experimento aleatorio entonces el número de posibles resultados es
25 = 32 y el conjunto Ω es la colección de estos 32 resultados.

Ejemplo 5 Continuando con el ejemplo 2, supongamos que el tiempo de respuesta se mide en


segundos. El espacio muestral es:

Ω = {0, 1, 2, . . . }

Este serı́a un espacio muestral infinito numerable. Es decir, tiene infinitos elementos que pueden
contarse.

Ejemplo 6 Supongamos que en el ejemplo 2 el tiempo de respuesta se mide con absoluta precisión;
es decir, es una variable real. Como sucede a menudo, este caso es meramente teórico dado que en
la práctica es imposible disponer de dicho instrumento de medida, pero es útil formularlo ası́ para
simplificar el modelo matemático. El espacio muestral es:

Ω = {t; t ≥ 0}

Se trata de un espacio muestral infinito no numerable. Es decir, tiene infinitos elementos que,
por las propiedades de los números reales, no pueden contarse.

A partir de los sucesos elementales, es posible crear sucesos compuestos utilizando las siguientes
leyes de composición:

1. Unión de sucesos. Dados dos sucesos A y B, el suceso unión, A ∪ B, es el suceso que se realiza
cuando se realiza A o B.
1.1. ESPACIO MUESTRAL Y SUCESOS 3

2. Intersección de sucesos. Dados dos sucesos A y B, el suceso intersección, A ∩ B, es el suceso


que se realiza cuando se realizan A y B.

3. Negación o complementación de sucesos. Dado un suceso A, el suceso contrario, A, se realiza


si no se realiza A.

Ejemplo 7 Continuando con el ejemplo 3, supongamos que la escala de actitudes consta de dos
ı́tems con tres opciones de respuesta cada uno. El espacio muestral es el conjunto de todos los
posibles resultados:

Ω = {AA, AN, AD,


N A, N N, N D,
DA, DN, DD}
donde AA significa estar de acuerdo con el primer y con el segundo ı́tem, AN significa estar
de acuerdo con el primero y neutral en el segundo, etc.
A partir de Ω, es posible definir el subconjunto ‘Estar de acuerdo con el primer ı́tem’, cuyos
elementos son: A1 = {AA, AN, AD}. es decir, A1 está formado por aquellos resultados en los que
el sujeto está de acuerdo con el primer ı́tem, haga lo que haga en el segundo.
Del mismo modo, el subconjunto ‘Estar de acuerdo con el segundo ı́tem’ se define del modo:
A2 = {AA, N A, DA}
Algunos ejemplos de aplicación de las leyes de composición sobre estos subconjntos son los
siguientes:

El conjunto C = A1 ∪ A2 ; significa estar de acuerdo con el primer ı́tem o estarlo con el


segundo. Es decir:

C = {AA, AN, N A, AD, DA}

El conjunto D = A1 ∩ A2 significa estar de acuerdo con el primer ı́tem y también con el


segundo. Contiene los sucesos elementales que están contenidos simultaneamente en A1 y
A2 :

D = {AA}

El conjunto E = C significa no estar de acuerdo con alguno de los ı́tems. Contiene los
elementos:

E = {N N, N D, DN, DD}

Utilizando las leyes de composición se forma el denominado espacio de sucesos A. El espacio


de sucesos está compuesto por todos los subconjuntos del espacio muestral, incluyendo el conjunto
vacı́o o suceso imposible ∅ y el suceso seguro Ω.
4 CAPÍTULO 1. INTRODUCCIÓN A LA PROBABILIDAD

Ejemplo 8 Se define el experimento aleatorio consistente en lanzar una moneda. El espacio mues-
tral es Ω = {c, x}. A partir de este espacio muestral es posible definir los siguientes subconjuntos:

∅, {c}, {x} y {c, x}

Donde ∅ es el conjunto vacı́o que indica que no se verifica ningún resultado en el lanzamiento
de la moneda. {c, x} es el suceso seguro, equivalente al espacio muestral, que indica que en el
lanzamiento se obtiene cara o cruz, por lo que dicho suceso se verificará con cualquier resultado.

Se dice que dos sucesos son excluyentes si su intersección es el conjunto vacı́o; es decir si
A ∩ B = ∅.

Ejemplo 9 Supongamos que se lanza un dado. El espacio muestra es

Ω = {1, 2, 3, 4, 5, 6}

Algunos sucesos compuestos son:

Obtener menos de tres: A = {1, 2}.

Obtener par: B = {2, 4, 6}

Obtener un múltiplo de tres: C = {3, 6}

El suceso “obtener un número par y múltiplo de tres” se define

B ∩ C = {6}

Sin embargo, los sucesos A y C son excluyentes. Como ni existe ningún múltiplo de tres que
sea menor que tres, no tienen ningún elemento en común. Es decir, la intersección de A y C es el
conjunto vacı́o: A ∩ B = ∅.

1.2. Probabilidad
En un experimento aleatorio no es posible determinar con exactitud cual será el resultado.
Sin embargo, unos resultados suelen ser más verosı́miles que otros. Intuitivamente, la probabilidad
indica el grado de confianza en que ocurra cada suceso. Existen diferentes interpretaciones del
concepto de probabilidad que pretenden dar sentido a esta idea. Algunas de ellas son las siguientes:

1. Probabilidad clásica. Se define la probabilidad como el cociente entre el número de casos


favorables y el número total de casos, siempre que todos ellos sean igualmente posibles. Por
ejemplo, si se lanza un dado, la probabilidad de cada cara es 1/6. Según esta definición, la
probabilidad depende de la geometrı́a o las propiedades fı́sicas del objeto en cuestión.
1.2. PROBABILIDAD 5

2. Probabilidad frecuentista. Supongamos que se lanza un dado N veces en las mismas condi-
ciones y sale la cara c un número n de veces. La definición frecuentista de la probabilidad de
obtener el resultado c es:

n
P (c) = lı́m .
N →∞ N

A diferencia del enfoque clásico, basado en la construcción teórica del objeto en cuestión, la
probabilidad frecuentista se basa en un recuento de resultados si se realizara empı́ricamente el
procedimiento aleatorio un número indefinido de veces. Esto supone una ampliación concep-
tual del rango de aplicaciones de la probabilidad dado que existen fenómenos para los que no
puede determinarse la probabilidad al modo clásico pero sı́ empı́ricamente atendiendo a las
sucesivas repeticiones. Por ejemplo, si hablamos de la probabilidad de que en una centralita
telefónica se reciban diez llamadas en cinco minutos, no existe una geometrı́a involucrada a
partir de la cual calcular una probabilidad, pero es posible obtenerla empı́ricamente mediante
observaciones repetidas en sucesivos intervalos temporales.

3. Probabilidad subjetiva. La probabilidad no se concibe como una propiedad del experimento


sino como un grado de creencia personal que el individuo tiene acerca del resultado del mismo.
Esta definición se ha utilizado, por ejemplo, en economı́a cuando se trata de fenómenos que
no involucran un objeto fı́sico definido ni tampoco es posible repetir el fenómeno sucesivas
veces. Por ejemplo, si hablamos de la probabilidad de que la economı́a mejore el próximo
trimestre, dicho fenómeno se realizará solamente una vez y no cabe hablar de un recuento de
casos posibles y casos favorables.

Además de estas definiciones que dan un sentido conceptual a la probabilidad, esta se define
desde un punto de vista estrictamente matemático mediante los denominados axiomas de Kolmo-
gorov.

Definición 3 (Probabilidad) Una medida de probabilidad es una función P que asigna a cada
suceso un valor numérico en el intervalo [0, 1] y que cumpla las propiedades:

1. P (A) ≥ 0 para todo suceso A.

2. P (Ω) = 1 .
Pn
3. Si A1 , A2 , . . . , An es un conjunto de sucesos excluyentes, entonces P (∪ni=1 Ai ) = i=1 P (Ai ).

Estas propiedades constituyen la definición axiomática de probabilidad, de la cual se derivan


algunas consecuencias importantes:

1. La probabilidad del suceso A, contrario del suceso A, es:

P (A) = 1 − P (A)
6 CAPÍTULO 1. INTRODUCCIÓN A LA PROBABILIDAD

2. La probabilidad del suceso imposible es cero:

P (∅) = 0

3. Si A ⊂ B (A está incluido o es un subconjunto de B), entonces P (A) ≤ P (B).

4. Ley de la suma. Dados dos sucesos cualesquiera, la probabilidad de su unión es:

P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

Ejemplo 10 Continuando con el ejemplo 9 sobre el lanzamiento de un dado, supongamos que la


probabilidad de cada suceso elemental (cada cara del dado) es 1/6. Entonces, la probabilidad de los
sucesos compuestos definidos en dicho ejemplo es:

Obtener menos de tres: P (A) = P ({1, 2}) = 2/6.

Obtener par: P (B) = P ({2, 4, 6}) = 3/6

Obtener un múltiplo de tres: P (C) = P ({3, 6}) = 2/6

Obtener un número par y múltiplo de tres: P (B ∩ C) = P ({6}) = 1/6

Si se define un nuevo suceso “obtener un número par o un múltiplo de tres”, sus elementos
son:

D = B ∪ C = {2, 3, 4, 6}

La probabilidad de dicho suceso se obtiene por la regla del producto:

P (B ∪ C) = P (B) + P (C) − P (B ∩ C)
3 2 1
= + −
6 6 6
4
= .
6
Es fácil ver por qué esto es ası́. El elemento 6 está contenido tanto en B como en C. Por tanto,
al sumar P (B) + P (C) la probabilidad del valor 6 aparece dos veces: P (B) + P (C) = P ({2, 4, 6}) +
P ({3, 6}) = P ({2}) + P ({3}) + P ({4}) + 2P ({6}). Por eso es necesario restar P (B ∩ C) = P ({6})
para obtener el resultado correcto.

Ejemplo 11 En un casino tienen una ruleta con 52 números, los 26 primeros son rojos y el resto
negros. Un jugador apuesta a que sale negro y otro a que sale impar.

La probabilidad de que gane el primer jugador es: P (G1 ) = 26/52 = 1/2. La de que gane el
segundo es P (G2 ) = 1/2.
1.3. PROBABILIDAD CONDICIONADA E INDEPENDENCIA 7

Para que ganen ambos a la vez, tiene que salir un número negro e impar. La probabilidad de
que esto suceda es P (G1 ∩ G2 ) = 13/52.

De acuerdo con la ley de la suma, la probabilidad de que gane alguno de ellos es: P (G1 ∪G2 ) =
P (G1 ) + P (G2 ) − P (G1 ∩ G2 ) = 26/52 + 26/52 − 13/52 = 39/52.

1.3. Probabilidad condicionada e independencia


La probabilidad condicionada indica la probabilidad de que se de uno de los sucesos sabiendo
que se ha dado el otro. La probabilidad de que ocurra A sabiendo que se ha dado B se define:

P (A ∩ B)
P (A | B) = .
P (B)
La probabilidad condicionada puede verse como una reducción en el espacio muestral. La pro-
babilidad P (A) se define en el espacio muestral Ω. Si se toma un subconjunto de Ω y se define un
nuevo espacio muestral B, entonces P (A | B) indica la probabilidad de A en dicho subconjunto.

Ejemplo 12 Supongamos que A indica la probabilidad de obtener par al lanzar un dado. Como Ω
contiene los números del 1 al 6 entonces

3 1
= .
P (A) =
6 2
Si se define el suceso B ≡ “obtener tres o menos”, entonces el suceso A | B es la obtención
de un número par en el conjunto de elementos B = {1, 2, 3}. Con un cálculo inmediato se obtiene
P (A | B) = 1/3. Aplicando la fórmula de la probabilidad condicionada se llega necesariamente al
mismo resultado:

P (A ∩ B) 1/6 1
P (A | B) = = = .
P (B) 3/6 3
Por el contrario, el suceso B es la obtención de un valor superior a tres, y consta de los
elementos4, 5, 6. Entonces

P (A ∩ B) 2/6 2
P (A | B) = = = .
P (B) 3/6 3
Ejemplo 13 Continuando con el ejemplo 11, la probabilidad de que gane el segundo jugador una
apuesta sabiendo que la ha ganado el primero es:

P (G2 ∩ G1 )
P (G2 | G1 ) =
P (G1 )
13/52
=
26/52
1
= .
2
8 CAPÍTULO 1. INTRODUCCIÓN A LA PROBABILIDAD

A partir de la expresión de la probabilidad condicionada, se obtiene la ley del producto, que


indica cual es la probabilidad de que se den simultaneamente dos sucesos:

P (A ∩ B) = P (A | B)P (B).

En caso de que dos sucesos sean independientes, el saber que se ha dado uno no aporta ninguna
información para saber si se ha dado el otro. Matemáticamente esto se expresa como P (A | B) =
P (A); es decir, la probabilidad de que se de A sabiendo que se ha dado B es la misma que si no
sabemos nada acerca de B. De aquı́ se deduce que en caso de que A y B sean independientes:

P (A ∩ B) = P (A)P (B) .

Ejemplo 14 Según se ha visto en el ejemplo 12, los sucesos A y B no son independientes.


Esto se debe a que P (A), denominada probabilidad marginal de A, no es igual a su probabilidad
condicionada:

1
P (A) =
2
1
P (A | B) =
3
Por tanto, si conocemos que el resultado del lanzamiento es tres o menos, el suceso “obtener
par” se vuelve más inverosı́mil.

Ejemplo 15 En el caso de la ruleta, los dos sucesos mencionados en el ejemplo 11 son indepen-
dientes. Como se ha visto P (G2 | G1 ) = P (G2 ) = 1/2. Además, P (G2 ∩G1 ) = P (G1 )P (G2 ) = 1/4.
Continuando con el ejemplo, supongamos que un tercer jugador apuesta a que sale un número
primo, es decir, alguno de los siguientes: 2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43 y 47.

La probabilidad de que gane el tercer jugador es P (G3 ) = 15/52.

La probabilidad de que ganen simultáneamente el segundo y tercer jugador es P (G2 ∩ G3 ) =


14/52.

La probabilidad de que gane el tercer jugador sabiendo que ha ganado el segundo es:

P (G3 ∩ G2 )
P (G3 | G2 ) =
P (G2 )
14/52
=
26/52
7
= .
13

Por tanto, P (G3 | G2 ) 6= P (G3 ) y los sucesos G2 y G3 no son independientes.


1.4. EJERCICIOS 9

La probabilidad de que gane el segundo jugador sabiendo que ha ganado el tercero es:

P (G3 ∩ G2 )
P (G2 | G3 ) =
P (G3 )
14/52
=
15/52
14
= .
15

1.4. Ejercicios
Ejercicio 1 Un sujeto responde a dos preguntas de verdadero o falso. Asumiendo que la probabi-
lidad de acertar cada pregunta es π:

1. Indicar el espacio muestral

2. Obtenga la probabilidad de acertar 0, 1 o 2 preguntas.

Ejercicio 2 Sean dos sucesos A y B. Sabiendo que P (A) = 0,5 y P (A ∪ B) = 0,6:

Indicar el valor de P (B) si A y B son excluyentes.

Indicar el valor de P (B) si A y B son independientes.

Ejercicio 3 Supongamos que un sujeto resuelve tres problemas. La probabilidad de resolver un


problema correctamente es π.

1. Escriba el conjunto Ω.

2. Obtenga la probabilidad de cada suceso en Ω.

3. Obtenga la probabilidad del suceso D ≡ “cometer un error en la última palabra”.

4. Obtenga la probabilidad del suceso F ≡ “obtener un solo acierto”.

5. Obtenga la probabilidad P (D | F ).

Ejercicio 4 Se dispone de dos urnas con la siguiente composición:

Urna I: 2 bolas blancas y 3 bolas negras.

Urna II: 6 bolas blancas y 4 bolas negras.

Se realiza el experimento aleatorio consistente en lanzar una moneda. Si sale C se obtiene una
bola de la urna I, si sale X se obtiene una bola de la urna II.

1. Describir el espacio muestral Ω.


10 CAPÍTULO 1. INTRODUCCIÓN A LA PROBABILIDAD

2. Sea A ≡ “obtener blanco”. Obtenga P (A).

3. Sea B ≡ “obtener X en el lanzamiento de la moneda”. ¿Cuanto vale P (B | A) y P (A ∪ B)?

Ejercicio 5 Sea f (x) una función de densidad cuyo valor es constante. Si el rango de x es (0, 3/4),
R 3/4
¿cuanto debe valer f (x) para que su integral definida sea 1 (es decir, para que 0 f (x) dx = 1)?
Capı́tulo 2

Variable aleatoria

2.1. Variable aleatoria y función de distribución


Definición 4 (Variable aleatoria) Una variable aleatoria X es una función con dominio Ω y
recorrido la recta real.

De acuerdo con esta definición, una variable aleatoria asigna un número real a cada suceso
elemental del espacio muestral Ω. Esto permite estudiar dichas variables y establecer relaciones
entre ellas utilizando las técnicas del análisis matemático.
Para denominar a las variables aleatorias se utilizan letras latinas mayúsculas mientras que sus
posibles valores se indican por letras minúsculas. Por ejemplo X es una variable aleatoria y x uno
de sus posibles valores.

Ejemplo 1 Cuatro personas juegan al parchı́s. El color de la persona ganadora puede ser

Ω = {Rojo, V erde, Azul, Amarillo}.

Sobre este espacio muestral puede definirse la variable aleatoria X = 1, . . . , 4, que indica el
color ganador. Los valores de esta variable son meras etiquetas que indican los colores, pero no
tiene sentido realizar sobre ellos cálculos matemáticos como medias, etc. Se trata de una variable
nominal.

Ejemplo 2 Un conductor tiene que pasar por un semáforo y no sabe si lo encontrará en rojo. El
experimento aleatorio tiene el siguiente espacio muestral:

Ω = {Rojo, Amarillo, Verde}

La variable X ≡ “color del semáforo” puede definirse del siguiente modo: X = 0 si el semáforo
está en rojo, X = 1 si está en amarillo y X = 2 si está en verde. Se trata de una variable discreta
que solo toma tres valores.

11
12 CAPÍTULO 2. VARIABLE ALEATORIA

En los ejemplos 1 y 2 no existe una correspondencia natural entre los sucesos elementales y
los valores numéricos asignados, estos últimos simplemente se utilizan para indicar los sucesos y
distinguirlos unos sucesos de otros. En los siguientes ejemplos sı́ que existe una forma natural de
asignar números a los sucesos elementales.

Ejemplo 3 Supongamos que se define el experimento aleatorio consistente en observar el número


de coches que están parados en un semáforo en rojo. El espacio muestral es:

X = 0, 1, 2, . . .

La variable aleatoria X ≡ ‘ número de coches’ toma un número contable e infinito de valores


diferentes.

Ejemplo 4 Si se define el experimento T ≡ “ tiempo de espera en el semáforo”, sabiendo que


como máximo está en rojo un tiempo Tmax , el espacio muestral es:

0 ≤ T ≤ Tmax

Se trata de una variable continua y acotada, que toma un número infinito no numerable de
valores.

Las variables aleatorias, además de por el conjunto de valores que pueden tomar, se caracterizan
por su función de probabilidad, densidad de probabilidad y función de distribución. La función de
distribución (en ocasiones denominada función de distribución acumulada) de una variable aleatoria
se define del siguiente modo:

Definición 5 (función de distribución) La función de distribución de una variable aleatoria


X, indicada por F (x), es una función con dominio la recta real e imagen el intervalo [0, 1], tal que
F (x) = P (X ≤ x).

Sea h > 0. Las propiedades más importantes de la función de distribución son:

1. lı́mx→−∞ F (x) = 0 .

2. lı́mx→∞ F (x) = 1 .

3. F (x + h) − F (x) = P (x < X ≤ x + h) .

4. F (x) ≤ F (x + h) .

Ejemplo 5 Sea T el tiempo en minutos que tarda una persona en ser atendido cuando acude a
una ventanilla. Puede hipotetizarse que la función de distribución de T es:

F (t) = 1 − exp(−t) .

Por ejemplo, la probabilidad de tener que esperar dos minutos o menos es:
2.1. VARIABLE ALEATORIA Y FUNCIÓN DE DISTRIBUCIÓN 13

F (2) = P (T ≤ 2)
= 1 − exp(−2) = 0,86 ,

y la probabilidad de tener que esperar más de tres minutos es 1 − F (3) = exp(−3) = 0,05. La figura
2.1 muestra la representación gráfica de F (t) en función de t. Puede verse que se trata de una
función creciente que toma valores entre 0 y 1.

Figura 2.1: Probabilidad de esperar t minutos o menos

2.1.1. Variable aleatoria discreta


Una variable aleatoria discreta es aquella que toma un número contable de valores, que puede
ser finito o infinito. En el ejemplo 2 se ha visto una variable aleatoria discreta, el color del semáforo,
que sólo toma tres valores. En el ejemplo 3, la variable aleatoria “número de coches” toma un
número infinito de valores.
Supongamos que los posibles valores de una variable discreta X se denominan x1 , x2 , . . . , xn ,
siendo x1 < x2 < . . . < xn . Entonces, La función de distribución de X se define como la pro-
babilidad de obtener en una muestra el valor xi o cualquiera de los valores más pequeños que
xi :

i
X
F (xi ) = P (X ≤ xi ) = P (X = xj ) ,
j=1

donde P (X = xj ) indica la probabilidad de que X tome el valor xj .


14 CAPÍTULO 2. VARIABLE ALEATORIA

Definición 6 (Función de probabilidad) Sea X una variable aleatoria discreta. La función de


probabilidad de X, denominada f (x), indica la probabilidad de que X tome el valor x. Es decir
f (x) = P (X = x).

Ejemplo 6 Sea la variable aleatoria X ≡ “número de personas que han contraı́do la gripe en el
mes de diciembre”. Se trata de una variable discreta con valores X = 0, 1, 2, . . . . Obviamente en
la realidad existe un máximo para el rango de valores que puede tomar X, que es el tamaño de la
población. Sin embargo, dicho máximo es puede ser un valor muy alto y habitualmente desconocido,
por ejemplo, en torno a 47 millones para la población española, sin que se sepa con certeza la cifra
exacta. Por esto, de cara a la modelización matemática es común asumir que no existe un máximo
y que la variable X está definida en un espacio muestral infinito numerable. Además, por concretar,
supongamos que la función de probabilidad de X viene dada por la expresión:

2x
f (x) = exp(−2).
x!
Entonces, la probabilidad de que tres personas contraigan gripe es:

23 8
f (3) = exp(−2) = exp(−2) ≈ 0,18.
3! 6

2.1.2. Variable aleatoria continua


Las variables aleatorias continuas toman un número infinito no numerable de valores. A dife-
rencia de lo que hemos visto en en el ejemplo 6, los valores de una variable definida en un espacio
muestral infinito no numerable no se pueden contar. Por ejemplo, sea una variable aleatoria con
espacio muestral X ≥ 0. Los valores de X no se pueden contar porque tienen infinitas cifras deci-
males. Cuando se trabaja con variables continuas, la definición de F (x) dada anteriormente sigue
siendo válida: F (x) es la probabilidad de que X tome el valor x o cualquier otro valor menor que
x. Sin embargo, la probabilidad de que la variable tome un valor concreto es 0, por lo que f (x)
ya no indica la probabilidad del suceso X = x. En lugar de función de probabilidad, a f (x) se le
denomina función de densidad de probabilidad, o función de densidad por abreviar.

Definición 7 (Función de densidad) Sea X una variable aleatoria continua. La función de dis-
tribución de X se define del siguiente modo:
Z x
F (x) = f (t) dt
−∞

donde f es la denominada función de densidad de X.

La relación entre F (x) y f (x) viene dada por la relación entre derivación e integración. En
concreto, f (x) es la derivada de F (x):

f (x) = F 0 (x).
2.1. VARIABLE ALEATORIA Y FUNCIÓN DE DISTRIBUCIÓN 15

En el caso continuo, la función de distribución proporciona la probabilidad de que X tome


valores en un intervalo determinado gracias a las propiedades de la integral definida. En concreto,
la probabilidad de que X tome un valor comprendido entre a y b viene dada por:

P (a < X ≤ b) = F (a) − F (b)


Z b
= f (x)dx .
a

Según se ha mencionado, si X es continua, la probabilidad de que tome un valor concreto es 0


debido a la siguiente propiedad del cálculo integral:
Z x
P (X = x) = f (t) dt = 0 .
x

Por otra parte, cualquier función puede ser una función de densidad si cumple dos propiedades:

1. f (x) ≥ 0 para cada valor x de la variable X.


R∞
2. −∞
f (x) dx = 1 .

Lo cual no excluye los casos en que f (x) > 1. De hecho, es habitual encontrar funciones de densidad
que toman valores superiores a 1, lo cual de nuevo indica que f (x) no es la probabilidad de x.

Ejemplo 7 Sea X una variable aleatoria uniforme definida en el intervalo [0, 41 ]. Obtenga la fun-
ción de densidad y la función de distribución de X.
Al ser X uniforme, la función de densidad es igual a una constante: f (x) = c. Por tanto,
f (x) satisface la primera propiedad siempre y cuando c sea no negativa. Con respecto a la segunda
R 1/4
propiedad, debe cumplirse que 0 f (x) dx = 1. Resolvemos la integral:

Z 1/4 Z 1/4
f (x) dx = c dx
0 0
Z 1/4
= c dx
0
1/4
= c[x]0
 
1
= c −0
4
c
= .
4
R 1/4
Para que se cumpla 0
f (x) dx = 1 basta con fijar c = 4, con lo que la respuesta al primer
problema es

f (x) = 4.
16 CAPÍTULO 2. VARIABLE ALEATORIA

La función de distribución, F (x), indica la probabilidad de encotrar valores entre 0 y x, y se


obtiene mediante una integral definida:

Z x
F (x) = 4 dt
0
Z x
= 4 dt
0
= 4[t]x0
= 4x.

Ejemplo 8 Sea T > 0 una variable aleatoria con función de densidad

f (t) = exp(−t)

La figura 2.2 muestra la representación gráfica de f (t) para valores de T entre 0 y 1,5.

Figura 2.2: Representación gráfica de f (t)

La función de distribución de T se obtiene a partir de f (t) mediante integración:

Z t
F (t) = exp(−x) dx
0
t
= (− exp(−x))|0
= (− exp(−t)) − (− exp(0))
= 1 − exp(−t).

Ejemplo 9 Queremos saber si la siguiente función es una función de densidad:

x2
 
f (x) = 2 1 − , donde -5 ≤ x ≤ 5
25
2.1. VARIABLE ALEATORIA Y FUNCIÓN DE DISTRIBUCIÓN 17

Para resolver el problema empezamos analizando el aspecto de f (x) mediate su representación


gráfica, que aparece en la figura 2.3.

Figura 2.3: Representación gráfica de f (x) = 2(1 − x2 /25)

La función f (x) es positiva en el intervalo (-5, 5), por lo que se satisface la primera propiedad.
Sin embargo, su integral definida entre -5 y 5 no es igual a 1, en concreto:

5 5
x2
Z Z  
f (x)dx = 2 1− dx
−5 −5 25
 5
x3

= 2 x−
75 −5
   
125 125
= 2 5− − −5 +
75 75
1000
=
75
40
=
3
Con lo cual la propiedad 2 no se cumple y f (x) no es una función de densidad. Sin embargo,
podemos definir la función

3
g(x) = f (x)
40
que sı́ es una función de densidad porque
Z 5 Z 5
3 3 40
g(x)dx = f (x) = = 1.
−5 40 −5 40 3
La constante 3/40 por la que se ha multiplicado f (x) para obtener en una función de densidad
se denomina en estadı́stica constante de integración.
18 CAPÍTULO 2. VARIABLE ALEATORIA

2.2. Valores esperados y momentos de una distribución


La función de distribución, F (x), contiene toda la información acerca de X. Sin embargo, en
ocasiones resulta excesivamente complejo describir una variable aleatoria utilizando su distribución.
Por ello, se utilizan los denominados momentos para resumir la información contenida en una
distribución y enfatizar determinados aspectos relevantes.
El momento más sencillo es el valor esperado de la variable aleatoria. Se denomina valor esperado
de X y se indica por E(X) a la siguiente expresión:

( P
I
xi f (xi ), si X es discreta, donde I es el número de valores del espacio muestral
E(X) = R ∞i=1
−∞
x f (x)dx, si X es continua

El valor esperado, E(X), se denomina también media poblacional de X y se indica por la letra
µ.

Ejemplo 10 Sea X ∈ (0, 1) una variable aleatoria continua con función de densidad

f (x) = 2x.

Su valor esperado es

Z 1
E(X) = xf (x) dx
0
Z 1
= 2x2 dx
0
1
2x3
=
3 0
2
=
3

De forma más general se define el denominado momento de orden r:

Definición 8 (Momentos) El momento de orden r de una variable aleatoria X se define:

( P
n
xr f (x), si X es discreta
r
E(X ) = R ∞i=1 r i
−∞
x f (x) dx, si X es continua

Por ejemplo, los tres primeros momentos de una variable continua son:
2.2. VALORES ESPERADOS Y MOMENTOS DE UNA DISTRIBUCIÓN 19

Z ∞
Valor esperado o media poblacional: x f (x) dx
−∞
Z ∞
Media de los valores al cuadrado: x2 f (x) dx
−∞
Z ∞
Media de los valores al cubo: x3 f (x) dx
−∞

También se utilizan los momentos con respecto a la media, que se definen:


( P
n
r (xi − µ)r f (x), si X es discreta
E((X − µ) ) = R ∞i=1
−∞
(x − µ)r f (x) dx, si X es continua
Los momentos con respecto a la media más utilizados son:

La varianza de la variable, también indicado V ar(X) o σ 2 , es el momento de orden 2 con


respecto a la media:

V ar(X) = E((X − µ)2 ) .

La varianza también puede calcularse mediante la expresión V ar(X) = E(X 2 ) − µ2 , que es


equivalente a la anterior. La raı́z cuadrada de la varianza se denomina desviación tı́pica, y se
indica mediante σ.

El momento de orden 3, que es un indicador de la simetrı́a de la distribución: E((X − µ)3 ).

El momento de orden 4, que indica la curtosis o apuntamiento: E((X − µ)4 ).

Ejemplo 11 Continuando con el ejemplo 9, sea la función de densidad:

x2
 
3
g(x) = 1− , −5 ≤ x ≤ 5
20 25
Su valor esperado es:

5
x2
 Z 
3
E(X) = x 1− dx
20
−5 25
Z 5
x3

3
= x− dx
20 −5 25
 2  5
3 x x4
= −
20 2 100 −5
 
3 25 625 25 625
= − − +
20 2 100 2 100
= 0
20 CAPÍTULO 2. VARIABLE ALEATORIA

El momento de orden dos (α2 ) es:

5
x2
Z 
3
E(X 2 ) = x2 1 − dx
20−5 25
Z 5
x4

3 2
= x − dx
20 −5 25
 3  5
3 x x5
= −
20 3 125 −5
 
3 125 3125 125 3125
= − + −
20 3 125 3 125
= 5

Ejemplo 12 Continuando con el ejemplo 11, la varianza de X es:

V ar(X) = E(X 2 ) − E(X)2


= 5.

Ejemplo 13 Sea la distribución:

f (x) = 2(1 − x), 0 < x < 1

Su representación gráfica aparece en la figura 2.4.

Figura 2.4: Representación gráfica de f (x) = 2(1 − x)

La media de esta distribución es:


2.3. MUESTRA ALEATORIA SIMPLE 21

Z 1
E(X) = 2 (x − x2 )dx
0
 1
x2 x3

= 2 −
2 3 0
1
= .
3
El momento de orden dos es:

Z 1
E(X 2 ) = 2 (x2 − x3 )dx
0
 1
x3 x4

= 2 −
3 4 0
1
= .
6
Por tanto, la varianza es 1/6 - 1/9 = 1/18. La asimetrı́a de la distribución es:

Z 1  3
3 1
E((X − E(X)) ) = 2 x− (1 − x)dx
0 3
 1
x5 x4 4x3 5x2

x
= 2 − + − + −
5 2 9 27 27 0
1
= .
135

2.3. Muestra aleatoria simple


Según se ha visto, el espacio muestral Ω es el conjunto de resultados posibles en un experimento
aleatorio, y una variable aleatoria X asigna a cada elemento de Ω un valor real. Se denomina
“tomar una muestra” o “realizar” un experimento al proceso consiste en observar el valor de X en
un determinado experimento. Al valor observado de la variable X suele indicársele con la misma
letra en minúscula, x, y se le denomina realización de la variable.
Normalmente una muestra consta de varias observaciones y se indica por n al tamaño mues-
tral. Cada una de las observaciones es la realización de una variable aleatoria: X1 , X2 , . . . , Xn . En
estadı́stica, por motivos de simplicidad matemática, se asume que la muestra es aleatoria simple
(m.a.s), o que las variables son independientes e y están igualmente distribuidas (en ingés “inde-
pendent and identically distributed”, i.i.d.). Una muestra aleatoria simple es aquella que cumple
dos condiciones:

1. Las variables X1 , . . . , Xn son independientes.

2. Las variables X1 , . . . , Xn tienen la misma función de probabilidad o densidad f (x).


22 CAPÍTULO 2. VARIABLE ALEATORIA

Como consecuencia de estas dos condiciones, la función de probabilidad de la muestra es el


producto de la probabilidad de cada una de las observaciones. Supongamos que el vector x =
(x1 , . . . , xn ) indica la muestra; su función de probabilidad o densidad es el producto:

f (x ) = f (x1 , . . . , xn )
= f (x1 ) · · · f (xn ).

Ejemplo 14 Supongamos que la variable aleatoria X, definida intervalo (0, ∞), indica el número
de horas de duración continuada de un producto hasta que falla. La función de densidad de X es

f (x) = x exp(−x) ,

Si tomamos una muestra aleatoria de tamaño dos, x = (x1 , x2 ), su función de densidad será

f (x) = f (x1 )f (x2 )


= (x1 exp(−x1 ))(x2 exp(−x2 ))
= x1 x2 exp(−x1 − x2 ).

De modo general, si la muestra contiene un número n de observaciones, entonces viene descrita


por el vector x0 = (x1 , . . . , xn ), y la función de densidad de la muestra es

f (x) = f (x1 ) · · · f (xn )


= x1 · · · xn exp(−x1 − · · · − xn )
n n
!
Y X
= xi exp − xi .
i=1 i=1
Pn
Además, si tenemos en cuenta que la media muestral es X = i=1 xi /n, podemos escribir la
función de probabilidad de la muestra de un modo más compacto

n
Y 
f (x) = xi exp −nX .
i=1

Por concretar con unos datos, si realizamos el experimento consistente en medir la duración de
tres productos el tamaño muestral serı́a n = 3 y una posible observación es x = (5, 2, 8). Entonces,
la función de densidad de la muestra es

f (5, 2, 8) = 80 exp(−15).

Ejemplo 15 Supongamos que π es la proporción de cerezas sanas en una cesta y la variable X


toma el valor 0 cuando una cereza no está sana y el valor 1 cuando si lo está. La función de
probabilidad de X es
2.3. MUESTRA ALEATORIA SIMPLE 23

f (x) = π x (1 − π)1−x .
Es fácil ver que la probabilidad de obtener una cereza sana es f (X = 1) = π 1 (1 − π)1−1 = π, y la
probabilidad de obtener una que no esté sana es f (X = 0) = π 0 (1 − π)1−0 = 1 − π.
Supongamos que una persona toma dos cerezas y el resultado se indica mediante x0 = (x1 , x2 ).
Por simplificar asumimos que la cesta contiene infinitas cerezas y por tanto la proporción de cerezas
sanas, π, no cambia de una extracción a otra. En consecuencia, la función de probabilidad de x es

f (x) = f (x1 )f (x2 )


= (π x1 (1 − π)1−x1 )(π x2 (1 − π)1−x2 )
= π x1 +x2 (1 − π)2−x1 −x2 .

De modo general, si x0 = (x1 , . . . , xn ) es un vector de n observaciones en el cual hay s =


P
i xi
cerezas sanas, la función de probabilidad de x es

f (x) = π s (1 − π)n−s .

El supuesto de muestra aleatoria, aunque en ocasiones no se ajuste exactamente a las con-


diciones reales del estudio estadı́stico, permite evitar complicaciones innecesarias en el análisis
matemático. En situaciones excepcionales no se asume que la muestra es aleatoria simple, por
ejemplo cuando se intenta modelizar explı́citamente como influye una observación en la siguiente,
aunque esos casos no se tratarán en este curso por su mayor complejidad. A continuación vere-
mos un ejemplo en el que la muestra no es aleatoria simple, lo que permite ilustrar el tipo de
complicaciones que aparecen al evitar este supuesto.

Ejemplo 16 Supongamos que una cesta contiene N cerezas y m de las cuales están sanas. En-
tonces la proporción de cerezas sanas es π = m/N . Si una persona toma dos cerezas al azar, la
probabilidad de que ambas estén sanas es

mm−1
f (x = (1, 1)) = ,
N N −1
Este resultado se debe a que, después de tomar la primera cereza y ver que está sana, el número
de cerezas que permanecen en la cesta es N − 1 y el número de estas que están sanas m − 1. Por
ese motivo, la probabilidad de que la segunda esté sana es (m − 1)/(N − 1). Del mismo modo, si
se tomara una tercera cereza la probabilidad de que las tres estén sanas es

mm−1m−2
f (x = (1, 1, 1)) = .
N N −1N −2
Podemos ver que la función de probabilidad de la muestra se va haciendo más compleja al ir
tomando datos porque para obtener la probabilidad de cada dato es necesario tener en cuenta cual
ha sido el resultado anterior.
24 CAPÍTULO 2. VARIABLE ALEATORIA

A diferencia de lo anterior, el supuesto de muestra aleatoria simple implica que π es constante


a lo largo de las observaciones, lo cual es teóricamente incorrecto pero puede constituir una apro-
ximación razonable si el número de cerezas en la cesta es elevado. Entonces, la probabilidad de los
vector x = (1, 1, 1) es simplemente

f (x = (1, 1)) = π 3 .

Al asumir m.a.s. f (x) es más sencillo porque la probabilidad de cada observación es independiente
de cuales hayan sido los resultados anteriores. El supuesto de muestreo aleatorio simple puede
producir sesgos en el análisis si estamos trabajando con un pequeño número de cerezas y quisiéramos
estimar la proporción de ellas que están sanas. Pero en muchos casos reales (supongamos por
ejemplo que estamos trabajando en una explotación agrı́cola con decenas de miles de cerezas)
asumir m.a.s. es la única manera viable de realizar un análisis estadı́stico y la distorsión en los
resultados es insignificante.

2.4. Prácticas en R
El lenguaje R nos permite obtener una idea aproximada de las propiedades de una distribución.
Por una parte, podemos representar gráficamente las funciones de densidad y distribución para
obtener una impresión de cómo se distribuye la probabilidad a lo largo del rango de valores de
la variable aleatoria. En segundo lugar, veremos cómo maximizar funciones en R. Finalmente
calcularemos de forma numérica los momentos de una distribución.

2.4.1. Representación gráfica de funciones


Para representar gráficamente una función, en primer lugar tenemos que definir el conjunto de
valores que forman el eje de ordenadas y lo guardamos en un vector. A continuación obtenemos el
valor de la función para cada uno de dichos valores, y lo guardamos en un segundo vector. Después
le pasamos ambos valores a la función plot. Por ejemplo, supongamos que vamos a representar la
siguiente función

f (x) = 6x(1 − x) ,

definida en el intervalo (0, 1). La primera lı́nea del siguiente fragmento de código R utiliza el
comando seq para definir el vector de valores x = 0, 0, 01, 0, 02, . . . , 1. La segunda lı́nea de código
calcula la función f (x) = 6x(1 − x) y guarda sus valores en el vector f . La tercera lı́nea el comando
plot para representar la lı́nea que pasa por los pares de puntos (xi , fi ).

x <- seq(0, 1, by=0.01)


f <- 6*x*(1-x)
2.4. PRÁCTICAS EN R 25

plot(x, f, type="l", lwd=2, ylab="", col="red")

A continuación veremos cómo representar varias funciones en los mismos ejes. Esto ocurre
por ejemplo cuando queremos representar dos funciones de densidad distintas o una función de
densidad y su correspondiente función de distribución. Vamos a hacer una gráfica con la misma
función f (x) vista en el ejemplo anterior y además la función

g(x) = 18x(1 − x)4

Para ello, en primer lugar definimos los valores de x y calculamos los valores de f y g. A continuación
hay que representar f (x) mediante el comando plot, y se utiliza el comando lines para añadir
lı́neas a un gráfico ya existente. Por último, utilizando legend se añade una leyenda a la figura para
especificar cual es la lı́nea correspondiente a cada función.

x <- seq(0, 1, by=0.01)


f <- 6*x*(1-x)
g <- 18*x*(1-x)^4

plot(x, f, type="l", lwd=2, ylab="", col="red")


lines(x, g, lwd=2, col="blue")
legend(0.8, 1.4, c("f(x)", "g(x)"), lty=c(1,1), lwd=2, col=c("red", "blue"))

La figura 2.5 muestra el resultado de la representación gráfica.

2.4.2. Maximización de funciones


En matemáticas se denomina optimizar una función a buscar su valor máximo o mı́nimo. El
lenguaje R tiene incorporadas diversas funciones para realizar esta tarea, además de existir paquetes
adicionales de R destinados a aumentar sus capacidades de optimización de funciones. En este
apartado veremos cómo utilizar la función más sencilla de optimización en R, denominada optimize.
Vamos a aplicar esta función para buscar el máximo de la función de densidad g(x) = 18x(1 − x)4
representada gráficamente en la sección anterior.
Como el lector ya conoce, se denomina moda de una distribución al valor de la variable X para
el cual su función de probabilidad o densidad alcanza un máximo. La moda podemos obtenerla
acudiendo a los procedimientos del cálculo matemático. Para ello, basta con tener en cuenta que el
máximo de g(x) y el máximo de la función h(x) = log g(x) están en el mismo punto; esto se debe
26 CAPÍTULO 2. VARIABLE ALEATORIA

Figura 2.5: Funciones f y g

a que el logaritmo es una función monótona, por lo que si x1 > x2 entonces log(x1 ) > log(x2 ). Por
tanto:

h(x) = log g(x) = log 18 + log x + 4 log(1 − x) .

En el máximo de h(x) su derivada h0 (x) toma el valor cero. La derivada de h(x) es

1 4
h0 (x) = − .
x 1−x
Entonces buscamos el valor de x para el que se cumple que h0 (x) = 0. Dicho valor serı́a:

1 4
− = 0
x 1−x
1−x = 4x
1
x = .
5
Hemos demostrado matemáticamente que la moda es 1/5. Ahora pondremos a prueba a la
función optimize. Esta función necesita dos argumentos de entrada, la función a maximizar y el
intervalo de valores en el que tiene que buscar el máximo. Además es necesario indicarle que busque
el máximo de la función, porque optimize por defecto lo que hace es buscar el mı́nimo de la función
que le hayamos pasado. El siguiente código R ilustra el procedimiento, la primera lı́nea de código
2.4. PRÁCTICAS EN R 27

define la función g(x) y en la segunda se llama a optimize para que guarde el resultado en el objeto
fit. En la llamada a optimize le decimos que el intervalo de valores de x donde tiene que buscar
el máximo de g(x) es (0, 1), y para ello le pasamos el argumento c(0, 1). En la tercera linea de
código se llama a print para que muestre los elementos contenidos en el objeto fit, que son el valor
de x donde se encuentra el máximo y el valor de g(x) en dicho punto.

g <- function(x) 18 * x * (1-x)^4


fit <- optimize(g, c(0, 1), maximum=TRUE)
print(fit)

Al ejecutar este código puede advertirse que el resultado de R no es exacto, ya que indica que
el valor de x es 0,2000195 cuando antes habı́amos comprobado que el valor correcto es 1/5 = 0,2.
Esto es algo habitual cuando se trabaja con métodos numéricos, que por definición proporcionan
solo resultados aproximados.

2.4.3. Cálculo de los momentos de una distribución


El lenguaje R incorpora funciones para calcular de forma numérica integrales definidas. No
obstante hay que tener presente que R está más orientado al cálculo numérico que al cálculo
simbólico. Sus capacidades para el cálculo simbólico, por ejemplo derivar funciones u obtener una
integral indefinida, son muy limitadas por lo que no veremos ejemplos sobre ello.
La función integrate permite evaluar numéricamente integrales definidas. A modo de ejemplo,
supongamos que queremos comprobar en R qué valor toma la integral de la función f (x) = 6x(1−x)
entre 0 y 1. Para ello necesitamos tres lı́neas de código, la primera define la función en R, la segunda
calcula numéricamente la integral definida y la tercera muestra el resultado:

f1 <- function(x) {6*x*(1-x)}


integral <- integrate(f1, lower = 0, upper = 1)
print(integral)

El resultado indica que el valor de la integral es 1. Lo que este resultado implica desde el punto
de vista de la teorı́a de la probabilidad es que f (x) es una función de densidad de probabilidad, al
cumplirse que en el rango (0, 1) toma valores no negativos y su integral es 1.
Dado que f (x) es una función de densidad podemos plantearnos obtener su valor esperado, que
no es más que el resultado de la integral
Z 1 Z 1
E(x) = xf (x) dx = 6x2 (1 − x) dx .
0 0
28 CAPÍTULO 2. VARIABLE ALEATORIA

Utilizaremos para ello el siguiente código

xfx <- function(x) {6*x^2*(1-x)}


Ex <- integrate(xfx, lower = 0, upper = 1)
print(Ex)

Al ejecutar el código vemos que el valor esperado es 0,5, como no puede ser de otra manera
observando la forma de f (x) en la gráfica 2.5. La función integrate proporciona un objeto de R, que
es un conjunto de elementos agrupados bajo un nombre común. Si quisiéramos saber qué elementos
contiene el objeto Ex que hemos obtenido como resultado de la ejecución del código anterior,
escribirı́amos names(Ex). El lenguaje R nos informa entonces de que el objeto Ex contiene los
campos value, abs.error, subdivisions, message y call. Para acceder a estos campos utilizamos el
signo $, y el más importante es el campo value, que contiene el resultado numérico de la integral.
Supongamos que queremos obtener el valor esperado de X elevado al cuadrado, E(X)2 . Para ello
ejecutamos el siguiente código

print(Ex\$value^2)

Además de para calcular momentos, la función integrate nos permite calcular la probabilidad
de un intervalo integrando la función de densidad entre los dos extremos de dicho intervalo. Por
ejemplo, queremos saber cuanto vale la probabilidad de que la variable X tome un valor superior
a 0,75. Matemáticamente el problema serı́a entonces obtener la integral de la función de densidad
entre 0,75 y el lı́mite superior de la variable aleatoria. Es decir
Z 1
P (X ≥ 0, 75) = 6x(1 − x) dx .
0,75
Para resolverlo utilizamos el código

Pr <- integrate(f1, lower = 0.75, upper = 1)


print(Pr)

El resultado es 0,15625.
Por último es importante advertir que, a diferencia de otros sistemas informáticos de cálculo
simbólico, el lenguaje R sólo realiza cálculo numérico y sus resultados están sujetos a errores de
aproximación. Por ejemplo, anteriormente comprobamos que el valor esperado de la distribución
f (x) = 2(1 − x) es
2.5. EJERCICIOS 29

Z 1
1
E(x) = 2 2(x − x2 ) dx = .
0 3
Vamos a replicar este resultado en R con el código

fx <- function(x) {2*(x-x^2)}


Ex <- integrate(fx, lower = 0, upper = 1)
print(Ex)

La ejecución de R da como resultado E(X) = 0, 33333 lo cual es matemáticamente falso porque


dicha cantidad no es igual a 1/3. El problema se debe a que el computador necesariamente debe
trabajar con un número finito de valores decimales y solo puede proporcionar una aproximación al
resultado exacto.

2.5. Ejercicios
Ejercicio 1 Se introducen dos ratas en un laberinto con cuatro salidas. Sea X el número de ratas
que salen por la primera salida. Asumiendo que cada rata puede salir por cualquier salida con igual
probabilidad y que el comportamiento de cada una es independiente de la otra.

1. ¿Cuanto vale la probabilidad de los sucesos X = 0, X = 1 y X = 2?

2. Obtenga la media y varianza de X .

Ejercicio 2 Dada la siguiente función:

g(x) = 3x2 , x ∈ (0, 1),


R1
1. Obtenga la integral 0
g(x) dx.

2. Obtenga la función de distribución G(x).

3. Obtenga el valor esperado y varianza de X.

4. Represente gráficamente g(x) y G(x).

Ejercicio 3 Sea X una variable aleatoria con rango −1 ≤ X ≤ 1 y función de densidad

3
f (x) = (1 − x2 ).
4
1. Represente f (x) gráficamente .

2. Obtenga E(X).
30 CAPÍTULO 2. VARIABLE ALEATORIA

3. Obtenga V ar(X).

Ejercicio 4 Sea X una variable aleatoria con rango −1 ≤ X ≤ 1 y función de densidad

3
f (x) = (1 − x2 ).
4
1. Represente f (x) gráficamente .

2. Obtenga E(X).

3. Obtenga V ar(X).

Ejercicio 5 Sea X una variable aleatoria con función de densidad:

1 + αx
f (x) = , −1 ≤ x ≤ 1,
2
Obtenga E(X) y V ar(X).

Ejercicio 6 Sea X ≥ 0 una variable aleatoria con función de densidad

f (x) = exp(−x)

1. Obtenga E(X).

2. Obtenga f (x), donde x una muestra aleatoria simple de tamaño n.

Ejercicio 7 Sea X una variable aleatoria con función de densidad:

1 + αx
f (x) = , −1 ≤ x ≤ 1,
2
Obtenga E(X) y V ar(X).

Ejercicio 8 Sea X ≥ 0 una variable aleatoria con función de densidad

f (x) = exp(−x)

1. Obtenga E(X).

2. Obtenga f (x), donde x una muestra aleatoria simple de tamaño n.

Ejercicio 9 La función de distribución de X es:

F (x) = 1 − exp(−x/α) ,
siendo x ≥ 0.

1. Obtenga f (x).

2. Obtenga E(X).

3. Obtenga f (x), siendo x una muestra aleatoria simple de tamaño n.


Capı́tulo 3

Distribuciones

En este capı́tulo se describen algunas de las distribuciones mas conocidas y de mayor aplicación
en ciencias sociales. Habitualmente las distribuciones dependen de uno o varios valores denominados
parámetros. Los parámetros son cantidades que determinan las propiedades de las distribuciones.
El conjunto de posibles valores que pueden tomar los parámetros se denomina espacio paramétrico.

Ejemplo 1 Supongamos que π es la proporción de cerezas sanas que contiene una caja. Una
persona toma una cereza al azar, y la variable aleatoria X indica si está estropeada (X = 0) o
sana (X = 1). La función de probabilidad de X es:

f (x) = π x (1 − π)1−x .

La función f (x) depende del parámetro π, que determina las caracterı́sticas de la variable X.
Por ejemplo:

E(X) = π
V ar(X) = π(1 − π) .

Al ser π una probabilidad, el espacio paramétrico es el intervalo [0, 1].

En este capı́tulo veremos algunas de las distribuciones más utilizadas, los parámetros que con-
tienen y la relación que existe entre los parámetros y los estadı́sticos para cada distribución.

3.1. Distribuciones discretas


Son aquellas que corresponden a una variable aleatoria discreta; es decir, con un número finito
o infinito numerable de posibles valores.

31
32 CAPÍTULO 3. DISTRIBUCIONES

3.1.1. Bernoulli
La distribución de Bernoulli describe los experimentos aleatorios que solamente toman dos
resultados, que por conveniencia se indican mediante 0 y 1 y suelen denominarse fracaso y éxito.
La función de probabilidad de una variable de Bernoulli Y = (0, 1) es:

f (y) = π y (1 − π)1−y ,
donde el parámetro π indica la probabilidad de éxito (es decir, π = Prob.(Y = 1)). Se comprueba
fácilmente que la probabilidad de cada resultado es:

f (1) = π,
f (0) = 1−π .

Momentos: Para una variable de Bernoulli el valor esperado y la varianza son:

E(Y ) = π,
V ar(Y ) = π(1 − π) .

La figura 3.1 contiene varias distribuciones de Bernoulli en función del parámetro π.

Ejemplo 2 Supongamos que se toma una muestra aleatoria simple de dos observaciones proceden-
tes de una distribución de Bernoulli con parámetro π. El espacio muestral de dicho experimento
consiste en los cuatro posibles patrones de respuesta compuestos por 0 y 1, es decir:

Y1 Y2
0 0
0 1
1 0
1 1

Supongamos que los valores encontrados en la muestra se indican por el vector y = (y1 , y2 )0 ,
Al ser la muestra aleatoria simple, la función de probabilidad de la muestra es el producto de la
probabilidad de cada una de las dos observaciones:

f (y) = f (y1 )f (y2 )


π y1 (1 − π)1−y1 π y2 (1 − π)1−y2
 
=
= π y1 +y2 (1 − π)2−y1 −y2 .

Según se verá en el tema 3, en la estimación de parámetros se trabaja con el logaritmo de la


función de probabilidad de la muestra, que en este ejemplo toma la forma:
3.1. DISTRIBUCIONES DISCRETAS 33

Figura 3.1: Distribuciones de Bernoulli

log f (y) = log π y1 +y2 (1 − π)2−y1 −y2


= (y1 + y2 ) log π + (2 − y1 − y2 ) log(1 − π).

3.1.2. Poisson

La distribución de Poisson suele aplicarse cuando la variable aleatoria es una frecuencia (recuen-
to de un número de casos), por lo que tiene gran utilidad para el análisis de tablas de contingencia
y en modelos log-lineales. La variable aleatoria está definida en el conjunto de los números natu-
rales (Y = 0, 1, 2, . . . ), por lo que no existe un máximo y se trata de un espacio muestral infinito
numerable. La función de probabilidad de Y es:

λy
f (Y = y) = exp(−λ)
y!

Momentos: La distribución de distribución de Poisson tiene la peculiaridad de que su varianza


es igual a su media, y ambas coinciden con el parámetro λ:
34 CAPÍTULO 3. DISTRIBUCIONES

E(Y ) = λ,
V ar(Y ) = λ.

La figura 3.2 contiene una distribución de Poisson con λ = 3.

Figura 3.2: Distribución de Poisson

Además tiene la propiedad de aditividad . Si X es Poisson (λ) e Y es Poisson (δ) e independiente


de X, entonces Z = X + Y también sigue la distribución de Poisson con parámetro λ + δ.

Ejemplo 3 Supongamos que estamos analizando si varones y mujeres difieren en sus preferencias
a la hora de escoger unos determinados estudios universitarios. Con los datos recogidos se elabora
la tabla
Filosofia Derecho
Varones n11 n12
Mujeres n21 n22
En el análisis de tablas de contingencia es común asumir que cada una de las casillas de la tabla
sigue una distribución de Poisson con parámetro λij , por lo que las frecuencias marginales también
siguen una distribución de Poisson. Por ejemplo, el número de varones es n1. = n11 + n12 y su
distribución es Poisson(λ11 + λ12 ), es decir:

(λ11 + λ12 )n1.


f (n1. ) = exp(−λ11 − λ12 )
n1. !
Por tanto, la probabilidad de encontrar un número n11 de varones que estudian filosofı́a y n12 que
estudian derecho sabiendo que el número total de varones es n1. es binomial:

f (n11 )f (n12 )
P (n11 , n12 |n1. ) =
f (n1. )
n n
λ1111 λ1212
n11 ! exp(−λ11 ) n12 ! exp(−λ12 )
= (λ11 +λ12 )n1.
n1. ! exp(−λ11 − λ12 )
 n11  n12
n1. ! λ11 λ12
=
n11 !n12 ! λ11 + λ12 λ11 + λ12
3.2. DISTRIBUCIONES CONTINUAS 35

para ver que P (n11 , n12 |n1. ) es una distribución binomial basta darse cuenta de que n12 = n1. −n11 ,
λ11 /(λ11 + λ12 ) es la probabilidad de encontrar un estudiante de filosofia en el grupo de varones
(dado que lambda11 y lambda12 es el número de varones que estudian filosofia y derecho en la
población) y por tanto λ12 /(λ11 + λ12 ) es la probabilidad de estudiar derecho.
Cuando estudiemos la estimación de parámetros, veremos que otra función de gran utilidad
práctica es la función de probabilidad conjunta de las cuatro casillas:

f (n) = f (n11 )f (n12 )f (n21 )f (n22 )


λn1111 λn12 λn21 λn22
= exp(−λ11 ) 12 exp(−λ12 ) 21 exp(−λ21 ) 22 exp(−λ22 )
n11 ! n12 ! n21 ! n22 !
λn1 +n2 +n3
= exp(−3λ).
n1 !n2 !n3 !

3.2. Distribuciones continuas


Las distribuciones continuas se utilizan cuando la variable aleatoria toma valores en un intervalo
de números reales, siendo entonces el espacio muestral infinito no numerable.

3.2.1. Normal
Es una de las distribuciones más conocidas y utilizadas en ciencias sociales. Esto se debe en
parte a que es la distribución de la media en muestras grandes, según afirma el teorema del
lı́mite central. También se denomina distribución gaussiana en honor de Karl Friedrich Gauss, que
derivó su ecuación a partir del estudio de los errores que se cometen al realizar repetidas veces una
medición en determinadas condiciones.
Una variable aleatoria distribuida según la normal(µ, σ) toma valores en el intervalo (−∞, ∞)
y su función de densidad es:
 2 !
1 1 y−µ
f (y) = √ exp − .
σ 2π 2 σ
Momentos: La distribución normal tiene varias propiedades que la hacen muy conveniente:

1. El valor esperado es el indicado por el parámetro µ:

E(Y ) = µ .

2. La varianza es igual a σ 2 :
V ar(Y ) = σ 2 .

3. Aditividad. Supongamos que X es una variable normal (µX , σX ) e Y es normal (µY , σY ).


Entonces la variable Z = X ± Y es normal (µZ , σZ ), donde µZ = µX ± µY , y la varianza es
2 2
σZ = σX + σY2 ± 2Cov(X, Y ).
36 CAPÍTULO 3. DISTRIBUCIONES

Hay varias distribuciones muy conocidas que se obtienen a partir de la normal. Por ejemplo la
distribución de ((Y − µ)/σ)2 es la chi-cuadrado con un grado de libertad. Las distribuciones t de
Student y F de Snedecor también se obtienen mediante transformaciones de la normal.

Ejemplo 4 Las variables X e Y siguen una distribución normal (10, 6) y normal (15, 2), siendo
su covarianza 10. Se calcula Z = X + Y cuya distribución es normal con media 25 y varianza 60.
La figura 3.3 muestra las funciones de densidad de las tres distribuciones.

Figura 3.3: Distribuciones normales

La función de distribución de una variable normal es:

Z y
F (y) = f (t)dt
−∞
y  2 !
t−µ
Z
1 1
= √ exp − dt .
σ 2π −∞ 2 σ

Esta integral no puede resolverse analı́ticamente, aunque existen tablas que proporcionan F (y)
para distintos valores de y. En ocasiones se encuentra en la literatura estadı́stica el sı́mbolo φ(z)
para referirse a la función de densidad normal (0, 1) y Φ(z) para referirse a su función de distri-
bución.

Ejemplo 5 Una variable X se distribuye normal(µ, σ). Si se toma una muestra aleatoria de n
observaciones, x = (x1 , . . . , xn )0 , la función de densidad conjunta de las observaciones será:

n
Y
f (x) = f (xi )
i=1
n  2 !
1 1 Y xi − µ
= √ exp −
2 n
( σ 2π) i=1 2 σ
n  2 !
1 1 X xi − µ
= exp − .
(σ 2 2π)n/2 2 i=1 σ
3.2. DISTRIBUCIONES CONTINUAS 37

Otra función muy habitual en la estimación de parámetros, según veremos, es el logaritmo de la


función de densidad de la muestra, que en el caso de la normal toma la forma:

n  2
n 1X xi − µ
log f (x) = − log(σ 2 2π) − .
2 2 i=1 σ

3.2.2. Exponencial
La distribución exponencial se define en el intervalo (0, ∞). Se utiliza habitualmente con va-
riables aleatorias que indican tiempos de reacción. Por ejemplo, el tiempo que tarda un sujeto
en completar una determinada tarea. La función de densidad de una variable exponencial con
parámetro ω es:

f (y) = ω exp(−ωy) .

Momentos: La media y varianza son:

1
E(Y ) = y
ω
1
V ar(Y ) = ,
ω2
motivo por el cual el parámetro ω puede interpretarse como la velocidad de ejecución. A mayor
valor de ω menor tiempo esperado. En la figura 3.4 pueden verse tres densidades exponenciales
correspondientes a tres variables X, Y y Z cuya media es 1, 1/4 y 1/8.

Figura 3.4: Distribuciones exponenciales

Ejemplo 6 Supongamos que se toma una muestra aleatoria simple de dos valores procedentes de
una distribución exponencial. La función de densidad de probabilidad de la muestra es
38 CAPÍTULO 3. DISTRIBUCIONES

f (y) = f (y1 )f (y2 )


= ω exp(−ωy1 )ω exp(−ωy2 )
= ω 2 exp(−ω(y1 + y2 ));

y la función logaritmo de f (y) toma la forma

log f (y) = 2 log ω + ω(y1 + y2 ).

Por concretar con unos datos, supongamos que la muestra observada ha sido y = (3, 2)0 . En-
tonces, la función de densidad de probabilidad de la muestra y su logaritmo son

f (y) = ω 2 exp(−ω5)
log f (y) = 2 log ω − ω5.

La figura 3.5 muestra los valores de f (y) y log f (y) en función de ω. En estas gráficas se apre-
cian dos resultados importantes para este curso. En primer lugar, el máximo de ambas funciones
se encuentra en el mismo valor de ω. Esto se debe a que la función logaritmo es monótona, es
decir, si a > b entonces log a > log b. Por este motivo, si f (y) aumenta al aumentar ω, también lo
hace log f (y), si f (y) disminuye también disminuye log f (y), y si f (y) tiene una máximo también
lo tiene log f (y). En segundo lugar, el máximo se sitúa en el valor ω = 0,4. Este es el valor de ω
que hace máxima la densidad de probabilidad de la muestra observada.

Figura 3.5: Función de densidad de probabilidad de la muestra y su logaritmo


3.3. DISTRIBUCIONES EN LENGUAJE R 39

3.3. Distribuciones en lenguaje R


El lenguaje R tiene asociadas cuatro funciones a cada distribución de probabilidad. Estas fun-
ciones llevan por nombre una letra (d, p, q o r ) seguida del nombre de la distribución. Por ejemplo,
en el caso de la distribución normal las funciones son

Función Utilidad
dnorm(x, mean = 0, sd = 1, log = FALSE) Función de densidad normal
pnorm(q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE) Función de distribución
qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE) Función de distribución inversa
rnorm(n, mean = 0, sd = 1) Simular datos

Veremos algunos ejemplos a continuación.

3.3.1. Función de densidad y función de distribución


El comando dnorm resulta útil para realizar la representación gráfica de la función de densidad.
Para ello, hay que definir en primer lugar el rango de valores de la variable X, después calculamos el
valor de la función de densidad para cada valor de X y finalmente representamos ambas cantidades.

x <- seq(-3, 3, by=0.01)


f <- dnorm(x)
plot(x, f, type="l", lwd=1.5)

El comando pnorm proporciona el valor de la función de distribución F (x), que indica la


probabilidad de que X sea menor o igual de un valor concreto: F (x) = Pr.(X ≤ x). Podemos utilizar
pnorm tanto para representar gráficamente una distribución como para conocer la probabilidad
asociada a una variable, tanto en el contraste de hipótesis como en otros contextos. Por ejemplo,
para conocer cual es la probabilidad de que Z sea menor o igual de -1,68, es decir F (−1, 68),
ejecutamos el código

z <- -1.68
pnorm(z)

Para calcular la probabilidad del lado derecho, Pr.(X ≥ −1, 68) = 1 − F (−1, 68), ejecutarı́amos
los comandos:
40 CAPÍTULO 3. DISTRIBUCIONES

z <- -1.68
pnorm(z, lower.tail=F)

3.3.2. Función de distribución inversa


El comando qnorm proporciona el valor de la función de distribución inversa F −1 (p). Es decir,
dada una probabilidad p, proporciona el valor de X al que le corresponde dicha probabilidad.
Por ejemplo, supongamos que necesitamos conocer cual es el valor de Z deja a su izquierda la
probabilidad 0,05 en una distribución normal inversa. Esto podemos calcularlo con el código

qnorm(0.05)

Si quisiéramos saber cual es el valor de Z que deja a su derecha la probabilidad 0,05 podrı́amos
hacerlo de dos maneras:

qnorm(0.05, lower.tail=FALSE)
qnorm(0.95)

3.3.3. Simular datos


El comando rnorm permite simular una muestra de datos de tamaño n. Vamos a compro-
barlo con un pequeño estudio de simulación. Tomaremos una muestra de tamaño nueve de una
distribución normal(100, 15); después calculamos X, S 2 y SX
2
.

muestra <- rnorm(9, 100, 15)


mean(muestra)
sd(muestra)
sd(muestra)/sqrt(length(muestra))

Veremos a continuación un ejemplo más sofisticado. Simulamos 100 matrices de datos de tamaño
nueve de una distribución normal(100, 15). A continuacion calculamos la media de cada muestra,
obtenemos el histograma de frecuencias de las 100 medias, la estimación del valor esperado de la
distribución muestral de la media y la estimación de la varianza de las medias.
3.3. DISTRIBUCIONES EN LENGUAJE R 41

muestra <- rnorm(900, 100, 15)


muestra <- matrix(muestra, nrow=9)
medias <- colMeans(muestra)
hist(medias, ylab="Frecuencia", main="Histograma de medias")
mean(medias)
sd(medias)
legend(85, 30,
c(paste("Media = ", sprintf("%4.2f", mean(medias))),
paste("Sd = ", sprintf("%4.2f", sd(medias)))))

3.3.4. Distribuciones incluidas en R

La lista completa de funciones de densidad incluidas en R es la siguiente.

Distribución Función de densidad


beta dbeta
binomial dbinom
Cauchy dcauchy
chi-cuadrado dchisq
exponencial dexp
F df
gamma dgamma
geometrica dgeom
hipergeométrica dhyper
log-normal dlnorm
multinomial dmultinom
binomial negativa dnbinom
normal dnorm
Poisson dpois
t de Student dt
uniforme dunif
Weibull dweibull

Con estas distribuciones podemos realizar las mismas operaciones que hemos visto en el caso
de la distribución normal cambiando la primera letra del nombre de la función. Por ejemplo, para
obtener una muestra de 10000 datos procedente de la distribución beta(2,2) utilizamos el código:
42 CAPÍTULO 3. DISTRIBUCIONES

muestra <- rbeta(10000, 0.5, 0.5)


hist(muestra)

Figura 3.6: Muestra aleatoria de 10000 casos procedentes de la distribución beta(0,5, 0,5)

Para obtener una explicación adicional sobre el sentido de cada función podemos utilizar el
comando ? de R. Por ejemplo, ejecutando ?pchisq obtendremos una explicación de las funciones
relativas a la distribución chi-cuadrado.
3.4. EJERCICIOS 43

3.4. Ejercicios
Ejercicio 1 Demuestre las expresiones de E(X) y V ar(X) siendo X una variable de Bernoulli.

Ejercicio 2 Obtenga la función de probabilidad acumulada de la distribución uniforme discreta.

Ejercicio 3 Obtenga la función de probabilidad acumulada de la distribución uniforme continua.

Ejercicio 4 Sea Y una variable normal (µ, σ). Se dice que la variable Z = (Y − µ)/σ sigue una
distribución normal estandar. Escriba la función de densidad de Z. Obtenga la función de densidad
de una muestra aleatoria simple compuesta por dos observaciones.

Ejercicio 5 Demuestre que la normal es simétrica en torno a la recta Y = µ, es decir f (µ + x) =


f (µ − x) para todo x.

Ejercicio 6 Obtenga la función de distribución acumulada exponencial (F (y)).

Ejercicio 7 Sea X una variable normal. Obtenga los puntos de inflexión de f (x) en los siguientes
casos

Si X es normal(0, 1).

Si X es normal(µ, σ).

Ejercicio 8 Sea x una muestra aleatoria procedente de una distribución f (x). Obtenga f (x) y
log f (x) en caso de que f (x) pertenezca a cada una de las distribuciones:

1. Bernoulli (π).

2. Poisson (λ).

3. Normal (µ, σ).

4. Exponencial (ω).

Ejercicio 9 Demuestre que en la distribución exponencial E(X) = 1/ω.


44 CAPÍTULO 3. DISTRIBUCIONES
Capı́tulo 4

Teorı́a de muestras grandes

La teorı́a de muestras grandes proporciona resultados que se cumplen cuando el tamaño mues-
tral tiende a infinito, por lo que a este campo se le denomina también estadı́stica asintótica. En
las aplicaciones reales no existen muestras de tamaño infinito, por lo que estos resultados son
aproximaciones que funciona bien en muestras de gran tamaño.
Los resultados de esta sección se agrupan en dos categorı́as: la ley de los grandes números y el
teorem del lı́mite central, ambas tienen diversas variantes en función de las condiciones en que se
aplican y la generalidad de los resultados que proporcionan, por lo que en ocasiones aparece escrito
en plural (leyes de los grandes números y teoremas del lı́mite central). En este capı́tulo veremos
las versiones más sencillas de ambos resultados.
La ley de los grandes números trata sobre la convergencia de la media muestral hacia la media
poblacional cuando el tamaño de la muestra aumenta. El teorema del lı́mite central tiene que ver
con la distribución de una suma de variables aleatorias, que se aproxima a una distribución normal
en muestras grandes. Como la media muestral es una suma de variables aleatorias (una por cada
elemento de la muestra) dividida por el número de datos, estas dos leyes en conjunto permiten
concluir que en muestras grandes la distribución de la media muestral será aproximadamente
normal y estará centrada en la media poblacional.
Estos dos resultados, aparentemente sencillos, constituyen la base de la gran mayorı́a de los
procedimientos de inferencia empleados en estadı́stica aplicada. Procedimientos tales como los
contrastes de una y dos medias, los contrastes sobre proporciones, bondad de ajuste, etc. tienen
su base en estos métodos. Las propiedades asintóticas de los estimadores máximo-verosı́miles se
siguen de estos teoremas, gracias a los cuales podemos obtener el error tı́pico de los estimadores,
y calcular intervalos de confianza basándonos en una aproximación normal.
Una razón por la que resultan tan útiles es que son procedimientos libres de distribución. La
validez de ambos teoremas no depende de cual sea realmente la distribución de los datos en la
población de partida. Es indiferente que dicha distribución sea uniforme, Poisson, exponencial o
cualquier otra, la media poblacional converge a la media poblacional y la distribución de una media
(o también de una suma de variables) converge a una distribución normal. Esto permite utilizar

45
46 CAPÍTULO 4. TEORÍA DE MUESTRAS GRANDES

la normal, u otras distribuciones basadas en ella como t o chi-cuadrado, para realizar contras-
tes o construir intervalos de confianza sobre medias sin necesidad de saber cual es la verdadera
distribución de la variable.
Por último, existen fenómenos naturales que se explican en base a estos resultados, uno de
ellos es la distribución normal que se encuentra en las puntuaciones de los tests de inteligencia, a
la que por conveniencia se le asignan los parámetros µ = 100 y σ = 15. Esto se debe a que las
puntuaciones en un test se calculan como la suma de las respuestas a los cientos de preguntas que
lo componen. Por el teorema del lı́mite central, en una versión más general que la vista aquı́, la
distribución una suma de variables será aproximandamente normal cuando el número de preguntas
sumadas es elevado.
En primer lugar veremos una introducción a lo que significa el lı́mite n → ∞ en teorı́a de la
probabilidad y después veremos los resultados fundamentales del capı́tulo.

4.1. Ley de los grandes números


La media muestral es la suma de las observaciones de la muestra dividida por el tamaño
muestral:

X1 + · · · + Xn
X= .
n
En esta definición, cada uno de los elementos X1 , . . . , Xn es una variable aleatoria y, bajo las
condiciones del muestreo aleatorio simple, todas ellas tienen el mismo valor esperado E(Xi ) = µ,
siendo µ la media poblacional. Resulta intuitivo suponer que la media muestral, X, será similar a
la media poblacional, µ, y que cuanto mayor sea n más razonable es suponer que X estará próximo
a µ. Esto es justamente lo que dice la ley de los grandes números, que expresa que X converge en
probabilidad a µ.

Teorema 1 (Ley de los grandes números) . Sea X1 , X2 , . . . una secuencia de variables alea-
torias idénticamente distribuidas y con valor esperado finito E(Xi ) = µ. Entonces, para cada  > 0

P (|X − µ| ≥ ) → 0 cuando n → ∞.
p p
Este resultado también puede expresarse como X → µ, donde → quiere decir convergencia en
probabilidad. En la formulación de este teorema,  es la diferencia entre X y µ, y esta diferencia
podemos hacerla tan pequeña como queramos aumentando el tamaño muestral. En definitiva, la
probabilidad de encontrar valores de X − µ mayores que  tenderá a cero al aumentar n sea cual
sea el valor de .

Ejemplo 1 Cuando se aplica a variables dicotómicas, la ley de los grandes números nos dice que
la proporción muestral tiende a la probabilidad de éxito. Intuitivamente es un resultado obvio, si
tenemos una moneda imparcial, cabe esperar que cuantos más lanzamientos realicemos más próxima
4.2. TEOREMA DEL LÍMITE CENTRAL 47

estará la proporción de caras a 0,5. En el lenguaje de la teorı́a de la probabilidad esto se expresa


del siguiente modo. Supongamos que X es una variable de Bernoulli (π), entonces E(X) = π y la
proporción muestral es
P
i Xi
P = .
n
p
Como P es la media muestral, P → π.

Ejemplo 2 La varianza muestral es la media de las puntuaciones diferenciales elevadas al cua-


drado:

1X
Sn2 = (Xi − X)2 .
n i
Podemos comprobar que la varianza muestral es asintóticamente insesgada mediante sucesivas
p
aplicaciones de la ley de los grandes número. En primer lugar, sabemos que X → µ, en consecuencia
P 2 p P 2
i (Xi − X) /n → i (Xi − µ) /n, por lo que asintóticamente tenemos una media de n términos,
(Xi − µ)2 , cuyo valor esperado es E((X − µ)2 ) = σ 2 . Aplicando nuevamente la ley de los grandes
números tenemos que la media de las variables (Xi − µ)2 converge en probabilidad a su valor
p
esperado, por lo que Sn2 → σ 2 .

Ejemplo 3 Según vimos al estudiar las distribuciones, si X ∼ P oisson(λ) entonces E(X) = λ.


Supongamos ahora que tenemos una m.a.s. procedente de una distribución de Poisson y queremos
estimar λ. Entonces el estimador natural es la media muestral, dado que gracias al resultado
p
X → λ sabemos que la media muestral es un estimador asintóticamente insesgado. Esto no resuelve
el problema de si existen otros estimadores más eficientes (con menor varianza) o de cual sea la
precisión del estimador, para ello habrı́a que realizar un análisis más detallado y estudiar otros
métodos de estimación, pero al menos proporciona una primera respuesta al problema de estimar
el parámetro desconocido.

Ejemplo 4 En un estudio sobre tiempos de reacción hemos encontrado que un sujeto tarda los
siguientes segundos en realizar cuatro tareas x = (4, 6, 1, 9)0 . Queremos estimar la velocidad de
p
ejecución. Para ello, asumimos que X ∼ exponencial(ω) y como E(X) = 1/ω entonces X → 1/ω.
Aplicado a nuestros datos, X = 5 y la velocidad estimada es ω̂ = 1/5 = 0, 2.

4.2. Teorema del lı́mite central


El teorema del lı́mite central es uno de los resultados más importantes de la teorı́a de la
probabilidad y constituye la base de innumerables procedimientos estadı́sticos. Tanto los contrastes
de hipótesis sobre medias hasta los de bondad de ajuste basados en chi-cuadrado, pasando por la
obtención de estimadores por intervalos, tienen su base en este teorema.
Expresado en palabras, el teorema del lı́mite central dice que la distribución de la suma de varias
variables aleatorias se aproxima a una distribución normal a medida que el número de variables
48 CAPÍTULO 4. TEORÍA DE MUESTRAS GRANDES

aumenta. Al igual que la ley de los grandes números, el teorema del lı́mite central tiene distintas
versiones en función de las caracterı́sticas de las variables sumadas, aunque una de las más sencillas
es la siguiente.

Teorema 2 (Teorema del lı́mite central) . Sea X1 , X2 , . . . una secuencia de variables alea-
torias cada una de ellas con valor esperado E(Xi ) = µ y varianza V ar(Xi ) = σ 2 . Entonces, la
distribución del estadı́stico

n(X − µ)
Z=
σ
tiende a una distribución normal estándar cuando n → ∞.

Según se ha formulado, el teorema del lı́mite central se refiere a la media de n variables. No


obstante, como la media no es más que la suma de variables dividida por n, el teorema podrı́a
formularse de igual modo haciendo referencia a la suma y no a la media. En concreto, el estadı́stico
Z puede escribirse del siguiente modo para hacer explı́cita la suma de variables

X1 + · · · + Xn − nµ
Z= √ .
σ n
El teorema del lı́mite central nos dice que la distribución de la media muestral es aproxima-
damente normal en muestras grandes. No existe un valor exacto de n a partir del cual dicha
aproximación es realmente precisa. En aplicaciones prácticas, de modo orientativo, se considera
que con n ≥ 30 el teorema proporciona resultados suficientemente correctos.

Ejemplo 5 (Distribución de Poisson) . Un grupo de 9 personas ha realizado una prueba con-


sistente en leer en voz alta un determinado texto. La variable Xi indica el número de errores
cometidos por el sujeto i. Como la longitud del texto es elevada y basándonos en nuestra experien-
cia previa, asumimos que Xi ∼ Poisson(λ = 4). Supongamos que queremos conocer la probabilidad
de que el número medio de errores cometidos sea menor o igual a cinco. Gracias al teorema del
lı́mite central sabemos que la variable

n(X − λ)
Z= √
λ
sigue aproximadamente una distribución normal estándar en muestras grandes. Por tanto

9(5 − 4)
Z= √ = 1, 5.
4
Buscando en la tabla de la normal encontramos P (X ≤ 5) = P (Z ≤ 1, 5) ≈ 0, 93.

Ejemplo 6 (Aproximación normal a la binomial) . Lanzamos 100 veces una moneda impar-
cial y queremos saber cual es la probabilidad de encontrar más de cincuenta caras. Como el re-
sultado de cada lanzamiento es Xi ∼ Bernoulli (π = 0, 5) tenemos que E(Xi ) = π = 0, 5 y
V ar(Xi ) = π(1 − π) = 0, 25. Aplicando el teorema del lı́mite central tenemos que la variable
4.3. EJERCICIOS 49

P
Xi − nπ
Z = pi
nπ(1 − π)
es aproximadamente normal(0, 1). Entonces

51 − 100(0, 5)
Z= p = 0, 2.
100(0, 25)
Por tanto P (X ≥ 51) ≈ P (Z ≥ 0, 2) ≈ 0, 42.

4.3. Ejercicios
Ejercicio 1 Sea U una variable distribuida según la uniforme en el intervalo (0, 1). Obtenga la
probabilidad de que obtener un valor superior a 0,9 mediante el cálculo exacto de F (u) y utilizando
la desigualdad de Tchebyshev.

Ejercicio 2 Sea X una variable distribuida según la normal(100, 15). Obtenga la probabilidad de
que obtener un valor igual o mayor que 130 de dos maneras distintas: acudiendo a las tablas de la
normal y mediante la desigualdad de Tchebyshev.

Ejercicio 3 Sea U una variable distribuida según la uniforme en el intervalo (0, 1). Obtenga la
probabilidad de que la media de una muestra de tamaño 16 sea superior a 0,5.

Ejercicio 4 Sea U una variable distribuida según la uniforme en el intervalo (0, 1). ¿Entre qué va-
lores se encuentra la media de una muestra de tamaño 16 con una probabilidad de 0,95?

Ejercicio 5 Sea X ∼ Poisson(8) y tomamos una muestra de tamaño 64. ¿Cual es la probabilidad
de encontrar una media mayor o igual a 10?

Ejercicio 6 ¿Cual es la probabilidad de que la suma de 25 variables independientes distribuidas


según Poisson(16) sea inferior a 360?

Ejercicio 7 Sea X ∼ Poisson(10) y tomamos una muestra de tamaño 36. ¿Entre qué valores se
encuentra la media muestral con una probabilidad de 0,99?

Ejercicio 8 Sea X ∼ exponencial (ω = 0, 2). ¿Entre qué valores se encuentra la media muestral
con probabilidad 0,95 si n = 16?

Ejercicio 9 Sea X ∼ chi-cuadrado con 10 grados de libertad (gl). Además sabemos que en una
distribución chi-cuadrado E(X) = gl y V ar(X) = 2gl. Calcule la probabilidad de que la media de
X sea inferior a 10 en una muestra de tamaño 25.

Ejercicio 10 Sea X una variable aleatoria definida en el intervalo (−4, 4) y con función de den-
sidad

f (x) = 4 − x4 .
50 CAPÍTULO 4. TEORÍA DE MUESTRAS GRANDES

1. Obtenga E(X).

2. Obtenga V ar(X).

3. Obtenga F (x) y la probabilidad de que X esté entre -1 y 1.

4. Obtenga la probabilidad de que la media de una m.a.s. de tamaño 20 sea menor o igual a 1.

Ejercicio 11 Sea X una variable de Bernoulli con parámetro

1
π= .
1 + exp(δ)
Obtenga el estimador de δ a partir de la siguiente muestra x = (0, 1, 0, 0)0 .

Ejercicio 12 Sea X una variable aleatoria definida en el intervalo (0, 2) y con función de densidad

1
f (x) = (3x2 + 1)
10
1. Obtenga E(X) y V ar(X).

2. Obtenga F (x) y calcule P (X ≥ 1,5).

3. Obtenga una aproximación a P (X ≥ 1,5) utilizando la desigualdad de Chebyshev.

4. ¿Cual es la probabilidad de que en una m.a.s. de tamaño 30 la media sea mayor o igual a
1,5?
Parte II

Inferencia estadı́stica

51
Capı́tulo 5

Estimación por
máxima-verosimilitud

En este capı́tulo veremos el método de estimación por máxima-verosimilitud, que es el más


extendido con modelos relativamente sofisticados. A diferencia de mı́nimos-cuadrados, el método
de máxima-verosimilitud se basa en supuestos fuertes acerca de los datos, lo que plantea el inconve-
niente de que no se cumplan los supuestos, y la ventaja de que los estimadores máximo-verosı́miles
tienen muy buenas propiedades que estudiaremos en el próximo capı́tulo. Los supuestos fundamen-
tales del método de máxima-verosimilitud son dos, en primer lugar que conocemos la función de
distribución de los datos observados, en segundo lugar que se cumple el muestreo aleatorio simple.

5.1. Función de verosimilitud


Supongamos que la función de probabilidad o densidad de los datos observados, f (x), es co-
nocida; puede ser la normal, Poisson, etc. pero su forma matemática debe ser conocida. Además,
como hemos visto al hablar del muestreo aleatorio simple, si se toma una muestra aleatoria simple
de n observaciones, la función de probabilidad (o densidad) de la muestra es el producto de la
función de probabilidad (o densidad) de cada una de las observaciones:

f (x ) = f (x1 , . . . , xn )
= f (x1 ) · · · f (xn )
Yn
= f (xi ),
i=1
Qn
donde el sı́mbolo i=1 representa el producto de n términos, siendo similar al sı́mbolo del sumatorio
Pn
( i=1 ) pero multiplicando los elementos en lugar de sumarlos. El método de máxima verosimilitud
toma f (x ) como base para realizar la estimación.

53
54 CAPÍTULO 5. ESTIMACIÓN POR MÁXIMA-VEROSIMILITUD

Definición 9 (Función de verosimilitud) . Supongamos que se ha tomado una m.a.s., x, y el


propósito es estimar el parámetro θ. La función de verosimilitud es la función f (x), entendida como
una función de θ y manteniendo x fijo al valor encontrado en la muestra. Esto suele indicarse del
modo

L(θ) = f (x)

donde L procede de likelihood (verosimilitud en inglés).

Ejemplo 1 Sea X > 0 una variable aleatoria con distribución Weibull, cuya función de densidad
es

1  x
f (x) = exp − .
λ λ
Si tomamos una muestra aleatoria simple de n observaciones, la función de densidad de la muestra
es:

n
Y 1  x 
i
f (x) = exp −
i=1
λ λ
1  x  1
1
 x 
2 1  x 
n
= exp − × exp − × · · · × exp −
λ λ
 Pn λ  λ λ λ
1 i=1 xi
= exp −
λn λ
 
1 nX
= exp −
λn λ

Por tanto, la función f (x) depende únicamente de la media muestral X, y no de ningún otro dato o
cantidad observada en la muestra. Cuando esto sucede ası́ se dice que X es un estadı́stico suficiente
para λ. Es decir, toda la información observada se resume en X, que contiene toda la información
necesaria para realizar la estimación de λ. Dicho de otra manera, bastarı́a con que supiéramos el
valor de X para poder estimar λ. No necesitamos conocer ninguna otra caracterı́stica de la muestra
tal como la varianza, etc.
Supongamos que hemos tomado una m.a.s. de tamaño tres y se encuentra el resultado x =
(2, 7, 3)0 . El estadı́stico suficiente es X = 4, a partir del cual la función de verosimilitud es

 
1 nX
L(λ) = exp −
λn λ
 
1 (3)4
= exp − .
λ3 λ
5.2. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD 55

5.2. Estimación por máxima verosimilitud


El método de máxima verosimilitud consiste en asignar a los parámetros aquel valor que haga
máxima la probabilidad de los datos observados.

Definición 10 Sea X una variable aleatoria cuya función de densidad (o probabilidad) es f (x) y
que depende del parámetro θ. Sea x una muestra aleatoria simple procedente de f (x). El estimador
máximo verosı́mil de θ es el valor de θ que hace máxima L(θ).

Es importante advertir que L(θ) no es la probabilidad de θ sino la probabilidad de x dado un


valor de θ. Por esto, al variar L(θ) en función de θ no estamos obteniendo la la probabilidad de que
cada valor de θ sea el correcto, sino como de verosı́mil es cada valor. Entendiendo que un valor es
inverosimil cuando, si ese valor fuese el correcto, harı́a improbable encontrar unos datos, x , como
los que realmente se han obtenido.
La forma práctica de saber cual es el estimador máximo verosı́mil consiste utilizar los conceptos
del cálculo diferencial para encontrar el máximo de una función. En primer lugar, en la mayorı́a
de las ocasiones no se trabaja directamente con L(θ) sino con su logaritmo, denominado l(θ) =
log L(θ). Entre otros motivos, esto se debe a que l(θ) suele ser más sencilla que L(θ) aunque ambas
alcanzan su valor máximo en el mismo punto de θ, por lo que es más cómodo trabajar con l(θ).
Concretando un poco más, para saber cual es el máximo de la función l(θ), se utiliza la propiedad
de que en el máximo de una función su derivada toma el valor cero. Por ello, se calcula la derivada
de l(θ) con respecto a θ, y se busca el valor de θ que hace que dicha derivada sea cero. Los siguientes
ejemplos ilustran este proceso.

Ejemplo 2 Continuando con el ejemplo 1, hemos visto que a partir de la muestra x = (2, 7, 3)0 se
obtenı́a X = 4. Entonces, la función de verosimilitud y su logaritmo son

 
1 12
L(λ) = exp −
λ3 λ
12
l(λ) = −3 log λ −
λ

La representación gráfica de ambas funciones aparece en la figura 5.1. Puede verse que alcanzan
su máximo en el valor del estimador λ̂ = 4. Además de buscar el valor λ̂ en las gráficas, es posible
obtenerlo analı́ticamente utilizando cálculo diferencial; la derivada de l(λ) con respecto a λ es

3 12
l0 (λ) = − +
λ λ2
El estimador máximo verosı́mil es el valor de λ que resuelve la ecuación de estimación: l0 (λ) = 0.
Es decir
56 CAPÍTULO 5. ESTIMACIÓN POR MÁXIMA-VEROSIMILITUD

3 12
− + = 0
λ λ2
12 3
=
λ2 λ
12
= 3
λ
12
λ̂ = = 4.
3

Figura 5.1: Función de verosimilitud y su logaritmo para la distribución Weibull con X = 4

A continuación vamos a obtener la fórmula genera del estimador máximo-verosı́mil, sin con-
cretar con los datos de una muestra particular. La función de verosimilitud era
 
1 nX
L(λ) = exp − ,
λn λ
cuyo logaritmo es

l(λ) = log L(λ)


 
1 nX
= log + log exp −
λn λ
1 nX
= log −
λn λ
nX
= − log λn −
λ
nX
= −n log λ − .
λ

Para encontrar el máximo de l(λ) se toma su primera derivada con respecto a λ:

n nX
l0 (λ) = − + 2 .
λ λ
5.2. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD 57

La ecuación de estimación es la primera derivada de l(λ) igualada a cero (l0 (λ) = 0), con lo que
queda:

n nX
− + 2 = 0
λ λ
n nX
=
λ λ2
nX
n =
λ

Despejando λ se obtiene el estimador máximo verosı́mil:

λ̂ = X.

Para comprobar que en este punto hay un máximo puede tomarse la segunda derivada:

n 2nX
l00 (λ) = − 3 .
λ2 λ
Sustituyendo el valor del estimado (λ̂ = X) en la segunda derivada se obtiene:

n 2nX n 2n n
l00 (X) = 2 − 3 = 2 − 2 =− 2 < 0.
X X X X X
Como la variable X sólo toma valores positivos, X > 0. Por lo tanto, la segunda derivada es
negativa cuando λ̂ = X, lo que indica que l(λ) tiene un máximo en este punto.

Ejemplo 3 (Distribución de Bernoulli) Supongamos que a un sujeto realiza 25 veces una de-
terminada tarea. El resultado de cada presentación se clasifica como éxito o fracaso, y se considera
que la probabilidad de éxito π permanece constante a lo largo del experimento. ¿Cuál es la proba-
bilidad estimada de éxito asumiendo independencia entre las distintas realizaciones?
La variable Xi describe el resultado de la ejecución i, y sigue la distribución de Bernoulli:

f (xi ; π) = π xi (1 − π)(1−xi ) .

La función de probabilidad del vector de resultados de las 25 ejecuciones tiene la forma:

25
Y
f (x; π) = π xi (1 − π)(1−xi )
i=1
P25 P25
xi
= π i=1 (1 − π)(25− i=1 xi )
.
P25
Supongamos que el numero de éxitos se indica por x, siendo x = i=1 xi . Entonces, la función
de verosimilitud es:
58 CAPÍTULO 5. ESTIMACIÓN POR MÁXIMA-VEROSIMILITUD

L(π) = π x (1 − π)(25−x) .

Tomamos el logaritmo de la función de verosimilitud por su mayor sencillez matemática:

l(π) = log L(π) = x log π + (25 − x) log(1 − π) .

El estimador máximo verosı́mil es el valor que maximiza l(π). Como hemos visto, en el punto
máximo de l(π), su derivada es cero:

x 25 − x
l0 (π) = −
π 1−π
= 0.

La solución de la ecuación de estimación l0 (π) = 0 proporciona el estimador máximo verosı́mil


de π:

x 25 − x
= ,
π 1−π
x − xπ = 25π − xπ ,
x
π̂ = .
25
Este razonamiento no basta para asegurar que π̂ es un estimador máximo verosı́mil. Esto se
debe a que la derivada l0 (π) se anula tanto si l(π) tiene un máximo como si tiene un mı́nimo.
En caso de que la función tenga un máximo, se cumple que su segunda derivada es negativa. En
nuestro ejemplo:

x 25 − x
l00 (π) = − − .
π2 (1 − π)2
La cual es necesariamente menor que 0, por lo que l(π) alcanza un máximo en π̂.

5.3. Máxima verosimilitud en lenguaje R


En R podemos realizar la estimación máximo-verosı́mil de una distribución cualquiera utilizando
las funciones optimize y optim. La función optimize, que ya hemos utilizado en un capı́tulo anterior,
sirve para buscar el máximo de una función univariante, es decir que depende de una única cantidad,
por lo que podrı́amos utilizarla para maximizar una función de verosimilitud que dependa de
un único parámetro. La función optim es más flexible ya que permite realizar la optimización
univariante y multivariante, es decir que permitirı́a estimar modelos que dependan de uno o más
parámetros, escoger el algoritmo de optimización y también proporciona el resultado de la segunda
derivada que, según veremos más adelante, sirve para obtener el error tı́pico del estimador máximo-
verosı́mil. Por todo ello, los estimadores los obtendremos utilizando la función optim.
5.4. EJERCICIOS 59

Vamos a ver este método en relación con el ejemplo 2. Tenı́amos que con la muestra x = (2, 7, 3)0 ,
la función que hay que maximizar para obtener el estimador máximo-verosı́mil es

12
l(λ) = −3 log λ −
.
λ
Para obtener el estimador en R es conveniente comenzar realizando el gráfico de l(λ) para
obtener una primera impresión de cual puede ser el estimador. Para ello programamos la función
en R y la representamos gráficamente.

x <- c(2, 7, 3)
suma <- sum(x)

lk <- function(lambda) -3*log(lambda) - suma / lambda

x <- seq(0, 10, by=0.001)


f <- lk(x)
plot(x, f, type="l")

A continuación llamamos a optim para que busque el máximo de la función. El primero de


los argumentos que le pasamos a optim es el valor 1, que es el valor inicial de λ a partir del cual
comienza a buscar el estimador utilizando un procedimiento iterativo. A continuación, el argumento
f=lk le dice a optim que la función a optimizar es la función lk definida anteriormente. “Brent” es
el método de estimación que se utiliza cuando solamente se estima un parámetro. lower y upper
son los valores mı́nimo y máximo de λ entre los que tiene que buscar el estimador. El argumento
control=list(fnscale=-1) le dice a opim que tiene que buscar el valor de λ que maximiza la función,
de no incluir este comando lo que harı́a optim serı́a buscar el valor que la minimiza. El resultado
de optim se guarda en el objeto fit.

fit <- optim(1, f=lk, method="Brent", lower=0, upper=10, control=list(fnscale=-1))


print(fit)

El resultado de la estimación se recoge en dos elementos del objeto fit. En fit$par tenemos el
valor del estimador y en fit$value aparece el valor máximo de la función lk, estos valores son 4 y
-7.158883 respectivamente.

5.4. Ejercicios
Ejercicio 1 Sea la distribución de Poisson:
60 CAPÍTULO 5. ESTIMACIÓN POR MÁXIMA-VEROSIMILITUD

λy
f (y | λ) = exp(−λ) .
y!
Se ha tomado una m.a.s. de tamaño cuatro, y se encuentra el resultado y = {4, 2, 6, 4}. Calcule
el estimador máximo-verosimil para esta muestra.

Ejercicio 2 Sea la distribución exponencial (ω). En una muestra se ha encontrado y = {2,5, 1,5, 1,25, 0,75}.
Obtenga el estimador máximo-verosimil.

Ejercicio 3 Obtenga el estimador máximo verosı́mil de una distribución geométrica:

f (x) = π (1 − π)x .

Ejercicio 4 Sea X una variable distribuida según la normal con µ = 10 y σ 2 desconocida. Obtenga
el estimador máximo-verosı́mil de σ 2 a partir de la muestra x = (7, 10, 7)0 .

Ejercicio 5 Se toman 5 muestras de una distribución de Bernoulli y se encuentra x = 3.

Represente gráficamente la función de verosimilitud L(π) .

Represente gráficamente la función log L(π) .

Represente gráficamente la función log L0 (π) .

Obtenga el estimador máximo verosı́mil y sitúelo en las gráficas anteriores.


Capı́tulo 6

Propiedades asintóticas de los


estimadores máximo-verosı́miles

Desde un punto de vista de estadı́stica clásica, la lógica de la inferencia consiste en asumir que
los parámetros son cantidades fijas aunque desconocidas. En un experimento aleatorio se concibe
que el valor de θ es una constante, es decir que permanecerı́a inalterable si se tomaran varias
muestras de la misma población. En un estudio estadı́stico se toma una de las posibles muestras, y
con estos datos se calcula un estimador θ̂ que puede o no diferir de θ. A diferencia de θ el estimador
θ̂ es una variable aleatoria, su valor cambiará de unas muestras a otras por el azar de muestreo
que hace que sean unas u otras las observaciones tomadas de la población. Lo deseable es que el
valor θ̂ que esté lo más próximo a θ, lo cual se analiza estudiando sus propiedades.
Las principales propiedades de un estimador son su media (a partir de la que se obtiene el
sesgo) y su error tı́pico. El error tı́pico es la desviación tı́pica de θ̂, e indica cuanto varı́a θ̂ de
una muestra a otra. A partir del error tı́pico es posible construir un intervalo de confianza que
indica entre qué valores estimamos que se encuentra el parámetro poblacional. En este apartado
veremos el estudio de las propiedades de los estimadores máximo-verosı́miles; con otros métodos
de estimación las propiedades de los estimadores son en muchos casos desconocidas.
Una de las grandes ventajas de los estimadores máximo-verosı́miles es que cumplen determina-
das propiedades asintóticas -es decir, propiedades que se dan en el lı́mite n → ∞- que los hacen
ser muy convenientes. Estas propiedades se demuestran dentro del marco de la teorı́a de muestras
grandes, por lo que cabe esperar que funcionen de modo razonable en muestras de elevado tamaño.
Con otros métodos de estimación, como mı́nimos cuadrados o la estimación por momentos, no
existe una teorı́a equivalente que de modo general informe de las propiedades de los estimadores.

6.1. Media, varianza y distribución de los estimadores


Sea θ un parámetro y θ̂ su estimador máximo verosı́mil. Cuando n → ∞ se cumple que

61
62CAPÍTULO 6. PROPIEDADES ASINTÓTICAS DE LOS ESTIMADORES MÁXIMO-VEROSÍMILES

1. El estimador θ̂ es insesgado, es decir E(θ̂) → θ.

2. La varianza del estimador cumple que V ar(θ̂) → 1/I(θ), donde I(θ) es la información obser-
vada en la muestra acerca del valor del parámetro.

3. La distribución de θ̂ es normal.
p
En definitiva, en muestras grandes podemos asumir que θ̂ es normal (θ, 1/ I(θ)). Gracias a
estas propiedades podemos calcular el error tı́pico de los estimadores y el intervalo de confianza
para el parámetro.
Las propiedades 1 y 2 de los estimadores máximo-verosı́miles significan que en muestras ilimita-
damente grandes su media coincide con el valor verdadero del parámetro y la varianza disminuye.
Es decir son correctos asintóticamente, no podemos garantizar que en una muestra de tamaño
finito su valor sea el correcto, pero sı́ cabe espera que al aumentar el tamaño muestral mejore su
precisión. Un procedimiento estadı́stico que cumpla estas propiedades, que aunque parecen obvias
no siempre se cumplen, se dice que es consistente.
Todas estas ventajas de los estimadores máximo verosı́miles se consiguen a costa de un precio:
los supuestos tan fuertes que asume el método. Para aplicar máxima verosimilitud hay que conocer
la función de distribución de las variables aleatorias y asumir muestreo aleatorio simple. Estos su-
puestos son información añadida al análisis estadı́stico, que tienen la contrapartida de proporcionar
estimadores con buenas propiedades. Sin embargo, no siempre sucede que se conozca la función de
distribución de las variables o que pueda asumirse que la muestra es aleatoria simple. Otros esti-
madores más sencillos, como mı́nimos cuadrados, no requieren conocer la forma de la distribución
y son aplicables aún cuando se desconozca esta; en cambio, sus propiedades estadı́sticas no suelen
ser conocidas y difı́cilmente serán mejores que las del estimador máximo-verosı́mil.

6.2. Información observada


La información observada se calcula como -1 multiplicado por la segunda derivada del logaritmo
de la función de verosimilitud, es decir:

∂2
I(θ) = −
l(θ) .
∂θ2
En consecuencia, podemos calcular una aproximación a la varianza que tendrı́a el estimador en
todas las posibles muestras de tamaño n que podrı́an obtenerse de la población del siguiente modo

1
V ar(θ) = .
I(θ̂)
La precisión del estimador también suele por su error tı́pico, que no es más que la desviación tı́pica
del valor de θ̂ en las distintas muestras. Por tanto, el error tı́pico es la raı́z cuadrada de la varianza

1
σθ̂ = q .
I(θ̂)
6.2. INFORMACIÓN OBSERVADA 63

La demostración de por qué la varianza del estimador puede obtenerse a partir de I(θ) excede
los objetivos de este curso. Sin embargo, debemos conocer que I(θ) básicamente está indicando
la curvatura de la función l(θ) evaluada en el punto θ̂. Si la curvatura es alta en este punto
el estimador será más preciso, cuando l(θ) es muy plana en torno al estimador θ̂ la estimación
será más imprecisa. Los siguientes ejemplos ilustran estos conceptos.

Ejemplo 1 (Distribución normal) La función de densidad de una distribución normal (µ, σ)


es

 2 !
1 1 x−µ
f (x) = √ exp −
σ 2π 2 σ

Supongamos que hemos tomado una muestra aleatoria simple de n elementos. La función de
densidad de la muestra es

n
Y
f (x) = f (xi )
i=1
n  2 !
1 1X xi − µ
= n n/2
exp −
σ (2π) 2 i=1 σ

Vamos a obtener el estimador máximo-verosı́mil de µ y su varianza. La función de verosimilitud


es la función de densidad de la muestra: L(µ) = f (x). Para obtener el estimador, utilizamos el
logaritmo de la función de verosimilitud:

n  2
1X xi − µ
l(µ) = log L(µ) = − log(σ n (2π)n/2 ) − .
2 i=1 σ

La ecuación de estimación para la media poblacional se obtiene igualando a cero la derivada de


l(µ):
Pn
∂ i=1 (xi − µ)
l(µ) = =0.
∂µ σ2
Pn
De donde que se deduce i=1 (xi − µ) = 0, y por tanto el estimador máximo verosı́mil es

n
1X
µ̂ = xi = X .
n i=1

La segunda derivada de l(µ) es:


Pn
∂2 i=1 1 n
l(µ) = − =− .
∂µ2 σ2 σ2
Como hemos visto, obtenemos una aproximación a la varianza del estimador del siguiente modo
V ar(µ̂) = 1/I(µ̂), que en este ejemplo queda
64CAPÍTULO 6. PROPIEDADES ASINTÓTICAS DE LOS ESTIMADORES MÁXIMO-VEROSÍMILES

σ2
V ar(µ̂) = .
n
En consecuencia, el error tı́pico del estimador es

σ
σ( µ̂) = √ .
n
Ejemplo 2 Vamos a aplicar los resultados obtenidos en el ejemplo 1 a una muestra concreta.
Supongamos que tenemos los datos x = (104, 96)0 procedentes de una distribución normal(µ,
σ = 2). El estimador máximo verosı́mil y su varianza son

µ̂ = X = 100.
σ2 4
V ar(µ̂) = = = 2.
n 2


Con lo cual tenemos que el error tı́pico del estimador es σµ̂ = 2, que es nuestro indicador de cual
serı́a la desviación tı́pica de µ̂ que habrı́amos observado al calcularlo en todas las posibles muestras
de tamaño n = 2 que habrı́an podido obtenerse de esta población.
Supongamos ahora que la muestra con la que contamos es x = (104, 105, 96, 99, 97, 95, 101, 103)0 .
Entonces el estimador y su varianza serı́an

µ̂ = X = 100.
σ2 4
V ar(µ̂) = = = 0, 5,
n 8


y el error tı́pico se ha reducido a σµ̂ = 0, 5 ≈ 0, 71 como consecuencia del mayor tamaño muestral.
La figura 6.1 representa la función l(µ) para ambas muestras. Es obvio que l(µ) toma valores
más pequeños en el caso de n = 8, lo cual se debe a que l(µ) es la suma de la contribución de cada
P
una de las observaciones de la muestra. Como l(µ) = i log f (xi ), cada observación contribuye a
l(µ) con un término log f (xi ) < 0, y la función l(µ) va disminuyendo al aumentar n. Además puede
verse que l(µ) alcanza su máximo en el mismo punto para ambas muestras, como consecuencia de
que la media de ambas es 100.
El resultado más relevante de la figura 6.1, de cara a este capı́tulo, es que l(µ) tiene una
curvatura mayor con n = 8 que con n = 2. En ambos casos el estimador está en el mismo
punto, pero cuando la curvatura es mayor está mas claro cual debe ser el estimador. Con n =
2 la verosimilitud de otros valores de µ distintos a µ̂ = 2 es relativamente alta, lo que quiere
decir que hay una mayor incertidumbre acerca del valor del estimador. Este fenómeno es el que
está recogiendo la información I(µ).
Otro aspecto relevante de este ejemplo es que permite comprobar fácilmente que el estimador
es consistente. Resumiendo, tenemos que el estimador y su varianza son
6.2. INFORMACIÓN OBSERVADA 65

Figura 6.1: Logaritmo de la función de verosimilitud normal con X = 100 y σ = 2

µ̂ = X, y
σ2
V ar(µ̂) = .
n

p
Por la ley de los grandes números X → µ, lo que significa que el estimador es consistente. Además,
existe una segunda manera de comprobar que un estimador es consistente sin necesidad de recurrir
a la ley de los grandes números, que consiste en verificar que es asintóticamente insesgado y con
varianza cero. En nuestro ejemplo tenemos que el estimador es insesgado porque E(X) = µ y es
obvio que V ar(µ̂) → 0 cuando n → ∞.

Ejemplo 3 En el capı́tulo anterior vimos que la función de verosimilitud, su logaritmo, la primera


y la segunda derivadas de la distribución Weibull eran respectivamente

 
1 nX
L(λ) = exp − ,
λn λ
nX
l(λ) = −n log λ − ,
λ
n nX
l0 (λ) = − + 2 y
λ λ
n 2nX
l00 (X) = − 3 .
λ2 λ
de donde se deducı́a que el estimador máximo-verosı́mil es λ̂ = X.
66CAPÍTULO 6. PROPIEDADES ASINTÓTICAS DE LOS ESTIMADORES MÁXIMO-VEROSÍMILES

Ahora vamos a calcular el error tı́pico del estimador. La información observada es igual a
menos la segunda derivada:

n 2nX
I(λ) = − + 3 ,
λ2 λ
Si evaluamos la función I(λ) en el valor de λ̂ encontramos que

n 2nX
I(λ̂) = − 2 + 3
X X
n 2n
= − 2 + 2
X X
n
= 2.
X
Por tanto la varianza del estimador es:

2
X
V ar(λ̂) = .
n
En el ejemplo 2 vimos que con la muestra x = (2, 7, 3)0 se obtenı́a el estimador λ̂ = X = 4.
Entonces, su varianza es

2
X 42
V ar(λ̂) = = ≈ 5, 33,
n 3

y su error tı́pico es σλ̂ = 5, 33 ≈ 2, 31, bastante elevado debido al reducido tamaño muestral.

6.3. Intervalos de confianza


En muestras grandes, la propiedad de normalidad puede utilizarse para construir intervalos
de confianza para el valor verdadero del parámetro. Para ello basta seguir el procedimiento, ya
conocido de cursos anteriores, para construir un intervalo de confianza. Tipificando el estimador,
tenemos que el siguiente estadı́stico sigue una distribución aproximadamente normal estándar en
muestras grandes:

θ̂ − θ
Z= .
Se
Supongamos que se buscan dos valores, Zα/2 y Z1−α/2 , de una distribución normal estándar
que dejan dentro de sı́ una probabilidad de 1 − α. Por tanto, la probabilidad de encontrar valores
del estadı́stico Z dentro de este intervalo es 1 − α, es decir:
!
θ̂ − θ
P Zα/2 ≤ ≤ Z1−α/2 =1−α
Se
Desarrollando esta expresión se obtiene que el intervalo de confianza para el parámetro es:
6.3. INTERVALOS DE CONFIANZA 67

P (Li ≤ θ ≤ Ls ) = 1 − α ,

cuyos lı́mite superior e inferior son

Ls = θ̂ + |Zα/2 |Se
Li = θ̂ − |Zα/2 |Se

Además, ya hemos visto que el error tı́pico de estimación que necesitamos para calcular los
lı́mites es

1
Se = p .
I(θ)
Los valores más habituales de 1 − α son 0, 95 o 0, 99, a los que les corresponde un valor de |zα/2 |
igual a |z0,025 | = 1, 96 y |z0,005 | = 2, 575 respectivamente.
Para entender estos resultados hay que hacer algunas precisiones. En primer lugar es un resul-
tado asintótico, por lo que requiere de muestras grandes dado que, de no ser ası́, no se garantizan
los supuestos en que se ha basado este desarrollo: normalidad, estimador insesgado y con un Se
calculado con precisión a partir de los datos disponibles. En segundo lugar, 1 − α es la probabilidad
de que al tomar una muestra, el intervalo resultante contenga el valor verdadero de θ. Una vez que
se dispone de una muestra concreta, el intervalo que se construya contendrá o no el valor verdadero,
por lo que no tiene sentido hablar de la probabilidad de que dicho intervalo contenga el parámetro.
Al igual que L(θ) no indica la probabilidad de θ sino su verosimilitud, tenemos una determinada
confianza de que el intervalo (Li , Ls ) contenga dentro de si el valor esperado del parámetro, pero
no una probabilidad.

Ejemplo 4 Continuando con el ejemplo 1, el error tı́pico del estimador de µ es

σ
Se = √ .
n
Para obtener un intervalo de confianza al 99 %, se tiene que 1 − α = 0, 99, por lo que α = 0, 01
y α/2 = 0, 005. Por tanto |Z0,005 | = 2, 575, con lo que los lı́mites inferior y superior del intervalo
de confianza para µ son:

σ
Ls = X + 2, 575 √
n
σ
Li = X − 2, 575 √ .
n

Supongamos que σ 2 = 15 y se ha obtenido la muestra x = (102, 97, 110)0 . El estimador de µ es


µ̂ = 103, y su varianza es:
68CAPÍTULO 6. PROPIEDADES ASINTÓTICAS DE LOS ESTIMADORES MÁXIMO-VEROSÍMILES

σ2 15
= =5.
n 3
Entonces, con un nivel de confianza del 99 %, el valor verdadero de µ estará dentro del intervalo:

σ √
Ls = X + 2, 575 √ = 103 + 2, 575 5 = 108, 75
n
σ √
Li = X − 2, 575 √ = 103 − 2, 575 5 = 97, 24
n

Esto no significa que exista una probabilidad de 0,99 de que µ esté entre 97, 24 y 180, 75. El
valor verdadero de µ, aún siendo desconocido, estará o no estará dentro de este intervalo. Lo que
sı́ sabemos es que en el 99 % de las muestra que tomemos de esta población, el intervalo resultante
contendrá el valor verdadero de µ. Por tanto, tenemos una confianza del 99 % de que esta sea una
de esas muestras. Por último, el término confianza carece de una definición matemática precisa, a
diferencia del término probabilidad, del que no es sinónimo.

Ejemplo 5 Continuando con el ejemplo 3, el estimador en la muestra x = (2, 7, 3)0 es λ̂ = 4 y


su varianza es

16
V ar(λ̂) =
.
3
Vamos ahora a construir un intervalo de confianza al 95 % para λ. Mirando en la distribución
normal se encuentra que |Z0,025 | = 1, 96, por lo que el intervalo resulta ser

4
Ls = 4 + 1, 96 √ ≈ 8, 53
3
4
Li = 4 − 1, 96 √ ≈ −0, 52
3

Puede verse que el lı́mite inferior del intervalo de confianza es un valor imposible del parámetro.
De hecho, si se sustituye el valor de Li en la función de densidad del ejemplo 1, esta toma un valor
negativo, lo cual no es admisible para una función de densidad. Este ejemplo nos recuerda que el
intervalo de confianza es un resultado aproximado que puede resultar adecuado cuando la muestra
es grande, pero en muestras pequeñas como la de este ejemplo puede dar resultados poco precisos
o incorrectos.

6.4. Cálculo de la varianza del estimador en lenguaje R


Para calcular la varianza del estimador en lenguaje R simplemente tenemos que pedirle a la
función optim que nos de el valor de la segunda derivada evaluada en el punto correspondiente al
6.4. CÁLCULO DE LA VARIANZA DEL ESTIMADOR EN LENGUAJE R 69

estimador. Continuando con el ejemplo del capı́tulo anterior sobre la distribución Weibull, tenı́amos
que la muestra era x = (2, 7, 3)0 . Para pedirle a optim que nos de la segunda derivada utilizamos
el argumento hessian:

x <- c(2, 7, 3)
suma <- sum(x)

lk <- function(lambda) -3*log(lambda) - suma / lambda

fit <- optim(1, f=lk, method="Brent", lower=0, upper=10, control=list(fnscale=-1),


hessian=TRUE)
print(fit)

Entre los elementos del objeto fit ahora tenemos que la segunda derivada (hessian) es -0.1875001.
A partir de ella podemos calcular la varianza, el error tı́pico del estimador y el intervalo de confianza
con el siguiente código

lambda <- fit$par


var_lambda <- -1/fit$hessian
Se <- sqrt(var_lambda)

Z <- abs(qnorm(0.025))

Ls <- lambda + Z *Se


Li <- lambda - Z *Se

cat(sprintf("El estimador es lambda = %5.3f con Se = %5.3f\n", lambda, Se))


cat(sprintf("Intervalo de confianza: (%5.3f, %5.3f)\n", Li, Ls))

Las únicas partes reseñables de este código, por su posible novedad, son el uso de la función
qnorm que proporciona el valor de la curva normal estándar asociada a una determinada proba-
bilidad, el comando cat que muestra un mensaje por pantalla y el uso de sprintf para construir
el mensaje que mostrará cat. Los argumentos %5.3f y \n pasados a sprintf tienen el siguiente
sentido, %5.3f indica la posición del mensaje donde insertar el valor de una variable real y el for-
mato en que se mostrará esta en cuanto a longitud y número de decimales, \n se denomina una
“secuencia de escape” que lo que hace es insertar un salto de linea en el mensaje.
70CAPÍTULO 6. PROPIEDADES ASINTÓTICAS DE LOS ESTIMADORES MÁXIMO-VEROSÍMILES

6.5. Ejercicios
Ejercicio 1 Obtenga la varianza del estimador de ω en una distribución exponencial.

Ejercicio 2 Obtenga la varianza del estimador de π en una distribución binomial.

Ejercicio 3 Obtenga la varianz del estimador de λ en una distribución de Poisson.

Ejercicio 4 Sea la distribución de Poisson:

λy
f (y | λ) = exp(−λ) .
y!
Se ha tomado una m.a.s. de tamaño cuatro, y se encuentra el resultado y = {4, 2, 6, 4}. Obtenga
el estimador máximo-verosimil, su varianza y el intervalo de confianza al 95 %.

Ejercicio 5 Sea la distribución exponencial (ω). En una muestra se ha encontrado y = {2,5, 1,5, 1,25, 0,75}.

Obtenga el estimador ω̂.

Obtenga el error tı́pico de ω̂.

Obtenga el intervalo de confianza al 99 %.

Ejercicio 6 Una variable sigue la distribución normal (µ, σ = 2). Un investigador desea realizar
una estimación por intervalos de µ, con un nivel de confianza del 99 % y una anchura del intervalo
de 0.5. ¿Cual debe ser el tamaño muestral del experimento?
Capı́tulo 7

Contraste de hipótesis

7.1. Conceptos fundamentales


Según hemos visto, la inferencia estadı́stica tiene dos aspectos fundamentales, la estimación de
parámetros y contraste de hipótesis. Mediante la estimación de parámetros asignamos un valor a
los parámetros desconocidos del modelo estadı́stico a partir de la información muestral. Mediante
el contraste de hipótesis se intenta comprobar si un valor concreto de los parámetros es compatible
con los datos observados.

Definición 11 (Hipótesis estadı́stica) Se denomina hipótesis estadı́stica, H, a un afirmación


acerca de la distribución de una variable aleatoria.

Definición 12 (Contraste de hipótesis) Se denomina contraste o test de hipótesis a un pro-


cedimiento para tomar una decision acerca de H.

En este capı́tulo vamos a ver contrastes en los que aparecen dos hipótesis: la hipótesis nula
(H0 ) es una hipótesis concreta (especifica exactamente el valor de uno o más parámetros) que se
somete a prueba. La hipótesis alternativa (H1 ) que recoge todos aquellos casos que no se incluyen
en la nula. A su vez, las hipótesis pueden ser simples o compuestas. Una hipótesis simple especifica
un valor único para el parámetro, por ejemplo H1 : ω = 110. Una hipótesis compuesta especifica
un rango de valores, por ejemplo H1 : ω > 110. En este curso únicamente veremos el caso de la
hipótesis nula simple.

Ejemplo 1 Supongamos que se toma una muestra x = (x1 , . . . , xn )0 de una distribución de Poisson
y se desea contrastar la hipótesis nula: H0 : λ = 5 frente a la alternativa H1 : λ > 5. En este caso
la hipótesis nula es simple y la alternativa es compuesta.

La decisión sobre las hipótesis se toma en función de los valores muestrales, que suelen resu-
mirse en un estadı́stico de contraste T (x ) que es aquella cantidad muestral que resulta relevante

71
72 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS

para obtener información acerca del parámetro a contrastar en la hipótesis nula. Por ejemplo, en
un contraste sobre una varianza con la hipótesis nula H0 : σ 2 = 15, el dato relevante es la va-
rianza muestral, T (x ) = S 2 . En concreto, un estadı́stico de contraste debe reunir las siguientes
condiciones.

Definición 13 (Estadı́stico de contraste) Un estadı́stico de contraste para la hipótesis H0 es


una función de los datos muestrales, T (x) que cumple dos condiciones:

1. La distribución de T (x) debe ser conocida, al menos, de modo aproximado.

2. Cuanto mayor sea la magnitud de T (x), más fuerte es la evidencia en contra de H0 .

El conjunto de posibles valores de la muestra para los cuales se rechaza la hipótesis nula se
denomina zona critica o de riesgo, y puede indicarse por el signo C. Se define C mediante el nivel
de significación:

Definición 14 (Nivel de significación) Se denomina nivel de significación o de riesgo, y se


indica por α, a la probabilidad de que el estadı́stico de contraste caiga en la zona crı́tica siendo H0
verdadera:

P (T (x) ∈ C; H0 ) = α ,

donde x es un vector de datos que representa la muestra. La probabilidad complementaria, 1 − α,


se denomina nivel de confianza y es la probabilidad de mantener H0 cuando es verdadera.

Una vez obtenido T (x ) existen distintas formas de saber si está en zona de rechazo y ası́ tomar
una decisión en el contraste. Una de ellas es calcular el nivel crı́tico, p, denominado en ocasiones
p − valor (del inglés (p − value).

Definición 15 (Nivel crı́tico) El nivel crı́tico es la probabilidad que hay desde el valor observado
de los datos en la muestra hacia la zona de rechazo:

P (T (x) hacia C; H0 ) = p.

Si p > α el estadı́stico T (x ) está fuera de C, por lo que se mantiene H0 . Si p ≤ α, el valor de T (x )


están dentro de C y se rechaza H0 . La forma en que se concreta el cálculo de p (el significado del
término “T (x ) hacia C”) depende de los detalles del contraste que se esté realizando.
Por último, es importante considerar cual los cuatro posibles resultados de un contraste de
hipótesis:

Definición 16 (Resulados del contraste) Los cuatro posibles resultados de un contraste de


hipótesis son:

1. Mantener la hipótesis nula cuando es verdadera. Su probabilidad se denomina nivel de con-


fianza 1 − α, y se define 1 − α = P (T (x) ∈
/ C; H0 ).
7.2. CONTRASTES BASADOS EN LOS ESTIMADORES MÁXIMO-VEROSÍMILES 73

2. Error de tipo I. Rechazar la hipótesis nula cuando es verdadera, su probabilidad es α = P (T (x) ∈ C; H0 ).

3. Error de tipo II. Mantener la hipótesis nula cuando es falsa, su probabilidad es β = P (T (x) ∈
/ C; H1 ).

4. Potencia. Rechazar la hipótesis nula cuando es falsa, su probabilidad es 1 − β = P (T (x) ∈ C; H1 ).

Cuando se realiza un contraste, el primer paso es fijar el nivel de significación α. Como α es


la probabilidad de llegar a una decisión incorrecta, suele fijarse a un valor bajo como 0, 01 o 0, 05.
A continuación, se busca la zona la zona crı́tica C como el conjunto de valores de T (x ) a los que
corresponde la probabilidad α. El valor de β, en cambio, no puede fijarse de antemano porque
depende de cual sea el valor verdadero del parámetro, que es desconocido.

7.2. Contrastes basados en los estimadores máximo-verosı́mi-


les
Según hemos visto, cuando conocemos la función de densidad o probabilidad de una variable,
f (x), podemos estimar sus parámetros utilizando el método de máxima-verosimilitud. Gracias a
que los estimadores máximo-verosı́miles tienen propiedades conocidas, podemos realizar contrastes
de hipótesis acerca del valor de los parámetros. Sabemos que el estimador máximo verosı́mil θ̂ tiene
media el valor verdadero del parámetro, θ, su varianza es 1/I(θ) y su distribución es aproxima-
damente normal en muestras grandes. Entonces, podemos tipificar el estimador para construir un
estadı́stico de contraste basado en la distribución normal. Supongamos que estamos realizando un
contraste con las siguientes hipótesis

H0 : θ = θ0
H1 : θ 6= θ0

Si H0 fuese verdadera, la distribución asintótica del estimador θ̂ serı́a normal con media θ0 y error
p
tı́pico Se = 1/ I(θ0 )). Entonces, el estadı́stico de contraste lo obtenemos tipificando el estimador:

θ̂ − θ0
Z=
Se

La distribución asintótica de Z es normal (0, 1).

Ejemplo 2 Hemos tomado una m.a.s. procedente de una distribución de normal con µ desconocida
y σ = 4. El resultado es x = (19, 14, 13, 18)0 , y pretendemos hacer un contraste con las siguientes
hipótesis:
74 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS

H0 : µ ≤ 12
H1 : µ > 12

Utilizaremos el estadı́stico de contraste Z, que no es más que el estimador µ̂ tipificado. Según


hemos visto en capı́tulos anteriores, el estimador máximo-verosı́mil y su varianza son

µ̂ = X
σ2
V ar(µ̂) =
n

Para establecer la zona crı́tica fijaremos arbitrariamente un nivel de significación α = 0, 05. Como
es un contraste unilateral derecho, la zona crı́tica viene definida por los valores que están en la
cola derecha de la distribución de Z. El punto crı́tico a partir del cual comienza la zona crı́tica es
el valor de Z que deja a su derecha la probabilidad 0,05, es decir Zc = 1, 64. Rechazaremos H0 en
caso de que encontremos en la muestra un valor Z ≥ 1, 64.
Realizando los cálculos con los datos de nuestro ejemplo, encontramos que µ̂ = 16, V ar(µ̂) =

16/4 = 4 y Se = 4 = 2. Por tanto, el estadı́stico de contraste es

µ̂ − µ0 16 − 12
Z= = = 2.
Se 2
Como 2 > 1, 64 rechazamos H0 y concluimos que µ es mayor de 12.
Por completar el ejercicio e ilustrar algunos conceptos fundamentales del contraste de hipótesis,
vamos a realizar algunos cálculos adicionales. En primer lugar el nivel crı́tico, denominado p o
p − valor, que es la probabilidad asociada al estadı́stico de contraste. En nuestro ejemplo, al ser un
contraste unilateral derecho, el nivel crı́tico es:

p = P (Z ≥ 2) ≈ 0, 023.
El nivel crı́tico también nos permite tomar una decisión sobre H0 . Como p < α, rechazamos H0 .
Además podemos averiguar a partir de qué valor de µ̂ se hubiera rechazado H0 , es decir el
punto crı́tico en puntuación directa. Como hemos dicho que se rechaza con Z ≥ 1, 64, trasladando
el punto crı́tico a puntuaciones directas encontramos

µˆc − 12
1, 64 =
2
µˆc = 12 + 2 × 1, 64 = 15, 28.

Lo que significa que encontrar un valor de µ̂ mayor o igual a 15,28 es una evidencia suficientemente
fuerte como para poder rechazar H0 .
7.3. CONTRASTES BASADOS EN EL TEOREMA DEL LÍMITE CENTRAL 75

Vamos ahora a calcular la potencia. Supongamos que µ1 es el valor verdadero del parámetro µ.
Entonces, la potencia es

1 − β = P (µ̂ ≥ 15, 28; µ1 ).


Obviamente, para poder calcular 1 − β es necesario saber cuanto vale µ1 . Como µ1 es desconocido,
vamos entonces a calcular lo que se conoce como potencia observada, que es la potencia de un
contraste si el valor del parámetro fuese igual al valor estimado. Es decir

1 − β = P (µ̂ ≥ 15, 28; µ1 = 16).


Para calcular la probabilidad P (µ̂ ≥ 15, 28; µ1 = 16), es necesario tipificar:

15, 28 − 16
Z= = −0, 36,
2
y mirando en tablas de la normal encontramos que la potencia observada es

P (µ̂ ≥ 15, 28; µ1 = 16) = P (Z ≥ −0, 36) = 0, 64.


Finalmente, para completar el análisis de este problema, obtendremos lo que se conoce como
curva de potencia, que es una representación gráfica de la potencia del contraste, 1 − β, en función
del valor verdadero de µ. La figura 7.1 muestra el valor de la potencia para µ entre 12 y 20 con
distintos valores de n. El resultado más obvio es que la potencia aumenta cuando aumenta el tamaño
muestral y cuando aumenta la distancia entre la hipótesis nula y el valor verdadero del parámetro.
Este tipo de curvas resultan útiles en diseño de investigaciones para calcular cual deberı́a ser el
tamaño de una muestra para alcanzar una potencia determinada; de este modo es posible hacer
una planificación de cuantas observaciones va a ser necesario recoger en un experimento aleatorio.

7.3. Contrastes basados en el teorema del lı́mite central


El teorema del lı́mite central nos permite hacer contrastes de hipótesis aunque no conozcamos
la forma de la distribución de una variable, f (x)). Cómo este teorema nos dice que la distribución
de la media de una variable es aproximadamente normal en muestras grandes, basta con conocer
el valor esperado y la varianza de X para poder calcular la probabilidad asociada a la media
muestral. El proceso consiste en calcular E(X) y V ar(X) a partir del valor del parámetro, calcular
el estadı́stico de contraste Z tipificando X y buscar la probabilidad de Z en la tabla de la curva
normal(0, 1).

Ejemplo 3 Una variable aleatoria, X tiene como valor esperado y varianza

E(X) = 1/θ
V ar(X) = 1/θ2
76 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS

Figura 7.1: Curvas de potencia

Queremos contrastar la hipótesis H0 : θ = 4 frente a H1 : θ 6= 4. Para ello tomamos una m.a.s.


de 16 observaciones en la que se ha encontrado X = 0, 2, y vamos a utilizar un nivel de riesgo
α = 0, 01.
Si H0 fuese verdadera, el valor esperado y la varianza de X serı́an

E(X) = 0, 25
V ar(X) = 0, 0625

El estadı́stico de contraste lo obtenemos tipificando la media muestral de acuerdo con el teorema


del lı́mite central


n(X − E(X))
Z = p
V ar(X)

16(0, 2 − 0, 25)
= √
0, 0625
= −0, 8.

Calculamos el nivel crı́tico


7.4. PRÁCTICAS EN R 77

p = P (Z ≤ −0, 8) = 0, 21.
Al ser un contraste bilateral comparamos el nivel crı́tico con α/2. Como 0, 21 > α/2 = 0, 005
mantenemos H0 y no podemos concluir que E(X) sea distinto de 0,25, es decir no podemos rechazar
la hipótesis nula.

7.4. Prácticas en R
Los ejercicios sobre contraste de hipótesis podemos replicarlos en R utilizado las funciones
vistas en el capı́tulo 3 para obtener las probabilidades asociadas a cada distribución, y a la inversa,
para conocer el valor de la variable asociado a una determinada probabilidad. Vamos a replicar el
cálculo de la potencia en el ejemplo del apartado 7.2. Los datos de entrada son los valores n = 4,
µ0 = 12, µ1 = 16, σ = 4 y α = 0, 05. El siguiente código R calcula el primer lugar el punto crı́tico,
es decir el valor de Z asociado a α, después lo convierte a puntuación directa, y por último busca
la probabilidad del punto critico en puntiación directa bajo la distribución de H1 .

n <- 4
mu_0 <- 12
mu_1 <- 16
sigma <- 4
alpha <- 0.05

Zc <- qnorm(alpha, lower.tail=FALSE) # Punto crı́tico en puntuación tı́pica


Xc <- mu_0 + Zc*sigma/sqrt(n) # Punto crı́tico en puntuación directa

# Probabilidad a la derecha del punto crı́tico en la distribución de H1


potencia <- pnorm(Xc, mu_1, sigma/sqrt(n), lower.tail=FALSE)

print(sprintf("El punto critico es %6.3f, Zc = %6.3f. La potencia vale %5.3f",


Xc, Zc, potencia))

7.5. Ejercicios
Ejercicio 1 Supongamos que se toma la siguiente muestra de una distribución normal (µ, 2):

x = (30, 33, 26, 29)0 .

Contraste la hipótesis H0 : µ = 32 frente a H1 : µ 6= 32.


78 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS

Obtenga el estimador por intervalos de µ con un nivel de confianza de 0,99.

Calcule la potencia si el verdadero valor de µ es 34.

Ejercicio 2 Se ha tomado la siguiente muestra de una distribución de Poisson:

x = (8, 7, 11, 2)0 .

Contraste la hipótesis H0 : λ = 5.

Ejercicio 3 Se ha tomado la siguiente muestra de una distribución exponencial:

x = (2, 6, 5, 3)0 .

1. Obtenga el estimador máximo-verosı́mil de ω y su varianza.

2. Contraste la hipótesis H0 : ω ≥ 0,1 frente a H1 : ω < 0, 3.

Ejercicio 4 Se va a realizar el siguiente contraste en una distribución exponencial:

H0 : ω ≥ 0, 3
H1 : ω < 0, 3

Además se utilizará la siguiente regla de decisión: rechazar H0 si ω̂ ≤ 0, 2, mantener H0 en caso


contrario.

1. Obtenga el estimador máximo-verosı́mil de ω y su varianza.

2. Calcule α y 1 − β siendo ω = 0, 1 y n = 4.
Parte III

Apendice

79
Apéndice sobre análisis
matemático

Para seguir el curso de Fundamentos de Estadı́stica Teórica se requiere utilizar los conceptos de
análisis matemático que se estudian en el bachillerato. En este apéndice se describen brevemente
aquellos contenidos que más se utilizan en el curso.

1. Funciones
Una función real de variable real es una aplicación que asigna a cada elemento de un subconjunto
D ⊂ R, denominado dominio de la función, un elemento de R:

f :D→R

Ejemplo 1 Sea la función raı́z cuadrada


f (x) = x.

El dominio de la función son los números reales no negativos, dado que f (x) no está definida para
valores reales menores que cero.

A continuación se estudian tres tipos de funciones. Las polinómicas porque su sencillez las
hace útiles para repasar conceptos de cálculo diferencial. La exponencial y logarı́tmica por su
importancia para la estadı́stica.

1.1. Polinomios
Una función f : R → R se llama polinomio cuando viene dada por:

f (x) = a0 + a1 x + a2 x2 + · · · + an xn ,

siendo a1 , a2 , . . . , an los coeficientes del polinomio y n un número natural llamado grado del poli-
nomio.

81
82

Ejemplo 2 Sean los polinomios:

f (x) = 2 + 3x ,
g(x) = 2 + 3x + 4x2 .

Su representación gráfica puede verse en la figura 7.2, la función f (x) se denomina función
lineal, y g(x) se denomina función cuadrática porque el grado del polinomio es 2.

Figura 7.2: Polinomios

1.2. Función exponencial


La función exponencial toma como base el número e = 2,7182... La función es:

exp(x) = ex .

Algunas propiedades importantes de la función exponencial son:

1. exp(0) = 1 .

2. exp(x + y) = exp(x) exp(y) .

3. exp(−x) = 1/ exp(x) .

4. exp(x)n = exp(nx) .

5. lı́mx−>∞ exp(x) = ∞ .

6. lı́mx−>−∞ exp(x) = 0 .

Ejemplo 3 La figura 7.3 muestra la representación gráfica de tres funciones exponenciales:


83

f (x) = exp(x)
g(x) = exp(2x)
h(x) = 2 exp(2x)

Figura 7.3: Funciones exponenciales

La segunda propiedad de la función exponencial se utiliza con gran frecuencia en estadı́stica,


cuando se busca la probabilidad de una intersección de sucesos independientes. Supongamos que
f (Sx ) = exp(x) es la probabilidad de que ocurra un suceso Sx y f (Sy ) = exp(y) es la probabilidad
asignada a un suceso Sy . Entonces la probabilidad de que ocurran ambos simultáneamente es

f (Sx ∩ Sy ) = exp(x) exp(y)


= exp(x + y).

1.3. Función logaritmo


El logaritmo es la inversa de la exponencial. Si ex = y entonces el logaritmo en base e de y es
loge y = x, lo cual suele escribirse del modo:

log(y) = x .

En la expresión log(y) se asume implı́citamente que la base es e, y se denomina logaritmo natural


o neperiano. Algunas propiedades importantes son:

1. log(1) = 0 .
84

2. log(xy) = log(x) + log(y) .

3. log(1/x) = − log(x) .

4. log(x)n = n log(x) .

5. lı́mx−>∞ log(x) = ∞ .

6. lı́mx−>0 log(x) = −∞ .

7. log exp(x) = x .

El logaritmo, log(y), no está definido para valores de y negativos porque no existe ningún
número x tal que ex < 0.

Ejemplo 4 La figura 7.4 muestra las funciones

f (x) = log(x)
g(x) = log(2x)
h(x) = 2 log(2x)

Es importante apreciar en la figura 7.4 que cuando x → 0 el logaritmo log x → −∞, y que
log 1 = 0. Por tanto, al logaritmo de valores de x en el intervalo (0, 1] le corresponden valores en
el intervalo [−∞, 0). Esta propiedad será de utilidad en estadı́stica cuando tomemos el logaritmo
de funciones de probabilidad. Una función de probabilidad f (x) toma valores entre 0 y 1. Si f (x)
está próximo a 0 entonces log f (x) tomará un valor muy bajo que indica baja probabilidad. Si f (x)
está próximo a 1 entonces logf (x) será próximo a 0, lo que indica alta probabilidad.

Figura 7.4: Funciones logarı́tmicas

Una de las propiedades más importantes de la función logaritmo para la estadı́stica es que se
trata de una función monótona creciente, lo cual significa que si x > y entonces log x > log y. En
la estimación de parámetros de modelos estadı́sticos es necesario encontrar el valor de x que hace
85

máxima f (x); gracias a la propiedad de monotonı́a este valor también hace máxima la función
log f (x). En estadı́stica se utilizan funciones para las que la forma de log f (x) es más sencilla que
f (x). Por esta razón para encontrar el máximo de f (x) se busca el valor que maximiza log f (x) en
lugar de trabajar directamente con f (x).

Ejemplo 5 Supongamos que quisiéramos encontrar el valor de x que hace máxima la función

f (x) = exp(−0,5(x − 2)2 ).

Gracias a la propiedad de monotonı́a, resulta equivalente buscar el máximo de la siguiente función

g(x) = log f (x) = −0,5(x − 2)2 .

Como g(x) es más sencilla que f (x), al haberse eliminado la exponencial, resulta más sencillo
trabajar con ella para encontrar el máximo. La figura 7.5 muestra la representación gráfica de
las funciones f (x) y g(x). Puede verse que la forma de ambas no es igual, sin embargo, ambas
aumentan y disminuyen al mismo tiempo, por lo que el máximo se sitúa en el mismo punto: x = 2.

Figura 7.5: Monotonı́a de la función logaritmo

2. Cálculo diferencial
Se denomina derivada de la función f en el punto c al siguiente lı́mite, en caso de que exista y
sea finito:
86

f (x) − f (c)
lı́m .
x→c x−c
La derivada se indica por f 0 (x). Se interpreta como la pendiente de la recta tangente a f (x) en el
punto c. En el máximo y el mı́nimo de f (x) la pendiente de la tangente es 0. Esta propiedad se
utiliza en estadı́stica para buscar estimadores maximizando funciones.

Ejemplo 6 La figura 7.6 muestra la función

f (x) = 1 + 4(x − 5)2 + 6(x − 5)3

y la recta tangente en varios puntos. Podemos apreciar como una recta tangente plana, es decir
con pendiente cero, indica un máximo o un mı́nimo.

Figura 7.6: Tangentes a una curva

Ejemplo 7 Sea la función:

f (x) = x2 ,

su derivada en el punto c es:

f (x) − f (c)
f 0 (x) = lı́m
x→c x−c
x2 − c2
= lı́m
x→c x − c
(x + c)(x − c)
= lı́m
x→c x−c
= lı́m (x + c)
x→c
= 2c .

Como f 0 es constante no hay ningún valor de x que haga que f 0 (x) = 0, por lo que no hay máximos
ni mı́nimos.
87

2.1. Reglas de derivación


En la práctica, la derivada de una función no suele obtenerse aplicando la definición. En su
lugar, se emplean las reglas de derivación, que son el resultado de aplicar la definición de derivada
a las funciones elementales. Algunas reglas de derivación son:

1. Si f (x) = c, entonces f 0 (x) = 0 .

2. Si f (x) = x, entonces f 0 (x) = 1 .

3. Si f (x) = axb , entonces f 0 (x) = abxb−1 .

4. Si f (x) = exp(bx), entonces f 0 (x) = b exp0 (bx) .

5. Si f (x) = log(x), entonces f 0 (x) = 1


x .

6. Si f (x) = g(x)h(x), entonces f 0 (x) = g 0 (x)h(x) + g(x)h0 (x) .

7. Si

g(x)
f (x) = ,
h(x)

entonces

g 0 (x)h(x) − h(x)g 0 (x)


f 0 (x) =
h2 (x)

Ejemplo 8 . Sea la función polinómica

f (x) = x3 + 4x2 + 5x + 6 .

Su derivada primera es:

f 0 (x) = 3x2 + 8x + 5 ,

La segunda y tercera derivadas de f (x) son

f (2) (x) = 6x + 8,
f (3) (x) = 6.
88

2.2. Regla de la cadena


La regla de la cadena se utiliza para derivar funciones compuestas, es decir, funciones que
pueden escribirse del modo h(x) = f (g((x)), siendo f y g otras funciones. La derivada de una
función compuesta se calcula del modo:

h0 (x) = f 0 (g(x))g 0 (x) .

Ejemplo 9 Sea la función

h(x) = (x3 − 2)2 .

Dicha función puede entenderse como una función compuesta por las siguientes

f (y) = y2 ,
g(x) = x3 − 2 ,

dado que f (g(x)) = (x3 − 2)2 . Por tanto

f 0 (y) = 2y ,
g 0 (x) = 3x2 .

Teniendo en cuenta que f 0 (g(x)) = 2(x3 − 2), al aplicar la regla de la cadena se obtiene

h0 (x) = 2(x3 − 2)3x2 .

Ejemplo 10 Sean las funciones:

f (y) = exp(y) ,
g(x) = x3 .

La derivada de cada función es:

f 0 (y) = exp(y) ,
g 0 (x) = 3x2 .

La derivada de la función compuesta h(x) = f (g((x)) = exp(x3 ) es

h0 (x) = f 0 (g(x))g 0 (x)


= exp(x3 )3x2 .
89

La regla de la cadena da origen a la denominada derivación logarı́tmica, que se aplica cuando


es complejo obtener la derivada de una función pero la derivada de su logaritmo es más sencilla.
Sea la función:

h(x) = log f (x) .

Entonces, por la regla de la cadena puede demostrarse que

f 0 (x)
h0 (x) = .
f (x)
De donde se deduce la regla de derivación logarı́tmica:

f 0 (x) = f (x)h0 (x)


= f (x)(log f (x))0 .

Ejemplo 11 Obtenga la derivada de la función

f (x) = (x + 1)(x − 1)

Tomamos el logaritmo

log f (x) = log(x + 1) + log(x − 1),

y derivamos

1 1
(log f (x))0 = + .
x+1 x−1
Juntando todos los términos se encuentra el resultado

f 0 (x) = f (x)(log f (x))0


 
1 1
= (x + 1)(x − 1) +
x+1 x−1
= (x − 1) + (x + 1)
= 2x.

Ejemplo 12 Obtenga la derivada de:

f (x) = exp(x3 )x2 .

Su logaritmo es:
90

log f (x) = log[exp(x3 )x2 ]


= log[exp(x3 )] + log x2 (por la segunda propiedad de los logaritmos)
3
= x + 2 log(x) .

En consecuencia

0 2
(log f (x)) = 3x2 + .
x
Aplicando la regla de la derivación logarı́tmica:

f 0 (x) = f (x)(log f (x))0


 
3 2 2 2
= exp(x )x 3x +
x
= 3x4 exp(x3 ) + 2x exp(x3 ) .

Puede advertirse que la solución a este ejemplo también podı́a haberse obtenido mediante la sexta
regla de derivación, en lugar de emplear derivación logarı́tmica:

f 0 (x) = (exp(x3 ))0 x2 + exp(x3 )(x2 )0


= 3x4 exp(x3 ) + 2x exp(x3 ) .

3. Estudio de una función derivable


Utilizando las derivadas de una función, f , es posible determinar en qué puntos alcanza un
valor máximo, un mı́nimo y en qué intervalos es cóncava o convexa; se dice que una función tiene
un extremo en x0 si en dicho punto alcanza un máximo o un mı́nimo. Estas propiedades serán de
utilidad en la estimación de parámetros de modelos estadı́sticos:

Creciente. Una función es creciente en x0 si f 0 (x0 ) ≥ 0.

Decreciente. Una función es decreciente en x0 si f 0 (x0 ) ≤ 0.

La f alcanza un extremo en x0 si es derivable en x0 y f 0 (x0 ) = 0.

Para saber si un extremo es un máximo o un mı́nimo se utiliza el criterio de la segunda derivada.


Supongamos que f 0 (x0 ) = 0 entonces:

Si f 00 (x0 ) > 0 entonces f posee en x0 un mı́nimo local.

Si f 00 (x0 ) < 0 entonces f posee en x0 un máximo local.


91

Además, las funciones reales se estudian no sólo en puntos concretos de su dominio sino en
intervalos del mismo. Supongamos que una función, f (x), está definida en un intervalo x ∈ (a, b).
Entonces

Si f 00 (x) > 0 para todo x ∈ (a, b) entonces f es convexa en (a, b).

Si f 00 (x) < 0 para todo x ∈ (a, b) entonces f es cóncava en (a, b).

Ejemplo 13 Vamos a buscar los máximo y mı́nimos de la función

f (x) = 1 + 4(x − 5)2 + 6(x − 5)3

cuya representación gráfica se ha visto en la figura 7.6. La derivada de f (x) con respecto a x es

f 0 (x) = 8(x − 5) + 18(x − 5)2


= (x − 5)[8 + 18(x − 5)]

La derivada, f 0 (x), toma el valor cero cuando se cumple una de las dos condiciones

(x − 5)2 = 0
8 + 18(x − 5) = 0

Con respecto a la primera condición, (x − 5)2 = 0 cuando x = 5. Con respecto a la segunda


condición tenemos que 8 + 18(x − 5) = 18x − 82 = 0, por lo que x = 82/18 ≈ 4, 56. En cada uno de
estos puntos la función tiene un extremo (máximo o mı́nimo) o un punto de inflexión. Para saber
de qué tipo de punto se trata es necesario utilizar la segunda derivada:

f 00 (x) = 8 + 36(x − 5)

El valor de la segunda derivada nos informa del comportamiento de f (x) en cada uno de los puntos:

1. Cuando x = 5 la segunda derivada es f 00 (5) = 8 > 0, luego f tiene un mı́nimo en este punto.

2. Cuando x = 82/18 la segunda derivada es f 00 (82/18) = −8 < 0; luego f tiene un mı́nimo en


este punto.

Ejemplo 14 Consideremos la función f (x) = −x4 +2x2 . Sus derivadas de primer y segundo orden
son
92

f 0 (x) = −4x3 + 4x .
f 00 (x) = −12x2 + 4 .

Vamos a buscar los extremos de f utilizando su primera derivada, que se puede escribir:

f 0 (x) = x(−4x2 + 4) .

Obviamente f 0 = 0 cuando x = 0. Además, f 0 = 0 cuando 4x2 = 4, lo cual se cumple cuando


x = 1 o x = −1. Por tanto, hay que determinar el comportamiento de la función en los puntos
-1, 0 y 1, para lo cual empleamos la segunda derivada. El valor de f 00 en los puntos -1, 0 y 1 es
respectivamente -8, 4 y -8, lo que significa que en 0 la función tiene un mı́nimo en 0 y tiene un
máximo en -1 y 1.
Podemos completar el estudio de la función analizando su concavidad y convexidad. La ecuación
f = 0 se resuelve para los valores -0.577 y 0.577. Para valores de x entre -0.577 y 0.577 f 00 > 0
00

por lo que f es convexa. Para valores de x fuera de este intervalo f 00 < 0 y la función es cóncava.
La figura 7.7 muestra el gráfico de f , f 0 y f 00 .

Figura 7.7: Funciones f , f 0 y f 00

4. Cálculo integral
El cálculo integral tiene dos aplicaciones primordiales en estadı́stica: calcular probabilidades
utilizando el área comprendida dentro de una función de distribución y calcular momentos (como
medias o varianzas) de una distribución. Para ello necesitamos los conceptos de integral indefinida
y definida.
93

4.1. Integral indefinida


Se denomina integral indefinida de f a una función F cuya derivada es f . La integral indefinida
se representa del modo:
Z
f (y)dy = F (x) + C ,

donde C es una constante arbitraria. A la función F se le denomina primitiva de f .

Integrales inmediatas

Las integrales más sencillas son aquellas que pueden resolverse sin más que utilizar una tabla
de primitivas. Supongamos que k es una constante y f y g son dos funciones de x. Algunas reglas
de integración sencillas son:
R R
kf (x) dx = k f (x) dx .
R R R
(f (x) + g(x)) dx = f (x) dx + g(x) dx .
q+1
x dx = xq+1 + C .
R q

exp(qx) dx = exp(qx)
R
q +C .
R 1
x dx = log x + C .

Ejemplo 15 Obtenga una primitiva de la función

x5
f (x) = 1 + 2x + 3x2 + 4x3 + x4 + .
2
La integral indefinida es

x5
Z Z
f (x) dx = (1 + 2x + 3x2 + 4x3 + x4 + ) dx
2
x5 x6
= x + x2 + x3 + x4 + + +C .
5 12

x5 x6
Por lo que una primitiva es F (x) = x + x2 + x3 + x4 + 5 + 3 .

Ejemplo 16 Obtenga una primitiva de la función:

2
. f (x) =
x
Utilizando la quinta regla de integración y asumiendo que x es positivo:

F (x) = 2 log(x).

Se deja como ejercicio para el lector comprobar que F 0 (x) = f (x).


94

Ejemplo 17 Obtenga una primitiva de la función:

f (x) = exp(−2x).

Es una integral inmediata, utilizando la cuarta regla:

exp(−2x)
F (x) = .
−2
Se comprueba fácilmente que la derivada de F (x) es f (x):

−2 exp(−2x)
F 0 (x) = = exp(−2x).
−2

4.2. Integral definida


Imaginemos la curva determinada por la función y = 4 − x2 que aparece representada en la
figura 7.8 para valores de x entre -2 y 2. El problema es medir el área comprendida entre la curva
y el eje de abscisas, representada por una zona sombreada. En una función de distribución dicho
área debe ser 1.

Figura 7.8: Curva y = 4 − x2

El área de una curva puede aproximarse utilizando rectángulos. El área de un rectángulo de


dimensiones ab es a × b. Si se divide el eje de abscisas en varios puntos x1 , x2 , . . . , xn de modo que
la anchura entre ellos xk+1 − xk es constante, puede aproximarse el área de f (x) mediante la suma
del área de varios rectángulos inscritos en la función. La figura 7.9 muestra esta aproximación.

A medida que se reduce la base de los rectángulos y se incrementa el número de ellos, la suma
de las áreas de los rectángulos constituye una mejor aproximación al área de la curva. De modo
intuitivo, podemos entender la integral definida de una función f en el intervalo [a, b] como la suma
de las áreas de infinitos rectángulos incluidos en la figura. La integral definida se indica del modo
Z b
f (x) dx .
a
95

Figura 7.9: Aproximación al área mediante rectángulos

4.5. Relación entre derivación e integración


La relación entre derivación e integración viene dada por dos teoremas, denominados teoremas
fundamentales del cálculo. La primera de estas relaciones ya la hemos visto en la definición de
integral indefinida y está recogida en el primer teorema:

Teorema 3 (Primer teorema fundamental del cálculo) . Si f (x) es una función integrable
en [a, b] y continua en el punto x ∈ [a, b], entonces la integral indefinida F (x) es derivable en x y
además F 0 (x) = f (x).

El segundo teorema nos dice cómo obtener el área comprendida por una función f (x) entre
dos puntos a y b. Simplemente debemos calcular la primitiva F (x) y el área será la diferencia
F (b) − F (a). En concreto:

Teorema 4 (Segundo teorema fundamental del cálculo) . Sea f (x) es una función integra-
ble en [a, b] y supongamos que F (x) es una primitiva suya, entonces:

Z b
b
f (x)dx = [F (x)]a
a
= F (b) − F (a) ,

para todo x ∈ [a, b].

b b
Los sı́mbolos [F (x)]a y F (x)|a se utilizan con frecuencia en el contexto de la integral definida
para representar la diferencia entre los valores de F en b y a. Es decir

b
[F (x)]a = F (b) − F (a)
b
F (x)|a = F (b) − F (a)
96

Ejemplo 18 Vamos a obtener el área comprendida bajo la curva mostrada en la figura 7.8. Dicha
curva está definida por la función:

f (x) = 4 − x2 .

Además, la curva corta el eje de abscisas (es decir, f (x) = 0) en los puntos x = −2 y x = 2. Por
tanto, el área viene dada por la integral definida

Z 2
(4 − x2 ) dx .
−2

Para resolver el problema, obtenemos en primer lugar una primitiva de f (x):

x3
Z
(4 − x2 ) dx = 4x − + C,
3

x3
con lo que F (x) = 4x − 3 . El área pedida es el resultado del cálculo:

Z 2
(4 − x2 ) dx = F (2) − F (−2),
−2

es decir

2  2
x3
Z 
2
(4 − x ) dx = 4x −
−2 3 −2
23 (−2)3
   
= 4(2) − − 4(−2) −
3 3
 
8
= 16 − 2
3
32
= .
3

Ejemplo 19 Vamos a obtener el área comprendida por la función

f (x) = x4

entre los puntos -1 y 1. La integral indefinida es

x5
Z
x4 dx = + C.
5

x5
Entonces, dada una primitiva F (x) = 5 , la integral definida es:
97

Z 1
x4 dx = F (1) − F (−1)
−1
1
x5
=
5 −1
15 −15
= −
5 5
2
= .
5
Ejemplo 20 Sea la función f (x) = 2 + 3x2 , obtenga f 0 (x) y la integral indefinida f 0 (x) dx.
R

La derivada de f (x) es:

f 0 (x) = 6x .

Integrando esta derivada se obtiene la integral indefinida:


Z
6x dx = 3x2 + C.

Por lo que una primitiva es F (x) = 3x2 .

6. Vectores y operaciones con vectores


Un vector es una ordenación de n objetos; en estadı́stica suelen utilizarse para representar una
muestra de datos. El objeto en la posición i se indica mediante el sı́mbolo xi , mientras que el vector
se indica del modo x , es decir, la misma letra en negrilla. Por ejemplo, un vector de tres objetos es
 
x1
x =  x2 
 

x3

De modo general, un vector de n observaciones tiene la forma

 
x1
x2
 
 
x =
 .. 

 . 
xn
0
Si no se indica lo contrario, un vector se coloca en forma de columna de elementos. El sı́mbolo
indica la operación de trasponer un vector, convirtiendo ası́ un vector columna en vector fila:

x = (x1 , . . . xn )0
98

6.1. Sumatorio y producto de vectores


Dos operaciones elementales sobre vectores son la suma y producto de sus elementos:

El sı́mbolo Σ indica la suma de los elementos de un vector. Si es necesario hacer explı́cito


qué elementos se están sumando, se utilizan subı́ndices. Por ejemplo:

n
X
xi = x1 + · · · + xn ,
i=1
3
X
xi = x1 + x2 + x3 ,
i=1
4
X
xi = x2 + x3 + x4 ,
i=2
3
X
xi = x1 + x3 ,
i=1
i6=2
5
X
xi = x1 + x3 + x5 ,
i=1
i impar
X
xi = x1 + · · · + xn .
i

Q
El sı́mbolo del producto ( ) es similar al del sumatorio, pero indica el producto de los
elementos del vector en lugar de la suma:

n
Y
= x1 x2 . . . xn .
i=1

6.2 Función exponencial y logaritmo


P Q
En el campo de la estadı́stica, los sı́mbolos y aparecen con mucha frecuencia en el cálculo
de funciones de probabilidad en las que intervienen las funciones exponencial y logaritmo. Según
hemos visto, una de las propiedades de la función exponencial es:

exp(x1 ) exp(x2 ) = exp(x1 + x2 ) .

De igual modo, para un vector de tres observaciones tenemos que

exp(x1 ) exp(x2 ) exp(x3 ) = exp(x1 + x2 + x3 )

y generalizando para un vector de n observaciones


99

n n
!
Y X
exp(xi ) = exp xi .
i=1 i=1

Por otra parte, supongamos que x = (x1 , . . . , xn )0 es un vector y se define la función

n
Y
f (x ) = exp(xi ) ,
i=1

entonces, la función logaritmo de f toma la forma

n
! n
X X
log f (x ) = log exp xi = xi ,
i=1 i=1

Con estas transformaciones, a partir de la función f (x ) que tenı́a una forma relativamente compli-
cada -el producto de n términos- se ha obtenido una función mucho más sencilla (log f (x )). Este
tipo de transformaciones aparecen continuamente el el campo de la estadı́stica.

Ejemplo 21 Supongamos que en un estudio estadı́stico hemos encontrado la muestra x = (x1 , x2 , x3 )0


y la siguiente función indica la probabilidad de encontrar un resultado x

g(x, ω) = exp((x − ω)2 ) ,

donde ω es un parámetro que describe la población de la que proceden estas observaciones. Vamos
a realizar algunas transformaciones sobre g(x, ω) que son comunes en estadı́stica. En primer lugar,
el producto de las tres funciones de probabilidad g(x1 , ω), g(x2 , ω) y g(x3 , ω) es

3
Y
f (x, ω) = g(xi , ω)
i=1
3
Y
= exp((xi − ω)2 )
i=1
3
X
= exp( (xi − ω)2 ).
i=1

Tomamos el logaritmo de f :

l(x, ω) = log f (x, ω)


3
X
= (xi − ω)2
i=1

Supongamos que la muestra concreta que hemos encontrado en nuestro estudio estadı́stico es x =
(1, 2, 3)0 , entonces
100

f (x, ω) = exp((1 − ω)2 + (2 − ω)2 + (3 − ω)2 )


l(x, ω) = (1 − ω)2 + (2 − ω)2 + (3 − ω)2

cuya representación gráfica para distintos valores de ω aparece en la figura 7.10. Puede verse que
ambas alcanzan el valor mı́nimo en el mismo punto. Esto se debe a que la función logaritmo es
monótona, por lo que cuando f (x, ω) aumenta también lo hace l(x, ω), al igual que cuando f (x, ω)
disminuye también disminuye l(x, ω). Por tanto, para buscar el valor de ω que maximiza f (x, ω)
basta buscar el que maximiza l(x, ω), que es una función más sencilla y cómoda de manejar.

Figura 7.10: Funciones f y l

Para buscar exactamente el mı́nimo de l(x, ω) tomamos su primera derivada con respecto a ω:

l0 (x, ω) = −2(1 − ω) − 2(2 − ω) − 2(3 − ω) = −12 + 6ω.


Igualamos la primera derivada a cero y despejamos ω:

−12 + 6ω = 0
ω = 2

Por tanto el mı́nimo de l(x, ω) se encuentra en ω = 2. Podemos comprobar que, efectivamente, el


el mı́nimo de una función la segunda derivada es positiva. Derivando de nuevo:
101

l00 (x, ω) = 6.

Por lo que l00 (x, ω) > 0 en el punto ω = 2, según vimos en el apartado del estudio local de una
función.

Ejercicios del suplemento de análisis matemático


Ejercicio 1 . Obtenega la derivada de las siguientes funciones:

f (x) = 2x3 + 4x2 − x + 1

f (x) = log(5x2 + 3)

f (x) = exp(5x2 + 3)

f (x) + g(x), siendo f (x) = log(2x5 ) y g(x) = log(x−3 )

f (x).g(x), siendo f (x) = exp(2x5 ) y g(x) = exp(x−5 + x2 )

Ejercicio 2 Sea la función:

f (x) = x2 + x + 1 .

Calcule la integral:
Z 1
f (x) dx.
−1

Ejercicio 3 Sea la función:

f (x) = x2 + ax + b .

Calcule la integral:
Z 1
f (x) dx.
−1

Ejercicio 4 . Obtener los máximos, mı́nimos y puntos de concavidad y convexidad de las funcio-
nes:

f (x) = exp(−x2 )

f (x) = x3 − x

Ejercicio 5 . Obtenga una primitiva de las funciones:

3x2 −6x
f (x) = x3 −3x2
102

f (x) = 6x exp(3x2 )

Ejercicio 6 . Obtenga las integrales:


R0
−∞
exp(x) dx
1
R6 2
36 0 (−x + 6x) dx

Ejercicio 7 . Encuentre el valor de x que maximiza la función:

f (x) = exp(−(x − 3)2 ).

Ejercicio 8 Obtenga la derivada y el valor de x que maximiza la función:

exp(x)
f (x) = .
1 + exp(x)
Ejercicio 9 Dadas las funciones:

 
1
f (x) = exp − (x − 2)2 ,
2
g(x) = log f (x) .

Responder a las siguientes cuestiones:

1. Obtenga la primera derivada de f (x) y g(x).

2. Obtenga la segunda derivada de f (x) y g(x).

3. Busque el máximo de f (x) y g(x).

Ejercicio 10 Sea la función:

f (x) = x(1 − x) .

donde 0 ≤ x ≤ 1. Responda a las siguientes cuestiones:

1. Obtenga log f (x).

2. Obtenga la primera derivada de log f (x) con respecto a x.

3. Busque el valor de x que maximiza log f (x).

Ejercicio 11 Sea la función:

f (x) = xa (1 − x)b .

donde 0 ≤ x ≤ 1. Responda a las siguientes cuestiones:


103

1. Obtenga log f (x).

2. Obtenga la primera derivada de log f (x) con respecto a x.

3. Busque el valor de x que maximiza log f (x).

Ejercicio 12 Dada la función:

f (x) = exp(λx) .

Obtenga la integral:
Z 0
h(x)dx .
−∞

Ejercicio 13 Sea la función:

f (x) = (x2 + 4x)(x3 − x5 ) exp(−x4 ) .

Obtenga f 0 (x) mediante derivación logarı́tmica.

Ejercicio 14 Obtenga la derivada de

f (x) = x3

utilizando la definición de derivada como un lı́mite.

Você também pode gostar