Escolar Documentos
Profissional Documentos
Cultura Documentos
Javier Revuelta
2 de febrero de 2017
Índice general
I Teorı́a de la probabilidad
1. Introducción a la probabilidad 1
1.1. Espacio muestral y sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Probabilidad condicionada e independencia . . . . . . . . . . . . . . . . . . . . . . 7
1.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2. Variable aleatoria 11
2.1. Variable aleatoria y función de distribución . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2. Valores esperados y momentos de una distribución . . . . . . . . . . . . . . . . . . 18
2.3. Muestra aleatoria simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4. Prácticas en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.1. Representación gráfica de funciones . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.2. Maximización de funciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.3. Cálculo de los momentos de una distribución . . . . . . . . . . . . . . . . . 27
2.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3. Distribuciones 31
3.1. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.1. Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.1.2. Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2. Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.1. Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.2. Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3. Distribuciones en lenguaje R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.1. Función de densidad y función de distribución . . . . . . . . . . . . . . . . . 39
3.3.2. Función de distribución inversa . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.3. Simular datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
ÍNDICE GENERAL
II Inferencia estadı́stica 51
7. Contraste de hipótesis 71
7.1. Conceptos fundamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2. Contrastes basados en los estimadores máximo-verosı́miles . . . . . . . . . . . . . . 73
7.3. Contrastes basados en el teorema del lı́mite central . . . . . . . . . . . . . . . . . . 75
7.4. Prácticas en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
7.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
III Apendice 79
Parte I
Teorı́a de la probabilidad
Capı́tulo 1
Introducción a la probabilidad
Uno de los propósitos de la ciencia es enunciar leyes que expliquen el comportamiento de los
fenómenos del mundo real. En general, dichas leyes pueden clasificarse en dos tipos:
Determinı́sticas. Son aquellas que predicen con absoluta certeza. Son tı́picas de las ciencias
fı́sicas; por ejemplo, la relación entre la temperatura, el volumen y la presión de un gas.
Este curso trata sobre los fundamentos de los modelos aleatorios con el objetivo de que el lector
pueda aplicarlos en ciencias sociales.
Definición 1 (Suceso elemental) Cada uno de los posibles resultados de un experimento aleato-
rio se denomina suceso elemental. Los sucesos elementales se indican mediante letras mayúsculas:
A, B, etc.
Ejemplo 1 Se pide a un sujeto con dislexia que lea en alto cinco palabras. Un posible suceso es A =
{no cometer ningún error en la lectura}, otro suceso es B = {cometerunerrorenlaprimerapalabra},C
= {cometerunerrorenlasegundapalabra}, etc.
1
2 CAPÍTULO 1. INTRODUCCIÓN A LA PROBABILIDAD
Ejemplo 2 Como parte de un test de inteligencia, se pide a un sujeto que resuelva un rompecabezas
y no se fija tiempo lı́mite. Se mide el tiempo que tarda en completarlo. Un posible resultado es A =
{tardar 20 segundos}, otro serı́a B = {tardar 55 segundos}, etc. En este ejemplo, a diferencia del
anterior, el número de posibles resultados diferentes es infinito.
La definición de Ω en un problema concreto depende de cual sean los aspectos que desean
analizarse. Una distinción básica es entre espacio muestral finito o infinito.
Ejemplo 3 Un sujeto responde al siguiente ı́tem perteneciente a una escala de actitudes: “Creo
que habrı́a que fomentar el uso del transporte público”. Las posibles respuestas son:
Ejemplo 4 Continuando con el ejemplo 1, el resultado de la lectura de cada palabra puede consi-
derarse en sı́ un experimento aleatorio con espacio muestral Ω = {E, A}. Si la lectura de las cinco
palabras se considera un único experimento aleatorio entonces el número de posibles resultados es
25 = 32 y el conjunto Ω es la colección de estos 32 resultados.
Ω = {0, 1, 2, . . . }
Este serı́a un espacio muestral infinito numerable. Es decir, tiene infinitos elementos que pueden
contarse.
Ejemplo 6 Supongamos que en el ejemplo 2 el tiempo de respuesta se mide con absoluta precisión;
es decir, es una variable real. Como sucede a menudo, este caso es meramente teórico dado que en
la práctica es imposible disponer de dicho instrumento de medida, pero es útil formularlo ası́ para
simplificar el modelo matemático. El espacio muestral es:
Ω = {t; t ≥ 0}
Se trata de un espacio muestral infinito no numerable. Es decir, tiene infinitos elementos que,
por las propiedades de los números reales, no pueden contarse.
A partir de los sucesos elementales, es posible crear sucesos compuestos utilizando las siguientes
leyes de composición:
1. Unión de sucesos. Dados dos sucesos A y B, el suceso unión, A ∪ B, es el suceso que se realiza
cuando se realiza A o B.
1.1. ESPACIO MUESTRAL Y SUCESOS 3
Ejemplo 7 Continuando con el ejemplo 3, supongamos que la escala de actitudes consta de dos
ı́tems con tres opciones de respuesta cada uno. El espacio muestral es el conjunto de todos los
posibles resultados:
D = {AA}
El conjunto E = C significa no estar de acuerdo con alguno de los ı́tems. Contiene los
elementos:
E = {N N, N D, DN, DD}
Ejemplo 8 Se define el experimento aleatorio consistente en lanzar una moneda. El espacio mues-
tral es Ω = {c, x}. A partir de este espacio muestral es posible definir los siguientes subconjuntos:
Donde ∅ es el conjunto vacı́o que indica que no se verifica ningún resultado en el lanzamiento
de la moneda. {c, x} es el suceso seguro, equivalente al espacio muestral, que indica que en el
lanzamiento se obtiene cara o cruz, por lo que dicho suceso se verificará con cualquier resultado.
Se dice que dos sucesos son excluyentes si su intersección es el conjunto vacı́o; es decir si
A ∩ B = ∅.
Ω = {1, 2, 3, 4, 5, 6}
B ∩ C = {6}
Sin embargo, los sucesos A y C son excluyentes. Como ni existe ningún múltiplo de tres que
sea menor que tres, no tienen ningún elemento en común. Es decir, la intersección de A y C es el
conjunto vacı́o: A ∩ B = ∅.
1.2. Probabilidad
En un experimento aleatorio no es posible determinar con exactitud cual será el resultado.
Sin embargo, unos resultados suelen ser más verosı́miles que otros. Intuitivamente, la probabilidad
indica el grado de confianza en que ocurra cada suceso. Existen diferentes interpretaciones del
concepto de probabilidad que pretenden dar sentido a esta idea. Algunas de ellas son las siguientes:
2. Probabilidad frecuentista. Supongamos que se lanza un dado N veces en las mismas condi-
ciones y sale la cara c un número n de veces. La definición frecuentista de la probabilidad de
obtener el resultado c es:
n
P (c) = lı́m .
N →∞ N
A diferencia del enfoque clásico, basado en la construcción teórica del objeto en cuestión, la
probabilidad frecuentista se basa en un recuento de resultados si se realizara empı́ricamente el
procedimiento aleatorio un número indefinido de veces. Esto supone una ampliación concep-
tual del rango de aplicaciones de la probabilidad dado que existen fenómenos para los que no
puede determinarse la probabilidad al modo clásico pero sı́ empı́ricamente atendiendo a las
sucesivas repeticiones. Por ejemplo, si hablamos de la probabilidad de que en una centralita
telefónica se reciban diez llamadas en cinco minutos, no existe una geometrı́a involucrada a
partir de la cual calcular una probabilidad, pero es posible obtenerla empı́ricamente mediante
observaciones repetidas en sucesivos intervalos temporales.
Además de estas definiciones que dan un sentido conceptual a la probabilidad, esta se define
desde un punto de vista estrictamente matemático mediante los denominados axiomas de Kolmo-
gorov.
Definición 3 (Probabilidad) Una medida de probabilidad es una función P que asigna a cada
suceso un valor numérico en el intervalo [0, 1] y que cumpla las propiedades:
2. P (Ω) = 1 .
Pn
3. Si A1 , A2 , . . . , An es un conjunto de sucesos excluyentes, entonces P (∪ni=1 Ai ) = i=1 P (Ai ).
P (A) = 1 − P (A)
6 CAPÍTULO 1. INTRODUCCIÓN A LA PROBABILIDAD
P (∅) = 0
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Si se define un nuevo suceso “obtener un número par o un múltiplo de tres”, sus elementos
son:
D = B ∪ C = {2, 3, 4, 6}
P (B ∪ C) = P (B) + P (C) − P (B ∩ C)
3 2 1
= + −
6 6 6
4
= .
6
Es fácil ver por qué esto es ası́. El elemento 6 está contenido tanto en B como en C. Por tanto,
al sumar P (B) + P (C) la probabilidad del valor 6 aparece dos veces: P (B) + P (C) = P ({2, 4, 6}) +
P ({3, 6}) = P ({2}) + P ({3}) + P ({4}) + 2P ({6}). Por eso es necesario restar P (B ∩ C) = P ({6})
para obtener el resultado correcto.
Ejemplo 11 En un casino tienen una ruleta con 52 números, los 26 primeros son rojos y el resto
negros. Un jugador apuesta a que sale negro y otro a que sale impar.
La probabilidad de que gane el primer jugador es: P (G1 ) = 26/52 = 1/2. La de que gane el
segundo es P (G2 ) = 1/2.
1.3. PROBABILIDAD CONDICIONADA E INDEPENDENCIA 7
Para que ganen ambos a la vez, tiene que salir un número negro e impar. La probabilidad de
que esto suceda es P (G1 ∩ G2 ) = 13/52.
De acuerdo con la ley de la suma, la probabilidad de que gane alguno de ellos es: P (G1 ∪G2 ) =
P (G1 ) + P (G2 ) − P (G1 ∩ G2 ) = 26/52 + 26/52 − 13/52 = 39/52.
P (A ∩ B)
P (A | B) = .
P (B)
La probabilidad condicionada puede verse como una reducción en el espacio muestral. La pro-
babilidad P (A) se define en el espacio muestral Ω. Si se toma un subconjunto de Ω y se define un
nuevo espacio muestral B, entonces P (A | B) indica la probabilidad de A en dicho subconjunto.
Ejemplo 12 Supongamos que A indica la probabilidad de obtener par al lanzar un dado. Como Ω
contiene los números del 1 al 6 entonces
3 1
= .
P (A) =
6 2
Si se define el suceso B ≡ “obtener tres o menos”, entonces el suceso A | B es la obtención
de un número par en el conjunto de elementos B = {1, 2, 3}. Con un cálculo inmediato se obtiene
P (A | B) = 1/3. Aplicando la fórmula de la probabilidad condicionada se llega necesariamente al
mismo resultado:
P (A ∩ B) 1/6 1
P (A | B) = = = .
P (B) 3/6 3
Por el contrario, el suceso B es la obtención de un valor superior a tres, y consta de los
elementos4, 5, 6. Entonces
P (A ∩ B) 2/6 2
P (A | B) = = = .
P (B) 3/6 3
Ejemplo 13 Continuando con el ejemplo 11, la probabilidad de que gane el segundo jugador una
apuesta sabiendo que la ha ganado el primero es:
P (G2 ∩ G1 )
P (G2 | G1 ) =
P (G1 )
13/52
=
26/52
1
= .
2
8 CAPÍTULO 1. INTRODUCCIÓN A LA PROBABILIDAD
P (A ∩ B) = P (A | B)P (B).
En caso de que dos sucesos sean independientes, el saber que se ha dado uno no aporta ninguna
información para saber si se ha dado el otro. Matemáticamente esto se expresa como P (A | B) =
P (A); es decir, la probabilidad de que se de A sabiendo que se ha dado B es la misma que si no
sabemos nada acerca de B. De aquı́ se deduce que en caso de que A y B sean independientes:
P (A ∩ B) = P (A)P (B) .
1
P (A) =
2
1
P (A | B) =
3
Por tanto, si conocemos que el resultado del lanzamiento es tres o menos, el suceso “obtener
par” se vuelve más inverosı́mil.
Ejemplo 15 En el caso de la ruleta, los dos sucesos mencionados en el ejemplo 11 son indepen-
dientes. Como se ha visto P (G2 | G1 ) = P (G2 ) = 1/2. Además, P (G2 ∩G1 ) = P (G1 )P (G2 ) = 1/4.
Continuando con el ejemplo, supongamos que un tercer jugador apuesta a que sale un número
primo, es decir, alguno de los siguientes: 2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43 y 47.
La probabilidad de que gane el tercer jugador sabiendo que ha ganado el segundo es:
P (G3 ∩ G2 )
P (G3 | G2 ) =
P (G2 )
14/52
=
26/52
7
= .
13
La probabilidad de que gane el segundo jugador sabiendo que ha ganado el tercero es:
P (G3 ∩ G2 )
P (G2 | G3 ) =
P (G3 )
14/52
=
15/52
14
= .
15
1.4. Ejercicios
Ejercicio 1 Un sujeto responde a dos preguntas de verdadero o falso. Asumiendo que la probabi-
lidad de acertar cada pregunta es π:
1. Escriba el conjunto Ω.
5. Obtenga la probabilidad P (D | F ).
Se realiza el experimento aleatorio consistente en lanzar una moneda. Si sale C se obtiene una
bola de la urna I, si sale X se obtiene una bola de la urna II.
Ejercicio 5 Sea f (x) una función de densidad cuyo valor es constante. Si el rango de x es (0, 3/4),
R 3/4
¿cuanto debe valer f (x) para que su integral definida sea 1 (es decir, para que 0 f (x) dx = 1)?
Capı́tulo 2
Variable aleatoria
De acuerdo con esta definición, una variable aleatoria asigna un número real a cada suceso
elemental del espacio muestral Ω. Esto permite estudiar dichas variables y establecer relaciones
entre ellas utilizando las técnicas del análisis matemático.
Para denominar a las variables aleatorias se utilizan letras latinas mayúsculas mientras que sus
posibles valores se indican por letras minúsculas. Por ejemplo X es una variable aleatoria y x uno
de sus posibles valores.
Ejemplo 1 Cuatro personas juegan al parchı́s. El color de la persona ganadora puede ser
Sobre este espacio muestral puede definirse la variable aleatoria X = 1, . . . , 4, que indica el
color ganador. Los valores de esta variable son meras etiquetas que indican los colores, pero no
tiene sentido realizar sobre ellos cálculos matemáticos como medias, etc. Se trata de una variable
nominal.
Ejemplo 2 Un conductor tiene que pasar por un semáforo y no sabe si lo encontrará en rojo. El
experimento aleatorio tiene el siguiente espacio muestral:
La variable X ≡ “color del semáforo” puede definirse del siguiente modo: X = 0 si el semáforo
está en rojo, X = 1 si está en amarillo y X = 2 si está en verde. Se trata de una variable discreta
que solo toma tres valores.
11
12 CAPÍTULO 2. VARIABLE ALEATORIA
En los ejemplos 1 y 2 no existe una correspondencia natural entre los sucesos elementales y
los valores numéricos asignados, estos últimos simplemente se utilizan para indicar los sucesos y
distinguirlos unos sucesos de otros. En los siguientes ejemplos sı́ que existe una forma natural de
asignar números a los sucesos elementales.
X = 0, 1, 2, . . .
0 ≤ T ≤ Tmax
Se trata de una variable continua y acotada, que toma un número infinito no numerable de
valores.
Las variables aleatorias, además de por el conjunto de valores que pueden tomar, se caracterizan
por su función de probabilidad, densidad de probabilidad y función de distribución. La función de
distribución (en ocasiones denominada función de distribución acumulada) de una variable aleatoria
se define del siguiente modo:
1. lı́mx→−∞ F (x) = 0 .
2. lı́mx→∞ F (x) = 1 .
3. F (x + h) − F (x) = P (x < X ≤ x + h) .
4. F (x) ≤ F (x + h) .
Ejemplo 5 Sea T el tiempo en minutos que tarda una persona en ser atendido cuando acude a
una ventanilla. Puede hipotetizarse que la función de distribución de T es:
F (t) = 1 − exp(−t) .
Por ejemplo, la probabilidad de tener que esperar dos minutos o menos es:
2.1. VARIABLE ALEATORIA Y FUNCIÓN DE DISTRIBUCIÓN 13
F (2) = P (T ≤ 2)
= 1 − exp(−2) = 0,86 ,
y la probabilidad de tener que esperar más de tres minutos es 1 − F (3) = exp(−3) = 0,05. La figura
2.1 muestra la representación gráfica de F (t) en función de t. Puede verse que se trata de una
función creciente que toma valores entre 0 y 1.
i
X
F (xi ) = P (X ≤ xi ) = P (X = xj ) ,
j=1
Ejemplo 6 Sea la variable aleatoria X ≡ “número de personas que han contraı́do la gripe en el
mes de diciembre”. Se trata de una variable discreta con valores X = 0, 1, 2, . . . . Obviamente en
la realidad existe un máximo para el rango de valores que puede tomar X, que es el tamaño de la
población. Sin embargo, dicho máximo es puede ser un valor muy alto y habitualmente desconocido,
por ejemplo, en torno a 47 millones para la población española, sin que se sepa con certeza la cifra
exacta. Por esto, de cara a la modelización matemática es común asumir que no existe un máximo
y que la variable X está definida en un espacio muestral infinito numerable. Además, por concretar,
supongamos que la función de probabilidad de X viene dada por la expresión:
2x
f (x) = exp(−2).
x!
Entonces, la probabilidad de que tres personas contraigan gripe es:
23 8
f (3) = exp(−2) = exp(−2) ≈ 0,18.
3! 6
Definición 7 (Función de densidad) Sea X una variable aleatoria continua. La función de dis-
tribución de X se define del siguiente modo:
Z x
F (x) = f (t) dt
−∞
La relación entre F (x) y f (x) viene dada por la relación entre derivación e integración. En
concreto, f (x) es la derivada de F (x):
f (x) = F 0 (x).
2.1. VARIABLE ALEATORIA Y FUNCIÓN DE DISTRIBUCIÓN 15
Por otra parte, cualquier función puede ser una función de densidad si cumple dos propiedades:
Lo cual no excluye los casos en que f (x) > 1. De hecho, es habitual encontrar funciones de densidad
que toman valores superiores a 1, lo cual de nuevo indica que f (x) no es la probabilidad de x.
Ejemplo 7 Sea X una variable aleatoria uniforme definida en el intervalo [0, 41 ]. Obtenga la fun-
ción de densidad y la función de distribución de X.
Al ser X uniforme, la función de densidad es igual a una constante: f (x) = c. Por tanto,
f (x) satisface la primera propiedad siempre y cuando c sea no negativa. Con respecto a la segunda
R 1/4
propiedad, debe cumplirse que 0 f (x) dx = 1. Resolvemos la integral:
Z 1/4 Z 1/4
f (x) dx = c dx
0 0
Z 1/4
= c dx
0
1/4
= c[x]0
1
= c −0
4
c
= .
4
R 1/4
Para que se cumpla 0
f (x) dx = 1 basta con fijar c = 4, con lo que la respuesta al primer
problema es
f (x) = 4.
16 CAPÍTULO 2. VARIABLE ALEATORIA
Z x
F (x) = 4 dt
0
Z x
= 4 dt
0
= 4[t]x0
= 4x.
f (t) = exp(−t)
La figura 2.2 muestra la representación gráfica de f (t) para valores de T entre 0 y 1,5.
Z t
F (t) = exp(−x) dx
0
t
= (− exp(−x))|0
= (− exp(−t)) − (− exp(0))
= 1 − exp(−t).
x2
f (x) = 2 1 − , donde -5 ≤ x ≤ 5
25
2.1. VARIABLE ALEATORIA Y FUNCIÓN DE DISTRIBUCIÓN 17
La función f (x) es positiva en el intervalo (-5, 5), por lo que se satisface la primera propiedad.
Sin embargo, su integral definida entre -5 y 5 no es igual a 1, en concreto:
5 5
x2
Z Z
f (x)dx = 2 1− dx
−5 −5 25
5
x3
= 2 x−
75 −5
125 125
= 2 5− − −5 +
75 75
1000
=
75
40
=
3
Con lo cual la propiedad 2 no se cumple y f (x) no es una función de densidad. Sin embargo,
podemos definir la función
3
g(x) = f (x)
40
que sı́ es una función de densidad porque
Z 5 Z 5
3 3 40
g(x)dx = f (x) = = 1.
−5 40 −5 40 3
La constante 3/40 por la que se ha multiplicado f (x) para obtener en una función de densidad
se denomina en estadı́stica constante de integración.
18 CAPÍTULO 2. VARIABLE ALEATORIA
( P
I
xi f (xi ), si X es discreta, donde I es el número de valores del espacio muestral
E(X) = R ∞i=1
−∞
x f (x)dx, si X es continua
El valor esperado, E(X), se denomina también media poblacional de X y se indica por la letra
µ.
Ejemplo 10 Sea X ∈ (0, 1) una variable aleatoria continua con función de densidad
f (x) = 2x.
Su valor esperado es
Z 1
E(X) = xf (x) dx
0
Z 1
= 2x2 dx
0
1
2x3
=
3 0
2
=
3
( P
n
xr f (x), si X es discreta
r
E(X ) = R ∞i=1 r i
−∞
x f (x) dx, si X es continua
Por ejemplo, los tres primeros momentos de una variable continua son:
2.2. VALORES ESPERADOS Y MOMENTOS DE UNA DISTRIBUCIÓN 19
Z ∞
Valor esperado o media poblacional: x f (x) dx
−∞
Z ∞
Media de los valores al cuadrado: x2 f (x) dx
−∞
Z ∞
Media de los valores al cubo: x3 f (x) dx
−∞
x2
3
g(x) = 1− , −5 ≤ x ≤ 5
20 25
Su valor esperado es:
5
x2
Z
3
E(X) = x 1− dx
20
−5 25
Z 5
x3
3
= x− dx
20 −5 25
2 5
3 x x4
= −
20 2 100 −5
3 25 625 25 625
= − − +
20 2 100 2 100
= 0
20 CAPÍTULO 2. VARIABLE ALEATORIA
5
x2
Z
3
E(X 2 ) = x2 1 − dx
20−5 25
Z 5
x4
3 2
= x − dx
20 −5 25
3 5
3 x x5
= −
20 3 125 −5
3 125 3125 125 3125
= − + −
20 3 125 3 125
= 5
Z 1
E(X) = 2 (x − x2 )dx
0
1
x2 x3
= 2 −
2 3 0
1
= .
3
El momento de orden dos es:
Z 1
E(X 2 ) = 2 (x2 − x3 )dx
0
1
x3 x4
= 2 −
3 4 0
1
= .
6
Por tanto, la varianza es 1/6 - 1/9 = 1/18. La asimetrı́a de la distribución es:
Z 1 3
3 1
E((X − E(X)) ) = 2 x− (1 − x)dx
0 3
1
x5 x4 4x3 5x2
x
= 2 − + − + −
5 2 9 27 27 0
1
= .
135
f (x ) = f (x1 , . . . , xn )
= f (x1 ) · · · f (xn ).
Ejemplo 14 Supongamos que la variable aleatoria X, definida intervalo (0, ∞), indica el número
de horas de duración continuada de un producto hasta que falla. La función de densidad de X es
f (x) = x exp(−x) ,
Si tomamos una muestra aleatoria de tamaño dos, x = (x1 , x2 ), su función de densidad será
n
Y
f (x) = xi exp −nX .
i=1
Por concretar con unos datos, si realizamos el experimento consistente en medir la duración de
tres productos el tamaño muestral serı́a n = 3 y una posible observación es x = (5, 2, 8). Entonces,
la función de densidad de la muestra es
f (5, 2, 8) = 80 exp(−15).
f (x) = π x (1 − π)1−x .
Es fácil ver que la probabilidad de obtener una cereza sana es f (X = 1) = π 1 (1 − π)1−1 = π, y la
probabilidad de obtener una que no esté sana es f (X = 0) = π 0 (1 − π)1−0 = 1 − π.
Supongamos que una persona toma dos cerezas y el resultado se indica mediante x0 = (x1 , x2 ).
Por simplificar asumimos que la cesta contiene infinitas cerezas y por tanto la proporción de cerezas
sanas, π, no cambia de una extracción a otra. En consecuencia, la función de probabilidad de x es
f (x) = π s (1 − π)n−s .
Ejemplo 16 Supongamos que una cesta contiene N cerezas y m de las cuales están sanas. En-
tonces la proporción de cerezas sanas es π = m/N . Si una persona toma dos cerezas al azar, la
probabilidad de que ambas estén sanas es
mm−1
f (x = (1, 1)) = ,
N N −1
Este resultado se debe a que, después de tomar la primera cereza y ver que está sana, el número
de cerezas que permanecen en la cesta es N − 1 y el número de estas que están sanas m − 1. Por
ese motivo, la probabilidad de que la segunda esté sana es (m − 1)/(N − 1). Del mismo modo, si
se tomara una tercera cereza la probabilidad de que las tres estén sanas es
mm−1m−2
f (x = (1, 1, 1)) = .
N N −1N −2
Podemos ver que la función de probabilidad de la muestra se va haciendo más compleja al ir
tomando datos porque para obtener la probabilidad de cada dato es necesario tener en cuenta cual
ha sido el resultado anterior.
24 CAPÍTULO 2. VARIABLE ALEATORIA
f (x = (1, 1)) = π 3 .
Al asumir m.a.s. f (x) es más sencillo porque la probabilidad de cada observación es independiente
de cuales hayan sido los resultados anteriores. El supuesto de muestreo aleatorio simple puede
producir sesgos en el análisis si estamos trabajando con un pequeño número de cerezas y quisiéramos
estimar la proporción de ellas que están sanas. Pero en muchos casos reales (supongamos por
ejemplo que estamos trabajando en una explotación agrı́cola con decenas de miles de cerezas)
asumir m.a.s. es la única manera viable de realizar un análisis estadı́stico y la distorsión en los
resultados es insignificante.
2.4. Prácticas en R
El lenguaje R nos permite obtener una idea aproximada de las propiedades de una distribución.
Por una parte, podemos representar gráficamente las funciones de densidad y distribución para
obtener una impresión de cómo se distribuye la probabilidad a lo largo del rango de valores de
la variable aleatoria. En segundo lugar, veremos cómo maximizar funciones en R. Finalmente
calcularemos de forma numérica los momentos de una distribución.
f (x) = 6x(1 − x) ,
definida en el intervalo (0, 1). La primera lı́nea del siguiente fragmento de código R utiliza el
comando seq para definir el vector de valores x = 0, 0, 01, 0, 02, . . . , 1. La segunda lı́nea de código
calcula la función f (x) = 6x(1 − x) y guarda sus valores en el vector f . La tercera lı́nea el comando
plot para representar la lı́nea que pasa por los pares de puntos (xi , fi ).
A continuación veremos cómo representar varias funciones en los mismos ejes. Esto ocurre
por ejemplo cuando queremos representar dos funciones de densidad distintas o una función de
densidad y su correspondiente función de distribución. Vamos a hacer una gráfica con la misma
función f (x) vista en el ejemplo anterior y además la función
Para ello, en primer lugar definimos los valores de x y calculamos los valores de f y g. A continuación
hay que representar f (x) mediante el comando plot, y se utiliza el comando lines para añadir
lı́neas a un gráfico ya existente. Por último, utilizando legend se añade una leyenda a la figura para
especificar cual es la lı́nea correspondiente a cada función.
a que el logaritmo es una función monótona, por lo que si x1 > x2 entonces log(x1 ) > log(x2 ). Por
tanto:
1 4
h0 (x) = − .
x 1−x
Entonces buscamos el valor de x para el que se cumple que h0 (x) = 0. Dicho valor serı́a:
1 4
− = 0
x 1−x
1−x = 4x
1
x = .
5
Hemos demostrado matemáticamente que la moda es 1/5. Ahora pondremos a prueba a la
función optimize. Esta función necesita dos argumentos de entrada, la función a maximizar y el
intervalo de valores en el que tiene que buscar el máximo. Además es necesario indicarle que busque
el máximo de la función, porque optimize por defecto lo que hace es buscar el mı́nimo de la función
que le hayamos pasado. El siguiente código R ilustra el procedimiento, la primera lı́nea de código
2.4. PRÁCTICAS EN R 27
define la función g(x) y en la segunda se llama a optimize para que guarde el resultado en el objeto
fit. En la llamada a optimize le decimos que el intervalo de valores de x donde tiene que buscar
el máximo de g(x) es (0, 1), y para ello le pasamos el argumento c(0, 1). En la tercera linea de
código se llama a print para que muestre los elementos contenidos en el objeto fit, que son el valor
de x donde se encuentra el máximo y el valor de g(x) en dicho punto.
Al ejecutar este código puede advertirse que el resultado de R no es exacto, ya que indica que
el valor de x es 0,2000195 cuando antes habı́amos comprobado que el valor correcto es 1/5 = 0,2.
Esto es algo habitual cuando se trabaja con métodos numéricos, que por definición proporcionan
solo resultados aproximados.
El resultado indica que el valor de la integral es 1. Lo que este resultado implica desde el punto
de vista de la teorı́a de la probabilidad es que f (x) es una función de densidad de probabilidad, al
cumplirse que en el rango (0, 1) toma valores no negativos y su integral es 1.
Dado que f (x) es una función de densidad podemos plantearnos obtener su valor esperado, que
no es más que el resultado de la integral
Z 1 Z 1
E(x) = xf (x) dx = 6x2 (1 − x) dx .
0 0
28 CAPÍTULO 2. VARIABLE ALEATORIA
Al ejecutar el código vemos que el valor esperado es 0,5, como no puede ser de otra manera
observando la forma de f (x) en la gráfica 2.5. La función integrate proporciona un objeto de R, que
es un conjunto de elementos agrupados bajo un nombre común. Si quisiéramos saber qué elementos
contiene el objeto Ex que hemos obtenido como resultado de la ejecución del código anterior,
escribirı́amos names(Ex). El lenguaje R nos informa entonces de que el objeto Ex contiene los
campos value, abs.error, subdivisions, message y call. Para acceder a estos campos utilizamos el
signo $, y el más importante es el campo value, que contiene el resultado numérico de la integral.
Supongamos que queremos obtener el valor esperado de X elevado al cuadrado, E(X)2 . Para ello
ejecutamos el siguiente código
print(Ex\$value^2)
Además de para calcular momentos, la función integrate nos permite calcular la probabilidad
de un intervalo integrando la función de densidad entre los dos extremos de dicho intervalo. Por
ejemplo, queremos saber cuanto vale la probabilidad de que la variable X tome un valor superior
a 0,75. Matemáticamente el problema serı́a entonces obtener la integral de la función de densidad
entre 0,75 y el lı́mite superior de la variable aleatoria. Es decir
Z 1
P (X ≥ 0, 75) = 6x(1 − x) dx .
0,75
Para resolverlo utilizamos el código
El resultado es 0,15625.
Por último es importante advertir que, a diferencia de otros sistemas informáticos de cálculo
simbólico, el lenguaje R sólo realiza cálculo numérico y sus resultados están sujetos a errores de
aproximación. Por ejemplo, anteriormente comprobamos que el valor esperado de la distribución
f (x) = 2(1 − x) es
2.5. EJERCICIOS 29
Z 1
1
E(x) = 2 2(x − x2 ) dx = .
0 3
Vamos a replicar este resultado en R con el código
2.5. Ejercicios
Ejercicio 1 Se introducen dos ratas en un laberinto con cuatro salidas. Sea X el número de ratas
que salen por la primera salida. Asumiendo que cada rata puede salir por cualquier salida con igual
probabilidad y que el comportamiento de cada una es independiente de la otra.
3
f (x) = (1 − x2 ).
4
1. Represente f (x) gráficamente .
2. Obtenga E(X).
30 CAPÍTULO 2. VARIABLE ALEATORIA
3. Obtenga V ar(X).
3
f (x) = (1 − x2 ).
4
1. Represente f (x) gráficamente .
2. Obtenga E(X).
3. Obtenga V ar(X).
1 + αx
f (x) = , −1 ≤ x ≤ 1,
2
Obtenga E(X) y V ar(X).
f (x) = exp(−x)
1. Obtenga E(X).
1 + αx
f (x) = , −1 ≤ x ≤ 1,
2
Obtenga E(X) y V ar(X).
f (x) = exp(−x)
1. Obtenga E(X).
F (x) = 1 − exp(−x/α) ,
siendo x ≥ 0.
1. Obtenga f (x).
2. Obtenga E(X).
Distribuciones
En este capı́tulo se describen algunas de las distribuciones mas conocidas y de mayor aplicación
en ciencias sociales. Habitualmente las distribuciones dependen de uno o varios valores denominados
parámetros. Los parámetros son cantidades que determinan las propiedades de las distribuciones.
El conjunto de posibles valores que pueden tomar los parámetros se denomina espacio paramétrico.
Ejemplo 1 Supongamos que π es la proporción de cerezas sanas que contiene una caja. Una
persona toma una cereza al azar, y la variable aleatoria X indica si está estropeada (X = 0) o
sana (X = 1). La función de probabilidad de X es:
f (x) = π x (1 − π)1−x .
La función f (x) depende del parámetro π, que determina las caracterı́sticas de la variable X.
Por ejemplo:
E(X) = π
V ar(X) = π(1 − π) .
En este capı́tulo veremos algunas de las distribuciones más utilizadas, los parámetros que con-
tienen y la relación que existe entre los parámetros y los estadı́sticos para cada distribución.
31
32 CAPÍTULO 3. DISTRIBUCIONES
3.1.1. Bernoulli
La distribución de Bernoulli describe los experimentos aleatorios que solamente toman dos
resultados, que por conveniencia se indican mediante 0 y 1 y suelen denominarse fracaso y éxito.
La función de probabilidad de una variable de Bernoulli Y = (0, 1) es:
f (y) = π y (1 − π)1−y ,
donde el parámetro π indica la probabilidad de éxito (es decir, π = Prob.(Y = 1)). Se comprueba
fácilmente que la probabilidad de cada resultado es:
f (1) = π,
f (0) = 1−π .
E(Y ) = π,
V ar(Y ) = π(1 − π) .
Ejemplo 2 Supongamos que se toma una muestra aleatoria simple de dos observaciones proceden-
tes de una distribución de Bernoulli con parámetro π. El espacio muestral de dicho experimento
consiste en los cuatro posibles patrones de respuesta compuestos por 0 y 1, es decir:
Y1 Y2
0 0
0 1
1 0
1 1
Supongamos que los valores encontrados en la muestra se indican por el vector y = (y1 , y2 )0 ,
Al ser la muestra aleatoria simple, la función de probabilidad de la muestra es el producto de la
probabilidad de cada una de las dos observaciones:
3.1.2. Poisson
La distribución de Poisson suele aplicarse cuando la variable aleatoria es una frecuencia (recuen-
to de un número de casos), por lo que tiene gran utilidad para el análisis de tablas de contingencia
y en modelos log-lineales. La variable aleatoria está definida en el conjunto de los números natu-
rales (Y = 0, 1, 2, . . . ), por lo que no existe un máximo y se trata de un espacio muestral infinito
numerable. La función de probabilidad de Y es:
λy
f (Y = y) = exp(−λ)
y!
E(Y ) = λ,
V ar(Y ) = λ.
Ejemplo 3 Supongamos que estamos analizando si varones y mujeres difieren en sus preferencias
a la hora de escoger unos determinados estudios universitarios. Con los datos recogidos se elabora
la tabla
Filosofia Derecho
Varones n11 n12
Mujeres n21 n22
En el análisis de tablas de contingencia es común asumir que cada una de las casillas de la tabla
sigue una distribución de Poisson con parámetro λij , por lo que las frecuencias marginales también
siguen una distribución de Poisson. Por ejemplo, el número de varones es n1. = n11 + n12 y su
distribución es Poisson(λ11 + λ12 ), es decir:
f (n11 )f (n12 )
P (n11 , n12 |n1. ) =
f (n1. )
n n
λ1111 λ1212
n11 ! exp(−λ11 ) n12 ! exp(−λ12 )
= (λ11 +λ12 )n1.
n1. ! exp(−λ11 − λ12 )
n11 n12
n1. ! λ11 λ12
=
n11 !n12 ! λ11 + λ12 λ11 + λ12
3.2. DISTRIBUCIONES CONTINUAS 35
para ver que P (n11 , n12 |n1. ) es una distribución binomial basta darse cuenta de que n12 = n1. −n11 ,
λ11 /(λ11 + λ12 ) es la probabilidad de encontrar un estudiante de filosofia en el grupo de varones
(dado que lambda11 y lambda12 es el número de varones que estudian filosofia y derecho en la
población) y por tanto λ12 /(λ11 + λ12 ) es la probabilidad de estudiar derecho.
Cuando estudiemos la estimación de parámetros, veremos que otra función de gran utilidad
práctica es la función de probabilidad conjunta de las cuatro casillas:
3.2.1. Normal
Es una de las distribuciones más conocidas y utilizadas en ciencias sociales. Esto se debe en
parte a que es la distribución de la media en muestras grandes, según afirma el teorema del
lı́mite central. También se denomina distribución gaussiana en honor de Karl Friedrich Gauss, que
derivó su ecuación a partir del estudio de los errores que se cometen al realizar repetidas veces una
medición en determinadas condiciones.
Una variable aleatoria distribuida según la normal(µ, σ) toma valores en el intervalo (−∞, ∞)
y su función de densidad es:
2 !
1 1 y−µ
f (y) = √ exp − .
σ 2π 2 σ
Momentos: La distribución normal tiene varias propiedades que la hacen muy conveniente:
E(Y ) = µ .
2. La varianza es igual a σ 2 :
V ar(Y ) = σ 2 .
Hay varias distribuciones muy conocidas que se obtienen a partir de la normal. Por ejemplo la
distribución de ((Y − µ)/σ)2 es la chi-cuadrado con un grado de libertad. Las distribuciones t de
Student y F de Snedecor también se obtienen mediante transformaciones de la normal.
Ejemplo 4 Las variables X e Y siguen una distribución normal (10, 6) y normal (15, 2), siendo
su covarianza 10. Se calcula Z = X + Y cuya distribución es normal con media 25 y varianza 60.
La figura 3.3 muestra las funciones de densidad de las tres distribuciones.
Z y
F (y) = f (t)dt
−∞
y 2 !
t−µ
Z
1 1
= √ exp − dt .
σ 2π −∞ 2 σ
Esta integral no puede resolverse analı́ticamente, aunque existen tablas que proporcionan F (y)
para distintos valores de y. En ocasiones se encuentra en la literatura estadı́stica el sı́mbolo φ(z)
para referirse a la función de densidad normal (0, 1) y Φ(z) para referirse a su función de distri-
bución.
Ejemplo 5 Una variable X se distribuye normal(µ, σ). Si se toma una muestra aleatoria de n
observaciones, x = (x1 , . . . , xn )0 , la función de densidad conjunta de las observaciones será:
n
Y
f (x) = f (xi )
i=1
n 2 !
1 1 Y xi − µ
= √ exp −
2 n
( σ 2π) i=1 2 σ
n 2 !
1 1 X xi − µ
= exp − .
(σ 2 2π)n/2 2 i=1 σ
3.2. DISTRIBUCIONES CONTINUAS 37
n 2
n 1X xi − µ
log f (x) = − log(σ 2 2π) − .
2 2 i=1 σ
3.2.2. Exponencial
La distribución exponencial se define en el intervalo (0, ∞). Se utiliza habitualmente con va-
riables aleatorias que indican tiempos de reacción. Por ejemplo, el tiempo que tarda un sujeto
en completar una determinada tarea. La función de densidad de una variable exponencial con
parámetro ω es:
f (y) = ω exp(−ωy) .
1
E(Y ) = y
ω
1
V ar(Y ) = ,
ω2
motivo por el cual el parámetro ω puede interpretarse como la velocidad de ejecución. A mayor
valor de ω menor tiempo esperado. En la figura 3.4 pueden verse tres densidades exponenciales
correspondientes a tres variables X, Y y Z cuya media es 1, 1/4 y 1/8.
Ejemplo 6 Supongamos que se toma una muestra aleatoria simple de dos valores procedentes de
una distribución exponencial. La función de densidad de probabilidad de la muestra es
38 CAPÍTULO 3. DISTRIBUCIONES
Por concretar con unos datos, supongamos que la muestra observada ha sido y = (3, 2)0 . En-
tonces, la función de densidad de probabilidad de la muestra y su logaritmo son
f (y) = ω 2 exp(−ω5)
log f (y) = 2 log ω − ω5.
La figura 3.5 muestra los valores de f (y) y log f (y) en función de ω. En estas gráficas se apre-
cian dos resultados importantes para este curso. En primer lugar, el máximo de ambas funciones
se encuentra en el mismo valor de ω. Esto se debe a que la función logaritmo es monótona, es
decir, si a > b entonces log a > log b. Por este motivo, si f (y) aumenta al aumentar ω, también lo
hace log f (y), si f (y) disminuye también disminuye log f (y), y si f (y) tiene una máximo también
lo tiene log f (y). En segundo lugar, el máximo se sitúa en el valor ω = 0,4. Este es el valor de ω
que hace máxima la densidad de probabilidad de la muestra observada.
Función Utilidad
dnorm(x, mean = 0, sd = 1, log = FALSE) Función de densidad normal
pnorm(q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE) Función de distribución
qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE) Función de distribución inversa
rnorm(n, mean = 0, sd = 1) Simular datos
z <- -1.68
pnorm(z)
Para calcular la probabilidad del lado derecho, Pr.(X ≥ −1, 68) = 1 − F (−1, 68), ejecutarı́amos
los comandos:
40 CAPÍTULO 3. DISTRIBUCIONES
z <- -1.68
pnorm(z, lower.tail=F)
qnorm(0.05)
Si quisiéramos saber cual es el valor de Z que deja a su derecha la probabilidad 0,05 podrı́amos
hacerlo de dos maneras:
qnorm(0.05, lower.tail=FALSE)
qnorm(0.95)
Veremos a continuación un ejemplo más sofisticado. Simulamos 100 matrices de datos de tamaño
nueve de una distribución normal(100, 15). A continuacion calculamos la media de cada muestra,
obtenemos el histograma de frecuencias de las 100 medias, la estimación del valor esperado de la
distribución muestral de la media y la estimación de la varianza de las medias.
3.3. DISTRIBUCIONES EN LENGUAJE R 41
Con estas distribuciones podemos realizar las mismas operaciones que hemos visto en el caso
de la distribución normal cambiando la primera letra del nombre de la función. Por ejemplo, para
obtener una muestra de 10000 datos procedente de la distribución beta(2,2) utilizamos el código:
42 CAPÍTULO 3. DISTRIBUCIONES
Figura 3.6: Muestra aleatoria de 10000 casos procedentes de la distribución beta(0,5, 0,5)
Para obtener una explicación adicional sobre el sentido de cada función podemos utilizar el
comando ? de R. Por ejemplo, ejecutando ?pchisq obtendremos una explicación de las funciones
relativas a la distribución chi-cuadrado.
3.4. EJERCICIOS 43
3.4. Ejercicios
Ejercicio 1 Demuestre las expresiones de E(X) y V ar(X) siendo X una variable de Bernoulli.
Ejercicio 4 Sea Y una variable normal (µ, σ). Se dice que la variable Z = (Y − µ)/σ sigue una
distribución normal estandar. Escriba la función de densidad de Z. Obtenga la función de densidad
de una muestra aleatoria simple compuesta por dos observaciones.
Ejercicio 7 Sea X una variable normal. Obtenga los puntos de inflexión de f (x) en los siguientes
casos
Si X es normal(0, 1).
Si X es normal(µ, σ).
Ejercicio 8 Sea x una muestra aleatoria procedente de una distribución f (x). Obtenga f (x) y
log f (x) en caso de que f (x) pertenezca a cada una de las distribuciones:
1. Bernoulli (π).
2. Poisson (λ).
4. Exponencial (ω).
La teorı́a de muestras grandes proporciona resultados que se cumplen cuando el tamaño mues-
tral tiende a infinito, por lo que a este campo se le denomina también estadı́stica asintótica. En
las aplicaciones reales no existen muestras de tamaño infinito, por lo que estos resultados son
aproximaciones que funciona bien en muestras de gran tamaño.
Los resultados de esta sección se agrupan en dos categorı́as: la ley de los grandes números y el
teorem del lı́mite central, ambas tienen diversas variantes en función de las condiciones en que se
aplican y la generalidad de los resultados que proporcionan, por lo que en ocasiones aparece escrito
en plural (leyes de los grandes números y teoremas del lı́mite central). En este capı́tulo veremos
las versiones más sencillas de ambos resultados.
La ley de los grandes números trata sobre la convergencia de la media muestral hacia la media
poblacional cuando el tamaño de la muestra aumenta. El teorema del lı́mite central tiene que ver
con la distribución de una suma de variables aleatorias, que se aproxima a una distribución normal
en muestras grandes. Como la media muestral es una suma de variables aleatorias (una por cada
elemento de la muestra) dividida por el número de datos, estas dos leyes en conjunto permiten
concluir que en muestras grandes la distribución de la media muestral será aproximadamente
normal y estará centrada en la media poblacional.
Estos dos resultados, aparentemente sencillos, constituyen la base de la gran mayorı́a de los
procedimientos de inferencia empleados en estadı́stica aplicada. Procedimientos tales como los
contrastes de una y dos medias, los contrastes sobre proporciones, bondad de ajuste, etc. tienen
su base en estos métodos. Las propiedades asintóticas de los estimadores máximo-verosı́miles se
siguen de estos teoremas, gracias a los cuales podemos obtener el error tı́pico de los estimadores,
y calcular intervalos de confianza basándonos en una aproximación normal.
Una razón por la que resultan tan útiles es que son procedimientos libres de distribución. La
validez de ambos teoremas no depende de cual sea realmente la distribución de los datos en la
población de partida. Es indiferente que dicha distribución sea uniforme, Poisson, exponencial o
cualquier otra, la media poblacional converge a la media poblacional y la distribución de una media
(o también de una suma de variables) converge a una distribución normal. Esto permite utilizar
45
46 CAPÍTULO 4. TEORÍA DE MUESTRAS GRANDES
la normal, u otras distribuciones basadas en ella como t o chi-cuadrado, para realizar contras-
tes o construir intervalos de confianza sobre medias sin necesidad de saber cual es la verdadera
distribución de la variable.
Por último, existen fenómenos naturales que se explican en base a estos resultados, uno de
ellos es la distribución normal que se encuentra en las puntuaciones de los tests de inteligencia, a
la que por conveniencia se le asignan los parámetros µ = 100 y σ = 15. Esto se debe a que las
puntuaciones en un test se calculan como la suma de las respuestas a los cientos de preguntas que
lo componen. Por el teorema del lı́mite central, en una versión más general que la vista aquı́, la
distribución una suma de variables será aproximandamente normal cuando el número de preguntas
sumadas es elevado.
En primer lugar veremos una introducción a lo que significa el lı́mite n → ∞ en teorı́a de la
probabilidad y después veremos los resultados fundamentales del capı́tulo.
X1 + · · · + Xn
X= .
n
En esta definición, cada uno de los elementos X1 , . . . , Xn es una variable aleatoria y, bajo las
condiciones del muestreo aleatorio simple, todas ellas tienen el mismo valor esperado E(Xi ) = µ,
siendo µ la media poblacional. Resulta intuitivo suponer que la media muestral, X, será similar a
la media poblacional, µ, y que cuanto mayor sea n más razonable es suponer que X estará próximo
a µ. Esto es justamente lo que dice la ley de los grandes números, que expresa que X converge en
probabilidad a µ.
Teorema 1 (Ley de los grandes números) . Sea X1 , X2 , . . . una secuencia de variables alea-
torias idénticamente distribuidas y con valor esperado finito E(Xi ) = µ. Entonces, para cada > 0
P (|X − µ| ≥ ) → 0 cuando n → ∞.
p p
Este resultado también puede expresarse como X → µ, donde → quiere decir convergencia en
probabilidad. En la formulación de este teorema, es la diferencia entre X y µ, y esta diferencia
podemos hacerla tan pequeña como queramos aumentando el tamaño muestral. En definitiva, la
probabilidad de encontrar valores de X − µ mayores que tenderá a cero al aumentar n sea cual
sea el valor de .
Ejemplo 1 Cuando se aplica a variables dicotómicas, la ley de los grandes números nos dice que
la proporción muestral tiende a la probabilidad de éxito. Intuitivamente es un resultado obvio, si
tenemos una moneda imparcial, cabe esperar que cuantos más lanzamientos realicemos más próxima
4.2. TEOREMA DEL LÍMITE CENTRAL 47
1X
Sn2 = (Xi − X)2 .
n i
Podemos comprobar que la varianza muestral es asintóticamente insesgada mediante sucesivas
p
aplicaciones de la ley de los grandes número. En primer lugar, sabemos que X → µ, en consecuencia
P 2 p P 2
i (Xi − X) /n → i (Xi − µ) /n, por lo que asintóticamente tenemos una media de n términos,
(Xi − µ)2 , cuyo valor esperado es E((X − µ)2 ) = σ 2 . Aplicando nuevamente la ley de los grandes
números tenemos que la media de las variables (Xi − µ)2 converge en probabilidad a su valor
p
esperado, por lo que Sn2 → σ 2 .
Ejemplo 4 En un estudio sobre tiempos de reacción hemos encontrado que un sujeto tarda los
siguientes segundos en realizar cuatro tareas x = (4, 6, 1, 9)0 . Queremos estimar la velocidad de
p
ejecución. Para ello, asumimos que X ∼ exponencial(ω) y como E(X) = 1/ω entonces X → 1/ω.
Aplicado a nuestros datos, X = 5 y la velocidad estimada es ω̂ = 1/5 = 0, 2.
aumenta. Al igual que la ley de los grandes números, el teorema del lı́mite central tiene distintas
versiones en función de las caracterı́sticas de las variables sumadas, aunque una de las más sencillas
es la siguiente.
Teorema 2 (Teorema del lı́mite central) . Sea X1 , X2 , . . . una secuencia de variables alea-
torias cada una de ellas con valor esperado E(Xi ) = µ y varianza V ar(Xi ) = σ 2 . Entonces, la
distribución del estadı́stico
√
n(X − µ)
Z=
σ
tiende a una distribución normal estándar cuando n → ∞.
X1 + · · · + Xn − nµ
Z= √ .
σ n
El teorema del lı́mite central nos dice que la distribución de la media muestral es aproxima-
damente normal en muestras grandes. No existe un valor exacto de n a partir del cual dicha
aproximación es realmente precisa. En aplicaciones prácticas, de modo orientativo, se considera
que con n ≥ 30 el teorema proporciona resultados suficientemente correctos.
Ejemplo 6 (Aproximación normal a la binomial) . Lanzamos 100 veces una moneda impar-
cial y queremos saber cual es la probabilidad de encontrar más de cincuenta caras. Como el re-
sultado de cada lanzamiento es Xi ∼ Bernoulli (π = 0, 5) tenemos que E(Xi ) = π = 0, 5 y
V ar(Xi ) = π(1 − π) = 0, 25. Aplicando el teorema del lı́mite central tenemos que la variable
4.3. EJERCICIOS 49
P
Xi − nπ
Z = pi
nπ(1 − π)
es aproximadamente normal(0, 1). Entonces
51 − 100(0, 5)
Z= p = 0, 2.
100(0, 25)
Por tanto P (X ≥ 51) ≈ P (Z ≥ 0, 2) ≈ 0, 42.
4.3. Ejercicios
Ejercicio 1 Sea U una variable distribuida según la uniforme en el intervalo (0, 1). Obtenga la
probabilidad de que obtener un valor superior a 0,9 mediante el cálculo exacto de F (u) y utilizando
la desigualdad de Tchebyshev.
Ejercicio 2 Sea X una variable distribuida según la normal(100, 15). Obtenga la probabilidad de
que obtener un valor igual o mayor que 130 de dos maneras distintas: acudiendo a las tablas de la
normal y mediante la desigualdad de Tchebyshev.
Ejercicio 3 Sea U una variable distribuida según la uniforme en el intervalo (0, 1). Obtenga la
probabilidad de que la media de una muestra de tamaño 16 sea superior a 0,5.
Ejercicio 4 Sea U una variable distribuida según la uniforme en el intervalo (0, 1). ¿Entre qué va-
lores se encuentra la media de una muestra de tamaño 16 con una probabilidad de 0,95?
Ejercicio 5 Sea X ∼ Poisson(8) y tomamos una muestra de tamaño 64. ¿Cual es la probabilidad
de encontrar una media mayor o igual a 10?
Ejercicio 7 Sea X ∼ Poisson(10) y tomamos una muestra de tamaño 36. ¿Entre qué valores se
encuentra la media muestral con una probabilidad de 0,99?
Ejercicio 8 Sea X ∼ exponencial (ω = 0, 2). ¿Entre qué valores se encuentra la media muestral
con probabilidad 0,95 si n = 16?
Ejercicio 9 Sea X ∼ chi-cuadrado con 10 grados de libertad (gl). Además sabemos que en una
distribución chi-cuadrado E(X) = gl y V ar(X) = 2gl. Calcule la probabilidad de que la media de
X sea inferior a 10 en una muestra de tamaño 25.
Ejercicio 10 Sea X una variable aleatoria definida en el intervalo (−4, 4) y con función de den-
sidad
f (x) = 4 − x4 .
50 CAPÍTULO 4. TEORÍA DE MUESTRAS GRANDES
1. Obtenga E(X).
2. Obtenga V ar(X).
4. Obtenga la probabilidad de que la media de una m.a.s. de tamaño 20 sea menor o igual a 1.
1
π= .
1 + exp(δ)
Obtenga el estimador de δ a partir de la siguiente muestra x = (0, 1, 0, 0)0 .
Ejercicio 12 Sea X una variable aleatoria definida en el intervalo (0, 2) y con función de densidad
1
f (x) = (3x2 + 1)
10
1. Obtenga E(X) y V ar(X).
4. ¿Cual es la probabilidad de que en una m.a.s. de tamaño 30 la media sea mayor o igual a
1,5?
Parte II
Inferencia estadı́stica
51
Capı́tulo 5
Estimación por
máxima-verosimilitud
f (x ) = f (x1 , . . . , xn )
= f (x1 ) · · · f (xn )
Yn
= f (xi ),
i=1
Qn
donde el sı́mbolo i=1 representa el producto de n términos, siendo similar al sı́mbolo del sumatorio
Pn
( i=1 ) pero multiplicando los elementos en lugar de sumarlos. El método de máxima verosimilitud
toma f (x ) como base para realizar la estimación.
53
54 CAPÍTULO 5. ESTIMACIÓN POR MÁXIMA-VEROSIMILITUD
L(θ) = f (x)
Ejemplo 1 Sea X > 0 una variable aleatoria con distribución Weibull, cuya función de densidad
es
1 x
f (x) = exp − .
λ λ
Si tomamos una muestra aleatoria simple de n observaciones, la función de densidad de la muestra
es:
n
Y 1 x
i
f (x) = exp −
i=1
λ λ
1 x 1
1
x
2 1 x
n
= exp − × exp − × · · · × exp −
λ λ
Pn λ λ λ λ
1 i=1 xi
= exp −
λn λ
1 nX
= exp −
λn λ
Por tanto, la función f (x) depende únicamente de la media muestral X, y no de ningún otro dato o
cantidad observada en la muestra. Cuando esto sucede ası́ se dice que X es un estadı́stico suficiente
para λ. Es decir, toda la información observada se resume en X, que contiene toda la información
necesaria para realizar la estimación de λ. Dicho de otra manera, bastarı́a con que supiéramos el
valor de X para poder estimar λ. No necesitamos conocer ninguna otra caracterı́stica de la muestra
tal como la varianza, etc.
Supongamos que hemos tomado una m.a.s. de tamaño tres y se encuentra el resultado x =
(2, 7, 3)0 . El estadı́stico suficiente es X = 4, a partir del cual la función de verosimilitud es
1 nX
L(λ) = exp −
λn λ
1 (3)4
= exp − .
λ3 λ
5.2. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD 55
Definición 10 Sea X una variable aleatoria cuya función de densidad (o probabilidad) es f (x) y
que depende del parámetro θ. Sea x una muestra aleatoria simple procedente de f (x). El estimador
máximo verosı́mil de θ es el valor de θ que hace máxima L(θ).
Ejemplo 2 Continuando con el ejemplo 1, hemos visto que a partir de la muestra x = (2, 7, 3)0 se
obtenı́a X = 4. Entonces, la función de verosimilitud y su logaritmo son
1 12
L(λ) = exp −
λ3 λ
12
l(λ) = −3 log λ −
λ
La representación gráfica de ambas funciones aparece en la figura 5.1. Puede verse que alcanzan
su máximo en el valor del estimador λ̂ = 4. Además de buscar el valor λ̂ en las gráficas, es posible
obtenerlo analı́ticamente utilizando cálculo diferencial; la derivada de l(λ) con respecto a λ es
3 12
l0 (λ) = − +
λ λ2
El estimador máximo verosı́mil es el valor de λ que resuelve la ecuación de estimación: l0 (λ) = 0.
Es decir
56 CAPÍTULO 5. ESTIMACIÓN POR MÁXIMA-VEROSIMILITUD
3 12
− + = 0
λ λ2
12 3
=
λ2 λ
12
= 3
λ
12
λ̂ = = 4.
3
A continuación vamos a obtener la fórmula genera del estimador máximo-verosı́mil, sin con-
cretar con los datos de una muestra particular. La función de verosimilitud era
1 nX
L(λ) = exp − ,
λn λ
cuyo logaritmo es
n nX
l0 (λ) = − + 2 .
λ λ
5.2. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD 57
La ecuación de estimación es la primera derivada de l(λ) igualada a cero (l0 (λ) = 0), con lo que
queda:
n nX
− + 2 = 0
λ λ
n nX
=
λ λ2
nX
n =
λ
λ̂ = X.
Para comprobar que en este punto hay un máximo puede tomarse la segunda derivada:
n 2nX
l00 (λ) = − 3 .
λ2 λ
Sustituyendo el valor del estimado (λ̂ = X) en la segunda derivada se obtiene:
n 2nX n 2n n
l00 (X) = 2 − 3 = 2 − 2 =− 2 < 0.
X X X X X
Como la variable X sólo toma valores positivos, X > 0. Por lo tanto, la segunda derivada es
negativa cuando λ̂ = X, lo que indica que l(λ) tiene un máximo en este punto.
Ejemplo 3 (Distribución de Bernoulli) Supongamos que a un sujeto realiza 25 veces una de-
terminada tarea. El resultado de cada presentación se clasifica como éxito o fracaso, y se considera
que la probabilidad de éxito π permanece constante a lo largo del experimento. ¿Cuál es la proba-
bilidad estimada de éxito asumiendo independencia entre las distintas realizaciones?
La variable Xi describe el resultado de la ejecución i, y sigue la distribución de Bernoulli:
f (xi ; π) = π xi (1 − π)(1−xi ) .
25
Y
f (x; π) = π xi (1 − π)(1−xi )
i=1
P25 P25
xi
= π i=1 (1 − π)(25− i=1 xi )
.
P25
Supongamos que el numero de éxitos se indica por x, siendo x = i=1 xi . Entonces, la función
de verosimilitud es:
58 CAPÍTULO 5. ESTIMACIÓN POR MÁXIMA-VEROSIMILITUD
L(π) = π x (1 − π)(25−x) .
El estimador máximo verosı́mil es el valor que maximiza l(π). Como hemos visto, en el punto
máximo de l(π), su derivada es cero:
x 25 − x
l0 (π) = −
π 1−π
= 0.
x 25 − x
= ,
π 1−π
x − xπ = 25π − xπ ,
x
π̂ = .
25
Este razonamiento no basta para asegurar que π̂ es un estimador máximo verosı́mil. Esto se
debe a que la derivada l0 (π) se anula tanto si l(π) tiene un máximo como si tiene un mı́nimo.
En caso de que la función tenga un máximo, se cumple que su segunda derivada es negativa. En
nuestro ejemplo:
x 25 − x
l00 (π) = − − .
π2 (1 − π)2
La cual es necesariamente menor que 0, por lo que l(π) alcanza un máximo en π̂.
Vamos a ver este método en relación con el ejemplo 2. Tenı́amos que con la muestra x = (2, 7, 3)0 ,
la función que hay que maximizar para obtener el estimador máximo-verosı́mil es
12
l(λ) = −3 log λ −
.
λ
Para obtener el estimador en R es conveniente comenzar realizando el gráfico de l(λ) para
obtener una primera impresión de cual puede ser el estimador. Para ello programamos la función
en R y la representamos gráficamente.
x <- c(2, 7, 3)
suma <- sum(x)
El resultado de la estimación se recoge en dos elementos del objeto fit. En fit$par tenemos el
valor del estimador y en fit$value aparece el valor máximo de la función lk, estos valores son 4 y
-7.158883 respectivamente.
5.4. Ejercicios
Ejercicio 1 Sea la distribución de Poisson:
60 CAPÍTULO 5. ESTIMACIÓN POR MÁXIMA-VEROSIMILITUD
λy
f (y | λ) = exp(−λ) .
y!
Se ha tomado una m.a.s. de tamaño cuatro, y se encuentra el resultado y = {4, 2, 6, 4}. Calcule
el estimador máximo-verosimil para esta muestra.
Ejercicio 2 Sea la distribución exponencial (ω). En una muestra se ha encontrado y = {2,5, 1,5, 1,25, 0,75}.
Obtenga el estimador máximo-verosimil.
f (x) = π (1 − π)x .
Ejercicio 4 Sea X una variable distribuida según la normal con µ = 10 y σ 2 desconocida. Obtenga
el estimador máximo-verosı́mil de σ 2 a partir de la muestra x = (7, 10, 7)0 .
Desde un punto de vista de estadı́stica clásica, la lógica de la inferencia consiste en asumir que
los parámetros son cantidades fijas aunque desconocidas. En un experimento aleatorio se concibe
que el valor de θ es una constante, es decir que permanecerı́a inalterable si se tomaran varias
muestras de la misma población. En un estudio estadı́stico se toma una de las posibles muestras, y
con estos datos se calcula un estimador θ̂ que puede o no diferir de θ. A diferencia de θ el estimador
θ̂ es una variable aleatoria, su valor cambiará de unas muestras a otras por el azar de muestreo
que hace que sean unas u otras las observaciones tomadas de la población. Lo deseable es que el
valor θ̂ que esté lo más próximo a θ, lo cual se analiza estudiando sus propiedades.
Las principales propiedades de un estimador son su media (a partir de la que se obtiene el
sesgo) y su error tı́pico. El error tı́pico es la desviación tı́pica de θ̂, e indica cuanto varı́a θ̂ de
una muestra a otra. A partir del error tı́pico es posible construir un intervalo de confianza que
indica entre qué valores estimamos que se encuentra el parámetro poblacional. En este apartado
veremos el estudio de las propiedades de los estimadores máximo-verosı́miles; con otros métodos
de estimación las propiedades de los estimadores son en muchos casos desconocidas.
Una de las grandes ventajas de los estimadores máximo-verosı́miles es que cumplen determina-
das propiedades asintóticas -es decir, propiedades que se dan en el lı́mite n → ∞- que los hacen
ser muy convenientes. Estas propiedades se demuestran dentro del marco de la teorı́a de muestras
grandes, por lo que cabe esperar que funcionen de modo razonable en muestras de elevado tamaño.
Con otros métodos de estimación, como mı́nimos cuadrados o la estimación por momentos, no
existe una teorı́a equivalente que de modo general informe de las propiedades de los estimadores.
61
62CAPÍTULO 6. PROPIEDADES ASINTÓTICAS DE LOS ESTIMADORES MÁXIMO-VEROSÍMILES
2. La varianza del estimador cumple que V ar(θ̂) → 1/I(θ), donde I(θ) es la información obser-
vada en la muestra acerca del valor del parámetro.
3. La distribución de θ̂ es normal.
p
En definitiva, en muestras grandes podemos asumir que θ̂ es normal (θ, 1/ I(θ)). Gracias a
estas propiedades podemos calcular el error tı́pico de los estimadores y el intervalo de confianza
para el parámetro.
Las propiedades 1 y 2 de los estimadores máximo-verosı́miles significan que en muestras ilimita-
damente grandes su media coincide con el valor verdadero del parámetro y la varianza disminuye.
Es decir son correctos asintóticamente, no podemos garantizar que en una muestra de tamaño
finito su valor sea el correcto, pero sı́ cabe espera que al aumentar el tamaño muestral mejore su
precisión. Un procedimiento estadı́stico que cumpla estas propiedades, que aunque parecen obvias
no siempre se cumplen, se dice que es consistente.
Todas estas ventajas de los estimadores máximo verosı́miles se consiguen a costa de un precio:
los supuestos tan fuertes que asume el método. Para aplicar máxima verosimilitud hay que conocer
la función de distribución de las variables aleatorias y asumir muestreo aleatorio simple. Estos su-
puestos son información añadida al análisis estadı́stico, que tienen la contrapartida de proporcionar
estimadores con buenas propiedades. Sin embargo, no siempre sucede que se conozca la función de
distribución de las variables o que pueda asumirse que la muestra es aleatoria simple. Otros esti-
madores más sencillos, como mı́nimos cuadrados, no requieren conocer la forma de la distribución
y son aplicables aún cuando se desconozca esta; en cambio, sus propiedades estadı́sticas no suelen
ser conocidas y difı́cilmente serán mejores que las del estimador máximo-verosı́mil.
∂2
I(θ) = −
l(θ) .
∂θ2
En consecuencia, podemos calcular una aproximación a la varianza que tendrı́a el estimador en
todas las posibles muestras de tamaño n que podrı́an obtenerse de la población del siguiente modo
1
V ar(θ) = .
I(θ̂)
La precisión del estimador también suele por su error tı́pico, que no es más que la desviación tı́pica
del valor de θ̂ en las distintas muestras. Por tanto, el error tı́pico es la raı́z cuadrada de la varianza
1
σθ̂ = q .
I(θ̂)
6.2. INFORMACIÓN OBSERVADA 63
La demostración de por qué la varianza del estimador puede obtenerse a partir de I(θ) excede
los objetivos de este curso. Sin embargo, debemos conocer que I(θ) básicamente está indicando
la curvatura de la función l(θ) evaluada en el punto θ̂. Si la curvatura es alta en este punto
el estimador será más preciso, cuando l(θ) es muy plana en torno al estimador θ̂ la estimación
será más imprecisa. Los siguientes ejemplos ilustran estos conceptos.
2 !
1 1 x−µ
f (x) = √ exp −
σ 2π 2 σ
Supongamos que hemos tomado una muestra aleatoria simple de n elementos. La función de
densidad de la muestra es
n
Y
f (x) = f (xi )
i=1
n 2 !
1 1X xi − µ
= n n/2
exp −
σ (2π) 2 i=1 σ
n 2
1X xi − µ
l(µ) = log L(µ) = − log(σ n (2π)n/2 ) − .
2 i=1 σ
n
1X
µ̂ = xi = X .
n i=1
σ2
V ar(µ̂) = .
n
En consecuencia, el error tı́pico del estimador es
σ
σ( µ̂) = √ .
n
Ejemplo 2 Vamos a aplicar los resultados obtenidos en el ejemplo 1 a una muestra concreta.
Supongamos que tenemos los datos x = (104, 96)0 procedentes de una distribución normal(µ,
σ = 2). El estimador máximo verosı́mil y su varianza son
µ̂ = X = 100.
σ2 4
V ar(µ̂) = = = 2.
n 2
√
Con lo cual tenemos que el error tı́pico del estimador es σµ̂ = 2, que es nuestro indicador de cual
serı́a la desviación tı́pica de µ̂ que habrı́amos observado al calcularlo en todas las posibles muestras
de tamaño n = 2 que habrı́an podido obtenerse de esta población.
Supongamos ahora que la muestra con la que contamos es x = (104, 105, 96, 99, 97, 95, 101, 103)0 .
Entonces el estimador y su varianza serı́an
µ̂ = X = 100.
σ2 4
V ar(µ̂) = = = 0, 5,
n 8
√
y el error tı́pico se ha reducido a σµ̂ = 0, 5 ≈ 0, 71 como consecuencia del mayor tamaño muestral.
La figura 6.1 representa la función l(µ) para ambas muestras. Es obvio que l(µ) toma valores
más pequeños en el caso de n = 8, lo cual se debe a que l(µ) es la suma de la contribución de cada
P
una de las observaciones de la muestra. Como l(µ) = i log f (xi ), cada observación contribuye a
l(µ) con un término log f (xi ) < 0, y la función l(µ) va disminuyendo al aumentar n. Además puede
verse que l(µ) alcanza su máximo en el mismo punto para ambas muestras, como consecuencia de
que la media de ambas es 100.
El resultado más relevante de la figura 6.1, de cara a este capı́tulo, es que l(µ) tiene una
curvatura mayor con n = 8 que con n = 2. En ambos casos el estimador está en el mismo
punto, pero cuando la curvatura es mayor está mas claro cual debe ser el estimador. Con n =
2 la verosimilitud de otros valores de µ distintos a µ̂ = 2 es relativamente alta, lo que quiere
decir que hay una mayor incertidumbre acerca del valor del estimador. Este fenómeno es el que
está recogiendo la información I(µ).
Otro aspecto relevante de este ejemplo es que permite comprobar fácilmente que el estimador
es consistente. Resumiendo, tenemos que el estimador y su varianza son
6.2. INFORMACIÓN OBSERVADA 65
µ̂ = X, y
σ2
V ar(µ̂) = .
n
p
Por la ley de los grandes números X → µ, lo que significa que el estimador es consistente. Además,
existe una segunda manera de comprobar que un estimador es consistente sin necesidad de recurrir
a la ley de los grandes números, que consiste en verificar que es asintóticamente insesgado y con
varianza cero. En nuestro ejemplo tenemos que el estimador es insesgado porque E(X) = µ y es
obvio que V ar(µ̂) → 0 cuando n → ∞.
1 nX
L(λ) = exp − ,
λn λ
nX
l(λ) = −n log λ − ,
λ
n nX
l0 (λ) = − + 2 y
λ λ
n 2nX
l00 (X) = − 3 .
λ2 λ
de donde se deducı́a que el estimador máximo-verosı́mil es λ̂ = X.
66CAPÍTULO 6. PROPIEDADES ASINTÓTICAS DE LOS ESTIMADORES MÁXIMO-VEROSÍMILES
Ahora vamos a calcular el error tı́pico del estimador. La información observada es igual a
menos la segunda derivada:
n 2nX
I(λ) = − + 3 ,
λ2 λ
Si evaluamos la función I(λ) en el valor de λ̂ encontramos que
n 2nX
I(λ̂) = − 2 + 3
X X
n 2n
= − 2 + 2
X X
n
= 2.
X
Por tanto la varianza del estimador es:
2
X
V ar(λ̂) = .
n
En el ejemplo 2 vimos que con la muestra x = (2, 7, 3)0 se obtenı́a el estimador λ̂ = X = 4.
Entonces, su varianza es
2
X 42
V ar(λ̂) = = ≈ 5, 33,
n 3
√
y su error tı́pico es σλ̂ = 5, 33 ≈ 2, 31, bastante elevado debido al reducido tamaño muestral.
θ̂ − θ
Z= .
Se
Supongamos que se buscan dos valores, Zα/2 y Z1−α/2 , de una distribución normal estándar
que dejan dentro de sı́ una probabilidad de 1 − α. Por tanto, la probabilidad de encontrar valores
del estadı́stico Z dentro de este intervalo es 1 − α, es decir:
!
θ̂ − θ
P Zα/2 ≤ ≤ Z1−α/2 =1−α
Se
Desarrollando esta expresión se obtiene que el intervalo de confianza para el parámetro es:
6.3. INTERVALOS DE CONFIANZA 67
P (Li ≤ θ ≤ Ls ) = 1 − α ,
Ls = θ̂ + |Zα/2 |Se
Li = θ̂ − |Zα/2 |Se
Además, ya hemos visto que el error tı́pico de estimación que necesitamos para calcular los
lı́mites es
1
Se = p .
I(θ)
Los valores más habituales de 1 − α son 0, 95 o 0, 99, a los que les corresponde un valor de |zα/2 |
igual a |z0,025 | = 1, 96 y |z0,005 | = 2, 575 respectivamente.
Para entender estos resultados hay que hacer algunas precisiones. En primer lugar es un resul-
tado asintótico, por lo que requiere de muestras grandes dado que, de no ser ası́, no se garantizan
los supuestos en que se ha basado este desarrollo: normalidad, estimador insesgado y con un Se
calculado con precisión a partir de los datos disponibles. En segundo lugar, 1 − α es la probabilidad
de que al tomar una muestra, el intervalo resultante contenga el valor verdadero de θ. Una vez que
se dispone de una muestra concreta, el intervalo que se construya contendrá o no el valor verdadero,
por lo que no tiene sentido hablar de la probabilidad de que dicho intervalo contenga el parámetro.
Al igual que L(θ) no indica la probabilidad de θ sino su verosimilitud, tenemos una determinada
confianza de que el intervalo (Li , Ls ) contenga dentro de si el valor esperado del parámetro, pero
no una probabilidad.
σ
Se = √ .
n
Para obtener un intervalo de confianza al 99 %, se tiene que 1 − α = 0, 99, por lo que α = 0, 01
y α/2 = 0, 005. Por tanto |Z0,005 | = 2, 575, con lo que los lı́mites inferior y superior del intervalo
de confianza para µ son:
σ
Ls = X + 2, 575 √
n
σ
Li = X − 2, 575 √ .
n
σ2 15
= =5.
n 3
Entonces, con un nivel de confianza del 99 %, el valor verdadero de µ estará dentro del intervalo:
σ √
Ls = X + 2, 575 √ = 103 + 2, 575 5 = 108, 75
n
σ √
Li = X − 2, 575 √ = 103 − 2, 575 5 = 97, 24
n
Esto no significa que exista una probabilidad de 0,99 de que µ esté entre 97, 24 y 180, 75. El
valor verdadero de µ, aún siendo desconocido, estará o no estará dentro de este intervalo. Lo que
sı́ sabemos es que en el 99 % de las muestra que tomemos de esta población, el intervalo resultante
contendrá el valor verdadero de µ. Por tanto, tenemos una confianza del 99 % de que esta sea una
de esas muestras. Por último, el término confianza carece de una definición matemática precisa, a
diferencia del término probabilidad, del que no es sinónimo.
16
V ar(λ̂) =
.
3
Vamos ahora a construir un intervalo de confianza al 95 % para λ. Mirando en la distribución
normal se encuentra que |Z0,025 | = 1, 96, por lo que el intervalo resulta ser
4
Ls = 4 + 1, 96 √ ≈ 8, 53
3
4
Li = 4 − 1, 96 √ ≈ −0, 52
3
Puede verse que el lı́mite inferior del intervalo de confianza es un valor imposible del parámetro.
De hecho, si se sustituye el valor de Li en la función de densidad del ejemplo 1, esta toma un valor
negativo, lo cual no es admisible para una función de densidad. Este ejemplo nos recuerda que el
intervalo de confianza es un resultado aproximado que puede resultar adecuado cuando la muestra
es grande, pero en muestras pequeñas como la de este ejemplo puede dar resultados poco precisos
o incorrectos.
estimador. Continuando con el ejemplo del capı́tulo anterior sobre la distribución Weibull, tenı́amos
que la muestra era x = (2, 7, 3)0 . Para pedirle a optim que nos de la segunda derivada utilizamos
el argumento hessian:
x <- c(2, 7, 3)
suma <- sum(x)
Entre los elementos del objeto fit ahora tenemos que la segunda derivada (hessian) es -0.1875001.
A partir de ella podemos calcular la varianza, el error tı́pico del estimador y el intervalo de confianza
con el siguiente código
Z <- abs(qnorm(0.025))
Las únicas partes reseñables de este código, por su posible novedad, son el uso de la función
qnorm que proporciona el valor de la curva normal estándar asociada a una determinada proba-
bilidad, el comando cat que muestra un mensaje por pantalla y el uso de sprintf para construir
el mensaje que mostrará cat. Los argumentos %5.3f y \n pasados a sprintf tienen el siguiente
sentido, %5.3f indica la posición del mensaje donde insertar el valor de una variable real y el for-
mato en que se mostrará esta en cuanto a longitud y número de decimales, \n se denomina una
“secuencia de escape” que lo que hace es insertar un salto de linea en el mensaje.
70CAPÍTULO 6. PROPIEDADES ASINTÓTICAS DE LOS ESTIMADORES MÁXIMO-VEROSÍMILES
6.5. Ejercicios
Ejercicio 1 Obtenga la varianza del estimador de ω en una distribución exponencial.
λy
f (y | λ) = exp(−λ) .
y!
Se ha tomado una m.a.s. de tamaño cuatro, y se encuentra el resultado y = {4, 2, 6, 4}. Obtenga
el estimador máximo-verosimil, su varianza y el intervalo de confianza al 95 %.
Ejercicio 5 Sea la distribución exponencial (ω). En una muestra se ha encontrado y = {2,5, 1,5, 1,25, 0,75}.
Ejercicio 6 Una variable sigue la distribución normal (µ, σ = 2). Un investigador desea realizar
una estimación por intervalos de µ, con un nivel de confianza del 99 % y una anchura del intervalo
de 0.5. ¿Cual debe ser el tamaño muestral del experimento?
Capı́tulo 7
Contraste de hipótesis
En este capı́tulo vamos a ver contrastes en los que aparecen dos hipótesis: la hipótesis nula
(H0 ) es una hipótesis concreta (especifica exactamente el valor de uno o más parámetros) que se
somete a prueba. La hipótesis alternativa (H1 ) que recoge todos aquellos casos que no se incluyen
en la nula. A su vez, las hipótesis pueden ser simples o compuestas. Una hipótesis simple especifica
un valor único para el parámetro, por ejemplo H1 : ω = 110. Una hipótesis compuesta especifica
un rango de valores, por ejemplo H1 : ω > 110. En este curso únicamente veremos el caso de la
hipótesis nula simple.
Ejemplo 1 Supongamos que se toma una muestra x = (x1 , . . . , xn )0 de una distribución de Poisson
y se desea contrastar la hipótesis nula: H0 : λ = 5 frente a la alternativa H1 : λ > 5. En este caso
la hipótesis nula es simple y la alternativa es compuesta.
La decisión sobre las hipótesis se toma en función de los valores muestrales, que suelen resu-
mirse en un estadı́stico de contraste T (x ) que es aquella cantidad muestral que resulta relevante
71
72 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS
para obtener información acerca del parámetro a contrastar en la hipótesis nula. Por ejemplo, en
un contraste sobre una varianza con la hipótesis nula H0 : σ 2 = 15, el dato relevante es la va-
rianza muestral, T (x ) = S 2 . En concreto, un estadı́stico de contraste debe reunir las siguientes
condiciones.
El conjunto de posibles valores de la muestra para los cuales se rechaza la hipótesis nula se
denomina zona critica o de riesgo, y puede indicarse por el signo C. Se define C mediante el nivel
de significación:
P (T (x) ∈ C; H0 ) = α ,
Una vez obtenido T (x ) existen distintas formas de saber si está en zona de rechazo y ası́ tomar
una decisión en el contraste. Una de ellas es calcular el nivel crı́tico, p, denominado en ocasiones
p − valor (del inglés (p − value).
Definición 15 (Nivel crı́tico) El nivel crı́tico es la probabilidad que hay desde el valor observado
de los datos en la muestra hacia la zona de rechazo:
P (T (x) hacia C; H0 ) = p.
3. Error de tipo II. Mantener la hipótesis nula cuando es falsa, su probabilidad es β = P (T (x) ∈
/ C; H1 ).
H0 : θ = θ0
H1 : θ 6= θ0
Si H0 fuese verdadera, la distribución asintótica del estimador θ̂ serı́a normal con media θ0 y error
p
tı́pico Se = 1/ I(θ0 )). Entonces, el estadı́stico de contraste lo obtenemos tipificando el estimador:
θ̂ − θ0
Z=
Se
Ejemplo 2 Hemos tomado una m.a.s. procedente de una distribución de normal con µ desconocida
y σ = 4. El resultado es x = (19, 14, 13, 18)0 , y pretendemos hacer un contraste con las siguientes
hipótesis:
74 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS
H0 : µ ≤ 12
H1 : µ > 12
µ̂ = X
σ2
V ar(µ̂) =
n
Para establecer la zona crı́tica fijaremos arbitrariamente un nivel de significación α = 0, 05. Como
es un contraste unilateral derecho, la zona crı́tica viene definida por los valores que están en la
cola derecha de la distribución de Z. El punto crı́tico a partir del cual comienza la zona crı́tica es
el valor de Z que deja a su derecha la probabilidad 0,05, es decir Zc = 1, 64. Rechazaremos H0 en
caso de que encontremos en la muestra un valor Z ≥ 1, 64.
Realizando los cálculos con los datos de nuestro ejemplo, encontramos que µ̂ = 16, V ar(µ̂) =
√
16/4 = 4 y Se = 4 = 2. Por tanto, el estadı́stico de contraste es
µ̂ − µ0 16 − 12
Z= = = 2.
Se 2
Como 2 > 1, 64 rechazamos H0 y concluimos que µ es mayor de 12.
Por completar el ejercicio e ilustrar algunos conceptos fundamentales del contraste de hipótesis,
vamos a realizar algunos cálculos adicionales. En primer lugar el nivel crı́tico, denominado p o
p − valor, que es la probabilidad asociada al estadı́stico de contraste. En nuestro ejemplo, al ser un
contraste unilateral derecho, el nivel crı́tico es:
p = P (Z ≥ 2) ≈ 0, 023.
El nivel crı́tico también nos permite tomar una decisión sobre H0 . Como p < α, rechazamos H0 .
Además podemos averiguar a partir de qué valor de µ̂ se hubiera rechazado H0 , es decir el
punto crı́tico en puntuación directa. Como hemos dicho que se rechaza con Z ≥ 1, 64, trasladando
el punto crı́tico a puntuaciones directas encontramos
µˆc − 12
1, 64 =
2
µˆc = 12 + 2 × 1, 64 = 15, 28.
Lo que significa que encontrar un valor de µ̂ mayor o igual a 15,28 es una evidencia suficientemente
fuerte como para poder rechazar H0 .
7.3. CONTRASTES BASADOS EN EL TEOREMA DEL LÍMITE CENTRAL 75
Vamos ahora a calcular la potencia. Supongamos que µ1 es el valor verdadero del parámetro µ.
Entonces, la potencia es
15, 28 − 16
Z= = −0, 36,
2
y mirando en tablas de la normal encontramos que la potencia observada es
E(X) = 1/θ
V ar(X) = 1/θ2
76 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS
E(X) = 0, 25
V ar(X) = 0, 0625
√
n(X − E(X))
Z = p
V ar(X)
√
16(0, 2 − 0, 25)
= √
0, 0625
= −0, 8.
p = P (Z ≤ −0, 8) = 0, 21.
Al ser un contraste bilateral comparamos el nivel crı́tico con α/2. Como 0, 21 > α/2 = 0, 005
mantenemos H0 y no podemos concluir que E(X) sea distinto de 0,25, es decir no podemos rechazar
la hipótesis nula.
7.4. Prácticas en R
Los ejercicios sobre contraste de hipótesis podemos replicarlos en R utilizado las funciones
vistas en el capı́tulo 3 para obtener las probabilidades asociadas a cada distribución, y a la inversa,
para conocer el valor de la variable asociado a una determinada probabilidad. Vamos a replicar el
cálculo de la potencia en el ejemplo del apartado 7.2. Los datos de entrada son los valores n = 4,
µ0 = 12, µ1 = 16, σ = 4 y α = 0, 05. El siguiente código R calcula el primer lugar el punto crı́tico,
es decir el valor de Z asociado a α, después lo convierte a puntuación directa, y por último busca
la probabilidad del punto critico en puntiación directa bajo la distribución de H1 .
n <- 4
mu_0 <- 12
mu_1 <- 16
sigma <- 4
alpha <- 0.05
7.5. Ejercicios
Ejercicio 1 Supongamos que se toma la siguiente muestra de una distribución normal (µ, 2):
Contraste la hipótesis H0 : λ = 5.
x = (2, 6, 5, 3)0 .
H0 : ω ≥ 0, 3
H1 : ω < 0, 3
2. Calcule α y 1 − β siendo ω = 0, 1 y n = 4.
Parte III
Apendice
79
Apéndice sobre análisis
matemático
Para seguir el curso de Fundamentos de Estadı́stica Teórica se requiere utilizar los conceptos de
análisis matemático que se estudian en el bachillerato. En este apéndice se describen brevemente
aquellos contenidos que más se utilizan en el curso.
1. Funciones
Una función real de variable real es una aplicación que asigna a cada elemento de un subconjunto
D ⊂ R, denominado dominio de la función, un elemento de R:
f :D→R
√
f (x) = x.
El dominio de la función son los números reales no negativos, dado que f (x) no está definida para
valores reales menores que cero.
A continuación se estudian tres tipos de funciones. Las polinómicas porque su sencillez las
hace útiles para repasar conceptos de cálculo diferencial. La exponencial y logarı́tmica por su
importancia para la estadı́stica.
1.1. Polinomios
Una función f : R → R se llama polinomio cuando viene dada por:
f (x) = a0 + a1 x + a2 x2 + · · · + an xn ,
siendo a1 , a2 , . . . , an los coeficientes del polinomio y n un número natural llamado grado del poli-
nomio.
81
82
f (x) = 2 + 3x ,
g(x) = 2 + 3x + 4x2 .
Su representación gráfica puede verse en la figura 7.2, la función f (x) se denomina función
lineal, y g(x) se denomina función cuadrática porque el grado del polinomio es 2.
exp(x) = ex .
1. exp(0) = 1 .
3. exp(−x) = 1/ exp(x) .
4. exp(x)n = exp(nx) .
5. lı́mx−>∞ exp(x) = ∞ .
6. lı́mx−>−∞ exp(x) = 0 .
f (x) = exp(x)
g(x) = exp(2x)
h(x) = 2 exp(2x)
log(y) = x .
1. log(1) = 0 .
84
3. log(1/x) = − log(x) .
4. log(x)n = n log(x) .
5. lı́mx−>∞ log(x) = ∞ .
6. lı́mx−>0 log(x) = −∞ .
7. log exp(x) = x .
El logaritmo, log(y), no está definido para valores de y negativos porque no existe ningún
número x tal que ex < 0.
f (x) = log(x)
g(x) = log(2x)
h(x) = 2 log(2x)
Es importante apreciar en la figura 7.4 que cuando x → 0 el logaritmo log x → −∞, y que
log 1 = 0. Por tanto, al logaritmo de valores de x en el intervalo (0, 1] le corresponden valores en
el intervalo [−∞, 0). Esta propiedad será de utilidad en estadı́stica cuando tomemos el logaritmo
de funciones de probabilidad. Una función de probabilidad f (x) toma valores entre 0 y 1. Si f (x)
está próximo a 0 entonces log f (x) tomará un valor muy bajo que indica baja probabilidad. Si f (x)
está próximo a 1 entonces logf (x) será próximo a 0, lo que indica alta probabilidad.
Una de las propiedades más importantes de la función logaritmo para la estadı́stica es que se
trata de una función monótona creciente, lo cual significa que si x > y entonces log x > log y. En
la estimación de parámetros de modelos estadı́sticos es necesario encontrar el valor de x que hace
85
máxima f (x); gracias a la propiedad de monotonı́a este valor también hace máxima la función
log f (x). En estadı́stica se utilizan funciones para las que la forma de log f (x) es más sencilla que
f (x). Por esta razón para encontrar el máximo de f (x) se busca el valor que maximiza log f (x) en
lugar de trabajar directamente con f (x).
Ejemplo 5 Supongamos que quisiéramos encontrar el valor de x que hace máxima la función
Como g(x) es más sencilla que f (x), al haberse eliminado la exponencial, resulta más sencillo
trabajar con ella para encontrar el máximo. La figura 7.5 muestra la representación gráfica de
las funciones f (x) y g(x). Puede verse que la forma de ambas no es igual, sin embargo, ambas
aumentan y disminuyen al mismo tiempo, por lo que el máximo se sitúa en el mismo punto: x = 2.
2. Cálculo diferencial
Se denomina derivada de la función f en el punto c al siguiente lı́mite, en caso de que exista y
sea finito:
86
f (x) − f (c)
lı́m .
x→c x−c
La derivada se indica por f 0 (x). Se interpreta como la pendiente de la recta tangente a f (x) en el
punto c. En el máximo y el mı́nimo de f (x) la pendiente de la tangente es 0. Esta propiedad se
utiliza en estadı́stica para buscar estimadores maximizando funciones.
y la recta tangente en varios puntos. Podemos apreciar como una recta tangente plana, es decir
con pendiente cero, indica un máximo o un mı́nimo.
f (x) = x2 ,
f (x) − f (c)
f 0 (x) = lı́m
x→c x−c
x2 − c2
= lı́m
x→c x − c
(x + c)(x − c)
= lı́m
x→c x−c
= lı́m (x + c)
x→c
= 2c .
Como f 0 es constante no hay ningún valor de x que haga que f 0 (x) = 0, por lo que no hay máximos
ni mı́nimos.
87
7. Si
g(x)
f (x) = ,
h(x)
entonces
f (x) = x3 + 4x2 + 5x + 6 .
f 0 (x) = 3x2 + 8x + 5 ,
f (2) (x) = 6x + 8,
f (3) (x) = 6.
88
Dicha función puede entenderse como una función compuesta por las siguientes
f (y) = y2 ,
g(x) = x3 − 2 ,
f 0 (y) = 2y ,
g 0 (x) = 3x2 .
Teniendo en cuenta que f 0 (g(x)) = 2(x3 − 2), al aplicar la regla de la cadena se obtiene
f (y) = exp(y) ,
g(x) = x3 .
f 0 (y) = exp(y) ,
g 0 (x) = 3x2 .
f 0 (x)
h0 (x) = .
f (x)
De donde se deduce la regla de derivación logarı́tmica:
f (x) = (x + 1)(x − 1)
Tomamos el logaritmo
y derivamos
1 1
(log f (x))0 = + .
x+1 x−1
Juntando todos los términos se encuentra el resultado
Su logaritmo es:
90
En consecuencia
0 2
(log f (x)) = 3x2 + .
x
Aplicando la regla de la derivación logarı́tmica:
Puede advertirse que la solución a este ejemplo también podı́a haberse obtenido mediante la sexta
regla de derivación, en lugar de emplear derivación logarı́tmica:
Además, las funciones reales se estudian no sólo en puntos concretos de su dominio sino en
intervalos del mismo. Supongamos que una función, f (x), está definida en un intervalo x ∈ (a, b).
Entonces
cuya representación gráfica se ha visto en la figura 7.6. La derivada de f (x) con respecto a x es
La derivada, f 0 (x), toma el valor cero cuando se cumple una de las dos condiciones
(x − 5)2 = 0
8 + 18(x − 5) = 0
f 00 (x) = 8 + 36(x − 5)
El valor de la segunda derivada nos informa del comportamiento de f (x) en cada uno de los puntos:
1. Cuando x = 5 la segunda derivada es f 00 (5) = 8 > 0, luego f tiene un mı́nimo en este punto.
Ejemplo 14 Consideremos la función f (x) = −x4 +2x2 . Sus derivadas de primer y segundo orden
son
92
f 0 (x) = −4x3 + 4x .
f 00 (x) = −12x2 + 4 .
Vamos a buscar los extremos de f utilizando su primera derivada, que se puede escribir:
f 0 (x) = x(−4x2 + 4) .
por lo que f es convexa. Para valores de x fuera de este intervalo f 00 < 0 y la función es cóncava.
La figura 7.7 muestra el gráfico de f , f 0 y f 00 .
4. Cálculo integral
El cálculo integral tiene dos aplicaciones primordiales en estadı́stica: calcular probabilidades
utilizando el área comprendida dentro de una función de distribución y calcular momentos (como
medias o varianzas) de una distribución. Para ello necesitamos los conceptos de integral indefinida
y definida.
93
Integrales inmediatas
Las integrales más sencillas son aquellas que pueden resolverse sin más que utilizar una tabla
de primitivas. Supongamos que k es una constante y f y g son dos funciones de x. Algunas reglas
de integración sencillas son:
R R
kf (x) dx = k f (x) dx .
R R R
(f (x) + g(x)) dx = f (x) dx + g(x) dx .
q+1
x dx = xq+1 + C .
R q
exp(qx) dx = exp(qx)
R
q +C .
R 1
x dx = log x + C .
x5
f (x) = 1 + 2x + 3x2 + 4x3 + x4 + .
2
La integral indefinida es
x5
Z Z
f (x) dx = (1 + 2x + 3x2 + 4x3 + x4 + ) dx
2
x5 x6
= x + x2 + x3 + x4 + + +C .
5 12
x5 x6
Por lo que una primitiva es F (x) = x + x2 + x3 + x4 + 5 + 3 .
2
. f (x) =
x
Utilizando la quinta regla de integración y asumiendo que x es positivo:
F (x) = 2 log(x).
f (x) = exp(−2x).
exp(−2x)
F (x) = .
−2
Se comprueba fácilmente que la derivada de F (x) es f (x):
−2 exp(−2x)
F 0 (x) = = exp(−2x).
−2
A medida que se reduce la base de los rectángulos y se incrementa el número de ellos, la suma
de las áreas de los rectángulos constituye una mejor aproximación al área de la curva. De modo
intuitivo, podemos entender la integral definida de una función f en el intervalo [a, b] como la suma
de las áreas de infinitos rectángulos incluidos en la figura. La integral definida se indica del modo
Z b
f (x) dx .
a
95
Teorema 3 (Primer teorema fundamental del cálculo) . Si f (x) es una función integrable
en [a, b] y continua en el punto x ∈ [a, b], entonces la integral indefinida F (x) es derivable en x y
además F 0 (x) = f (x).
El segundo teorema nos dice cómo obtener el área comprendida por una función f (x) entre
dos puntos a y b. Simplemente debemos calcular la primitiva F (x) y el área será la diferencia
F (b) − F (a). En concreto:
Teorema 4 (Segundo teorema fundamental del cálculo) . Sea f (x) es una función integra-
ble en [a, b] y supongamos que F (x) es una primitiva suya, entonces:
Z b
b
f (x)dx = [F (x)]a
a
= F (b) − F (a) ,
b b
Los sı́mbolos [F (x)]a y F (x)|a se utilizan con frecuencia en el contexto de la integral definida
para representar la diferencia entre los valores de F en b y a. Es decir
b
[F (x)]a = F (b) − F (a)
b
F (x)|a = F (b) − F (a)
96
Ejemplo 18 Vamos a obtener el área comprendida bajo la curva mostrada en la figura 7.8. Dicha
curva está definida por la función:
f (x) = 4 − x2 .
Además, la curva corta el eje de abscisas (es decir, f (x) = 0) en los puntos x = −2 y x = 2. Por
tanto, el área viene dada por la integral definida
Z 2
(4 − x2 ) dx .
−2
x3
Z
(4 − x2 ) dx = 4x − + C,
3
x3
con lo que F (x) = 4x − 3 . El área pedida es el resultado del cálculo:
Z 2
(4 − x2 ) dx = F (2) − F (−2),
−2
es decir
2 2
x3
Z
2
(4 − x ) dx = 4x −
−2 3 −2
23 (−2)3
= 4(2) − − 4(−2) −
3 3
8
= 16 − 2
3
32
= .
3
f (x) = x4
x5
Z
x4 dx = + C.
5
x5
Entonces, dada una primitiva F (x) = 5 , la integral definida es:
97
Z 1
x4 dx = F (1) − F (−1)
−1
1
x5
=
5 −1
15 −15
= −
5 5
2
= .
5
Ejemplo 20 Sea la función f (x) = 2 + 3x2 , obtenga f 0 (x) y la integral indefinida f 0 (x) dx.
R
f 0 (x) = 6x .
x3
x1
x2
x =
..
.
xn
0
Si no se indica lo contrario, un vector se coloca en forma de columna de elementos. El sı́mbolo
indica la operación de trasponer un vector, convirtiendo ası́ un vector columna en vector fila:
x = (x1 , . . . xn )0
98
n
X
xi = x1 + · · · + xn ,
i=1
3
X
xi = x1 + x2 + x3 ,
i=1
4
X
xi = x2 + x3 + x4 ,
i=2
3
X
xi = x1 + x3 ,
i=1
i6=2
5
X
xi = x1 + x3 + x5 ,
i=1
i impar
X
xi = x1 + · · · + xn .
i
Q
El sı́mbolo del producto ( ) es similar al del sumatorio, pero indica el producto de los
elementos del vector en lugar de la suma:
n
Y
= x1 x2 . . . xn .
i=1
n n
!
Y X
exp(xi ) = exp xi .
i=1 i=1
n
Y
f (x ) = exp(xi ) ,
i=1
n
! n
X X
log f (x ) = log exp xi = xi ,
i=1 i=1
Con estas transformaciones, a partir de la función f (x ) que tenı́a una forma relativamente compli-
cada -el producto de n términos- se ha obtenido una función mucho más sencilla (log f (x )). Este
tipo de transformaciones aparecen continuamente el el campo de la estadı́stica.
donde ω es un parámetro que describe la población de la que proceden estas observaciones. Vamos
a realizar algunas transformaciones sobre g(x, ω) que son comunes en estadı́stica. En primer lugar,
el producto de las tres funciones de probabilidad g(x1 , ω), g(x2 , ω) y g(x3 , ω) es
3
Y
f (x, ω) = g(xi , ω)
i=1
3
Y
= exp((xi − ω)2 )
i=1
3
X
= exp( (xi − ω)2 ).
i=1
Tomamos el logaritmo de f :
Supongamos que la muestra concreta que hemos encontrado en nuestro estudio estadı́stico es x =
(1, 2, 3)0 , entonces
100
cuya representación gráfica para distintos valores de ω aparece en la figura 7.10. Puede verse que
ambas alcanzan el valor mı́nimo en el mismo punto. Esto se debe a que la función logaritmo es
monótona, por lo que cuando f (x, ω) aumenta también lo hace l(x, ω), al igual que cuando f (x, ω)
disminuye también disminuye l(x, ω). Por tanto, para buscar el valor de ω que maximiza f (x, ω)
basta buscar el que maximiza l(x, ω), que es una función más sencilla y cómoda de manejar.
Para buscar exactamente el mı́nimo de l(x, ω) tomamos su primera derivada con respecto a ω:
−12 + 6ω = 0
ω = 2
l00 (x, ω) = 6.
Por lo que l00 (x, ω) > 0 en el punto ω = 2, según vimos en el apartado del estudio local de una
función.
f (x) = log(5x2 + 3)
f (x) = exp(5x2 + 3)
f (x) = x2 + x + 1 .
Calcule la integral:
Z 1
f (x) dx.
−1
f (x) = x2 + ax + b .
Calcule la integral:
Z 1
f (x) dx.
−1
Ejercicio 4 . Obtener los máximos, mı́nimos y puntos de concavidad y convexidad de las funcio-
nes:
f (x) = exp(−x2 )
f (x) = x3 − x
3x2 −6x
f (x) = x3 −3x2
102
f (x) = 6x exp(3x2 )
exp(x)
f (x) = .
1 + exp(x)
Ejercicio 9 Dadas las funciones:
1
f (x) = exp − (x − 2)2 ,
2
g(x) = log f (x) .
f (x) = x(1 − x) .
f (x) = xa (1 − x)b .
f (x) = exp(λx) .
Obtenga la integral:
Z 0
h(x)dx .
−∞
f (x) = x3