Escolar Documentos
Profissional Documentos
Cultura Documentos
Inferencia estadística
Una introducción
básica, breve y elemental
Jorge Moretti
Mayo de 2009
SOCIEDAD DE EDUCACIÓN MATEMÁTICA URUGUAYA
Jornada de Educación Matemática (JEM 29)
I - Introducción
II – Estadística Descriptiva
A – Un ejemplo
En la tabla que sigue aparecen los datos sobre el ingreso durante el último mes de
cincuenta hogares de un barrio de Montevideo.
1
Lo anterior, que es una forma de ver una función real cuyo dominio es el conjunto
de los cincuenta hogares que se han investigado, puede resumirse en la próxima
tabla (esa función es un caso de variable estadística cuantitativa).
Nota : Los valores de la última columna han sido redondeados a dos cifras decimales.
Y ahora vamos tras cuatro números que pretenden describir la tabla anterior,
resumiendo aún más los datos originales de los ingresos.
2
Mediana del ingreso
¿Hay algún ingreso tal que la mitad de los hogares tengan un ingreso que no lo
supera y la otra mitad un ingreso que sí lo supera?
Si ahora recorremos la columna titulada “Frecuencia acumulada relativa” de la
tabla 2, vemos que el ingreso que responde a la pregunta anterior es doce mil
pesos. A ese número lo llamaremos mediana de la función ingreso.
Ejercicio 1
Interpreta el renglón correspondiente al ingreso 15 de la tabla 2.
Ejercicio 2
Un funcionario de una empresa de transporte visita una fábrica de neumáticos para
realizar una importante compra de neumáticos. Le pregunta al encargado de
ventas sobre la duración de los mismos y éste le comunica que puede darle
algunos indicadores estadísticos sobre tal duración. Concretamente le pregunta:
¿Prefiere que le informe sobre la media, la moda o la mediana?
¿Cuál indicador le conviene solicitar al comprador? (te sugerimos que no te apures
en la respuesta).
Ejercicio 3
La empresa del ejercicio anterior lleva estadísticas, desde hace varios años, de la
duración de dos marcas de neumáticos. Tiene los siguientes datos:
Neumático A: media 25.000 Km y mediana 27.000 Km
Neumático B: media 27.000 Km y mediana 25.000 Km
Se sabe que las dos marcas se veden al mismo precio. ¿Qué marca le
recomendarías a la empresa? ¿Por qué?
Ejercicio 4
Un supermercado tiene información sobre las ventas durante el último mes de cada
uno de sus productos y ha calculado la media, la moda, la mediana y la mediala de
la función ventas. ¿Cuál o cuáles de esos indicadores puede serle de más utilidad?
(nuevamente te pedimos que pienses atentamente tu respuesta).
Ejercicio 5
Consigue o elabora algo similar a la tabla 1 y calcula la media, la moda, la mediana
y la mediala de la correspondiente función.
Función de distribución
A partir de las frecuencias relativas acumuladas que aparecen en la tabla 2
⎧0 si x < 4
⎪0,06 si 4 ≤ x < 6
⎪
⎪0,12 si 6 ≤ x < 7
⎪
definimos una segunda función así: F : R → R tal que F( x ) = ⎨... .
⎪0.94 si 20 ≤ x < 21
⎪
⎪0.96 si 21 ≤ x < 22
⎪1 si x ≥ 22
⎩
A esta función F la llamaremos función de distribución de la variable ingreso.
4
Función de concentración
La última función que definiremos con nuestra variable ingreso es la función de
concentración. Aquí necesitamos algo más que la tabla 2.
Ordenemos los cincuenta hogares según los valores crecientes de sus ingresos y
notemos que:
1
- El primero de esos hogares tiene una frecuencia relativa de y un ingreso de
50
4
cuatro mil pesos, lo cual es del ingreso total de los cincuenta hogares.
632
2
- Los dos primeros hogares tienen una frecuencia relativa de y en conjunto
50
8
acumulan un ingreso de ocho mil pesos, lo cual es del ingreso total de los
632
cincuenta hogares.
- Y así sucesivamente hasta llegar a los cincuenta hogares.
5
Con relación a la función de concentración, el estadístico italiano Corrado Gini ha
sugerido el cálculo de un índice que lleva su nombre y que definió como el doble
del área de la región del plano encerrada entre la función de concentración y la
recta de ecuación y = x.
Ejercicio 6
Para la variable ingreso con la que estamos trabajando:
1) Comprueba que la media del ingreso es ∑ x f ( x ) , donde B = {4, 6, ..., 21, 22}.
x ∈B
2) Comprueba que la moda del ingreso es el x (o los x) donde f toma su mayor
valor.
3) Comprueba que la mediana del ingreso es el menor x tal que F(x) ≥ 0,5.
4) ¿Cómo puedes obtener la mediala del ingreso a partir de la función de
concentración?
Ejercicio 7
1) Calcula el índice de Gini para la variable ingreso del ejemplo.
Con el fin de sistematizar ese cálculo te sugerimos que completes una tabla con
el siguiente cabezal:
Ingreso acumulado
Hogar Frecuencia relativa acumulada Valor Parte del ingreso total
2) ¿Cuál tendría que haber sido la variable ingreso de modo que el índice de Gini
fuera lo menor posible? ¿Cuánto vale el índice de Gini para tal variable?
Ejercicio 8
1) Selecciona los veinticinco hogares del ejemplo que tienen menor ingreso y para
ellos calcula la media, la moda, la mediana, la mediala y el índice de Gini de la
nueva variable ingreso. Representa gráficamente las funciones de cuantía, de
distribución y de concentración.
2) Igual que en la parte anterior para los veinticinco hogares de mayor ingreso.
3) ¿Hay algo que te haya sorprendido en los resultados anteriores?
6
B – Variables estadísticas cuantitativas definidas en conjuntos finitos
1 - Subconjuntos de A
Al recorrido de la función X, o sea al conjunto de los valores que toma esa función,
lo simbolizaremos mediante B = {x1 , x 2 , ... , x t }, donde x1 < x 2 < ... < x t .
Es claro que B tiene a lo sumo tantos elementos como A, pero puede ocurrir que
tenga menos (eso pasó en nuestro ejemplo debido a que la variable que allí
consideramos no era inyectiva).
Para cada i entre 1 y t, definimos el conjunto A i como aquél formado por los
elementos de A cuyo valor según X es x i , o sea A i = {a / a ∈ A , X(a) = x i } . Con el
fin de recordar este concepto usaremos la notación A i = ( X = x i ) .
n
∑ bj t
j =1
La media de X es el número M( X) = = ∑ x i fi = ∑ x f X (x) .
n i =1 x ∈B
7
Teorema 1 - Propiedades de la media y de la varianza
Sean:
♣ X e Y variables estadísticas cuantitativas definidas en A = {a1 , a 2 , ... , a n } .
♣ k un número.
♣ c un número positivo.
Entonces:
M1 M( X + k ) = M( X) + k
M2 M(k X) = k M( X)
M3 M( X + Y ) = M( X) + M( Y )
M4 M( ( X − k )2 ) = M( X 2 ) − (M( X))2 + (M( X) − k ) 2
V1 V( X) ≥ 0 y V( X) = 0 si y sólo si X es constante
V2 V( X + k ) = V( X)
V3 V(k X) = k 2 V( X)
V4 V( X + Y ) = V( X) + V( Y ) + 2 ( M( XY) − M( X) M( Y ) )
V5 V( X) = M( X 2 ) − (M( X))2
V6 V( X)
fr( | X − M( X) | ≥ c ) ≤ (desigualdad de Tchebycheff)
c2
Ejercicio 9
1) Calcula la varianza y la desviación estándar de la variable ingreso del ejemplo.
2) Igual al punto anterior para las dos variables con las que trabajaste en el
ejercicio 8
Te sugerimos que completes una tabla con el cabezal que aparece a continuación
(ten en cuenta la propiedad V5) y que verifiques tus resultados con una calculadora
con funciones estadísticas.
xi fi x i fi x i 2 fi
Ejercicio 10
Sea X la variable ingreso del ejemplo.
1) Usa la tabla 2 (página 2) para calcular fr(| X − M( X) | ≥ c ) para cada uno de los
siguientes valores de c: c = 5, c = 6 y c = 7.
2) ¿Qué te permite afirmar la desigualdad de Tchebycheff sobre cada una de las
tres frecuencias relativas del punto anterior?
Ejercicio 11
Sea X una variable estadística cuantitativa y k un número positivo. Usa la
1
desigualdad de Tchebycheff para probar que fr( | X − M( X) | < k σ( X)) ≥ 1 − .
k2
Ejercicio 12
Con el fin de resumir los valores de una variable estadística cuantitativa X en un
solo número puedes elegir cualquiera (por ejemplo la media, la moda, la mediana,
la mediala, o algún otro que sin duda tomarías entre el menor y el mayor valor de
X). Supone que has elegido un tal número k y que luego, para tener una idea de la
dispersión de los valores de X respecto a ese k, calculas la media de los cuadrados
de las diferencias entre los valores de X y k.
8
1) Atento a la propiedad M4, ¿cuál sería el “mejor” k que puedes elegir?
2) Para ese k, ¿cuánto vale la media de los cuadrados de las diferencias entre los
valores de X y k?
Ejercicio 13
Sea X una variable estadística cuantitativa definida en A = {a1 , a 2 , ... , a n } tal que
es no negativa y tiene al menos algún valor positivo.
1) ¿Cómo definirías la mediala de X?
2) ¿Cómo definirías el índice de Gini?
3) Verifica que el índice de Gini puede calcularse con la siguiente fórmula:
2 2 n
1+ − ∑ Tq
n n Tn q = 1
4) ¿Cómo debe ser la variable X para que el índice de Gini sea lo menor posible?
¿Cuánto vale el índice de Gini para tal variable?
Ejercicio 14
Se lanzan dos monedas, cada una de las cuales tiene una C (cara) de un lado y
una N (número) del otro. El conjunto de los resultados posibles del experimento es
A = {(C, C), (C,N), (N, C), (N,N)} . Nos interesa el número de caras que se obtienen al
9
realizar dicho experimento, por lo que consideramos la variable estadística
X : A → R tal que X ((C, C)) = 2 , X ((C,N)) = 1, X ((N, C)) = 1 y X ((N,N)) = 0 .
1) Representa gráficamente la función de cuantía, la función de distribución y la
función de concentración de X.
2) Calcula la media, la moda, la mediana, la mediala y el índice de Gini de X.
Supongamos que tenemos una urna con ocho bolillas, dos de las cuales son rojas
y las otras seis blancas. O sea U = { r1 , r2 , b1 , b 2 , b 3 , b 4 , b 5 , b 6 }.
Estamos interesados en extraer tres bolillas de la urna, de a una y con reposición,
y en contar el número de bolillas rojas que obtenemos. Es claro que ese número
varía entre 0 y 3 (podemos obtener tres bolillas rojas a pesar de que sólo hay dos
en la urna debido al procedimiento que usamos para extraer las bolillas).
Cada resultado de nuestro experimento lo podemos representar mediante una
terna ordenada cuyas componentes son elementos de U. Así por ejemplo, el
resultado “salió la bolilla r2 en la primera extracción y la bolilla b 5 en la segunda y
en la tercera extracción” lo representamos así: (r2 , b 5 , b 5 ) . En ese resultado, el
número de bolillas rojas es uno.
Ahora bien:
♣ ¿Cuántos resultados distintos hay?
La respuesta es 8 3 = 512 .
El conjunto de todos los resultados posibles tiene 512 elementos, lo cual no
hace atractiva la tarea de escribirlos todos.
A ese conjunto lo representaremos con el símbolo Ω .
Estamos interesados en contar el número de bolillas rojas que obtenemos.
Pensamos pues en una función definida en Ω que a cada resultado le asocia
el número de bolillas rojas que allí hay. A esa función la representaremos
mediante la letra X.
♣ ¿En cuántos resultados el número de bolillas rojas es cero?
La respuesta es 6 3 = 216 .
El subconjunto de Ω en el que X vale 0 tiene 216 elementos.
Ya sabemos que a ese subconjunto lo representamos con el símbolo (X = 0).
♣ ¿En cuántos resultados el número de bolillas rojas es uno?
La respuesta es C 13 . 2 . 6 2 = 216 .
Entonces (X = 1) tiene 216 elementos.
♣ ¿En cuántos resultados el número de bolillas rojas es dos?
La respuesta es C 32 . 2 2 . 6 = 72 .
Entonces (X = 2) tiene 72 elementos.
♣ Finalmente, ¿en cuántos resultados el número de bolillas rojas es tres?
La respuesta es 2 3 = 8 .
Entonces (X = 3) tiene 8 elementos.
Es útil que observes que las respuestas a las cuatro últimas preguntas pueden
resumirse así: el número de elementos del subconjunto de Ω en el que la variable
X vale x, o sea el número de elementos de (X = x), es C x 2 x 6 3 − x ( x = 0, 1, 2, 3).
3
10
Debido a que es razonable admitir que los elementos de Ω son equiprobables,
podemos calcular la probabilidad de (X = x) para cada x. En efecto:
C x 2 x 6 3−x C x 2 x 6 3−x 3−x
3 3 x
3 ⎛2⎞ ⎛6⎞
Pr( X = x ) = = =Cx⎜ ⎟ ⎜ ⎟ para x = 0, 1, 2, 3.
83 8 x 8 3−x ⎝8⎠ ⎝8⎠
2
Lo anterior suele escribirse así: Pr( X = x ) = C 3x p x (1 − p) 3 − x , donde p = es la
8
proporción de bolillas rojas en la urna.
Para finalizar, aprovechemos los resultados que obtuvimos para hallar la media y la
varianza de la variable X.
Ejercicio 15
1) Representa gráficamente la función de cuantía y la función de distribución de la
variable X del ejemplo que acabamos de analizar.
2) ¿Cuál es la moda y cuál la mediana de esa variable?
B – El modelo binomial
11
Tabla 3 - X tiene distribución binomial de parámetros p y n
Condición de p y n p ∈ R, 0 < p < 1 ; n ∈ N, n > 0
Recorrido de X 0, 1, ..., n
Función de cuantía f ( x ) = C n p x (1 − p)n − x
X x
Fórmula de recurrencia p (n − x )
f X ( x + 1) = f X (x)
(1 − p) ( x + 1)
x = 0, 1, ..., n -1
Media de X np
Varianza de X n p (1 − p)
Moda de X Caso 1: p (n + 1) no es entero
E ( p (n + 1) )
Caso 2: p (n + 1) es entero
p (n + 1) − 1 y p (n + 1)
Intervalo de confianza para p con nivel Extremo inferior
de confianza ϕ
n (2 X + k 2 ) − k 4 n X (n − X) + k 2 n 2
2 n (n + k 2 )
Extremo superior
n (2 X + k 2 ) + k 4 n X (n − X) + k 2 n 2
2 n (n + k 2 )
⎧ 10 si ϕ = 0,90
⎪⎪
k = ⎨ 20 si ϕ = 0,95
⎪ 10 si ϕ = 0,99
⎪⎩
Estimador máximo verosímil de p X
n
12
Tabla 4 - X tiene distribución binomial de parámetros r, b y n
Condición de r, b y n r, b y n son naturales positivos
Recorrido de X 0, 1, ..., n
Función de cuantía C nx r x bn − x
f X (x) =
(r + b)n
Fórmula de recurrencia r (n − x )
f X ( x + 1) = f X (x)
b ( x + 1)
x = 0, 1, ..., n -1
Media de X nr
r +b
Varianza de X nr b
(r + b) 2
Moda de X r (n + 1)
Caso 1: no es entero
r +b
⎛ r (n + 1) ⎞
E⎜ ⎟
⎝ r +b ⎠
r (n + 1)
Caso 2: es entero
r +b
r (n + 1) r (n + 1)
−1 y
r +b r +b
Intervalo de confianza para r con nivel Extremo inferior
de confianza ϕ
n (2 X + k 2 ) − k 4 n X (n − X) + k 2n 2
(r + b)
2 n (n + k 2 )
Extremo superior
n (2 X + k 2 ) + k 4 n X (n − X) + k 2n 2
(r + b)
2 n (n + k 2 )
⎧ 10 si ϕ = 0,90
⎪⎪
k = ⎨ 20 si ϕ = 0,95
⎪ 10 si ϕ = 0,99
⎪⎩
Estimador máximo verosímil de r x (r + b)
Caso 1: no es entero
n
⎛ x (r + b) ⎞ ⎛ x (r + b) ⎞
E⎜ ⎟ y/o E ⎜ ⎟ +1
⎝ n ⎠ ⎝ n ⎠
Hay que calcular los correspondientes
valores de f X para decidir
x (r + b)
Caso 2: es entero
n
x (r + b)
n
13
Ejercicio 16
Sea X una variable con distribución binomial de parámetros r = 10, b = 5 y n = 6.
1) Calcula f X (0) y usa la fórmula de recurrencia de la tabla 4 (o de la tabla 3) para
calcular f X ( x ) para cada uno de los restantes x.
2) Verifica los resultados de la media, la varianza y la moda que consta en la tabla
4.
Ejercicio 17
Igual que el ejercicio anterior para la variable X con distribución binomial de
parámetros r = 10, b = 5 y n = 4.
Supongamos que tenemos una urna con cien bolillas, cada una de las cuales es
roja o blanca, y que de allí hemos extraído veinte bolillas de a una y con reposición.
Obtuvimos seis bolillas rojas. ¿Qué podemos afirmar sobre el número de bolillas
rojas en la urna?
Veamos cómo contestar a la pregunta anterior.
1) La variable X que cuenta el número de bolillas rojas extraídas tiene distribución
binomial de parámetros r, b y n. No sabemos cuánto valen r y b pero sí
conocemos n (n = 20) y r + b (r + b = 100).
2) Al elegir k = 10 en el ejercicio 11 (página 8) llegamos a lo siguiente:
1
fr( | X − M( X) | < 10 σ( X)) ≥ 1 − = 0,90 .
10
Por lo tanto estamos casi seguros (nuestro nivel de confianza es de 90 %) que
al extraer veinte bolillas de la urna obtendremos un valor de X que verifica la
desigualdad | X − M( X) | < 10 σ( X) (*). El valor de X que obtuvimos fue seis.
3) Si en la desigualdad (*) sustituimos M(X) y σ(X) por sus valores y luego
despejamos r, llegamos a un intervalo cuyos extremos son los que figuran en la
tabla 4, renglón titulado “Intervalo de confianza para r con nivel de confianza ϕ”
(en nuestro caso es ϕ = 0,90).
4) Podemos calcular los extremos del intervalo del punto anterior ya que contamos
con todo lo necesario para hacerlo: r + b = 100, n = 20, X = 6 y k = 10 .
Después de dedicarle algo de tiempo a las cuentas obtuvimos los siguientes
resultados.
Extremo inferior del intervalo ≅ 9,38
Extremo superior del intervalo ≅ 63,95
5) Por lo tanto afirmamos que r verifica 10 ≤ r ≤ 63. No estamos seguros de ello
pero sí confiamos en que así sea. Hemos llegado a lo que en Estadística se
llama una estimación mediante un intervalo de confianza.
6) Un enfoque distinto al que hemos expuesto comienza considerando la
C 20 6
6 r (100 − r )
14
probabilidad de lo que obtuvimos, o sea Pr( X = 6) = f X (6) = .
100 20
Como esa probabilidad depende de r, la idea es hallar r de modo que sea lo
mayor posible. En el renglón titulado “Estimador máximo verosímil de r” de la
tabla 4 se da ese destacado r (o esos destacados r). En nuestro caso, haciendo
las cuentas claro está, obtenemos r = 30. Ahora estamos ante lo que en
Estadística se llama la estimación máximo verosímil.
14
Ejercicio 18
Usa el ejercicio 11 (página 8) para justificar el renglón titulado “Intervalo de
confianza para p con nivel de confianza ϕ” en la tabla 3.
Es interesante que notes que las respuestas a las tres últimas preguntas pueden
resumirse así: el número de elementos del subconjunto de Ω en el que la variable
X vale x, o sea el número de elementos de (X = x), es C 3x A 2x A 36 − x ( x = 0, 1, 2).
Debido a que es razonable admitir que los elementos de Ω son equiprobables,
podemos calcular la probabilidad de (X = x) para cada x. En efecto:
C 3x A 2x A 36 − x C 2x C 36 − x
Pr( X = x ) = = para x = 0, 1, 2.
8 8
A3 C3
15
x Pr( X = x ) x Pr( X = x ) x 2 Pr( X = x )
M( X) = 3/4
0 10/28 0/28 0/28
1 15/28 15/28 15/28 M( X 2 ) = 27/28
2 3/28 6/28 12/28 V( X) = 45/112
Total 1 3/4 27/28
Ejercicio 19
1) Representa gráficamente la función de cuantía y la función de distribución de la
variable X del ejemplo 2.
2) ¿Cuál es la moda y cuál la mediana de esa variable?
E – El modelo hipergeométrico
16
Tabla 5 - X tiene distribución hipergeométrica de parámetros r, b y n
Condición de r, b y n r, b y n son naturales positivos ; n ≤ r + b
Recorrido de X u , u + 1,..., v
u es el mayor entre 0 y n – b y v es el menor
entre r y n
Función de cuantía C rx Cnb− x
f X (x) =
C rn+ b
Fórmula de recurrencia (r − x ) (n − x )
f X ( x + 1) = fX (x)
( x + 1) (b − n + x + 1)
x = u, u + 1, ..., v -1
Media de X rn
r +b
Varianza de X r b n (r + b − n)
(r + b) 2 (r + b − 1)
Moda de X (r + 1) (n + 1)
Caso 1: no es entero
r +b+2
⎛ (r + 1) (n + 1) ⎞
E⎜ ⎟
⎝ r +b+2 ⎠
(r + 1) (n + 1)
Caso 2: es entero
r +b+2
(r + 1) (n + 1) (r + 1) (n + 1)
−1 y
r +b+2 r +b+2
Intervalo de confianza para r con Extremo inferior
nivel de confianza ϕ
n (2 X + k 2 ρ 2 ) − k ρ 4 n X (n − X) + k 2 ρ 2 n 2
(r + b)
2 n (n + k 2 ρ 2 )
Extremo superior
n (2 X + k 2 ρ 2 ) + k ρ 4 n X (n − X) + k 2 ρ 2 n 2
(r + b)
2 n (n + k 2 ρ 2 )
r +b−n
k según la tabla 4 y ρ =
r + b −1
Estimador máximo verosímil de r x (r + b + 1)
Caso 1: no es entero
n
⎛ x (r + b + 1) ⎞
E⎜ ⎟
⎝ n ⎠
x (r + b + 1)
Caso 2: es entero y x < n
n
x (r + b + 1) x (r + b + 1)
−1 y
n n
Caso 3: x = n
r+b
17
Ejercicio 20
X es una variable con distribución hipergeométrica de parámetros r = 10, b = 5 y n
= 6 y u es el menor valor del recorrido de X.
1) Calcula f X (u) y usa la fórmula de recurrencia de la tabla 5 para calcular f X ( x )
para cada uno de los restantes x.
2) Verifica los resultados de la media, la varianza y la moda que consta en la tabla
5.
Ejercicio 21
Igual que el ejercicio anterior para la variable X con distribución hipergeométrica de
parámetros r = 10, b = 5 y n = 4.
Ejercicio 22
Redacta un apartado titulado “Una aplicación del modelo hipergemétrico
(estimación de un parámetro)” que sea similar al C.
Hay una importante propiedad, llamada la ley de los grandes números, que en el
caso de la distribución binomial tiene el enunciado que presentamos a
continuación.
Ejercicio 23
1) Demuestra el teorema anterior (te sugerimos que apliques la desigualdad de
X 1
Tchebycheff a la variable y que tengas en cuenta que p (1 − p) ≤ ∀ p).
n 4
2) ¿Cómo interpretarías ese teorema?
18
Respuestas a algunos ejercicios
Ejercicio 7
3911 2) La variable ingreso tendría que ser constante; en ese
1) ≅ 0,25
15800 1
caso el índice de Gini vale = 0,02 .
50
Ejercicio 8
Los veinticinco hogares Los veinticinco hogares
Concepto de menor ingreso de mayor ingreso
Media 8,32 16,96
Moda 10 15 y 18
Mediana 9 17
Mediala 10 18
Índice de Gini 259 693
≅ 0,20 ≅ 0,13
1300 5300
Ejercicio 9
Desviación
Conjunto Varianza estándar
Los cincuenta hogares 25,1504 5,0150
Los veinticinco hogares de menor ingreso 5,5776 2,3617
Los veinticinco hogares de mayor ingreso 7,3984 2,7200
Ejercicio 10
Acotación de
Frecuencia Valor Tchebycheff
fr X − M( X) ≥ 5 0,40 1,01
fr X − M( X) ≥ 6 0,24 0,70
fr X − M( X) ≥ 7 0,18 0,51
Ejercicio 14
La media, la moda, la mediana y la mediala valen 1. El índice de Gini vale 5/8.
Ejercicio 15
Hay dos modas: 0 y 1. La mediana es 1.
19
Ejercicio 16 Ejercicio 17
x f X (x) x f X (x)
0 1 0 1
729 81
1 12 1 8
729 81
2 60 2 24
729 81
3 160 3 32
729 81
4 240 4 16
729 81
5 192
729
6 64
729
Ejercicio 19
La moda y la mediana valen 1.
Ejercicio 20 Ejercicio 21
x f X (x) x f X (x)
1 2 0 1
1001 273
2 45 1 20
1001 273
3 240 2 90
1001 273
4 420 3 120
1001 273
5 252 4 42
1001 273
6 42
1001
20
Apéndice 1 – Algunas demostraciones
1 - Teorema 1
Con el fin de demostrar las tres primeras partes del teorema 1, tenemos en cuenta
que X e Y son variables estadísticas cuantitativas definidas en A = {a1 , a 2 , ... , a n }
y que k es un número. Escribimos, además, X(a j ) = b j y Y(a j ) = c j para j = 1, 2, ...,
n.
M1 – M( X + k ) = M( X) + k
Notemos, en primer lugar, que ( X + k ) (a j ) = b j + k .
Por lo tanto:
n n n n n
∑ (b j + k ) ∑ b j + ∑ k ∑ b j + n k ∑ b j
j =1 j =1 j =1 j =1 j =1
M( X + k ) = = = = + k = M( X) + k .
n n n n
M2 – M(k X) = k M( X)
Ahora observemos que (k X) (a j ) = k b j .
En consecuencia:
n n n
∑ kbj k ∑b j ∑b j
j =1 j =1 j =1
M(k X) = = =k = k M( X) .
n n n
M3 – M( X + Y ) = M( X) + M( Y )
Comencemos recordando que ( X + Y ) (a j ) = b j + c j .
Por lo tanto:
n n n n n
∑ (b j + c j ) ∑b j + ∑ c j ∑b j ∑c j
j =1 j =1 j =1 j =1 j =1
M( X + Y ) = = = + = M( X) + M( Y ) .
n n n n
V1 – V( X) ≥ 0 y V( X) = 0 si y sólo si X es constante
Recordemos que V(X) es la media de los cuadrados de las diferencias entre los
valores de la variable X y la media de esa variable, es decir V( X) = M(( X − M( X))2 ) .
En consecuencia, si X(a j ) = b j para j = 1, 2, ..., n, tenemos que:
n
∑ (b j − M( X))2
j =1
V( X) = ≥ 0 pues el numerador es una suma de números no
n
negativos y el denominador es un número positivo.
Además, V( X) = 0 si y sólo si cada uno de los n sumandos del numerador es cero,
o sea si b j = M( X) para j = 1, 2, ..., n. Esto significa que X es constante.
V2 – V( X + k ) = V( X)
En la demostración de esta propiedad sólo necesitamos recordar la definición de
varianza y la propiedad M1. En efecto:
Df M1 Df
V( X + k ) = M(( X + k − M( X + k ))2 ) = M(( X + k − (M( X) + k ))2 ) = M(( X − M( X))2 ) = V( X) .
V3 – V(k X) = k 2 V( X)
En este caso usaremos la definición de varianza y la propiedad M2.
Df M2 M2 y Df
V(k X) = M((k X − M(k X))2 ) = M((k X − k M( X))2 ) = M(k 2 ( X − M( X))2 ) = k 2 V( X) .
V4 – V( X + Y ) = V( X) + V( Y ) + 2 ( M( XY) − M( X) M( Y ) )
Y ahora, además de la definición de varianza, tendremos en cuenta las
propiedades M1, M2 Y M3 y haremos varias cuentas.
Df M3
V( X + Y ) = M(( X + Y − M( X + Y ))2 ) = M(( X + Y − (M( X) + M( Y )))2 ) .
V( X + Y ) = M(( X − M( X) + ( Y − M( Y )) 2 ) .
V( X + Y ) = M(( X − M( X)) 2 + ( Y − M( Y )) 2 + 2 ( X − M( X)) ( Y − M( Y )) .
M3
V( X + Y ) = M(( X − M( X)) 2 ) + M(( Y − M( Y )) 2 ) + M(2 ( X − M( X)) ( Y − M( Y )) .
Df y M2
V( X + Y ) = V( X) + V( Y ) + 2 M( ( X − M( X)) ( Y − M( Y )) .
V( X + Y ) = V( X) + V( Y ) + 2 M ( X Y − X M( Y ) − YM( X) + M( X) M( Y )) .
M1 , M2 y M3
V( X + Y ) = V( X) + V( Y ) + 2 (M ( X Y ) − M( X) M( Y ) − M( Y ) M( X) + M( X) M( Y )) .
V( X + Y ) = V( X) + V( Y ) + 2 (M ( X Y ) − M( X) M( Y )) .
V5 – V( X) = M( X 2 ) − (M( X))2
Ya sabemos que M( ( X − k )2 ) = M( X 2 ) − (M( X))2 + (M( X) − k ) 2 (propiedad M4).
Si en la igualdad anterior sustituimos k por M(X) nos queda:
V( X) = M( ( X − M( X))2 ) = M( X 2 ) − (M( X))2 .
22
V( X)
V6 – fr( | X − M( X) | ≥ c ) ≤ (desigualdad de Tchebycheff)
c2
Comenzamos partiendo en dos el conjunto A en el que está definida la variable X:
A 1 = (| X − M( X) | ≥ c ) y A 2 = (| X − M( X) | < c ) .
V( X)
La desigualdad de Tchebycheff afirma que fr( A 1 ) ≤ . Para convencernos de
c2
ello, razonamos de la siguiente manera:
∑ ( X(a) − M( X))2
a∈ A
V( X) = M(( X − M( X))2 ) = , donde n es el número de elementos de
n
A.
∑ ( X(a) − M( X))2 + ∑ ( X(a) − M( X))2 ∑ ( X(a) − M( X))2
a∈ A1 a∈ A 2 a∈ A1
V( X) = ≥ .
n n
2 - Tabla 3
Fórmula de recurrencia
Hay una fórmula que permite calcular el valor de la función de cuantía de X en
cada número del recorrido de X, salvo el primero, a partir del valor de esa función
en el número anterior de ese recorrido. Esa fórmula es la siguiente:
p (n − x )
f X ( x + 1) = f X ( x ) para x = 0, 1, ..., n –1.
(1 − p) ( x + 1)
f ( x + 1) p (n − x )
A continuación verificaremos que X = para x = 0, 1, ..., n –1 (lo
fX (x) (1 − p) ( x + 1)
cual es lo mismo que la fórmula de recurrencia que nos interesa).
Ya que f X ( x ) = C nx p x (1 − p)n − x , tenemos que f X ( x + 1) = C nx +1 p x +1 (1 − p)n − x −1 .
Por lo tanto:
x +1
n
f X ( x + 1) C x +1 p (1 − p)n − x − 1 C nx +1 p
= = (*).
f X (x) C nx p x (1 − p)n − x C nx (1 − p)
C nx +1
Simplifiquemos ahora el cociente .
C nx
23
C nx +1 n! n! (n − x )! x ! n−x
= : = = (**) .
C nx (n − x − 1)! ( x + 1)! (n − x )! x ! (n − x − 1)! ( x + 1)! x + 1
f ( x + 1) p (n − x )
De las igualdades (*) y (**) deducimos que X = .
fX (x) (1 − p) ( x + 1)
Moda de X
La moda de X es el valor de X para el que se obtiene el mayor valor de la función
de cuantía de X (puede ocurrir que haya más de un valor de X con esa propiedad;
cuando eso ocurre tenemos que la moda de X no es única).
Nos interesa, pues, hallar el mayor de los valores de la función de cuantía de X, o
sea el máximo de f X . Con ese fin resolveremos la inecuación f X ( x + 1) > f X ( x ) , o
f ( x + 1)
lo que es lo mismo: X > 1 (pues los valores de f X son positivos).
fX (x)
f ( x + 1) p (n − x ) p (n − x )
Ya sabemos que X = , por lo cual planteamos >1.
fX (x) (1 − p) ( x + 1) (1 − p) ( x + 1)
p (n − x )
>1 ⇔ p (n − x ) > (1 − p) ( x + 1) Tuvimos en cuenta que
(1 − p) ( x + 1)
(1 − p) ( x + 1) > 0 .
Media de X
Veremos cuatro formas de llegar a la media de X.
24
n
Al poner x = z + 1 en ∑ x C nx p x (1 − p)n − x nos queda lo siguiente:
x =1
n n −1
∑ x C nx p x (1 − p)n − x = ∑ (z + 1) C nz +1 p z +1 (1 − p)n − z −1 .
x =1 z=0
Ahora observemos que:
n! n (n − 1)!
( z + 1) C nz +1 = ( z + 1) = = n C nz −1 .
(n − z − 1)! ( z + 1)! (n − z − 1)! z !
Por lo tanto:
n −1 n −1
∑ ( z + 1) C nz +1 p z +1 (1 − p)n − z −1 = ∑ n p C nz −1 p z (1 − p)n − z −1
z=0 z=0
n −1 n −1
∑ (z + 1) C nz +1 p z +1 (1 − p)n − z −1 = n p ∑ C nz −1 p z (1 − p)n − z −1 = n p .
z=0 z=0
n −1
La última igualdad se debe a que ∑ C nz −1 p z (1 − p)n − z −1 = 1 ya que esa suma es
z=0
la de todos los valores de la función de cuantía de una distribución binomial cuyos
parámetros son n – 1 y p.
En resumen, M( x ) = n p .
Para finalizar importa que señalemos que en el razonamiento anterior supusimos
que n > 1 (si n fuera 1, es casi inmediato comprobar que M(X) = p).
25
resultados posibles de nuestro experimento, al que simbolizamos con Ω , definimos
una variable X que nos indica el número de bolillas rojas extraídas. Ya sabemos
r
que esa variable tiene distribución binomial de parámetros p y n, donde p =
r +b
(es conveniente que vuelvas a leer el ejemplo 1 en las páginas 10 y 11).
En Ω definimos otras n variables así:
⎧ 1 si en la extracción número i sale roja
X i (ω) = ⎨ (i = 1, 2, ..., n).
⎩ 0 en caso contrario
Es claro que X = X1 + X 2 + ... + Xn .
Debido a lo anterior tenemos que M( X) = M( X1 ) + M( X 2 ) + ... + M( X n ) .
Pasemos, pues, a calcular la media de cada variable X i .
M( X i ) = 1.Pr( Xi = 1) + 0 .Pr( X i = 0) = p + 0 = p .
En consecuencia, M( X) = M( X1 ) + M( X 2 ) + ... + M( X n ) = p + p + ... + p = n p .
Varianza de X
La justificación de la fórmula de la varianza de X puede hacerse por cualquiera de
las cuatro formas que hemos desarrollado en el caso de la media de X. Confiamos
en que intentarás trabajar, al menos, con una de esas formas y al respecto pueden
serte útiles los siguientes comentarios:
1) Salvo en la tercera forma, recuerda que V( X) = M( X 2 ) − (M( X))2 . Puesto que
M(X) ya la conoces, debes calcular M( X 2 ) .
2) En la tercera forma, es conveniente que uses la propiedad V4 (generalizada a
la suma de n variables), que observes que Xi 2 = Xi y que pruebes que
M( X i X j ) = p 2 si i ≠ j.
26
En el caso que X tenga distribución binomial de parámetros p y n tenemos que:
( | X − M( X) | < k σ( X)) = ( | X − np | < k n p (1 − p) ) .
Los cálculos que siguen justifican los extremos del intervalo que constan en la
Tabla 3. En efecto:
( | X − np | < k n p (1 − p) ) ⇔ (( X − np) 2 < k 2 n p (1 − p))
( | X − np | < k n p (1 − p) ) ⇔ ( X 2 − 2 X n p + n2 p 2 < k 2 n p − k 2 n p 2 )
( | X − np | < k n p (1 − p) ) ⇔ (n (n + k 2 ) p 2 − n (2 X + k 2 ) p + X 2 ) < 0
La resolución de la última inecuación nos lleva al resultado que estábamos
buscando.
+ + + + + + + + 0 - - - - - - - - - -
⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯|⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ Signo de h ' (p)
0 x/n 1
x
Lo anterior nos conduce a afirmar que el valor de p que maximiza f X ( x ) es .
n
Para finalizar este apéndice es útil que hagamos unos comentarios, previendo tu
interés en justificar los resultados que aparecen en la Tabla 5 (página 17):
1) La demostración de la fórmula de recurrencia sólo requiere hacer cuentas.
2) La justificación del resultado sobre la moda puede hacerse en forma similar a la
que desarrollamos en el caso de la distribución binomial.
3) La forma más “elegante” y “rápida” de demostrar los resultados sobre la media
y la varianza es similar a la tercera que vimos en el caso de la distribución
binomial (la cuarta resulta inoperante). Si optas por esa tercera forma, lo cual te
r r (r − 1)
sugerimos, deberás probar que M( X i ) = y que M( X i X j ) = si
r +b (r + b) (r + b − 1)
i ≠ j.
4) Para el intervalo de confianza para r hay que tener un poco más de paciencia
que en el caso de la distribución binomial, pero sólo se trata de hacer cuentas.
5) Finalmente, para el estimador máximo verosímil de r no es posible usar criterios
de maximización de funciones de una variable real; hay que razonar en forma
similar a la que justifica el resultado sobre la moda.
27
Apéndice 2 – Un ejemplo de prueba de hipótesis
Pablo es un horticultor que desea regar sus cultivos y con ese fin debe encontrar
un lugar en sus tierras donde hacer un pozo. Pedro, un presunto experto de la
zona en esa tarea, le ofrece sus servicios (remunerados, claro está). Pablo duda
de las habilidades que Pedro manifiesta tener y decide someterlo a prueba.
Pablo ha ideado tres posibles experimentos para probar a Pedro y se da cuenta
que puede cometer dos errores al tomar una decisión: decidir que Pedro es un
experto cuando en realidad no lo es (en este caso lo contrata) o decidir que es un
farsante cuando realmente no lo es (en este caso no lo contrata). No tiene dudas
sobre que de esos dos errores posibles, el peor es el primero.
Decisión de Pablo
Hipótesis Pedro Lo contrata No lo contrata
H0 Farsante Error (el peor) Acierto
H1 Experto Acierto Error
Con el fin de optar por uno de los tres experimentos que se le han ocurrido, Pablo
nos pide que opinemos sobre el estudio que hizo de los mismos.
Primer experimento
Criterio de decisión
Atento a lo anterior, Pablo decide contratar a Pedro si éste clasifica correctamente
al menos cuatro barriles. Con ello, la probabilidad de que se encuentre ante el peor
26
error es ≅ 0,103 .
252
28
Segundo experimento
Tercer experimento
jmoretti@ccee.edu.uy
jmoretti@hotmail.com
29