Escolar Documentos
Profissional Documentos
Cultura Documentos
Estadstica
Universidad de Malaga
2 semestre
Bloque 3. Estadstica
1 / 303
Contenidos
Introduccion a la Estadstica
Estadstica Descriptiva
Regresion y Correlacion
Combinatoria
Teora de la Probabilidad
Variables Aleatorias
Estimacion de Parametros
Contraste de hipotesis
Bloque 3. Estadstica
2 / 303
Introduccion a la Estadstica
Introduccion a la Estadstica
Poblacion y muestra
Muestreo
Bloque 3. Estadstica
3 / 303
Que es la estadstica?
Denicion (Estadstica)
interpretacion de datos.
Pero,
Bloque 3. Estadstica
4 / 303
El cientco trata de estudiar el mundo que le rodea; un mundo que est lleno de variaciones
a
que dicultan la determinacion del comportamiento de las cosas.
La estadstica act como disciplina puente entre la realidad del mundo y los modelos
ua
matematicos que tratan de explicarla, proporcionando una metodologa para evaluar las
Esto la convierte en una herramienta indispensable en las ciencias aplicadas que requieran el
analisis de datos y el diseno de experimentos.
Bloque 3. Estadstica
5 / 303
Poblacion estadstica
Denicion (Poblacion)
Una poblacion es un conjunto de elementos denido por una o mas caractersticas que tienen
todos los elementos, y solo ellos. Cada elemento de la poblacion se llama individuo.
representa como N .
A veces, no todos los elementos de la poblacion est accesibles para su estudio. Entonces se
an
distingue entre:
Poblacion Teorica: Conjunto de elementos a los que se quiere extrapolar los resultados del
estudio.
Poblacion Estudiada: Conjunto de elementos realmente accesibles en el estudio.
Bloque 3. Estadstica
6 / 303
Inconvenientes en el estudio de la poblacion
Pero, para tener un conocimiento completo de la poblacion es necesario estudiar todos los
individuos de la misma.
Sin embargo, esto no siempre es posible por distintos motivos:
El tamano de la poblacion es innito, o bien es nito pero demasiado grande.
es excesivo.
Bloque 3. Estadstica
7 / 303
Muestra estadstica
Denicion (Muestra)
Una muestra es un subconjunto de la poblacion.
representa por n .
Habitualmente, el estudio de una poblacion se realiza a partir de muestras extradas de dicha
poblacion.
Bloque 3. Estadstica
8 / 303
deseada para las extrapolaciones que se hagan hacia la poblacion. Por desgracia no se
En general, cuantos mas individuos haya en la muestra, mas able seran las conclusiones
Bloque 3. Estadstica
9 / 303
Bloque 3. Estadstica
10 / 303
11 / 303
Bloque 3. Estadstica
12 / 303
Tipos de razonamiento
Bloque 3. Estadstica
13 / 303
Tipos de razonamiento
informacion obtenida a partir de muestras para sacar conclusiones sobre las poblaciones.
Bloque 3. Estadstica
14 / 303
Fases del analisis estadstico
estadstica descriptiva.
comportamiento de la poblacion. Tras construir el modelo, se realiza una crtica del mismo
Bloque 3. Estadstica
15 / 303
El ciclo estadstico
Descriptiva
s2
cv
g1
Muestra
Medidas resumen
Muestreo
Inferencia
Prediccion
Poblacion
Bloque 3. Estadstica
Modelo
16 / 303
Muestreo
Denicion (Muestreo)
El proceso de seleccion de los elementos que compondran una muestra se conoce como
muestreo.
Para que una muestra reeje informacion dedigna sobre la poblacion global debe ser
representativa de la misma.
Bloque 3. Estadstica
17 / 303
Modalidades de muestreo
Existen muchas t
ecnicas de muestreo pero se pueden agrupar en dos categoras:
Muestreo Aleatorio Eleccion aleatoria de los individuos de la muestra. Todos tienen la misma
Las t
ecnicas no aleatorias no sirven para hacer generalizaciones, ya que no garantizan la
representatividad de la muestra. Sin embargo, son menos costosas y pueden utilizarse en
estudios exploratorios.
Bloque 3. Estadstica
18 / 303
muestra.
La seleccion de individuos es con reemplazamiento (y por tanto no se altera la poblacion
de partida).
Las sucesivas selecciones de un individuo son independientes.
La unica forma de realizar un muestreo aleatorio es asignar un numero a cada individuo de la
Bloque 3. Estadstica
19 / 303
Estadstica Descriptiva
Estadstica Descriptiva
Variables estadsticas
Distribucion de frecuencias
Representaciones gracas
Estadsticos muestrales
Transformaciones de variables
Bloque 3. Estadstica
20 / 303
Estadstica descriptiva
Tras el proceso de muestreo, es la siguiente etapa de todo estudio estadstico y suele consistir
en:
1
muestrales).
Su poder inferencial es mnimo, por lo que nunca deben sacarse conclusiones sobre la
Bloque 3. Estadstica
21 / 303
Bloque 3. Estadstica
22 / 303
Clasicacion de la muestra
El estudio de una variable estadstica comienza por medir la variable en los individuos de la
Bloque 3. Estadstica
23 / 303
Clasicacion de la muestra
Bloque 3. Estadstica
24 / 303
Recuento de frecuencias
Bloque 3. Estadstica
25 / 303
Frecuencias muestrales
en la muestra, se dene
Frecuencia absoluta ni : Es el numero de individuos de la muestra que presentan el valor
xi .
Frecuencia relativa fi : Es la proporcion de individuos de la muestra que presentan el valor
xi .
n
fi = i
n
Frecuencia absoluta acumulada Ni : Es el numero de individuos de la muestra que
Ni = n 1 + + n i
Frecuencia relativa acumulada Fi : Es la proporcion de individuos de la muestra que
Fi =
Bloque 3. Estadstica
Ni
n
26 / 303
Tabla de frecuencias
Frecuencia
Absoluta
Frecuencia
Relativa
x1
.
.
.
xi
.
.
.
xk
n1
.
.
.
ni
.
.
.
nk
f1
.
.
.
fi
.
.
.
fk
Bloque 3. Estadstica
Frecuencia
Absoluta
Acumulada
N1
.
.
.
Ni
.
.
.
Nk
Frecuencia
Relativa
Acumulada
F1
.
.
.
Fi
.
.
.
Fk
27 / 303
Tabla de frecuencias
Ejemplo de datos sin agrupar
En una encuesta a 25 matrimonios sobre el numero de hijos que tenan se obtuvieron los
siguientes datos:
1, 2, 4, 2, 2, 2, 3, 2, 1, 1, 0, 2, 2,
0, 2, 2, 1, 2, 2, 3, 1, 2, 2, 1, 2
La tabla de frecuencias asociada a esta muestra es
xi
0
1
2
3
4
Bloque 3. Estadstica
ni
2
6
14
2
1
25
fi
0,08
0,24
0,56
0,08
0,04
1
Ni
2
8
22
24
25
Fi
0,08
0,32
0,88
0,96
1
28 / 303
Tabla de frecuencias
Ejemplo de datos agrupados
xi
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
Bloque 3. Estadstica
ni
2
8
11
7
2
30
fi
0,07
0,27
0,36
0,23
0,07
1
Ni
2
10
21
28
30
Fi
0,07
0,34
0,70
0,93
1
29 / 303
Construccion de clases
Cada intervalo de agrupacion de datos se denomina clase y el centro del intervalo se llama
marca de clase.
A la hora de agrupar los datos en clases hay que tener en cuenta lo siguiente:
El numero de intervalos no debe ser muy grande ni muy pequeno. Una regla orientativa
Los intervalos no deben solaparse y deben cubrir todo el rango de valores. Es indiferente
si se abren por la izquierda y se cierran por la derecha o al reves.
El valor mas pequeno debe caer dentro del primer intervalo y el mas grande dentro del
ultimo.
Bloque 3. Estadstica
30 / 303
Tabla de frecuencias
Ejemplo con un atributo
A, B, B, A, AB, 0, 0, A, B, B, A, A, A, A, AB,
A, A, A, B, 0, B, B, B, A, A, A, 0, A, AB, 0.
La tabla de frecuencias asociada a esta muestra es
xi
0
A
B
AB
ni
5
14
8
3
30
fi
0,16
0,47
0,27
0,10
1
Bloque 3. Estadstica
31 / 303
Representaciones gracas
Dependiendo del tipo de variable y de si hemos agrupado o no los datos se utilizan distintos
tipos de gracos:
Bloque 3. Estadstica
32 / 303
10
8
6
4
0
Frecuencia absoluta ni
12
14
Numero de hijos
Bloque 3. Estadstica
33 / 303
8
6
4
0
Frecuencia absoluta ni
10
12
14
Numero de hijos
Bloque 3. Estadstica
34 / 303
15
10
5
0
20
25
Numero de hijos
Bloque 3. Estadstica
35 / 303
15
10
5
0
20
25
Numero de hijos
Bloque 3. Estadstica
36 / 303
6
4
0
Frecuencia absoluta ni
10
12
Datos agrupados
150
160
170
180
190
200
Estatura
Bloque 3. Estadstica
37 / 303
8
6
4
0
Frecuencia absoluta ni
10
12
Datos agrupados
150
160
170
180
190
200
Estatura
Bloque 3. Estadstica
38 / 303
20
15
10
5
0
25
30
Datos agrupados
150
160
170
180
190
200
Estatura
Bloque 3. Estadstica
39 / 303
20
15
10
5
0
25
30
Datos agrupados
150
160
170
180
190
200
Estatura
Bloque 3. Estadstica
40 / 303
Diagrama de sectores
Atributos
grupo A 47%
grupo 0 16%
grupo B 27%
grupo AB 10%
Bloque 3. Estadstica
41 / 303
Datos atpicos
Uno de los principales problemas de las muestras son los datos atpicos. Los datos atpicos
son valores de la variable que se diferencian mucho del resto de los valores.
Es muy importante detectar los datos atpicos antes de realizar cualquier analisis de los datos,
Bloque 3. Estadstica
42 / 303
Cuando trabajemos con muestras grandes, los datos atpicos tienen menor inuencia y
no atpico.
Bloque 3. Estadstica
43 / 303
Estadsticos muestrales
Estadsticos de Posicion: Miden en torno a que valores se agrupan los datos y como se
reparten en la distribucion.
simetra o el apuntamiento.
Bloque 3. Estadstica
44 / 303
Estadsticos de posicion
Media aritmetica
Mediana
Moda
Otros estadsticos de Posicion: Dividen la distribucion en partes con el mismo numero de
Bloque 3. Estadstica
45 / 303
Media aritmetica
x=
xi
n
x=
xi ni
=
n
xi fi
Bloque 3. Estadstica
46 / 303
1+2+4+2+2+2+3+2+1+1+0+2+2
+
25
0+2+2+1+2+2+3+1+2+2+1+2
= 1,76 hijos.
+
25
x=
xi
0
1
2
3
4
ni
2
6
14
2
1
25
fi
0,08
0,24
0,56
0,08
0,04
1
xi ni
0
6
28
6
4
44
xi fi
0
0,24
1,12
0,24
0,16
1,76
xi ni
44
= 1,76
=
x=
xi fi = 1,76.
n
25
Es decir, el numero de hijos que mejor representa a la muestra es 1.76 hijos.
x=
Bloque 3. Estadstica
47 / 303
x=
X
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
xi
155
165
175
185
195
ni
2
8
11
7
2
30
fi
0,07
0,27
0,36
0,23
0,07
1
xi ni
310
1320
1925
1295
390
5240
xi fi
10,33
44,00
64,17
43,17
13
174,67
xi ni
5240
= 174,67
=
x=
xi fi = 174,67.
n
30
Al agrupar datos el calculo de estadsticos desde la tabla puede diferir ligeramente del valor
real obtenido directamente desde la muestra, ya que no se trabaja con los datos reales sino
con los representantes de las clases.
x=
Bloque 3. Estadstica
48 / 303
Mediana
Bloque 3. Estadstica
49 / 303
Calculo de la mediana con datos no agrupados
Con datos no agrupados pueden darse varios casos:
Tamano muestral impar: La mediana es el valor que ocupa la posicion
n+1
2 .
Tamano muestral par: La mediana es la media de los valores que ocupan las posiciones
n
n
2 y 2 + 1.
Bloque 3. Estadstica
50 / 303
Calculo de la mediana con datos agrupados
n
2
Mediana
Bloque 3. Estadstica
51 / 303
Interpolacion en el polgono de frecuencias absolutas acumuladas
Ni
tg() =
n /2 Ni 1
Me li 1
Ni 1
li 1
Med = li 1 +
Bloque 3. Estadstica
Ni Ni 1
li li 1
tg() =
n /2
Me
li
n /2 Ni 1
n /2 Ni 1
ai
(l l ) = li 1 +
Ni Ni 1 i i 1
ni
52 / 303
Calculo de la mediana
Ejemplo con datos agrupados
En el ejemplo de las estaturas tenemos que la mediana tendra frecuencia n /2 = 30/2 = 15. Si
30
25
xi
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
20
n
= 15
2
ni
2
8
11
7
2
Ni
2
10
21
28
30
10
0
150
160
170
Me
180
190
200
X = Estatura
Bloque 3. Estadstica
53 / 303
Interpolacion en el polgono de frecuencias absolutas acumuladas
21
tg() =
21 10
180 170
tg() =
15 10
Me 170
n /2 = 15
10
170
Med = 170 +
Bloque 3. Estadstica
Me
180
5
15 10
(180 170) = 170 +
10 = 174,54
21 10
11
54 / 303
Moda
Con datos agrupados se toma como clase modal la clase con mayor frecuencia en la muestra.
En ocasiones puede haber mas de una moda.
Bloque 3. Estadstica
55 / 303
Calculo de la moda
En el ejemplo del numero de hijos puede verse f
xi
0
1
2
3
4
ni
2
6
14
2
1
Y en el ejemplo de las estaturas tambien puede verse en la tabla de frecuencias que la clase
xi
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
Bloque 3. Estadstica
ni
2
8
11
7
2
56 / 303
Que estadstico de tendencia central usar?
Media. La media utiliza mas informacion que el resto ya que para calcularla se tiene en
Mediana. La mediana utiliza menos informacion de la media, pero mas que la moda, ya
Moda. La moda es la que menos informacion utiliza ya que para calcularla solo se tienen
Pero, ojo! la media tambien es muy sensible a los datos atpicos, as que, tampoco debemos
0, 0, 1, 1, 2, 2, 15
x = 3 hijos
Me = 1 hijos
Bloque 3. Estadstica
57 / 303
Cuantiles
Son valores de la variable que dividen la distribucion, supuesta ordenada de menor a mayor,
Bloque 3. Estadstica
58 / 303
Calculo de los cuantiles
Los cuantiles se calculan de forma similar a la mediana. Por ejemplo, en el caso de los
cuartiles se buscan los valores que tienen frecuencias absolutas acumuladas n /4 (primer
cuartil), n /2 (segundo cuartil) y 3n /4 (tercer cuartil) y si se trata de datos agrupados se
interpola sobre el polgono de frecuencias acumuladas.
3n
4
n
2
n
4
C1
C2
C3
Bloque 3. Estadstica
59 / 303
Estadsticos de dispersion
Recorrido.
Rango Intercuartlico.
Varianza.
Desviacion Tpica.
Coeciente de Variacion.
Bloque 3. Estadstica
60 / 303
Recorrido
Re = max mn
xi
xi
El recorrido da una idea de la maxima variacion que hay entre los datos muestrales. No
obstante, es muy sensible a datos atpicos ya que suelen aparecer justo en los extremos de la
Re
mn
Bloque 3. Estadstica
max
61 / 303
Rango intercuartlico
Para evitar el problema de los datos atpicos en el recorrido, se puede utilizar el primer y tercer
El rango intercuartlico muestral de una variable X se dene como la diferencia entre el tercer y
RI
25 %
mn
Bloque 3. Estadstica
25 %
C1
25 %
C2
25 %
C3
max
62 / 303
Desviaciones a la media
Una forma de medir la variabilidad de una variable es estudiar la concentracion de los valores
Para ello se suele considerar la distancia de cada valor a la media. A ese valor se le llama
desviacion a la media.
Desviacion +
Desviacion
xj x
xi x
xi
xj
Si las desviaciones son grandes la media no sera tan representativa como cuando la
as
Bloque 3. Estadstica
63 / 303
Varianza y desviacion tpica
Denicion (Varianza s 2 )
La varianza muestral de una variable X se dene como el promedio del cuadrado de las
desviaciones de los valores de la muestra a la media muestral.
s2 =
(xi x )2 ni
=
n
(xi x )2 fi
ormula
s2 =
xi2 ni
n
x2 =
xi2 fi x 2
La varianza tiene las unidades de la variable al cuadrado, por lo que para facilitar su
interpretacion se suele utilizar su raz cuadrada:
Denicion (Desviacion tpica s )
La desviacion tpica muestral de una variable X se dene como la raz cuadrada positiva de su
varianza muestral.
s = + s2
Bloque 3. Estadstica
64 / 303
Interpretacion de la varianza y la desviacion tpica
Tanto la varianza como la desviacion tpica sirven para cuanticar la dispersion de los datos en
as
Bloque 3. Estadstica
65 / 303
Calculo de la varianza y la desviacion tpica
Ejemplo con datos agrupados
X
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
xi
155
165
175
185
195
ni
2
8
11
7
2
30
xi2 ni
48050
217800
336875
239575
76050
918350
xi2 ni
918350
x2 =
174,672 = 102,06 cm2 .
n
30
s2 =
Este valor es bastante pequeno, comparado con el recorrido de la variable, que va de 150 a
200 cm, por lo que la variable tiene poca dispersion y en consecuencia su media es muy
representativa.
Bloque 3. Estadstica
66 / 303
Coeciente de variacion
Tanto la varianza como la desviacion tpica tienen unidades y eso diculta a veces su
interpretacion y su comparacion.
es mas f de interpretar.
acil
cv =
|x |
dispersion.
Tambien se utiliza para comparar la dispersion entre muestras distintas incluso si las variables
Bloque 3. Estadstica
67 / 303
Estadsticos de forma
Son medidas que tratan de caracterizar aspectos de la forma de la distribucion de una muestra.
Bloque 3. Estadstica
68 / 303
Coeciente de asimetra
g1 =
(xi x )3 ni /n
=
s3
(xi x )3 fi
s3
El coeciente de asimetra muestral mide el grado de simetra de los valores de la muestra con
media (simetrica).
g1 < 0 indica que la mayora de los valores son mayores que la media (asimetrica a la
izquierda).
g1 > 0 indica que la mayora de los valores son menores que la media (asimetrica a la
derecha).
Bloque 3. Estadstica
69 / 303
Coeciente de asimetra
0.2
0.0
0.1
Frecuencia relativa
0.3
0.4
Distribucion simetrica g1 = 0
Bloque 3. Estadstica
70 / 303
Coeciente de asimetra
0.08
0.06
0.04
0.00
0.02
Frecuencia relativa
0.10
0.12
Bloque 3. Estadstica
71 / 303
Coeciente de asimetra
0.08
0.06
0.04
0.00
0.02
Frecuencia relativa
0.10
0.12
Bloque 3. Estadstica
72 / 303
Calculo del coeciente de asimetra
partir de la tabla de frecuencias anadiendo una nueva columna con los cubos de las
X
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
g1 =
xi
155
165
175
185
195
ni
2
8
11
7
2
30
xi x
19,67
9,67
0,33
10,33
20,33
(xi x )3 ni
15221,00
7233,85
0,40
7716,12
16805,14
2066,81
(xi x )3 ni /n
2066,81/30
=
= 0,07.
s3
10,13
Al estar tan proximo a 0, este valor indica que la distribucion es practicamente simetrica con
respecto a la media.
Bloque 3. Estadstica
73 / 303
g2 =
(xi x )4 ni /n
3 =
s4
(xi x )4 fi
3
s4
Bloque 3. Estadstica
74 / 303
0.2
0.0
0.1
Frecuencia relativa
0.3
0.4
Distribucion mesocurtica g2 = 0
Bloque 3. Estadstica
75 / 303
0.2
0.0
0.1
Frecuencia relativa
0.3
0.4
Bloque 3. Estadstica
76 / 303
0.4
0.3
0.2
0.0
0.1
Frecuencia relativa
0.5
0.6
Bloque 3. Estadstica
77 / 303
Calculo del coeciente de apuntamiento
Ejemplo con datos agrupados
De nuevo para el ejemplo de las estaturas podemos calcular el coeciente de asimetra a partir
de la tabla de frecuencias anadiendo una nueva columna con las desviaciones a la media
X
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
g2 =
xi
155
165
175
185
195
ni
2
8
11
7
2
30
xi x
19,67
9,67
0,33
10,33
20,33
(xi x )4 ni
299396,99
69951,31
0,13
79707,53
341648,49
790704,45
(xi x )4 ni /n
790704,45/30
3 =
3 = 0,47.
s4
10,14
Como se trata de un valor negativo, aunque pequeno, podemos decir que la distribucion es
ligeramente platicurtica.
Bloque 3. Estadstica
78 / 303
Interpretacion de los coecientes de asimetra y apuntamiento
Como se vera mas adelante en la parte de inferencia, muchas de las pruebas estadsticas solo
en
fuera del intervalo [2, 2].
En tal caso, lo normal es aplicar alguna transformacion a la variable para corregir la
anormalidad.
Bloque 3. Estadstica
79 / 303
Transformaciones de variables
En muchas ocasiones se suelen transformar los datos brutos para trabajar con unas unidades
mas comodas, o bien para corregir alguna anormalidad de la distribucion.
Por ejemplo, si estamos trabajando con estaturas medidas en metros y tenemos los siguientes
valores:
1,75mt, 1,65mt, 1,80mt,
podemos evitar los decimales multiplicando por 100, es decir, pasando de metros a
centmetros:
Y = 100X 165
Bloque 3. Estadstica
80 / 303
Transformaciones lineales
Y = a + bX .
Se puede comprobar f
acilmente que la media y la desviacion tpica de la variable resultante
cumplen:
y = a + bx,
sy = |b |sx
Ademas, el coeciente de curtosis no se altera y el de asimetra solo cambia de signo si b es
negativo.
Bloque 3. Estadstica
81 / 303
Z=
X x
sx
La tipicacion es muy util para eliminar la dependencia de una variable respecto de las
z=0
Bloque 3. Estadstica
sz = 1
82 / 303
Ejemplo
1
2
1
2
5
9
3
4
8
4
8
5
5
6
2
x=5
y=5
sx = 2
sy = 3,16
misma nota, pero si queremos ver el rendimiento relativo al resto del grupo, tendramos que
X:
Y:
1,5
1,26
0
1,26
0,5
0,95
1,5
0
0,5
0,95
Es decir, el alumno que tiene un 8 en X est 1,5 veces la desviacion tpica por encima de la
a
media de su grupo, mientras que el alumno que tiene un 8 en Y solo est 0,95 desviaciones
a
tpicas por encima de su media. As pues, el primer alumno tuvo un rendimiento superior al
segundo.
Bloque 3. Estadstica
83 / 303
Ejemplo
1
2
1
3
2
5
9
14
3
4
8
12
4
8
5
13
5
6
2
8
Alumno:
X:
Y:
1
1,5
1,26
2,76
2
0
1,26
1,26
3
0,5
0,95
0,45
4
1,5
0
1,5
5
0,5
0,95
0,45
Bloque 3. Estadstica
84 / 303
Transformaciones no lineales
valores altos, de manera que es muy util para corregir asimetras hacia la izquierda.
Y = X2
Bloque 3. Estadstica
85 / 303
Transformaciones no lineales
la derecha.
Y=
Bloque 3. Estadstica
86 / 303
Regresion y Correlacion
Regresion y Correlacion
Covarianza
Regresion
Recta de regresion
Correlacion
Regresion no lineal
Bloque 3. Estadstica
87 / 303
Hasta ahora se ha visto como describir el comportamiento de una variable, pero en los
fenomenos naturales normalmente aparecen mas de una variable que suelen estar
relacionadas. Por ejemplo, en un estudio sobre el peso de las personas, deberamos incluir
todas las variables con las que podra tener relacion: altura, edad, sexo, dieta, tabaco, ejercicio
fsico, etc.
El objetivo de la estadstica en este caso es dar medidas del grado y del tipo de relacion entre
dichas variables.
Generalmente, se considera una variable dependiente Y que se supone relacionada con otras
variables X1 , . . . , Xn llamadas variables independientes.
El caso mas simple es el de una sola variable independiente, y en tal caso se habla de estudio
dependencia m
ultiple.
En este tema se veran los estudios de dependencia simple que son mas sencillos.
Bloque 3. Estadstica
88 / 303
Variables bidimensionales
Para ello, conviene denir una variable estadstica bidimensional (X , Y ), cuyos valores
seran todos los pares formados por los valores de las variables X e Y .
X
x1
(x1 ,y1 )
Y
y1
x2
(x1 ,y2 )
(x2 ,y1 )
y2
(x2 ,y2 )
(X , Y )
Bloque 3. Estadstica
89 / 303
simult
aneamente el valor xi de la variable X y el valor yj de la variable Y .
Frecuencia relativa fij : Es la proporcion de individuos de la muestra que presentan
simult
aneamente el valor xi de la variable X y el valor yj de la variable Y .
fij =
nij
n
Ojo! Para las variables bidimensionales no tienen sentido las frecuencias acumuladas.
Bloque 3. Estadstica
90 / 303
Distribucion de frecuencias bidimensional
X \Y
x1
.
.
.
xi
.
.
.
xp
Bloque 3. Estadstica
y1
n11
.
.
.
ni 1
.
.
.
np 1
.
.
.
.
.
.
yj
n1 j
.
.
.
nij
.
.
.
npj
.
.
.
.
.
.
yq
n1 q
.
.
.
niq
.
.
.
npq
91 / 303
Distribucion de frecuencias bidimensional
Ejemplo con estaturas y pesos
X /Y
[50, 60)
[60, 70)
[70, 80)
[80, 90)
[90, 100)
[100, 110)
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
2
4
1
0
0
0
4
6
1
0
0
0
3
4
0
0
0
1
1
0
0
0
0
1
1
0
0
0
0
1
Bloque 3. Estadstica
92 / 303
Diagrama de dispersion
gracamente.
frecuencias de los mismos. Para reejar las frecuencias tendramos que recurrir a otro tipo de
Bloque 3. Estadstica
93 / 303
Diagrama de dispersion
80
(179, 85)
50
60
70
Peso (Kg)
90
100
110
150
160
170
180
190
200
Estatura (cm)
Bloque 3. Estadstica
94 / 303
Relacion parabolica
Relacion lineal
Sin relacion
Bloque 3. Estadstica
Relacion inversa
Relacion logartmica
Relacion exponencial
95 / 303
Distribuciones marginales
A cada una de las distribuciones de las variables que conforman la variable bidimensional se
les llama distribuciones marginales.
Las distribuciones marginales se pueden obtener a partir de la tabla de frecuencias
bidimensional, sumando las frecuencias por las y columnas.
X \Y
x1
.
.
.
xi
.
.
.
xp
ny
Bloque 3. Estadstica
y1
n11
.
.
.
ni 1
.
.
.
np 1
ny 1
.
.
.+
.
.
.
yj
yq
n1 j n1 q
+
.
.
.
.
.
.
. + .
.
nij niq
. + .
.
.
.
.
.
.
.
npj npq
nyj nyq
nx
nx 1
.
.
.
nxi
.
.
.
nxp
n
96 / 303
Distribuciones marginales
Ejemplo con estaturas y pesos
En el ejemplo anterior de las estaturas y los pesos, las distribuciones marginales son
X /Y
[50, 60)
[60, 70)
[70, 80)
[80, 90)
[90, 100)
[100, 110)
nx
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
ny
2
4
1
0
0
7
0
4
6
1
0
11
0
0
3
4
0
7
0
0
1
1
0
2
0
0
0
1
1
2
0
0
0
0
1
1
2
8
11
7
2
30
x = 174,67 cm
y = 69,67 Kg
Bloque 3. Estadstica
2
sx = 102,06 cm2
2
sy = 164,42 Kg2
sx = 10,1 cm
sy = 12,82 Kg
97 / 303
xi x
(xi , yj )
yj y
(x , y )
X
Bloque 3. Estadstica
98 / 303
(xi x )
Cuadrante
1
2
3
4
(yj y )
+
+
(xi x )(yj y )
+
+
Bloque 3. Estadstica
99 / 303
(xi x )(yj y ) = +
Bloque 3. Estadstica
(xi x )(yj y ) =
100 / 303
Covarianza
Del estudio conjunto de las desviaciones a la media surge el siguiente estadstico de relacion
lineal:
sxy =
ormula
sxy =
xi yj nij
xy.
n
Si sxy > 0 existe una relacion lineal creciente entre las variables.
Si sxy < 0 existe una relacion lineal decreciente entre las variables.
Bloque 3. Estadstica
101 / 303
Calculo de la covarianza
Ejemplo con estaturas y pesos
X /Y
[50, 60)
[60, 70)
[70, 80)
[80, 90)
[90, 100)
[100, 110)
nx
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
ny
2
4
1
0
0
7
0
4
6
1
0
11
0
0
3
4
0
7
0
0
1
1
0
2
0
0
0
1
1
2
0
0
0
0
1
1
2
8
11
7
2
30
x = 174,67 cm
y = 69,67 Kg
la covarianza vale
xi yj nij
155 55 2 + 165 55 4 + + 195 105 1
xy =
174,67 69,67 =
n
30
368200
12169,26 = 104,07 cm Kg,
=
30
sxy =
lo que indica que existe una relacion lineal creciente entre la estatura y el peso.
Bloque 3. Estadstica
102 / 303
Regresion
En muchos casos el objetivo de un estudio no es detectar una relacion entre variables, sino
La regresion es la parte de la estadstica que trata de determinar la posible relacion entre una
y = f (x1 , . . . , xn ).
El objetivo es determinar una ecuacion mediante la que pueda estimarse el valor de la variable
El caso mas sencillo se da cuando solo hay una variable independiente X , entonces se habla
de regresion simple. En este caso el modelo que explica la relacion entre X e Y es una funcion
Bloque 3. Estadstica
103 / 303
Modelos de regresion simple
Familia de curvas
Lineal
Parabolica
Polinomica de grado n
Potencial
Exponencial
Logartmica
Ecuacion generica
y = a + bx
y = a + bx + cx 2
y = a0 + a1 x + + an x n
y = a xb
y = c a bx
y = c loga bx
La eleccion de un tipo u otro depende de la forma que tenga la nube de puntos del diagrama
de dispersion.
Bloque 3. Estadstica
104 / 303
Una vez elegida la familia de curvas que mejor se adapta a la nube de puntos, se determina,
dentro de dicha familia, la curva que mejor se ajusta a la distribucion.
El objetivo es encontrar la funcion de regresion que haga mnimas las distancias entre los
eij = yj f (xi ).
Bloque 3. Estadstica
105 / 303
(xi , yj )
yj
eij = yj f (xi )
f (xi )
Y
xi
X
Bloque 3. Estadstica
106 / 303
Metodo de mnimos cuadrados
cuadrados que consiste en calcular la funcion que haga mnima la suma de los cuadrados de
los residuos
2
eij .
En el caso de un modelo de regresion lineal f (x ) = a + bx , como la recta depende de dos
parametros (el t
estos parametros
(a , b ) =
2
eij =
(yj a bxi )2 .
As pues, todo se reduce a buscar los valores a y b que hacen mnima esta suma.
Bloque 3. Estadstica
107 / 303
Considerando la suma de los cuadrados de los residuos como una funcion de dos variables
(a , b ), se pueden calcular los valores de los parametros del modelo que hacen mnima esta
suma derivando e igualando a 0 las derivadas:
(a , b )
=
a
(a , b )
=
b
(yj a bxi )2
=0
a
2
(yj a bxi )
=0
b
a=y
sxy
2
sx
b=
sxy
2
sx
Estos valores hacen mnimos los residuos en Y y por tanto dan la recta de regresion optima.
Bloque 3. Estadstica
108 / 303
Recta de regresion
y =y+
sxy
2
sx
(x x ).
La recta de regresion de Y sobre X es la recta que hace mnimos los errores predictivos en Y ,
y por tanto es la recta que hara mejores predicciones de Y para cualquier valor de X .
Bloque 3. Estadstica
109 / 303
Siguiendo con el ejemplo de las estaturas (X ) y los pesos (Y ) con los siguientes estadsticos:
x = 174,67 cm
y = 69,67 Kg
2
sx = 102,06 cm2
2
sy = 164,42 Kg2
sxy = 104,07 cm Kg
sx = 10,1 cm
sy = 12,82 Kg
y=y+
sxy
2
sx
(x x ) = 69,67 +
104,07
(x 174,67) = 1,02x 108,49.
102,06
x =x+
Bloque 3. Estadstica
sxy
2
sy
(y y ) = 174,67 +
104,07
(x 69,67) = 0,63y + 130,78.
164,42
110 / 303
Rectas de regresion
Ejemplo de estaturas y pesos
100
110
80
Peso sobre
Estatura
(x , y )
50
60
70
Peso (Kg)
90
150
160
170
180
190
200
Estatura (cm)
Bloque 3. Estadstica
111 / 303
y = y,
x = x,
y se cortan perpendicularmente
X sobre Y = Y sobre X
Y sobre X
X sobre Y
X
X
Bloque 3. Estadstica
112 / 303
Coeciente de regresion
Y sobre X es su pendiente,
sxy
byx = 2
sx
El coeciente de regresion siempre tiene el mismo signo que la covarianza y reeja el
disminuye la variable dependiente por cada unidad que aumenta la variable independiente,
segun la recta de regresion.
En el ejemplo de las estaturas y los pesos, el coeciente de regresion del peso sobre la
estatura es byx = 1,02 Kg/cm, lo que indica que, segun la recta de regresion del peso sobre la
Bloque 3. Estadstica
113 / 303
Predicciones con las rectas de regresion
Ejemplo con estaturas y pesos
Las rectas de regresion, y en general cualquier modelo de regresion, suele utilizarse con nes
predictivos.
Ojo! Para predecir una variable, esta siempre debe considerarse como dependiente en el
modelo de regresion que se utilice.
As, en el ejemplo de las estaturas y los pesos, si se quiere predecir el peso de una persona
que mide 180 cm, se debe utilizar la recta de regresion del peso sobre la estatura:
Bloque 3. Estadstica
114 / 303
Correlacion
Una vez construido un modelo de regresion, para saber si se trata de un buen modelo
predictivo, se tiene que analizar el grado de dependencia entre las variables segun el tipo de
como correlacion.
La correlacion se basa en el estudio de los residuos. Cuanto menores sean estos, mas se
Bloque 3. Estadstica
115 / 303
Una medida de la bondad del ajuste del modelo de regresion es la varianza residual.
varianza residual muestral es el promedio de la suma de los cuadrados de los residuos para
los valores de la muestra,
2
eij nij
(yj f (xi ))2 nij
2
sry =
=
.
n
n
Cuanto mas alejados est los puntos de la curva de regresion, mayor sera la varianza
en
residual y menor la dependencia. Esto hace de la varianza residual una medida inversamente
proporcional al grado de dependencia.
Bloque 3. Estadstica
116 / 303
Descomposicion de la variabilidad total:
Variabilidad explicada y no explicada
Y sobre X
(xi , yj )
yj
f (xi )
Variabilidad
total
yj y
Variabilidad
no explicada
eij = yj f (xi )
Variabilidad
explicada
f (xi ) y
xi
X
Bloque 3. Estadstica
117 / 303
Coeciente de determinacion
A partir de la varianza residual se puede denir otro estadstico mas sencillo de interpretar.
r2 = 1
2
sry
2
sy
0 r2 1
Cuanto mayor sea r 2 , mejor explicara el modelo de regresion la relacion entre las variables, en
particular:
Si r 2 = 0 entonces no existe relacion del tipo planteado por el modelo.
Bloque 3. Estadstica
118 / 303
Coeciente de correlacion
signo el de la covarianza
r = r2
Como r 2 toma valores entre 0 y 1, el coeciente de correlacion tomara valores entre -1 y 1:
1 r 1
El coeciente de correlacion tambien mide el grado de dependencia segun la relacion
Bloque 3. Estadstica
119 / 303
Coeciente de determinacion lineal
En el caso de las rectas de regresion, la varianza residual vale
2
sry =
=
=
2
eij fij =
yj y
sxy
2
sx
(xi x )
fij =
2
sxy
sxy
sx
sx
(yj y )2 fij +
2
= sy +
2
sxy
4
sx
2
sx 2
2
sxy
(xi x )2 fij 2
4
sx
sxy
2
sx
2
sxy = sy
2
sxy
2
sx
sxy
2
sx
r2 = 1
y el de correlacion lineal r =
Bloque 3. Estadstica
2
sry
2
sy
=1
r2 =
2
sy
2
sxy
2
sy
2
sxy
2 2
sx sy
2
sx
=11+
2
sxy
2 2
sx sy
2
sxy
2 2
sx sy
sxy
.
sx sy
120 / 303
2
sx = 102,06 cm2
2
sy = 164,42 Kg2
sxy = 104,07 cm Kg
x = 174,67 cm
y = 69,67 Kg
sx = 10,1 cm
sy = 12,82 Kg
r2 =
2
sxy
2 2
sx sy
(104,07cm Kg)2
= 0,65.
Esto indica que la recta de regresion del peso sobre la estatura explica el 65 % de la
variabilidad del peso, y del igual modo, la recta de regresion de la estatura sobre el peso
r=
sxy
104,07 cm Kg
= +0,8.
=
sx sy
10,1 cm 12,82 Kg
que indica que la relacion lineal entre el peso y la estatura es fuerte, y ademas creciente.
Bloque 3. Estadstica
121 / 303
Fiabilidad de las predicciones de un modelo de regresion
regresion, no es el unico dato que hay que tener en cuenta a la hora de hacer predicciones.
La abilidad de las predicciones que hagamos con un modelo de regresion depende de varias
cosas:
El coeciente de determinacion: Cuanto mayor sea, menores seran los errores predictivos
predecir y por tanto menos ables seran las predicciones del modelo.
Ademas, hay que tener en cuenta que un modelo de regresion es valido para el rango de
valores observados en la muestra. Fuera de ese rango no hay informacion del tipo de relacion
entre las variables, por lo que no deben hacerse predicciones para valores lejos de los
observados en la muestra.
Bloque 3. Estadstica
122 / 303
Regresion no lineal
El ajuste de un modelo de regresion no lineal es similar al del modelo lineal y tambien puede
realizarse mediante la t
ecnica de mnimos cuadrados.
Bloque 3. Estadstica
123 / 303
250
Bacterias
200
150
100
Bacterias
25
28
47
65
86
121
190
290
362
50
Horas
0
1
2
3
4
5
6
7
8
300
350
Horas
Bloque 3. Estadstica
124 / 303
300
200
150
Bacterias
250
r 2 = 0,85
100
Bacterias
25
28
47
65
86
121
190
290
362
50
Horas
0
1
2
3
4
5
6
7
8
350
Horas
Es un buen modelo?
Bloque 3. Estadstica
125 / 303
construir un modelo exponencial o cuadratico.
5.0
4.5
Log Bacterias
Log Bacterias
3,22
3,33
3,85
4,17
4,45
4,80
5,25
5,67
5,89
4.0
Bacterias
25
28
47
65
86
121
190
290
362
3.5
Horas
0
1
2
3
4
5
6
7
8
5.5
Horas
Bloque 3. Estadstica
126 / 303
Ahora solo queda calcular la recta de regresion del logaritmo de Bacterias sobre Horas
300
350
que el lineal.
Bacterias
200
150
100
50
r 2 = 0,99
250
Horas
Bloque 3. Estadstica
127 / 303
concreto, de manera que un coeciente r 2 = 0 signica que no existe relacion entre las
variables del tipo planteado por el modelo, pero eso no quiere decir que las variables sean
y = 0,02x + 4,07
r 2 = 0,97
6
5
Y
4
3
2
r2 = 0
Bloque 3. Estadstica
10
10
128 / 303
Datos atpicos en regresion
En un estudio de regresion es posible que aparezca algun individuo que se aleja notablemente
Aunque el individuo podra no ser un dato atpico al considerar las variables de manera
10
Dato atpico
10
Bloque 3. Estadstica
129 / 303
Inuencia de los datos atpicos en los modelos de regresion
Los datos atpicos en regresion suelen provocar cambios drasticos en el ajuste de los modelos
de regresion, y por tanto, habra que tener mucho cuidado con ellos.
10
10
y = 0,49x + 4,89
r 2 = 0,98
y = 0,19x + 4,21
r 2 = 0,08
Bloque 3. Estadstica
10
10
130 / 303
Los modelos de regresion vistos solo pueden aplicarse cuando las variables estudiadas son
cuantitativas.
Cuando se desea estudiar la relacion entre atributos, tanto ordinales como nominales, es
necesario recurrir a otro tipo de medidas de relacion o de asociacion. En este tema veremos
tres de ellas:
Coeciente de correlacion de Spearman.
Coeciente chi-cuadrado.
Coeciente de contingencia.
Bloque 3. Estadstica
131 / 303
Coeciente de correlacion de Spearman
Cuando se tengan atributos ordinales es posible ordenar sus categoras y asignarles valores
ordinales, de manera que se puede calcular el coeciente de correlacion lineal entre estos
valores ordinales.
Esta medida de relacion entre el orden que ocupan las categoras de dos atributos ordinales
acilmente que
puede calcularse a partir de la siguiente f
ormula
rs =
di2
n (n 2
1)
Bloque 3. Estadstica
132 / 303
1 rs 1,
de manera que:
Si r = 0 entonces no existe relacion entre los atributos ordinales.
Si r = 1 entonces los ordenes de los atributos coinciden y existe una relacion directa
perfercta.
Si r = 1 entonces los ordenes de los atributos est invertidos y existe una relacion
an
inversa perfecta.
En general, cuanto mas cerca de 1 o 1 est rs , mayor sera la relacion entre los atributos, y
Bloque 3. Estadstica
133 / 303
X
2
5
1
3
4
Y
3
4
2
1
5
di
1
1
1
2
1
0
di2
1
1
1
4
1
8
rs = 1
di2
n (n 2
1)
= 1
68
= 0,6,
5(52 1)
lo que indica que existe bastante relacion directa entre las destrezas manifestadas en ambas
tareas.
Bloque 3. Estadstica
134 / 303
Cuando hay empates en el orden de las categoras se atribuye a cada valor empatado la
media aritmetica de los valores ordinales que hubieran ocupado esos individuos en caso de no
Alumnos
Alumno 1
Alumno 2
Alumno 3
Alumno 4
Alumno 5
X
2
5
1
3,5
3,5
Y
3
4
1,5
1,5
5
di
1
1
0,5
2
1,5
0
di2
1
1
0,25
4
2,25
8,5
rs = 1
Bloque 3. Estadstica
di2
n (n 2 1)
=1
6 8,5
= 0,58.
5(52 1)
135 / 303
Relacion entre atributos nominales
Cuando se quiere estudiar la relacion entre atributos nominales no tiene sentido calcular el
Para estudiar la relacion entre atributos nominales se utilizan medidas basadas en las
frecuencias de la tabla de frecuencias bidimensional, que para atributos se suele llamar tabla
de contingencia.
Ejemplo En un estudio para ver si existe relacion entre el sexo y el habito de fumar se ha
Si
12
26
38
No
28
34
62
ni
40
60
100
Bloque 3. Estadstica
136 / 303
Frecuencias teoricas o esperadas
En general, dada una tabla de contingencia para dos atributos X e Y ,
X \Y
x1
.
.
.
xi
.
.
.
xp
ny
y1
n11
.
.
.
ni 1
.
.
.
np 1
ny 1
..
.
..
.
yj
n1 j
.
.
.
nij
.
.
.
npj
ny j
..
.
..
.
yq
n1 q
.
.
.
niq
.
.
.
npq
ny q
nx
nx 1
.
.
.
nx i
.
.
.
nx p
n
ny j
n1 j
n2 j
npj
n1j + + npj
=
= =
=
=
,
nx1
nx 2
nx p
nx 1 + + nx p
n
de donde se deduce que
nij =
nx i ny j
n
A esta ultima expresion se le llama frecuencia teorica o frecuencia esperada del par (xi , yj ).
Bloque 3. Estadstica
137 / 303
Coeciente chi-cuadrado 2
Es posible estudiar la relacion entre X e Y comparando las frecuencias reales con las
esperadas:
coeciente 2 como
p
2 =
nij
i =1 j =1
nxi nyj 2
n
nxi nyj
Bloque 3. Estadstica
138 / 303
Calculo del coeciente chi-cuadrado 2
Ejemplo
Si
12
26
38
No
28
34
62
ni
40
60
100
nj
No
Si
4038
100
6038
100
= 15,2
= 22,8
38
4062
100
6062
100
ni
= 24,8
40
= 37,2
60
62
100
y el coeciente 2 vale
2 =
(28 24,8)2
(26 22,8)2
(34 37,2)2
(12 15,2)2
+
+
+
= 1,81,
15,2
24,8
22,8
37,2
lo que indica que no existe gran relacion entre el sexo y el habito de fumar.
Bloque 3. Estadstica
139 / 303
Coeciente de contingencia
El coeciente 2 depende del tamano muestral, ya que al multiplicar por una constante las
frecuencias de todas las casillas, su valor queda multiplicado por dicha constante, lo que
podra llevarnos al equvoco de pensar que ha aumentado la relacion, incluso cuando las
C=
Bloque 3. Estadstica
2
2 + n
140 / 303
Interpretacion del coeciente de contingencia
0 C 1,
de manera que cuando C = 0 las variables son independientes, y crece a medida que
aumenta la relacion.
Aunque C nunca puede llegar a valer 1, se puede demostrar que para tablas de contingencia
C=
1,81
= 0,13.
1,81 + 100
Como se trata de una tabla de contingencia de 2 2, el valor maximo que podra tomar el
a
coeciente de contingencia es (2 1)/2 = 1/2 = 0,707, y como 0,13 est bastante lejos
de este valor, se puede concluir que no existe demasiada relacion entre el habito de fumar y el
sexo.
Bloque 3. Estadstica
141 / 303
Combinatoria
Combinatoria
Variaciones con repeticion
Variaciones
Permutaciones
Permutaciones con repeticion
Ejercicios Resueltos
Ejercicios propuestos
Bloque 3. Estadstica
142 / 303
Introduccion
La Combinatoria estudia las diferentes formas en que se puede llevar a cabo una cierta tarea
de ordenacion o agrupacion de unos cuantos objetos siguiendo unas reglas prejadas.
Es una herramienta muy importante en el calculo de probabilidades, puesto que permite contar
los casos favorables y los posibles y, por tanto, calcular probabilidades en aquellas situaciones
en que todos los sucesos sean equiprobables.
Bloque 3. Estadstica
143 / 303
Variaciones con repeticion
variaciones con repeticion de m elementos tomados n a n ; el numero total de estas se nota por
n.
VRm,n y es igual a m
Ejemplo
El numero de quinielas de f
utbol que hay que hacer para acertar 15 con seguridad es:
VR3,15 = 315 . Esto es as, puesto que los resultados posibles son tres: el 1, la x y el 2, en cada
Bloque 3. Estadstica
144 / 303
Variaciones
Sean m elementos a1 , a2 , . . . , am . Se pretende ocupar n lugares con ellos de modo que cada
elemento solo ocupe un lugar. (En este caso ha de ser n < m). Las distintas disposiciones se
Vm,n =
m!
.
(m n )!
Ejemplo
En una quiniela hpica hay que acertar los tres primeros caballos que llegan a meta en una
carrera en la que hay diez competidores. El numero de quinielas que hay que hacer para
Bloque 3. Estadstica
145 / 303
Permutaciones
Las permutaciones sin repeticion de n elementos dan el numero de ordenaciones distintas que
se pueden realizar con los n elementos. El numero total de estas se nota por
Pn = n (n 1)(n 2) . . . 2 1.
A este numero se le llama n factorial o factorial de n y se representa por n !. Por otra parte es
evidente que las permutaciones de n elementos coinciden con las variaciones sin repeticion de
n elementos tomados n a n . Es decir, Pn = Vn,n = n !.
Ejemplo
Si se tienen que colocar siete libros en una librera se puede hacer de P7 = 7! = 5,040 formas
distintas.
Bloque 3. Estadstica
146 / 303
Permutaciones con repeticion
, ,...,
Pm1 2 n = PR (1 , 2 , . . . , n ) y vale:
m!
1 !2 ! . . . n !
Ejemplo
Si se desea repartir 3 relojes, 2 bicicletas y 4 pelotas entre 9 ninos, de modo que cada uno de
3,2,4
= 9!/3!2!4! = 1260 formas de hacerlo.
ellos reciba un regalo, se tienen, PR9
Bloque 3. Estadstica
147 / 303
Combinaciones
Cm,n =
Vm,n
m!
=
.
Pn
(m n )!n !
Ejemplo
En una carrera donde compiten 10 corredores y se clasican los tres primeros para la fase
siguiente, puede haber tantas combinaciones de clasicados como C10,3 = 120.
Bloque 3. Estadstica
148 / 303
Propiedades de los numeros combinatorios
A los valores de Cm,n se les llama numeros combinatorios y se les designa por:
Cm,n =
m
.
n
m
m
=
=1
0
m
m
m
=
n
mn
m1
m1
m
+
=
n1
n
n
Bloque 3. Estadstica
149 / 303
Combinaciones con repeticion
grupos que pueden formarse con r elementos elegidos de entre n posibles, sin importar el que
se repitan. Se nota por CRn,r y vale:
n+r 1
r
Ejemplo
Si se dispone de 3 bolas iguales a las que hay que distribuir en 7 cajas distinguibles, se
pueden hacer tantas combinaciones como (7) = 35.
3
Observe que los elementos son las cajas y que el que una bola est dentro de una caja solo
e
signica que esa caja es una de las tres seleccionadas. Si las tres bolas estuvieran en la
misma caja, se seleccionara dicha caja tres veces.
Bloque 3. Estadstica
150 / 303
Ejercicio Resuelto
Ejercicio
En un instituto los alumnos de 2 de Bachillerato deciden realizar un sorteo para el viaje de n
de curso. Para numerar las papeletas deciden utilizar unicamente los dgitos 1, 2, 3, 4, 5.
Bloque 3. Estadstica
151 / 303
Solucion del Ejercicio
Se sigue con variaciones pero ahora seran con repeticion, siendo su numero de
VR5,4 = 54 = 625.
Al tener 4 dgitos para generar el numero, intervendran todos en cada numero, por lo que
4!
se trata de permutaciones con repeticion, PR4 3, 1 = 3!1! = 4.
repetir los dgitos, con lo que se trata de variaciones con repeticion de 4 elementos
4
Igual que en el caso anterior no inuye el orden, pero se pueden repetir los valores, por lo
tanto se trata de combinaciones con repeticion de 5 elementos tomados de 4 en 4,
CR5,4 = (5+41) = 70
4
Bloque 3. Estadstica
152 / 303
Ejercicios propuestos
Ejercicio
Con las cifras l, 2, 3, 4, 5, cuantos numeros de dos cifras distintas pueden formarse?
Ejercicio
De cuantas formas distintas puede colocarse un equipo de f
Ejercicio
Suponga que le hacen el encargo de disenar la bandera de un nuevo pas, para lo que dispone
de cinco colores; si la bandera debe tener tres bandas horizontales de igual anchura, cuantas
Ejercicio
Un automovil de cinco plazas est ocupado por dos conductores y tres no conductores.
a
Sabiendo que los dos conductores no pueden ocupar simult
aneamente las dos plazas
delanteras, de cuantas formas distintas pueden acomodarse los ocupantes del coche?
Bloque 3. Estadstica
153 / 303
Ejercicios propuestos
Ejercicio
En un congreso de Estadstica al que asisten 40 personas se han habilitado tres salas para
defender, simult
aneamente, las ponencias. De cuantas formas distintas pueden distribuirse
los asistentes entre las salas? Suponga que la capacidades de las salas son de 16, 14 y 10
personas.
Ejercicio
El jefe de cocina de un comedor universitario dispone de cinco primeros platos, ocho
segundos y cuatro postres, para combinarlos y formar menus en el mes de Noviembre.
Ejercicio
De cuantas formas distintas pueden acomodarse 170 pasajeros en un avion de 200 plazas?
Ejercicio
En una competicion de tenis hay 32 inscritos, de cuantas formas distintas se pueden
Bloque 3. Estadstica
154 / 303
Ejercicios propuestos
Ejercicio
En una compana de baile hay diez hombres y diez mujeres. Cuantas parejas distintas puede
formar su director?
Ejercicio
Cuantas quinielas distintas pueden formarse con cinco x, siete 1 y tres 2?
Ejercicio
Obtenga el numero de permutaciones que se pueden formar con las letras de la palabra
Ejercicio
Durante un debate 8 personas se sientan en una mesa redonda, de cuantas formas distintas
Ejercicio
Una marca de vehculos a motor dispone de 15 probadores de automoviles, 12 de
Bloque 3. Estadstica
155 / 303
Teora de la Probabilidad
Teora de la Probabilidad
Denicion de probabilidad
Probabilidad condicionada
Dependencia e independencia de sucesos
Teorema de la probabilidad total
Teorema de Bayes
Tests diagnosticos
Bloque 3. Estadstica
156 / 303
Introduccion
probabilidad.
Es evidente que la aproximacion a la realidad de la poblacion sera mejor cuanto mas
que punto son ables las conclusiones obtenidas a partir de una muestra.
Bloque 3. Estadstica
157 / 303
aleatorios.
posibles antes de su realizacion pero se desconoce cual sera el resultado concreto del mismo.
Un ejemplo sencillo de experimentos aleatorios son los juegos de azar. Por ejemplo, el
lanzamiento de un dado es un experimento aleatorio ya que:
Se conoce el conjunto posibles de resultados {1, 2, 3, 4, 5, 6}.
Antes de lanzar el dado, es imposible predecir con absoluta certeza el valor que saldra.
Bloque 3. Estadstica
158 / 303
Espacio muestral
Bloque 3. Estadstica
159 / 303
Construccion del espacio muestral
En los experimentos donde se miden mas de una variable, la construccion del espacio
de manera que cada nivel del arbol es una variable observada y cada rama un posible valor.
Mujer
Grupo
Sexo
(Mujer,A)
(Mujer,B)
AB
(Mujer,AB)
Bloque 3. Estadstica
(Hombre,A)
(Hombre,B)
AB
(Hombre,AB)
Hombre
(Mujer,0)
(Hombre,0)
160 / 303
Sucesos aleatorios
Bloque 3. Estadstica
161 / 303
Espacio de sucesos
Bloque 3. Estadstica
162 / 303
Puesto que los sucesos son conjuntos, por medio de la teora de conjuntos se pueden denir
Interseccion.
Diferencia.
Diferencia simetrica.
Complementario.
Bloque 3. Estadstica
163 / 303
Union de sucesos
A B = {x | x A o x B }.
E
B
A
A B
Bloque 3. Estadstica
164 / 303
Interseccion de sucesos
A B = {x | x A y x B }.
E
B
A
A B
165 / 303
Diferencia de sucesos
A B = {x | x A y x
B }.
E
A
B
A B
El suceso diferencia A B ocurre siempre que ocurre A pero no ocurre B , y tambien puede
expresarse como A B .
Ejemplo. Sea E = {1, 2, 3, 4, 5, 6}, el conjunto de los numeros de un dado, y A = {2, 4, 6} y
Bloque 3. Estadstica
166 / 303
Contrario de un suceso
A = {x | x
A }.
E
A
Ejemplo. Sea E = {1, 2, 3, 4, 5, 6}, el conjunto de los numeros de un dado, y A = {2, 4, 6}.
Entonces A = {1, 3, 5}.
Bloque 3. Estadstica
167 / 303
Algebra de sucesos
A A = A , A A = A (idempotencia).
A B = B A , A B = B A (conmutativa).
(A B ) C = A (B C ), (A B ) C = A (B C ) (asociativa).
(A B ) C = (A C ) (B C ), (A B ) C = (A C ) (B C ) (distributiva).
A = A , A E = A (elemento neutro).
A E = E , A = (elemento absorbente).
A = A (doble contrario).
A B = A B , A B = A B (leyes de De Morgan).
10
A B A B.
Bloque 3. Estadstica
168 / 303
P (A ) =
n casos favorables a A
|A |
=
|E |
n casos posibles
Es necesario que todos los elementos del espacio muestral tengan la misma probabilidad
de ocurrir (equiprobabilidad).
Bloque 3. Estadstica
169 / 303
Denicion frecuentista de probabilidad
los sucesos del experimento, tienden a estabilizarse en torno a cierto numero, que es
precisamente su probabilidad.
De acuerdo al teorema anterior, podemos dar la siguiente denicion
P (A ) = lm
nA
n
Aunque esta denicion es muy util en experimentos cientcos reproducibles, tambien tiene
Bloque 3. Estadstica
170 / 303
Denicion (Kolmogorov)
Se llama probabilidad a toda aplicacion que asocia a cada suceso A del espacio de sucesos
P (A ) 0.
2
P (A B ) = P (A ) + P (B ).
3
P (E ) = 1.
Bloque 3. Estadstica
171 / 303
resultados:
1
2
3
4
5
P (A ) = 1 P (A ).
P () = 0.
Si A B entonces P (A ) P (B ).
P (A ) 1.
P (A B ) = P (A ) + P (B ) P (A B ).
6
P (A ) =
P (ei ).
i =1
Bloque 3. Estadstica
172 / 303
Experimentos condicionados
En algunas ocasiones puede que haya que calcular la probabilidad de algun suceso A
sabiendo que ha ocurrido otro B . En tal caso se dice que el suceso B es un condicionante, y la
probabilidad del suceso condicionado suele escribirse como
P (A /B )
Los condicionantes, en el fondo, cambian el espacio muestral del experimento y por tanto las
probabilidades de sus sucesos.
Ejemplo. Supongamos que hemos observado las siguientes frecuencias de aprobados en un
grupo de 100 hombres y 100 mujeres:
Mujeres
Hombres
Aprobados
80
60
Suspensos
20
40
Bloque 3. Estadstica
173 / 303
Probabilidad condicionada
P (A /B ) =
siempre y cuando, P (B )
P (A B )
,
P (B )
0.
Esta denicion permite calcular probabilidades sin tener que alterar el espacio muestral
P (Aprobado/Mujer) =
P (Aprobado Mujer)
80/200
80
=
=
= 0,8.
P (Mujer)
100/200
100
P (A B ) = P (A )P (B /A ) = P (B )P (A /B ).
Bloque 3. Estadstica
174 / 303
Independencia de sucesos
P (A B ) = P (A )P (B ).
Bloque 3. Estadstica
175 / 303
Arboles de probabilidad
Ya se vio que en experimentos donde se meda mas de una variable, era conveniente construir
Dicho diagrama tambien es util para calcular las probabilidades de cada uno de los elementos
Para cada nodo del arbol, etiquetar su rama con la probabilidad de que la variable
correspondiente tome el valor del nodo, condicionada por la ocurrencia de todos los
nodos que conducen hasta el actual.
P (B )
Bloque 3. Estadstica
(A , C )
P (A )P (C /A )
(A , D )
P (A )P (D /A )
(B , C )
P (B )P (C /B )
(B , D )
P (B )P (D /B )
P (D /A )
P (C /B )
P (A )
P (C /A )
P (D /B )
176 / 303
Arboles de probabilidad con variables dependientes
Ejemplo de dependencia del cancer con respecto al tabaco
Sea una poblacion en la que el 30 % de las personas fuman, y que la incidencia del cancer de
Enfermedad
0,3
Fuma
0,7
Bloque 3. Estadstica
Cancer
(Fuma,Cancer)
(Fuma,Cancer)
Cancer
(Fuma,Cancer)
(Fuma,Cancer)
0,6
0,1
Fuma
Cancer
0,4
Cancer
Tabaco
0,9
177 / 303
Arboles de probabilidad con variables independientes
Ejemplo de independencia en el lanzamiento de dos monedas
Bloque 3. Estadstica
(C,C)
(C,X)
(X,C)
(X,X)
0,5
0,5
0,5
2 Moneda
0,5
0,5
1 Moneda
0,5
178 / 303
Arboles de probabilidad con variables independientes
Ejemplo de independencia en la eleccion de una muestra aleatoria de tamano 2
aleatorio que consiste en tomar una muestra aleatoria de tres personas tiene el siguiente arbol
de probabilidad:
1 Persona
2 Persona
3 Persona E
0,4
(H,H,M)
(H,M,H)
(H,M,M)
(M,H,H)
(M,H,M)
(M,M,H)
(H,H,H)
0,4
H
M
0,4
(M,M,M)
0,6
0,4
0,6
0,6
0,4
0,6
0,4
0,4
0,6
Bloque 3. Estadstica
0,6
0,6
179 / 303
A1
A2
An
En realidad un sistema completo de sucesos es una particion del espacio muestral de acuerdo
Bloque 3. Estadstica
180 / 303
P (Ai )P (B /Ai ).
P (B ) =
i =1
A1
Bloque 3. Estadstica
A2
An
181 / 303
tenemos
B = B E = B (A1 An ) = (B A1 ) (B An )
y como estos sucesos son incompatibles entre si, se tiene
P (B ) = P ((B A1 ) (B An )) = P (B A1 ) + + P (B An ) =
n
Bloque 3. Estadstica
P (Ai )P (B /Ai ).
i =1
182 / 303
Un fallo del tipo F en una pieza puede ser originado por una maquina M , pero tambien pueden
presentar el fallo las piezas fabricadas por otras maquinas. Sabemos que en la produccion, la
tasa de piezas producidas por la maquina M es 0,2. Ademas, de las piezas fabricadas por la
maquina M el 90 % presentan el fallo F , mientras que de las piezas que no han sido fabricadas
Bloque 3. Estadstica
183 / 303
Un determinado sntoma B puede ser originado por una enfermedad A pero tambien lo
pueden presentar las personas sin la enfermedad. Sabemos que en la poblacion la tasa de
personas con la enfermedad A es 0,2. Ademas, de las personas que presentan la enfermedad,
presentan el 40 %.
Si se toma una persona al azar de la poblacion, que probabilidad hay de que tenga el
sntoma?
Bloque 3. Estadstica
184 / 303
experimento.
Sntoma
0,2
0,8
(A , B )
(A , B )
(A , B )
(A , B )
0,1
0,4
0,9
Enfermedad
0,6
Bloque 3. Estadstica
185 / 303
Teorema de Bayes
Los sucesos de un sistema completo de sucesos A0 , , An tambien pueden verse como las
En estas condiciones resulta util poder calcular las probabilidades a posteriori P (Ai /B ) de
Teorema (Bayes)
Dado un sistema completo de sucesos A1 , . . . , An y un suceso B de un mismo espacio de
sucesos, se cumple
P (Ai B )
P (Ai )P (B /Ai )
P (Ai /B ) =
.
= n
P (B )
i =1 P (Ai )P (B /Ai )
Bloque 3. Estadstica
186 / 303
Teorema de Bayes
Un ejemplo de control de calidad
En el ejemplo anterior se ha visto como calcular la probabilidad de que una pieza al azar
presente un fallo F , pero desde un punto de vista de control de calidad, una pregunta mas
interesante es:
aquina que la
Si tomamos una pieza que presenta el fallo, que se debe concluir sobre la m
fabrico?
En este caso, las hipotesis ante las que hay que decidir son M y M y sus probabilidades a
que no la fabrico la maquina M pues es mucho mas probable que que lo hiciera.
Sin embargo, si al ver la pieza se observa que presenta el fallo, dicha informacion condiciona a
las hipotesis, y para decidir entre ellas es necesario calcular sus probabilidades a posteriori,
es decir
P (M /F ) y P (M /F )
Bloque 3. Estadstica
187 / 303
Teorema de Bayes
Un ejemplo de control de calidad
P (M /F ) =
P (M /F ) =
P (M )P (F /M )
P (M )P (F /M ) + P (M )P (F /M )
P (M )P (F /M )
P (M )P (F /M ) + P (M )P (F /M )
0,18
0,2 0,9
=
= 0,36,
0,2 0,9 + 0,8 0,4
0,5
0,8 0,4
0,32
=
= 0,64.
0,2 0,9 + 0,8 0,4
0,5
a,
En este caso se dice que el fallo F no es determinante a la hora de decidir que maquina
fabrico la pieza, pues la informacion que aporta no sirve para cambiar la decision en ningun
caso.
Bloque 3. Estadstica
188 / 303
Tests diagnosticos
Generalmente estos tests no son totalmente ables, sino que hay cierta probabilidad de
acierto o fallo en el diagnostico, que suele representarse en la siguiente tabla:
Test positivo
(+)
Test negativo
()
Presencia de la
enfermedad (E )
Diagnostico acertado
P (+/E )
Sensibilidad
Diagnostico erroneo
P (/E )
Ausencia de la
enfermedad (E )
Diagnostico erroneo
P (+/E )
Diagnostico acertado
P (/E )
Especicidad
Bloque 3. Estadstica
189 / 303
Ejemplo
Un test para diagnosticar la gripe tiene una sensibilidad del 95 % y una especicidad del 90 %.
Segun esto, las probabilidades de acierto y fallo del test son:
Test +
Test
Gripe
0,95
0,05
No gripe
0,10
0,90
P (Gripe/+) =
P (Gripe)P (+/Gripe)
Bloque 3. Estadstica
190 / 303
Variables aleatorias
Variables Aleatorias
Variables Aleatorias Discretas
Distribucion Uniforme
Distribucion Binomial
Distribucion de Poisson
Distribucion Normal
Distribucion Chi-cuadrado
Distribucion T de Student
Distribucion F de Fisher-Snedecor
Bloque 3. Estadstica
191 / 303
Variable aleatoria
X :ER
Al conjunto de posibles valores que puede tomar la variable aleatoria se le llama rango o
recorrido de la variable.
En el fondo, una variable aleatoria es una variable cuyos valores provienen de la realizacion de
Bloque 3. Estadstica
192 / 303
Variable aleatoria
Bloque 3. Estadstica
193 / 303
Distribucion de probabilidad de una variable discreta
Como los valores de una variable aleatoria est asociados a los sucesos elementales del
an
correspondiente experimento aleatorio, cada valor tendra asociada una probabilidad.
en las muestras.
a cada valor xi la probabilidad de que la variable tome un valor menor o igual que dicho valor.
Bloque 3. Estadstica
194 / 303
Distribucion de probabilidad de una variable discreta
tabla
X
x1
x2
xn
f (x )
f (x1 )
f (x2 )
f (xn )
1
F (x ) F (x1 ) F (x2 ) F (xn ) = 1
Al igual que la distribucion de frecuencias de una variable reejaba como se distribuan los
sirve para reejar como se distribuyen los valores de dicha variable en toda la poblacion.
Bloque 3. Estadstica
195 / 303
Distribucion de probabilidad de una variable discreta
Ejemplo del lanzamiento de dos monedas
Sea X la variable aleatoria que mide el numero de caras en el lanzamiento de dos monedas.
2.Moneda
0,5
(C,C)
0,25
(C,X)
0,25
(X,C)
0,25
0,5
1.Moneda
(X,X)
0,25
0,5
0,5
0,5
0,5
X
f (x )
F (x )
Bloque 3. Estadstica
0
0,25
0,25
1
0,5
0,75
2
0,25
1
0,25
F (x ) =
0,75
si x < 0
si 0 x < 1
si 1 x < 2
si x 2
196 / 303
gracamente:
0.6
0.2
0.0
0.0
0.5
1.0
N. de caras
Bloque 3. Estadstica
0.4
Probabilidad acumulada
0.3
0.2
0.0
0.1
Probabilidad
0.4
0.8
0.5
1.0
1.5
2.0
0.0
0.5
1.0
1.5
2.0
N. de caras
197 / 303
Estadsticos poblacionales
Al igual que para describir las muestras se utilizan estadsticos descriptivos, para describir
= E (X ) =
xi f (xi )
i =1
Varianza:
2 = Var (X ) =
i =1
xi2 f (xi ) 2
Desviacion tpica:
= + 2
198 / 303
Estadsticos poblacionales
X
f (x )
F (x )
0
0,25
0,25
1
0,5
0,75
2
0,25
1
se pueden calcular f
acilmente los estadsticos poblacionales:
=
i =1
n
2 =
i =1
Bloque 3. Estadstica
199 / 303
Modelos de distribucion de probabilidad
Distribucion Uniforme.
Distribucion Binomial.
Distribucion de Poisson.
Bloque 3. Estadstica
200 / 303
Distribucion Uniforme U (a , b )
Cuando por la simetra del experimento, todos los valores a = x1 , . . . , xk = b de una variable
discreta X son igualmente probables, se dice que la variable sigue un modelo de distribucion
uniforme,
probabilidad vale
1
f (x ) = .
k
Su media y varianza valen
k
xi
i =1
Bloque 3. Estadstica
1
k
2 =
i =1
1
(xi )2 .
k
201 / 303
Distribucion Uniforme U (a , b )
Ejemplo del lanzamiento de un dado
0.10
0.00
0.05
Probabilidad f (x )
0.15
0.20
Bloque 3. Estadstica
202 / 303
Distribucion Binomial
Los ensayos son independientes, por lo que el resultado de cualquier ensayo en particular
no inuye sobre el resultado de cualquier otro intento.
La probabilidad de exito es identica para todos los ensayos y vale P (E ) = p .
En estas condiciones, la variable aleatoria X que mide le numero de exitos obtenidos en los n
Bloque 3. Estadstica
203 / 303
Distribucion Binomial B (n, p )
f (x ) =
n x
p (1 p )nx .
x
Bloque 3. Estadstica
2 = n p (1 p ).
204 / 303
Distribucion Binomial B (n, p )
Ejemplo del lanzamiento de 10 monedas
La variable que mide el numero de caras obtenidos al lanzar 10 veces una moneda sigue un
0.15
0.10
0.00
0.05
Probabilidad f (x )
0.20
0.25
10
Bloque 3. Estadstica
205 / 303
Distribucion Binomial B (n, p )
Ejemplo del lanzamiento de 10 monedas
monedas. Entonces:
La probabilidad de sacar 4 caras es
f (4) =
10
10!
0,54 (1 0,5)104 =
0,54 0,56 = 210 0,510 = 0,2051.
4
4!6!
10
10
10
0,52 (1 0,5)102 =
0,51 (1 0,5)101 +
0,50 (1 0,5)100 +
2
1
0
= 0,0547.
Y el numero esperado de caras es
= 10 0,5 = 5 caras.
Bloque 3. Estadstica
206 / 303
Distribucion de Poisson
volumen de sangre. . .
El experimento produce, a largo plazo, un numero medio constante de fenomenos
Bloque 3. Estadstica
207 / 303
Distribucion de Poisson P ()
f (x ) = e
x
.
x!
Bloque 3. Estadstica
2 = .
208 / 303
Distribucion de Poisson P ()
Ejemplo del numero de ingresos en un hospital
de Poisson X P (4).
0.10
0.00
0.05
Probabilidad f (x )
0.15
0.20
10
12
Bloque 3. Estadstica
209 / 303
Distribucion de Poisson P ()
Ejemplo del numero de ingresos en un hospital
Sea X P (4) la variable que mide el numero de ingresos diarios en un hospital. Entonces:
f (5) = e 4
45
= 0,1563.
5!
40
41
+ e 4
= 5e 4 = 0,0916.
0!
1!
Bloque 3. Estadstica
210 / 303
Aproximacion del modelo Binomial mediante el Poisson
La ley de los casos raros
muy pequena p 0.
lm
n,p 0
x
n x
p (1 p )nx = e .
x
x!
Bloque 3. Estadstica
211 / 303
Tal densidad de valores hace imposible el calculo de las probabilidades de cada uno de ellos, y
por tanto no podemos denir los modelos de distribucion de probabilidad por medio de una
Por otro lado, la medida de una variable aleatoria continua suele estar limitada por las
imprecisiones del proceso o instrumento de medida. Por ejemplo, cuando se dice que una
estatura es 1,68 m, no se est diciendo que es exactamente 1,68 m, sino que la estatura
a
est entre 1,675 y 1,685 m, ya que el instrumento de medida solo es capaz de precisar hasta
a
cm.
As pues, en el caso de variables continuas, no tiene sentido medir probabilidades de valores
Bloque 3. Estadstica
212 / 303
Funcion de densidad
Para conocer como se distribuye la probabilidad entre los valores de una variable aleatoria
f (x ) dx = 1
y tal que la probabilidad de que la variable tome un valor dentro un intervalo cualquiera [a , b ] es
b
P (a X b ) =
f (x ) dx
a
Bloque 3. Estadstica
213 / 303
Funcion de distribucion
Al igual que para las variables discretas, tambien tiene sentido medir probabilidades
a cada valor xi la probabilidad de que la variable tome un valor menor o igual que dicho valor.
xi
F (xi ) = P (X xi ) =
Bloque 3. Estadstica
f (x ) dx .
214 / 303
Densidad de probabilidad f (x )
P (a X b ) =
b
a
f (x ) dx
b
X
P (a X b ) =
Bloque 3. Estadstica
f (x ) dx = F (b ) F (a )
215 / 303
Ejemplo
Dada la siguiente funcion:
f (x ) = x
e
si x < 0
si x 0,
Bloque 3. Estadstica
216 / 303
Tenemos la funcion:
f (x ) = x
e
si x < 0
si x 0
Para comprobar que se trata de una funcion de densidad empezamos viendo que es no
negativa, lo cual es evidente al tratarse de una funcion exponencial, y que el area por debajo
de ella es 1:
f (x ) dx =
=
f (x ) dx +
[e x ]0
= e
f (x ) dx =
+ e 0 = 1.
0 dx +
e x dx =
Ahora, a partir de ella, se puede calcular por ejemplo la probabilidad de que la variable tome
un valor entre 0 y 2.
2
P (0 X 2) =
Bloque 3. Estadstica
f (x ) dx =
0
e x dx = [e x ]0 = e 2 + e 0 = 0,8646.
217 / 303
Estadsticos poblacionales
= E (X ) =
xf (x ) dx
Varianza:
2 = Var (X ) =
x 2 f (x ) dx 2
Desviacion tpica:
= + 2
Bloque 3. Estadstica
218 / 303
Calculo de los estadsticos poblacionales
Ejemplo
f (x ) = x
e
Su media es
=
= [e
xf (x ) dx =
xf (x ) dx +
si x < 0
si x 0
xf (x ) dx =
0 dx +
(1 + x )]0 = 1.
xe x dx =
y su varianza vale
2 =
Bloque 3. Estadstica
0 dx +
x 2 f (x ) dx 2 =
0
x 2 f (x ) dx +
x 2 f (x ) dx 2 =
x 2 e x dx 2 = e x (x 2 + 2x + 2)
12 = 2e 0 1 = 2.
219 / 303
Modelos de distribucion continuos
Distribucion Normal.
Distribucion T de Student.
Distribucion Chi-cuadrado.
Distribucion F de Fisher-Snedecor.
Bloque 3. Estadstica
220 / 303
Distribucion Uniforme continua U (a , b )
Cuando todos los valores de una variable continua son equiprobables, se dice que la variable
f (x ) =
1
b a
x [a , b ]
Bloque 3. Estadstica
a+b
2
2 =
(b a )2
.
12
221 / 303
Funcion de densidad de la Uniforme continua U (a , b )
La generacion aleatoria de un numero real entre 0 y 1 sigue un modelo de distribucion
0.6
0.4
0.0
0.2
Densidad f (x )
0.8
1.0
1.2
0.0
0.2
0.4
0.6
0.8
1.0
Bloque 3. Estadstica
222 / 303
lineal.
0.8
0.6
0.4
0.2
0.0
Probabilidad acumulada F (x )
1.0
1.2
0.0
0.2
0.4
0.6
0.8
1.0
Bloque 3. Estadstica
223 / 303
Calculo de probabilidades con una Uniforme continua
Ejemplo de espera de un autobus
Supongase que un autobus pasa por una parada cada 15 minutos. Si una persona puede
10
5
0.06
0.04
P (5 X 10) =
10 1
5 15
dx
0.02
1
x
P (5 X 10) =
dx =
15
15
5
5
1
10
= .
=
15 15
3
0.00
10
Densidad f (x )
0.08
10
15
Bloque 3. Estadstica
0+15
2
= 7,5 minutos.
224 / 303
Distribucion Normal N (, )
El modelo de distribucion normal es, sin duda, el modelo de distribucion continuo mas
f (x ) =
1
1
e 2
2
desviacion tpica.
Bloque 3. Estadstica
225 / 303
Funcion de densidad de la Normal N (, )
La graca de la funcion de densidad de la distribucion normal tiene forma de una especie de
a
campana, conocida como campana de Gauss (en honor a su descubridor), y est centrada en
la media .
Densidad de probabilidad f (x )
Distribucion normal N (, )
Bloque 3. Estadstica
226 / 303
Funcion de densidad de la Normal N (, )
La forma de la campana de Gauss depende de sus dos parametros:
0.4
0.4
-2
Bloque 3. Estadstica
0.2
Densidad f (x )
0.0
0.1
0.2
0.0
0.1
Densidad f (x )
0.3
N (0, 1)
N (0, 2)
0.3
N (0, 1)
N (2, 1)
-6
-4
-2
227 / 303
0.8
0.6
0.4
0.2
0.0
Probabilidad acumulada F (x )
1.0
Distribucion normal N (, )
Bloque 3. Estadstica
228 / 303
Propiedades de la distribucion Normal
asimetra es g1 = 0.
P ( X + ) = 0,68,
P ( 2 X + 2) = 0,95,
P ( 3 X + 3) = 0,99.
Bloque 3. Estadstica
229 / 303
Propiedades de la distribucion Normal
Ejemplo
Que quiere decir esto?
En el caso del coresterol, dicho intervalo es [170 mg/dl, 250 mg/dl]. Cuando una persona tiene
el colesterol fuera de estos lmites, se tiende a pensar que tiene alguna patologa, aunque
ciertamente podra estar sana, pero la probabilidad de que eso ocurra es solo de un 5 %.
Bloque 3. Estadstica
230 / 303
Si se piensa por ejemplo en la distribucion de las estaturas, se vera que la mayor parte de los
individuos presentan estaturas en torno a la media, tanto por arriba, como por debajo, pero
que a medida que van alejandose de la media, cada vez hay menos individuos con dichas
estaturas.
La justicacion de que la distribucion normal aparezca de manera tan frecuente en la
naturaleza la encontramos en el teorema central del lmite, que veremos mas adelante, y que
establece que si una variable aleatoria X proviene de un experimento aleatorio cuyos
resultados son debidos a un conjunto muy grande de causas independientes que act
uan
sumando sus efectos, entonces X sigue una distribucion aproximadamente normal.
Bloque 3. Estadstica
231 / 303
0.3
0.2
0.1
0.0
Densidad de probabilidad f (z )
0.4
andar N ( = 0, = 1)
-3
-2
-1
Bloque 3. Estadstica
232 / 303
Para evitar tener que calcular probabilidades integrando la funcion de densidad de la normal
est
andar se suele utilizar su funcion de distribucion.
Habitualmente se suele manejar una tabla con los valores de la funcion de distribucion
0,02
0,5080
0,5478
0,5871
0,6255
0,6628
0,6985
.
.
.
..
.
0.2
0,01
0,5040
0,5438
0,5832
0,6217
0,6591
0,6950
.
.
.
Densidad f (z )
0,00
0,5000
0,5398
0,5793
0,6179
0,6554
0,6915
.
.
.
0.1
0,0
0,1
0,2
0,3
0,4
0,5
.
.
.
Ejemplo P (Z 0,52)
F (0,52) = 0,6985
0.0
0.3
0.4
andar N ( = 0, = 1)
-3
-2
-1
0 0.52 1
Bloque 3. Estadstica
233 / 303
0.2
P (X > 0,52) =
1 F (0,52) =
0.1
Densidad f (z )
0.3
0.4
andar N ( = 0, = 1)
0.0
F (0,52) = 0,6985
-3
-2
-1
1 0,6985
= 0,3015
0 0.52 1
Bloque 3. Estadstica
234 / 303
Tipicacion
andar, pero
que hacer cuando la distribucion normal no es la est
andar?
Afortunadamente, siempre se puede transformar una variable normal para convertirla en una
normal est
andar.
Teorema (Tipicacion)
Si X es una variable normal de media y desviacion tpica , entonces la variable resultante
andar,
se aplica primero la transformacion de tipicacion y despues se puede utilizar la funcion de
andar.
Bloque 3. Estadstica
235 / 303
Calculo de probabilidades tipicando
Ejemplo
Para responder a esta pregunta necesitamos calcular la probabilidad P (X < 5). Como X no es
X
la normal est
andar, se le aplica la transformacion de tipicacion Z = = X 6 :
1,5
P (X < 5) = P
X 6
56
<
= P (Z < 0,67)
1,5
1,5
andar:
Bloque 3. Estadstica
236 / 303
Distribucion chi-cuadrado 2 (n)
2
2
2 (n ) = Z1 + + Zn .
2 = 2n .
Bloque 3. Estadstica
237 / 303
0.30
0.15
0.10
0.00
0.05
Densidad f (x )
0.20
0.25
2 (1)
2 (3)
2 (10)
10
15
20
25
Bloque 3. Estadstica
238 / 303
Propiedades de la distribucion chi-cuadrado 2 (n)
X + Y 2 (n + m).
Al aumentar el numero de grados de libertad, se aproxima asint
Bloque 3. Estadstica
239 / 303
Distribucion T de Student T (n)
Z
T=
,
X /n
sigue un modelo de distribucion T de Student de n grados de libertad.
2 =
n
si n > 2.
n2
Bloque 3. Estadstica
240 / 303
0.4
0.2
0.0
0.1
Densidad f (x )
0.3
T (1)
T (3)
T (10)
-4
-2
Bloque 3. Estadstica
241 / 303
Propiedades de la distribucion T de Student T (n)
est
andar, hasta llegar a ser practicamente iguales para n 30.
T (n ) N (0, 1).
Bloque 3. Estadstica
242 / 303
Distribucion F de Fisher-Snedecor F (m, n)
n
,
n2
2 =
2n 2 (m + n 2)
si n > 4.
m(n 2)2 (n 4)
Bloque 3. Estadstica
243 / 303
0.4
0.0
0.2
Densidad f (x )
0.6
0.8
F (3, 3)
F (10, 5)
F (10, 20)
Bloque 3. Estadstica
244 / 303
Propiedades de la distribucion F de Fisher-Snedecor F (m, n)
F (m, n ) =
1
,
F (n , m)
de manera que si llamamos f (m, n )p al valor que cumple que P (F (m, n ) f (m, n )p ) = p ,
entonces se cumple
1
f (m, n )p =
.
f (n , m)1p
Esto resulta muy util para utilizar las tablas de su funcion de distribucion.
Bloque 3. Estadstica
245 / 303
Estimacion de Parametros
Estimacion de Parametros
Distribuciones muestrales
Estimadores
Estimacion puntual
Bloque 3. Estadstica
246 / 303
Introduccion a la inferencia estadstica
comportamiento de las variables aleatorias, pero para ello debemos saber que modelo de
distribucion sigue una determinada variable. Este es el primer paso de la etapa de Inferencia
Estadstica.
Para determinar con exactitud el modelo de distribucion hay que conocer la caracterstica
Para evitar estos inconvenientes se recurre al estudio de una muestra, a partir de la cual se
trata de averiguar, de manera aproximada, el modelo de distribucion de la variable aleatoria.
Bloque 3. Estadstica
247 / 303
Estudiar un numero reducido de individuos de una muestra en lugar de toda la poblacion tiene
indudables ventajas:
Menor coste.
Mayor rapidez.
Mayor facilidad.
Pero tambien presenta algunos inconvenientes:
Bloque 3. Estadstica
248 / 303
Una muestra de tamano n de una poblacion X puede entenderse como un valor de una
X1 , . . . , Xn tales que:
Cada una de las variables Xi sigue la misma distribucion de probabilidad que la poblacion
X de partida.
Todas las variables son mutuamente independientes.
Los valores que puede tomar esta variable n dimensional, seran todas las posibles muestras
de tamano n que pueden extraerse de la poblacion X .
Bloque 3. Estadstica
249 / 303
Obtencion de una muestra
X
Poblacion
X1
X2
Xn
Variable
aleatoria
n copias
...
x1
Bloque 3. Estadstica
x2
...
muestral
xn
Muestra
250 / 303
Estimacion de parametros
Las dos primeras cuestiones pueden resolverse si se utiliza muestreo aleatorio simple para
obtener la muestra. En cuanto a la ultima, hay que responder, a su vez, a dos cuestiones:
ecnicas no parametricas.
Una vez seleccionado el modelo de distribucion mas apropiado, que estadstico del
modelo nos interesa y como determinar su valor? De esto ultimo se encarga la parte de la
Bloque 3. Estadstica
251 / 303
Parametros a estimar
En este tema se abordara la segunda cuestion, es decir, suponiendo que se conoce el modelo
denen. Por ejemplo, los principales parametros que denen las distribuciones vistas en el
Binomial
Poisson
Uniforme
Normal
Chi-cuadrado
T-Student
F-Fisher
Bloque 3. Estadstica
Parametro
a, b
,
n
n
m, n
252 / 303
Distribucion de la variable aleatoria muestral
Ejemplo: Sea una poblacion en la que la cuarta parte de las familias no tienen hijos, la mitad
(X1 , X2 )
P (x1 , x2 )
Distribucion
Poblacional
X
P (x )
0
1
2
Bloque 3. Estadstica
0,25
0,50
0,25
Muestras de
tamano 2
(0, 0)
(0, 1)
(0, 2)
(1, 0)
(1, 1)
(1, 2)
(2, 0)
(2, 1)
(2, 2)
0,0625
0,1250
0,0625
0,1250
0,2500
0,1250
0,0625
0,1250
0,0625
253 / 303
Distribucion de un estadstico muestral
Por ser funcion de una variable aleatoria, un estadstico en el muestreo es tambien una
variable aleatoria.
Por tanto, su distribucion de probabilidad tambien depende de la distribucion de la poblacion y
Ejemplo: Si se toma la media muestral las muestras de tamano 2 del ejemplo anterior, su
distribucion de probabilidad es
Distribucion muestral
(X1 , X2 )
P (x1 , x2 )
(0, 0)
(0, 1)
(0, 2)
(1, 0)
(1, 1)
(1, 2)
(2, 0)
(2, 1)
(2, 2)
Bloque 3. Estadstica
0,0625
0,1250
0,0625
0,1250
0,2500
0,1250
0,0625
0,1250
0,0625
Distribucion
de x
X
P (x )
Muestras de
tamano 2
0
0,5
1
1,5
2
0,0625
0,2500
0,3750
0,2500
0,0625
254 / 303
Distribucion de un estadstico muestral
Distribucion de
Probabilidad
0.1
0.2
0.3
0.4
0.5
0.4
0.3
0.2
0.0
0.0
0.1
Probabilidad
0.5
Distribucion poblacional
0.0
0.5
1.0
N. de hijos
1.5
2.0
0.0
0.5
1.0
1.5
2.0
Cual es la probabilidad de obtener una media muestral que aproxime la media poblacional
con un error m
aximo de 0.5?
Bloque 3. Estadstica
255 / 303
X = X1 + + Xn
n30
i ,
i =1
i =1
presenten una distribucion normal, ya que suelen ser causa de multiples factores que suman
Bloque 3. Estadstica
256 / 303
Distribucion de la media muestral
Muestras grandes (n 30)
X1 + + Xn
X1
Xn
X=
=
+ +
n
n
n
De acuerdo a las propiedades de las transformaciones lineales, la media y la varianza de cada
una de estas variables son
X
X
2
E i =
y Var i = 2
n
n
n
n
con y 2 la media y la varianza de la poblacion de partida.
n
n
X
,
= N , .
n
n
n
i =1
i =1
Bloque 3. Estadstica
257 / 303
Una proporcion p poblacional puede calcularse como la media de una variable dicot
omica
(0,1). Esta variable se conoce como variable de Bernouilli B (p ), que es un caso particular de la
binomial para n = 1. Por tanto, para una muestra aleatoria de tamano n , una proporcion
identicamente distribuidas:
X1 + + Xn
X1
Xn
p=X =
=
+ +
, con Xi B (p )
n
n
n
y con media y varianza
Xi
p
=
n
n
Var
p (1 p )
Xi
=
n
n2
p N
Bloque 3. Estadstica
n
i =1
p
,
n
n
i =1
p (1 p )
= N p ,
p (1 p )
258 / 303
Estimador y estimacion
Los estadsticos muestrales pueden utilizarse para aproximar los parametros de la poblacion, y
= F (X1 , . . . , Xn ).
Dada una muestra concreta (x1 , . . . , xn ), el valor del estimador aplicado a ella se conoce como
estimacion
0 = F (x1 , . . . , xn ).
Por ser una funcion de la variable aleatoria muestral, un estimador es, a su vez, una variable
Mientras que el estimador es una funcion que es unica, la estimacion no es unica, sino que
Bloque 3. Estadstica
259 / 303
Estimador y estimacion
Parametro poblacional
Distribucion de la poblacion
Estimador
(X1 , . . . , Xn )
= F (X1 , . . . , Xn )
Muestra de tamano n
Estimacion
(x1 , . . . , xn )
0 = F (x1 , . . . , xn )
Bloque 3. Estadstica
260 / 303
Estimador y estimacion
Ejemplo
Supongase que se quiere saber la proporcion p de fumadores en una ciudad. En ese caso, la
variable dicot
omica que mide si una persona fuma (1) o no (0), sigue una distribucion de
Bernouilli B (p ).
Si se toma una muestra aleatoria de tamano 5, (X1 , X2 , X3 , X4 , X5 ), de esta poblacion, se
fumadores en la poblacion:
5
Xi
p = i =1
5
Este estimador es una variable aleatoria que se distribuye
p (1 p )
1
p B p ,
n
n
(1, 0, 0, 1, 1)
(1, 0, 0, 0, 0)
(0, 1, 0, 0, 1)
Bloque 3. Estadstica
3/5
1/5
2/5
261 / 303
Tipos de estimacion
Estimacion por intervalos : Se utilizan dos estimadores que proporcionan los extremos de un
intervalo dentro del cual se cree que est el verdadero valor del parametro
a
Estimacion puntual
Bloque 3. Estadstica
l1
l2
262 / 303
Estimacion puntual
La estimacion puntual utiliza un unico estimador para estimar el valor del parametro
desconocido de la poblacion.
En teora pueden utilizarse distintos estimadores para estimar un mismo parametro. Por
utilizado otros posibles estimadores ademas de la proporcion muestral, como pueden ser:
1 =
X1 X2 X3 X4 X5
X1 + X5
2 =
2
3 = X1
Cual es el mejor estimador?
Bloque 3. Estadstica
263 / 303
El estimador que se suele utilizar para estimar la media poblacional es la media muestral.
Para muestras de tamano n resulta la siguiente variable aleatoria:
X1 + + Xn
X=
n
Si la poblacion de partida tiene media y varianza 2 se cumple
E (X ) = y Var (X ) =
n
As pues, la media muestral es un estimador insesgado, y como su varianza disminuye a
Bloque 3. Estadstica
264 / 303
S2 =
n
i =1 (Xi
X )2
E (S 2 ) =
n1 2
.
n
No obstante, resulta sencillo corregir este sesgo para llegar a un estimador insesgado:
muestral como
n
(Xi X )2
n
=
S 2 = i =1
S2.
n1
n1
Bloque 3. Estadstica
265 / 303
Estimacion por intervalos
Error
[
l1
Bloque 3. Estadstica
l2
266 / 303
Intervalos de conanza
La estimacion por intervalos trata de construir a partir de la muestra un intervalo dentro del cual
se supone que se encuentra el parametro a estimar con un cierto grado de conanza. Para ello
se utilizan dos estimadores, uno para el lmite inferior del intervalo y otro para el superior.
cumple
P (i (X1 , . . . , Xn ) s (X1 , . . . , Xn )) = 1 .
l
l
Bloque 3. Estadstica
267 / 303
Nivel de conanza
Un intervalo de conanza nunca garantiza con absoluta certeza que el parametro se encuentra
dentro el.
Tampoco se puede decir que la probabilidad de que el parametro est dentro del intervalo es
e
1 , ya que una vez calculado el intervalo, las variables aleatorias que determinan sus
extremos han tomado un valor concreto y ya no tiene sentido hablar de probabilidad, es decir,
o el parametro est dentro, o est fuera, pero con absoluta certeza.
a
a
Lo que si se deduce de la denicion es que el (1 ) % de los intervalos correspondientes a
las todas las posibles muestras aleatorias, contendran al parametro. Es por eso que se habla
de conanza y no de probabilidad.
Para que un intervalo sea util su nivel de conanza debe ser alto:
1 = 0,90 o = 0,10
1 = 0,95 o = 0,05
1 = 0,99 o = 0,01
Bloque 3. Estadstica
268 / 303
Nivel de conanza
Teoricamente, de cada 100 intervalos para estimar un parametro con nivel de conanza
Intervalo de conanza
20
40
60
80
100
N. de muestra
Bloque 3. Estadstica
269 / 303
Error o imprecision de un intervalo
A = ls li .
Imprecision
l1
l2
Bloque 3. Estadstica
270 / 303
La dispersion de la poblacion. Cuanto mas dispersa sea, menos preciso sera el intervalo.
El nivel de conanza. Cuanto mayor sea el nivel de conanza, menos preciso sera el
intervalo.
El tamano muestral. Cuanto mayor sea el tamano muestral, mas preciso sera el intervalo.
Si la conanza y la precision est renidas, como se puede ganar precision sin perder
an
conanza?
Bloque 3. Estadstica
271 / 303
Calculo de los intervalos de conanza
Habitualmente, para calcular un intervalo de conanza se suele partir de un estimador puntual
del que se conoce su distribucion muestral.
A partir de este estimador se calculan los extremos del intervalo sobre su distribucion,
buscando los valores que dejan encerrada una probabilidad 1 . Estos valores suelen
tomarse de manera simetrica, de manera que el extremo inferior deje una probabilidad
Densidad f (x )
0.0
/2
/2
li
ls
Bloque 3. Estadstica
272 / 303
Intervalos de conanza para una poblacion
Dada una muestra, sean n su tamano, x su media, S 2 su cuasivarianza, S su cuasidesviacion
y p su proporcion.
Para la media de una distribucion normal N (, )
Varianza
Tamano de muestras
Conocida
Cualquiera
Desconocida
Pequenas (n 30)
Intervalo
X z/2 , X + z/2
n
n
S
S
X z/2 , X + z/2
n
n
S
S
X t/2,n1 , X + t/2,n1
n
n
(n1)S 2 (n1)S 2
,
2 n1 2
/2,
1/2,n1
p (1 )
p
,p
n
x
n,x
Bloque 3. Estadstica
+ z/2
+ z/2
p (1 )
p
n
x
n
273 / 303
Tamano
Semejanza
Intervalo
(de varianzas)
Conocida
Desconocida
Cualquiera
Cualesquiera
Grandes
(X X ) z
1 2
/2
(X X ) z
1 2
/2
Cualesquiera
Pequenas
(n1 n2 )
1
1
n1
n2
S1
S2
(X X ) t
1 2
+ 2
/2,f
n1
n2
Iguales
Siendo Sp =
Distintas
2
2
(n1 1)S1 + (n2 1)S2
n1 + n2 2
2
S1
n1
1
n1 +1
Bloque 3. Estadstica
2
2
n1
n2
2
2
S1
S2
n1
n2
2
1
2
S1
n1
2
S2
n2
1
n2 +1
2
S2
n2
274 / 303
2
1
2
2
2
2
S1
S1
2
2
S2
S2
1
2
1
2
(p1 p2 ) z/2
Bloque 3. Estadstica
p1 (1 p1 )
p2 (1 p2 )
+
, (p1 p2 ) + z/2
n1
n2
p1 (1 p1 )
p2 (1 p2 )
+
n1
n2
275 / 303
Contraste de hipotesis
Contraste de hipotesis
Pruebas de conformidad
Bloque 3. Estadstica
276 / 303
Hipotesis estadstica
es mayor del 50 %.
Bloque 3. Estadstica
277 / 303
Contraste de hipotesis
En general nunca se sabra con absoluta certeza si una hipotesis estadstica es cierta o falsa,
ya que para ello habra que estudiar a todos los individuos de la poblacion.
Para comprobar la veracidad o falsedad de estas hipotesis hay que contrastarlas con los
resultados empricos obtenidos de las muestras. Si los resultados observados en las muestras
coinciden, dentro de un margen de error admisible, con lo que cabra esperar en caso de que
la hipotesis fuese cierta, la hipotesis se aceptara como verdadera, mientras que en caso
contrario se rechazara como falsa y se buscaran nuevas hipotesis capaces de explicar los
datos observados.
Como las muestras se obtienen aleatoriamente, la decision de aceptar o rechazar una
Bloque 3. Estadstica
278 / 303
Tipos de contrastes de hipotesis
la distribucion de la poblacion.
Por ejemplo, ver si las notas de un grupo de alumnos siguen una distribucion normal.
parametros de la poblacion.
variables de la poblacion.
Por ejemplo, ver si existe relacion entre la notas de dos asignaturas diferentes.
pruebas parametricas.
Bloque 3. Estadstica
279 / 303
En la mayora de los casos un contraste supone tomar una decision entre dos hipotesis
antagonistas:
Hipotesis nula Es la hipotesis conservadora, ya que se mantendra mientras que los datos de
Bloque 3. Estadstica
280 / 303
H0 :
H1 :
Inocente
Culpable
Bloque 3. Estadstica
281 / 303
En tal caso, la hipotesis nula siempre asigna al parametro un valor concreto, mientras que la
alternativa suele ser una hipotesis abierta que, aunque opuesta a la hipotesis nula, no ja el
Bilateral
H0 : = 0
H1 : 0
Bloque 3. Estadstica
Unilateral de menor
H0 : = 0
H1 : < 0
Unilateral de mayor
H0 : = 0
H1 : > 0
282 / 303
Eleccion del tipo de contraste
Ejemplo
Supongase que existen sospechas de que en una poblacion hay menos hombres que mujeres.
Que tipo de contraste debera plantearse para validar o refutar esta sospecha?
etrico.
lo que se trata de un contraste param
H0 :
H1 :
Bloque 3. Estadstica
p = 0,5,
p < 0,5.
283 / 303
observe en la muestra.
La decision se tomara segun el valor que presente algun estadstico de la muestra relacionado
debe ser conocida suponiendo cierta la hipotesis nula y una vez jado el tamano de la
Para cada muestra, el estadstico dara una estimacion a partir de la cual se tomara la decision:
La logica que gua la decision es la de mantener la hipotesis nula a no ser que en la muestra
haya pruebas contundentes de su falsedad. Siguiendo con el smil del juicio, se tratara de
Bloque 3. Estadstica
284 / 303
Ejemplo
H0 :
H1 :
p = 0,5,
p < 0,5.
Si para resolver el contraste se toma una muestra aleatoria de 10 personas, podra tomarse
Suponiendo cierta la hipotesis nula, el estadstico del contraste seguira una distribucion
binomial X B (10, 0,5), de manera que el numero esperado de hombres en la muestra sera
5.
As pues, es logico aceptar la hipotesis nula si en la muestra se obtiene un numero de
hombres proximo a 5 y rechazarla cuando el numero de hombres sea muy inferior a 5. Pero,
donde poner el lmite entre los valores X que lleven a la aceptacion y los que lleven al
rechazo?
Bloque 3. Estadstica
285 / 303
Regiones de aceptacion y de rechazo
Una vez elegido el estadstico del contraste, lo siguiente es decidir para que valores de este
estadstico se decidira aceptar la hipotesis nula y para que valores se rechazara. Esto divide
Region de aceptacion : Es el conjunto de valores del estadstico del contraste a partir de los
Region de rechazo : Es el conjunto de valores del estadstico del contraste a partir de los
Bloque 3. Estadstica
286 / 303
Contraste bilateral H0 : = 0
Region de
rechazo
H1 :
0 .
Region de aceptacion
Region de
rechazo
0
Contraste unilateral de menor
Region de
rechazo
H0 : = 0
H1 : < 0 .
Region de aceptacion
H0 : = 0
H1 : > 0 .
Region de aceptacion
Region de
rechazo
Bloque 3. Estadstica
287 / 303
Regiones de aceptacion y de rechazo
Ejemplo
Siguiendo con el ejemplo del contraste sobre la proporcion de hombres de una poblacion
H0 :
H1 :
p = 0,5,
p < 0,5.
Como el estadstico del contraste tena una distribucion binomial X B (10, 0,5) suponiendo
cierta la hipotesis nula, su recorrido sera de 0 a 10 y su valor esperado 5, por lo que, al tratarse
de un contraste unilateral de menor, la region de rechazo quedara por debajo del 5. Pero,
Region de
rechazo
0
Region de aceptacion
10
Bloque 3. Estadstica
288 / 303
Errores en un contraste de hipotesis
Hemos visto que un contraste de hipotesis se realiza mediante una regla de decision que
permite aceptar o rechazar la hipotesis nula dependiendo del valor que tome el estadstico del
contraste.
Al nal el contraste se resuelve tomando una decision de acuerdo a esta regla. El problema es
que nunca se conocera con absoluta certeza la veracidad o falsedad de una hipotesis, de
modo que al aceptarla o rechazarla es posible que se est tomando una decision equivocada.
e
Los errores que se pueden cometer en un contraste de hipotesis son de dos tipos:
Error de tipo I. Se comete cuando se rechaza la hipotesis nula siendo esta verdadera.
Error de tipo II. Se comete cuando se acepta la hipotesis nula siendo esta falsa.
Bloque 3. Estadstica
289 / 303
Riesgos de los errores de un contraste de hipotesis
Denicion (Riesgos y )
En un contraste de hipotesis, se dene el riesgo como la probabilidad de cometer un error de
tipo I, es decir,
= P (Rechazar H0 /H0 )
y se dene el riesgo como la probabilidad de cometer un error de tipo II, es decir,
= P (Aceptar H0 /H1 )
Decision
Aceptar H0
Rechazar H0
Bloque 3. Estadstica
Hipotesis verdadera
H0
H1
Decision correcta
Error de tipo II
1
= P (Aceptar H0 /H1 )
Error de tipo I
Decision correcta
= P (Rechazar H0 /H0 )
1
290 / 303
Interpretacion del riesgo
En principio, puesto que esta metodologa favorece a la hipotesis nula, el error del tipo I suele
ser mas grave que el error del tipo II, y por tanto, el riesgo suele jarse a niveles bajos de
con un riesgo = 0,05, es erroneo decir 5 de cada 100 veces nos equivocaremos, ya que esto
Tampoco tiene sentido hablar de la probabilidad de haberse equivocado una vez tomada una
decision a partir de una muestra concreta, pues en tal caso, si se ha tomado la decision
probabilidad de error es 1.
Bloque 3. Estadstica
291 / 303
Contraste unilateral
Contraste bilateral
f ()
/2
Rechazo
/2
/2
Aceptacion
Bloque 3. Estadstica
Rechazo
1/2
f ()
Aceptacion
Rechazo
1/2
292 / 303
estadstico del contraste sigue una distribucion binomial X B (10, 0,5), si se decide rechazar
Region de
rechazo
0
Bloque 3. Estadstica
Region de aceptacion
10
293 / 303
p -valor de un contraste de hipotesis
En general, siempre que la estimacion del estadstico caiga dentro de la region de rechazo,
Por este motivo, al realizar un contraste, tambien se calcula la probabilidad de obtener una
discrepancia mayor o igual a la observada entre la estimacion del estadstico del contraste y su
Denicion (p -valor)
Bloque 3. Estadstica
2P (X x0 /H0 )
P (X x0 /H0 )
P (X x0 /H0 )
294 / 303
Realizacion del contraste con el p -valor
En cierto modo, el p -valor expresa la conanza que se tiene al tomar la decision de rechazar la
hipotesis nula. Cuanto mas proximo est el p -valor a 1, mayor conanza existe al aceptar la
e
hipotesis nula, y cuanto mas proximo est a 0, mayor conanza hay al rechazarla.
e
Una vez jado el riesgo , la regla de decision para realizar un contraste tambien puede
Rechazar H0 ,
Aceptar H0 ,
De este modo, el p -valor nos da informacion de para que niveles de signicacion puede
Bloque 3. Estadstica
295 / 303
p = P (X 1) = 0,0107,
mientras que si en la muestra se observan 0 hombres, entonces el p -valor sera
p = P (X 0) = 0,001.
En el primer caso se rechazara la hipotesis nula para un riesgo = 0,05, pero no podra
rechazarse par un riesgo = 0,01, mientas que en el segundo caso tambien se rechazara
Bloque 3. Estadstica
296 / 303
Bloque 3. Estadstica
297 / 303
Varianza
Muestras
Conocida
Desconocida
Grandes
Desconocida
Pequenas
(n>30)
(n30)
H0 : = 0
H : <
1
0
X < 0 z
H0 : = 0
H :
1
0
|X 0 | > z/2
X < 0 z
|X 0 | > z/2
X < 0 t,n1
H0 : = 0
H : >
1
0
X > 0 + z
X > 0 + z
|X 0 | > t/2,n1
X > 0 + t,n1
H0 : 2 = 2
H : 2 < 2
1
0
(n1)S 2
2
0
Bloque 3. Estadstica
< 2 n1
1,
(n1)S 2
2
0
H0 : 2 = 2
H : 2 2
1
0
, 2 n1
2
/2,
1/2,n1
H0 : 2 = 2
H : 2 > 2
1
0
(n1)S 2
2
0
> 2 n1
,
298 / 303
H :
2
1
1
Varianza
Tamano
Semejanza
Intervalo
(de varianzas)
Conocida
Desconocida
Cualquiera
Grandes
Cualesquiera
Cualesquiera
(n1 n2 )
Siendo Sp =
n1
Distintas
+
+
2
2
(n1 1)S1 + (n2 1)S2
n1 + n2 2
n1
n2
2
S2
n2
2
S2
n2
2
S1
n1
1
n1 +1
2
S1
2
2
1
1
+
n1
n2
Bloque 3. Estadstica
n1
2
S1
Iguales
Pequenas
2
1
2
S1
n1
2
S2
n2
1
n2 +1
2
S2
n2
2
299 / 303
H0 : 1 = 2
H : <
1
1
2
Varianza
Tamano
Semejanza
Intervalo
(de varianzas)
Conocida
Desconocida
Cualquiera
Grandes
Pequenas
Cualesquiera
Cualesquiera
(n1 n2 )
Bloque 3. Estadstica
X1 < X2 z
2
1
n1
2
S1
n1
Iguales
Distintas
X1 < X2 t,f
+
+
2
S1
n1
2
2
n2
2
S2
n2
1
1
+
n1
n2
X1 < X2 z
2
S2
n2
300 / 303
H0 : 1 = 2
H : >
1
1
2
Varianza
Tamano
Semejanza
Intervalo
(de varianzas)
Conocida
Desconocida
Cualquiera
Grandes
Pequenas
Cualesquiera
Cualesquiera
Bloque 3. Estadstica
X1 > X2 + z
(n1 n2 )
2
1
n1
2
S1
n1
Iguales
Distintas
X1 > X2 + t,f
+
+
2
S1
n1
2
2
n2
2
S2
n2
1
1
+
n1
n2
X1 > X2 + z
2
S2
n2
301 / 303
2
1
2
2
N (2 , 2 )
H0 : 2 = 2
1
2
H : 2 < 2
1
1
2
2
S1
2
S2
2
S1
2
S2
H0 : 2 = 2
1
2
H : 2 2
1
1
2
H0 : 2 = 2
1
2
H : 2 > 2
1
1
2
2
S1
2
S2
H0 : = 0
H : <
1
0
x < 0 z
Bloque 3. Estadstica
0
n
H0 : = 0
H :
1
0
|x 0 | > z/2
0
n
H0 : = 0
H : >
1
0
x > 0 + z
0
n
302 / 303
H0 : p = p 0
H : p < p
1
0
p < p0 z
p0 (1p0 )
n
H0 : p = p 0
H : p p
1
0
|p p0 | > z/2
p0 (1p0 )
n
H0 : p = p0
H : p > p
1
0
p > p0 + z
p0 (1p0 )
n
B (1, p2 )
H0 : p 1 = p 2
H : p < p
1
1
2
p1 < p2 z
Siendo p =
p (1 )
p
n1 n2
n1 +n2
H0 : p1 = p2
H : p
p2
1
1
p (1 )
p
n1 n2
n1 +n2
H0 : p 1 = p 2
H : p > p
1
1
2
p1 > p2 + z
p (1)
p
n1 n2
n1 +n2
n1 p1 + n2 p2
n1 + n2
Bloque 3. Estadstica
303 / 303