Apunte1 PDF

Resumen Prob.
y Estadística Juan Pablo Colagrande Martí
Varianza y Desviación Estándar:
Varianza y Desviación Estándar muestrales:

n
∑ (x i − x)
2
s2 = i =1
n −1
La varianza es la suma de los cuadrados de las desviaciones respecto de la media de
cada dato, dividido la cantidad de muestras menos uno. El cuadrado elimina las
cancelaciones por signos opuestos.
La Desviación Estándar es la raíz cuadrada positiva de la varianza.
n
∑ (x
2
− x)
s= i =1
i
n −1
xσ n −1
Como el cálculo manual de la varianza es tedioso, existe un método abreviado más

práctico:
2
 n 
n
 ∑ xi 
∑ xi −  
2 i =1
n
s 2 = i =1
n −1
Varianza y Desviación Estándar poblacionales:
∑ (x
2
i − µ)
σ2 = i =1
∑ (x
2
− µ)
σ= i =1
i
N
xσ n
Coeficiente de Variación:
s
cv =
x
El coeficiente de variación es un número que representa a la desviación estándar como

fracción de la media. Sirve para comparar la variabilidad de distintas muestras, incluso
con valores y unidades de medida diferentes.
Medidas de posición:
Cuartiles:
Son los puntos intermedios que resultan de dividir un conjunto ordenado de

observaciones en 4 partes iguales. El primer cuartil ( q1 ) es un valor que tiene
aproximadamente la cuarta parte de las observaciones iguales o por debajo de él y las
tres cuartas partes restantes iguales o por encima. El segundo cuartil ( q 2 ) corresponde a
U.T.N. F.R.M. -2- Probabilidad y Estadística

Resumen Prob. y Estadística Juan Pablo Colagrande Martí
la mediana. El tercer cuartil ( q3 ) tiene aproximadamente las tres cuartas partes de las
observaciones iguales o por debajo de él y la cuarta parte restante iguales o por encima.
Si más de un valor satisface la definición de un cuartil, se utiliza el promedio de ellos
como cuartil.
Rango Intercuartílico:
RIC = q3 − q1
El rango intercuartílico es menos sensible a los valores extremos que el rango
total.
Percentiles:
El 100k − ésimo percentil p k es un valor tal, que al menos el 100k % de las

observaciones están en el valor o por debajo de él, y al menos el 100(1 − k )% están en
el valor o por encima de él.
Procedimiento de cálculo:
1) Encontrar i = n.k . Si nk no es un entero, entonces i es el siguiente entero más
grande. Si nk es entero, i es igual a nk + 0,5 .
2) El percentil p k será el valor de la muestra ubicada en la posición i (si la
posición tiene una parte decimal de 5 décimos, el percentil es el promedio entre
x(nk ) y x(nk +1) )
Correspondencia:
q1 = p 0, 25 , q 2 = p 0,50 = ~
x , q 3 = p 0,75
Deciles:
Son los puntos intermedios que resultan de dividir un conjunto ordenado de

observaciones en 10 partes iguales.
Correspondencia:
d 1 = p 0,10 , d 2 = p 0, 20 ,…, d 5 = p 0,50 = q 2 = ~
x ,…, d 9 = p 0,90
Representación gráfica:
Diagrama de puntos:
El diagrama de puntos es una gráfica muy útil para visualizar un conjunto pequeño de
datos; por ejemplo, de unas 20 observaciones. La gráfica permite distinguir a simple
vista la tendencia central de los datos y su variabilidad.
16,0 16,5 17,0 17,5 18,0
Diagrama de tallo y hoja:
El diagrama de tallo y hojas es una buena manera de obtener una presentación visual
informativa del conjunto de datos donde cada número está formado al menos por dos

dígitos. Para construirlo, los números se dividen en dos partes: un tallo, formado por
uno o más de los dígitos principales, y una hoja, la cual contiene el resto de los dígitos.
En general debe escogerse un número relativamente pequeño de tallos en comparación
con la cantidad de observaciones. Lo usual son entre 5 y 20 tallos.
Tallo Hoja Frecuencia
12 103 3
13 413535 6
14 29583169 8
15 471340886808 12
16 3073050879 10
17 8544162106 10
18 0361410 7
19 960934 6
Distribución de frecuencias:
La distribución de frecuencias ofrece un resumen más compacto de los datos.

Primero debe dividirse el rango de los datos en intervalos llamados intervalos de clase
o celdas, los cuales deben tener el mismo ancho cuando sea posible. El número de
clases es arbitrario, aunque es una buena opción aproximarlo a la raíz cuadrada de la
cantidad de observaciones.
Frecuencia
Intervalo de Frecuencia relativa
clase Conteo Frecuencia relativa acumulada
110 ≤ x < 130 ||||| | 6 0,1375 0,1375
130 ≤ x < 150 ||||| ||||| |||| 14 0,1750 0,3125
150 ≤ x < 170 ||||| ||||| ||||| ||||| || 22 0,2750 0,5875
170 ≤ x < 190 ||||| ||||| ||||| || 17 0,2125 0,8
190 ≤ x < 210 ||||| ||||| 10 0,2 1
Histograma:
Frecuencia
20
15
10
5
Valor
120 140 160 180 200 de la
Variable
Ojiva:
Frecuencia
70
65
60
55
50
45
40
35
30
25
20
15
10
5 Valor de la
120 140 160 180 200 Variable

Gráfico de caja:
Los límites de la caja son el primer y el tercer cuartil. La línea media de la caja es la
mediana.
Los límites del bigote son:

b1 = q1 − 1,5.RIC y b2 = q 3 + 1,5.RIC
Luego:
l1 = q1 − 3.RIC y l 2 = q 3 + 3.RIC
Los valores entre b1 y l1 y b2 y l 2 son valores atípicos y se representan con puntos

rellenos.
Los valores más allá de l1 o l 2 , son valores atípicos extremos y se representan con
puntos vacíos.
b1 q1 q2 q3 b2
120 140 160 180 200
UNIDAD 2: Probabilidad
Espacio muestral:
Observación: Cualquier registro de información, ya sea numérico o categórico

Experimento: Cualquier proceso que genere un conjunto de datos.
ESPACIO MUESTRAL: Es un conjunto de todos los resultados posibles de un experimento
estadístico. Se representa con la letra S
Punto muestral: Es cada resultado en un espacio muestral.
Eventos:
EVENTO: Es un subconjunto en un espacio muestral.
Complemento:
El complemento de un evento A con respecto a S es el subconjunto de todos los

elementos de S que no están en A .
Representamos el complemento de A con A′ o A
Intersección:
La intersección de dos eventos A y B , denotada mediante el símbolo A ∩ B , es el

evento que contiene a todos los elementos que son comunes a A y a B

Unión:
La unión de dos eventos A y B , denotada mediante el símbolo A ∪ B , es el evento

que contiene a todos los elementos que pertenecen a A o a B o a ambos.
Eventos mutuamente excluyentes:
Dos eventos A y B son mutuamente excluyentes o disjuntos si A ∩ B = Ο

/ ; es
decir, si A y B no tienen elementos en común.
Propiedades:
1. A∩Ο / =Ο/
2. A∪Ο / =A
3. A ∩ A′ = Ο /
4. A ∪ A′ = S
5. S′ = Ο /
6. Ο/′=S
′
7. ( A′) = Ο/
′
8. ( A ∩ B ) = A′ ∪ B ′
′
9. ( A ∪ B ) = A′ ∩ B ′
Conteo de puntos de la muestra:

Regla de la multiplicación:
Si una operación se puede llevar a cabo de n1 formas, y si para cada una de éstas se
puede realizar una segunda operación en n 2 formas, entonces las dos operaciones se
pueden ejecutar en n1 .n 2 formas.
Permutaciones:
Una permutación es un arreglo de todo o parte de un conjunto de objetos en un espacio

muestral.
El número de permutaciones de n objetos distintos es n !
El número de permutaciones de n objetos distintos tomados de r a la vez es:
n Pr =
n!
(n − r )!
nPr
El número de combinaciones de n objetos distintos tomados de r a la vez es:
n
n
C r =   =
n!
 r  r !.(n − r )!
nCr

Probabilidad de un evento:
La probabilidad de un evento A es la suma de los pesos de todos los puntos muestrales en A .

Por tanto:
0 ≤ P ( A) ≤ 1 P(Ο
/ )= 0 P (S ) = 1
Si un experimento puede tener como resultado cualquiera de N diferentes resultados

igualmente probables, y si exactamente n de éstos resultados corresponden al evento A ,
entonces la probabilidad del evento A es:
n
P ( A) =
N
Reglas aditivas:
Si A y B son cualesquiera dos eventos, entonces:

P ( A ∪ B ) = P ( A ) + P (B ) − P ( A ∩ B )
Si A y B son dos eventos mutuamente excluyentes, entonces:

P ( A ∪ B ) = P ( A) + P ( B )
Para tres eventos A , B y C :

P( A ∪ B ∪ C ) = P( A) + P(B ) + P(C ) − P( A ∩ B ) − P( A ∩ C ) − P(B ∩ C ) + P( A ∩ B ∩ C )
Probabilidad condicional:
La probabilidad de que un evento B ocurra, cuando se sabe que ya ocurrió algún evento A se
llama probabilidad condicional.
La probabilidad condicional de B , dado A es:

P (B ∩ A )
P (B | A) = si P ( A) > 0
P( A)
Reglas multiplicativas:
Si en un experimento pueden ocurrir los eventos A y B , entonces:

P( A ∩ B ) = P( A).P(B | A)
Para tres eventos A , B y C :

P( A ∩ B ∩ C ) = P( A).P(B | A).P(B | A ∩ C )
Eventos independientes:
Dos eventos A y B son independientes si y sólo si cumplen ALGUNA de las siguientes

condiciones:
1. P(B | A) = P(B ) y P( A | B ) = P( A)
2. P( A ∩ B ) = P( A).P(B )

Teorema de la probabilidad total:
Si los eventos B1 , B2 , L , Bk constituyen una partición del espacio muestral S tal que
P (Bi ) ≠ 0 para i = 1, 2, L , k , entonces para cualquier evento A de S :
k k
P ( A) = ∑ P(Bi ∩ A) = ∑ P (Bi ).P( A | Bi )
i =1 i =1
Partición del espacio muestral S

B3
B2
B1
B4
Bk
Bn
Regla de Bayes:
Si los eventos B1 , B2 , L , Bk constituyen una partición del espacio muestral S donde

P (Bi ) ≠ 0 para i = 1, 2, L , k , entonces para cualquier evento A en S tal que P( A) ≠ 0 :
P ( Br ∩ A ) P (Br ).P ( A | Br )
P (B r | A) = k
= k
para r = 1,2, L , k
∑ P (B
i =1
i ∩ A) ∑ P(B ).P( A | B )
i =1
i i
UNIDAD 3: Variables aleatorias y distribuciones de probabilidad

Concepto de variable aleatoria:
Una variable aleatoria es una función que asocia un número real con cada elemento del
espacio muestral.
Utilizaremos la letra mayúscula X para denotar una variable aleatoria, y su correspondiente
minúscula x para uno de sus valores. Cada valor posible de X representa un evento que es un
subconjunto del espacio muestral para el experimento dado.
Si un espacio muestral contiene un número finito de posibilidades, o infinito numerable, se

llama espacio muestral discreto.
En cambio, si contiene un número infinito no numerable de posibilidades, se llama espacio
muestral continuo.
Distribuciones discretas de probabilidad:
Para la variable aleatoria discreta X , f ( x ) es una función de probabilidad, función masa

de probabilidad o distribución de probabilidad, si se cumple para todo x que:
1. f ( x ) ≥ 0

2. ∑ f (x ) = 1
x
3. f ( x ) = P( X = x )
La distribución acumulada F ( x ) de una variable aleatoria discreta X , con distribución de

probabilidad f ( x ) es:
F ( x ) = P ( X ≤ x ) = ∑ f (t ) para − ∞ < x < ∞
t≤x
Gráficas de la distribución de probabilidad y de la distribución acumulada
F (x )
f (x )
0 1 2 3 4 5 x
0 1 2 3 4 5 x
Distribuciones continuas de probabilidad:
Una variable aleatoria continua tiene una probabilidad cero de tomar exactamente cualquiera
de sus valores. Trataremos el cálculo de probabilidades para varios intervalos de variables
aleatorias, no importa si incluimos o no alguno de los extremos.
Para la variable aleatoria continua X , f ( x ) es una función densidad de probabilidad o

función densidad, si se cumple para todo x ∈ R que:
1. f ( x ) ≥ 0
∞
2. ∫
−∞
f ( x ).dx = 1
b
3. P (a < X < b ) = ∫ f (x ).dx
a
Entonces ahora, gráficamente, la probabilidad de un intervalo continuo es el área bajo la curva

de la función densidad.
La distribución acumulada F ( x ) de una variable aleatoria continua X , con función densidad

f ( x ) es:
x
F ( x ) = P( X ≤ x ) = ∫ f (t ).dt para − ∞ < x < ∞
−∞
De aquí concluimos que:

dF ( x )
P(a < X < b ) = F (b ) − F (a ) ⇒ f ( x ) =
dx
UNIDAD 4: Esperanza matemática

Media de una variable aleatoria:
Sea X una variable aleatoria con distribución de probabilidad f ( x ) , la media o valor

esperado de X es para:
X discreta:
µ = E ( X ) = ∑ x. f (x )
x
X continua:
∞
µ = E ( X ) = ∫ x. f ( x ).dx
−∞
La media o valor esperado es el resultado promedio que podemos esperar del experimento a
largo plazo.
Generalizando para g ( X ) , función de variable aleatoria:
X discreta:
µ g ( X ) = E [g ( X )] = ∑ g ( x ). f ( x )
X continua:
∞
µ g ( X ) = E[g ( X )] = ∫ g ( x ). f ( x ).dx
−∞
Varianza:
Sea X una variable aleatoria con distribución de probabilidad f ( x ) y media µ , la varianza

de X es para:
X discreta:
[ ]
σ 2 = E ( X − µ ) 2 = ∑ ( x − µ )2 . f ( x )
x
X continua:
[
σ 2 = E ( X − µ )2 = ∫ ] ∞
−∞
(x − µ )2 . f (x ).dx
La raíz cuadrada positiva de la varianza, es la desviación estándar σ de X .
Fórmula alternativa de cálculo:

σ 2 = E (X 2 ) − µ 2
También se pueden generalizar las fórmulas anteriores para g ( X ) función de variable aleatoria,
reemplazándola por la variable.
U.T.N. F.R.M. - 10 - Probabilidad y Estadística

Propiedades de la media y la varianza:
1. E (c ) = c c = ctte
2. E (a. X ) = a.E ( X ) a = ctte
3. E [g ( X ) ± h( X )] = E [g ( X )] ± E [h( X )]
1. σ 2 (c ) = 0 c = ctte
2. σ 2
(a. X ) = a 2 .σ 2 ( X ) a = ctte
3. σ 2 [g ( X ) ± h( X )] = σ 2 [g ( X )] + σ 2 [h( X )]
Teorema de Chebyshev:
La probabilidad de que cualquier variable aleatoria X tome un valor dentro de k desviaciones

estándar de la media es al menos 1 − 1 k 2 , es decir:
1
P (µ − k .σ < X < µ + k .σ ) ≥ 1 −
k2
UNIDAD 5: Distribuciones de probabilidad discreta

Distribución binomial:
Un experimento consiste en pruebas repetidas, cada una con dos posibles resultados que se
pueden etiquetar como éxito o fracaso.
El proceso de Bernoulli:
Se habla de un proceso de Bernoulli cuando:
1. El experimento consiste en n pruebas que se repiten.
2. Cada prueba tiene dos resultados posibles: éxito o fracaso.
3. La probabilidad de un éxito ( p ) permanece constante en cada prueba.
4. Las pruebas que se repiten son independientes.
El número X de éxitos en n experimentos de Bernoulli se denomina variable aleatoria

binomial. La distribución de probabilidad de ésta variable aleatoria discreta se llama
distribución binomial, y sus valores se denotarán como b( x; n, p ) , pues dependen del número
de pruebas y de la probabilidad de éxito en cada prueba dada.
Un experimento de Bernoulli puede tener como resultado un éxito con probabilidad p y un

fracaso con probabilidad q = 1 − p . Entonces la distribución de probabilidad de la variable
aleatoria binomial X (el número de éxitos en n pruebas independientes) es:
n
b( x; n, p ) =  . p x .q n − x x = 0,1,2, L , n
 x
La media y la varianza de la distribución binomial b( x; n, p ) son:

µ = n. p y σ 2 = n. p.q

Distribución hipergeométrica:
En el caso de la distribución binomial, se requiere independencia entre las pruebas. Como

resultado, si se aplica la binomial a tomar muestras de un lote de artículos, el muestreo se debe
efectuar con reemplazo de cada artículo después de que se observe. Por otro lado, la
distribución hipergeométrica no requiere independencia y se basa en el muestreo que se
realiza sin reemplazo.
Experimento hipergeométrico:
1. Se selecciona sin reemplazo una muestra aleatoria de tamaño n de N artículos.
2. k de los N artículos se pueden clasificar como éxitos y N − k se clasifican como
fracasos.
El número X de éxitos de un experimento hipergeométrico se denomina variable aleatoria

hipergeométrica. La distribución de probabilidad de ésta variable aleatoria discreta se llama
distribución hipergeométrica, y sus valores se denotarán como h( x; N , n, k ) , pues dependen
del número de éxitos ( k ) en el conjunto N del que seleccionamos n artículos.
La distribución de probabilidad de la variable aleatoria hipergeométrica X (el número de éxitos

de una muestra aleatoria de tamaño n que se selecciona de N artículos de los que k se
denominan éxito y N − k fracaso) es:
k  N − k 
 . 
 x   n − x 
h( x; N , n, k ) = x = 0,1,2, L , n
N
 
n
La media y la varianza de la distribución hipergeométrica h( x; N , n, k ) son:

n.k N −n k  k
µ= y σ2 = ⋅ n ⋅ 1 − 
N N −1 N N
Si n << N , podemos tomar la distribución de artículos de manera binomial, reemplazando en

k
su media p =
N
Distribución geométrica:
Si pruebas independientes repetidas pueden tener como resultado un éxito con probabilidad p
y un fracaso con probabilidad q = 1 − p , entonces la distribución de probabilidad de la variable
aleatoria X (el número de la prueba en el que ocurre el primer éxito) es:
g ( x; p ) = p.q x −1 x = 1,2,3,...
La media y la varianza de una variable aleatoria que sigue la distribución geométrica son:
1 1− p
µ= y σ2 =
p p2

Distribución de Poisson y proceso de Poisson:
Los experimentos que dan valores numéricos de una variable aleatoria X , que es el número de
resultados que ocurren durante un intervalo dado o en una región específica, se llaman
experimentos de Poisson. Un experimento de Poisson se deriva del proceso de Poisson y
posee las siguientes propiedades:
1. El número de resultados que ocurren en un intervalo o región específica es
independiente del número que ocurre en cualquier otro intervalo o región del espacio
disjunto. Esto quiere decir que el proceso de Poisson no tiene memoria.
2. La probabilidad de que ocurra un solo resultado durante un intervalo muy corto o en
una región pequeña es proporcional a la longitud del intervalo o al tamaño de la región
y no depende del número de resultados que ocurren fuera de éste intervalo o región.
3. La probabilidad de que ocurra más de un resultado en tal intervalo corto o que caiga en
tal región pequeña es insignificante.
El número X de resultados que ocurren durante un experimento de Poisson se llama variable

aleatoria de Poisson y su distribución de probabilidad se llama distribución de Poisson. El
número medio de resultados se calcula como µ = λ .t donde t es el tiempo o región de interés.
La distribución de probabilidad de la variable aleatoria de Poisson, que representa el número de

resultados que ocurren en un intervalo dado o región específica que se denota con t es:
e − λ .t .(λ.t )
x
p( x; λ.t ) = x = 0,1,2,....
x!
La media y la varianza de la distribución de Poisson p( x; λ.t ) tienen el valor µ = σ 2 = λ .t
Distribución de Poisson como forma limitante de la Binomial:

Sea X una variable aleatoria binomial con distribución de probabilidad b( x; n, p ) . Cuando
n → ∞ , p → 0 y µ = np permanece constante, entonces:
b( x; n, p ) → p( x; µ )
UNIDAD 6. Algunas distribuciones continuas de probabilidad

Distribución uniforme continua:
La función densidad de la variable aleatoria uniforme continua X en el intervalo [ A; B ] es:

 1
 A≤ x≤ B
f ( x; A, B ) =  B − A
 0 en cualquier otro caso
La media y la varianza de la distribución uniforme son:

2
µ=
A+ B 2 (B − A )
yσ =
2 12
Distribución normal:
La función densidad de la variable aleatoria normal X , con media µ y varianza σ 2 , es:

2
1  x−µ 
1 − 
2  σ 
n( x; µ , σ ) = e
2.π .σ 2
para − ∞ < x < ∞
Una vez que se especifican µ y σ , la curva normal queda determinada por completo.
Propiedades de la curva normal:

1. La moda ocurre en el punto máximo de la curva, o sea en x = µ
2. La curva es simétrica alrededor del eje vertical x = µ
3. La curva tiene sus puntos de inflexión en x = µ ± σ , es cóncava hacia abajo dentro del
intervalo, y cóncava hacia arriba fuera de él.
4. Cuando x → ∞ , la curva tiende a cero de manera asintótica
5. El área total bajo la curva es igual a 1
Distribución normal estándar:

Como sería muy difícil calcular, e incluso tabular todos los valores de la función respecto de
cada valor de los parámetros, existe una transformación de la variable que la estandariza para
poder calcular los valores de la probabilidad con una sola tabla. Dicha transformación es la
siguiente:
x−µ
z= ´
σ
n( x; µ , σ ) = n( z;0,1)
Los valores de la distribución para la variable z están tabulados y son fáciles de encontrar.
Aproximación normal a la binomial:
Si X es una variable aleatoria binomial con media µ = n. p y varianza σ 2 = n. p.q , entonces

la forma limitante de la distribución de:
X − n. p
Z=
n. p.q
conforme n → ∞ , es la distribución normal estándar n( z;0,1) . Se puede aproximar siempre
que p no sea cercana a 0 o a 1.
Para realizar ésta aproximación, debemos tener en cuenta que el valor de X a usar, va a ser 0,5
unidades más grande o más chico que el valor discreto que estamos buscando, dependiendo de
si es el primer valor o el último del intervalo.
Ésta aproximación será buena siempre que se cumpla alguna de éstas condiciones:
que n sea muy grande
que n sea pequeño o grande, pero que p sea razonablemente cercana a ½
que np y nq sean mayores o iguales a 5
Distribución exponencial:
La variable aleatoria continua X tiene una distribución exponencial, con parámetro β , si su

función densidad está dada por:

 1 − βx
 x>0
f (x ) =  β e
 0 x≤0

donde β > 0
La media y la varianza de la distribución exponencial son:

µ = β y σ2 = β2
Relación con el proceso de Poisson:
La distribución de Poisson se utiliza para calcular cantidades de eventos en un intervalo de

tiempo, espacio, etc. La distribución exponencial se utiliza para calcular tiempos, espacios, etc.
de esos intervalos.
Ambas se relacionan en base a sus parámetros, donde:
1
λ=
β
Distribución logarítmica normal:
La variable aleatoria continua X tiene una distribución logarítmica normal si la variable

aleatoria Y = ln ( X ) tiene una distribución normal con media µ y varianza σ 2 . La función
densidad de X resulta que es:

2
[ln ( x )− µ ]
1 −
 e (2.σ )
2
f (x ) =  x≥0
2.π .σ .x
 0 x<0

La media y la varianza de la distribución logarítmica normal son:

µ +σ 2
E (x ) = e 2
y Var ( x ) = e
2
2. µ +σ
( 2
. eσ − 1 )
UNIDAD 7: Funciones de variables aleatorias. Combinaciones lineales
de variables aleatorias.
Propiedades Reproductivas:
Distribución normal:
Si X 1 , X 2 ,..., X n son variables aleatorias independientes que tienen distribuciones normales
2 2 2
con medias µ1 , µ 2 ,..., µ n y varianzas σ 1 , σ 2 ,..., σ n respectivamente, entonces la variable
aleatoria
Y = a1 . X 1 + a 2 . X 2 + L + a n . X n
tiene una distribución normal con media
µ Y = a1 .µ1 + a 2 .µ 2 + L + a n .µ n
y varianza

σ Y 2 = a1 2 .σ 1 2 + a 2 2 .σ 2 2 + L + a n 2 .σ n 2
Distribución ji cuadrada:
Si X 1 , X 2 ,..., X n son variables aleatorias mutuamente independientes que tienen,
respectivamente, distribuciones ji cuadrada con v1 , v 2 ,..., v n grados de libertad, entonces la
variable aleatoria
Y = X1 + X 2 + L + X n
tiene una distribución ji cuadrada con v = v1 + v 2 + L + v n grados de libertad.
Distribuciones normales idénticas estandarizadas:

Si X 1 , X 2 ,..., X n son variables aleatorias independientes que tienen distribuciones normales
idénticas con media µ y varianza σ 2 , entonces la variable aleatoria
2
n
X −µ
Y = ∑ i 
i =1  σ 
tiene una distribución ji cuadrada con v = n grados de libertad.
UNIDAD 8: Distribuciones fundamentales de muestreo y descripción de

datos.
Muestreo aleatorio:
Para eliminar cualquier tipo de sesgo, se realizan muestreos aleatorios.
Cualquier función de las variables aleatorias que forman una muestra aleatoria se llama
estadística.
Distribuciones muestrales:
Como una estadística es una variable aleatoria que depende sólo de la muestra observada, debe
tener una distribución de probabilidad.
La distribución de probabilidad de una estadística se llama distribución muestral.
La distribución muestral de una estadística depende del tamaño de la población, del tamaño de
las muestras y del método de elección de las muestras.
Distribuciones muestrales de medias:
Consideraremos la distribución de las medias muestrales X , en muestras de tamaño n , de una

población normal con media µ y varianza σ 2 . La media y varianza de ésta distribución
muestral de medias serán:
σ2
µX = µ y σ x2 =
n

Si la población no es normal, pero la muestra es grande ( n ≥ 30 ), la distribución de X será aún

aproximadamente normal.
Teorema del límite central:
Si X es la media de una muestra aleatoria de tamaño n tomada de una población con

media µ y varianza finita σ 2 , entonces la forma límite de la distribución de
X −µ
Z=
σ n
conforme n → ∞ , es la distribución normal estándar n( z;0,1) .
La aproximación normal para X por lo general será buena si v sin importar la forma de
la población. Si n < 30 , la aproximación es buena sólo si la población no es muy
diferente de una distribución normal. Si se sabe que la población es normal, la
distribución de X seguirá una distribución normal exacta, no importa que tan pequeño
sea el tamaño de la muestra.
Distribución muestral de la diferencia entre dos promedios:
Si se extraen al azar muestras independientes de tamaño n1 y n 2 de dos poblaciones,

2 2
discretas o continuas, con medias µ1 y µ 2 , y varianzas σ 1 y σ 2 , respectivamente,
entonces la distribución muestral de las diferencias de las medias, X 1 − X 2 está
distribuida aproximadamente de forma normal con media y varianza dadas por:
σ 12 σ 22
µ X − X = µ1 − µ 2 y σ 2 X − X = 1 2 +
1 2
n1 n2
De aquí
Z=
(X 1 − X 2 ) − (µ 1 − µ 2 )
σ 1 2 n1 + σ 2 2 n2
es aproximadamente una variable normal estándar.
Las consideraciones respecto del tamaño de las muestras y la exactitud de la

aproximación son similares a la distribución de medias.
Distribución muestral de la varianza:
Si S 2 es la varianza de una muestra aleatoria de tamaño n que se toma de una población

normal que tiene varianza σ 2 , entonces la estadística
2
χ =
(n − 1).S 2 n
=∑
( Xi − X )
2
σ2 σ2 i =1

tiene una distribución ji cuadrada con v = n − 1 grados de libertad.
Distribución t de Student:
En muchos escenarios experimentales, el conocimiento de σ ciertamente no es más razonable

que el conocimiento de la media de la población µ .
Una estadística natural a considerar para tratar con las inferencias sobre µ es
X −µ
T=
S n
Para tamaños de muestra menores que 30, es útil trabajar con ésta distribución exacta de T , ya
que para n ≥ 30 , dicha distribución no difiere mucho de la normal estándar.
UNIDAD 9: Problemas de estimación de una y dos muestras.

Inferencia estadística.
La inferencia estadística se puede dividir en dos áreas principales: estimación y prueba de

hipótesis.
Métodos clásicos de estimación:
Una estimación puntual de algún parámetro θ de la población es un solo valor θˆ de una

estadística Θ̂ . No se espera que un estimador realice la estimación del parámetro poblacional
sin error.
Estimador insesgado:
Se dice que una estadística Θ̂ es un estimador insesgado del parámetro θ si:

()
ˆ =θ
µ Θˆ =·E Θ
Varianza de un estimador puntual:
Si consideramos todos los posibles estimadores insesgados de algún parámetro θ , el de

menor varianza se llama estimador más eficiente de θ .
~
Un ejemplo es la comparación entre la media muestral X y la mediana muestral X . Se
~
puede demostrar que X es más eficiente, y por lo tanto mejor estimador de µ , que X .
Estimación por intervalo:
Es improbable que incluso el estimador insesgado más eficiente estime el parámetro

poblacional con exactitud. Hay muchas situaciones en las que es preferible determinar
un intervalo dentro del cual esperaríamos encontrar el valor del parámetro. Tal intervalo
se llama intervalo de estimación.
Existe un intervalo θˆL < θ < θˆU que se calcula a partir de la muestra seleccionada, que
se llama intervalo de confianza, para el cual:

PΘ(
ˆ <θ < Θ
L
ˆ = 1−α
U )
donde 1 − α es el coeficiente de confianza y los extremos θˆL y θˆU se denominan
límites de confianza inferior y superior.
Una sola muestra: estimación de la media.
Intervalo de confianza de µ con σ conocida:
Si x es la media de una muestra aleatoria de tamaño n de una población con varianza

σ 2 conocida, un intervalo de confianza del (1 − α ).100% para µ está dado por
σ σ
x − zα / 2 . < µ < x + zα / 2 .
n n
donde zα / 2 es el valor de z que deja un área de α / 2 a la derecha.
Si se utiliza x como una estimación de µ , podemos tener una confianza de

σ
(1 − α ).100% de que el error no excederá de zα / 2 .
n
Si se utiliza x como una estimación de µ , podemos tener (1 − α ).100% de confianza

de que el error no excederá una cantidad específica e cuando el tamaño de la muestra
es:
2
 z .σ 
n =  α /2 
 e 
Intervalo de confianza de µ con σ desconocida:
Si x y s son la media y la desviación estándar de una muestra aleatoria de tamaño n

de una población normal con varianza σ 2 , desconocida, un intervalo de confianza del
(1 − α ).100% para µ es
s s
x − tα / 2 . < µ < x + tα / 2 .
n n
donde tα / 2 es el valor de t con v = n − 1 grados de libertad, que deja un área de α / 2

a la derecha.
Error estándar de una estimación puntual.
El error estándar de un estimador es su desviación estándar.

Dos muestras: estimación de la diferencia entre dos medias.

2 2
Intervalo de confianza para µ1 − µ 2 con σ 1 y σ 2 conocidas:
Si x1 y x2 son las medias de muestras aleatorias independientes de tamaño n1 y n2 de

2 2
poblaciones con varianzas conocidas σ 1 y σ 2 , respectivamente, un intervalo de
confianza del (1 − α ).100% para µ1 − µ 2 está dado por
σ 12 σ 22 σ 12 σ 22
(x1 − x 2 ) − zα / 2 . + < µ1 − µ 2 < ( x1 − x 2 ) + zα / 2 . +
n1 n2 n1 n2
Si el intervalo contiene el valor 0, significa que los parámetros comparados no difieren

significativamente.
Intervalo de confianza para µ1 − µ 2 con σ 1 = σ 2 pero desconocidas:

2 2
Si x1 y x2 son las medias de muestras aleatorias independientes de tamaño n1 y n2 ,

respectivamente, de poblaciones aproximadamente normales con varianzas iguales pero
desconocidas, un intervalo de confianza del (1 − α ).100% para µ1 − µ 2 está dado por
1 1 1 1
(x1 − x 2 ) − tα / 2 .s p . + < µ1 − µ 2 < ( x1 − x 2 ) + tα / 2 .s p . +
n1 n2 n1 n2
donde s p es la estimación de unión de la desviación estándar poblacional, dada por:
(n1 − 1).s12 + (n2 − 1).s 2 2

sp =
n1 + n2 − 2
y donde tα / 2 es el valor de t con v = n1 + n 2 − 2 grados de libertad, que deja un área
de α / 2 a la derecha.

significativamente.
Intervalo de confianza para µ1 − µ 2 con σ 1 ≠ σ 2 y desconocidas:

2 2
2 2
Si x1 y s1 , x 2 y s 2 , son las medias y varianzas de muestras pequeñas independientes
de tamaño n1 y n 2 , respectivamente, de distribuciones aproximadamente normales con
varianzas desconocidas y diferentes, un intervalo de confianza aproximado del
(1 − α ).100% para µ1 − µ 2 es

2 2 2 2
s1 s s s
(x1 − x 2 ) − tα / 2 . + 2 < µ1 − µ 2 < ( x1 − x 2 ) + tα / 2 . 1 + 2
n1 n2 n1 n2
donde tα / 2 es el valor de t con

2
 s1 2 s 2 2 
 
n + n 
v=  1 2 
2
(
 s n   s 2 n 2
 1 1 + 2
2
)
2

( )
 (n1 − 1)   (n2 − 1) 
grados de libertad, que deja un área de α / 2 a la derecha.

significativamente.
Una sola muestra: estimación de una proporción:
Un estimador puntual de la proporción p en un experimento binomial está dado por la

estadística Pˆ = X / n , donde X representa el número de éxitos en n pruebas. Estimaremos a
p a través de p̂ .
Para n suficientemente grande, P̂ está distribuida de forma aproximadamente normal con
media y varianza
pq
µ Pˆ = p y σ pˆ 2 =
n
Si p̂ es la proporción de éxitos en una muestra aleatoria de tamaño n , y qˆ = 1 − pˆ , un

intervalo de confianza aproximado del (1 − α ).100% para el parámetro binomial p está dado
por
pˆ .qˆ pˆ .qˆ
pˆ − zα / 2 . < p < pˆ + zα / 2 .
n n
Cuando n es pequeña y la proporción desconocida p se considera cercana a 0 o a 1, el

procedimiento anterior no es confiable. Para estar seguro, se debe requerir que n. pˆ o n.qˆ sea
mayor o igual que 5.
Si se utiliza p̂ como una estimación de p , podemos tener (1 − α ).100% de confianza de que

el error no excederá una cantidad específica e cuando el tamaño de la muestra es
aproximadamente:
z 2 α / 2 . pˆ .qˆ
n=
e2

Si se utiliza p̂ como una estimación de p , podemos tener una confianza de al menos

(1 − α ).100% de que el error no excederá una cantidad específica e cuando el tamaño de la
muestra es:
z 2α / 2
n=
4.e 2
Dos muestras: estimación de la diferencia entre dos proporciones:
Deseamos estimar la diferencia entre dos parámetros binomiales p1 y p2 . Un estimador

puntual de la diferencia entre las dos proporciones, p1 − p 2 está dado por la estadística
Pˆ1 − Pˆ2 , que está distribuida de forma aproximadamente normal con media y varianza
p .q p .q
µ Pˆ1 − Pˆ2 = p1 − p 2 y σ 2 Pˆ1 − Pˆ2 = 1 1 + 2 2
n1 n2
Si p̂1 y p̂ 2 son las proporciones de éxitos en muestras aleatorias de tamaño n1 y n2 ,

respectivamente, qˆ1 = 1 − pˆ 1 y qˆ 2 = 1 − pˆ 2 , un intervalo de confianza aproximado del
(1 − α ).100% para la diferencia de dos parámetros binomiales p1 − p 2 está dado por
pˆ 1 .qˆ1 pˆ 2 .qˆ 2 pˆ .qˆ pˆ .qˆ

( pˆ 1 − pˆ 2 ) − zα / 2 . + < p1 − p 2 < ( pˆ 1 − pˆ 2 ) + zα / 2 . 1 1 + 2 2
n1 n2 n1 n2

significativamente.
Una sola muestra: estimación de la varianza:
Si s 2 es la varianza de una muestra aleatoria de tamaño n de una población normal, un

intervalo de confianza del (1 − α ).100% para σ 2 es
(n − 1).s 2 <σ 2 <

(n − 1).s 2
χ 2α / 2 χ 21−α / 2
donde χ 2α / 2 y χ 21−α / 2 son valores de χ 2 con v = n − 1 grados de libertad, que dejan áreas de
α / 2 y 1 − α / 2 , respectivamente, a la derecha.
Dos muestras: estimación de la razón de dos varianzas:
2 2
Si s1 y s2 son varianzas de muestras independientes de tamaño n1 y n2 , respectivamente, de
2
poblaciones normales, entonces un intervalo de confianza del (1 − α ).100% para σ 1 σ 2 2 es
2 2 2
s1 1 σ s
. < 1 2 < 1 2 . f α / 2 (v 2 , v1 )
s2
2
f α / 2 (v1 , v 2 ) σ 2 s2

donde fα / 2 (v1 , v2 ) es un valor de f con v1 = n1 − 1 y v2 = n2 − 1 grados de libertad que deja

un área de α / 2 a la derecha y f α / 2 (v 2 , v1 ) es un valor similar con v2 = n2 − 1 y v1 = n1 − 1
grados de libertad.
UNIDAD 10: Pruebas de hipótesis de una y dos muestras

Hipótesis estadísticas: conceptos generales:
Una hipótesis estadística es una afirmación o conjetura con respecto a una o más poblaciones.
>> La aceptación de una hipótesis simplemente implica que los datos no dan suficiente
evidencia para rechazarla.
>> El rechazo implica que la evidencia muestral la refuta. El rechazo significa que hay una
pequeña probabilidad de obtener la información muestral observada cuando, de hecho, la
hipótesis es verdadera.
Hipótesis nula y alternativa:
La Hipótesis nula es la que deseamos probar. Se denota con H 0 y siempre se establece con
una igualdad con el parámetro poblacional.
El rechazo de la hipótesis nula conduce a la aceptación de una Hipótesis Alternativa, que se

denota con H 1 y se establece con una desigualdad (<, > o simplemente ≠ ) respecto del
parámetro poblacional.
Prueba de una hipótesis estadística:
Estadística de prueba:
La estadística de prueba es la variable que utilizaremos para tomar la decisión. Ésta dependerá
mucho de los datos, ya que si queremos calcular la media poblacional y tenemos el valor de la
varianza poblacional, utilizaremos Z , en cambio si no poseemos este último valor, utilizaremos
T.
Regiones:
El proceso de inferencia en una prueba de hipótesis no difiere mucho del concepto de intervalos
de confianza. Nuestra región crítica será la que esté fuera de nuestro intervalo, que ahora se
llamará región de aceptación, y el parámetro α , parte del nivel de confianza, será ahora el
nivel de significancia, también llamado tamaño de la región crítica. El último valor que
observamos al pasar de la región de aceptación a la crítica se llama valor crítico.
Errores:
Existen dos tipos de errores que podemos cometer al aceptar o rechazar la hipótesis nula. Éstos
son:
Error tipo I:
Es rechazar la hipótesis nula cuando es verdadera.
La probabilidad de que ocurra un error tipo I es α .
Error tipo II:

Es aceptar la hipótesis nula cuando es falsa.

La probabilidad de que ocurra un error tipo II es β .
Los parámetros α y β se relacionan inversamente, es decir, cuando uno aumenta, el otro

disminuye. También ambos tienen relación con el tamaño de la muestra, ya que si lo
aumentamos, los valores de α y β disminuirán.
Propiedades de los errores:

1. Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de
uno por lo general tiene como resultado un aumento en la probabilidad del otro.
2. El tamaño de la región crítica, y por lo tanto la probabilidad de cometer un error tipo I,
siempre se puede reducir al ajustar el o los valores críticos.
3. Un aumento en el tamaño muestral n reducirá α y β de forma simultánea.
4. Si la hipótesis nula es falsa, β es un máximo cuando el valor real de un parámetro se
aproxima al valor hipotético. Entre más grande sea la distancia entre el valor real y el
valor hipotético, será menor β .
Potencia de una prueba:

La potencia de una prueba es la probabilidad de rechazar H 0 dado que una alternativa
específica es verdadera. Ésta potencia se calcula como 1 − β .
Para producir una potencia deseable, se debe aumentar α o n .
Pruebas de una y dos colas:
Una prueba de cualquier hipótesis estadística, donde la alternativa es unilateral, como

H 0 :θ = θ0 H 0 :θ = θ0
o quizá
H1 : θ > θ 0 H1 : θ < θ 0
se denomina prueba de una sola cola.
Una prueba de cualquier hipótesis alternativa donde la alternativa es bilateral, como

H 0 :θ = θ0
H1 : θ ≠ θ 0
se llama prueba de dos colas.
Uso de valores P para la toma de decisiones:
El valor P es la probabilidad de que el valor del estadístico de prueba calculado con los datos
del problema se encuentre en la región crítica. Esto se usa para darle menor nivel de
significancia a la decisión tomada, que uno que pudiera haberse preestablecido (generalmente
α = 0,05 o α = 0,01 ).
El valor P es el nivel (de significancia) más bajo en el que el valor observado de la estadística
de prueba es significativo.
Pasos principales de una prueba de hipótesis:
1. Establecer la hipótesis nula H 0 : θ = θ 0

2. Elegir una hipótesis alternativa apropiada H 1 a partir de una de las alternativas:

θ < θ 0 , θ > θ 0 o θ ≠ θ0 .
3. Elegir un nivel de significancia de tamaño α .
4. Seleccionar la estadística de prueba apropiada y establecer la región crítica (Si la
decisión se basa en un valor P , no es necesario establecer la región crítica).
5. Calcular el valor de la estadística de prueba a partir de los datos de la muestra.
6. Decisión: Rechazar H 0 si la estadística de prueba tiene un valor en la región crítica (o
si el valor P calculado es menor o igual que el nivel de significancia α que se desea);
en cualquier otro caso, no rechazar H 0 .
Elección del tamaño de la muestra para probar medias:
Cuando conocemos el valor en el que se desvía la media verdadera de la población respecto de

la media hipotética (valor δ ), podemos estimar el tamaño de la muestra necesario para no
rechazar la hipótesis nula:
(z α + z β ) .σ 2
2
n=
δ2
a − µ0 δ
donde zα = y zβ = − zα .
σ n σ n
En el caso de una prueba de dos colas:

(z α /2 + z β ) .σ 2
2
n≅
δ2
Cuando tenemos la diferencia entre dos medias, el tamaño de las muestras n = n1 = n 2 será:
n=
(z α
2
(
+ zβ ) . σ1 + σ 2
2 2
)
δ2

Apunte1 PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apunte1 PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Resumen Prob.

y Estadística Juan Pablo Colagrande Martí

Varianza y Desviación Estándar:

Varianza y Desviación Estándar muestrales:

Como el cálculo manual de la varianza es tedioso, existe un método abreviado más

Varianza y Desviación Estándar poblacionales:

El coeficiente de variación es un número que representa a la desviación estándar como

Son los puntos intermedios que resultan de dividir un conjunto ordenado de

U.T.N. F.R.M. -2- Probabilidad y Estadística

El 100k − ésimo percentil p k es un valor tal, que al menos el 100k % de las

Son los puntos intermedios que resultan de dividir un conjunto ordenado de

16,0 16,5 17,0 17,5 18,0

Diagrama de tallo y hoja:

U.T.N. F.R.M. -3- Probabilidad y Estadística

La distribución de frecuencias ofrece un resumen más compacto de los datos.

U.T.N. F.R.M. -4- Probabilidad y Estadística

Los límites del bigote son:

Los valores entre b1 y l1 y b2 y l 2 son valores atípicos y se representan con puntos

120 140 160 180 200

Observación: Cualquier registro de información, ya sea numérico o categórico

EVENTO: Es un subconjunto en un espacio muestral.

El complemento de un evento A con respecto a S es el subconjunto de todos los

La intersección de dos eventos A y B , denotada mediante el símbolo A ∩ B , es el

U.T.N. F.R.M. -5- Probabilidad y Estadística

La unión de dos eventos A y B , denotada mediante el símbolo A ∪ B , es el evento

Eventos mutuamente excluyentes:

Dos eventos A y B son mutuamente excluyentes o disjuntos si A ∩ B = Ο

Conteo de puntos de la muestra:

Una permutación es un arreglo de todo o parte de un conjunto de objetos en un espacio

El número de permutaciones de n objetos distintos tomados de r a la vez es:

El número de combinaciones de n objetos distintos tomados de r a la vez es:

U.T.N. F.R.M. -6- Probabilidad y Estadística

La probabilidad de un evento A es la suma de los pesos de todos los puntos muestrales en A .

Si un experimento puede tener como resultado cualquiera de N diferentes resultados

Si A y B son cualesquiera dos eventos, entonces:

Si A y B son dos eventos mutuamente excluyentes, entonces:

Para tres eventos A , B y C :

La probabilidad condicional de B , dado A es:

Si en un experimento pueden ocurrir los eventos A y B , entonces:

Para tres eventos A , B y C :

Dos eventos A y B son independientes si y sólo si cumplen ALGUNA de las siguientes

U.T.N. F.R.M. -7- Probabilidad y Estadística

Teorema de la probabilidad total:

Partición del espacio muestral S

Si los eventos B1 , B2 , L , Bk constituyen una partición del espacio muestral S donde

UNIDAD 3: Variables aleatorias y distribuciones de probabilidad

Si un espacio muestral contiene un número finito de posibilidades, o infinito numerable, se

Distribuciones discretas de probabilidad:

Para la variable aleatoria discreta X , f ( x ) es una función de probabilidad, función masa

U.T.N. F.R.M. -8- Probabilidad y Estadística

La distribución acumulada F ( x ) de una variable aleatoria discreta X , con distribución de

Gráficas de la distribución de probabilidad y de la distribución acumulada

Distribuciones continuas de probabilidad:

Para la variable aleatoria continua X , f ( x ) es una función densidad de probabilidad o

Entonces ahora, gráficamente, la probabilidad de un intervalo continuo es el área bajo la curva

La distribución acumulada F ( x ) de una variable aleatoria continua X , con función densidad

De aquí concluimos que:

U.T.N. F.R.M. -9- Probabilidad y Estadística

UNIDAD 4: Esperanza matemática

Sea X una variable aleatoria con distribución de probabilidad f ( x ) , la media o valor

Generalizando para g ( X ) , función de variable aleatoria:

Sea X una variable aleatoria con distribución de probabilidad f ( x ) y media µ , la varianza

La raíz cuadrada positiva de la varianza, es la desviación estándar σ de X .