Você está na página 1de 58

Distribuciones de probabilidad

Distribucin de probabilidad: es una lista de todos los resultados posibles de un experimento y de la probabilidad asociada a cada resultado, ya se presente en forma de tabla, de grfico o de formula.

Las distribuciones de probabilidad se basan en los valores de variables aleatorias. Variable aleatoria: una variable cuyos valores se deben al azar se llama aleatoria. El nmero de unidades vendidas, los niveles de produccin diaria y la talla de los clientes son ejemplos de variables aleatorias. Distribucin de probabilidad discreta: en una distribucin de probabilidad discreta, la variable aleatoria solo puede tomar un nmero de valores concreto. Ejemplos: el nmero de clientes, el de unidades vendidas o el de errores en un anuncio impreso. Distribucin de probabilidad continua: una distribucin de probabilidad continua utiliza una variable aleatoria que puede tomar infinito numero de valores si el instrumento utilizado tiene suficiente precisin.

Binomial
Distribucin de probabilidad discreta.

Nmero finito de valores. La variable aleatoria discreta toma un valor real dentreo de un intervalo o bien se restringe a valores especficos. Se ajusta al proceso de muestreo de Bernoulli. Dos resultados posibles, mutuamente excluyentes y colectivamente exhaustivos en cada ensayo ( xito fracaso). Los resultados de cada ensayo son eventos independientes. xito P Fracaso = 1- P La variable aleatoria discreta (fenmeno de inters que sigue a la binomial) es el nmero de xitos obtenidos en una muestra de n observaciones.

Frmula: Se usa para determinar la probabilidad de obterner un cierto nmero de xitos.Funcin que asigna una probabilidad a cada valor de x. Se desarrolla a partir del binomio de Newton: (a+b)n 3 valores: (x) nmero especfico de xitos, (n) nmero de observaciones o ensayos y (p) probabilidad de xito en cada ensayo

q= (1-p) P (x) = {n!/ x! (n-x!) }(px q nx)


n! = n factorial Producto de todos los nmeros enteros de 1 a n, 0 ! = 1

Proceso de muestreo con reposicin (la poblacin es infinita)

SUPUESTOS

Pruebas independientes La variable aleatoria asume en cada prueba uno (solo uno) de los dos saldr positivo o negativo

Cundo el proceso es sin reposicin se usa la distribucin hipergeomtrica ya que muestreamos sin reemplazo una poblacin finita y se viola un supuesto de la binomial Puede aproximarse a la binomial

El valor de P es constante de una prueba a otra.

Si la muestra es menor o igual al 20% del total de elementos del universo se puede usar la binomial aun sin reposicin (Si el tamao de la muestra es pequeo con respecto al universo; la hipergeomtrica es casi igual a la binomial)

Media (): Valor esperado de una variable aleatoria X. = E (x)

Media y Varianza de Variables Aleatorias Discretas: Distribucin Binomial


Varianza: Media aritmtica de las desviaciones respecto de la media elevadas al cuadrado. = {(xi - )2 P (xi)} Media y Varianza de la distribucin binomial: =npq = npq

(Se multiplica cada resultado posible por su probabilidad y se suman los productos)

= {(xi) P(xi)}
Valor esperado: el valor esperado de una variable aleatoria discreta es la media aritmtica ponderada de todos los resultados posibles, en la cual los pesos son las probabilidades respectivas de dichos resultados. (np)

n y p: parmetros de la distribucin binomial Determinan probabilidades para todos los valores de x P (x/n, p) probabilidad de x resultados positivos dados n y p

Poisson (Simeon Dennis Poisson)


Para describir varios procesos con variables aleatorias discretas asumiendo valores enteros, no se conoce el tamao de la muestra. Mide la probabilidad de un suceso aleatorio a lo largo de un intervalo temporal o espacial.

Es preciso hacer dos hiptesis: 1. La probabilidad de que ocurra el suceso es constante para dos intervalos de tiempo o espacio cuales quiera 2. La aparicin de un suceso en cualquier intervalo de tiempo/espacio es independiente de su aparicin en cualquier otro

Funcin de probabilidad: P (x) = e - x / X!


x= variable discreta (nmero de ocurrencias) = nmero promedio de ocurrencias de x e= base constante de los logaritmos naturales 2.7182818... n= ?

n>100 np = np 10

Aplicaciones del modelo de Poisson:

Existen nmeros fenmenos aleatorios que siguen esta distribucin (llegadas por minuto, llamadas por da)estima la probabilidad de ocurrencia de hechos raros como accidentes y derrumbes.

La variable discreta aleatoria se refiere al nmero de xitos por unidad (semana, da etc.) y el parmetro se refiere al numero se xitos por unidad)

Se desarrollo a partir del estudio del nmero de soldados de Prusia muertos por ao por golpes de caballos

SUPUESTOS DISTRIBUCIN DE POISSON


Gran numero de puntos posibles para verificar un evento dado en cada unidad de medida y la probabilidad de una ocurrencia en esos puntos es muy pequea X (variable aleatoria) es un nmero entero dentro de la unidad de medida

Cualquier numero de ocurrencias puede acontecer en una sola unidad de medida sin afectar al nmero de cualquier otra.independencia.
(el promedio) es constante (estabilidad) Para clculo de probabilidades ( de exactamente 0,1,2 ...)

si n se usa la binomial Aproximacin: si n es grande y P pequea ...Cuando n 100... Cuando P .10 En tales casos de que cumplan las anteriores condiciones: = np ( se utiliza la misma frmula)

Distribucin Normal
Para variables aleatorias continuas (pueden tomar cualquier valor en un rango, pueden ser valores fraccionarios), los valores infinitos como no pueden listarse todos, se define una funcin de densidad de probabilidad ( curva de probabilidad)

Caractersticas. Simtrica, mesokrtica. Forma de campana. Media= Mediana=Moda. Se puede usar para realizar aproximaciones a otras distribuciones.

La mitad de las observvaciones estn por encima de la media y la mitad por debajo (mitad del lado derecho y mitad del izquierdo) de acuerdo a lo anterior se establece la regla emprica, la cul describe el rea total bajo la curva normal que se encuentra en un intervalo dado.

Si las observaciones estn muy dispersas la curva en forma de campana se har ms plana y extendida.

Regla emprica

el 68.3% de las observaciones est dentro de +/- 1 desviacin de la media

el 95.5% de las observaciones est dentro de +/- 2 desviaciones de la media

el 99.7% de las observaciones est dentro de +/- 3 desviaciones de la media

Slo una porcin del rea total se extiende ms all de 3 o 4 desviaciones de la media (promedio) por lo que las colas infinitas por lo regular se ignoran.

Variable tipificada (z) rea bajo la curva normal.


Puede existir un nmero infinito de distribuciones normales y posibles ( cada una con su propia media y desviacin tpica)

Los valores infinitos al no poder listarse todos se define una funcin de densidad de probabilidad; Curva de probabilidad, clculo de probabilidad bajo la curva normal

FRMULA DE TRANSFORMACI N (Z): Z= X - /

z= desviacin normal estndar; nmero


de desviaciones por arriba/abajo que X est de la media
x= cualquier valor especificado de la variable aleatoria; z= variable tipificada; = media; = desviacin estndar Despes de la transformacin: la media es = 0 y la desviacin estndar = 1

No se pueden estudiar todas; se deben convertir a una sla : DISTRIBUCIN NORMAL ESTNDAR

O BIEN : _ Z= X - X/ S

Ordenadas

=1

F(x)

- z

=0

Abcisas

Determinar probabilidades con la Tabla


rea bajo la curva normal
Distribuciones Muestrales

Se tabula la proporcin del rea total entre el promedio y cualquier otro punto x a lo largo del eje de las abcisas Cualquier valor x de una poblacin con distribucin normal se puede convertir a un valor normal estndar equivalente a z mediante la frmula.

El encabezado y parte iazquierda de la tabla presentan los valores de las desviaciones (z) desde 0.00 el promedio mismo hasta 5 desviaciones que es un punto lejano de la cola de la curva normal Puede usarse para puntos en cualquier lado del promedio La curva se extiende de forma infinita hacia ambos lados asintticamente al eje de las abcisas

Distribucin muestral

Lista de todos los valores posibles de un estadstico y la probabilidad asociada a

Error muestral

Diferencia entre el parmetro de la poblacin y el estadstico de la muestra usado para estimar el parmetro

Las poblaciones son muy grandes generalmente para su estudio, es necesario elegir una muestra reprensentativa con un tamao ms manejable.

La muestra se usa para sacar conclusiones sobre la poblacin, es posible calcular la media de la muestra y usarlo por ejemplo como estimador de la media de la poblacin. El estadstico x se usa como estimador del parmetro .

De las muestras elegidas al azar en una poblacin algunas darn como resultado una cantidad errnea del proceso de estimacin; el error muestral ( diferencia entre la media poblacional y la muestral), se debe a que por azar pueden entrar en la muestra observaciones extremas.

Si por azar se extraen observaciones muy grandes, la media muestral dar una estimacin excesiva de y viceversa

No es posible calcular el tamao real del error muestral por que la media poblacional es desconocida, pero se debe ser consciente de la probabilidad de incurrir en un error muestral.

Media general (media de las medias muestrales)

Media de todas las medias muestrales posibles Se calcula sumando todas las observaciones individuales( medias muestrales) y el resultado se divide entre el nmero de observaciones (muestras) La media aritmtica de todas las muestras posibles es igual a la de la poblacin El valor esperado de las medias muestrales es igual a la media poblacional.

X = X /K MEDIA GENERAL

Error tpico de la distribucin muestral: es la medida de variacin de las medias muestrales en torno a la media general, por lo que mide la tendencia a incurrir en error de muestreo al intentar estimar el parmetro. Tiene tambin varianza (de la distribucin de las medias muestrales) y mide la dispersin de las observaciones individuales en torno a la media y se calcula de la misma forma.

Varianza de la distribucin de las medias muestrales: determinar la cantidad en que cada observacin ( medias muestrales se aparte de su media o media general)

frmula: 2/x = (x -x) 2 / K Error tpico x = 2/x


Es una medida de dispersin de las medias muestrales en torno a , es la desviacin tpica de de un conjunto completo de medias muestrales y representa la medida del error muestral en que se incurre al al estimar .

Error tpico y normalidad: si los datos siguen a la normal, la distribucin muestral tambin lo har

Tamao de la muestra y error tpico: Con una muestra mayor la estimacin es ms exacta

Teorema central del lmite: para cualquier poblacin sea normal o no, la distribucin muestral se aproxiamar a la normalidad con tal que el tamao de muestra sea grande (suficiente n =30 como mnimo)
Cuando la poblacin no sigue una distribucin normal. A medida que n aumenta la distribucin muestral de medias muestrales se aproxima a la normal Se logran casi los mismos resultados que si la poblacin siguiera una distribucin normal

Si podemos confiar en que las medias muestrales responden a una distribucin normal podemos usar la variable tipificada Z.
La curva al aumentar n adquiere una forma ms acampanada El error tpico se reduce al aumentar n

Factor de correcin: Poblaciones finitas (FPC) El teorema central del lmite y la hiptesis de normalidad solo aplica en poblaciones infinitas o muestreo con reemplazo, para poblaciones finitas y muestreo sin restitucin se aplica el FPC al calcular el error tpico.

Error tpico con factor de correcin: (N-1) SE APLICA SI n ES GRANDE EN RELACIN A N; SUPERIOR AL 10% DE N. 2/X= /n 2 (N-n)/N-1)

ESTIMACIN CON INTERVALOS DE CONFIANZA

Estimaciones Puntual y de intervalo

Para estimar la media poblacional Dos tipos: puntual y de intervalos

Se vale de un estadstico para estimar el parmetro en un slo valor o punto Define un intervalo dentro del cual puede estar el parmetro desconocido, va acompaado de la afirmacin de un nivel de confianza que se asigna a su precisin: INTERVALO DE CONFIANZA

Nivel de confianza

Coeficiente de confianza: 3 niveles asociados a los intervalos de confianza (puramente convencionales): 90%. 95% y 99%. Puede ser cualquier otro. Es el nivel de confianza que se tiene de que el valor del parmetro desconocido se encuentra en ese intervalo.

Las estimaciones de intervalos tienen ciertas ventajas sobre las puntuales; a causa del error muestral la media muestral no es igual a pero no se puede saber el valor del error muestral, con los intervalos se elude en parte la discrepancia desconocida.

Un intervalo de confianza tiene un lmite inferior LCL y uno superior UCL. Para hallarlos se obtiene la media muestral que se usa como estimacin puntual y se le suma una cantidad para hallar el UCL y se le resta para el LCL.

Si la regla emprica dice que el 95.5% de las medias muestrales estn dentro de dos errores tpicos a uno y otro lado de la media poblacional, sta se encuentra dentro de dos errores tpicos del 95.5% de todas las medias muestrales, por los que si a apartir de cualquier media muestral nos desplazamos dos errores por encima y por debajo de esa media podemos tener 95.5% de confianza en que el intervalo resultante contiene la media poblacional.

Si se quiere un intervalo del 95%: como la tabla z slo contiene los valores del rea por encima o por debajo de la tabla se divide el 95% entre 2 = 47.55% es decir .4750 y se busca el valor de z que le corresponde: z= 1.96 = 1.96 errores tpicos, hay que definir un intervalo que se extienda a 1,96 errores tpicos por enciam y por debajo de la media muestral.

Si se requiere mayor precisin es posible tener un nivel de confianza superior; por ejemplo 99% (incrementar el multiplicador de confianza y la anchura del intervalo) SE divide 99% entre 2 = .4950; z= 2.58 errores tpicos alrededor de la media.

Contrapartida: si al 99% se est ms seguro de que el intervalo contiene al parmetro, tambin ste es ms ancho y por tanto menos preciso

Un intervalo ms amplio abarca mayor cantidad de valores posibles del parmetro desconocido y precisa menos su valor real que un intervalo ms estrecho

Probabilidad de error Valor alfa

Probabilidad de que al formular intervalo sea errneo y no contenga el valor del parmetro (al 95%, el 5% no lo contiene por ejemplo)

El valor alfa es el poncentaje de intervalos que no contienen el valor del parmetro desconocido

Para Muestras Grandes: n mayor o igual a 30 = X Zx = X Zsx

Muestras pequeas: n menor o igual a 30 La distribucin normal no es la ms adecuada si n es pequeo y si es desconocido Se usa la distribucin t (student) por que da un intervalo ms amplio que Z, esta anchura adicional se debe a que pierde algo de precisin porque no se conoce y hay que estimarla Tiene una media de cero, es simtrica respecto de la media y se extiende de - a +, pero a diferencia de Z cuya varianza 1; la varianza de la distribucin t es mayor que uno ya que su curva es ms achatada y dispersa. ( representa toda una familia de distribuciones con distintas varianzas) Su varianza depende de los grados de libertad cuyo valor es igual a n 1 2= n-1 / n-3 A medida que n aumenta, la varianza se aproxima a 1 Si n 30 la distribucin t tiene varianza de uno como la de Z. t= x - / sx Se despeja para expresar el intervalo de confianza: = x t (sx) = X t s/n (intervalo de confianza para la media poblacional en muestras pequeas) El valor de t se encuentra en la tabla F.

Contraste de hiptesis
Hiptesis: Inferencia elaborada sobre la poblacin (suposicin). Se toma una muestra para ver si la hiptesis es correcta. La hiptesis que se contrasta es la hiptesis nula: Ho, se rechaza o no en funcin de la informacin muestral La hiptesis nula se contrasta con la hiptesis alternativa: Ha A partir del resultado de la muestra se puede rechazar Ho a favor de Ha o bien no rechazar Ho y suponer que la estimacin inicial del parmetro poblacional es correcto No rechazar Ho no implica que sea correcta sino que los datos de la muestra no son suficientes para inducir un rechazo de la misma (nunca se acepta la hiptesis nula9 Ha se especifica como opcin posible si se rechaza Ho

La regla de decisin especifica un valor de la media tan diferente del valor de contenido en la hiptesis que excluya atribuir la diferencia al error muestral

Por ejemplo Si se supone que = 15: al contrastar al 5% de nivel de significacin (intervalo de confianza al 95%) se deben encontrar los valores crticos de la media muestral por encima o debajo del valor hipottico de = 115 que enmarquen el 95% del rea bajo la normal, el 5% restante se divide por igual en dos colas.

Hay una probabilidad del 95% de que si la media poblacional es de verdad 115, una muestra tenga una media comprendida entre los valores crticos .

Los valores de la media comprendidos en el intervalos del 95% son los bastante cercanos a 115 para poder atribuir la diferencia al error muestral, esa diferencia se dice que es estadsticamente insignificante al nivel de %% y se puede explicar por la fluctuacin aleatoria de la muestra ( no se rechaza Ho)

Si los valores obtenidos para la media se alejan mucho de 115 para que la diferencia sea por error muestral, la diferencia es significativa al 5%

Si = 115 es improbable tomar una muestra con una media muy por encima/debajo de 115, slo hay una probabilidad del 5% de que la media caiga en una u otra regin de rechazo

Hay una regin de rechazo en las dos colas por que es preciso rechazar Ho toda vez que los resultados muestrales estn muy lejos de 115 (por arriba/debajo) en ese caso es probable que no sea igual a 115

Frmula valores crticos:

Xc =HZsx o
bien

Xc =HZx si
se conoce la desviacin tpica de la poblacin (Error: /n)

El valor de z se halla en la tabla pero da el rea situada balo la curva desde hasta un valor por encima o debajo de l.
El 95% hay que dividirlo por dos: .4750 es el rea resultante Su valor correspondiente de z es 1.96

Se suma Zsx a H para obtener el valor superior de la media y se resta Zsx de H para el inferior.
Si Ho: = 115 Sx = 5 Al 95% del nivel de confianza .95/2 = .4750 : z= 1.96 Xc =HZsx Xc = 1151.96 (5) =1159.8 105.2------------------------124.8

105.2

124.8

donde: n es el tamao de la muestra; Z es el nivel de confianza; p es la variabilidad positiva; q es la variabilidad negativa; E es la precisin o error.
En el caso de que s se conozca el tamao de la poblacin entonces se aplica la siguiente frmula:

Si se quiere un porcentaje de confianza del 95%, entonces hay que considerar la proporcin correspondiente, que es 0.95. Lo que se buscara en seguida es el valor Z para la variable aleatoria z tal que el rea simtrica bajo la curva normal desde -Z hasta Z sea igual a 0.95, es decir, P(Z<z<Z)=0.95. Utilizando las tablas, o la funcin DISTR.NORM.ESTAND.INV() del Excel, se puede calcular el valor de Z, que sera 1.96 (con una aproximacin a dos decimales). Esto quiere decir que P(1.96<z<1.96)=0.95.

donde: n es el tamao de la muestra; Z es el nivel de confianza; p es la variabilidad positiva; q es la variabilidad negativa; N es el tamao de la poblacin; E es la precisin o el error

Ejemplo
Se desea realizar una investigacin sobre los alumnos inscritos en primer y segundo aos, para lo cual se aplicar un cuestionario de manera aleatoria a una muestra, pues los recursos econmicos y el tiempo para procesar la informacin resultara insuficiente en el caso de aplicrsele a la poblacin estudiantil completa. En primera instancia, suponiendo que no se conoce el tamao exacto de la poblacin, pero con la seguridad de que sta se encuentra cerca a los diez millares, se aplicar la primera frmula. Se considerar una confianza del 95%, un porcentaje de error del 5% y la mxima variabilidad por no existir antecedentes en la institucin sobre la investigacin y porque no se puede aplicar una prueba previa. Primero habr que obtener el valor de Z de tal forma que la confianza sea del 95%, es decir, buscar un valor de Z tal que P(Z<z<Z)=0.95. Utilizando las tablas o las funciones de Excel se pueden obtener, resulta que Z=1.96. De esta manera se realiza la sustitucin y se obtiene: Esto quiere decir que el tamao de la muestra es de 385 alumnos. Supongamos ahora que s se conoce el tamao de la poblacin estudiantil y es de 9,408, entonces se aplicar la segunda frmula. Utilizando los mismos parmetros la sustitucin queda como:

Con lo que se tiene una cuota mnima de 370 alumnos para la muestra y as poder realizar la investigacin sin ms costo del necesario, pero con la seguridad de que las condiciones aceptadas para la generalizacin (confiabilidad, variabilidad y error) se mantienen.

Y es funcin de una sola variable independiente. Anlisis bivariante.

Dos o ms variables independientes que permiten explicar Y. Y = f (x1, x2, x3.xk)

Regresin simple

Regresin mltiple

Regresin curvilineal
Regresin curvilineal

Regresin lineal

( no lineal) . La relacin se describe mejor con una curva.

Refleja la relacin x-y por medio de una recta, una variacin de X se acompaa de una variacin sistemtica de Y y se puede representar con una recta.

X Y Y

Representa la relacin poblacional o verdadera segn la cul Y es regresiva en funcin de X

Error Yi Valor observado de y cuando x= 55

Error (Residuo) Error Yi Valor observado de y cuando x= 40

400

40

55

Y
16.11 15.2 14.29

4.4 10 X

Ho= = 0 H1= 0 1-r2 /n-2 = 1-.93776/15-2= .06919 t= r/Sr = .968380/.06919= 13.995 En la tabla para 95% nivel de confianza: Valor crtico: +/- 2.160

Você também pode gostar