Probabilidad y Estadistica

Probabilidad y estadstica Tema 1.
Conceptos de probabilidad
1.1 Conceptos bsicos de probabilidad La probabilidad se define como un nmero decimal entre 0 y 1 inclusive, que mide la creencia que se tiene de que llegue a ocurrir un evento especfico resultado de unexperimento. Algunos ejemplos de experimentos son: Preguntar a un grupo de estudiantes su preferencia en marcas de computadoras porttiles. Medir el dimetro exterior de anillos de pistn para determinar el nmero probable de defectos encontrados. Contar el nmero de reclusos mayores a 60 aos.
Un evento se define como un resultado posible para un experimento, por ejemplo: Experimento: Evento: Tirar un dado Obtener un 1 Obtener un 2 Obtener un 3 Obtener un 4 Obtener un 5 Obtener un 6
Cuanto ms se acerca la probabilidad a 0, es ms improbable que suceda el evento al que se asocia. Cuanto ms se acerca la probabilidad a 1, estaremos ms seguros de que suceder. Espacio muestral Al conjunto de eventos que componen un experimento, se le denomina espacio muestral. Ejemplo: El espacio muestral de tirar un dado est representado por el siguiente conjunto:
De igual forma, el espacio muestral de tirar un par de datos, est dado por el siguiente conjunto:
En probabilidad, es importante conocer el espacio muestral de un experimento para determinar las caractersticas de independencia de los eventos, o determinar si los eventos son mutuamente excluyentes. 1.2 Enfoques de la probabilidad La teora de probabilidad tiene dos enfoques: La probabilidad objetiva y la probabilidad subjetiva: Probabilidad objetiva El enfoque de la probabilidad objetiva se divide a su vez en probabilidad clsica o a priori y, el concepto de frecuencia relativa o probabilidad a posteriori. La probabilidad clsica se basa en la consideracin de que los resultados de un experimento son igualmente posibles. Empleando el punto de vista clsico, la probabilidad de que ocurra un evento se calcula dividiendo el nmero de resultados favorables entre el total de resultados posibles:
Ejemplo: Si consideramos el experimento del dado, podemos hacernos las siguientes preguntas: Cul es la probabilidad de obtener un 1? Observando los eventos posibles del experimento, el espacio muestral del experimento est dado por S = {1, 2, 3, 4, 5, 6}, donde slo uno ellos cumple con la condicin. En este caso la probabilidad ser , o bien, 0.1667, lo que significa que existe un 16.67% de probabilidades de que se obtenga el nmero 1 al lanzar un dado. Cul es la probabilidad de obtener un par? Observando los eventos posibles del experimento, considerando el espacio muestral S = {1, 2, 3, 4, 5, 6}, tres de ellos cumple con la condicin: el 2, el 4 y el 6. En este caso la probabilidad ser , o bien, 0.5000, lo que significa que existe un 50% de probabilidades de que se obtenga un nmero par al lanzar un dado. Cul es la probabilidad de obtener un 7? En este caso el resultado ser 0 porque no existe un evento asociado al experimento pues ninguna cara del dado tiene el nmero 7. En este ejemplo, observamos dos caractersticas: 1. Al tirar un dado, solamente un evento es posible. Si cae un dos, no puede caer al mismo
tiempo un 5. A esta caracterstica se le llama eventos mutuamente excluyentes. 2. El experimento del dado tiene un total de 6 resultados posibles. Dichos eventos son el total del experimento. A esta caracterstica se le denomina colectivamente exhaustivo. El concepto de frecuencia relativa, define que la probabilidad de que un evento ocurra en el tiempo se determina observando el nmero de veces que ocurri en el pasado. En trminos de una frmula, tenemos que:
Ejemplo: En un estudio realizado, 751 graduados de Administracin, revel que 453 de los 751 no estaban trabajando en su principal rea de estudio. Cul es la probabilidad de que un graduado en especfico est trabajando en un rea distinta a su principal rea de estudio? Segn la frmula, tenemos que:
Por tanto:
El resultado muestra que existe un 60.31% de probabilidades de que al seleccionar un graduado de la universidad al azar, est trabajando en un rea distinta a su principal rea de estudio. Probabilidad subjetiva Si existe poca o ninguna informacin o experiencia en la que se pueda basar una probabilidad, la probabilidad subjetiva puede darnos una solucin. Fundamentalmente significa evaluar las opiniones disponibles y otra informacin para despus llegar a la probabilidad. Algunos ejemplos de la probabilidad subjetiva son: Estimar la posibilidad de que el equipo local obtenga un triunfo en su prximo juego de visita. Estimar la posibilidad de que apruebes el curso de Probabilidad y Estadstica con una calificacin superior a 90.
1.3 Teoremas de probabilidad Una vez definidos los conceptos y los diferentes enfoques de la probabilidad, definiremos algunas reglas y propiedades bsicas de la probabilidad. Probabilidad nula La probabilidad de un evento es cero si el evento es nulo o vacio. Por ejemplo, al tirar un dado, la probabilidad de que caiga un 7 es cero pues es un evento nulo, es decir, no existe, pues no existe una cara del dado que tenga siete puntos. Matemticamente, la probabilidad nula se representa como:
Probabilidad del complemento La probabilidad del evento complemento es igual a la resta de 1 menos la probabilidad del evento. Matemticamente:
Ejemplo: Considerando el ejemplo del dado, cul es la probabilidad de no obtener un 1? Evento A: Obtener 1. Evento A: No obtener un 1. Aplicando la frmula tenemos que:
Reglas de adicin 1. Regla especial de adicin: Para aplicar la regla especial de adicin, los eventos deben ser mutuamente excluyentes, como por ejemplo, al tirar un dado.
Ejemplo: Considerando el ejemplo del dado, cul es la probabilidad de obtener un 1 o un nmero par? Evento A: Obtener 1. Evento B: Obtener un nmero par. Aplicando la frmula tenemos que:
2. Regla general de adicin: Cuando los eventos de un experimento no sean mutuamente excluyentes, se utiliza la frmula de la regla general de adicin:
Ejemplo: Una encuesta del departamento de turismo de Nuevo Len, revel que 120 turistas visitaron el nuevo Andador Santa Luca y 100 turistas visitaron la cascada conocida como Cola de Caballo. Tambin se sabe que 60 de los turistas visitaron ambos lugares. Cul es la probabilidad de que un turista haya visitado el Andador Santa Luca o la Cola de Caballo? Utilizando la regla general de adicin, obtenemos: Evento A: Visitar Andador Santa Luca. Evento B: Visitar Cola de Caballo. Aplicando la frmula tenemos que:
Esto es irreal pues la probabilidad debe ser de 0 a 1, inclusive. Si revisamos nuevamente el ejemplo, los eventos no son mutuamente excluyentes y hay una cantidad de turistas que visitaron ambos lugares. En este caso, aplicamos la regla general de adicin.
Cuando dos eventos se traslapan, como en el caso de los turistas de Nuevo Len, se dice que existe una Probabilidad Conjunta. Reglas de multiplicacin 1. Regla especial de multiplicacin: Para aplicar la regla especial de adicin, los eventos deben ser independientes, como el caso de tirar dos dados, pues el evento obtenido en el primer dado no afecta al evento obtenido en el segundo dado.
Ejemplo: Considerando el ejemplo de dos dados, cul es la probabilidad de obtener un 5 en un dado y otro 5 en el otro dado? Evento A: Obtener 5 en el dado 1. Evento B: Obtener 5 en el dado 2.
Aplicando la frmula tenemos que:
2. Regla general de multiplicacin: Se utiliza para determinar la probabilidad conjunta de que ocurran dos eventos dependientes, por ejemplo, el sacar de una urna de pelotas de diferentes colores, dos pelotas de forma consecutiva.
Ejemplo: En una urna contiene 5 pelotas rojas y 5 pelotas azules. Cul es la probabilidad de obtener una pelota roja en un primer evento y una segunda pelota en un segundo evento? Utilizando la regla general de multiplicacin, obtenemos: Evento A: Obtener una pelota roja en un primer intento. Evento B: Obtener una pelota roja en un segundo intento. Aplicando la frmula tenemos que:
En el primer evento, se tienen en total 10 pelotas, 5 de las cuales son rojas. Por tanto, la probabilidad de obtener una pelota roja es de . En el segundo evento, quedan nicamente 9 pelotas, 4 de ellas rojas. Esto muestra que la probabilidad de sacar una segunda pelota roja dado que ya sacamos una roja, es de Glosario Experimento: Se refiere a una actividad que se observa o se mide, es algo que se planea hacer y cuyo resultado no lo conocemos con certeza. Eventos mutuamente excluyentes: Si slo uno de varios eventos pueden ocurrir en un experimento. Evento independiente: Se dice que dos eventos son independientes, si la probabilidad de que ocurra uno no tiene ninguna relacin en la probabilidad de que ocurra el otro. Evento simple: Se dice que un evento es simple si consiste de exactamente un resultado. Evento compuesto: Se dice que un evento es compuesto si consta de ms de un resultado. Experimento colectivamente exhaustivo: Se le denomina al experimento que tiene un conjunto de eventos que incluye todos los resultados posibles. Probabilidad conjunta: Probabilidad que mide la posibilidad de que dos o ms eventos ocurran en forma simultnea. Probabilidad y estadstica Tema 2. Probabilidad Condicional e Independencia 2.1 Probabilidad Condicional .
La probabilidad condicional puede definirse como:
1. Devore, J. (2008). Probabilidad y estadstica para ingeniera y ciencias. (7a. Ed.). Mxico: Cengage Learning. Captulo: 2. Coloquialmente se dice que la probabilidad condicional es la probabilidad de que ocurra el evento A dado que el evento B ocurri. Ejemplo Consideremos el siguiente experimento: Una muestra al azar de 100 diferentes tipos de animales, arroja los siguientes resultados: 15 animales son aves que vuelan y nadan. 45 animales son aves que nadan. 20 animales son aves que vuelan. 55 animales son aves. 25 animales vuelan y nadan. 70 animales nadan. 50 animales vuelan.
Podemos poner esta informacin en un diagrama de Venn, como se ilustra en la figura 2.1
Fig. 2.1. Diagrama de Venn resultante Con esta informacin agrupada en un diagrama, podemos fcilmente calcular probabilidades como
por ejemplo: Cul es la probabilidad de que un animal seleccionado al azar sea un ave?
Cul es la probabilidad de que un animal seleccionado al azar sea un animal que nade?
Volviendo al planteamiento original, ahora podemos calcular probabilidades condicionales, por ejemplo: Cul es la probabilidad de que un ave seleccionada al azar nade?
Ahora ya sabemos que el evento de que el animal seleccionado es un ave, lo que nos falta es determinar la probabilidad de que esa ave seleccionada nade. Aplicando la frmula de probabilidad condicional tenemos:
Reemplazando las variables de acuerdo a nuestro planteamiento:
De los primeros ejemplos, tenemos que la probabilidad de que un animal seleccionado sea un ave es de 55 de cada 100. Si observamos el diagrama de Venn, observamos que la proporcin de aves que vuelan es de 45 de cada 100. Con esta informacin podemos obtener la probabilidad de que un ave seleccionada al azar nade:
Diagramas de rbol Una tcnica muy til para representar eventos condicionales es un diagrama de rbol. Supongamos el siguiente ejemplo: Se hace un estudio para determinar el tiempo en aos en que fallan ciertas partes electrnicas de una marca de televisores. El resultado es el siguiente con una muestra de 200 televisores seleccionados se redujo a dos tipos de fallas generales:
El diagrama de rbol resultante del planteamiento se refleja en la figura 2.2
Fig. 2.2. Diagrama de rbol resultante Con el rbol resultante podemos determinar por ejemplo, cul es la probabilidad de que un televisor con falla en el monitor haya fallado en un periodo de 1 a 5 aos? Aplicando la frmula tenemos
Nota: En el diagrama de rbol podemos observar, adems de la probabilidad condicional, la probabilidad conjunta en el lado derecho del diagrama de la figura 2.3.
Fig. 2.3. Diagrama de rbol resultante considerando la probabilidad condicional 2.2 Independencia de eventos
La probabilidad condicional nos ayuda a determinar la probabilidad de ocurrencia de un evento A, dado que ya sabemos con certeza que ya ocurri un evento B. Sin embargo, hay situaciones en donde la probabilidad de ocurrencia de un evento A no se ve afectada por la ocurrencia de un evento B. La independencia de eventos puede definirse como:
Ejemplo: Se lanzan dos monedas al aire, cul es la probabilidad de que ambas caigan guila? La probabilidad de que una moneda caiga guila es de 0.5 al ser lanzada. Podemos deducir que el lanzar una segunda moneda no tiene relevancia con el lanzamiento de una primer moneda, por ende, son eventos independientes. P(A) = Lanzar una primer moneda y que caiga guila. P(B) = Lanzar una segunda moneda y que caiga guila. Entonces
Existe un 25% de probabilidades de que caigan dos guilas seguidas. Podemos comprobarlo utilizando un diagrama de rbol como la figura 2.4
Fig. 2.4 Diagrama de rbol resultante de lanzar dos monedas al aire 2. Devore, J. (2008). Probabilidad y estadstica para ingeniera y ciencias. (7a. Ed.). Mxico: Cengage Learning. Captulo: 2, pgina 86 2.3 Teorema de Bayes En el siglo XVIII, el reverendo Thomas Bayes, ministro presbiteriano ingls, intent demostrar la existencia de Dios desarrollando una frmula que evaluaba la posibilidad de su existencia con base en la evidencia existente en la tierra.
Laplace afin el trabajo de Bayes y le dio el nombre de Teorema de Bayes y lo defini como el resultado obtenido por la distribucin de probabilidad condicional de un evento A, dado que ocurri B, en trminos de la probabilidad condicional del evento B dado que ocurri A y la distribucin de probabilidad el evento A.
Ejemplo: Se han colocado dos embarques cada uno con 20 computadoras porttiles de reciente modelo. Se sabe que en el embarque 1 existen 5 computadoras descompuestas y en el embarque 2 existe una computadora descompuesta. Se eligi aleatoriamente un embarque y posteriormente, se eligi una computadora, la cual estaba descompuesta. Cul es la probabilidad de que la computadora descompuesta al azar haya sido seleccionada del embarque 1? Presentaremos la solucin primero en un diagrama de rbol:
Fig. 2.3. Diagrama de rbol para el embarque de computadoras De acuerdo al teorema de Bayes:
En donde: : : Probabilidad de que se seleccion el embarque 1 dado que la computadora estaba descompuesta.
: : : :
: : : :
Probabilidad de seleccionar aleatoriamente el embarque 1. Probabilidad de seleccionar aleatoriamente el embarque 2. Probabilidad de seleccionar una computadora descompuesta dado que se seleccion el embarque 1. Probabilidad de seleccionar una computadora descompuesta dado que se seleccion el embarque 2.
Sustituyendo los valores en la frmula, tenemos que:
La solucin tiene la siguiente interpretacin: Dado que en el embarque 1 tiene ms computadoras defectuosas que el embarque 2, existe un 83.33% de probabilidad de que la computadora haya sido tomada del embarque 1. Glosario Probabilidad conjunta: Probabilidad que mide la posibilidad de que dos o ms eventos ocurran en forma simultnea. Probabilidad y estadstica Tema 3. Tcnicas de Conteo 3.1 Diagrama de rbol Una forma grfica para obtener el total de eventos resultado de un experimento es a travs de un diagrama de rbol. La mejor manera de verlo es a travs de un ejemplo. Ejemplo:
En el mundial de futbol del 2010, la Seleccin Mexicana deber enfrentar a tres rivales en la primera fase y obtener la mayor cantidad de puntos posibles para acceder a la siguiente fase. Considerando nicamente la primera fase, cuntas posibles combinaciones de resultados puede obtener la Seleccin Mexicana? Considerando nicamente los tres juegos en donde se puede perder, empatar o ganar, la lista de resultados posibles est dada por el siguiente diagrama:
Fig. 3.1 Posibles eventos del experimento jugar la primera fase de un mundial De acuerdo a la figura 3.1, la lista de posibles resultados es:
Un diagrama de rbol es de gran utilidad para entender la naturaleza de un experimento y el comportamiento de los eventos entre s. Sin embargo, puede resultar poco prctico llevarlo a cabo pues la cantidad de resultados puede ser muy grande, de manera tal que podra ser complicado construirlo y de poca utilidad para visualizar las ramas que cumplen con el requerimiento deseado. Existen tcnicas matemticas que permiten obtener el total de elementos en un espacio muestral para un experimento dado, entre las que se encuentran:
Principio multiplicativo Principio aditivo Permutaciones Combinaciones
3.2 Principio multiplicativo Si el nmero de eventos posibles en un experimento es relativamente pequeo, resulta sencillo enlistarlos. Regresemos al ejemplo del tirar un dado balanceado: Un dado tiene 6 eventos posibles:
Fig. 3.2 Posibles eventos del experimento de tirar un dado balanceado Sin embargo existen experimentos en los que describir eventos posibles resultara tedioso, el enlistar y contar todas las formas posibles de obtener los eventos, pues la cantidad de posibles combinaciones puede llegar a ser enorme; como podra ser seleccionar un conjunto de seis nmeros de cincuenta y uno posibles para participar en el sorteo Melate. Frmula de la multiplicacin El principio multiplicativo establece que si hay m formas de hacer una cosa y n formas de hacer otra, existen m x n formas de realizar ambas.
Ejemplo:
Un hombre de negocios busca determinar cul combinacin traje, camisa y corbata debe elegir para concretar una importante negociacin. En su guardarropa, el hombre encuentra: Cuatro trajes. Siete camisas de vestir. Cinco corbatas.
Suponiendo que los trajes, las camisas y las corbatas son combinables, de cuntas maneras puede ir vestido este hombre de negocios? Aplicando la frmula, tenemos que:
Donde
3.3 Principio aditivo Adicional a los experimentos donde la cantidad de eventos se establece multiplicando la cantidad de formas de hacer o seleccionar las cosas; existen otro tipo de experimentos con restricciones de orden, jerarqua o prioridad, como por ejemplo cuando una primera decisin excluye por completo una o varias decisiones, y por tanto, la posibilidad de que ocurran otros eventos.
Frmula de la adicin El principio aditivo establece que si existen dos actividades en donde la primera tiene M formas de ser realizada y la segunda Nformas de ser realizadas, entonces el conjunto de actividades puede ser llevado a cabo de M + N formas.
Ejemplo:
Una persona requiere la siguiente lista de muebles de oficina: Un escritorio. Un archivero. Un librero.
Al llegar a la mueblera se da cuenta que existen escritorios de madera y metlicos, cada uno en cuatro colores diferentes, tambin encuentra archiveros de uno, dos y tres cajones en tres colores diferentes y libreros de dos, tres, cuatro y cinco estantes en tamao chico, mediano y grande. De cuntas maneras puede seleccionar un mueble de cada tipo? Sea: A = Evento de seleccionar un escritorio. B = Evento de seleccionar un archivero.
C = Evento de seleccionar un librero. Sabemos que de los escritorios existen dos tipos de materiales en cuatro colores distintos, entonces aplicamos la frmula de la multiplicacin:
Donde
Tambin sabemos que tienen archiveros de dos, tres y cuatro cajones en tres colores diferentes, entonces aplicamos la frmula de la multiplicacin:
Donde
Posteriormente, sabemos que tienen en existencia libreros de dos, tres, cuatro y cinco estantes en tres tamaos diferentes, entonces aplicamos la frmula de la multiplicacin:
Donde
Finalmente, para determinar de cuntas formas pueden seleccionar los muebles de oficina, aplicamos la frmula de la adicin:
Donde
3.4 Permutaciones Como se pudo observar, la frmula de la multiplicacin nos ayuda a determinar la cantidad de arreglos posibles en dos o ms grupos. Sin embargo, existen experimentos en los que slo se tiene un grupo para seleccionar una serie de elementos y queremos determinar el nmero de arreglos posibles en la seleccin. Un claro ejemplo es el caso del sorteo Melate. La permutacin nos ayuda a determinar el nmero posible de arreglos cuando slo hay un grupo de elementos.
1. Mason, R., Lind, D. (1995). Estadstica para administracin y economa. (7a. Ed.). Mxico: Alfaomega Grupo Editor. Captulo: 5. La frmula de la permutacin supone que primero se obtiene un elemento, despus el segundo y as sucesivamente hasta obtener el total de objetos requeridos del grupo en cuestin, en donde cada elemento es distinguible y no se puede repetir la seleccin de un objeto.
Ejemplo:
En un evento de caridad, existe una urna con 10 pelotas diferentes e identificables entre s. Suponga que el presidente de la institucin de caridad desea obtener tres pelotas que definirn a los ganadores de una rifa del primero, segundo y tercer premio respectivamente. Cul es la cantidad de permutaciones posibles al seleccionar tres ganadores de un total de 10? El evento consiste en obtener tres pelotas sin repeticin, dado que una persona no puede ganar dos premios, y deseamos saber el total de permutaciones. Aplicando la frmula tenemos:
Donde
Entonces:
Se tienen 720 diferentes formas de obtener tres ganadores seleccionando 3 pelotas en una urna de 10. Permutaciones con repeticin En el planteamiento original, la permutacin obtiene r elementos de un conjunto de n, en el que no se puede volver a seleccionar ms de una vez un elemento dado. Cuando en un experimento pueden existir repeticiones, la frmula de las permutaciones es:
Ejemplo:
Supongamos que en el alfabeto solo existen 5 letras, cuntas palabras de tres letras podran formarse con 5 letras? En este caso, las letras pudieran repetirse al ir formando palabras, por tanto, se aplica la frmula de la permutacin con repeticiones:
Donde
Entonces:
3.5 Combinaciones En el caso de las permutaciones, otro aspecto importante adems de la repeticin, es que importa el orden en que se obtienen los objetos del conjunto. En el ejemplo de obtener dos pelotas de una urna de 10, no es lo mismo obtener primero la pelota A y en segundo lugar la pelota B que obtener primero la pelota B y en segundo lugar la pelota A, pues en este caso, la permutacin contara dos veces el obtener la pelota A y B.
Ejemplo: Supongamos que en la rifa efectuada en el evento de caridad, los tres ganadores obtendrn el mismo premio, es decir, el premio para cada uno de los tres elegidos es el mismo sin importar quin salga en primero, quin en segundo y quin en tercero. Cul es la cantidad de combinaciones posibles al seleccionar tres pelotas de un total de 10? El evento consiste en obtener tres pelotas sin repeticin, dado que una persona no puede ganar dos premios, y deseamos saber el total de combinaciones, pues no importa el orden en que se obtengan las tres pelotas. Aplicando la frmula tenemos
Donde
Entonces:
Se tienen 120 diferentes formas de obtener tres pelotas en una urna de 10 pelotas sin importar el orden en que se seleccionen. Glosario Principio multiplicativo: Establece que si hay m formas de hacer una cosa y n formas de hacer otra, existen m x n formas de realizar ambas. Principio aditivo: Establece que si existen dos actividades en donde la primera tiene M formas de ser realizada y la segunda Nformas de ser realizadas, entonces el conjunto de actividades puede ser llevado a cabo de M + N formas. Permutacin: Disposicin en orden de un conjunto de objetos en el que hay un primero, un segundo, un tercero, etc., hasta n. Combinacin: Tipo de conteo donde se selecciona un nmero de objetos de un conjunto y, los arreglos obtenidos son iguales no importando el orden en que se seleccionaron.
Probabilidad y estadstica Tema 4. Variables aleatorias
4.1 Distribuciones de probabilidad Una distribucin de probabilidad es un resumen grfico o tabular que nos muestra los resultados esperados de un experimento, as como la probabilidad asociada con cada uno de los resultados esperados. Ejemplo: Supongamos que estamos interesados en determinar la suma de los puntos al lanzar dos dados balanceados. El espacio muestral para este experimento es:
Hay 11 posibles resultados, dados de la siguiente manera. En el primer dado se obtiene 1 y en el segundo dado se obtiene 1; en el primer dado se obtiene 1 y en el segundo dado se obtiene 2; en el primer dado se obtiene 1 y en el segundo dado se obtiene 3; as sucesivamente hasta obtener todos los posibles resultados de la suma de los dos dados. El resumen de los resultados se ve en la siguiente tabla: Dado 1 Dado 2 Suma Dado 1 Dado 2 Suma Dado 1 Dado 2 Suma 1 1 1 1 1 1 2 2 2 2 1 2 3 4 5 6 1 2 3 4 2 3 4 5 6 7 3 4 5 6 3 3 3 3 3 3 4 4 4 4 1 2 3 4 5 6 1 2 3 4 4 5 6 7 8 9 5 6 7 8 5 5 5 5 5 5 6 6 6 6 1 2 3 4 5 6 1 2 3 4 6 7 8 9 10 11 7 8 9 10
2 2
5 6
7 8
4 4
5 6
9 10
6 6
5 6
11 12
Tabla 4.1 Resultados probables de tirar dos dados De la tabla podemos concluir el nmero de ocurrencias para cada resultado, es decir, el nmero de resultados del experimento donde se obtiene una suma de 2 es 1, mientras que el nmero de resultados donde se obtiene una suma de 7 es 6. Veamos el resumen una tabla, en donde tambin se incluye la probabilidad de que ocurra el resultado: Resultado Esperado 2 3 4 5 6 7 8 9 10 11 12 Nmero de ocasiones 1 2 3 4 5 6 5 4 3 2 1 Probabilidad del resultado
Tabla 4.2 Resumen de datos y probabilidad del resultado Grficamente, podemos observar la distribucin de probabilidad de la suma de los puntos de dos dados balanceados. Utilizaremos la herramienta Excel para construir la grfica de la distribucin de probabilidad. En una hoja de Excel se captura la informacin de la tabla de probabilidades 4.2:
Fig. 4.1. Captura de distribucin de probabilidad en Excel Selecciona las columnas e inserta una grfica de columnas, tal como se ve en la siguiente imagen:
Fig. 4.2. Seleccin del tipo de grfica a insertar Ajustamos los datos del cuadro de dilogo de acuerdo a la siguiente figura:
Fig. 4.3 Seleccin de series a graficar
Finalmente, obtenemos una grfica similar a la que se muestra en la grfica 4.1
Grfica 4.1 Distribucin de probabilidad de la suma de puntos de dos dados 4.2 Variables Aleatorias
Vemos unos ejemplos de variables aleatorias: El nmero de empleados ausentes los lunes, que puede tomar el valor de 0, 1, 2, 3 El peso de una barra de acero, que puede tomar el valor de 2500, 2500.1, 2500.13, etc., dependiendo de la exactitud de la bscula. El nmero de caras al lanzar dos monedas, que puede tomar el valor de 0, 1 o 2. La suma de los puntos al tirar dos dados, que puede tomar el valor de 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 o 12.
Existen dos tipos de variables aleatorias: 1. Variables aleatorias discretas.
Una variable aleatoria discreta es vlida para cierto nmero de valores definidos y distantes, en otras palabras, es una variable que slo puede tomar ciertos valores claramente separados y que es resultado de contar algn elemento de inters. Un claro ejemplo de una variable aleatoria discreta es la suma de los puntos de dos dados balanceados. Es importante notar que no necesariamente son valores enteros, tambin puedes ser valores fraccionarios o decimales con cierta distancia entre ellos, como pueden ser puntuaciones otorgadas por los jueces a los gimnastas en los juegos olmpicos, como la de los clavadistas en donde los resultados podran ser datos como los siguientes: Juez 1 5.9 Juez 2 5.7 Juez 3 6.0 Juez 4 5.3 Juez 5 5.2 Total 28.1
2. Variables aleatorias continuas.
Una variable aleatoria continua es vlida para un nmero infinito de valores dentro de un rango, en otras palabras, es una variable que puede tomar cualquier valor de una cantidad infinitamente
grande de valores y que es resultado de medir algn elemento de inters. Algunos ejemplos de variables aleatorias continuas pueden ser: La estatura de una alumno de primero de primaria, puede ir de 1 metro a 1.20 metros, considerando precisiones de varios decimales: 1.05, 1.13, 1.12 La distancia en kilmetros entre las poblaciones mexicanas, pueden tomar desde pocos kilmetros hasta miles de kilmetros: 14.5 Km, 170.33 Km, etc.
Las distribuciones de probabilidad establecen el comportamiento de una variable aleatoria, como el ejemplo de la suma de los puntos de dados balanceados. 4.3 Valor esperado y varianza de una variable aleatoria
El valor esperado de una variable aleatoria es una medida de tendencia central que representa a una distribucin probabilstica. Tambin es el valor promedio a largo plazo de la variable aleatoria, representado por E(X)
En otras palabras, el valor esperado de una variable aleatoria se calcula sumando las multiplicaciones individuales de cada valor de X por su probabilidad de ocurrencia.
En otras palabras, la varianza de una variable aleatoria se obtiene como la suma de las diferencias entre la media y cada valor individual, multiplicado por su probabilidad de ocurrencia. Ejemplo: Una tienda de electrodomsticos que vende televisores, ha establecido la siguiente distribucin de probabilidad para el nmero de televisores que espera vender en un sbado en particular. Nmero de televisores vendidos X 0 1 2 3 4 Total Probabilidad P(X) 0.10 0.20 0.30 0.30 0.10 1.00
Sea X la variable aleatoria discreta para el nmero de televisores vendidos en un sbado en particular, para calcular el valor esperado, aplicamos la siguiente frmula:
El valor esperado obtenido muestra que en promedio se venden 2.1 televisores en un sbado en particular Visto en una tabla, tenemos que: Nmero de televisores vendidos X 0
Probabilidad P(X) 0.10
X * P(X) 0
1 2 3 4 Total
0.20 0.30 0.30 0.10 1.00
0.2 0.6 0.9 0.4 E(X) = 2.1
Para calcular la varianza, podemos utilizar nuevamente una tabla: Nmero de televisores vendidos X 0 1 2 3 4 Total
Probabilidad P(X) 0.10 0.20 0.30 0.30 0.10 1.00 0 2.1 1 2.1 2 2.1 3 2.1 4 2.1 4.41 1.21 0.01 0.81 3.61 0.441 0.242 0.003 0.243 0.361
Como corolario, podemos definir la desviacin estndar como la raz cuadrada de la varianza, que para este caso es de 1.136 televisores. Recuerda que la desviacin estndar es una medida de dispersin que nos indica la distancia en promedio que existe entre los valores mximo y mnimo, con respecto a la media. Lo anterior significa que en un sbado en particular, la tienda de electrodomsticos puede vender entre 0.964 y 3.236. Glosario Promedio: Valor que representa un conjunto de datos. Seala un centro de los valores. Media: Medida de tendencia central (promedio) que representa el valor central de un conjunto de datos. Media poblacional: Medida de tendencia central para una poblacin
Donde: X = Un valor especfico N = Total de valores de la poblacin Media muestral: Medida de tendencia central para una muestra de una poblacin
Donde: X = Un valor especfico n = Total de valores de la muestra Varianza: Media aritmtica de las desviaciones cuadrticas con respecto a la media. Varianza poblacional: Media aritmtica de las desviaciones cuadrticas con respecto a la media para una poblacin.
Varianza muestral: Media aritmtica de las desviaciones cuadrticas con respecto a la media para la muestra de una poblacin.
Desviacin estndar: Media aritmtica de los valores absolutos de las desviaciones con respecto a la media. Se define como la raz cuadrada de la varianza. Probabilidad y estadstica Tema 5. Distribuciones de probabilidad discretas 5.1 Distribucin de probabilidad de Bernoulli Como recordars, una distribucin de probabilidad discreta se representa mediante un resumen tabular que nos muestra los resultados esperados de un experimento, as como la probabilidad asociada con cada uno de los resultados esperados. Una de las distribuciones de probabilidad ms conocidas es la distribucin de probabilidad de Bernoulli, creada por el matemtico y cientfico suizo Jakob Bernoulli. La distribucin de probabilidad de Bernoulli es una distribucin de probabilidad que asigna un valor de 1 al xito en un experimento y un valor de 0 al fracaso. Expresado matemticamente, se dira: Si X es una variable aleatoria que determina el nmero de xitos y se realiza un slo experimento con nicamente dos posibles resultados, entonces la variable aleatoria X tiene una distribucin de probabilidad de Bernoulli. En resumen, las caractersticas principales de una distribucin de Bernoulli son:
La frmula para calcular una probabilidad con la distribucin de Bernoulli es:
En donde el valor esperado y la varianza de un experimento con distribucin de probabilidad de Bernoulli est dado por:
Ejemplo: Implcitamente hemos trabajado con la distribucin de probabilidad de Bernoulli, algunos de los experimentos que hemos visto durante el curso, tienen las caractersticas propias de esta distribucin: lanzar una moneda o tirar un dado balanceado. Repasemos una vez ms el ejemplo de tirar un dado balanceado, considerando la distribucin de probabilidad de Bernoulli: Sea: Cul es la probabilidad de obtener un 6?
Entonces, el xito del experimento se representa cmo:
El fracaso del experimento como:
Aplicando la frmula:
Donde:
Entonces
Esto significa que existe el 16.67% de probabilidades de que se obtenga un 6 al tirar un dado balanceado. 5.2 Distribucin de probabilidad Binomial
La distribucin de probabilidad binomial, es una distribucin de probabilidad discreta y es una extensin de la distribucin de probabilidad de Bernoulli. Si una de las caractersticas de la distribucin de probabilidad Bernoulli es que se realiza una sola vez el experimento, en la distribucin de probabilidad binomial, el experimento puede realizarse un sinnmero de veces.
La distribucin de probabilidad binomial puede describirse mediante la siguiente frmula:
Ejemplo: En una lnea de ensamble se encuentra que 1 de cada 5 partes producidas tiene un milmetro ms de lo deseado. Cul es la probabilidad de que en las siguientes 7 partes producidas se encuentren dos cuya longitud es un milmetro mayor de la esperada?
Consideremos el experimento de encontrar una pieza con un milmetro mayor al deseado, donde:
Esto significa que un 27.52% de las veces se encontrarn 2 partes con un milmetro de ms. 5.3 Representacin grfica de la distribucin de probabilidad binomial Como todo experimento en donde hay dos resultados posibles, la probabilidad de ocurrencia de los eventos en un experimento con las caractersticas de la distribucin de probabilidad binomial, se puede representar tanto en una tabla de resultados como en una grfica de barras. Ejemplo: Continuando con el ejemplo de la lnea de ensamble, en donde se desea saber la cantidad de partes producidas cuya longitud es un milmetro mayor de lo esperado en las siguientes 7 partes, tenemos el siguiente espacio muestral:
Utilizaremos la herramienta Excel para construir la tabla de resultados y la grfica de la distribucin de probabilidad.
Fig. 5.1. Captura de distribucin de probabilidad en Excel Para generar la grfica, selecciona las columnas e inserta una grfica de columnas, tal como se ve en la siguiente imagen:
Grfica 5.3 Distribucin de probabilidad para las partes con longitud mayor en un milmetro 5.4 Distribucin de probabilidad binomial acumulada El clculo de la probabilidad de un evento en especfico, es una de las posibles preguntas que nos hacemos en un experimento; en ocasiones puede ser conveniente determinar la probabilidad acumulada de ciertos eventos. Continuemos con el ejemplo de la lnea de ensamble: En una lnea de ensamble se encuentra que uno de cada 5 partes producidas tiene un milmetro ms de lo deseado. Cul es la probabilidad de que en las siguientes 7 partes producidas se encuentren tres o menos partes cuya longitud es un milmetro mayor de la esperada? Cul es la probabilidad de que en las siguientes 7 partes producidas se encuentren dos o ms partes cuya longitud es un milmetro mayor de la esperada?
Para el primer caso, en donde se requiere saber la probabilidad de que tres o menos partes tengan una longitud mayor a cero, debemos calcular la probabilidad de que se encuentren 0 partes, ms la probabilidad de que se encuentre 1 parte, ms la probabilidad de que se encuentren dos partes y la probabilidad de que se encuentren 3 partes con una longitud mayor en un milmetro.
Para calcular las probabilidades individuales, tenemos:
Finalmente, para calcular la probabilidad de que en las siguientes 7 partes producidas, se encuentren tres o menos partes cuya longitud es un milmetro mayor, tenemos:
Esto indica que existe un 96.67% de probabilidades de encontrar tres o menos partes con un milmetro de ms. Para la siguiente pregunta, sobre cul es la probabilidad de que en las siguientes 7 partes producidas se encuentren dos o ms partes cuya longitud es un milmetro ms de lo esperado, se sigue un procedimiento similar:
Realizando los clculos individuales y realizando la suma, tenemos que:
Esto indica que existe un 42.33% de probabilidades de encontrar dos o ms partes con un milmetro de ms. Para ayudar a responder preguntas del tipo mayor que, menor que, cuando mucho, al menos y otras similares, es conveniente realizar una tabla con la probabilidad de ocurrencia acumulada. Nmero de partes con un mm. de ms (r) 0 1 2 3 4 5 6 Probabilidades menores de 0.2097 0.5767 Se suma hacia abajo 0.8520 0.9667 0.9953 0.9996 1.0000 Se suma hacia arriba Probabilidades mayores de 1.0000 0.7903 0.4233 0.1480 0.0333 0.0047 0.0004
P(r) 0.2097 0.3670 0.2753 0.1147 0.0287 0.0043 0.0004
0.0000
1.0000
0.0000
Tabla 5.1 Probabilidades acumuladas para n = 7 Tablas de distribucin binomial Una distribucin de probabilidad binomial, es una distribucin que puede generarse matemticamente. Sin embargo, los clculos con tamaos de muestra n grandes, pueden ser muy tediosos. Como auxiliar para determinar probabilidades de 0,1, 2, 3, xitos para diferentes valores de n y p, se han formado tablas similares a la siguiente: Probabilidades binomiales para n = 6 r 0 1 2 3 4 5 6 0.05 0.735 0.232 0.031 0.002 0.000 0.000 0.000 0.1 0.531 0.354 0.098 0.015 0.001 0.000 0.000 0.2 0.262 0.393 0.246 0.082 0.015 0.002 0.000 0.3 0.118 0.303 0.324 0.185 0.060 0.010 0.001 0.4 0.047 0.187 0.311 0.276 0.138 0.037 0.004 0.5 0.016 0.094 0.234 0.313 0.234 0.094 0.016 0.6 0.004 0.037 0.138 0.276 0.311 0.187 0.047 0.7 0.001 0.010 0.060 0.185 0.324 0.303 0.118 0.8 0.000 0.002 0.015 0.082 0.246 0.393 0.262 0.9 0.000 0.000 0.001 0.015 0.098 0.354 0.531 0.95 0.000 0.000 0.000 0.002 0.031 0.232 0.735
Considerando esta tabla, podemos calcular las probabilidades sin realizar los clculos involucrados. Por ejemplo. Supongamos que en la lnea de ensamble de nuestro ejemplo, se obtiene una muestra de 6 piezas y deseamos obtener: Probabilidad de que se encuentren 2 piezas con un milmetro de ms. Sabemos que la probabilidad de encontrar una pieza con ms de un milmetro es del 20%. Observando la tabla, podemos obtener directamente esta probabilidad: r 0 1 2 3 4 5 6 0.05 0.735 0.232 0.031 0.002 0.000 0.000 0.000 0.1 0.531 0.354 0.098 0.015 0.001 0.000 0.000 0.2 0.262 0.393 0.246 0.082 0.015 0.002 0.000 0.3 0.118 0.303 0.324 0.185 0.060 0.010 0.001 0.4 0.047 0.187 0.311 0.276 0.138 0.037 0.004 0.5 0.016 0.094 0.234 0.313 0.234 0.094 0.016 0.6 0.004 0.037 0.138 0.276 0.311 0.187 0.047 0.7 0.001 0.010 0.060 0.185 0.324 0.303 0.118 0.8 0.000 0.002 0.015 0.082 0.246 0.393 0.262 0.9 0.000 0.000 0.001 0.015 0.098 0.354 0.531 0.95 0.000 0.000 0.000 0.002 0.031 0.232 0.735
En este caso, la probabilidad de encontrar dos piezas con un milmetro de ms, en una muestra de seis piezas es del 24.6%. Probabilidad de que se encuentren cuando mucho 3 piezas con un milmetro de ms. Para encontrar la probabilidad de que se encuentren cuando mucho 3 piezas, es decir, 3 o
menos piezas, con un milmetro de ms, podemos obtener sumando las probabilidades de 0, 1, 2 y 3 piezas, como se ve en la tabla de probabilidades binomiales: r 0 1 2 3 4 5 6 0.05 0.735 0.232 0.031 0.002 0.000 0.000 0.000 0.1 0.531 0.354 0.098 0.015 0.001 0.000 0.000 0.2 0.262 0.393 0.246 0.082 0.015 0.002 0.000 0.3 0.118 0.303 0.324 0.185 0.060 0.010 0.001 0.4 0.047 0.187 0.311 0.276 0.138 0.037 0.004 0.5 0.016 0.094 0.234 0.313 0.234 0.094 0.016 0.6 0.004 0.037 0.138 0.276 0.311 0.187 0.047 0.7 0.001 0.010 0.060 0.185 0.324 0.303 0.118 0.8 0.000 0.002 0.015 0.082 0.246 0.393 0.262 0.9 0.000 0.000 0.001 0.015 0.098 0.354 0.531 0.95 0.000 0.000 0.000 0.002 0.031 0.232 0.735
En este caso, la probabilidad de encontrar cuando mucho tres piezas con un milmetro de ms, en una muestra de seis piezas es del 98.3%. Probabilidad de que se encuentren al menos dos piezas con un milmetro de ms. Similar al punto anterior, para encontrar la probabilidad de que se encuentren al menos 2 piezas, es decir, 2 o ms piezas, con un milmetro de ms, podemos obtener sumando las probabilidades de 2, 3, 4, 5 y 6 piezas, como se ve en la tabla de probabilidades binomiales: r 0 1 2 3 4 5 6 0.05 0.735 0.232 0.031 0.002 0.000 0.000 0.000 0.1 0.531 0.354 0.098 0.015 0.001 0.000 0.000 0.2 0.262 0.393 0.246 0.082 0.015 0.002 0.000 0.3 0.118 0.303 0.324 0.185 0.060 0.010 0.001 0.4 0.047 0.187 0.311 0.276 0.138 0.037 0.004 0.5 0.016 0.094 0.234 0.313 0.234 0.094 0.016 0.6 0.004 0.037 0.138 0.276 0.311 0.187 0.047 0.7 0.001 0.010 0.060 0.185 0.324 0.303 0.118 0.8 0.000 0.002 0.015 0.082 0.246 0.393 0.262 0.9 0.000 0.000 0.001 0.015 0.098 0.354 0.531 0.95 0.000 0.000 0.000 0.002 0.031 0.232 0.735
La probabilidad de encontrar al menos dos piezas con un milmetro de ms en una muestra de seis piezas es del 34.5%. 5.5 Distribucin de Poisson
El lmite de la distribucin binomial cuando la probabilidad de xito es muy pequea y el nmero de observaciones es muy grande se le denomina distribucin de probabilidad de Poisson, en honor de Simeon Poisson quien la estudi y la dio a conocer en 1937. A la distribucin de Poisson tambin se le conoce como Ley de Eventos Improbables, debido a que la probabilidad de que un evento suceda es bastante pequea.
La distribucin de Poisson puede describirse matemticamente como:
Ejemplo: Los empleados de facturacin rara vez cometen errores en la captura de los datos de facturas. Muchas de las facturas no tienen errores, algunas tienen uno, unas cuantas tienen dos, rara vez una factura tiene tres errores. Una muestra aleatoria de 100 facturas revel 30 errores, cul es la probabilidad de que en una factura seleccionada al azar no se encuentren dos errores? Considerando el experimento, tenemos que en 100 facturas se encontraron 30 errores, una media de 0.3 errores por factura, entonces:
Aplicando la frmula de la distribucin de Poisson, tenemos:
Exista un 3.33% de probabilidades de encontrar 2 errores en una factura seleccionada al azar. Veamos otro ejemplo: La Sra. Garca est encargada de los prstamos de un banco. Con base en sus aos de experiencia, estima que la probabilidad de que un solicitante no sea capaz de pagar oportunamente su prstamo es de 2%. El mes pasado, la Sra. Garca realiz 400 prstamos. Cul es la probabilidad de que 5 prstamos no se paguen a tiempo? El valor , se obtiene de multiplicar el nmero de prstamos realizados por la probabilidad de que el solicitante no pague su prstamo oportunamente.
Considerando el experimento y el dato de
, tenemos:
Aplicando la frmula de la distribucin de Poisson, tenemos:
Existe un 9.16% de probabilidades de que 5 de que los 400 los solicitantes no paguen su prstamo oportunamente. 5.6 Representacin grfica de la distribucin de probabilidad Poisson La distribucin de probabilidad Poisson se puede representar en una tabla de resultados, y en una grfica que describa la distribucin de probabilidad. Continuando con el ejemplo de los prstamos otorgados de la Sra. Garca, utilizaremos la herramienta Excel para construir la tabla de resultados y la grfica de la distribucin de probabilidad.
Grfica 5.6 Distribucin de probabilidad para los solicitantes que no pagan a tiempo 5.7 Distribucin de probabilidad Poisson acumulada Al igual que en la distribucin de probabilidad binomial, en ocasiones puede ser conveniente determinar la probabilidad acumulada de ciertos eventos. Continuemos con el ejemplo de la Sra. Garca: Con base en sus aos de experiencia, estima que la probabilidad de que un solicitante no sea capaz de pagar oportunamente su prstamo es de 2%. El mes pasado, la Sra. Garca realiz
400 prstamos. Cul es la probabilidad de que a lo mucho 3 prstamos no se liquiden a tiempo?
Para este caso, en donde se requiere saber la probabilidad de mximo tres prstamos no se liquiden a tiempo, debemos calcular la probabilidad de que no se liquiden a tiempo 0 prstamos, ms la probabilidad de que no se liquiden a tiempo 1 prstamo, ms la probabilidad de que no se liquiden a tiempo 2 prstamos y la probabilidad de que no se liquiden a tiempo 0 prstamos.
Para calcular las probabilidades individuales, tenemos:
Finalmente, para calcular la probabilidad de que mximo 3 prstamos no se liquiden oportunamente, tenemos:
Esto indica que existe un 4.24% de probabilidades de encontrar tres o menos solicitantes que no paguen su prstamo oportunamente. Para ayudar a responder preguntas del tipo mayor que, menor que, cuando mucho, al menos y otras similares, es conveniente realizar una tabla con la probabilidad de ocurrencia acumulada. Prstamos no pagados a tiempo (x) 0 1 2 3 4 5 6 7 Probabilidades menores de 0.0003 0.0030 0.0138 Se suma hacia abajo 0.0424 0.0996 0.1912 0.3134 0.4530 Se suma hacia arriba Probabilidades mayores de 1.0000 0.9996 0.9970 0.9862 0.9576 0.9003 0.8087 0.6866
P(x) 0.0003 0.0027 0.0107 0.0286 0.0573 0.0916 0.1221 0.1396
8 9 10 11 12 13 14 15 16 17 18 19 20 21
0.1396 0.1241 0.0993 0.0722 0.0481 0.0296 0.0169 0.0090 0.0045 0.0021 0.0009 0.0004 0.0002 0.0001 =8
0.5926 0.7166 0.8159 0.8881 0.9362 0.9658 0.9827 0.9918 0.9963 0.9984 0.9994 0.9998 0.9999 1.0000
0.5470 0.4074 0.2833 0.1841 0.1119 0.0638 0.0341 0.0172 0.0082 0.0037 0.0016 0.0006 0.0002 0.0001
Tabla 5.2 Probabilidades acumuladas para Tablas de distribucin binomial
Una distribucin de probabilidad de Poisson, es una distribucin que puede generarse matemticamente. Sin embargo, los clculos para diferentes valores de , pueden ser muy , se han formado
tediosos. Como auxiliar para determinar probabilidades diferentes valores de tablas similares a la siguiente: Probabilidades de exactamente x ocurrencias x 0 1 2 3 4 5 6 7 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
0.9
1 0.3679 0.3679 0.1839 0.0613 0.0153 0.0031 0.0005 0.0001
0.9048 0.8187 0.7408 0.6703 0.6065 0.5488 0.4966 0.4493 0.4066 0.0905 0.1637 0.2222 0.2681 0.3033 0.3293 0.3476 0.3595 0.3659 0.0045 0.0164 0.0333 0.0536 0.0758 0.0988 0.1217 0.1438 0.1647 0.0002 0.0011 0.0333 0.0072 0.0126 0.0198 0.0284 0.0383 0.0494 0.0001 0.0003 0.0007 0.0016 0.0030 0.0050 0.0077 0.0111 0.0002 0.0004 0.0007 0.0012 0.0020 0.0001 0.0002 0.0003
Considerando esta tabla, podemos calcular las probabilidades sin realizar los clculos involucrados. Por ejemplo: supongamos que en el ejemplo de la Sra. Garca, se tiene un valor de = 1.0 deseamos obtener la probabilidad de que dos o ms solicitantes no paguen oportunamente su prstamo. Para encontrar la probabilidad de que dos o ms solicitantes no paguen oportunamente su
prstamo, podemos obtenerla sumando las probabilidades de 2, 3, 4, 5, 6 y 7 solicitantes, como se ve en la tabla de probabilidades Poisson: Probabilidades de exactamente x ocurrencias x 0 1 2 3 4 5 6 7 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.3679 0.3679 0.1839 0.0613 0.0153 0.0031 0.0005 0.0001 0.9048 0.8187 0.7408 0.6703 0.6065 0.5488 0.4966 0.4493 0.4066 0.0905 0.1637 0.2222 0.2681 0.3033 0.3293 0.3476 0.3595 0.3659 0.0045 0.0164 0.0333 0.0536 0.0758 0.0988 0.1217 0.1438 0.1647 0.0002 0.0011 0.0333 0.0072 0.0126 0.0198 0.0284 0.0383 0.0494 0.0001 0.0003 0.0007 0.0016 0.0030 0.0050 0.0077 0.0111 0.0002 0.0004 0.0007 0.0012 0.0020 0.0001 0.0002 0.0003
En este caso, la probabilidad de que dos o ms solicitantes no paguen oportunamente su prstamo es del 26.42%. 5.8 Aproximacin de Poisson a Binomial La distribucin de probabilidad binomial es buena para determinar probabilidades en dnde la probabilidad de xito es superior a 0.05 y el nmero de observaciones n es relativamente pequeo (menores a 20). Al intentar calcular probabilidades con probabilidad de xito menor a 0.05 y n mayor a 20, la distribucin de probabilidades se vuelve cada vez ms sesgada. Dada las caractersticas anteriores, podemos decir que:
Por ejemplo, si la probabilidad de que sea devuelto un cheque girado es de 0.0003 y se cambian en promedio 10,000 cheques al mes, el nmero medio de cheques devueltos es:
Ejemplo: Apliquemos la distribucin binomial con el ejemplo visto de los empleados de facturacin, en donde: Se sabe que la cantidad de errores promedio es de 0.3 errores por factura. Para obtener la probabilidad de encontrar un error, despejamos la frmula del valor esperado para la distribucin binomial:
Despejando para p
Entonces, para aplicar la distribucin binomial, tenemos:
Existe un 3.33% de probabilidades de encontrar 2 errores en una factura seleccionada al azar. Al comparar los resultados de las probabilidades calculadas por la distribucin de Poisson y la distribucin binomial, observamos que la diferencia entre un clculo y otro es de tan slo 0.000149427, por lo que podemos concluir que la aproximacin de Poisson tambin es una buena opcin para calcular probabilidades binomiales. Glosario Distribucin de Bernoulli: Distribucin de probabilidad de experimentos con un solo ensayo con dos posibles resultados. Distribucin Binomial: Extensin de la distribucin de Bernoulli, en el que se realizan mltiples ensayos en un experimento que tiene dos posibles resultados. Distribucin de Poisson: Distribucin que mide la probabilidad de xito o fracaso en un intervalo definido. Es el lmite de la distribucin binomial cuando cuando . Probabilidad y estadstica Tema 6. Casos especiales de la distribucin Binomial 6.1 Distribucin de probabilidad binomial negativa y o bien,
La distribucin de probabilidad binomial negativa es un caso especial de la distribucin binomial. En el cual al realizar un experimento con dos resultados posibles, xito o fracaso, interesa obtener un nmero r de exitosos, y en donde el ltimo de dichos eventos exitosos, ocurra en el intento nmero k. Para comprender mejor, supongamos lo siguiente: Se realiza un experimento en donde se tira una moneda en cinco ocasiones y se busca obtener la probabilidad de que se obtengan dos guilas, considerando que la segunda guila es obtenida en el ltimo intento. Si consideramos el espacio muestral del experimento, tenemos:
Podemos obtener aquellos eventos en donde se tienen dos guilas y en la ltima de ellas es un guila. Los casos que cumplen esta condicin son:
De los 32 resultados posibles, solo 4 cumplen la condicin de contar con un resultado con dos guilas, siendo uno de esos resultados el ltimo evento. De lo anterior, podemos concluir que la probabilidad de que se obtengan dos guilas, considerando que la segunda guila es obtenida en el ltimo intento es de 0.125 Matemticamente, la frmula de la distribucin de probabilidad binomial negativa es:
Ejemplo: Se realiza un experimento en el cual se tira una moneda en cinco ocasiones y, se busca obtener la probabilidad de que se obtengan dos guilas, considerando que la segunda guila es obtenida en el ltimo intento. Consideremos el experimento de encontrar una pieza con un milmetro mayor al deseado, donde:
Esto significa que el 12.5% de las veces se obtendrn dos guilas, considerando que la segunda guila es obtenida en el ltimo intento, lo que concuerda con el anlisis realizado mediante el espacio muestral del experimento. 6.2 Distribucin de probabilidad geomtrica
La distribucin de probabilidad geomtrica es otro caso especial de la distribucin binomial, en donde al realizar un experimento con dos resultados posibles, xito o fracaso, interesa obtener la probabilidad de obtener un nico xito en el ltimo intento. Supongamos lo siguiente: Se realiza un experimento en donde se tira una moneda en cinco ocasiones y se busca obtener la probabilidad de que se obtenga un guila en el ltimo intento. Si consideramos el espacio muestral del experimento, tenemos:
Podemos obtener aquellos eventos en donde se obtiene un guila en el ltimo intento:
De los 32 resultados posibles, solo 1 cumple la condicin de contar con un resultado de un guila en el ltimo evento. De lo anterior, podemos concluir que la probabilidad de que se obtengan un guila, considerando que es obtenida en el ltimo intento es de 0.03125 La frmula de la probabilidad de distribucin geomtrica es:
Ejemplo: Se realiza un experimento en donde se tira una moneda en cinco ocasiones y se busca obtener la probabilidad de que se obtenga un guila en el ltimo intento. Consideremos el experimento de obtener un guila en el ltimo intento, donde:
Matemticamente, la probabilidad de que se obtenga un guila en el ltimo intento es de 3.125%, lo que concuerda con el anlisis realizado mediante el espacio muestral del experimento. 6.3 Distribucin de probabilidad hipergeomtrica La distribucin de probabilidad hipergeomtrica es otro caso de la distribucin de probabilidad binomial en donde no existe reposicin de los elementos. Supongamos lo siguiente: en un distrito electoral se van a seleccionar 27 votantes y se sabe que el 40% de la poblacin simpatiza por el candidato oficial, mientras que el 60% restante al candidato opositor.
Al seleccionar el primer votante, la probabilidad de que el seleccionado sea simpatizante del candidato oficial es de 0.40. Al seleccionar el segundo votante, dado que ya eliminamos a uno, la probabilidad de que el segundo seleccionado sea simpatizante del candidato oficial se reduce, pues ya quitamos un individuo de la seleccin original.
Matemticamente, la frmula de la distribucin de probabilidad hipergeomtrica es:
Ejemplo: Durante la semana se fabricaron 50 televisores en donde 40 de ellos operaron sin ningn problema y 10 tuvieron al menos un defecto. Se selecciona al azar una muestra de 5 televisores y se desea saber cul es la probabilidad de que cuatro de los 5 seleccionados funcionen sin problemas. Considerando la informacin, tenemos que:
La probabilidad de que 4 televisores de los 5 seleccionados funcionen sin problema es del 43.13%. Probabilidad y estadstica Tema 7. Distribuciones de probabilidad continuas 7.1 Distribucin de probabilidad Uniforme
La distribucin de probabilidad uniforme es aquella que puede tomar cualquier valor dentro de un intervalo, todos ellos con la misma probabilidad. Es una distribucin continua porque puede tomar cualquier valor y no nicamente un nmero determinado. Matemticamente, la distribucin de probabilidad uniforme puede definirse como:
En esta funcin de densidad, la probabilidad de que al hacer un experimento aleatorio, el valor de X este comprendido en cierto subintervalo de [a,b], depende nicamente de la longitud del intervalo, no de su posicin. La distribucin de probabilidad uniforme o rectangular, se puede ver en la figura 7.1
Fig. 7.1 Grfica de la distribucin de probabilidad uniforme Para la distribucin uniforme, podemos definir su funcin de distribucin de probabilidad como:
Grficamente, la probabilidad de ocurrencia de un evento est dada por la lnea en el rango donde la distribucin es vlida, como podemos observar en la siguiente figura:
Fig. 7.2 Probabilidad de ocurrencia para que en el evento se obtiene un valor entre a y c El valor esperado y la varianza en una distribucin uniforme est dada por:
Ejemplo: El volumen de precipitaciones estimado para el prximo ao en la ciudad va a oscilar entre 400 y 500 litros por metro cuadrado. Calcular la funcin de distribucin, la precipitacin media esperada y la varianza. En este caso, la probabilidad de que la precipitacin estimada sea cualquier valor entre 400 y 500 litros, est dada por:
Grficamente:
Fig. 7.3 Probabilidad de que la precipitacin estimada este entre 400 y 500 litros Calculando el valor esperado y la varianza, tenemos que:
Los resultados anteriores significan que la probabilidad de que caigan 400 litros, 401, litros, 402 litros, y as sucesivamente, es de 1%. Se espera, en promedio, que lluevan 450 litros de agua para el prximo ao, con una desviacin estndar de 28.86 litros, es decir, se espera en promedio que llueva entre 421.14 y 478.86 litros de agua el prximo ao. Sabiendo que la probabilidad de que lluevan una cantidad especfica de litros de agua es de 1% entre el rango de 400 y 500 litros: Cul es la probabilidad de que lluevan menos de 430 litros de agua? En este caso, la probabilidad de que lluevan menos de 430 litros de agua est dada por la probabilidad de que lluevan 400 litros, ms la probabilidad de 401, etc. Matemticamente:
Integrando la funcin de densidad y evaluando en x = 430 y x = 400, tenemos que:
La probabilidad de que llueva menos de 430 litros es del 30%. Grficamente:
Fig. 7.4. Probabilidad de que lluevan menos de 430 litros de agua Cul es la probabilidad de que lluevan ms de 490 litros de agua? Similarmente, la probabilidad de que lluevan ms de 490 litros de agua est dada por la probabilidad de que lluevan 490 litros, ms la probabilidad de 491, etc. Matemticamente se expresa de la siguiente forma:
La probabilidad de que llueva ms de 490 litros es del 10%. Grficamente:
Fig. 7.5. Probabilidad de que lluevan ms de 490 litros de agua Cul es la probabilidad de que lluevan entre 420 y 480 litros de agua? La probabilidad de que lluevan entre 420 y 480 litros de agua est dada por la probabilidad de que lluevan 420 litros, ms la probabilidad de 421, etc., hasta la probabilidad de que lluevan 480 litros de agua. Matemticamente, se expresa:
La probabilidad de que llueva entre 420 y 480 litros de agua es del 60%. Grficamente:
Fig. 7.6. Probabilidad de que lluevan entre 420 y 480 litros de agua 7.2 Distribucin de probabilidad exponencial
La distribucin exponencial es el equivalente continuo, de la distribucin geomtrica discreta. Esta ley de distribucin describe procesos en los que nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que el tiempo que pueda transcurrir desde cualquier instante dado t, hasta que ello ocurra en un instante , y es independiente del tiempo transcurrido anteriormente en el que no ha pasado nada.
Matemticamente, la distribucin de probabilidad uniforme puede definirse como:
La distribucin de probabilidad exponencial, se puede ver en la figura 7.2.
Fig. 7.7 Grfica de la distribucin de probabilidad exponencial Para la distribucin exponencial, la funcin de distribucin de probabilidad es:
Grficamente, la probabilidad de ocurrencia de un evento est dada por el rea bajo la curva, como podemos observar en la siguiente figura:
Fig. 7.8 Probabilidad de ocurrencia o rea bajo la curva para la distribucin exponencial El valor esperado y la varianza en una distribucin exponencial est dada por:
Ejemplo: Se ha comprobado que el tiempo de vida de cierto tipo de marcapasos sigue una distribucin exponencial con media de 8 aos. Cul es la probabilidad de que a una persona a la que se le ha implantado este marcapasos se le deba reimplantar otro antes de 10 aos? Sea X la variable aleatoria que mide la duracin de un marcapasos en una persona, entonces, si el valor esperado est dado por:
Entonces, despejando para
, tenemos:
La probabilidad de que el marcapasos dure menos de 10 aos, est dada por la funcin de distribucin de probabilidad:
Utilizando la frmula para cuando X sea mayor a 0, entonces:
El resultado indica que existe una probabilidad del 71.35% de que el marcapasos deba ser cambiado antes de 10 aos de uso. Considerando el ejemplo del marcapasos, cul sera la probabilidad de que un marcapasos en particular tuviera que ser cambiado entre los 7 y los 9 aos de uso? Matemticamente, se expresa:
Integrando la funcin de densidad y evaluando en x = 9 y x = 7, tenemos que:
El resultado indica que existe una probabilidad del 9.22% de que el marcapasos deba ser cambiado cuando haya sido usado entre 7 y 9 aos. Glosario Funcin de Densidad: La funcin de densidad de una variable aleatoria continua representada como f(x), se utiliza con el propsito de conocer cmo se distribuyen las probabilidades de un suceso o evento, en relacin al resultado del suceso. Funcin de Distribucin de Probabilidad: La funcin de distribucin asocia a cada valor de la variable aleatoria la probabilidad acumulada hasta ese valor. Para el caso discreto:
Para el caso continuo:
Probabilidad y estadstica Tema 8. Distribucin normal estndar y distribuciones relacionadas
8.1 Distribucin de probabilidad normal
Fig. 8.1 Caractersticas de una distribucin normal
En una poblacin normal, la relacin entre la media aritmtica y la desviacin estndar presenta tiene la siguiente estructura: 68.25 % de los puntos estn a una distancia de +-1 desviacin estndar de la media. 95.45 % de los puntos estn a una distancia de +-2 desviaciones estndar de la media. 99.73 % de los puntos estn a una distancia de +-3 desviaciones estndar de la media. 99.99966 % de los puntos estn a una distancia de +-6 desviaciones estndar de la media,
que representa el estndar de calidad para Seis Sigma. Grficamente, la relacin entre la media y la desviacin estndar en una distribucin de probabilidad se representa de la siguiente forma:
Fig. 8.2 Relacin entre la media y la desviacin estndar Lo anterior significa que si tomamos un elemento de la poblacin cuyo comportamiento sea normal, tenemos 68.25% de posibilidades de que sea un elemento que est en promedio entre ms y menos una desviacin estndar con respecto a la media. Ejemplo: Una prueba de duracin realizada a un gran nmero de pilas alcalinas revel que la duracin media para un uso especfico antes de que falle es de 19 horas. La distribucin de las duraciones aproxima a una distribucin normal con una desviacin estndar de 1.2 horas. De lo anterior, podemos afirmar: Aproximadamente el 68.25% de las bateras fall entre 17.8 horas y 20.2 horas (ms menos una desviacin estndar). Aproximadamente el 95.45% de las bateras fall entre 16.6 horas y 21.4 horas (ms menos dos desviaciones estndar). Aproximadamente el 99.73% de las bateras fall entre 15.5 horas y 22.6 horas (ms menos tres desviaciones estndar).
Distribucin probabilstica normal estndar Cada distribucin normal estndar tiene una media y una desviacin estndar diferente. Por tanto, el nmero de distribuciones normales es ilimitado y resultara fsicamente imposible proporcionar
una tabla de probabilidades para cada combinacin de media y desviacin estndar. Podemos utilizar un elemento de la familia de distribuciones normales para todos los casos donde la distribucin normal resulte aplicable, tiene una media igual a 0 y una desviacin estndar igual a 1.
Para utilizar la distribucin normal estndar en un problema con una poblacin que se distribuye normalmente, primero se convierte la distribucin en estudio a una distribucin normal estndar, es decir, se le aplica una estandarizacin, utilizando el Valor Z.
Una vez estandarizada, podemos buscar la probabilidad del valor Z en la tabla del rea bajo la curva normal. La tabla considera que el valor de Z empieza en 0 y contina hacia la derecha. Debido a que la mayora de las observaciones est a 3 desviaciones estndar, los valores de probabilidad de Z que podemos encontrar estn en el rango de 0 al 3.09. Veamos el siguiente ejemplo: Si obtenemos un valor de Z = 1.96, el rea bajo la curva a obtener, y por tanto la probabilidad del valor la probabilidad, buscaremos un valor de acuerdo a la grfica 8.2:
Fig. 8.3 rea bajo la curva para un valor de Z = 1.96 El valor de Z se obtiene de la tabla de distribucin normal estndar, que tiene la siguiente estructura: z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 0.00 0.000 0.0398 0.0793 0.1179 0.1554 0.1915 0.2258 0.2580 0.2881 0.3159 0.3413 0.3643 0.3849 0.4032 0.4192 0.4332 0.4452 0.4554 0.4641 0.4713 0.4773 0.4821 0.4861 0.4893 0.4918 0.4938 0.4953 0.4965 0.01 0.0040 0.0438 0.0832 0.1217 0.1591 0.195 0.2291 0.2612 0.2910 0.3186 0.3438 0.3665 0.3869 0.4049 0.4207 0.4345 0.4463 0.4564 0.4649 0.4719 0.4778 0.4826 0.4865 0.4896 0.4920 0.494 0.4955 0.4966 0.02 0.0080 0.0478 0.0871 0.1255 0.1628 0.1985 0.2324 0.2642 0.2939 0.3212 0.3461 0.3686 0.3888 0.4066 0.4222 0.4357 0.4474 0.4573 0.4656 0.4726 0.4783 0.4830 0.4868 0.4898 0.4922 0.4941 0.4956 0.4967 0.03 0.0120 0.0517 0.091 0.1293 0.1664 0.2019 0.2357 0.2673 0.2967 0.3238 0.3485 0.3708 0.3907 0.4082 0.4236 0.4370 0.4485 0.4582 0.4664 0.4732 0.4788 0.4834 0.4871 0.4901 0.4925 0.4943 0.4957 0.4968 0.04 0.0160 0.0557 0.0948 0.1331 0.17 0.2054 0.2389 0.2704 0.2996 0.3264 0.3508 0.3729 0.3925 0.4099 0.4251 0.4382 0.4495 0.4591 0.4671 0.4738 0.4793 0.4838 0.4875 0.4904 0.4927 0.4945 0.4959 0.4969 0.05 0.0199 0.0596 0.0987 0.1368 0.1736 0.2088 0.2422 0.2734 0.3023 0.3289 0.3531 0.3749 0.3944 0.4115 0.4265 0.4394 0.4505 0.4599 0.4678 0.4744 0.4798 0.4842 0.4878 0.4906 0.4929 0.4946 0.496 0.497 0.06 0.0239 0.0636 0.1026 0.1406 0.1772 0.2123 0.2454 0.2764 0.3051 0.3315 0.3554 0.3770 0.3962 0.4131 0.4279 0.4406 0.4515 0.4608 0.4686 0.4750 0.4803 0.4846 0.4881 0.4909 0.4931 0.4948 0.4961 0.4971 0.07 0.0279 0.0675 0.1064 0.1443 0.1808 0.2157 0.2486 0.2794 0.3079 0.334 0.3577 0.3790 0.398 0.4147 0.4292 0.4418 0.4525 0.4616 0.4693 0.4756 0.4808 0.485 0.4884 0.4911 0.4932 0.4949 0.4962 0.4972 0.08 0.0319 0.0714 0.1103 0.148 0.1844 0.2190 0.2518 0.2823 0.3106 0.3365 0.3599 0.3810 0.3997 0.4162 0.4306 0.443 0.4535 0.4625 0.4700 0.4762 0.4812 0.4854 0.4887 0.4913 0.4934 0.4951 0.4963 0.4973 0.09 0.0359 0.0754 0.1141 0.1517 0.1879 0.2224 0.2549 0.2852 0.3133 0.3389 0.3621 0.3830 0.4015 0.4177 0.4319 0.4441 0.4545 0.4633 0.4706 0.4767 0.4817 0.4857 0.4890 0.4916 0.4936 0.4952 0.4964 0.4974
2.8 2.9 3.0
0.4974 0.4981 0.4987
0.4975 0.4982 0.4987
0.4976 0.4983 0.4987
0.4977 0.4983 0.4988
0.4977 0.4984 0.4988
0.4978 0.4984 0.4989
0.4979 0.4985 0.4989
0.4980 0.4985 0.4989
0.4980 0.4986 0.4990
0.4981 0.4986 0.4990
Para encontrar el valor de probabilidad para una Z = 1.96, buscamos primero en la columna Z, donde localizamos el valor 1.9. Recorremos por la fila 1.9 entre las columnas hasta encontrar el 0.06, pues 1.9 ms 0.06 da el valor 1.96 que estamos buscando. En la unin de la fila 1.9 y la columna 0.06, encontramos el valor 0.4750, que representa el rea bajo la curva desde 0 hasta 1.96 en la distribucin de probabilidad. Ejemplo: En una empresa de consultora se est evaluando el esquema de compensaciones de los programadores. El estudio revela la siguiente informacin: El sueldo promedio de un programador es de 1,000 pesos diarios. La desviacin estndar es de 100 pesos diarios.
Se desea conocer: a. Cul es la probabilidad un programador seleccionado al azar obtenga un sueldo entre 790 y 1000 pesos diarios? b. Qu porcentaje de los ejecutivos tienen ingresos de 1245 o ms? c. Cul es el sueldo por debajo del que se encuentra el 30% de los programadores? a. Para el primer caso, calculamos el valor de Z para 790.
Dado que la curva es simtrica, podemos obtener el valor de Z = 2.10 de la tabla de la distribucin normal estndar, cuyo valor es de 0.4821. Como se muestra en la figura 8.4, el rea bajo la curva est dado por:
Fig. 8.4 rea bajo la curva para un valor de Z = 2.1 Lo anterior nos dice que existe una probabilidad del 48.21% de que un programador seleccionado al azar obtenga un sueldo entre 790 y 1000 pesos diarios. Para la segunda pregunta, determinar el porcentaje de los ejecutivos tienen ingresos de 1245 o ms, es necesario determinar el rea entre la media de 1000 y una X de 1245.
Observando la grfica, determinamos el rea de inters:
Fig. 8.5, rea bajo la curva para los sueldos mayores de 1245 Consultando la tabla para Z = 2.45 en la tabla de distribucin normal, observamos:
z 2.0 2.1 2.2 2.3 2.4
0.00 0.4773 0.4821 0.4861 0.4893 0.4918
0.01 0.4778 0.4826 0.4865 0.4896 0.4920
0.02 0.4783 0.4830 0.4868 0.4898 0.4922
0.03 0.4788 0.4834 0.4871 0.4901 0.4925
0.04 0.4793 0.4838 0.4875 0.4904 0.4927
0.05 0.4798 0.4842 0.4878 0.4906 0.4929
0.06 0.4803 0.4846 0.4881 0.4909 0.4931
0.07 0.4808 0.485 0.4884 0.4911 0.4932
Dado que buscamos mayores a 1245, entonces al valor encontrado lo restamos de 0.5, lo que nos da un valor de 0.0071. Esto quiere decir que el 0.71% de los programadores ganan arriba de los 1245 pesos diarios. Para el ltimo punto, en donde se desea saber el sueldo diarios por debajo del que se encuentra el 30% de los programadores, veremos primero en la grfica dnde se encuentra el 30% ms a la izquierda de la curva normal estndar:
Fig. 8.6, rea bajo la curva para el 30% con menor sueldo Dado que la grfica es simtrica, obtenemos el punto en donde la probabilidad es el 0.2000 para la tabla de la distribucin de probabilidad normal. z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.00 0.000 0.01 0.02 0.03 0.04 0.05 0.06
0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.091 0.0948 0.0987 0.1026 0.17 0.1736 0.1772
0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0793 0.0832 0.0871 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1554 0.1591 0.1628 0.1664 0.1915 0.195
0.1985 0.2019 0.2054 0.2088 0.2123
0.2258 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454
En la tabla no existe una Z donde el valor exacto sea 0.2000. Se seleccionan los dos puntos ms
cercanos al valor buscado y determinamos nuestro valor de Z como 0.525. Como nos interesa el lado izquierdo de la curva, entonces el valor de Z es de -0.525: Despejando para X:
Resolviendo la ecuacin:
Lo anterior significa que el 30% de los programadores ganan menos de 947.5 pesos diarios. 8.2 Aproximacin de Normal a Binomial En la distribucin de probabilidad binomial pueden construirse tablas de distribucin parecidas a la tabla de distribucin normal. Sin embargo, mientras el tamao de la muestra va en aumento, el generar una distribucin de probabilidades tomara mucho tiempo. Una caracterstica hasta ahora no mencionada, es que en una distribucin binomial, al aumentar el tamao de la muestra, se acerca a una distribucin de probabilidad normal.
Ejemplo: En una pizzera se realiz un estudio en donde se descubri que el 70% de sus clientes nuevos vuelven una segunda ocasin. En una semana en la que 80 clientes nuevos cenaron en el establecimiento, cul es la probabilidad de que regresen 60 o ms en otra ocasin? Debido a que estamos aproximando una distribucin discreta a una distribucin continua, es necesario hacer un ajuste llamado factor de correccin de continuidad. Esto obliga a restar 0.5 al valor que estamos buscando, es decir, 60 0.5 = 59.5. Consideremos lo siguiente:
Obtenemos el valor de Z para 60 clientes:
Obtenemos el valor del rea bajo la curva para Z = 0.85:
Fig. 8.7 rea bajo la curva para un valor de Z = 0.85 Debido a que buscamos la probabilidad de que regresen 60 o ms clientes, lo que nos interesa es el valor de la probabilidad del z = 0.85 en adelante. Tambin sabemos que el rea bajo la curva de cada mitad es de 0.5, entonces:
El resultado indica que existe un 19.77% de probabilidades de regresen 60 o ms clientes de los 80 clientes nuevos que visitaron la pizzera. 8.3 Distribuciones relacionadas a la distribucin normal Distribucin de probabilidad de Weibull La distribucin de Weibull se aplica en los anlisis de fiabilidad para establecer, por ejemplo, el periodo de vida de un componente hasta que presenta una falla. La distribucin de Weibull es til por su habilidad para simular un amplio rango de distribuciones como la distribucin de probabilidad normal y la distribucin de probabilidad exponencial. La funcin de distribucin de probabilidad de Weibull est dada por:
Grficamente, la distribucin de Weibull tiene la siguiente forma:
Fig. 8.8 Grfica de la distribucin Weibull Ejemplo: Una cermica diseada tiene un mdulo de Weibull = 9. La resistencia a la flexin estndar es de 269.4 MPa y se desea saber cul es la probabilidad de que la resistencia de la cermica falle a los 250? Consideremos lo siguiente:
Aplicando la frmula, tenemos que:
Esto significa, que existe una probabilidad del 40% de que la cermica falle con una presin de 250MPa. Distribucin de probabilidad Lognormal
La distribucin lognormal tiene dos parmetros:
La funcin de distribucin de probabilidad Lognormal est dada por:
Grficamente, la distribucin de LogNormal tiene la siguiente forma:
Fig. 8.8 Grfica de la distribucin Log Normal Ejemplo: En un estudio realizado en maquinaria pesada, se encontr en promedio las mquinas fallan a los 2.32 aos de uso continuo, con una desviacin estndar de 0.45. Suponiendo que sigue una distribucin Lognormal, cul es la probabilidad de que una mquina en especfico dure 8 aos o menos? Considerando:
Grficamente, tenemos:
Fig. 8.9 rea bajo la curva para fallas en 8 aos o menos Buscamos el valor de 0.5345 en la tabla de Z y lo restamos a 0.5, pues es la cola derecha la que estamos buscando y que es igual a la cola izquierda del valor original. z 0.0 0.1 0.2 0.3 0.4 0.5 0.00 0.000 0.01 0.02 0.03 0.04 0.05
0.0040 0.0080 0.0120 0.0160 0.0199 0.091 0.0948 0.0987 0.17 0.1736
0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0793 0.0832 0.0871 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1554 0.1591 0.1628 0.1664 0.1915 0.195
0.1985 0.2019 0.2054 0.2088
Debido a que el valor de Z es de 0.5345, tomamos el promedio entre las probabilidades 0.53 y 0.54, lo que da como resultado un valor de 0.20365. Al 0.5 le restamos 0.20365 y obtendremos la probabilidad deseada, que es de 0.29635. Esto nos dice que la probabilidad de que falle una maquinaria antes de los 8 aos en una distribucin lognormal es de 29.63%. Distribucin de probabilidad Beta La distribucin de probabilidad beta es una funcin de densidad con dos parmetros definida en el intervalo cerrado . Se utiliza frecuentemente como modelo para fracciones, como por ejemplo: la proporcin de impurezas en un producto qumico o la fraccin de tiempo que una maquina est en reparacin. La funcin de distribucin de probabilidad Beta est dada por:
Un caso especial de la distribucin Beta con a = 1 y b = 1 es la distribucin de probabilidad uniforme. Grficamente, la distribucin Beta tiene la siguiente forma:
Fig. 8.10 Grfica de la distribucin Beta Ejemplo: En el presupuesto familiar, la proporcin que se dedica a salud sigue una distribucin Beta con parmetros a = 2 y b = 2. Cul es la probabilidad de que se gaste ms del 25% del presupuesto familiar en salud? Utilizaremos Excel para obtener la probabilidad con la funcin de distribucin Beta. Conociendo los parmetros a y b, adems del valor de X = 25, aplicamos la frmula en Excel:
Donde:
Aplicando la frmula en Excel, tenemos:
Fig. 8.11. Aplicacin de la distribucin Beta en Excel La frmula en Excel nos da la probabilidad acumulada menor al valor de X, en nuestro caso, solo hay que buscar la probabilidad complemento, la cul es de 0.84375. Este resultado nos dice que existe una probabilidad del 84.37% de que se gaste ms del 25% del presupuesto familiar en salud, Glosario Factor de correccin de continuidad: El valor de 0.5 se suma o se resta a un valor seleccionado, dependiendo del problema. Cuando una distribucin probabilstica binomial se est aproximando por medio de una distribucin de probabilidad continua, en este caso a la distribucin normal. Probabilidad y estadstica Tema 9. Experimentacin y presentacin de datos 9.1 Conceptos bsicos
Si uno revisa los diarios o escucha un juego de futbol por la televisin, se ver sometido a una gran cantidad de cifras a las que comnmente se les denomina estadstica. Sin embargo, el estudio de las estadsticas tiene un significado mucho ms amplio que la simple recopilacin y publicacin de hechos y datos numricos.
La primera parte de la definicin de Estadstica se refiere a la organizacin, presentacin y anlisis de datos numricos. A este aspecto de la estadstica se le llama Estadstica Descriptiva. Formalmente, podemos considerar una definicin de Estadstica Descriptiva como los procedimientos empleados para organizar y resumir conjuntos de datos numricos. Niveles de medicin. Existe una clasificacin que nos permite distinguir la forma en que se presentan las estadsticas, debido principalmente a las caractersticas de los datos que se tienen o que se van a reunir. 1. Nivel nominal. Representa el nivel ms primitivo o el ms bajo de medicin, se refiere a datos que slo pueden clasificarse en categoras, no intervienen mediciones ni escalas, solo hay conteos globales. La siguiente tabla es un ejemplo del nivel de medicin nominal: Religin indicada por la poblacin por personas con edades de 14 aos o mayores Religin Protestante Catlica Juda Otra religin Ninguna religin Religin no indicada Total Total 78,952,000 30,669,000 3,868,000 1,545,000 3,195,000 1,104,000 119,333,000
En el nivel nominal no existe un orden particular entre los grupos, puesto que se pudo haber ordenado por el nmero de personas que practican una religin. Otra caracterstica que podemos obtener de la tabla, es que las categoras se consideran mutuamente excluyentes, lo que significa que una persona no podra ser protestante y al mismo tiempo no tener ninguna religin, es decir, cada persona, objeto o medicin se incluye solamente en una categora. Finalmente, tambin podemos observar que las categoras son exhaustivas, lo que significa que cada individuo, objeto o medicin debe aparecer en una categora. 2. Nivel ordinal.
En el nivel ordinal, las categoras se distinguen unas de otras por tener un orden relacionado con mejor, superior, mayor, en donde una clasificacin tiene una mejor posicin dentro del objeto de medicin. Veamos un ejemplo: Calificaciones de estudiantes, semestre de otoo Calificaciones Excelente Muy bien Bien Suficiente Deficiente Nmero de calificaciones 6 18 15 7 0
En este ejemplo, podemos ver que una calificacin Excelente es mejor que una calificacin Muy bien. Al igual que el nivel nominal, las categoras son mutuamente excluyentes y exhaustivas. La principal diferencia con el nivel nominal es la relacin mayor que entre las categoras. 3. Nivel de intervalo. La escala de medicin de intervalo incluye todas las categoras del nivel ordinal, pero adems la distancia entre valores de la categora es constante. La siguiente tabla muestra un ejemplo de ello. Calificaciones de examen para ingresar a una escuela Puntuaciones 90-99 80-89 70-79 60-69 Menos de 60 Nmero de solicitantes 42 19 7 4 3
Las puntuaciones del examen se clasifican por categoras y tiene una relacin de mayor que entre ellas. Sin embargo, tambin se puede determinar la diferencia entre estas puntuaciones (categoras) y tales diferencias son de un tamao constante y conocido: La puntuacin 95 est 10 puntos por encima de una de 85, una puntuacin de 85 est 10 puntos por encima de una de 75 y as sucesivamente. 4. Nivel de razn o de cociente. Es el nivel de medicin ms alto. Tiene todas las caractersticas del nivel de intervalo: las distancias son de un tamao conocido y constante, las categoras son mutuamente excluyentes y exhaustivas. Existen dos diferencias entre el nivel de razn o cociente y el nivel de intervalo: o Los datos de nivel de razn tienen un punto cero significativo.
La razn o cociente entre dos nmeros es significativa.
El dinero es un buen ejemplo del nivel de razn: el tener 0 pesos tiene significado: no se tiene ningn dinero! Asimismo, si una persona gana $40,000 pesos al mes y otra persona gana $10,000 pesos al mes, la primera persona gana 4 veces ms que la segunda. Otros ejemplos de niveles de razn, son el peso de una persona, el nmero de aos dedicados a la enseanza y el nmero de automviles vendidos el ltimo mes. 9.2 Clasificacin y organizacin de los datos Una distribucin de frecuencias es un mtodo estadstico til para organizar un conjunto de observaciones en forma significativa, basado en un agrupamiento de datos en categoras que muestran el nmero de observaciones de cada categora. Ejemplo: La gerencia de ventas de una gran empresa de construccin y renta especializada en condominios vacacionales realiza un estudio para determinar las ofertas en las rentas mensuales a los prximos vacacionistas. Se seleccion una muestra de 120 ofertas de arrendamiento: Rentas mensuales de condominios 1170 1332 1471 1826 1440 1119 1352 1428 1470 1249 949 1752 1207 1418 1399 1309 1421 1020 1340 1603 1783 1419 1539 1648 1581 1949 1041 1426 1329 1400 1459 1699 1618 2162 1634 1978 1277 1403 1379 1288 1407 1442 1823 1237 1431 1373 1637 640 1305 1744 821 1394 718 1593 1451 1325 1557 1542 1649 1736 1472 1532 1558 1545 1457 1962 1138 1590 896 1631 1607 1222 1077 1219 1118 1032 1449 1263 1592 1142 1662 1567 1640 1790 1319 896 1533 1289 1455 1788 982 1425 1591 1221 1739 1188 1537 1500 1510 695 2051 1501 1981 1550 1551 1972 1540 2091 1849 1671 1760 803 1677 1668 1091 913 1612 1714 2187 1829
De la informacin sin procesar, podemos obtener un primer par de datos de inters: El valor menor y mayor, marcados en la tabla. Resulta tedioso en este mundo de informacin obtener informacin, incluso el valor ms grande o el ms bajo. Una forma de resolverlo es ordenando la tabla de mayor a menor, pero lo nico que facilitara ser precisamente encontrar los valores menor y mayor de la tabla. Una mejor forma de resumir las rentas mensuales de condominios es organizarlas en una distribucin de frecuencias.
1. El primer paso es establecer un conjunto de agrupamientos denominados clases. Una clase puede contener todas las rentas desde 600 hasta 799, inclusive. La siguiente clase podra ser desde 800 hasta 899 inclusive, as sucesivamente. Cada clase tiene dos lmites: un lmite inferior declarado y un lmite superior declarado. Es prctica comn que el lmite inferior de la primera clase sea uno ligeramente menor que la primera o ms baja observacin. Utilizando 200 una distancia entres los lmites inferiores de las clases, stas quedaran como sigue: Clases para la renta mensual de condominios 600 799 800 999 1000 1199 200 es la distancia entre los lmites de clase inferiores declarados 1200 1399 1400 1599 1600 1799 1800 1999 2000 2199 De la tabla anterior podemos definir los siguientes conceptos: Un intervalo de clase se determina restando el lmite inferior declarado de la clase del lmite inferior declarado de la siguiente clase. En el caso de la renta de condominios, el intervalo de clases de 200. El punto medio de una clase, denominado marca de clase, se determina localizando la mitad entre los lmites declarados. Se determina sumando los lmites inferior y superior y dividiendo el total entre dos: Clase 600 799 800 999 1000 1199 1200 1399 1400 1599 1600 1799 1800 1999 2000 2199 Marca de clase 699.5 899.5 1099.5 1299.5 1499.5 1699.5 1899.5 2099.5
Una forma prctica para obtener el intervalo de clase es utilizar la siguiente frmula:
De acuerdo a nuestro ejemplo, se decidieron formar 8 clases para clasificar la renta mensual de condominios, entonces, el intervalo de clase est dado por:
Dado que es incmodo trabajar con un intervalo de 193.375, resulta prctico redondear el intervalo de clase para la distribucin de frecuencias. Recomendacin: Si no se est seguro del nmero de clases que se deban utilizar, podemos utilizar la siguiente frmula:
Para el caso de las rentas, la aplicacin de la frmula sera:
2. El siguiente paso es llevar la cuenta de los valores de las clases y determinar cuntos valores pertenecen a cada clase: Clase 600 799 800 999 1000 1199 1200 1399 1400 1599 1600 1799 1800 1999 2000 2199 Total Ahora podemos obtener informacin como: La menor renta es aproximadamente 600. La mayor se aproxima a 2200. Nmero de unidades 3 7 11 22 40 24 9 4 120
La mayor concentracin est entre 1400 y 1600.
Forzar las rentas a una distribucin de frecuencias ha originado prdida de informacin, pues al organizar los datos en clases, ya no es posible sealar con exactitud valores como 692 o 1218. Sin embargo, las ventajas de resumir en forma comprensible compensan en alto grado la desventaja. Puede resultar conveniente convertir las frecuencias a frecuencias de clase relativas para mostrar el porcentaje del nmero total de observaciones en cada clase: Clase 600 799 800 999 1000 1199 1200 1399 1400 1599 1600 1799 1800 1999 2000 2199 Total Nmero de unidades 3 7 11 22 40 24 9 4 120 Frecuencia relativa 0.025 0.058 0.092 0.183 0.334 0.200 0.075 0.033 1.00
La frecuencia relativa se obtiene dividiendo el nmero de unidades de cada clase entre el total de observaciones:
9.3 Anlisis descriptivo de los datos
A menudo los datos sobre ingresos, edades, etc., se agrupan y presenta en forma de una distribucin de frecuencias, por lo general resulta imposible obtener los datos originales. Si nos
interesa un valor representativo para los datos, es necesario estimarlo con base en la distribucin de frecuencias. Media aritmtica Para evaluar la media aritmtica de datos agrupados, las observaciones de cada clase se representan con la marca de clase. La media de una muestra de datos organizados en una distribucin de frecuencias se calcula con:
Ejemplo: Clase 600 799 800 999 1000 1199 1200 1399 1400 1599 1600 1799 1800 1999 2000 2199 Nmero de unidades 3 7 11 22 40 24 9 4 Marca de clase 699.5 899.5 1099.5 1299.5 1499.5 1699.5 1899.5 2099.5 2,098.50 6,296.50 12,094.50 28,589.00 59,980.00 40,788.00 17,095.50 8,398.00
Realizando la suma de los y dividiendo entre el total de observaciones, tenemos:
El valor de la media aritmtica obtenido a travs de datos agrupados, puede ser diferente a la media aritmtica de la que se puede obtener de los datos originales, debido principalmente a la prdida de informacin. De esta forma, la media aritmtica de datos agrupados slo puede considerarse una estimacin de la media aritmtica de los datos no agrupados. Desviacin estndar La desviacin estndar para datos agrupados tambin es una aproximacin de la desviacin estndar que se puede obtener de los datos originales. Por tanto, tambin en este caso estamos
hablando de una estimacin de la desviacin estndar de los datos no agrupados. La frmula para calcular la desviacin estndar de datos agrupados, es la siguiente:
Ejemplo: Clase 600 799 800 999 1000 1199 1200 1399 1400 1599 1600 1799 1800 1999 2000 2199 Nmero de unidades 3 7 11 22 40 24 9 4 Marca de clase 699.5 899.5 1099.5 1299.5 1499.5 1699.5 1899.5 2099.5 2,098.50 6,296.50 12,094.50 28,589.00 59,980.00 40,788.00 17,095.50 8,398.00 1,467,900.8 5,663,701.8 13,297,902.8 37,151,405.5 89,940,010.0 69,319,206.0 32,472,902.3 17,631,601.0
Realizando la sumatorias correspondientes, dividiendo entre el total de observaciones menos uno y obteniendo la raz cuadrada, tenemos:
9.4 Representacin grfica de los datos
Los gerentes de ventas y otros ejecutivos con frecuencia necesitan tener una visin rpida de la tendencia en ventas, precios, acciones, costos, etc. Estas tendencias pueden mostrarse utilizando diagramas o grficas. Tres diagramas que representan de manera adecuada una distribucin de frecuencias son el histograma, el polgono de frecuencias y el polgono de frecuencias acumuladas. Histograma El histograma es uno de los medios grficos de ms fcil interpretacin. Su elaboracin se ilustra con el ejemplo de las rentas mensuales de condominios, utilizaremos la herramienta Excel para construir el histograma. Primeramente capturamos la distribucin de frecuencias en Excel.
Fig. 9.1 Distribucin de frecuencias en Excel Para generar el histograma, selecciona las columnas e inserta una grfica de columnas, tal como
se ve en la siguiente imagen:
Fig. 9.2 Insercin de histograma en Excel Finalmente, Excel generar el histograma para la distribucin de frecuencias, como se ve en la figura 9.3
Fig. 9.3 Histograma para la distribucin de frecuencias de la renta de condominios La informacin obtenida a partir del histograma es evidente: la renta mensual ms baja es aproximadamente 600, la ms elevada es aproximadamente 2200 y la mayora de las rentas est entre 1200 y 1800. El histograma proporciona una nocin visual de fcil interpretacin. Si se hubiera graficado las frecuencias relativas en vez de las frecuencias de clase, la forma general de la distribucin sera muy parecida. Polgono de frecuencias Para la elaboracin del polgono de frecuencias, utilizaremos nuevamente la renta mensual de
condominios. A diferencia del histograma, el polgono de frecuencia necesita los puntos medios de clase y las frecuencias de clase. Nuevamente haremos el procedimiento en Excel. Primeramente calculamos la marca de clase para la distribucin de frecuencias.
Fig. 9.4 Distribucin de frecuencias en Excel considerando la marca de clase Para generar el polgono de frecuencias, selecciona las columnas e inserta una grfica de columnas, tal como se ve en la siguiente imagen:
Fig. 9.5 Insercin de polgono de frecuencia en Excel Finalmente, Excel generar el histograma para la distribucin de frecuencias, como se ve en la figura 9.6
Fig. 9.6 Polgono de frecuencias para la distribucin de frecuencias de la renta de condominios. Tanto el polgono de frecuencias como el histograma permiten obtener una imagen rpida de las principales caractersticas de los datos: mximos, mnimos, concentracin, etc. El polgono de frecuencias es muy til cuando se quieren comparar dos o ms distribuciones de frecuencias Polgono de frecuencias acumuladas Regresemos al ejemplo de los condominios. Cuntos se rentan en ms de 950 mensuales?, qu porcentaje se renta en menos de 1500? Las respuestas a estas preguntas pueden aproximarse desarrollando una distribucin de frecuencias acumuladas y trazando un polgono de frecuencias acumuladas, a veces denominado ojiva. Existen dos formas: 1. Polgono de frecuencias acumuladas menor que. Para elaborar un polgono de frecuencias acumuladas del tipo menor que, se realiza sumando de la primera clase hasta la ltima acumulando el nmero de observaciones por clase: Clase Menos de 599 Menos de 799 Menos de 999 Menos de 1199 Menos de 1399 Menos de 1599 Menos de 1799 Menos de 1999 Menos de 2199 Nmero de unidades 0 3 7 11 22 40 24 9 4 Se suma hacia abajo Frecuencia acumulada 0 3 10 21 43 83 107 116 120
2. Polgono de frecuencias acumuladas mayor que. Para elaborar un polgono de frecuencias acumuladas del tipo mayor que, se realiza
sumando desde la ltima clase hasta la primera acumulando el nmero de observaciones por clase: Clase Ms de 599 Ms de 799 Ms de 999 Ms de 1199 Ms de 1399 Ms de 1599 Ms de 1799 Ms de 1999 Ms de 2199 Nmero de unidades 3 7 11 22 40 24 9 4 0 Se suma hacia arriba Frecuencia acumulada 120 117 110 99 77 37 13 4 0
Realizaremos el procedimiento en Excel para el polgono de frecuencias acumuladas del tipo menor que. Un procedimiento similar se usa para el polgono de frecuencias acumuladas del tipo mayor que.
Fig. 9.7 Distribucin de frecuencias acumuladas menor que Para generar el polgono de frecuencias acumuladas, selecciona las columnas e inserta una grfica de columnas, tal como se ve en la siguiente imagen:
Fig. 9.8 Insercin de polgono de frecuencia en Excel Finalmente, Excel generar el histograma para la distribucin de frecuencias, como se ve en la figura 9.9
Fig. 9.9 Polgono de frecuencias menor que para la renta de condominios. Con un procedimiento similar para un polgono de frecuencias acumuladas del tipo mayor que, se obtendra la siguiente grfica:
Fig. 9.10 Polgono de frecuencias mayor que para la renta de cond ominios Glosario Estadstica Descriptiva: Procedimientos empleados para organizar y resumir conjuntos de datos numricos. Distribucin de frecuencias: Mtodo estadstico til para organizar un conjunto de observaciones en forma significativa, basado en un agrupamiento de datos en categoras que muestran el nmero de observaciones de cada categora Clase: Conjunto de agrupamientos en una distribucin de frecuencias divididos por lmites inferiores y lmites superiores. Intervalo de clase: Diferencia entre el lmite inferior de la clase y el lmite inferior de la siguiente clase. Marca de clase: Punto medio de un clase. Polgono de frecuencias acumuladas: Se utiliza cuando se desea determinar cuntas observaciones se encuentran por encima o por debajo de ciertos valores. Probabilidad y estadstica Tema 10. Estadsticos muestrales y sus aplicaciones 10.1 Conceptos bsicos Comencemos con una pregunta: Por qu muestrear la poblacin? Algunas de las razones para ello pudieran ser: La naturaleza de ciertas pruebas destructivas, como los catadores de vino, las pruebas de estrs en las plantas productivas de los nuevos, modelos, la resistencia al impacto de un nuevo modelo de automvil. La imposibilidad fsica de revisar todos los integrantes de una poblacin, como una evaluacin del tamao de los peces en todos los mares. El costo de estudiar a toda la poblacin a menudo pudiera ser
prohibitivo o bien, el tiempo que se requiere para completar al estudio es limitado. Para garantizar que un estudio de una poblacin basado en una muestra es vlido, la muestra tomada de la poblacin debe ser una muestra probabilstica, lo que significa que se debe seleccionar la muestra de modo que cada integrante de la poblacin en estudio tenga una probabilidad conocida, diferente de cero, de ser incluido en la muestra. Al utilizar mtodos no probabilsticos para determinar los elementos que componen una muestra poblacional, no todos los integrantes tienen la misma probabilidad de ser incluidos. En estos casos los resultados del estudio pueden estar sesgados. 10.2. Mtodos de muestreo probabilstico Aunque no existe un mtodo que se considere el mejor para seleccionar una muestra probabilstica, o un mtodo aplicable a todas las situaciones, todos los mtodos tienen un mismo objetivo: permitir que el azar determine los integrantes que se incluirn en la muestra. 1. Mtodo aleatorio simple. Una muestra aleatoria simple es una muestra formulada de manera que cada integrante de la poblacin tenga la misma probabilidad de quedar incluido. Ejemplo: Supongamos que de una poblacin de 845 trabajadores se seleccionar una muestra de 52 trabajadores. Una forma de asegurar que todos los empleados en la poblacin tengan la misma probabilidad de ser elegidos, es escribir los nombres de todos ellos en papeletas, depositarlos en una caja, mezclarlos y empezar a seleccionar una papeleta a la vez hasta completar los 52 trabajadores. Un mtodo ms adecuado para definir la muestra aleatoria es emplear el nmero de identificacin de cada empleado y dejar que un programa obtenga nmeros aleatorios que coincidan con los nmeros de empleados. 2. Mtodo aleatorio sistemtico. Una muestra aleatoria sistemtica se determina ordenando los integrantes de la poblacin alfabticamente, en un archivo segn la fecha en que se reciben o por algn otro mtodo. Despus se selecciona al azar un punto de inicio y despus se elige cada k-simo elemento de la poblacin para la muestra. El problema con este tipo de mtodos es si existe un patrn predeterminado de la muestra, como el caso de un almacn donde se tienen los artculos ordenados por el nivel de movimiento en el mercado. Ordenarlos por rotacin reduce la aleatoriedad de la seleccin sistemtica. 3. Mtodo aleatorio estratificado. La muestra aleatoria estratificada consiste en la separacin de la poblacin en subgrupos denominados estratos, y se selecciona una muestra de cada estrato.
Despus de dividir la poblacin en estratos, puede seleccionarse una muestra proporcional o no proporcional. Como su nombre lo indica, un procedimiento proporcional exige que el nmero de elementos en cada estrato tenga la misma proporcin que se encuentra en la poblacin. Ejemplo: En un estudio de los gastos de propaganda de las 352 compaas ms grandes, se determinar si las empresas que pagan altos dividendos gastan ms o menos de cada peso de ventas en propaganda. Se dividen las compaas en estratos en aquellas que tenan un 30% o ms de rentabilidad, aquellas con una rentabilidad entre 20% y 30% y as sucesivamente. De las 352 empresas, se busca una muestra de 50 empresas a travs de una muestra proporcional. Estrato 1 2 3 4 5 Total Rentabilidad Mayor a 30% De 20 a 30% De 10 a 20% De 0 a 10% Dficit Empresas 8 35 189 115 5 352 Porcentaje 2 10 54 33 1 100 Muestra 1 5 27 16 1 50
Tabla 10.1 Muestreo aleatorio estratificado con muestra proporcional 4. Mtodo de muestreo conglomerado. Empleado comnmente para reducir el costo de muestrear una poblacin dispersa en un rea geogrfica grande. Por ejemplo, si se desea hacer una encuesta respecto a las polticas estatales acerca del medio ambiente, se subdividen las regiones del estado en reas pequeas comnmente llamados municipios. De las reas pequeas se seleccionan ciertas reas al azar y se concentran los esfuerzos de muestreo en las reas seleccionadas. Aunque la seleccin de la muestra poblacional sea lo ms aleatoria posible y garantiza que cada miembro de la poblacin haya tenido la misma probabilidad de haber sido incluido, es poco probable que la media muestral sea idntica a la media poblacional. De igual forma, la desviacin estndar calculada a partir de la muestra, probablemente no ser la exactamente igual al valor correspondiente de la poblacin. A la diferencia entre una estadstica de muestra y su parmetro poblacional correspondiente se le denomina error de muestreo, atribuible simplemente al azar. 10.3 Estadsticos muestrales
Un estadstico muestral es una medida cuantitativa calculada a partir de una muestra aleatoria, cuyo objetivo es estimar una medida cuantitativa poblacional. Media muestral La medida de tendencia central de uso ms amplio es la llamada media aritmtica. Para datos originales o no agrupados, lamedia es la suma de todos los valores dividida entre el nmero total de valores. A fin de obtener la media de una muestra, se usa la siguiente frmula:
Matemticamente, se expresa de la siguiente forma:
Ejemplo: Los pesos netos en gramos de cinco envases de un perfume, seleccionados en forma aleatoria de la lnea de produccin son: 84.4, 85.3, 84.9, 85.4 y 85.0. Cul es la media de las observaciones muestrales de los pesos de los envases? Consideremos:
Matemticamente, se expresa:
La media aritmtica muestral de los pesos de los envases es de 85.2 gramos. Varianza muestral. La frmula para calcular la media poblacional y la media muestral es prcticamente la misma, slo cambia la forma en que representamos la media aritmtica y, por encima de todo, la forma en que se interpreta el resultado. En el caso de la varianza muestral, la conversin de la frmula poblacional a la muestral no es tan directa. Se debe hacer una ligera modificacin en el denominador. La frmula de la varianza muestral como estimador de la varianza poblacional es la siguiente:
Por qu la diferencia en el denominador?, por qu dividir entre n 1 en lugar de dividir entre n? Puede demostrarse que si se hubiera calculado la varianza muestral utilizando solo n en el denominador, el resultado subestimara la varianza poblacional. Dado que se usa en lugar de , el total de valores utilizados en el numerador es muy pequeo. Al dividir entre n 1 en vez de n, se compensa la subestimacin en el numerador. De esta manera, Ejemplo: Los sueldos por hora en una muestra de trabajadores de medio tiempo son: $2, $10, $6, $8 y $9. Cul es la varianza poblacional? Consideremos el clculo de la media muestral: se considera un estimador insesgado de la varianza poblacional.
Para obtener la varianza poblacional, tenemos: Sueldo por hora $2 $ 10 $6 $8 $9 Total -5 3 -1 1 2 0 25 9 1 1 4 40
Utilizando la frmula de la varianza muestral, se obtiene:
Esto indica que el estimador de la varianza poblacional, la varianza muestral de los sueldos por hora es de 10. Desviacin estndar muestral La desviacin estndar muestral se utiliza como un estimador de la desviacin estndar poblacional. De manera semejante, la desviacin estndar muestral es la raz cuadrada de la varianza muestral. Matemticamente, se expresa as:
Ejemplo: La varianza muestral del ejemplo anterior para los sueldos por hora se calcul como 10. Cul es la desviacin estndar de la muestra? La desviacin estndar muestral es de $3.16, obtenida de la raz cuadrada de 10. 10.4 Propiedades de un estadstico muestral. Para usar un estimador muestral como un estimador puntual de una poblacin, debe cumplir con ciertas caractersticas o propiedades: Estadstico muestral insesgado. Se dice que un estadstico muestral es insesgado cuando el valor esperado del estadstico muestral es igual al estadstico poblacional. Eficiencia de un estadstico muestral. Un estadstico muestral es eficiente cuando el error estndar del estadstico sea igual a 0. Suponga que se usa una muestra aleatoria simple de n elementos para obtener dos estadsticos muestrales insesgados. Se dice que un estadstico es ms eficiente que otro, cuando su error estndar es menor. Consistencia de un estadstico muestral. Se dice que un estadstico muestral es consistente si su valor tiende a estar ms cerca del parmetro poblacional a medida que aumenta el tamao de la muestra.
Suficiencia de un estadstico muestral. Un concepto de reciente introduccin es el de la suficiencia de un estadstico, fue introducido en 1922 por el cientfico ingls Ronald Fisher.
10.5 Aplicaciones de los estadsticos muestrales
Estimacin puntual.
La estimacin puntual utiliza los estadstico muestrales para determinar el valor de un parmetro desconocido de una poblacin. Por ejemplo, cuando se utiliza la media muestral para estimar la media de una poblacin, o bien, para estimar la desviacin estndar poblacional a travs de la desviacin estndar muestral. Pruebas de hiptesis. Las prueba de hiptesis son procedimientos basados en la evidencia muestral y en la teora de probabilidad empleada para determinar si la teora de un enunciado es razonable y no debe rechazarse, o si es irrazonable y debe ser rechazada. En los siguientes temas veremos ms detalladamente los temas de estimacin puntual y pruebas de hiptesis Glosario Estadstico: Caracterstica medible significativa de una muestra. Muestra probabilstica: Muestra que se selecciona de modo que cada integrante, de la poblacin en estudio, tenga una probabilidad conocida de ser incluido en la muestra. Muestra aleatoria simple: Muestra formulada de manera que cada integrante de la poblacin, tenga la misma probabilidad de quedar incluido. Muestra aleatoria sistemtica Los integrantes de la poblacin se ordenan por algn mtodo y se selecciona al azar un punto de inicio; despus se elige cada k-simo elemento de la poblacin para la muestra. Muestra aleatoria estratificada: Dividir la poblacin en subgrupos denominados estratos y se selecciona una muestra de cada estrato. Probabilidad y estadstica Tema 11. Estimadores puntuales y de intervalo 11.1 Estimacin puntual
Los cientficos dedicados a la conservacin de los recursos naturales calculan el peso promedio y otras caractersticas de la poblacin de peces o presas de caza a travs de varios dispositivos. Con base en los datos muestrales, una persona puede estimar que el peso promedio del salmn que se
pesca en algn lago del pas es de 2.5 Kg. El peso promedio del salmn es una estimacin de un parmetro poblacional desconocido, pues es prcticamente imposible que podemos identificar y medir toda la poblacin de salmones, pues sta cambia constantemente debido al nacimiento de nuevos salmones o bien, precisamente a la pesca o eliminacin natural de los mismos.
Por ejemplo, la media muestral es el mejor estimador de la media poblacional revisamos el tema pasado, la media muestral se calcula como:
. Como
Ejemplo: Se realiza un estudio sobre la potencia en arranque fro de bateras o acumuladores de 12 V para estimar el nmero de veces que un motor con desplazamiento de 444 cm3 arrancar antes de que falle la batera. Una muestra de 40 dispositivos seleccionados dio los siguientes nmeros de arranques: Valores negociados 26 22 19 21 30 27 21 16 41 21 26 26 20 19 37 20 9 32 31 28 21 21 18 21 39 42 22 23 22 30 30 28 32 16 21 22 26 28 23 23
Cul es la mejor estimacin del nmero de la media poblacional de arranques?
La media poblacional del nmero de arranques en fro para acumuladores de 12 V, estimada a travs de la media muestral es de 25 arranques.
Otros estimadores puntuales de una poblacin son la varianza muestral y la desviacin estndar, calculadas como:
Propiedades de un estimador puntual.
Un estimador puntual de una poblacin presenta las siguientes propiedades: Estimador insesgado. Se dice que un estadstico muestral es insesgado, cuando el valor esperado del estadstico muestral es cercano al estadstico poblacional. Matemticamente:
Si un estimador es insesgado, entonces:
De lo anterior se desprende que un estimador es asintticamente insesgado, si su posible sesgo tiende a cero al aumentar el tamao de la muestra. Eficiencia de un estimador. Sean desconocido , decimos que y dos estimadores insesgados de un parmetro si:
es ms eficiente que
Estimador consistente. Un estimador asintticamente insesgado, cuya varianza tiende a cero al aumentar el tamao de la muestra, es un estimador consistente. Estimador suficiente. Un estimador es suficiente cuando no da lugar a prdida de informacin, es decir, cuando la inferencia basada en estimacin se hubiera hecho sobre la poblacin. es tan buena como si la
11.2 Estimacin de Intervalo
La estimacin de intervalo expresa la amplitud dentro de la cual. probablemente se encuentra un parmetro poblacional. El intervalo en el que se espera est el valor real del parmetro poblacional se le denomina intervalo de confianza. Por ejemplo, el intervalo de confianza para la media poblacional es el intervalo que tiene una mayor probabilidad de contener la media poblacional . Se utilizan con frecuencia dos intervalos de confianza para la media poblacional: el intervalo de confianza de 95% y el intervalo de confianza de 99%. El intervalo de confianza de 95% indica que el 95% de las medias muestrales de un tamao de muestra especfico seleccionadas de una poblacin, se hallar dentro de ms o menos 1.96 desviaciones estndares de la media poblacional hipottica. El intervalo de confianza de 99% indica que el 99% de las medias muestrales de un tamao de muestra especfico seleccionadas de una poblacin, se hallar dentro de ms o
menos 2.58 desviaciones estndares de la media poblacional hipottica.
Fig. 11.1 Intervalo de confianza de 95% y de 99% para De dnde provienen los valores de 1.96 y 2.58? Veamos el caso del valor 1.96: el 95% central de las medias muestrales se encuentra en cualquiera de los lados de la media poblacional, y lgicamente, 0.95 / 2 = 0.4750. Entonces, el rea a la derecha de la media es de 0.4750, el rea a la izquierda de la media tambin es de 0.4750. Utilizamos la tabla de la distribucin normal estndar para obtener el valor de 0.4750: z 1.5 1.6 1.7 1.8 1.9 0.00 0.4332 0.4452 0.4554 0.4641 0.4713 0.01 0.4345 0.4463 0.4564 0.4649 0.4719 0.02 0.4357 0.4474 0.4573 0.4656 0.4726 0.03 0.4370 0.4485 0.4582 0.4664 0.4732 0.04 0.4382 0.4495 0.4591 0.4671 0.4738 0.05 0.4394 0.4505 0.4599 0.4678 0.4744 0.06 0.4406 0.4515 0.4608 0.4686 0.4750 0.07 0.4418 0.4525 0.4616 0.4693 0.4756 0.08 0.443 0.4535 0.4625 0.4700 0.4762 0.09 0.4441 0.4545 0.4633 0.4706 0.4767
De esta forma, el valor a la izquierda de la media es de -1.96 y el valor a la derecha de la media es de 1.96, como se muestra en el siguiente diagrama. Se utiliza el mismo procedimiento para determinar 2.58.
Fig. 11.2 Determinacin de z para el intervalo de confianza de 95% 11.3 Error estndar de la media
Para elaborar un intervalo de confianza, primero es necesario calcular el error estndar de la media.
El error estndar de la media se calcula mediante la siguiente frmula:
Como se ve en la frmula del error estndar de la media, sta supone conocida la desviacin estndar de la poblacin . Si no se conoce y el tamao de la muestra es mayor o igual a 30 (se considera una muestra grande), la desviacin estndar de la muestra, denotada por s, sirve para aproximar la desviacin estndar de la poblacin. Entonces la frmula para el error estndar queda expresada de la siguiente forma:
El error estndar de la media variar de acuerdo con el tamao de la muestra. A medida que se aumenta el tamao de la muestra, la variabilidad de las medias muestrales se vuelve cada vez ms pequea, lo que cumple con el principio de consistencia de un estimador puntual. 11.4 Elaboracin de intervalos de confianza
Los intervalos de confianza se establecen como:
Intervalo de confianza de 95%
Intervalo de confianza de 99%
Ejemplo: En un experimento se trata de seleccionar una muestra aleatoria de 256 administradores o gerentes para el estudio. Un elemento de inters es su ingreso mensual. La media muestral se calcula como $ 35,420 pesos y la desviacin estndar de la muestra es de $ 2,050 pesos. Cul es el ingreso medio estimado de todos los administradores y gerentes?
El ingreso medio estimado de la poblacin es de $ 35,420. Lo anterior debido a que la media muestral es un estimador puntual de la media poblacional. Cul es el intervalo de confianza de 95%?
Considerando la frmula, tenemos:
El intervalo de confianza de 95% para el ingreso mensual de todos los administradores y gerentes es entre $35,168.87 y $35,671.13. Interpretacin: Si hubiera que seleccionar 100 muestras de tamao 256 de la poblacin de administradores para calcular las medias muestrales y los intervalos de confianza, la media poblacional del ingreso mensual se encontrara en 95 de los 100 intervalos de confianza y 5 de los 100 intervalos de confianza no contendran a la media poblacional. Intervalo de confianza de una proporcin. La estimacin puntual para una proporcin de la poblacin, se obtiene dividiendo el nmero de xitos en la muestra entre el tamao de la muestra. Para calcular el intervalo de confianza de una proporcin, se utiliza la siguiente frmula:
Ejemplo: Supongamos que 1600 de 2000 electores empadronados que se muestrean dijeron que planean votar por el candidato oficial para gobernador. Si se utiliza un grado de confianza de 0.95, cul es la estimacin de intervalo para la proporcin de la poblacin? Sabemos que 1600 de 2000 electores votarn por el candidato oficial, por lo tanto, la proporcin de electores es:
Utilizando la frmula para calcular el intervalo de confianza, tenemos:
El intervalo de confianza para la proporcin de votantes que votarn por el candidato oficial es entre 78.247 % y 81.753 % Glosario: Estimacin puntual: Nmero (denominado punto) que se utiliza para estimar un parmetro poblacional. Estimacin de intervalo: Amplitud dentro de la cual probablemente se encuentra un parmetro poblacional. Intervalo de confianza: Intervalo dentro del que se espera est un parmetro poblacional. Error estndar de la media: Desviacin estndar de la distribucin muestral de las medias muestrales. Probabilidad y estadstica Tema 12. Distribuciones de muestreo 12.1 Distribucin muestral de medias
En una poblacin de cinco trabajadores de produccin se tienen las siguientes tasas de produccin: Tasa de produccin 97 103 96 99 105 Si seleccionamos muestras aleatorias de dos trabajadores cada una y obtenemos la media de la muestra como un estimador puntual de la media la poblacin, cada muestra tender a tener una media muestral distinta: Muestra 97 y 105 103 y 96 99 y 97 Cada una de las medias muestrales se calcula como: Media muestral 101 99.5 98
Para el primer caso, donde los valores para la muestra son 97 y 105, la media muestral es:
Como podemos observar los diferentes valores obtenidos de las medias muestrales para cada muestra varan, qu comportamiento podemos observar de ello?
Para ilustrar mejor el concepto, veamos un ejemplo: Ejemplo: Una empresa industrial tiene siete trabajadores de produccin, considerados como la poblacin. La retribucin (salario por hora) de cada empleado se presenta en la siguiente tabla: Trabajador Javier Ral Susana Berta Juan Aurora Carlos La media de la poblacin est dada por: Salario por hora $ 7.00 $ 9.00 $ 8.00 $ 8.00 $ 7.00 $ 8.00 $ 9.00
Esto indica, que el salario promedio de la poblacin de trabajadores de la empresa es de $ 8.00 pesos por hora. Para construir una distribucin muestral de medias se tomaron muestras de tamao 4. Para calcular el total de distintas muestras posibles utilizamos la frmula de las combinaciones:
Para una n = 7 y r = 4, tenemos:
Existen 35 formas de obtener muestras de tamao 4 de una poblacin de 7. Se realiz el clculo de la media muestra para cada una de estas muestras y se obtuvo: Nombres Javier, Ral, Susana, Berta Javier, Ral, Susana, Juan Javier, Ral, Susana, Aurora Javier, Ral, Susana, Carlos Javier, Ral, Berta, Juan Javier, Ral, Berta, Aurora Javier, Ral, Berta, Carlos Javier, Ral, Juan, Aurora Javier, Ral, Juan, Carlos Javier, Ral, Aurora, Carlos Javier, Ral, Berta, Juan Javier, Ral, Berta, Aurora Javier, Ral, Berta, Carlos Javier, Ral, Juan, Aurora Javier, Ral, Juan, Carlos Javier, Ral, Aurora, Carlos Javier, Berta, Juan, Aurora Javier, Berta, Juan, Carlos Javier, Berta, Aurora, Carlos Javier, Juan, Aurora, Carlos Ral, Susana, Berta, Juan Ral, Susana, Berta, Aurora Ral, Susana, Berta, Carlos Ral, Susana, Juan, Aurora Ral, Susana, Juan, Carlos Ral, Susana, Aurora, Carlos Ral, Berta, Juan, Aurora Ral, Berta, Juan, Carlos Ral, Berta, Aurora, Carlos Ral, Juan, Aurora, Carlos Ral, Berta, Juan, Aurora Susana, Berta, Juan, Carlos Salarios $ 7.00, $ 9.00, $ 8.00, $ 8.00 $ 7.00, $ 9.00, $ 8.00, $ 7.00 $ 7.00, $ 9.00, $ 8.00, $ 8.00 $ 7.00, $ 9.00, $ 8.00, $ 9.00 $ 7.00, $ 9.00, $ 8.00, $ 7.00 $ 7.00, $ 9.00, $ 8.00, $ 8.00 $ 7.00, $ 9.00, $ 8.00, $ 9.00 $ 7.00, $ 9.00, $ 7.00, $ 8.00 $ 7.00, $ 9.00, $ 7.00, $ 9.00 $ 7.00, $ 9.00, $ 8.00, $ 9.00 $ 7.00, $ 9.00, $ 8.00, $ 7.00 $ 7.00, $ 9.00, $ 8.00, $ 8.00 $ 7.00, $ 9.00, $ 8.00, $ 9.00 $ 7.00, $ 9.00, $ 7.00, $ 8.00 $ 7.00, $ 9.00, $ 7.00, $ 9.00 $ 7.00, $ 9.00, $ 8.00, $ 9.00 $ 7.00, $ 8.00, $ 7.00, $ 8.00 $ 7.00, $ 8.00, $ 7.00, $ 9.00 $ 7.00, $ 8.00, $ 8.00, $ 9.00 $ 7.00, $ 7.00, $ 8.00, $ 9.00 $ 9.00, $ 8.00, $ 8.00, $ 7.00 $ 9.00, $ 8.00, $ 8.00, $ 8.00 $ 9.00, $ 8.00, $ 8.00, $ 9.00 $ 9.00, $ 8.00, $ 7.00, $ 8.00 $ 9.00, $ 8.00, $ 7.00, $ 9.00 $ 9.00, $ 8.00, $ 8.00, $ 9.00 $ 9.00, $ 8.00, $ 7.00, $ 8.00 $ 9.00, $ 8.00, $ 7.00, $ 9.00 $ 9.00, $ 8.00, $ 8.00, $ 9.00 $ 9.00, $ 7.00, $ 8.00, $ 9.00 $ 9.00, $ 8.00, $ 7.00, $ 8.00 $ 8.00, $ 8.00, $ 7.00, $ 9.00 Media muestral $ 8.00 $ 7.75 $ 8.00 $ 8.25 $ 7.75 $ 8.00 $ 8.25 $ 7.75 $ 8.00 $ 8.25 $ 7.75 $ 8.00 $ 8.25 $ 7.75 $ 8.00 $ 8.25 $ 8.50 $ 7.75 $ 8.00 $ 7.75 $ 8.00 $ 8.25 $ 8.50 $ 8.00 $ 8.25 $ 8.50 $ 8.00 $ 8.25 $ 8.50 $ 8.25 $ 8.00 $ 8.00
Susana, Berta, Aurora, Carlos Susana, Juan, Aurora, Carlos Berta, Juan, Aurora, Carlos
$ 8.00, $ 8.00, $ 8.00, $ 9.00 $ 8.00, $ 7.00, $ 8.00, $ 9.00 $ 8.00, $ 7.00, $ 8.00, $ 9.00
$ 8.25 $ 8.00 $ 8.00
A partir de la tabla anterior podemos deducir: La media de la distribucin muestral:
La media de la distribucin muestral para el salario promedio de la poblacin de trabajadores de la empresa es de $ 8.00 pesos por hora.
Ahora construiremos la distribucin de media para las muestras de los salarios de los trabajadores con un tamao de muestra igual a 4. Media muestral $7.50 $ 7.75 $ 8.00 $ 8.25 $ 8.50 Total Nmero de ocurrencias 3 8 13 8 3 35 Probabilidad
Con esta distribucin de probabilidad de muestras de medias, utilizando Excel podemos obtener la grfica de la distribucin:
Fig. 12.3. Distribucin de probabilidad de muestras de medias Observando la grfica 12.1, podemos observar que la distribucin de medias muestrales, tiende a aproximarse a la curva normal. 12.2 Distribucin muestral de proporciones
Existen situaciones en donde se estudia una caracterstica en particular de la poblacin, donde el individuo presenta o no esa caracterstica en particular. En dichas situaciones, es de gran utilidad conocer cmo se distribuye la proporcin de n observaciones independientes, que cumplen con la caracterstica en estudio.
Ejemplo: En un grupo de practicantes de karate de 6 personas, considerados como la poblacin se realiza un estudio para observar si miembros del grupo fuman o no. Se obtienen los siguientes resultados
Miembro del equipo Luis Mario Juan Joel Jess Esteban
Fuma (S/N) No Si No No Si No
De la tabla anterior, podemos deducir que la probabilidad de que al seleccionar un miembro del equipo de karate, ste sea un fumador est dada por:
El resultado indica que existe un 33.33% de miembros del equipo que fuman. En este caso, el valor esperado de proporcin de fumadores es:
Para construir una distribucin muestral de proporciones se tomaron muestras de tamao 4. Para calcular el total de de distintas muestras posibles utilizamos la frmula de las combinaciones:
Para una n = 6 y r = 4, tenemos:
Existen 15 formas de obtener muestras de tamao 4 de una poblacin de 6. Se realiz el estudio de proporciones y se obtuvo: Nombres Luis, Mario, Juan, Joel Luis, Mario, Juan, Jess Luis, Mario, Juan, Esteban Luis, Mario, Joel, Jess Luis, Mario, Joel, Esteban Luis, Mario, Jess, Esteban Luis, Juan, Joel, Jess Fuma (Si/No) No, Si, No, No No, Si, No, Si No, Si, No, No No, Si, No, Si No, Si, No, No No, Si, Si, No No, No, No, Si Proporcin 0.25 0.50 0.25 0.50 0.25 0.50 0.25
Luis, Juan, Joel, Esteban Luis, Juan, Jess, Esteban Luis, Joel, Jess, Esteban Mario, Juan, Joel, Jess Mario, Juan, Joel, Esteban Mario, Juan, Jess, Esteban Mario, Joel, Jess, Esteban Juan, Joel, Jess, Esteban
No, No, No, No No, No, Si, No No, No, Si, No Si, No, No, Si Si, No, No, No Si, No, Si, No Si, No, Si, No No, No, Si, No
0.00 0.25 0.25 0.50 0.25 0.50 0.50 0.25
Ahora construiremos la distribucin de media para las muestras de los fumadores en el equipo de karate con un tamao de muestra igual a 4. Proporcin 0.00 0.25 0.50 Nmero de ocurrencias 1 8 6
Para obtener la media o valor esperado de las proporciones muestrales de fumadores en el equipo de karate, utilizamos la siguiente frmula:
Aplicando la frmula, obtenemos:
El resultado indica que existe un 33.33% de miembros del equipo que fuman, obtenido a travs de una distribucin muestral de proporciones. De lo anterior podemos concluir:
Glosario Distribucin muestral de medias: Distribucin de probabilidad que consta de una lista de todas las medias muestrales posibles de un tamao de muestra dado de una poblacin y la probabilidad de ocurrencia asociada con cada media muestral. Distribucin muestral de proporciones: Conjunto de todas las muestras posibles del mismo tamao extradas de una poblacin, junto con el conjunto de todas las proporciones muestrales. Probabilidad y estadstica Tema 13. Inferencia en una poblacin 13.1 Qu es una hiptesis? Una hiptesis es un enunciado acerca del valor de un parmetro poblacional. La razn para establecer una hiptesis es que la poblacin de inters es tan grande que por diversas razones sera prcticamente imposible estudiar a todos los elementos de la poblacin. Ejemplos de este tipo de hiptesis o enunciados acerca de un parmetro poblacional son: El ingreso mensual medio para los ciudadanos jubilados es de $9,930 pesos. Se sabe que el 20% de los delincuentes juveniles finalmente son arrestados, se les sentencia y encarcela. El dimetro exterior medio de los cojines de bolas producidos durante una jornada laboral es de 1.000 pulgadas. En general, el 90% de las formas de impuesto federal de ingresos se llenan correctamente. Las resistencias al impacto de los parabrisas que producen dos empresas industriales son iguales.
Una alternativa a estudiar o entrevistar a la poblacin completa, es tomar una muestra de la poblacin de inters. Dada esta premisa de la estimacin estadstica, es posible entonces probar una afirmacin, o una hiptesis, a fin de determinar si la evidencia emprica de la poblacin fundamenta o no la afirmacin. Prueba de hiptesis Supongamos que se afirma que la comisin mensual media de los vendedores de una empresa de computadoras es de $ 20,000 pesos. Dado que no es posible entrevistar a todos los vendedores para establecer que la media es en realidad $ 20,000 pesos, se debe seleccionar una muestra de vendedores de computadoras, calcular estadsticas muestrales, y con base en determinadas reglas de decisin aceptar o rechazar la afirmacin o hiptesis. La prueba de hiptesis es un procedimiento basado en la evidencia muestral y en la teora de probabilidad que se emplea para determinar si la hiptesis en un enunciado razonable y no debe rechazarse, o si es irrazonable y debe ser rechazada.
13.2 Procedimiento de pruebas Existe un procedimiento de cinco pasos que sistematiza la prueba de hiptesis; al llegar al quinto paso, se est en la capacidad de tomar la decisin de rechazar o no una hiptesis:
Paso 1: La hiptesis nula y la hiptesis alternativa El primer paso es plantear la hiptesis que se probar, denominada hiptesis nula o .
En trminos generales, la hiptesis nula se plantea con el objetivo de aceptarla o rechazarla, en otras palabras, es una afirmacin que se aceptar si los datos muestrales no pueden proporcionar evidencia convincente de que la afirmacin es falsa. Es necesario subrayar que si la hiptesis nula se acepta con base en datos muestrales, en realidad se seala que la evidenciano permite rechazarla; sin embargo, no es posible afirmar que la hiptesis nula es verdadera.
Para la pregunta Es la resistencia media al impacto de la placa de vidrio que se fabrica en la lnea de produccin B de 70 psi (libra por pulgada cuadrada)?, la hiptesis nula sera: La resistencia al impacto del vidrio no es significativamente diferente de 70 psi. Matemticamente:
La hiptesis alternativa o describe lo que se considerar si se rechaza la hiptesis nula. A menudo se denomina tambin como hiptesis de investigacin. Para la pregunta, es la resistencia media al impacto de la placa de vidrio que se fabrica en la lnea de produccin B de 70 psi (libra por pulgada cuadrada)?, la hiptesis alternativa sera: La resistencia al impacto del vidrio es significativamente diferente de 70 psi. Matemticamente: Paso 2: Nivel de significacin. Despus de plantear la hiptesis nula y la hiptesis alternativa, el siguiente paso es definir el nivel de significacin o bien, la probabilidad de rechazar la hiptesis nula cuando en realidad es verdadera.
No hay un nivel de significacin que se aplique a todos los estudios que implican muestreo. Debe tomarse una decisin de usar el nivel de 0.05 (que a menudo se enuncia como nivel de 5%), el nivel de 0.01, el 0.10 o cualquier nivel entre 0 y 1. Al realizar una prueba de hiptesis, adems del riesgo de rechazar la hiptesis cuando en realidad debe aceptarse, corremos otro tipo de riesgo: aceptar una hiptesis cuando en realidad debe rechazarse. Error Tipo I ( ): La probabilidad de rechazar la hiptesis nula cuando en realidad es verdadera. Error Tipo II ( ): La probabilidad de aceptar la hiptesis nula cuando en realidad es falsa. Ejemplo: A fin de ilustrar cmo es posible rechazar una hiptesis verdadera, supongamos que una compaa manufactura computadoras personales y utiliza un gran nmero de tableros con circuitos impresos. Los proveedores ofrecen precios de diversos tableros y al que presente la oferta ms baja se le otorga un contrato. En el contrato se especifica que el departamento de calidad muestrear todos los envos y si ms del 6% tiene defectos, se rechazar el envo.
Una muestra de 50 circuitos, revel que 4 tableros u 8%, tenan defectos. El embarque se rechaz porque exceda el mximo de 6% de tableros defectuosos. Si la remesa era en realidad defectuosa, entonces fue correcta la decisin de devolver los productos al proveedor. Sin embargo, supongamos que los 4 defectuosos que se seleccionaron en la muestra de 50 eran los nicos tableros defectuosos en el envo de 4,000 tableros. En este caso, solo el 0.1% eran defectuosos (menos del 6%) y fue un error rechazar la remesa. Es decir, el fabricante de computadoras cometi un error tipo I. En la siguiente tabla se resumen las decisiones y sus consecuencias: Hiptesis nula Si Si es verdadera y es falsa y Acepta Decisin correcta Error tipo II Rechaza Error tipo I Decisin correcta
Paso 3: El estadstico de prueba. Un estadstico de prueba es un valor determinado a partir de la informacin muestral, que se utiliza para aceptar o rechazar la hiptesis nula. Existen muchos estadsticos de prueba, entre los que se encuentran los estadsticos (normal estndar), (t-student) y (Chi-cuadrada).
Paso 4: La regla de decisin. Una regla de decisin simplemente es una afirmacin de las condiciones bajo las que se acepta o rechaza la hiptesis nula. Para lograr esto, la distribucin muestral se divide en dos partes, denominadas regin de aceptacin y regin de rechazo. El rea de rechazo define la ubicacin de todos los valores posibles que son demasiado grandes o demasiado pequeos, por lo que la probabilidad de que ocurran segn una hiptesis nula verdadera es muy remota.
Fig. 13.1: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin del 5%. De la figura 13.1, observamos que:
El rea o regin de aceptacin incluye el rea a la izquierda de 1.645. El rea o regin de rechazo est a la derecha de 1.645.
De acuerdo a la tabla normal estndar, para un nivel de significacin de 0.05, buscamos aquel valor de z cuyo punto es 0.4500 (0.5 + 0.45 = 0.95): z 1.5 1.6 1.7 1.8 1.9 0.00 0.4332 0.4452 0.4554 0.4641 0.4713 0.01 0.4345 0.4463 0.4564 0.4649 0.4719 0.02 0.4357 0.4474 0.4573 0.4656 0.4726 0.03 0.4370 0.4485 0.4582 0.4664 0.4732 0.04 0.4382 0.4495 0.4591 0.4671 0.4738 0.05 0.4394 0.4505 0.4599 0.4678 0.4744 0.06 0.4406 0.4515 0.4608 0.4686 0.4750
Dado que el valor 0.4500 est entre 1.64 y 1.65, se utiliza un valor de Z de 1.645. Se aplica una prueba de una cola (Esto se explicar ms adelante). Se eligi un nivel de significacin de 0.95. La distribucin muestral pertenece al estadstico (normal estndar). El valor 1.645 separa las regiones de aceptacin y rechazo. El valor 1.645 se le denomina valor crtico.
Paso 5: Toma de decisin El quinto y ltimo paso en la prueba de hiptesis es decidir si se acepta o rechaza la hiptesis nula. Respecto al diagrama 13.1 si, con base en la informacin muestral se calcula que z es de 2.34 a travs del estadstico de prueba, la hiptesis nula se rechaza en el nivel de significacin de 5%, pues el 2.34 se encuentra a la derecha de 1.645, es decir, se encuentra en la regin de rechazo. Lo anterior significa que la hiptesis nula se rechaza debido a que es muy improbable que un valor de z tan grande se deba al azar, esto es, a una variacin muestral. Si el valor calculado de z hubiera sido 1.645 o menor, por ejemplo 0.71, la hiptesis nula sera aceptada. Se razonara que un valor calculado de z tan pequeo podra ser atribuido al azar, esto es, a una variacin en el muestreo. 13.3 Pruebas de significacin de una y dos colas En el diagrama 13.1 se aplica una prueba de una cola o extremo, es decir, la regin de rechazo est en una de las extremidades de la curva. Una forma de determinar la ubicacin de rechazo es observar la direccin en que apunta el signo de desigualdad en la hiptesis alternativa (ya sea < o bien >). Ejemplo: Las empresas desean que el rendimiento de un neumtico sea de 40,000 kilmetros en condiciones normales de uso, por lo que se rechaza un envo si en una prueba acelerada de duracin revela que la vida de los neumticos est significativamente por debajo de 40,000 kilmetros. En este caso, la hiptesis nula y alternativa sera:
Matemticamente:
En este caso, dado que el signo < apunta a la regin de rechazo en la cola inferior, la prueba de hiptesis para un nivel de significacin de 5%, mostrara la regin de rechazo y aceptacin de acuerdo al diagrama 13.2.
Fig. 13.2: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin del 5% (prueba de una cola inferior). Ejemplo: Un productor de cajas de cereales afirma que en promedio, las cajas pesan 453 gramos. Hay preocupacin de que las cajas de cereal se empaqueten con un peso superior a 453 gramos. En este caso, la hiptesis nula y alternativa sera:
Matemticamente, se expresa de la siguiente manera:
En este caso, dado que el signo > apunta a la regin de rechazo en la cola superior, la prueba de hiptesis para un nivel de significacin de 5%, mostrara la regin de rechazo y aceptacin de acuerdo al diagrama 13.3.
Fig. 13.3: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin del 5% (prueba de una cola superior). Pruebas de dos colas Si en la hiptesis alternativa no se especifica una direccin, se aplica una prueba de dos colas o extremidades. Veamos un ejemplo: En una consultora se especula que existe una diferencia entre el ingreso medio de hombres y mujeres. El gerente est preocupado y afirma que no existe tal diferencia entres los ingresos medios. En este caso, la hiptesis nula y alternativa sera:
Matemticamente:
En este caso, dado que no existe una direccin del signo < o bien >, la prueba de hiptesis para un nivel de significacin de 5%, mostrara la regin de rechazo y aceptacin de acuerdo al diagrama 13.4.
Fig. 13.4: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin del 5% (prueba de dos colas). 13.4 Prueba de hiptesis para la media de una poblacin: muestras grandes
La contestacin a estas preguntas expresa una media de poblacin: Es el ingreso medio de ejecutivos de alto nivel de $325,000 pesos? La longitud media de las barras cortadas es de 2.000 pulgadas? La edad media de los internos en reclusorios es menor de 40 aos? La cantidad media que deben quienes son subscritores de tarjeta de crdito es mayor a $ 10,000 pesos? La tasa media de eficiencia de los empleados de produccin es igual a 200?
Para realizar una prueba de hiptesis para la media de una poblacin, se utiliza el estadstico z cuando el tamao de la muestra es grande (mayores a 30). La frmula es:
Ejemplo: Se sabe que la distribucin de las tasas de eficiencia para los trabajadores de una compaa se distribuye normalmente con una media poblacional de 200 y una desviacin estndar poblacional de 16. El departamento de investigacin cuestiona esta media, afirmando que es diferente de 200. Usa el nivel de significacin del 1% y probar la hiptesis de que la media poblacional es de 200. Paso 1: Plantear la hiptesis nula y alternativa.
Matemticamente:
Paso 2: Seleccionar el nivel de significacin. Se utilizar un nivel de significacin de 0.01, que es , la probabilidad de cometer un error tipo I. Es decir, la probabilidad de rechazar una hiptesis verdadera. Paso 3: Identificar el estadstico de prueba. El estadstico adecuado es z, pues se est analizando la hiptesis sobre una media poblacional cuando el tamao de la muestra es grande (mayores a 30). La transformacin de los datos a unidades estndares (valores z) permite que se usen en un gran nmero de problemas diferentes. Paso 4: Formular la regin de decisin. La regla de decisin se formula hallando el valor crtico de z a partir la tabla de z. Puesto que es una prueba de dos colas, se busca la porcin de cada cola que determina la mitad del nivel de significacin, en este caso la mitad de 0.01 es 0.005. El rea de aceptacin por consiguiente es de
0.99. De la tabla de z, buscamos el valor de z cuyo punto es 0.4950 (0.99 dividido entre 2, dada la simetra de la curva normal) z 2.0 2.1 2.2 2.3 2.4 2.5 2.6 0.00 0.4773 0.4821 0.4861 0.4893 0.4918 0.4938 0.4953 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.485 0.08 0.09
0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4854 0.4857 0.4865 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936 0.494 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952 0.496 0.4961 0.4962 0.4963 0.4964
0.4955 0.4956 0.4957 0.4959
Dado que el valor 0.4950 est entre 2.57 y 2.58, se utiliza un valor de Z de 2.575. Grficamente:
Fig. 13.5: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin del 1% (prueba de dos colas). Por consiguiente, la regla de decisin es: rechazar la hiptesis nula y aceptar la hiptesis alternativa si el valor calculado de z no queda entre la regin -2.575 y + 2.575. En caso contrario, no se rechaza la hiptesis nula. Paso 5: Tomar la muestra y llegar a una decisin. Se analizaron las calificaciones de eficiencia de 100 empleados de produccin y se calcul que la media de la muestra es de 203.5. Ahora calculamos el estadstico z para evaluar la hiptesis nula. De acuerdo a la frmula, tenemos:
Donde:
Sustituyendo en la frmula, tenemos:
Dado que 2.19 queda en la regin de aceptacin, la hiptesis nula que indica que la media poblacional no es diferente de 200, se acepta con un nivel del 0.01 o 1%. La diferencia entre 203.5 y 200 puede atribuirse a una variacin aleatoria. Observacin 1: Si en lugar de seleccionar el nivel de aceptacin del 0.01 hubiramos seleccionado el nivel de 0.05, en donde los valores crticos para el nivel de 0.95 de acuerdo a la tabla z de la normal estndar es de 1.96 (0.95 entre 2 es 0.4750). En ese caso, la hiptesis nula debi rechazarse con un nivel del 0.05 o 5%
Fig. 13.6: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin del 5% (prueba de dos colas). Observacin 2: Supongamos que la preocupacin de los investigadores es que la tasa de eficiencia sea mayor a 200. En este caso, con un nivel de significacin de 0.01 o 1%, el valor crtico para el nivel de 0.99 de acuerdo a la tabla normal estndar es de 2.33 (0.99 0.5, debido a la simetra, buscamos en las tablas de z el valor de 0.4900).
Fig. 13.7: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin del 1% (prueba de una cola). En el problema anterior, la desviacin estndar poblacional es conocida. Sin embargo, en la mayora de los problemas es poco probable que se conozca la desviacin estndar de la poblacin. En este caso, podemos utilizar la desviacin estndar de la muestra, como se ilustra en el siguiente caso. Ejemplo: Una cadena de tiendas de autoservicio, expide su propia tarjeta de crdito. El gerente de investigacin desea evaluar si el saldo insoluto medio mensual es mayor de $400 pesos. El nivel de significacin se fija en 0.05. Una revisin aleatoria de 172 saldos insolutos revel que la media muestral es de $407 pesos con una desviacin estndar de la muestra de $38. Debera concluir el funcionario que la media poblacional es mayor que $400 pesos, o es razonable que la diferencia de $7 entre la media muestral y poblacional se debe al azar? Paso 1: Plantear la hiptesis nula y alternativa
Matemticamente:
Paso 2: Seleccionar el nivel de significacin. Se utilizar un nivel de significacin de 0.05, que es , la probabilidad de cometer un error tipo I. Es decir, la probabilidad de rechazar una hiptesis verdadera. Paso 3: Identificar el estadstico de prueba
El estadstico adecuado es z, pues se est analizando la hiptesis sobre una media poblacional cuando el tamao de la muestra es grande (mayores a 30). La transformacin de los datos a unidades estndares (valores z) permite que se usen en un gran nmero de problemas diferentes. Paso 4: Formular la regin de decisin. La regla de decisin se formula hallando el valor crtico de z a partir la tabla de z. Puesto que es una prueba de una cola, se busca la porcin de la cola derecha que determina la mitad del nivel de significacin, en este caso la mitad de 0.4500. z 1.5 1.6 1.7 1.8 1.9 0.00 0.01 0.02 0.03 0.04 0.05 0.06
0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4452 0.4463 0.4474 0.4485 0.4495 0.4505 0.4515 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750
Fig. 13.8: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin del 5% (prueba de una cola superior). Por consiguiente, la regla de decisin es: rechazar la hiptesis nula y aceptar la hiptesis alternativa si el valor calculado de zqueda ms all del valor crtico: 1.645. En caso contrario, no se rechaza la hiptesis nula. Paso 5: Tomar la muestra y llegar a una decisin. De acuerdo a la frmula, tenemos:
Donde:
Dado que 2.42 queda en la regin de rechazo, la hiptesis nula que indica que la media poblacional es de $400 pesos, se rechaza con un nivel del 0.05 o 5%. Un valor as de grande ocurrir menos de 5% de las veces. El gerente de investigacin rechazara la hiptesis nula de que el saldo insoluto medio es de $400 pesos a favor de la hiptesis alternativa, que plantea que la media es mayor a $400 pesos 13.5 Prueba de hiptesis para la media de una poblacin: muestras pequeas
La distribucin t-student fue desarrollada por William S. Gossett, un maestro cervecero de la cervecera Guinness en Irlanda, quien la public en 1908 bajo el seudnimo de Student. A Gossett le interesaba el comportamiento de:
Cuando s deba utilizarse como estimador de
. En particular le preocupaba la discrepancia
entre s y cuando se calculaba s a partir de una muestra muy pequea. La distribucin tstudent tiene las siguientes caractersticas: 1. Como la distribucin normal, es una distribucin continua. 2. Como la distribucin normal, tiene forma de campana y simtrica. 3. No hay una distribucin t, sino una familia de distribuciones t. Todas tiene la misma media igual a cero, pero sus desviaciones estndar difieren de acuerdo al tamao de la muestra n.
4. La distribucin t es ms extendida y menos aguda en el centro que la distribucin normal. (Ver grfica 13.9)
13.9 Comparacin entre la distribucin t y la distribucin z Dado que la distribucin t es ms extendida que la distribucin z, los valores crticos de t para un nivel de significacin dado, son mayores en magnitud que los valores crticos correspondientes de z. Como auxiliar para determinar valores de t para diferentes tamaos de muestra de n se han formado tablas similares a la siguiente: Valores crticos de t Niveles de significacin para prueba de una cola Grados de libertad (n 1) 21 22 23 24 25 26 27 28 Ejemplo: Un estudio en una aseguradora revela que en promedio, cuesta $ 600 pesos la realizacin de todos los trmites necesarios en un accidente automovilstico. Este costo se consider exorbitante en comparacin con el de otras compaas aseguradoras y se instauraron medidas para abatir los costos. A fin de evaluar el impacto de estas nuevas medidas, se seleccion aleatoriamente una 0.10 0.20 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 0.5 0.10 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 0.025 0.05 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 0.01 0.02 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 0.005 0.01 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 0.0005 0.001 3.819 3.792 3.767 3.745 3.725 3.707 3.690 3.674 Niveles de significacin para prueba dos colas
muestra de 26 demandas recientes y se realiz un estudio de costos. Se encontr que la media muestral y la desviacin estndar de la muestra fueron $ 570 y $ 100, respectivamente. En el nivel 0.01 o 1% de significacin, hay una reduccin en el costo promedio o la diferencia entre 570 y 600 puede atribuirse al azar? Paso 1: Plantear la hiptesis nula y alternativa.
Matemticamente:
La prueba es de una cola, ya que slo interesa si hay una reduccin en el costo. Esta desigualdad en la hiptesis alternativa seala hacia la regin de rechazo en la cola o extremidad izquierda de la distribucin. Paso 2: Seleccionar el nivel de significacin. Se utilizar un nivel de significacin de 0.01, que es , la probabilidad de cometer un error tipo I. Es decir, la probabilidad de rechazar una hiptesis verdadera. Paso 3: Identificar el estadstico de prueba. El estadstico adecuado es t, pues se est analizando la hiptesis sobre una media poblacional cuando el tamao de la muestra es pequeo (menores a 30). Paso 4: Formular la regin de decisin. La regla de decisin se formula hallando el valor crtico de t a partir la tabla de t. Puesto que es una prueba de una cola, se busca la porcin de la cola izquierda en la tabla de t para un grado de libertad de 25 (26 1): Valores crticos de t Niveles de significacin para prueba de una cola Grados de libertad (n 1) 21 22 23 24 0.10 0.20 1.323 1.321 1.319 1.318 0.5 0.10 1.721 1.717 1.714 1.711 0.025 0.05 2.080 2.074 2.069 2.064 0.01 0.02 2.518 2.508 2.500 2.492 0.005 0.01 2.831 2.819 2.807 2.797 0.0005 0.001 3.819 3.792 3.767 3.745 Niveles de significacin para prueba de dos colas
25 26 27 28
1.316 1.315 1.314 1.313
1.708 1.706 1.703 1.701
2.060 2.056 2.052 2.048
2.485 2.479 2.473 2.467
2.787 2.779 2.771 2.763
3.725 3.707 3.690 3.674
Dado que el valor 0.4500 est entre 1.64 y 1.65, se utiliza un valor de t de 1.645. Grficamente:
Fig. 13.10 Regiones de aceptacin y de rechazo para un estadstico t con un nivel de significacin del 1% (prueba de una cola inferior) Por consiguiente, la regla de decisin es: rechazar la hiptesis nula y aceptar la hiptesis alternativa si el valor calculado de tqueda abajo del valor crtico: -2.486. En caso contrario, no se rechaza la hiptesis nula. Paso 5: Tomar la muestra y llegar a una decisin. De acuerdo a la frmula, tenemos:
Donde:
Dado que -1.53 queda en la regin de aceptacin, la hiptesis nula que indica que la media
poblacional del costo de trmites es de $600 pesos, se acepta con un nivel del 0.01 o 1%. Esto indica que no hay una reduccin del costo promedio en los trmites relacionados con un accidente automovilstico. 13.6 Prueba de hiptesis sobre una proporcin
Una proporcin es la fraccin, porcin relativa o porcentaje que expresa la parte de la poblacin o muestra que tiene un atributo particular de inters. En el caso de las pruebas de hiptesis de la proporcin, la frmula a utilizar para el estadstico z es la siguiente:
El estadstico z para proporciones poblacionales es adecuado cuando tanto np como (1 - p) son mayores a 5. Ejemplo: Elecciones anteriores en un estado federal indican que es necesario que un candidato a gobernador logre al menos 80% de los votos en la seccin norte del estado para que resulte elegido. Un candidato a gobernador est interesado en evaluar qu oportunidad tiene de lograr la victoria y planea la realizacin de una encuesta con 2000 electores registrados en dicha seccin del norte del estado. Del resultado de la encuesta, se obtuvo: de los 2000 votantes potenciales en el rea del norte del estado , 1550 tienen planes de votar por dicho candidato a gobernador. La proporcin de 0.775 (1550 entre 2000) es lo suficientemente cercana a la proporcin necesaria de 0.80 para afirmar que el candidato ser elegido?
Paso 1: Plantear la hiptesis nula y alternativa.
Matemticamente:
Paso 2: Seleccionar el nivel de significacin. Se utilizar un nivel de significacin de 0.05, que es , la probabilidad de cometer un error tipo I. Es decir, la probabilidad de rechazar una hiptesis verdadera. Paso 3: Identificar el estadstico de prueba. El estadstico adecuado es z, pues se est analizando la hiptesis sobre una proporcin poblacional cuando tanto como son mayores a 5:
Paso 4: Formular la regin de decisin. La regla de decisin se formula hallando el valor crtico de z a partir la tabla de z. Puesto que es una prueba de una colas, se busca la porcin de la cola izquierda que determina la mitad del nivel de significacin, en este caso la mitad de 0.4500. z 1.5 1.6 1.7 1.8 1.9 0.00 0.01 0.02 0.03 0.04 0.05 0.06
0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4452 0.4463 0.4474 0.4485 0.4495 0.4505 0.4515 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750
Fig. 13.11: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin del 5% (prueba de una cola inferior). Por consiguiente, la regla de decisin es: rechazar la hiptesis nula y aceptar la hiptesis alternativa si el valor calculado de zqueda ms all del valor crtico: 1.645. En caso contrario, no se rechaza la hiptesis nula. Paso 5: Tomar la muestra y llegar a una decisin. De acuerdo a la frmula, tenemos:
Donde:
Dado que -2.80 queda en la regin de rechazo, se rechaza la hiptesis nula con un nivel del 0.05 5%. La diferencia de 2.5 porcentuales entre el porcentaje muestral (77.5%) y el porcentaje poblacional necesaria para ganar la eleccin del estado (80%), es estadsticamente significativa. Glosario Valor crtico: Nmero que es el punto divisorio entre la regin de aceptacin y la regin de rechazo.
Probabilidad y estadstica Tema 14. Inferencia en dos poblaciones 14.1 Introduccin En algunas ocasiones, es importante realizar pruebas de comparacin entre dos poblaciones o proporciones y determinar si son iguales o no. Ejemplo: Una compaa manufactura computadoras personales y utiliza un gran nmero de tableros con circuitos impresos. Los proveedores ofrecen precios de diversos tableros y al que presente la oferta ms baja se le otorga un contrato. Dos de los proveedores afirman que sus productos son similares en calidad y se desea determinar si esta situacin es correcta. En este tipo de casos, en donde se desea conocer si dos poblaciones tienen alguna caracterstica en particular, se puede hacer uso de las pruebas de hiptesis de dos poblaciones o de dos proporciones, segn sea el caso. 14.2 Prueba de confianza entre las medias dos poblaciones
Como se observ con anterioridad, para muestras grandes (n > 30) puede utilizarse el estadstico z para la prueba de hiptesis de medias muestrales. En el caso de las pruebas de hiptesis entre dos medias poblacionales, tambin se utiliza el estadsticoz siempre y cuando tanto como brevemente: son mayores a 30. La teora que subyace en este planteamiento se expone
Si un nmero grande de muestras aleatorias independientes se selecciona de dos poblaciones, la distribucin de diferencias entres las dos medias dividida entre el error estndar de la diferencia entre las dos medias (el valor crtico) se aproxima a una distribucin normal. Matemticamente se expresa:
Ejemplo: Las especificaciones para los bloques de concreto utilizados en cimientos de los edificios indican que la media aritmtica mnima de la resistencia a la compresin de una muestra de bloques debe ser de 1000 psi (libras por pulgada cuadrada). Una muestra de dos compaas, cuyas muestras de bloques indican una resistencia a la compresin superior a la mnima. Si se aplica una prueba estadstica a los resultados muestrales y se determina que ambas muestras pueden venir de poblaciones iguales, o idnticas, el contrato para los bloques se dividir por igual. Si las estadsticas muestrales indican que comprende dos poblaciones, al fabricante que enve los bloques con resistencia a la compresin ms alta se le adjudicar el contrato. Paso 1: Plantear la hiptesis nula y alternativa.
Matemticamente:
Como la hiptesis alternativa no especifica direccin (como el que la resistencia media a la compresin de los bloques de Stanblock Company es mayor que la media de los bloques de Hicompress Company), se usar una prueba de dos colas. Paso 2: Seleccionar el nivel de significacin. Se utilizar un nivel de significacin de 0.01, que es , la probabilidad de cometer un error tipo I. Es decir, la probabilidad de rechazar una hiptesis verdadera. Paso 3: Identificar el estadstico de prueba.
El estadstico adecuado es z, pues se est analizando la hiptesis sobre una media poblacional cuando el tamao de la muestra es grande (mayores a 30). En ambos casos, la muestra es bloques para cada compaa es mayor a 30. Paso 4: Formular la regin de decisin. La regla de decisin se formula hallando el valor crtico de z a partir la tabla de z. Puesto que es una prueba de dos colas, se busca la porcin de cada cola que determina la mitad del nivel de significacin, en este caso la mitad de 0.01 es 0.005. El rea de aceptacin por consiguiente es de 0.99. De la tabla de z, buscamos el valor de z cuyo punto es 0.4950 (0.99 dividido entre 2, dada la simetra de la curva normal) z 2.0 2.1 2.2 2.3 2.4 2.5 2.6 0.00 0.4773 0.4821 0.4861 0.4893 0.4918 0.4938 0.4953 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.485 0.08 0.09
0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4854 0.4857 0.4865 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936 0.494 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952 0.496 0.4961 0.4962 0.4963 0.4964
0.4955 0.4956 0.4957 0.4959
Fig. 14:1 Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin del 1% (prueba de dos colas). Por consiguiente, la regla de decisin es: rechazar la hiptesis nula y aceptar la hiptesis alternativa si el valor calculado de z no queda entre la regin -2.575 y + 2.575. En caso contrario, no se rechaza la hiptesis nula. Paso 5: Tomar la muestra y llegar a una decisin.
Una muestra de bloques de las dos compaas proveedoras, revel la siguiente informacin: Compaa Stanblock Company Hicompress Company Tamao de la muestra 81 64 Media muestral 1070 psi 1020 psi Desviacin estndar 63 psi 57 psi
Ahora calculamos el estadstico z para evaluar la hiptesis nula. De acuerdo a la frmula, tenemos:
Donde:
Dado que 5.01 queda en la regin de rechazo, la hiptesis nula que indica que la media poblacional de la resistencia a la compresin no es diferente entres las dos compaas, se rechaza con un nivel del 0.01 o 1%. La diferencia entre las medias muestrales no se debe al azar 14.3 Prueba de confianza entre dos proporciones
Para el caso de las pruebas entre dos proporciones, al igual que la prueba de hiptesis de una proporcin, se puede utilizar el estadstico z siempre y cuando que tanto np como n(1 - p) son mayores a 5 para ambas proporciones. En el caso de las pruebas de hiptesis de la proporcin, la frmula a utilizar para el estadstico z es la siguiente:
Para calcular la media ponderada de las dos proporciones muestrales frmula:
, se utiliza la siguiente
Ejemplo: Un fabricante de perfumes ha desarrollado un nuevo producto llamado Stay-Away. Varias pruebas de comparacin indican que el perfume tiene un buen potencial de mercado. Sin embargo, los departamentos de mercadotecnia y publicidad quieren planear su estrategia de manera que el producto llegue e impresione al sector ms grande posible del pblico comprador. Una de las preguntas es si el perfume es preferido por una proporcin mayor de mujeres jvenes o maduras. Se seleccionaron damas aleatoriamente y se les pidi que olieran varios perfumes en sucesin, incluyendo el que suelen usar y, por supuesto, Stay-Away. La persona que realiza la prueba es la nica que conoce los nombres de los perfumes. Un total de 100 mujeres jvenes se seleccionaron aleatoriamente, veinte de las cuales eligieron
Stay-Away como el perfume que ms les agrad. Tambin se seleccionaron doscientas damas maduras y a cada una se le aplic la misma prueba estndar. 100 de las 200 prefirieron StayAway. Paso 1: Plantear la hiptesis nula y alternativa.
Matemticamente:
Como la hiptesis alternativa no especifica direccin (como el que la proporcin de mujeres jvenes que prefieren Stay-Away es mayor a la proporcin de mujeres maduras que lo prefieres), se usar una prueba de dos colas. Paso 2: Seleccionar el nivel de significacin. Se utilizar un nivel de significacin de 0.05, que es , la probabilidad de cometer un error tipo I. Es decir, la probabilidad de rechazar una hiptesis verdadera. Paso 3: Identificar el estadstico de prueba El estadstico adecuado es z, pues se est analizando la hiptesis sobre proporciones poblacionales cuando tanto como son mayores a 5:
Paso 4: Formular la regin de decisin. La regla de decisin se formula hallando el valor crtico de z a partir la tabla de z. Puesto que es una prueba de dos colas, se busca la porcin de cada cola que determina la mitad del nivel de significacin, en este caso la mitad de 0.05 es 0.025. El rea de aceptacin por consiguiente es de 0.99. De la tabla de z, buscamos el valor de z cuyo punto es 0.4750 (0.95 dividido entre 2, dada la simetra de la curva normal) z 1.5 1.6 1.7 0.00 0.4332 0.4452 0.4554 0.01 0.4345 0.4463 0.4564 0.02 0.4357 0.4474 0.4573 0.03 0.4370 0.4485 0.4582 0.04 0.4382 0.4495 0.4591 0.05 0.4394 0.4505 0.4599 0.06 0.4406 0.4515 0.4608
1.8 1.9
0.4641 0.4713
0.4649 0.4719
0.4656 0.4726
0.4664 0.4732
0.4671 0.4738
0.4678 0.4744
0.4686 0.4750
De la tabla, se utiliza un valor de Z de -1.96 para la cola izquierda y de 1.96 para la cola derecha de la grfica. Grficamente:
Fig. 14.2 Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin del 5% (prueba de dos colas) Por consiguiente, la regla de decisin es: rechazar la hiptesis nula y aceptar la hiptesis alternativa si el valor calculado de z no queda entre la regin -1.96 y + 1.96. En caso contrario, no se rechaza la hiptesis nula. Paso 5: Tomar la muestra y llegar a una decisin. De acuerdo a la informacin proporcionada, obtenemos primero la proporcin ponderada de las proporciones muestrales, con la siguiente frmula:
Donde:
Ahora calculamos el estadstico z para evaluar la hiptesis nula. De acuerdo a la frmula, tenemos:
Donde:
Dado que -5.00 queda en la regin de rechazo, la hiptesis nula que indica que la proporcin de mujeres jvenes que prefieren Stay-Away es igual a la proporcin de mujeres maduras que lo prefieren, se rechaza con un nivel del 0.05 o 5%. La diferencia entre las proporciones no se debe al azar. Probabilidad y estadstica Tema 15. Anlisis de datos discretos 15.1 Distribucin Chi-cuadrada
La distribucin de probabilidad Chi-Cuadrada, tambin llamada Ji-Cuadrado o Chi-Cuadrata de Pearson, es una distribucin de varianzas muestrales , es decir que si se extraen todas las muestras posibles de una poblacin normal y a cada muestra se le calcula su varianza, se obtendr la distribucin muestral de varianzas. Matemticamente:
Las caractersticas de la distribucin Chi-Cuadrada son: El valor calculado es siempre positivo. Existe una familia de distribuciones ji cuadrada, cada una con un grado de libertad (ver grfica 15.1), en consecuencia, existe un nmero infinito de distribuciones. Las distribuciones no son simtricas, es decir, tienen colas estrechas que se extienden a la derecha. Esto significa que presenta un sesgo positivo. El rea bajo la curva y sobre el eje horizontal es igual a 1. Al aumentar los grados de libertad, la distribucin se aproxima a la curva normal.
Fig. 15.1: Distribuciones Chi-Cuadrada para distintos grados de libertad. Dada la gran cantidad de curvas Chi-Cuadrada existentes, se ha desarrollado una tabla de los valores crticos considerando distintos grados de libertad. Grados de Libertad (g.l.) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 rea de la cola derecha de la curva 0.1 2.71 4.61 6.25 7.78 9.24 10.64 12.02 13.36 14.68 15.99 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 0.05 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 0.025 5.02 7.38 9.35 11.14 12.83 14.45 16.01 17.53 19.02 20.48 21.92 23.34 24.74 26.12 27.49 28.85 30.19 31.53 0.01 6.63 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.73 26.22 27.69 29.14 30.58 32.00 33.41 34.81 0.005 7.88 10.60 12.84 14.86 16.75 18.55 20.28 21.95 23.59 25.19 26.76 28.30 29.82 31.32 32.80 34.27 35.72 37.16
19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
27.20 28.41 29.62 30.81 32.01 33.20 34.38 35.56 36.74 37.92 39.09 40.26 51.81 63.17 74.40 85.53 96.58 107.57 118.50
30.14 31.41 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77 55.76 67.50 79.08 90.53 101.88 113.15 124.34
32.85 34.17 35.48 36.78 38.08 39.36 40.65 41.92 43.19 44.46 45.72 46.98 59.34 71.42 83.30 95.02 106.63 118.14 129.56
36.19 37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89 63.69 76.15 88.38 100.43 112.33 124.12 135.81
38.58 40.00 41.40 42.80 44.18 45.56 46.93 48.29 49.65 50.99 52.34 53.67 66.77 79.49 91.95 104.21 116.32 128.30 140.17
La distribucin Chi-Cuadrada es considerada como una prueba no paramtrica, es utilizada para estimar la diferencia entre una distribucin observada y una distribucin terica, indicando en qu grado las diferencias entre ambas distribuciones se deben al azar, a travs de una prueba de hiptesis. A esta prueba no paramtrica se le conoce como Prueba de Bondad de Ajuste. 15.2 Pruebas de bondad de ajuste: Frecuencias esperadas iguales
Entre las pruebas de bondad de ajuste, la Chi-Cuadrada es una de las pruebas no paramtricas ms utilizadas. Ideada por Karl Pearson a principios de 1900, es apropiada para los niveles de datos tanto nominal como ordinal, aunque tambin puede utilizarse para niveles de datos nominal y de razn.
El estadstico utilizado para realizar la prueba de bondad de ajuste es:
Como indica la definicin de la prueba de bondad de ajuste Chi-Cuadrada, el objetivo de la prueba es determinar cun bien se ajusta un conjunto observado de datos a un conjunto esperado. La primera prueba a analizar, es cuando las frecuencias esperadas son iguales. Ejemplo: Supongamos que existen algunas dudas respecto al funcionamiento correcto de una de las mquinas tragamonedas de un casino en Las Vegas, existe la sospecha de que est alterado el mecanismo de una de las ventanillas de la mquina. Como experimento, se acciona 120 veces la palanca de la mquina y se registran los resultados, que se enlistan en la siguiente tabla: Dibujo en la ventanilla izquierda Pltano Cereza Naranja Durazno Limn Pera Nmero de veces que aparece el dibujo (fo) 13 33 14 7 36 17
Para resolver la duda, utilizaremos el procedimiento de pruebas utilizado para las pruebas de hiptesis de datos de nivel intervalo. Paso 1: Plantear la hiptesis nula y alternativa.
Matemticamente:
Si la hiptesis nula
se rechaza y
es aceptada, ello significar que el mecanismo ha sido
alterado para permitir que un dibujo o varios, aparezcan en la ventanilla con ms frecuencia que otros. Paso 2: Seleccionar el nivel de significacin. Se utilizar un nivel de significacin de 0.05, que es , la probabilidad de cometer un error tipo I. Es decir, la probabilidad de rechazar una hiptesis nula verdadera. Paso 3: Identificar el estadstico de prueba. El estadstico adecuado es el estadstico Chi-Cuadrado, pues se est analizando la diferencia que existe entre una frecuencia observada y una frecuencia esperada. Paso 4: Formular la regin de decisin. La regla de decisin requiere identificar un valor crtico en la curva Chi-Cuadrada que separe la regin de rechazo de la regin de aceptacin. En una prueba de Chi-Cuadrada, para obtener el valor correcto debemos considerar los grados de libertad de la prueba definidos como k-1, donde k es representa al nmero de categoras. En nuestro caso, los grados de libertad son 5, pues existen 6 categoras. Obtenemos el valor crtico de Chi-Cuadrada con 5 grados de libertad y con un nivel de significancia de 0.05 ( Grados de Libertad (g.l.) 1 2 3 4 5 ), lo obtenemos de la tabla: rea de la cola derecha de la curva 0.1 2.71 4.61 6.25 7.78 9.24 0.05 3.84 5.99 7.81 9.49 11.07 0.025 5.02 7.38 9.35 11.14 12.83 0.01 6.63 9.21 11.34 13.28 15.09 0.005 7.88 10.60 12.84 14.86 16.75
De la tabla, se utiliza un valor crtico de Chi-Cuadrada de 11.07. Grficamente:
Fig. 15.2: Regiones de aceptacin y de rechazo para un estadstico
Observacin: La regin de aceptacin est a la izquierda del valor crtico. Por consiguiente, la regla de decisin es: aceptar la hiptesis nula y rechazar la hiptesis alternativa si el valor calculado del estadstico Chi-Cuadrada es menor o igual a 11.07. En caso contrario, se rechaza la hiptesis nula. Paso 5: Tomar la muestra y llegar a una decisin. Con la muestra seleccionada, se calcula el valor de Chi-Cuadrada a travs de las frecuencias observadas y las frecuencias esperadas. Para calcular las frecuencias esperadas, consideremos que la mquina est preparada para que cada dibujo tenga la misma probabilidad de aparecer en la ventanilla. En teora, si cada dibujo tiene la misma oportunidad y el experimento se hace 12 veces, puede esperarse que aparezca 2 veces cada figura. Considerando nuestro ejemplo al accionar 120 veces la palanca, se espera que aparezca 20 veces cada figura: Dibujo en la ventanilla izquierda Pltano Cereza Naranja Durazno Limn Pera Frecuencias observadas 13 33 14 7 36 17 Frecuencias esperadas 20 20 20 20 20 20
De acuerdo a la informacin proporcionada, obtenemos el valor de Chi-Cuadrada con la frmula:
Donde:
Sustituyendo en la frmula, obtenemos:
Dado que 34.40 queda en la regin de rechazo, la hiptesis nula que indica no existe diferencia entre el nmero de frecuencias observadas y el nmero de frecuencias esperadas, se rechaza con un nivel del 0.05 o 5%. Esto indica que la mquina tragamonedas en estudio si presenta una alteracin en la ventanilla izquierda. 15.3 Pruebas de bondad de ajuste: Frecuencias esperadas desiguales
Las frecuencias esperadas en el ejemplo de la mquina tragamonedas fueron todas iguales, es decir, de 120 ensayos, en teora se espera que cada tipo de figura aparezca 20 veces en la ventanilla izquierda de la mquina tragamonedas. La Chi-Cuadrada tambin puede utilizarse cuando las frecuencias esperadas son desiguales. Ejemplo: Un estudio de admisiones a hospitales, durante un periodo de dos aos, revel estadsticas respecto a adultos mayores residentes en centros de asistencia que fueron hospitalizados durante el periodo, de acuerdo a la siguiente tabla: Nmero de ingresos en un periodo de dos aos 1 Porcentaje del total 40
2 3 4 5 6 7 Total
20 14 10 8 6 2 100%
La administradora de un hospital local desea comparar su existencia con la experiencia nacional. Seleccionaron 400 adultos mayores en centros de asistencia locales que necesitaron hospitalizacin y determin el nmero de veces que cada uno fue admitido en su hospital. Las frecuencias observadas se muestran en la siguiente tabla: Nmero de ingresos en un periodo de dos aos 1 2 3 4 5 6 7 Total Nmero de personas 165 79 50 44 32 20 10 400
Para resolver la duda, usaremos el procedimiento de pruebas utilizado para las pruebas de hiptesis de datos de nivel intervalo. Paso 1: Plantear la hiptesis nula y alternativa.
Matemticamente se expresa:
Si la hiptesis nula se rechaza y es aceptada, ello significar que existen diferencias entre la experiencia local y nacional con respecto al nmero de veces que un adulto mayor ingresa al hospital local. Paso 2: Seleccionar el nivel de significacin.
Se utilizar un nivel de significacin de 0.05, que es , la probabilidad de cometer un error tipo I. Es decir, la probabilidad de rechazar una hiptesis nula verdadera. Paso 3: Identificar el estadstico de prueba. El estadstico adecuado es el estadstico Chi-Cuadrado, pues se est analizando la diferencia que existe entre una frecuencia observada y una frecuencia esperada. Paso 4: Formular la regin de decisin. La regla de decisin requiere identificar un valor crtico en la curva Chi-Cuadrada que separe la regin de rechazo de la regin de aceptacin. En una prueba de Chi-Cuadrada, para obtener el valor correcto debemos considerar los grados de libertad de la prueba definidos como k-1, donde k es representa al nmero de categoras. En nuestro caso, los grados de libertad son 6, pues existen 7 categoras. El valor crtico de Chi-Cuadrada con 6 grados de libertad y con un nivel de significancia de 0.05 ( ), lo obtenemos de la tabla: Grados de Libertad (g.l.) 1 2 3 4 5 6 rea de la cola derecha de la curva 0.1 0.05 0.025 0.01 0.005
2.71 4.61 6.25 7.78 9.24 10.64
3.84 5.99 7.81 9.49 11.07 12.59
5.02 7.38 9.35 11.14 12.83 14.45
6.63 9.21 11.34 13.28 15.09 16.81
7.88 10.60 12.84 14.86 16.75 18.55
De la tabla, se utiliza un valor crtico de Chi-Cuadrada de 12.59. Grficamente:
Fig. 15.3: Regiones de aceptacin y de rechazo para un estadstico
Observacin: La regin de aceptacin est a la izquierda del valor crtico. Por consiguiente, la regla de decisin es: aceptar la hiptesis nula y rechazar la hiptesis alternativa si el valor calculado del estadstico Chi-Cuadrada es menor o igual a 12.59. En caso contrario, se rechaza la hiptesis nula. Paso 5: Tomar la muestra y llegar a una decisin. El nmero de frecuencias observadas que resulta del estudio de los adultos mayores locales no puede compararse directamente con los porcentajes dados para los hospitales de la nacin. Sin embargo, los porcentajes pueden convertirse en frecuencias esperadas, como se ve en la siguiente tabla: Nmero de ingresos en un periodo de dos aos 1 2 3 4 5 6 7 Frecuencias observadas 165 79 50 44 32 20 10 Frecuencias Esperadas 40% * 400 = 160 20% * 400 = 80 14% * 400 = 56 10% * 400 = 40 8% * 400 = 32 6% * 400 = 24 2% * 400 = 8
De acuerdo a la informacin proporcionada, obtenemos el valor de Chi-Cuadrada con la frmula:
Donde:
Dado que 2.379 queda en la regin de aceptacin, la hiptesis nula que indica no existe diferencia entre el nmero de frecuencias observadas y el nmero de frecuencias esperadas, se acepta con un nivel del 0.05 o 5%. Esto indica los resultados de la experiencia local con respecto a los adultos mayores de centros de asistencia hospitalizados es similar a la de otras partes del pas. 15.4 Limitaciones de la Chi-Cuadrada
Si hay un nmero inusitadamente pequeo de frecuencias esperadas en una celda, la ChiCuadrada puede llevar a una conclusin errnea. Esto puede deberse a que aparece en el denominador y la divisin entre un nmero muy pequeo produce un cociente demasiado grande. Dos reglas de aceptacin general respecto a pequeas frecuencias de celda son: Si slo hay dos celdas, las frecuencias esperadas en cada celda deben ser cinco o ms. El clculo de la Chi-Cuadrada sera permisible en el siguiente problema: Persona Alfabeta Analfabeta Frecuencias observadas 643 7 Frecuencias esperadas 642 6
Para ms de dos celdas, la no debe aplicarse si ms de 20% de las celdas tienen frecuencias esperadas de menos de cinco. De acuerdo con esta regla, se permite calcular para la informacin gerencial en la parte izquierda de la tabla siguiente, pues solo una celda de 6, o sea 17%, contiene una frecuencia de menos de cinco: Nivel directivo Supervisor Subgerente Gerente Subdirector Director Presidente Frecuencias observadas 18 39 8 6 82 10 163 Frecuencias esperadas 16 37 13 4 78 15 163
Sin embargo, la Chi.Cuadrada no debe utilizarse para la informacin gerencial en la siguiente tabla porque tres de las siete frecuencias, o sea 43%, son inferiores a cinco. Nivel directivo Jefe de rea Supervisor Subgerente Gerente Subdirector Director Presidente Frecuencias observadas 30 110 86 23 5 5 4 163 Glosario Frecuencias esperadas 32 113 87 24 2 4 1 263
Prueba de Bondad de Ajuste: Prueba de hiptesis para determinar el grado de las diferencias entre una distribucin observada y una distribucin terica.

Probabilidad y Estadistica

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Probabilidad y Estadistica

Enviado por

Direitos autorais:

Formatos disponíveis

Probabilidad y estadstica Tema 1.

Aplicando la frmula tenemos que:

La probabilidad condicional puede definirse como:

Reemplazando las variables de acuerdo a nuestro planteamiento:

El diagrama de rbol resultante del planteamiento se refleja en la figura 2.2

Sustituyendo los valores en la frmula, tenemos que:

Principio multiplicativo Principio aditivo Permutaciones Combinaciones

Probabilidad y estadstica Tema 4. Variables aleatorias

Fig. 4.3 Seleccin de series a graficar

Finalmente, obtenemos una grfica similar a la que se muestra en la grfica 4.1

Existen dos tipos de variables aleatorias: 1. Variables aleatorias discretas.

2. Variables aleatorias continuas.

Probabilidad P(X) 0.10

0.20 0.30 0.30 0.10 1.00

0.2 0.6 0.9 0.4 E(X) = 2.1

La frmula para calcular una probabilidad con la distribucin de Bernoulli es:

Entonces, el xito del experimento se representa cmo:

El fracaso del experimento como:

La distribucin de probabilidad binomial puede describirse mediante la siguiente frmula:

Para calcular las probabilidades individuales, tenemos:

Realizando los clculos individuales y realizando la suma, tenemos que:

P(r) 0.2097 0.3670 0.2753 0.1147 0.0287 0.0043 0.0004

La distribucin de Poisson puede describirse matemticamente como:

Aplicando la frmula de la distribucin de Poisson, tenemos:

Considerando el experimento y el dato de

Aplicando la frmula de la distribucin de Poisson, tenemos:

400 prstamos. Cul es la probabilidad de que a lo mucho 3 prstamos no se liquiden a tiempo?

Para calcular las probabilidades individuales, tenemos:

P(x) 0.0003 0.0027 0.0107 0.0286 0.0573 0.0916 0.1221 0.1396

Tabla 5.2 Probabilidades acumuladas para Tablas de distribucin binomial

1 0.3679 0.3679 0.1839 0.0613 0.0153 0.0031 0.0005 0.0001

Entonces, para aplicar la distribucin binomial, tenemos:

Podemos obtener aquellos eventos en donde se obtiene un guila en el ltimo intento:

Matemticamente, la frmula de la distribucin de probabilidad hipergeomtrica es:

Integrando la funcin de densidad y evaluando en x = 430 y x = 400, tenemos que:

La probabilidad de que llueva menos de 430 litros es del 30%. Grficamente:

La probabilidad de que llueva ms de 490 litros es del 10%. Grficamente:

Matemticamente, la distribucin de probabilidad uniforme puede definirse como:

La distribucin de probabilidad exponencial, se puede ver en la figura 7.2.

Entonces, despejando para

Utilizando la frmula para cuando X sea mayor a 0, entonces:

Integrando la funcin de densidad y evaluando en x = 9 y x = 7, tenemos que:

Para el caso continuo:

Probabilidad y estadstica Tema 8. Distribucin normal estndar y distribuciones relacionadas

8.1 Distribucin de probabilidad normal

Fig. 8.1 Caractersticas de una distribucin normal

2.8 2.9 3.0

0.4974 0.4981 0.4987

0.4975 0.4982 0.4987

0.4976 0.4983 0.4987

0.4977 0.4983 0.4988

0.4977 0.4984 0.4988

0.4978 0.4984 0.4989

0.4979 0.4985 0.4989

0.4980 0.4985 0.4989

0.4980 0.4986 0.4990

0.4981 0.4986 0.4990

Observando la grfica, determinamos el rea de inters:

z 2.0 2.1 2.2 2.3 2.4

0.00 0.4773 0.4821 0.4861 0.4893 0.4918

0.01 0.4778 0.4826 0.4865 0.4896 0.4920

0.02 0.4783 0.4830 0.4868 0.4898 0.4922

0.03 0.4788 0.4834 0.4871 0.4901 0.4925