Estadistica Aplicada A La Ingenieria Ambiental

UNIVERSIDAD AUTNOMA DE CD.
JUREZ
INSTITUTO DE INGENIERA Y TECNOLOGA DEPARTAMENTO DE INGENIERA CIVIL Y AMBIENTAL
MTODOS ESTADSTICOS PARA LA INGENIERA AMBIENTAL Y LA CIENCIA
DR. HCTOR ADOLFO QUEVEDO URIAS
AGOSTO DE 2006
Copyright 2006. Mtodos Estadsticos para la Ingeniera Ambiental y la Ciencia. Hctor Adolfo Quevedo Uras Es propiedad del autor. Queda hecho el depsito que marca la ley.
Advertencia Prohibida la reproduccin de este libro, adems de los esquemas e ideas originales del autor que se hallan en este texto, ya sea por medios electrnicos, mecnicos, fotocopiado o de cualquier otra forma, puesto que todo esto pertenece al dominio de la propiedad intelectual y est protegido por la ley. Para revisores, crticos o reseadores literarios, a quienes se les asigne la tarea de hacer revisiones literarias de esta obra, lo pueden hacer, previo acuerdo con el autor. Impreso en Cd. Jurez, Chihuahua, Mxico Library of Congress Cataloging in Publication Data Hctor Adolfo Quevedo Uras Este libro fue publicado en el Internet en Enero de 2006 por la Biblioteca Virtual de la Universidad Autnoma de Cd. Jurez. La direccin electrnica del libro es:
http://bivir.uacj.mx/LibrosElectronicosLibres/UACJ/ua00001.pdf
CONTENIDO Introduccin Captulo 1

Estadstica Descriptiva
Pgina i 1-1
Definicin de estadstica.- Poblacin y muestra.- Estadstica inductiva y de inferencia.Estadstica descriptiva.- Variables continuas y discretas.- Medidas de tendencia central.Medidas de dispersin.- La variable aleatoria estandarizada z.- Las desviaciones del promedio.- El rango.- Sesgo y kurtosis.- Distribuciones de frecuencia.- Diagramas de tallo y hoja.
Captulo 2
Probabilidad
2-1
Probabilidad de frecuencia relativa.- Probabilidad subjetiva.- Axiomas y propiedades bsicas de la probabilidad.- Diagramas de Venn y lgebra de conjuntos.- Tcnicas de conteo: Regla de producto para pares ordenados, la regla de multiplicacin ms general, regla factorial, diagramas de rbol, permutaciones y combinaciones.- Regla multiplicativa para eventos dependientes e independientes.- Regla aditiva para eventos mutuos excluyentes y eventos no mutuos excluyentes.-
Captulo 3
Distribucin Binomial e Hipergeomtrica
3-1
Aplicaciones generales de la distribucin binomial.- Relacin entre la distribucin normal y la distribucin binomial.- Relacin entre la distribucin binomial y la distribucin de Poisson.- La distribucin hipergeomtrica.- Suposiciones y propiedades de la distribucin hipergeomtrica.-
Captulo 4
Distribucin de Poisson
4-1
Aplicaciones de la distribucin de Poisson.- Condiciones que se requieren para aplicar la distribucin de Poisson.- Funciones probabilsticas de la funcin de Poisson.- Aplicacin de la distribucin de Poisson dentro de sus propios trminos y como una aproximacin a la distribucin binomial.- Propiedades de la distribucin de Poisson.- Problemas de la distribucin de Poisson usando el programa Minitab.
Captulo 5
Distribuciones de Probabilidad Continua
5-1
Funcin de densidad de probabilidad de la variable aleatoria continua X.- Frmula fundamental del clculo.- Distribucin normal y sus caractersticas.- Relacin entre la curva normal y la binomial.- reas bajo la curva normal.- Distribucin exponencial.- Distribucin Gamma.- Distribucin Weibull.- Intervalos de confianza para .- Estadstica de inferencia:
teora de decisin estadstica y pruebas de hiptesis.- Pruebas de hiptesis estadsticas. Hiptesis nula (Ho:) e hiptesis alternativas (H1:, H2:, H3:).- Tipos de errores I (alfa) y II (beta).- Pruebas de hiptesis no tradicionales usando el valor de la probabilidad p.- Pruebas de hiptesis para uno y dos promedios poblacionales (1, y 2).- Pruebas de hiptesis para las diferencias de dos promedios poblacionales (1 2), para muestras grandes (n 30) usando la distribucin normal, con varianzas conocidas e iguales (21 = 22).- Intervalos de confianza para dos promedios poblacionales.- Pruebas de hiptesis e intervalos de confianza para proporciones.-
Captulo 6
Distribuciones de t de Estudiante, JI Cuadrada y F
6-1
Propiedades de la distribucin de t de Estudiante.- Intervalos de confianza para el promedio poblacional .- Prueba de hiptesis para .- Prueba de t pareada para detectar diferencias entre dos tratamientos.- Prueba de t para probar la hiptesis de dos promedios, cuando las varianzas son iguales.- Prueba de t para probar la hiptesis de dos promedios cuando las varianzas son desiguales.- Mecanismos para calcular el valor de p cuando se hacen pruebas de hiptesis no tradicionales.- Intervalos de confianza y pruebas de hiptesis con la JI cuadrada, (2).- Aplicacin de la JI cuadrada en cuanto a la prueba de bondad de ajuste comparando las frecuencias observadas y las frecuencias tericas.- Distribucin F y su aplicacin en la comparacin de varianzas muestrales.-
Captulo 7
Anlisis de Varianza
7-1
Diseos de anlisis de varianza completamente aleatorizados y diseo de bloques aleatorizados.- Mtodo de comparaciones mltiples para saber cuales poblaciones son iguales y cuales son desiguales.- Anlisis de varianza de diseo de bloques aleatorizados.- Suposiciones del modelo de bloques aleatorios completos.- Anlisis de varianza en dos sentidos.- Interaccin con ANOVA de dos factores.- Anlisis de varianza en tres sentidos: diseo completamente aleatorio.- Interaccin con ANOVA de diseos factoriales de tres clasificaciones.- Ejemplos de ANOVA usando el programa Minitab.-
Captulo 8
Regresin Lineal Simple y Mltiple
8-1
Suposiciones del modelo de regresin lineal.- Ecuaciones normales para calcular el intercepto en la ordenada a y la pendiente b de la curva o lnea de regresin.- Coeficiente de determinacin R2 de la muestra que estima a 2 el coeficiente de determinacin poblacional.- Coeficiente de correlacin R de la muestra que estima a , el coeficiente de correlacin poblacional.- Intervalo de confianza para el coeficiente poblacional componente de la lnea de regresin Y|X = + X, estimado por b, la pendiente de la lnea.- Intervalo de confianza para el parmetro poblacional , el intercepto de la ordenada de la lnea de regresin Y|X = + X, cuyo estimador es a.- Hiptesis nula de Ho: = o contra las hiptesis alternativas de H1: < 1 y H2: > 1.- Hiptesis nula de Ho: = o contra las hiptesis alternativas de H1: o, H2: > o, y de H3: < o.- Intervalo de confianza para Y|X de la lnea poblacional estimada por Y.- Regresin y correlacin
mltiple.- Mtodos para validar el modelo de regresin lineal simple y mltiple: a travs de estadstica de inferencias y a travs del anlisis grfico de los residuales estandarizados. Procedimiento de regresin mltiple usando el programa Minitab.-
Captulo 9
Regresin Polinomial
9-1
Modelos polinomiales de segundo orden (k = 2) con una variable independiente.- Modelo de polinomios de tercer orden (k = 3), con una variable independiente.- Modelo de segundo orden (cuadrtico) con interaccin.- Modelo polinomial (de segundo orden o cuadrtico), con tres variables independientes con interaccin.- Evaluacin de los modelos de regresin.- Prueba estadstica para comparar la suma de los cuadrados del error (SSe) de cada modelo probado, para saber cual modelo es superior.- Modelos de regresin no lineales y de regresin logstica.- Modelos de regresin exponenciales paramtricos, con una sola variable independiente.- Procedimientos para la Identificacin de valores atpicos extremos. Diagnstico y mitigacin de multicolinealidad.- Medidas para corregir multicolinealidad severa.- Ejemplos de problemas de regresin polinomial usando el programa de computadora Minitab.- Autocorrelacin en datos de series de tiempo.- Heteroscedasticidad y homoscedasticidad.- Prueba de White para el problema de heteroscedasticidad.-
Captulo 10
Estadstica no Paramtrica. El modelo de Distribucin de ANOVA Libre 10-1
Ventajas de los mtodos no paramtricos.- Desventajas de los mtodos no paramtricos.Prueba de H de Kruskal-Wallis para anlisis de varianza por rangos.- Pruebas de hiptesis con las funciones no paramtricas.- Procedimientos de pruebas de Kruskal-Wallis para ANOVA simple.- Pruebas de hiptesis no tradicionales, para la prueba de Kruskal-Wallis, es decir, usando el valor de la probabilidad p.-
Captulo 11
Series de Tiempo
11-1
Clasificacin de los movimientos de las series de tiempo.- Tendencias a largo plazo.Componentes cclicos de series de tiempo.- Variaciones estacionales.- Variacin irregular.Mtodos para encontrar lneas de tendencia.- Lnea de los cuadrados mnimos y parbolas de los cuadrados mnimos.-
Captulo 12
Seleccin del Tamao de la Muestra
12-1
Derivacin de la frmula para estimar el tamao ms apropiado de la muestra para el promedio.- Seleccin del tamao de la muestra para dos poblaciones.-
Apndices
Apndice A Lista de Tablas Estadsticas
Apndice-A
Apndice B Apndice C Apndice D
Bibliografa Papel de grfica ndice
Apndice-B Apndice-C Apndice-D
Introduccin
La estadstica y los mtodos probabilsticos o estocsticos juegan un papel muy importante en todas las fases del comportamiento humano. El uso de la probabilidad y de la estadstica se ha extendido, no tan solo a las reas tradicionales universitarias o escolsticas, sino tambin a todos los campos de la ingeniera, la agricultura, la biologa, la qumica, las comunicaciones, la economa, la electrnica, la medicina, la fsica, las ciencias polticas, la psicologa, la sociologa, las encuestas polticas, la mercadotecnia, la ecologa, la meteorologa, y as sucesivamente. Este texto de probabilidad y de estadstica, est diseado para cursos de postgrado de la Ingeniera Ambiental y la Ciencia. Este libro es una compilacin de ms de 25 libros de referencias bibliogrficas de probabilidad y de estadstica orientados, no tan solo a la ingeniera ambiental, sino tambin a la ingeniera en general, la economa, la qumica, la fsica, la agricultura, la medicina, etc. Este texto consta de ms de 700 pginas que incluyen conceptos tericos, muchos ejemplos prcticos y muchos ejercicios. El autor de este texto, sin intenciones de ufanarse, incluye un diseo de una frmula (que no aparece en los libros de estadstica) para interpolar, manualmente, valores y estimar la probabilidad p. En verdad, el propsito de este texto es el de ayudar al lector a entender los conceptos, ideas y funciones de la probabilidad y de la estadstica aplicados a problemas de la ingeniera ambiental y a la ciencia. Este texto deber ser tambin til para aquellos estudiosos quienes deseen hacer aplicaciones de la probabilidad y de la estadstica a problemas de la ingeniera en trminos generales, as como tambin a la investigacin. Cada captulo se inicia con definiciones pertinentes y claras, teoremas y
i
principios, con material abundante de grficas, de materiales descriptivos y de muchos ejemplos y ejercicios. Por ejemplo, el Captulo 1 da la introduccin a la estadstica clsica. Este captulo da una clara distincin entre lo que es una poblacin y una muestra. Este captulo habla, adems, de estadstica descriptiva y de distribuciones de frecuencia. Ms adelante, el Captulo 2 habla de la teora de probabilidad y todo lo relacionado con la probabilidad clsica. Despus, los Captulos 3 y 4 hablan de las distribuciones discretas, como la binomial, la hipergeomtrica y la Poisson. Aqu se incluye el concepto de la lgica deductiva, la cual es un concepto de difcil entendimiento. El Captulo 5 describe las funciones continuas de probabilidad, especialmente la distribucin normal, adems, de las distribuciones Weibul, exponencial, Gamma, etc. El Captulo 6 habla de la teora de muestreo pequeo como la t de Estudiante, JI cuadrada y la distribucin F. En este rengln, en las pruebas de hiptesis, para el control de calidad, se habla de la lgica inductiva, que es un concepto de difcil entendimiento y discutido en poqusimos libros de estadstica. Adems, el Captulo 7 est relacionado con diseos de anlisis de varianza completamente aleatorizados y diseos de bloques aleatorizados. Este captulo tambin discute modelos factoriales de dos y tres clasificaciones. El Captulo 8 est relacionado con regresin lineal simple y mltiple. El Captulo 9 est relacionado con regresin polinomial, el cual incluye modelos polinomiales de segundo y tercer orden, con una variable independiente y con ms de dos variables regresivas. Este captulo habla tambin de modelos de regresin no lineales de regresin logstica y de modelos exponenciales paramtricos, con una sola variable independiente. Ms adelante, el Captulo 10 habla de pruebas no paramtricas. Otros, el Captulo 11 habla de las series de tiempo. Finalmente, el Captulo 12 habla de mtodos para seleccionar el tamao de muestra
ii
ms apropiado. Este texto, adems, incluye varios apndices con tablas de las distribuciones binomiales, de Poisson, normal, de t de Estudiante, de F, de JI cuadrada, etc. Igualmente, este texto incluye una serie de referencias bibliogrficas. Finalmente, este libro de estadstica incluye una seccin que contiene ms de 340 ejercicios relacionados con cada captulo y ejemplos usando el programa de computadora Minitab y Excel. En este contexto, este texto de estadstica da muchos ejemplos de problemas usando el paquete de computadora Minitab, es decir, describiendo el uso del Minitab con minuciosidad de detalles; situaciones presentadas por muy pocos libros de estadstica. Para concluir, debo decir que este es un texto de estadstica diseado para los estudiantes de ingeniera ambiental de posgrado y de la ciencia en general. Es decir, para aquellos investigadores quienes deseen encontrar, prcticamente, todos los conceptos de la probabilidad y de la estadstica, que les pueda ayudar en el desarrollo de su profesin de ingeniera, en la investigacin o en cualquier otra rea de la ciencia en general.
iii
Dr. Hctor Quevedo Uras
CAPITULO 1 Estadstica Descriptiva Definicin de estadstica.- Poblacin y muestra.- Estadstica inductiva y de inferencia.- Estadstica descriptiva.- Variables continuas y discretas.- Medidas de tendencia central.- Medidas de dispersin.- La variable aleatoria estandarizada z.- Las desviaciones del promedio.- El rango.- Sesgo y kurtosis.Distribuciones de frecuencia.- Diagramas de tallo y hoja. Estadstica es el estudio de los mtodos para coleccionar, resumir, organizar, presentar y analizar informacin de datos. El trmino estadstica tambin se refiere a la derivacin de conclusiones vlidas y a la formacin de decisiones razonables, en base a semejantes anlisis. En la coleccin de datos de un grupo de observaciones, a menudo es imposible o imprctico observar toda la poblacin. De manera qu, en lugar de examinar el grupo en su totalidad, llamado la poblacin o universo, es conveniente examinar solamente una parte de la poblacin llamada muestra. Poblacin se refiere a un grupo de tems que tienen una caracterstica en comn. Una poblacin puede ser definida como un grupo de individuos, como por ejemplo, una persona, un animal, un objeto o una medicin. Adems, una poblacin puede ser finita o infinita. Por ejemplo, la poblacin consistente de todos los tornillos producidos en una fbrica, en un da, es finita. En contraste, la poblacin consistente de todos los posibles resultados (caras o guilas) de los lanzamientos sucesivos de una moneda es infinita. A menudo la poblacin no existe pero, sin embargo, es de importancia. Por ejemplo, al estudiar un nuevo colorante para telas de algodn podemos probar el nuevo colorante, con solamente 10 piezas de un metro del material
1-1
y hacer mediciones de la resistencia del colorante. La muestra consiste de 10 piezas de algodn tratadas con el colorante. La poblacin consiste de todas las piezas de algodn posibles de un cierto tipo que pudieran ser tratadas con el nuevo colorante. Esta poblacin no existe. Sin embargo, la poblacin total nos la podemos imaginar al estudiar las 10 piezas de algodn con el objeto de hacer inferencias. En el caso de una muestra, esto se refiere a una estadstica y es un estimador de un parmetro de poblacin. Por ejemplo, si X denota el promedio aritmtico estadstico de una muestra, entonces, X es el estimador del parmetro de todo el conjunto o poblacin. Sin embargo, en contraste como se dijo antes, es imprctico o imposible observar toda la poblacin, por esta razn se examina una pequea parte del grupo o poblacin llamada muestra estadstica. Aqu, es conveniente introducir trminos tales como muestra aleatoria o al azar, muestreo, estadstica inductiva o de inferencia y estadstica descriptiva. Tambin es muy crtico distinguir entre los trminos parmetros (donde se usan smbolos griegos) versus estadsticas. Los parmetros se refieren a poblaciones infinitas o finitas. Sin embargo, las estadsticas ser refieren a una muestra. Por ejemplo, si una muestra es representativa de una poblacin se pueden sacar conclusiones importantes acerca de esta poblacin. Sin embargo, es importante notar que la muestra debe ser aleatoria, porque de otra manera, la inferencia acerca de la poblacin ser invlida. Con respecto a la estadstica inductiva y a la estadstica de inferencia, stas se refieren al proceso de inferir conclusiones acerca de una poblacin basndose en un muestreo aleatorio (al azar), de tal manera que la probabilidad de tener una inferencia correcta puede ser determinada de acuerdo con varias hiptesis concerniendo la poblacin bajo estudio. Dicho en otras palabras, debido a que semejante inferencia no puede ser absolutamente cierta, el lenguaje de probabilidad es, a menudo usado en la
1-2
presentacin de los resultados o conclusiones. En contraste, la fase de estadstica que busca nicamente describir y analizar datos de una distribucin continua (como la normal), sin sacar ninguna conclusin o inferencia acerca de la poblacin o universo, se denomina estadstica descriptiva. Aqu se incluyen trminos como coleccin de datos sin procesar, formacin de datos en orden descendiente o ascendente (cuya diferencia entre el mayor y menos se denomina rango), distribuciones de frecuencia, que es un trmino para describir el arreglo relativo de un conjunto de elementos de los valores de una variable y de las frecuencia de ocurrencia de cada valor (la ms importante llamada curva normal y t de estudiante). Otros trminos usados en estadstica descriptiva son promedios aritmticos, promedios geomtricos, promedios armnicos, medianas, modas, percentiles, desviaciones estndar, varianzas, etc., pero, sin sacar inferencias del grupo que provienen. Sin embargo, con relacin a la estadstica descriptiva y la estadstica de inferencia, en el caso de la estadstica descriptiva, este tipo de estadstica incluye la presentacin de conjuntos de observaciones, de tal manera que puedan ser comprendidas e interpretadas y sirven para resumir o describir datos. En cambio, la estadstica de inferencia se relaciona con estimaciones de magnitudes de poblaciones y pruebas de acerca de las caractersticas de la poblacin. Ambas son tiles para determinar cual entre dos a ms cursos de accin se siguen cuando el curso correcto es determinado por una caracterstica particular o desconocida de la poblacin. En el campo de la ingeniera (como en la ingeniera ambiental) y ciencias experimentales el uso de la estadstica es requerido en el diseo de plantas de aguas residuales e industriales, en el diseo de chimeneas industriales, en el diseo del equipo de control de la contaminacin, en pruebas de rutina de laboratorio, en
1-3
trabajos de investigacin y en la produccin de calidad y construccin. Por ejemplo, en el laboratorio si el muestreo es preciso o si la variabilidad de nuestros resultados es mayor de lo esperado, entonces hay que corregir la variacin refinando las tcnicas de laboratorio o incrementando el tamao de la muestra. En el campo de la investigacin tal vez estemos interesados en saber si un cambio es un ingrediente que afecta las propiedades del material resultante, para comparar la eficiencia de procesos o de mquinas probadoras; para determinar si los resultados obtenidos encajan en una forma postulada o sospechada. Otra aplicacin muy importante es el control de la calidad en la ingeniera industrial. Con relacin a las variables continuas y discretas, en este caso se dice que una variable aleatoria es una funcin que asigna un valor numrico a cada evento simple en un espacio de la muestra. As, una variable aleatoria continua puede asumir una figura innumerable y, tericamente, puede asumir cualquier valor entre dos valores dados. Por ejemplo las alturas de una persona pueden ser 62.0 pulgadas, 63.8 Pulgadas, 65.8456 Pulgadas, etc. En contraste, una variable es discreta si puede asumir, solamente, un nmero contable de posibles valores. Medidas de tendencia central o de localizacin: el promedio, la mediana y la moda. Smbolos usados en las sumatorias de estadstica: El smbolo Xj se usa para denotar la suma de todas las
j=1 n
Xjs, desde j = 1 hasta j = N.
Ejemplo #1. Xj = X1 + X2 + X3 + ... + Xn

j=1
1-4
Ejemplo #2. XjYj = X1Y1 + X2Y2 + X3Y3 + ...+ XNYn

j=1
Ejemplo #3. aXj = aX1 + aX2 +...+ aXn

j=1
= a(X1 + X2 +,..,+ Xn) = a Xj

j=1
Ntese la diferencia entre X 2 y (X)2 La suma de los cuadrados (SS), es decir, la suma de las desviaciones al cuadrado de X de su promedio X se denota como: La suma total de los cuadrados = (Xi - X )2 = SS
i=1 kn
(1-1)
= X 2 - (X)2/n El promedio aritmtico El promedio aritmtico es un valor el cual es tpico o representativo de un conjunto de datos de distribuciones continuas. Existen diferentes tipos de promedios. Los ms comunes son el promedio aritmtico, la mediana, la moda, el promedio geomtrico, el promedio harmnico, etc. Cada uno tiene sus ventajas y desventajas dependiendo de los datos y el propsito a seguir. El promedio aritmtico no se debe usar como sinnimo de promedio o media, porque hay otros tipos de promedios. El promedio aritmtico es un valor que representa un conjunto de datos; es una medicin de tendencia central. El promedio aritmtico es el estimador del parmetro
1-5
de poblacin, y se define como:

X = (X1 + X2 + X3 +...+ Xn) / n = Xj / n = X/n
(1-2)
Si los nmeros X1, X2, X3,,Xk ocurren f1, f2,,fk veces, es decir, con datos agrupados, entonces:
X = fXi / n
(1-3)
Con las distribuciones continuas, es de notarse qu, el promedio aritmtico, X es un estimador de , es decir, del parmetro de poblacin. En muy raras ocasiones se conoce (toda la poblacin), siendo as, entonces, se calcula directamente. Ejemplo #4. El promedio de una muestra de observaciones de ciertos anlisis de aguas, cuyos valores son 8, 3, 5, 12, 10, es:
X = (8 + 3 + 5 + 12 + 10)/5 = 38/5 = 7.6
Ejemplo #5. Calcular X , de una muestra de 5, 8, 6, y 2 casos que ocurren con una frecuencia de de 3, 2, 4, y 1.
X = [(3)(5) + (2)(8) + (4)(6) + (1)(2)]/(3+2+4+1) = 5.7
La mediana La mediana, X es el valor de en medio de un grupo de nmeros u observaciones (puestas en forma ascendente) o el promedio aritmtico de los dos valores de en medio. Geomtricamente hablando, la mediana es el valor de X (abscisa) correspondiente a esa lnea vertical que divide a un histograma en dos partes teniendo reas iguales. La mediana es una posicin de promedio, mientras que el promedio aritmtico es un promedio calculado.
~
1-6
Ejemplo # 6. La muestra de observaciones 3, 4, 4, 5, 6, 8, 8, 10 tiene una mediana de

~ X = (5+6)/2 = 5.5.
Ejemplo #7. La muestra de observaciones 5, 5, 7, 9, 11, 12, 13, 15, 18 tiene una mediana de X = 11. La moda La moda es una estadstica que demuestra el valor que ocurre con ms frecuencia en una muestra (poniendo los datos en forma ascendente). Una distribucin puede tener
una moda, puede ser bimodal, etc. Este valor se denota por X . Sin embargo, algunas ~
ocasiones la moda no existe. Ejemplo #8. La muestra de observaciones 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tiene
una moda de X = 9, es decir, el valor que ocurre con ms frecuencia.
Ejemplo #9. Los valores 3, 5, 8, 10, 12, 15, 16 no tienen moda. Ejemplo #10. La muestra de observaciones 2 ,3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tiene dos
modas, 4 y 7 y es bimodal, es decir, X = 2.
1-7
Relacin entre el promedio aritmtico, la mediana y la moda Si el promedio, la mediana y la moda coinciden, entonces la distribucin es simtrica; de otra manera, la distribucin es asimtrica con sesgo a la derecha o la izquierda. Ver figuras de abajo.
Figura 1.0. Distribucin oblicua a la derecha (sesgo positivo). (Elaboracin propia)
Figura 1.1. Distribucin oblicua a la izquierda (sesgo negativo) (Elaboracin propia)
Ejemplo #11. Encontrar el promedio aritmtico, la mediana y la moda para una muestra de anlisis de aire de Pb cuyos valores son: 3, 5, 2, 6, 5, 9, 5, 2, 8, 6 partes por milln (ppm). Solucin:
X = 5.1 ppm ~ X = (5+5)/2 = 5 X = nmero que ocurre con ms frecuencia = 5
Ejemplo #12. Encontrar el promedio, la mediana y la moda de los casos 48.7, 48.8,
1-8
49.5, 50.3, 51.6. Solucin:

~ X = 49.8, X = 49.5, X = no existe
El promedio geomtrico El promedio geomtrico se usa como un disfraz de transformacin logartmica. Es til para promediar tasas de crecimiento (aumento o decremento) de una muestra estadstica. La frmula es: G=
n
x x x ... x
1 2 3
(1-4)
Ejemplo #13. Encontrar el promedio geomtrico de los valores 3, 5, 6, 6, 7, 10, 12 Solucin: G = 7 (3)(5)(6)(6)(7)(10)(12) = 7 453,600 log G = 1/7 log(453,000) = 0.8081 y antilog 0.8031 = 6.43 Existen otros promedios como el promedio harmnico, el promedio cuadrtico, etc. Tambin hay otras medidas de localizacin ms finas que dividen los datos en ms de dos partes. Por ejemplo, los cuartiles dividen el conjunto de datos en cuatro partes iguales. Por ejemplo, el tercer cuartil (Q3) describe la cuarta parte superior del conjunto de datos. El segundo cuartil (Q2) es idntico a la mediana. El primer cuartil (Q1) separa la cuarta parte inferior de las tres cuartas partes superiores. Adems, los percentiles pueden dividir los datos en 100 partes iguales. Por ejemplo, el 99avo percentil separa el 1% ms alto del 99% restante, etc. Otra forma de ver la simetra de los datos es usando diagramas de caja. Tambin hay lo que se llama diagramas de punto, que ayudan, visualmente, a revisar la simetra de los datos.
1-9
La varianza La varianza, s2 es una medida de dispersin y nos dice, qu tanta variacin existe de una observacin a otra (o del promedio) o de una muestra a otra. Una s2 grande tiene ms casos diversificados, que una con una varianza pequea. La varianza s2 de una muestra estadstica (o de varias muestras) es el estimador del parmetro de la varianza, 2 de una poblacin o poblaciones. La frmula de la varianza es: s2 = (X - X )2/(n-1) = [X 2 (X)2/n]/(n - 1)
i=1 n
(1-5)
= SS/(n 1) Ejemplo #14. Calcular la varianza y la desviacin estndar de la muestra 2, 4, 6. Solucin: Calculando X = 4 y usando el mtodo largo nos da: s2 = [(2 - 4)2 + (4 - 4)2 + (6 - 4)2]/(3 - 1) = 8/2 = 4 Usando el mtodo corto: Varianza = s2 = [X2 (X)2/n]/(n 1) nos dara: s2 = [X2 (X)2/n]/(n 1) = (56 48)/2 =4 La desviacin estndar La desviacin estndar, s es una forma especial de la desviacin promedio de la media. Es una medida de dispersin. A medida que aumenta la desviacin estndar o la varianza, mayor diversidad habr entre las observaciones de una muestra. Esta
1-10
estadstica se da como: s = [X 2 (X)2/n] / (n 1) Para datos agrupados, la desviacin estndar es: s = [fj X 2 (X)2/n] / (n 1) Ejemplo #15. Para el ejemplo de arriba, calcular la desviacin estndar. Solucin: Si la varianza, s2 = 4, por lo tanto, la desviacin estndar, s es: s = s2 = 4 = 2 Ejemplo #16. Encontrar X , s, s2, la mediana, el error estndar del promedio, el sesgo y la kurtosis de una muestra al azar de 36 anlisis de fosfatos (PO4-3), en mg/L. Qu tanta fidelidad hay en los datos? La tabla de abajo da la informacin. __________________________________________________________________ Valores de X | 61 64 67 70 73 69 68 70 Frecuencia | 5 8 4 5 5 4 3 2 Solucin: Usando un paquete de computadora da: X = 67.27, s = 3.78, s2 = 14.31, mediana = 68, sesgo = -0.22 y kurtosis = -0.95. Al juzgar por los resultados, hay una buena aproximacin a la distribucin normal, puesto que X y la mediana son parecidos. Adems el valor del sesgo no difiere mucho de 0. Se le pide al lector usar la frmula (15-b) para corroborar los resultados computarizados obtenidos. Propiedades de la desviacin estndar Para una distribucin normal el 68.27% de todas las observaciones estn incluidas entre ( X - s) y ( X + s), esto es, una desviacin estndar a cualquier lado del promedio. Similarmente, el 95.45% de todos los casos se incluyen entre ( X - 2s) y (1-5b) (1-5a)
1-11
( X + 2s), esto es entre z = 2. Adems, en el 99.73% de todos los casos se incluyen entre ( X - 3s) y ( X + 3s), esto es, entre z = 3.
Figura 1.2. Distribucin normal mostrando las reas para diferentes percentiles de la variable estandarizada z (Spiegel, 1961). Variable aleatoria estandarizada z Esta variable aleatoria estandarizada z mide las desviaciones del promedio en unidades de desviacin estndar y se da como: z = (X - X ) / s. Su parmetro respectivo es: Z = (X - )/ Ejemplo #16. Calcular las siguientes probabilidades: (a) P(z 1.25) (b) P(z > 1.25) (c) P(z -1.25) (d) P(-.38 z 1.25) Solucin: (a) Para esto, buscamos en la tabla de la distribucin normal del rengln marcado con (1-7) (1-6)
1-12
1.2 y la columna .05 y da .8944; por lo cual, P(X 1.25) = .8944. (b) P(z > 1.25) = 1 P(z 1.25) = 1 - .8944 = .1056 c) P(z -1.25) = .1056. Por simetra de la curva normal, es la misma respuesta que en el inciso (b) (d) P(-.38 z 1.25) = (rea de - a z = 1.25) (rea de - a z = -.38) = .8944 .3520 = .5424 (de la tabla de z) Otra manera de ver lo mismo es usando anotacin de probabilidades: P(-.38 z 1.25) = P(z 1.25) P(z -.38) = .8944 - .3520 = .5424 Las desviaciones del promedio Las desviaciones del promedio son otras medidas de dispersin. Matemticamente....
n
Desviacin del promedio = |Xj - X |/N

j=1
(1-8)
Ejemplo #17. Encontrar la desviacin promedio de los valores 2, 3, 6, 8, 11. Solucin: El promedio aritmtico es X = 6 La desviacin promedio = (|2-6|+|3-6|+|6-6|+|8-6|+|11-6|)/5 = 2.8 El rango El rango de las observaciones de una muestra es la diferencia entre el nmero ms grande y el ms pequeo. Aqu, es de notarse qu, entre ms grande sea la diferencia, ms dispersin habr, es decir, la varianza y la desviacin estndar sern ms grandes. Ejemplo #18. Encontrar el rango de 2, 3, 3, 5, 5, 5, 8, 10, 12. Solucin:
1-13
El nmero ms pequeo es el 2 y el ms grande es el 12, esto es, 12 - 2 = 10 Nota: Existen otras funciones de dispersin como la dispersin relativa y absoluta o el coeficiente de variacin, etc. Sesgo y kurtosis El sesgo de una distribucin mide el grado de la simetra. Si la curva de frecuencia de una distribucin tiene un extremo ms largo a la derecha del mximo central que el de la izquierda, la distribucin es oblicua hacia la derecha o con sesgo positivo. Lo contrario es correcto y se dice que es oblicua hacia la izquierda o de sesgo negativo. Esta condicin se denomina el primer coeficiente de sesgo de Pearson. El sesgo de la distribucin normal es igual a 0. Ya se explic que, la relacin entre el promedio, la mediana y la moda pueden dar una indicacin del grado de simetra de los datos de una distribucin. Por ejemplo, si el promedio es mayor que la mediana, mayor que la moda, entonces, la distribucin es asimtrica con sesgo positivo hacia la derecha. De otra manera, la distribucin tiene sesgo negativo hacia la izquierda. La kurtosis de una distribucin mide lo puntiagudo de una distribucin normal. Una distribucin que tiene una cima o pico relativamente alta se llama leptokrtica, mientras que aqulla que est achatada se llama platykrtica. La curva normal que no est picuda ni achatada se llama mesokrtica. La kurtosis de la curva normal es igual a 3. Error estndar Adems de reportar el valor de una estimacin puntual, tambin debe indicarse su precisin. La medida de precisin usual es el error estndar del estimador usado. Por ejemplo, los errores estndares de algunas distribuciones de la muestra son los del promedio, de proporciones, de desviaciones estndar y de medianas.
1-14
As, de esta manera, los errores estndares del promedio, de las proporciones o la mediana es, respectivamente: X = N p = pq/N s = 2N (para poblaciones normales) med.=
2N
(1-9) (1-9a) (1-9b) (1-9c)
(para n 30)
Trminos importantes Parmetros. Se refieren a valores poblacionales. Se usan los smbolos griegos para denotarlos. Estadstica. Se refiere a una muestra tomada de una poblacin. Es un estimador de los parmetros de poblacin. Promedio aritmtico. Si se conoce toda la poblacin se usa la variable . Si se refiere a una muestra estadstica, se usa la variable X . De cualquier manera el promedio aritmtico es la sumatoria de un grupo de observaciones dividido entre el total de los casos. Promedio. En general un promedio se refiere a una medida de tendencia central. Ejemplos son el promedio aritmtico, la mediana y la moda. Hay tambin promedios geomtricos, armnicos, etc. Mediana. Es el valor del tem central cuando los datos son agrupados por tamao ( X ).
Moda. Es el valor que ocurre con ms frecuencia ( X ). ~
Distribucin bimodal. Se refiere a una distribucin con dos modas.
1-15
Medidas de dispersin. Se refiere al grado de dispersin de los datos numricos del promedio. Los ms comunes son: el rango, la desviacin estndar, la variancia, la desviacin promedio, desviacin de cuartiles, etc. Varianza. Es una medida de dispersin. Se denota como 2 para describir toda la poblacin. Sin embargo, si se refiere a la varianza de la muestra, se usa el smbolo s2 y se describe como la suma de los cuadrados dividida entre el nmero de valores de la muestra menos uno. Se usa el smbolo s2 que es el estimador del parmetro poblacional 2. Desviacin estndar. Se obtiene sacando la raz cuadrada de la varianza poblacional o de la varianza de la muestra. Coeficiente de variacin. Es la relacin matemtica de la desviacin estndar divida entre el promedio aritmtico. Generalmente se expresa como porcentaje. Es til para comparar distribuciones donde las unidades puedan ser diferentes. Variables discretas. Variables discretas se refieren a caractersticas tales como color, sexo, religin, etc., que se pueden expresar en clasificaciones o categoras cualitativas. Por ejemplo, el nmero n de una familia de nios asume valores de 0, 1, 2, 3,..., pero que no puede asumir valores de 2.5 o de 3.856. Variables continuas.- Se refiere a variables que, tericamente, pueden asumir cualquier valor entre dos valores dados. Se pueden expresar en clasificaciones o categoras cuantitativas. Por ejemplo, la altura h de un individuo, la cual puede ser 63.9 pulgadas, 65.9945 pulgadas, es una variable continua. Sesgo. Mide la simetra de una distribucin. El sesgo puede ser positivo (oblicuo hacia la derecha) o negativo (oblicuo hacia la izquierda). Si es sesgo es positivo,
~ entonces X > X > X . Sin embargo, si el sesgo es negativo, entonces, es el reverso.
La kurtosis mide lo achatado o puntiagudo de la distribucin.
1-16
Variable estandarizada. Mide la desviacin del promedio en unidades de desviacin estndar, simplemente, se refiere al nmero de desviaciones estndar de una observacin que est abajo o arriba del promedio de la distribucin. Mtodos grficos y tabulares usados en estadstica descriptiva Otras tcnicas visuales, que son muy tiles en la probabilidad y la estadstica de inferencia, son el uso de desplegados de tallo y hojas. Otros ms son los diagramas de punto (explicados posteriormente) y los histogramas. Por ejemplo, para construir un diagrama de tallo y hoja, esta situacin se explica en el tpico de diagramas de tallo y hoja. Los diagramas de tallo y hoja son parecidos a los histogramas y sirven el mismo propsito. Esto es, porque los diagramas de tallo y hoja revelan el rango de los datos, muestran donde ocurre la concentracin ms alta de valores, proveen informacin acerca de la presencia o ausencia de simetra y, pueden indicar el grado de simetra en la cual los datos son homogneos. Distribuciones de frecuencia Cuando se estn procesando grandes cantidades de datos es conveniente distribuirlos dentro de clases o categoras, para determinar el nmero de observaciones que pertenecen a cada clase llamada frecuencia de clase. As, un arreglo tabular de datos por clases junto con las frecuencias de clases correspondientes se llama distribuciones de frecuencia o tablas de frecuencias. Definicin de trminos rdenes.- Un orden es un arreglo de datos numricos sin procesar en orden de magnitud ascendente o descendente. Intervalo de clase.- Es un arreglo que define una clase digamos de 60-62 la cual se llama intervalo de clase. Los nmeros terminales 60 y 62 se llaman lmites de clases o lmites de clase inferior y superior. El intervalo 60-62 incluye, tericamente, las
1-17
mediciones 59.5-62.5 y se llaman lmites de clases. Estos se obtienen sumando el lmite superior de un intervalo con el lmite inferior del siguiente intervalo de clase y dividiendo entre 2. Clases de punto intermedio o marcas de clases.- Las clases de punto intermedio o marcas de clases son el punto medio de un intervalo de clase que se obtiene sumando los lmites superiores e inferiores y dividiendo entre dos. Por ejemplo, el punto medio del intervalo 60-62 es (60 + 62)/2 = 61 y, as sucesivamente. Tamaos de intervalos de clase. El tamao de un intervalo de clase es la diferencia entre los lmites o linderos superiores e inferiores. Reglas para hacer distribuciones de frecuencia 1. Determinar los nmeros ms pequeos y ms grandes de los datos sin procesar. 2. Dividir el rango en un nmero conveniente de intervalos de clases que tengan el mismo tamao. Si esto no es posible, usar intervalos de clase de diferentes tamaos. 3. Determinar el nmero de observaciones que caen dentro de cada uno de estos intervalos de clases. 4. Los lmites de clases no deben de coincidir con los datos reales. La frmula para calcular el tamao de clase de una distribucin de frecuencia es: i = (h - l) / k Donde: i = el tamao del intervalo de clase h = el valor del tem ms alto l = el valor del tem ms bajo k = nmero de clases Tipos de curvas de frecuencia 1. Curva de frecuencia simtrica o en forma de campana. Un ejemplo importante es (1-10)
1-18
la curva normal. 2. Curva asimtrica u oblicua cuyos extremos de la curva estn al izquierdo del mximo central. 3. Curva de frecuencia en forma de J. 4. Curva de frecuencia en forma de U. 5. Curva de frecuencia bimodal que tiene dos mximos. 6. La curva de frecuencia multimodal que tiene ms de dos mximos. lado derecho o al
Figura 1.3 Grficas mostrando los tipos de curvas de frecuencia (Spiegel, 1961). Histogramas y polgonos de frecuencia
1-19
La forma ms comn de representacin grfica de una distribucin de frecuencia es el histograma. Estos histogramas consisten en rectngulos adyacentes, las alturas de los cuales representan las frecuencias de clases, mientras que sus bases se extienden entre sucesivas fronteras de clases. Esto quiere decir que tienen bases sobre la abscisa con centros en las marcas de clases y con las longitudes igual a los intervalos de clases. Por otro lado, los polgonos de frecuencia son grficas de lneas de frecuencias de clases que se grafican contra las clases de marcas. Se obtienen conectando los puntos medios de arriba de los rectngulos en los histogramas.
Figura 1.4. En los histogramas y polgonos de frecuencia se acostumbra a sumar las extensiones pq y rs para la siguiente marca de clase ms baja y ms alta que tienen la correspondiente clase de frecuencia de cero. En tales casos, la suma de las reas de los rectngulos es igual al rea total circundada por el polgono de frecuencia y el eje de las equis. (Elaboracin propia) Distribuciones de frecuencia relativa La frecuencia relativa de un intervalo de clase es la frecuencia de la clase dividida entre la frecuencia total de todas las clases y se expresa como porcentaje.
1-20
Ejemplo #20. Hacer una tabla de distribucin con intervalos de clase y la frecuencia relativa para las alturas de 100 estudiantes de una universidad. TABLA 1.0. Alturas de los estudiantes. (Spiegel, 1961). ___________________________________________________________________ Distribucin de las alturas Frecuencia relativa por intervalos de clase 60 - 62 pulgadas 63 - 65 66 - 68 69 - 71 72 - 74 de estudiantes (%) 5% 18 % 42 % 27 % 8% Total 100 % Distribuciones de frecuencias acumuladas y distribuciones de frecuencias relativas acumuladas Aqu se discutirn las distribuciones de frecuencias acumuladas y la frecuencia relativa acumulada que se obtiene dividiendo la frecuencia acumulada por la frecuencia total. Ejemplo #21. Tabular los valores de la tabla de frecuencia de 500 observaciones formando una tabla con los intervalos de clase ms apropiados, con la frecuencia, la frecuencia relativa (%), la frecuencia acumulada y la frecuencia relativa acumulada. Usar papel de probabilidad y encontrar el promedio aritmtico y la desviacin estndar. Confirmarlos grficamente y calcularlos. ___________________________________________________________________
_________________________________________________________
1-21
TABLA 1.1. Frecuencias de 500 observaciones de fosfatos (mg/L). (Elaboracin propia). _____________________________________________________________ X f X f X f X f _____________________________________________________________ 20 1 21 0 36 7 51 20 66 6 22 0 37 9 52 19 67 5 23 1 38 10 53 19 68 4 24 1 39 11 54 18 70 3 25 1 40 12 55 18 70 3 26 1 41 13 56 17 71 2 27 1 42 14 57 16 72 2 28 2 43 16 58 14 73 1 29 2 44 17 59 13 74 1 30 3 45 18 60 12 75 1 31 3 46 18 61 11 76 1 32 4 47 19 62 10 77 1 33 5 48 19 63 9 78 0 34 6 49 20 64 7 79 0 35 6 50 20 65 6 80 1 __________________________________________________________________
1-22
TABLA 1.2. Tabla de frecuencias de 500 casos de fosfatos. (Elaboracin propia) _________________________________________________________________ Intervalo de clase f f. r.(%) f. a. f. r. a. (%) ________________________________________________________________ < 30.5 13 2.6 13 2.6 30.5-35.5 24 4.8 37 7.4 35.5-40.5 49 9.8 86 17.2 40.5-45.5 78 15.6 164 32.8 45.5-50.5 96 19.2 260 52.0 50.5-55.5 94 18.8 354 70.8 55.5-60.5 72 14.4 426 85.2 60.5-65.5 43 8.6 469 93.8 65.5-70.5 21 4.2 490 98.0 > 70.5 10 2.0 500 100.0 _______________________________________________________________ Total 500
1-23
Figura 1.5. Papel de probabilidad mostrando las 500 observaciones de fosfatos relacionadas con la TABLA 1.2. (Elaboracin propia) Analizando la Figura 1.5, se puede ver qu, para calcular el promedio localizamos .50 en la ordenada y por interpolacin calculamos el valor de 50. Igualmente, para calcular la desviacin estndar , nos movemos a .84 y por interpolacin calculamos el valor de 10, que est entre 50 y 60. Ejemplo #22. Para los siguientes 40 datos de anlisis de agua de concentraciones de calcio, en mg/L, contestar las siguientes preguntas: (a) Construir una tabla de frecuencias con intervalos de 5 y estimar el punto intermedio o marca de clase. (b) Construir otra tabla ms con intervalos de tamao 9 y estimar el punto intermedio
1-24
o marca de clase. (c) Para ambos casos construir un histograma y un polgono de frecuencia y tambin, en funcin de frecuencia relativa. (d) Para ambos casos, construir una grfica de frecuencia acumulada y frecuencia relativa acumulada. (e) Usar papel de probabilidad para estimar el promedio aritmtico y la desviacin estndar. Comparar estos resultados con el clculo del promedio y la desviacin estndar usando las frmulas estadsticas. TABLA 1.3. Tabla mostrando las concentraciones de calcio de 40 anlisis de agua. (Elaboracin propia) 138 146 168 146 161 Solucin: El rango es de 176 - 119 = 57 mg/L Si se usan intervalos de clase de tamao 5, los intervalos de clase son 57/5 = 12, aproximadamente. Sin embargo, si se usan intervalos de clase de tamao 9, los intervalos de clase son 57/9 = 6, aproximadamente. Las tablas de abajo muestran estas estimaciones. 164 158 126 173 145 150 140 138 142 135 132 147 176 147 142 133 136 163 135 150 125 148 119 153 156 149 152 154 140 145 157 144 165 135 128
1-25
TABLA 1.4. Tabla de frecuencias de las concentraciones de Calcio (Ca) usando un intervalo de tamao 5. (Elaboracin propia) _________________________________________________________________ Intervalo de clase Marca de clase f f.a. f.r. f.r.a. _________________________________________________________________ 118 - 122 120 1 1 2.5% 2.5% 123 - 127 125 2 3 5.0% 7.5% 128 - 132 130 2 5 5.0% 12.5% 133 - 137 135 4 9 10.0% 22.5% 138 - 142 140 6 15 15.0% 37.5% 143 - 147 145 8 23 20.0% 57.5% 148 - 152 150 5 28 12.5% 70.0% 153 - 157 155 4 32 10.0% 80.0% 158 - 162 160 2 34 5.0% 85.0% 163 - 167 165 3 37 7.5% 92.5% 168 - 172 170 1 38 2.5% 95.0% 173 - 177 175 2 40 5.0% 100.0% __________________________________________________________________ Total 40 TABLA 1.5. Tabla de frecuencias de las concentraciones de Ca usando un intervalo de tamao 9. (Elaboracin propia) _________________________________________________________________ Intervalo de clase Punto intermedio f f.a. f.r. f.r.a. _________________________________________________________________ 118 - 126 122 3 3 7.5% 7.5% 127 - 135 131 5 8 12.5% 20.0% 136 - 144 140 9 17 22.5% 42.5% 145 - 153 149 12 29 30.0% 72.5% 154 - 162 158 5 34 12.5% 85.0% 163 - 171 167 4 38 10.0% 95.0% 172 - 180 176 2 40 5.0% 100.0% __________________________________________________________________ Total 40 Los incisos (c), (d) y (e) se reservan para que el estudiante los haga.
1-26
Tambin se puede calcular el promedio aritmtico de una distribucin de frecuencia, cuando se dan los intervalos de clase y las frecuencias. La frmula para tales casos es:
X = fX / f = fX / n
(1-11)
Ejemplo #22. Se dan los siguientes datos de temperaturas ambientales en grados Fahrenheit (oF) en la tabla de abajo. TABLA 1.6. Tabla mostrando los datos. (Elaboracin propia) Marca de clase (X) f Temperaturas (oF) 60 62 61 5 63 65 64 18 66 68 67 42 69 71 70 27 72 74 73 8 N = f = 100 Por lo tanto, X = fX / f = fX / N = 6745 / 100 = 67.45 oF Diagramas de tallo y hoja usando el programa Minitab Ejemplo # 23. Para ilustrar la construccin de una grfica de tallo y hoja, considrese la tabla de abajo, la cual muestra las mediciones de 40 observaciones. TABLA 1.7. Tabla mostrando las mediciones de 40 objetos. (Elaboracin propia). 2.2 4.1 3.5 4.5 3.2 3.7 3.0 2.6 3.4 1.6 3.1 3.3 3.8 3.1 4.7 3.7 2.5 4.3 3.4 3.6 2.9 3.3 3.9 3.1 3.3 3.1 3.7 4.4 3.2 4.1 1.9 3.4 4.7 3.8 3.2 2.6 3.9 3.0 4.2 3.5 _____________________________________________________________ Procedimiento: Para formar el diagrama de tallo y hoja, se separa cada observacin en dos partes
fX 5 x 61 = 305 64 x 18 = 1152 67 x 42 = 2814 70 x 27 = 1890 73 x 8 = 584 fX = 6745
1-27
consistentes de un tallo y una hoja. Siendo as, el tallo representa el dgito que precede al punto decimal y, la hoja, corresponde al dgito a la derecha del punto decimal. Por ejemplo, con el nmero 3.7, el dgito 3 representa el tallo y el dgito 7 representa la hoja. De acuerdo a los datos de la TABLA 1.8 hay cuatro tallos, es decir, 1, 2, 3, 4. Una vez hecho esto, se identifican los nmeros a la derecha del punto decimal correspondientes a cada tallo. Por ejemplo, para el tallo 1 hay dos hojas, 6 y 9; para el tallo 2 hay 5 hojas, es decir, 2, 5, 6, 9 y 5, etc. La TABLA 1.8 de abajo representa la grfica de tallo y hojas para este problema. No obstante, para poder construir la TABLA 1.8 se puede usar el Minitab de acuerdo a las siguientes indicaciones: Graph Stem-and-leaf En el recuadro que aparece poner las variables de la columna C1 en la ventanilla de Stem-and-leaf y en la ventanilla de Increments poner 1. Esto produce los datos de la TABLA 1.8 mostrada abajo. TABLA 1.8. Tabla mostrando los resultados de tallo y hoja correspondientes a las observaciones de la TABLA 1.7. __________________________________________________________________ Stem-and-Leaf Display: Mediciones de 40 objetos Stem-and-leaf of Mediciones de 40 objetos N = 40 Leaf Unit = 0.10 Frecuencia Tallos Hojas
2 1 69 7 2 25669 (25) 3 0011112223334445567778899 8 4 11234577 __________________________________________________________________
1-28
Sin embargo, los resultados de la TABLA 1.8 no dan un panorama adecuado de la distribucin de los datos. Para remediar esta situacin se necesita aumentar el nmero de tallos en la grfica. Una manera simple de hacerlo es doblando cada tallo. Para esto, nuevamente introducir los datos como se hizo anteriormente y en la ventanilla de Increments poner .5. Esto produce la tabla de abajo. TABLA 1.9. Tabla mostrando los tallos dobles y de hojas. Stem-and-Leaf Display: Mediciones de 40 objetos Stem-and-leaf of Mediciones de 40 objetos N = 40 Leaf Unit = 0.10 Frecuencia Tallos Hojas 2 1 69 3 2* 2 7 2 5669 (15) 3* 001111222333444 18 3 5567778899 8 4* 11234 3 4 577 __________________________________________________________________ Las tablas de las distribuciones de tallo y hoja se pueden usar para estimar los intervalos de clase cuando se hacen distribuciones de frecuencia. El procedimiento es como sigue: 1. Primero se saca el rango de los datos. Por ejemplo, de la TABLA 1.7 el valor mximo es 4.7 y el valor mnimo es 1.6, o sea: rango = 4.7 1.6 = 3.1. 2. Enseguida se estima el ancho del intervalo dividiendo el rango entre el nmero de tallos (7 en este caso), es decir, 3.1 / 7 = .4. 3. Ahora, para estimar el primer intervalo de clase empezamos con 1.5 y le
1-29
sumamos .4 para dar 1.9. El siguiente intervalo de clase es 2.0 ms .4 para dar 2.4. El siguiente intervalo de clase es 2.5 ms .4 para dar 2.9 y as sucesivamente, como se muestra en la TABLA 1.10 de abajo. TABLA 1.10. Tabla mostrando los intervalos de clase, el punto medio, la frecuencia, la frecuencia relativa y la frecuencia relativa acumulada. Intervalo de clase 1.5 1.9 2.0 2.4 2.5 2.9 3.0 3.4 3.5 3.9 4.0 4.4 4.5 4.9 Punto medio 1.7 2.2 2.7 3.2 3.7 4.2 4.7 Frecuencia (f) 2 1 4 15 10 5 3 Frecuencia relativa (f.r.) 0.050 0.025 0.100 0.375 0.250 0.125 0.075 Frecuencia relativa acumulada (f.r.a.) 0.050 0.075 0.175 0.550 0.800 0.925 1.000
Por otro lado, con los datos de la TABLA 1.10 se pueden hacer histogramas de frecuencia relativa, con curvas normales sobrepuestas y curvas de frecuencia relativa acumulada para calcular medidas de localizacin como cuartiles o percentiles. Por ejemplo, los cuartiles dividen el conjunto de datos en cuatro partes iguales. Siendo as, el primer cuartil o .25 fractil (Q1) separa la cuarta parte inferior de las tres cuartas partes superiores, esto es, el 25% de las mediciones de abajo. El segundo cuartil o .50 fractil (Q2) es idntico a la mediana o sea que la mitad de las observaciones estn debajo de este valor. Las observaciones arriba del tercer cuartil o .75 fractil (Q3) son la cuarta parte superior del conjunto de datos. Finalmente, los
1-30
intercuartiles miden la diferencia entre los cuartiles Q1 y Q2. De la misma manera, el conjunto de datos de la muestra se puede dividir en 100 partes iguales por medio de percentiles. Por ejemplo, el 99avo percentil separa el 1% ms alto del 99% restante; el 84avo percentil separa el 16% ms alto del 84% restante. Bajo estas condiciones, el 84avo percentil correspondiente al valor de la variable aleatoria z de la distribucin normal es, aproximadamente, z = +1 y por simetra es z = -1. Los cuartiles y percentiles junto con la estadstica descriptiva se pueden calcular con el programa Minitab usando el mandato: Stat Basic statistics Display Descriptive Statistics Igualmente, los cuartiles y percentiles tambin se pueden calcular de una grfica de frecuencia relativa acumulada vs. valores de X. Usando los datos de la TABLA 1.7 vamos a proceder a hacer los clculos de la estadstica descriptiva, los cuales se dan en la tabla de abajo. TABLA 1.11. Tabla mostrando la estadstica descriptiva del ejemplo #23. Descriptive Statistics: Mediciones de 40 objetos Variable Mediciones Variable Mediciones N N* CumPct Mean 40 0 Minimum 100 3.413 SE Mean StDev Variance 0.111 Q3 3.875 0.703 0.494 CoefVar 20.60
Q1 Median 3.400
Maximum Range 4.700 3.100
1.600 3.100
__________________________________________________________________
1-31
Histogram (with Normal Curve) of Mediciones de 40 objetos

12 10 8 6 4 2 0
Mean StDev N 3.413 0.7028 40
Frequency
1.6
2.4 3.2 4.0 Mediciones de 40 objetos
4.8
Figura 1.6. Figura mostrando el histograma de frecuencia con curva normal sobrepuesta. Ahora, el procedimiento para hacer una grfica de frecuencia relativa acumulada en funcin de los valores de X se procede de la siguiente manera: 1. Irse a: Calc Probability Distribution Normal 2. En el recuadro que aparece puntear Cummulative distribution y almacenar los datos de la distribucin de frecuencia acumulada en C2. 3. Para hacer la grfica de frecuencia relativa acumulada vs. valores de X, irse a: Graph Scatterplot With connect line 4. En la ventana de Scatterplot with connect line introducir los datos de la distribucin de frecuencia acumulada (de la columna C2) vs. los valores de X. 5. En la ventanilla de Scatterplot-Scale, llenar todos los recuadros. De esta manera, para calcular la distribucin de frecuencia acumulada proceder como en el paso 1 de arriba. Todas estas rdenes producen la tabla conteniendo los valores de X (no se muestra aqu). La grfica de las frecuencias relativas
1-32
acumuladas y valores de las observaciones se hace como en el paso 3 de arriba. De la grfica de abajo se pueden leer todos los cuartiles y percentiles deseados.
Figura mostrando la grafica de f.r.a. y valores de X

1.5 1.0 2.0 2.5 3.0 3.5 4.0 4.5 5.0 1.0
0.8 Distribucion de f.r.a. 0.6
0.8 0.6
0.4
0.4
0.2
0.2
0.0 1.5 2.0 2.5 3.0 3.5 4.0 Mediciones de 40 objetos 4.5 5.0
0.0
Figura 1.7. Figura mostrando la grfica de la frecuencia relativa acumulada versus valores de X. Ejemplo #24. Encontrar los cuartiles (Q1, Q2 y Q3) de una muestra de 15 mediciones de slidos suspendidos, en unidades de mg/L, de una muestra de agua residual. 7 19 12 5 17 29 8 19 4 27 30 1 4 10 21 __________________________________________________________________ Solucin:
1-33
Primero se arreglan los datos en forma ascendente, esto es: 1, 4, 4, 5, 7, 8, 10, 12, 17, 19, 19, 21, 27, 29, 30 Q1 Q2 Q3 El primer cuartil (Q1) es 5. El segundo cuartil (Q2) o la mediana es 12 y el tercer cuartil (Q3) es 21.
1-34
Ejercicios Captulo 1
1.1. Calcular el promedio, la varianza y la desviacin estndar de las observaciones de la muestra: 12, 6, 7, 3, 15, 10, 18, 5. (9.5, 27.1, 5.2) 1.2. Encontrar la desviacin estndar y el promedio de los valores: 3, 6, 2, 1, 7, 5. De acuerdo a la relacin de los valores obtenidos del promedio y la desviacin estndar o varianza. Qu conclusiones se pueden sacar? 1.3. Escribir los siguientes trminos usando anotacin de sumatoria. (a) X
2 1
+X
2 2
+X
2 3
+ ...+ X
2 10
( Xi)
x=0 5
10
(b) (X1 + Y1) + (X2 + Y2) + .... + (X5 + Y5) (c) f1 X1Y1 + f2 X2Y2 + f3 X3Y3 + f4 X4Y4 1.4. Encontrar la desviacin promedio de: (a) -3, 7,-9,5 (b) 2.4, 1.6, 3.8, 4.1, 3.4 1.5. El rango de los nmeros 5, 3, 8, 4, 7, 6, 12, 4, 3 es: medicin ms pequea.
( Xi+Yi)
x=0
(9)
1.6. De 50 mediciones la ms grande es 8.34 Kg. Si el rango es .46, encontrar la 1.7. Convertir las siguientes observaciones a unidades de desviacin estndar: 6, 2, 7, 5. (z6=0.46, z2=-1.39, z7=0.93, z5=0) 1.8. Escribir los siguientes trminos en forma de sumatoria. (a) Xj
j=1 6
1-35
(b) (y1 - 3) 2
j=1
(c) fkxk
k=1
1.9. Usando el programa de computadora Minitab, EXCEL o una calculadora de bolsillo, encontrar: (a) El promedio aritmtico (b) La desviacin estndar (c) El error estndar del promedio (f) La varianza Tabla mostrando los datos del problema. (Elaboracin propia)
Observacin x | 70 74 78 82 86 90 94 98 102 106 110 114 118 122 126 _______________________________________________________________________________ Frecuencia f| 4 9 16 28 45 66 85 72 54 38 27 18 115 _______________________________________________________________________________
(95.84)
(106.49)
1.10. En una distribucin, si el promedio es 5.0, la mediana es 7.0 y la moda es 9.0, contestar a los siguientes enunciados: (a) Qu tipo de sesgo tiene esta distribucin? (b) Dnde se encuentra la mayor concentracin de valores? 1.11. En una distribucin, si el promedio es de 10.0, la mediana es de 8.0 y la moda es de 5.0, contestar las siguientes preguntas: (a) Qu tipo de sesgo tiene esta distribucin? (b) Dnde se encuentran la mayor concentracin de valores? 1.12. En un examen final de estadstica, los grados fueron: 100, 100, 66, 65, 64, 60, 59, 57, 58, 50. (Sesgo positivo)
1-36
Es esta distribucin oblicua hacia la derecha o hacia la izquierda? Justificar el argumento usando la relacin del promedio, la mediana y la moda. 1.13. Encontrar el promedio geomtrico de una muestra aleatoria de de observaciones 10, 12, 16. (12.43) 1.14. Si el promedio aritmtico de una muestra de 30 casos es igual a 10 y la desviacin estndar es igual a 2, calcular la variable estandarizada correspondiente al valor de X = 15. 1.15. La tabla de abajo muestra los coeficientes de inteligencia de 550 nios de una escuela elemental. Encontrar: (a) El promedio aritmtico. (b) La desviacin estndar. (c) El error estndar del promedio (97.03) (13.22) (0.56)
Tabla mostrando los datos del problema. (Elaboracin propia) ___________________________________________________________________ Marca de | 75 78 78 82 86 91 94 98 102 106 110 114 118 122 126 clase (X) Frecuencia (Y) | 53 5 10 20 45 60 85 72 54 38 27 18 11 50 2 1.16. Los siguientes datos estn relacionados con las temperaturas, en oC, de 10 regiones de Mxico. La tabla de abajo muestra esta situacin: Tabla mostrando los datos del problema. (Elaboracin propia) __________________________________________________________________ Temp. Frecuencia Frecuencia Frecuencia Frecuencia relativa o ( C) acumulada relativa (%) acumulada __________________________________________________________________
20 21 22 23 3 2 1 Total 10 3 9 30% 20% 30% 90%
1-37
(a) Completar la tabla de arriba. (b) Hacer grficas de frecuencia versus frecuencia relativa. (c) Hacer grficas de frecuencia acumulada (f.a.) vs. frecuencia relativa acumulada (f.r.a.). 1.17. Se saca una muestra aleatoria de anlisis qumicos de compuestos de cloruros (Cl-) expresados en unidades de mg/L procedentes de una muestra de aguas residuales. Estos anlisis se hicieron usando el mtodo de nitrato de mercurio descrito en el texto Mtodos Estndares. La tabla con los valores de los cloruros se da abajo: Tabla mostrando los datos del problema. (Elaboracin propia) ___________________________________________________________________ 17.2, 17.1, 17.0, 17.1, 16.9, 17.0, 17.1, 17.0, 17.3, 17.2, 16.9, 17.0, 17.1, 17.3, 17.2, 17.4, 17.1, 17.1, 17.0, 17.1 (a) Encontrar el promedio. (b) Encontrar la varianza. (c) Encontrar la desviacin estndar. frecuencia relativa acumulada. (e) Hacer un histograma. (f) Hacer un polgono de frecuencia. (g) Qu tanta simetra hay en esta distribucin? (17.11) (0.017) (0.132) (el lector lo deber hacer) (el lector lo deber hacer) (el lector lo har) (el lector responder a esto)
(d) Hacer una tabla de frecuencia mostrando la frecuencia, la frecuencia relativa y la
1.18. Completar la tabla de abajo y hacer una grfica en funcin de los intervalos de las concentraciones de DBO, de la frecuencia (f) y de la frecuencia relativa acumulada (f.r.a.).
1-38
Tabla mostrando los datos. (Elaboracin propia) __________________________________________________________________ Intervalos Nmero de Puntos Frecuencia (Conc. DBO) anlisis intermedios relativa (%) __________________________________________________________________ 50.00 - 59.99 60.00 - 69.99 70.00 - 79.99 80.00 - 89.99 90.00 - 99.99 100.00 - 109.99 10.00 - 119.99 8 10 16 14 10 5 2
1.19. Una organizacin caritativa que ayuda a damnificados por huracanes ha hecho una lista de donaciones recibidas durante el presente ao, en miles de pesos. El propsito de este ejemplo es el de hacer una tabla de distribucin de frecuencia encontrando los intervalos de clase ms apropiados usando la tcnica de diagramas de tallo y hoja. La tabla de abajo muestra los datos. Para esto hacer lo siguiente: (a) Calcular el promedio y la mediana. (139, 135) (b) Hacer una tabla de distribucin de frecuencia usando un diagrama de tallo y hoja. Encontrar los puntos intermedios, la frecuencia, la f. r. y la frecuencia relativa acumulada y construir un histograma y una grfica de f. r. a. contra valores de X. Tabla mostrando los datos del problema (Elaboracin propia). ___________________________________________________________________ 253.0 173.4 117.0 191.2 151.4 182.0 132.0 162.0 212.9 155.9 221.0 158.0 135.0 124.4 68.9 89.7 95.6 84.1 135.1 123.2 101.0 126.5 142.8 20.2 119.0 ___________________________________________________________________
1-39
1.20. La siguiente tabla da las emisiones de xidos de azufre (SO2 en toneladas mtricas) provenientes de 200 plantas siderrgicas localizadas en cierta regin industrial. Tabla mostrando los datos. (Elaboracin propia) ___________________________________________________________________ Emisin de SO2 (ton) Nmero de plantas ___________________________________________________________________ 1.00 - 1.02 6 1.02 - 1.04 26 1.04 - 1.06 52 1.06 - 1.08 58 1.08 - 1.10 39 1.10 - 1.12 15 1.12 - 1.14 5 1.14 - 1.16 1 (a) Calcular el promedio aritmtico de la distribucin. (b) Calcular la desviacin estndar. (c) Calcular la mediana y la moda de la distribucin. 1.21. Se dan los siguientes datos en la tabla de abajo. Tabla mostrando los datos de este problema. (Elaboracin propia) __________________________________________________________________ Altura (pulgadas) Marca de clase (x) Frecuencia fx 60 - 62 61 5 5 x 61 = 305 63 - 65 64 18 64 x 18 = 1152 66 - 68 67 42 67 x 42 = 2814 69 - 71 70 27 70 x 27 = 1890 72 - 74 73 8 73 x 8 = 584 __________________________________________________________________ (a) Calcular el promedio aritmtico. Sugerencia: usar la funcin del promedio igual a f X/f
1-40
1.22. Se da la siguiente tabla de distribucin de datos (intervalos de clase) de emisiones de partculas atmosfricas menores de 10 micras provenientes de varias industrias. (Elaboracin propia) ___________________________________________________________________ Mediciones de partculas Nmero de industrias ___________________________________________________________________ 50.00 - 59.99 8 60.00 - 69.99 10 70.00 - 79.99 16 80.00 - 89.99 14 90.00 - 99.99 10 100.00 - 109.99 5 110.00 - 119.99 2 __________________________________________________________________ (a) Calcular la marca de clase X. (b) Calcular el promedio aritmtico. (c) Calcular la frecuencia relativa (f.r.) y la frecuencia relativa acumulada (f.r.a.). (d) Hacer un histograma. (e) Usar papel de probabilidad para ver que tanta uniformidad hay en los datos. 1.23. Completar los faltantes de la tabla de abajo, de una distribucin de frecuencia de las vidas de 400 tubos de radios. Adems, hacer los clculos pedidos abajo. (a) Encontrar el lmite superior de la quinta clase. (b) Encontrar el lmite inferior de la octava clase. (c) Encontrar la marca de clase de la sptima clase. (d) Encontrar los lmites de la ltima clase. (e) Encontrar el tamao del intervalo de clase. (f) Encontrar la frecuencia de la cuarta clase. (g) Encontrar la f.r. de la sexta clase. (799) (1000) (949.5) (1099.5-1199.5) (100) (76) (15.5%)
1-41
(h) Encontrar el % de los tubos cuyas vidas sean < 600 horas. desviacin estndar de la grfica.
(29.5%)
(i) Graficar los datos en papel de probabilidad y leer el promedio aritmtico y la (j) Hacer una grafica de frecuencia relativa acumulada versus puntos medios y calcular los percentiles Q1, Q2 y Q3. Tabla mostrando los datos del problema. (Elaboracin propia) ___________________________________________________________________ Vida de los No. de (f) f.r. f.a. f.r.a. Punto tubos tubos medio ___________________________________________________________________ 300 - 399 14 400 - 499 46 500 - 599 58 600 - 699 76 700 - 799 68 800 - 899 62 900 - 999 48 1000 - 1099 22 1100 - 1199 6 __________________________________________________________________ 1.24. Se da la tabla de debajo consistente en una muestra aleatoria de mediciones de xidos de nitrgeno (NO2), procedentes de una planta de tratamiento de aguas residuales. La tabla con los datos se da abajo.
1-42
Tabla con los datos. (Elaboracin propia) Mediciones de NO2 Frecuencia (Intervalos) 3.0 5.0 14 6.0 8.0 46 9.0 11.0 58 12.0 14.0 76 15.0 17.0 68 18.0 20.0 21.0 23.0 48 24.0 26.0 22 27.0 29.0 6 Total 400 (a) Llenar los faltantes de la tabla. (b) Calcular el promedio aritmtico.
Marca de clase (X)
f.r
f.r.a.
(c) Usando papel de grafica de probabilidad, graficar los datos. (d) De la grafica de probabilidad obtenida en el inciso (c) calcular el promedio aritmtico y compararlo con el promedio obtenido en (b). (e) De la misma grafica de probabilidad estimar la desviacin estndar. 1.25. Se da la tabla de abajo. __________________ X P(X) __________________ 0 0.8574 1 0.1354 2 0.0071 3 0.0001 _________________ Para los problemas de abajo encontrar las siguientes sumatorias usando la tabla de arriba.
1-43
(a) p(x)
x=0 2
(0.9928)
1
(b) p(x) p(x)

x=0 1 x=0
(c) p(x)
x=0 3
(0.9928) (1.000)
(c) p(x)
x=0
1-44
1-45
CAPITULO 2 Probabilidad
Probabilidad clsica.- Probabilidad de frecuencia relativa.- Probabilidad subjetiva.- Axiomas y propiedades bsicas de la probabilidad.- Diagramas de Venn y algebra de conjuntos.- Tcnicas de conteo: Regla de producto para pares ordenados, la regla de multiplicacin ms general, regla factorial, diagramas de rbol, permutaciones y combinaciones.- Regla multiplicativa para eventos dependientes e independientes.- Regla aditiva para eventos mutuos excluyentes y eventos no mutuos excluyentes.El desarrollo de la teora de la probabilidad matemtica ocurri en el siglo 17, y est relacionada con el noble francs Antoine Gombauld y con el matemtico Francs Blaise Pascal. El estudio de la probabilidad es una rama de las matemticas que se inici hace 300 aos. Maneras de medir las probabilidades: (1) La probabilidad clsica (2) La probabilidad de frecuencia relativa (3) La probabilidad subjetiva Probabilidad clsica El trmino probabilidad se refiere al estudio de lo aleatorio y de la incertidumbre. El concepto clsico de la probabilidad de un evento A se define como sigue: si hay a posibles resultados favorables la ocurrencia del evento A y, b resultados desfavorables a la ocurrencia de A, y si todos los resultados son igualmente mutuos excluyentes (que no pueden ocurrir a la vez), entonces la probabilidad de que A ocurra se denota como P(A), es decir:
2-1
a Nmero de resultados favorables al evento A P(A) = = (a + b) Nmero total de resultados posibles Otra manera de definir la probabilidad es: p = Pr{E} = h / n Donde: E = el tipo de evento que estamos haciendo
(2.0)
(2-0a.)
h = nmero de maneras favorables de que pueda ocurrir el evento o nmero de puntos en el evento del espacio A n = nmero total de posibles resultados o de nmero de puntos en el espacio de la muestra (S) La probabilidad de que no ocurra el evento es q, es decir: q = Pr{que no ocurra E} = 1 - h / n = 1 - Pr{E} Por lo tanto, p + q = 1 Ejemplo #1. Si una moneda tiene dos caras denotadas por guilas o sellos, calcular la probabilidad de que salga un sello. Solucin: Usando la funcin (2-0) y dejando que A sea el evento sello y B el evento guila, entonces, la probabilidad de sellos es: P(A) = 1 / (1 + 1) = 0.5. Ejemplo #2. En el caso de un dado que tiene 6 nmeros: 1, 2, 3, 4, 5, 6, si el dado es honesto, todos los nmeros tienen la misma probabilidad de salir. Siendo as, calcular
2-2
(2-1)
las siguientes probabilidades: (a) La probabilidad de sacar el nmero 1 (b) La probabilidad de sacar los nmeros pares (c) La probabilidad de sacar los nmeros 3 o 4 (d) La probabilidad de no sacar los nmeros 3 o 4 Solucin: (a) P(sacar el nmero 1) = 1 / (1 + 5) = 1/6. (b) En este caso hay 3 nmeros pares en las seis caras del dado, por lo tanto, la probabilidad de sacar los pares es: P(pares) = 3/(3 + 3) = 1/2 (c) Aqu, el evento puede ocurrir de dos maneras, es decir, como (3 o 4). Por lo tanto, P(3 o 4) = 2/(2 + 4) = 1/3. (d) La probabilidad de no sacar el 3 o 4 es: q = 1 - 1/3 = 2/3 Ejemplo #3. Encontrar la probabilidad de que una pareja con 3 hijos tendrn: (a) Exactamente 2 varones (X = 2) (b) 3 varones y 3 hembras (c) A lo ms dos varones (X 2) (d) Cuando menos 2 varones (X 2) (e) Ms de 2 hembras (X > 2) (f) Menos de 2 varones (X < 2) Solucin: Dejemos que el evento varn sea v y, el evento hembra, sea h. Aqu el espacio muestral S se puede hacer de un rbol de probabilidad y da 8 resultados: S = {vvv, vvh, vhv, vhh, hvv, hvh, hhv, hhh} (a) P(2 varones en 3 nacimientos) = P(X = 2) = 3/8 = 0.375
2-3
(b) P(X = 3 varones) P(X = 3 hembras) = (1/8)(1/8) = 1/64 (c) P(X 2) = 6/8 = 3/4 (d) P(X 2) = 4/8 = 1/2 (e) P(X > 2) = 1/8 (f) P(X < 2) = 3/8 Probabilidad de frecuencia relativa La probabilidad de frecuencia relativa puede interpretarse como la proporcin de veces un evento ocurre a largo plazo, bajo condiciones estables o uniformes. Este tipo de probabilidad se define como: P(E) = n / N Donde: n/N es la proporcin del tiempo que el evento E ocurre en experimentos repetidos. Ejemplo #4. Si 8,000 de 1,000,000 hombres anglos de 35 aos murieron durante el ao, la frecuencia relativa de muertes o la probabilidad de muerte para individuos de este grupo es: P(de muerte) = 8,000 / 1,000,000 = 0.00080 Ejemplo #5. Supngase que se estudian 10,000 personas de 20 aos y se encuentra que 9961 vivieron 21 aos. Encontrar la probabilidad de que una persona de 20 aos vaya a vivir 21 aos. Solucin: Aqu, los dos resultados de vivir y morir no son igualmente probables, de manera que la aproximacin de frecuencia relativa debe usarse. Entonces la aproximacin emprica de frecuencia relativa es: P(de la persona de 20 aos que viva 21 aos) = 9,961/10,000 = .996 Probabilidad subjetiva
2-4
(2-2)
La probabilidad subjetiva es un desarrollo relativamente reciente. Esta probabilidad se define como el grado de credibilidad o confianza de un evento que vara con el juicio o estado de nimo de la persona. Esta probabilidad es til en decisiones financieras y otros tipos de trabajos. Relacin entre la probabilidad (usando distribuciones discretas) y la estadstica de inferencia (usando distribuciones continuas) usando lgica deductiva e inductiva La relacin entre la probabilidad usando distribuciones discretas como la binomial, hipergeomtrica o la Poisson y la estadstica de inferencia (usando distribuciones continuas como la normal, la t de Estudiante, la distribucin F, gamma, exponencial, etc.) radica en el hecho de qu, en el primer caso, el razonamiento va del conjunto o de la poblacin hacia la parte (razonamiento deductivo o lgica deductiva). En contraste, con la estadstica de inferencia, el razonamiento va desde la muestra o la parte hacia la poblacin o total (razonamiento inductivo o lgica inductiva). Anotacin para encontrar probabilidades Las anotaciones usadas en encontrar probabilidades se definen como: P denota una probabilidad; A, B, C denotan eventos especficos y, P(A), denota la probabilidad de que ocurra el evento A. 1. P denota una probabilidad 2. A, B, C denotan eventos especficos 3. P(A) denota la probabilidad de que ocurra el evento A 4. P (B) denota la probabilidad de que ocurra el evento B, etc.
Axiomas y propiedades bsicas de la probabilidad

2-5
1. Para cualquier evento A, P(A) 0. Adems, la probabilidad no puede ser mayor que 1, ni tampoco negativa. 2. La probabilidad de un espacio muestral es: P(S) = 1 3. Si A1, A2,...., Ak es una coleccin finita de eventos mutuos excluyentes (que no puede ocurrir a la misma vez), entonces: P(A1 A2 .... Ak) = P(Ai)
i=1 k
(2-3)
Si A1, A2, A3,... es una coleccin infinita de eventos mutuos excluyentes, entonces: P(A1 A2 A3 ...) = P(Ai)
i=1 k
(2-4)
Ejemplo #6. Este es un ejemplo adaptado del libro de Richard A. Jonson, intitulado Probabilidad y Estadstica para Ingenieros de Miller y Freund (1994). Las probabilidades de que un consumidor que prueba el servicio de un nuevo dispositivo anticontaminante para autos, lo clasifique como muy deficiente, deficiente, suficiente, bueno, muy bueno o excelente son: 0.07, 0.12, 0.17, 0.21, y 0.011. Cules son las probabilidades de que las clasificaciones del dispositivo sean?: (a) Muy deficientes? (b) Deficientes? (c) Suficientes o buenas? (d) Buenos, muy buenos o excelentes? Solucin: Puesto que las posibilidades son mutuamente excluyentes (que no pueden ocurrir a la vez), la sustitucin directa de cada una de las cinco clasificaciones, en la funcin (2-3) da como resultado: (a)-(c) es: 0.07 + 0.12 + 0.17 + 0.32 = 0.68
2-6
(d) 0.32 + 0.21 + 0.11 = 0.64 Terminologa usada en probabilidad Cuando se habla de probabilidad se incluyen trminos como: experimento, resultados, eventos, espacio muestral, teora de conjuntos (uniones, intersecciones, complemento como A'), eventos mutuos excluyentes, variables aleatorias discretas (estocsticas de conjetura o probabilidad), probabilidad de frecuencia relativa, probabilidad subjetiva, tcnicas de conteo (combinaciones y permutaciones, regla de multiplicacin y adicin, etc.), teorema de Bayes, independencia, eventos mutuos excluyentes, diagramas de Venn, rboles de probabilidad, etc. Algunas definiciones de estos trminos se dan abajo. Experimento.- Un experimento es un proceso que nos ayuda a obtener observaciones de dos o ms resultados distintos, donde el resultado que ocurre no puede ser predecible con certeza, sino en trminos de probabilidad. Evento.- Es una coleccin de uno o ms resultados elementales de un experimento. Un evento es un subconjunto de un espacio muestral. Por subconjunto se entiende cualquier parte de un conjunto, incluyendo el conjunto en su totalidad. Aqu, tambin puede haber conjuntos vacos denotados por , los cuales no poseen ningn elemento. Eventos mutuos excluyentes. Dos eventos A y B son mutuos excluyentes o desunidos, si su interseccin A B = , esto es, si A y B no tienen elementos en comn. Por ejemplo, los eventos A y B se dice que son mutuos excluyentes o desunidos, si A y B no pueden ocurrir simultneamente o en un solo ensayo de un experimento. Por ende, si A y B son eventos mutuos excluyentes, por lo tanto, P(A B) = 0. En este rengln se puede usar la regla aditiva, el teorema de Bayes o eventos independientes. Ejemplo #7. Dos eventos A y B son mutuos excluyentes o desunidos, si A B = , esto es, si A y B no tienen elementos en comn. Siendo as, decir si en un solo
2-7
lanzamiento de una moneda los dos eventos A y B son mutuos excluyentes. Solucin: Debido a que si cae la cara, el guila no puede caer a la misma vez y viceversa, por lo tanto, los eventos A y B son mutuos excluyentes. Ejemplo #8. Si E1 es el evento de sacar un as de un mazo de 52 naipes y E2 es el evento de sacar un rey, son estos eventos mutuos excluyentes? Solucin: Aqu, en este caso, si son eventos mutuos excluyentes porque no se puede sacar el as o el rey a la misma vez. Espacio muestral.- El espacio muestral (S) es el conjunto de todos los resultados posibles de un experimento estadstico. Los espacios muestrales se clasifican de acuerdo al nmero de elementos (puntos) que contienen. En este respecto, se pueden enlistar los elementos separados por comas y enclaustrados en corchetes ({}). Los espacios muestrales pueden ser finitos, no finitos, discretos y continuos. Sin embargo, los dos tipos bsicos de espacios muestrales son los discretos y continuos. Por ejemplo, un espacio muestral discreto tiene un nmero finito de eventos simples o un nmero infinito contable de eventos simples. En el caso de espacios muestrales continuos, esto se refiere cuando los elementos (puntos) de un espacio muestral constituyen un continuo, como por ejemplo, todos los puntos de una lnea; todos los puntos de un segmento de lnea o todos los puntos de un plano. En algunos experimentos puede ser til enlistar los elementos del espacio muestral, sistemticamente, por medio de diagramas de rbol. Ejemplo #9. Un ejemplo de un espacio muestral discreto finito es el lanzamiento de una moneda dos veces, el cual tiene un espacio muestral de 4 eventos simples, donde H denotan caras y T denotan guilas. Esto es:
2-8
S = {HH, HT, TH, TT} Ejemplo #10. Un ejemplo de un espacio no finito est relacionado con el siguiente experimento. Si unos mecnicos encargados de verificar la emisin de xidos de nitrgeno de los autos, les interesa saber el nmero de autos que deben inspeccionar antes de ver, cul es el nmero de ellos que no satisfacen los reglamentos gubernamentales. Aqu, bien podra ocurrir que fuese el primer auto, el segundo, el tercero, etc., y que tuvieran que verificar miles de autos antes de encontrar uno que no cumpla con los reglamentos. Dado a que no se sabe que tan lejos tendran que llegar, por lo tanto, se considera una cantidad de autos contable infinita. Ejemplo #11. En el caso de espacios muestrales con un nmero infinito de puntos muestrales, estos se describen mejor usando mtodos de regla. Por ejemplo, si todos los resultados posibles de un experimento, es el grupo de ciudades en el mundo, con una poblacin de ms de un milln, entonces, el espacio muestral S es: S = {x|x es una ciudad con una poblacin de ms de un milln} Ejemplo #12. Para explicar un espacio muestral continuo, considrese el experimento de observar el tiempo para completar una tarea en particular, digamos, en un intervalo de 0 a 40 segundos. En este caso, el espacio muestral es continuo debido a que hay un nmero de valores infinitamente contable, en el intervalo de 0 a 40 segundos. S = {todas las veces posibles entre 0 y 40 segundos} Unin.- La unin de dos eventos, digamos A y B, se denotan por el smbolo A B y se lee A o B, y es el evento que contiene todos los elementos que pertenecen a A o B o ambos. Por lo tanto, el evento A B ocurre, si A ocurre, si B ocurre o si ambos A y B ocurren. Ejemplo #13. Si dejamos que el evento A = {a, b, c} y B = {b, c, d, e}, siendo as, por lo tanto, A B = {a, b, c, d, e}
2-9
Ejemplo #14. Si M = {x|3 < x < 9} y N = {y|5 < y < 12}, entonces, encontrar la unin de M N. (Walpole 1993, p. 14) Solucin: M N = {z}3 < z < 12} Interseccin de los eventos. La interseccin de dos eventos A y B, se denota por el smbolo A B, que se lee "A y B". La interseccin A B es el grupo de puntos en el evento del espacio A y en el evento del espacio B. Por lo tanto, el evento A B ocurre, solamente, si ambos eventos A y B ocurren. Aqu, la palabra clave y se refiere al evento conteniendo todos los elementos que son comunes o que estn en ambos, A y B. Ejemplo #15. Si S = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}, A = {0, 2, 4, 6, 8}, B = {1, 3, 5, 7, 9}, C = {2, 3, 4, 5} y D = {1, 6, 7}, encontrar: (a) A B. (b) A C Solucin: (a) Debido a que en A B no hay ningn elemento en comn, por lo tanto, A B = y no pueden ocurrir a la misma vez. (b) Debido a que, solamente el 2 y el 4 son comunes en ambos eventos A y C, por lo tanto, A C = {2, 4} Ejemplo #16. Si dejamos que M = {a, e, i, o, u} y N = {r, s, t}, por lo tanto, M N = , lo cual dice que M y N no tienen elementos en comn y que no pueden ocurrir a la misma vez. Complemento.- El complemento de un evento A, denotado por A', es el conjunto de todos los resultados en el espacio muestral S, que no estn contenidos en A. Ejemplo #17. Si A = {0, 1, 2, 3, 4}, B = {3, 4, 5, 6} y C = {1, 3, 5}, entonces,
2-10
encontrar: (a) A B (b) A C (c) A B (d) A C (e) A' (f) {A C}' Solucin: (a) A B = {0, 1, 2, 3, 4, 5, 6} = S (b) A C = {0, 1, 2, 3, 4, 5} (c) A B = {3,4} (d) A C = {1,3} (e) A' = {5,6} (f) (A C)' = {6}
2-11
Figura 2.0. Diagrama mostrando los espacios muestrales y los eventos. (Johnson, 1997). Ejemplo #18. Refirindose al problema anterior representar con smbolos de Venn las siguientes regiones: (a) 4, 6, 7 (b) 1,4 (c) 1, 2, 5, 7 (d) 1, 2 (e) 1, 3, 4 Solucin: (a) (A U C) (b) (A C) (c) (A U B) (d) (A B) (e) (A U B) C) Ejemplo #19. Si S = {libro, catalizador, cigarrillo, qumico, ingeniero, remache} y, si dejamos que A = {catalizador, remache, libro, cigarrillo}, entonces A' = {qumico,
2-12
ingeniero} Ejemplo #20. El espacio muestral de un experimento aleatorio se da como S = {AA, AN, NA, NN}. Si E1 = {AA, AN, NA} y E2 = {AN, NA, NN}, entonces, encontrar: (a) E1 E2 (b) E1 E2 (c) E1' (d) E2' Solucin: (a) E1 E2 = {AA, AN, NA, NN} (b) E1 E2 = {AN, NA} (c) E1' = {NN} (d) E2' = {AA} Eventos mutuos excluyentes.- Dos o ms eventos se dice que son mutuos excluyentes o desunidos, cuando no hay elementos comunes entre si. Para esto se usa la simbologa de intersecciones, es decir, A B = , esto dice que A y B no tienen elementos en comn. Esto nos dice qu, cuando uno de los resultados ocurre, los otros no pueden ocurrir al mismo tiempo. Por ejemplo, cuando se lanza un dado, la sacada de un 1 y un 2 son eventos mutuos excluyentes, debido a que, si el sale el 1, no puede salir el 2, a la misma vez. Igualmente, con los naipes si sale un rey no puede salir un as o cualquier otra carta del mazo de cartas. Si E1 y E2 son eventos mutuos excluyentes, entonces: Pr{E1E2} = 0. Si E1 + E2 denotan los eventos de que, ya sea que E1 o E2 o ambos ocurran, entonces: Pr{E1 + E2} = Pr{E1} + Pr{E2} - Pr{E1E2} En general para eventos mutuos excluyentes:
2-13
Pr{E1 + E2} = Pr{E1} + Pr{E2} excluyentes y cules no lo son. (a) Manufacturando un componente electrnico defectuoso. Manufacturando un componente electrnico bueno. (b) Probando un sujeto con un coeficiente de intelecto > 100. Probando un sujeto con un coeficiente de intelecto < 95 (c) Seleccionando un mdico, quien es cirujano Seleccionando un mdico quien es mujer (d) Seleccionando un tipo con personalidad dominante Seleccionando un tipo de personalidad sumisa. Solucin:
(2-5)
Ejemplo #21. De los siguientes eventos, determinar, cules eventos son mutuos
En este caso, los incisos (a), (b), (d) son eventos mutuos excluyentes. Sin embargo, el inciso (c) es evento no mutuo excluyente. Ejemplo #22. Supngase que hay 3 distribuidores de autos: el distribuidor de GM vende Chevrolet, Pontiac y Buick; el distribuidor de la Ford vende Mercury y Ford y, el distribuidor de la Chrysler vende Plymouth y Chrysler. Si un experimento consiste en observar la marca del siguiente auto vendido, entonces, los eventos A = {Chevrolet, Pontiac, Buick} y B = {Ford, Mercuy} son mutuos excluyentes porque el siguiente auto vendido no puede ser producto de GM o de Ford. Ejemplo #23. Dos eventos A y B son mutuos excluyentes o desunidos, si A B = , esto es, si A y B no tienen elementos en comn. Siendo as, decir si en un solo lanzamiento de una moneda los eventos A y B son mutuos excluyentes. Solucin: Debido a que, si cae la cara de la moneda, la cara opuesta no puede caer a la misma
2-14
vez y viceversa. Por lo tanto, los dos eventos A y B son mutuos excluyentes. Probabilidad condicional.- Se define como la probabilidad de que un evento A ocurra, cuando se sabe que el evento B ha ocurrido y se denota como P (A|B). Tambin la probabilidad de que un evento B ocurra, cuando se sabe que el evento A ha ocurrido, se denota por P (B|A). Las funciones usadas para tales fines son: P (A B) P (B|A) = ; P(A) P(A B) P (A|B) = P(B) (2-6)
Ejemplo #24. Si P(D) = 0.83, P(A) = 0.82 y P(D A) = 0.78, encontrar los siguientes enunciados: (a) P(A|D) (b) P(D|A) Solucin: (a) P(A|D) = P(D A)/P(D) = 0.78/0.83 = 0.94 (b) P(D|A) = P(D A)/P(A) = 0.78/0.82 = 0.95 Ejemplo #25. Los resultados obtenidos de 266 muestras de aire se clasifican de acuerdo a la presencia de dos molculas raras. Sean A: el evento formado por todas las muestras de aire en la que se encuentra la molcula rara 1, y B: el evento formado por todas las muestras de aire donde est presente la molcula rara 2. Si se calcul que la probabilidad P(A B) = 12/66 y P(A) = 36/266, entonces, calcular la probabilidad del evento formado por todas las muestras de aire con la molcula 2, dado el evento
2-15
formado por todas las muestras de aire con la molcula 1. (Montgomery et al. 1996) Solucin: P(B|A) = P(A B) / P(A) = (12/266) / (36/266) = 12/36 Ejemplo #26. Refirindose al problema anterior, encontrar P(A|B), si P(B) es igual a 30/266. Solucin: P(A|B) = P(A B) / P(B) = 12/266/(30/266) = 12/30 Eventos independientes y dependientes.- En este caso, sin embargo, cuando hablamos de probabilidad condicional se incluyen lo que se llaman eventos independientes y eventos dependientes. Por ejemplo, si la ocurrencia de un evento, no cambia la probabilidad de la ocurrencia del otro evento, entonces, se dice que los dos eventos son independientes. Sin embargo, si cualquiera de estas condiciones no se satisfacen, los dos eventos se dicen que son dependientes, es decir, P(A|B) P(A). En el caso especial de que A y B sean independientes, es decir, de manera que, P(A|B) = P(A), esto conduce a la regla especial de multiplicacin: P(A B) = P(A) P(B) moneda honesta. Solucin: Puesto que la probabilidad de las caras es de 0.5 por cada lanzamiento y los dos lanzamientos son independientes, la probabilidad es (1/2)(1/2) = Ejemplo #28. Se sacan dos cartas, aleatoriamente, de un mazo de 52 naipes. Qu probabilidad hay de obtener dos ases si?
2-16
(2-7)
Ejemplo #27. Encontrar la probabilidad de sacar dos caras en dos lanzamientos de una
(a) La primera carta se reemplaza antes de que se saque la segunda. (b) La primera carta no se reemplaza antes de que se saque la segunda carta. Solucin: (a) Dado que entre los 52 naipes hay cuatro ases, la probabilidad de sacar dos ases es de: (1/13)(1/13) = 1/169. (b) Dado que entre los 51 naipes restantes, al sacar un as del fajo de cartas, quedan solo 3 ases, entonces, la probabilidad es: (4/52)(3/51) = 1/221. Aqu se ve que este es un evento dependiente, porque 1/221 1/169, ya que los eventos son dependientes, cuando hay muestreo sin reemplazo. Ejemplo #29. Para dos eventos J y K se sabe que P(J) = 0.60, P(K) = 0.4 y P(J K) = 0.10. Decir si estos dos eventos son independientes. Solucin: Debido a que P(J K) = 0.10, P(J/K) = P(J K)/P(K) = 0.10/0.40 = 0.25, entonces, siendo que P(J/K) = 0.25 P(J) = 0.6 y los dos eventos son dependientes. Ejemplo #30. Encontrar P(A|B), si P(B) = 20/26 y P(A B) = 30/26 Solucin: Usando la funcin P(A|B) = P(A B)/P(B) y sustituyendo da: P(A|B) = (30/26)/(20/26) = 600/676 = 0.888 Variable aleatoria (va).- Fundamentalmente, hay dos tipos de variables aleatorias: variables aleatorias discretas y variables aleatorias continuas. La variable aleatoria es una funcin que asigna un nmero real a cada resultado en un espacio muestral S. Es un valor de una funcin numricamente definido sobre S, es decir, una regla que asocia un nmero a cada resultado en el espacio muestral S. Algunos estadsticos
2-17
relacionan el trmino "variable aleatoria" con el trmino "estocstico", que se relaciona con conjetura o probabilidad. Hay variables aleatorias binomiales, de Poisson, hipergeomtricas, variables de la distribucin normal, de la distribucin de t de estudiante, de JI cuadrada, de Fisher, etc. Estocstico.- Es un trmino que involucra una variable aleatoria o que relaciona casualidad o probabilidad. Variable aleatoria discreta (vad).- La vad es un conjunto o rango de valores finitos o infinitamente contables en nmeros. La vad se asocia con distribuciones de Bernoulli, de Poisson, geomtrica, hipergeomtrica, negativa binomial, etc. Un ejemplo de vad finita es el nmero de autos manejados con una flota de 6 vehculos, es decir, donde x = 0, 1, 2, 3, 4, 5. Sin embargo, un ejemplo de vad infinitamente contable es el nmero de personas que entran a una tienda de compras cada mes. Variable aleatoria continua (vac).- La vac se define como el rango de una variable aleatoria X que contiene un intervalo infinito o finito de nmeros reales. Por ejemplo, si X es el valor del peso de una persona, el rango de X es X 0. Las distribuciones continuas asociadas con vac son la distribucin normal, la familia de las distribuciones gamma, beta, la distribucin exponencial, la JI cuadrada, la t de estudiante, etc. Diagramas de Venn y lgebra de conjuntos Diagrama de Venn.- Es un dispositivo grfico para representar el espacio muestral y las operaciones que implican eventos. El ingls J. Venn desarroll este tipo de diagrama para representar, grficamente, los resultados de un experimento. El concepto de las reglas de eventos mutuos excluyentes y varias otras reglas de probabilidad se pueden representar con diagramas de Venn. Para construir un diagrama de Venn un espacio se enclaustra representando el total de todos los resultados posibles.
2-18
Las reglas de las tres operaciones bsicas del lgebra de conjuntos para formar uniones, intersecciones y complementos de eventos se describen en la TABLA 2.1. TABLA 2.1. Tabla mostrando las leyes del lgebra de conjuntos. (Elaboracin propia) ___________________________________________________________________ Ley asociativa: (A B) C = A (B C) (A B) C = A (B (B C) Ley conmutativa: AB=BA AB=BA Ley distributiva: A (B C) = (A B) (A C) A (B C) = (A B) (A C) Leyes de Morgan: (A B)' = A' B' (A B)' = A' B' Leyes complementarias: A A' = S A A' = (A')' = A S' = , ' = S Leyes idnticas: A=A AS=A AS=S A= Leyes con la misma potencia: AA=A AA=A __________________________________________________________________
2-19
Figura 2.2. Los esquemas de abajo muestran algunos diagramas de Venn. (Elaboracin propia)
Tcnicas de conteo Numerosas reglas de conteo han sido usadas para contar el nmero de puntos en muestreos. Cuando los diversos resultados de un experimento son igualmente probables, la tarea de calcular probabilidades se reduce a contar. Estas tcnicas de conteo son tiles para contar el nmero de eventos que componen el numerador y/o el denominador de una probabilidad. Ejemplos de tcnicas de conteo son: 1. La regla del producto para pares ordenados 2. La regla del producto ms general
2-20
3. Factoriales 4. Uso de diagramas de rbol 5. Permutaciones 6. Combinaciones La regla del producto para pares ordenados La forma ms bsica de conteo es la regla del producto mn. Por ejemplo, si el primer elemento u objeto de un par ordenado se puede seleccionar en n1 formas, y por cada una de estas n1 formas se puede seleccionar un segundo elemento del par en n2 formas, entonces, siendo as, esto es una regla del producto. Ejemplo #31. Cuntos puntos muestrales hay en un espacio muestral S, cuando un par de dados se lanzan una vez? Solucin: El primer dado puede caer en n1 = 6 maneras. Para cada una de estas 6 maneras, el segundo dado puede tambin caer en n2 maneras. Por lo tanto, el par de dados pueden caer en n1n2 = (6) (6) = 36. El espacio muestral es: S = {1-1, 1-2, 1-3, 1-4, 1-5, 1-6, 2-1, 2-2, 2-3, 2-4, 2-5, 2-6, 3-1, 3-2, 3-3, 3-4, 3-5, 36, 4-1, 4-2, 4-3, 4-4, 4-5, 4-6, 5-1, 5-2, 5-3, 5-4, 5-5, 5-6, 6-1, 6-2, 6-3, 6-4, 6-5, 6-6} Ejemplo #32. En un estudio mdico los pacientes se clasifican en ocho maneras de acuerdo a que tengan tipo de sangre, es decir, AB+, AB-, A+, A-, B+. B- o O+, O- y tambin de acuerdo a, aqullos que tengan presin alta, baja o normal. Encontrar el nmero de maneras en las cuales un paciente se pueda clasificar. Solucin: n1 = 8 tipos de sangre y n2 = 3 presiones arteriales. Por lo tanto, n1 n2 = (8) (3) = 24 maneras.
2-21
Regla de multiplicacin ms general La regla del producto para k-arreglos se define como sigue: Si una operacin puede ser hecha en n1 maneras y, si para cada una de estas maneras, una segunda operacin puede ser hecha en n2 maneras, y, si por cada una de estas dos primeras operaciones, una tercera operacin puede ser hecha en n3 maneras y, as sucesivamente, entonces, la secuencia de k operaciones o arreglos puede ser hecha en n1, n2, n3,..., nk arreglos, es decir: n1n2n3,,nk (2-8) Ejemplo #33. Supngase que un cliente desea instalar un telfono Trimline y se puede seleccionar de n1 = 10 colores decorativos que se supone estn disponibles en n2 = 3 longitudes de cables con n3 = 2 tipos de tonos rotativos. Entonces, cuntos arreglos se pueden hacer? Solucin: n1n2n3 = (10)(3)(2) = 60 arreglos Ejemplo #34. Si cada clnica en un centro mdico, tiene 4 especialistas del corazn, 3 especialistas en medicina interna y dos cirujanos generales, cuntas maneras existen de seleccionar un mdico de cada tipo? (Nota: en este rengln, del punto de vista del autor de este libro, no puede haber especialistas mdicas de cada una de las partes, rganos o sistemas del cuerpo, como comnmente se cree. Si as fuera, esto equivaldra a decir que cada rgano o sistema del cuerpo funciona independientemente del resto del organismo; lo cul no es correcto. Esto se debe a qu, el cuerpo est compuesto por rganos o sistemas contingentes o dependientes, cuyo funcionamiento depende, en turno, de la direccin que se le d a todo el organismo como unidad independiente. El hecho de que un rgano o sistema del cuerpo est aparentemente
2-22
enfermo, esto no quiere decir qu, solamente, ese rgano en particular est enfermo, sino que toda la qumica del cuerpo est alterada, como resultado de vida antinatural. Este razonamiento est relacionado con la tesis de Hipcrates conspiratio una). Solucin: n1n2n3 = (4)(3)(2) = 24 Regla factorial Dado un ntegro positivo n, el producto de todos los nmeros enteros desde n hasta 1 se llama factorial n y se escribe n!. En general, n! = n(n 1)(n 2)(n 3).1. Por definicin 0! = 1. Aqu ntese que 10! = 109!; 5! = 44!, y n! = n(n 1)! Ms adelante, cuando se discuta el tema de permutaciones se ver que, la diferencia entre la regla factorial y la regla de permutaciones, es la siguiente: la regla factorial dice cuntos arreglos son posibles, cuando se usan todos los diferentes objetos de n. Sin embargo, cuando se habla de permutaciones, se seleccionan solamente algunos de los objetos n, no todos, como en el caso de la regla factorial. Ejemplo #35. Calcular los siguientes factoriales: (a) 10! (b) 5! (c) 9!/0! Solucin: (a) 10! = 3,628,800 (b) 5! = 120 (c) 9!/0! = 362,880/1 = 362,880 Ejemplo #36. Un candidato presidencial planea visitar cada uno de 28 estados de un pas. Cuntas rutas diferentes son posibles? Solucin:
2-23
Las capitales de los diferentes 28 estados se pueden arreglar en 28! maneras, de tal forma el nmero de diferentes rutas es 28! = 3.049x1029. Ejemplo #37. En la facultad de ingeniera, en cierta oficina, los escritorios de 4 becarias se ponen en lnea contra una pared. Cada becaria se puede sentar en cualquier escritorio. Cuntos arreglos para sentar a las becarias son posibles? Solucin: Usando n! = 4! = (4)(3)(2)(1) = 24 Diagramas de rbol En las reglas de producto o regla de multiplicacin se puede usar una configuracin llamada diagrama de rbol, para representar esquemticamente, todas las posibilidades y calcular cualquier probabilidad en los resultados obtenidos del diagrama de rbol. De esta manera, los espacios muestrales pueden describirse grficamente en trminos de un diagrama de rbol. Ejemplo #38. Supngase que una computadora pueda seleccionar, aleatoriamente, uno de dos factores, Rh (positivo y negativo) y uno de tres tipos de sangre. Calcular la probabilidad de sacar un factor Rh positivo con tipo de sangre A. Solucin: Usando la regla de multiplicacin n1 n2 = (2) (3) = 6 se hace este clculo. Sin embargo, aqu es difcil visualizar las combinaciones calculadas en la probabilidad. No obstante, el uso de un diagrama de rbol simplifica esta tarea. Ejemplo #39. Con relacin al problema anterior hacer un diagrama de rbol para relacionar el factor Rh y el tipo de sangre. Solucin:
2-24
Factor Rh
+
Tipo de sangre
A O B A O B
Resultado
+A +O +B -A -O -B
Figura 2.3. Diagrama mostrando el factor Rh, el tipo de sangre y el resultado. (Elaboracin propia) Del diagrama de rbol de arriba podemos ver que el espacio muestral es: S = {+A, +O, +B, -A, -O, -B) Examinando esta situacin vemos qu, una sola rama corresponde a: +A. Por lo tanto, la probabilidad de sacar este arreglo es de 1/6. Ejemplo #40. Supngase que se quiera encontrar la probabilidad de un infante, que sea una hembra con ojos azules. Asumir que la probabilidad de varones y hembras es igual y que puedan salir con colores de ojos cafs, verdes, azules o castaos. Solucin: Usando la regla de productos da: n1 n2 = (2) (4) = 8. La probabilidad de una hembra con ojos azules es 1/8. Pero, haciendo un diagrama de rbol simplificamos el clculo de la probabilidad de sacar una hembra con ojos azules.
2-25
ojos cafs ojos azules varn ojos verdes ojos castaos hembra
ojos cafs ojos azules ojos verdes ojos castaos
Figura 2.4. Diagramas de rbol para varones y hembras. El espacio muestral S da 8 posibilidades. De manera que, la probabilidad de una hembra de ojos azules es de 1/8. (Elaboracin propia) Ejemplo #41. Considrese el lanzamiento de una moneda tres veces (o el lanzamiento de tres monedas a la vez). Hacer los siguientes enunciados: (a) Usar un diagrama de rbol para representar el nmero de resultados experimentales y el espacio muestral. (b) Calcular la probabilidad de que caigan exactamente 3 soles (caras) (c) Calcular la probabilidad de que caigan cuando menos 2 soles. (d) Calcular la probabilidad de que caigan a lo ms 2 guilas. (e) Calcular la probabilidad de cada uno de los resultados del espacio muestral. Solucin: (a) La figura de abajo muestra el diagrama de rbol del experimento de lanzar las tres monedas simultneamente.
2-26
Etapa 1 Etapa 2 Etapa 3 Primera moneda Segunda moneda Tercera moneda
Figura 2.5. Diagrama de rbol del experimento de lanzar las tres monedas simultneamente, donde S = soles y A = guilas. (Elaboracin propia) Con este diagrama de rbol vemos que hay 8 resultados al lanzar una moneda tres veces consecutivas o tres monedas simultneamente. El espacio muestral es: S = {(SSS), (SSA), (SAS), (SAA), (ASS), (ASA), (AAS), (AAA)} (b) La probabilidad de caigan exactamente 3 soles es: P(soles = 3) = 1/8 (c) La probabilidad de que caigan cuando menos 2 soles es: P(soles 2) = 4/8 = 1/2 (d) La probabilidad de caigan a lo ms dos guilas es: P(guilas 2) = resolverse por el lector (e) La probabilidad de todo el conjunto muestral es: P(S) = 1 o sea: = P(SSS)+P(SSA)+P(SAS)+P(SAA)+P(ASS)+P(ASA)+P(ASS)+P(AAA) = 1/8 + 1/8 + 1/8 + 1/8 + 1/8 + 1/8 + 1/8 + 1/8 = 1
2-27
Ejemplo #42. Una pareja de recin casados desea tener 4 hijos. (a) Enlistar el espacio muestral. (b) Cual es la probabilidad de tener 3 varones? 4 varones? (c) Cul es la probabilidad de tener puras hembras? Ms de 2 hembras? Solucin: (a) S = {vvvv, vvvh, vvhv, vvhh, vhvv, vhvh, vhhv, vhhh, hvvv, hvvh, hvhv, hvhh, hhvv, hhvh, hhhv, hhhh} (b) P(3 varones) = 2/8 = ; P(4 varones) = 1/16 (c) P(puras hembras) = 1/16; P(ms de 2 hembras) = 5/16 Permutaciones Una permutacin es un arreglo ordenado de objetos o casos. De esta manera, hasta ahora se ha discutido, nicamente, las reglas del producto para pares ordenados y la regla de multiplicacin ms generalizada. Como se dijo, estas reglas dicen que, los elementos sucesivos de un k-arreglo se seleccionaron de conjuntos diferentes y con opciones con reemplazo para el mismo elemento que pueda aparecer ms de una vez. Sin embargo, en el caso de las permutaciones, vamos a considerar un fondo fijo formado por n distintos elementos y suponiendo que se forma un k-arreglo, al seleccionar sucesivamente de este conjunto, sin reemplazo, para que un elemento pueda aparecer a los sumo en una de las k posiciones. Definicin: Una permutacin es un arreglo de todos o parte de un conjunto de objetos, donde el orden es de importancia (en contraste con la combinacin en la cual veremos que el orden no es de importancia). Teorema 1: El nmero de permutaciones de objetos tomados todos a un tiempo es n! Este teorema nos da el nmero total de todos los objetos tomados todos a un tiempo (el cual es el espacio muestral).
2-28
Ejemplo #43. Usando una calculadora de bolsillo, evaluar las siguientes permutaciones: (a) 8P3, (b) 6P4, (c) 15P1, (d) 3P3 Solucin: (a) 8P3 = n! / (n - r)! = 8!/(8 3)! = 336 (b) 6P4 = (6)(5)(4)(3) = 360 (c) 15P1 = 15 (d) 3P3 = (3)(2)(1) = 6 Ejemplo #44. El nmero de permutaciones de las cuatro letras, a, b, c, d (tomadas todas a un tiempo) es: n! = 4! = 24 Esta permutacin es, realmente, una regla factorial, porque se tomaron todas las letras a un tiempo. Teorema 2: El nmero de permutaciones de n objetos distintos tomados a un tiempo r (una parte noms) se da como:
nPr
= n! / (n - r)!
(2-9)
Ejemplo #45. Dos boletos de la lotera se sacan de 20 para el primero y segundo lugar. Encontrar el nmero de puntos muestrales en el espacio. Encontrar tambin todo el espacio muestral S. Solucin: Aqu los objetos son tomados de 2 en 2 es decir, n = 20 y r = 2 y usamos la frmula:
nPr
= n! / (n - r)! = 20P2 = 20!/(20 - 2)! = 380
Ahora, si queremos todo el espacio muestral quiere decir que los vamos a tomar todos a un tiempo r. Esto dice que la frmula:
nP r
= n! / (n - r)! se reduce a n! o sea 20! = 2.43x1018.

2-29
Ejemplo #46. De cuntas maneras puede la Sociedad Qumica Mexicana seleccionar a 3 conferencistas para 3 conferencias diferentes, si hay nicamente 5 fechas disponibles? Solucin: Aqu n = 5 y r = 3 usando nPr = n! / (n - r)! y sustituyendo los valores da:
nPr
= n! / (n - r)! = 5P3 = 5! / 2! = 60. En resumen, aqu vemos qu, si queremos todas
las permutaciones posibles o todo el espacio muestral, entonces, usamos n! Pero, si queremos, nicamente, una parte, usamos nPr = n!/(n - r)! Ejemplo #47. Cul es el nmero de permutaciones de las letras a, b, c tomadas todas a un tiempo? Solucin: Seis, v.g., ab, ba, ac, ca, bc, cb Ejemplo #48. Considrese una carrera de 10 caballos y un premio de exacta para cualquiera que pueda escoger el orden exacto del primero hasta el dcimo lugar. Asumiendo que todos los caballos tienen la misma oportunidad de ganar, Cuntos arreglos hay? Solucin:
10P10
= 3,628,800 permutaciones
Ejemplo #49. Bajo las condiciones del problema #7, Cul es la probabilidad de ganar si se compra un solo boleto? Solucin: P(Con un solo boleto) = 1 / 10P10 = 1/3,628,800 = 2.76x10-7 Ejemplo #50. Supngase que hay 6 partes diferentes para ser almacenadas, pero solamente, hay 4 cajas disponibles. Cuntas permutaciones son posibles?
2-30
Solucin: Aqu, n = 6 y r = 4, es decir:

6P4
= 360
Teorema 3. El nmero de diferentes permutaciones de n objetos, de los cuales n1 son de una clase, n2 son de una segunda clase,...nk son de una k-sima clase se da como: n! / (n1! n2!..nk!) Donde: n! es el total de los objetos Ejemplo #51. De cuntas maneras pueden arreglarse en un cordn elctrico 3 focos rojos, 4 amarillos y 2 azules en 9 portalmparas? Solucin: Usando la regla de particin n!/(n1!n2!..nk!) Donde, n! = 9, n1 = 3, n2 = 4 y n3 = 2, da: 9! / (3! 4! 2!) = 1260 Ejemplo #52. Un colegio juega 12 juegos durante la temporada. De cuantas maneras puede el equipo terminar la temporada con 7 juegos ganados, 3 perdidos y 2 empates? Solucin: Usando la funcin (2-9) con n! = 12, n1 = 7, n2 = 3 y n3 = 2 y sustituyendo da: 12!/[(7!)(3!)(2!) = 7920 Otra forma de ver las permutaciones es cuando estamos interesados en el nmero de maneras de partir un conjunto de n objetos en r subconjuntos llamadas celdas. Teorema 4. El nmero de maneras de partir un conjunto de n objetos en r celdas con n1 elementos en la primera celda, n2 elementos en la segunda y, as sucesivamente, es: (2-10)
2-31
n = C = n! / n1! n2!...nr! n n1,n2..nr n1,n2..nr
(2-11)
Donde: n1 + n2 + nr = n Ejemplo #53. En cuntas maneras pueden 7 cientficos ser asignados a un cuarto triple y a 2 cuartos dobles en un hotel. Solucin:
7 = 7! / (3!2!2!) = 210 3, 2 , 2
Ejemplo #54. De cuntas maneras se pueden acomodar a 10 viajeros en un hotel asignndolos en 2 cuartos triples y 3 cuartos dobles? Solucin: Usando la funcin (2-11) y sustituyendo da: 10! / (3! 3! 2! 2! 2!) = 12,600 Combinaciones Una combinacin es un arreglo de objetos, sin importar el orden. El nmero de combinaciones de n objetos tomados a un tiempo r puede escribirse como nCr. Teorema: El nmero de combinaciones de n objetos distintos tomados a un tiempo r es una combinacin; esto es, el nmero de subconjuntos de tamao r que pueden seleccionarse de un conjunto de n objetos distintos donde el orden no es importante (como en el caso de la permutacin, en la cual el orden si es importante). La combinacin se denota por la funcin:
nCr
= n! / r! (n - r)!
(2-12)
Donde:
nCr
es la combinacin, que tambin se puede denotar como Cnr

2-32
Ejemplo #55. Evaluar 7C4. Solucin: Usando la frmula (2-12) nCr = n! / r!(n - r)! y sustituyendo los valores da: = 7C3 = 7! / 4! 3! = 35 Ejemplo #56. Un fabricante de llantas hace 10 tipos de neumticos para diferentes tamaos y quiere preparar una partida que contenga 6 tipos de llantas. Cuntas combinaciones de llantas estn disponibles? Solucin: Usamos la funcin de combinacin, la cual es un arreglo de objetos, sin importar el orden. Aqu se usa nuevamente, la funcin (2-12) definida como:
nCr
= n!/ r!(n - r)! = nPr / r! = 10! / 6! 4! = 210
Aqu, n = 10, r = 6. Substituyendo estos valores en la funcin de arriba da:

10C6
Ejemplo #57. Un grupo de tres inspectores va a inspeccionar las actividades de una industria contaminante. El grupo se va a formar seleccionando los tres agentes de un grupo de 5. Cuntos grupos diferentes se pueden formar siguiendo un orden definido? Siguiendo un orden indefinido? Solucin: Para el primer caso, sera una permutacin, porque se quiere un orden definido. Usando la frmula nPr = n!/(n - r)! con n = 5 y r = 3 y sustituyendo los valores da:
5P 3
= 5! / (5 - 3)! = 5!/3! = 20
Para el segundo caso, o sea un orden indefinido, sera una combinacin, porque el orden no es de importancia, es decir, usando la frmula (2-12):
5C3
= 10
2-33
Otra variacin de combinacin se define como el nmero de combinaciones de n objetos tomados 1, 2, 3,... n a un tiempo. De esta manera, en general, para cualquier ntegro positivo n se da por la funcin de abajo:
nC1
+ nC2 + nC3 + ... + nCn = 2n 1
(2-13)
Ejemplo #58. Una persona tiene cinco monedas de diferentes denominaciones. Cuntas sumas diferentes de dinero se pueden formar? Solucin: La moneda se puede seleccionar ya sea una de 5 monedas, dos de 5 monedas,., cinco de 5 monedas. Usando la funcin de arriba (2-13) y sustituyendo los valores apropiados da:
5C1
+ 5C2 + 5C3 + 5C4 + 5C5 = 5 + 10 + 10 + 5 + 1 = 31
Otra forma de hacer este problema sera razonando de la siguiente manera. Cada moneda se puede manejar de dos maneras, a medida que se selecciona o no se selecciona. Debido a que cada una de las dos maneras de tratar con una de las monedas es asociada con dos maneras de usar, con cada una de las otras monedas, el nmero de maneras de tratar con las cinco monedas es usando la relacin 25 maneras. Pero la cantidad 25 maneras incluye el caso en el cual ninguna moneda se selecciona. Por lo tanto, el nmero requerido de sumas de dinero es de 25 1 = 31. Dentro del tpico de combinaciones, tambin se puede incluir el uso de la regla hipergeomtrica (Pfaffenberger et al. 1987). Siendo as, supngase que hay n objetos en un grupo y, que n1 son de un tipo y n2 son de otro tipo. El nmero de grupos de r objetos, donde r1 son del primer tipo y r2 son del segundo tipo, que pueden ser formados por medio de sacar r objetos de n, se da por: n1
n1Cr1
n2Cr2 donde n1 + n2 = n; r1 + r2 = r
2-34
(2-14)
Ejemplo #59.Un reclutador de una firma de empleos ha hecho entrevistas con 10 ingenieros, de los cuales 6 son ingenieros civiles y 4 no. El reclutador quiere emplear 5 de los 10 ingenieros entrevistados. Cuntos grupos posibles de los cinco ingenieros empleados contendrn exactamente tres ingenieros civiles? Solucin: Dejar que n1 = 6 y n2 = 4 u usar la regla hipergeomtrica (2-14). En el subgrupo de tamao r = 5, queremos r1 = 3 ingenieros civiles y r2 igual a los que no son ingenieros civiles. Entonces, el nmero de grupos de tamao 5 de esta categora es: 6! 4! 6C34C2 = = (20)(6) = 120 3!(6 3)! 2!(4 2)! Aqu ntese que la regla hipergeomtrica es poniendo juntos el producto y la regla de combinaciones para obtener el resultado. Eventos independientes y dependientes.- Dos eventos A y B se dice que son independientes si la ocurrencia de A no afecta la probabilidad de la ocurrencia de B, es decir: P(A|B) = P(A) o bien P(B|A) = P(B) (2-15) (2-16)
Eventos dependientes.- Si la ocurrencia o no ocurrencia de A, afecta la probabilidad de ocurrencia de B, entonces, los eventos son dependientes. Adems, para tres eventos independientes, digamos, E1, E2, E3 la probabilidad es: Pr{E1E2E3} = Pr{E1}Pr{E2|E1}Pr{E3|E1E2}. Ejemplo #60. Se selecciona aleatoriamente una carta de una baraja comn de 52 cartas. Si A es el evento de que la carta elegida sea un as y B sea el evento de que sea un corazn, entonces, A y B son eventos independientes, ya que P(AB) = 1/52, P(A) =
2-35
4/52 y P(B) = 13/52. Esto se debe a que hay 4 ases y 13 cartas de corazones. Ejemplo #2. Considerar el espacio muestral S = {A, B, C, D), donde P(A) = P(D) = .3 y P(B) = P(C) = .2. (Keller et al. 1990) (a) Siendo as, definir los eventos: 1 = {A, B} 2 = {B, C} 3 = {C, D} (b) Cul de los siguientes pares de eventos son independientes o dependientes? (b) 1 y 2 (c) 2 y 3 (d) 1 y 3 Solucin: (a) 1 = {A, B} = .3, .2 2 = {B, C} = .2, .2 3 = {C, D} = .2, .3 (b) Los eventos 1 y 2 son independientes (c) Los eventos 2 y 3 son independientes (d) Los eventos 1 y 3 son dependientes
2-36
Regla multiplicativa para eventos dependientes e independientes En algunas ocasiones se pueden resolver problemas de probabilidad, por medio de contar el nmero de puntos en un espacio muestral, el cual se refiere como la regla multiplicativa. La regla multiplicativa o de conteo de nmero de puntos en un espacio muestral se usa en este caso. Sin embargo, podemos ver que esta regla aplica para dos eventos dependientes y para dos eventos independientes. Esta regla de multiplicacin es sugerida por la definicin de probabilidad condicional arriba descrita. Esta regla de probabilidad condicional se da como: P(A|B) = P(A|B)/P(B), P(B) 0 Podemos reescribir esta ecuacin para obtener: P(A|B) = P(B) P(A|B) La regla multiplicativa para dos eventos dependientes es: P(A y B) = P(A) P(B|A) y Que finalmente, tambin se escribe como: P(A B) = P(B) P(A|B) = P(A) P(B|A) Donde: P(A|B) se refiere a la probabilidad condicional de que el evento A ocurra dado que B ya ocurri y P(B|A) se refiere a la probabilidad condicional de que el evento B ocurra dado que A ya ocurri. En verdad, la regla multiplicativa para eventos dependientes es la probabilidad de la interseccin (A|B) de dos eventos A y B. Esto dice que, la probabilidad de ocurrencia conjunta de evento A y evento B es igual a la probabilidad condicional de A dado B por la probabilidad marginal de B. La regla multiplicativa para dos eventos independientes es:
2-37
(2-17) (2-18) (2-19) (2-19a) (2-20b)
P(A y B) = P(B) P(A|B)
P(A y B) = P(A) P(B) O bien P(A B) = P(A) P(B)
(2-21) (2-21a)
Ejemplo #61. Entre 3 discos de computadora uno est defectuoso. Dos de ellos se seleccionan aleatoriamente, pero el primero es reemplazado, antes de sacar el segundo disco. Cul es la probabilidad de que ambos discos estn buenos? Solucin: Dejemos que A sea el evento de sacar un disco bueno y, B, el evento de sacar un segundo disco bueno. Entonces, la probabilidad de A es P(A) = 2/3 y la probabilidad de B es P(B) = 2/3. Debido a que hay reemplazo, esto nos lleva a la regla multiplicativa de eventos independientes. Por lo tanto: P(A y B) = P(A B) = P(A) P(B) = (2/3)(2/3) = 4/9 Ejemplo #62. Veinte unidades de un producto manufacturado se sitan en un depsito. Dos de estas unidades estn defectuosas. Si se inspeccionan todas las 20 unidades, cul es la probabilidad de seleccionar (aleatoriamente), las 2 unidades defectuosas? Solucin: Dejar que A sea la primera unidad defectuosa y B la segunda unidad defectuosa. Entonces, queremos encontrar la probabilidad de interseccin de los dos eventos, es decir, (A B). Los eventos son claramente dependientes, porque la probabilidad de que la segunda unidad sea defectuosa depende de que si la primera unidad sea o no defectuosa. Aqu: P(A) = 2/20 y P(B/A) = 1/19 Sustituyendo estos valores en la funcin de la regla de multiplicacin para eventos dependientes da: P(A B) = P(A) P(B/A) = (2/10)(1/19) = 0.00526
2-38
Nota: La probabilidad condicional P(B/A) es igual a 19, porque si A ocurre (una unidad defectuosa seleccionada en la primera sacada), entonces, quedarn solamente 19 unidades para ser seleccionadas en la segunda sacada. Por lo tanto, la probabilidad de seleccionar las 2 unidades defectuosas es de 0.00526, la cual es muy improbable, es decir, 5 oportunidades en 1,000! Por otra parte, la regla multiplicativa para eventos independientes se define como: P(A B) = P(A) P(B) (2-22) Ejemplo #63. Supngase que en una caja hay 20 fusibles, de los cules 5 estn defectuosos. Si se seleccionan 2 fusibles aleatoriamente, en sucesin, cul es la probabilidad de que los 2 fusibles seleccionados estn defectuosos? Solucin: Dejemos que A sea el evento de sacar el primer fusible defectuoso y, B, sea el evento de sacar el segundo fusible defectuoso. Si interpretamos A B como el evento de que A ocurre y B el evento despus de que A ocurri, entonces, la probabilidad de A es P(A) = 5/20 y, la probabilidad de B es P(B) = 4/19. Por lo tanto, P(A B) = P(A) P(B|A) = (5/20)(4/19) = 1/19 Ejemplo #64. En los juegos de los dados (honestos) la suma de un total de 7 puntos de los dos dados gana. Cul es la probabilidad de que un jugador lance dos 7 consecutivos? Solucin: Los dos eventos son independientes, porque el resultado del segundo lanzamiento no afecta al resultado del primero. Aqu el espacio muestral es de (36)(36) = 1,296 y la
2-39
probabilidad de sacar la suma de 7 es de 6, es decir, (2+5, 5+2, 3+4, 4+3, 1+6, 6+1). Usando la regla multiplicativa para eventos independientes da: P(A B) = P(A) P(B) = (6/36)(6/36) = 1/36 Ejemplo #65. Cuntos puntos muestrales hay en un espacio muestral, cuando un par de dados se lanzan una vez? Solucin: El primer dado puede caer en n1 = 6 maneras. Para cada una de estas 6 maneras, el segundo dado puede caer en n2 maneras. Por lo tanto: n1 n2 = (6)(6) = 36 maneras posibles El espacio muestral es: S = {1-1, 1-2, 1-3, 1-4, 1-5, 1-6, 2-1, 2-2, 2-3, 2-4, 2-5, 2-6, 3-1, 3-2, 3-3, 3-4, 3-5, 3-6, 4-1, 4-2, 4-3, 4-4, 4-5, 4-6, 5-1, 5-2, 5-3, 5-4, 5-5, 5-6, 6-1, 6-2, 6-3, 6-4, 6-5, 6-6} Regla aditiva para eventos mutuos excluyentes y eventos no mutuos excluyentes En muchas aplicaciones de la teora de probabilidad, estamos interesados en combinar probabilidades de eventos que estn relacionados de alguna manera. En este caso se usa la regla aditiva. As, la regla aditiva se usa para computar la probabilidad de la unin de dos eventos. Esta regla aplica para eventos no mutuos excluyentes y, tambin, para eventos mutuos excluyentes. Por ejemplo si A y B son eventos mutuos excluyentes el modelo aditivo es: P(A B) = P(A) + P(B) Que tambin se puede escribir como: P(A o B) = P(A) + P(B) B ocurran o, bien, que ambos ocurran.
2-40
(2-23) (2-23a)
Nota. El smbolo P(A o B) se refiere a la probabilidad de cualquiera de los eventos A o
Sin embargo, si los casos A y B no son eventos mutuos excluyentes, el modelo aditivo es: P(A B) = P(A) + P(B) - P(A B) Esta funcin tambin se puede expresar como: P(A o B) = P(A) + P(B) - P(A y B) y B ocurrirn. Ejemplo #66. Cul es la probabilidad de obtener un 6 en el primer o segundo lanzamiento de un dado o, en ambos lanzamientos? Solucin: Aqu, usamos la regla aditiva para eventos no mutuos excluyentes: P(A1 o A2) = P(A1) + P(A2) - P(A1 y A2) O bien P(A o B) = P(A) + P(B) - P(A y B) Para esto, dejemos que A1 denote el evento de un 6 en el primer lanzamiento y A2 el evento de un 6 en el segundo lanzamiento. Queremos encontrar la probabilidad de P(A1 o A2), lo cual quiere decir que estamos buscando que el 6 aparezca, ya sea en el primer lanzamiento o en el segundo lanzamiento o en ambos lanzamientos. De manera que: P(A1) = 1/6, P(A2) = 1/6 y P(A1 y A2) = 1/36 Substituyendo todos estos valores en la frmula da: P(A1 o A2) = 1/6 + 1/6 - 1/36 = 11/36 Ejemplo #67. La probabilidad de que Marina pase matemticas es de 2/3, y la probabilidad de que pase el curso de ingls es 4/9. Si la probabilidad de pasar ambos cursos es de 1/4, cul es la probabilidad de que Marina pase, cuando menos uno de estos cursos? Solucin:
2-41
(2-24) (2-25)
Nota: El smbolo P(A y B) se usa para denotar la probabilidad de que ambos eventos A
Dejar que A = 2/3 sea el evento de pasar matemticas y B = 4/9 el evento de pasar ingls y P(A y B) = 1/4 el evento de pasar matemticas e ingls, entonces por la regla aditiva: P(A o B) = P(A) + P(B) - P(A y B) P(A B) = P(A) + P(B) - P(A B) P(2/3 o 1/4) = P(2/3) + P(1/4) - P(2/3 y 1/4) = 2/3 + 4/9 - 1/4 = 31/36 Ejemplo #68. Cul es la probabilidad de que una carta seleccionada, aleatoriamente, de un mazo de 52 cartas sea un rey o un corazn? Solucin: Debido a que hay un traslapado, se usa la regla aditiva para eventos no mutuos excluyentes P(A o B) = P(A) + P(B) - P(A y B). Siendo as, dejemos que A = un rey cualquiera y B = precisamente un corazn cualquiera. Por lo tanto, P(A) = 4/52, P(B) = 13/52, P(A y B) rey o corazones = 1/52. Aqu, es lgico que la probabilidad conjunta (Una probabilidad que mide la verisimilitud de que puedan ocurrir dos a ms eventos a la misma vez), de un rey y un corazn deba de restarse una vez. De no ser as se incluira dos veces en encontrar la probabilidad de que una carta seleccionada aleatoriamente fuera, ya sea un rey o un corazn. Existe un traslapado de resultados, lo cual quiere decir que existe la probabilidad de que el rey (A) y un corazn (B) ocurran al mismo tiempo. Por lo tanto: P(A o B) = P(A) + P(B) - P(A y B) = 4/52 + 13/52 1/52 = 16/52 Ejemplo #69. Este es un problema sacado del libro Statistical Analysis for Decisin Making de Morris Hamburg (1989), el cual est relacionado con la probabilidad de obtener un 6 en el primero o segundo lanzamiento de un dado o en ambos lanzamientos.
2-42
Esto es lo mismo que calcular la probabilidad de obtener un 6, cuando menos una vez en dos lanzamientos de un dado. Solucin: Dejar que A1 denote la salida de un 6 en el primer lanzamiento del dado y A2 represente la salida de un 6 en el segundo lanzamiento. Queremos encontrar el valor de P(A1 o A2). Para esto analicemos los resultados posibles del primero y segundo lanzamiento. 1,1 1,2 1,3 1,4 1,5 1,6 2,1 2,2 2,3 2,4 2,5 2,6 3,1 3,2 3,3 3,4 3,5 3,6 4,1 4,2 4,3 4,4 4,5 4,6 5,1 5,2 5,3 5,4 5,5 5,6 6,1 6,2 6,3 6,4 6,5 6,6
La probabilidad de que un 6 salga en ambos lanzamientos es P(A1 y A2) = 1/36. La probabilidad de que un 6 salga en el primer lanzamiento es P(A1) = 1/6 y en el segundo lanzamiento es P(A2) = 1/6. Entonces, aplicando la regla aditiva da: P(A1 o A2) = P(A1) + P(A2) P(A1 y A2) = 1/6 + 1/6 1/36 = 11/36 Aqu ntese que es necesario restarle 1/36 para evitar un traslapado.
2-43
Figura 2.6. Las Figuras (a), (b) y (c) muestran el uso de diagramas de Venn para la regla aditiva, para eventos mutuos excluyentes y no mutuos excluyentes. (Elaboracin propia) Ejemplo #70. Una computadora genera aleatoriamente el ltimo dgito de un nmero telefnico. Encontrar la probabilidad de que el resultado sea un 8 o 9 (Triola, 1986). Solucin: Los resultados de los nmeros 8 y 9 son eventos mutuos excluyentes, por lo tanto, se usa la funcin (2-23). Entonces, dejemos que P(A) = 8 y P(B) = 9, y aplicando la regla aditiva P(A B) = P(A) + P(B) y sustituyendo da: P(8 o 9) = P(8) + P(9) P(8 y 9) = 1/10 + 1/10 - 0 = 1/5 Ejemplo #71. Si E1 es el evento de sacar un as de un mazo de cartas y E2 es el evento de sacar un rey, entonces, Pr{E1} = 4/52 y Pr{E2} = 4/52 = 1/13 y la probabilidad de sacar, ya sea un as o un rey es de: Pr{E1 + E2} = Pr{E1} + Pr{E2} = 1/13 + 1/13 = 2/13.
2-44
Entonces, por lo tanto, debido a que ambos el as y el rey no pueden ser sacados de un solo tiro, por lo tanto, son eventos mutuos excluyentes y se usa la funcin (2-23). Ejemplo #72. Si E1 es el evento de sacar un as y E2 es el evento de sacar una espada, entonces, E1 y E2 no son eventos mutuos excluyentes debido a que el as de espadas puede ser sacado. Siendo as, se usa la funcin (2-25) para eventos no mutuos excluyentes. Por lo tanto, la probabilidad de sacar ya sea un as o una espada o ambos es: Pr{E1 + E2} = Pr{E1} + Pr{E2} - Pr{E1E2} = 4/52 + 13/52 - 1/52 = 4/13 Ejemplo #73. Cual es la probabilidad de obtener un seis en el primero o segundo lanzamiento de un dado o, en ambos lanzamientos de un dado honesto? Solucin: Aqu, usamos la regla aditiva para eventos no mutuos excluyentes, es decir, la funcin (2-25). Para esto dejemos que A1 denote el evento de un seis en el primer lanzamiento y A2 denote el evento de un seis en el segundo lanzamiento. Queremos encontrar la probabilidad de P(A1 o A2), lo cual dice que estamos buscando que el nmero seis aparezca, ya sea en el primer lanzamiento o en el segundo lanzamiento o en ambos lanzamientos. Entonces: P(A1) = 1/6, P(A2) = 1/6 y P(A1 y PA2) = 1/36 Sustituyendo todos estos valores en la funcin (2-27) da: P(A B) = P(A) + P(B) P(A B) P(A1 A2) = 1/6 + 1/6 1/36 = 11/36 Ejemplo #74. Cul es la probabilidad de que una carta seleccionada, aleatoriamente, de un mazo de 52 cartas sea un as o un corazn? Solucin: Aqu, nuevamente, se usa la regla aditiva para eventos no mutuos excluyentes. Para esto dejemos que A = un as cualquiera y B = precisamente un corazn cualquiera. Usando el
2-45
mazo de 52 cartas (que contiene cuatro 2s, cuatro 3s, cuatro 4s, , cuatro 10s, cuatro sotas, cuatro reinas, cuatro reyes y cuatro ases, con sus correspondientes figuras de trboles, corazones, espadas y diamantes), por lo tanto, para un as cualquiera, P(A) = 4/52 , para un corazn cualquiera, P(B) = 13/52 y, para ases o corazones, P(A y B) igual a 1/52. Aqu, nuevamente, como en el caso del ejemplo #68 es lgico asumir qu, la probabilidad conjunta (una probabilidad que mide la probabilidad de que puedan ocurrir dos o ms eventos a la misma vez), de un as y un corazn deba restarse una vez. De no ser as, se incluira dos veces en encontrar la probabilidad de que una carta seleccionada al azar fuera, ya sea un as o un corazn. Existe un sobrepuesto de resultados, lo cual dice que existe la probabilidad de que el as (A) y un corazn (B) salgan a la misma vez. Por lo tanto: P(as o corazn) = P(as) + P(corazn) P(as y corazn) = 4/52 + 13/52 1/52 = 16/52 Ejemplo #75. En este ejemplo, para ilustrar la ley aditiva de probabilidad, en la cual existen traslapados, se puede hacer usando diagramas de Venn. Para esto, se hace el siguiente experimento de lanzar dos monedas. Siendo as, estimar la probabilidad de sacar, cuando menos una cara, ya sea en el primer lanzamiento o en el segundo lanzamiento (Smith, 1985). Solucin: Primeramente, enlistar los cuatro posibles resultados poniendo H = caras y T = a soles, es decir, HT, HH, TH y TT. Aqu, para evitar un traslapado, se usa la regla aditiva para eventos no mutuos excluyentes. El diagrama de Venn de abajo ilustra claramente, el traslapado que pudiera ocurrir, si se sumara la probabilidad de una cara en el primer lanzamiento, ms la probabilidad de una cara en el segundo lanzamiento que dara +
2-46
= 1, lo cual sera incorrecto. En este caso, la probabilidad de una cara en el primer lanzamiento es de 0.5; la probabilidad de una cara en el segundo lanzamiento es 0.5 y, la probabilidad de caras en ambos lanzamientos es de 0.25. Por lo tanto, la probabilidad de una cara, ya sea en el primero o segundo lanzamiento es: P(H o T) = P(H) + P(T) - P(H y T) =+-= El traslapado o la representacin del potencial de un doble conteo (HH) se da abajo.
Figura 2.7. Figura esquemtica mostrando un diagrama de Venn indicando el traslapado de caras (HH), que ocurre en la interseccin de A y B (Smith, 1985).
2-47
Regla multiplicativa para ms de dos eventos Otra regla til para calcular la probabilidad de un evento es el modelo de la regla multiplicativa. Esta regla se define como la probabilidad de la ocurrencia conjunta que el evento A y el evento B sea igual a la probabilidad condicional del evento A dado el evento B multiplicado por la probabilidad marginal de B. Teorema 1: Si en un experimento, los eventos dependientes A1, A2, A3,...Ak pueden ocurrir, entonces: P(A1 A2 A3 ... Ak) = P(A1)P(A2|A1)P(A3|A1 A2) ... ...P(Ak|A1 A2 ... Ak-1) Teorema 2: Si los eventos A1, A2, A3,... Ak son independientes, entonces: P(A1 A2 A3... Ak) = P(A1)P(A2)P(A3).P(Ak) (2-27) Ejemplo #76. Tres naipes se sacan en sucesin, sin reemplazo. Encontrar la probabilidad de que ocurra el evento A1 A2 A3, cuando A1 es el evento de que la primera carta sea un as rojo, A2 sea que la segunda carta sea un 10 o una sota y, A3 sea el evento de que la tercera carta sea mayor que un 3, pero menor que un 7. Solucin: Primero vamos a definir los eventos: A1: la primera carta es un as rojo (aqu, ntese que hay noms 2 ases rojos) A2: la segunda carta sea un 10 o una sota (hay cuatro 10s y cuatro sotas) A3: la tercera carta sea mayor que 3 pero menor que 7 (hay doce cartas entre el 3 y el 7). Los valores son: P(A1) = 2/52; P(A2|A1) = 8/51; P(A3|A1 A2) = 12/50. (Aqu ntese que, en la primera sacada son 52 cartas, pero en la segunda sacada el nmero de cartas baja a 51 y en la tercera sacada baja a 50 cartas). Por lo tanto: P(A1 A2 A3) = P(A1)P(A2|A1)P(A3|A1 A2)
2-48
(2-26)
= (2/52)(8/51)(12/50) = 8/5,525 Ejemplo #77. Hacer el mismo ejemplo #1 de arriba pero, en esta ocasin, con reemplazo de cartas. Solucin: Al haber reemplazo de cartas, el problema se reduce a la regla multiplicativa para eventos independientes. Los valores de las variables son: P(A1) = 2/52; P(A2) = 8/52; y P(A3) = 12/52 Enseguida, substituyendo los valores en la expresin de abajo da: P(A1 A2 A3) = P(A1)P(A2)P(A3) = (2/52)(12/52)(12/52) = 0.002 Ejemplo #78. Cuatro cartas se sacan en sucesin. Encontrar la probabilidad de que la primera carta sea un rey; la segunda sea un 9 de diamantes; la tercera sea, cuando menos, una sota (asumiendo que el as sea la ltima carta) y, la cuarta carta sea un 7 negro. Solucin: Dejemos que A sea cualquiera de los 4 reyes; B sea precisamente un 9 de diamantes; C sea igual a doce cartas, es decir, desde la sota hasta el as; y D sea cualquiera de los dos sietes negros. Siendo as, P(A) = 4/52, P(B) = 1/51, P(C) = 16/50, P(D) = 2/49 Por lo tanto: P(A B C D) = (4/52)(1/51)(16/50)(2/49) = 128/6,497,400 = .00002 Ejemplo #79. Dejemos que un par de dados sean lanzados una sola vez. Las tablas de
2-49
abajo muestran los resultados posibles, las probabilidades y su representacin. Hacer una grfica que vaya en funcin de P(X), es decir, 1/36, 2/36, etc. (El estudiante lo har). Solucin: TABLA 2.1. Diagrama mostrando la distribucin de probabilidades cuando se lanzan dos dados una sola vez. (Elaboracin propia) No. xitos | 1 2 3 4 5 6 5 4 3 2 1 Suma (X) |2 3 4 5 6 7 8 9 10 11 12 Probabilidad |1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 TABLA 2.2. Probabilidades cuando se lanzan dos dados. (Elaboracin propia) Suma de los dados 2 3 4 5 6 7 8 9 10 11 12 Nmero de xitos 1 2 3 4 5 6 5 4 3 2 1 Probabilidad 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
2-50
TABLA 2.3. Resultados cuando se lanzan dos dados una sola vez. (Elaboracin propia) Primer dado Segundo dado
1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6
Resultado
1-1 1-2 1-3 1-4 1-5 1-6 2-1 2-2 2-3 2-4 2-5 2-6 3-1 3-2 3-3 3-4 3-5 3-6 4-1 4-2 4-3 4-4 4-5 4-6 5-1 5-2 5-3 5-4 5-5 5-6 6-1 6-2 6-3 6-4 6-5 6-6
Suma de los nmeros

2 3 4 5 6 7 3 4 5 6 7 8 4 5 6 7 8 9 5 6 7 8 9 10 6 7 8 9 10 11 7 8 9 10 11 12
2-51
2.1. Si una moneda tiene dos caras denotadas por guilas o soles, cul es la probabilidad de que salga un sol? (0.5) 2.2. En el caso de un dado que tiene 6 nmeros o caras, entonces, si el dado es honesto, todas los nmeros del 1 al 6 tienen la misma probabilidad de caer. Entonces, cul es la probabilidad de sacar un 1? 2.3. En el lanzamiento de un dado, cul es la probabilidad de que se muestren los nmeros 3 o 4? Cul es la probabilidad de no sacar un 3 o un 4? socilogos, cul es la probabilidad de seleccionar un socilogo? 2.5. Cul de los siguientes no es una probabilidad? 3/7, 2, -1/2, 3/4, 99/101, 0, 1, 5, 1.11, 1.0001, 0.0001, 0.001, 0.9999. (2, 5, 1.11, 1.0001 2.6. La probabilidad de que Juan est vivo en 20 aos es de 0.7 y la probabilidad de que Pedro est vivo en 20 aos es 0.5. Cul es la probabilidad de que ambos estn vivos en 20 aos? 2.7. Si E1 y E2 sean los eventos de "caras del quinto lanzamiento" y "caras en el sexto lanzamiento" de una moneda, entonces, los eventos E1 y E2 son eventos independientes. Cul es la probabilidad de que salgan caras en ambos lanzamientos? dado honesto? Sugerencia: Usar la regla de adicin. 2.9. Asumiendo que los varones y las hembras ocurran igualmente y que el sexo de cualquier hijo sea independiente de cualquiera de los hermanos o hermanas, encontrar el espacio muestral y encontrar la probabilidad de que una pareja con 3 hijos tendrn: (a) exactamente 2 varones. (b) Exactamente 2 hembras.
2-52
(2/3)
2.4. Si una persona es seleccionada al azar de un grupo de 20 psiclogos y 30
(1/4)
2.8. Cul es la probabilidad de sacar cuando menos un 6 en dos lanzamientos de un
(3/8) (3/8)
(c) Cuando menos 2 varones 2.10. Lanzar una moneda 2 veces. Encontrar los siguientes eventos: (a) Encontrar el espacio muestral.
(P(X 2))
(b) Encontrar la probabilidad de que salgan exactamente una cara y un guila. 2.11. Encontrar el nmero de permutaciones de las letras a, b, c tomadas dos a un tiempo. tiempo. 2.13. Para dos eventos A y B, P(A) = 0.10, P(B) = 0.40 y P(A B) = 0.05. Determinar: (a) P(A|B) (b) P(B|A). 2.14. Si P(B) = 2750/10,000 y P(A B) = 0.14, encontrar P(A|B). 2.15. Dejemos que E sea el evento de que, los nmeros pares de un dado, sean 2, 4, 6. Encontrar la probabilidad de que salgan estos eventos. (1/2) 2.16. Un grupo de consumidores consiste de 80 estudiantes, 30 de los cuales son mujeres. Si un estudiante es seleccionado aleatoriamente de este grupo, encontrar la probabilidad de no escoger a una mujer. 2.17. De los siguientes eventos decir cuales eventos son mutuos excluyentes: (a) Seleccionando un estudiante quien atiende las clases de estadstica regularmente. Seleccionando un estudiante quien posee una computadora. (b) Seleccionando a una persona con pelo rubio. Seleccionando a una persona con ojos cafs. (c) Seleccionando un curso acadmico requerido. Seleccionando un curso electivo 2.18. La probabilidad de que un vuelo de avin salga a tiempo es de P(D) = 0.83; la
2-53
(6)
2.12. Encontrar el nmero de combinaciones de las letras a, b, c tomadas dos a un
(0.125) (0.50)
(evento mutuo excluyente)
probabilidad de que el vuelo llegue a tiempo es de P(A) = 0.82; y, la probabilidad de que salga a tiempo y llegue a tiempo es de P(D A) = 0.78. Asmase una probabilidad condicional. Encontrar la probabilidad de que el avin: (a) Llegue a tiempo dado que parti a tiempo. (b) Salga a tiempo dado que arrib a tiempo. 2.19. Supngase que una caja contiene 3 bolas blancas y 2 bolas negras. Asmase que no hay reemplazo y, por lo tanto, son eventos dependientes. Siendo as, calcular los siguientes enunciados: (a) Cul es la probabilidad de que la primera bola sacada sea negra? bola sacada fue negra? (c) Cul es la probabilidad de que ambas bolas sacadas sean negras? siguientes regiones: (a) Regiones 1 y 2 (b) Regiones 1 y 3 (c) Regiones 1, 2, 3, 4, 5, y 7 (d) Regiones 4 y 7 (e) Regin 1 (f) Regiones 2, 6, 7 (2/5) (1/4) (1/10) (b) Cul es la probabilidad de la segunda bola sacada sea negra dado que la primera
2.20. Usando la figura de abajo y la simbologa de diagramas de Venn definir las
2-54
Figura mostrando los diagramas de Venn. (Fuente: Montgomery et al.1996) 2.21. Supngase que se estudian 10,000 personas de 20 aos y se encuentra que 9961 vivieron 21 aos. Encontrar la probabilidad de que una persona de 20 aos vaya a vivir 21 aos. (.9961) 2.22. Un estudio encuest a un grupo de 100 profesionistas que consista de 40 ingenieros (de los cuales la mitad eran mujeres) y a 60 arquitectos (de los cuales la mitad eran mujeres). Encontrar la probabilidad de que un profesionista seleccionado aleatoriamente sea ingeniero o mujer. Asumir una regla aditiva. 2.23. Cul es la probabilidad de que una carta seleccionada al azar de un mazo de 52 naipes sea una reina o un corazn? Asumir una regla aditiva para eventos no mutuos excluyentes dado honesto o, en ambos lanzamientos? 2.25. Un ingeniero fabricante de motores le preocupan tres tipos de principales defectos. Por ejemplo, A es el evento en el que el eje del motor es demasiado grande, B el evento en el que las bobinas son inadecuadas y C el evento en el que las conexiones elctricas son insatisfactorias. De ser as, expresar verbalmente qu eventos estn representados por las siguientes regiones del diagrama de Venn. (Johnson, 1997)
2-55
(4/13)
2.24. Cul es la probabilidad de sacar un 6 en el primero o segundo lanzamiento de un
(a) Regin 2. (Dado que la regin 2 est en A y B, pero no en C, esto dice que, el eje es demasiado grande y las bobinas son inadecuadas) (b) Regin 1 y 3 juntas (c) Regiones 3, 5, 6 y 8 juntas (Debido a que todas estas regiones estn fuera de la regin A, esto representa el evento en que el eje es demasiado largo o defectuoso)
Figura mostrando los espacios muestrales y eventos. (Fuente: Johnson 1997) 2.26. Refirindose al problema anterior representar con smbolos de Venn las siguientes regiones: (a) 4, 6, 7 (b) 1,4 (c) 1, 2, 5, 7 (d) 1, 2 (e) 1, 3, 4. 2.27. En estudios de higiene industrial y seguridad de obreros de una industria se descubri que el 8% necesitaron botas de hule para proteccin contra descargas elctricas, 15% necesitaron cascos protectores para la cabeza y, 3% necesitaron, ambos, botas de hule protectoras y cascos protectores para la cabeza. Cul es la probabilidad
2-56
de que un trabajador seleccionado, al azar, necesitar, ya sea, botas protectoras de hule o cascos protectores para la cabeza? Sugerencia: usar el modelo aditivo. (0.20) 2.28. Se lanza una moneda dos veces. Encontrar la probabilidad de sacar una cara, ya sea en el primer lanzamiento o segundo lanzamiento o en ambos lanzamientos. Asumir que H = caras, T = guilas. 2.29. Una computadora genera, aleatoriamente, el ltimo dgito de un nmero telefnico. Calcular: (a) La probabilidad de que el resultado sea un 8 o 9. (1/5) (b) La probabilidad de que el resultado sea un nmero non o menor que 4. (0.7) 2.30. Encontrar la probabilidad de sacar un total de 7 o 11 cuando un par de dados se lanzan. 2.31. La probabilidad de sacar un as o un rey de un mazo de 52 cartas? de cartas de un mazo de 52 naipes. 2.33 Cuntas comidas consistentes de una sopa, un emparedado, un postre y un refresco son posibles, si podemos seleccionar 4 sopas, 3 tipos de emparedados, 5 postres y 4 refrescos? guilas? Usar regla multiplicativa. 2.35. Una pareja de recin casados planea tener 3 hijos. Encontrar los siguientes enunciados: (a) La probabilidad que todos los hijos sean hombres. (b) La probabilidad de 3 hembras. (c) La probabilidad de exactamente 2 varones. (d) La probabilidad de 3 varones y 3 hembras.
2-57
(2/13)
2.32. Cul es la probabilidad de sacar, ya sea un as o una espada o ambos en una sacada
(240)
2.34. Dos monedas se lanzan. Cul es la probabilidad de que ambas monedas caigan en
(1/8) (1/16) (3/8) (1/64)
(e) La probabilidad de tener a lo ms 2 varones. (f) La probabilidad de tener cuando menos 2 varones.
(3/8) (4/8)
Asumir que los varones y las hembras tienen la misma oportunidad y que el sexo de cada hijo sea independiente del sexo del otro. Hacer un diagrama de rbol para facilitar el cmputo. 2.36. Con referencia al problema anterior, si la familia fuera de 4 hijos, cul sera la probabilidad de fueran 4 varones y/o 4 hembras? 2.37. Se sacan dos cartas al azar de un mazo de 52 naipes. Qu probabilidad hay de obtener dos ases si? (a) La primera carta es repuesta antes de sacar la segunda carta. multiplicativa. (1/69) (12/2652) (b) La primera carta no es repuesta antes de sacar la segunda carta. Asumir una regla 2.38. Hay 10 rollos de pelcula en una caja y 3 estn defectuosos. Se sacan 2 rollos uno detrs del otro. Cul es la probabilidad de seleccionar un rollo defectuoso seguido por otro rollo defectuoso, sin no hay reemplazo? Usar regla multiplicativa. 2.39. Responder a las siguientes preguntas; (a) Cuntos resultados hay en un espacio muestral, cuando se lanzan un par de dados una sola vez? Cul es ste? (b) Cuntos puntos muestrales hay en un espacio muestral cuando se lanzan 3 dados simultneamente? 2.40. Un diseador de una nueva subdivisin ofrece a los compradores de casas, una seleccin de estilos exteriores de ingls, rstico, colonial, y exterior tradicional combinados con tipos de rancho, de dos pisos y un desnivel. De cuntas maneras se puede ordenar una de estas casas con esos estilos de construccin? Hacer un diagrama
2-58
(36)
de rbol. Sugerencia: usar la regla del producto n1n2.
(12)
2.41. Un estudio de trfico vehicular indica que de 3,756 autos que se acercan a la plaza, 857 entran en el aparcamiento. Cul es la probabilidad de que un auto no entre en el aparcamiento? (P(857) = 0.23, q = ?) 2.42. En una prueba la primera pregunta es de falso y verdadero y, la segunda pregunta es de seleccin mltiple con posibles respuestas de a, b, c, d, e. (a) Cuntas secuencias de posibles respuestas hay en estas dos preguntas? (b) Usar un diagrama de rbol y enlistar el espacio muestral. (10) 2.43. En el diseo de un sistema de computadora, si un byte se define como una secuencia de 8 bits y, cada bit debe ser 0 o 1, cuntos bytes diferentes son posibles? 2.44. Explique en sus propias palabras lo que significan los siguientes trminos: (a) Experimento aleatorio (b) Espacio muestral (c) Evento 2.45. Hablando de factoriales, evaluar 50! Sugerencia: usar la aproximacin de Sterling: n! ~ 2n nn e-n (3.04x1064) 2.46. Se lanza una moneda 3 veces consecutivas. Hacer un diagrama de rbol con los resultados de soles y guilas y el espacio muestral. Calcular lo siguiente: (a) Nmero de soles es cuando menos 2. (b) Segundo lanzamiento son soles. (c) El nmero de soles es exactamente 2. (d) Segundo lanzamiento son guilas. (e) Todos los lanzamientos muestran la misma imagen. (f) El nmero de soles es menor que 2.
2-59
(g) El segundo lanzamiento no son soles. (h) El nmero de soles es de cuando menos 2. (i) El nmero de soles es no ms de 3. (j) El nmero de guilas es a lo ms 3. (k) El nmero de soles que excedan el nmero de guilas. 2.47. De cuntas maneras diferentes una seccin sindical con 25 miembros puede elegir un presidente y un vicepresidente? (600)
2.48. Si un dado se lanza 3 veces consecutivas, Cul es la probabilidad de que salga un 3? 2.49. Se seleccionan 3 cartas, sucesivamente, de un mazo de 52, entonces, encontrar el nmero de resultados si: (a) Hay reemplazo (b) Si no hay reemplazo fila? 2.51. Calcular de cuntas maneras pueden formarse seis personas para subir a un autobs? permutaciones si: (a) Planea visitar todos los estados de la Repblica Mexicana. (b) Planea visitar nicamente los estados que colindan con los Estados Unidos. 2.53. Evaluar los siguientes factoriales: (a) 7! (b) 70!/68!
2-60
(140,608) (132,600)
2.50. De cuntas maneras pueden acomodarse 5 canicas de diferentes colores en una
(720)
2.52. Un candidato presidencial planea hacer campaa poltica. Encontrar el nmero de
(5040) (100)
(c) 10!/0!
(3,628,800)
2.54. Supngase que hay 50 personas compitiendo por 3 rangos diferentes, primero, segundo y tercero. Cul es el nmero de resultados de las 50 personas, si las tomamos 3 a un tiempo (es decir, de 3 en 3)? 2.55. En cierta compaa, 4 escritorios de secretarias se sitan en lnea contra la pared. Cada secretaria puede sentarse en cualquier banco de los escritorios. Cuntos arreglos se pueden hacer para sentar a las secretarias? (24) 2.56. En un almacn hay 5 cajas adyacentes para almacenar 5 objetos diferentes. El depsito de cada objeto puede almacenarse satisfactoriamente en una caja. De cuntas maneras pueden asignarse 5 objetos a 5 cajas? 2.57. Supngase que hay 6 partes diferentes para ser almacenadas, pero solamente, hay 4 cajas disponibles. Cuntas permutaciones son posibles? (360) 2.58. De cuntas maneras diferentes se puede realizar una primera, segunda, tercera o cuarta seleccin entre 12 empresas arrendadoras de equipo de control de contaminacin ambiental? 2.59. Contestar lo siguiente. (a) Cul es el nmero de permutaciones de las letras a, b, c, es decir, tomadas dos a un tiempo? (b)Cules son estas letras? (6) (ab, ba, ac, ca, bc, cb)
2.60. Un mecanismo electrnico de control requiere de 5 chips de memoria idnticos. De cuntas maneras puede inhabilitarse este mecanismo colocando los 5 chips en las 5 posibles posiciones dentro del controlador? 2.61. Se requiere sentar a 5 hombres y 4 mujeres en una fila de tal manera que las mujeres ocupen lugares pares. Cuntos arreglos hay?
2-61
(2880)
2.62. Un aparato de seguridad de un negocio con 10 botones se inhabilita cuando 3
botones diferentes se oprimen en la secuencia apropiada (los botones no pueden oprimirse dos veces). Si el cdigo correcto se olvida, Cul es la probabilidad de desarmar el aparato a travs de oprimir, aleatoriamente, 3 botones? 2.63. Se sacan 2 boletos de la lotera entre 20 posibles para el primero y segundo premios. Cul es la probabilidad de ganar comprando un boleto? (1/380) 2.64. En una carrera de 8 perros se juega un premio de exacta. Si seleccionamos 3 nmeros de perros, cul es la probabilidad de acertar comprando un solo boleto? 2.65. Considrese una carrera de 10 caballos con un premio de exacta para cualquiera que pueda seleccionar el orden exacto y de ganar desde el primero hasta el dcimo lugar. (a) Cuntas permutaciones posibles hay? (b) Cul es la probabilidad de ganar si se compra un solo boleto? (3,628,800) (2.7x10-7) (1/10P3)
(c) Cul es la probabilidad de seleccionar los tres primeros lugares?
2.66. Una prueba se compone de 12 preguntas de falso y verdadero. De cuntas maneras diferentes un estudiante puede marcar el papel con una respuesta para cada pregunta? 2.67. De cuntas maneras pueden 3 focos rojos, 4 focos amarillos y 2 focos azules ser arreglados en un cordn elctrico con 9 portalmparas? 2.68. Cul es el nmero de permutaciones de la palabra "estadstica"? 2.69. Cinco canicas rojas, 2 canicas blancas y 3 azules se arreglan en una fila. Si todas las canicas son del mismo color, y no se puede distinguir una de la otra, cuntos arreglos pueden hacerse? cuartos dobles? Asumir regla de particin.
2-62
(1260)
(2420)
2.70. De cuantas maneras pueden 7 cientficos ser asignados a un cuarto triple y a dos
2.71. De un grupo de 4 qumicos y 3 fsicos, encontrar el nmero de comits que se pueden formar consistentes de 2 qumicos y 1 fsico. Sugerencia: usar un producto de combinaciones. (18) 2.72. Un equipo de colegio juega 12 juegos durante la temporada. De cuntas maneras puede el equipo terminar la temporada con 7 juegos ganados y 3 perdidos? Sugerencia usar la regla de particin de permutaciones. 2.73. Considerar un grupo de 5 personas consistentes de 3 hombres y 2 mujeres, todos pertenecientes a una organizacin. Siendo as, contestar lo siguiente: (a) Cuntos comits de 3 personas pueden formarse de todo el grupo? formados? aleatoriamente, consistieran de 1 hombre y 1 mujer? (10) (20) (6/10) (b) De cuntas maneras pueden las 2 posiciones, presidente y vicepresidente ser (c) Cul es la probabilidad de que un comit de 2 personas seleccionadas, 2.74. Cuntas manos de 5 cartas de flor imperial (la flor imperial consiste de sacar 10, sota, reina, rey, as de un solo palo, es decir, de trboles, corazones, diamantes y espadas) son posibles de una mazo de 52 cartas, en las cuales el orden no es de importancia? 2.75. Si queremos saber la probabilidad de sacar una flor imperial de un mazo de 52 cartas, a sabiendas de que se pueden formar 4 flores imperiales (10, sota, reina, rey, as de cada una de las cuatro formas, es decir, trboles, espadas, diamantes, corazones) entonces, calcular esta probabilidad. (a) Cuntas combinaciones se pueden hacer? (b) Cul es la probabilidad de acertar comprando un solo boleto? (c) Cul es la probabilidad de acertar comprando un milln de boletos?
2-63
(1.54x10-6)
2.76. En la lotera de Texas se juegan 54 nmeros y se seleccionan solamente 6 de ellos.
2.77. Supongamos que de todos los individuos que compran una computadora personal, 60% incluyen un programa de procesador de palabras en su compra, 40% incluye un programa de esparcimiento de hojas (LOTUS) y 30% incluye ambos programas. (a) Cul es la probabilidad de seleccionar un comprador que incluya un programa de procesador de palabras, dado que incluya un programa de LOTUS? Usar un diagrama de Venn. dado que incluya un programa de procesador de (0.75) palabras? (b) Cul es la probabilidad de que un comprador incluya un programa de LOTUS, (0.5) 2.78. Una revista de publicaciones publica tres columnas intituladas Arte (A), Libros (B), Cinema (C). La seleccin aleatoria de un comprador de revistas, con respecto a estas tres columnas se da abajo (elaboracin propia):
Ledas regularmente | Probabilidad
AB .09
AC .08
BC .15
ABC .07
| .15 .24 .47
Calcular y hacer un diagrama de Venn para: (a) La probabilidad de que lea la revista Arte (A), dado que ley la revista Libros (B). (b) La probabilidad de leer la revista Arte (A), dado que ley las revistas Libros (B) y Cinema (C). (c) La probabilidad de leer la revista Arte (A), dado que haya ledo cuando menos una. 2.79. Supongamos que P(A) = .5, P(B) = .4, P(A B) = .25. Hacer los siguientes cmputos y usar un diagrama de Venn. (a) P(B|A) (b) P(B|A)
2-64
(.5) (.5)
(c) P(A|B) (d) P(A|B) (e) P(A B)
(.625) (.375) (.9)
2.80. Una firma de consultora ambiental presenta licitaciones para la construccin de tres proyectos de plantas de tratamiento de aguas residuales. Dejemos A = proyecto i conferido para i = 1, 2, 3. Supngase que: P(A1) = .22 P(A2) = .25 P(A3) = .28 P(A1 A2) = .11 P(A1 A3) = .05 P(A2 A3) = .07 P(A1 A2 A3) = .01 Encontrar: (a) A1 A2 (b) A A2 Sugerencia: usar A A2 = (A1 A2) = 1 - P(A1 A2) (c) A1 A2 A3 (d) A1' A2 A3 Sugerencia: usar 1 - P(A1 A2 A3) 2.81. Considrese un grupo de 5 personas consistentes en 3 hombres y 2 mujeres, todos los cuales pertenecientes a una organizacin. Siendo as, encontrar los siguientes enunciados. (a) Cuntos comits de 3 personas pueden formarse?
2-65
(5C3)
(b) Decir de cuantas maneras pueden formarse las posiciones de presidente y
vicepresidente. mujer. denominacin, que no incluyan del 10 al as? Ver Figura 2.6.
(5P2) ([3C12C1]/5C2)
(c) Decir la probabilidad de que un comit de 2 personas consistirn de 1 hombre y 1 2.82. Cul es la probabilidad de sacar una flor corrida, es decir, 5 cartas de una sola 2.83. En el juego de pquer de 5 cartas, existen un total de 52 cartas que van desde el 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K, As y cada una de estas cartas, tienen 4 figuras, es decir, trboles, diamantes, espadas y corazones. Tomando en consideracin esto, Cul es la probabilidad de sacar una flor imperial, es decir, las cartas 10, J, Q, K, As, de una de las cuatro figuras, es decir, corazones, diamantes, trboles o espadas? Para esto, ver Figura 2.6. (624/2,598,960) 2.84. Cul es la probabilidad de sacar 4 cartas de la misma clase, es decir, un poker? Esto es, cuatro 2, cuatro 3, cuatro 4,cuatro J, cuatro K, cuatro As. Para esto ver Figura 2.6. 2.85. Cul es la probabilidad de sacar una casa llena (full house), es decir, una tercia y un par? (.00144) 2.86. En el juego de barajas, Cul es la probabilidad de sacar una tercia? 2.87. En el juego de naipes, Cul es la probabilidad de sacar un par de un mazo ordinario de 52 cartas? Ver Figura 2.6. (0.42) 2.88. En un estudio de higiene industrial y seguridad, un supervisor de un grupo de 20 trabajadores de la industria desea saber la opinin de ellos, (a los que seleccionar aleatoriamente), sobre cierto reglamento de seguridad relacionado con emisiones de gases dentro de la fbrica. Si 12 de ellos estn a favor del nuevo reglamento y los otros 8 estn en contra, Qu probabilidad hay de que dos trabajadores seleccionados, por el supervisor, se manifiesten en contra del nuevo reglamento de seguridad? Sugerencia:
2-66
usar la regla multiplicativa para eventos independientes, es decir: P(A B) = P(A) P(B). 2.89. Cuatro naipes de un monte de 52 cartas (mazo de cartas americano) se sacan en sucesin (sin reemplazo). Encontrar la probabilidad de que la primera carta sacada sea un as; la segunda carta sacada sea un 8 de diamantes; la tercera carta sacada sea cuando menos una reina y la cuarta carta sacada sea un 6 rojo. Sugerencia: Dejar que P(A) sea la probabilidad de sacar el as, P(B) sea la probabilidad de sacar el 8 de diamantes, P(C) sea la probabilidad de sacar menos una reina y P(D) sea la probabilidad de sacar el 6 rojo. Usar diagramas de Venn para denotar las probabilidades y las intersecciones de las cuatro cartas sacadas. Referirse a la Figura 2.6 de abajo.
Figura 2.6. Diagrama esquemtico mostrando las 52 cartas de juego de barajas. El monte de cartas empieza con el 2 hasta el 10, en cada una de sus denominaciones y termina con cuatro cartas adicionales, que son las sotas, las reinas, los reyes y los ases. Aqu, ntese que, las figuras de diamantes y de corazones son siempre del color rojo y las figuras de trboles y de espadas son siempre de color negro.
2-67
Fuente: http://en.wikipedia.org/wiki/Image:Set_of_playing_cards_52.JPG
Figura 2.7. Diagrama esquemtico de las 52 cartas ilustrando la probabilidad de sacar un As o un Rey. Fuente: Lawrence L. Lapin. Statistics for Modern Business Decision. (1982).
2-68
CAPITULO 3 Distribuciones Binomial e hipergeomtrica

Aplicaciones generales de la distribucin binomial.- Relacin entre la distribucin normal y la distribucin binomial.- Relacin entre la distribucin binomial y la distribucin de Poisson.- La distribucin hipergeomtrica.Suposiciones y propiedades de la distribucin hipergeomtrica.La distribucin binomial es una de las distribuciones de probabilidad discretas ms usadas en estadstica. Se puede considerar como un tipo de anlisis de lgica deductiva, porque va del conjunto o total a la parte. Se deriva de un proceso conocido como ensayos de Bernoulli. Un proceso Bernoulli es un ensayo de algn proceso o experimento que puede resultar en, solamente, uno de dos resultados mutuos excluyentes, es decir, binarios, como por ejemplo, xito y fracaso, donde la probabilidad de xito se denota como p. Tambin el experimento binomial se puede interpretar como una situacin defectuosa o no defectuosa, correcta o incorrecta, presente o ausente, nacimientos de nios o nias, caras o guilas de una moneda, etc. De esta manera, los datos de un proceso binomial (binario) consiste, nicamente, de dos situaciones o resultados. Aplicaciones generales de la distribucin binomial Una de las reas principales de aplicacin de la distribucin binomial es en los campos de la ingeniera industrial, es decir, en procesos industriales, donde el resultado de un proceso es dictomo (proporciones de un objeto defectuoso o no defectuoso, de xito o fracaso, etc.) Tambin se usa en aplicaciones mdicas (curar o no curar) y en aplicaciones militares (pegar o no pegar de un msil). Igualmente,
3-1
se usa para denotar el nmero de herramientas defectuosas producidas por una mquina, etc. La distribucin binomial tambin se puede aplicar a la ingeniera ambiental. Como se dijo antes, los datos del proceso binomial consisten de dos resultados discretos (binarios). Por ejemplo, en un bioensayo, un organismo de prueba est, ya sea vivo o muerto, es decir, despus de ser expuesto a la concentracin de algn desinfectante, en funcin de la concentracin y del tiempo de exposicin. Igualmente, en el caso de una descarga de aguas residuales domsticas o industriales, sta puede o no pueda estar dentro de los lmites estipulados por las leyes ambientales. Anlogmente, se puede aplicar a la ingeniera ambiental en la que una industria cumple o no cumple con las regulaciones ambientales del aire, del agua, de ruido, de contaminacin de tierra, etc. Tambin se puede aplicar a la ingeniera civil en el rea de construccin, etc. Definicin: Un ensayo Bernoulli es un experimento aleatorio que tiene solo dos resultados posibles, es decir, xito o fracaso, donde la probabilidad de xito se denota por p y el fracaso se denota por q = 1 - p. El experimento consiste de n ensayos repetidos donde los ensayos son independientes. De esta manera, si p es la probabilidad de que un evento ocurrir, en un solo ensayo (llamado arbitrariamente xito) y, la relacin q es la probabilidad de que el evento fallar en cualquier ensayo, entonces, la distribucin de probabilidad de la variable aleatoria binomial X, es igual al nmero de ensayos. Es decir, donde el resultado es un xito con parmetros p y n = 1, 2, 3, , n, esto es: P(X) = b(x;n,p) = nCx px qn-x = n!/x!(n x)! px (1 p)n-x Donde: n = seleccin del tamao de la muestra considerada como ensayos independientes (3-1)
3-2
repetidos de Bernoulli (independientes porque no importa cuantas veces se repita el experimento las probabilidades de xito o fracaso permanecen constantes). x = 0, 1, 2, 3,., n o sea el nmero exacto de xitos posibles en n ensayos p = probabilidad de xito
nCx
= n!/x!(n x)! = coeficiente binomial a sea el nmero de combinaciones de n
objetos tomados a un tiempo r q = 1 p = probabilidad de fracaso Es de verse qu, la probabilidad de no xito (o fracaso) es qn, por lo tanto, la probabilidad de cuando menos un xito es 1 - qn. La distribucin de probabilidad discreta Bernoulli a veces se le llama distribucin binomial porque los valores de la variable aleatoria X pueden ser x = 0, 1, 2, 3,., n que corresponden a trminos sucesivos de la frmula binomial o expansin binomial. Esto quiere decir que, la distribucin binomial deriva su nombre del hecho de que los trminos n + 1 en la expansin binomial de la funcin (q + p)n corresponde a varios valores de b(x;n,p), para x = 0, 1, 2, 3,., n. As, la expansin binomial es: (q + p)n = qn + nC1 qn-1 p + nC2 qn-2 p2 + .. + pn Donde:
nC1, nC2,
(3-2)
se llaman los coeficientes binomiales
Los coeficientes binomiales se pueden estimar usando el tringulo de Pascal que se da abajo.
3-3
Figura 3.0. Tringulo de Pascal que se usa para estimar los coeficientes binomiales. En este tringulo se nota que, el primero y el ltimo nmero de cada rengln es 1. Adems, cada otro nmero en cada ordenacin puede obtenerse por medio de sumar los dos nmeros que aparecen directamente arriba. (Elaboracin propia)
3-4
Figura 3.1. Grficas mostrando varias distribuciones binomiales en funcin de p y de n. La distribucin binomial es realmente una familia de distribuciones. Cada valor diferente de n o de p especifica una distribucin diferente. Las figuras de arriba muestran, como la distribucin binomial vara para diferentes valores de p y de n (donde p es la probabilidad de xito y q es la probabilidad de fracaso y, donde en n repeticiones de un ensayo de Bernoulli, el nmero de xitos posibles es 0, 1, 2,, n). Sin embargo, sin importar el valor de n, la distribucin binomial es simtrica cuando p = 0.5. Pero, cuando p > 0.5, la distribucin es asimtrica y el pico ocurre a la derecha del centro. Tambin, cuando p < 0.5 la distribucin es asimtrica y el pico ocurre a la izquierda del centro. (Elaboracin propia)
3-5
TABLA 3.0. Tabla mostrando algunas propiedades de la distribucin Binomial. (Elaboracin propia) Promedio Varianza Desviacin estndar = np = np 2 = npq npq =
Relacin entre la distribucin binomial y la distribucin normal La distribucin binomial se puede aproximar por la distribucin normal cuando n es grande y, cuando ni p ni tampoco q estn muy cercanas a cero. Esto se debe a que, el modelo binomial es inapropiado cuando n es extremadamente grande. Afortunadamente, la aproximacin normal es ms eficaz a medida que n aumenta. En la prctica, la aproximacin de la distribucin binomial usando la distribucin normal es adecuada siempre y cuando np 10 y nq 10. Entonces, si np < 10 o nq < 10, la distribucin binomial est demasiado sesgada, para dar aproximaciones satisfactorias, como con la curva normal que es simtrica. Para hacer las aproximaciones de la binomial usando la distribucin normal es con la variable aleatoria estandarizada dada abajo.
Z = (X np) / npq
es decir o sea =
Z = (X ) /
npq
(3-3)
Donde: np = y npq = 2
Relacin entre la distribucin binomial y la distribucin de Poisson Con la distribucin binomial, si n es grande (n 50 ensayos de Bernoulli) y si el promedio = np < 5 (p cercana a cero y q cercana a 1) en semejantes casos, la
3-6
distribucin binomial est muy cercana a la distribucin de Poisson. Ejemplos de problemas relacionados con la distribucin binomial o distribucin Bernoulli Ejemplo #1. Calcular las siguientes probabilidades binomiales directamente de la frmula, para b(x;n,p) (a) B(3;8,.6)* (b) B(5;8,.6) (c) P(3 X 5) cuando n = 8 y p = .6 (d) P(1 X) cuando n = 12 y p = .1 (e) b(x;8,0.6)* donde x = 0 *Ntese la diferencia entre el uso de la letra mayscula B y la minscula b Solucin: (a) B(3;8,0.6) dice que queremos X = 3, n = 8, p = .6 P(X = 3) = 8!/3!(8 3)! (0.6)3 (1 0.6)8-3 = 0.124 Anlogamente, usando la tabla binomial de probabilidades individuales: B(3;8,0.6) = 0.124 Igualmente, usando la frmula da:
nCx
px qn-x = 8C3 (0.6)3 (0.4)8-3 = (56)(0.216)(0.01) = 0.124
(c) P(3 X 5) = B(5;8,0.6) B(3;8,0.6) = 0.279 0.124 = 0.155 Donde:
3-7
B(5;8,0.6) = 0.279 (usando la tabla binomial de probabilidades individuales) = nCx px qn-x = 8C5 (0.6)5 (0.4)8-5 = (56)(0.078)(0.064) = 0.279 (usando la frmula) (d) P(X 1) con n = 12 y p = 0.1. Esto dice que queremos: P(X 1) = 1 P(X < 1) = 1 P(X = 0) = 1 0.001 = 0.999 (usando la tabla de probabilidades individuales) P(X 1) = 1 P(X = 0) = 1 - nCx px qn-x = 1 - 8C0 (0.6)0 (0.4)8-0 = 1 - (1)(1)(0.0007) = 0.9993 (usando la frmula) Ejemplo #2. Hacer los mismos problemas del inciso #1 pero ahora usando la tabla de la distribucin binomial. Comparar los resultados. El lector lo deber hacer. Ejemplo #3. Usando la tabla de la distribucin binomial estimar: (a) B(4;10,0.3) (b) B(6;10,0.7) Solucin: (a) B(4;10,0.3) dice que usamos b(x;n,p), donde x = 4, n = 10 y p = 0.3. Entonces, P(X = 4) = B(4;10,0.3). Para esto, buscamos en la tabla de la distribucin binomial de probabilidades individuales el valor de n = 10, = p = .300 y x = a = 4 y nos da 0.200. Por lo tanto, P(X = 4) = B(4;10,0.3) = 0.200 Ntese que aqu tambin se puede usar la frmula binomial (3-1), es decir, P(X) = b(x;n,p) = nCx px qn-x = n!/x!(n x)! px (1 p)n-x y da el mismo resultado.
3-8
(b) Para este inciso se procede en forma similar. Ejemplo #4. Una moneda honesta se lanza 6 veces (que es lo mismo que lanzar seis monedas a la vez). Llamemos las caras un xito. Calcular las siguientes probabilidades: (a) La probabilidad de que salgan exactamente 2 caras (b) La probabilidad de que salgan cuando menos 4 caras (c) La probabilidad de no caras, es decir, todos fracasos Solucin: (a) Aqu usamos la frmula de la distribucin binomial: P(X) = b(x;n,p) = nCx px qn-x Donde:
nCx
= coeficiente binomial = n! / x!(n - x)!
n = nmero de ensayos p = probabilidad de que el evento ocurra en un solo ensayo q = 1 p = probabilidad de que el evento falle (fracaso) x = la probabilidad de que el evento ocurra en 0, 1, 2, , n nmero de xitos posibles Ntese que la probabilidad de no xitos es qn, por lo tanto, la probabilidad de cuando menos un xito es 1 - qn Aqu n = 6, p = 0.5, q = 1 - 0.5 = 0.5. Entonces, la probabilidad de que salgan exactamente 2 caras es: P(X = 2) = B(2;6,0.5) = 6C2 (0.5)2 (0.5)6-2 = 15/64 (b) La probabilidad de que salgan cuando menos 4 caras (X 4) es: P(X = 4 o 5 o 6) = B(4;6,0.5) + B(5;6,0.5) + B(6;6,0.5) = 6C4(0.5)4 (0.5)6-4 + 6C5 (0.5)5 (0.5)6-5 + 6C6 (0.5)6 (0.5)6-6
3-9
= 11/32 Ejemplo #5. En un estudio de toxicologa, la probabilidad de que un enfermo se recupere de una intoxicacin es de 0.4. Si se sabe que una muestra de 15 personas se ha intoxicado, calcular las siguientes probabilidades: (a) La probabilidad de cuando menos 10 personas sobrevivan. (b) La probabilidad de que de 3 a 8 personas (inclusivamente) intoxicadas sobrevivan. (c) La probabilidad de que exactamente 5 personas intoxicadas sobrevivan. Solucin: (a) Dejemos que X sea el nmero de intoxicados que sobrevivan. Aqu, el trmino cuando menos 10 significa que el valor de la variable aleatoria es X 10. Tambin sabemos que la muestra es n = 15. Aqu, pudiramos usar la expresin binomial b(x;n,p) = nCx px qn-x y sustituir los valores de x = 10, 11, 12, 13, 14, 15 en la frmula de abajo, y luego sumar todos los resultados usando la expresin de abajo. b(x;15,0.4) = 15Cx (0.4)x (0.6)15-x Sin embargo, este procedimiento sera muy largo y tedioso. Siendo as, esto se simplifica mucho si tomamos el complemento de la probabilidad de 1 (acordndose de que la probabilidad no puede ser mayor que 1 o negativa) y usando la tabla de la distribucin binomial. P(X 10) = 1 P(X < 10). Esto dice que x = 0, 1, 2, 3,.., 9 = 1 - b(x;15,0.4) = 1 0.9662
x=0 9
= 0.0338 (usando la tabla de la distribucin binomial) El valor de 0.9662 se saca de la tabla binomial, buscando el valor de n = 15, x = 9
3-10
y p = 0.4. Esto se lee como 0.9662. (b) Este problema dice que, la probabilidad de que se recuperen entre 3 y 8 intoxicados, inclusivamente, es lo mismo que decir, P(3 X 8). Esto quiere decir que los valores de la variable aleatoria son x = 3, 4, 5, 6, 7, 8. Nuevamente, si no usamos la tabla binomial, el procedimiento es muy largo. Por esto vamos a razonar como sigue: P(3 X 8) = b(x;15,0.4) - b(x;15,0.4)
x=0 x=0 8 2
= P(X 8) P(X 2) = 0.9050 0.0271 = 0.8779 (usando la tabla de la distribucin binomial) (c) La probabilidad de que exactamente 5 intoxicados sobrevivan es de x = 5, n = 15, p = 0.4. Esto se puede hacer de tres maneras: usando la tabla de las probabilidades individuales (la forma ms sencilla) o la tabla acumulada o, bien, la frmula. Usando la tabla binomial individual, buscamos el valor de n = 15 con p = 0.4 y con x = 5 y da 0.186. P(X = 5) = B(5;15,0.4) = b(x;15,0.4) - b(x;15,0.4)
x=0 x=0 5 4
= 0.4032 0.2173 = 0.1859 Si usamos la frmula sera largo y tedioso, como se ve abajo. P(X = 5) = B(5;15,0.4) = 15C5 (0.4)5 (0.6)15-5 = 15!/5!(15-5)! (0.0041)(0.6)10 = 0.1859 Ejemplo #6. Si el 20% de los tornillos producidos por una mquina son
3-11
defectuosos, determinar la probabilidad que de 4 tornillos seleccionados aleatoriamente: (a) Uno estar defectuoso (b) Ninguno estar defectuoso (c) A lo ms 2 estarn defectuosos (d) Cuando menos uno estar defectuoso Solucin: (a) Aqu, x = 1, n = 4, p = 0.20, q = 0.80 P(X = 1) = 4C1 (0.2)1 (0.8)4-1 = 0.4096 (b) P(X = 0) = 4C0 (0.2)0 (0.8)4-0 = 0.4096 (c) Aqu, el trmino a lo ms 2 significa X 2, lo cual quiere decir que queremos encontrar P(X = 0 o 1 o 2). Entonces: P(X 2) = P(0) + P(1) + P(2) = 0.4096 + 0.4096 + 0.1536 (de la tabla de probabilidades binomiales individuales) = 0.9728 Aqu, tambin se puede usar P(X 2) = .974 (de la tabla acumulada) (d) El trmino cuando menos 1 significa X 1, lo cual quiere decir que x = 1, 2, 3, 4. Entonces queremos calcular P(3) y P(4) porque ya calculamos P(1) y P(2). Otro razonamiento sera el de calcular la probabilidad de que X = 4, menos la probabilidad de X = 0. Para esto, usamos la tabla binomial acumulada buscando n = 4, p = 0.2 y X = 4 y le restamos n = 4, p = 0.2 y X = 0. Es decir: P(X = 4) P(X = 0) = P(X 4) P(X 0) = 1 0.41
3-12
= 0.59 Ejemplos aplicados a la ingeniera ambiental Ejemplo #7. Supngase que el 40% de los ros de cierta regin industrial de Mxico estn contaminados con benceno. Si tomamos una muestra aleatoria de tamao n = 30, calcular lo siguiente: (a) Exactamente 15 ros estarn contaminados con benceno (b) Cuando menos 15 ros estarn contaminados con este compuesto orgnico cancergeno, de una muestra de n = 25. (c) No ms de 10 ros, pero cuando menos de 5 ros estarn contaminados de una muestra aleatoria de n = 25. Solucin: Usamos la distribucin binomial, porque son dos eventos mutuos excluyentes o binarios, es decir, estn o no estn contaminados los ros. Entonces, llamemos arbitrariamente, un xito encontrar un ro contaminado y, un fracaso, no encontrar un ro contaminado. Se usa la frmula binomial expresada como: b(x;n,p) = nCx px (1 p)n-x = n! / (n x)! px qn-x (a) Aqu, n = 30, x = 15, p = 0.40, q = 0.60. La muestra de 30 se puede interpretar como 30 ensayos repetidos de Bernoulli. Ahora, sustituyendo los valores en la frmula de arriba da: B(15;30,0.40) = P(X = 15) = 30! / (30 15)! (0.4)15(0.6)30-15 = 0.073 Tambin se pudiera usar la tabla de la distribucin binomial de densidad de probabilidad o de probabilidades individuales, que son ms precisas y ms fciles de usar que la frmula. Siendo as, con n = 30 y p = 0.4:
3-13
P(X = 15)= 0.0783 0.08 El valor de 0.078 0.08 dice que hay cerca de 8 posibilidades entre 100 de seleccionar una muestra de 30 ros que estn contaminados con benceno. Aqu se ve que, a medida que aumenta n, la probabilidad de xito tambin aumenta. (b) Cuando menos 15 indica X 15 y n = 25, p = 0.4 y q = 0.60 Aqu el espacio muestral es de: x = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, , 24, es decir, de 25 ensayos de Bernoulli. B(15;25,0.4) = P(X 15) = 1 P(X < 15) = 1 P(X 14) = 1 - B(14;25,0.4) = 1 - .966 = 0.034
x=0 14
(c) Aqu, P(5 X 10) = P(X 10) P(X 4) Ejemplo #8. En un estudio de laboratorio bacteriolgico de aguas se afirma que, el 3.0% de las tomas domiciliarias contienen la bacteria E. Coli, en concentraciones arriba del lmite estipulado por las leyes ambientales. Si esta afirmacin es correcta, encontrar la probabilidad de que, el nmero de bacterias E. coli, en una muestra aleatoria de 25 tomas domiciliarias, se encontrar: (a) Ninguna bacteria (b) Cuando menos 1 bacteria (c) Entre 1 y 5 incluso (d) Ms de 5 bacterias (e) Ms de 5, pero menos de 10 bacterias Solucin: Usamos la distribucin binomial, porque son dos eventos mutuos excluyentes o binarios; se contiene la bacteria (llamndola xito arbitrariamente) o no se contiene
3-14
la bacteria (fracaso). (a) Aqu, n = 25, p = .03, q = .97, X = 0 El tamao de muestra n = 25 indica que son 25 ensayos repetidos de Bernoulli, es decir, que los posibles valores de la variable aleatoria X son de x = 0, 1, 2, 3, 4,., 24. Entonces, (b) Cuando menos 1 bacteria indica X 1 y se expresa como: P(X 1) = 1 P(X = 0) = 1 P(X < 1) = 1 0.4670 = 0.533 (c) Entre 1 y 5 incluso se expresa como: P(1 X 5) = B(5;25,0.03) P(X < 1) = 0.9999 0.467 = .533
x=0
Ejemplo #9. En un ro adyacente a una zona industrial, la probabilidad de cada muestra de agua sacada del ro exceda el lmite de cromo de 10 mg/L, es de 0.10. Si se supone qu, las muestras de agua son independientes con respecto a la presencia de cromo, entonces: (a) Encontrar la probabilidad de que en una muestra de tamao n = 18, exactamente, 2 excedan el lmite de 10 mg/L de cromo. (b) Encontrar la probabilidad de que al menos 4 muestras excedan el lmite. (c) Encontrar la probabilidad de que cuando menos 3 muestras, pero menos de 7 excedan el lmite estipulado. (d) Encontrar la probabilidad de que ms de 3 muestras, pero menos de 7 excedan el lmite estipulado de cromo. Solucin: (a) Dejemos que X = nmero de muestras de agua que excedan el lmite estipulado
3-15
de 10 mg/L del total de las 18 observaciones. Entonces, X es una variable aleatoria binomial con p = 0.1 y n = 18. Por consiguiente, usando la frmula binomial b(x;n,p) = nCx px qn-x y sustituyendo los valores correspondientes da: B(2;18,0.1) = P(X = 2) = 18! / 2!(18 2)! (0.1)2 (0.9)18-2 = (153)(0.01)(0.1853) = 0.284 (b) P(X 4) = 18Cx (0.1) x (0.9)18-x Usando este enfoque, tendramos que sustituir los valores de x = 4, 5, 6, 7,, 18 en la frmula de arriba y luego sumarlos. Tambin pudiramos usar la tabla binomial de probabilidades individuales o de probabilidad de funcin de masa o funcin acumulada y, luego, sumar los resultados. (Cul es la diferencia en usar la tabla acumulada y la individual?). De cualquier manera, es mucho ms fcil usar el evento complementario, ya sea usando la expresin de abajo o bien, la tabla binomial. P(X 4) = 1 P(X < 4) = 1 P(X 3) = 1 - 18Cx (0.1)x (0.9)18-x
x=0 3
= 1 (0.15 + 0.30 + 0.284 + 0.168) = 1 0.902 = 0.098 Ahora, si usamos la tabla binomial acumulada, buscamos el valor de n = 18, con X = 3 y p = 0.1, para sacar el factor P(X < 4) y da .902. Por lo tanto, P(X 4) = 1 - .902 = 0.098 (c) Aqu estamos buscando P(3 X < 7). Esto nos lleva a: P(3 X < 7) = 18Cx (0.1)x (0.9)18-x
x=3 6
3-16
= 0.168 + 0.07 + 0.022 + 0.005 = 0.265 Otro razonamiento sera como sigue: x = 0, 1, 2, 3, 4, 5, 6,18 P(X 6) P(X 3), es decir, para los valores de X = 3, 4, 5, 6 Aqu, nuevamente, podemos usar la tabla binomial de probabilidades individuales y sumar las cuatro probabilidades de x = 3, 4, 5, 6. Tambin se puede usar la tabla binomial acumulada, es decir, buscando n = 18, p = 0.1, y X = 6 y, luego, restndole el valor de X = 3. (d) P(3 < X < 7) = 18Cx (0.1)x (0.9)18-x
x=4 6
Ejemplo #10. En una investigacin de contaminacin ambiental se estudiaron cientos de industrias. Sea X el nmero de industrias que no cumplen con las regulaciones ambientales del aire y del agua de una muestra al azar de 10 industrias. Si se sabe que el valor de la probabilidad es de p = 0.5, calcular las siguientes probabilidades. (a) La probabilidad de que, exactamente, 5 industrias cumplan con los lmites ambientales. (b) La probabilidad de que no ms de 2, cumplan con el reglamento. (c) La probabilidad de que cuando menos 9, lo cumplan. (d) La probabilidad de que menos de 5 industrias cumplan, pero cuando menos 3 si lo cumplan. Solucin: (a) P(X = 5) = B(5;10,0.5) = 0.246 (usando la tabla binomial) (b) P(X 2) = 0.055 (usando la tabla binomial)
3-17
(c) P(X 9) = 1 - .989 = 0.011 (d) P(3 X < 5) = P(4) + P(3) = .205 + 0.117 = .322 (de la tabla binomial individual) Ejemplo #11. Este problema ilustra el uso de la distribucin binomial y su aproximacin con la distribucin normal. Resulta qu, la distribucin normal, con = np y 2 = npq proporciona una buena aproximacin a la binomial cuando n y, cuando p se aproxima a 0 o a 1. As, supngase que n = 15, p = 0.4 y queremos encontrar P(X = 4). Para esto usar la distribucin binomial y la distribucin normal como una aproximacin a esta ltima. Comparar los resultados. Solucin: Usando la distribucin binomial estimamos el promedio, es decir, = np = (15)(0.4) = 6 y la varianza, 2 = npq = (15)(0.4)(0.6) = 3.6, la cual da una desviacin estndar de = 1.897. Enseguida, usando la distribucin binomial acumulada da: b(x;n,p) = P(X = 4) = B(4;15,0.4) - B(3;15,0.4) = P(X 4) P(X 3) = .217 - .091 = .126 Que es lo mismo que usar la frmula o la distribucin de probabilidades individuales, es decir: P(X = 4) = 15C4 (0.4)4 (0.6)15-4 = 0.1258 Aqu, se ve qu, usando la tabla binomial de probabilidades individuales se lee directamente con n = 15 y p = 0.4 y da 0.126 Ahora bien, usando la distribucin normal, como una aproximacin, usamos la
3-18
variable aleatoria normal estndar poblacional Z, es decir: Z = (X ) / y su estimador muestral z = (X X ) / s Sin embargo, la variable aleatoria discreta de X = 4, en forma de variable aleatoria continua, est entre 3.5 y 4.5. Adems, con = 6 y = 1.897 hacemos la transformacin usando la variable aleatoria normal estndar Z. Z3.5 = (3.5 6) / 1.897 = - 1.32 Z4.5 = (4.5 6) / 1.897 = - 0.79 De manera que, P(X = 4) = P(-1.32 < Z < -0.79) = 0.2148 0.0934 (de la tabla de z) = 0.1214 Finalmente, el valor de 0.1214 est bastante de acuerdo con el valor de 0.1258 obtenido con la distribucin binomial. Ejemplo #12. Supngase que se tiene una muestra de 20 casos de mediciones de anlisis de demanda bioqumica de oxgeno (DBO5) provenientes de un muestreo de un ro, procedentes de 20 lugares diferentes a lo largo de su trayectoria. Si se sabe que, la probabilidad de que la concentracin de la demanda bioqumica de oxgeno de 5 (DBO5) das est dentro de los lmites estipulados por las leyes ambientales es de p = 0.6 (xito), hacer los siguientes clculos: (a) Calcular el promedio y la desviacin estndar de la variable aleatoria X binomial. (b) Usando la distribucin binomial calcular la probabilidad de que exactamente 10 casos de DBO estn dentro del lmite estipulado. (c) Hacer los mismo que en el inciso (b) pero usando la distribucin normal. (d) Hacer una tabla de los valores de la variable aleatoria X correspondientes a x = 0, 1, 2, 3, 4,,19 en funcin de n = 20 y p = 0.6 usando la frmula y la tabla
3-19
binomial. Calcular tambin la probabilidad acumulada. (e) Hacer un histograma de probabilidades binomiales para el tamao de la muestra n = 20 y p = 0.6 con una curva normal sobrepuesta. (f) Calcular P(X 5), P(X 12) y P(X 12) usando, ambas la distribucin binomial y la distribucin normal como aproximacin a esta ltima. Solucin: (a) El promedio, la varianza y la desviacin estndar binomiales son: Promedio = = np = (20)(0.6) = 12 Varianza = 2 = npq = (0.4) = 4.8 Desviacin estndar = = 2 = 2.19 (b) Aqu, la aproximacin de la distribucin binomial a la distribucin normal es buena, porque np = (20)(0.6) 10 y nq = (20)(0.4) 10. Para calcular la probabilidad de qu, exactamente, 10 casos estn dentro de las normas estipuladas se hace usando la distribucin binomial con los valores n = 20, p = 0.6 y q = 1 p = 1 0.6 = 0.4. Ahora, sustituyendo los valores en la frmula binomial nos da: b(x;n,p) = nCx px qn-x para x = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 19 B(10;20,0.6) = 20C10 (0.60)10 (0.4)20-10 = 0.1162 Sin embargo, usando la tabla binomial de probabilidades acumuladas nos da la probabilidad individual: P(X = 10) = .2447 - .1275 = .1172 Tambin, usando la tabla binomial de probabilidades de funcin de masa con n = 20, = .600 y a = 10 da un valor de 0.117. Como se ve arriba, el uso de la frmula binomial es largo y tedioso. Sin embargo, si usamos la tabla de las probabilidades binomiales individuales o de
3-20
funcin de masa o, bien, la tabla de probabilidades acumuladas, los clculos se simplifican de sobremanera. (c) Ahora, usando la distribucin normal con variables aleatorias continuas, nos da: (9.5 X 10.5) o sea P(-1.14 Z -.68). Esto se calcula usando la variable aleatoria estandarizada Z, es decir, Z = (X ) / donde X = 9.5 y 10.5, = 12, s = = 2.19 Z9.5 = (9.5 12) / 2.19 = - 1.14 Z10.5 = (10.5 12) / 2.19 = - 0.68 Enseguida, usando la tabla de la distribucin normal razonamos como: P(-1.14 Z -.68) = P(Z = -.68) P(Z = -1.14) = (0.2483 0.1271) = .1212 Al comparar los dos resultados vemos que la distribucin binomial da 0.1172 y la distribucin normal da 0.1212. Esta aproximacin sera mejor a medida que n fuera ms grande. (d) Para hacer una tabla con todas las probabilidades correspondientes a x = 0, 1, 2, 3, 4,, 19. (Ver TABLA 3.1 de abajo).
3-21
TABLA 3.1. Tabla mostrando las probabilidades individuales y acumuladas con n igual a 20 y p igual a 0.6. (Elaboracin propia) Valor de la variable aleatoria X 0 1 2 3 4 5 6 7 8 9 10 11
X = = 12 (promedio)
P(X) individual 0.000 0.000 0.000 0.000 0.000 0.002 0.004 0.015 0.036 0.071 0.117 0.159 0.180 0.124 0.075 0.035 0.003 0.000
P(X) acumulada 0.000 0.000 0.000 0.000 0.000 0.002 0.006 0.021 0.057 0.128 0.245 0.404 0.584* 0.974 0.949 0.984 0.999 1.000
14 15 16 18 20
El asterisco (*) seala la localizacin del promedio. (e) Para este inciso la Figura 3.2 e abajo muestra un histograma de probabilidad
3-22
binomial para n = 20, p = 0.6, = 12 y = 2.19, con curva normal de aproximacin sobrepuesta. Aqu, se ve que, aun cuando el histograma de probabilidad est un poco sesgado hacia la izquierda, porque p > .6. La curva normal da muy buena aproximacin a la binomial.
Figura 3.2. Grfica mostrando un histograma de probabilidad binomial para n = 20, p = 0.6, = 12 y = 2.19, con curva normal de aproximacin sobrepuesta. Aqu, se ve claramente, qu, aun cuando el histograma de probabilidad est un poco sesgado hacia la izquierda, (porque p > .6), la curva normal da muy buena aproximacin a la binomial. (Elaboracin propia) (f) Para calcular los valores de abajo usando la distribucin binomial y la normal, se procede como: 1. P(X 5) 2. P(X 12) 3. P(X 12) Usando la tabla de la distribucin binomial con n = 20, p = 0.6 y q = 0.4 da los siguientes resultados.
3-23
Para: P(X 5) = .002 Para: P(X 12) = 1 P(X < 12) = 1 - .404 = .596 Nota: Para P(X 12) porqu el valor obtenido no se aproxim a .5? Para contestar esta pregunta refirase a la Figura 3.2 de arriba. Para: P(X 12) = 1 P(X > 12) = .596 Ahora, para calcular los valores de arriba usando la distribucin normal, como una aproximacin a la binomial, para cada uno de las preguntas P(X 5), P(X 12) y P(X 12) necesitamos convertir las variable aleatorias discretas a las variables aleatorias normales Z usando la variable aleatoria estandarizada Z con = 12 y = 2.19 y luego buscar el valor de Z en la tabla de la distribucin normal y calcular la probabilidad correspondiente. Usando la funcin Z = (X )/ y estandarizando nos da: Z5 = (5 12)/2.19 = - 3.197 Ahora usando la tabla de la distribucin normal buscamos z = -3.197 y da .0007, o sea .001. Similarmente, con P(X 12) convertimos X = 12 a valores de Z con = 12 y = 2.19 y da: Z = (12 12)/2.19 = 0 Que corresponde a una probabilidad de .5000. La misma situacin ocurrira con P(X 12) (Que tambin se puede leer de la grfica). Ejemplo #13. Si en la fabricacin de accesorios para un sistema de control de partculas (cicln) se asocia con un proceso Bernoulli, con un promedio de partes defectuosas de 0.20, estimar la probabilidad: (a) De no encontrar partes defectuosas del sistema de control de una muestra
3-24
aleatoria de 10 partes. (b) De no encontrar partes defectuosas de los ciclones fabricados de una muestra de 20 partes. Solucin: (a) Usando la frmula binomial: b(x;n,p) = nCx px qn-x y sustituyendo X = 0, p = 0.2 y q = 0.8 nos da: P(X = 0) = B(0;10,0.2) = 10C0 (0.2)0 (0.8)10-0 = 0.107 Este resultado tambin se puede obtener usando la tabla binomial de probabilidades individuales o de funcin de masa, es decir, buscando n = 10, p = 0.2 y X = 0. (b) Nuevamente usando la frmula binomial y sustituyendo da: P(X = 0) = B(0;20,0.2)= 20C0 (0.2)0 (0.8)20-0 = (1)(1)(0.012) = 0.012 Anlogamente, este mismo resultado se puede obtener usando la tabla binomial acumulada buscando n = 20, p = 0.2 y X = 0 y da 0.012. Aqu, ntese que tambin se obtiene el mismo resultado usando la tabla binomial de probabilidades individuales. Ejemplo #14. Si tenemos una muestra aleatoria de n = 20 (peces) para varios valores de p, podemos estimar la probabilidad de X muertes de los organismos sometindolos a ciertas concentraciones txicas provenientes de una descarga industrial de un ro. Para esto hacer los siguientes clculos: (a) Calcular el promedio y la desviacin estndar , de la muerte de los peces, si el valor de p = 0.05 (b) La probabilidad de que muera a lo ms 1 organismo
3-25
(c) La probabilidad de que no muera ningn organismo (d) La probabilidad de que mueran cuando menos 3 organismos (e) La probabilidad de P(X = 10) Solucin: (a) Promedio = X = = np = (20)(.05) = 1.0. Desviacin estndar = = npq = (1.0)(.95) = .95 (b) P(X 1) = .736 (c) P(X = 0) = .358 (d) P(X 3) = 1 - P(X < 3) = 1 - .9245 = .0755 (e) P(X = 10) = 1.0 Ejemplo #15. La posibilidad de que una muestra de aire contenga un microorganismo letal es de 10%. Suponiendo que las muestras son independientes, con respecto a la presencia del microorganismo, encontrar la probabilidad de que: (a) En las 18 siguientes, exactamente 2 contengan el germen. (b) Al menos 4 muestras contengan el germen. (c) La probabilidad de que menos de 7 muestras de aire contengan el germen, pero cuando menos 3 muestras tambin lo tengan, e.g., P(3 X < 7). Solucin: (a) Sea X el nmero de muestras de aire que contengan el germen patgeno en las 18 muestras siguientes analizadas. Entonces, X es una variable aleatoria binomial, con p = 0.1 y n = 18. Por consiguiente: P(X = 2) = B(2;18,0.1) = 18C2 (0.1)2 (0.9)16 = 0.284 (b) P(X 4) = 18Cx (0.1)x (0.9)18-x, donde 18Cx = 18!/x!(18 x)!
x=0 18
Aqu, sin embargo, es ms fcil usar el evento complementario.
3-26
P(X 4) = 1 P(X < 4) = 1 18CX (0.1)x (0.9)18-x

x=0 3
= 1 (0.15 + 0.300 + 0.284 + 0.168) = 0.098 (c) P(3 X < 7) = 18Cx (0.1)x (0.9)18-x
x=3 6
= 0.168 + 0.07 + 0.022 + 0.005 = 0.265 Tambin, P(X 6) P(X 2) = .9983 - .7338 = .2645 Ejemplo #16. En un estudio de higiene industrial y seguridad llevado a cabo en muchas maquiladoras industriales, supngase que hay una poblacin grande de tomadores de licor y otra poblacin de abstemios. En este caso, la probabilidad de xito o de tomadores se asume que es p igual a 0.4 y, la probabilidad de abstemios (probabilidad de fracaso) es de q igual a 0.6. Si sacamos una muestra al azar de n = 10 operadores de la maquiladora, entonces, el nmero de la variable aleatoria de X tomadores de licor es de x = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, siendo as: (a) Preparar una tabla mostrando las probabilidades individuales y valores de X. (b) Preparar una grfica en funcin de probabilidades binomiales individuales en la ordenada y de x en la abscisa, donde las barras indiquen la probabilidad de funcin de masa P(X = x). (c) Calcular el promedio y la varianza de esta distribucin. (d) De la grfica leer todas las probabilidades P(X = x). (e) Estimar P(X = 4) e interpretar el resultado
3-27
Solucin: (a) La tabla de probabilidades individuales, con n = 10 y p = 0.4 se da en la TABLA 3.2 de abajo. Esto se hace con el programa Minitab. El procedimiento para generar las probabilidades de funcin de masa P(X=x) es: Calc Probability distributions Binomial En la ventana de Binomial Distribution puntear Probability e introducir el nmero de ensayos (10) y la probabilidad de xito (0.4). Adems, puntear Input column, introducir los valores de X, y en la ventanilla de Optional storage poner P(X=x) y luego OK. Todas estas ordenes generan la los valores de la TABLA 3.2. TABLA 3.2. Tabla mostrando las probabilidades binomiales individuales vs. valores de X. __________________________________ P(X=x) Variable aleatoria X __________________________________ 0.006047 0 0.040311 1 0.120932 2 0.214991 3 0.250823 4 0.200658 5 0.111477 6 0.042467 7 0.010617 8 0.001573 9 0.000105 10 _________________________________ (b) Para hacer la grfica de P(X=x) vs. valores de X usar el programa Minitab y proceder de la siguiente manera: Irse a: Graph Scatterplot. En la ventana de Scatterplot que aparece, irse a With Connect Line e introducir los valores de P(X=x) y valores de la variable aleatoria X. En la ventana de Scatterplot Data
3-28
View puntear Symbols y Project Lines y OK. Esto genera la grfica de las probabilidades binomiales de funcin de masa P(X=x), en funcin de los valores de la variable X mostrada abajo. Siendo as, analizar la configuracin de los resultados de la grafica y decir si es oblicua a la derecha o a la izquierda y explicar porque ocurre de esa manera. La grfica se muestra abajo.
Grafica de P(X=x) vs. variable aleatoria X

0 0.25 0.20 0.15 0.10 0.05 0.00 0 2 4 6 Variable aleatoria X 8 10 2 4 6 8 10 0.25 0.20 0.15 0.10 0.05 0.00
Figura 3.3. Grfica mostrando P(X = x) en funcin de X. Aqu, debido a que p = 0.4 < 0.5, la distribucin es oblicua hacia la derecha. (Elaboracin propia) (c) El promedio , la varianza 2 y la desviacin estndar de esta distribucin son: = np = (10)(0.4) = 4.0, 2 = npq = (10)(0.4)(0.6) = 2.4, = 2.4 = 1.555 (d) De la Figura 3.3 se pueden leer todas las probabilidades P(X = x) mostradas en la TABLA 3.3 y tambin usando la TABLA 3.2.
P(X=x)
3-29
TABLA 3.3. Tabla mostrando los valores de la variable aleatoria X para este problema. (Elaboracin propia) P(X = 0) = 0.0060 P(X = 1) = 0.0403 P(X = 2) = 0.1209 P(X = 3) = 0.2150 P(X = 4) = 0.2508 P(X = 5) = 0.2006 P(X = 6) = 0.1115 P(X = 7) = 0.0425 P(X = 8) = 0.0106 P(X = 9) = 0.9916 P(X = 10) = 0.0001
(e) P(X = 4) = 0.2508 dice qu, si seleccionramos 100 muestras de tamao n = 10, de una poblacin de operadores de la industria maquiladora esperaramos que 25 de estas muestras tendran un valor de X = 4 tomadores de licor. Ejemplo #17. La paraestatal PEMEX de Mxico se avoc a hacer perforaciones en el sureste de Tabasco. Para ver la factibilidad financiera de que fuera conveniente hacer las perforaciones, PEMEX contrat los servicios de una firma de estudios estadsticos. Se sabe que, cada pozo perforado se clasifica como productivo o no productivo. La experiencia de PEMEX es que, en este tipo de exploraciones, se sabe por experiencia que, el 15% de los pozos perforados son productivos. Para las exploraciones petroleras se seleccionaron aleatoriamente 12 sitios. Con esta informacin en mente, hacer los siguientes clculos. (a) Cul es la probabilidad de que los 12 pozos que se perforen en cada uno de los 12 sitios, sean productivos? (b) Cul es la probabilidad de que ningn pozo perforado sea productivo? (c) Cul es la probabilidad de que exactamente un pozo sea productivo? (d) Para hacer rentable al pas, cuando menos tres de los pozos de exploracin deben ser productivos. Siendo as, Cul es la probabilidad de que el negocio sea rentable?
3-30
Sugerencia: Usar P(X = 12), P(X = 0), P(X = 1), P(X 3), etc. Distribucin Hipergeomtrica La funcin hipergeomtrica es una distribucin discreta de probabilidad, la cual est estrechamente ligada a la distribucin binomial. La manera ms simple de ver la diferencia entre las dos distribuciones radica en la forma que se hace el muestreo. La diferencia entre estas dos distribuciones es que, en la distribucin binomial, los intentos son independientes, porque hay reemplazo en la seleccin de la muestra. Sin embargo, en el caso de la distribucin hipergeomtrica, hay dependencia, porque la seleccin de la muestra se hace sin reemplazo y la probabilidad de xito cambia de un intento a otro. El modelo hipergeomtrico es apropiado, cuando el muestreo es sin reemplazo de una poblacin finita y, cuando se requiere la probabilidad de un nmero especfico de xitos y/o fracasos. Suposiciones y propiedades de la distribucin hipergeomtrica 1. Una muestra aleatoria de tamao n se selecciona sin reemplazo de N tems. 2. k de los N tems pueden ser clasificados como xitos y, N k es clasificado como fracasos. 3. La poblacin o conjunto de la muestra consiste de N individuos, objetos o elementos (una poblacin finita). 4. Cada individuo puede ser caracterizado como un xito o un fracaso y hay k xitos en la poblacin. 5. Una muestra de n individuos se selecciona sin reemplazo (hay dependencia, en contraste con la binomial en la que hay independencia) en forma aleatoria. Definicin de la distribucin hipergeomtrica En la distribucin de probabilidad de una variable aleatoria hipergeomtrica X, el
3-31
nmero de xitos en una muestra aleatoria de tamao n, seleccionada de N tems, de los cuales k se llaman xitos y N k se llaman fracasos es: h(X;N,n,k) = NCn Donde: k = xitos en n intentos, es decir, la cantidad de elementos identificados como xito en la poblacin N k = fracasos n = tamao de la muestra aleatoria o cantidad de elementos en la poblacin N = nmero de tems (tamao de la poblacin) Donde x no puede exceder de k y (n x) no puede exceder de (N k) Observaciones:
NCn kCx N-kCn-x
x = 0, 1, 2, 3,..., n
(3-4)
Representa la cantidad de formas en las que se puede seleccionar una muestra de tamao n de una poblacin de de tamao N
kCx
Representa la cantidad de maneras en las que se puede seleccionar x xitos de un total de k xitos de la poblacin
N-kCn-x
Representa la cantidad de maneras en las que se puede Aplicaciones de la distribucin hipergeomtrica
seleccionar n x fracasos de un total de N k fracasos en la poblacin Las aplicaciones de esta distribucin se encuentran en las pruebas electrnicas; aseguranza de calidad; seleccin de diamantes industriales, algunos de los cuales
3-32
son de calidad superior a los otros; en problemas de muestreos de declaraciones de impuestos sobre ingresos, donde k entre N declaraciones archivadas contienen deducciones cuestionables. Igualmene, la distribucin hipergeometrica tiene las mismas aplicaciones a la ingeniera ambiental, que con la binomial, con la diferencia que con la hipergeomtrica el muestreo es sin reemplazo. Caractersticas de la distribucin hipergeomtrica Si n es relativamente pequeo con respecto a N, la probabilidad para cada intento cambia ligeramente, lo que indica que se tiene un experimento binomial. Esta situacin puede aproximarse a la distribucin hipergeomtrica usando la distribucin binomial con p = k/N. Adems, el promedio y la varianza de la distribucin hipergeomtrica se pueden aproximar mediante las frmulas: = np = nk/N 2 = npq = n(k/N)(1 k/N) (3-5) (3.6)
Relacin entre la distribucin hipergeomtrica y la distribucin binomial Hay una relacin interesante entre la distribucin binomial y la distribucin hipergeomtrica. Como se dijo antes, si n es pequea comparada con N, la naturaleza de N tems cambia muy poquito en cada muestreo. Por lo tanto, la cantidad k/N juega el papel del parmetro p de la distribucin binomial. Como resultado, la distribucin binomial puede ser vista como una edicin poblacional grande de la distribucin hipergeomtrica. As, cuando hay un experimento hipergeomtrico, en el cual no se da el valor de k directamente, pero si con valores dados de N y de la probabilidad p (o en trminos de porcentaje), el valor de k se puede calcular usando la relacion p = k/N.
3-33
Ejemplos usando la distribucin hipergeomtrica Ejemplo #18. Un comit de tamao 5 es seleccionado aleatoriamente, de 3 Qumicos y 5 Fsicos. Encontrar la distribucin de probabilidad para el nmero de Qumicos en el comit. Hacer una grfica o histograma que vaya en funcin de la variable aleatoria X y de P(X). Solucin: Aqu, N = 8, n = 5, k = 3. Se usa la frmula (3-4) de la distribucin hipergeomtrica:
kCx N-kCn-x
h(x;N,n,k) = NCn
x = 0,1,2,3.,n
Sustituyendo los valores en la frmula de arriba nos da la forma bsica lista para sustituir los valores de la variable aleatoria X. h(x;8,5,3)= 8C3 Por lo tanto, del espacio muestral x = 0, 1, 2, 3, 4 y sustituyendo estos valores en la expresin de arriba da los siguientes enunciados: P(X = 0) = h(0;8,5,3) = 3C0 5C5 / 8C5 = (1)(1)/56 = 1/56 = 0.018 P(X = 1) = h(1;8,5,3) = 3C1 5C4 / 8C5 = (3)(5)/56 = 15/56 = 0.268 P(X = 2) = h(2;8,5,3) = 3C2 5C3 / 8C5 = (3)(10)/56 = 30/56 = 0.536 P(X = 3) = h(3;8,5,3) = 3C3 5C2 / 8C5 = (1)(10)/56 = 10/56 = 0.179 P(X = 4) = h(4;8,5,3) = 3C4 5C1 / 8C5 = (0)(5)/56 = 0
3Cx 8-3C5-x
3-34
TABLA 3.4. Tabla mostrando la tabulacin de la distribucin hipergeomtrica. Variable aleatoria X h(x;8,5,3) | | 0 1/56 1 15/56 2 30/56 3 10/56 4 0
Para hacer el histograma, nicamente se grafican los valores de la variable aleatoria x = 0, 1, 2, 3, 4 en la abscisa y los valores de h(x;8,5,3) en la ordenada. Ejemplo #19. Refirindose al problema anterior, calcular las siguientes probabilidades: (a) La probabilidad de qu, exactamente, 1 Qumico sea seleccionado. (b) La probabilidad de qu, cuando menos 1 Qumico sea seleccionado (c) La probabilidad de qu, entre 1 y 3 (incluso) Qumicos sean seleccionados. Solucin: (a) Sustituyendo los valores de N = 8, n = 5, k = 3 en la frmula hipergeomtrica: P(X = x) = h(x;N,n,k) = kCx N-kCn-x / NCn P(X = 1) = h(1;8,5,3) = 3C1 5C4 / 8C5 = (3)(5) / 56 = 0.268 (b) P(X 1) = 1 P(X = 0) = 1 [(3C0 5C5)/8C5] = 1 (1)(1) / 56 = 1 0.018 = 0.982 (c) P(1 X 3) = P(X 3) P(X = 0) = P(X = 1) + P(X = 2) + P(X = 3) = H(1;8,5,3) + H(2;8,5,3) + H(3,8,5,3) = (3C15C4)/56) + (3C25C3)/56) + (3C35C2)/56) = ((3)(5)/56) + ((3)(10)/56) + ((1)(10)/56) = (0.268) + (0.536) + (0.179) = 0.983
3-35
Ejemplo #20. Un embarque de 20 computadoras contiene 5 que estn defectuosas. Si 10 de estas computadoras se seleccionan aleatoriamente, para su inspeccin, Cul es la probabilidad de que 2 de las 10 estn defectuosas? Solucin: Aqu, X = 2, n = 10, k = 5 y N = 20. Ahora sustituyendo estos valores en la frmula hipergeomtrica da: P(X = 2) = H(2;20,10,5) = 5C2 15C8 / 20C10 = (10)(6435)/184756 = 0.348 Ntese la diferencia entre el uso de la letra mayscula H y la letra minscula h. Ejemplo #21. Repitamos el ejemplo anterior, pero ahora con un lotes de 100 computadoras, 25 de las cuales estn defectuosas, de la siguiente manera. (a) Usando la frmula hipergeomtrica (b) Usando la frmula binomial como una aproximacin a la distribucin hipergeomtrica. Solucin: (a) Sustituyendo x = 2, n = 10, k = 25, N = 100 en la frmula da: P(X = 2) = H(2;100,10,25) = 25C2 75C8 / 100C10 = (300)(1.687x1010) / 1.731x1013 = 0.292 Aqu vemos que los datos son muy largos y tediosos. Sin embargo, usando la distribucin binomial, como una aproximacin, basndonos en el hecho de que el valor de N = 100 es grande con relacin a n = 10, entonces, podemos usar la binomial como una aproximacin a la hipergeomtrica y da: Usando x = 2, n = 10, p = k/N = 25/100 = .25. Por lo tanto, Usando la formula binomial, b(x,n,p) = nCx px qn-x /x!
3-36
P(X = 2) = B(2,10,0.25) = 10C2 (0.25)2 (0.75)8 = (45)(0.0625)(0.100) = 0.2813 Nota. Obsrvese que la diferencia entre los dos valores es de solo .01. En general, es posible demostrar que la distribucin hipergeomtrica, h(x;N,n,k) se aproxima a la distribucin binomial, b(x;n,p), con p = k/N. Por regla general, puede usarse la distribucin binomial como una aproximacin a la distribucin hipergeomtrica, si n < N/10. Ms ejemplos de problemas de la distribucin binomial usando el programa de computadora Minitab Abrir el programa Minitab e irse a: Calc Probability Distributions Binomial Esto hace que aparezca la ventana de Binomial Distributions. En esta ventana puntear Probability. En la ventanilla de Number of Trials poner el valor de n seleccionado (tamao de la muestra). Asimismo, en la ventanilla de Probability of Success poner la probabilidad o el porcentaje (en forma decimal) deseado. En la ventanilla de Input Columns poner la columna C1 o sea la columna con los datos que se quieran evaluar. En la ventanilla de Optional Storage se pondrn los datos generales que se almacenaran. Luego poner OK. Enseguida, para generar las probabilidades acumuladas dentro de la misma ventana de Binomial Distributions puntear la Cummulative Probability y proceder anlogamente, como arriba. Anlogamente, para hacer grficas irse a: Graph Scatterplot With Connect line, etc. En la ventana de Scatterplots With Connect Line, poner C2 o C3 en Y y, C1 en X. (Siempre que se tenga alguna duda, consultar la ventanilla de Help.)
3-37
Ejemplo #22. Un fabricante de precipitadores electrostticos afirma qu, el 6% de este equipo para controlar las partculas contaminantes del aire, est defectuoso. Si esta afirmacin es correcta, encontrar las probabilidades de que el nmero de aparatos defectuosos sacados de una muestra de 10 estn en mal estado. (a) Exactamente dos aparatos estarn defectuosos (b) Cuando menos dos aparatos estarn defectuosos (c) Menos que un aparato estar defectuoso (d) Entre 2 y 5 incluso y excluso (e) P(S) (f) Hacer grficas de probabilidad de funcin de masa P(X=x) y de probabilidad acumulada, P(X x) Solucin: Para obtener los resultados apetecidos usar la tabla generada, que incluye la variable aleatoria X (en la columna C1) y las probabilidades binomiales individuales y las probabilidades binomiales acumuladas (en las columnas C2 y C3). (a) P(X = 2) = 0.0988 (de la columna C2) (b) P(X 2) = 1 P(X < 2) (c) P(X < 1) = P(X = 0) = 0.5386 (d) P(2 X 5) = P(X 5) P(X 1) = P(X = 2) + P(X = 3) + P(X = 4) + P(X = 5) = 0.1176 P(2 < X < 5) = P(X = 4) + P(X = 3) (de la columna C2) = 0.0168 + 0.0019 = 0.0187
3-38
(e) P(S) = 1 (Este valor se obtiene de la sumatoria de todas las probabilidades de funcin de masa o probabilidades binomiales individuales), esto es: P(S) = (0.538615 + 0.343797 + 0.098750 + 0.0116809 + 0.001878 + 0.000144 + 0.000008) 1 (f) Las Figuras 3.4 (a) y (b) muestran los grficos de las probabilidades binomiales individuales, en funcin de la variable aleatoria X y, las probabilidades binomiales acumuladas, en funcin de la variable aleatoria X, respectivamente.
TABLA 3.5. Tabla mostrando los valores de la variable aleatoria x (columna C1), la probabilidades binomiales individuales P(X=x) y la probabilidades binomiales acumuladas P(X x) (columna C3).
(a)
Figura m ostrando la grafica de P(X=x) versus variable aleatoria x
1.0
(b)
Grafica m ostrando la probabilidad P(X<= vs. variable aleatoria X x)
0 0.6 0.5 0.4 P(X=x) 0.3 0.2 1 2 3 4 5 6 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 3 4 Variable aleatoria X 5 6
Probabilidades acumuladas
0.9
0.8
0.7
0.6
0.1 0.0
0 1 2 3 4 Variable aleatoria x 5 6
0.5
Figura 3.4. Esquemas mostrando los resultados de este ejemplo. La figura (a) muestra la grfica de P(X=x) vs. variable aleatoria X y, la figura (b), muestra la grfica de P(X <= x). (Elaboracin propia)
3-39
Ejemplos aplicados a la distribucin hipergeomtrica usando el programa de computadora Minitab Abrir el programa Minitab e irse a: Calc Probability Distributions Hypergeometric Esta maniobra abre la ventana Hypergeometric Distribution. En esta ventana puntear Probability. Para calcular las probabilidades hypergeomtricas de funcin de masa en la ventanilla de Population size (N) poner el valor de la poblacin muestreada (N). En la ventanilla de Success in Population (M) poner el nmero de xitos (k). En la ventanilla de Simple Size (n) poner la muestra seleccionada (n). En la ventanilla de Input columns poner los valores que se vayan a evaluar (x). En la ventanilla de Optional Storage introducir la columna donde se vayan a almacenar los valores generados. Ejemplo #23. Asmase que una poblacin de 10 medidores de pH (que miden la acidez y la alcalinidad de soluciones qumicas) contiene 4 unidades defectuosas (xitos arbitrariamente). Si una muestra de 3 medidores se selecciona al azar, sin reemplazo, encontrar las siguientes probabilidades: (a) Exactamente 1 aparato de pH estar defectuoso (b) Dos aparatos estarn defectuosos (c) Tres aparatos de pH resultaran defectuosos de la muestra seleccionada (d) A lo ms 2 aparatos estarn defectuosos (e) Hacer grficas para P(X = x) y P(X x) Solucin: 1. Primero se introducen los valores de la variable aleatoria (x) en la columna C1 2. Enseguida, tenemos que identificar las variables que se introducirn en el modelo hipergeomtrico. Aqu, k = 4, N = 10, n = 3, x = 0, 1, 2, 3, 4.
3-40
3. Ahora, introducir los valores de N, n y k, como se indic arriba y el programa Minitab genera la TABLA 3.5 de abajo.
TABLA 3.5. Tabla mostrando los valores de las distribuciones hipergeometricas individuales y acumuladas en funcin de la variable aleatoria X. 4. Para resolver los incisos (a)-(e), esto se puede hacer usando el modelo hipergeomtrico, h(x:N,n,k) = kCx
N-kCn-x / NCn,
los datos de la TABLA 3.5 o las
grficas. Por ejemplo si se usa la frmula se sustituyen los valores de k, N y n y luego se sustituyen los valores de x en la frmula hipergeomtrica: h(x;10, 3,4) = 4Cx 10-4C3-x / 10C3 Una vez hecho esto se sustituye los valores de x = 0, 1, 2, 3, 4. Este procedimiento, sin embargo, es muy largo y tedioso. Pero si usamos los valores de la TABLA 3.5 esto se simplifica de sobremanera. 4. Las soluciones son: (a) P(X = 1) = 4C1 6C2 / 10C3 = 0.500 (o de la columna C2) (b) P(X = 2) = 4C2 6C1 / 10C3 = 0.300 (o de la columna C2) (c) P(X = 3) = 4C3 6C0 / 10C3 = 0.033 (o de la columna C2) (d) P(X 2) = h(x;10,3,4) = 0.5000 + 0.1667 + 0.3000 = 0.9667 (o de C3)
x=0
2
3-41
(e) En cuanto a la generacin de las figuras requeridas por el problema, siguiendo las instrucciones anteriores se generan las Figuras 3.5 (a) y (b) sealadas abajo.
(a)
Figura mostrando la grafica de P(X=x) vs. variable aleatoria x
0.5
1.0 0.9
(b)
Figura mostrando la grafica de P(X<=x) vs. variable aleatoria x
0.4
0.8 0.7 P(X =< x)
P(X = x)
0.3
0.6 0.5 0.4
0.2
0.1
0.3 0.2
0.0 0.0 0.5 1.0 1.5 2.0 Variable aletoria x 2.5 3.0
0.1 0.0 0.5 1.0 1.5 2.0 Variable aletoria x 2.5 3.0
Figura 3.5. La figura (a) muestra la distribucin hipergeomtrica de variables individuales P(X=x) vs. variable aleatoria x y la figura (b) muestra las variables acumuladas de la distribucin hipergeomtrica P(X x) vs. variable aleatoria X. (Elaboracin propia). Ejemplo #24. En una encuesta universitaria hecha a 24 estudiantes del ultimo ao revela que casi el 50% de esa poblacin de estudiantes recomienda tomarse cuando menos una o dos cervezas diariamente, para estudiar mejor. Si se seleccionan aleatoriamente 11 de estos estudiantes y se les pregunta que opinan de esto, estimar lo siguiente: (a) La probabilidad de que, solamente, 4 estudiantes sean de este parecer. Solucin: Usando la distribucin hipergeomtrica con N = 24, n = 11, k = Np = (0.50)(24) = 12 y X = 4 y sustituyendo los valores en la formula hipergeomtrica: h(x;N,n,k) = kCx N-kCn-x / NCn,
3-42
nos da:
H(4;24,11,12) = 12C4 24-12C11-4 / 24C11 = (495)(792)/2,496,144 = 0.26
Nota: Hay mtodos para generar tablas de distribuciones binomiales (acumuladas e individuales) usando el programa computarizado Minitab Existen mtodos para generar tablas binomiales acumuladas o tablas binomiales individuales para cualquier tamao de n y de probabilidades p. Esto se hace, porque es imprctico poner todos los valores de n y de p en las tablas de las diferentes distribuciones. Usando el Minitab, se pueden generar tablas de probabilidades binomiales acumuladas para cualquier tamao de n y de p. Para esto, proceder como: Calculator Probability Distributions Binomial En la ventana de Binomial Distribution que aparece puntear Cummulative probability. (Esto se hace despus de introducir los valores de la variable aleatoria X en la columna C1). En las ventanillas de Number of trials y Probability of success poner el tamao de n y el valor de p, respectivamente. Esto generar las probabilidades binomiales acumuladas, mismas que se almacenern en Optional storage o en la columna C2. Anlogamente, se puede generar una tabla de probabilidades binomiales individuales para cualquier tamao de n o de p. Para esto proceder como: Calculator Probability Distributions Binomial En la ventana de Binomial Distribution que aparece, puntear Probability. (Esto se hace despus de introducir los valores de la variable aleatoria X en la columna C1). En las ventanillas de Number of trials y Probability of success poner el tamao deseado de n y de p, respectivamente. Esto generar las probabilidades
3-43
binomiales individuales, mismas que se almacenern en Optional storage o en la columna C3, esto es, si ya se us la columna C2 para el almacenaje de las probabilidades binomiales acumuladas. Ejemplo #25. Tericamente, cierta forma de desnutricin ocurre en el 15% de personas sin que se den cuenta de eso. Esta forma de desnutricin no se debe a que no se coma lo suficiente, sino a situaciones en que el cuerpo no asimila los nutrienties, sin importar cuanto o como se coma. Esto es debido a la alteracin qumica de la sangre por vida antinatural. Siendo as determinar las siguientes probabilidades para una muestra de 5 personas. (a) Ninguna persona lo tiene (b) Cuando menos 2 personas lo tienen (c) Entre 2 y 4 lo tienen, inclusivamente Solucin: Usando el Minitab se genera la tabla de abajo. TABLA 3.6. Tabla mostrando las probabilidades acumuladas e individuales. __________________________________________________________________
Variable aleatoria X 0 1 2 3 4 5 Probabilidades binomiales acumuladas 0.59049 0.91854 0.99144 0.99954 0.99999 1.00000 Probabilidades binomiales individuales. 0.59049 0.32805 0.07290 0.00810 0.00045 0.00001
___________________________________________________________________________________________
(a) P(X = 0) = 0.59049 (b) P(X 2) = 1 0.91854 = 0.0815 (c) P(2 X 4) = 0.9999 - 0.91854 = 0.0815
3-44
3.1. Si la variable aleatoria X tiene una distribucin binomial con n = 10 y p = 0.5, calcular las siguientes probabilidades: (a) P(X = 5) (b) P(X 2) (c) P(X 9) (d) P(3 X < 5) con p = 0.01. Calcular lo siguiente: (a) P(X = 5) (b) P(X 2) (c) P(X 9) (d) P(3 X 5) 3.3. Supongamos que 20% de todos los sensores de alto volumen fallen en una prueba de muestreo de partculas con filtros de cierta porosidad. Sea X el nmero de entre 15 sensores seleccionados al azar que fallen la prueba. Entonces, si X tiene una distribucin binomial, con n = 15 y p = 0.2, determinar lo siguiente: (a) La probabilidad de que a lo sumo 9 muestreadores fallen la prueba. (b) La probabilidad de que exactamente 8 fallen. (c) La probabilidad de cuando menos 8 muestreadores fallen. (d) La probabilidad de que fallen entre 4 y 7 excluso. (.999) (.003) (.004) (.143) (0.246) (0.055) (0.011) (0.549)
3.2. La variable aleatoria X tiene una distribucin binomial con un tamao de 10 y
3.4. De acuerdo con la Chemical Engineering Progress (Noviembre de 1990), aproximadamente, el 30% de todas las fallas de operacin de tuberas en plantas qumicas son ocasionadas por errores del operador. Siendo as, calcular:
3-45
(a) La probabilidad de que de las siguientes 20 fallas al menos 10 fallas se deban al error del operador. (b) La probabilidad de qu, no ms de 4 de 20 fallas se deban a error del operador. 3.5. De acuerdo con un reporte publicado en la revista Parade, una encuesta a nivel nacional de la Universidad de Michigan a estudiantes universitarios del ltimo ao, revela que casi el 50% fuman marihuana. Si se seleccionan 12 estudiantes aleatoriamente y se les pide su opinin al respecto, encontrar la probabilidad de que el nmero que fuman marihuana todos los das sea: (a) Entre 7 y 9 incluso (b) A lo ms 5 (c) No menos de 8 (0.368) (0.3872) (1 - P(X 7))
3.6. En un estudio de higiene industrial y seguridad, se sabe que la probabilidad de que un operador de las plantas de reactores nucleares sea adicto a las drogas heroicas es de 0.05. Cul es la probabilidad de que exactamente 5 de los siguientes 100 operadores sean adictos a los narcticos? Usar la distribucin binomial y la normal para resolver este importante y delicado problema. 3.7. Un estudio de higiene industrial examin las actitudes de los trabajadores industriales acerca de los antidepresivos. Esta investigacin revel que, aproximadamente, el 70% de los trabajadores entrevistados creen que los antidepresivos, en realidad, no curan nada, sino que solo encubren el problema real y no ayudan a resolver los problemas de trabajo. De acuerdo a esta investigacin, Cul es la probabilidad de que al menos 3 de los siguientes 5 trabajadores seleccionados, aleatoriamente, sean de esta opinin? (.837) 3.8. Con respecto al problema anterior 3.7, si X representa el nmero de trabajadores de la industria que cree que los antidepresivos no ayudan a resolver
3-46
los problemas emocionales del trabajo, sino que dan solamente una solucin paliativa al problema de las depresiones emocionales; siendo as, entonces, encontrar el promedio y la varianza, cuando se seleccionan aleatoriamente 5 personas de una muestra de 20. 3.9. En una investigacin de higiene industrial y seguridad, el ingeniero encargado del departamento de seguridad afirma que, solo el 40% de todos los trabajadores usan cascos de seguridad cuando almuerzan en el lugar del trabajo. Suponiendo que esta afirmacin sea correcta, encontrar la probabilidad de que 4 de los siguientes 6 trabajadores de la industria, elegidos, aleatoriamente, usen los cascos de seguridad, mientras comen en el lugar del trabajo. (0.138) 3.10. Una compaa constructora de precipitadores electrostticos sabe que, en promedio, el 29% de este equipo de control de partculas requerirn de reparaciones despus de un ao de usarse. Si se seleccionan, aleatoriamente, 20 precipitadores electrostticos, de la produccin total, encontrar la probabilidad que: (a) Al menos 5 precipitadores requieran de reparaciones despus de un ao. (b) Exactamente 5 de estas unidades de control de la contaminacin atmosfrica requieran reparacin despus de un ao. 3.11. En un estudio de ahorro de energa, se argumenta que, en el 40% de las calefacciones activadas con energa solar, la cuenta por servicio baja considerablemente. De acuerdo a este argumento, Cul es la probabilidad de que la cuenta de servicio baje, en cuando menos 5 de una muestra de 50 calefacciones? Hacer este problema usando la distribucin binomial y despus la distribucin normal. Comparar los resultados. (Binomial = 0.998, normal = 0.9987) 3.12. Hacer el mismo problema (3.11) pero usando 50% con n = 25 y P(X 5). 3.13. Se dan los siguientes datos: n = 15, p = 0.4. Calcular la probabilidad de que el
3-47
valor de la variable aleatoria X sea exactamente igual a 4. Hacer esto: (a) Usando la distribucin binomial. (b) Usando la distribucin normal como aproximacin. (0.1268) (0.1214)
3.14. Se argumenta que en el 60% de las instalaciones de calefaccin solar la cuenta por concepto de servicio se reduce en al menos un tercio. En consonancia con esto, Cules son las probabilidades de que la cuenta de servicio se reduzca en al menos un tercio en?: (a) Cuatro de cinco instalaciones. (b) Al menos cuatro de cinco instalaciones. 3.15. En estudios de ingeniera civil, si la probabilidad de que cierta columna de ala ancha caiga bajo una carga axial dada es de 0.05, calcular la probabilidad hay de que entre 16 columnas de ese tipo: (a) Caigan cuando ms dos? (b) Caigan al menos cuatro? (0.9571) (.0070)
3.16. La probabilidad de que cierta clase de componente resista una prueba de choque es de 0.55. Encontrar la probabilidad de que sobrevivan, exactamente, 2 de los siguientes 4 componentes que se prueben. 3.17. La probabilidad de que un paciente se recupere de un problema cardiaco es de 0.4. Si se selecciona aleatoriamente una muestra de 15 pacientes con sntomas de problemas cardacos, Cul es la probabilidad de: (a) P(X 10) (b) P(3 X 8) (c) P(X = 5) (d) P(3 < X < 8) (0.0338) (0.1859) (0.1859) (0.6964)
3-48
3.18. La produccin diaria de 850 partes fabricadas contiene 50 partes que no cumplen con los requerimientos del cliente. Del lote se escogen 2 partes, aleatoriamente, sin reemplazo. Sea X el nmero de partes de la muestra que no cumplen con los requerimientos. Siendo as, Cul es la funcin de la distribucin acumulada de X ? 3.19. La etapa de una tercera alerta de smog en la ciudad de Mexico ha sido dada, en la cual se involucra a 50 industrias contaminantes. Un inspector de PROFEPA visitar 10 industrias seleccionadas aleatoariamente, para inspeccionarlas por las violaciones a las legislaciones ambientales, que las industrias pudieran estar cometiendo. Cul es la probabilidad de que 15 de las industrias involucradas estn violando, cuando menos, una legislacin ambiental? (25CX 50-25C10-X / 50C10) 3.20. Un fabricante de llantas para autos reporta que entre un cargamento de 6,000 llantas de la marca Goodyear remitidas a un distribuidor local, 120 llantas de esta marca estn un poco defectuosas. Si un motorista compra, al azar, 10 de estas llantas, Cul es la probabilidad de que 4 de estas llantas estn un poco daadas? Hacer este problema usando la distribucin hipergeomtrica y la binomial. 3.21. Un fabricante de aparatos de monitoreo ambiental (CO) contiende que solo el 10% de estos aparatos requieren de reparacin dentro del periodo de garanta de un ao. Si se saca una muestra al azar de 10 de estos aparatos, entonces, siendo as, calcular los siguientes enunciados: (a) La probabilidad de que cuando menos 3 de los 10 aparatos requieran de reparacin dentro del periodo de garanta. (0.0702) (b) Si 5 de los 10 aparatos requirieron de reparacin en el primer ao, apoyara esto o refutara la contencin del fabricante? Qu significado tiene la probabilidad calculada, (en cuanto a la contencin del fabricante de que solo el 10% de los
3-49
aparatos requieren de reparacin dentro de un ao), cuando la probabilidad de que cualquiera de los aparatos requiera de reparacin en el periodo de garanta, es de 0.10? (El resultado es igual a 0.0016 y dado que la probabilidad es muy pequea se rechaza la contencin del fabricante) 3.22. Este es un ejemplo terico de un problema de desnutricin, que sufriran muchas personas enfermas, sin darse cuenta que estn desnutridas. Aqu, sin embargo, el autor de este ejemplo se refiere a un tipo de nutricin defectuosa que no est relacionado con la desnutricin tradicional debido a la falta de alimentos. En este contexto, el autor se refiere a un tipo de desnutricin poco conocido por la medicina tradicional (sino por la naturopata), como en el caso del cncer genrico, en el cual la persona afectada est desnutrida, no por no comer, sino porque el organismo no puede asimilar los alimentos, sin importar cuanto o como se coma. (Esto tal vez se deba a que las personas que sufren de los sntomas del cncer siempre estn cansadas). De acuerdo a la naturopata, esto ocurre como resultado de la alteracin qumica de la sangre, ocasionado por vida antinatural. Siendo as, en este ejemplo vamos a considerar un caso hipottico de desnutricin no tradicional, relacionado con personas que sufren enfermedades genricas, y que en este problema, este tipo de desnutricin es del 90%. Siendo as determinar las probabilidades para los siguientes casos de desnutricin, para un tamao aleatorio de 30 personas, si: (a) Todas las personas enfermas tienen problemas de desnutricin. (b) Cuando menos 27 personas enfermas estn desnutridas. (c) Bajo estas condiciones ninguna persona est desnutrida.
3-50
Sugerencia: Para resolver este problema, generar una tabla de probabilidades acumuladas e individuales, puesto que los valores de n y de p, de este ejemplo, son grandes, y no aparecen en las tablas binomiales dadas por los textos de estadstica. 3.23. Una encuesta a cierta universidad, de un pas del hemisferio norte hecha a 20 estudiantes del ltimo ao revela que, casi el 40% de esa poblacin de estudiantes aprueba el consumo diario de la marihuana. Si se seleccionan al azar 10 de estos estudiantes y se les pide su opinin al respecto, calcular lo siguiente: (a) Cul es la probabilidad de qu, solamente, 3 de los estudiantes sean de esta opinin? sean de esta opinin? (0.24) (0.075) (b) Cul es la probabilidad de que cuando menos 1, pero menos de 3 estudiantes
3-51
CAPITULO 4 Distribucin de Poisson

Aplicaciones de la distribucin de Poisson.- Condiciones que se requieren para aplicar la distribucin de Poisson.- Funciones probabilsticas de la funcin de Poisson.- Aplicacin de la distribucin de Poisson dentro de sus propios trminos y como una aproximacin a la distribucin binomial.- Propiedades de la distribucin de Poisson.- Problemas de la distribucin de Poisson usando el programa Minitab. La distribucin Poisson es una distribucin de probabilidad discreta, porque se forma contando algo. La distribucin de Poisson fue desarrollada por el francs Simeon Denis Poisson, quin la describi en 1837. La distribucin de Poisson se puede considerar como una lgica de probabilidad deductiva, en forma anloga a la distribucin binomial, porque en el clculo de las probabilidades se va del total a la parte. Esto es, porque siempre conocemos la probabilidad del espacio muestral, la cual siempre es igual a 1 (el total o conjunto). La distribucin de Poisson tambin puede ser enfocada como una forma limitante de la distribucin binomial, es decir, como una aproximacin de la binomial, esto es, cuando los clculos binomiales son muy largos y tediosos. Pero, ms importante todava, la distribucin de Poisson, tambin puede ser enfocada dentro de sus propios trminos o derechos. La distribucin de Poisson tiene aplicaciones a una gran variedad de procesos fsicos; como resultado de esto, en la misma forma que la distribucin
4-1
normal y la binomial, la distribucin de Poisson es una de las distribuciones ms usadas. La distribucin de Poisson aplica a la ocurrencia de algn evento aleatorio X, sobre un intervalo especificado, donde el intervalo puede ser tiempo, distancia, rea, volumen, etc. En cuanto a las diferencias entre la distribucin de Poisson y la distribucin binomial, la distribucin binomial es afectada por el tamao de la muestra n y la probabilidad p, mientras que, la distribucin de Poisson es afectada por el promedio . Adems, la distribucin binomial tiene valores posibles de x = 0, 1, 2, 3,..., n, mientras que la Poisson tiene valores posibles de x = 0, 1, 2, 3,....ad infinitum, es decir sin ningn lmite superior. La Figura 4.0 de abajo muestra la distribucin de Poisson.
Figura 4.0. Grfica mostrando la distribucin de Poisson. (Elaboracin propia)
4-2
Aplicaciones de la distribucin de Poisson 1. Las aplicaciones de la distribucin pueden ser enfocadas a estudiar el nmero de txicos encontrados en un volumen de aire emitido por una industria (contaminacin del aire). Otras aplicaciones son en la meteorologa, para encontrar la frecuencia imprevista de tempestades, ciclones, tornados, granizadas, inundaciones, fuegos forestales, etc., en ciertas regiones del mundo. 2. Tambin se usa en biologa para contar el nmero de bacterias en un plato de prueba. Se usa tambin en la fsica para contar el nmero de partculas emitidas de una sustancia radiactiva, como por ejemplo, cuando una sustancia radiactiva emite partculas alfa, beta o gamma. Aqu las partculas son emitidas, al azar, sobre un largo periodo de tiempo, y la ocurrencia de una emisin es independiente de otras emisiones. 3. Igualmente, la distribucin Poisson se usa para el control estadstico de calidad o para contar el nmero de tems defectuosos (cuando es difcil usar la distribucin binomial). 4. Otras aplicaciones importantes de la distribucin de Poisson son para encontrar el nmero de accidentes, entre los trabajadores, como por ejemplo, en una industria, en estudios de higiene industrial y seguridad. 5. Adems, otras aplicaciones son las probabilidades de las demandas de un producto y demandas de servicios. La distribucin de Poisson tambin se usa para encontrar la probabilidad de que habr un nmero especfico de reclamos de accidentes de autos, en una compaa de seguros durante un periodo de tiempo. Esta distribucin es igualmente til para encontrar la probabilidad de un nmero especfico de ocurrencias que toman lugar por un tiempo dado o en una regin especfica.
4-3
6. Anlogamente, un proceso de produccin continua, que fabrica un cierto objeto en grandes cantidades, donde un objeto defectuoso ocurre, aleatoriamente, con probabilidad pequea e independiente, tambin puede ser considerado un proceso Poisson. 7. Los accidentes en una fbrica grande pueden ocurrir, al azar, con una pequea probabilidad y ser independientes de cada uno de los otros sobre un tiempo continuo, en cuyo caso, este proceso sigue a la distribucin Poisson. Adems, esta distribucin aplica para encontrar el nmero de accidentes en un determinado tramo carretero durante un periodo digamos de 3 meses. 8. Asimismo, la distribucin de Poisson se usa para saber el patrn de llegadas de aviones a un aeropuerto; el nmero de defectos sobre la superficie de una mesa; el nmero de errores de imprenta de un libro, etc. Condiciones que se requieren para aplicar la distribucin de Poisson 1. Un experimento consiste en contar el nmero de veces de que un cierto evento ocurra (x), durante una unidad de tiempo o espacio. 2. La probabilidad de que un evento ocurra es la misma para cada unidad de tiempo o espacio. 3. El nmero de eventos que ocurran en una unidad de tiempo o espacio es independiente del nmero de eventos que ocurren en las otras susodichas unidades. 4. Tericamente, un nmero infinito de ocurrencias del evento deben ser posibles en el intervalo. Funciones probabilsticas de la distribucin Poisson Cuando la distribucin de Poisson es apropiada, la probabilidad de observar exactamente x nmero de ocurrencias por unidad de medicin (horas, minutos, centmetros cbicos, pginas, etc.), es decir, el nmero de resultados que ocurren
4-4
en un intervalo de tiempo dado o en una regin especfica, se encuentra usando las ecuaciones de abajo: P(X) = f(x) = x e-/x! Donde: = promedio de ocurrencias por intervalo = np Donde: n = tamao de la muestra p = la probabilidad e = 2.71828... (Base de los logaritmos Neperianos) x = 0, 1, 2,....., , es decir, los valores de la variable aleatoria X, esto es, el nmero de resultados que ocurren en un intervalo de tiempo. De acuerdo a la frmula de arriba, la distribucin de Poisson tiene un solo parmetro simbolizado por la letra griega . Si conocemos este valor del promedio podemos escribir la distribucin de probabilidad completa. Este parmetro puede ser interpretado como el promedio de las ocurrencias, por intervalo de tiempo o espacio que caracteriza el proceso generado por la distribucin de Poisson. Otra manera de ver la distribucin de Poisson es usando la funcin dada abajo: ()x e- p(x;) = x! Donde: = np es una constante dada. Es el nmero promedio de (4-1)
(4-2)
4-5
resultados por unidad de tiempo o regin. Aqu, debido a que es positiva para todos los posibles valores de X, entonces:
p(x; ) = 1, lo cual es la consecuencia del desarrollo de e en la serie infinita de

x=0
Maclaurin dada en todos los textos de clculo, la cual se expresa como: e = 1 + + 2/2! + 3/3! + + = x/x!
x=0
(4-2a)
Esta ecuacin demuestra que la funcin p(x;) satisface la segunda condicin necesaria para especificar una funcin de probabilidad de masa (pmf). = np la cual se puede interpretar como el nmero promedio de xitos por el tamao de la muestra n. e = 2.71828... x = nmero de resultados que ocurren en un intervalo de tiempo (0, 1, 2, 3....ad infinitum) Aplicacin de la distribucin de Poisson dentro de sus propios trminos y como una aproximacin a la distribucin binomial Como se mencion al principio, la distribucin de Poisson puede explicarse desde dos ngulos: dentro de sus propios derechos y como una aproximacin de la distribucin bionomial. Esto ocurre, porque muchas veces si se aplica la distribucin binomial a ciertos problemas, los clculos son muy extensos, en cuyo caso se puede aplicar la distribucin de Poisson, la cual da los mismos resultados, pero mucho ms fcil de calcularlos. Por ejemplo, cuando la distribucin de Poisson se usa como una aproximacin a la distribucin binomial, esto es aplicable, cuando n es grande y la probabilidad, p es pequea. (Recordando qu, con la distribucin binomial, la distribucin de Poisson se usa como una aproximacin a la distribucin normal cuando n es grande y cuando p o q estn
4-6
cercanas a 0). La aproximacin de la distribucin de Poisson a la distribucin binomial es apropiada cuando p 0.05 y n 20. En verdad, el porcentaje de error de los resultados obtenidos usando la distribucin de Poisson, como una aproximacin a la distribucin binomial, es de 1 en 270 o cerca de 0.4%. La TABLA 1.0 muestra las comparaciones de la distribucin binomial y la Poisson. TABLA 1.0. Tabla mostrando las comparaciones de resultados de ejemplos aleatorios usando la distribucin binomial y la distribucin de Poisson. (Elaboracin propia) __________________________________________________________________ Distribucin Binomial Distribucin Poisson P(X 1) = 1 F(0) = 1 0.1216 = 0.8784 P(X 2) = F(2) = 0.6769 P(X 3) = 1 F(2) = 1 0.6769 = 0.3231 P(X 1) = 1 F(0) = 1 0.135 = 0.865 P(X 2) = F(2) = 0.677 P(X 3) = 1 F(2) = 1 0.677 = 0.323
Por otra parte, cuando la distribucin de Poisson es explicada dentro de sus propios mritos, esta distribucin resulta de las ocurrencias que pueden ser descritas por una variable aleatoria discreta. Esta variable denotada por X, puede tomar valores de x = 0, 1, 2, ... (Donde los puntos suspensivos denotan ad infinitum), esto, en contraste con la distribucin binomial donde los valores de x son de 0, 1, 2, 3,...., n. Ejemplos de la aplicacin de la distribucin de Poisson dentro de sus propios trminos o derechos y como aproximacin a la distribucin binomial Ejemplo #1. Asmase que una distribucin de Poisson se da por la funcin de abajo:
4-7
p(x) = [(0.72)x e-0.72] / x! Encontrar: (a) p(0) (b) p(1) (c) p(2) (d) p(3) Solucin: (a) p(0) = [(0.72)0 e-0.72] / 0! = 0.4868 (b) p(1) = [(.72)1 e-0.72] / 1! = 0.3505 (c) p(2) = [(.72)2 e-0.72] / 2! = 0.1262 (d) p(3) = [(0.72)3 (0.4868] / 3! = 0.030 Ejemplo #2. Un estudio de higiene industrial y seguridad hecho a largo plazo de los accidentes en una fbrica, llev a la gerencia a concluir que el nmero de accidentes por trabajador, durante un ao (X) sigue a una distribucin Poisson. Si el nmero promedio de accidentes por trabajador por ao fue de 0.3, estimar lo siguiente: (a) Cul es la probabilidad de que un trabajador seleccionado, aleatoriamente, no tendr un accidente durante el ao siguiente? (b) Cul es la probabilidad de que un empleado seleccionado, aleatoriamente, tendr cuando menos 1 accidente durante el siguiente ao? (c) Cul es la probabilidad de que un trabajador tendr, exactamente, 1 accidente? (d) Cul es la probabilidad de que un trabajador seleccionado al azar de la fbrica tendr entre 2 y 4 accidentes, inclusivamente, el prximo ao? Solucin: Este problema se puede resolver usando la ecuacin de Poisson y tambin usando
4-8
la tabla de la distribucin Poisson. Aqu, = 0.3, X = 0 Usando la ecuacin (4-2), p(x;) = x e- / x! y sustituyendo valores da: (a) p(X) = P(X = 0) = (0.3)0 e-0.3 / 0! = 0.741 Esto dice que, el ao siguiente, de cada 100 trabajadores, 74 no tendrn ningn accidente y 26 si lo pudieran tener. Como se dijo anteriormente, este problema tambin se puede resolver usando la tabla de la distribucin de Poisson. Para esto, buscamos en la tabla de probabilidades acumuladas o individuales con = 0.3 y con x = 0 y da .740 (b) La probabilidad de que un trabajador tenga cuando menos un puede hacer usando las tablas de Poisson. P(X 1) = 1 - P(X = 0) = 1 - 0.741 = 0.259 (c) La probabilidad de que, el trabajador tenga exactamente, un accidente se puede hacer usando la frmula o las tablas de probabilidades individuales o acumuladas. Usando la frmula da (4-1), P(X) = f (x) = x e- / x!, con = 0.3 y X = 1 f(1) = (0.3)1 e-0.3/1! = 0.2222 Usando la tabla de la distribucin de Poisson de probabilidades individuales nos a: P(X = 1) = P(X 1) - P(X = 0) = 0.963 - 0.741 = 0.222 (d) La probabilidad de que un trabajador tenga entre 2 y 4 accidentes, incluso, es: P(2 X 4) = P(2) + p(3) + P(4) = 0.0333 + .0033 + 0.0002 = 0.0368 (usando las probabilidades individuales
de la distribucin de Poisson)
accidente se
Ejemplo #3. Para este problema usar la distribucin de Poisson y la binomial.
4-9
Siendo as, si el nmero de defectos, por pie cuadrado de la tela de un equipo de control (filtros) manufacturado por cierta industria sigue a un proceso Poisson, con = 0.08, entonces, si un pie cuadrado de la tela es inspeccionado de una muestra aleatoria de 50, cul es la probabilidad de que el nmero de defectos observados sea?: (a) Ningn defecto (b) Cuando menos 1 defecto (c) Exactamente, 2 defectos Solucin: Primeramente, vamos a usar la distribucin de Poisson, como una aproximacin a la binomial. (a) Probabilidad de ningn defecto. Usando la frmula (4-2), con = = .08: P(X = 0) = x e- / x! = (.08)0 (e-.08) / 0! = .923 Alternativamente, podemos sacar el mismo resultado usando la tabla de Poisson acumulada. Esto se hace buscando el valor de = .08 con X = 0 y da .923 (b) Cuando menos un defecto. Aqu, usando, nuevamente, la frmula (4-2) de Poisson con = .08 y substituyendo da: P(X 1) = 1 P(X = 0) = 1 - .923 = .077 (c) Exactamente 2 defectos. P(X = 2) = (.08)2 e-.08 / 2! = (0.0064) (0.92) / 2 = 0.00295
4-10
Ahora, bien, si se usar la distribucin binomial, esto sera largo y tedioso, porque n es grande. Sin embargo, para usar la relacin b(x;n,p) = n!/x!(n x)! px qn-x, necesitamos calcular el valor p, es decir, usando = = np. Con = .08 y n = 50 da: .08 = (50)(p) y p = .0016 ~ .002. (a) Usando la frmula binomial b(x;n,p) = n!/x!(n x)! px qn-x y sustituyendo los valores da: b(x;50,.08) = 50!/x!(50 0)! (.002)x (.998)50-x B(0;50,.08) = 50!/0!(50 0)! (.002)0 (.998)50-0 = (1) (1) (0.905) = 0.905 B(1;50,.08) = 50!/1!(50 1)! (.002)1 (0.998)50-1 = 49(.002)(0.907) = .098 B(2;50,0.08) = 50!/2!(50 2)! (.002)2 (.998)50-2 = 1225 (.000004)(0.908) = 0.0045 (b) Cuando menos un defecto es: P(X 1) = 1 P(X = 0) = 1 - 0.905 = 0.095 (c) Exactamente, 2 defectos. Esto nos lleva a P(X = 2) = B(2;50,0.08) = 50C2(.002)2(.998)50-2 = (1225) (.000004)(0.91) = 0.0045 Como se ve arriba, al usar la distribucin binomial, el proceso es largo y complicado, por lo que es mejor usar la distribucin de Poisson como una aproximacin a la binomial. En este instante, el lector deber usar la distribucin Poisson y comparar los resultados obtenidos.
4-11
Ejemplo #4. En un estudio de higiene industrial y seguridad, una poblacin de trabajadores de un grupo de industrias que manejan procesos, donde hay ruido, el 5% sufren de problemas emocionales que interfieren con su trabajo. Si se saca una muestra aleatoria de 60 trabajadores, Cul es la probabilidad del nmero de trabajadores, quienes sufren disturbios emocionales? Hacer este problema con la distribucin binomial y, luego, con la distribucin Poisson como una aproximacin a la binomial, y comparar resultados. (a) Ms de 2 trabajadores sufran de disturbios emocionales (b) Cuando menos 4 (c) 5 o ms Solucin: Usando la distribucin binomial con p = .05, n = 60, X > 2 b(x;60,.05) = 60Cx (.05)x (.95)60-x B(0;60,.05) = 60C0 (.05)0 (.95)60-0 = (1) (1) (0.046) = 0.0461 B(1;60,.05) = 60C1 (.05)1 (.95)60-1 = 60 (.05)(0.049) = 0.1455 B(2;60,.05) = 60C2 (.05)2 (0.95)60-2 = (60)(59)/2 (.0025)(0.051) = 0.2259 B(3;60,.05) = 60C3 (.05)3 (.95)60-3 = (60)(59)(58)/6 (.00013)(.053) = 0.2298
4-12
B(4;60,.05) = 60C4 (.05)4 (.95)60-4 = (60)(59)(58)(57)/24 (.0000063)(0.057) = 0.1724 Ntese que todos estos valores tambin se pueden sacar usando la tabla de Poisson de probabilidades individuales, es decir, buscando = 0.05 y X = 0, 1, 2, 3, 4. (a) Ms de dos trabajadores sufran de disturbios emocionales P(X > 2) = 1 P(X 2) = 1 P(0) + P(1) + P(2) = 1 (0.0461 + 0.1455 + 0.2259) = 0.5825 (b) Cuando menos 4 dice: P(X 4) = 1 P(X < 4) = 1 P(0) + P(1) + P(2) + P(3) = 1 - .6535 = 0.3465 (c) 5 o ms dice: P(X 5) = 1 P(X 4) = 1 P(0) + P(1) + P(2) + P(3) + P(4) = 1 - .8285 = 0.1715 Ahora, usando la distribucin de Poisson dentro de sus propios derechos necesitamos calcular , es decir, = np = (60)(.05) = 3.0, pero primero vamos a calcular las probabilidades para x = 0, 1, 2, 3, 4 antes de calcular el inciso (a). Usando la funcin (4-1), P(X) = f(x) = x e-/x! y sustituyendo los valores da: P(X = 0) = 3.00 (e-3.0) / 0! = 0.0498 P(X = 1) = 3.01.0 (0.0498)/1! = 0.1494 P(X = 2) = 3.02.0 (0.0498)/2! = 0.2240
4-13
P(X = 3) = 3.03.0 (0.0498)/3! = 0.2240 P(X = 4) = 3.04.0 (0.0498)/4! = 0.1680 (a) Ms de 2 trabajadores sufran disturbios emocionales P(x) = P(X > 2) = 1 P(X 2) = 1 P(x = 0, 1, 2) = 1 0.423 = 0.5770 (b) Cuando menos 4 trabajadores P(X 4) = 1 P(X 3) = 1 0.6472 = 0.3528 (c) 5 o ms trabajadores P(X 5) = 1 P(X 4) = 1 0.8152 = 0.1848 Ejemplo #5. De los tems producidos por una factora, el 3% estn defectuosos. Una muestra de 25 tems se selecciona para una inspeccin. Usar la distribucin binomial y la Poisson y comparar los resultados de los siguientes: (a) Exactamente 4 tems estarn defectuosos (b) 3 o ms objetos estarn defectuosos Solucin: Usando la distribucin binomial: (a) 0.0054 (b) 0.038 Usando la distribucin de Poisson: (a) 0.006 (b) 0.041
4-14
Ejemplo #6. Un promedio de 3 autos arriban a la caseta de cobro de una carretera cada minuto. Si esta tasa es aproximada por un proceso Poisson, cul es la probabilidad de qu, exactamente, 5 autos arribarn en un periodo de un minuto? Solucin: Aqu, = = 3, x = 5 Usando la ecuacin f(x) = x e- / x! y sustituyendo los valores obtenemos: P(X = 5) = (3)5 (e)-3 / 5! = [(243)(.0498)] / 120 = .1008 El valor de .1008 es la probabilidad de que 5 autos arriben en un minuto Ntese que este problema tambin se puede resolver usando la tabla de probabilidades de Poisson, es decir, para valores especficos de y de x que dan una solucin ms fcil y precisa. Para esto, buscamos el valor de = 3 con x = 5 y da 0.9161, pero como la tabla da las sumatorias acumuladas, le restamos 1. Por lo tanto, P(X = 5) = 1 - 0.9161 = .08 ~ .1 (Ver tabla de valores selectos de la distribucin acumulada de Poisson) Ejemplo #7. El 10% de las herramientas producidas en cierto proceso de manufactura son defectuosas. Encontrar la probabilidad de qu, en una muestra de 10 herramientas seleccionadas, aleatoriamente, exactamente, 2 herramientas sean defectuosas. Hacer esto usando: (a) La distribucin de Poisson (b) La distribucin binomial. Solucin: Aqu ponemos n = 10 herramientas. Entonces, probabilidad de una herramienta defectuosa es, p = 10% = 0.10 y np = (10)(0.10) = 1.0, x = 2 (a) Usando la ecuacin de Poisson: p(x) = (x e-) / x! o bien P(x) = x e- / x!
4-15
Donde: p = 0.1, = np = (10)(0.1) = 1.0 Pr{de 2 herramientas defectuosas en 10} = (1.0)2 (e-1) / 2! = 1/2e = 0.1839 (b) Usando la ecuacin de Bernoulli P(X = 2) = nCx px qn-x Donde: n = 10 X=2 p = 0.1 q = 1 - p = 1 - 0.1 = 0.9 P(X = 2) = 10C2 (0.1)2 (0.9)10-2 = 10! / [2!(10-2)!] = 0.19 Ejemplo #8. En este problema aplicar la funcin estadstica ms apropiada. Siendo as, si el 3.0% de los focos elctricos manufacturados por una compaa estn defectuosos, entonces, encontrar la probabilidad de qu, en una muestra de 100 focos: (a) Ningn foco est defectuoso (b) 1 foco est defectuoso (c) 2 focos estn defectuosos (d) 3 focos estn defectuosos (e) 4 focos estn defectuosos (f) 5 focos estn defectuosos Solucin: Aqu es ms apropiado usar la distribucin de Poisson, porque n es grande. Siendo as, p = 0.03, n = 100, = np = (100)(0.03) = 3.0, x = 0, 1, 2, 3, 4, 5 (a) Usando la frmula Poisson p(x,) = x e- / x!, con e-3 = 0.04979 p(x,) = x e- / x!
4-16
p(0,3) = (3.0)0 (e)-3.0 / 0! = (1)( 0.04979) = 0.04979 (b) P(1,3) = (3)1 (e)-3.0 / 1! = (3)(0.04979)/1 = 0.1494 (c) P(2,3) = (3)2 (e)-3.0 / 2! = (9)(0.04979) / 2 = 0.44811 (d) P(3,3) = (3)3 (e)-3.0 / 3! = (27)(0.04979) / 6 = 0.2241 (e) P(4,3) = (3)4 (e)-3.0 / 4! = (81)(0.04979) / 24 = 0.1680 (f) P(5,3) = (3)5 (e)-3.0 / 5! = (243)(0.04979) / 120 = 0.1008 Propiedades de la distribucin de Poisson TABLA 4.1. Tabla mostrando algunas propiedades de la distribucin de Poisson. ________________________________________________________________ Promedio Varianza Desviacin estndar Momento del coeficiente del sesgo Momento del coeficiente de kurtosis (Fuente: Spiegel, 1961) Ejemplo #9. La probabilidad de que una persona muera de un arresto cardiaco, por fumar en exceso, es de 0.002. Encontrar la probabilidad de que menos de 5 personas, de las siguientes 2,000, morirn de un sntoma del corazn. Encontrar, tambin, el promedio y la varianza. Solucin: Primero calculamos el promedio y la varianza. Las frmulas para esto son: = np = (2000)(0.002) = 4.0 2 = npq = (2,000)(0.002)(0.998) = 3.992 = 2 = = 3 = 1/ 4 = 3 + 1/
________________________________________________________________
4-17
Usando la tabla de Poisson y siguiendo este razonamiento da: P(X < 5) = P(X 4) = 0.6288 (de la tabla de Poisson) Ejemplos ilustrando como graficar los datos de la variable aleatoria X Ejemplo #10. Supngase que en un estudio de contaminacin ambiental se instala una red de 3,840 sensores de alto volumen para medir las concentraciones de partculas atmosfricas, menores que 10 micras. Si la probabilidad de que cualesquiera de estos muestreadores falle es de .00083 durante un ao, entonces, determinar las probabilidades de que 0, 1, 2, 3, 4, de los muestreadores fallen durante el ao en cuestin. Hacer una grfica usando papel semilogaritmo. Solucin: Aqu se pudiera usar la distribucin binomial, porque habla de una situacin binaria, es decir, fallar o no fallar. Sin embargo, debido a que n es muy grande y p es pequea, la distribucin Poisson es aplicable. Siendo as, primero calculamos el valor de . = np = (3840)(0.00083) = 3.2 Enseguida, establecemos nuestro punto de partida con la variable aleatoria X, como variable independiente. f(x) = p(x;3.2) = (3.2)x e-3.2 / x! Luego sustituimos los valores de la variable aleatoria X en la frmula de arriba p(0;3.2) = 3.20 (0.041)/0! = 0.041 p(1;3.2) = 3.21 (0.041)/1! = 0.130 p(2;3.2) = 3.22 (0.041)/2! = 0.209 p(3;3.2) = 3.23 (0.041)/3! = 0.223 p(4;3.2) = 3.24 (0.041)/4! = 0.178
4-18
p(5;3.2) = 3.25 (0.041)/5! = 0.114 p(6;3.2) = 3.26 (0.041)/6! = 0.061 p(7;3.2) = 3.27 (0.041)/7! = 0.028 p(8;3.2) = 3.28 (0.041)/8! = 0.011 p(9;3.2) = 3.29 (0.041)/9! = 0.00397 p(10;3.2) = 3.210 (0.041)/10! = 0.0013 Para graficar los datos de la variable aleatoria X (abscisa) y de la probabilidad f(x) = p(x;) (ordenada), se usa papel semilogartmico. Por ejemplo, la Figura 4.1 muestra el uso de papel semilogartmico usado para graficar los valores de la variable aleatoria X (en la abscisa) y de la probabilidad f(x) = p(x;). La grfica con estos valores se muestra abajo. De la Figura 4.1 estimar las siguientes probabilidades. (El estudiante lo deber hacer). (a) La probabilidad de que fallen (inclusivamente), entre 3 y 9 muestreadores (b) La probabilidad de que fallen ms de 8 muestreadores (c) La probabilidad de que fallen (exclusivamente), entre 4 y 6 muestreadores (d) La probabilidad de que fallen ms de 10 muestreadores (e) La probabilidad de que fallen todos los muestreadores (f) La probabilidad de que no falle ningn muestreador
4-19
Figura 4.1. Figura mostrando el uso del papel semilogaritmo graficando los valores de la variable aleatoria X (en la abscisa) y de p(x;) en la ordenada. (Elaboracin propia)
4-20
Problemas de la distribucin de Poisson usando el programa de computadora Minitab Ejemplo #11.Supngase que el nmero X de huracanes observados en la regin del Caribe, durante los ltimos 3 aos tiene una distribucin de Poisson con un promedio de = = 8. Calcular las siguientes probabilidades: (a) La probabilidad de que ocurran a lo ms 8 huracanes. (b) La probabilidad de que ocurran exactamente 8 huracanes. (c) La probabilidad de que ocurran cuando menos 9 huracanes. (d) La probabilidad de que ocurran entre 5 y 8 huracanes incluso. (e) La probabilidad de que ocurran entre 5 y 8 huracanes excluso. (f) La probabilidad de que ocurran a lo ms 8 huracanes, pero ms de 5. (g) La probabilidad de que ocurran ms de 2 huracanes. (h) Hacer grficas de P(X = x) y P(X x) en funcin de x. Solucion: Procedimiento: Primeramente, usando el programa Minitab buscamos las ventanillas sealadas abajo, es decir procediendo como: Calc > Probability distribution > Poisson.. En la ventana de Poisson distribution para la primera corrida punteamos en Probabability y, para la segunda corrida ponemos el punto en Cummulative Probability. En la ventana de Mean ponemos el valor del promedio o igual a 8. En la ventana de Input column ponemos C1 (los valores de la variable aleatoria x = 0, 1, 2,...n). Aqu, es conveniente instruir al programa de que ponga los valores de las probabilidades de funcin de masa (probabilidades individuales P(X = x) en la columna C2. Asimismo, se instruye al programa que ponga las probabilidades acumuladas P(X x) en la columna C3. Una vez, que se corre el
4-21
programa, se genera la tabla de abajo que muestra los resultados.
TABLA 4.2. Tabla mostrando la variable aleatoria x en funcin de la probabilidad, P(X=x) y de la probabilidad acumulada, P(X x). Solucin: (a) P(X 8). Aqu, este problema se puede hacer de dos maneras. Primero, se puede hacer sumando las probabilidades de funcin de masa P(X = x), es decir, de P(X = 0) hasta P(X = 8) de los valores de la columna C2 de la tabla. No obstante, este procedimiento es muy largo e imprctico. Sin embargo, si usamos las probabilidades acumuladas de la columna C3 o de la Figura 4.3, el resultado es precisamente 0.59255. (b) P(X = 8). Este clculo lo hacemos leyendo x = 8 en la columna C2 de la tabla y da 0.1396. (c) P(X 9). Este clculo se hace tomando el complemento. Es decir, P(X 9) = 1 P(X < 9) = 1 0.5925 = 0.4075. (d) P(5 X 8) = 0.492 (e) P(5 < X < 8) = 0.251
4-22
(f) P(5 < X 8) = P(X = 6) + P(X = 7) + P(X = 8) = 0.3159 (de C2) (g) 1 P(X 2) = 0.9863 (h) Ver Figura 4.2 de abajo. Para esto, usar Graph > plot. En la ventana de Graph variables poner C3 en Y y C1 en X. En Edit attributable poner dash y, luego, dash en Line type, etc.
S c a tte r plot of P (X = x) v s X
0.14 0.12 0.10 P(X=x) 0.08 0.06 0.04 0.02 0.00 0 2 4 6 X 8 10 12 14 16
Figura 4.2. Grfica mostrando la probabilidad, P(X = x) en funcin de la variable aleatoria x.

Scatterplot of P(X<=x) vs X
1.0
0.8
P(X<=x)
0.6
0.4
0.2
0.0 0 2 4 6 X 8 10 12 14 16
Figura 4.3. Grfica mostrando la probabilidad acumulada, P(x X) en funcin de la variable aleatoria x.
4-23
4.1. Supngase que X tiene una distribucin Poisson con promedio de 4. Calcular las siguientes probabilidades: a. P(X = 0) b. P(X 2) c. P(X = 4) d. P(X = 8) e. P(X 2) (0.0183) (0.2379) (0.1953) (0.1953) (0.9987)
4.2. Si la probabilidad de que un cheque sea devuelto por el banco es de 0.0003 y 10,500 cheques se cambian, entonces, cul es el nmero promedio ( o ) de cheques fraudulentos? 4.3. La probabilidad de que un individuo sufra de una mala reaccin de una inyeccin es de .001. Determinar la probabilidad que de 2,000 individuos, exactamente 3 sufran una mala reaccin. Hacer este problema usando la distribucin binomial y la Poisson. (Usando la distribucin de Poisson = 0.1893; usando la distribucin binomial = 0.181) 4.4. El nmero promedio (t) de partculas radiactivas que pasan a travs de un contador, durante un milisegundo, en un experimento de laboratorio es de 3. Cul es la probabilidad de que entren 6 partculas en un milisegundo determinado? Sugerencia: usar p(x;t) = e-t (t)x/x! 4.5. Un estudio en una fbrica de aparatos electrnicos llev al gerente a concluir que el nmero de accidentes, por persona, durante cierto ao sigue a la distribucin Poisson. La experiencia demostr que el nmero promedio de accidentes por persona fue de 0.3. Cul es la probabilidad de que un empleado no tendr un accidente durante el siguiente ao? (0.7410)
4-24
4.6. Con referencia al problema 4.5, Cul es la probabilidad de que, un empleado seleccionado, aleatoriamente, tendr cuando menos 1 accidente (X 1) en el siguiente ao? 4.7. Refirindose al problema 4.5: (a) Cual es la probabilidad de que un empleado tendr, exactamente, un accidente? (0.2270) (b) Estimar la probabilidad de que un empleado tendr a lo ms un accidente. 4.8. Asumir que el nmero de autos que arriban a la caseta de cierta autopista sigue a una distribucin de Poisson. Si el nmero promedio de autos que arriban en 1 hora es de 6, cul es la probabilidad de que en 1 hora dada, no llegue ningn auto? 4.9. Refirindose al problema anterior, Cul es la probabilidad de que, exactamente, 5 carros lleguen en 1 hora? carros (X > 5) arriben en 1 hora? 4.11. En un estudio de contaminacin del aire, en las terminales camiones de carga, se sabe que el nmero promedio de camiones que llegan diariamente, a una terminal de camiones de carga es de 3. Para que los complejos habitacionales no se contaminen con los humos de los camiones, se restringe el nmero de camiones que arriban y se establece un lmite de no ms de 8 por da. Hacer una grfica con los resultados y calcular lo siguiente: (a) La probabilidad de que se les niegue la entrada a los camiones cuando el nmero exceda 8. (b) La probabilidad de que arriben entre 2 y 4 camiones, incluso. (c) La probabilidad de que no arribe ningn camin. (d) P(X = 0, 1, 2, 3,....., ) (0.39) (.0012) (0.050) (1.000) (0.1760) 4.10. Refirindose al problema anterior, Cual es la probabilidad de que ms de 5
4-25
(e) Asumiendo que este estudio se hiciera en la poca calurosa, cul sera la diferencia en los resultados, si el estudio se hiciera en invierno: aumentara o disminuira la probabilidad? 4.12. Suponiendo que la probabilidad de que cierto tipo de semilla no germine sea de .04. Si se plantan 25 semillas, Cul es la probabilidad de que 5 o menos semillas no germinen? 4.13. Asumir que el nmero de autobuses que llegan a una terminal siga a un proceso Poisson. Si el promedio de autobuses que llegan durante una hora es de 5, calcular los siguientes enunciados: (a) La probabilidad de que en 1 hora dada no llegue ningn autobs. (b) La probabilidad de que exactamente 5 llegarn en 1 hora. (c) La probabilidad de qu ms de 5 autobuses llegarn en una hora. (0.007) (0.176) (0.384)
4.14. El nmero promedio de carros tanque que arriban cada da a cierto puerto martimo es de 9. Las facilidades portuarias pueden manejar a lo ms 15 carros tanques (X 15) por da. Cul es la probabilidad de que en un da dado tengan que ser regresado los carros tanques cuando el nmero exceda 15? 4.15. En la manufactura de un alambre de cobre, supngase que el nmero de fallas sigue a una distribucin Poisson, con un promedio de 2.3 fallas por milmetro. Calcular la probabilidad de: (a) Tener exactamente 2 fallas en un milmetro del alambre de cobre. (b) Tener 10 fallas en cinco milmetros de alambre. (c) La probabilidad de tener al menos una falla en dos milmetros. (0.2650) (0.113) (.899)
4.16. En un estudio de higiene industrial y seguridad estatal, el nmero de baches en una seccin de una carretera interestatal que requieren de reparacin urgente,
4-26
para evitar accidentes, puede modelarse con una distribucin Poisson. Si la carretera tiene un promedio de 2 baches por milla, entonces: (a) Cul es la probabilidad de que no haya baches que reparar en un tramo de 5 millas? (b) Cul es la probabilidad de que sea necesario reparar al menos 1 bache en un tramo de media milla? 4.17. La probabilidad de que un paciente se recupere de una rara enfermedad es de 0.4. Si se sabe que 15 personas han contrado la enfermedad y asumiendo una distribucin binomial, Cul es la probabilidad de que?: (a) Cuando menos 10 pacientes sobrevivan P(X 10). (b) De 3 a 8 pacientes sobrevivan P(3 X 8) (c) Exactamente 5 pacientes sobrevivan P(X = 5) (0.1859) 4.18. Si el nmero de llamadas telefnicas que un operador recibe en un intervalo de 10 minutos sigue a una distribucin Poisson, con = = 1 (un promedio de de una llamada cada 10 minutos). (Pfaffenberger, et al. 1987). Hacer lo siguiente: (a) Cul es la probabilidad de que la operadora no recibir ninguna llamada en el intervalo de 10 minutos? (b) Cul es la probabilidad de que recibir menos de 4 llamadas? (c) Cul es el nmero ms probable de llamadas que la operadora recibir? 4.19. Suponiendo que tenemos un proceso de produccin de equipo de control de ciclones que deben de tener una eficiencia de recoleccin del 75% y sabemos que la probabilidad de que no cumplan con esta eficiencia es de p = 0.01. Una muestra aleatoria de 100 ciclones se selecciona. Cul es la probabilidad de que haya n ciclones que no cumplan con el 75% de eficiencia en esta muestra? Usar la distribucin binomial y la distribucin de Poisson como una aproximacin. Hacer (0.3380)
4-27
una tabla con los resultados de las dos distribuciones y luego hacer una grafica y comparar los resultados. Tabla mostrando los resultados usando la distribucin binomial y la distribucin de Poisson. (Elaboracin propia) n 0 1 2 3 4 5 6 7 8 9 Distribucin binomial b(x;100,0.01) 0.366 0.032 0.369 0.730 0.184 0.865 0.060 0.999 0.014 0.942 0.002 0.898 0.000 0.463 0.000 0.063 0.000 0.007 0.000 0.001 Distribucin de Poisson p(x;1) 0.367 0.879 0.367 0.879 0.183 0.940 0.061 0.313 0.015 0.328 0.003 0.066 0.000 0.511 0.000 0.073 0.000 0.009 0.000 0.001
4.20. Considrese la produccin de hacer cojinetes de rodamiento (elementos que sirven para soportar y guiar un eje o rbol de transmisin del vehiculo), si la probabilidad de uno de stos, de ser defectuoso, es de 0.01. Si tenemos una muestra de 1000 cojinetes, calcular la probabilidad que haya: (Taro Yamane, 1961) (a) x cojinetes defectuosos (b) 4 cojinetes defectuosos (c) cuando menos 3 cojinetes defectuosos. 4.21. El peridico USA Today (noviembre 15, 1993), report que Parkfield, California, est considerada como la capital del mundo, en cuanto a temblores de tierra debido a que est situada encima de la falla de San Andrs. Desde 1857, Parkfield ha tenido temblores de tierra con un promedio de uno cada 22 aos. (Brase, et al. 1995).
4-28
(a) Explicar porque la distribucin de Poisson sera una buena seleccin para r = nmero de terremotos en un intervalo de tiempo dado (b) Calcular la probabilidad de que cuando menos un terremoto, de grandes magnitudes, ocurra en los siguientes 22 aos. Redondear a las centsimas. (.63) (c) Calcular la probabilidad de que no habr un terremoto de grandes magnitudes en los siguientes 22 aos. Redondear a las centsimas. siguientes 50 aos. siguientes 50 aos. (0.37) (1.0) (0.980) (d) Calcular la probabilidad de que ocurra cuando menos un gran terremoto en los (e) Calcular la probabilidad de que no ocurra un gran terremoto dentro los 4.22. En un estudio de higiene industrial y seguridad se sabe que el nmero de accidentes que pasan en la lnea de ensamblaje tiene un promedio semanal de 3. Encontrar lo siguiente: (a) La probabilidad de que una semana, la lnea de ensamblaje no tendr ningn accidente. (b) La probabilidad de que, cuando menos 3 accidentes ocurrirn en una semana. (c) La probabilidad de que ocurran entre 2 y 6 accidentes excluso. 4.23. En una investigacin relacionada con el ahorro de combustible, en el 40% de los coches no americanos de 4 cilindros, el consumo de gasolina se reduce considerablemente (con relacin a los coches americanos de 6 u 8 cilindros). Si se saca una muestra aleatoria de 15 coches de 4 cilindros, calcular la probabilidad que 4 de estos autos de 4 cilindros sean eficientes en el ahorro de gasolina. Hacer este problema usando la distribucin binomial y la distribucin normal como aproximacin. (B(4;15,0.04) = 0.1268); P(Z < -.7))
4-29
4.24. En un estudio de higiene industrial y seguridad, es decir, en una fbrica de ensamblamientos de carburadores en la fabricacin de autos, el nmero de accidentes en esta planta de ensambles tiene un promedio de 5.0 accidentes por mes. Siendo as, estimar los siguientes enunciados: (a) Cul es la probabilidad de que ocurran 10 accidentes en un mes dado? (b) Cul es la probabilidad de que ocurran cuando menos 2 accidentes? (c) Cul es la probabilidad de que no habrn ms de 25 accidentes en un ao? 4.25. Usando los datos de la tabla de Molina de abajo, para varios valores de X y de mostrar qu, a medida que el valor de (o ) aumenta, las distribuciones de Poisson se aproximan a la distribucin normal. Para esto, hacer una grfica sobrepuesta usando los valores de la tabla de Molina dada abajo. Tabla de Molina mostrando los datos de este problema.
__________________________________________________________________ Variable aleatoria X Valores de Lambda () __________________________________ 0.8 1.0 2.0 3.0 7.0 __________________________________________________________________ 0 0.45 0.37 0.14 0.05 0.00 1 0.36 0.37 0.27 0.15 0.01 2 0.14 0.18 0.27 0.22 0.02 3 0.04 0.06 0.18 0.22 0.05 4 0.01 0.02 0.09 0.17 0.10 5 0.04 0.10 0.13 6 0.01 0.05 0.15 7 0.02 0.15 8 0.01 0.15 9 0.10 10 0.07 11 0.05 12 0.03 13 0.01 14 0.01 15 0.00 ___________________________________________________________________
Fuente: Taro Yamane. Statistics, An Introductory Analysis (1964)
4-30
CAPITULO 5
Distribuciones de probabilidad continua.- Funcin de densidad de probabilidad de la variable aleatoria continua X.- Frmula fundamental del clculo.Distribucin normal y sus caractersticas.- Relacin entre la curva normal y la binomial.- reas bajo la curva normal.- Distribucin exponencial.- Distribucin Gamma.- Distribucin Weibull.- Intervalos de confianza para .- Estadstica de inferencia: teora de decisin estadstica y pruebas de hiptesis.- Pruebas de hiptesis estadsticas. Hiptesis nula (Ho:) e hiptesis alternativas (H1:, H2:, H3:).Tipos de errores I (alfa) y II (beta).- Pruebas de hiptesis no tradicionales usando el valor de la probabilidad p.- Pruebas de hiptesis para uno y dos promedios poblacionales (1, y 2).- Pruebas de hiptesis para las diferencias de dos promedios poblacionales (1 2), para muestras grandes (n 30) usando la distribucin normal, con varianzas conocidas e iguales (21 = 22).- Intervalos de confianza para dos promedios poblacionales.- Pruebas de hiptesis e intervalos de confianza para proporciones. Definicin de variable aleatoria continua Una variable aleatoria X se dice que es continua si, su conjunto de valores posibles es un intervalo completo de nmeros, esto es, si por a < b cualquier nmero X entre a y b es posible. En trminos simples, la variable aleatoria X se define, como la variable aleatoria que contiene un intervalo finito o infinito de nmeros reales. De esta manera, una variable que, tericamente, pueda asumir cualesquier valor entre dos valores dados, es continua; de otra manera es discreta. En general, mediciones dan lugar a datos continuos, mientras que enumeraciones o conteo da lugar a datos discretos. Por
5-1
ejemplo, el nmero de nios en una familia pueden tener valores de 0, 1, 3, 4, pero no pueden tener valores de 2.5, o 3.842. Por otro lado, ejemplos de variables continuas son las alturas de un grupo de personas que se pueden expresar como 62, 63.8 pulgadas, 65.83412 pulgadas, etc. Por ejemplo, decir cuales de los siguientes trminos representan datos discretos o continuos. (a) Nmero de acciones burstiles vendidos cada da en el mercado burstil. Solucin: Aqu la variable es aleatoria discreta. (b) Las temperaturas registradas cada media hora en la oficina de meteorologa. Solucin: Aqu la variable es aleatoria discreta. (c) Las longitudes de 1000 tornillos producidos por una fbrica. Solucin: Aqu la variable es continua. Funcin de densidad de probabilidad de la variable aleatoria continua X Una funcin f(x) es una funcin de densidad de probabilidad de la variable aleatoria cont X para el conjunto de posibles valores de X estn en cualquier intervalo de inua nmeros reales [x1, x2]. Esta funcin llena lo siguiente: (Montgomery et al. 1996) 1. fx (x) 0 2. (5-1) (5-2)
x2 x1 fx(u) -
f(x )dx = 1 du
3. P (x1 X x2) =
(5-3)
Definicin: Dejemos que X sea una variable aleatoria continua, entonces la distribucin de probabilidad o funcin de densidad de probabilidad de X es una funcin f(x) de tal manera que, para cualesquier dos nmeros a y b con a b, entonces:
5-2
P(a X b) =
b a
f(x) dx
(5-4)
Para que la funcin de densidad de probabilidad sea vlida debe de satisfacer las siguientes dos condiciones: 1. f (x) 0 para todas las xs 2.
-
(5-5) (5-6)
f (x) dx = rea bajo la grfica completa de f (x) = 1 Frmula fundamental del clculo
Dejemos que f sea una funcin que se define en el intervalo cerrado de [a, b], entonces, el integral definido de f de a a b, denotado por a f(x) dx se da por:
b
f (x) dx = lim f (wi) xi

||P||0
(5-7)
Cualquier antiderivada de f(x) puede ser usada para evaluar el integral (5-7). Entonces, si F es una antiderivada de f, usamos la frmula de abajo:
f (x) dx = F(b) F(a)
(5-8)
Para computar la funcin de arriba F(b) F(a) introducimos la relacin:
f (x) dx = F (x) a = F (b) F (a)
(5-9)
Ejemplo #1. Si una variable aleatoria tiene la densidad de probabilidad de: F (x) {e-2x para x > 0, o para x 0}
5-3
Determinar las probabilidades de que la variable aleatoria X adopte un valor de: (a) Entre 1 y 3 (b) Mayor que 0.5 (c) A lo ms 3 Solucin: Usando P(a X b) =
b a
f(x) dx
Intervalo [1, 3]
(a) (b)
3 1
e-2x dx = (-0.5) [e-2 e-6] = 0.067 e-2x dx e-2x dx = (-0.5) [e-6 1] = 0.5
0.5
Intervalo [0.5, ]
(c)
3 0
Intervalo [0, 3]
Ejemplo #2. Simbolizar con X la cantidad de tiempo de incubacin de bacterias en un plato de prueba durante 2 horas. Supngase que la variable aleatoria X tiene funcin de densidad de f (x) = 0.5x, para el conjunto posible de valores de X en el intervalo (0 X 2). Siendo as, calcular las siguientes probabilidades: (a) P (X 1) (b P (.5 X 1.5) (c) P (1.5 < X) Solucin:
5-4
(a)
1 0 2
0.5x dx = 0.5 (x /2)0 = 0.5 (0.5 0/2) = 0.25

1.5 2
(b)
1.5 0.5
0.5 x dx = 0.5 (x /2)0.5 = (0.5)(1.125 - .125) = 0.5

2.0 2
(c)
2.0 1.5
0.5 x dx = 0.5(x /2) 1.5 = 0.5(2.0 1.125) = 0.44
Ejemplo #3. Supngase que el error en la reaccin de temperatura, en oC, de una incubadora de un laboratorio de bacteriologa, para la incubacin de un plato de agar, es una variable X continua que tiene una densidad de probabilidad de f(x) = x2/3, donde X puede asumir valores de entre (-1 < X 2). Encontrar la probabilidad de densidad de que la temperatura est entre 0 oC y 1 oC. Solucin: Aqu queremos encontrar P(0 < X 1) en el intervalo [0,1]. Entonces P(0 < X 1) =
1 0 2 3 1
x /3 dx = x /9 0 = 1/9
Ejemplo #4. La proporcin de industrias que responden a cierto cuestionario ecolgico (voluntario, pero que, actualmente, va a ser obligatorio) es una variable aleatoria continua X cuya funcin de densidad es f(x) = 2(x + 2)/5. Esta funcin tiene una variable aleatoria X puede asumir valores de 0 < X < 1. Hacer lo siguiente: (a) Mostrar que P(0 < X < 1) = 1 (b) Encontrar la probabilidad de que ms de 25%, pero menos que 50% de las industrias contactadas respondern voluntariamente a esta solicitacin. Solucin:
5-5
(a) Usando la relacin matemtica de f(x) y g(x) cuyas funciones son continuas y tienen una antiderivada en el intervalo [a, b], siendo as, entonces, usamos la funcin (5-10) de abajo y sustituyendo da:
b a b a b a g(x)
[f(x) + g(x)] dx = (2x/5 + 4/5) dx =
f(x) dx +
dx
(5-10)
1 0
1 0
2x/5 dx +
1 1
1 0
4/5 dx = 2x2/(2)(5) + 4x/5
= x2/50 + 4x/5 0 = [1/5 0] + [4/5 0] =1 (b) Aqu el intervalo es [0.25 < X < .50]. Esto dice que, a = 0.25 y b = 0.50 Por lo tanto:
.50 .25 (2x/5 2 .50 .50 .25
+ 4/5) dx = x /5 .25 + 4x/5
= [(0.5)2 /5 (0.25)2/5] + [4(0.5)/5 4(0.25)/5] = 19/80 La distribucin normal La distribucin normal es el ejemplo ms importante de una distribucin de probabilidad continua. Abraham De Moivre (1667-1754) la inici en 1733. Desafortunadamente, su trabajo se perdi y, casi 100 aos despus, Karl Gauss (17771855) y Pierre Simon, Marques de Laplace desarrollaron, de manera independiente, la distribucin normal. Por esta razn, a la distribucin normal tambin se le llama distribucin Gaussiana. Caractersticas de la distribucin normal 1. Es simtrica alrededor de su promedio y en forma de campana.
5-6
2. El promedio, la mediana y la moda son iguales. 3. El rea total bajo la curva es igual a uno. El 50% de las observaciones estn a la derecha del promedio y el otro 50% de las observaciones estn a la izquierda del promedio. 4. La distribucin normal se determina completamente por sus parmetros y . Cuando = 0 y = 1 la distribucin normal est en su forma estandarizada. La distribucin normal es realmente una familia de distribuciones distinguida una de la otra por los valores de y de . Sin embargo, el miembro ms importante de esta familia de distribuciones es la que tiene un promedio de 0 y una desviacin estndar de 1. La ecuacin de la distribucin normal estndar se escribe como: f (z) = 1/ 2 exp -0.5 z 2 -<z<+ (5-11)
Usualmente, se usa la letra minscula z por la variable aleatoria que resulta. reas bajo la curva normal La curva de cualquier distribucin continua de probabilidad o funcin de densidad se constituye de tal modo que, el rea est limitada por los dos puntos x = xi y x = x2 y es igual a la probabilidad de que la variable aleatoria X asuma un valor entre x = xi y x = x2. Entonces, el rea para la curva normal se da por la funcin (Walpole et al. 1992): P(x1 < X < x2) =
X2
x1
n (x;,) dx
(5-12) (5-12a)
= 1/ 2
x2 x1
exp-(0.5)[(x-)/]2 dx
Sin embargo, es difcil resolver las integrales de las funciones de densidad normal, debido a que no se pueden integrar en forma cerrada, entre cada par de lmites de a y b. Debido a esta situacin se hace necesario la tabulacin de las reas de la curva
5-7
normal. De cualquier manera, la tabla de la distribucin normal estndar con = 0 y = 1 y sus entradas son los valores de: F(z) = 1/ 2
exp [-0.5 t2] dt
(5-13)
Adems, sera muy difcil hacer una tabla por separado para cada valor de y . Afortunadamente, es posible transformar todas las observaciones de cualquier variable aleatoria normal X a nuevo conjunto de observaciones de una variable aleatoria normal z con promedio de 0 y varianza de 1. Las transformaciones se hacen usando la frmula de la variable aleatoria normal estandarizada z que se usa para transformar cualquier variable aleatoria normal X con promedio y desviacin estndar a la distribucin normal estandarizada. Esta frmula para calcular las probabilidades de cualquier distribucin normal (no estandarizada) se da como: X Z = Su estimador de la muestra es: z = (X X ) / s (5-15)
(5-14)
Como se dijo arriba, hay tablas que dan los resultados de la integracin, por lo tanto, no tenemos que hacer la integracin para calcular las probabilidades. En cuanto a las propiedades de la distribucin normal, stas se dan en la TABLA 5.0 de abajo.
5-8
TABLA 5.0. Tabla mostrando las propiedades de la curva normal o Gaussiana. _________________________________________________________________ Promedio aritmtico Varianza 2 Desviacin estndar Momento del coeficiente del sesgo 3 = 0 Momento del coeficiente de kurtosis 4 = 3 Desviacin del promedio aritmtico 2/ = 0.7979 _________________________________________________________________ (Fuente: Spiegel, 1961) La grfica de la curva normal se muestra en la figura de abajo. De la grfica puede verse que, la curva es en forma de campana, es simtrica con respecto a la lnea dibujada perpendicularmente, al eje horizontal en el promedio . La grfica va en funcin de la frecuencia relativa y las desviaciones estndares. La desviacin estndar determina el esparcimiento de la curva. A medida que hay ms variacin en una muestra o en una poblacin, la curva se hace ms achatada. El rea total bajo la curva es de 100%. Las grficas de abajo muestran la distribucin normal en diferentes formas.
Figura 5.1. Esquema mostrando las reas bajo la curva normal. (Brase et al. 1995) De la Figura 5.1, se ve que, aproximadamente, el 68.27% de los valores de los datos
5-9
estn dentro de una desviacin estndar a cada lado del promedio; aproximadamente, el 95.45% de los valores estn dentro de dos desviaciones estndar en cada lado del promedio; y aproximadamente, el 99.73% de las observaciones estn dentro de tres desviaciones estndar del promedio.
Figura 5.2 . Esta figura muestra las reas correspondientes a valores de z = 1, z = 2 y z = 3, correspondientes a las probabilidades de 68.27%, 95.45% y 99.73%, respectivamente. (Elaboracin propia).
De la Figura 5.2, ntese que, en trminos de frecuencia relativa, la probabilidad entre z = 0 y z = +1, es igual a .3413; la probabilidad entre z = +1 y z = 2 es igual a .1359 y, la probabilidad entre z = +2 y z = +3 es igual a .0228. Por simetra el rea total es 1.
Distribucin normal estndar Como se dijo anteriormente, la distribucin de una variable aleatoria normal, con promedio igual a 0 y varianza igual a 1, se llama distribucin normal estndar y se denota con la variable aleatoria normal estandarizada Z = (X )/. Sin embargo, cuando se conoce el promedio y la desviacin estndar, se llama distribucin normal no estandarizada. Aqu, es importante distinguir las diferencias entre la curva normal estndar y la no estndar. Ejemplo #5. Dada una distribucin normal estndar, encontrar el rea bajo la curva
5-10
que est entre z = -1.97 y z = 0.86. Solucin: El rea entre z = -1.97 y z = 0.86 se denota como: P(-1.97 < z < 0.86) = P(z < 0.86) P(z < -1.97) = 0.8051 0.0244 = 0.7807 (de la tabla de la distribucin normal) Los valores de la probabilidad que corresponden a la variable estandarizada z son de z = 0.86 y z = -1.97 y se encuentran el la tabla de la distribucin normal. Ejemplo #6. Dada una distribucin normal, con = 50 y = 10. Encontrar la probabilidad de que X est entre 45 y 62. Solucin: Primeramente, aqu estamos hablando de todo el conjunto, no de una muestra. Para esto transformamos los valores de X a valores de Z usando la frmula de la variable aleatoria estandarizada (5-14), Z = (X ) / . Los valores de Z correspondientes a X = 45 y X = 62 se hacen usando esta frmula. Sustituyendo los valores da: Z45 = (45 50)/10 = -0.5 Y Z62 = (62 50)/10 = 1.2 = P(Z < 1.2) - P(Z < -0.5) = 0.8849 0.3085 = 0.5764 Ejemplo #7. Se saca una muestra aleatoria de una distribucin normal poblacional y se calcula un promedio de X = 300 y una desviacin estndar de 50. Encontrar la probabilidad de que X asuma un valor mayor que 362. Solucin: Por lo tanto: P(45 < X < 62) = P(-0.5 < Z < 1.2)
5-11
Primeramente, aqu se nota qu, ya no estamos hablando de una poblacin usando , como el promedio y como la desviacin estndar. Ahora usamos la variable normal estandarizada de la muestra de z = (X X )/s, la cual es el estimador de la variable Z = (X )/. Siendo as, primero transformamos X = 362 al valor correspondiente de z usando la frmula anterior. (Ntese que en este caso usamos la frmula de la variable estandarizada z como el estimador de la variable Z poblacional, esto es, z = (X
X )/s).
z362 = (362 300)/50 = 1.24 Por lo tanto, P(X > 362) = P(z > 1.24) = 1 P(z < 1.24) = 1 0.8925 = 0.1075 La distribucin normal es una distribucin de probabilidad continua (en contraste con la Poisson, binomial, hipergeomtrica, geomtrica, etc., que son distribuciones de probabilidad discretas). Esto quiere decir que, los resultados de un experimento de probabilidad consisten de un innumerable e infinito conteo de valores. As, una distribucin de probabilidad continua nos permite medir nuestra variable a cualquier grado de precisin requerida y est asociada con variables aleatorias continuas. En contraste, las distribuciones de probabilidad discreta son como la distribucin binomial o de Bernoulli y la Poisson, las cuales estn asociadas con variables aleatorias discretas. Las variables discretas son mediciones precisas. Ejemplos de variables discretas son el tamao de una familia o el nmero de autos que se tienen, o el nmero de estudiantes de una clase. Todas estas son variables discretas. Esto quiere decir que, cuando algo se puede medir con precisin, entonces, es una variable discreta. En contraste, las variables continuas no se pueden medir, precisamente,
5-12
cuando incrementamos la precisin de la medicin sacamos un sistema de conteo ms fino. Una variable continua no viene en paquetes de unidad, sino que mide o representa un grado de precisin arbitrario, es decir, redondeado. Ejemplos de variables continuas son los pesos, la temperatura, la altura, las densidades, etc. Relacin entre la curva normal y la binomial Si n es grande y, si ni p ni tampoco q estn cercanas a cero, la distribucin binomial puede aproximarse a la normal, con la variable estandarizada dada por la funcin estadstica z = (x np)/ npq. La aproximacin normal a la distribucin binomial es buena si n es bastante grande con respecto a p. En particular, esto es cierto cuando np > 10 y n(1 - P) > 10. Para hacer las aproximaciones binomiales usando la distribucin normal, se usa la variable aleatoria estandarizada z. (Cul versin de la variable aleatoria de z se usara: la variable aleatoria estandarizada de z poblacional o la variable aleatoria estandarizada de z muestral?). Por otra parte, Lapin (1982) recapitula el hecho de que la grfica de la distribucin binomial tiende a la distribucin normal a medida que n aumenta. Esto sugiere qu, para muestras de tamaos grandes, la distribucin binomial se aproxima a la normal. Lapin da las guas aceptadas para usar las aproximaciones normales, de acuerdo a la regla popular de que la aproximacin normal a la distribucin binomial es adecuada, siempre y cuando, np 5 y n(1 p) 5. La TABLA 5.1 muestra las guas comnmente aceptadas para usar la aproximacin normal a la distribucin binomial. Sin embargo, se argumenta que algunos estadsticos insisten de que tamaos de muestras ms grandes que los dados en la TABLA 5.1 deben ser usados antes de que la aproximacin sea aceptable. Esto se debe a que, el sesgo de la distribucin binomial es tan pronunciado para tamaos de p grandes o pequeos de tal
5-13
manera que, la forma de campana se asume por la distribucin binomial, solamente, para un tamao de n muy grande. TABLA 5.1. Tabla mostrando las guas ms comnmente aceptadas para usar la aproximacin normal a la distribucin binomial. ___________________________________________________________________ Siempre que p iguale a: Usar la aproximacin normal, solamente, si n no es ms pequea que: ___________________________________________________________________ .5 10 .40 o .60 13 .30 o .70 17 .20 o .80 25 .10 o .90 50 .05 o .95 100 .01 o .99 500 .005 o .995 1,000 .001 o .999 5,000 __________________________________________________________________ Fuente: Statistics for Modern Business Decision. Lawrece L. Lapin (1981). Los siguientes ejemplos calculan las probabilidades para la distribucin normal estandarizada Ejemplo #8. Cul es el rea, la probabilidad, proporcin o el porcentaje de encontrar un valor de z bajo la curva o distribucin normal entre los valores de z = -1.73 y z = +2.45? Dibujar la grfica. Solucin: Delinear el intervalo de la variable aleatoria z, esto es, (-1.73 z 2.45) razonando de la siguiente manera: P(-1.73 z 2.45) = P(z 2.45) P(z -1.73) Buscando z = 2.45 en la tabla de la distribucin normal da una probabilidad de .9929.
5-14
Enseguida, se hace lo mismo con el valor de z = -1.73 y da una probabilidad de .0418. Por lo tanto: P(-1.73 z 2.45) = P(z 2.45) P(z -1.73) = .9929 - .0418 = .9511
Figura 5.3. Grfica de la curva normal para el Ejemplo #8. (Elaboracin propia) Ejemplo #9. Cul es la probabilidad, en la curva normal entre un valor de z = -1.54 y un valor de z = -.76? Solucin: P(-1.54 z -.76) = P(z -.76) P(z -1.54) = .2236 - .0618 = .1618 (de la tabla de z) Ejemplo #10. Cul es el rea bajo la curva normal a la izquierda de z = -1.96? Solucin: En la tabla de la distribucin normal se busca el valor de la variable aleatoria z = -1.96 y da .025 es decir, P(z < -1.96) = .0250 Ejemplo #11. Cul es el rea bajo la curva normal a la izquierda de un valor de z = 1.42?
5-15
Solucin: Se busca el valor de z = 1.42 en la tabla de z y da .9222. Esto es lo mismo que, rea requerida de .5000 + .4222 = .9222. Ejemplo #12. Encontrar la probabilidad de que la variable Z est entre -05 y 1.25. Solucin: P(-0.5 < Z < 1.25) = 1.0 0.3085 0.1056 = 0.5859 La Figura 5.4 muestra esquemticamente esta situacin.
Figura 5.4. Figura mostrando la probabilidad de P(-05 < Z < 1.25). (Elaboracin propia) Los siguientes problemas calculan las probabilidades para cualquier variable normal distribuida usando la variable estandarizada Z = (X - )/ y/o su estimador estadstico correspondiente, z = (X - X )/s. Ejemplo #13. Si X es una variable normalmente distribuida, con un promedio aritmtico de X = 24 y una desviacin estndar de 3, cul es el valor de la variable normal estandarizada (tipificada), z que corresponde a un valor de X = 19? Solucin: Primero transformamos (estandarizamos) el valor de X = 19 a valores de z, es decir: z19 = (X - X )/s = (19 - 24)/3 = -1.67 Aqu, se nota que, el valor de X = 19 est 1.67 desviaciones estndar abajo del promedio de 24.
5-16
Ejemplo #14. Si X es una variable normalmente distribuida, con un promedio aritmtico de 150 y una desviacin estndar de 24, cul es el valor de z correspondiente a un valor de X = 182? Solucin: z182 = (182 - 150)/24 = 1.33 Este valor de 182 est a 1.33 desviaciones estndar arriba del promedio de X = 150. Ejemplo #15. Si X es una variable normalmente distribuida, con un promedio de 100 y una desviacin estndar de 15, calcular la probabilidad de: P(70 < X < 130). Solucin: Primero transformamos (estandarizamos) los valores de X = 70 y X = 130 a valores de la variable aleatoria z. Esto es: z70 = (70 - 100)/15 = -2.00 z130 = (130 - 100)/15 = 2.00 El valor de z correspondiente al intervalo (70 < X < 130) es de (-2.00 < z < +2.00) y la probabilidad es: P(70 X 130) = P(-2.0 z 2.0) = P(z 2.0) P(z -2.0) = .9772 - .0228 = 0.9544 Aqu, se puede ver qu, sin consultar la tabla de la z, ya sabemos que, a 2.0 unidades de z arriba del promedio estn comprendidas el 97.72% de las observaciones. Similarmente, a -2.0 unidades abajo del promedio estn comprendidas el 2.28% de las observaciones; por lo tanto, .9772 - .0228 = 0.9544. La Figura 5.5 muestra esto.
5-17
Figura 5.5. Grfica mostrando la curva normal para este problema. (Elaboracin propia). Ejemplo #16. En una investigacin de higiene industrial y seguridad, relacionada con un proceso industrial, se requiere una aptitud mental muy alta. Para esto, los trabajadores se sometieron a una prueba del coeficiente de intelecto (IQ). Si se saca una muestra al azar que da X = 120 puntos y s = 20 puntos, Cul es la probabilidad de que un trabajador seleccionado tendr un valor de coeficiente de intelecto que est entre 80 y 140 puntos? Solucin: Aqu estamos buscando la probabilidad de P(80 < X < 140) = P(-2.00 < z < +1.00). Por lo tanto, el rea total o la probabilidad requerida es igual a 0.8185. Esto dice que, cerca del 82% de la poblacin tiene un IQ de esta prueba del intelecto que est entre 80 y 140 puntos. Ejemplo #17. Si una muestra aleatoria de una poblacin normal de intensidades de viento, en m/segundo, tiene un promedio de 10 m/seg y una varianza de 4: (a) Qu porcentaje y/o probabilidad de las intensidades del viento caen entre 9 y 14 m/seg.? (b) Entre 13 y 15? Solucin:
5-18
(a) % = (rea de - a 2) - (rea de - a -.5) = .9772 - .3085 O sea: P(9 X 14) = P(-0.5 z 2) = 0.9772 - 0.3085 = 0.6687 = 66.87% Aqu, se nota que, si el valor de s es igual a 2, por lo tanto, hay 2 unidades de desviacin estndar para los valores de X = 14 y X = 9, es decir, a la derecha e izquierda del promedio. (b) Aqu estamos diciendo que 13 est a 1.5 unidades abajo del promedio y 15 est a 2.5 unidades arriba del promedio. Esto es: P(13 X 15) = P(1.5 z 2.5) = .9938 .9332 = 0.06 = 6% Encontrando los valores de z dando las probabilidades Ejemplo #18. Un rea de .4370 est bajo la curva normal entre el promedio y un valor positivo de z. Cul es el valor de z? Solucin: Buscando el valor de 0.4370 en la tabla de la z vemos que corresponde a z = +1.53. Ejemplo #19. Un rea de .4808 est bajo la curva normal entre el promedio y un valor de z negativo. Cul es el valor de z? Solucin: Buscamos el valor de .4808 en la tabla y da z = -2.07. Ejemplo #20. El 90% de la distribucin de partculas atmosfricas de una curva normal est a la izquierda de un valor de z en particular. Cul es el valor de z? Solucin: El valor de z debe de estar a la derecha del promedio, porque el 50% de la distribucin est a la izquierda del promedio. Eso deja 0.400 de la curva entre el promedio y el valor requerido de z. De manera que, ahora tenemos que encontrar el valor de z que corresponde a una rea de .400 en la tabla de la curva normal (.900 -
5-19
.500). Sin embargo, aqu vemos que no hay entrada de 0.4000, no obstante, lo ms cercano es .3997 que corresponde al valor de z = 1.28. Encontrando los valores z del punto de expansin para variables normalmente distribuidas Ejemplo #21. Calcular dentro de que rango estarn comprendidas el 95% de las observaciones centrales o de en medio, si el promedio es de 10 y la desviacin estndar es de 2. Hacer una grfica. Solucin: Aqu, vamos a usar la relacin: X = X z (s), con X = 10.0 y s = 2.0, es decir: 10 1.96 (2) = 10 3.92 para dar (6.08 X 13.92). La figura de abajo muestra esta situacin.
Figura 5.6. Grafica mostrando los resultados de este problema. (Elaboracin propia) Ejemplo #22. Si X = 10 y s = 2, Dentro de que rango estn comprendidas el 99% de las observaciones de en medio de la curva normal? (b) El 90%? Solucin: Usando la relacin X = X z.01 (s) y sustituyendo da: (a) X = X z.01(s) = 10 2.57(2) = (4.85 X 15.15)
5-20
Figura 5.7. Grfica mostrando los resultados del ejemplo #22. Ejemplo #23. Si X = 20 y s2 = 9, dentro de que rango estn comprendidas: (a) El 99% de las observaciones de en medio de la curva normal? (b) El 90%? (c) El 80%? Solucin: Usando la relacin X = X z.01 (s) y sustituyendo da: (a) X = X z.01(s) = 20 2.57(3) = 20 7.41 = (12.29 X 27.31) (b) Usando la relacin X = X z0.1(s) y sustituyendo da: X = X z0.1(s) = 20 1.645(3) = 20 4.935 = (21.96 X 24.94) (c) Usando la relacin X = X z0.05 (s) y sustituyendo da: X = X z0.20 (s) = 20 1.28 (3)
5-21
= 20 3.84 = (16.16 X 23.84) Problemas ilustrando las aproximaciones normales a la distribucin binomial Ejemplo #24. Una mquina produce tornillos de los cuales 10% son defectuosos. Encontrar la probabilidad de que, en una muestra aleatoria de 400 tornillos producidos por esta mquina: (a) A lo ms 30 tornillos estarn defectuosos (b) Entre 30 y 50 estarn defectuosos (c) Entre 35 y 45 estarn defectuosos (e) 55 o ms tornillos estarn defectuosos Solucin: Primero se calcula el promedio y la desviacin estndar: = np = (400)(0.1) = 40 y = npq = [(400)(0.1)(.90)]0.5 = 6.0 Enseguida, se calcula el valor de la variable aleatoria Z usando la relacin: Z = (X ) / . (a) P(X 30). Para calcular esto, primero se transforma el valor de 30, a valores de Z usando la funcin de arriba, es decir, Por lo tanto: Z30 = (30 40)/6.0 = -1.67
P(X 30) = P(Z -1.59) = 0.0559 (b) P(30 X 50). Para calcular esto, primero transformamos los valores de 30 y 50 a valores de Z, es decir, Z30 = (30 40) / 6.0 = -1.67; Z50 = (50 40) / 6.0 = 1.67
5-22
Por lo tanto, P(30 X 50) = P(X 50) P(X 30) = P(Z 1.59) - (Z -1.59) = .9441 - 0.0559 = .8882 (c) La probabilidad de qu, entre 35 y 45 tornillos estn defectuosos, es, P(35 X 45). Para esto, primero transformamos los valores de X a valores de Z. Z35 = (35 40)/6.0 = -0.83 y Z45 = (45 40)/6.0 = 0.83. Por lo tanto, P(35 X 40) = P(-1.59 Z 0.79) = .7852 - .0559 = 0.7293 (e) Primero estandarizamos el valor de X = 55 a valores de Z. z55 = (55 40) / 6.0 = 2.50 que corresponde a una probabilidad de .9938. Por lo tanto: P(X 55) = 1 P(X 55) = 1 - .9938 = .0062 Ejemplo #25. La probabilidad de que X asuma un valor exacto de 4 se da abajo, esto es, usando la distribucin binomial. P(X = 4) = B(4;15,0.4) = 0.1268 Siendo as usar la distribucin normal como una aproximacin: Solucin: Primero se calcula el valor del promedio, = np y da = (15)(0.4) = 6. La desviacin estndar es = npq = (15)(0.4)(0.6) = 1.897. Adems, X = 4 puede asumir valores de 3.5 y 4.5. Enseguida, transformando los valores usando la variable aleatoria normal Z da:
5-23
Z3.5 = (3.5 6) / 1.9 = -1.32 y Z4.5 = (4.5 6) / 1.9 = -0.79 Si X es una variable aleatoria binomial y Z es una variable normal, entonces: P(X = 4) = B(4;15,0.4) P(-1.32 < Z < -0.79) = P(Z < -0.79) P(Z < -1.32) = 0.2148 0.0934 = 0.1214 Este valor sacado usando la distribucin normal como una aproximacin a la distribucin binomial est muy cercano al de 0.1268 calculado por la distribucin binomial. Distribucin exponencial La distribucin exponencial es una distribucin continua de probabilidad para describir el tiempo que se tarda en realizar una actividad. Esta distribucin es un caso especial de la distribucin gamma. Esta funcin se usa para modelar las vidas de las bateras, de transistores, de valeros, etc. Tambin se usa para modelar la distancia entre los principales defectos en una carretera, etc. A pesar de que la distribucin exponencial es continua, esta distribucin est cercanamente relacionada con la distribucin de Poisson, que es discreta. Esto ocurre en el sentido que, una variable aleatoria Poisson cuenta el nmero de ocurrencias de un evento durante un intervalo de tiempo dado. En contraste la variable aleatoria exponencial X que puede ser usada para medir el tiempo que transcurre antes de la primera ocurrencia de un evento, donde las ocurrencias del evento siguen a una distribucin Poisson. Equivalentemente, una variable aleatoria exponencial puede ser usada para medir el tiempo que transcurre entre las ocurrencias de un evento Las aplicaciones de la distribucin exponencial, a la ingeniera ambiental son varias. Por ejemplo, se puede usar para modelar el tiempo que se tardan los pesticidas en degradarse en la tierra o para medir el tiempo en que se toma en degradarse una
5-24
sustancia radiactiva. Igualmente, es til para medir la cintica de la que tardan las partculas atmosfricas en caer a la superficie de la tierra.
demanda
bioqumica de oxgeno (DBO5). Anlogamente, se puede usar para medir el tiempo Una variable aleatoria continua X se dice que est exponencialmente distribuida si su funcin de densidad es: f (x) = e-x para X 0, 0 (5-16)
Donde: es un parmetro de la distribucin, y e una constante igual a 2.71828

X y s de la variable aleatoria exponencial X son E(X) = 1/ y V(X) = 1/ ,
2 2
respectivamente. Se puede demostrar que el promedio y la desviacin estndar de una distribucin exponencial son iguales el uno al otro, esto es: = = 1/. Por otro lado, Keller et al. (1990) afirma que, en el caso de una variable aleatoria exponencial X, se puede demostrarse que la probabilidad de que X pueda tomar un valor ms grande que un nmero especificado no negativo a, es e-a. Esto se puede expresar usando clculo integral, es decir: P(X a) =
a e
-x
dx = -e
-x
| a = e-a
(5-16a)
El clculo de las funciones exponenciales involucra la evaluacin de integrales de probabilidad entre los lmites de a y b. Para esto, se da una tabla de probabilidades exponenciales. Las siguientes frmulas se usan con esa tabla. P(a X b) = e-a e-b P(X a) = 1 e-a P(X a) = e-a un solo parmetro, , las cuales se muestran en la Figura 5.8. (5-17a) (5-17b) (5-17c)
La distribucin exponencial es una familia de distribuciones modificadas por
5-25
Figura 5.8. Grficas de tres distribuciones exponenciales. Fuente: Devore (2000) Ejemplo #26. Supongamos que el tiempo promedio que se tarda una sustancia radiactiva en degradarse es de = 15 y su funcin de densidad es f(x) = 1/15 e-x/15. Si los valores de la variable aleatoria x son 5, 15, 25, 35, y 45, calcular las siguientes probabilidades: (a) A lo ms 6 aos (b) Entre 6 y 18 aos Solucin: (a) Usando (5-17b) con = 1/, es decir, = 1/15 y a = x = 6 y sustituyendo en la funcin P(X a) = 1 e-a, da: P(X 6) = 1 e-(6/15) = 0.3297 (b) Usando la funcin (5-17a) y sustituyendo da: P(Tiempo de cada 6 X 18 aos) = .6988 - .3297 = .3691 Ejemplo #27. Refirindose al Ejemplo #26, Cul es la probabilidad de que la degradacin de la sustancia radiactiva dure cuando menos 10 aos. Solucin: Usando la funcin (5-17c), es decir: P(X a) = e-10/15 = 0.51
5-26
Figura 5.9. Grficas mostrando los resultados para (a) y (b), del ejemplo #26. Ejemplo #28. El tiempo requerido para que ocurra una reaccin qumica est exponencialmente distribuida con un tiempo esperado de 5 minutos. (a) Qu proporcin de la sustancia se formar dentro de 1 minuto? (b) En 5 minutos? (c) Entre 4 y 8 minutos? (d) Si la cantidad de la sustancia qumica es de 5.00 gramos, cunto es lo que se va formando en cada uno de los intervalos? (El lector lo har) Solucin: Usaremos intervalos de 1 minuto para calcular la probabilidad. Por lo tanto, debido a que la reaccin se hace en 5 minutos en promedio (pensamos de esto producindose en 5 intervalos continuos de un minuto) el nmero esperado de produccin en un minuto es 1/5 = .20 = (o sea el nmero esperado de ocurrencias en 1 minuto). La variable aleatoria X se define como el tiempo, en minutos, requerido para completar la reaccin. Por lo tanto: (a) P[X 1] = 1 e-(0.20(1) = 0.8187 = 81.87% (Usando la frmula 5-17b) (b) P[X 5] = 1 e-(0.20)(5) = 0.3679 = 36.87% (usando la frmula 5-17b) (c) P[4 < X < 8] = e-(0.20)(4) e-(0.20)(8) = 0.2474 (usando la frmula 5-17a) (d) 4.09 g., 1.84 y 1.23 g, respectivamente.
5-27
Distribucin gamma continua A pesar de que la distribucin normal puede resolver muchos problemas en ingeniera, hay otras situaciones que requieren de diferentes tipos de funciones de densidad. Funciones como stas son la exponencial, la gamma, la Weibull, la beta, etc. Hay muchas situaciones en que la variable de inters, para el experimentador, pueda tener una distribucin oblicua. Siendo as, entonces, una familia de funciones de probabilidad de densidad (pdf) que dan una amplia variedad de distribuciones sesgadas es la familia de distribuciones gamma. Como se dijo antes, la distribucin gamma es un caso especial de la distribucin exponencial. Las funciones exponenciales y la funcin gamma juegan un papel muy importante en la teora de filas que esperan el orden de su llegada. La distribucin gamma puede ser vista como una distribucin gamma estandariza o como una distribucin gamma no estandarizada. Si una variable aleatoria continua x tiene una distribucin gamma, con parmetros y , entonces, para cualquier x > 0 la distribucin acumulada de frecuencia (cdf) de x est dada por: P(X x) = F(x;,) = F(x/;) Donde: es el primer parmetro de forma que define la distribucin gamma es el parmetro de escala que define la distribucin gamma (porque valores mayores que la comprimen o estiran la funcin de probabilidad de densidad (pdf) en la direccin de x); F(x/;) es una funcin de gamma incompleta. En la familia de distribuciones gamma una variable aleatoria continua X se dice que tiene una distribucin gamma no estandarizada si la pdf de X es: f(x;,) = {1/ () x-1 e-x/ x 0 (5-19) (5-18)
5-28
o de otra manera Donde los parmetros y satisfacen > 0 y > 0 Si se pone = 1 la expresin (5-19) se reduce a la forma de de la distribucin gamma estndar descrita abajo. f (x;) =
x 0
x-1 e-x / () dx x > 0
(5-20)
La funcin (5-20) se llama funcin de gamma incompleta, cuando no tiene el denominador con () en el integrador. Cuando se usan las funciones (5-19) y (5-20) la tarea se facilita usando la tabla de la distribucin gamma, con valores de = 1, 2, 3,,10 y de x = 1, 2,,15. El promedio y la varianza de la distribucin gamma son, respectivamente: E(X) = = y V(X) = 2 = 2 (5-21) (5-21a)
Figura 5.10. Grficas con distribuciones gamma de densidad con diferentes valores de y y curvas de densidad gamma estndar. Ntese que cuando = 1, es la curva exponencial. (Devore 2000). Ejemplo #29. Supngase que se tiene una distribucin gamma estndar con parmetro = 3, calcular:
5-29
(a) La probabilidad de que X est entre 4 y 5. (b) La probabilidad de que X sea mayor que 4 Solucin: Debido a que P(a X b) = F(b) F(a) cuando X es continua, por lo tanto: (a) P(4 X 5) = F(5;3) F(4;3) = 0.875 0.762 = 0.113 (b) P(X > 4) = 1 P(X 4) = 1 F(4,3) = 1 - .762 = 0.238 Ejemplo #30. Este problema involucra un experimento con conejillos de India seleccionados al azar. Este es un estudio relacionado con el tiempo X de supervivencia, en semanas. Los animales fueron expuestos a una radiacin de 400 rads (dosis de radiacin absorbida), es decir, de radiacin gamma (energa radiante). Se asume que esta situacin sigue a una distribucin gamma con parmetros de escala de = 10 y = 20. Siendo as, hacer los siguientes clculos: (a) Calcular la media de supervivencia y la varianza. (b) Calcular la probabilidad de que un conejillo sobreviva entre 80 y 120 das. (c) La probabilidad de que un animal sobreviva, cuando menos 20 das. Solucin: Aqu usamos la distribucin gamma no estandarizada. (a) El promedio es: E(X) = = = (10)(20) = 200 das. La varianza es: V(X) = 2 = 2 = (10)(20)2 = 4000 das. (b) P(80 X 120) = F(120/20;10) F(80/20;10) = F(6;10) F(4;10) = 0.084 - 0.008 (de la tabla de la distribucin de gamma)
5-30
= 0.076 Esto dice que el valor de 0.076 es la probabilidad de que un conejillo sobreviva entre 80 y 120 das. (c) P(X 20) = 1 - P(X < 20) = 1 - F(20/20;10) = 0.000 (de la tabla de la distribucin gamma) Distribucin Weibull La distribucin Weibull fue introducida por el fsico sueco Waloddi Weibull en 1939. En forma anloga a las distribuciones gamma y exponencial la distribucin de Weibull tiene aplicaciones relacionadas con tiempo de falla o longitud de vida. Es decir, para medir la confiabilidad de un componente o producto, como la probabilidad de que si funcionar apropiadamente, por cuando menos un tiempo especificado bajo condiciones experimentales especificadas. Esta funcin, igualmente, se usa en el diseo de sistemas complicados, cuya operacin o seguridad depende de los varios componentes involucrados en el sistema. Por ejemplo, una columna de acero puede vencerse. Otra aplicacin es el modelado de algn aparato sensible al calor que pueda fallar. Otra aplicacin sera el estudio de componentes idnticos sujetos a condiciones ambientales idnticas, que puedan fallar a tiempos diferentes e impredecibles. La funcin de probabilidad de densidad (pdf) de la distribucin Weibull es: f (x) = x-1 exp-(x/)2 / , x > 0 Donde y son los parmetros condicionados a > 0 y > 0 (5-22)
5-31
Figura 5.11. Grfica mostrando la curva de densidad de Weibull. Ntese que cuando = 1 y = 1, la curva se torna exponencial. (Devore, 2000) Proposicin: La funcin de distribucin acumulada (cdf) de una variable aleatoria que tiene parmetros y es: F(x;,) = {1 exp-(x/) x 0 20 y = 100 (Devore, 2000). Entonces, calcular: (a) P(X 105) (b) P(98 X 102) Solucin: (a) P(X 105) = F(105;20,100) = 1 exp-(105/100)20 = 1 - .070 = .930 (b) P(98 X 102) = F(102;20,100) F(98;20,100) = exp-(.98)20 exp-(1.02)20 = .513 - .226 = .287 Intervalos de confianza para con 2 conocida Se sabe que la estadstica Z = ( X - ) / / n sigue a la distribucin normal, con = 0 (5-22a) Ejemplo #31. Supngase que X tiene una distribucin de Weibull con parmetros =
5-32
y = 1. Si todas las muestras posibles de un tamao n son sacadas de una poblacin y el valor de Z se calcula para cada muestra, el 95% o 99% de los valores de Z caern entre z/2 y z/2. Sabemos que la probabilidad de que z est entre z/2 y z/2 es 1 . Esto se puede expresar como: P(-z/2 < Z < z/2) = 1 . (5-23)
Para esto se sustituye el valor de Z y se multiplica cada elemento de (5-23) por / n y luego se le resta X de cada trmino. Despus de esto, se multiplica por -1 (reversando el sentido de las desigualdades) y nos da la funcin de abajo: P( X - z/2 / n < < X + z/2 / n ) = 1 Donde: La probabilidad 1 se llama el nivel de confianza
X z/2 / n se llama el lmite de confianza inferior X + z/2 / n se llama el lmite de confianza superior
(5-24)
TABLA 5.2. Tabla mostrando los niveles de confianza ms comunes (Elaboracin propia) ___________________________________________________________________ Nivel de confianza 1 /2 z/2 _________________________________________________________________ .95 .05 .025 1.96 .99 .01 .005 2.58 .90 .10 .05 1.645 Ejemplo #32. En una muestra aleatoria de 100 observaciones de concentraciones de xidos de nitrgeno (NO) atmosfrico sacada de una poblacin normal tiene = 25 y
X = 20, con un tamao de muestra de n = 100. Encontrar el intervalo de confianza
5-33
estimado del 95% para el promedio poblacional . Solucin: Usando la ecuacin (5-24), con = 25, X = 20 y n = 100, = 0.05 y con regiones crticas de 1.96 da: P(20 1.96 (25)/ 100 < < 20 + 1.96 (25)/ 100 ) = 1 - 15.1 < < 24.9 Estadstica inferencial. Teora de decisin estadstica. Pruebas de hiptesis En la prctica es necesario hacer decisiones acerca de problemas basndose en muestras estadsticas. Semejantes decisiones se llaman decisiones estadsticas. Las pruebas de hiptesis se pueden hacer con la distribucin normal para estimar los parmetros de poblacin , 2, , , , etc., si el tamao de la muestra es n 30 observaciones. Sin embargo, si el tamao de la muestra es n < 30 casos, entonces, se puede usar lo que se llama teora de muestreo pequeo, usando la distribucin de t de Estudiante. En este rengln, para hacer pruebas de hiptesis e intervalos de confianza, tambin se puede usar la distribucin de la JI cuadrada (2), para estimar los parmetros poblacionales 2 y . Adems, se puede usar la distribucin F, es decir, haciendo tablas de anlisis de varianzas, etc. Pruebas de Hiptesis estadsticas. Hiptesis nula (Ho:) e hiptesis alternativas Para problemas de pruebas de hiptesis clsicas (se dice que son clsicas, porque se disearon el siglo antepasado) se contrastan con el nuevo enfoque moderno del clculo de la probabilidad, p de programas de computadora de la era ciberntica. Al tratar de alcanzar decisiones estadsticas, es necesario asumir situaciones acerca de las poblaciones involucradas en trabajos de investigacin. Semejantes
5-34
suposiciones, que pueden o no ser verdaderas, se llaman hiptesis nulas. En muchas ocasiones formulamos una hiptesis estadstica, con el propsito de rechazarla o, cuando menos, de no aceptarla en base de la evidencia obtenida. Con la investigacin cientfica la idea detrs de hacer pruebas de hiptesis es la de tratar de producir evidencia para rechazar la hiptesis. Esto se debe a que, el rechazo de una hiptesis, en trabajos de investigacin denota diseos experimentales fuertes, precisos y concisos. Adems, con la ingeniera de manufactura, el propsito de hacer pruebas de hiptesis es con el objeto de verificar el control de calidad de los productos producidos por la industria manufacturera. No obstante, si la hiptesis no se puede rechazar pueda deberse a que la evidencia que pudiera rechazar la hiptesis, no se puede producir. Esto puede resultar de una muestra pequea o de un error experimental excesivo (donde hay mucha variacin). La manera de producir evidencia para rechazar la hiptesis es analizando el error estndar del promedio, el cual prueba que ambos errores, I (alfa) y II (beta) pueden ser reducidos aumentando el tamao de la muestra o disminuyendo la desviacin estndar. Esto lo podemos demostrar analizando el error estndar de la muestra. Esto es: o su estimador X =/ N s=s/ n (5-25) (5-25a)
Aqu, sin embargo, cabe notar que existen varios errores estndares de las distribuciones estadsticas. Esta informacin se da en la tabla de abajo.
5-35
TABLA 5.3. Errores estndares de distribuciones estadsticas. (Elaboracin propia) ___________________________________________________________________ Estadstica Error estndar Observaciones especiales ___________________________________________________________________ Promedios x = / n Esto es verdadero para muestras pequeas o grandes. La distribucin de la muestra es normal para n 30, aun si la poblacin no es normal. Desviaciones estndares s = / 2 N s = 4- 2/4N2 (1) (2) Para N 100 casos, la distribucin de s es normal. s se da en (1), solamente si hay normalidad. No obstante, si la poblacin no es normal, la ecuacin (2) se puede usar. Ntese que (2) se reduce a (1) cuando 2= 2 y 4 = 34, para poblaciones normales. Para n 30s = Varianzas 2s = 2 2 / N s2 = 4 - 22 / N (3) (4)
Las observaciones hechas para la desviacin estndar aplican aqu tambin. Ntese que (2) da (1) en el caso de una poblacin normal. ___________________________________________________________________
5-36
Tipos de errores I (alfa) y II (beta) Cualesquiera de las hiptesis que sea correcta, siempre hay la posibilidad de que un error de muestreo nos incline a cometer lo que se llaman errores I o II. As, podemos rechazar una hiptesis nula Ho: que es verdadera o podemos aceptar una hiptesis nula que es falsa. Si se rechaza una hiptesis, cuando debi ser aceptada, se dice que se cometi el error I. En contraste, si se acepta una hiptesis falsa, cuando debi ser rechazada, se dice que se cometi el error II. Como se ver, estos dos errores se pueden evitar aumentando el tamao de la muestra estadstica y/o reduciendo la desviacin estndar (esto se puede probar a travs del error estndar del promedio, que es igual a s/ n ). De cualquier manera, como se asent antes, la idea de una prueba de hiptesis es tratar de producir evidencia para rechazar la hiptesis nula, Ho: Si no se puede rechazar la hiptesis nula, esta falta de evidencia puede resultar, ya sea a travs de una muestra insuficientemente grande o a travs de un error de laboratorio excesivamente grande (que se refleja en la desviacin estndar, ). Tambin, la aceptacin de una hiptesis falsa puede deberse a una variacin inherente de la poblacin que estamos muestreando (como en el caso de las temperaturas a nivel mundial cuyos registros se estn rompiendo cada ao, por el calentamiento global debido a las emisiones de bixido de carbono). De cualquier manera de estas tres variables, es la ms sensible.
5-37
Figura. 5.12. Distribucin de los promedios de dos muestras de las curvas A y B ilustrando el tipo de error II o beta con = 50 (en curva A) y = 10, con un nivel de significancia de = 0.05 y con un tamao de muestra de n = 16. (Li 1964)
Figura 5.13. Grficas mostrando como se reduce la probabilidad de cometer los errores I y II, al aumentar el tamao de n. (Li 1964). Niveles de significancia En la prueba de una hiptesis, la mxima probabilidad con la cual pudiramos arriesgar el tipo de error I se llama el nivel de significancia de la prueba. Este nivel se
5-38
especifica antes de que se saquen las muestras y se haga la prueba de hiptesis, para que no haya influencia sobre los resultados obtenidos. La prueba de significancia es cuando se especifica la probabilidad con la cual estamos dispuestos a arriesgar el rechazo de la hiptesis, acerca del promedio poblacional, aun cuando es verdadero. Los niveles de significancia ms usados en las pruebas de hiptesis son el de = 0.05 y = 0.01. Estos valores corresponden a niveles crticos de 1.96 y 2.58, cuando se usa la distribucin normal z. Por ejemplo, en pruebas de hiptesis bilaterales, con = 0.05, si la z calculada es z < -1.96 o z > 1.96, se rechaza la hiptesis. Igualmente ocurre si el nivel de significancia es = 0.01, es decir, cuando z < -2.58 y z > 2.58, entonces, se rechaza la hiptesis. De otra manera se retiene o se dice que no hubo suficiente evidencia para rechazar Ho: Esta prueba de significancia nos ayuda a decidir si la diferencia entre el promedio de la muestra estadstica y el promedio poblacional asumido, se atribuye a la casualidad o si es estadsticamente significante, esto es, si es muy grande para ser atribuido a la casualidad. La TABLA 5.4 da los valores crticos ms comunes. TABLA 5.4. Tabla mostrando las regiones crticas que se definen de acuerdo al valor del nivel de significancia usado, es decir, si la prueba de hiptesis es bilateral, unilateral derecha o unilateral izquierda. (Elaboracin propia) Nivel de significancia Valores crticos de z para pruebas unilaterales (derecha o izquierda) Valores crticos de z para pruebas bilaterales Por ejemplo si usamos un nivel de confianza de 95%, es decir, un nivel de 1.645 1.96 2.58 2.81 3.08 1.28 1.645 2.33 2.58 2.88 0.10 0.05 0.01 0.005 0.002
5-39
significancia de = 0.05, para una prueba de hiptesis unilateral izquierda, entonces, bajo estas condiciones, el valor crtico de z es -1.28. Similarmente, si se usa el nivel de significancia de = 0.10, para una prueba de hiptesis unilateral derecha, entonces, el valor crtico de z es de +1.28. Cabe notar qu, para las pruebas de hiptesis, los valores de los niveles de significancia ms comunes son los de = 0.05 y de = 0.01. Por ejemplo, para una prueba bilateral con = 0.05, los valores crticos de z son de 1.96. No obstante, para una prueba unilateral izquierda con = 0.05, el valor crtico de z sera de de -1.645 y as sucesivamente. Cul es la diferencia en la decisin de aceptar o de rechazar una hiptesis nula? Para ver esta situacin, supongamos que el valor de la hiptesis nula es igual a un valor esperado de o = 10, esto es, Ho: = 10. Adems, supongamos que X = 12, = 4.5 y n = 25 y, si despus de sustituir los valores en la variable aleatoria normal calculada por zcalc. = ( X - o) / / n, con = 0.05 con sus valores crticos de 1.96, entonces, zcalc. = 2.22, y, por lo tanto, 2.22 > 1.96 y se rechaza Ho: Aqu, la confiabilidad es dictada por el valor de la probabilidad p, esto es, p = 1 - .9861 = .0139. Esto dice que, la probabilidad de haber hecho una decisin equivocada en rechazar una hiptesis verdadera es de, aproximadamente, 1 en 100. Ahora, supongamos que zcalc. = 1.2, con = 8.333 y con las dems variables constantes. Bajo estas condiciones, 1.2 < 1.96 y, se acepta Ho: con un valor de probabilidad de p = 1 - .8849 = .12. Aqu, el valor de p dice que, la probabilidad de haber hecho una decisin errnea, en haber aceptado una hiptesis falsa es de 1 posibilidad en 10. Entonces, de acuerdo al razonamiento expuesto anteriormente, en cul de las dos situaciones hay ms confiabilidad, es decir, ms certeza en nuestras decisiones?
5-40
Con la ingeniera de manufactura, un rechazo de hiptesis (especialmente, si el valor de la probabilidad p es mucho muy significante, e.g., p = .001) sugiere que la lnea de produccin de la fbrica o de la manufactura industrial de herramientas, artculos, refacciones, etc., est trabajando en forma ptima. En forma anloga, con la investigacin cientfica, un rechazo de hiptesis, de una muestra de los resultados obtenidos de laboratorio, indica un diseo experimental conciso y preciso. No obstante, una aceptacin de hiptesis sugiere que deben de refinarse las tcnicas de laboratorio o de la produccin. Tambin se puede hacer seleccionando tamaos de muestras ms grandes (aunque esto es ms costoso). Componentes de la prueba de hiptesis formal 1. Pruebas de hiptesis clsicas. Estas pruebas tradicionales se disearon el siglo 19. Estas pruebas de hiptesis nulas se denotan por Ho: y es una afirmacin acerca del valor del parmetro de poblacin, . Esta prueba de hiptesis nula (Ho:) se denota usando desigualdades algebraicas, las cuales se describen con los smbolos =, , . Esto quiere decir que, la prueba de hiptesis nula y, las hiptesis alternativas tienen tres formas posibles: (a) (b) Ho: = o Ho: o (5-26) (5-26a) Esta relacin quiere decir que es "igual" al valor esperado de o. Esta relacin con la desigualdad quiere decir "cuando menos" que o "igual o mayor que" el valor esperado de o) (c) Ho: o (5-26b) En esta relacin la desigualdad quiere decir "a lo menos", "noms que" o "igual o menor que" el valor esperado de o 2. Pruebas alternativas. Estas pruebas se denotan por los smbolos H1:, H2: o H3:.
5-41
Estas pruebas alternativas no deben de contener igualdades, como en el caso de usar los smbolos =, , o , que denotan las hiptesis nulas, sino que deben de tener desigualdades como > o <. De manera que, para denotar las hiptesis alternativas, generalmente, existen tres maneras de expresarlas, esto es: H1: o, si Ho: = o H1: < o, si Ho: o H1: > o, si Ho: o (5-26c) (5-26d) (5-26e)
Por ejemplo, si se prueba la hiptesis nula de que el valor esperado poblacional es o = 50.0, entonces, la prueba de hiptesis nula es Ho: = 50.0, y las hiptesis alternativas son Ho: 50.0, H1: > 50 y H2: < 50. Adems, si estuviramos probando las hiptesis nulas de Ho: 50.0, entonces, la hiptesis alternativa es H1: < 50. De igual manera, si estuviramos probando la hiptesis nula de que Ho: 50, entonces la hiptesis alternativa debe ser H1: > 50.0 Nota 1. Si estamos haciendo nuestras propias pruebas, deberamos arreglar las hiptesis nulas y las alternativas de tal manera que, el error ms serio fuera el rechazo de una prueba de hiptesis verdadera (error I). Aqu, en este texto, estamos asumiendo que estamos haciendo las pruebas hechas por alguien ms. Idealmente, deberamos hacer todas las pruebas y reclamos de tal manera que todas fueran hiptesis nulas. Estas lneas fueron escritas con el entendimiento de que, no todos los reclamos son como deberan de ser, porque algunos ejercicios involucran reclamos que son pruebas de hiptesis nulas y otros que involucran hiptesis alternativas. Por ejemplo, si queremos decidir si un procedimiento es mejor que otro, formulamos la hiptesis de que no hay diferencias entre los procedimientos. Semejantes hiptesis se denominan hiptesis nulas y se denotan por Ho. Tambin podemos empezar con hiptesis alternativas (o hiptesis de investigacin) que difieren de una hiptesis nula
5-42
sustentada. En el establecimiento de las hiptesis, esto, sin embargo, debe estar basado en hechos, pero no en prejuicios. De cualquier manera, si se rechaza la hiptesis nula, (Ho:) nos inclinamos por la hiptesis alternativa (H1:). El criterio para rechazar o aceptar Ho: siguiendo el mtodo clsico, es de que si el valor de la z calculada, es decir, usando la estadstica z = ( X - ) / / n , es mayor que la z tabulada (z), con su correspondiente valor crtico de , entonces se rechaza Ho: y se inclina por la hiptesis alternativa H1:. De otra manera, no se rechaza Ho: o se pospone la decisin. 3. Pruebas de hiptesis no tradicionales. Esta pruebas involucran los clculos de la probabilidad, p. Estas pruebas son formas no clsicas de hacer pruebas de hiptesis nulas, Ho: Estas pruebas vienen en todos los programas de computadora y se pueden hacer con la distribucin de z, con la distribucin de t de Estudiante, con la JI cuadrada o la distribucin F. Identificando las pruebas de estadstica de inferencia bilaterales de (con la cola derecha o con la izquierda) y pruebas bilaterales (con dos colas de las distribuciones probadas) Cuando estamos haciendo pruebas de hiptesis, algunas veces es necesario hacer estas pruebas en forma bilateral o unilateral (unilateral derecha o izquierda). Esto se hace usando la distribucin normal, la t de Estudiante, la JI cuadrada, la distribucin de Fisher, etc. Cuando hacemos nuestras propias pruebas de hiptesis, y sabemos por experiencia que los valores esperados de o van a ser mayores de ciertos valores (o cuando decimos que H1: > o), entonces usamos el extremo derecho de la distribucin y ponemos el nivel de significancia de = 0.05 o 0.01, con Ho: = a cierto valor. En forma anloga, si los valores esperados van a ser menores de ciertos valores
5-43
(o H1: < que cierto valor), usamos el extremo izquierdo de la distribucin y ponemos el nivel de significancia de = 0.05 o 0.01. Finalmente, si esperamos que los valores vayan a ser menores o mayores de ciertas cantidades (Ho: = a un determinado valor), entonces usamos los dos extremos de la distribucin y dividimos , igualmente, entre dos, para que nos d, = 0.05/2 o = 0.01/2, etc. Si hacemos las pruebas de otros, por medio del examen de la hiptesis nula, Ho: podemos deducir si la prueba es de dos colas o de una cola (derecha o izquierda). Por ejemplo, si Ho: = 98.6, entonces H1: 98.6 y se dice que las pruebas alternativas son de H1: > 98.6 y H1: < 98.6. No obstante, si la prueba de hiptesis nula es de Ho: 98.6, entonces, la cola de la hiptesis alternativa (que es lo contrario de la hiptesis nula Ho:) apunta a la izquierda (como < 98.6), y la prueba es de la cola izquierda (unilateral izquierda). Sin embargo, si Ho: 98.6, entonces la prueba es de que > 98.6, y la prueba es de la cola derecha (unilateral derecha). Resumen en el establecimiento de las pruebas de hiptesis bilaterales (dos colas) o unilaterales (de la cola derecha o de la izquierda): Si la prueba de hiptesis nula es Ho: = o, entonces, la prueba es bilateral y las hiptesis alternativas son: H1: o. H2: > o y H3: < o, donde o es el valor esperado. Si la prueba de hiptesis nula es Ho: o, entonces, la prueba es unilateral izquierda y la hiptesis alternativa es H1: < o. Si la prueba de hiptesis nula es Ho: o, entonces, la prueba es unilateral derecha y la hiptesis alternativa es H1: > o. Definiendo los pasos clsicos en el procedimiento para hacer pruebas de hiptesis 1. Establecer la prueba de hiptesis nula (Ho:) y el promedio esperado o y las pruebas
5-44
de hiptesis alternativas (H1, H2:, H3:). En este rengln, si se usa la distribucin normal, tambin es necesario hacer ciertas suposiciones de que la muestra es aleatoria, de que la poblacin muestreada es normal y, de que la desviacin estndar poblacional, es conocida. 2. Seleccionar el nivel de significancia de deseado (0.05, 0.01, etc., e. g. del 95%, del 99%, etc.). Aqu, para la prueba de dos colas, es z/2 y para las colas derecha o izquierda, simplemente . 3. Determinar la prueba estadstica que se va a usar para el promedio, la varianza, las proporciones, etc., que se van a probar, es decir, usando las distribuciones z, t, 2, F, etc. De esta manera, si n 30 casos se usa la distribucin de z para el promedio. De otra manera, si n < 30 se usa lo que se llama teora de muestreo pequeo, como la t de estudiante, la JI cuadrada, etc. 4. Definir las regiones crticas, es decir, de una cola (izquierda o derecha) o de dos colas. (Ver resumen de pruebas para dos colas, para la derecha o para la izquierda). Por ejemplo, si H1: > un valor, se usa la cola derecha. Si < que un valor, se usa la cola izquierda, pero si es desigual a un valor dado se usan dos colas. Aqu, sin embargo, es de notarse que estas circunstancias dependen del diseo experimental que se quiera hacer. 5. Definir la regla de decisin, es decir, de rechazar o de retener o aceptar la hiptesis nula, Ho: y/o de inclinarse por las hiptesis alternativas, H1:, H2:, etc. 6. Hacer los clculos necesarios de los datos de la muestra y calcular el valor de la funcin estadstica de las distribuciones de z, de t, de 2, etc., que se vayan a usar. Por ejemplo, si usamos la distribucin normal de z o la de t de estudiante para el promedio aritmtico, usamos: z = ( X - ) / / n o bien t = ( X - ) / s/ n
5-45
Ntese que la nica diferencia entre la z y la t es de que en la z se usa y en la t se usa s para la desviacin estndar. 7. Comparar el valor de la funcin usada con la regla de decisin establecida, y hacer la decisin estadstica clsica o tradicional (que se dise en el siglo antepasado) acerca de la hiptesis nula. Aqu tambin se puede hacer la prueba de la probabilidad de p, que es una prueba no tradicional o moderna de la era ciberntica. As, si el valor de la estadstica calculada es mayor que la zc o t tabuladas, se rechaza la hiptesis nula, Ho: y se inclina por la hiptesis alternativa. De otra manera no se rechaza Ho: o no se hace ninguna decisin. Esta prueba de probabilidad p, se hace para ver, con qu tanta fidelidad (en trminos de probabilidad) pudiramos estar acertados o equivocados en haber rechazando la hiptesis nula. Aqu, por ejemplo, si el valor de p es menor que el valor del nivel de significancia de , se rechaza la hiptesis y se dice si es significante o muy significante, etc. Reglas de decisin bajo varias condiciones con las distribuciones z y t Para la distribucin normal: Cuando n 30 casos, conocida y, a sabiendas que la distribucin es normal. Para pruebas bilaterales (dos colas): rechazar Ho: y aceptar H1:, si el valor de la estadstica z es mayor que la zc tabulada; de otra manera aceptar Ho: o postergar la decisin. Para pruebas unilaterales (una sola cola), digamos, la izquierda: rechazar Ho: y aceptar H1: si el valor de la estadstica z es menor que la zc tabulada. De otra manera, aceptar o retener Ho: Para pruebas unilaterales (una sola cola), digamos la derecha: rechazar Ho: y aceptar H1: si el valor de la estadstica z es mayor que la zc tabulada; de otra manera, aceptar la Ho:
5-46
Para la distribucin de t de Estudiante: Cuando n 30 casos, desconocida y sabiendo que la poblacin muestreada es normal. Para pruebas bilaterales (dos colas): rechazar Ho: y aceptar H1: si el valor de la estadstica t > +t/2. Hacerlo de igual manera, si el valor de la estadstica t < -t/2; de otra manera, retener Ho: Para una sola cola, digamos la izquierda, rechazar Ho: y aceptar H1: si el valor de la estadstica t < -t; de otra manera aceptar Ho o no hacer ninguna decisin Para una sola cola, digamos la derecha: rechazar Ho: y aceptar H1: si el valor de la estadstica t > +t. De otra manera aceptar Ho: La idea detrs de hacer pruebas de hiptesis Como se dijo antes, la idea de hacer pruebas de hiptesis es la de acumular evidencia para rechazar la hiptesis nula. En el campo de la investigacin cientfica, todos los investigadores siempre estn esperanzados en rechazar las hiptesis nulas de sus trabajos de investigacin. Cosa similar ocurre con la ingeniera industrial y de manufactura. Los ingenieros industriales siempre tienen que hacer pruebas de hiptesis peridicas de los productos manufacturados o de los artculos producidos por la industria de manufactura. Esto se hace con el objeto de revisar la eficiencia de la lnea de produccin de la fbrica. Esto se debe a que, al rechazar una hiptesis nula, esto denota un diseo experimental fuerte y confiable. En la industria de manufactura los rechazos de hiptesis indican que la lnea de produccin est operando normalmente. En las pruebas de hiptesis, el valor de s o de es muy importante, porque ah se refleja las tcnicas del laboratorio refinadas o defectuosas. Un valor bajo de s refleja tcnicas de laboratorio muy sofisticadas o refinadas, mientras que un valor alto
5-47
de s, refleja lo contrario. Todo esto se explica y se prueba a travs del poder de la prueba y de los errores estndar del promedio, de la desviacin estndar, etc. El valor de p en la toma de decisiones En las pruebas de hiptesis hay otra forma alternativa moderna computarizada de probar la misma situacin (que se hace con la prueba clsica de hiptesis que se dise en el siglo antepasado), es decir, el enfoque moderno. En verdad, el valor de p es la probabilidad, bajo la hiptesis nula (o la probabilidad, si la hiptesis nula es verdadera), de obtener un valor tan inusual o ms inusual que aqul que obtuvimos de la muestra, cuando la hiptesis nula es verdadera (una situacin inusitada). Esta prueba no tradicional se hace usando el valor de la probabilidad p. Por ejemplo, cuando rechazamos o aceptamos una hiptesis nula Ho: y nos inclinamos por la hiptesis alternativa, H1:, con un nivel de significancia de = 0.05 o igual a 0.01, etc., queremos saber, qu tanta confiabilidad podemos poner al hacer nuestras decisiones estadsticas. Este grado de confiabilidad se da por la probabilidad, p. En verdad, el concepto filosfico del valor de p es que este valor representa un decremento en el grado de confiabilidad en un resultado. Este enfoque est diseado para darnos la alternativa (en trminos de probabilidad), de rechazar o no rechazar la hiptesis sustentada. As, entre ms bajo sea el valor de p, menos podemos creer en la hiptesis nula. Especficamente hablando, el nivel de p representa la probabilidad de error en aceptar los resultados observados como vlidos. Por ejemplo, con un valor de p = .05 esto significa 1/20, es decir que pudiramos estar equivocados con una probabilidad de 1 en 20 en la decisin de rechazar la hiptesis nula, Ho: sustentada. Adems, si p = .01, esto es, 1/100, indica que pudiramos estar equivocados en nuestra decisin de rechazar la hiptesis con una probabilidad de 1 en 100. (Aqu, en estos casos, nadie va a argumentar que vamos
5-48
a equivocarnos en nuestra decisin, con esta probabilidad tan baja). En trminos generales, valores grandes de p, digamos > 0.1 apoyan el no rechazo de la hiptesis (es decir se acepta o se reserva una decisin). Por otro lado, valores pequeos de p apoyan el rechazo de la hiptesis. Los tipos de mecanismos que se siguen para establecer las pruebas de hiptesis 1. La hiptesis nula se puede hacer como: Ho: = o. Bajo estas condiciones de igualdad, las hiptesis alternativas son: H1: o, H2: < o y H3: > o, donde o es el promedio poblacional que se quiere probar. Aqu, cabe notar que en este caso, la prueba de hiptesis es bilateral o de dos colas. 2. Tambin la hiptesis nula se puede hacer como: Ho: o. En este caso, la hiptesis alternativa es Ho: < o. Aqu, la prueba de hiptesis es unilateral izquierda. 3. Igualmente, la hiptesis nula se puede hacer como: Ho: o. En este caso la hiptesis alternativa es H1: > o. Aqu, la prueba de hiptesis es unilateral derecha. 4. Seleccionar un nivel de significancia de tamao , esto es, = .05 o = .01 con sus respectivos niveles de confianza de 95% y 99%. Tambin, se pueden usar otros niveles de significancia, como el .10, .20, etc., pero los ms comunes son los de 0.05 y .01. 5. Seleccionar la estadstica apropiada (por ejemplo, si n > 30 casos se usa la distribucin z. Si la muestra es n < 30 casos y la poblacin muestreada no es normal se usa la distribucin de t, etc. 6. Se establecen las regiones crticas usando niveles de confianza del 95%, 99%, 90%, 80% etc. (95% y 99% los ms comunes) 7. Se estima el valor de la prueba de estadstica de la muestra y se compara con el valor de la estadstica calculada, es decir, zcalc. o tcalc. (de las regiones crticas) y se
5-49
comparan con ztab. o ttab. Si la estadstica calculada es mayor que la estadstica tabulada (de las regiones crticas) se rechaza la hiptesis nula. De otra manera, se acepta la hiptesis o no se hace ninguna decisin. De esta manera, si el valor de la estadstica calculada se mete en las regiones crticas se rechaza la hiptesis nula (o tambin si el valor de p es menor o igual al nivel de significancia, deseado). Nota: Aqu es importante recordar que, la prueba de hiptesis nula estadstica se dise el siglo antepasado. En tiempos modernos de la era ciberntica, existe la prueba no tradicional relacionada con el valor de la probabilidad p. Tambin es importante notar que muchos programas de computadora dan nicamente el valor de p y el investigador o lector tiene que interpretarlo acordemente. Mecanismos para calcular los valores de la probabilidad p (para la distribucin normal) cuando se hacen las pruebas de hiptesis no tradicionales (calculando el valor de p) 1. Para calcular el valor de la probabilidad p, se busca el valor de la z calculada en la tabla de la distribucin normal, con el valor del nivel de significancia usado. Los criterios que se siguen se hacen comparando el valor de la p con el valor de . 2. Los criterios que se siguen para interpretar el valor de p son: P .05 La prueba est en el umbral de la significancia. Aqu casi siempre se acepta la hiptesis nula. Es un argumento dbil y no convincente en la pruebas de hiptesis. Nos deja en una situacin de incertidumbre. Nos dice que, tal vez as sea. P .01 La prueba es altamente significativa. Se considera un argumento estadstico muy fuerte en contra de la aceptacin de la hiptesis nula. La probabilidad de .01 dice que pudiramos habernos equivocado en la decisin de rechazar la hiptesis nula, con una probabilidad de 1 en 100 de haber
5-50
rechazado una hiptesis verdadera, cuando debi ser aceptada. P .001 La prueba es mucho muy significativa. Se considera un argumento estadstico mucho muy fuerte, conciso y preciso. Aqu, la probabilidad con la cual pudiramos habernos equivocado en haber hecho una decisin errnea en el rechazo de la hiptesis nula es de una milsima, es decir, de 1 en 1000. Interpretacin matemtica de los valores de la probabilidad p (Pfaffenberg et al. 1987) Forma I. Valor de p = 2P[X > x], si Ho: = o con H1: > o Valor de p = 2P[X < x], si H2: < o Forma II. Valor de p = [X < x], si Ho: o, con H1: < o Forma III. Valor de p = P[X > x], si Ho: o con H1: > o Donde: X es , , = , que, el promedio muestral X Ejemplo #33. Abajo se dan los valores de la z calculada. Calcular el valor de la probabilidad p, si: (a) El valor de z = 3.2, con Ho: = o. (b) El valor de z = 3.0, con Ho: o (c) El valor de z = -3.2, con Ho: o. Solucin: (a) Buscamos el valor de z = 3.2 en la tabla de la distribucin normal y da un valor de .9993. Entonces, para calcular el valor de la probabilidad p procedemos como sigue: p = 1 - .9993 = .0007. Sin embargo, debido a que la prueba es bilateral, este valor de p se multiplica por 2 para dar p = .0014. (b) Buscamos el valor de z = 3.0 en la tabla de la distribucin normal y nos da .9987. Entonces, para calcular el valor de la probabilidad, p procedemos como:
5-51
p = 1 - .9987 = .0013 Como la prueba es unilateral, as se queda. (c) Para z = -3.2 con Ho: o. Esta es una prueba unilateral izquierda (porque el valor de z es negativo). Buscamos este valor en la tabla de la distribucin normal y da .0007. Metodologa para calcular los valores de la probabilidad p dependiendo de la estadstica usada Para las pruebas de hiptesis no tradicionales, es decir, usando el valor de la probabilidad p, es necesario hacer interpolaciones de los valores obtenidos. Sin embargo, en el caso de la distribucin normal, para estimar el valor de la probabilidad p, no es necesario hacer interpolaciones, porque se puede leer directamente en la tabla de la distribucin normal el valor de la estadstica z calculada. No obstante, para la distribucin de t de estudiante, para la distribucin Fisher, para la distribucin de la JI cuadrada, etc., si es necesario hacer interpolaciones. Esto se hace buscando el valor de la estadstica calculada en la tabla de la distribucin que se est usando con su correspondiente valor de grados de libertad y del valor porcentual deseado. Frmula emprica para hacer interpolaciones y calcular el valor de la probabilidad p Aqu vamos a dar un mtodo para hacer interpolaciones usando una frmula emprica diseada por el autor de este libro, el Dr. Hctor Quevedo Uras (autor de este libro) y por la Dra. Socorro Arteaga. Esta frmula se da como: (2 1)/(TR2 TR1) = (2 X)/(TR2 TRcalc.) Donde: 2 = El nivel de confianza ms alto de la tabla de la distribucin usada. (5-27)
5-52
1 = El nivel de confianza ms bajo de la tabla usada. TR2 = probabilidad de la estadstica usada correspondiente a 2. TR1 = probabilidad de la estadstica usada correspondiente a 1. X = valor que se quiere interpolar. Aqu, cuando la prueba es bilateral este valor se multiplica por 2. TRcalc. = valor de la estadstica calculada. Frmulas para calcular el valor de p por medio de interpolaciones para diferentes distribuciones Para la distribucin de t de Estudiante (la cual se retomar en el captulo 6): (2 1) / (t2 t1) = (2 X) / (t2 tcalc.) Para la distribucin de la JI cuadrada: (2 1) / (22 21) = (2 X) / (22 2calc.) Para calcular la distribucin F: (2 1) / (F2 F1) = (2 X) / (F2 Fcalc.) (5-30) Ejemplos mostrando la manera de calcular el valor de la probabilidad p Ejemplo #34. Supngase qu, si el valor calculado de la estadstica de la distribucin de z fuera, digamos de z = - 3.4 con una prueba de hiptesis bilateral, entonces, buscamos este valor en la tabla de la distribucin normal y nos da .0003. Este valor es precisamente el valor de la probabilidad p. Pero como la prueba es bilateral, se multiplica por dos y da p = .0006. Ejemplo #35. Supngase ahora que el valor de la estadstica z fuera digamos z = 3.4 con una prueba bilateral. Entonces buscamos este valor en la tabla de la distribucin normal y vemos que est al extremo derecho con un valor de .9998. Ahora le restamos 1 y nos da p = 1 - .9998 = .0002. Nuevamente, como la prueba es bilateral, el valor lo multiplicamos por dos y da p = .0004. (5-29) (5-28)
5-53
5-54
Prueba de hiptesis para un solo promedio poblacional con varianza 2 conocida usando la distribucin normal Una hiptesis estadstica es una aseveracin o conjetura con respecto a una o ms poblaciones. En estadstica, una hiptesis es un enunciado de que algo es verdadero. En la verdad o falsedad de una hiptesis estadstica siempre hay una incertidumbre, porque no se puede muestrear toda la poblacin (esto sera imposible). En lugar de esto, se toma una muestra aleatoria de la poblacin de inters y se usan los datos para proporcionar evidencia (en trminos de la probabilidad p) para apoyar o refutar la hiptesis. Por ejemplo, la aceptacin de una hiptesis nula implica que no hay suficiente evidencia para poder rechazar la hiptesis. No obstante, si se rechaza una hiptesis hay una evidencia ms fuerte e implica un diseo experimental fuerte, preciso y conciso. Contrariamente, el no rechazo de una hiptesis implica un diseo experimental dbil, con una muestra de insuficiente tamao o tcnicas de laboratorio defectuosas que conllevan mucha variacin. La estadstica que se usa para hacer pruebas de hiptesis para un solo promedio poblacional , con varianza conocida usando la distribucin normal, a sabiendas de que la poblacin muestreada es normal o que n > 30 casos, es: z = ( X o) / / n Donde: z = variable aleatoria normal estndar
X = promedio estadstico
(5-31)
o = valor esperado del promedio = desviacin estndar conocida n = tamao de la muestra La tabla de abajo muestra los clculos de las regiones crticas usando diferentes
5-55
niveles de significancia. TABLA 5.5. Tabla mostrando las regiones crticas de acuerdo al valor del nivel de confianza usado, es decir, si la prueba de hiptesis es bilateral, unilateral derecha o unilateral izquierda. (Elaboracin propia) Nivel de confianza (%) Valores crticos de z para pruebas unilaterales (derecha o izquierda) Valores crticos de z para pruebas bilaterales Por ejemplo si usamos un nivel de confianza de 95%, es decir, un nivel de significancia de = 0.05, para una prueba de hiptesis unilateral izquierda, entonces, bajo estas condiciones, el valor crtico de z es -1.645. Similarmente, si se usa el nivel de significancia de = 0.10, para una prueba de hiptesis unilateral derecha, entonces, el valor crtico de z es de +1.28. Cabe notar qu, para las pruebas de hiptesis, los valores de los niveles de significancia ms comunes son los de = 0.05 y de = 0.01. Por ejemplo, para una prueba bilateral con = 0.05, los valores crticos de z son de 1.96. No obstante, para una prueba unilateral izquierda con = 0.05, el valor crtico de z sera de de -1.645 y as sucesivamente. Ejemplos de pruebas de hiptesis usando la distribucin normal Ejemplo #36. Se saca una muestra de 36 anlisis de nitratos (NO3-) para el diseo de una planta de tratamiento de aguas industriales. Para esto, se calcula un promedio 1.28 o -1.28 1.645 1.645 o -1.645 1.96 2.33 o -2.33 2.58 2.58 o -2.58 2.81 90% 95% 99% 99.5%
___________________________________________________________________
5-56
estadstico de X = 92 mg/L. Estudios previos indican una desviacin estndar conocida de = 9 mg/L. Probar la hiptesis de que el valor esperado de o es 100 mg/L. Asumir = 0.05 y calcular el valor de la probabilidad p. Solucin: 1. La hiptesis nula es Ho: = 100. 2. Las hiptesis alternativas son H1:o 100, H2:o > 100, H3:o < 100. 3. Las suposiciones son que la poblacional muestreada es normal, es conocida y, la muestra es aleatoria. 4. Con el nivel de significancia de = 0.05 (nivel de confianza 95%), las regiones crticas y los coeficientes crticos son de 1.96. 5. La estadstica usada es la de la distribucin z , z = ( X o) / / n 6. Sustituyendo los valores de X = 92, o = 100, = 9 y n = 36 en la frmula de arriba da: z = (92 100) / 9/ 36 = - 5.3 7. Ahora comparando la zcalc. = 5.3 con la z tabulada ztab. Igual a -1.96, se rechaza la hiptesis y nos inclinamos por H3:o < 100. 8. El valor de la probabilidad p se calcula buscando el valor de 5.3 en la tabla de la distribucin normal, pero como no est tomamos el valor de .0003. Adems, como la prueba es bilateral, entonces, multiplicamos .0003 por 2, es decir, (2)(.0003) = .0006. Este valor es mucho muy significante y da mucha evidencia para apoyar el rechazo de la hiptesis. Ejemplo #37. Una muestra aleatoria de 36 concentraciones atmosfricas de xidos de nitrgeno (NOx), en mg/L, mostr un promedio estadstico o de la muestra de X =
5-57
74.0 mg/L. Suponiendo que 2 = 81.0 mg/L, indicara esto que un lmite de concentraciones de NOx est arriba de 70 mg/L? Usar = 0.05. Solucin: 1. La prueba de hiptesis nula debe ser Ho: 70, porque la hiptesis alternativa, dada por el problema, es H1: > 70. 2. Por lo tanto, la prueba de hiptesis es una prueba unilateral derecha. 3. La regin crtica es z = z0.05 = 1.645 4. La estadstica usada es z = ( X o) / / n Sustituyendo los valores del promedio X = 74, de la desviacin estndar = 9, n = 36 y o = 70 en la funcin estadstica z da: z = (74 70) / 9/ 36 = 2.66 5. Al comparar el valor de zcalc. = 2.66, con ztab. = 1.645, se rechaza la hiptesis nula y se dice que, H1: > 70, con un valor de p = 1 - .9961 = .0039, de haber hecho la decisin equivocada. Aqu, ntese que el valor de p no se multiplica por 2, porque la prueba es unilateral derecha. Como resultado, la evidencia a favor de H1: es ms fuerte que la sugerida por un nivel de significancia de 0.05 (porque .0039 <<< 0.05). Ejemplo #38. En un estudio de la ingeniera ambiental atmosfrica, para evitar la contaminacin ambiental producida por el consumo excesivo e innecesario de gasolina, en el diseo de un motor de combustin interna, el departamento de ingeniera de un constructor de autos, de cierto modelo, afirma que el rendimiento del millaje de este modelo de auto es de cuando menos 35 millas por galn. El departamento de control de calidad sugiere que el valor de la desviacin estndar es de = 4 millas. La Environmental Protection Agency de Estados Unidos de Amrica quiere probar esta afirmacin para ver si la figura afirmada debera ser ms alta o ms baja que 35 millas por galn. Para esto, se saca una muestra aleatoria de 50 modelos
5-58
de este tipo y se prueban bajo circunstancias iguales. Los resultados dan un promedio muestral de 33.6 millas por galn. Probar el reclamo del departamento de ingeniera usando un nivel de significancia de 0.05. Calcular el valor de p. Solucin: 1. La prueba es bilateral, porque un promedio muestral significantemente, ms alto que 35 (cola derecha) o menos que 35 (cola izquierda) es una fuerte evidencia contra la hiptesis nula de = 35. 2. Las regiones crticas son distribuyendo = 0.05 igualmente entre las dos colas para obtener 0.025 en cada una, con esto, los valores crticos son de 1.96. 3. Usamos la funcin estadstica y sustituimos los valores y da: z = ( X o) / / n z = (33.6 35) / 4 50 = -2.47 4. En conclusin, debido a que el valor de -2.47 se introduce en el extremo izquierdo de la distribucin normal, se rechaza la hiptesis. El valor de p es de .0068, pero como son dos colas, entonces, este valor se multiplica por 2 y da .0136. Ver figura de abajo.
X = 33.6
z = -2.47
Figura 5.14. Grfica mostrando los valores crticos para el problema de arriba.
5-59
(Elaboracin propia) Ejemplo #39. El estndar qumico para el agua potable, en cuanto a slidos disueltos totales (SDT) es de 500 mg/L. Para probar esta aseveracin se saca una muestra aleatoria de 144 casos y da un promedio aritmtico estadstico de 503 mg/L, con una desviacin estndar de 15 mg/L. Probar la hiptesis de que el estndar qumico, para el agua potable es de no ms de 500 mg/L. Para esto, usar = 0.05 y calcular el valor de p. Solucin: 1. La prueba de la hiptesis nula es Ho: 500. Esto quiere decir que, la prueba es unilateral derecha. 2. La hiptesis alternativa es H1: > 500. 3. La regin crtica es unilateral derecha, esto es, z = z0.05 = 1.645. 4. Ahora, sustituyendo los valores correspondientes de X = 503, = s = 15, n = 144 y o = 500, en la funcin de z nos da: zcalc. = (503 500) / 15/ 144 = 2.4 5. En conclusin, debido a que el valor de la estadstica se introduce en el extremo derecho de la distribucin, se rechaza la hiptesis nula y se inclina por la hiptesis alternativa. 6. El valor de la probabilidad p se calcula buscando el valor de 2.4 en la tabla de la distribucin normal y da .9918, pero como queremos nicamente el valor de p, le restamos 1 y nos da p = 1 - .9918 = .0082. Este valor es muy significante. Ejemplo #40. Se calcula el promedio muestral de 5 ppm de cadmio (Cd), para medir la calidad del aire, de cierta regin industrial. Esto se hace sacando una muestra de 36 observaciones de Cd atmosfrico. Hacer lo siguiente: (a) Una prueba de hiptesis con o = 4.85 ppm, con = 0.05 y = 0.01
5-60
(b) Adems, calcular el valor de la probabilidad p e interpretarlo acordemente. Otros, encontrar los intervalos de confianza con los mismos valores de de arriba, para el promedio poblacional . Asumir que la desviacin estndar poblacional es de 0.3. Solucin: (a) La prueba de hiptesis nula es Ho: = 4.85. Las pruebas alternativas son de H1: 4.85, H2: < 4.85 y H3: > 4.85. Las regiones crticas con = 0.05 y = 0.01, para una prueba de hiptesis bilateral son, respectivamente, 1.96 y 2.58. Usando la estadstica z = ( X o) / / n con X = 5 ppm, o = 4.85, = 0.3 y n = 36 y sustituyendo todos estos valores en la estadstica de arriba nos da: z = (5.0 4.85) / 0.3/ 36 = 3.0 En conclusin, debido a que el valor de zcalc. = 3.00 es mayor que el valor crtico de 1.96 se rechaza Ho: y nos inclinamos por la hiptesis alternativa de H3: > 3.85. Cosa similar ocurre con el nivel de significancia de = 0.01, porque el valor de 3.00 es mayor que el valor crtico de 2.58. Por otra parte, con respecto a la estimacin del intervalo de confianza del 95%, que corresponde a un nivel de significancia de = 0.05, los valores crticos son de 1.96. La estimacin puntual de es X = 5.0. Para calcular el intervalo de confianza de 95%, se sustituyen los valores en ecuacin (5-24) de abajo para dar:
X z/2 / n < < X + z/2 / n
5.0 (1.96)(0.3)/ 36 ) < < 5.0 + (1.96)(0.3/ 36 ) El cual se simplifica a:
5-61
4.902 < < 5.098 Por otra parte, el valor correspondiente a un intervalo de confianza del 99%, es decir, con un nivel de significancia de = 0.01, en este caso los valores crticos son de 2.575. La estimacin puntual de es X = 5.0. De aqu que el intervalo de confianza del 99%, es: 5.0 (2.58)(0.3/ 36 ) < < 5.0 + (2.58)(0.3/ 36 ) El cual se simplifica a: 4.871 < < 5.129 Ejemplo #41. En un estudio de higiene industrial y seguridad, las temperaturas del cuerpo de un grupo de 100 trabajadores industriales, que laboran un frigorfico, se analizaron. La temperatura promedio fue de 98.2 oF con una desviacin estndar de 0.62 oF. Encontrar el mejor punto estimador del parmetro poblacional de todas las temperaturas del cuerpo. Para un nivel de confianza de 95%, encontrar, ambos, el margen de error E y el intervalo de confianza para . Solucin: Usando la funcin:
X z/2( n ) < < E + z/2(/ n )
(5-32)
Donde: E = margen de error = z/2(/ n). Ahora, sustituyendo los valores apropiados, con z/2 = 1.96, = s = 0.62 (porque n > 30), X = 98.2 y n = 100, obtenemos: 98.2 1.96(0.62)/( 100 ) < < 98.2 + 1.96(0.62)/ 100 ) 98.2 0.12 < < 98.2 + 0.12 98.08 < < 98.32 El valor del margen de error es E = 1.96(0.62)/( 100 ) = 0.1215. Este intervalo 98.08 < < 98.32 dice que si furamos a seleccionar muchas muestras
5-62
de un tamao de 100 y construyramos un intervalo de confianza, el 95% de estas muestras contendran el promedio poblacional . Aqu, ntese que el intervalo de confianza no contiene el valor de 98.6 oF, la cual es la temperatura normal del cuerpo. Ejemplo #42. Se saca una muestra aleatoria de una poblacin normal. Los valores de las observaciones son: 22, 24, 22, 25, 30, 28, 29, 28, 24, 23, 25, 27, 26, 23, 24, 21, 22, 21, 25, 21, 23, 24, 21, 20, 21, 20, 22, 28, 27. Hacer los siguientes clculos usando el programa Minitab. (a) Calcular la estadstica descriptiva y determinar el 95% del intervalo de confianza para el promedio poblacional . (b) Determinar el 95% del intervalo de confianza para la desviacin estndar , y la mediana. (c) Hacer una prueba de normalidad usando la estadstica de Kolmogorov-Smirnov. Solucin: Para estimar los incisos (a) y (b) usar el programa Minitab de la siguiente manera: Stat > Basic statistics > Graphical Summary Esto genera la Figura 5.15 de abajo, la cual incluye histograma con curva normal sobrepuesta, los intervalos de confianza para el promedio poblacional, la mediana, la desviacin estndar, la estadstica descriptiva, la prueba de Anderson-Darling, los cuartiles, etc..
5-63

S umma r y for V a lor e s de la s obs e r v a cione s
A n d e rs o n -D a rlin g N o rm a lity T e s t A -S q u a re d P -V a lu e M ean S tD e v V a ria n ce S k e w ness K u rto s is N M in im u m 1 s t Q u a rtile M e d ia n 3 rd Q u a rtile M a xim u m 2 2 .9 1 0 2 2 .0 0 0 9 5 % C o n f id e n c e I n te r v a ls
M e an M edian 22.0 22.5 23.0 23.5 24.0 24.5 25.0
0 .6 4 0 .0 8 5 2 4 .0 0 0 2 .8 6 6 8 .2 1 4 0.488813 -0 . 8 2 2 3 1 6 29 2 0 .0 0 0 2 1 .5 0 0 2 4 .0 0 0 2 6 .5 0 0 3 0 .0 0 0 2 5 .0 9 0 2 5 .0 0 0 3 .8 7 6
20
22
24
26
28
30
9 5 % C o n f id e n ce I n te rv a l fo r M e a n 9 5 % C o n f id e n ce I n te rv a l fo r M e d ia n 9 5 % C o n fid e n c e I n te rv a l f o r S tD e v 2 .2 7 4
Figura 5.15. Figura mostrando el histograma de los datos con curva normal sobrepuesta, los intervalos de confianza para el promedio y la mediana y la estadstica descriptiva. Para el inciso (c), es decir, para la prueba de normalidad de los datos esto se hace usando la estadstica de Kolmogorov-Smirnov, del programa Minitab. Siendo as, se procede de la siguiente manera: Basic Statistics Normality Test En la ventanilla del recuadro de Normality Test introducir las variables y puntear Kolmogorov-Smirnov. Esto genera la figura de abajo.
5-64
Figura mostrando la grafica de los valores.

Normal
99 Mean StDev N KS P-Value 24 2.866 29 0.085 >0.150
95 90 80
Percent
70 60 50 40 30 20 10 5
16
18
20
22
24 C1
26
28
30
32
Figura 5.16. Grfica mostrando la prueba de normalidad usando la funcin de Kolmogorov-Smirnov. Como se ve en la Figura 5.16, las probabilidades (o porcentajes en este caso) se grafican en funcin de los valores estipulados por el problema. Luego el programa traza una lnea de los cuadrados mnimos, con el objeto de verificar si los puntos estn dentro de las bandas de confianza. Sin embargo, es de notarse que, en comparacin con la funcin de Anderson-Darling o de Lilliefors, la prueba de Kolmogorov es menos precisa que la funcin de Anderson-Darling. Sin embargo, la funcin de Kolmogorov-Smirnov se sigue usando, tradicionalmente, por muchos investigadores estadsticos. Ejemplo #43. Un fabricante de sistemas de aspersin contra incendios, que se instalan dentro de casas y edificios, argumenta que el promedio poblacional de temperatura de sus sistemas de aspersin contra incendios es de 54.4 oC. Para esto se saca una muestra aleatoria de 16 unidades, las cuales, al probarse dan un promedio estadstico
5-65
de 55.0 oC, con una desviacin estndar de 1.0 oC. Si se sabe que la distribucin de los tiempos de activacin de los sistemas de aspersin, contra los incendios, de este fabricante, es normal, se refutara el argumento del fabricante de que el verdadero promedio es el que se menciona arriba? Asumir un nivel de significancia de 0.05. 1. Aqu la prueba de hiptesis es Ho: = 54.4 contra la prueba de hiptesis alternativa de H1: 54.4. 2. Debido a que la prueba de hiptesis llena la condicin de igualdad, la prueba es bilateral, es decir, z z.025 y z z.025, esto es, z 1.96 o z -1.96. 3. Usamos la distribucin de z, aunque el tamao de la muestra no sea de n > 30 casos. Esto es as, porque sabemos de antemano que la poblacin muestreada es normal. Tambin se pudiera usar la distribucin de t de estudiante, pero en este caso es mejor usar la distribucin z porque es mas precisa. 4. Siendo as, el valor de la prueba estadstica es: z = (55.0 54.4) / 1.0/ 16 = 2.4 5. De acuerdo al inciso (4) el promedio muestral observado se encuentra a 2.4 desviaciones estndar arriba de lo que se hubiera esperado, si Ho: fuera verdadera. 6. En conclusin, debido a que el valor calculado de z cae en la regin crtica derecha, se rechaza la prueba de hiptesis tradicional. 7. Ahora, para hacer la prueba de hiptesis no tradicional, es decir, calculando el valor de p, buscamos en la tabla de la distribucin normal el valor de 2.4 y vemos que el valor de la probabilidad p es p = 2(1 0.9918) = 0.0164. 8. El valor de p = 0.0164 contradice la afirmacin del fabricante de que el verdadero promedio de sus productos contra incendios es de 54.4 oC.
5-66
Pruebas de hiptesis para las diferencias de dos promedios poblacionales (1 2), para muestras grandes (n 30) usando la distribucin normal, con varianzas conocidas e iguales (21 = 22). Aqu se asume que las dos muestras son independientes Hasta ahora, hemos discutido pruebas de hiptesis de una sola muestra aleatoria, es decir, para un solo promedio. Ahora, vamos a discutir pruebas de hiptesis donde se involucran 2 muestras provenientes de dos poblaciones. De esta manera, en muchos problemas prcticos estamos interesados en comparar dos poblaciones con relacin a alguna caracterstica cuantitativa. Por ejemplo, la comparacin de dos mtodos para medir el mismo proceso cualitativo o cuantitativo. En ingeniera ambiental, por ejemplo, se pueden comparar dos mtodos para medir las concentraciones de arsnico en muestras de agua. Otra aplicacin sera medir dos mtodos para el cadmio en muestras de agua, y as sucesivamente. En trminos estadsticos, si se tienen dos poblaciones con medias 1 y 2 y con varianzas 1 y 2 respectivamente, el estimador puntual de la diferencia de los promedios (1 - 2) lo da el estadstico ( X 1 X 2). Por lo tanto, para obtener una estimacin puntual de (1 2) se seleccionan dos muestras aleatorias independientes, una de cada poblacin de tamaos n1 y n2 y se calcula la diferencia, X 1 X 2. De esta manera, dejemos que X 1 y X 2 sean los promedios de dos muestras grandes de tamaos n1 y n2 sacados de dos poblaciones que tienen promedios de 1 y 2 y desviaciones estndar de 1 y 2, respectivamente. Entonces, si ponemos 1 = 2 estamos diciendo que no hay diferencias entre ambos promedios poblacionales, que es lo mismo que decir, que dos muestras se sacaron de poblaciones que tienen el mismo promedio, . La estadstica que se usa para estimar las diferencias entre dos promedios es:
5-67
z = [( X 1 - X 2) - (1 - 2)] / Donde:
+
2
2 2 2
(5-33)
X 1, X 2 = promedios de muestras uno y dos, respectivamente
21, 22 = varianzas de muestras uno y dos respectivamente ( X 1 X 2) = estimador puntual de (1 2) n1 y n2 = tamaos de muestras uno y dos, respectivamente z = variable normal estndar Si se asume que 1 = 2 = , la estadstica de arriba se reduce a: z = ( X 1 X 2) (1 2) /
1
1
n n
1
2
(5-34)
Las funciones para las pruebas de hiptesis nulas y las alternativas, son: Ho:1 - 2 = 0 es decir, que 1 = 2 H1: - 2 0 y H2:1 - 2 > y H3:1 - 2 < Aqu, aunque puede ser cualquier valor constante, muchas veces el valor de es de 0 y se prueba la hiptesis nula de no "diferencia", es decir Ho:1 = 2. Ejemplo #44. Para medir la calidad del aire de cierta zona industrial, con relacin a los xidos de azufre, se sacaron dos muestras de tamaos 50 y 75, respectivamente. Los promedios fueron de 76 mg/L y de 82 mg/L, respectivamente. Asumir que las varianzas de estas poblaciones son conocidas e iguales a 16. Asumir un nivel de significancia de = .05. Usando el valor de p, probar que no hay deferencias entre las dos poblaciones muestreadas, que es lo mismo que 1 = 2, esto es, 1 2 = 0 Solucin: 1. Usamos la funcin de z, porque las muestras son grandes. 2. Las hiptesis nulas y alternativas, son, respectivamente:
5-68
Ho:1 2 = 0 y H1:1 2 0 3. Los valores crticos correspondientes a las regiones crticas, con = .05 son de 1.96. 4. Los valores que se substituyen en la frmula (5-34) son:
X 1 = 76, X 2 = 82, n1 = 50, n2 = 75, 1 = 2 = 16. Substituyendo estos valores en la
frmula (5-34) nos dan: z = [( X 1 X 2) (1 2)] / = [(76 82) 0] / 16]

1
1
n n
1
2
1 1 = 2.05 + 50 75
5. En conclusin, debido a que el valor calculado de z = 2.05 es mayor que la regin crtica derecha de 1.96, se rechaza la hiptesis y se concluye que los promedios no son iguales. 6. El valor de la probabilidad p se calcula buscando el valor de z = 2.05 en la tabla de la distribucin normal y da 0.9798. Por lo tanto, el valor de la probabilidad es p = 2(1 - .9798) = 0.04. Ejemplo #45. Una compaa farmacutica quiere probar una droga para la fibrosis pulmonar, la cual es muy comn entre los trabajadores industriales. Para esto se prueban dos grupos, es decir, el de "control" (que no usan la droga) y el grupo de "tratamiento" (que si usan la droga). Se toma una muestra de 50 trabajadores a los cuales se les da la droga y otro grupo ms de 100 personas, al cual no se les da la droga. La presin arterial se toma para cada sujeto. La compaa de drogas afirma que la droga no causa ningn efecto secundario, para el grupo de tratamiento. Dicho en otras palabras, esto dice que el promedio 1 del grupo control y el promedio 2 del grupo de tratamiento son iguales. Probar el reclamo de la compaa de que no hay
5-69
efectos secundarios entre el grupo que toma la droga y el que no la toma. (Nota: En este problema, de acuerdo al autor de este libro de estadstica, el uso de medicamentos artificiales siempre causar efectos secundarios. Esto se debe a qu, el cuerpo es una esencia natural, que no puede aceptar artificialismos, por ser antagnicos al diseo natural del organismo humano. Adems, el medicamento artificial ataca un efecto reactivo (el sntoma de la enfermedad), ms no su origen causal (vida antinatural). En verdad, el efecto secundario es una reaccin orgnica natural, en respuesta a la accin incompatible del artificialismo mdico. De cualquier manera, para este problema usar el nivel de significancia de = .05. Los clculos de las variables y sus valores se dan en la tabla de abajo. TABLA 5.6. Tabla mostrando los datos del Ejemplo #45. _________________________________________________________________ Grupo de tratamiento Grupo de control _________________________________________________________________ n1 = 50 n2 = 100 X 1 = 203.4 X 2 = 189.4 1 = 39.4 2 = 39.0 _________________________________________________________________ Ntese que tambin se pudiera usar s en lugar de , debido a que, el valor de la muestra n es n >>> 30. Solucin: 1. El reclamo de la compaa se expresa como 1 = 2. Esto quiere decir que, en ninguno de los dos grupos hay un efecto secundario de alta presin arterial. 2. Si el reclamo original es falso, entonces 1 2 3. La prueba de hiptesis nula contiene la condicin de igualdad de manera que, las pruebas de hiptesis nulas y las alternativas son:
5-70
Ho:(1 - 2) = 0, H1:(1 - ) 02, H2:(1 - 2) > 0, H3:(1 2) < 0 4. El nivel de significancia es de = .05 5. El problema satisface las suposiciones de normalidad. 6. Usamos la estadstica de z (5-33) que se da abajo y se sustituyen los valores correspondientes: z = [( X 1 - X 2) - (1 - 2)] / = [(203.4 - 189.4) - (0)] / 7. Las regiones crticas son de z/2 = 0.05/2 = 1.96 8. Debido a que la estadstica z cae en la regin crtica derecha se rechaza la Ho: 1 = 2 y se dice que los promedios son desiguales. 9. Se concluye que si hay efectos secundarios y la droga si causa alta presin arterial. Por lo tanto, se rechaza el reclamo de que, ambos grupos tengan el mismo promedio. De esta manera, se concluye que H2: 1 - 2 > 0. 10. Ahora para calcular el valor de la probabilidad p, se busca el valor de z = 2.06 en la tabla de la distribucin normal y el valor de la probabilidad correspondiente es de 0.9803. Por lo tanto, el valor de p es de: p = 0.5000 - 0.4803 = 0.0197. Sin embargo, debido a que la prueba de hiptesis es bilateral, el valor de 0.0197 se debe de multiplicar por 2. La Figura 5.17 de abajo muestra toda la informacin requerida por este problema.
+
2
2 2 2
39.42 39.02 + = 2.06 50 100
5-71
Figura 5.17. Figura mostrando la distribucin de las diferencias de los promedios de los dos grupos de control y de tratamiento. (Elaboracin propia). Ejemplo #46. Se quieren probar dos analizadores de CO de diferentes marcas, para ver si los dos dan los mismos resultados en las mediciones de CO. Llamemos al primer analizador A y al segundo B. Probar que los resultados de las dos mediciones de CO provenientes de los dos analizadores son iguales. Asumir = 0.05. Calcular del valor de la probabilidad p. Los datos se dan abajo. TABLA 5.7. Tabla mostrando los datos de este problema. __________________________________________________________________ Muestreador de CO (A) n1 = 50
X 1 = 4.53 kgs.
Muestreador de CO (B) n2 = 100

X 2 = 4.01 kgs.
__________________________________________________________________
1 = 0.80
2 = 0.80
__________________________________________________________________ Solucin: Los dos promedios son independientes y 1 y 2 son conocidos, por lo tanto, usamos
5-72
la distribucin normal. Usamos el nivel de significancia de = 0.05. La prueba involucra dos colas. 1. Las pruebas de hiptesis son: Ho:1 = 2 (o 1 - 2 = 0) H1:1 2 (o 1 - 2 0) 2. Las regiones crticas son de 1.96 3. Una vez que se sustituyen todos los valores en la ecuacin de z (5-33), el resultado es de z = 4.06. 4. Debido a que 4.06 cae dentro de la regin crtica derecha, se rechaza la hiptesis nula y se concluye que los promedios poblacionales correspondientes a ambos muestreadores de CO no son iguales. Tal parece que el muestreador A da resultados de mediciones de CO, con una probabilidad mucho ms significante que el muestreador B. 5. Para calcular el valor de p buscamos z = 4.06 en la tabla de la distribucin normal y vemos que el valor ms cercano es .9997 o sea 1 - .9997 = .0003, lo cual dice que p << .0003 Intervalos de confianza para las diferencias de dos promedios poblacionales, (1 - 2), cuando la varianzas 21 y 22 se conocen. Si X 1 y X 2 son los promedios de dos muestras estadsticas independientes de tamaos n1 y n2 de poblaciones que tienen varianzas conocidas de 21 y 22, entonces, el intervalo de confianza se da como: ( X 1 - X 2) - z/2 Donde: z/2 es el valor de z con = 0.05 y 0.01 niveles de significancia
+
2
2 2
< (1 - 2) < ( X 1 - X 2) + z/2
+
2
2 2
(5-35)
5-73
Ejemplo #47. Un experimento para reducir el consumo de gasolina (para que se contamine menos el medio ambiente, especialmente, con CO2 que est calentando la tierra y cambiando el clima) se hizo un estudio para comparar dos tipos de mquinas A y B. El rendimiento, en kilmetros por litro se midi. Para esto se seleccion una muestra de 50 unidades del tipo mquina A y otra muestra de 50 unidades tipo mquina B. El promedio de gasolina consumida para la mquina A fue de X 1 = 36 Km. por litro y el promedio para la mquina B fue de X 2 = 42. Las desviaciones estndar fueron de 6 y 8 Km. para las mquinas A y B, respectivamente. Hacer lo siguiente: (a) Encontrar el 95% de intervalo de confianza para (A - B). (b) Hacer una prueba de hiptesis para decidir si hay diferencia entre los dos promedios poblacionales. (c) Calcular el valor de la probabilidad p. Solucin: Los promedios aritmticos y las desviaciones estndar son de:
X
1
= 36 Km. y X 2 = 42 Km. con 1 = 6 y 2 = 8, respectivamente. Los tamaos de
las muestras son n1 = n2 = 50 (a) El punto estimador de 1 - 2 es X 1 y X 2. Usando z/2 = z.05/2 nos da el intervalo de z/2 = 1.96. Ahora, substituyendo todos intervalo de confianza, nos da: 3.43 < (1 - 2) < 8.57 (b) Aqu, usamos una prueba de hiptesis para poblaciones normales con varianzas conocidas. Se usa la estadstica (5-33) recapitulada anteriormente: estos valores en la funcin estadstica del
5-74
z = [( X 1 X 2) (1 2)] /
+
2
2 2
Sustituyendo los valores apropiados en esta formula: z = (36 42) 0 / = 6 / 0.529 = 11.34 Pruebas de hiptesis para proporciones Las pruebas de hiptesis relacionadas con proporciones (porcentajes) se requieren en muchas reas de la ingeniera. Por ejemplo, las compaas constructoras estn interesadas en saber, qu proporcin de sus productos salen defectuosos. Adems, los polticos estn interesados en saber qu fraccin de los votantes los favorecern. Por otro lado, en la ingeniera ambiental estamos interesados en saber qu fraccin de las industrias estn cumpliendo con las legislaciones ambientales. Tambin, es de inters social saber qu fraccin de los jvenes universitarios usan determinadas drogas. Igualmente, es de inters saber qu fraccin o proporcin de personas que puedan estar conscientes de la magnitud del problema de la contaminacin ambiental, etc. Las pruebas de hiptesis con la estadstica p (que estima a ) de proporcin estn basadas en una muestra aleatoria de tamao n de la poblacin muestreada. Si el tamao de la muestra n es pequeo, con relacin al tamao poblacional, el promedio
X tiene aproximadamente una distribucin binomial. Adems, si n es grande, el
6 8 + 50 50
promedio X y el estimador p = X/n posee una distribucin binomial. Pero si n es grande, se usa la distribucin normal como una aproximacin a la binomial. Las condiciones para usar la distribucin binomial es tener un nmero fijo de
5-75
ensayos independientes, que tengan probabilidades constantes y de que, cada ensayo, tenga dos resultados clasificados como xito o fracaso. Sin embargo, si las condiciones de np 5 y nq 5 se satisfacen, la distribucin binomial se puede aproximar por la normal con = np y =
npq , donde, n es el
tamao de la muestra, p es la probabilidad (%) y q es 1 p. En este tpico, consideraremos nicamente, la distribucin normal como aproximacin a la binomial, es decir, para muestras grandes. Pruebas de hiptesis para proporciones con muestras grandes La estadstica usada para pruebas de hiptesis para proporciones, para muestras grandes es: z = (p po) / Donde: p = proporcin muestral = promedio/n = fraccin/n o = proporcin poblacional o valor esperado q=1p n = tamao de la muestra La proporcin muestral algunas veces se da directamente. Por ejemplo, si se da 40%, esto se traduce en p = 0.40 usando la fraccin p = X/n. Por ejemplo, de la afirmacin 20 de 50 podemos calcular el valor de la proporcin muestral como p = X/n = 20/50 = 0.40. Ejemplo #48. Un grupo ambiental afirma que los incidentes de las aves que chocan con los aviones son muy raros, es decir, como para justificar la matanza de aves en los aeropuertos. Sin embargo, un grupo de pilotos aviadores afirman que, en el despegue de los aviones, en el 10% de los casos, las aves chocan contra el avin. Usar = 0.05
pq / n = (p po) /
p 0 (1 p 0 ) / n
(5-36)
5-76
para probar esta afirmacin. La muestra es de 150 despegues abortados de aviones, de los cuales 5 se debieron a choque contra las aves. Solucin: 1. Se usa la distribucin normal como aproximacin a la binomial, porque np 5 y nq 5, es decir, (150)(0.10) = 15 y nq = (150)(0.90) = 135. 2. Debido a que el reclamo es del 10%, entonces, la fraccin = p = 0.10. Lo opuesto del reclamo original es = 0.10. 3. Debido a que = 0.10 contiene la condicin de igualdad, la hiptesis nula y la alternativa son: Ho: = 0.10 y H1: 0.10 4. El nivel de significancia es de = 0.05. 5. La estadstica apropiada para probar si p = 5/150 = 0.033 es usando la estadstica z que se aproxima a la distribucin binomial. z = (p po) /
pq = (0.033 0.1) / n
(0.1)(0.9) = -2.79 150
6. Los valores crticos con = 0.05 son z = 1.96 7. Debido a que el valor de 2.79 cae en la regin crtica izquierda, se rechaza la hiptesis. 8. El valor de p es de p = 1 - .9974 = 0.0026 Ejemplo #49. Un activista del medio ambiente afirma que, menos de la mitad de las industrias, cumplen con los lmites ambientales. Probar esta aseveracin, si un sondeo dice que 48% de 1998 industrias si cumplen, satisfactoriamente, con los reglamentos ambientales. Usar un nivel de = 0.05 y calcular el valor de p. Solucin: En este problema la hiptesis alternativa se interpreta como H1: < 0.5. Siendo as,
5-77
por lo tanto, la hiptesis nula debe ser Ho: 0.5. 2. La regin crtica es la izquierda y con = 0.05 y el valor crtico es 1.645 3. La estadstica usada es la aproximacin de z a la binomial. Aqu, p = 0.48, o = 0.5 y n = 1998. Sustituyendo todos estos valores en la estadstica (5-36) de abajo da: z = (p - o) /
pq n
(0.5)(0.5) = -1.79 1998
= (0.48 0.5) /
4. Debido a que el valor de 1.79 < 1.645, se introduce en el extremo izquierdo de la distribucin, se rechaza Ho: 5. El valor de la probabilidad p es p = 1 - .9636 = 0.036 Intervalo de confianza para proporciones Si p es la proporcin de xitos en una muestra aleatoria de tamao n y q = 1 p, un intervalo de confianza aproximado de (1 )100% para el parmetro binomial se da por la funcin de abajo: p z/2
pq < < p + z/2 n pq n
(5-37)
Donde: z/2 es el valor de z dejando un rea de /2 a la derecha Ejemplo #50. Si p = 2.5, n = 36, q = 7.5 y la regin crtica es de 1.645, estimar el intervalo de confianza para el parmetro . Solucin: Usando la funcin (5-37) y sustituyendo todos los valores, nos da: 2.5 1.645( 0.5208 ) < < 2.5 + 1.645( 0.5208 ) La cual se simplifica a: 0.629 < < 4.371
5-78
Ejemplos de problemas usando el programa Minitab para la distribucin normal, la distribucin exponencial, la distribucin gamma y la distribucin Weibull, para generar valores de la distribucin normal estndar acumulada: Calc > Probability distributions > Normal En la ventana de Cummulative probability puntear cummulative probability. En la ventana de Input column poner los valores de -4 hasta +4, es decir, en C1. En la ventana de Optional storage poner C2, para registrar los valores de la probabilidad acumulada. Por otro lado, si se quieren hacer las grficas de frecuencia relativa y de frecuencia acumulada, de la distribucin normal proceder como est abajo y seguir las instrucciones: Graph > Plot Adems, para calcular los valores de la distribucin normal no estandarizada: Calc > Probability distributions > Normal En la ventana de Mean y de Estndar deviation poner los valores del promedio y de la desviacin estandar deseados. En la columna C1 poner los valores de la variable aleatoria X que se quieran estandarizar. Para las grficas proceder como arriba. Adems, para calcular los valores de la distribucin exponencial irse a: Calc > Probability distributions > Exponential.. En la ventana de Exponential distribution puntear Cummulative probability. En la ventana de Mean poner el promedio deseado. Para calcular los valores de la distribucin Weibull: Calc > Probability distributions > Weibull En la ventana de Weibull distribution puntear Cummulative distribution. En la ventana de Shape parameter y Scale parameter teclear los valores de y . Para
5-79
el resto proceder como arriba. Para las grficas hacer lo mismo que arriba. Similarmente, para calcular los valores de la distribucin Gamma: Calc > Probability distributions > Gamma Proceder en forma anloga a como se hizo con la funcin Weibull Ejemplo #51. Calcular las siguientes probabilidades bajo la curva normal estndar usando el paquete de computadora Minitab: (a) Entre z = -1.5 y z = -1 (b) P(z 2) (c) Entre z = 1 y z = -1 (d) Hacer una grfica Solucin: Abrir el programa Minitab y seguir las instrucciones correspondientes. Esto generar una tabla de abajo. TABLA 5.8. Valores de la variable aleatoria X y la cpd. (Elaboracin propia) ___________________________________________________________________ Columnas C1 C2 Variable aleatoria z Distribucin de Probabilidad acumulada
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 -4.0 -3.5 -3.0 -2.5 -2.0 -1.5 -1.0 0.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 .000032 .000233 .001350 .006210 .022750 .066807 .158655 .500000 .841345 .933193 .977250 .993790 .998650 .999767 .999968
(a) P(-1.5 z -1.0) = 0.1587 0.0668 = 0.0919 (de la tabla de arriba)
5-80
(b) P(z -2) = 1 P(z -2.5) = 1 0.0062 = 0.9938 (c) P(1 z -1) = 0.6827 (sin consultar la tabla. Por qu?) Ejemplo #52. Calcular la distribucin de las probabilidades acumuladas para los valores de la variable aleatoria X = 2.5, 2.6, 2.7, 2.8, 2.9, 3.0, 3.1, 3.2, 3.3, 3.4. Adems, calcular los siguientes enunciados: (a) P(X 2.9) (b) P(2.6 X 3.2) (c) El valor de X es de cuando menos 3.4 Solucin: Usando el programa Minitab, primeramente calculamos el promedio y la desviacin estndar, de los valores de la variable aleatoria X, y da los resultados de la estadstica descriptiva de abajo. Figura 5.17. Resultados de la estadstica descriptiva usando el Minitab. __________________________________________________________________ Estadstica Descriptiva: Variable aleatoria x Variable Variable aleatoria Variable N Promedio Error estndar 10 2.9500 Q1 Mediana 0.0957 Q3 3.2250 s s2 Coef. de Var. 10.26 -1.20 0.3028 0.0917 Maximum 3.4000 0.00
Sesgo Kurtosis
Variable aleatoria 2.6750 2.9500
__________________________________________________________________ Despus, tableando los valores de X en C1 con X = 2.95 y s = 0.3028, en sus ventanas respectivas, se genera la tabla de abajo.
TABLA 5.9. Tabla mostrando la variable aleatoria X y probabilidades acumuladas. (Elaboracin propia)
5-81
__________________________________________________________________ Columnas C1 C2 Variable aleatoria X Probabilidad acumulada 1 2.5 0.068622 2 2.6 0.123865 3 2.7 0.204508 4 2.8 0.310167 5 2.9 0.434423 6 3.0 0.565577 7 3.1 0.689833 8 3.2 0.795492 9 3.3 0.876135 10 3.4 0.931378 Ahora, para resolver los incisos pedidos por el problema se procede como: (a) P(X 2.9) = 1 0.3102 = 0.6890 (de la tabla de arriba) (b) P(2.6 X 3.2) = 0.795492 0.068622 = 0.7269 (c) P(X 3.4) (para resolverse por el lector) Ejemplo #53. Supongamos que el tiempo promedio que se tarda una sustancia radiactiva (un istopo radiactivo que tiene el mismo nmero atmico pero diferente peso molecular) en descomponerse es de = 15 aos; siendo as: (a) Hacer una tabla con los valores de la funcin exponencial de densidad para los valores de la variable aleatoria X = 0, 5, 10, 15, 20, 25, 30, 35, 40, 45 y 50 aos. (b) Graficar las probabilidades individuales y las probabilidades acumuladas en funcin del tiempo en aos. (c) Cul es la probabilidad que el istopo tarde en degradarse a lo ms en 5 aos? (d) La probabilidad de que el istopo tarde en oxidarse en cundo menos 20 aos? (e) La probabilidad de que el istopo tarde en degradarse entre 20 y 50 aos? (f) Cunta radiactividad qued despus de 40 aos?
5-82
(g) Cunta energa se liber despus de 40 aos? (h) Qu cantidad del istopo radiactivo qued despus de 50 aos? TABLA 5.10. Tabla mostrando los valores generados de la probabilidad acumulada y la probabilidad individual. (Elaboracin propia)
__________________________________________________________________
Solucin: (a) Ver TABLA 5.10 (b) Para este inciso, las grficas de abajo muestran esta situacin.
Scatterplot of Radiactividad restante vs Tiempo en aos
0.07 0.06 Radiactividad restante 0.05 0.04 0.03 0.02 0.01 0.00 0 10 20 30 Tiempo en aos 40 50
Figura 5.18. Grfica mostrando la radiactividad restante, en funcin del tiempo en aos. (Elaboracin propia)
5-83
Scatterplot of Energia liberada vs Tiempo en aos

1.0
0.8 Energia liberada
0.6
0.4
0.2
0.0 0 10 20 30 Tiempo en aos 40 50
Figura 5.19. Grfica mostrando la energa liberada (o la cantidad de la sustancia ejercida) del istopo radiactivo, en funcin del tiempo en aos. (Elaboracin propia) (c) P(X 5) = 0.2835 (de la Tabla 5.10 de la probabilidad acumulada) (d) P(X 20) = 1 P(X 15) = 1 0.6321 = 0.3679 (e) P(20 X 50) = 0.3322 (f) P(X > 40) (resolverse por el lector) (g) (Resolverse por el lector) (h) (Resolverse por el lector) En forma anloga para hacer grficas de probabilidad para las diferentes distribuciones como la Lognormal, gamma, Weibull, Logstica, etc., irse a: Graph Probability Plot Haciendo esto aparece la ventana de Probability Plots y luego poner OK, lo que lleva a la ventana de Probability Plot Single. Despus de irse a Distribution y aparece la ventana con la lista de todas las distribuciones como normal, lognormal, Weibull, logstica, gamma, exponencial, etc. Se le pide al lector hacer un ejercicio haciendo grficas de probabilidad para las distribuciones continuas.
5-84
5.1. En un muestreo de partculas atmosfricas, el promedio de la muestra fue de 72 micras y la desviacin estndar fue de 15 micras. Determinar las unidades de desviacin estndar de las partculas que tuvieron valores de: (a) 60 (b) 93 (c) 72 micras normal z correspondientes a: (a) z = -1 (b) z = 1.6 5.3. En un estudio independiente, dos industrias contaminantes fueron informadas de que recibieron evaluaciones ecolgicas de variables aleatorias normales estndares de z de 0.7 y -0.5, respectivamente. Si sus resultados (evaluaciones) fueron de 90 y 74, respectivamente, y asumiendo que s = 13.32, encontrar el promedio aritmtico, para ambos casos. 1.2. 5.5. Encontrar el rea entre z = 0.81 y z = 1.94. 2.05 y a la izquierda de z = -1.44. 5.7. Determinar el valor o los valores de z cuando: (a) La probabilidad entre 0 y z es de 0.3770 (b) La probabilidad a la izquierda de z es de 0.8621 (1.16) (1.09) (0.1828) 5.6. Encontrar la probabilidad de que una z observada se encuentre a la derecha de z = ( X = 80.67, X = 60.67) 5.4. Encontrar el rea o la proporcin de la valores de la variable aleatoria z de la curva normal entre z = 0 y z = (-0.80) (1.4) (0)
5.2. Refirindose al problema anterior, encontrar los valores de la variable aleatoria
5.8. El peso promedio de residuos txicos peligrosos generados por 500 industrias es
5-85
de 151 toneladas mtricas, con una desviacin estndar de 15 toneladas. Si los pesos de los residuos txicos generados por estas industrias estn normalmente distribuidos, encontrar todo lo siguiente: (a) Cuntas industrias generan entre 120 y 155 toneladas, inclusive. (b) Cuntas generan ms de 185 toneladas (c) Cuntas generan cuando menos 128 toneladas (d) Cuntas generan igual a 128 toneladas (e) Cuntas generan ms de 75, pero menos de 100 toneladas 5.9. Si los dimetros de unas chumaceras de una maquinaria estn normalmente distribuidos, con un promedio de 0.6140 pulgadas y una desviacin estndar de .0025 pulgadas, determinar la probabilidad de que las chumaceras tengan dimetros de: (a) Entre .610 y .618 pulgadas inclusivamente (b) > .617 pulgadas (c) < .608 pulgadas (d) Igual a .615 pulgadas 5.10. Si una muestra aleatoria de anlisis de las concentraciones de demanda bioqumica de oxgeno de 5 das (DBO5) est normalmente distribuidas, qu probabilidad hay de que stas difieran del promedio por? (a) Ms de la mitad de la desviacin estndar (b) Menos que 0.75 de la desviacin estndar. 5.11. Dada una distribucin normal de precipitaciones pluviales con promedio de 50 mm y s = 10 mm. Encontrar la probabilidad de que X asuma un valor entre 45 mm y 62 mm de lluvia. (0.5764) 5.12. Si el X y s son el promedio y la desviacin estndar de una muestra aleatoria de anlisis de aguas residuales de concentraciones de nitratos, en mg/L, Cul es la (0.8904) (0.1151) (.0207)
5-86
probabilidad de que las concentraciones estn? (a) Dentro del rango ( X 2s) (b) Afuera del rango ( X 1.2s) (c) Mayor que ( X - 1.5 s) 5.13. Dada una distribucin normal de valores, en partes por milln, de CO atmosfrico, con X = 300 y s = 50. Encontrar la probabilidad de que X asuma un valor mayor que 362. tenga: (a) 45% del rea a la izquierda (b) 14% del rea a la derecha. 5.15. La tela de fibra de vidrio del equipo de control para partculas atmosfricas dura un promedio de 3.0 aos, con una desviacin estndar de 0.5 aos. Si las duraciones de las telas estn normalmente distribuidas, encontrar la probabilidad de que una tela de un filtro dure menos de 2.3 aos. (0.0808) 5.16. Una compaa fabrica electrodos para los precipitadores electrostticos (equipo de control para partculas contaminantes en aire), cuya duracin est normalmente distribuida, con un promedio igual a 800 horas y una desviacin estndar de 40 horas. Encontrar la probabilidad de que un electrodo se funda entre 778 y 834 horas. 5.17. En un proceso industrial el dimetro de un balero se establece en sus especificaciones como 3.0 0.01 cm. En la manufactura de estos valeros, la implicacin es que no se acepta ningn balero que se salga de esta medida. Se saca una muestra de 100 valeros al azar y se calcula el promedio aritmtico de 3.0 cm., con una desviacin estndar de 0.005 cm. En promedio, cuntos valeros fabricados se descartarn? ( 5 valeros) (0.1075) 5.14. Dada una distribucin normal con = 40 y = 6, encontrar el valor de X que
5-87
5.18. Se utilizan medidores para rechazar todo los componentes cuyas dimensiones no se encuentren dentro del la especificacin dada de 1.50 d. Sin embargo, se sabe que esta dimensin est normalmente distribuida con un promedio de 1.50 Y una desviacin estndar de 0.2. Determinar el valor de d para que la especificacin cubra el 90% de las mediciones. 5.19. Cul es la probabilidad de que: (a) P(-0.5 < z < 1.25) (b) El valor de z no est entre estos dos valores? (0.5859) (0.4144)
5.20. En un estudio de ingeniera de higiene industrial y seguridad, el supervisor de produccin encuentra que, los trabajadores, en promedio, completan una tarea en 10 minutos cuando estn expuestos a altas concentraciones de gases. Los tiempos requeridos para completar la tarea son aproximadamente normales con una desviacin estndar de 3 minutos. Encontrar lo siguiente: (a) La proporcin de empleados que completan la tarea en menos de 4 minutos. (b) El % de empleados que requieren ms de 5 minutos en completar la tarea. (c) La probabilidad de que un empleado, quien acaba de ser asignado a la tarea, la completar dentro de 3 minutos. 5.21. Se llev a cabo un muestreo y un anlisis de las concentraciones de nitratos (NO-3) de un sistema de tratamiento de aguas industriales. Las concentraciones de nitratos se reportaron en mg/L. Los siguientes datos se dan en mg/L en la tabla de abajo:
5-88
Tabla mostrando los datos del problema. (Elaboracin propia) ___________________________________________________________________ 6.9 7.8 8.9 5.2 7.7 9.6 8.7 6.7 4.8 8.0 10.1 8.5 6.5 9.2 7.4 6.0 6.1 6.3 5.6 5.2 5.4 7.3 8.2 8.3 7.2 7.5 6.1 6.0 9.4 5.4 7.6 8.1 7.9 ___________________________________________________________________ Hacer los siguientes clculos corriendo una estadstica descriptiva que incluya: (a) El promedio muestral, la varianza, la desviacin estndar y el rango. ( X = 7.26, s2 = 2.02, s = 1.42, rango = 5.3) (b) Encontrar el error estndar, el sesgo, la kurtosis, el valor mximo y el valor mnimo. (c) Evidenciar la simetra de los datos. (d) Si el lmite de las concentraciones de nitratos en el efluente es de 8.5 mg/L, de acuerdo a la legislacin ambiental de aguas, hacer una prueba de hiptesis con un nivel de significancia de = .05 y calcular la probabilidad p e interpretarla acordemente. (e) Hacer un intervalo de confianza para el promedio . (f) Hacer un intervalo de confianza para la mediana. estndar poblacional, . (h) Encontrar el primer cuartil (i) Encontrar el tercer cuartil. (P <<< .0003) (6.76, 7.76) (6.39, 7.95) (1.14, 1.88) (6.05) (8.25) (0.25, 0.08, -.088, 10.1, 4.8)
(g) Hacer un intervalo de confianza con nivel de confianza de 95% para la desviacin
5.22. En un estudio de meteorologa de precipitacin pluvial, el promedio de lluvia registrado, a la centsima de un centmetro, para el mes de marzo fue de 9.22 centmetros. Asumiendo que estos valores estn normalmente distribuidos con una desviacin estndar conocida de 2.83 cm., encontrar la probabilidad de que el
5-89
siguiente mes de marzo del ao entrante, se reciban: (a) Menos de 1.84 cm. de lluvia. (b) Ms de 5 cm. de lluvia. (c) Cuando menos 13.8 cm. de lluvia. (d) A lo ms 10.0 cm. de lluvia. (e) Igual a 5 cm. de lluvia, e.g., P(4.5 X 5.5) (f) Hacer una grfica para cada inciso. 5.23. Supngase que la funcin de densidad de cierto experimento de mediciones de oxgeno disuelto (OD) es f(x) = ex. Si suponemos que la variable aleatoria continua asuma valores entre X = 2.0 y X = 5.0, encontrar las siguientes probabilidades. (a) P(0 < X < 4) (b) P(X < 4) P(2 < X < 5) P(0 < X < 3) continuas o discretas. (a) El nmero de litros de agua en un radiador de automvil. (b) El nmero de libros en el estante de una librera. (c) El dimetro D de una esfera. 5.25. Sea z una variable aleatoria normal estndar, entonces, calcular las siguientes probabilidades, dibujando las grficas. (a) P(0 z 2.17) (b) P(0 z 1) (c) P(-2.5 z 0) (d) P(-2.5 z 2.5) (0.4850) (0.3413) (0.4938) (e2) (e3) (e3 1) (e4 1) (c) (d) 5.24.
Dar el dominio de cada una de las siguientes variables y decir si las variables son
5-90
(e) P(1.5 z) (f) P(|z| 2.50)
(1 - 0.9332)
5.26. Si X es una variable aleatoria normal con promedio de 80 y desviacin estndar de 10, entonces, calcular las siguientes probabilidades, mediante estandarizacin. (a) P(X 100) (b) P(65 X 100) (c) P(85 X 95) (d) P(70 X) (e) P(90 X 100) (f) P(80 X 110) (g) P(2 < z < -2) 5.27. La vida promedio de una partcula en la atmsfera, sigue a la ley de Stoke. sta va en funcin del dimetro de sedimentacin, misma que va en funcin de la densidad de la partcula, la densidad del medio, la viscosidad absoluta del medio, la aceleracin de la gravedad (981 cm/sec2), etc. Con esto, se puede modelar la cada de la partcula usando la funcin exponencial. Suponiendo que la vida promedio en la atmsfera de esa partcula sea de 12 aos, entonces calcular las siguientes probabilidades: (a) Cul es la probabilidad de que la vida de residencia atmosfrica de la partcula sea de a lo ms 6 aos. sea entre 5 y 10 aos? Sugerencia: Usar las siguientes relaciones: P(x xo) = 1 e-x/ y P(x xo) = P(X 10) P(X 5) 5.28. La vida (en horas) de un dispositivo electrnico es una variable aleatoria con la siguiente distribucin exponencial de probabilidad: f(x) = 1/50 e-x/50 para x 0 (0.3934) (0.2244) (b) Cul es la probabilidad de que la vida de residencia atmosfrica de la partcula
5-91
(a) Cul es la vida promedio del dispositivo? (b) Cul es la probabilidad de que el dispositivo funcione 10 o menos horas antes de que falle? (c) Cul es la probabilidad de que el dispositivo dure entre 40 y 60 horas? (d) Hacer una grfica con valores de x = 5, 10, 20, 30, 40, 50, 60 con sus probabilidades correspondientes f(x). 5.29. La demanda bioqumica de oxgeno (DBO5) de 5 das (porqu de 5 das?) de una muestra de materia orgnica sigue a una distribucin exponencial de probabilidad con un promedio de 80 mg/L de DBO5: f (x) = 1/80 e-x/80 (a) Hacer una grfica con esta funcin usando x = 1, 2, 3, 4, 5 das. (b) Calcular la cantidad de DBO (en mg/L) que qued entre 1 y 2 das. Expresarlo en la grfica. en la grfica. (0.0368) materia orgnica (0.0488) (0.6006) (0.0245) (c) Calcular la concentracin de DBO (mg/L) que qued entre 1 y 3 das. Expresarlo (d) Calcular la concentracin de DBO (mg/L) que qued entre 1 y 5 das. (.060) (e) Calcular la cantidad de DBO que se ejerci (cantidad de oxidada) en a lo ms 4 das. Expresarlo en la grfica. (g) Qu porcentaje de DBO se ejerci, a lo ms en 5 das?
(f) Calcular la concentracin de DBO que qued despus de 5 das. (0.0606)
5-92
Tabla mostrando los resultados del DBO que va quedando y el DBO oxidado o ejercido. (Elaboracin propia) X DBO restante DBO oxidado (Das) (Prob. individual) (Prob. acumulada) 1 .0123 .0124 2 .0122 .0247 3 .0120 .0368 4 .0119 .0488 5 .0117 .0606 5.30. Se da la tabla de abajo con los porcentajes de DBO oxidado en funcin del tiempo y de la constante de desoxigenacin k. Si el DBO5 ltimo o total es de Lo = 300 mg/L (derivado de la ecuacin monomolecular y = Lo(1 10-kt), hacer lo siguiente: (a) Una grfica para ver el efecto de la velocidad de la constante k para un nivel dado de Lo de la ecuacin monomolecular. (b) Una grfica que indique el DBO que va quedando y la cantidad de DBO que se va ejerciendo, para cada uno de los 20 das y para cada una de las tasas k. (c) Cul es la probabilidad de que la concentracin de DBO est entre 3 y 6 das inclusivamente, para k = 0.15? A qu concentracin de DBO ascendi esto? (d) Calcular la concentracin de DBO que qued entre 3 y 5, para k = 0.10.
5-93
Tabla mostrando la tasa de reaccin de la variable k en el DBO vs. tiempo. Tiempo (das) Porcentaje del total de DBO ejercido k = 0.05 k = 0.10 k = 0.15 k = 0.20 k = 0.25 1 10.9 20.6 29.2 36.9 43.8 2 20.6 37.0 50.0 60.0 68.0 3 29.0 50.0 64.0 75.0 82.0 4 37.0 60.0 75.0 84.0 90.0 5 44.0 68.0 82.0 90.0 94.0 6 50.0 75.0 87.0 94.0 97.0 7 55.0 80.0 91.0 96.0 98.0 10 68.0 90.0 97.0 99.0 99.0 20 90.0 99.0 99.0+ 99.0+ 99.0+ (Fuente: Sawyer et al. 1967) 5.31. Supngase que, el tiempo en horas, requeridas para reparar una bomba de calor es una variable aleatoria X que tiene un distribucin gamma con parmetros = 2 y = 0.5. (a) Encontrar el promedio, la varianza y la desviacin estndar. ( = 1.0, 2 = 0.5) (b) Cul es la probabilidad de que el siguiente servicio requerir a lo ms una hora para reparar la bomba? (c) La probabilidad de que se requieran cuando menos 2 horas para reparar la bomba. (0.0916) 5.32. En cierta ciudad, el consumo diario de electricidad, en millones de kilowatthoras, es una variable aleatoria X que sigue a una distribucin gamma con = 6 y 2 = 12. Encontrar: (a) Los valores de y . (b) Encontrar la probabilidad de que en un da dado el consumo diario de electricidad exceder 12 millones de kilowatt-horas.
5-94
5.33. Se sabe que la distribucin de Weibull es ampliamente usada en problemas de estadstica relacionados con el envejecimiento y deterioro de materiales slidos aislantes sujetos a voltajes AC. Los valores de los parmetros dependen del voltaje y de la temperatura. Basado en esto, supngase que = 2.5 y = 200. Siendo as, calcular lo siguiente: (a) Cul es la probabilidad de que la vida de uno de estos aparatos sea a lo ms de 200? (b) Menos que 200 (c) Ms de 300 Entre 100 y 200 (0.064) (0.243) (.632) (0.6275) (d)
5.34. En un estudio de meteorologa, despus de analizar una muestra de 106 temperaturas ambientales, un ingeniero ambiental afirma que el promedio de temperatura es menor que 98.6 oF. Hacer lo siguiente: (a) Identificar la hiptesis nula Ho: (b) Identificar la hiptesis alternativa H1: (c) Identificar si esta prueba es de dos colas, de la cola izquierda o de la cola derecha. 5.35. La afirmacin de que el promedio poblacional del peso de las tabletas de aspirina es probada con un nivel de significacin de = .05. Las condiciones son de que se puede usar la distribucin normal porque n > 30. Encontrar las regiones crticas o los valores crticos de z, si la prueba es de: (a) Dos colas. (b) De la cola izquierda. (c) De la cola derecha. 5.36. Contestar las preguntas en los ejercicios del 1 al 6. 1. El promedio del coeficiente de los instructores de estadstica es de 185. (ztab. = 1.96) (z.05 = -1.655) (ztab. = 1.645)
5-95
2. El promedio del peso del papel descartado cada semana en un estudio de reciclaje de papel es menor que 10 kilogramos. 3. El tiempo promedio requerido para los estudiantes puedan adquirir su ttulo es mayor que 5 aos. 4. El promedio anual de ingresos de los mdicos es de $300,000 dlares. 5. El promedio de la edad de los aviones comerciales es de cuando menos 10 aos. 6. La tasa del promedio de consumo de los automviles Chevrolet es de no ms de 17 millas/galn. Para cada uno de estos ejemplos del 1 al 6, contestar lo siguiente: (a) Identificar la hiptesis nula, Ho: (b) Identificar la hiptesis alternativa, H1: (c)Identificar la prueba si es bilateral, o unilateral izquierda o derecha. (g) Asumir que la conclusin es de rechazar la hiptesis nula. Declarar la conclusin en trminos no tcnicos. Asegurarse de enlistar el reclamo original. (h) Asumir que la conclusin es la de fallar en rechazar la hiptesis nula. Declarar la conclusin en trminos no tcnicos. Asegurarse de enlistar el reclamo original. 5.37. Calcular el valor de la probabilidad p con niveles de significacin de = 0.05 y = 0.01. Se dan los siguientes valores: n = 50, X = 31.8 y = 0.75. Probar la hiptesis nula Ho: 32 contra H1: < 32. (z = -1.89, p = .0294) 5.38. Una muestra aleatoria de 36 casos de anlisis de aguas conteniendo cloratos (mg/L de ClO3-), se usa el mtodo argentomtrico de titulaciones (Estndar Methods for the Examination of Water and Wastewater, 1971). Probar la hiptesis de que el promedio poblacional es igual a 145 mg/L. Se calcula el promedio estadstico y nos da X = 138.84 con una desviacin estndar de 20. Probar la hiptesis de Ho: = 145 con los niveles de significancia de 0.05 y 0.01. Tambin calcular el valor de p. 5.39.
5-96
El promedio de una muestra aleatoria de 100 anlisis de sulfatos (SO4-2) es de 1570 mg/L, con una desviacin estndar de 120 mg/L. Si es el promedio de todos los casos de sulfatos, probar la hiptesis nula de Ho: = 1600 mg/L, contra la hiptesis alternativa de H1: 1600 mg/L usando los niveles de significacin de 0.05 y 0.01. Calcular el valor de la probabilidad, p. (z = -2.5, p = .0062) 5.40. En un estudio de oceanografa (el estudio fsico, qumico y biolgico de las aguas de los ocanos), supngase que un oceangrafo, al revisar la profundidad promedio del ocano, en cierta parte encuentra que es de 62.3 brazas. Esto lo hace para ver la factibilidad de hacer ciertos anlisis biolgicos. Este investigador decidi usar niveles de significancia de 0.05 y 0.01. Para esto, tom una muestra de sondeos de profundidad en 40 localizaciones marinas y encontr que el promedio de la muestra estadstica era de 64.8 brazas, con una desviacin estndar de 5.1. Decir si se rechaza Ho: y calcular el nivel de probabilidad. 5.41. Este es un estudio relacionado con el anlisis de aguas industriales de calcio (mg/L) usando el mtodo gravimtrico. Para esto, se saca una muestra de 48 anlisis y se calcula un promedio estadstico de 76.4 mg/L con una desviacin estndar de 3.6. Usando un nivel de significancia de 0.05 probar la hiptesis de que el promedio poblacional es mayor que 75 mg/L y calcular el valor de p. (z = 2.69, p = .0036) 5.42. Una muestra aleatoria de 16 observaciones de anlisis de cobre, en el agua, se sacaron de una poblacin normal. Se calcula un promedio de X = 49.75 y una desviacin estndar de 10. Asumir una prueba bilateral. La muestra de los resultados de los anlisis se da abajo:
5-97
Tabla mostrando los datos. (Elaboracin propia) ___________________________________________________________________ 62 43 60 49 72 56 45 46 37 56 41 43 36 45 56 49 Usar el nivel de significancia de .05 y probar las siguientes hiptesis nulas: (a) Ho: = 40 (b) Ho: = 49 (c) Ho: = 50 (d) Ho: = 51 (e) Ho: = 60 Debido a que X = 49.75 si puede determinar si una conclusin es correcta o errnea. Para cada uno de los cinco incisos decir si la conclusin es correcta o si el error I o el error II se han hecho cometido. Este ejercicio se hace para demostrar que el tipo de error II se puede cometer si el promedio poblacional hipottico est cercano al verdadero promedio poblacional. Tabla mostrando los datos. (Elaboracin propia) _________________________________________________________________ Inciso o z Ho: Regin crtica Tipo de error X - o ________________________________________________________________ a 40 9.75 3.90 rechazar 1.96 ninguno b 49 0.75 0.30 aceptar " II c 50 -0.25 -0.10 aceptar " II d 51 -1.25 -0.50 aceptar " II e 60 -10.25 -4.10 rechazar " ninguno __________________________________________________________________
5.43. Una muestra aleatoria de 2500 observaciones de temperaturas, expresadas en grados Fahrenheit (oF), se sacaron y se calcul un promedio de igual a 49.9, con una desviacin estndar de 9.92. Usar las mismas hiptesis nulas que en el problema
5-98
anterior a un nivel de significacin de = 0.01. La intencin de este ejercicio es para demostrar que la probabilidad de cometer ambos errores tipo I y tipo II se pueden reducir, al mismo tiempo, aumentando el tamao de la muestra. Los datos pertinentes se dan en la tabla de abajo. Tabla mostrando los datos. (Elaboracin propia) _________________________________________________________________ Inciso o X - o z Ho: Regin critica Tipo de error ________________________________________________________________ a 40 9.9 49.5 2.58 rechazar ninguno b 49 0.9 4.5 " " " c 50 -0.1 -0.5 " " " d 51 -1.1 -5.5 " " " e 60 -10.1 -50.5 " " "
5.44. Suponiendo que se observa un valor de z = 1.87 con un nivel de significacin de = 0.05 y con Ho: = 10, entonces, calcular el valor de la probabilidad, p. 5.45. Si el valor de la variable aleatoria es de z = 2.73, = 0.05 y Ho: = 10, encontrar el valor de p. (0.0032) 5.46. En un estudio de higiene industrial y seguridad, (seguridad para los motoristas), con la cooperacin del departamento de polica, se requiere que los surtidores de llantas tengan un vida promedio de cuando menos 30,000 millas. Para asegurarse de este impedimento, el departamento de polica prueba una muestra aleatoria de 36 llantas y obtiene un promedio estadstico de 25,800 millas con una desviacin estndar de 8,000 millas. Permitiendo una probabilidad de .05 del tipo error I, usar los datos para probar la hiptesis nula de que el verdadero promedio es de cuando menos 30,000 millas. 5.47. Se dan los siguientes datos procedentes de un estudio de precipitacin pluvial en
5-99
mediciones de milmetros de lluvia: Ho: = 0.340 mm, H1: 0.340, donde 0.34 = o, = .05, X = 0.343 mm., = .01, n = 35. (Ntese que aqu es una prueba de 2 colas, porque Ho: = 0.340 rene la condicin de igualdad). Las regiones crticas son 1.96, porque = 0.05. Ver tabla de abajo. (z = 1.77. Se retiene Ho: con p = .0768) Tabla mostrando los datos. (Elaboracin propia) ________________________________________________________________ Hiptesis alternativas Rechazar Ho: = 0.340 si: __________________________________________________________________ H1: < o = 0.3430 z < - z H1: > o = 0.343 z > + z H1: o = .0.343 z < - z/2 o z > z/2 __________________________________________________________________ 5.48. Una empresa de camiones de carga sospecha de la afirmacin de que el ciclo de vida de ciertos neumticos es de al menos 28,000 millas ( 28,000). Para verificar este argumento, la empresa instala 40 de esas llantas en sus camiones y obtiene un ciclo de vida promedio de 27,463 con = 1348 millas. Qu se puede concluir, si la probabilidad de un error tipo alfa se fija en 0.01? Asumir una prueba de hiptesis unilateral izquierda. 5.49. Para un anlisis de pesticidas clorinados hidrocarbonados en aguas residuales (usando cromatografa de gas), se dio una muestra conteniendo este pesticida a dos laboratorios. Los tamaos de las muestras fueron de 40 y 50 casos, respectivamente. Si las muestras tienen promedios de X 1 = 74 con desviacin estndar de 1 = 8, y de promedio de X 2 = 78 con una desviacin estndar de 2 = 7, decir si hay una diferencia significante entre los resultados de los dos laboratorios. Asumir niveles de significancia de = .05 y = .01. (z = -2.49, p = .0064)
5.50. Una muestra aleatoria de 100 muertes en E. U. mostr una vida promedio de
5-100
71.8 aos con una desviacin estndar de 8.9 aos. Pudiera esto indicar que la vida promedio de hoy en da es mayor que 70 aos? Usar = .05. 5.51. Un fabricante de cables de acero afirma que su producto tiene una resistencia de ruptura de 8.0 Kg. Probar la hiptesis nula de que Ho: = 8.0 Kg., contra la prueba alternativa de que H1: 8.0 Kg. Para esto, se sac una muestra aleatoria de 50 cables y se encuentra que tiene una resistencia promedio de X = 7.8 Kg., con una desviacin estndar de 0.5 Kg. Para esta prueba usar = .05 y = .01. (p = .0046) 5.52. En un estudio de la aplicacin del pH (potencial hidrgeno que tiene una escala de 0 a 14, donde 7 es neutral y abajo de 7 es cido y arriba de 7 es alcalino) para medir la alcalinidad y la acidez de soluciones, un cientfico, dedicado al estudio de la contaminacin ambiental, asegura que dos muestras de soluciones (A y B) provienen del mismo lugar de un ro, donde supuestamente hubo un descarga industrial de cido clorhdrico (HCl). Si esto fuera cierto, entonces el pH de las dos muestras de soluciones seran iguales. Asumiendo que las observaciones provienen de poblacionales normales, probar la hiptesis nula de igualdad de los promedios de pH. Asumir = 0.05. Hacer las siguientes estimaciones: (a) Hacer estos clculos usando la distribucin normal y la distribucin de t de Estudiante. (b) Tambin, calcular el valor de la probabilidad p en ambos casos y ver que diferencias hay. (c) Hacer intervalos de confianza usando las frmulas para la distribucin z y para la t de Estudiante. (d) Desaprueban los datos la afirmacin del cientfico? La tabla de abajo muestra la informacin requerida para este problema.
5-101
Tabla mostrando los datos de las mediciones del pH. (Elaboracin propia) Mediciones del pH de solucin A Mediciones del pH de solucin B ___________________________________________________________________ 6.24 6.27 6.31 6.25 6.28 6.33 6.30 6.27 6.25 6.24 6.26 6.31 6.24 6.28 6.29 6.29 6.22 6.34 6.28 6.27 ___________________________________________________________________ 5.53. Una compaa est en el proceso de decidirse si va a producir un nuevo componente electrnico. En la planta hay dos mquinas que pueden ser adaptadas para hacer este componente. Para esto, se hace una prueba en la mquina 1 y se mide el tiempo de produccin por componente y da un promedio de X 1 = 5.23 minutos para una muestra de 100 componentes. En la mquina 2 el promedio de tiempo fue de
X 2 = 5.37 minutos para una muestra de 64 componentes. En pasadas experiencias, se
sabe que las desviaciones estndar fueron de 0.15 y 0.10 minutos, respectivamente Asumir = 0.05. Hacer los siguientes clculos: (a) Probar la hiptesis de que no hay diferencias entre las dos poblaciones de componentes muestreadas. (b) Hacer un intervalo de confianza para el (z = -2.55 se rechaza Ho:) verdadero promedio . (p = 0.011)
(c) Calcular el valor de p.
5.54. En una investigacin relacionada con las concentraciones de plomo (Pb), se
5-102
sabe que el plomo es un veneno muy peligroso, en el cual el cuerpo se adapta crnicamente a las acumulaciones de este metal pesado. La presencia de Pb en el agua potable puede venir de descargas industriales, de minas y de fundiciones de metales. Hay algunos mtodos para determinar las concentraciones de Pb en el agua. Uno de ellos es el mtodo de absorcin atmica espectromtrico (mtodo A) y el mtodo calorimtrico (mtodo B). En esta investigacin se pretende comparar los resultados de los mtodos de absorcin atmica y el de ditizone. El mtodo de absorcin atmica espectromtrica consiste en aspirar la muestra preparada en una flama y atomizndola. El mtodo ditizone consiste en extraer en tetracloruro de carbono (CCl4), el Pb en una solucin ligeramente bsica. Los datos debajo dan las concentraciones (en mg/L) de dos muestras de mtodo A y mtodo B. Asumir un nivel de significacin de 0.05. Tambin, asumir que las poblaciones muestreadas son normales. Hacer los siguientes clculos: (a) Probar que no hay diferencia entre las dos poblaciones analizadas. (b) Calcular el valor de p. (c) Hacer un intervalo de confianza con = 0.05 La tabla de abajo muestra los resultados de las concentraciones de los dos mtodos. Tabla mostrando las mediciones de Pb. (Elaboracin propia)
Mtodo A | .055, .051, .052, .053, .055, .053, .055, .049, .048, .049, .05, .053, .052, .054, .056, .054, .057, .049, .048, .05, .057, .059, .040, .042, .043, .046, .055, .03, .07, .075, .08, .086, .056, .078, .076, .077 Mtodo B |.057, .06, .07, .057, .059, .059, .049, .06, .07, .075, .06, .067, .068, .064, .069, .078, .07, .079, .074, .05, .06, .07, .08, .081, .072, .082, .079, .087, .04, .04, .04, .043, .044, .046, .081, .083
5.55. Dos astrnomos registraron observaciones de cierta estrella en el firmamento. Se obtuvieron 12 observaciones por el primer astrnomo y dio un promedio de 1.20 mediciones. El segundo astrnomo sac una muestra de 8 observaciones y obtuvo un
5-103
promedio de 1.15 mediciones. La experiencia pasada indic que estos astrnomos obtuvieron mediciones con varianzas de 0.40 mediciones. Asumir que la poblacin muestreada es normal. Usar el nivel de significacin de 0.05 y probar las hiptesis: Ho:1 - 2 = 0 contra las hiptesis alternativas de H2: > 0 y H3: < 0. pruebas alternativas: (a) Si la prueba de hiptesis nula es de Ho: = 14.00, entonces las pruebas alternativas son de: (b) Si la prueba de hiptesis nula es de Ho: 14.00, entonces las pruebas alternativas son de: (c) Si la prueba de hiptesis es de Ho: 14.00, entonces las son de: 5.57. Una muestra de 49 observaciones de anlisis de ruidos (en decibeles, dB) se us para probar la hiptesis nula de que el promedio poblacional es de = 145 dB. Se calcul un promedio muestral de X = 138.00 dB con una desviacin estndar de 20. Hacer los siguientes clculos: (a) Establecer las pruebas alternativas. (c) Si se rechaza la hiptesis nula, calcular el valor de p. (H1: 145) (p = .0142) (b) Si el nivel de significancia es = 0.05 establecer la regin crtica.(tcrtica = 1.96) 5.58. Despus de analizar las temperaturas de 50 trabajadores de un frigorfico, el mdico de la empresa afirma que, la temperatura promedio poblacional del cuerpo, es igual a 98.6 oF. El promedio estadstico de este grupo fue de X = 98.2 oF con una desviacin estndar de = 0.62. Hacer lo siguiente: (a) Identificar la hiptesis nula Ho: (b) Identificar la o las hiptesis alternativas H1: pruebas alternativas (z = 0.17) 5.56. Decir de cuntas colas se harn las siguientes pruebas de hiptesis y decir las
5-104
(c) Establecer las regiones crticas usando el nivel de significacin de = 0.05 y = 0.01. (d) Calcular el valor de la estadstica z. (e) Si se rechaza la hiptesis nula, calcular el valor de la probabilidad, p. 5.59. Si se usa el valor significante de = 0.01 encontrar los valores crticos de z (ztab.) si se usa: (a) Prueba bilateral, es decir de dos colas. (b) Prueba bilateral con = 0.10. (c) Prueba bilateral con = 0.005. Ho: 32. Hacer los siguientes clculos: (a) Decir cul es la prueba de hiptesis alternativa (b) Establecer las regiones crticas usando = 0.05 y = 0.01 (c) Calcular el valor de la estadstica z (zcalc ). (d) Si se rechaza la hiptesis en cualquiera de los dos niveles de significacin de 0.05 y/o 0.01, calcular el valor de la probabilidad p. 5.61. Se saca un valor de n = 25 de una poblacin normal, con s2 = 3. Usar = .05. Hacer lo siguientes: (a) Calcular 2. (b) Estimar las regiones crticas 2/2;n-1 y 21-/2;n-1 (c) Probar Ho:2 = 75, y H1:2 75 (d) Calcular el valor de p. (2 = 9.6) (12.4 y 39.4) (se rechaza Ho:) (p 0.01) (2.33) (1.28) (2.81)
5.60. Se dan los siguientes datos: Promedio aritmtico, X = 31.8, = 0.25, n = 50,
5.62. En un estudio ambiental hecho en varios lagos de Noruega, acerca del pH del agua, en respuesta a la preocupacin de los efectos de la precipitacin pluvial cida, se hicieron dos muestreos hechos en los aos de 1976 y 1981. Se quiere saber si hubo
5-105
diferencias en las dos mediciones de pH de esos aos 1976 y 1981. Los datos se dan en la tabla de abajo. Asumir que las varianzas de las dos poblaciones son iguales. Usar un nivel de significacin de 0.05 y calcular el valor de la probabilidad p en la toma de decisiones. (Statistics for Environmental Sciences and Management, por Bryan Manly, p. 8).
5-106
Tabla mostrando las mediciones de pH para 1975 y 1981. No. de lago

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41
pH (1975)
4.59 4.97 4.32 4.97 4.98 4.58 4.72 4.53 4.96 4.96 5.31 5.42 5.60 5.37 4.87 5.87 6.20 6.67 6.06 5.38 5.60 5.60 5.37 5.07 6.23 6.24 5.15 4.82 5.42 4.99 5.31 5.99 4.63 4.47 4.60 4.88 4.60 4.85 5.06 5.97 5.47
pH (1981)
4.63 4.98 4.49 5.21 5.00 4.94 4.90 4.54 5.69 5.75 5.43 5.19 5.70 5.38 4.90 6.02 6.25 6.67 6.09 5.51 5.98 5.66 5.67 5.18 6.29 6.37 5.68 5.45 5.54 5.25 5.55 6.13 4.92 4.50 4.66 4.92 4.84 4.86 5.11 6.17 5.82
(Fuente: Statistics for Environmental Science and Management. Manly, 2001)
5-107
Sugerencia: Usar la funcin estadstica para pruebas de hiptesis para las diferencias de dos promedios. 5.63. El presidente de cierta compaa fabricante de partes de automvil afirma qu, el nmero promedio de partes vendidas, diariamente, es de 1500. El director general de toda la cadena de establecimientos quiere comprobar esta afirmacin. Para esto, se toma una muestra aleatoria consistente en 36 das, la cual mostr un promedio de 1450 partes. Asumir que se conoce el valor de = 120 partes. Usar = 0.05. Calcular el valor de la prueba no tradicional, es decir, usando el valor de p. Qu se puede concluir acerca de esta situacin? (z = -2.5 y se rechaza Ho:) 5.64. Jay Devore autor del libro Probabilidad y Estadstica para Ingeniera y Ciencias (2201) discute el problema relacionado con el anlisis de una muestra aleatoria de n1 = 20 especimenes de acero laminado en fro, para determinar su resistencia, dando, como resultado, una resistencia promedio muestral de X 1 = 29.8 ksi. Una segunda muestra aleatoria de n2 = 25 especimenes de acero galvanizado de dos lados dio una resistencia promedio muestral de X 2 = 34.7 ksi. Si se supone que las dos distribuciones de resistencia de los aceros son normales con 1 = 4.0 y 2 = 5.0 ksi (sugeridas por una grfica en el artculo Sinc-Coated Sheet Steel: An Overview, Automotive Engr., diciembre de 1984, pp. 39-43). (a) Significan estos datos que las verdaderas resistencias promedio 1 y 2 son diferentes? (b) Calcular el valor de p. (c) Tambin hacer un intervalo de confianza para los dos promedios poblacionales. Realizar la prueba de hiptesis con = 0.01. 5.65. En un estudio de higiene industrial y seguridad en carreteras estatales, al seleccionar un concreto de azufre para construir una carretera, es importante escoger
5-108
un concreto con bajo valor de conductividad trmica, para reducir al mnimo los daos ocasionados por cambios de temperatura y, as, evitar accidentes automovilsticos en las carreteras. Supngase que hay dos tipos de concreto, uno es un agregado escalonado y el otro no tiene agregados finos considerados para cierta carretera. La tabla de abajo resume los datos de un experimento realizado para comparar los dos tipos de concreto. Sugiere esta informacin que el verdadero promedio de conductividad del concreto, con agregado escalonado supera al del concreto sin agregado fino? ( Probabilidad y Estadstica para Ingeniera y Ciencias, J. L.Devore, 2000). (3.36, p = .0004)
Tipo de concreto Escalonado Sin agregados finos (Fuente: Devore, 2000)
Tamao muestral 42 42
Promedio muestral de conductividad .486 .359
Desviacin estndar .187 .158
5.66. El gerente de una cadena de hoteles est considerando construir un motel a lo largo de una autopista. El dueo que est vendiendo el terreno al gerente, para la construccin del motel, asegura qu, por ah pasan 1100 vehculos por da. Sin embargo, el gerente de la cadena de hoteles dice que, una cifra mayor que 1100 vehculos, sera adecuada para la construccin del motel en ese sitio. Para esto se toma una muestra aleatoria durante 18 das. Los resultados reafirman o desaprueban la afirmacin del dueo del terreno? La tabla de abajo da la informacin requerida:
5-109
Tabla mostrando los datos del problema. (Elaboracin propia).

Da | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 No. de vehculos |1150 1225 1195 1195 1210 1100 1150 1195 1105 1205 1121 1190 1195 1192 1100 1201 1090 1095
5.67. Encontrar las siguientes probabilidades: (a) P(-1.0 < Z < 2.0) valores. del inciso (a). variable aleatoria con la siguiente distribucin de probabilidad: f (x) = 1/60 e-x/60 para x 0 (a) Dar el promedio del pesticida en cuestin. (b) Estimar la probabilidad de que el pesticida, en cuestin, dure 100 das. 5.69. Se sac una muestra al azar de 49 anlisis de aguas residuales y se calcul X = 800 mg/L con s = 60.0 mg/L. Probar la hiptesis nula de que el verdadero promedio es de 850 mg/L. Asumir = 0.05. Calcular el valor de p. (z = -5.83, p = .0003). 5.70. Se sac una muestra aleatoria de SO3 atmosfrico en unidades de ppm provenientes de un complejo industrial. Probar que = 52. Se sabe que la poblacin muestreada es normal. Calcular el valor de p con = 0.01. Tabla mostrando los datos. (Elaboracin propia) ___________________________________________________________________ SO3 (ppm) | 50 52 56 57 55 55 54 55 56 57 56 54 ___________________________________________________________________ (0.8185) (0.1815) (X = 6) (b) La probabilidad de que la variable aleatoria Z no se encuentre entre estos dos (c) Si X = 4 y s = 1, encontrar los valores de la variable aleatoria X para el intervalo 5.68. La vida promedio de un pesticida rgano clorado depositado en la tierra es una
5-110
5.71. En un estudio relacionado con el ahorro de combustible, se sabe que el 40% de los coches no americanos de 4 cilindros, el consumo de gasolina se reduce considerablemente, es decir, con relacin a los coches americanos de 6 u 8 cilindros. Si se saca una muestra aleatoria de 15 coches de 4 cilindros, calcular la probabilidad de que 4 de estos coches sean eficientes en el ahorro de combustible. Hacer esto usando la distribucin binomial y la normal. Comparar los resultados. (Usando la distribucin normal da 0.1214; usando la distribucin binomial da 0.1268) 5.72. Supngase que el tiempo de reaccin X a cierto estmulo en un individuo seleccionado aleatoriamente, tiene una distribucin gamma estndar con = 2s (Devore, 2001). Sugerencia: usar la relacin P(a X b) = F(b) F(a). Usar la tabla de la funcin de gamma incompleta. 5.73. Este es un problema que involucra el uso de la distribucin gamma en donde aparecen distribuciones que no son estndar. Este problema dice as (Devore 2001, p. 171): Supngase que el tiempo X de supervivencia, en semanas, de un ratn macho, seleccionado al azar y expuesto a 240 rads de radiacin gamma, tiene una distribucin gamma con = 8 y = 15. El tiempo esperado de supervivencia es de E(X) = (8)(15) = 120 semanas, en tanto que, V(X) = (8)(15)2 = 1800 y x = 1800 = 42.43 semanas. Siendo as, encontrar la probabilidad de que un ratn sobreviva: (a) Entre 60 y 120 semanas. (b) Por lo menos 30 semanas. (.496) (.999)
5.74. Sea X la resistencia final a la tensin (ksi) a -200 oF de un tipo de metal que presenta problemas de resistencia a temperaturas bajas. Supngase que X tiene una distribucin Weibull con parmetros = 20 y = 100. Calcular lo siguiente: (a) La probabilidad de que la resistencia final a la tensin (ksi) a -200 oF se de a lo ms 105. (.930)
5-111
(b) Entre 98 y 102 5.75. El encargado de la caseta de cobro de una carretera ha observado que los vehculos llegan aleatoria e independientemente, con un promedio de 300 vehculos por hora. Sugerencia: usar P(X a) = e-a para (a) y p(x) = e-x/x! para (b). Siendo as, resolver los siguientes enunciados: (a) Usar la funcin exponencial para calcular la probabilidad de cuando menos 1 minuto pasar antes de que el siguiente motorista llegue. en (a). 5.76. La duracin de cierta refaccin para automviles sigue a una distribucin Weibull con una tasa de falla A(t) = 1/ t. Siendo as, encontrar las siguientes probabilidades: (a) La probabilidad de que la refaccin en cuestin se deteriore antes de 4 aos. (b) La probabilidad de que la refaccin no se desgaste despus de 4 aos. 5.77. Una batera solar tiene una vida promedio que est exponencialmente distribuida con un promedio de vida de 10 horas. Usando clculo integral, determinar las siguientes probabilidades: (a) La mediana de las vidas de las bateras. horas) (c) La probabilidad de que la vida de una batera exceder 15 horas. (0.777 horas) (d) La probabilidad de que la vida de una batera solar est entre 60 y 120 minutos. 5.78. Decir cul de las siguientes afirmaciones es correcta: (a) A medida que el tamao de la muestra, n disminuye y la desviacin estndar, s aumenta, el valor de la probabilidad, p disminuye. (6.93 horas) (b) La probabilidad de que la vida de una batera est entre 8 y 12 horas. (0.148 (P(X 1.0) = e-5(1)) (b) Usar la distribucin de Poisson para comparar el valor de la probabilidad obtenida
5-112
(b) A medida que n disminuye y s disminuye, el valor del error estndar aumenta y, por lo tanto, el valor de p disminuye. (c) A medida que n aumenta y las tcnicas del laboratorio se refinan causando una varianza pequea, el error estndar del promedio baja y, por consiguiente, el valor de p aumenta y la hiptesis nula se rechaza. (d) A medida que el error estndar del promedio disminuye por tamaos de muestra grandes, con pequeas variaciones, esto conlleva a un valor pequeo de p mucho muy significante, lo cual nos lleva a retener la hiptesis nula. (e) A medida que la varianza disminuye, con n constante, el valor de p disminuye y la hiptesis nula se rechaza. (f) A medida que n aumenta y las tcnicas del laboratorio se refinan causando una varianza pequea, el error estndar baja y, por consiguiente, el valor de p disminuye y se retiene Ho: (g) A medida que n aumenta y las tcnicas del laboratorio se refinan causando una varianza pequea, el error estndar baja y, por consiguiente, el valor de p disminuye y se acepta HA: (h) los incisos (d), (e) y (f) son correctos (i) Los incisos (e) y (g) son correctos 5.79. Actualmente, hay mucho debate, por saber si las emisiones de campos electromagnticos producidos por telfonos mviles (celulares) y sus estaciones de antenas base puedan estar afectando la salud. Con ms de 500 millones de telfonos mviles en todo el mundo, de acuerdo a al artculo Examining the effects of electromagnetic fields emitted by GSM mobile phones on human event-related potentials and performance during an auditory task publicado en Clinical Neurophysiology 115 (204) 171- 178 (http://www.wow-com.com/industry/stats),
5-113
el desmesurado incremento del uso de la telefona celular y sus consiguientes efectos en las funciones cognitivas y fisiolgicas debido a las radiaciones electromagnticas (RE), es una situacin que est causando preocupacin entre las personas conocedoras de este problema. Se han hecho muchas investigaciones con relacin a los efectos en la salud producidos por la radiacin de microondas debidas a la proximidad de los telfonos celulares a la cabeza del usuario y de la proximidad a las estaciones de antenas base de telefona celular, a estaciones elctricas, a lneas de de alta tensin, hornos de microondas, etc. La mayora de estas investigaciones coinciden en que los efectos de estos tipos de RE estn afectando el cerebro y al sistema nervioso en mayor o menor grado. Hay estudios que han relacionado las emisiones electromagnticas con casos de cncer en el cerebro, efectos en la actividad enzimtica y espermtica, efectos visuales y auditorios, prevaleca de dolores de cabeza entre los usuarios de telfonos mviles, problemas con el sueo, efectos en las clulas linfticas humanas, mutaciones, etc., de las personas expuestas. En cuanto a la proximidad de las antenas base de telefona mvil, y sus efectos en la salud, algunos pases han estipulado, como un criterio seguro, el establecimiento de las antenas de microondas a distancias mnimas de 600 metros de complejos habitacionales. Siendo as, se disea un ejemplo hipottico relacionado con las mediciones de radiacin electromagntica y la proximidad a la fuente emisora, es decir, de mediciones a diferentes distancias de las antenas base de telefona celular. Para este ejemplo, en particular, se calculan los promedios de una muestra de 30 mediciones de radiacin electromagntica, para cada una de las siguientes distancias: 25, 50, 100, 200, 300, 400, 500 y 600 metros de la antena base de telfonos mviles. Los promedios de la radiacin electromagntica para cada distancia son: 950 MHz, 800 MHz, 550 MHz, 400
5-114
MHz, 195 MHz, 80,000 Hz, 30,000 Hz y 500 Hz, respectivamente. Sus respectivas desviaciones estndares fueron 50 MHz, 40 MHz, 35 MHz, 80 MHz, 100 MHz, 20,000 Hz, 10,000 Hz y 100 Hz. El estudio se llev a cabo durante todo un ao, en un esfuerzo por evaluar variables, como la distancia, la altura, poca del ao, factores meteorolgicos (como temperatura, presin atmosfrica, intensidad y direccin del viento, humedad relativa), contaminacin del aire por partculas y gases, etc., que pudieran afectar el poder de la densidad de la radiacin electromagntica emitida. Para resolver este problema estimar el modelo matemtico que mejor ajuste los datos. Una vez que se evale el modelo acordemente, predecir la radiacin de microondas a una distancia de 10 y 1000 metros de la antena base. Si hubiese valores atpicos extremos, enlistar tres posibles factores que puedan explicar estas situaciones.
5-115
CAPITULO 6 Distribuciones de t de Estudiante, JI cuadrada y F

Propiedades de la distribucin de t de Estudiante.- Intervalos de confianza para el promedio poblacional .- Prueba de hiptesis para .- Prueba de t pareada para detectar diferencias entre dos tratamientos.- Prueba de t para probar la hiptesis de dos promedios, cuando las varianzas son iguales.- Prueba de t para probar la hiptesis de dos promedios cuando las varianzas son desiguales.Mecanismos para calcular el valor de p cuando se hacen pruebas de hiptesis no tradicionales.- Intervalos de confianza y pruebas de hiptesis con la JI cuadrada, (2).- Aplicacin de la JI cuadrada en cuanto a la prueba de bondad de ajuste comparando las frecuencias observadas y las frecuencias tericas.- Distribucin F y su aplicacin en la comparacin de varianzas muestrales.Aqu, discutiremos la distribucin de t de Estudiante, que est relacionada con la teora de muestreo pequeo. Tambin, discutiremos la distribucin de JI cuadrada y la distribucin de F. En los captulos anteriores hicimos hincapi de que, para muestras que fueran 30 casos, se usa la distribucin normal. Sin embargo, para muestras menores que 30 observaciones se usa lo que se llama teora de muestreo pequeo, que est relacionada con la distribucin de t de Estudiante, con la JI cuadrada o con la distribucin F. La distribucin de t se nombr despus de W.S. Gosset, quien us el seudnimo de estudiante. Por ejemplo, cuando usamos la distribucin normal siempre se conoce el valor de , el tamao de la muestra es > 30 y se sabe que la distribucin muestreada es normal. Pero cuando usamos la distribucin de t de Estudiante, no se conoce y el tamao de la muestra es menor que 30 casos, sin saber si la distribucin muestreada
6-1
es normal o no. Estas situaciones se explican usando las frmulas de la distribucin normal y la de t de Estudiante. Del Captulo 5, ya sabemos que, para aplicar la distribucin normal se usa la variable aleatoria normal estandarizada z, dada como z = ( X - ) / /n. Sin embargo, esta funcin tiene un uso limitado, porque la varianza 2 de la poblacin rara vez se conoce y porque la poblacin muestreada debe ser normal o aproximadamente normal. La distribucin de t de Estudiante no tiene esta limitacin, porque an, para muestras de n < 30 casos, se asume que = s. As sustituyendo el valor de por s la funcin de t de Estudiante nos da: t = ( X - ) / s/n Donde:
X = promedio muestral
(6-1)
= promedio poblacional que se quiere probar s = desviacin estndar muestral n = tamao de la muestra s/ n = error estndar del promedio Propiedades de la distribucin de t de Estudiante La distribucin de t de Estudiante es una familia de distribuciones, cada una caracterizada por el nmero de grados de libertad . Es similar a la distribucin de z normal, con promedio igual a cero y es simtrica en forma de campana. Su forma depende en el tamao de la muestra. Con tamaos de muestras pequeas, la forma de esta curva es menos picuda que la normal, pero a medida que n llega a 30 casos o se va a infinito, s2 se aproxima a 2 y la t de Estudiante se aproxima a la distribucin normal. La grfica de abajo muestra la distribucin de t de Estudiante, con diferentes grados de libertad.
6-2
Figura 6.0. Grfica mostrando familias de curvas de la distribucin de t de Estudiante con diferentes grados de libertad , demostrando cmo, a medida que , la distribucin t se aproxima a la distribucin normal. Diferencias entre la distribucin de t de Estudiante y la distribucin normal La distribucin de t se usa en lugar de la distribucin normal, cuando el tamao de la muestra es menor que 30 casos. Cuando hablamos de la distribucin normal, sta requiere que la muestra sea de n 30 observaciones o que, la poblacional muestreada sea normal. Este tamao de muestra se considera como una muestra grande. Pero cuando la muestra de casos es n < 30 observaciones, no se puede usar la curva normal y tenemos que usar lo que se llama "teora de muestreo pequeo." Para tales efectos se usa la distribucin de t de Estudiante, la JI cuadrada o la distribucin, F. La estadstica t se usa para comparar los promedios de dos distribuciones, mientras que la prueba de F se usa para comparar las varianzas de dos distribuciones. De hecho, las diferencias entre la distribucin de t y la distribucin normal son que la distribucin t no necesita el parmetro de poblacin, , mientras que la normal si lo requiere. Adems, la funcin t no requiere de muestras grandes. Otros, la
6-3
varianza, 2 > 1 y, solamente, cuando n entonces, ambas distribuciones son iguales (prcticamente, cuando n 30 casos). Funciones usadas con la distribucin de t de Estudiante 1. Se usa para hacer intervalos de confianza para . 2. Se usa para probar la hiptesis de que tiene un valor determinado, como por ejemplo, Ho: = o. 3. Se usa para probar diferencias entre dos tratamientos deliberadamente emparejados, esto es, Ho:1 - 2 = 0. Aqu, los tamaos de distribuciones deben ser iguales. 4. Se aplica para probar diferencias entre dos promedios usando el mtodo de seleccin completamente al azar (aleatorio), y con varianzas iguales. Aqu los tamaos de las distribuciones pueden ser iguales o desiguales. 5. Se aplica para selecciones completamente aleatorias (al azar) con varianzas desiguales. El tamao del las distribuciones puede ser igual o desigual. Aplicaciones de la distribucin de t de Estudiante Las aplicaciones de la t de Estudiante son varias. Por ejemplo, puede usarse para el control de la calidad industrial. Tambin es muy til para el control de la calidad de un sistema de tratamiento de aguas residuales en el campo de la ingeniera ambiental. Por otra parte, otra aplicacin muy importante de la t de Estudiante, es la distribucin pareada. Esto es, para comparar el promedio de dos distribuciones o tratamientos, como, por ejemplo, para probar la hiptesis nula de Ho:1 = 2, es decir, que no hay diferencias entre los dos promedios. Aqu, pudiramos estimar dos tipos de anlisis usando dos mtodos y tratamientos, digamos de oxgeno disuelto (OD) o la comparacin de dos mtodos en la ingeniera del agua como el mtodo Winkler y el de electrodos y ver si hay diferencias entre los dos mtodos usando la prueba de t apareadas. Tambin se puede usar para comparar dos distribuciones seleccionadas,
6-4
aleatoriamente, y, con varianzas iguales o desiguales. Aqu, cabe notar que, si se trata de comparar los promedios de ms de 2 distribuciones, entonces se usa el anlisis de varianza simple o mltiple. Descripcin de las funciones usadas con la distribucin de t de Estudiante Estadstica descriptiva:
n
Promedio: X = Xi / n
x=0
(6-2)
Varianza muestral: s2 = [ X 2 (X)2 /n ] / n - 1 Desviacin estndar: s = s2 Intervalos de confianza para el promedio poblacional : Prob{ X - t[1 - /2;] s/n < < X + t[1 - /2;} s/n} = 1 - Donde:
(6-3) (6-3a) (6-4)
t[1/2;] = valor porcentual de t con un nivel de significancia , con grados de libertad s = desviacin estndar n = tamao de la muestra s/ n = error estndar del promedio Prueba de hiptesis para el promedio poblacional t = ( X o) / s/ n Donde:
(6-5)
o = promedio poblacional que se desea probar s = desviacin estndar de la muestra
6-5
Prueba de t para observaciones pares, para detectar diferencias entre dos tratamientos t = ( D - d ) / (s d /n) Donde:
D = Promedio de la muestra de las diferencias de las observaciones del par de
(6-6)
distribuciones s d = Desviacin estndar de las diferencias de las observaciones del par de distribuciones n = nmero de observaciones d = 0 Prueba de hiptesis para la diferencia entre dos promedios poblacionales. Esta funcin tambin aplica cuando las varianzas de las dos distribuciones son iguales y normales.
( X 1 - X 2) - (1 - 2) t = s2p (1/n1 + 1/n2)
(6-7)
Donde:
X 1, X 2 = promedios aritmticos de las dos distribuciones
n1, n2 = tamaos de las dos muestras 1, 2 = parmetros de poblacin uno y dos a estimarse s2p = (1 s12 + 2 s22) / (1 + 2) Donde: s2p = la varianza combinada de las dos muestras 1, 2 = grados de libertad de muestras uno y dos
6-6
s12, s22 = varianzas de muestras uno y dos, respectivamente Funcin de t para la misma situacin que la funcin anterior, pero aplicndola cuando las varianzas de las dos distribuciones son desiguales y asumiendo que las poblaciones son normales
( X 1 - X 2) - (1 - 2) t = (s12 / n1) + (s22 / n2)
(6-8)
Para calcular los grados de libertad, se usa la frmula: = (s21/n1 + s22/n2)2 / [(s21/n1)2/n-1 + (s22/n2)2/n-1] Donde: s21 y s22 = varianzas de las muestras uno y dos n1 y n2 = tamaos de las muestras uno y dos Nota importante: las diferencias entre las funciones de t (6-6), (6-7), y (6-8) se basan en el mtodo de la seleccin al azar que se sigue. Por ejemplo, en la funcin (6-6), el mtodo de seleccin en el emparejamiento de los pares de las observaciones de las distribuciones es deliberado. Sin embargo, en el caso de las funciones (6-7) y (6-8), con relacin a la funcin (6-6), la seleccin es completamente aleatoria, sin hacer emparejamientos. Adems, las diferencias entre el uso de las funciones (6-6), (6-7), y (6-8) es de que en el caso de la (6-6), el tamao de las muestras pares debe de ser igual. En contraste, las funciones (6-7) y (6-8) pueden usarse con tamaos de muestras desiguales. Tambin, con respecto a la uso de las funciones (6-7) y (6-8), stas estn relacionadas con la condicin de igualdad o desigualdad de las varianzas. La funcin (6-7) requiere que las varianzas sean iguales y la funcin (6-8) no. Ahora bien, para hacer un decisin sobre cual de las dos funciones, (6-7) o (6-8) se vaya a (6-9)
6-7
usar, la manera de saber si las varianzas son iguales o desiguales, se puede deducir haciendo una prueba de igualdad de varianzas con la distribucin F, esto es, usando la funcin de F = s21 /s22. Tipos de criterios que se siguen para establecer las pruebas de hiptesis (anlogos a los de la distribucin normal) 1. La hiptesis nula se puede hacer como: Ho: = o. Bajo estas condiciones de igualdad, las hiptesis alternativas son: H1: o, H2: < o y H3: > o. Donde o es el promedio poblacional que se quiere probar. Aqu, cabe notar que en este caso, la prueba de hiptesis es bilateral o de dos colas. 2. Tambin la hiptesis nula se puede hacer como: Ho: o. En este caso, la hiptesis alternativa es Ho: < o. Aqu, la prueba de hiptesis es unilateral izquierda. 3. Igualmente, la hiptesis nula se puede hacer como: Ho: o. En este caso la hiptesis alternativa es H1: > o. Aqu, la prueba de hiptesis es unilateral derecha. 4. Seleccionar un nivel de significacin de tamao , esto es, = .05 o = .01 con sus respectivos niveles de confianza de 95% y 99%. Tambin, se pueden usar otros niveles de significacin, como el .10, .20, etc., pero los ms comunes son los de 0.05 y .01. 5. Seleccionar la estadstica apropiada (por ejemplo, si n > 30 casos se usa la distribucin z. Si la muestra es n < 30 casos y la poblacin muestreada no es normal se usa la distribucin de t de Estudiante, la distribucin de Ji cuadrada, la distribucin F, etc. 6. Se establecen las regiones crticas usando niveles de confianza del 95%, 99%, 90%, 80% etc. (95% y 99% los ms comunes) 7. Se estima el valor de la prueba de estadstica de la muestra y se compara con el
6-8
valor de la estadstica calculada, es decir, zcalc. o tcalc. (De las regiones crticas) y se comparan con ztab. o ttab. Si la estadstica calculada es mayor que la estadstica tabulada (de las regiones crticas) se rechaza la hiptesis nula). De otra manera, se acepta la hiptesis o no se hace ninguna decisin. De esta manera, si el valor de la estadstica calculada se mete en las regiones crticas se rechaza la hiptesis nula (o tambin si el valor de p es menor o igual al nivel de significacin, deseado). Nota: Aqu es importante recordar que, la prueba de hiptesis nula estadstica se dise el siglo antepasado. En tiempos modernos de la era ciberntica, existe la prueba no tradicional relacionada con el valor de la probabilidad p. Tambin es importante notar que muchos programas de computadora dan nicamente el valor de p y el investigador tiene que interpretarlo acordemente. Mecanismos que se siguen para calcular el valor de la probabilidad p usando las tablas de las distribuciones de t de Estudiante, la JI cuadrada o la distribucin F Aqu, para calcular el valor de la probabilidad p se puede hacer usando la funcin t es decir, haciendo interpolaciones aplicando una frmula emprica diseada por el autor de este libro, el Dr. Hctor Quevedo Uras y auxiliado por la Dra. Socorro Arteaga. (2 1) / (t2 t1) = (2 - X) / (t2 tcalc.) Donde: 2 = el nivel de confianza ms alto de la tabla de la t de Estudiante 1 = el nivel de confianza ms bajo de la tabla de la distribucin de t t1 = la probabilidad correspondiente a 1 t2 = la probabilidad correspondiente a 2 X = valor desconocido de tcalc.= valor de la estadstica de la distribucin de t, con el nivel significante deseado, e.g., = .05 o = .01 (6-10)
6-9
Donde: (n - 1) = = grados de libertad Nota: si se usa la distribucin de JI cuadrada o la de Fisher, nicamente se substituye t por 2 o por F, respectivamente. Ejemplo #1. Supongamos que queremos hacer la prueba de hiptesis no tradicional con la funcin t, es decir, usando el valor de la probabilidad p. Entonces, si el valor de la tcalc. = 2.83 con 4 grados de libertad, con = 0.05 para Ho: = o buscamos el valor de 2.83 en la tabla, pero no lo encontramos. Sin embargo, vemos que est entre 2.776 y 3.747, con sus respectivos valores de de .99 y .975. Entonces para encontrar X, procedemos usando la frmula (6-10) de arriba, donde los valores correspondientes son: 2 = .99, 1 = .975, t2 = 3.747, t1 = 2.776, tcalc. = 2.83. Ahora, sustituyendo estos valores en la frmula de interpolacin y sustituyendo: ((2 - 1) / (t2 t1) = (2 X) / (t2 tcalc.) (.99 - .975) / (3.747 2.776) = (.99 X) / (3.747 2.83) Resolviendo por X da X = 0.976. Por lo tanto, p = 1 0.976 = 0.024, pero como son dos colas, entonces, multiplicamos ese valor por 2 y da p = .048.
6-10
Ejemplo #2. Se saca una muestra aleatoria de 8 observaciones de pH cuyos valores son: 5, 4, 6, 5, 4, 6, 5, 5. Probar la hiptesis nula de que el valor esperado del pH es de cuando menos 6.5 usando = 0.05. Calcular el valor de la probabilidad p. Solucin: 1. La hiptesis nula es Ho: 6.5; y la hiptesis alternativa es H1: < 6.5. Esto dice que la prueba es unilateral izquierda. 2. Usamos la estadstica: t = ( X o) / s/ n = (5.0 6.5) / 0.756/ 8 = - 5.6 3. La regin crtica izquierda es t[;] = t[0.05;7] = - 1.895 4. Debido a que tcalc.= - 5.6 < ttab. = - 1.895, se rechaza la hiptesis y nos inclinamos por la hiptesis alternativa. 5. El valor de la probabilidad p se calcula buscando |-5.6| con = 7 en la tabla de la distribucin t y se sustituyen los valores de 2 = .99975, t2 = 7.885, 1 = .9995 t1 = 5.408 y tcalc. = -5.61 en la frmula de interpolacin y resolviendo por la variable X da: (.99975 - .9995)/(7.885 5.408) = (.99975 X)/(7.8885 5.6) El valor de la probabilidad es p = 0.00048, el cual es mucho, muy significante Ejemplo #3. Un fabricante de cigarrillos afirma qu, el promedio de nicotina de sus productos es de cuando mucho 5 miligramos por cigarrillo fumado. Para comprobar esta aseveracin, se sac una muestra aleatoria de 25 cigarrillos y se encontr un promedio estadstico de X = 5.5 miligramos de nicotina por cigarro fumado, con una desviacin estndar de s = 0.5. Probar la aseveracin del fabricante que el verdadero promedio es de a lo ms 5 miligramos por cigarrillo fumado. Asumir un
6-11
valor significante de = 0.05. Solucin: 1. La prueba de hiptesis nula es: Ho: 5.0. La prueba de hiptesis alternativa es: y H1: > 5.0. 2. La regin crtica es t0.05;24 = 1.711. 3. Usando la funcin de t y sustituyendo los valores da: t = (5.5 5.0) / 0.5/5 = 5.0 4. Debido a que 5.0 > 1.711 se rechaza la hiptesis nula. 5. No obstante, esta prueba de hiptesis tradicional no da una idea de la fuerza de conviccin de que la decisin tomada es, en verdad, correcta. Sin embargo, usando la prueba de hiptesis no tradicional del valor de p, este valor si determina, qu tan verosmil es muestrear un valor del parmetro que sea igual o menor que X = 5.5, cuando = 5.0. 6. El valor calculado de p es de aproximadamente .00002. Ejemplo #4. Se dan los siguientes datos de una muestra aleatoria de 15 mediciones de partculas atmosfricas en ppm: 33.38, 32.15, 33.99, 34.10, 33.97, 34.34, 33.95, 33.85, 34.23, 32.73, 33.46, 34.13, 34.45, 34.19, 34.05. Hacer los siguientes clculos de estadstica descriptiva. (a) Estimar el tamao de la muestra n
~ (b) Estimar el promedio X , la mediana X y la moda X
(c) Estimar la varianza y la desviacin estndar muestrales (d) El valor mximo, mnimo, el rango y el error estndar (e) El sesgo (f) El nmero de grados de libertad,
6-12
(g) El intervalo de confianza del 95%, es decir, el nivel de significancia de = .05) para el promedio poblacional . Tambin, hacer los siguientes clculos de estadstica de inferencia: (a) Probar la hiptesis nula de Ho: = 34.5 contra la hiptesis alternativa de H1: 34.5. Calcular el valor de la probabilidad p. (b) Probar la hiptesis de Ho: 34.5 contra la hiptesis alternativa de H1: < 34.5. Calcular el valor de p. (c) Probar la hiptesis nula de Ho: 33.2 contra H1: > 33.2. (d) Calcular el valor de la probabilidad p Solucin: Los clculos de la estadstica descriptiva son: (a) El tamao de la muestra es n = 15 (b) El promedio aritmtico, la mediana y la moda son:
X = X / n = (33.38 + 32.15 +...+ 34.05)/15 = 33.8
La mediana es: 33.99. La moda no existe. (c) La varianza = s2 = [X 2 (X) 2/n]/n-1 = [17,125.76 (506.76)2/15] / 15-1 = 0.38 La desviacin estndar = s = s2 = 0.38 = 0.62 (d) El valor mximo, mnimo y el rango son: Valor mximo = 34.45. Valor mnimo = 32.15 Rango = valor mximo valor mnimo = 2.3 El error estndar del promedio es: Error estndar = / n = 0.62/ 15 = 0.16
6-13
(e) El sesgo denota la simetra de la distribucin y en este caso es de 2.55, el cual comparado con el sesgo de la distribucin normal estandarizada, que es de 0, indica que la distribucin de los datos es oblicua a la derecha o con sesgo positivo. (f) El nmero de grados de libertad son: = n 1 = 15 1 = 14 (g) El intervalo de confianza del 95% o = .05, corresponde a los valores crticos de 2.145, con = 14 grados de libertad.
X t[1-/2;] (s/ n) < < X + t[1-/2;] (s/ n)
33.8 t[.975;14] (0.16) < < 33.8 + t[.975;14] (0.16) 33.8 - 2.145 (0.16) < < 33.8 + 2.145 (0.16) 33.45 < < 34.15 Los clculos de la estadstica de inferencia son: (a) Esta es una prueba de hiptesis bilateral con regiones crticas de ttab. = t[.975;14] = 2.145 con 14 grados de libertad, con un nivel de significancia de = .05 (de la tabla de la distribucin de t). La estadstica usada es la funcin t de abajo: tcalc. = ( X - o) / s/ n = (33.8 34.5) / 0.63/ 15 = - 4.3 Ahora se compara la t calculada con la t tabulada, es decir, con los valores crticos. El criterio que se sigue es de que si la t calculada se introduce en las regiones crticas, entonces, se rechaza la hiptesis sustentada de que Ho: = 34.5 y se inclina por la hiptesis alternativa. En conclusin vemos que 4.3 < - 2.145, es decir, se introduce en el extremo izquierdo de la curva. El valor de la probabilidad p se calcula usando la frmula de interpolacin (6-10) : (2 1)/(t2 t1) = (2 X) / (t2 tcalc.)
6-14
Donde: 2 = .99975, t2 = 4.499, 1 = .9995, t1 = 4.14, tcalc. = -4.3 (aqu en este caso, se toma el valor absoluto), X igual a valor buscado el cual corresponden a la interpolacin de t = -4.3 con = 14 g.l. Sustituyendo los valores en la frmula de arriba da: (.99975 .9995)/(4.499 4.14) = (.99999 - X)/(4.499 4.3) X = 0.99987 y el valor de p es p = 2(1 - .99999) = 0.00002. Este valor es mucho muy significativo y apoya, muy contundentemente, la contencin de que el promedio no es mayor que 34.5. (b) Probando la hiptesis nula de Ho: 34.5 contra H1: < 34.5 La t calculada es la misma que en la parte (a), es decir, - 4.3. Esta es una prueba unilateral izquierda con = 0.5 con el valor porcentual de t.95;14 = - 1.761 o sea que la regin crtica izquierda es 1.761 (de la tabla de la distribucin de t). Para hacer una decisin de rechazar o de aceptar Ho: se compara el valor de t.95;14 = 1.761 con tcalc. = 4.3 y vemos, nuevamente, que se introduce en el extremo izquierdo de la distribucin, por lo tanto, se rechaza la hiptesis. El valor de la probabilidad p se calcula buscando el valor absoluto de |-4.3| en la tabla con = 0.05 y vemos que est entre 4.499 y 4.14 con sus respectivos valores de igual a .99975 y .9995. Es decir que el valor de p est entre .00025 < p < .0005, con un valor de p .0002. (c) Para probar la hiptesis de Ho: 33.2 contra la hiptesis alternativa de H1: > 33.2, se usa la estadstica de t de Estudiante, es decir: t = (33.8 33.2)/0.63/3.87 = 3.68 La regin crtica derecha es t.95;14 = 1.76 y vemos que 3.68 es mayor que este valor y se rechaza la hiptesis nula. Bajo estas condiciones, el valor de la probabilidad p es 0.001.
6-15
Ejemplo #5. Un fabricante de llantas afirma qu, la vida promedio de cierto tipo de neumtico, es mayor que 25,000 kilmetros, bajo condiciones normales de manejo y, para vehculos de cierto peso. Para esto, se saca una muestra aleatoria de 15 llantas y se calcula un promedio aritmtico y una desviacin estndar de 27,000 y 3,000, kilmetros, respectivamente. Asumir que = 0.05 y que la poblacin de llantas est normalmente distribuida Se puede concluir de esta informacin que la contencin del fabricante de llantas es legtima? Para resolver este problema hacer lo siguiente: (a) Establecer las pruebas de hiptesis nula y alternativa (b) Establecer la(s) regin(es) crtica(s) (c) Calcular el valor de la estadstica (d) Calcular y graficar el valor de p. Solucin: (a) El problema est preguntando si se puede concluir que es mayor que 25,000 kilmetros. Por lo tanto, una afirmacin de este efecto deber ir en la prueba de hiptesis alternativa. Las hiptesis apropiadas son: Ho: 25,000 y H1: > 25,000 (b) La regin crtica con = 0.05 es: t0.95;14 = 1.7613 (c) El valor calculado de la estadstica t con X = 27,000, error estndar = 774.61, n = 15 y o = 25,000 es: t = (27,000 25,000) / 3000/15 = 2.58 (d) Para encontrar el valor de la probabilidad p se procede de la siguiente manera: Se busca t = 2.58 en la tabla de la distribucin de t con = 14 grados de libertad, y vemos que este valor est entre 2.624 y 2.1448, con sus respectivos percentiles de 0.10 y 0.025. De esta manera, si la hiptesis nula Ho: es cierta, entonces, la
6-16
probabilidad de obtener un valor de t tan grande o ms grande que 2.1448 es 0.025. Similarmente, la probabilidad de obtener un valor tan grande o ms grande que 2.624 es de 0.10. Por lo tanto, si Ho: es verdadera, la probabilidad de obtener un valor de t tan grande o ms grande que t = 2.58 est entre 0.010 y 0.025, es decir, 0.10 < p < 0.025. Las figuras de abajo muestran esta situacin.
Figura 6.1. Figuras (a) y (b) mostrando el intervalo de la probabilidad p y el valor de la probabilidad p, respectivamente. Ejemplo #6. Para probar la eficiencia de una planta de tratamiento lodos activados se midi la concentracin del DBO5 en la entrada y en el efluente (salida). Se requiere saber qu tan eficiente es este sistema de tratamiento del drenaje.
6-17
TABLA 6.0. Tabla mostrando las concentraciones de DBO. (Elaboracin propia) Concentraciones de DBO en la entrada (mg/L) 170.5 207.4 215.9 209.0 171.6 201.2 209.9 213.3 184.1 220.4 Concentraciones de DBO en el efluente (mg/L) 140.4 174.7 170.2 174.6 154.6 185.0 118.9 169.8 174.7 176.7 Diferencias de las concentraciones (mg/L) 30.1 32.7 45.7 34.4 17.0 16.2 91.0 43.5 9.4 43.7
__________________________________________________________________ Solucin: Usando los valores de la TABLA 6.0 sacamos las diferencias entre las concentraciones en la entrada y en el efluente. Esto se muestra en la tercera columna de la tabla. Una vez hecho esto, se calcula el promedio aritmtico de las diferencias (que es igual a D ) y la desviacin estndar (que es igual sd), el error estndar, etc. 1. Usando un paquete de computadora se calcula el valor del promedio D = X = 36.37, la desviacin estndar que es igual a sd = 22.95, n = 10, error estndar = 7.26 2. La prueba de hiptesis nula es de Ho: = 0 o sea que no hay diferencias entre el
6-18
DBO de la entrada y del efluente. La hiptesis alternativa es H1: 0. 3. El nivel de significancia es = 0.05. La regin crtica es del extremo derecho y es igual a t.95;9 = 2.262, es decir, con 9 grados de libertad. 4. Se usa la funcin (6-6) para emparejamiento deliberado, y sustituyendo los valores da: t = ( D o) / sd/ n t = (36.37 0)/7.26 = 5.01 5. Al comparar el valor de tcalc. = 5.01 con el valor de la t crtica de t.95;9 = 2.262, se rechaza la hiptesis nula y decimos que s hay diferencias entre las concentraciones de la entrada y de la salida del drenaje. 6. Para calcular el valor de la probabilidad p usamos la frmula de interpolacin. Para esto buscamos 5.01 en la tabla de la t de Estudiante y vemos que est entre los valores porcentuales de 2 = .99975 con t2 = 5.291 y 1 = .9995 con t1 = 4.781. Ahora usando la frmula de interpolacin y sustituyendo todos los valores da: (.99975 - .9995)/(5.291 4.781) = (.99975 X)/(5.291 5.01) Resolviendo por X da X = .9996, por lo tanto, p = 1 - .9996 = .00039. Este valor de p es mucho muy significante y apoya, en forma muy contundente, la decisin de haber rechazado la hiptesis, de que no hay diferencias entre las concentraciones de la entrada a la planta y de la salida. 6. En conclusin rechazamos la hiptesis Ho: = 0, esto es, de que no hay diferencias entre las concentraciones de la entrada y del efluente (en verdad si hay mucha diferencia, al juzgar por el valor de la probabilidad p).
6-19
Ejemplo #7. Este es un ejemplo de ingeniera ambiental (ingeniera sanitaria) relacionado con el uso de la distribucin t, cuando las varianzas de las distribuciones son desiguales, asumiendo que las poblaciones son normales. Aplicando este concepto, en un estudio se sabe que, el deterioro de muchas redes de tubera municipal de agua y drenaje en todo el pas es un asunto que preocupa cada vez ms a las autoridades. Unas de las tecnologas propuestas para la rehabilitacin de las tuberas consisten en usar un forro flexible alrededor del tubo existente. El artculo Effect of Welding on a High Density Polyethylene Liner (J. of Materials in Civil Engineering, 1996, pp. 94-100), informa los datos siguientes de resistencia a la tensin, en lbs/in2 (psi), o sea libras por pulgada cuadrada, de especimenes de forro, tanto en el caso en que cierto proceso de fusin se usa, como cuando no se usa. La tabla de abajo da los datos crudos y procesados. Usar = .05. Para esto hacer los siguientes clculos: (a) Establecer la prueba de hiptesis nula y la prueba de hiptesis alternativa. Esto es, haciendo una prueba de hiptesis nula de que no hay diferencias en las resistencias a la tensin para los dos tratamientos. (b) Establecer la regin crtica. (c) Usar la estadstica ms apropiada para elaborar este problema. (d) Hacer una decisin estadstica usando el criterio tradicional, es decir, de rechazar o de retener la hiptesis nula. (e) Hacer una prueba de hiptesis no tradicional, es decir, calculando el valor del nivel de p.
6-20
TABLA 6.1. Tabla mostrando los datos del problema. (Elaboracin propia) Sin fusin (en libras por pulgada cuadrada) 2748 2700 2655 2822 2511 3149
2
3257
3213 3220
2753
n1 = 10
X 1 = 2902.8 s1 = 277.2 s 1 = 76,875.99
__________________________________________________________________ Con fusin (en libras por pulgada cuadrada) 3027 3356 3359 3297 3125 2910 2889 2902 n2 = 8
X 2 = 3108.1 s2 = 205.9
s22 = 42382.41.
__________________________________________________________________ Solucin: (a) La prueba de hiptesis nula es: Ho: = 0 o sea que no hay diferencias entre las tensiones, para los dos tratamientos. Las pruebas de hiptesis alternativas son H1: > 0 y H2: < 0. (b) La regin crtica es unilateral izquierda es igual a -1.75 (c) Se usa la funcin estadstica de t para varianzas desiguales. Es decir, cuando se usan dos muestras aleatorias independientes de poblaciones normales, con varianzas desiguales. Esta estadstica de la funcin de t, algunas veces se llama prueba de Smith-Satterthwaaie abajo mostrada. (Miller et al. 1976, p. 261) Sustituyendo los valores en la ecuacin (6-7) da: 3108.10 2925.33 t = (277.3)2/10 + (205.9)2/8 = - 1.86
6-21
Ahora, usando la frmula de los grados de libertad, relacionada con la funcin de t que tiene varianzas desiguales (Li, 1964), es decir: (s21/n1 + s22/n2)2 = [(s21/n1)2/(n1-1)] + [s22/n2)2/(n2-1)] (6-11)
Y sustituyendo todos los valores de: s21 = 76,875.96, n1 = 10, s22 = 42,382.41, n2 = 8 da: [(76,875.96)/(10) + 42,382.41/(8)]2 = [(76,875.96)/10)2/9) + (42,382.41/8)2/7] = 16 grados de libertad (d) Conclusin: se rechaza la prueba de hiptesis nula de no diferencias en las resistencias a la tensin debido a que el valor de la estadstica t = -1.86 es menor que la regin crtica izquierda de -1.75. (e) Para hacer la prueba de hiptesis no tradicional se busca el valor absoluto de la t calculada, es decir, |-1.86| en la tabla de la distribucin de t de Estudiante con 16 grados de libertad y vemos que los valores percentiles son de 0.025 y 0.05 con sus puntos porcentuales de 1.746 y 2.120. Entonces, el razonamiento que se sigue para calcular el valor de p es como sigue. Si Ho: es verdadera, la probabilidad de obtener un valor de t tan grande o ms grande que 1.746 es 0.025. Adems, la probabilidad de obtener un valor tan grande o ms grande que 2.120 es de 0.05. Por lo tanto, si Ho: es verdadera, la probabilidad de obtener un valor tan grande o ms grande que el valor de -1.86 est entre 0.025 y .05. Para esta prueba en particular, 0.05 > p > 0.025. Ejemplo #8. Supngase que se saca una muestra de 8 mediciones de nitratos (NO3-) y se calcula un valor de t = - 3.62, con un nivel de significancia de = 0.05. Probar la
6-22
hiptesis nula de Ho: = 32.0. Calcular el valor de la probabilidad p. Solucin: Aqu la prueba es bilateral. Las regiones crticas son de t[.05;7] = 2.365. El valor de la t calculada es de t = -3.62. Se usa la funcin de P para dos colas dada como: P = P(t.025 < -|t|) + P(t.025 > |t|) (6-12) 2. Estamos buscando la probabilidad de sacar un valor de t que exceda 3.62 con = 7 grados de libertad, pero vemos que este valor no est en la tabla de la distribucin t. Entonces tenemos que interpolar este valor y lo buscamos en la tabla y vemos que est entre 2 = .9975 con t2 = 4.029 y 1 = .995 con t1 = 3.499. Adems, sabemos que t[.05;7] = -2.375 (porque es de la cola izquierda). Ahora se sustituyen todos estos valores en la frmula de interpolacin (5-27) recapitulada abajo: P = (2 1) / (t2 t1) = (2 X) / (t2 tcalc.) Enseguida sustituyendo los valores de arriba da: p = [(.9975 - .995)/(4.029 3.499) = (.9975 X)/(4.029 3.62)] = (.0025)/(0.53) = (.9975 X)/(0.409) = .99785. La probabilidad p es 1 - .99785 = .002. Sin embargo, debido a que la prueba involucra dos extremos, por lo tanto, el valor de la probabilidad p se multiplica por 2 para dar p = .0043. Este valor es mucho muy significativo. Las figuras de abajo muestran esta situacin.
6-23
Figura 6.2. Figuras mostrando las regiones crticas. (Elaboracin propia) La distribucin de JI cuadrada (2) La distribucin de JI cuadrada est relacionada con la varianza. Esta distribucin se usa para hacer intervalos de confianza para la varianza poblacional y pruebas de hiptesis para la varianza poblacional. Esta estadstica de 2 tambin se usa para hacer pruebas de bondad de ajuste. Esto se hace para ver si los datos provienen de una poblacin que sigue alguna distribucin especificada, como discreta o continua, es decir, comparando los datos tericos con los observados. Finalmente, la JI cuadrada tambin se usa para hacer pruebas de independencia, etc. La distribucin de JI cuadrada est crticamente condicionada a muestreos de poblaciones normales, porque de otra manera puede conducir a errores muy grandes. Adems, un tamao de muestra grande, no garantiza una prueba confiable.
6-24
Propiedades de la distribucin de JI cuadrada (2) 1. La distribucin de JI cuadrada no es simtrica, como la distribucin normal o la distribucin de t. Los valores de la JI cuadrada pueden ser de cero o positivos, pero no negativos. 3. La distribucin de JI cuadrada es una familia de curvas y hay una distribucin diferente para cada nmero de grados de libertad, . Pero, a medida que el nmero de grados de libertad aumenta, la distribucin de la JI cuadrada se aproxima a la distribucin normal.
Figura 6.3. Distribucin de JI cuadrada (2) con varios grados de libertad, en funcin f (2) = [(2)/(2-1) e-2/2] / {2/2 [ - 2) / 2]!}. (Dunn et al. 1974) Ejemplos para determinar las regiones crticas de la JI cuadrada usando los valores porcentuales de 2p y de 2[,]. Ejemplo #9. Encontrar los valores crticos de 2 que determinen las regiones crticas que contengan un rea de 0.025 en cada cola. Asumir que n = 10, por lo tanto, los grados de libertad son de = 10 1 = 9. Solucin:
6-25
La figura de abajo muestra una prueba bilateral. Para encontrar el valor crtico izquierdo, se refiere a la tabla de la JI cuadrada y se busca = 9 en la columna izquierda de la tabla y se va hasta la columna 0.975, porque el rea total a la derecha de este valor es 0.975 que lo sacamos restando 0.025 de 1 y nos da 2 = 2.700. Similarmente, para la regin crtica derecha, se localiza el valor de = 9 y nos movemos hacia el valor de 0.025 y da 2 = 19.023. La Figura 6.4 de abajo muestra esta situacin.
20.975;9 = 2.70
20.025;9 = 19.023
Figura 6.4. Grfica mostrando los valores crticos de la distribucin, con un rea de 0.025 en cada cola, con n = 10 y = n 1 = 10 1 = 9. Fuente: Triola (1995) Por ejemplo, recapitulando el razonamiento anterior, de la Figura 6.4, se puede ver que, para obtener el valor crtico o lmite izquierdo de 2.70, hay que localizar 9 en la columna izquierda de grados de libertad y luego localizar 0.975 arriba de la tabla. El rea total a la derecha de este valor crtico es 0.975, el cual se estima de 1 0.025. Similarmente, para obtener el valor crtico de 19.023, localizar 9 en la columna de grados de libertad y luego localizar 0.025 arriba de la tabla.
6-26
Ejemplo #10. Encontrar los valores crticos de 2 por los cuales el rea del extremo derecho de la distribucin es de 0.05, si: (a) = 15 (b) = 21 Solucin: (a) El valor de la cola derecha de la distribucin de JI cuadrada se busca en la tabla de esta distribucin y es: 2;n-1 = 2.05;16-1 = 2.05;15 = 24.996 (b) El valor de la cola derecha es de 2.05;21 = 32.7 Ejemplo #11. Para una distribucin de JI cuadrada con 12 grados de libertad, encontrar el valor de 2 de tal manera que: (a) El rea a la derecha de 2 es .05, (b) El rea a la izquierda de 2 es .99 Solucin: (a) 2.05;12 = 21.026 (b) 2.01;12 = 26.22 Ejemplo #12. Encontrar los valores crticos de 2 por los cuales el rea a la derecha de la distribucin es de = .01, si = 5: Solucin: Si el rea sombreada sobre la derecha es .010, el rea a la izquierda de 22 es .99 y 22 representa el 99avo percentil, 2.99, el cual es igual a 15.1. Intervalos de confianza y pruebas de hiptesis usando la distribucin de JI cuadrada 2 El intervalo de confianza 1 para la varianza poblacional, 2 se da como: (n 1) s2 / 2[1-/2;n-1] < 2 < (n 1)s2 / 2[/2;n-1] (6-14) Ejemplo #13. Si una muestra aleatoria estadstica de 17 mediciones tiene una
6-27
varianza de s2 = 196.38, encontrar el intervalo de confianza para 2 usando los niveles de confianza son de: (a) = 0.05 (b) = 0.01 Solucin: (a) Se requiere la funcin P(21-/2 < 2 < 2/2) = 1 . Se calculan los lmites superiores e inferiores y luego se sustituyen los valores correspondientes. Para el lmite superior: 2[1-/2;n-1] = 2[1-.05/2;17-1] = 2.975;16 = 6.91 Para el lmite inferior: 2[/2;n-1] = 2.05/2;17-1 = 2.025;16 = 28.8 Ahora, sustituyendo estos valores en la funcin (6-14) nos da: (17 1)(196.38) / 6.91 < 2 < (17 1)(196.38 / 28.8) 454.7 < 2 < 109.1 La cual se simplifica a: procede como sigue: Para el lmite inferior: 2[/2;n-1] = 2[.01/217-1] = 2.005;16 = 34.13 Para el lmite superior: 2[1-/2;n-1] = 2[1-.01/2;17-1] = 2.995;16 = 5.14 Enseguida, usando la frmula del intervalo y sustituyendo da: (17 1)196.38 / 5.14 < 2 < (17 1)196.38 / 34.13 Que se simplifica a: 92.06 < 2 < 611.3 Este intervalo dice que estamos confiados en un 95% de que la varianza poblacional est entre 92.06 y 611.3. El intervalo de confianza para se calcula sacando la raz cuadrada, lo cual da (10.45, 21.32) y (9.59, 24.72), para = .05 y = .01, respectivamente. 453.7 > 2 > 109.1 (b) Para calcular los superiores e inferiores, con un nivel de significancia de 0.01 se
6-28
Ejemplos de pruebas de hiptesis para la varianza usando la distribucin de la JI cuadrada, 2 asumiendo que la poblacin muestreada es normal La funcin estadstica usada para hacer pruebas de hiptesis para la varianza es la funcin (6-15) descrita abajo: 2 = (n 1)s2 / 2 Donde: 2 = estadstica de la distribucin de la JI cuadrada s2 = varianza muestral 2 = varianza poblacional (la dada en la hiptesis nula) n = tamao muestra Ejemplo # 14. Un fabricante de medidores de CO afirma que la desviacin estndar poblacional de estos aparatos es menor que 3 ppt. Se saca una muestra aleatoria de 10 aparatos, y se calcula la desviacin estndar muestral de 1.6. Existe suficiente evidencia con = 0.05 para apoyar la contencin del fabricante? Solucin: 1. Primeramente, debido a que ser requiere determinar si la desviacin estndar es menor o menos que 3 ppt, la prueba de hiptesis alternativa es H1:2 < 9. Por lo tanto, la prueba de hiptesis nula debe ser Ho:2 = 9 2. La regin de rechazo es 2 < 21-;n-1 o sea 2 < 2.95;9 o sea 2 < 3.33 3. La estadstica a usarse es: 2 = (n 1)s2 / 2 4. Los clculos son: 2 = 9(1.6)2 / 9 = 2.56 5. En conclusin, se rechaza la hiptesis nula y se dice que si hay suficiente evidencia para apoyar la contencin del fabricante. 6. El valor de p se hace buscando 2.56 en la tabla de la distribucin de JI cuadrada con = 9 y vemos que es (.025 < p < .01). Usando la funcin (5-29), y sustituyendo (6-15)
6-29
los valores da: (0.025 0.01)/(2.7 2.09) = (0.025 X)/(2.7 2.56) y la probabilidad es p = 0.022. La figura de abajo muestra esta situacin.
Figura 6.5. Grfica mostrando el valor de la estadstica 2, la regin de rechazo, la regin crtica y el valor de la probabilidad p, para el Ejemplo #13.. Ejemplo #15. En un estudio de ahorro de energa elctrica (lo que ocasionara que hubiera menos contaminacin del medio ambiente) se observa qu, la varianza (poblacional) del consumo es de 28.0 kWh. Se decide poner focos fluorescentes y apagar las luces cuando no se usen, para ver si hay una reduccin en la variacin del consumo. Para esto se saca una muestra aleatoria de 26 consumos de energa, y se estima una varianza muestral de 16.0 kWh. Usar un nivel de significancia de = 0.05, y probar que la varianza del consumo de energa se ha reducido, bajo las condiciones dadas. Tambin hacer una prueba de hiptesis no tradicional calculando el valor de la probabilidad p e interpretarla, acordemente. Solucin: 1. La prueba de hiptesis nula es Ho:2 = 28.0. La prueba de hiptesis alternativa es
6-30
H1:2 < 28.0. 2. La regin crtica se calcula buscando el numero de grados de libertad = 26 en la tabla de la distribucin de la JI cuadrada con 2.05;26 y da 15.379 (probabilidades de la cola inferior o izquierda). 3. Usando la estadstica de la distribucin de la JI cuadrada 2 para la prueba de hiptesis (6-15), esto es, 2 = (n - 1)s2 / 2, y sustituyendo los valores da: 2calc. = (26 1)(16.0) / 28.0 = 14.29 4. Ahora, comparando el valor de 2calc. = 14.29 con la regin crtica izquierda de 15.38, es decir, 2calc. = 14.29 < 2.05;26 = 15.38, se rechaza la hiptesis Ho:2 = 28.0 y se inclina por la hiptesis alternativa. 5. El valor de p se hace buscando 14.29 en la tabla de la JI cuadrada con = 26 y vemos que est entre 2 = .05 con 22 = 15.379 y 1 = .025 con 21 = 13.844. Sustituyendo los valores en la funcin (5-29) y resolviendo por X da: (2 1)/(22 21) = (2 X)/(22 2calc.) (.05 - .025)/(15.4 13.8) = (.05 X)/(15.4 14.29) La probabilidad es de p = .029. Por lo tanto, si la hiptesis nula es verdadera, esperaramos de tener un valor de 2 ms grande que, o igual que 14.29, con una probabilidad de .03. Aplicacin de la JI cuadrada, 2 en cuanto a la prueba de bondad de ajuste comparando las frecuencias observadas (lo prctico o los resultados de laboratorio) y las frecuencias tericas (lo esperado) La prueba de bondad de ajuste se usa para probar la hiptesis de que una frecuencia observada est de acuerdo con algunas distribuciones tericas, o que hay consistencia entre una distribucin hipottica (como la distribucin normal, la binomial, etc.) qu encaje con una distribucin emprica o muestral.
6-31
Aqu se nota qu, las pruebas de hiptesis nulas son siempre unilaterales derechas. Tambin, es de notarse que se puede usar la prueba de KolmogorovSmirnov en las pruebas de bondad de ajuste. Descripcin de la estadstica de 2 usada para la prueba de bondad de ajuste 2 = (o1 e1)2 / e1 + (o2 e2)2 / e2 +...+ (ok ek) / ek 2 = (oj ej)2 / ej
j=1 k
(6-16) (6-17)
Donde: 2 = estadstica usada para la prueba de bondad de ajuste o = frecuencias observada e = frecuencia esperada k = nmero de categoras diferentes de un resultado n = nmero total de casos o tamao de la muestra = k 1 = nmero de grados de libertad Nota: En algunas ocasiones, si se van a acomodar los datos por distribuciones tericas, como la binomial, se usa la relacin = k 1 m (Spiegel, 1961). Cuando se usa la prueba de bondad de ajuste, el criterio para rechazar o retener la hiptesis nula es que, si 2 = 0, entonces, las observaciones tericas y las observadas son iguales. Pero, si 2 > 0, entonces, las frecuencias tericas y las observadas no son iguales. Esto quiere decir que, si el valor de la estadstica 2calc. > 2tab., entonces, se rechaza la hiptesis nula; de otra manera, se retiene Ho:. Suposiciones para hacer las pruebas de bondad de ajuste 1. Los datos muestrales consisten de conteos de frecuencia de diferentes categoras, k de muestras aleatorias. 2. Para cada una de las categoras k, la frecuencia esperada es de cuando menos 5.
6-32
f(2)
Figura 6.6. Regla de decisin estadstica mostrando la regin crtica y la regin de aceptacin, para la prueba de bondad de ajuste, es decir, usando la distribucin de JI cuadrada. (Elaboracin propia) Ejemplo #16. En un estudio de seguridad municipal, se analiza el nmero de accidentes por das de la semana. Probar la hiptesis nula de que los accidentes ocurren con iguales frecuencias en los 5 das de la semana. Para esto usar un nivel de significancia de = 0.05 y calcular el valor de p. Los datos se dan en la TABLA 6.3 de abajo. TABLA 6.3. Frecuencias observadas y esperadas. (Elaboracin propia) Da de la semana | Lunes 31 29.4 Martes 42 29.4 Mircoles 18 29.4 Jueves 25 29.4 Viernes 31 29.4
Accidentes observados| Accidentes esperados |
6-33
Solucin: Los datos calculados y los resultados de la prueba de hiptesis se dan abajo. TABLA 6.5. Clculos para la prueba de bondad de ajuste. (Elaboracin propia) Categora Lunes Martes Mircoles Jueves Viernes
5
Frecuencia Frecuencia observada esperada 31 42 18 25 31 29.4 29.4 29.4 29.4 29.4
(o e) 1.6 12.6 -11.4 -4.4 1.6
(o e)2 2.56 158.76 129.56 19.36 2.56
(o e)2/e 0.0871 5.4000 4.4204 0.6585 0.0871
2 = (o e)2 / e = (0.0871) + (5.400) + (4.4204) + (0.6585) + (0.8711) = 10.65

j=1
La prueba de hiptesis nula dice que no hay diferencias entre las frecuencias observadas y las esperadas (los accidentes si ocurren con la misma frecuencia). La regin crtica es del extremo derecho, con = k 1 = 5 1 = 4 grados de libertad. La estadstica tabulada es de 2; = 2.05;4 = 9.49. En conclusin, debido a que el valor de 2 = 10.65 > 2tab. = 9.49, se rechaza la hiptesis nula, y se dice que si hay diferencias entre las frecuencias observadas y las esperadas. Ahora usando la frmula de interpolacin para la JI cuadrada, con 2 = .025, 1 = .05, 22 = 11.14, 21 = 9.488 y 2calc.= 10.65 y sustituyendo todos los valores da: (0.025 0.05)/(11.14 9.488) = (0.025 X)/(11.14 10.65) Resolviendo por el valor a interpolarse da X = 0.015 = p = 0.015. Ejemplos con la t de Estudiante usando el programa Minitab Para usar el programa Minitab en las pruebas de hiptesis con la distribucin de t se
6-34
procede como: Stat > Basic Statistics > 1-sample t Procedimiento: En la ventana de Variables poner los datos del problema en la columna C1. En la ventana de Test mean poner el promedio probado. En la ventana de Options en la ventanilla de Alternative poner la hiptesis alternativa deseada y luego presionar la tecla de OK. Ejemplo #17. Este problema est relacionado con el ejemplo de la seccin de los mecanismos usados para calcular el valor de p. Usando los datos de ese ejemplo #4 correspondientes a esa seccin y aplicando la funcin de arriba del programa Minitab, probar: (a) Ho: = 34.5 vs. H1: 34.5 (b) Ho: 34.5 vs. H1: < 34.5 (c) Ho: 33.2 vs. H1: > 33.2 Despus de sustituir todos los valores, el programa Minitab da los resultados mostrados en la tabla de abajo.
6-35
TABLA 6.4. Tabla mostrando los clculos hechos por el Minitab. (Elaboracin propia). ________________________________________________________________
Ejemplos de problemas de la t de Estudiante usando el programa de Excel Este es un ejemplo relacionado con un problema de observaciones pares. Tambin se dan las instrucciones para probar las diferencias entre dos promedios poblacionales, cuando las varianzas son iguales. Finalmente se dan las instrucciones para resolver problemas cuando las varianzas son desiguales. Por ejemplo, para el uso de la funcin de t de Estudiante usada para emparejamientos deliberados se procede de la siguiente manera: Tools > Data analysis > t-Test Paired Two Simples for Means Ejemplo #17. Este es un ejemplo sacado del texto de Probabilidad y Estadstica de Walpole et al. (1999). Esta investigacin est relacionada con el desarrollo de lo llamado ectomycorrhizal, una relacin simbitica entre las races de los rboles y un hongo en la que se transfieren minerales del hongo a los rboles y azcares de los
6-36
rboles a los hongos. Este experimento consisti en aplicar nitrgeno a la mitad de los rboles y a la otra mitad o sea el grupo de control al cual no se le aplic el nitrgeno. Los pesos de los rboles se registraron en gramos al final del experimento. Probar que no hay diferencias entre los pesos de las dos poblaciones de rboles. Asumir un pareamiento en este problema. Asumir = 0.05. Los datos se dan en la tabla de abajo. TABLA 6.5. Tabla mostrando los datos del problema. (Walpole et al. 1999) Sin nitrgeno | 0.32 0.53 0.28 0.37 0.47 0.43 0.36 0.42 0.38 0.43 Con nitrgeno | 0.26 0.43 0.47 0.49 0.52 0.75 0.79 0.86 0.62 0.46 Solucin: El programa Excel da los resultados en la tabla de abajo. TABLA 6.6. Tabla mostrando los resultados del programa Minitab. (Elaboracin propia).
Como se ve en la TABLA 6.6, el valor de la estadstica t es de -2.74. Las regiones crticas para una y dos colas son de 1.83 y 2.26, respectivamente. Adems, los valores de la probabilidad p son de 0.01 y de 0.02 para una y dos colas, respectivamente. En
6-37
conclusin, la hiptesis nula de no diferencias se rechaza en ambos casos y se concluye que si hay diferencias entre los pesos de las dos muestras de rboles. Probando las diferencias entre dos promedios poblacionales, cuando las varianzas son iguales: Tools > Data Analysis > t-Test Two Simples Assuming Equal Variances Similarmente, para la funcin de t de Estudiante cuando las varianzas son desiguales se procede como: Tools > Data Analysis > t-Test Two Simple Assuming Unequal Variances Se recomienda al lector usar estas dos ltimas funciones de la t de Estudiante con el programa Minitab. Funcin probabilstica de densidad de la distribucin F y su aplicacin en la comparacin de varianzas muestrales La distribucin F tiene mucha aplicacin en la comparacin de varianzas muestrales. Esta distribucin F se encuentra en problemas que involucran dos a ms muestras. Debido a que, la estadstica F se define como una relacin, la distribucin F de probabilidad tiene dos parmetros representados por 1 y 2, donde estos valores son enteros positivos. El parmetro 1 se llama nmero de grados de libertad del numerador y 2 se llama el nmero de grados de libertad del denominador. Para estimar los grados de libertad 1 y 2 se usa la tabla de la distribucin F dada en el apndice de este libro. La distribucin de F es similar a la distribucin de t de Estudiante y de JI cuadrada (2), porque es una familia de distribuciones. Cada par de valores de 1 y 2 especifican una distribucin de F diferente. Otros, F es una variable aleatoria continua que vara de cero hasta infinito. Debido a que las varianzas en ambos, el numerador y denominador de la relacin F, estn elevadas al cuadrado, el valor de
6-38
F es siempre positivo. La forma de la curva F es asimtrica y sesgada hacia la derecha. Sin embargo, la distribucin F tiende hacia la simetra, a medida que 1 y 2 aumentan. No obstante, la prueba de F es extremadamente sensible a distribuciones que no son normales y esta falta de robustez no se mejora con muestras grandes (More et al. 1993). La Figura 6.7 muestra varias curvas de densidad de la distribucin de F para diferentes grados de libertad. La distribucin de F se usa en situaciones con dos muestras para sacar inferencias acerca de ms de dos varianzas poblacionales, como en el caso de problemas de anlisis de varianza. Por ejemplo, si s21 y s22 son las varianzas de muestras aleatorias independientes de tamao n1 y n2 tomadas de poblaciones normales con varianzas poblacionales 21 y 22, respectivamente, entonces la relacin de abajo: F = s21/21 / s22/22 = 22 s21 / 21 s22 (6-18) tiene una distribucin de F con 1 = n1 1 y 2 = n2 1 grados de libertad La funcin (6-18) es ampliamente usada para hacer pruebas de hiptesis, para ver si las varianzas son iguales o desiguales. Una aplicacin de la funcin (618) est enfocada en el uso, por ejemplo, de las funciones (6-7) o (6-8), es decir, para decidir si las varianzas son iguales o desiguales. Para probar por varianzas iguales poblacionales se usa el siguiente criterio para pruebas unilaterales y pruebas bilaterales. Esta informacin se da en la tabla de abajo (McClave et al. 1982).
6-39
Tabla 6.7. Diagrama mostrando los criterios que se siguen para pruebas de hiptesis con la distribucin F. __________________________________________________________________
Prueba unilateral Ho: 21 = 22 Ha: 21 < 22 (o Ha: 21 > 22) Prueba estadstica: F = s22/s21 (o F = s21/s22 cuando Ha: 21 > 22) Regin de rechazo: Fcalc. > Ftab. donde Ftab. est basada en 1 = n2 -1 y 2 = n1 1 grados de libertad. (o Fcalc. > Ftab. donde Ha: 21 > 22 donde Ftab. se basa en 1 = n1 1 y 2 = n2 1 grados de libertad) Fuente: McClave et al. (1982) Prueba estadstica: F = Varianza muestral grande/varianza muestral pequea = s21/s22 cuando s21 > s22 (o s22/s21 cuando s22 > s21) Regin de rechazo: Fcalc. > F/2 cuando s21 > s22 donde F/2 se basa en 1 = n2 -1 y 2 = n1 1 grados de libertad (o Fcalc. > F/2 cuando s21 > s22 donde F/2 se basa 1 = n1 1 y 2 = n2 1 grados de libertad) Prueba bilateral Ho: 21 = 22 Ha: 21 22
6-40
Frecuencia relativa
Figura 6.7. Grfica mostrando una familia de distribuciones de F con diferentes grados de libertad. Ntese que para la curva con 1 = 30 y 2 = 30 grados de libertad, la regin crtica es igual a 4.28.
Figura 6.8. Figura mostrando la distribucin F, con el valor crtico de F igual a 4.26, con = 0.05. Ejemplo #18. Este ejemplo est encaminado a encontrar los valores crticos usando la distribucin F. Siendo as, encontrar:
6-41
(a) F0.05 con 1 = 6 y 2 = 10 Solucin: Los grados de libertad del numerador son 1 = 6 y los grados de libertad del denominador son 2 = 10. Con un valor de significancia de = 0.05 de la tabla se lee 3.22. Por lo tanto, F0.05;6,10 = 3.22 (b) F0.01 con 1 = 6 y 2 = 10 Solucin: Nuevamente se busca = 0.01 en la tabla de F con 1 = 6 y 2 = 10 y da F0.01;6,10 = 5.39 (c) Si el tamao de una muestra es de n1 = 3 y el tamao de otra muestra es de n2 = 10, encontrar la regin crtica con = 0.05 y 0.01. Dibujar una grfica sealando la regin crtica cuando = 0.05. Solucin: F0.05;2,9 = 4.26 y F0.01;2,9 = 8.02 La Figura 6.8 muestra la regin crtica y su valor correspondiente con un nivel de significancia de 5%. Ejemplo #19. Este problema est encaminado a estimar el valor de la probabilidad p para pruebas de F. Por ejemplo, con = 0.05, para una prueba de hiptesis con n1 = 5 y n2 = 7 y con un valor de Fcalc. = 5.70 la regin crtica es F0.05;4,6 = 4.53. Entonces, al comparar el valor de Fcalc. = 5.70 con F0.05;4,6 = 4.53 se rechaza la hiptesis. Sin embargo, esta prueba de hiptesis tradicional no dice, qu tanta fidelidad se le puede dar a el resultado obtenido. Para esto, se hace una prueba de hiptesis no tradicional usando el valor de la probabilidad p. Siendo as, se busca en la tabla de la distribucin F el valor de Fcalc. = 5.70, con 4 y 6 grados de libertad y con = 0.05, pero vemos que no est explcitamente mostrado. Sin embargo,
6-42
vemos que est entre 4.53 y 9.15 con sus valores respectivos de = 0.50 y .010, por lo tanto la probabilidad es .01 < p < .05. Ahora, para obtener un valor de p ms especifico se usa la frmula de interpolacin (5-30) : (2 1)/(F2 F1) = (2 X)/(F2 Fcalc.) Donde 2 = valor porcentual ms alto que el valor de Fcalc., 1 = valor porcentual ms bajo que Fcalc., F2 = valor de la distribucin F correspondiente a 2, F1 = valor de la distribucin F correspondiente a 1, X valor que se quiere interpolar y Fcalc. = valor calculado. Ahora con 2 = 0.05, 1 = 0.01, F2 = 4.53, F1 = 9.15 y Fcalc. = 5.70 y sustituyendo y resolviendo por X da: (0.05 0.01)/(4.53 9.15) = (0.05 X)/(4.53 5.70) X = p = 0.04 Ejemplo #20. Supngase que un ingeniero ambiental saca dos muestras aleatorias de dos sitios diferentes a lo largo de una corriente de agua y mide las concentraciones de DBO5. Para la prueba de hiptesis el ingeniero quiere usar = .10. La primera muestra consiste de n1 = 25 concentraciones de DBO5, cuyo promedio es de X 1 = 25 mg/L con una desviacin estndar de s1 = 75 mg/L. Similarmente, la segunda muestra consiste de n2 = 25, X 2 = 125 mg/L con s2 = 46. Para esto, se tiene que hacer una decisin si se va a usar la distribucin (6-7) de t de Estudiante que requiere de varianzas iguales y/o la distribucin (6-8) que no requiere de varianzas iguales. Para resolver este problema hacer lo siguiente: (a) Probar la hiptesis nula de que las varianzas de las dos muestras son iguales. (b) Adems, calcular el valor de p. Solucin: 1. Debido a que se quiere detectar una diferencia en las varianzas poblacionales,
6-43
tendremos que estimar, ya sea 21 > 22, o bien, 22 > 21. 2. Por lo tanto, la hiptesis alternativa es Ha:21 22. 3. La prueba es bilateral, es decir: Ho:21/22 = 1 y Ha:21/22. 4. La prueba estadstica es: F = varianza muestral grande/varianza muestra pequea = s21/s22 5. Las suposiciones son de que las muestras tienen frecuencias relativas que son aproximadamente normales. Adems, se supone que las muestras son aleatorias e independientes. 6. La decisin estadstica se basar en comparar la regin crtica de 1.98, con el valor estadstico, esto es: Fcalc. > Ftab. = F.05;24,24 = 1.98 Donde 1 = n1 1 = 24 y 2 = n2 1 = 24 grados de libertad 7. Ahora se calcula la prueba estadstica (6-18) y se sustituyen los valores: F = s21/s22 = (76)2/(46)2 = 2.73 8. Debido a que, 2.73 > 1.98, por lo que se rechaza Ho: de varianzas iguales. 9. Usando = .10 esto dice qu, solamente una vez en diez, esta prueba estadstica nos llevara a concluir errneamente que las varianzas 21/22 fueran diferentes, cuando de hecho fueran iguales. 10. Para calcular p se busca el valor de 2.73 en la tabla F con 1 = 24 y 2 = 24 y est entre .100 y .050. Esto es: .050 < p < .100. No obstante, si se deseara ms precisin se puede usar la frmula de interpolacin (5-30), con 2 = .100, 1 = .050, con F2 = 1.98, F1 = 2.41 y Fcalc. = 2.73 Sustituyendo todos los valores en (5-30) da: p = 0.013(2) = .02. (Ntese que aqu se multiplica por 2 porque la prueba es bilateral).
6-44
6.1. Encontrar los valores crticos de t por los cuales el rea del extremo derecho de la distribucin de t es de = 0.05, y de = 0.01, si: (a) = 16 b) n = 28 (c) = 6.2. Hacer el problema 6.1, pero bilateralmente. 6.3. Para mantener el control de la calidad industrial, un fabricante de sistemas de control de partculas (ciclones), supone que la produccin de estos sistemas para el control de partculas < 10 micras, tienen un eficiencia promedio de 32%. Para probar esta aseveracin se tom una muestra de 8 ciclones y se midieron las eficiencias de cada uno para ese tamao de partculas. Las eficiencias (%) fueron: 29.4, 30.8, 30.6, 31.5, 32.1, 31.7, 30.3, y 30.8%, respectivamente. Hacer las siguientes estimaciones: (a) Establecer un intervalo de confianza para , con = 0.05. (b) Hacer una prueba de hiptesis bilateral al 95%. (c) Calcular el valor de la probabilidad, p. (30.18 < < 31.62) (t = -3.62) (0.009) (t[;] = t[.95;16] = 1.75, t[.99;16] = 2.583) (t[;] = t[.95;16] = 1.70, t[.99;28] = 1.701 (t[;] = t[.95;] = 2.33, t[99;] = 2.33)
6.4. En una prueba para medir la acumulacin de plomo atmosfrico (Pb) en la sangre, se realiz un experimento con 15 voluntarios. La prueba consisti en exponer los sujetos en un sitio aledao a una planta de fundicin de metales y de exaltar el metabolismo, esto es, corriendo. Despus de que los sujetos terminaron de correr, se les sac sangre y se medi la concentracin de Pb, es decir, antes de correr y despus de correr. Para esto usar la estadstica de t ms apropiada para resolver este problema y sacar las conclusiones apropiadas. La tabla de abajo muestra la informacin requerida para este experimento. Tabla mostrando los datos del problema. (Elaboracin propia)
6-45
___________________________________________________________________
No. sujeto Concentracin de Pb antes de correr Concentracin de Pb despus de correr
1 2.76 7.02 2 5.18 3.10 3 2.68 5.44 4 3.05 3.99 5 4.10 5.21 6 7.05 10.26 7 6.60 13.91 8 4.79 18.53 9 7.39 7.91 10 7.30 4.85 11 11.78 11.10 12 3.90 3.74 13 26.00 94.03 14 67.48 94.03 15 17.04 41.70 __________________________________________________________________
6.5. En una prueba para disear un equipo de control para partculas emitidas por una fuente industrial, se hicieron dos pruebas para saber cual de los dos sistemas de control eran ms eficientes. La primera prueba consisti en instalar un filtro de vidrio (baghouse). La otra prueba consisti en agregar al sistema de control del baghouse, un cicln. Probar la hiptesis, al 95% de nivel de confianza de qu, con el equipo adicional, no hubo diferencia en las reducciones de contaminantes. Calcular el valor de la probabilidad, p. La tabla de abajo muestra los resultados de los dos equipos de control. Asmase que el muestreo de seleccin fue completamente al azar, sin emparejamiento y asumir que las poblaciones son normales. (t = 3.54, p = 0.028)
6-46
Tabla mostrando las concentraciones de partculas para ambas situaciones. (Elaboracin propia) ___________________________________________________________________ Concentracin de partculas con Concentracin de partculas con el sistema el sistema de control agregado de control, al cual se le agreg el cicln ___________________________________________________________________ Microgramos/m3 Microgramos/m3 ___________________________________________________________________ 421 207 462 17 400 412 378 74 413 116 ___________________________________________________________________ Observaciones y clculos sugeridos: Antes de comenzar, tenemos que hacer una decisin sobre cual prueba de t es la ms apropiada. Pudiramos usar la versin de t para observacin pares donde hay un aparejamiento deliberado, esto es usando la funcin (6-6). Tal vez pudiramos usar la funcin de t que asume que las varianzas de las poblaciones son iguales y con muestras del mismo tamao (funcin (6-7)). La tercera opcin, sera usar la versin de t para varianzas desiguales y usando la funcin (6-8). Sin embargo, si asumimos que se us el mtodo de seleccin completamente aleatorio, sin emparejamiento, y si analizamos a simple vista los datos de la tabla de arriba, podemos ver que hay mucha variacin en las observaciones (tambin se puede hacer una prueba de hiptesis con el objeto de ver si las varianzas son iguales), lo que nos inclinara a usar la tercera opcin, esto es, la funcin (6-8). No obstante, antes de decidirse por el uso de esta funcin es conveniente hacer una prueba con la funcin estadstica F = s21/s22. 6.6. Para saber si una droga experimental puede curar los sntomas de la leucemia
6-47
(porque la llamada leucemia no es una enfermedad en particular de la sangre, sino un sntoma que acusa que todo el cuerpo est enfermo, no nicamente la sangre. De no pensarse as, entonces, se dira que la sangre es una parte independiente del cuerpo), 10 sujetos con el sntoma avanzado, fueron sometidos a una prueba. Cinco de ellos recibieron el tratamiento experimental y cinco de ellos no. El tiempo de supervivencia, en aos, se midi en cada uno de los sujetos. Probar con = 0.05 que esta droga experimental fue efectiva. Asumir que las dos distribuciones son normales y con varianzas iguales. Los datos se dan abajo. Tabla mostrando los datos. (Elaboracin propia) __________________________________________________________________ Supervivencia en aos _______________________ Sujetos tratados 2.1 5.3 1.4 4.6 2.9 __________________________________________________________________ Sujetos sin tratamiento 1.9 1.5 2.8 3.1 2.0 __________________________________________________________________ 6.7. En un estudio de ingeniera del agua de anlisis de oxgeno disuelto (OD) varios laboratorios se avocaron a hacer estos anlisis usando el mtodo de Winkler (MW) (titulacin) y el mtodo de electrodos (ME). Usar una t estadstica de muestras pareadas y probar que no hay diferencias entre los dos mtodos. Usar = .05. Calcular el valor de p. Los datos se dan en la tabla de abajo. La tabla de abajo muestra los datos de oxgeno disuelto (OD) de varios laboratorios usando el mtodo de Winkler y el mtodo de electrodos. Las concentraciones del oxgeno disuelto (OD), se expresan en mg/L son en mg/L. Sugerencia: Usar el programa de computadora Minitab o Excel. (t = -2.49, p = .01)
6-48
Tabla mostrando los datos del problema. (Elaboracin propia) Mtodo de | 1.2 1.4 1.4 1.3 1.2 1.3 1.4 2.0 1.9 1.1 1.8 1.0 1.1 1.4 Winkler Mtodo de | 1.6 1.4 1.9 2.3 1.7 1.3 2.2 1.4 1.3 1.7 1.9 1.8 1.8 1.8 Electrodos 6.8. Este es un experimento relacionado con higiene industrial y seguridad, para reducir el nmero de hombre-horas perdidas, como resultado de los accidentes industriales. Para esto se instal un nuevo equipo de seguridad. En una prueba para medir la eficiencia del equipo de seguridad instalado, se examin una muestra aleatoria en varios departamentos de esta industria. El nmero de horas-hombre perdido en el mes antes de la instalacin del equipo y el siguiente mes despus de instalar el equipo, el nmero de horas perdidas por accidentes industriales se registr. La tabla de abajo muestra los datos de la muestra aleatoria que se sac. Tabla mostrando los datos de horas-hombre perdidas antes y despus de instalar el equipo de seguridad. ___________________________________________________________________ Horas perdidas por departamento _______________________________________ Mes 1 2 3 4 5 6 ___________________________________________________________________ Antes de instalar el equipo 18 26 43 17 29 30 Despus de instalar el equipo 15 20 31 17 25 27 ___________________________________________________________________ Hacer los siguientes clculos: (a) Realmente vali la pena la inversin en la instalacin del equipo de seguridad?
6-49
6.9. Se coleccionaron los siguientes datos de una muestra aleatoria de xidos de azufre (SO2), en ppm, provenientes de una fundicin. Asumir que los datos provienen de una poblacin normal de xidos de azufre. Usar = 0.05. La tabla de abajo da la informacin. Tabla mostrando los datos del problema. (Elaboracin propia) xidos de azufre (ppm) | 56 58 58 59 57 57 Hacer los siguientes clculos: (a) Estimar el intervalo de confianza del 95%. Incluir todos los pasos necesarios e interpretarlo acordemente. (57.33 0.768) (b) Probar la hiptesis nula de que el promedio poblacional es de 58.5 ppm. Establecer todos los pasos que requiere este problema. Hacer una grfica mostrando las regiones de rechazo y aceptacin. (c) Hacer una prueba de hiptesis no tradicional e interpretarla acordemente. Hacer una grfica con las probabilidades. haber afectado el resultado de este experimento. 6.10. Hacer el mismo problema 6.9 de los xidos de azufre y probar la hiptesis nula de que el valor del promedio poblacional es de no ms de 56.1 ppm. Usar un nivel de significancia de 0.05. Adems, estimar la hiptesis no tradicional (el valor de p) e interpretarla acordemente. Hacer una grfica mostrando la probabilidad. 6.11. Hacer el mismo problema 6.10 de los xidos de azufre y proceder de la siguiente manera: (a) Probar la hiptesis de que es de cuando menos 58.5 usando el nivel de significancia de 0.05. (t = -3.51, se rechaza Ho:) (t = -3.19) (d) Si no se pudiera rechazar la hiptesis nula, mencionar tres factores que pudieran 56 57 58
6-50
(b) Calcular el valor de p. (c) Graficar los resultados.
(p = 0.0002)
6.12. Un fabricante de fusibles afirma que con una sobrecarga de 25%, los fusibles se fundirn en 14.00 minutos, en promedio. Para probar esta afirmacin, se tomo una muestra aleatoria de 20 fusibles y se someti a una carga de 20% y los tiempos que tardaron en fundirse tuvieron un promedio de 10.63 minutos, con una desviacin estndar de 2.48 minutos. Asumiendo que la poblacin muestreada es normal, hacer una prueba de hiptesis para refrendar o rechazar la afirmacin del fabricante de fusibles. Asumir = .05. Tambin, calcular el valor de p. 6.13. En un estudio de seguridad en los caminos carreteros, hecho para evitar los accidentes, la polica federal de caminos cree que la velocidad promedio de los motoristas, que manejan sobre cierta zona carretera, exceden el lmite de velocidad de 110 kilmetros por hora. Para esto, se tom una muestra aleatoria de 20 vehculos con sus respectivas velocidades, en kilmetros por hora registrada por el radar. Los resultados en kilmetros por hora de cada uno de los 20 vehculos fueron: 113.6, 115.0, 117.0, 118.0, 115.9, 84.0, 87.0, 90.0, 110.0, 95.0, 98.0, 99.0, 118.0, 120.0, 121.0, 119.0, 118.0, 111.0, 112.0, 112.6. Usar = 0.05. Hacer las siguientes estimaciones: (a) Proveen estos datos suficiente evidencia para apoyar la aseveracin de la polica federal de caminos de que los motoristas estn violando el reglamento del lmite de velocidad de 110 kilmetros por hora? (No hay evidencia de que se est violando a lmite de velocidad de 110 kilmetros por hora) (b) Estimar el intervalo de confianza con = 0.05 y con = 0.1 para el promedio poblacional de velocidad. (103.14 < < 113.18) 6.14. En un estudio de ingeniera de manufactura, en un esfuerzo por establecer el
6-51
tiempo estndar para realizar determinada tarea en el ensamble de partes de carburadores para automviles, el ingeniero de produccin selecciona, aleatoriamente, a 16 trabajadores experimentados para realizar esta faena. El tiempo promedio requerido por los 16 trabajadores fue de 13 minutos con una varianza de 9 minutos. El ingeniero de produccin desea construir un intervalo de confianza de 99% para la longitud de tiempo del verdadero promedio requerido para realizar la faena. Hacer un intervalo de confianza con un nivel de significancia de 0.05. Como se comparan los dos intervalos? Cul es ms amplio y porqu? 6.15. En un estudio hipottico de consumo de gasolina, el kilometraje de gasolina dado por los autos de ciertos modelos es de 10.4 kilmetros por litro con una desviacin estndar de 1.6 kilmetros por litro. Se calcula el promedio de rendimiento en kilmetros por litro para muestras de este tipo de modelos de autos. Cul es la probabilidad de que el promedio de rendimiento de gasolina sea de 12 kilmetros por litro, si se saca una muestra aleatoria de 20 autos? Asumir un nivel significante de = 0.01. (p .00098) 6.16. El ingreso promedio mensual, de cierto grupo de profesionistas es como sigue: 30,000, 32,000, 31,000, 29,000, 29,500, 33,000, 31,500, 30,500, 29,800, 29,900. Cul es la probabilidad de que el verdadero promedio sea de 31,200 pesos? Cules seran los factores que pudieran afectar el valor de la probabilidad p? 6.17. En un estudio estadstico, para demostrar que la prueba de t de estudiante es independiente de las unidades de medicin, se sacaron muestras de las temperaturas de hornos de ladrilleras medidas en grados Celsius (oC) y en grados Fahrenheit (oF). La hiptesis es que el promedio de la temperatura del horno es de 50 oC. Hacer la misma prueba, pero ahora con el promedio en oF. La tabla de abajo muestra los resultados de las temperaturas de los hornos en oC. Convertir estas temperaturas a oF
6-52
completar la tabla de abajo y comparar los resultados de las dos pruebas de hiptesis. Son los resultados de la t de estudiante y de la probabilidad p, iguales o diferentes? Tabla mostrando las temperaturas. (Elaboracin propia). Temperaturas oC | 47 55 68 55 51 50 49 45 53 47 48 51 ___________________________________________________________________ Temperaturas oF | ___________________________________________________________________ 6.18. Encontrar los valores crticos de 2, por los cuales el rea de la cola derecha de la distribucin es de 0.05 (2.95), si los grados de libertad son de: (a) = 15 (b) 21 (c) = 50. 6.19. Para este problema, se dan los siguientes datos obtenidos de una muestra de concentraciones (en mg/L) de nitratos (NO3-) tomados del efluente de una planta de tratamiento de aguas residuales industriales. Construir un intervalo de confianza para el verdadero valor de la varianza, es decir, la varianza poblacional 2, usando un nivel significante de = 0.01. (0.21 < 2 < 1.31)
Tabla mostrando los datos del problema. (Elaboracin propia) 37.61 38.88 37.53 38.61 38.19 38.21 37.69 37.88 38.11 37.72 38.00 37.40 36.75 37.20 37.40 38.61 37.20 39.39
6.20. Si una muestra de partculas de cadmio atmosfrico de un tamao de 17 micras tiene una varianza de s2 = 196.38, encontrar el intervalo de confianza para la varianza
6-53
poblacional, si los niveles significantes son de: (a) 0.05 (b) 0.01. 6.21. Si tenemos un tamao de muestra de n = 20 y un nivel de = .05, entonces, encontrar los valores crticos de la distribucin de la JI cuadrada si: (a) La prueba es unilateral izquierda (b) Si la prueba es bilateral (c) Si se asume una prueba de bondad de ajuste (10.117) (8.907, 31.41) (30.14)
6.22. En un estudio de ahorro de energa elctrica (que contribuira a menos contaminacin ambiental. Porque?) se enlist el consumo de energa elctrica (en kWh) durante 7 aos diferentes. Usando un nivel de confianza de 95% probar la afirmacin de que la desviacin estndar para todos esos aos es de 1,000,000. Tabla mostrando los datos del problema. (Elaboracin propia) 11,943 11,463 10,789 9907 9012 9942 11,153
6.23. El libro Elementary Statistics del auto Mario Triola (1995) da un ejemplo de un radiador de un auto que contiene 3785 mL de anticongelante. Asumiendo que las fluctuaciones son inevitables, el manejador de control de calidad quiere estar seguro de que la desviacin estndar sea menos que 30 mL. De otra manera, algunos radiadores se derramaran, mientras que otros, que no tendran suficiente anticongelante, no. Para esto se selecciona una muestra aleatoria cuyos resultados se dan abajo. Usar estos datos para construir un intervalo de confianza del 99% para el verdadero valor de 2. Sugiere este intervalo de confianza que las fluctuaciones estn en un nivel aceptable? Asmase que las distribuciones de los llenados de los radiadores con el anticongelante estn normalmente distribuidas.
6-54
(38.2 < < 95.7) Tabla enlistando la muestra de los llenados de anticongelante. __________________________________________________________________ 3761 3861 3769 3772 3675 3861 3888 3819 3788 3800 3720 3748 3753 3821 3811 3740 3749 3839 (Fuente: Triola, 1995) 6.24. Una muestra aleatoria de 700 trabajadores de la industria particip en una prueba para determinar, cunto tiempo necesitaban para su proteccin personal haciendo determinada faena. Esto se hizo despus de tomar un curso de entrenamiento de higiene industrial y seguridad. Asmase una prueba de bondad de ajuste. Asumir n = 8. Hacer lo siguiente (a) Probar la hiptesis nula de Ho: y revisar si la poblacin muestreada es normal o aproximadamente normal. (b) Calcular el valor de p. (2 = 20.36, 2crtica = 15.51, se rechaza Ho:) (.05 < p < .005)
6.25. Un ingeniero ambiental mide la cantidad de DBO5 procedentes de 15 lugares a lo largo de una corriente, la cual est contaminada por a una descarga industrial. El ingeniero reporta las concentraciones en mg/L. Como informacin inicial se sabe que la suma de los cuadrados es igual a 508.1 mg/L. Construir un intervalo de confianza del 95% para la varianza poblacional. (90.2 > 2 > 19.46)
6-55
CAPITULO 7 Anlisis de Varianza

Diseos de anlisis de varianza completamente aleatorizados.- Mtodo de comparaciones mltiples para saber cuales poblaciones son iguales y cuales son desiguales.- Anlisis de varianza de diseo de bloques aleatorizados.Suposiciones del modelo de bloques aleatorios completos.- Anlisis de varianza en dos sentidos.- Interaccin con ANOVA de dos factores.- Anlisis de varianza de tres sentidos: diseo completamente aleatorio.- Interaccin con ANOVA de diseos factoriales de tres clasificaciones.- Ejemplos de anlisis de varianza usando el programa Minitab.El mtodo para comparar varios promedios se llama anlisis de varianza o simplemente ANOVA. En su ms simple forma, el anlisis de varianza compara varios tratamientos para determinar la igualdad de los promedios. En contraste con la prueba de t de estudiante, que estudia la igualdad de dos poblaciones (Ho: 1 = 2), el anlisis de varianza estudia ms de 2 distribuciones, y usa la estadstica F. Especficamente, el modelo ANOVA simple estudia las igualdades de ms de 2 promedios, esto significa que estudia los efectos de ms de dos "tratamientos," es decir, de la hiptesis nula Ho: 1 = 2 = 3 = ..... = n, esto es, de que las varianzas de los promedios son igual a cero (2 = 0). A pesar de que este anlisis de varianza estudia los promedios, analiza, de hecho, la varianza de las poblaciones. Las propiedades y suposiciones en el anlisis de varianza (ANOVA) son: 1. Para las pruebas del anlisis de varianza se usa la distribucin de F. Esta distribucin F no es simtrica, sino sesgada, es decir, oblicua hacia la derecha. 2. Los valores de F pueden ser de cero o positivos, pero no
7-1
pueden ser negativos. 3. La prueba de hiptesis es siempre unilateral derecha. 4. Hay una distribucin de F diferente para cada par de grados de libertad, (g.l.). La Figura 7.1 muestra esta situacin. Para denotar los grados de libertad para el numerador se usa la anotacin, 1 y para los grados de libertad el denominador se usa la anotacin, 2. 5. Las poblaciones tienen distribuciones normales. 6. Las poblaciones tienen la misma varianza o desviacin estndar. Si esta condicin no puede ser cumplida, la prueba de F no es vlida. En este caso se debe de usar una prueba de hiptesis diferente. 7. Las muestras son aleatorias e independientes una de la otra. Nota: Cuando no se pueden cumplir las condiciones de normalidad o de independencia de los datos, uno se tiene que remitir a la pruebas no paramtricas, que no requieren de estas suposiciones.
Figura 7.1. Grfica mostrando la distribucin F. Hay una distribucin diferente de F para cada par de grados de libertad del numerador, 1 y del denominador, 2. (Elaboracin propia).
7-2
Diseos de anlisis de varianza completamente aleatorizados Existen dos tipos bsicos de anlisis de varianza: el diseo completamente aleatorizado y el diseo de bloque completamente aleatorizado. En el caso del diseo completamente aleatorizado, conocido por anlisis de varianza en un sentido (ANOVA de una clasificacin), se asignan los tratamientos aleatoriamente a las unidades experimentales. En este diseo se sacan las muestras independientemente, por lo tanto, la seleccin de una muestra no afecta la seleccin de cualquier otra muestra. Para cada muestra se puede calcular el promedio, X j y la varianza s2j. Por ejemplo, supngase que se quieran probar cuatro marcas de neumticos, 1, 2, 3 y 4, para determinar si hay diferencias con respecto a la duracin. Para esto se pueden asignar, aleatoriamente, una muestra de 10 neumticos de cada marca, a digamos 25 vehculos y probar su desgastamiento. Una vez probadas las marcas de los neumticos, se usa el anlisis de varianza, para ver si las marcas difieren con respecto a su duracin. Por otra parte, en el caso de ANOVA de diseo de bloques completamente aleatorios, este enfoque se usa cuando el error experimental es grande, lo que conlleva al no rechazo de hiptesis debido a que hay mucha variacin. De manera que, al bloquear las observaciones se reduce la variacin. El trmino bloque se deriva de diseos experimentales aplicados a la agricultura, en los cuales las parcelas de tierras de cultivos se refieren como bloques. Por ejemplo, en el caso del diseo de bloque aleatorio, los tratamientos (como fertilizantes) se asignan aleatoriamente a unidades dentro de cada bloque, es decir, de parcelas que tengan suelos parecidos. Una suposicin importante del modelo para un diseo de bloques completos aleatorizados es que los efectos de tratamiento y de bloqueo se asume que son
7-3
aditivos. Por ejemplo, para ilustrar esta situacin, si se grafican los promedios poblacionales versus tratamientos, digamos de bloque 1 y 2 y, si las grficas son paralelas, se dice que los efectos de tratamiento y de bloques son aditivos o que no interactan. Sin embargo, si las lneas se cruzan entre si, se dice que hay interaccion o no aditividad. El formato de la tabla de ANOVA de un sentido completamente aleatorizado se da abajo. La TABLA 7.1 da una descripcin de todos los componentes de clasificaciones unilaterales o de diseos completamente aleatorizados. TABLA 7.1. Anlisis de varianza de un sentido de diseos completamente aleatorizados.
Fuente de la variacin Tratamientos Error Suma de (SS) los cuadrados SSa SSe SSt Grados de libertad a1 a(n 1) Cuadrado (MSa) medio MSa = SSa/(a 1) s2e = SSe/[a(n 1)] F1 = MSa/s2 F[1-;a-1,a(n-1)] Fcalc. Ftab. Valor de p
Total
an 1
Donde:
SSa = n ( y i. - y .. )2
i=1 a n
(7-1)
SSe = (yij y i.)2 = SSt SSa

i=1 j=1 a n
(7-2) (7-3)
SSt = (yij y ..)2

i=1 j=1
a = nmero de tratamientos n = tamao de la muestra
7-4
Para denotar los simbolismos usados en la TABLA 7.1, estos se dan en la tabla de abajo. TABLA 7.2. Tabla mostrando los simbolismos usados en la TABLA 7.1. (Walpole et al. 1999)
Tratamiento: 1 y11 y12 . . y1n Total Promedio T1. y 1. 2 y11 y22 . . y2n T2. y 2. . . . i yi1 yi2 . . yin Ti. y i. .. . . k yk1 yk2 . . ykn Tk. y k. T.. y ..
Donde: yij = j-sima observacin del i-simo tratamiento

y i. = promedio de todas las observaciones para el i-simo tratamiento y .. = promedio de todas las an observaciones o promedio de los
promedios Ti. = Total de todos los promedios Ejemplo #1. Este es un ejemplo relacionado con el uso de ANOVA unilateral o de diseo completamente aleatorizado. Para esto se coleccionaron las concentraciones atmosfricas de SO2 (en ppm) provenientes de 5 muestreadores localizados a diferentes distancias (aleatoriamente asignadas), de una fuente industrial emisora. Probar la hiptesis nula de que las 5 poblaciones de SO2 son iguales, es decir, Ho: 1 = 2 = 3 = 4 = 5. Calcular el valor de p. Los datos se dan en la tabla de abajo. Usar un paquete de computadora para procesar los datos.
7-5
TABLA 7.3. Tabla mostrando los datos del problema. Nmero de muestreador | 1 500 510 490 530 2 550 540 500 520 3 648 630 620 600 4 720 700 710 736 5 890 900 920 880
Solucin: Si se usa el programa Excel irse a: ANOVA Single factor. Usando este programa, los resultados se dan abajo: TABLA 7.4. Tabla mostrando los resultados de este problem usando el programa de Excel.
ANOVA: Un solo factor RESUMEN Grupos Columna 1 Columna 2 Columna 3 Columna 4 Columna 5
Conteo 4 4 4 4 4
Suma 2030 2110 2498 2866 3590
Promedio 507.5 527.5 624.5 716.5 897.5
Varianza 291.6667 491.6667 401 235.6667 291.6667
Tabla de ANOVA Fuente de Variacin Entre los grupos Dentro de los grupos Total
SS 406123.2 5135 411258.2
gl 4 15 19
MS 101530.8 342.3333
Fcalc. 296.5846
Valor-p 4.4E-14
Fcrit. 3.055568
7-6
Si se usa el programa Minitab irse a: Stat ANOVA One way (unstacked). Los resultados de este problema usando el Minitab se dan en la tabla de abajo. TABLA 7.5. Tabla mostrando los resultados usando el Minitab.
One-way ANOVA: Muestreador 1, Muestreador 2, Muestreador 3, Muestreador 4, Muestreador 5
Source Factor Error Total DF 4 15 19 SS 406123 5135 411258 MS 101531 342 F 296.58 P 0.000
s = 18.50
R-Sq = 98.75%
R-Sq(adj) = 98.42%
Ntese que cada uno de estos paquetes de computadora tiene sus ventajas y desventajas. De cualquier manera, al juzgar por el valor de F = 296.58 >>>> Fcrtica = 3.06, la hiptesis nula de igualdad de poblaciones de SO2 se rechaza de una manera mucho muy significante. Esta decisin es contundentemente apoyada por el valor tan pequeo de p = 4.4x10-14. Ejemplo #2. Se da la siguiente informacin en la tabla de abajo relacionada con cierto estudio ecolgico. Asmase un diseo completamente aleatorizado. Sacar las conclusiones adecuadas. TABLA 7.6. Tabla mostrando los datos del problema. (Elaboracin propia)
6
Tratamiento 1 2 3 4 Solucin:
Observaciones 99 40 61 72 76 84 96 84 82 104 63 57 81 59 79 92 91 87 99 105 64 72 78 71
J=1
yij 432 570 396 498
y i.
72 95 66 83
7-7
Usando un paquete de programa de computadora da: TABLA 7.7. Tabla de anlisis de varianza. (Elaboracin propia)
Grupos Tratamiento 1 Tratamiento 2 Tratamiento 3 Tratamiento 4 Conteo 6 6 6 6 Suma 432 570 396 498 Promedio 72 95 66 83 Varianza 406.8 97.6 80.8 69.2
Tabla de ANOVA Fuente de Variacion Entre los Grupos Dentro de los grupos Total
SS 2940 3272 6212
gl 3 20 23
MS 980 163.6
Fcalc. 5.99022
Valor-p 0.004387
Fcrit. 3.098391
El valor de la probabilidad de p es de 0.0044. Este valor tambin se puede calcular manualmente buscando el valor de la Fcalc. = 5.99 en la tabla de la distribucin F e interpolando entre el valor ms alto y el ms bajo usando la relacin (7-4) de abajo: (2 1) / (F2 F1) = (2 X) / (F2 Fcalc.) Donde: 2 = valor porcentual de F ms alto que el valor de Fcalc. 1 = valor porcentual de F ms bajo que el valor de Fcalc. F2 = valor de la distribucin F correspondiente a 2 F1 = valor de la distribucin F correspondiente a 1 X = valor que se quiere interpolar Fcalc. = valor calculado usando la tabla de la distribucin F. Nota: El mecanismo que se sigue para interpolar es buscando el valor de la Fcalc. = (7-4)
7-8
5.99 en la tabla de la distribucin F con 1 = 3 (numerador) y 2 = 20 (denominador) y vemos que 5.99 est entre 2 = .001 con F2 = 8.10 (valor ms alto) y 1 = .01 con F1 = 4.94 (valor ms bajo). Enseguida, sustituimos el valor de la Fcalc. = 5.99 y los dems valores en la frmula de interpolacin (7-4) para dar: (.001 - .01)/(8.10 4.94) = (.001 X)/(8.10 5.99) Resolviendo por X = .005= p = .005. Este valor est muy de acuerdo al valor de .0044 de la TABLA 7.7. En conclusin, el valor de p = .0044 indica un diseo experimental preciso y conciso. Ejemplo #3. Los nitratos (NO-3) representan la fase ms oxidada en el ciclo del nitrgeno. Generalmente, esto ocurre en muy pequeas cantidades en las superficies de los almacenamientos de agua, pero puede existir en grandes cantidades en algunas aguas subterrneas. En cantidades excesivas, los nitratos pueden ocasionar una enfermedad infantil llamada metemeglobinemia. (Mtodos Estndares para el examen del agua y de las aguas residuales, 1971). Por esta razn, el lmite es de 45 mg/L para el agua potable. Para los anlisis de los nitratos, existen varios mtodos. Por ejemplo, un mtodo es el del cido fenoldisulfnico; otro es el mtodo de la reduccin de cadmio; otro ms es el mtodo de cido cromotrpico y, otro ms es el mtodo de brucina (alcaloide txico). Para esto, se hizo un estudio estadstico para comparar los resultados de los cuatro mtodos mencionados arriba para analizar los nitratos. Los siguientes datos se dan abajo. Para esto, llamemos tratamiento (1) al mtodo del cido fenoldisulfnico, tratamiento (2) al mtodo de la reduccin del cadmio, tratamiento (3) al mtodo de cido cromotrpico, y tratamiento (4) al mtodo de brucina. La tabla de abajo da los resultados en mg/L. Asumir un nivel de significancia de 0.05. Hacer los
7-9
siguientes clculos: (a) Enlistar las suposiciones implicadas por el modelo de ANOVA. (b) Hacer una tabla de anlisis de varianza y probar que no hay diferencias entre los 4 mtodos. (c) Estimar el valor de la probabilidad p y sacar las conclusiones apropiadas. TABLA 7.8. Tabla con los datos. (Elaboracin propia) Tratamiento (1) (2) (3) (4) Solucin: (a) Las suposiciones implicadas por el modelo de anlisis de varianza de una sola clasificacin son: 1. Las cuatro poblaciones de los nitratos estn normalmente distribuidas. 2. Las varianzas de las cuatro poblaciones de nitratos son iguales. 3. Las 24 observaciones (anlisis) son independientes, es decir, que las muestras fueron seleccionadas aleatoriamente. (b) Usando el programa Minitab irse a: Stat ANOVA One way (unstacked) da los iguientes resultados mostrados en la Tabla 7.9. 99 96 63 79 Resultados de los seis anlisis en mg/L 40 84 57 92 61 82 81 91 72 104 59 87 76 99 64 78 84 105 72 71
7-10
TABLA 7.9. Tabla de ANOVA para los resultados de ejemplo de arriba usando el Minitab. (Elaboracin propia)
One-way ANOVA: Tratamiento 1, Tratamiento 2, Tratamiento 3, Tratamiento 4
Source Factor Error Total DF 3 20 23 SS 2940 3272 6212 MS 980 164 F 5.99 P 0.004
MS = 164 = s = 12.81
R-Sq = 47.33%
R-Sq(adj) = 39.43%
Por otra parte, un mtodo corto para hacer anlisis de varianza de un sentido, es decir, manualmente, se da usando el formato de la tabla de abajo. TABLA 7.10. Tabla de anlisis de varianza (ANOVA) para una clasificacin, con muestras de tamaos iguales usando el mtodo abreviado. (Elaboracin propia).
Fuente de Variacin Suma de los cuadrados g.l. Cuadrado del promedio Fcalc. Ftab. Valor de p Estimado
Debido al SSa = T2/n G2/an a1 MSa = SSa/(a-1) MSa/s2e F[1-;a-1,a(n-1)] tratamiento Residuo SSr = X2 - T2/n a(n-1) s2e = SSr/a(n-1) Total SSt = X2 G2/an na-1
Donde: T2 = cuadrado de los totales g.l. = = grados de libertad n = tamao de la muestra G = gran total a = nmero de muestras
7-11
Ejemplo #4. La tabla de abajo muestra los datos de los anlisis de demanda qumica de oxgeno (DQO) hechos por 3 laboratorios diferentes. Se tomaron 3 muestras de 5 observaciones cada una. Asumir que las 3 muestras vienen de poblaciones normales aleatorias y que tienen la misma varianza. Asumir un nivel de significancia de = 0.05. Hacer lo siguiente: (a) Una tabla con un anlisis de varianza para el DQO. (b) Establecer la regin crtica. (c) Probar la hiptesis nula de Ho: 1 = 2 = 3, o sea que 2 = 0, es decir, que los promedios de las tres poblaciones de DQO son iguales. Adems, establecer la hiptesis alternativa apropiada. (d) Si se rechaza Ho: calcular el valor de la probabilidad p. Se da la tabla de abajo con algunos clculos preliminares: TABLA 7.11. Tabla mostrando los clculos preliminares. (Elaboracin propia) Nmero de muestra Observacin (1) 3 7 7 6 2 Totales Promedio X Solucin: Usando las estadsticas de la TABLA 7.10, los clculos son: 25 5 (2) 9 12 11 8 5 45 9 (3) 1 2 6 4 7 20 4 G = 90
X =6
Combinacin
__________________________________________________________________
7-12
G = T = X = T1 + T2 + T3 +...+ Tk = 25 + 45 + 20 = 90, an = (3)(5) = 15 Promedio general o promedio de los promedios = X = G / an = 90 / 15 = 6 Tambin, X = ( X 1 + X 2 + X 3) / a = (5 + 9 + 4) / 3 = 6 X 2 = 688, n = 5, a = 3, T2 / n = 3,050 / 5 = 610 SS(entre las muestras) = (T2 / n) - (T)2 / an = T2 / n - G2/an = (252 + 452 + 202)/5 - [(25 + 45 + 20)2] / [(3)(5)] = 70.0 Nota 1: la suma de los cuadrados SSa = SS(entre las muestras) mide la variacin entre los promedios muestrales a. SS(dentro de las muestras) = X 2 - T2/n = (X - X )2 = 688 - 610 = 78 Nota 2: SSr = SS(dentro de las muestras) mide la variacin de las observaciones dentro de los promedios muestrales. SS(total) = SS(entre las muestras) + SS(dentro de las muestras) = X 2 - G2/an = (X - X )2 Nota 3. SS(total) mide la variacin total de las observaciones an. La varianza de los promedios muestrales es: s2 x = cuadrado del promedio de SS(entre las muestras) = (X - X )2 / a-1 = [(5 - 6)2 + (9 - 6)2 + (4 - 6)2]/3 - 1 = (-12 + 32 - 22)/2 = 7.0 s2e = cuadrado del promedio de SS(dentro de las muestras) = (X - X )2 / a (n - 1) = SS(dentro de las muestras) / a (n - 1) = 78 / 3(5 - 1) = 6.5
7-13
Mtodo de comparaciones mltiples para saber cuales poblaciones son iguales y cuales son desiguales Una vez que se prueban las hiptesis de que los promedios son iguales, o desiguales, entonces, necesitamos saber cuales promedios son desiguales y cuales son iguales. Para esto, se usa lo que se llaman comparaciones mltiples explicados por Walpole et al. 1993. El anlisis de varianza es un procedimiento poderoso para probar la homogeneidad de un grupo de promedios. Sin embargo, si rechazamos la hiptesis de igualdad (Ho:1 = 2 = 3 = n), y nos inclinamos por la hiptesis alternativa de qu, cuando menos dos de los promedios son iguales, todava no sabemos cuales de los promedios son iguales y cuales son desiguales. El uso del mtodo de comparaciones mltiples implica hacer varias comparaciones emparejadas entre los tratamientos o promedios. Por ejemplo, las comparaciones emparejadas son pruebas como la de abajo las cuales dicen que son iguales o que no hay diferencia: Ho:i - j = 0 H1:i - j 0 forma de:
Xi- Xj t = _ s 2/n
(7-5) (7-5a)
Para hacer estas pruebas emparejadas usamos la versin de t de Estudiante de la
(7-6)
Donde:
X i = unos de los promedios que se quiera comparar
X j = otro de los promedios que se quiera comparar
7-14
s = desviacin estndar combinada o la raz cuadrada del cuadrtico promedio del error MS n = tamao de la muestra de cada tratamiento Ejemplo #5. El libro Probabilidad y Estadstisca de Walpole et al. (1993) da un ejemplo del uso de las comparaciones mltiples. La tabla de abajo da los datos relacionados con este problema. Asumir un nivel de significancia de = 0.05. Estimar de valor de la probabilidad p. TABLA 7.12. Tabla mostrando los datos del problema. Nmero de Agregados 1 551 457 450 731 499 632 2 595 580 508 583 633 517 3 639 615 511 573 648 677 4 417 449 517 438 415 555 5 563 631 522 613 656 679
Resolver los siguientes enunciados: (a) Correr un anlisis de varianza usando en paquete de computadora. (b) Probar la hiptesis nula de que la poblacin del agregado 1 es igual a la poblacin del agregado 5, es decir, Ho:1 = 5 contra la hiptesis alternativa de H1:1 5. (c) Probar la hiptesis nula de que la poblacin del agregado 4 es igual a la poblacin del agregado 5, es decir, Ho:4 5 = 0, contra H1:4 - 5 0.
7-15
Solucin: Usando un programa de computadora como EXCEL da los siguientes resultados. (a) La tabla de abajo muestra los resultados obtenidos usando el paquete de computadora. TABLA 7.13. Resultados usando anlisis de varianza de un solo factor.
Anlisis de varianza de un solo factor Resumen Grupos Agregado 1 Agregado 2 Agregado 3 Agregado 4 Agregado 5
Conteo 6 6 6 6 6
Suma 3320 3416 3663 2791 3664
Promedios 553.3333 569.3333 610.5 465.1667 610.6667
Varianzas 12133.87 2302.667 3593.5 3318.567 3455.467
ANOVA Fuente de Variacin Entre los grupos Dentro de los grupos Total
SS 85356.47 124020.3 209376.8
gl 4 25 29
MS 21339.12 4960.813
F calc. 4.301536
Valor-p 0.008752
F crit. 2.75871
Al juzgar por los resultados obtenidos se rechaza los hiptesis de igualdad de promedios, es decir, Ho:1 = 2 = 3 = 4 = 5, con una probabilidad de p = 0.009.
(b) Ahora bien, para probar la hiptesis de que la poblacin del agregado 1 es igual
a la poblacin del agregado 5, se usa la relacin: Ho:1 = 5 y H1: 1 5. Usando la funcin (7-6) y sustituyendo los valores de 1 = 553.33, 5 = 610.67, desviacin estandar combinada = s = 4960.813 = 70.43 y n = 6 da: Xi- Xj t = s 2/n
7-16
t = (553.33 610.67) / [(70.43) ( 2/6)] = -1.41 Para calcular el valor de la probabilidad p se busca el valor absoluto, |-1.41| en la tabla de la distribucin de t de Estudiante y est entre 0.05 y 0.10 y por interpolacin da p = 0.17. Este valor no es significante y, por lo tanto, se dice que tal vez 1 = 5. (c) Aqu se quiere probar la hiptesis nula de que no hay diferencias entre las poblaciones de los agregados 4 y 5, esto es, Ho:4 = 5. Para esto, se procede en forma anloga al inciso (b) usando los valores de 4 = 465.17, 5 = 610.67, s = 70.43 y tamao de muestra de n = 6. Sustituyendo todos estos valores en la funcin (7-6) da: t = (465.17 610.67) / [(70.43)( 2/6) = -3.58 Para calcular el valor de la probabilidad p se consulta la tabla de la distribucin de t con 25 grados de libertad y vemos que el valor p correspondiente a 3.58 est entre .0005 < p < 0.001. Por interpolacin, el valor calculado de p es igual a 0.0008. Este valor apoya, definitivamente, la hiptesis alternativa de H1:4 5. Anlisis de varianza de diseo de bloques completamente aleatorizados Como se dijo anteriormente, el diseo de bloques completamente aleatorios se usa para reducir el error experimental, ya sea debido a muestras pequeas o debido a variacin inherente de las observaciones. Con este tipo de diseo por bloques completos es posible controlar la variacin dentro de las muestras (residual) generada por algun factor indeseable. De manera qu, al bloquear las observaciones, se reduce la variacin, que tal vez no se pueda controlar cuando se usan diseos completamente aleatorizados. El diseo de bloques aleatorizados tambin se refiere como ANOVA con
7-17
dos factores, en el sentido de que se usa I para representar el nmero de niveles del primer factor A y J para representar el nmero de niveles del segundo factor B (bloques). Siendo as, hay IJ posibles combinaciones que constan de un nivel de factor A y otro de factor B. Cada una de estas combinaciones se llama tratamiento, por lo que hay IJ diferentes tratamientos. Aqu, en el diseo de bloques, el nmero de observaciones hechas en el tratamiento IJ se representan con Kij = 1, el cual es un caso especial del diseo de bloques aleatorizados, donde un solo factor A es de inters principal, y el otro factor (B) bloques es incluido para reducir el error experimental. En la siguiente discusin de ANOVA de dos factores, nos centraremos en el caso de Kij = K > 1, para diferenciarlo del diseo de bloques aleatorios con Kij = 1. De cualquier manera, el trmino bloque se deriva de diseos experimentales agrcolas, en los cuales las parcelas de tierras de cultivos se refieren como bloques. Por ejemplo, en el caso del diseo de bloques aleatorios, los tratamientos se asignan aleatoriamente a unidades dentro de cada bloque con caractersticas de suelos semejantes. De no ser as, las parcelas a las que se le aplica fertilizante, no todas pudieran tener el mismo tipo de tierra, nutrientes o humedad, (lo que puediera causar variaciones en los rendimientos agrcolas). Al agrupar las parcelas por caractersticas similares de suelos, minerales, nutrientes, humedad, etc., el error experimental se reduce. Otro ejemplo, es el relacionado con experimentos mdicos. Por ejemplo, si los tratamientos son 3 drogas y hay 24 pacientes, usando el diseo completamente aleatorizado, 8 pacientes son asignados aleatoriamente a cada uno de los tratamientos. Pero puede ocurrir que el historial clnico de los 24 pacientes no sea el mismo, lo cual puede afectar su comportamiento a las drogas (lo que puede
7-18
causar un error o residual grande). Sin embargo, agrupando los pacientes por historiales clnicos similares, edades, sexo, pesos, fumadores, tomadores, orientaciones sexuales, etc., se controla esta variacin. En el caso de la ingeniera ambiental, usando modelos de contaminacin atmosfrica, se esperara que las concentraciones de los contaminantes disminuyeran en funcin de la distancia (siempre y cuando las alturas de los muestreadores fueran iguales, las condiciones metereolgicas fueran uniformes y el tipo terreno por donde est pasando la pluma fuera similar). Al controlar estos factores, las concentraciones de los contaminantes disminuyen exponencialmente, en funcin de la distancia de la fuente emisora, sin producir mucha variacin. La tabla de abajo da el ANOVA para el diseo de bloques completos. TABLA 7. 14. ANOVA de un diseo aleatorizado por bloques completos.
Fuente de variacin Debido a los tratamientos Debido a los bloques Residual (Error) Total SSe SSt (a 1)(b 1) MSe = SSe/[(a 1)(b - 1)] ab 1 SSb b1 MSb = SSb/(b 1) MSb/s22 F[1-;b-1,(a-1)(b-1)] Suma de los cuadrados SSa Grados de libertad a1 Cuadrado medio MSa = SSa/(a 1) MSa/s21 F[1-;a-1,(a-1)(b-1)] Fcalc. Ftab. Valor de p Calculada
____________________________________________________________________________________
Donde: SSa = b ( y i. y .. )2
i=1 a
Suma de cuadrados de tratamientos Suma de cuadrados de bloques
(7-7) (7-8)
SSb = a ( y .j y .. )2
J=1
7-19
Dr. Hctor Quevedo Uras a b
SSe = (yij y i. y .j + y .. )2
i=1 j=1
Suma de cuadrados del error
(7-9)
SSt = (yij y ..)2

i=1 j=1
Suma total de los cuadrados
(7-10)
Donde:
y i. = promedio de las observaciones para el i-simo tratamiento y .j = promedio de las observaciones para el j-simo bloque y .. = promedio de todas las ba observaciones o el promedio de los promedios
yij = j-sima observacin del i-simo tratamiento Suposiciones del modelo de bloques aleatorios completos El modelo o diseo de bloques aleatorios completos asume cuatro suposiciones (Dunn et al. 1974) : 1. La respuesta al i-simo tratamiento en el j-simo bloque proviene de una distribucin normal. 2. Los promedios de las distribuciones normales ab pueden expresarse en la forma de + + . Esta propiedad usualmente se llama aditividad o no interaccin. 3. Las varianzas de las poblaciones ab son todas iguales. Esto se llama homoscedasticidad. Este trmino se discutir, nuevamente, en el captuo de regresin y correlacin. 4. Las deviaciones de los promedios ij son independientes. Por ejemplo, si se sabe que 11 es grande, no se puede esperar que 12 sea pequea o grande. Una suposicin importante del modelo para un diseo de bloques completos aleatorizados es que los efectos de tratamiento y de bloqueo se asumen que son aditivos. Por ejemplo, para ilustrar esta situacin, si se grafican los promedios
7-20
poblacionales versus tratamientos, digamos de los bloques 1 y 2 y, si las grficas son paralelas, se dice que los efectos de tratamiento y de bloques son aditivos o que no interactan. Sin embargo, si las lneas de la grfica se cruzan entre si, se dice que hay interaccin. En este rengln, si no se cumple la condicin de aditividad, esto conduce a conclusiones errneas. El diseo completamente aleatorio, tiene muchas aplicaciones en la produccin industrial y en a modelos educativos. Para esto vamos a usar un ejemplo para ilustrar esta situacin. Ejemplo #6. Supngase que 4 diferentes mquinas son manejadas por 4 operadores diferentes. Se quiere saber si los operadores difieren con respecto a la productividad de tiempo, cuando son asignados a variados tipos de maquinarias. Aplicar el anlisis de varianza ms apropiado para este problema, usando = 0.05. Sacar conclusiones al respecto usando un paquete de computadora. Los datos se dan en la tabla de abajo: TABLA 7.15. Tabla mostrando la productividad por tiempo de los diferentes operadores asignados aleatoriamente a 4 tipos de mquinas diferentes. Operadores Mquinas A B C D 1 68.5 72.2 73.3 81.1 2 79.2 80.6 80.2 88.8 3 83.8 89.3 88.0 95.2 4 87.5 95.3 94.1 100.5
Solucin:
7-21
Usando un paquete de computadora como Excel, se procede como: Tools Data Analysis Analysis Tools Anova: Two Factors Without Replication (Aqu, sin embargo, hay que instalar el mdulo de Data Analysis) Las pruebas de hiptesis para los operadores y las mquinas se establecen de la siguiente manera: Ho: Los operadores no difieren con respecto al promedio de productividad por tiempo, contra H1: Los operadores si difieren con respecto al promedio de productividad por tiempo Ho: Las mquinas no difieren con respecto al promedio de productividad por tiempo, contra H1: Las mquinas si difieren con respecto a la productividad Usando el programa Excel da los siguientes resultados mostrados abajo. TABLA 7.16. Tabla mostrando el anlisis de varianza con dos factores.
Anova con dos factores RESUMEN Mquina A Mquina B Mquina C Mquina D Operador 1 Operador 2 Operador 3 Operador 4 Conteo 4 4 4 4 4 4 4 4 Suma 319 337.4 335.6 365.6 295.1 328.8 356.3 377.4 Promedio 79.75 84.35 83.9 91.4 73.775 82.2 89.075 94.35 Varianza 67.77667 102.03 82.3 70.03333 28.0625 19.70667 22.1825 28.57
Tabla de ANOVA Fuente de variacin Maquinaria Operadores Error Total
SS 280.26 951.115 15.305 1246.68
gl 3 3 9 15
MS 93.42 317.0383 1.700556
Fcalc. 54.93499 186.4322
Valor de p .00000414 .00000002
Fcrtica 3.862548 3.862548
7-22
Conclusin: Con respecto a la maquinaria, debido a que el valor de la Fcalc. = 54.9 >>> Fcrtica se rechaza Ho: Esta decisin es mucho muy significativa, al juzgar por el valor de p = .000004. Las mquinas s difieren muy significantemente, con respecto a la productividad. Con respecto a los operadores, debido a que el valor de Fcalc. = 186.4 >>>> Fcrtica se rechaza Ho: Esta decisin es mucho, mucho muy significante al juzgar por el valor de p = 2x10-8. Los operadores s difieren muy significantemente, con respecto a la productividad de tiempo. Esto es apoyado, muy contundentemente, por el valor tan bajo de la probabilidad p. Ejemplo #7. Este es un ejemplo relacionado con un experimento de bloques aleatorios completos para determinar los efectos corrosivos de cuatro sustancias qumicas diferentes, v.g., HCl, H2SO4, HNO3 y HF. Es decir, cidos gaseosos que entran en el flujo de aire (flujo transportador que entra al equipo de control, el cual se genera de un procesamiento industrial), que pasan por los filtros, es decir, en las telas usadas en los filtros o baghouses (hechas de fibra de vidrio, asbestos, dacron, niln, polietileno), para controlar la contaminacin del aire. Para tales fines se seleccionan cinco muestras de telas y se aplica un diseo aleatorio por bloques completos, por medio de probar cada sustancia qumica, en un orden aleatorio, sobre cada una de las muestras de las telas. Sacar las conclusiones debidas. Los datos se dan en la tabla de abajo. Hacer lo siguiente: (a) Probar la hiptesis nula de igualdad de promedios (b) Hacer una tabla de anlisis de varianza de diseo aleatorizado por bloques completos. Sacar las conclusiones apropiadas
7-23
TABLA 7. 17. La respuesta de los ndices de corrosividad de las cuatro sustancias qumicas en las muestras de telas. (Elaboracin propia) Tipos de telas _________________________________________ Sustancias qumicas Vidrio asbestos dacron niln polietileno HCl 1.8 2.1 1.1 1.7 1.6 H2SO4 2.7 2.9 0.8 2.5 2.5 HNO3 2.3 2.3 1.1 2.0 1.8 HF 4.4 4.8 2.5 4.4 3.9 Los resultados usando el paquete de Excel se dan abajo. TABLA 7.18. Resultados de las resistencias a la corrosin de las telas usando un diseo aleatorizado de bloques completos.
Anova de dos factores sin replicaciones Resumen HCl H2SO4 HNO3 HF Vidrio Asbestos Dacron Niln Polietileno Conteo 5 5 5 5 4 4 4 4 4 Suma 8.4 11.4 9.5 19 11.2 11.2 5.5 10.6 9.8 Promedio 1.68 2.28 1.9 3.8 2.8 2.8 1.375 2.65 2.45 Varianza 0.157 0.712 0.245 0.605 1.273333 0.54 0.5825 1.47 1.083333
Tabla de ANOVA Fuente de variacin Debido a los cidos Debido a las telas Error Total SS 13.7095 5.738 1.138 20.5855 gl 3 4 12 19 MS 4.569833 1.4345 0.094833 Fcalc. 48.18805 15.12654 Valor de p 5.75E-07 0.000123 Fcritica 3.490295 3.259167
Debido a que el valor de la Fcalc. = 48.19 > F0.05,3,12 = 3.49 se rechaza la hiptesis
7-24
nula de igualdad de tratamientos, y se dice que hay una diferencia muy significativa en la accin de los cidos, en cuanto el efecto que tienen sobre la resistencia promedio de las telas. Esta contencin est muy bien sustentada por el valor tan pequeo de p = 5.75x10-7. Por otra parte, en cuanto a modelos estadsticos para controlar la variacin, existe otro tipo de diseo para reducir el error experimental llamado cuadrados latinos. An, cuando el diseo en bloques aleatorizados es muy efectivo para reducir el error experimental (residual), al eliminar una fuente de variacin, los cuadrados latinos son muy tiles para reducir dos fuentes de variacin, mientras se reduce el nmero de combinaciones. Este diseo, sin embargo, no se discutir en este texto. Clasificaciones cruzadas: Anlisis de varianza en dos sentidos El anlisis de varianza en dos direcciones o de dos clasificaciones o de dos sentidos es til para estudiar dos tipos diferentes de tratamientos. La caracterstica del diseo factorial en dos sentidos es que, cada nivel de un factor, se usa en combinacin con cada nivel del otro factor. Por ejemplo, considrese el caso de n rplicas de las combinaciones del tratamiento que se determinan por a niveles del factor A y b niveles del factor B. En este aspecto, las observaciones se estructuran por medio de un arreglo rectangular, donde los renglones representan los niveles del factor A y las columnas representan los niveles del factor B. Siendo as, hay ab celdas, cada una de las cuales contenienen n observaciones (tamao de la muestra). Por ejemplo, si un ingeniero agrnomo investiga el comportamiento de dos tipos de semillas, por medio de variar el nivel del fertilizante, digamos, a tres niveles, alto, mediano y bajo, un factor sera el tipo de semilla y el segundo factor sera el nivel de fertilizante. Este sera un ejemplo factorial con dos factores, el
7-25
cual consistira en usar seis tratamientos formados por medio de usar cada tipo de semilla con cada nivel de fertilizante. Otro ejemplo, de ANOVA de dos factores est relacionado con la medicin de las concentraciones de contaminates del aire emitidos por una fuente industrial. Aqu para un factor se pueden seleccionar diferentes niveles distancias de la fuente emisora y, para el otro factor, se pueden seleccionar diferentes alturas donde estn situados los muestreadotes (porque la altura afecta las concentraciones). Interaccin con ANOVA de dos factores Cuando se estudian experimentos factoriales es importante determinar si los factores principales tienen una influencia en la respuesta, sino tambin analizar lo que se llama interaccin (no aditividad) entre los factores. El texto de Dunn et al. (1974) aplica un experimento de dos clasificaciones, para explicar el concepto de la interaccin. Por ejemplo, en la Figura 7.2, en un experimento que involucra tres niveles de agua y tres niveles de fertilizante, las lneas son paralelas, lo que indica que no hay interaccin, o sea que hay independencia en los datos. Sin embargo, en la Figura 7.3 se observa qu, en ambas grficas hay una respuesta promedio con interaccin, es decir, que hay dependencia. Por ejemplo, en la primera grfica un nivel alto de fertilizante interacciona positivamente con un nivel alto de agua; mientras que en la segunda grfica niveles altos de agua y fertilizante resultan en una respuesta baja, en comparacin con la respuesta a niveles bajos y medianos de agua. En trminos simples, se dice que hay interaccin entre dos factores (digamos A y B), si el cambio en uno de los factores (digamos factor B) produce un cambio en respuesta a un nivel (digamos nivel 1) del otro factor (digamos A) diferente de aqul producido en los otros niveles (digamos nivel 2) de este segundo factor A, donde un nivel es uno de los tratamientos dentro de un factor.
7-26
Figura 7.2. Grfica indicando una respuesta promedio sin interaccin (aditividad), o sea que hay independencia en los datos. (Dunn et al. 1974).
Figura 7.3. Grficas indicando una respuesta promedio con interaccin (no aditividad) o sea que hay dependencia entre los datos. (Dunn et al. 1974). Cuando ocurre una interaccin en algn experimento es importante investigar porque ocurri. Por ejemplo, cuando se establece la tabla de anlisis de varianza, se estudian los comportamientos de los efectos principales y tambin, la posible interaccin entre los dos factores bajo estudio. En trminos estadsticos, si la F calculada es mayor que la F crtica eso indica que los factores estn
7-27
interactuando. No obstante, la interaccin puede ocurrir por mera casualidad. Pero tambin la interaccin puede ocurrir, causalmente, debido a algn valor extremo o a algn factor que no se ha podido controlar. La interaccin, tambin se puede deber a algn problema en los datos o a una respuesta errnea. De cualquier manera cuando los datos obtenidos indican que existe una interaccin grande, los efectos principales correspondientes sern de poca utilidad. De esta manera, en el ejemplo #7 de abajo, hay interacciones entre las alturas y las distancias. Cuando se modelan las emisiones de contaminantes atmosfricos, hay muchas variables que pueden afectar los resultados. En este ejemplo, tal vez hubo cambios metereolgicos imprevistos, emisiones fugitivas o diferencias en los tipos de terreno por donde pasa la pluma de la chimenea. Esto pudo contribuir a la interaccin de los dos factores estudiados en ese ejemplo. Situaciones similares pueden ocurrir en estudios de agricultura. Por ejemplo, si el ingeniero agrnomo desea estudiar los rendimientos agrcolas usando dos factores, como el tipo de semilla y la cantidad de fertilizante aplicado, tiene que analizar si hubo interaccin entre los factores semilla-fertilizante. Si hay interaccin entre estos dos factores, esto pudo deberse a que, en las parcelas seleccionadas para los cultivos experimentales, no haba uniformidad de variables como humedad, tipos de suelos, o de cantidad de nutrientes. Para remediar esta situacin se tendra que hacer un experimento por bloques aleatorizados, es decir, teniendo cuidado de que las parcelas agrcolas fueran todas uniformes en las variables anteriormente descritas. De cualquier manera, la tabla de abajo muestra el formato que se usa para experimentos factoriales en dos sentidos o con dos tratamientos.
7-28
La TABLA 7.19 de abajo muestra el formato que se sigue para los anlisis de varianza en dos sentidos. TABLA 7. 19. Tabla de anlisis de varianza en dos sentidos. (Elaboracin propia)
Fuente de variacin Efecto principal Debido a A Debido a B Interaccin de dos factores Debido a AB Residual Total SSab SSe SSt (a-1)(b-1) ab(n-1) abn-1 MSab = SSab/(a-1)(b-1) F3 = MSab/s2e s2e=SSe/[ab(n-1)] F[1-;(a-1)(b-1),ab(n-1)] SS g.l. MS Fcalc. Ftab.
SSa SSb
a-1 b-1
MSa= SSa/(a-1) MSb = SSb/(b-1)
F1 = MSa/s2e F2 = MSb/s2e
F[1-;a-1,ab(n-1)] F[1-;b-1,ab(n-1)]
Donde: SSa = bn i=1 ( y i.. - y )2 SSb = an J=1 ( y .j. - y ... )2 SSab = n i=1 j=1 ( y ij. - y i.. - y .j. + y )2 SSe = i=1 k=1 (yijk - y ij.)2 j=1 SSt = i=1 (yijk y )2 j=1 k=1
a b n a b b a
(7-11) (7-12) (7-13) (7-14) (7-15)
7-29
A = variacin debido al primer factor A B = variacin debido al segundo factor B AB = interaccin entre el factor A y B (interaccin que ocurre cuando no hay aditividad) s21, s22, s23 y s2e son la formacin de los cuadrados medios y se obtienen dividindolos entre sus correspondientes grados de libertad y = suma de las observaciones en la (ij)-sima celda
ijk
y i.. = promedio de las observaciones para el i-simo nivel del factor A y = promedio de todas las abn observaciones y .j. = promedio de las observaciones para el j-simo nivel del factor B y ij. = promedio de las observaciones en la (ij)-sima celda
yijk = k-sima observacin en el i-simo nivel del factor A y el nivel j-simo nivel del factor B a = nmero de muestras del primer factor b = nmero de muestras del segundo factor n = nmero total de casos En el anlsis de varianza de dos sentidos, para el modelo bajo estudio se divide cada observacin yijk en cuatro partes y la quinta en las desviaciones de las observaciones del promedio poblacional (Dunn et al. 1974). Esto es: yijk = + i +j + ()ij + ijk para i = 1,. , a; j = 1,., b; k = 1,..., n, Donde: i = j = ()ij = ()ij = 0
j=1 i=1 j=1 a b a b
(7-16)
i=1
(7-17)
Y donde:
7-30
= respuesta promedio del conjunto o la respuesta promedio de las poblaciones ab; i = el efecto del isimo nivel del factor A promediado sobre b niveles del factor B; j = efecto jsimo nivel del factor B; ()ij = interaccin entre el isimo nivel del factor A y el jsimo nivel del factor B y; ijk = desviacin de las observaciones yijk de la respuesta del promedio poblacional para la ij-sima poblacin. Aqu, es importante recapitular las suposiciones del model de ANOVA en dos direcciones, es decir: 1. Los errores ijk deben ser independientes 2. Los residuales ijk deben estar normalmente distribuidos 3. Los residuales ijk deben de venir de una poblacin con la misma varianza De no cumplirse con estas suposiciones, el diseo ser incierto. Ejemplo #8. Para estudiar los efectos de la altura y la distancia en las concentraciones de contaminantes atmosfricos (SO2) emitidos por una chimena industrial se instalaron tres muestreadores, a tres alturas diferentes (3 niveles de A) y, a cuatro distancias diferentes (4 niveles de B) viento abajo de la fuente emisora. Para esto se dan los siguientes avances informativos: SSa = 7.00, SSb = 20.00, SSe = 7.0 y SSt = 45.00. Asumiendo un nivel de significancia de = 0.05, resolver los siguientes enunciados: (a) Establecer una tabla de anlisis de varianza. (b) Hacer pruebas de F para demostrar que ninguno de los valores de F para interacciones de la altura y la distancia es significativo. Probar la hiptesis nula Ho: de que no hay diferencias en las concentraciones promedio de SO2 en las distancias, cuando se usan tres alturas diferentes, en las cuales fueron situados los muestredores que estn midiendo las concentraciones del bixido de azufre.
7-31
Adems, probar la hiptesis nula Ho: de que no hay diferencia en las concentraciones promedio en las cuatro distancias a las que se situaron los sensores. Finalmente, probar la hiptesis nula Ho: de que no hay interaccion entre las diferentes alturas y las diferentes distancias de los sensores. (c) Ver cuales efectos principales son significativos. (d) Calcular los valores de p. Solucin: (a) La tabla de ANOVA con los valores sustituidos se da abajo. TABLA 7.20. Tabla de ANOVA para el problema de los efectos de la altura y la distancia en las concentraciones de contaminantes del aire. __________________________________________________________________
Fuente de variacin Debido a la altura (A) Debido a la distancia (B) Debido a la interaccin de AB Debido al error Total 7.00 45.00 12 23 0.58 11.00 6 1.83 3.16 3.00 .01 < p < .05 20.00 3 6.67 11.50 3.49 p << .001 Suma de los cuadrados (SS) 7.00 2 g.l. Cuadrado medio (MS) 3.50 6.03 3.89 .001 < p < .01 Fcalc. Ftab. Valor p
______________________________________________________________________________
____________________________________________________________________________
(b) Las tres pruebas de hiptesis nulas se establecen de la siguiente manera: Ho:1 = 2 = 3 = 0 (no hay diferencias en las concentraciones promedio de SO2 cuando se sitan los sensores a las diferentes alturas) Ho: 1 =2 = 3 = 4 = 0 (no hay diferencias en las concentraciones de SO2, en las
7-32
cuatro distancias de la fuente emisora) Ho: ()11 = ()12 = .. = ()24 = 0 (no hay interaccin entre las diferentes alturas y las diferentes distancias Las pruebas de hiptesis alternativas son: H1: Cuando menos una de las concentraciones i (por la altura) difiere de cero H1: Cuando menos una de las concentraciones i (por la distancia) difiere de cero H1: Cuando menos una de las ()ij (interaccin altura-distancia) difiere de cero Conclusin: Se rechaza Ho: y se concluye que las concentraciones de SO2 por el efecto de la altura son diferentes, a aqullas debidas al efecto de la distancia. Esta contencin es apoyada por el valor de p = .022. Anlogamente, Ho: tambin se rechaza con un valor muy significativo de p << .001. La interaccin entre la altura y la distancia, es decir, Fcalc. = 3.16 > Ftab. = 3.00 est en el umbral de la interaccin, con un valor de p = .05. Esto indica que la interaccin debe de considerarse. Esto quiere decir que tienen que considerarse variables como el tipo de terreno, cambios imprevistos en las condiciones meteorolgicas, sensores mal situados, mal funcionmiento del equipo, emisiones fugitivas, cuerpos de agua, y asi sucesivamente. (c) y (d) explicados por el inciso (a). De acuerdo a la tabla todos los efectos son significativos, especialmente, debido a la distancia. Ejemplo #9. El libro Applied Statistics: Anlisis of Variance and Regresin de Dunn, et al. (1974) hace un estudio de ANOVA de dos clasificaciones relacionado con el rendimiento de cebada. En este experimento se involucran dos tipos de semillas (1 y 2), cada uno de estos factores usados en tres niveles de fertilizantes, es decir, bajos, medianos y altos. requerida para este problema. La tabla de abajo muestra la informacin
7-33
TABLA 7.21. Produccin de cebada en fanegas por acre. (Dunn et al. 1974) Nivel de fertilizante Tipo de semilla 1 Bajo 14.3 14.5 11.5 13.6
y 11. = 13.475
Mediano 18.1 17.6 17.1 17.6

y 12. = 17.600
Alto 17.6 18.2 18.9 18.2

y 13. = 18.225 y 1.. = 16.433
---------------------------------------------------------------------------------------------------2 12.6 10.5 15.7 11.2 12.8 17.5 11.0 8.3 16.7 12.1 9.1 16.6
y 21. = 11.725 y .1. = 12.600
Con a = 2, b = 3 y n = 4
2
y 22. = 10.175 y .2. = 13.888
y 23. = 16.625 y .3. = 17.425
y 2.. = 12.842 y = 14.638
SSa = bn ( y i.. - y )2 = (3)(4)[16.443 - 14.638)2 + (12.842 - 14.638)2]

i=1
= (12)[3.258 + 3.226] = 77.80

3
SSb = an ( y .j. - Y )2 = (2)(4)[(12.600 - 14.638)2 + (13.89 - 14.638)2

j=1
+ (17.43 - 14.638)2 ] = (8)[4.153 + 0.550 + 7.795) = 99.9

2 3
SSab = n ( Y ij. - Y i.. - Y .j. + Y ...)2

i=1 j=1
= (4) {[(13.475 - 16.433 - 12.600 + 14.638)2 + (17.600 - 16.433 - 13.888 + 14.638)2 + (18.225 - 16.433 - 17.425 + 14.638)2] + [(11.725 -12.842 - 12.60 + 14.638)2 + (10.175 - 12.842 - 13.888 + 14.638)2 + (16.625 - 12.842 - 17.425 + 14.638)2]} = (4)(0.8464 + 3.706 + 0.990 + 0.848 + 3.675 + 0.992) = 44.229
7-34
SSe = i=1 k=1 (yijk - y ij.)2 j=1

= {[(14.3 13.475)2 + (14.5 13.475)2 + (11.5 13.475)2 + (13.6 13.475)2] + [(18.1 17.600)2 + (17.6 17.600)2 + (17.1 17.600)2 + (17.6 17.600)2] + [(17.6 18.225)2 + (18.2 18.225)2 + (18.9 18.225)2 + (18.2 18.225)2] + [(12.6 11.725)2 + (11.2 11.725)2 + (11.0 11.725)2 + (12.1 11.725)2] + [(10.5 10.175)2 + (12.8 10.175)2 + (8.3 - 10.175)2 + (9.1 10.175)2] + [(15.7 16.625)2 + (17.5 16.625)2 + (16.7 16.625)2 + (16.6 16.625)2} = (3.900 + 0 + 0.5 + 0.141 + 11.668 + 1.629) 22.0
SSt = i=1 (yijk y )2 = SSa + SSb + SSab + SSe = 243.93 j=1 k=1 Ahora, se sustituyen todos los clculos hechos manualmente, para obtener la tabla de debajo de dos clasificaciones cruzadas o de doble sentido. TABLA 7.22. Tabla de anlisis de varianza para el experimento agrcola de dos tipos de semillas con tres niveles diferentes de fertilizantes. (Dunn et al. 1974) Fuente de variacin Debido a los niveles (B) del fertilizante Interaccin de semilla y fertilizante (AB) Residual Total SS 99.90 44.23 22.0 243.93 g.l. 1 2 2 18 23 MS 77.8 49.9 22.1 1.2 Fcalc. 64.8 41.6 18.4 Ftab. 4.41 3.55 3.55 Valor de p <<<< .001 <<< .001 << .001
Debido a las semillas (A) 77.80
En conclusin, debido a que la Fcalc. es mucho mayor que la Ftab., es decir, 64.8 >> 4.41 se rechaza la hiptesis de que no hay diferencia entre las semillas, y nos inclinamos por la hiptesis alternativa, es decir, H1:1 2 3 4. Esta
7-35
decisin es apoyada por un valor de p muy sigificativo. Situacin similar ocurre con los niveles de fertilizantes. Sin embargo, en cuanto a la interaccin se ve que los factores semilla y niveles de fertilizante estn interactuando, esto es debido a que 18.4 > 3.55. Por lo tanto, se concluye que hay interaccin entre el tipo de semilla y el nivel de fertilizante. En este caso la interaccin pudo ocurrir por mera casualidad, pero tambin pudo ocurrir por algun valor extremo o por algn problema relacionado con el diseo experimental. Anlisis de varianza de tres sentidos: diseo completamente aleatorio Por otra parte, cuando se habla de anlisis de varianza con clasificaciones cruzadas o diseos factoriales, hay tambin experimentos que involucran ms de dos factores, lo cual nos lleva a anlisis de varianza de clasificaciones en tres sentidos. Aqu, es necesario decir, que en el caso de modelos de ANOVA factoriales en tres clasificaciones pueden ser los tres fijos, los tres aleatorios, uno aleatorizado y dos fijos, o dos aleatorizados y el otro fijo. Sin embargo, aqu se considerarn unicamente experimentos con tres factores fijos A, B y C, en los niveles a, b y c, respectivamente en diseos experimentales completamente aleatorizados. Los nmeros de los niveles de los tres factores estn representados por I, J y K, respectivamente, y Lijk es igual al nmero de observaciones hechas con el factor A al nivel i, factor B al nivel j y factor C al nivel k. Aqu, sin embargo, es necesario afirmar que el anlisis factorial es muy complicado cuando los valores de Lijk no son todos iguales, por lo tanto, en este estudio esto se limitar a Lijk = L. En el experimento de la produccin de cebada, tenamos dos niveles, es decir, el factor semilla y el factor fertilizante, pero si este experimento se hiciera con un anlisis de varianza de tres sentidos, se le pudiera agregar otro factor ms, es decir, dos niveles de agua. Bajo estas condiciones hubiera 12 combinaciones de
7-36
tratamientos, y se asumira que 48 parcelas fueran asignadas aleatoriamente a los 12 combinaciones de tratamientos. Otro experimento relacionado con la ingeniera ambiental atmosfrica sera usando tres factores para medir las concentraciones de gases y partculas contaminantes, como por ejemplo, SO2, NO2, Pb, Cd, etc. Es decir, para ver los efectos que tendran factores como diferentes elevaciones, diferentes distancias y diferentes tipos de sensores, diferentes tipos de terrenos o condiciones metereolgicas. Las clasificaciones cruzadas con tres factores, tradicionalmente, se disearon para experimentos agrcolas, pero tambin tienen muchas aplicaciones en otras reas. La TABLA 7.23 muestra el formato usado para experimentos factoriales de tres factores fijos. TABLA 7.23. Tabla de ANOVA con tres factores fijos. (Elaboracin propia)
Fuente de variacin Efectos principales A B C Interaccin de dos factores AB AC BC Interaccin de tres factores ABC Residual Total SSabc (a-1)(b-1)(c-1) MSabc = SSabc/[(a-1)(b-1)(c-1)] MSabc/s27 F7[1-;(a-1)(b-1)(c-1),abc(n-1)] SSe SSt abc(n-1) abcn-1 s2e = SSe/[abc(n-1)] SSab SSac SSbc (a-1)(b-1) (a-1)(c-1) (b-1)(c-1) MSab = SSab/(a-1)(b-1) MSac = SSac/(a-1)(c-1) MSbc = SSbc/(b-1)(c-1) MSab/s24 MSac/s25 MSbc/s
2 6
SS
g.l.
Cuadrado medio MSa = SSa/(a-1) MSb = SSb/(b-1) MSc = SSc/(c-1)
Fcalc.
Ftab.
SSa SSb SSc
a1 b1 c1
MSa/s21 MSb/s22 MSc/s23
F1[1-;a-1,abc(n-1)] F2[1-;b-1,abc(n-1)] F3[1-;c-1,abc(n-1)]
F4[1-;(a-1)(b-1),abc(n-1)] F5[1-;(a-1)(c-1),abc(n-1)] F6[1-;(b-1)(c-1),abc(n-1)]
_____________________________________________________________________________________
7-37
Donde: SSa = bcn ( y i... y ....)2

i=1 b a
(7-18) (7-19) (7-20) (7-21) (7-22) (7-23)
SSb = acn ( y .j.. y .)2

j=1
c
SSc = abn ( y ..k. y ....)2

k=1 a
SSab = cn ( y ij.. y i - y .j.. + y .)2

i=1 j=1 a c
SSac = bn ( y i.k. y i - y ..k. + y .)2

i=1 k=1 b c
SSbc = an ( y .jk. y .j.. y ..k. + y .)2

j=1 k=1 a b c
SSabc = n ( y ijk. y ij.. y i.k. y .jk. + y i + y .j.. + y ..k. y .)2 (7-24)

i=1 j=1 k=1 b c n a
SSe = (yijkl y ijk.)

i=1 j=1 k=1 l=1 a b c n
(7-25) (7-26)
SSt = (yijkl y ....)

i=1 j=1 k=1 l=1
La simbologa usada en las frmulas anteriores se define de la siguiente manera:

y i = promedio de las observaciones para el i-simo nivel del factor A y .... = promedio de todas las abcn observaciones y .j.. = promedio de las observaciones para el j-simo nivel del tratamiento B y ..k. = promedio de las observaciones para el k-simo nivel del tratamiento C
7-38
y ij.. = promedio de los casos para el i-simo nivel del factor A y el j-simo nivel del
factor B yijkl = denota la l-sima observacin de la combinacin del tratamiento ijk-simo Los investigadores estadsticos Dunn et al. (1974) proporcionan el modelo para el anlisis de varianza en tres sentidos, esto es: yijkl = + i + j + ()ij + ()ik + ()jk + ()ijk + ijkl Donde: = promedio total de los tres tratamientos abc i = efecto promedio del nivel i-simo del factor A j = efecto promedio del nivel j-simo del factor B k = efecto promedio del nivel k-simo del factor C ()ij = interaccin de los factores A y B, es decir, del nivel i-simo del factor A con el nivel j-simo del factor B ()ik = interaccin de los factores A y C, es decir, del nivel i-simo del factor A con el nivel k-simo del factor C ()jk = interaccin de los factores B y C, es decir, del nivel j-simo del factor B con el nivel k-simo del factor C ()ijk = interaccin de los factores A, B y C, es decir, las interacciones entre el nivel i-simo del factor A con el nivel j-simo del factor B y con el nivel k-simo del factor C Interaccin con ANOVA de diseos factoriales de tres clasificaciones En cuanto al impacto de interacciones, cuando se disean anlisis de varianza en tres sentidos, es importante estar consciente de esta situacin, porque la interaccion puede impactar la interpretacin que se hace con respecto a los efectos principales. (7-27)
7-39
Adems, la presencia de interaccin puede descubrir situaciones importantes que pueden ayudar a modificar el diseo experimental original, para hacerlo ms representativo. Las interacciones usualmente ocurren cuando los efectos principales son muy grandes, pero pueden desaparecer cuando el investigaor estadstico aminora las diferencias entre los niveles de un tratamiento, haciendo, con esto, que los efectos principales sean menos pronunciados (Dunn et al. 1976) Con relacin a las mediciones de la contaminacin del aire usando modelos de difusin atmosfrica, es decir, para validar estudios de difusin atmosfrica, o para hacer estudios de impacto ambiental, una aplicacin sera medir las concentraciones que ocurren a lo largo de la pluma. Para un diseo factorial con tres tratamientos, se puede agregar otro factor ms al ejemplo de la difusin atmosfrica con dos tratamientos, explicado anteriormente. En este caso, adems de los factores distancia y altura, le podemos agregar un tercer factor relacionado con diferentes marcas de muestreadores. En cuanto el efecto de interaccin, en estudios de impacto ambiental usando modelos de difusin atmosfrica, la interaccin de los factores, bajo estudio, puede descubrir situaciones que puedan afectar el estudio. Aunque si bien, los modelos de difusin atmosfrica asumen condiciones climatolgicas uniformes, no obstante, emisiones fugitivas o las diferencias en los tipos de terrenos como arena, arcilla, piedras, agua, tipo de vegetacin, etc., por donde pasa la pluma de la chimenea pueden ocasionar que los factores bajo estudio, interacten. Situaciones similares pueden ocurrir con diseos factoriales aplicados a la agricultura cuando se aplican dos factores como tipos de semilla y niveles de fertilizantes. Aqu se le puede agregar otro factor ms, digamos, el nivel de agua para hacer un diseo factorial, es decir, con tres factores. Sin embargo, si hay
7-40
interaccin, tal vez los tipos de suelos de las parcelas no tienen las mismas caractersticas, es decir, de humedad, de tipos de suelos, tipos de temperaturas, tipos de nutrientes, etc., en cuyo caso hay que remitirnos a los diseos de bloques completamente aleatorizados. Ejemplo #10. En un estudio hipottico de difusin atmosfrica, es decir, usando un modelo de difusin atmosfrica, se hicieron mediciones en cuatro distancias diferentes a lo largo de la pluma (500, 1000, 1200 y 1500 metros), en dos alturas diferentes, (500 y 800 metros), con cuatro marcas diferentes de sensores, y con tamaos de muestras de 3 observaciones para cada una de las combinaciones de niveles de los tres factores. Para esto se da una avanzada de los valores en la siguiente forma: Suma de los cuadrados del factor A = SSa = 1.50, suma de los cuadrados del factor B = SSb = 19.35, suma de los cuadrados del factor C = SSc = 147.00, suma de los cuadrados de la interaccin de factores A y B = SSab = 0.006, suma de los cuadrados de la interaccin de factores A y C = SSac = 4.83, suma de los cuadrados de la interaccion de B y C = SSbc = 2.64, suma de los cuadrados de la interaccin de los factores A, B y C = SSabc = 0.75, suma total de los cuadrados = SSt = 183.70. Asumir un nivel de significancia de 0.05. Probar las hiptesis de los efectos principales, slo si todas las interacciones no son significativas. Hacer lo siguiente: (a) Asignar los simbolismos apropiados para cada uno de los componentes de la fuente de variacin (b) Hacer una tabla de anlisis de varianza que incluya la F crtica y los valores de p (c) Hacer pruebas de significancia sobre los efectos principales (d) Hacer una prueba de significancia sobre todas las interacciones.
7-41
Solucin: (a) La distancia de los muestreadores situados a lo largo de la pluma, es decir, viento abajo, es el factor A con i = 4. Las alturas a las que estn situado los muestreadores es el factor B con j = 2. Finalmente, los muestreadores son el factor C con k = 4. El nmero de casos es n = 3. Por lo tanto el nmero de combinaciones es 4x2x4 = 32 y el nmero total de observaciones es 32x3 = 96. (b) La tabla de anlisis de varianza se da abajo. TABLA 7.24. Tabla mostrando los datos y el llenado de los faltantes en la tabla, de acuerdo a los datos proporcionados por el problema. (Elaboracin propia). Fuente de SS g.l. Cuadrado del Fcalc. Ftab. Valor p Variacin promedio __________________________________________________________________ Efectos principales Debido a A Debido a B Debido a C Debido a AB Debido a AC Debido a BC Debido a ABC Error Total 1.50 19.40 147.00 0.006 4.83 2.64 0.75 7.59 183.72 3 1 3 3 9 3 9 64 95 .50 19.40 49.00 0.002 0.54 0.88 0.08 0.12 4.17 161.17 408.33 0.02 4.50 2.76 3.94 2.76 2.76 1.97 .009 p <<< .001 p <<< .001 p > .100 p < .001 p < .001 p > .100*
Interaccin de dos factores
7.33 2.76 0.67 1.97
Interaccin de tres factores
__________________________________________________________________
7-42
(c) Conclusin: los efectos principales son significantes sustentados con valores de p muy pequeos de .009 y p <<< .001. Al juzgar por estos valores de p, existen efectos principales muy fuertes de distancia, altura y sensores. Por otro lado, debido a que F7 = MSabc/s27 = 0.67 < F7[0.05;9,64] = 1.97, las interacciones entre los factores distancia, altura y sensores no son de importancia. Sin embargo, las interacciones AC y BC son variables importantes del experimento. En el tpico de anlisis de varianza, tambin hay lo que se llama diseos factoriales con todos los factores a dos niveles. Aqu se incluyen tpicos como combinaciones ortogonales lineales, diseos de replicaciones fraccionales, diseos anidados o jerrquicos, cuadrados latinos, etc. Estas funciones, sin embargo, no se discutiran aqu. El anlisis de varianza, tambin se puede aplicar a problemas de regresin lineal y mltiple para evaluar la significancia total de la ecuacin de regresin, es decir, probando la hiptesis nula de que todos los coeficientes poblacionales del modelo de regresin son iguales a cero. Este tema, sin embargo, se discute en el captulo dedicado a regresin mltiple. Ejemplo #11. Este es un problema relacionado con un experimento factorial con dos factores de efectos fijos (A y B) y con tamaos de muestras iguales. Por ejemplo, el factor A tiene a niveles, mientras que el factor B tiene b niveles. Este experimento est relacionado con un estudio de difusin atmosfrica para medir las concentraciones del contaminante del aire SO2 provenientes de una fuente emisora industrial. Para tales fines se situaron dos sensores, al azar a cuatro diferentes distancias viento abajo de la chimenea industrial, es decir, a 500, 1000, 1500 y 2000 metros y a dos alturas diferentes, es decir, a 100 y 200 metros. Usar un
7-43
paquete de computadora, para tales fines. La tabla de abajo proporciona los datos pertinentes. Usar un nivel de significancia de = 0.05 y hacer lo siguiente: (a) Construir una tabla de anlisis de varianza fijo en dos clasificaciones (b) Analizar los efectos principales de la distancia y la altura (c) Analizar el efecto de interaccin y dar explicaciones al respecto (d) Hacer un anlisis residual para evaluar lo apropiado del modelo de ANOVA (e) Hacer estudios objetivistas de estadstica para evaluar la fidelidad del modelo de ANOVA TABLA 7.26. Tabla mostrando las concentraciones de SO2 (en ppm) en funcin de cuatro distancias viento abajo de la chimenea y de las alturas de los sensores. (Elaboracin propia)
Distancias viento abajo de la fuente emisora __________________________________________________ Alturas de los sensores 100 m 500 m 500 510 495 499 200 m 450 449 438 455 1000 m 300 305 320 299 290 270 260 275 1500 m 180 185 179 190 170 160 155 165 2000 m 90 91 89 88 70 70 69 68 _______________________________________________________________________
____________________________________________________________________________
7-44
Solucin: Usando el programa Minitab se procede a disear la matriz o la entrada de los datos mostrada en la tabla de abajo. TABLA 7.26. Tabla mostrando la matriz o disposicin ordenada de los datos en la pgina del Minitab para la informacin de este problema. _____________________________________________________________
Concentracin de SO2 (ppm) (Columna C1)
500 510 495 499 300 305 320 299 180 185 179 190 90 91 89 88 450 449 438 455 290 270 260 275 170 160 155 165 70 70 69 68
Distancias (m) (Columna C2)

500 m 500 m 500 m 500 m 1000 m 1000 m 1000 m 1000 m 1500 m 1500 m 1500 m 1500 m 2000 m 2000 m 2000 m 2000 m 500 m 500 m 500 m 500 m 1000 m 1000 m 1000 m 1000 m 1500 m 1500 m 1500 m 1500 m 2000 m 2000 m 2000 m 2000 m
Alturas (m) (Columna C3)

100 m 100 m 100 m 100 m 100 m 100 m 100 m 100 m 100 m 100 m 100 m 100 m 100 m 100 m 100 m 100 m 200 m 200 m 200 m 200 m 200 m 200 m 200 m 200 m 200 m 200 m 200 m 200 m 200 m 200 m 200 m 200 m
_____________________________________________________________
7-45
Despus de ingresar los datos de arriba a la pgina del Minitab procede como: Stat ANOVA Two-Way En la ventana que aparece de Two-Way Anlisis of Variance y dentro de la ventanilla de Response poner, en la columna C1, todos los valores de la variable de respuesta, es decir, en este caso, las concentraciones de SO2. Enseguida, en la ventanilla de Row factor del factor A (renglones), poner los valores de las distancias y meter en la ventanilla de Column factor la informacin del factor B (columnas), es decir, las alturas. Esta informacin se da en la Tabla 7.26. Una vez que se introducen todos los trminos siguiendo las instrucciones anteriores, irse a: Stat ANOVA Two-Way, y el programa generar la tabla de debajo de ANOVA correspondiente a la pregunta del inciso (a). TABLA 7.27. Tabla mostrando los resultados de ANOVA dados por el Minitab. (Elaboracin propia) Two-way ANOVA: Conc. SO2 (ppm) versus Distancias (m), Alturas (m) Source Distancias (m) Alturas (m) Interaccin Error Total DF 3 1 3 24 31 SS 695696 8001 1399 1237 706333 MS 231899 8001 466 52 F 4501.07 155.30 9.05 P 0.000 0.000 0.000 Ftab. 3.01 4.26 3.01
__________________________________________________________________ s = 7.178 R-Sq = 99.82% R-Sq(adj) = 99.77% (b) De acuerdo a la tabla de ANOVA de arriba, los efectos principales del factor A (distancias) y el factor B (alturas) son mucho muy significantes.
7-46
(c) Existe una interaccin significante entre los factores A (distancia) y B (alturas). La interaccin en este caso, pudo ocurrir por mera casualidad o tal vez pudo deberse a algn problema en los datos, es decir, en trminos de causa y efecto. Fsicamente hablando, algn factor que no se pudo controlar pudo ocasionar la interaccin entre los dos factores. Por ejemplo, pudo ocurrir algn mal funcionamiento de los sensores, que no midieron bien las concentraciones de SO2 en un momento dado. Otras razones pudieron relacionarse con algn cambio meteorolgico inusitado (aunque el modelo de difusin asume condiciones meteorolgicas constantes), emisiones fugitivas, terreno no uniforme por donde pasa la pluma, etc. Estadsticamente hablando, las interacciones tambin pueden ocurrir cuando los efectos principales son muy grandes (como el factor A en este caso, aunque si bien, esto se puede corregir aminorando las diferencias entre los niveles de un tratamiento, para hacer los efectos principales menos acentuados). (d) Las grficas de abajo muestran los resultados para este inciso.
Residuals Versus the Order of the Data
(response is Concentracion de SO2 (m)) 20 15 10 Residual
Residual 20 15 10 5 0 -5 -10 -15
Residuals Versus the Fitted Values

(response is Concentracion de SO2 (m))
5 0 -5 -10 -15 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 O bservation O rder
100
200
300 F itted Value
400
500
Figura 7.10. Graficas mostrando los valores residuales en funcin del nmero de observacin y de los valores ajustados.
7-47
Norm Probability Plot of the Residuals al

(response is Concentracion de SO2 (m))
99
Individual Value Plot of Conc. SO2 (ppm) vs Distancias (m), Alturas (m)
500
95 90 80
400 Conc. SO2 (ppm)
Percent
70 60 50 40 30 20 10 5
300
200
100
-15
-10
-5
0 5 Residual
10
15
20
Alturas (m) Distancias (m)
100 m 200 m 1000 m
100 m 200 m 1500 m
100 m 200 m 2000 m
100 m 200 m 500 m
Figura 7.11. Figuras mostrando la prueba de normalidad y la grfica de las concentraciones versus alturas y distancias (e) Los anlisis objetivistas estadsticos indican un coeficiente de determinacin muy alto, es decir, R2 = 99.82% con s = 7.18, lo que sugiere un buen ajuste de los datos. Adems, La Figura 7.10 muestra, aproximadamente, el mismo nmero de casos positivos y negativos, lo cual indica que el modelo es apropiado. Similarmente, la Figura 7.11 muestra un buen ajuste de los datos con la prueba de normalidad. Finalmente, la Figura 7.11 con la grfica de las concentraciones versus las distancias y las alturas muestra las interacciones que ocurren cuando Fcalc. > Ftab. Ejemplo #12. Este es un ejercicio relacionado con un experimento de anlisis de varianza de tres sentidos. Este ejemplo est encaminado a ilustrar, cmo se estructura una matriz con los datos, que se introducen en el programa Minitab, para construir una tabla de ANOVA de tres clasificaciones o tres sentidos y sus grficas correspondientes. Asumir un nivel de significancia de + 0.05. Sacar conclusiones. Los datos se dan en la tabla de abajo.
7-48
TABLA 7.29. Tabla mostrando la informacin para este ejercicio. _____________________________________________________________ Factor B1 Factor B2 _________________________________________________ Factor C1 Factor C2 Factor C1 Factor C2 _________________________________________________ Factor A1 20.0 20.0 17.0 19.0 20.0 20.0 19.0 20.0 11.0 12.0 10.0 12.0 16.0 19.0 17.0 18.0 13.0 12.0 12.0 13.0 14.0 17.0 12.0 13.0 13.0 12.0 13.0 13.0 11.0 10.0 8.0 8.0
Factor A2
Factor A3
17.0 22.0 20.0 14.0 18.0 22.0 22.0 15.0 18.0 22.0 21.0 14.0 18.0 21.0 21.0 16.0 _____________________________________________________________ Solucin: Aqu, el factor A tiene tres niveles (i = 1,, a = 3); el factor B tiene dos niveles (j = 1,, b = 2) y el factor C tiene dos niveles (k = 1,, c = 2) o sea 3x2x2 = 12 combinaciones de tratamientos. Adems hay l = 1,, n = 4 observaciones en cada uno de las abc combinaciones de tratamientos (celdas) o sea abcn = 3x2x2x4 = 48 observaciones.
7-49
Procedimiento para construir una tabla de ANOVA de tres factores o en tres sentidos usando el programa Minitab 1. Primeramente, se definen claramente los tratamientos (en columnas y renglones), es decir el factor A, y los factores B y C con sus correspondientes niveles de cada uno de estos factores, como se describi arriba. Adems, hay que determinar n o sea el nmero de datos en cada celda. 2. Una vez hecho lo anterior, hay que generar la matriz de datos que se introducir en la hoja del Minitab. Para hacer esto, irse a: Calc Make Patterned Data Simple Set of Numbers Haciendo esto aparece una ventana que se llena as: En la ventanilla de Store Patterned Data in poner A (o sea el factor A) En la ventanilla From First Value poner 1 (el punto de partida de la secuencia) En la ventanilla To Last Value poner 3 (a = 3 niveles del factor A) En la ventanilla In Steps of poner 1 En la ventanilla List Each Value poner 1 En la ventanilla de List the Whole Sequence poner 16 (o sea el producto de bcn = 2x2x4 = 16) Enseguida, poner OK y presionar la tecla f3 para borrar todo lo anterior y proseguir con el siguiente paso. 2. Ahora, irse a: Calc Make Patterned Data Simple Set of Numbers. Haciendo esto aparece una ventana y se llena as: En la ventanilla de Store Patterned Data In poner B (el factor B) En la ventanilla de From First Value poner 1 (punto de partida) En la ventanilla To Last Value poner 2 (b = 2 niveles de B)
7-50
En la ventanilla In Steps of poner 1 En la ventanilla List Each Value poner 3 (a = 3) En la ventanilla de List the Whole Sequence poner 8 (o sea el producto de cn = 2x4 = 8) Poner OK y luego presionar la tecla f3 para borrar todo lo anterior y proseguir con el siguiente paso. 3. Ahora, irse a: Calc Make Patterned Data Simple Set of Numbers Haciendo esto aparece una ventana y se llena as: En la ventanilla de Store Patterned Data In poner: C (el factor C) En la ventanilla de From First Value poner: 1 (punto de partida) En la ventanilla To Last Value poner: 2 (c = 2 niveles de C) En la ventanilla In Steps of poner: 1 En la ventanilla List Each Value poner: 6 (el producto de ab = 3x2 = 6) En la ventanilla de List the Whole Sequence poner 4 (n = 4) Poner OK y presionar la tecla f3 para borrar todo lo anterior y proseguir con el siguiente paso. 4. Despus de todo lo anterior, una vez que ya estn llenas las columnas C1, C2 y C3 (Factores A, B y C, respectivamente), se trata de meter los datos de la variable de respuesta, Y (Columna C4). Esto se puede hacer manualmente poniendo cada valor de Y, (usando los datos de la TABLA 7.29) en su correspondiente posicin de A, B y C, como se muestra en la tabla de abajo.
7-51
La TABLA 7.30. Tabla mostrando los datos.

____________________________ A B C Y ____________________________ 1 1 1 20.0 2 1 1 20.0 3 1 1 17.0 1 2 1 13.0 2 2 1 14.0 3 2 1 20.0 1 1 2 11.0 2 1 2 16.0 3 1 2 22.0 1 2 2 13.0 2 2 2 11.0 3 2 2 14.0 1 1 1 20.0 2 1 1 20.0 3 1 1 18.0 1 2 1 12.0 2 2 1 17.0 3 2 1 22.0 1 1 2 12.0 2 1 2 19.0 3 1 2 22.0 1 2 2 12.0 2 2 2 10.0 3 2 2 15.0 1 1 1 17.0 2 1 1 19.0 3 1 1 18.0 1 2 1 12.0 2 2 1 12.0 3 2 1 21.0 1 1 2 10.0 2 1 2 17.0 3 1 2 22.0 1 2 2 13.0 2 2 2 8.0 3 2 2 14.0 1 1 1 19.0 2 1 1 20.0 3 1 1 18.0 1 2 1 13.0 2 2 1 13.0 3 2 1 21.0 1 1 2 12.0 2 1 2 18.0 3 1 2 21.0 1 2 2 13.0 2 2 2 8.0 3 2 2 16.0 _____________________________
5. Una vez introducidos los datos de Y mostrados en la TABLA 7.18, irse a:
7-52
Stat ANOVA General Linear Model Esta orden genera la ventana General Linear Model. En la ventanilla de Responses poner: Y En la ventanilla de Model poner: ABC A*B A*C B*C A*B*C En la ventana de General Linear Model Comparisons puntear: Pairwise Comparisons o Tukey, etc. En la ventana de General Linear Model Results puntear: In addition Coefficients for all Terms, etc. En la ventana de General Linear Model-Factor entrar en la ventanilla de Main Plot Effects y poner: A B C En la ventanilla de Interaction Plots poner: A B C, etc. Todos estos movimientos generaran la Tabla 7.31 de ANOVA y las grficas. TABLA 7.31. Tabla mostrando los resultados de ANOVA de tres sentidos.
General Linear Model: Y versus A, B, C Factor Type Levels Values A fixed 3 1, 2, 3 B fixed 2 1, 2 C fixed 2 1, 2 Analysis of Variance for Y (Respuesta), using Adjusted SS for Tests. Source DF Seq SS Adj SS Adj MS F P Fcrtica _____________________________________________________________________________ A 2 210.875 210.875 105.438 87.76 0.000 3.23 B 1 172.521 172.521 172.521 143.60 0.000 4.08 C 1 93.521 93.521 93.521 77.84 0.000 4.08 A*B 2 62.542 62.542 31.271 26.03 0.000 3.23 A*C 2 16.792 16.792 8.396 6.99 0.003 3.23 B*C 1 7.521 7.521 7.521 6.26 0.017 4.08 A*B*C 2 167.792 167.792 83.896 69.83 0.000 3.23 Error 36 43.250 43.250 1.201 Total 47 774.813 _____________________________________________________________________________
7-53
s = 1.09608 R-Sq = 94.42% R-Sq(adj) = 92.71%

Term Constant A 1 2 B 1 C 1 A*B 11 21 A*C 11 21 B*C 11 A*B*C 111 211 Coef 15.9375 -2.0625 -0.8125 1.8958 1.3958 -0.6458 1.6042 0.4792 0.3542 -0.3958 2.3958 -0.2292 SE Coef 0.1582 0.2237 0.2237 0.1582 0.1582 0.2237 0.2237 0.2237 0.2237 0.1582 0.2237 0.2237 T 100.74 -9.22 -3.63 11.98 8.82 -2.89 7.17 2.14 1.58 -2.50 10.71 -1.02 P 0.000 0.000 0.001 0.000 0.000 0.007 0.000 0.039 0.122 0.017 0.000 0.313
Graficas de los efectos principales A, B y C

19.5 18.0 A B
Mean of Y (respuesta)
16.5 15.0 1 19.5 18.0 16.5 15.0 1 2 2 C 3 1 2
Figura 7.12. Grfica mostrando los efectos principales de A, B y C.
7-54
Grafica de las interacciones de los factores A,B,C

1 20 2
16
A 1 2 3
12 20
16
B 1 2
12 20
16
C 1 2
C
12 1 2 3 1 2
Figura 7.13. Grficas mostrando los efectos de interaccin entre los factores A, B y C. Se le pide al lector interpretar estas interacciones.
7-55
Residual Plots for Y

Normal Probability Plot of the Residuals
90 Percent 50 10 1 -3.0 -1.5 0.0 1.5 Standardized Residual 3.0 Standardized Residual 99
2 0 -2 10 15 Fitted Value 20
Histogram of the Residuals

Standardized Residual -2 -1 0 1 2 Standardized Residual 3 16 Frequency 12 8 4 0 2
-2 1 5 10 15 20 25 30 35 Observation Order 40 45
Figura 7.14. Grficas mostrando la prueba de normalidad, los residuales estandaraizados, en funcin de los valores ajustados, histograma de los residuales y los residuales en funcion de los rdenes observados. Aqu es de notarse que, de acuerdo a estos grficos subjetivos, el modelo ajusta bien los datos.
7-56
7.1. Los siguientes datos se obtuvieron de un muestreo atmosfrico de xidos de azufre (SO2) proveniente de 4 lugares diferentes. Hacer un anlisis de varianza con un nivel de significancia de = 0.05. Ver si hay diferencias entre los 4 sitios. Usar la prueba de comparaciones mltiples para ver cuales son iguales y cuales son desiguales si es que as es. Tabla mostrando los datos del SO2. (Elaboracin propia) __________________________________________________________________ Sitio #1 Sitio #2 Sitio #3 Sitio # 4 __________________________________________________________________ 20 25 28 31 17 25 31 15 18 26 34 12 10 14 17 24 Tabla mostrando los resultados usando un paquete de computadora como EXCEL. Llenar los faltantes de la tabla. (Elaboracin propia) __________________________________________________________________ Fuente de SS g. l. Cuadrado del Fcalc. Ftab. Valor de p variacin promedio Debido al 261.69 3 1.93 tratamiento Residual 543.75 45.31 (Error experimental) Total 15 7.2. Un investigador desea estudiar el efecto de cuatro fertilizantes diferentes para ver sus efectos en la produccin de maz. Para esto, se dividi una zona agrcola en 24 parcelas del mismo tamao y forma. Usar un nivel de significancia de 0.05.
7-57
Probar que no hay diferencia entre los cuatro tratamientos. Usar el programa Minitab. Tabla mostrando la produccin de maz bajo cuatro diferentes tratamientos de fertilizantes. (Elaboracin propia) __________________________________________________________________ Tratamientos Rendimientos Sin aplicacin de fertilizante (1) 99 40 61 72 76 84 Con aplicacin de fertilizante (2) 96 84 82 104 99 105 Con aplicacin de fertilizante (3) 63 57 81 59 64 72 Con aplicacin de fertilizante (4) 79 92 91 87 78 71 Las suposiciones son que las 4 poblaciones del rendimiento de maz estn normalmente distribuidas, con las varianzas de las poblaciones iguales y con las observaciones independientes. 7.3. Para comparar la efectividad de 3 muestreadores de gases, es decir, usando mtodos A, B y C se seleccionaron muestras de tamao cuatro y se registraron los siguientes resultados en ppm. Tabla mostrando la informacin requerida. (Elaboracin propia) Mtodo A Mtodo B Mtodo C __________________________________________________________________ 71 90 72 75 80 77 65 86 76 69 84 79 Probar la hiptesis de que no hay diferencias entre los tres promedios poblacionales con = 0.05. Usar los programas de EXCEL, NCSS o SAS y completar los faltantes de la tabla.
7-58
Tabla de anlisis de varianza. (Elaboracin propia) Fuente de g.l. Suma de los Cuadrado del Fcalc. Ftab. Valor p variacin cuadrados (SS) promedio Debido al tratamiento 2 228.0 15.78 (variacin entre los grupos) Residual (error) 130.0 14.4 (variacin dentro de los grupos) Total 11 586.0
Ftab. = 4.3
Fcalc. = 15.78
Grfica mostrando las reas de aceptacin y rechazo para el problema de arriba. (Elaboracin propia) 7.4. Supngase que cuatro laboratorios ambientales estn analizando una muestra de un filtro con partculas de plomo atmosfrico provenientes de un complejo industrial. Para esto, se quiere saber la efectividad entre los mtodos de anlisis usados por estos cuatro laboratorios diferentes. Hacer los siguientes clculos:
7-59
(a) Probar la hiptesis nula Ho:1 = 2 = 3 = 4 es decir que no hay diferencias en los promedios poblacionales de los resultados de los anlisis de los 4 mtodos diferentes usados por los laboratorios. Establecer la hiptesis alternativa de este problema. (b) Calcular el valor de la probabilidad p. La tabla de abajo muestra los valores obtenidos por los 4 laboratorios por los tres mtodos usados por estos cuatro laboratorios. Este es un ejemplo de anlisis de varianza con dos factores. Tabla mostrando las estimaciones de los clculos de los 12 resultados por los 3 mtodos diferentes usados por los cuatro laboratorios distintos. (Elaboracin propia) Mtodo de anlisis Suma de los renglones Laboratorio 1 2 3 4 Suma de las columnas (Tj) 1 16 21 18 13 68 2 19 20 21 20 80 3 24 21 22 25 92 Ti 59 62 61 58 240
Sacar las conclusiones debidas de la hiptesis para los tres mtodos de anlisis y decir si se rechaza o se retiene la hiptesis. 7.5. La tabla de abajo muestra una informacin que se recab de un muestreo de un contaminante atmosfrico (ozono) proveniente de 5 muestreadores localizados en cinco lugares diferentes. Hacer los siguientes clculos.
7-60
(a) Probar la hiptesis nula de que no hay diferencias entre las 5 poblaciones muestreadas, Ho: 1 = 2 = 3 = 4 = 5, con un nivel significante de = 0.05. (b) Hacer una tabla de ANOVA. (c) Calcular el valor de la probabilidad p. Tabla con los datos de ozono con los nmeros de los muestreadores. (Elaboracin propia) 1 551 457 450 731 499 632 2 595 580 508 583 633 517 3 639 615 511 573 648 677 4 417 449 517 438 415 555 5 563 631 522 613 656 679
7.6 Supngase que 15 personas han sido seleccionados aleatoriamente de una poblacin de obesos y han sido separados al azar dentro tres grupos. Cada grupo de obesos fue alimentado con tres tipos de comidas diferentes para perder peso, es decir, alimentos (1), (2) y (3). Despus de algn tiempo, los pesos que perdieron los participantes de los tres grupos se registraron. Los pesos se dan en la tabla de abajo: Tabla mostrando los pesos perdidos (gramos) de los participantes. (Elaboracin propia) Tipos de comidas __________________________________________________________________ Tipo (1) Tipo (2) Tipo (3) 42 112 70 96 96 17 81 88 49 95 135 24 76 119 40
7-61
Estos datos estn en conformidad con un factor de un diseo completamente aleatorio. Un factor es el alimento dado a los obesos. Esto es un diseo completamente aleatorio, porque las unidades experimentales, de los 15 sujetos, han sido asignadas aleatoriamente a los tres tipos de comidas. Probar la hiptesis nula de Ho: 1 = 2 = 3 y la hiptesis alternativa de que, cuando menos uno de los promedios es diferente de los otros. H1:1 2 3. Si la hiptesis nula es cierta, entonces las tres poblaciones de los pesos perdidos por los obesos son iguales. Sugerencia: para estimar el promedio del cuadrado dentro de los tratamientos o del error experimental usar las relaciones: s P = (Xij - X i)2 / k(n - 1)
i=1 j=1 2 k n
Hacer la tabla del anlisis de varianza para los obesos y sacar conclusiones al respecto. Adems, revertir este problema a un diseo de bloques aleatorios y ver si hay alguna mejora en el error experimental. 7.7. Los datos de abajo representan el nmero de horas de alivio paliativo dado por 5 tabletas diferentes A, B, C, D, E, para el dolor de cabeza, que se les administraron a 25 sujetos quienes experimentaban dolores de cabeza (migraas). Hacer un anlisis de varianza para probar la hiptesis al nivel de significancia de 0.05 de que el nmero promedio de horas de alivio paliativo dado por las tabletas es el mismo para las cinco tabletas usadas. Calcular el valor de la probabilidad p. Los datos se dan en la tabla de abajo. Calcular la tabla de anlisis de varianza.
7-62
Tabla mostrando las horas de alivio con las 5 tabletas de aspirinas. (Elaboracin propia) Tipos de tabletas A B C D E 5 9 3 2 7 4 7 5 3 6 8 8 2 4 9 6 6 3 1 4 3 9 7 4 7
7.8. En un estudio de contaminacin de corrientes, con el objeto de revisar que no hubiera descargas industriales, previo a un proyecto de dilucin, se analiz la demanda bioqumica de oxgenos de 5 das (DBO)5 en mg/L y se obtuvieron los siguientes datos (mostrados en la tabla de abajo) del muestreo que se hizo a lo largo de la corriente, es decir, en 4 lugares diferentes. Hacer un anlisis de varianza usando un nivel de significancia de 0.05. Ver si hay diferencias entre las concentraciones de DBO de los cuatro lugares muestreados (De acuerdo a estudios de contaminacin de corrientes, con qu objeto se tendra que hacer esto?) Adems, usar la prueba de comparaciones mltiples para ver cuales sitios de muestreo son iguales y cuales son desiguales, si es que esto es as. Sugerencia: Usar el paquete de EXCEL o el programa MINITAB para resolver este problema.
7-63
Tabla mostrando los resultados del muestreo del DBO en mg/L. (Elaboracin propia). Sitio #1 20 17 18 10 Sitio #2 25 25 26 14 Sitio #3 28 31 34 17 Sitio #4 31 15 12 24
7.9. Se dan los siguientes datos mostrados en la tabla de abajo. Hacer una tabla de ANOVA y sacar todas las conclusiones debidas.(Fcalc. = 4.39, Ftab. = 3.89) Tabla mostrando las temperaturas del cuerpo (oF) clasificadas por edades. (Elaboracin propia) 18 a 20 aos 98.0 98.4 97.7 98.5 97.1 21 a 29 aos 99.6 99.5 99.0 98.8 97.9 Mayores que 30 aos 98.6 98.6 98.0 97.7 97.5 __________________________________________________________________
7.10. Se hace un estudio entre el nivel de acidez en trminos de pH (Factor A) y la concentracin de cloro (factor B) en el agua. Aqu se asume un anlisis de varianza de dos vas con un diseo aleatorio completamente aleatorizado. Los datos se dan
7-64
en la tabla de abajo. Hacer una tabla de anlisis de varianza y sacar las conclusiones debidas. Tabla mostrando los datos de este problema del pH y la concentracin de cloro.
__________________________________________________________________ Nivel del pH _________________________________________ pH = 7.0 Nive de concentracin de cloro ____________________________________________________________________ Baja Mediana Alta 22 9 8 17 11 8 8 7 6 6 4 5 pH = 7.2 pH = 7.4 pH = 7.6
7.11. En un estudio de ingeniera del aire, en un esfuerzo por proteger el medio ambiente (entre menos combustible consuma un auto, menos se deteriora el ambiente), se estudiaron cuatro modelos de autos (A, B, C, D), para probar el consumo de gasolina. Para cada auto, exactamente, un galn de gasolina se puso en el tanque y el auto se manej hasta que se consumi toda la gasolina. Las distancias en millas dadas por cada coche se dan en la tabla de abajo. Con un nivel de significancia de 0.01 probar que todos los promedios poblacionales son iguales. Calcular el valor de la probabilidad p. Si Usted quisiera proteger nuestros recursos naturales o ser activista el medio ambiente Sera, para Usted igual que se seleccionara cualquiera de los 4 modelos? (Fcalc. = 23.5, Fcrtica = 2.87, p = 1.3x10-8)
7-65
Tabla mostrando los datos del problema. (Elaboracin propia)

Modelos A B C D Millas 14 3 17 16 16 5 20 18 18 12 22 20 14 8 24 17 22 7 26 21 9 6 18 16 6 9 22 17 4 11 21 22 7 11 20 19 16 9 18 16
7.12. Se estudia el deterioro causado a 4 tipos de telas (1, 2, 3, 4) usadas en el equipo de control de filtros. Los filtros o baghouses, para el control de partculas se tienen que sacudir peridicamente, cuando hay cada de presin debido a la obstruccin de los orificios de las telas. Si no se hace esto, cuando hay mucha cada de presin, la tela se deteriora prematuramente, esto es, dependiendo del tipo de partculas y dems variables manejadas. Tabla mostrando los datos de este problema. (Elaboracin propia). Tipo de tela (1) (2) (3) (4) Cada de presin (libras por pulgada cuadrada) 3129 3000 2865 2890 3200 3300 2975 3150 2800 2900 2985 3050 2600 2700 2600 2765
Hacer los siguientes clculos: (a) Probar la hiptesis nula de Ho:1 = 2 = 3 = 4, contra la hiptesis alternativa de H1:1 2 3 4, es decir, de que no hay diferencias entre los promedios poblacionales de las 4 telas usadas. Usar un nivel significante de = 0.5
7-66
(b) Hacer una tabla de anlisis de varianza que incluya los valores de la F calculada, la F tabulada y el valor de p. 7.13. El libro de Montgomery et al. Probabilidad y Estadstica Aplicadas a la Ingeniera discute una investigacin para determinar el consumo de gasolina (en millas por litro) de 4 coches. Para esto, se agrupan los 4 tipos de autos tratando de homogenizar o de control las variables que pudieran afectar el consumo de gasolina (bloqueo para eliminar las variables no deseables). Las variables controladas son caballajes del motor, mismo rodaje de llantas, mismo tipo de carburador, mismo tipo de aceite, mismo tipo de mantenimiento, mismo peso, mismas temperaturas ambientales, mismo millaje, edad del motor, tamao del motor, etc. Probar la hiptesis de que no hay diferencias en el millaje de los coches probados usando = 0.01. Calcular el valor de p. (Montgomery, 1996). Tabla de datos de los millajes por litro de los 4 coches probados. Millaje Coche no. 1 (1) (2) (3) 1.3 2.2 1.8 2 1.6 2.4 1.7 3 0.5 0.4 0.6 4 1.2 2.0 1.5 5 1.1 1.8 1.3 Totales por tratamiento Yi. 5.7 8.8 6.9 Promedios por tratamiento Yi. 1.14 1.76 1.38
(4) 3.9 4.4 2.0 4.1 3.4 17.8 3.56 _________________________________________________________________ (Fuente: Montgomery et al. 1996) 7.14. El libro de Montgomery et al. Probabilidad y Estadstica Aplicadas a la Ingeniera (1996) de la pgina 672, cita un artculo publicado en el American
7-67
Industrial higiene Association Journal (vol. 37, 1976, pags. 418-422), la cual describe una prueba de campo para detectar la presencia de arsnico en muestras de orina. La prueba ha sido propuesta para su uso entre trabajadores forestales debido al uso cada vez mayor de arsnicos orgnicos en dicha industria. El experimento compara los resultados obtenidos con la prueba al ser efectuada por un inexperto y un entrenador experimentado con el anlisis efectuado en un laboratorio remoto. Para la prueba se escogen cuatro sujetos, los cuales son considerados como bloques. La variable de respuesta es el contenido de arsnico (en ppm) en la orina del sujeto. Los datos son los siguientes: Tabla mostrando los datos del problema. Sujeto ___________________________________________________ Prueba 1 2 3 4 __________________________________________________________________ Inexperto 0.05 0.05 0.04 0.15 Experto 0.05 0.05 0.04 0.17 Laboratorio 0.04 0.04 0.03 0.10 __________________________________________________________________ Fuente: Montgomery et al. Probabilidad y Estadstica Aplicadas a la Ingeniera (1996) (a) Existe diferencia alguna en el procedimiento de prueba de arsnico? (b) Analizar los residuos de este experimento 7.15. Cuatro niveles de fertilizantes fueron usados en un experimento agrcola con dos niveles de agua, es decir frugal y abundante. Los ocho tratamientos fueron asignados aleatoriamente a ocho parcelas. La respuesta es en toneladas por hectrea. La tabla de abajo da la informacin requerida.
7-68
Tabla mostrando los datos de este problema. Nivel de fertilizante _______________________________________ Nivel de agua Nada Bajo Mediano Alto __________________________________________________________________ Poca agua 3.0 3.3 3.7 3.1 Mucha agua 2.3 4.0 4.3 5.0 __________________________________________________________________ (a) Usar el modelo ms apropiado de ANOVA. (b) Hacer una tabla de anlisis de varianza (c) Decir si hay efectos significativos en los fertilizantes y los niveles de agua (d) Decir si hay una interaccin significante 7.16. Se hace un estudio hipottico de difusin atmosfrica situando los sensores para medir la calidad del aire con respecto a SO2 a tres diferentes distancias y a tres diferentes alturas. Los datos se dan abajo. Asumiendo = 0.05 hacer lo siguiente: (a) Usar el modelo de ANOVA ms apropiado para este problema (b) Analizar la grfica de los datos para estudiar la interaccin posible que pudiera ocurrir entre las distancias y las alturas. Tabla mostrando las concentraciones (ppm) de SO2 para este problema. _________________________________________________________________ Distancias en metros __________________________________________ Alturas 1000 1500 2000 _________________________________________________________________ A nivel del mar 350 250 100 300 metros 280 210 90 500 metros 250 190 70 ________________________________________________________________
7-69
7.17. En un estudio de anlisis de varianza de tres vas se dan los siguientes datos: SSa = 22.63, SSb = .003, SSc = .40, SSab = .40, SSac = .07, SSbc = .0.063, SSe = .001 y SSt = .90. Para el factor A se usaron cuatro niveles, para el factor B se usaron dos niveles y para el factor C se usaron 2 niveles. Asumir dos muestras con cada nivel. Usando = 0.05, hacer lo siguiente: (a) Construir una tabla de ANOVA (b) Identificar las interacciones significativas e interpretarlas acordemente 7.18. Este es un estudio del texto de Applied Statistics: Anlisis of Variance and Regression de Dunn y Clark. Esta investigacin est relacionada con un estudio de la inteligencia de los nios con sntomas cardiacos de tipos acianticos y cianticos. Para esto, los cambios en el coeficiente de inteligencia se midieron, es decir, despus de operarse y antes de operarse. Los resultados se dan como sigue: Tabla mostrando los resultados de los cambios en el coeficiente de inteligencia. _________________________________________________________________ Operacin Acianticos Cianticos _________________________________________________________________ No 9 2 -1 1 -10 -4 3 -5 -2 0 -7 5 -7 10 -12 9 -13 2 -12 15 __________________________________________________________________( a) Usar el modelo de ANOVA ms apropiado para este estudio Si
7-70
(b) Construir una tabla de ANOVA y analizar los resultados (c) Sacar todas las conclusiones al respecto 7.19. En un experimento agrcola se estudi el rendimiento de trigo usando tres niveles diferentes de fertilizantes fosfatados, es decir, bajo, mediano y alto. Como segundo factor se usaron tres variedades diferentes de semillas de trigo (1, 2, 3) haciendo, con esto, un total de 9 combinaciones de tratamientos. De esta manera cada combinacin de tratamiento se asign aleatoriamente a una de las 27 parcelas (de extensiones de dos hectreas), de tal manera que tres parcelas recibieron cada tratamiento. Los rendimientos de trigo, en toneladas mtricas se dan abajo. Tabla mostrando el rendimiento de la cosecha de trigo en toneladas mtricas. ________________________________________________________________ Nivel del fertilizante ___________________________________________ Variedad de la semilla Bajo Mediano Alto ________________________________________________________________ 1 7 10 12 10 10 14 9 12 12 2 8 10 8 12 14 13 17 16 17
9 14 16 10 14 18 12 16 21 __________________________________________________________________ Aplicar la funcin de ANOVA ms apropiada para este experimento y sacar las conclusiones debidas.
7-71
7.20. Este estudio est encaminado para que el lector adquiera destreza en el cumplimiento del llenado de tablas de anlisis de varianza. Para esto completar la siguiente tabla de ANOVA y decir que diseo se us. Tabla mostrando los datos del problema. __________________________________________________________________ Fuente de SS g.l. MS Fcalc. Ftab. Valor p Variacin __________________________________________________________________ Debido a los 2000 10 tratamientos Debido a las 1200 columnas Debido a los 7400 5 renglones Residual 25 _________________________________________________________________ Total 12000 40 7.21. Completar la siguiente tabla de ANOVA y decir qu diseo se us. _________________________________________________________________ Fuente de SS g.l. MS Fcalc. Ftab. Valor p Variacin _________________________________________________________________ Debido a A 12.0 2 Debido a B 19.5 Interaccin AB 8.5 7 Tratamientos 39.7 12 Residual 11 Total 84.7 35 ____________________________________________________________ 7.22. Se realiza un diseo de dos factores en un diseo completamente aleatorizado, en el cual se aplican cuatro niveles del factor A y tres niveles del factor B. Los datos dados son SSa = 15.00, SSb = 41.00, SSab = 23.05, SSt = 92.8 y
7-72
n = 2. Con esta informacin hacer una tabla de anlisis de varianza y sacar las conclusiones debidas. 7.23. Se hace un estudio hipottico relacionado con la medicin de concentraciones de partculas atmosfricas emitidas por una fuente industrial, esto es, usando un modelo de difusin atmosfrica. Para tales fines se seleccionaron dos tipos diferentes de muestreadores, cuatro diferentes alturas y cuatro diferentes distancias viento abajo de la fuente emisora. Por ejemplo, llamemos las cuatro distancias el factor A (es decir I = 4 distancias de 500, 1000, 1500 y 2000 metros). Las concentraciones se midieron con dos tipos marcas diferentes de sensores, cuyo factor lo llamaremos B (es decir, J = 2). Adems, se seleccionaron cuatro alturas diferentes cuyo factor lo denominaremos C (K = 4 alturas de 100, 200, 300 y 500 metros). Para todo esto, se hicieron L= 3 observaciones para cada una de las 32 combinaciones de niveles de los tres factores (4 x 2 x 4) y para un total de 96 observaciones. La tabla de abajo muestra los resultados de las mediciones. Asumir = 0.05. Para esto, hacer los siguientes clculos: (a) Establecer el modelo apropiado con las suposiciones (b) Hacer pruebas de significancia sobre los factores principales, v.g., distancia, marcas de sensores y posicin de los sensores (c) Hacer pruebas de significancia sobre todas las interacciones
7-73
Tabla mostrando las concentraciones de partculas atmosfricas (en ppm) emitidas por la chimenea industrial, en funcin de la distancia, altura y marcas de sensores. (Elaboracin propia) _________________________________________________________________
Muestreador marca B1 Alturas Distancias 500 m 100 m 200 m 300 m 500 m __________________________ 450 459 460 1000 m 350 346 339 1500 m 300 289 299 2000 m 160 160 148 300 307 310 280 256 256 270 263 260 167 145 139 295 290 285 278 270 268 262 256 265 150 140 152 290 279 260 200 186 159 198 160 179 141 134 124 Muestreador marca B2 100 m 200 m 300m 500 m __________________________ 465 470 470 345 334 300 310 300 305 155 150 147 301 310 300 275 265 259 250 243 260 145 137 152 297 291 285 255 250 257 230 225 245 138 134 130 288 280 270 250 210 210 200 195 180 139 129 125
__________________________________________________________________________________
7.24. El texto Applied Linear Statistical Models de los autores Kutner, Nachtsheim, Meter y Li explica un problema relacionado con un fabricante de automviles, quien desea estudiar los efectos entre diferentes conductores de autos (factor A, i =
7-74
4) y las diferencias entre autos (factor B, j = 5) relacionado con el consumo de gasolina. Para esto, se seleccionaron cuatro conductores aleatoriamente. De la misma manera se seleccionaron aleatoriamente cinco autos del mismo modelo con transmisin manual. Cada conductor manej cada auto dos veces en una prueba de 40 millas y las millas por galn dadas se registraron. Asumiendo un modelo de ANOVA aleatorio y tamaos de muestras iguales, procesar los datos de la tabla de abajo. Tabla mostrando la descripcin de los dos factores usados en el estudio. _________________________________________________________________ Factor B (autos) ______________________________________________ Factor A (choferes) j=1 j=2 j=3 j=4 j=5 ________________________________________________________________ i=1 25.3 28.9 24.8 28.4 27.1 25.2 30.0 25.1 27.9 26.6 i=2 i=3 i=4 33.6 32.9 27.7 28.5 36.7 36.5 30.7 30.4 31.7 31.9 26.9 26.3 35.6 35.0 29.7 30.2 33.7 33.9 29.2 28.9
29.2 32.4 27.7 31.8 30.3 29.3 32.4 28.9 30.7 29.9 _________________________________________________________________ Fuente: Kutner et al. 2002 (a) Construir una tabla de ANOVA (b) Revisar los efectos de los factores A y B. (c) Analizar la interaccin de los factores A y B
7-75
7.25. Este es un problema adaptado del libro Probabilidad y Estadstica para Ingenieros de los autores Walpole et al. (1998) el cual da un ejemplo que incluye tres factores denominados factor A, factor B y factor C, con todos los efectos fijos. Asumir = 0.05. La tabla de abajo muestra la informacin requerida para este problema. Tabla mostrando los datos pertinentes para este problema. ________________________________________________________________ C1 C2 C3 B1 B2 B3 B1 B2 B3 B1 B2 B3 ________________________________________________________________ A1 15.0 14.8 15.9 16.8 14.2 13.2 15.8 15.5 19.2 18.5 13.6 14.8 15.4 12.9 11.6 14.3 13.7 13.5 22.1 12.2 13.6 14.3 13.0 10.1 13.0 12.6 11.1 A2 11.3 17.2 16.1 18.9 15.4 12.4 12.7 17.3 7.8 14.6 15.5 14.7 17.3 17.0 13.6 14.2 15.8 11.5 18.2 14.2 13.4 16.1 18.6 15.2 15.9 14.6 12.2 __________________________________________________________________ Fuente: Walpole et al. (1998) (a) Generar la matriz de datos, introducirlos al programa Minitab y construir una tabla de anlisis de varianza y hacer pruebas de significancia sobre los efectos principales (Factores A, B y C) (b) Hacer pruebas de significancia sobre todas las interacciones (c) Explicar porque una interaccin significativa encubre el efecto del factor C Respuestas: (a) A: F = 0.54; no significativa. B: F = 6.85; significativa. C: F = 2.15; no significativa.
______________
7-76
(b) AB: F = 3.83; significativa. AC: F = 3.79; significativa. BC: F 1.31; no significativa. ABC: F = 1.63; no significante. 7.26. En los accidentes industriales, cada ao se pierden muchos miles de millones de dlares debido a accidentes de trabajo. Por lo tanto, la industria invierte mucho dinero en programas relacionados con higiene industrial y seguridad. Una compaa desarroll dos nuevos programas de higiene industrial y seguridad, para entrenar a sus trabajadores en sistemas de seguridad. Para determinar la eficiencia de estos programas, se ensamblaron tres grupos de obreros. Cada grupo de obreros tom un programa de entrenamiento diferente. Despus, los trabajadores fueron asignados a tareas idnticas. El nmero horas-hombre mensuales perdidas, como resultado de accidentes laborales, se registr para los siguientes 12 meses. Esta data se muestra en la tabla de abajo. Tabla mostrando las Horas-hombre perdidas mensualmente. (Elaboracin propia) Programas de entrenamiento de higiene industrial y seguridad _________________________________________________ Meses 1 2 3 Enero 28 28 30 Febrero 35 26 28 Marzo 32 27 26 Abril 12 10 6 Mayo 16 10 12 Junio 9 12 10 Julio 15 9 11 Agosto 18 15 16 Septiembre 22 13 11 Octubre 27 20 18 Noviembre 27 17 19 Diciembre 31 23 21 Sacar conclusiones acerca de la efectividad de estos tres programas
7-77
7.27. Este es un problema que involucra un experimento de ANOVA de dos sentidos, en el cual se usaron seis niveles para el factor A y cinco niveles para el factor B. Para esto se da una avanzada de los datos: SSa = 79, SSb = 66 y SSt = 184. Construir una tabla de ANOVA y sacar todas las conclusiones pertinentes. 7.28. Se da la tabla de ANOVA de abajo llenar todos los faltantes y decir si hay interacciones y, si stas son importantes. A qu niveles estn cada uno de los factores? Tabla de anlisis de varianza incompleta. Llenar los faltantes. (Elaboracin propia) _________________________________________________________________
Fuente de Suma de los Grados de Promedio de los Fcalc. Ftab. Valor de p variacin cuadrados libertad cuadrados ____________________________________________________________________________ Factor A 46.0 1 Factor B 11.0 5.5 Factor C 3.0 AB 8.0 1 AC 0.1 1 BC 1.6 1 ABC 5.0 0.83 Residual 6 Total 94.0 15 _____________________________________________________________________________
7.29. Este es un problema adaptado del texto Statistics for Environmental Engineers de Berthoux y Brown (1994). Este ejercicio es un anlisis de varianza de 4 clasificaciones, y est relacionado con la operacin de un incinerador municipal, en el cual se utilizaron dos tipos diferentes de muestreadores que tomaron muestras simultneas durante cuatro periodos de 3.5 horas sobre un periodo de tres das. Cada muestreador fue analizado para cinco grupos de sustancias txicas peligrosas, es decir, pesticidas (hidrocarburos hetercclicos los cuales ocurren como impurezas txicas persistentes en herbicidas) y de lquidos inflamables (C4H4O) usados en
7-78
sntesis orgnicas. Las especies de cada grupo fueron clorinadas a grados diferentes, es decir, con 4, 5, 6, 7 y 8 tomos de cloro por molcula. Asumir = 0.05. En este anlisis de varianza se usaron cuatro factores, como sigue: 1. Dos tipos de muestreadores (S) 2. Cuatro periodos de muestreo (P) 3. Dos grupos de sustancias txicas (DF), como las descritas arriba 4. Cinco niveles de clorinacin dentro de cada uno de los dos grupos (Cl). Esto da un total de n = 2x4x2x5 = 80 mediciones. La tabla de abajo muestra la informacin requerida. Tabla mostrando las emisiones de las 10 sustancias txicas, enumeradas abajo, en unidades de ng/m3 de gas seco normal en porcentajes reales de CO2. __________________________________________________________________
1 2 3 4 ___________ ____________ ___________ ____________ Muestreador A B A B A B A B _____________________________________________________________________________ Pesticidas Sum TCDD 0.4 1.9 0.5 1.7 0.3 0.7 1.0 2.0 Sum PeCDD 1.8 28 3.0 7.3 2.7 5.5 7.0 11 Sum HxCDD 2.5 24 2.6 7.3 3.8 5.1 4.7 6.0 Sum HpCDD 17 155 16 62 29 45 30 40 OCDD 7.4 55 7.3 28 14 21 12 17 Lquidos Inflamables Sum TCDF 4.9 26 7.8 18 5.8 9 13 13 Sum PeCDF 4.2 31 11 22 7.0 12 17 24 Sum HxCDF 3.5 31 11 28 8.0 14 18 19 Sum HpCDF 9.1 103 32 80 32 41 47 62 OCDF 3.8 19 6.4 18 6.6 7.0 6.7 6.7 ______________________________________________________________________________ Periodos de muestreo
Fuente: Berthouex, P. Mac y L. C. Brown. Statistics for Environmental Engineers Lewis Publishers. CRC Press, Inc. (1994).
7-79
(a) Generar una matriz con los datos de la tabla de arriba e introducirlos en el programa Minitab. (b) Hacer una tabla de anlisis de varianza (c) Hacer pruebas de significancia sobre los cuatro factores principales, v.g., periodos de tiempo, muestreadores, grupos de sustancias txicas y niveles de clorinacion (d) Hacer pruebas de significancia sobre todas las interacciones (e) Sacar todas las conclusiones pertinentes 7.30 Se hace un estudio del control de la contaminacin del aire, es decir, usando sistemas de control de partculas para hornos de cemento. Para esto se usan diferentes tipos de precipitadores electrostticos (factor A), es decir, precipitadores de placa de alambre, precipitadores de placa plana y precipitadores tubulares. Adems se usaron enfriadores de aspersin y colectores mecnicos (factor B). La finalidad de este experimento factorial fue para ver la eficiencia de coleccin de las partculas usando los anteriores factores. Construir una tabla de anlisis de varianza tomando en consideracin la siguiente informacin: Cuadrado medio del primer factor fue igual a 2.30; el cuadrado medio del segundo factor medio fue igual a 5.00; cuadrado medio de la interaccin fue de 0.12; cuadrado medio del error fue de 0.075. Asumir = 0.05. Completar la tabla de ANOVA de abajo calculando los siguientes valores. (a) Los valores de Fcalc. para los efectos principales y para el efecto de interaccin (b) Los valores de Ftab. para los dos factores principales y para la interaccin (c) Los valores de p para cada uno de los factores principales y para la interaccin (d) Decir si los efectos principales afectan la eficiencia de los factores A y B
7-80
(e) Decir si hay interaccin entre los factores bajo consideracin y, si la hay, explicar porque ocurri as. Tabla de anlisis de varianza para el experimento de los precipitadores electrostticos.
Fuente de variacin Primer factor Segundo factor Interaccin Error Total 12 g. l. Suma de cuadrados Cuadrado medio 2.30 5.00 0.12 0.075 Fcalc. Ftab. Valor de p
7-81
CAPITULO 8 Regresin lineal simple y mltiple

Suposiciones del modelo de regresin lineal.- Ecuaciones normales para calcular el intercepto en la ordenada a y la pendiente b de la curva o lnea de regresin.- Coeficiente de determinacin mltiple R2 de la muestra que estima a 2 el coeficiente de determinacin poblacional.- Coeficiente de correlacin R de la muestra que estima a , el coeficiente de correlacin poblacional.Intervalo de confianza para el coeficiente poblacional componente de la lnea de regresin Y|X = + X, estimado por b, la pendiente de la lnea.Intervalo de confianza para el parmetro poblacional , el intercepto de la ordenada de la lnea de regresin Y|X = + X, cuyo estimador es a.- Hiptesis nula de Ho: = o contra las hiptesis alternativas de H1: < 1 y H2: > 1.Hiptesis nula de Ho: = o contra las hiptesis alternativas de H1: o, H2: > o, y de H3: < o.- Intervalo de confianza para Y|X de la lnea de regresin poblacional estimada por Y.- Regresin y correlacin mltiple.- Mtodos para validar el modelo de regresin lineal simple y mltiple: a travs de estadstica de inferencias y a travs del anlisis grfico de los residuales estandarizados. Procedimiento de regresin mltiple usando el programa Minitab.El objetivo de estudiar regresin lineal simple es para obtener el modelo de regresin ms apropiado, es decir, una ecuacin de regresin lineal simple o mltiple para fines de prediccin y estimacin. Los componentes de esta ecuacin de regresin lineal, con solo una variable independiente, tambin llamado modelo lineal de primer orden, son la variable dependiente Y o funcin de respuesta y, la variable independiente X. El modelo de esta ecuacin, que describe la relacin de la variable X con la variable Y, se llama la ecuacin de regresin de Y sobre X y, la grfica de esta funcin, se llama la curva de regresin.
8-1
El modelo de regresin lineal poblacional que describe la relacin entre la respuesta o variable dependiente Y y, la variable independiente o regresora X es: Y = o + 1x1 + Donde: Y = variable dependiente poblacional (tambin se usa la anotacin y) o = intercepto en la ordenada 1 = pendiente de la lnea x1 = variable independiente = error aleatorio con promedio de 0 y varianza 2 constante. Este valor de es la diferencia entre el valor terico de Yi y el valor de Y calculado u observado. Las condiciones de son de que este parmetro debe estar normalmente distribuido; sus valores deben de ser independientes uno del otro y la varianza de es Var() = 2 n = nmero de (x, y) pares de observaciones La ecuacin de la lnea de regresin muestral que estima a modelo de regresin poblacional (8-1) de arriba se da como: Y = a + bx + e Donde: Y = valor de la variable dependiente de la muestra a = intercepto en la ordenada b = pendiente de la lnea e = error o residual de la muestra denotado por ei = yi - Yi. Esta estadstica es la estimadora del parmetro (8-2) i = 1, 2, ., n (8-1)
8-2
Suposiciones del modelo de regresin lineal 1. Los valores de Y son independientes uno del otro, es decir, no deben de estar correlacionados. 2. Las distribuciones condicionales de probabilidad de Y dado X son normales. 3. La varianza del error es 2 y es constante. 4. Los coeficientes o y 1 son desconocidos y deben de estimarse. Para estimar la ecuacin de regresin lineal simple y mltiple se usa lo que se llama el mtodo de los cuadrados mnimos que ajusta los datos de la muestra a la lnea de regresin. Esta es una de las tcnicas ms usadas en investigaciones cientficas, para encontrar la relacin entre dos o ms variables que estn casualmente relacionadas. En esta seccin veremos el problema de regresin lineal de una variable dependiente (Y) otra independiente (X), con fines de prediccin y estimacin. Sin embargo, una vez que se obtiene la ecuacin de regresin lineal, sta se tiene que evaluar o validar para ver qu tanta confiabilidad se le puede poner al modelo para usos de prediccin. Esto se hace usando enfoques objetivos y subjetivos. Por ejemplo, el enfoque objetivo se hace haciendo pruebas estadsticas de inferencia. Este enfoque se complementa usando enfoques subjetivos, es decir, analizando las grficas de los residuales estandarizados o no estandarizados, a travs de inspecciones visuales. Por ejemplo, las condiciones o suposiciones requeridas para validar el modelo, subjetivamente, se hace a travs de los anlisis de los residuos crudos o estandarizados (para diferenciarlos de los residuos estandarizados). Los llamados residuos se definen como las diferencias entre el valor actual de Y y el valor pronosticado de Y por el modelo de regresin estimado. Los residuos se denotan por ei, esto es, ei = Yi Yi. En verdad, las grficas de los residuos dan informacin
8-3
muy importante, acerca de la naturaleza y fuerza de la relacin entre las variables. La figura de abajo muestra los residuos que son las diferencias entre los valores de Y1, Y2, Y3,,Yk y los valores observados de Y1, Y2, Y3,,Yk de la lnea de regresin de la muestra. Por otra parte, los residuos estandarizados se obtienen dividindolos por sus respectivas desviaciones estndares.
Figura. 8.0. Grfica mostrando los residuos de un ejemplo. (Elaboracin propia) Las suposiciones de los valores residuales son: (a) Los residuales ei estn normalmente distribuidos (i estn normalmente distribuidos). (b) Los residuos tienen la misma varianza (i son constantes). (c) Los residuales ei no estn correlacionados, es decir, son independientes. Otro mtodo menos popular que el anlisis de los residuos, para evaluar la ecuacin de regresin es comparando el diagrama esparcido de los puntos, con respecto a la lnea de regresin, con la grfica de los puntos con respecto al promedio de y . Esto se debe a qu, sin importar el valor de X, el promedio y siempre permanece constante (lnea horizontal trazada en el diagrama esparcido de la grfica). De esta manera, si la dispersin de los puntos con relacin a la lnea de
8-4
regresin es mucho menor, que la dispersin de los puntos con respecto a la lnea horizontal de y , entonces, se puede concluir que la ecuacin de la lnea de regresin da un buen ajuste para los datos de la muestra (Daniel et al. 1989). Como se dijo antes, el enfoque objetivista es la otra manera que se usa para evaluar el modelo de regresin lineal, esto es, a travs de anlisis estadsticos. Para esto, se pueden usar las siguientes funciones estadsticas: (a) Coeficiente de determinacin lineal R2 (o r2), el coeficiente de correlacin lineal R, s y PRESS. (b) Anlisis de varianza simple (ANOVA), para probar los coeficientes del modelo de regresin (), para , etc. (c) Intervalos de confianza para 2, para o, i, y|x, etc. Tipos de correlacin lineal 1. Correlacin simple que consiste de dos variables, una dependiente (Y) y la otra independiente (X). Dentro de esta categora tenemos: (a) Correlacin directa. Esta correlacin consiste en el incremento en una variable la cual es acompaada por el incremento de otra variable (correlacin positiva). (b) Correlacin inversa. Esta correlacin consiste en el incremento de una variable la cual es acompaada por el incremento de otra (correlacin negativa). (c) Correlacin no lineal. En esta correlacin no hay ninguna asociacin entre las dos variables. 2. Correlacin mltiple. Aqu, hay ms de dos variables. Una variable es dependiente (Y), mientras que las otras son independientes X1, X2,, Xk, etc. Las figuras de abajo representan varios tipos de correlaciones.
8-5
Fig. 8.1. Diagramas esparcidos con lneas de cuadrados mnimos. La Figura (a) representa una lnea recta con X fija; la Figura (b) representa lnea no recta con X fija; la Figura (c) representa una distribucin adjunta con lnea recta; la Figura (d) representa una distribucin adjunta con lnea no recta; la Figura (e) representa un diagrama donde no hay asociacin entre las dos variable y; la Figura (f) representa una relacin causal. Las otras dos grficas representan correlaciones perfectas. (Elaboracin propia)
8-6
Tipos de curvas ms comunes
Figura 8.2. La figura (a) representa la funcin exponencial; la figura (b) representa la funcin de potencia, la figura (c) representa una funcin recproca y, la figura (d) representa una funcin hiperblica. (Elaboracin propia)
8-7
Ecuaciones normales para calcular el intercepto en la ordenada a y la pendiente b de la curva o lnea de regresin Las variables a y b se obtienen de las ecuaciones normales de abajo, es decir, resolvindolas simultneamente: Y = a n + b X XY = a X + b X la lnea, b: Intercepto = a = Y b X Pendiente = b = [n XY (X)(Y)] / [n X 2 (X)2 ] = xy / x2 Donde: xy y x2 se dan por las ecuaciones (8-8) y (8-9) de abajo. Nota 1. Las siguientes ecuaciones son muy importantes. x2 = Sxx = X 2 (X)2 / n xy = Sxy = XY XY / n y2 = Syy = Y 2 (Y)2 / n minsculas y las maysculas en las ecuaciones de arriba. Coeficiente de determinacin R2 de la muestra que estima a 2 el coeficiente de determinacin poblacional El clculo del coeficiente de determinacin mltiple R2 es una prueba objetivista de estadstica. Esta es una funcin estadstica muy importante, para validar el modelo de regresin lineal. Este coeficiente R2 mide la proporcin de variacin en la variable dependiente Y explicada por la variable independiente X. Los valores de R2 varan de 0 a 1. Por ejemplo, un valor cercano a 0 indica que no hay una
8-8
(8-3) (8-4)
Al resolverse simultneamente dan el intercepto, a en la ordenada y, la pendiente de (8-5) (8-6) (8-7)
(8-8) (8-9) (8-10)
Nota 2. Es muy importante notar las diferencias entre el uso de las variables
relacin lineal entre Y y X, mientras que un valor cercano a uno indica un ajuste lineal perfecto. Aqu, sin embargo, es necesario aclarar que, un valor alto de R2, no necesariamente indica un buen ajuste del modelo de regresin, sino hasta que se hacen todas las pruebas objetivistas y subjetivas. La funcin que calcula R2 es: R2 = (xy)2 / x2y2 = 1 SSe / SSt (8-11) (8-12)
Donde xy, x2 y y2 se dan por las ecuaciones (8-8), (8-8) y (8-10) descritas para la ecuacin (8-11). Adems, para la ecuacin (8-12) SSe es la suma de los cuadrados del error o residual y SSt es la suma de los cuadrados del total, mismos que se describen en el formato de la tabla de ANOVA. Tambin hay el llamado coeficiente R2 de determinacin ajustado. Esta es una versin ajustada de R2, el cual busca remover la distorsin debida a un tamao de muestra pequeo. Se define como: R2ajustada = 1 [(1 R2) (n 1)/(n 2)] Donde R2 ya se defini y n es el tamao de la muestra Coeficiente de correlacin R de la muestra que estima a , el coeficiente de correlacin poblacional El coeficiente de correlacin R, que estima a , tambin se llama coeficiente de correlacin de Pearson. Este coeficiente es un ndice de la fuerza de la asociacin lineal entre las variables X e Y. El coeficiente de correlacin R es: R= (8-13)
xy x y
2
(8-14)
Donde: xy, x2 y y2 se dan por las ecuaciones (8-8), (8-9) y (8-10) Nota: El coeficiente de correlacin R explica el grado de asociacin entre las variables X e Y. Este coeficiente R vara de 1 a 0, si la correlacin es negativa, es
8-9
decir, con pendiente negativa. Pero, si la correlacin es positiva, entonces, R vara de 0 a 1. As, a medida que R se aproxima a 1, mejor asociacin habr entre las variables X e Y. Ntese que, en caso de la regresin lineal mltiple, tenemos lo que se llaman coeficientes parciales de regresin usados para medir la relacin lineal entre la variable dependiente y la variable independiente especificada. Intervalo de confianza para el coeficiente poblacional componente de la lnea de regresin Y|X = + X, estimado por b, la pendiente de la lnea. b t[1-/2;n-2] s / Donde: b = xy / x2 t[1-/2;n-2] = valor de la distribucin de t de Estudiante x2 = X2 (X)2 / n s=
( y b xy )
2
< < b + t[1-/2;n-2] s /
(8-15)
n2
(8-16)
= SSE/(n 2) =
y ( y )
2
- (bXY - XY/n)] / n-2 (8-17)
La ecuacin de la varianza es: s2 = (y2 bxy) / (n 2) xy / x2 o sea el coeficiente de la lnea de regresin muestral.
= coeficiente poblacional de la pendiente de la lnea, el cual es estimado por b = Intervalo de confianza para el parmetro poblacional , el intercepto de la ordenada de la lnea de regresin Y|X = + X, cuyo estimador es a
(8-18) Donde:
8-10
a ya se defini anteriormente t[1-/2;n-2] = a un valor usando la distribucin de t de estudiante con = n 2 grados de libertad s = de la ecuacin (8-16) Sxx = xy (de la ecuacin (8-9)) Hiptesis nula Ho: = o contra las hiptesis alternativas H1: < 1 y H2: > 1. Para esta prueba tambin se usa la distribucin de t de Estudiante con = n 2 grados de libertad, es decir: t = (b o) / s/x2 Donde: t = la estadstica de la distribucin de t de Estudiante o = un valor dado b = pendiente de la lnea Hiptesis nula Ho: = o contra las hiptesis alternativas H1: o, H2: > o, y H3: < o Aqu, nuevamente, se usa la distribucin de t de Estudiante con grados de libertad, = n 2. Para esto se usa la frmula de abajo: (8-19)
(8-20)
8-11
Donde: o = un valor dado s = ya definida anteriormente a ya se defini anteriormente Intervalo de confianza para Y|X de la lnea poblacional estimada por Y El intervalo de confianza para el valor de Y|X se hace es usando la frmula (8-21) de abajo:
Yo t[/2;] s
1 1 + (Xo - X )2/x2 < Y|X < Yo+ t[/2;] s + (Xo - X )2/x2 n n
(8-21)
Donde: Yo = a + b Xo = valor de la lnea de regresin con un valor de Xo dado 0.01 con = n 2 grados de libertad a = ya definida anteriormente s = ya definida anteriormente Xo = un valor dado
X = promedio de la muestra
(8-22)
t[/2;n-2] = valor de la distribucin de t con un nivel de significancia de = .05 o bien
Hiptesis nula Ho: = 0 contra las hiptesis alternativas H1: > 0 y H2: < 0 Para hacer esta prueba usamos la distribucin de t de Estudiante con = n 2 grados de libertad. La funcin estadstica usada para tales fines es: t = (b bo) / s / Donde: s = ya definida anteriormente
8-12
(8-23)
b = intercepto en la ordenada Y bo = un valor dado y2 = Y2 (Y)2/n xy = XY XY/n o = 0 Aqu, tambin se tienen que calcular las regiones crticas usando la distribucin de t, es decir, t[1-/2;], donde es el nivel de significancia deseado y, es el nmero de grados de libertad, es decir, n - 1. Despus de esto, se compara el valor de tcalc., con el valor crtico de ttab. y se sigue el mismo procedimiento para cualquier prueba de hiptesis. Hiptesis nula de Ho: = o contra las hiptesis alternativas H1: > 0 y H2: < 0 Para hacer esta prueba de hiptesis se usa la estadstica de t de Estudiante mostrada abajo:
(8-24) Donde: s = ya definida anteriormente Donde: y2 = Y2 (Y)2/n xy = XY XY/n b = ya definida anteriormente Aqu, tambin se tiene que establecer las regiones crticas usando la distribucin de t de Estudiante. Estas regiones crticas son: t[1-/2;], donde es el nivel de significancia usado.
8-13
Pruebas de hiptesis Ho: = 0, contra la hiptesis alternativas H1: 0, para el coeficiente de correlacin poblacional estimado por R. (Dunn et al. 1974) Para estos fines se usa la estadstica de t de Estudiante: t= R/ Donde: R = xy /
1 R
2
(8-25)
x y
2
(8-26)
= n 2 grados de libertad Aqu, nuevamente, para calcular las regiones crticas se usa la t de Estudiante, es decir, t[/2;n-2]. Ejemplos de problemas usando regresin y correlacin lineal simple Ejemplo #1. Este problema est relacionado con un estudio acerca de la cantidad de precipitacin pluvial y la cantidad de contaminacin atmosfrica. TABLA 8.0. Tabla mostrando los datos. (Elaboracin propia) ___________________________________________________________________ Lluvia (0.026) | 18 7 14 31 21 5 11 16 26 29 Remocin de contaminacin | 55 17 36 85 62 18 33 41 63 87 Hacer las siguientes estimaciones: (a) Identificar la variable dependiente y la variable independiente. Hacer una grfica que vaya en funcin de la variable dependiente Y, y la variable independiente X. (b) Calcular los valores de la estadstica descriptiva de los datos. (c) Obtener la ecuacin de regresin lineal simple y trazarla en la grfica. (d) Validar la confiabilidad del modelo de regresin, es decir, a travs de la emisin de un juicio subjetivo analizando los valores de los residuos estandarizados, de la siguiente manera: 1. Hacer una grfica que muestre la prueba de normalidad.
8-14
2. Hacer una grfica con los residuales estandarizados versus valores ajustados de Y . (El valor predecido o ajustado de Y i es el valor de Y que se esperara cuando se usa la lnea de regresin. En otras palabras, los valores ajustados de Y 1, Y 2,.., Y n se obtienen sustituyendo, sucesivamente, x1, x2, .., xn en la ecuacin de la lnea de regresin estimada: Y i = o + 1xi, .., o + 1xn. 3. Hacer un histograma de residuales. 4. Hacer una grafica que muestre los residuales estandarizados versus renglones. (e) Complementar la evaluacin del modelo con inferencias estadsticas, como: 1. Clculo del coeficiente de determinacin R2 y el coeficiente de correlacin R. 2. Hacer una tabla de anlisis de varianza (ANOVA). 3. Hacer una tabla con los coeficientes, los errores estndares, las pruebas de t, los valores de p, y los intervalos de confianza para el intercepto y la pendiente. Solucin: (a) La variable dependiente es la remocin de contaminantes (Y) y la variable independiente es la cantidad de lluvia (X). La figura de abajo muestra esta solucin:
Figura 8.3. Grfica mostrando Y versus X, con una lnea recta horizontal correspondiente al valor del promedio de Y = 49.7000. (Elaboracin propia) (b) Los valores de la estadstica descriptiva son:
X = 17.8000, Y = 49.7000. Los valores mximos y mnimos de los valores de Y son
8-15
87.000 y 17.000, respectivamente. Los valores mximos y mnimos de los valores de X son 31.000 y 5.0000, respectivamente. Cuadrado medio del error = s2y|x = 26.667; error cuadrtico medio es sy|x = 5.164 (c) Usando un programa de computadora se estiman los valores del intercepto en la ordenada y la pendiente. Estos son: intercepto = a = 1.0213, pendiente de la lnea = b = 2.7348. Sustituyendo estos valores dan la lnea de regresin muestral (misma que se ve en la Figura 8.3), da. Y = a + bX Y = 1.0213 + 2.7348(X) (d) Para este inciso la Figura 8.4 muestra la informacin requerida.
Residual Plots for Remocion de contaminatnes (Y)
99 90 Residual Percent 50 10 1 -10 -5 0 Residual 5 10 5 0 -5 -10
20
40 60 Fitted Value
80

3 Frequency Residual -8 -4 0 Residual 4 2 1 0

5 0 -5 -10
4 5 6 7 Observation Order
10
Figura 8.4. Grficas mostrando las respuestas para el inciso (d). Como se ve en la Figura 8.4 la figura superior izquierda muestra la prueba de normalidad con todos los puntos formando una linea recta. Esto indica que la
8-16
distribucin de los datos es normal. Igualmente, la figura superior derecha muestra los residuales en funcin de los valores ajustados de Y. Aqu, hay aleatoriedad en la distribucin de los puntos con la misma cantidad de puntos negativos y positivos, lo que indica que no hay correlacion de los datos. La figura inferior izquierda muestra la frecuencia versus los residuales. Finalmente, la figura inferior derecha muestra los residuales en funcin de los rdenes de las observaciones. Aqu, en esta figura hay aleatoriedad y el mismo numero de puntos positivos y negativos, lo que sugiere que no hay colinealidad o correlacion en serie de la informacin suministrada. (e) Para complementar el estudio objetivista, esto se hace haciendo pruebas estadsticas de inferencia. (1) Como se dijo antes, el coeficiente de determinacin R2 es un enfoque objetivista, que sirve para validar el modelo de regresin. Este coeficiente de determinacin R2, mide la fuerza relativa de la relacin lineal entre X e Y (mide la proporcin de variacin en Y que puede ser explicada por la variacin en X) es dado por la ecuacin (8-11) y por las ecuaciones (8-6), (8-7) y (8-8), respectivamente: R2 = 0.9620 El clculo del coeficiente de correlacin R es: R=
R 2 = 0.9808
(2) Para el anlisis de varianza (ANOVA), que tambin sirve para validar el modelo de regresin, es una funcin estadstica objetivista que prueba la hiptesis nula de que la pendiente es igual a 0. Aqu se ver que, un valor grande de F indica que el modelo de regresin seleccionado es util. Sin embargo, es necesario analizar todos los dems criterios antes de emitir un juicio final. La tabla de ANOVA de abajo da los resultados.
8-17
TABLA 8.1. Tabla de anlisis de varianza (ANOVA) para el ejemplo. (Elaboracin propia) __________________________________________________________________ Fuente de Suma de los g.l. Cuadrado del Fcalc. Ftab. Valor de p variacin cuadrados promedio __________________________________________________________________ Debido al 5,396.77 1 5,396.77 202.38 5.32 0.00001 tratamiento Residual (error) 213.33 8 26.67 ___________________________________________________________________ Total 5,610.1 9 El valor de Ftab. se saca consultando la tabla de la distribucin de F, esto es F;1,2, el cual da F.95;1,8 = 5.32. Aqu, debido a que el valor de Fcalc. = 202.38 >>> 5.32, se rechaza la hiptesis sustentada de que Ho:1 = 0 y se inclina por Ho:1 0. La conclusin es de que la pendiente de la lnea no es igual a 0 u horizontal. (3) La tabla de abajo muestra los valores del intercepto en la ordenada, el gradiente de la lnea de regresin, los errores estndar, la pruebas de hiptesis usando la t de estudiante, los valores de la probabilidad p y los intervalos de confianza (95%) para o (intercepto) y 1 (pendiente). TABLA 8.2. Tabla mostrando los valores del intercepto, pendiente, pruebas de t de Estudiante, valor del nivel de p y sus intervalos. (Elaboracin propia) __________________________________________________________________ Coeficiente Error Prueba t Valor p Lmite Lmite estndar inferior superior ___________________________________________________________________ Intercepto 1.02 3.79 0.27 0.79 -7.772 9.76 ___________________________________________________________________P endiente 2.73 0.19 14.23 5.8x10-7 2.29 3.18 __________________________________________________________________ Aqu, ntese que el intervalo de confianza para el intercepto es muy amplio y la hiptesis no se puede rechazar, puesto que el valor de t es muy pequeo y el valor de
8-18
p = 0.79 es grande. Esto es apoyado por el valor de 0.79 de p y por un error estndar de 3.79, relativamente grande; lo contrario ocurre con las pruebas estadsticas de la pendiente, cuyo valor de t es grande y cuyo valor de p es muy pequeo. Ejemplo #2. En un estudio de microbiologa ambiental, en muestras de agua, se dieron los siguientes datos de la tabla de abajo. Estos datos se refieren al crecimiento de una colonia de bacterias en un medio de cultivo. TABLA 8.3. Tabla mostrando los datos. (Elaboracin propia) Tiempo en das de | 3 6 9 12 15 18 inoculacin (X) __________________________________________________________________ No. bacterias (Y) | 115,000 147,000 189,000 235,600 257,900 286,400 Hacer los siguientes clculos: (a) Calcular la lnea de regresin. (b) Calcular el coeficiente de determinacin R2 y el coeficiente de correlacin R. (c) Con la ecuacin de regresin, estimar el nmero de bacterias despus de 20 das (d) Encontrar los intervalos de confianza para y usando el paquete de EXCEL. (e) Usar el programa Minitab y estimar los valores residuales y analizarlos subjetivamente, para revisar por la calidad del modelo de regresin. Solucin: (a) La ecuacin de la lnea de regresin es: Y = 81,520.00 + 11,774.29 X (b) El coeficiente de determinacin lineal mltiple R2 es igual a 0.9880. El coeficiente de correlacin R es igual a 0.9940. (c) Cuando X = 20 das, el nmero de bacterias es de: Y = 81,520 + 11,774.29 (20) 317,006 bacterias (d) En cuanto a los intervalos de confianza para y , el programa de computadora de
8-19
EXCEL arroja los siguientes resultados: Intervalo de confianza de 95% para : 61,259.45 < < 101,780.6; valor de la probabilidad p = 0.0004; Intervalo de confianza de 95% para es: 10040.14 < < 13508.43, con un valor de la probabilidad p = 0.000046 (e). Las figuras de abajo muestran las grficas que tratan de validar el modelo de regresin lineal, con del nmero de bacterias en funcin del tiempo de incubacin.
Figura 8.5. Figuras mostrando los resultados del nmero de bacterias versus el tiempo de incubacin. La grfica (a) muestra la relacin entre Y y X, con la lnea recta de Y ; la grfica (b) muestra los residuos crudos versus X; la grfica (c) muestra los residuos crudos versus los renglones y, la grfica (d) muestra los residuos crudos versus residuos rezagados (Elaboracin propia).
8-20
Todas estas grficas sugieren, subjetivamente, que el modelo de regresin lineal es confiable. Por qu? Ejemplo #3. En un estudio de agricultura, relacionado con la siembra de algodn, en cierto estado de la Unin Americana, la precipitacin anual y el rendimiento de la cosecha de algodn son como sigue. TABLA 8.4. Tabla mostrando los datos. (Elaboracin propia) Precipitacin | 7.12 en pulgadas (X) Rendimiento de | 1037 la cosecha en libras/acre (Y) 63.54 380 47.38 416 45.92 427 8.68 619 50.86 388 44.46 321
Hacer los siguientes clculos: (a) Calcular los valores del intercepto a y la pendiente b. (b) Escribir la ecuacin de la lnea de regresin. (c) Calcular el coeficiente de determinacin R2 y el coeficiente de correlacin R. (d) Predecir el rendimiento de la cosecha de algodn, si la precipitacin es de 30 pulgadas. (e) Hacer una tabla de anlisis de varianza. Solucin: (a) Usando un paquete de computadora como el Excel da: Intercepto en la ordenada = a = 880.40 Pendiente de la lnea = b = -9.61 (b) Por lo tanto, la ecuacin de la lnea de regresin es: Y = 880.40 9.61 (X) (c) El coeficiente de determinacin = R2 = 0.6991
8-21
El coeficiente de correlacin = R = 0.8361 (d) Cuando la precipitacin de lluvia es de 30 pulgadas, el rendimiento de la cosecha se calcula usando el modelo de regresin obtenido, es decir sustituyendo el valor de X = 30. De esta manera, usando la ecuacin de regresin dada arriba y sustituyendo el valor de X = 30 nos da: Y = 880.4 9.61 (30) = 592.1 (e) La tabla de anlisis de varianza dada por el paquete Excel se da abajo. TABLA 8.5. Tabla de anlisis de varianza (ANOVA). (Elaboracin propia) Fuente de variacin Debido a la Regresin Residuo Total g.l. SS MS 22,433.11 Fcalc. Ftab. 5.32 Valor de p 0.019
1 260,628.2 260,628.2 11.62 5 112,165.5 6 372793.7
En conclusin, al comparar el valor de la estadstica calculada F con el valor crtico de F se rechaza la hiptesis sustentada con un valor de p igual a 0.019. Ejemplo #4. El libro Applied Statistics: Anlisis of Variance and Regression de Dunn y Clark (1974) describe un estudio de fsica, es decir, de ptica, donde se obtuvieron los datos de abajo que muestran los dimetros de las fibras pticas (en micras) en funcin de la fuerza de rompimiento de stas. Para este problema hacer los siguientes clculos (a) Hacer todos los calculos preliminares y calcular la ecuacin de la lnea de regresin muestral que estima a la ecuacin de regresin poblacional Y|X = + X. (b) Usando un paquete de computadora, encontrar el intervalo de confianza para el coeficiente de regresin poblacional (intercepto en Y), que estima a a. (c) En forma anloga que con en el inciso (b), encontrar el intervalo de confianza para el coeficiente de regresin (la pendiente de la lnea) cuyo estimador es b.
8-22
(d) Probar la hiptesis nula de Ho: = o, es decir, = 0 contra la hiptesis alternativa de H1: > 0 y H2: < 0. Calcular el valor de la probabilidad p. (e) Hacer un intervalo de confianza para Y|Xo. (f) Calcular los criterios evaluadores del modelo de regresion, v. g., R2, PRESS y s. (g) Hacer una prueba de hiptesis para el coeficiente de correlacin poblacional . (h) Graficar los datos y trazar la ecuacin de la lnea de regresin sobre la grfica y trazar la lnea horizontal correspondiente al valor del promedio Y . (i) Emitir un juicio subjetivo que ayude a validar el uso del modelo de regresin. La tabla de abajo muestra los datos. TABLA 8.6. Tabla mostrando el dimetro de fibras vs. fuerza de rompimiento. Dimetro de la fibra (X) Log de la fuerza de rompimiento (Y)
22.5 .19 28.0 .62 27.5 .51 25.5 .53 22.0 .24 30.5 .87 23.0 .25 25.0 .25 23.5 .37 27.0 .32 21.5 .13 22.0 .35 29.0 .53 20.5 .22 27.0 .65 (Fuente: Dunn et al. 1974. Applied Statistics: Analysis of Variance and Regression)
Solucin: (a) Los clculos preliminares son:

8-23
n = 15, X = 374.5, (X)2/n = 9,350.0, Y = 6.03, (Y)2/n = 2.42, XY = 158.25, X

2
= 9,482.75, Y 2 = 3.03, (XY)/n = 2,258.24/15 = 150.55, X = 24.97, Y = 0.402,
x2 = X 2 (X)2/n = 9,482.75 9,350.0 = 132.75, xy = XY XY/n = 158.25 150.55 = 7.70, y2 = Y 2 (Y)2/n = 3.03 (6.03)2/15 = .6074 Para calcular la lnea de regresin de la muestra, primero calculamos manualmente, los coeficientes a y b de la lnea de regresin muestral que estiman a y . b = xy/x2 = 7.70/132.75 = .058 a = Y b X = 0.402 (0.058)(24.97) = -1.046 Por lo tanto, la lnea de regresin muestral es: y = a + b(X) y = -1.046 + 0.058(X) (b) El intervalo de confianza para es usando la funcin (8-18) o usando un paquete de computadora como Excel procediendo como: Tools Data anlisis Regression y OK. Enseguida, despus de que los datos se introdujeron en las columnas A y B de la hoja de Excel irse a la ventanilla de Input Y Range y Input X Range, lo que genera la TABLA 8.7 de abajo. TABLA 8.7. Tabla mostrando el valor del intercepto, la pendiente, los valores de t y p y los intervalos de confianza para y .
Por lo tanto, el intervalo de confianza para el intercepto () se lee de la tabla como: -1.5706 < < -0.5224 (c) En forma anloga el intervalo de confianza para se lee de la TABLA 8.7 como:
8-24
0.0788 > > 0.0371 (d) Para probar la hiptesis nula Ho: = o es decir, = 0, contra H1: > 0 y H2: < 0 usamos la distribucin de t de estudiante con = n 2 = 15 2 = 13 g.l. La frmula es: t = (b o) / s/ x2. Sustituyendo todos los valores de o = 0 y dems valores en la frmula de arriba da: t = (0.058 0) / 0.12/ 132.73 = 5.8 Las regiones crticas son: t = 2.16. En conclusin: debido a que tcalc. = 5.8 > ttab. = 2.16, se rechaza la hiptesis nula de Ho: = 0 y se inclina por H1: > 0. El valor de la probabilidad se calcula usando la frmula de interpolacin (6-10): (2 1)/(t2 t1) = (2 X)/(t2 tcalc.) Sustituyendo los valores apropiados de la tabla de t nos da: (.00001 - .00002)/(6.287 5.607) = (.00001 X)/(6.287 5.8) Lo que da X = p = .00002. Pero como la prueba es bilateral, lo multiplicamos por 2 y da p = .00004. Este valor apoya, muy contundente, la hiptesis alternativa de H1: > 0. (e) El intervalo de confianza para la variable dependiente de la lnea de regresin poblacional, Y|X estimada por Y, con nivel de significancia de = 0.05, dar varios valores a Xo. Para hacer esto, se usa la funcin de abajo: Yo - t[/2;n-2] s Donde:
X = promedio
1 1 +(Xo X )2/x2 < Y|X < Y + t[/2;n-2] s +(Xo X )2/x2 n n
(8-28)
t[/2;n-2] = valor de t con = n 2 g.l. t[.025;13] = 2.16 Xo = los diferentes valores que se le den a Xo para construir los lmites o bandas de
8-25
confianza para Y|X Ahora bien, con los valores de: a = -1.047, X = 24.97, x2 = 132.73, s = 0.12, t.0.25;13 = 2.16 y asignndole valores a Xo, digamos de 19, 28, 30.0, etc., se procede de la siguiente manera: Para Xo = 19.0; Yo = -1.047 + 0.058(19.0) = 0.055, etc. Enseguida, usando la frmula (8-28) y sustituyendo los valores, es decir, para Xo = 19 da:
.0552.16(0.12)
1 +(19.0-24.97)2/132.73 < < .055+2.16(0.12) 1 +(19.0-24.97)2/132.73 Y|19 15 15
El cual se simplifica a:
0.335 > Y|19 > 0.299
As se puede continuar dando diferentes valores de Xo y sustituyndolos, como se hizo arriba, para, finalmente, hacer las bandas de confianza para Y|X. (f) Para calcular los valores de R, R2, s y PRESS se pueden hacer con un paquete de computadora. Por ejemplo, si se hace manualmente, el coeficiente R se calcula usando la ecuacion (8-14), etc. De otra manera, si se usa el Mintab proceder como: Stat Regression Regression En la ventana de Response poner la variable dependiente, y en la ventana de Predictors poner la variable independiente. Tambin se pueden usar las ventanas de Graphs, Options y Results para obtener informacin adicional. Por ejemplo los valores de las estadsticas objetivistas de inferencia dadas por el programa son: R2 = 73.6%, R = 0.858, s = 0.1112, PRESS = 0.2204. Por ejemplo, el valor de R = 0.8576 indica indica una correlacin positiva que va de acuerdo con la pendiente positiva de la curva de .058. Los valores tan pequeos de s y de PRESS indican un buen ajuste de los datos al modelo de regresin. (g) Para la prueba de hiptesis Ho: = 0, es decir, para el coeficiente de correlacin poblacional, con = 0.05, contra la hiptesis alternativa de H1: 0, esto es, H2: > 0
8-26
y H3: < 0 se usan las siguientes estadsticas: (1) Usando la estadstica de t de Estudiante (8-25): t= Donde: R = ya definida Para calcular las regiones crticas se usa la distribucin de t, es decir, t[/2;n-2] = t.025;13 = 2.16 Entonces, usando la frmula de abajo y sustituyendo los valores da: R = xy / y R2 = 0.7396
n 2 R / 1 R
2
x y
2
= 7.701 /
(132.73)(0.6074) = 0.86
Ahora, usando la estadstica de abajo y sustituyendo da t=

n2
R/
1 R
t = 13 (0.86) / .2604 = 6.07 Si se desea sacar el valor de p se busca 6.07 en la tabla de la distribucin de t con = 13 y con = .05, lo que da .025 < p < .05. (h) Para graficar los datos aunados a la ecuacin de la lnea de regresin con una lnea horizontal correspondiente al valor del promedio Y se hace usando un paquete de computadora.
8-27
Figura 8.6. Grfica mostrando la fuerza de rompimiento (log10) en funcin del dimetro de la fibra, con la ecuacin de la linea de regresin Y = -1.046 + 0.058(X) y con el promedio Y = 0.402. (Elaboracin propia). (i) Emitir un juicio subjetivo que ayude a validar el uso del modelo de regresin. Para responder a esta pregunta se hacen los siguientes grficos:
(response is Log fuer)
2
Standardized Residual
-1
-2 2 4 6 8 10 12 14
Observation Order
Figura 8.7a. Grfica mostrando los residuos estandarizados versus el orden de la observacin. Esta es una grfica que muestra todos los residuales en el orden en el cual los datos fueron coleccionados. Aqu hay el mismo nmero de datos positivos y negativos. Esta grfica tambin sirve para encontrar errores no aleatorios, especialmente, en efectos relacionados con el tiempo.
8-28

2
-1
-2 0.1 0.2 0.3 0.4 0.5 0.6 0.7
Fitted Value
Figura 8.7b. Est grfica muestra los residuales versus valores ajustados. Para que el modelo de regresin sea aceptable, se requiere que: los puntos en la grfica sean aleatorios en ambos lados de 0; no debe haber series de puntos que aumenten o disminuyan; no debe haber predominancia de residuales positivos o negativos, ni tampoco debe haber patrones de residuales que aumenten con valores ajustados que aumenten. Como se ve, todas estas condiciones estn bien sustentadas.
2
Normal Score
-1
-2 -2 -1 0 1 2
Figura 8.7c. Grfica mostrando la prueba de normalidad. Los datos deben formar una lnea recta si los residuales estn normalmente distribuidos (situacin que ocurre aqu). De otra manera, la suposicin de normalidad se invlida.
8-29
Como se observa en estas grficas, la emision de un juicio subjetivo es aceptable, porque el modelo de regresin seleccionado ajusta bien los datos. Esto se debe a que, en la Figura 8.7a hay aleatoridad en los datos, es decir, con el mismo nmero de valores positivos y negativos. Adems, en la Figura 8.7b la descripcin de sta, sugiere un modelo de regresin representativo de la informacin dada. Situacin similar ocurre con la descripcin de la Figura 8.7c. Ejemplo #5. En un estudio de ingeniera del agua relacionado con las reducciones de los slidos suspendidos, en funcin de la demanda qumica de oxgeno (DQO), se sac una muestra aleatoria, cuyos datos se dan en la tabla de abajo. Para lo siguiente: (a) Identificar la variable dependiente y la independiente y hacer una grfica de DQO versus reduccin de slidos. (b) Calcular la ecuacin de la lnea de regresin. (c) Hacer una tabla de anlisis de varianza que incluya la F crtica y el valor de p. (d) Validar el modelo candidato, a travs de estadsticas como R2, PRESS, s y de la estadstica de Durbin-Watson (para la prueba de autocorrelacin de residuales). (e) Evaluar la utilidad del modelo a travs de grficos subjetivos: TABLA 8.8. Tabla mostrando las mediciones de slidos y la demanda qumica de oxgeno. (Elaboracin propia) __________________________________________________________________ Slidos supendidos DQO ___________________________________________________________________ 30 29 33 37 25 32 29 27 31 36 25 31 30 30 33 30 35 31 29 28 32 29 30 30 29 30 34 30 36 30 28 29 34 29 34 29 34 31 36 29 31 30 33 30 35 28 30 28 28 31 36 28 33 32 26 30 34 28 30 31 27 32 36 27 31 32 27 32 34 26 29 31 Solucin:
8-30
(a) La variable dependiente es DQO y la variable independiente es reduccin de slidos suspendidos. La figura 8.8 de abajo muestra las concentraciones de DQO versus reduccin de slidos suspendidos.
Figura mostrando la grafica de DQO y solidos suspendios.
35
DQO (Y)
30
25 27 32 37
Solidos suspendidos (X)
Figura 8.8. Grfica mostrando el DQO versus reduccin de slidos. (Elaboracin propia) (b) La ecuacin de la lnea de regresin es: DQO (Y) = 1.53 + 0.909 X(slidos suspendidos) La pendiente es igual a 0.909 y el intercepto es 1.53 (c) La tabla de abajo muestra la informacin de ANOVA. TABLA 8.9. Tabla de ANOVA de slidos suspendidos y DQO. Fuente de SS g.l. MS Fcalc. Fcrtica Valor de p Variacin Entre los grupos 32.00 1 32.00 4.35 3.98 0.04 Residual (error) 515.44 70 7.35 Total 546.44 71 __________________________________________________________________ (d) s = 0.9039 R2 = 88.8% PRESS = 31.8928 R2(predecida) = 87.13% R2(ajustada) = 88.5% Durbin-Watson statistic = 1.67
8-31
Aqu, el coeficiente de determinacion R2, mide, qu tan bien el modelo de regresin ajusta los datos. Anlogamente, el estadstico PRESS (suma de cuadrados de error de prediccin) mide la calidad del modelo de regresin. En cuanto a la estadstica Durbin-Watson, si est cercana a 2 no hay autocorrelaciones en series positivas o negativas. La variacin de los datos la da la estadstica s. (e) La Figura 8.9 da la informacin subjetiva para la evaluacin del modelo. (a)
(response is DQO (Y))
2
-1
-2
-3
-4 25 30 35
Fitted Value
(b)
Normal Score
-1
-2 -4 -3 -2 -1 0 1 2
Figura 8.9. La figura (a) prueba por la autocorrelacin o falta de independencia de los datos. Adems, la figura (b) prueba por la normalidad de los datos.
8-32
Regresin y correlacin lineal mltiple Muchas aplicaciones del anlisis de regresin involucran situaciones donde se tiene ms de una variable independiente. En la mayor parte de los problemas de investigacin se necesitan varias variables independientes para ver el efecto en la variable dependiente. La variable dependiente o de respuesta (Y) puede estar relacionada con muchas variables independientes o regresoras X1, X2, etc. En el estudio de regresin lineal mltiple se pueden usar el enfoque matricial. Tambin se pueden hacer pruebas de hiptesis, intervalos de confianza, anlisis subjetivos (anlisis de los grficos) y anlisis objetivos (estadstica de inferencia), como los clculos de los coeficientes de determinacin (R2) o de correlacin (R), como en el caso de la regresin lineal simple. Sin embargo, en este caso, se puede calcular el coeficiente de correlacin general y coeficientes de correlacin parciales, es decir, en forma anloga a como se hace con los coeficientes o, 1, etc. Cuando hablamos de regresin lineal mltiple tenemos las siguientes situaciones: 1. Modelo de primer orden con dos variables regresoras o independientes. 2. Modelo de primer orden con ms de dos variables independientes. Modelo de regresin mltiple generalizado Cuando este modelo general es lineal en los coeficientes se denomina modelo de regresin mltiple. Por ejemplo, para el caso de k variables independientes x1, x2, x3,..., xk, el promedio est dado por Y|x1, x2, x3,..., xk y se da por el modelo de regresin mltiple poblacional: Y = Y|x1, x2, x3,..., xk = o + 1x1 + 2x2 + ...+ kxk + k Este modelo, tambin se puede expresar con otra anotacin como:
Y j = o + 1X1j + 2X2j + . + kXkj + j
(8-29) (8-29a)
Los parmetros j, j = 0, 1, 2, 3,.., k se conocen como coeficientes de regresin

8-33
poblacionales. Por ejemplo, el parmetro j representa el cambio esperado en la respuesta Y, por unidad de cambio en xj, cuando todos los dems pronosticadores xi se mantienen constantes. Adems, i y ei son los errores aleatorios o residuos de poblacin y de la estadstica asociados con la respuesta Yi. El modelo de regresin lineal mltiple de la muestra que estima al modelo poblacional de arriba es: Y = bo + b1X1 + b2x2 + ... + bkXk + e (8-30) Donde cada coeficiente de regresin parcial i es estimado por bi. Esto se debe a qu, cada coeficiente parcial i mide el cambio esperado en Y por unidad de cambio en x1, cuando x2 se mantiene constante, y 2 mide el cambio esperado en Y por unidad de cambio en x2 cuando x1 se mantiene constante. El modelo de primer orden con dos variables independientes es: Yi = o + 1Xi1 + 2Xi2 + (8-31) Donde Yi, la variable dependiente que denota la respuesta en las -simas tentativas; Xi1 y Xi2 son las dos variables independientes de la -sima tentativa; o, 1, 2 son los coeficientes de regresin y, es el error o residuo. Modelo de regresin mltiple con ms de dos variables independientes Yi = o + 1Xi1 + 2Xi2 + + p-1Xi,p-1 + (8-32) Cuando hablamos de regresin lineal mltiple, el principal objetivo es la obtencin de la ecuacin de la lnea de regresin muestral, para prediccin y estimacin, la cual emula a la ecuacin poblacional. Sin embargo, antes de poder usar el modelo de regresin calculado, ste se tiene que evaluar, para ver qu tanta confiabilidad se le pueda dar. La evaluacin o validacin del modelo de regresin estimado se hace a travs de anlisis objetivos y subjetivos, en forma anloga como en la regresin lineal simple. Por ejemplo, los anlisis objetivistas se hacen a travs de funciones estadsticas de inferencia. Posteriormente, para que la validacin del modelo sea
8-34
completa, el procedimiento se complementa usando enfoques subjetivistas, a travs de anlisis de las grficas de los valores residuales. Si la validacin no es satisfactoria, se procede con remediacin del modelo, ya sea haciendo transformaciones de los ejes o probando otros modelos ms apropiados, como cuadrticos o cbicos, etc. Aplicacin de anlisis subjetivos y objetivos para la evaluacin del modelo de regresin Como se ha estado mencionando anteriormente, se sugieren dos maneras de revisar la utilidad del modelo obtenido. Estas maneras son: (1) anlisis de grficas de residuos y, (2) pruebas estadsticas de inferencia. Por ejemplo, para validar el modelo de regresin aplicando anlisis subjetivos, es decir, a travs de los grficos de los residuos (ei), stos se describen como las diferencias entre los puntos y la lnea de regresin. Siendo as, las suposiciones son de que los residuos deben ser independientes y normalmente distribuidos, con promedio igual a cero y con varianzas constantes. Ms explcitamente, las descripciones de las suposiciones son: 1. Los valores de la variable aleatoria estadstica ei deben estar normalmente distribuidos. Para lograr esto, se grafican los residuos (crudos o estandarizados) de la variable dependiente en funcin de los valores de z o normales esperados. Para que se rena la condicin de normalidad de los datos, todos los puntos deben de estar dentro de las bandas de confianza y deben de estar muy cercanos a la lnea de regresin. Adems, si los trminos del error ei estn normalmente distribuidos, los residuales estandarizados o crudos debern estar, aproximadamente, de acuerdo con las reglas del 68%, 94% y 99%. Esto quiere decir qu, el 68% de los residuos debern estar entre z = 1; el 95% debern estar entre z = 2 y, finalmente, el 99% de los residuos debern estar entre z = 3.
8-35
2. Los valores de la variable aleatoria ei deben ser independientes uno del otro. No debe haber colinialidad o correlacin en serie. Esto se revisa graficando los residuos (estandarizados o crudos) en funcin de los renglones. Si no hay, aproximadamente, los mismos residuos positivos y negativos en la grfica, entonces, el modelo lineal calculado no es el apropiado y tendrn que buscarse otras alternativas (como funciones polinomiales, cuadrticas, cbicas, etc.). Aqu cabe notar que la suposicin de independencia es la ms importante que se pueda violar, porque es la base para las pruebas estadsticas como la R2, el error de lo estimado (s dado por el programa Minitab), ANOVA, etc. 3. Los valores de la variable aleatoria ei deben de tener la misma varianza. Esto se llama homoscedasticidad. Esto se puede revisar visualmente graficando los residuales estandarizados o no estandarizados (crudos) contra cada valor de las variables independientes (Xi). Aqu, nuevamente, tiene que haber la misma cantidad de valores positivos y negativos expresados en la grfica. Aqu, sin embargo, existen otros mtodos para revisar por el problema de heteroscedasticidad que se retomarn en el captulo de regresin polinomial. Otros investigadores estadsticos (Devore, 2000) sugieren cuatro grficos de diagnstico subjetivo, para la validacin del modelo de regresin mltiple. Estos grficos de diagnstico son: 1. El grfico de los residuos estandarizados y/o crudos en la ordenada versus los valores de Xi en la abscisa. 2. El grfico de los residuos estandarizados y/o crudos en la ordenada versus los valores pronosticados (en la abscisa) por el programa de computadora usado. 3. El grfico de los valores pronosticados en la ordenada versus los valores de Yi en la abscisa. 4. Grfico de normalidad de los residuos estandarizados versus los percentiles de z
8-36
(valores de z). 5. Histogramas. Aplicacin de anlisis objetivos para la evaluacin del modelo de regresin Por otro lado, en cuanto al enfoque objetivista (estadstica inferencial) para la validacin del modelo de regresin, ste est relacionado con el uso de estadsticas como el coeficiente de determinacin mltiple R2 (o r2), el coeficiente de determinacin ajustado R2ajustada, el error estndar de lo estimado, s, tablas de anlisis de varianza, pruebas de t de Estudiante, intervalos de confianza, el criterio de Mallow de Cp, PRESS, etc. De esta manera, cuando se habla de coeficientes en el modelo de regresin mltiple, existen cuatro tipos de coeficientes: (1) El coeficiente de determinacin mltiple (R2) (2) El coeficiente de correlacin mltiple (R) (3) El coeficiente de determinacin ajustado (R2ajustada) (4) El coeficiente parcial de correlacin mltiple (Rij.k) Por ejemplo, el coeficiente de determinacin mltiple R2 es, tal vez, la medida estadstica ms popular usada para medir, qu tan bien encaja el modelo de regresin en los datos de la muestra. En realidad el uso de R2 es una tcnica para medir la adecuacin de un modelo de regresin lineal mltiple. Esta estadstica se puede definir como una proporcin o como un porcentaje. Como proporcin, sus valores varan de cero a uno. Por ejemplo, si el valor de R2 est cercano a cero, esto indica que no hay una relacin lineal entre Y y las Xs, mientras que, un valor cercano a uno, indica una ajuste perfecto. Sin embargo, el valor de R2 no debe de interpretarse ligeramente, sin el apoyo del error estndar de lo estimado (s), el residual (PRESS), el criterio de Mallow (Cp) o los factores de variacin inflados (variance inflation factors, VIF). Adems la validacin del modelo debe estar
8-37
apoyada por los anlisis de los grficos subjetivos. De acuerdo a la lgica del programa de NCSS, los siguientes enunciados dan algunas calificaciones de la interpretacin de R2. 1. El valor de R2 puede incrementarse agregando ms variables independientes, pero esto puede causar un aumento en el error del cuadrado medio, especialmente, cuando la muestra es pequea. 2. La magnitud de R2 est influenciada por el rango de cada variable independiente. R2 aumenta a medida que el rango de las Xs aumenta y viceversa. 3. El valor de R2 no mide la magnitud de las pendientes. 4. La magnitud de R2 no mide la aptitud del modelo lineal; mide la fuerza lineal del componente del modelo. 5. Un valor grande de R2 no necesariamente significa una prediccin grande. Lo opuesto tambin es correcto. Todo esto tiene que ser complementado o corroborado por otras funciones estadsticas y por el anlisis grfico subjetivo. 6. El valor de R2 es altamente sensible al nmero de observaciones. Entre ms grande sea el tamao de la muestra, ms alto ser el valor de R2. Ms adelante, hay lo que se llama el valor ajustado del coeficiente de determinacin mltiple ajustado (R2ajustada). Este coeficiente de determinacin mltiple ajustado R2ajustada es una versin ajustada de R2 la cual busca remover la distorsin causada por un tamao de muestra pequeo. Igualmente, tambin hay lo que se llama PRESS (predicted sum of squares) que se usa para validar el modelo de regresin en trminos de prediccin. Aqu, entre ms pequeo sea el valor de PRESS, mejor ser el modelo candidato. En forma anloga, tambin hay lo que se llama el coeficiente de correlacin mltiple R. Este coeficiente R mide la fuerza de la relacin lineal entre la variable dependiente Y y las variables independientes X1, X2, X3,, Xk. En contraste con el
8-38
coeficiente de correlacin lineal simple, el rango de este coeficiente de correlacin mltiple es de 0 R 1. Esto se debe a que R no indica la pendiente de la ecuacin de regresin debido a que no es posible indicar los signos de todos los coeficientes de regresin que relacionan la variable dependiente Y a las variables independiente Xi. As como en el caso de la correlacin lineal, la medicin de R2 es ms fcil de interpretar que el coeficiente de correlacin mltiple, R. Otro tipo de correlacin relacionado con regresin y correlacin mltiple es lo que se llama coeficiente parcial de correlacin mltiple. Este coeficiente mide la fuerza de la relacin lineal entre la variable dependiente Y y las variables independientes X1, X2, X3,, Xk. Este coeficiente se puede expresar como Rij.k el cual es el estimador del coeficiente de correlacin mltiple poblacional ij.k. Rij.k se puede usar para ver la relacin causal entre Y y una de las variables independientes, manteniendo las dems constantes. Este coeficiente, tambin se puede usar para ver la relacin entre dos variables independientes. Ms adelante, dentro de la categora de anlisis objetivos de estadstica inferencial relacionados con regresin mltiple, tenemos lo que se llama anlisis de varianza (ANOVA) discutido en captulos anteriores. En forma anloga como el uso de R2, este anlisis es un mtodo complementario para revisar las suposiciones del modelo de regresin. La confiabilidad de los resultados del ANOVA est mancomunada a la suposicin de que los residuales estn normalmente distribuidos. El uso de ANOVA prueba los promedios poblacionales donde se analiza la variacin total. ANOVA evala la utilidad del modelo de regresin probando la hiptesis nula de que todos los coeficientes (i) de la ecuacin de regresin (pendientes) son igual a cero. Los componentes del anlisis de varianza o de ANOVA, son parecidos a los del anlisis de varianza simple explicados en captulos anteriores. Los componentes son la fuente de variacin, los grados de
8-39
libertad, la suma de los cuadrados, el cuadrado del promedio, la prueba de F y el nivel de probabilidad. Por ejemplo, la fuente de variacin representa las particiones de la variacin en Y. Hay cuatro fuentes de variacin es decir, el intercepto, el modelo, el residuo o error y, el total ajustado. La prueba de inferencia con la estadstica F se usa para probar la hiptesis de todas las i = 0. Ms importante todava, es el clculo del nivel de probabilidad p. El valor de p es la probabilidad de obtener un estadstico de prueba, al menos tan contradictorio o ms extremo para Ho:, como el valor observado que se obtuvo, asumiendo que Ho: es verdadera. Si el valor de p es menor qu, digamos = 0.05, la hiptesis nula se rechaza; de otra manera se retiene. Entre ms pequeo sea el valor de p, menos credibilidad tendr la hiptesis nula. Otros estadsticos objetivistas para validar el modelo de regresin son las pruebas individuales de t de estudiante para probar la hiptesis de que 1, 2, 3, k son iguales a cero. Adems se pueden usar los intervalos de confianza. Por ejemplo, en regresin mltiple el valor de t de estudiante se usa para probar la hiptesis de que uno de los coeficientes es igual a cero, despus de remover la influencia de los otros. Los investigadores Paffenberger et al. (1987) dan la funcin para el intervalo de confianza para i. Sin embargo, si se concluye que 1 o k no son igual a cero esto, no necesariamente, dice que el modelo de regresin es til para prediccin. En verdad, para determinar si el modelo es apropiado, en lugar de probar que 1 = 0 y 2 = 0, separadamente (usando la prueba de t), se usa una prueba conjunta como el anlisis de varianza (ANOVA). De cualquier manera, la prueba de hiptesis bilateral para probar los coeficientes individuales i se usa el siguiente formato dado en la tabla de abajo.
8-40
TABLA 8.10. Tabla mostrando los mecanismos para una prueba de hiptesis bilateral para los coeficientes individuales i incluidos en el modelo de regresin mltiple. (Elaboracin propia) Hiptesis nula: Ho:i = 0, hiptesis alternativa: H1:i 0 Valor del estadstico: t = bi / sbi Regla de decisin: Rechazar Ho: si t > t/2;n-(k+1) o bien si t < -t/2;n-(k+1). No rechazar Ho: si t/2;n-(k+1) t t/2;n-(k+1) Donde: i son los coeficientes de regresin individuales. bi = estimadores de i sbi = errores estndar = nivel de significancia deseado n = nmero de observaciones k = nmero de variables independientes t = funcin estadstica de t de Estudiante Ejemplos aplicando la regresin y correlacin mltiple Ejemplo #6. En la adsorcin de tierra y sedimento, la magnitud de la acumulacin en forma condensada de los productos qumicos en la superficie es una caracterstica importante que influye en la eficiencia de insecticidas y varios otros productos qumicos. El artculo Adsorption of Phosphate, Arsenate, Methanearsonate and Cacodylate by Lake and Stream Sediments: Comparison with Soils (J. of Environ. Qual., 1984, pp. 499-504) presenta los siguientes datos en la tabla de abajo. Aqu se toma Y como la variable dependiente, la cual denota el ndice de adsorcin de fosfato, X1 es una de las variables independientes denotando la cantidad de hierro extrable y, X2 es otra de las variables independientes denotando la cantidad de aluminio extrable. (Devore, 2000)
8-41
TABLA 8.11. Tabla mostrando los datos del ejemplo. _________________________________________________________________

Observacin
__________________________________________________________________ 1 61 13 4 2 175 21 18 3 111 24 14 4 124 23 18 5 130 64 26 6 173 38 26 7 169 33 21 8 169 61 30 9 160 39 28 10 244 71 36 11 257 112 65 12 333 88 62 13 199 54 40 ________________________________________________________________ (Fuente: Devore, 2000) Hacer los clculos pertinentes. Solucin: Usando un paquete de computadora da: bo = -7.351, desviacin estndar = 3.485, b1 = 0.11273, desviacin estndar = 0.02969, b2 = 0.34900, s = 0.07131 La ecuacin de la lnea de regresin lineal mltiple es: Y = -7.351 + (0.11273)(X1) + (0.34900)(X2) Enseguida, para ver, qu tan confiable es el modelo de regresin calculado, primero procedemos a efectuar el anlisis subjetivo, es decir, el anlisis de las grficas de los residuos.
X1 (Hierro extrable)
X2 (Aluminio extrable)
Y (ndice de adsorcin)
8-42
Figura 8.10 Figura mostrando las grficas de los residuos estandarizados versus valores esperados de z (1); grfica mostrando el residuo estandarizado versus la variable independiente X1 (2); grfica mostrando el residuo estandarizado versus la variable independiente X2 (3); grfica mostrando el residuo estandarizado versus el valor de Y pronosticado (4) y, finalmente, grfica de Y pronosticada versus adsorcin (5). (Elaboracin propia)
8-43
Figura 8.11 Esta grfica muestra un enfoque un poco diferente al de la figura anterior, es decir usando los residuos no estandarizados en contraste con la figura 8.10 que usa los residuos estandarizados. Grfica mostrando la prueba de normalidad (1). Grfica mostrando la prueba de independencia de residuos versus renglones (2). Grfica mostrando los residuos versus valores pronosticados (3). Grfica mostrando los residuos versus variable independiente de hierro (4). Grfica mostrando los residuos versus variable independiente aluminio (5). (Elaboracin propia)
8-44
El valor del coeficiente de determinacin mltiple es: R2 = 0.9480 El coeficiente de determinacin ajustado es: R2ajustada = 0.9380 El coeficiente de correlacin mltiple es: R = 0.9736 Los coeficientes parciales se pueden estimar si se desea saber la relacin entre el ndice de adsorcin y el aluminio extrable, poniendo la variable independiente, hierro constante. Tambin, si se deseara saber la relacin entre el ndice de adsorcin y el hierro extrable, se pondra la variable aluminio constante. Similarmente, si se deseara saber la relacin entre las variables aluminio y la variable del hierro, se pondra la variable ndice de adsorcin fija. TABLA 8.12. Tabla mostrando los coeficientes de regresin, valores de t de Estudiante, niveles de p y decisiones tomadas en Ho: (Elaboracin propia) _________________________________________________________________ Variable Coeficiente Valor de t Nivel Decisin independiente de regresin de p (5%) _________________________________________________________________ Intercepto -7.35066 -2.1094 0.0611 Aceptar Hierro 0.11273 3.7969 0.0035 Rechazar Aluminio 0.34900 4.8944 0.0006 Rechazar _________________________________________________________________ TABLA 8.13. Tabla de anlisis de varianza. (Elaboracin propia) _________________________________________________________________ Fuente de g.l. Suma de los Cuadrado Fcalc. Valor Poder de Variacin cuadrados medio de p la prueba _________________________________________________________________ Intercepto 1 11580.31 11580.31 Regresin 2 3259.90 1764.95 92.03 0.000 1.0000 Error 10 191.79 19.18 _________________________________________________________________ Total 12 3721.69 310.14
8-45
TABLA 8.14. Tabla mostrando el reporte de residuos. (Elaboracin propia) _________________________________________________________________ Rengln Valor Valor Residuo Error estndar actual pronosticado _________________________________________________________________ 1 4 4.0630 -6.3052 5.0077 2 18 19.7066 -1.7066 4.9511 3 14 13.5387 0.4612 4.7055 4 18 14.6552 3.3447 4.6862 5 26 29.6406 -3.6406 5.1051 6 26 25.4141 0.5858 4.5996 7 21 23.2182 -2.2182 4.6488 8 30 32.9902 -2.9902 4.6623 9 28 24.2976 3.7024 4.5671 10 36 44.9352 -8.9352 4.7012 11 65 60.7097 4.2902 5.4250 12 62 60.9014 1.0986 5.4195 13 40 33.9292 6.0707 4.5649 _________________________________________________________________ TABLA 8.15. TABLA mostrando los intervalos de confianza para este problema. (Elaboracin propia) _________________________________________________________________ Variable Lmite inferior (95%) Lmite superior (95%) independiente _________________________________________________________________ Intercepto -15.1149 0.4137 Hierro (X1) 0.0467 0.1789 Aluminio (X2) 0.1901 0.5079 __________________________________________________________________
8-46
TABLA 8.16. Tabla mostrando la estadstica descriptiva. (Elaboracin propia) _________________________________________________________________ Variable Conteo Promedio Desviacin Valor Valor estndar mnimo mximo _________________________________________________________________ Hierro (X1) 13 177.31 70.10 61 333 Aluminio (X2) 13 49.31 29.19 13 112 ndice de (Y) 13 29.85 17.61 4 65 adsorcin _________________________________________________________________ Conclusiones: El modelo de regresin obtenido es vlido para prediccin y estimacin. Los datos encajan bien con un modelo lineal mltiple. Esta contencin est basada en el anlisis subjetivo de las grficas de los residuos. Por ejemplo, en la figura 8.10 y 8.11 la prueba de normalidad es buena, porque todos los puntos estn dentro de las bandas, y muy cercanos a la lnea de regresin. Adems, los puntos estn de acuerdo con la regla del 68%, 95% y 99%, es decir, el 68% de los puntos estn dentro de z = 1, el 95% estn dentro de z = 2, etc. En la figura 8.11 de los residuos versus los renglones, esto satisface la suposicin de independencia, porque hay el mismo nmero de residuos positivos y negativos. Adems, las grficas de los residuos versus las variables independientes no violan la suposicin de no linealidad, porque no hay tendencias definidas. Finalmente, la grfica de residuos versus valores pronosticados estn de acuerdo con la suposicin de varianzas iguales (homoscedasticidad). En cuanto a los anlisis objetivistas, es decir, usando pruebas estadsticas, nuevamente, presuponen un buen ajuste del modelo de regresin estimado. Esto se debe a qu, el valor del coeficiente de determinacin mltiple R2 est muy cercano a uno. Adems, el valor de R = 0.9736 indica muy buena correlacin entre la variable dependiente y las variables independientes. Con respecto a la tabla del anlisis de varianza, el valor de F es mucho menor que el valor crtico y esto est
8-47
demostrado por el valor de la probabilidad p el cual es mucho muy significante. Las pruebas de t de estudiante, tambin son muy aceptables y demuestran que las pendientes de i no son iguales a cero. Los intervalos de confianza dan resultados similares y sugieren que el modelo de regresin es buen pronosticador. Se pueden seguir haciendo pruebas de hiptesis para todos los parmetros poblacionales y, sin lugar a dudas, stas tambin apoyaran la contencin de que, el modelo de regresin, es aplicable. Ejemplo #7. Considerar los datos de la tabla de abajo. Usando el programa de computadora Minitab obtener el modelo de regresin ms apropiado, es decir, un modelo mltiple lineal (Modelo 1); modelo con transformacin en el eje vertical (Modelo 2) y un modelo con transformaciones de los ejes horizontales y del eje vertical (Modelo 3). TABLA 8.17. Tabla mostrando los datos bivariados de regresin. (Elaboracin propia) X1 | X2 | Y | 4 3 3 4 4 2 4 3 7 6 4 6 3 2 5 6 4 6 3 2 7 2 2 4
Solucin: Abajo se dan los resultados de los tres modelos. Al juzgar por los resultados, se le pide al lector que decida cual modelo es el ms apropiado.
8-48
TABLA 8.18. Resultados mostrando el resumen de los tres modelos. (Elaboracin propia) _______________________________________________________________ Regression Analysis: Y versus X1, X2 (Modelo 1)
The regression equation is: Y = 6.00 + 2.00X1 3.00X2 Predictor Constant X1 X2 Coef 6.0000 2.0000 -3.0000 SE Coef 1.803 0.7746 1.183 T 3.33 2.58 -2.54 P 0.021 0.049 0.052
s = 1.414 R-Sq = 58.3% R-Sq(adj) = 41.7% PRESS = 0.1274 R-Sq(pred) = 51.62% Analysis of Variance Source Regression Residual Error Total DF 2 5 7 SS 14.000 10.000 24.000 MS 7.000 2.000 F 3.50 P 0.112
Regression Analysis: Log Y versus X1, X2 (Modelo 2)

The regression equation is: Log Y = 0.810 + =.225X1 0.348X2 Predictor Constant X1 X2 s = 0.1272 PRESS = 0.1274 Coef 0.8101 0.2248 -0.3479 SE coef 0.1622 0.0697 0.1065 T 4.99 3.23 -3.27 P 0.004 0.023 0.022
R-Sq = 69.3% R-Sq(adj) = 57.0% R-Sq(pred) = 51.62%
Analysis of Variance Source Regression Residual Error Total DF 2 5 7 SS 0.1824 0.0809 0.2634 MS 0.0912 0.0162 F 5.63 P 0.052
Regression Analysis: Log Y vs Log X1, Log X2 (Modelo 3)

The regression equation is: Log Y = 0.595 + 1.83 Log X1 2.16 Log X2 Predictor Constant Log X1 Log X2 s = 0.1483 PRESS = 0.3005 Coef 0.5949 1.8342 -2.1573 SE Coef 0.2095 0.7288 0.8332 T 2.84 2.52 -2.59 P 0.036 0.053 0.049
8-49
TABLA 8.19. Tabla mostrando los datos originales del problema. (Elaboracin propia)
___________________________________________________________________________ C1 C2 C3 C4 C5 C6 ___________________________________________________________________________ Y X1 X2 Log Y Log X1 Log X2 ___________________________________________________________________________ 1 3 4 3 0.477121 0.602060 0.477121 ___________________________________________________________________________ 2 2 4 4 0.301030 0.602060 0.602060 ___________________________________________________________________________ 3 7 4 3 0.845098 0.602060 0.477121 ___________________________________________________________________________ 4 6 6 4 0.778151 0.778151 0.060206 ___________________________________________________________________________ 5 5 3 2 0.698970 0.477121 0.301030 ___________________________________________________________________________ 6 6 6 4 0.778151 0.778151 0.602060 ___________________________________________________________________________ 7 7 3 2 0.845098 0.477121 0.301030 ___________________________________________________________________________ 8 4 2 2 0.602060 0.301030 0.301030 ___________________________________________________________________________
Ejemplo #8. En estudios de qumica analtica, el uso del anlisis de fluorescencia de rayos X se usa como una herramienta para estimar los porcentajes de los ingredientes de muchas mezclas. A menudo, la estimacin de las concentraciones depende en la habilidad para ajustar modelos de regresin. En una investigacin intitulada Corrections for Matrix Effects in X-rays fluorescent Analisis Using Multiple Regression Methods, publicado por Analytical Chemistry (Vol. 37, 1965) mezclas contiendo 4 ingredientes (Xi) fueron preparadas. Las concentraciones de los componentes variaron en las mezclas para producir tipos estndares de calibracin (Yi). (Walpole, 1992, p. 421). Los datos de este problema se dan abajo.
8-50
TABLA 8.20. Tabla mostrando los datos del problema de arriba. Yi X1 X2 0.8980 0.8872 0.8030 0.8706 0.8064 0.8404 0.8731 0.8431 0.8314 X3 0.8219 0.9308 0.7668 0.9272 0.9026 0.8662 0.8206 0.8346 0.7596 X4 0.9906 0.9944 1.1221 0.9832 1.1127 1.0836 1.0290 1.0591 1.0994
0.5514 1.1240 0.4426 0.9285 0.5631 1.1214 0.5624 1.1635 0.4505 0.9415 0.5290 1.0712 0.4702 0.9561 0.5001 1.0186 0.4425 0.9039 (Fuente: Walpole et al. 1992)
(a) Ajustar un modelo lineal de regresin mltiple a los datos de la tabla. Enseguida, estimar las concentraciones del ingrediente A para una mezcla cuya tasa de intensidades de rayos-X sean, respectivamente, X1 = 1.10, X2 = 0.900, X3 = 0.800 y X4 = 0.995. Solucin: (a) Usando un paquete de computadora y asumiendo un modelo de regresin lineal mltiple se obtiene la ecuacin de regresin. Y = -0.3004 + 0.5387X1 + 0.1770X2 0.0704X3 + 0.1506X4 Sustituyendo las variables independientes, se obtiene el valor de la respuesta Y, es decir: Y = -0.3004 + 0.538(1.10) + 0.1770(0.90) 0.0704(0.80) + 0.1506(0.995) = 0.50 Ejemplo #9. Montgomery y Peck (1992) describen el uso de un modelo de regresin para relacionar la cantidad de tiempo que requiere un vendedor para dar servicio a una mquina expendedora de artculos y el nmero de empaques contenidos en la mquina y la distancia del vehculo (pies) de servicio del sitio
8-51
donde se encuentra la mquina. Este modelo de regresin mltiple fue utilizado para disear la ruta, los horarios y la salida de los vehculos. La tabla de abajo muestra 25 observaciones del tiempo de suministro, nmero de empaques y la distancia, del vehculo. TABLA 8.21. Tabla mostrando los datos de suministro.
No. de observacin Tiempo de suministro No. de envases Distancia del vehculo
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
9.45 24.45 31.75 35.00 25.02 16.86 14.38 9.60 24.35 27.50 17.08 37.00 41.95 11.66 21.65 17.89 69.00 10.30 34.93 46.59 44.88 54.12 56.23 22.13 21.15
2 8 11 10 8 4 2 2 9 8 4 11 12 2 4 4 20 1 10 15 15 16 17 6 5
50 110 120 550 295 200 375 375 100 300 412 400 500 360 205 400 600 585 540 250 290 510 590 100 400
(Fuente: Montgomery et al. 1992)
8-52
Para este problema calcular los siguientes enunciados: (a) El modelo de regresin lineal mltiple poblacional. (b) El modelo de regresin lineal mltiple de la muestra que estima al modelo poblacional. (c) Predecir el tiempo de suministro para pares de valores de las variables de regresin, nmero de empaques (x1) y distancia (x2), cuando x1 = 1 empaque y la distancia es igual a x2 = 25 pies. (d) Evaluar el modelo de regresin obtenido usando tcnicas objetivistas y sujetivistas, como las descritas en este captulo. Discutir el razonamiento que se sigue en la validacin subjetiva de los grficos. Solucin: (a) El modelo de regresin mltiple, para 2 variables independientes es: Y|x1,x2| = o + 1x1 + 2x2 + (b) El correspondiente modelo de regresin lineal mltiple muestral es: Y = bo + b1X1 + b2X2 + e Donde: Y = tiempo de suministro X1 = no de envases X2 = distancia del vehculo El modelo de regresin de la muestra es: Y = 1.74 + 2.78 (X1) + 0.013 (X2) (c) Para predecir el tiempo de suministro (Y) en relacin con el nmero de envases, cuando X1 = 1 y con la distancia del vehculo, cuando X2 = 25 pies se obtiene sustituyendo los valores en la ecuacin de regresin, es decir: Y = 1.74 + 2.78(1) + 0.013(25) = 4.85 (d) Los resultados objetivistas estadsticos son: R2 = 98.1%; R2ajustada = 97.9%; s =
8-53
2.32; PRESS = 159.89. TABLA 8.22. Tabla mostrando los valores de T y de P. (Elaboracin propia). Predictor Constante No. de envases Distancia del vehculo Coeficiente 1.743 2.790 0.013 SE coeficiente 1.155 0.092 0.003 T 1.51 30.09 4.33 P 0.145 0.000 0.000
_________________________________________________________________ TABLA 8.23. Tabla de anlisis de varianza. (Elaboracin propia) Fuente de Variacin Debido a la Regresin Error Total g.l. 2 22 24 Para la validacin subjetiva del modelo de regresin, analizando las grficas de los residuos estandarizados, deben existir, aproximadamente, el mismo nmero de residuos positivos y negativos. Adems, en la prueba de normalidad, todos los puntos deben estar dentro de las bandas de confianza. El estudiante deber hacer los diagnsticos subjetivos para complementar la refrendacin o confiabilidad del modelo de regresin. Procedimiento de regresin mltiple usando el programa Minitab Procedimiento: 1. Irse a: Stat Regression Regression 2. En la ventana de Regression aparecen las entradas de la variable dependendiente (Y) y de las variables independientes X1, X2, en sus columnas respectivas relacionadas con el problema
8-54
SS 5984.8 118.6
MS 2992.4 5.4
F 555.2
p 0.000
3. En la ventanilla de Response (de esta ventana de Regression) entrar la variable dependiente y, en la ventanilla de Predictors, entrar las variables independientes (que se copiaron en las columnas del programa). 4. Debajo de esta venta de Regression estn las ventanillas de Graphs, Options, Results y Storage. Por ejemplo si se desea usar Graphs se pueden seleccionar los residuales regulares o los estandarizados. En la ventanilla de Option residual plots, puntear las grficas de las cuatro opciones, para el anlisis subjetivista. 5. En la ventana de Regression-Options puntear las funciones deseadas, v.g., variance Inflation factors, Durbin-Watson statistics, PRESS, etc. 6. En la ventana de Regression-Results puntear las funciones deseadas de las cuatro enlistadas, v.g., In addition de sequential sum.. Ejemplo #10. Este es un ejemplo del libro Applied Statistics: Anlisis of Variance and Regresion de los autores Dunn y Clark. Esta es una investigacin relacionada con la temperatura, tomada como la variable de respuesta, en funcin de variables regresoras como la altitud, longitud y latitud. La tabla de abajo muestra los resultados. Usando el programa Minitab: (a) Encontrar el modelo de regresin ms apropiado (b) Validar el modelo usando metodos estadsticos, es decir, estimando el coeficiente de determinacin mltiple R2, R2 ajustada, s, PRESS, tabla de ANOVA, y grficas subjetivistas, como residuos versus rdenes, residuos versus valores ajustados y pruebas de normalidad. (c) Hacer comentarios acerca de los resultados
8-55
TABLA 8.24. Tabla mostrando los valores de la temperatura en oF (Y), Altitud en pies (X1), Longitud en grados (X2) y Latitud en grados (X3).
Temperatura (Y) 55.7 37.8 56.4 51.0 34.5 34.0 36.7 33.4 32.6 49.1 46.6 36.3 18.2 36.7 13.3 30.1 Altitud (X1) 1083 457 312 305 5221 2842 807 4260 815 3920 1054 4397 830 465 1162 787 Longitud (X2) 112 86 118 90 105 116 94 112 83 106 84 120 93 90 92 82 Latitud (X3) 33 38 34 32 40 44 41 41 40 32 34 39 45 39 47 41
__________________________________________________________________
Solucin: (a) Se assume un modelo de regresin lineal (b) La utilidad del modelo se da por los valores de R2, s, PRESS, etc. mostrados por las Figuras 8.12 (a), (b) y (c).
Regression Analysis: (Y) Temperatura versus (X1) Altitud, (X2) Longitud (X3)
The regression equation is: (Y) Temperatura = 99.2 - 0.00138 (X1) Altitud + 0.299 (X2) Longitud - 2.29 (X3) Latitud Predictor Constant (X1) Altitud (X2) Longitud (X3) Latitud Coef 99.24 -0.0013780 0.29877 -2.2900 SE Coef 10.79 0.0005968 0.07736 0.1779 T 9.20 -2.31 3.86 -12.87 P 0.000 0.040 0.002 0.000 VIF 1.7 1.7 1.0
8-56
s = 3.12166, R-Sq = 94.6%, R-Sq(adj) = 93.2%, PRESS = 214.855, R-Sq(pred) = 90.08% Analysis of Variance Table Source Regression Residual Error Total DF 3 12 15 SS 2048.54 116.94 2165.48 MS 682.85 9.74 F 70.07 F crtica F.05;3,12 = 3.49 P <<< 0.001
Durbin-Watson statistic = 1.53384
(a)
(response is (Y) Temperatura) 2
(b)
99 95
(c)
(response is (Y) Temperatura)
90 80
Percent
70 60 50 40 30 20
-1
-1
10 5
-2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 O bservation O rder
-2 20 30 40 F itted Value 50 60
-3
-2
-1 0 1 Standardized Residual
Figura 8.12. La Figura (a) muestra los residuales vs. rdenes; la figura (b) muestra los residuales vs. los valores ajustados y la figura (c) da la prueba de normalidad. (c) En conclusin, de acuerdo a los valores del coeficiente de determinacion R2 = 95.6% hay un buen ajuste del modelo. El valor de F de la ANOVA rechaza la hiptesis de igualdad de promedios (de altitud, longitud y latitud), con un valor de p muy significativo. Las pruebas de T son significantes, lo que sugiere que no hay problemas de multicolinealidad. Anlogamente, los valores bajos de VIF sugieren indican que no hay problemas de multicolinealidad. Esto, aunado, a los signos de las variables regresoras de la ecuacin de regresin, los cuales si estn de acuerdo a una lgica a posteriori. El valor de la funcin de Durbin-Watson Statistic o de correlacin en serie igual a 1.53384 indica que no hay problemas de autocorrelacin (aunque aqu, esto se puede ignorar porque el problema no involucra series de tiempo). En cuanto a la Figura 8.12 la grfica (a) muestra los residuales versus los rdenes, en la cual hay aleatoriedad de los datos. Anlogamente, la grfica de residuales vs. valores ajustados (b) indica alateoridad
8-57
o independencia de los datos, sin problemas de heteroscedasticidad (errores de varianzas no constantes), etc. Finalmente, la grfica de la prueba de normalidad (c) indica que los datos estn normalmente distribuidos (porque todos los puntos estn dentro de las bandas de confianza), aunque con sesgo positivo. Nota: Cree usted qu, eventualmente, el calentamiento global, debido a las emisiones de gases de invernadero, generados por emisiones vehiculares e industriales va a modificar las temperaturas que van en funcin de la latitud? Ejemplo #11. Este es un ejemplo hiptetico mostrando la relacin entre las concentraciones de ozono artificial, a nivel del suelo (ppm) y las temperaturas (oF). Este ejercicio est encaminado a calcular, manualmente, los residuales y de hacer una grfica mostrando los residuales crudos. Los datos se dan en la tabla de abajo. TABLA 8.25 mostrando los datos de este problema. __________________________________________________________________ Concentraciones de O3 (y)| 75 80 86 94 99 107 __________________________________________________________________ Temperatura (oF) (x) | 65 71 79 85 93 100 Hacer los siguientes clculos: (a) Calcular el modelo de regresin y medir su adecuacin estimando R2, R2(ajust.), s, PRESS y la estadstica Durbin-Watson (b) Hacer una tabla mostrando el valor de la desviacin entre los datos y el ajuste, es decir, de los residuales regulares o crudos ei = yi y i. (c) Hacer una grfica de O3 (y) y temperaturas (x) mostrando los residuales crudos Solucin: (a) Usando un paquete de computadora da la ecuacin de regresin:
Concentracin de ozono ( y ) = 15.4 + 0.909 Temperatura (x) s = 1.101, R2 = 99.3%, R2(ajust.) = 99.2%, PRESS = 9.42837, estadstica Durbin-Watson = 3.33
(b) La TABLA 8.26 muestra los valores ajustados ( y i), los residuales y SSE.
8-58
TABLA 8.26. Tabla mostrando los datos del problema.

____________________________________________________________________________________________ Suma de los cuadrados del error Residual crudo i xi yi y i = 15.44 + 0.909 x ei = yi - y i SSE = (yi - y i)2
_________________________________________________________________________________________________________________________________________
1 2 3 4 5 6
0.2304 0.0004 1.5625 1.6900 0.9604 0.4356 2 (yi - y i) = 4.8793 __________________________________________________________________________________________
65 71 79 85 93 100
75 80 86 94 99 107
y 1 = 74.53 y 2 = 79.98 y 3 = 87.25 y 4 = 92.71 y 5 = 99.98 y 6 = 106.34
75 74.53 = 0.48 80 79.98 = 0.02 86 87.25 = -1.25 94 92.71 = 1.30 99 99.98 = -0.98 107 106.34 = 0.66
(c) La Figura 8.13 de abajo muestra las concentraciones de ozono en funcin de las temperaturas con los valores de los residuales ei.
8.13. Figura mostrando la medicion de cada uno de los valores residuales con la lnea de regresin. (Elaboracin propia).
8-59
8.1. Los datos de abajo muestran las emisiones de xidos de nitrgeno (NOx) provenientes de calderas de plantas elctricas. Tabla mostrando los datos para el problema. (Elaboracin propia) __________________________________________________________________ MBtu/hr-ft2 (X) |100 125 125 150 150 200 200 250 250 300 300 350 400 400 NOx (Y) |150 140 180 210 190 320 280 400 430 440 390 600 610 570
(a) Calcular la ecuacin de regresin de la muestra que estima a la verdadera ecuacin poblacional. (Y = -24.2 + 1.59X) (R2 = 0.95) (b) Calcular el coeficiente de correlacin R2 y R que estiman a . es de 225 MBtu/hr-ft2? (333.67)
(c) Cul es la estimacin esperada de la emisin de NOx cuando la tasa de liberacin (d) Usar el programa de computadora de Minitab y analizar las grficas de los residuos para la prueba de normalidad y de los residuos en funcin del valor de X. (El lector lo deber hacer) 8.2. Este es un ejemplo del libro de Introduccin al Analisis de Regresin Lineal de Mongomery et al. (2001), donde habla de un ejemplo relacionado con las concentraciones de ozono de debido al calor. As, Davidson (Update on Ozone Trenes in Californias South COSAT Basin, Air and Waste, 43, 226, 1993) estudio las concentraciones de ozono en la cuenca area de la costa sur de California, durante los aos 1976 a 1991. Se cree que la cantidad de das en que las concentraciones de ozono fueron mayores que 0.20 ppm depende del ndice metereolgico estacional, que es el promedio estacional de la temperatura con 850 milibares. La siguiente informacin muestra los datos.
8-60
Tabla mostrando los datos del problema. ___________________________________________________________________ Ao No. de Das (y) ndice meteorolgico ___________________________________________________________________ 1976 91 16.7 1977 105 17.1 1978 106 18.2 1979 108 18.1 1980 88 17.2 1981 91 18.2 1982 58 16.0 1983 82 17.2 1984 81 18.0 1985 65 17.2 1986 61 16.9 1987 48 17.1 1988 61 18.2 1989 43 17.3 1990 33 17.5 1991 36 16.6 __________________________________________________________________ Fuente: Montgomery et al. 2001 (a) Estimar la ecuacin de regresin (b) Qu tanta confiabilidad se le puede dar al modelo seleccionado? Usar enfoques estadsticos y grficos para justificar esta pregunta. 8.3. En un estudio agrcola, para ver los efectos de los cambios climticos globales relacionado, con los patrones pluviales alterados debido al calentamiento global, por las emisiones de CO2, se estudi la precipitacin pluvial anual y el rendimiento de la cosecha de gramneas. La tabla de abajo da los datos.
8-61
Tabla mostrando los datos del problema. (Elaboracin propia) Precipitacin pluvial en pulgadas (X) 7.12 63.54 47.38 45.92 8.68 50.86 44.86 Rendimiento de la cosecha en libras por acre (Y) 1037 380 416 427 619 388 321
___________________________________________________________________ Ver cul modelo de regresin encaja mejor en los datos, al juzgar por las estadsticas y por los anlisis grficos, es decir, usando una aproximacin lineal, una logartmica y una aproximacin de funcin de potencia de la forma de Ln (Y) = Ln(a) + b(LnX). (a) Usar una aproximacin lineal como Y = a + bX y, adems, calcular el coeficiente de determinacin R2. valor de R2. + b (Ln X) y, adems, calcular R2 (Y = 880.4 9.6 (X), R2 = 0.699) (Y = 1331.08 557.03 Lg X) (R2 = 0.829) (b) Usar una aproximacin logartmica como Y = a + b Ln (X) y adems, calcular el (c) Usando una aproximacin de funcin de potencia de la forma de Ln (Y) = Ln (a) 8.4. En un estudio de qumica analtica, en la tabla de abajo se da la relacin entre la temperatura y la molaridad (en moles por litro) de una sustancia. Para esto hacer los siguientes: (a) Estimar el modelo de regresin ms apropiado basado en anlisis estadsticos de R2, R2ajustada, PRESS, s, y Cp y en anlisis grficos subjetivos de los valores
8-62
residuales. Tabla mostrando la informacin requerida. _________________________________________________________________ Temperatura oC | 4.3 4.5 4.8 5.5 5.7 5.9 6.4 6.7 7.5 7.9 _________________________________________________________________ Molaridad | 12.1 12.5 12.9 13.0 13.1 14.0 14.2 14.8 15.0 15.5 _________________________________________________________________ 8.5. El aluminio es el tercer elemento ms abundante que ocurre en minerales, rocas y barros. El aluminio se puede analizar con el mtodo de absorcin atmica espectromtrica (mtodo A), el cual est exento de interferencias como fluoruros y fosfatos. El aluminio tambin se puede analizar por medio del mtodo de calorimetra de cianuro de Eriocromo R (mtodo B), el cual es ms simple que el anterior. La tabla de abajo muestra los resultados de los anlisis (en mg/L) de los dos mtodos usados. Hacer los siguientes clculos usando el programa de computadora de Minitab o SAS. (a) Calcular e interpretar el coeficiente de determinacin R2 y el coeficiente de correlacin R. (R2 = 0.9922, R = 0.9961) Tabla mostrando los datos del ejemplo. (Elaboracin propia) Mtodo A | 5 Mtodo B | 8 6 9 6 9 8 11 10 13 10 13 11 14 11 14
8.6. El berilio (Be) y sus compuestos son extremadamente venenosos y capaces de causar la muerte en concentraciones altas. La inhalacin del Be causa una seria afeccin llamada beriliosis. El berilio tambin puede causar dermatitis, conjuntivitis, neumona aguda y beriliosis pulmonar crnica. Este elemento qumico se usa en los reactores atmicos, aviones, cohetes y en combustibles para msiles. Hay dos
8-63
mtodos para el anlisis (en g/L) del berilio, es decir, el mtodo espectromtrico de absorcin atmica (mtodo 1) y el mtodo aluminon (mtodo 2). Los resultados de los anlisis de los dos mtodos se dan en la tabla de abajo. Hacer los siguientes clculos: (a) Hacer un estudio estadstico objetivista, es decir, estimando los valores de R2, R2ajustada, PRESS, s y tablas de ANOVA. Complementar el estudio haciendo anlisis subjetivistas. Tabla mostrando los resultados de los mtodos 1 y 2 para la medicin del berilio. (Elaboracin propia) Mtodo 1 Mtodo 2 | 0 | 1 3 7 4 11 5 19 9 24 12 31 15 31 17 35 20 41 20 41
8.7. En investigaciones de toxicologa existen estudios que han demostrado que la probabilidad de qu, un fumador de 40 aos de edad, quien ha sido fumador los ltimos 10 aos contraiga el cncer pulmonar en los prximos 20 aos es alta (asumiendo que contine fumando al mismo ritmo). Esta relacin va en funcin del nmero promedio de cigarrillos que fuma. Asumir un modelo de regresin lineal. La tabla de abajo presenta los datos de esta investigacin de toxicologa.
8-64
Tabla mostrando los datos del problema. (Elaboracin propia) Nmero de cigarrillos fumados por da 5 10 20 30 40 50 60 80 Hacer los siguientes clculos: Probabilidad de cncer pulmonar .100 .113 .225 .300 .450 .540 .700 .860
(a) Identificar la variable dependiente y la variable independiente. (b) Describir la ecuacin de regresin que mejor encaje en los datos. (Y = 0.0981 0.00002(X) + 0.0003(X 2)) (c) Calcular R2, R2ajustada, s, y PRESS. (R2 = 0.996, R2ajustada = 0.995 s = 0.019, PRESS = 0.0038) (d) Analizar e interpretar los componentes de la tabla de ANOVA como Fcalc., Fcrtica y el valor de p. (e) Discutir la relacin existente entre R2, s, PRESS, Fcalc., y el valor de p. (f) Validar el modelo de regresin subjetivamente, es decir, analizando los grficos de los residuos estandarizados. 8.8. Se realiz un estudio de qumica ambiental y se registraron las cantidades de cloruro de sodio (NaCl), el cual, cuando se disolvi en 100 gramos de agua destilada, a diferentes temperaturas (oC) dio los siguientes resultados:
8-65
Tabla mostrando los datos del problema. (Elaboracin propia) ___________________________________________________________________ Temperatura (X) NaCl disuelto en gramos de agua (Y) 0 8 6 8 15 12 10 14 30 25 21 24 45 31 33 28 60 44 39 42 75 48 51 44
Calcular los siguientes enunciados: (a) Graficar los datos. (b) Encontrar la lnea de regresin y ponerla en la grfica. (c) Estimar la cantidad de NaCl que se disolver a una temperatura de 300 K. (d) A sabiendas de que, a medida que aumenta la temperatura, la disolucin de las sustancias, como las sales de sodio, aumenta proporcional al incremento de la temperatura, entonces, siendo as, verificar de que hay una correlacin casi perfecta entre ambas variables. (e) Hacer una prueba de hiptesis para el coeficiente de correlacin muestral R, para verificar que si existe una asociacin lineal significante entre las dos variables. Sugerencia: usar la estadstica de t de Estudiante dada abajo:
t= R 1 R n 2
2
con = n - 2 grados de libertad.
(f) Tericamente, la disolucin de muchas sales va en funcin directa a la temperatura y, en teora, el valor del coeficiente de determinacin, R2 debera de ser de 1.0. Siendo as, enlistar 2 factores (en el laboratorio de qumica) que pudieran afectar la disolucin de las sales y de no dar un valor menor que 1.0. 8.9. En un estudio de meteorologa entre la cantidad de lluvia y la remocin de
8-66
contaminantes atmosfricos, se dio la siguiente informacin: Tabla mostrando los datos. (Elaboracin propia) Precipitacin (X) (0.01 cm./da) 4.3 4.5 5.9 5.6 6.1 5.2 3.8 2.1 7.5 Remocin de partculas (Y) (g/m3) 126 121 116 118 114 118 132 141 108
(a) Calcular la remocin de contaminantes (Y) cuando el valor de la precipitacin pluvial es de X = 8.0. (b) Validar el modelo de regresin objetiva y subjetivamente. 8.10. En un estudio para evaluar la capacidad de los sistemas de flujo fretico (wetlands), usados para la degradacin de la materia orgnica de las aguas residuales se uso el parmetro de la demanda bioqumica de oxgeno (DBO) y varios otros componentes qu icos. Este estudio dio como resultado los siguientes datos. Estos m resultados estn relacionados con la carga de masa de DBO (en Kg./hectrea/da), la cual se us como la variable independiente (X) y, la degradacin de la concentracin de masa carbonosa de DBO5 (en Kg./ha/da), la cual se uso como la variable dependiente (Y). (Fuente de informacin es Surface Floor Wetlands: A Performance Evaluation. Water Environ. Res., 1995, pp.244-247). (102.44)
8-67
Tabla mostrando los datos del problema. (X) | 3 (Y) | 4 7 8 10 8 11 8 13 10 16 27 30 26 35 21 37 9 38 31 44 30 103 75 142 90
11 16
(Fuente: Water Environ. Res., 1995) Calcular los siguientes enunciados: (a) Graficar los datos (b) Establecer el modelo de regresin ms apropiado para este problema. Hacer los mismos clculos que el problema anterior. (c) Validar el modelo de regresin seleccionado, objetivistamente, usando los siguientes criterios o diagnsticos: (1) Clculo del coeficiente de determinacin R2 (2) Clculo del coeficiente de determinacin ajustado, R2ajustado (3) El coeficiente de correlacin R (4) La estadstica PRESS (5) El error estndar de lo estimado, s (Util para medir la utilidad del modelo. Se selecciona el modelo que tenga el valor de s ms pequeo) (d) Evaluar el modelo candidato a travs de los siguientes criterios grficos: (1) Prueba de normalidad (2) Residuales en funcin de los ordenes (3) Residuales en funcin de los valores ajustados (e) Una vez que se haya seleccionado el modelo ms apropiado, calcular la remocin del DBO despus de que el agua residual se degrad en el wetland cuando la carga fue de 50 Kg./ha/da.
8-68
Nota: Los sistemas de flujo fretico (reas pantanosas) se usan como sistemas de tratamiento natural, porque tienen la capacidad de degradar las concentraciones carbonosas de DBO actuando como especie de lagunas de oxidacin. En Minatitln y Coatzacoalcos, Veracruz, se usan estos tipos de tratamientos naturales. Solucin: De acuerdo a la tabla de arriba se le pide al lector decidir, cul modelo es superior. 8.11. El texto de Daniel, W.W., James C. Terrell Business Statistics (1989), p. 257 mencionan el problema del envenenamiento del ganado vacuno, por los insecticidas el cual es un problema muy serio, porque los pesticidas tienen la facultad de acumularse en los tejidos de los animales y, de ah se pasan a aquellas personas que los consumen. As, en aos recientes, los ambientalistas se han preocupado mucho por los efectos, en el medio ambiente, debido al uso indiscriminado de insecticidas. Es verdad que los insecticidas matan los insectos, pero tambin matan todo lo dems. De esta manera, los insecticidas contaminan los frutos de las plantas, a los animales y tambin a la gente. Los investigadores Mount y Oehmet estudiaron los efectos de los insecticidas en las ovejas relacionada con la actividad enzimtica en el cerebro. Adems, de otros anlisis estadsticos, estos cientficos derivaron una lnea de regresin que describe las relacin entre la actividad enzimtica en el cerebro de las ovejas (Y) y el tiempo, en horas, despus de que las ovejas has sido expuestas a los insecticidas (X). La funcin de la lnea de regresin estimada por estos cientficos se da abajo. Y = 27.32 + 1.36 X Basando el criterio en esta ecuacin, estimar lo siguiente: (a) Si despus de que han pasado 30 horas, cuando las ovejas han sido expuestas a los insecticidas, Cul sera el valor de la actividad enzimtica? (68.12) (b) Si el coeficiente de correlacin muestral se da como R = 0.86 y, el coeficiente de
8-69
determinacin es R2 = 0.74 (el que mide la fuerza de la relacin lineal entre X e Y, es decir, el % de asociacin entre las dos variables), entonces, hacer una prueba de hiptesis con Ho: = 0, contra H1: 0 (que es lo mismo que decir que no hay asociacin lineal entre X e Y). Asumir que el tamao de la muestra es de n = 16 y el nivel significante de = 0.05. Para esto, seguir las siguientes sugerencias: Usar la distribucin de t con = n 2 grados de libertad y usar las regiones crticas dadas por t[1-/2;]. 8.12. En estudios de qumica, la presin de un gas que corresponde a varios volmenes (de acuerdo a la ley de los gases de Boyle) se da en la tabla de abajo. Asumir que el volumen del gas es (X) y la presin es (Y). Hacer los siguientes clculos: (a) Hacer una grfica con los datos. (b) Estimar la lnea de regresin de la muestra. (c) Estimar el coeficiente de determinacin R2 y el coeficiente de correlacin R. Interpretar los resultados. (d) Predecir la presin del gas, cuando el volumen es .001 m3 (e) Predecir la presin del gas, en libras por pulgada cuadrada (lbs/in2) y, en atmsferas (atm), cuando el volumen del gas es de 0.0528 cuartos (.05 L). (f) En teora, debido a que la relacin entre el volumen del gas y la presin es inversamente proporcional, el coeficiente de correlacin debera ser de R = -1.0. Sin embargo, si R difiriera del valor de -1.0, enlistar 3 factores que pudieran para explicar esta situacin. intervenir
8-70
Tabla mostrando los volmenes y las presiones del gas. (Elaboracin propia) Volumen en cm3 Presin en Kg./cm2 | 50.0 | 64.7 60.0 51.3 70.0 40.5 90.0 25.9 100.0 7.8
Sugerencias: Se dan los siguientes factores de conversin: 1 atm = 14.7 lbs/in2 = 760 torr = 1.0668 kg/cm2; 1 cm2 = 0.16 in2; 1.0567 cuartos = 1 L; 1 pulgada cuadrada = 6.25 cm2; 1 m3 = 1000 L. = 106 cm3. 8.13. Se coleccion una muestra de 33 casos de una descarga de aguas residuales municipales. Esta muestra se analiz para la demanda bioqumica de oxgeno de 5 das (DBO5), en libras por da, y la demanda qumica de oxgeno, DQO (en libras por da). La tabla de abajo muestra la informacin requerida. Tabla mostrando las mediciones de DBO5 y DQO. (Elaboracin propia) Demanda qumica de oxgeno Demanda bioqumica de oxgeno (lbs/da) (lbs/da) 494 444 528 396 532 308 350 456 440 544 309 538 480 500 396 486 556 600 428 440 291 490 545 582 368 386 400 347 278 304 216 200 238 164 230 116 150 190 190 248 120 226 200 222 176 202 240 280 184 194 134 215 246 292 177 193 165 160 125 137
8-71
Hacer lo siguiente: (a) Ver su existe una correlacin significante usando los valores R del DBO5 y el DQO. (R = 0.9677, R2 = 0.9360) (b) Interpretar el valor del coeficiente de correlacin R y el coeficiente de determinacin R2. Usar el programa Minitab o EXCEL para hacer el clculo pedido. Nota. La demanda bioqumica de oxgeno de 5 das (DBO5) mide la concentracin, en mg/L o en libras por da de la materia carbonosa del agua residual. De hecho el DBO mide la fraccin biodegradable del drenaje, o del agua residual industrial o domstica, en trminos del carbono. Usualmente, las unidades son en mg/L. Sin embargo, esto se debe a que, anteriormente, se usaba indiscriminadamente las unidades de ppm y mg/L. Despus, se vio que, con los residuos txicos, la gravedad especfica era diferente a la de los residuos carbonosos. Por esta razn es mejor usar las unidades de mg/L. Por otra parte, la prueba del DBO es de 5 das, para evitar la nitrificacin. En cambio, la prueba de la demanda qumica de oxgeno mide los compuestos orgnicos biodegradables y los compuestos orgnicos txicos. Esto quiere decir que, la demanda qumica de oxgeno (DQO) oxida la cantidad de materiales totales oxidables presentes en el agua residual y vara con la composicin del agua, la temperatura, el periodo de contacto y otros factores ms. 8.14. Considerar los datos de abajo relacionados con el peso del vehculo y el rendimiento de gasolina. El peso del auto se da en toneladas y, el rendimiento del combustible se da en millas galn. Los datos se dan abajo.
8-72
Tabla mostrando los datos del los modelos vehiculares en funcin del peso en toneladas (X), y de millas por galn (Y). ________________________________________________________________
Modelo vehicular Buick Estate Wagon Ford Country Squire Wagon Chevy Malibu Wagon Chrysler Le Baron Wagon Toyota Corona Datsun 510 Dodge Omni Audi 5000 Volvo 99 GLE Saab 99 GLE Peugot 694 SL Buick Century Special Mercury Zephyr Dodge Aspen AMC Concord D/L Chevy Caprice Classic Ford LTD Mercury Grand Marquis Ford Mustang Mazda GLC Dodge Colt VW Scirocco Honda Accord LX Buick Skylark Chevy Citation Oldsmobile Omega Plymouth Horizon Datsun 210 VW Dasher Datsun 810 BMW 3210 VW Rabbit Peso (toneladas) 4.36 4.05 3.61 3.94 2.56 2.30 2.23 2.83 3.14 2.80 3.41 3.38 3.07 3.62 3.41 3.84 3.73 3.96 2.59 1.98 1.92 1.99 2.14 2.67 2.60 2.70 2.20 2.02 2.19 2.82 2.60 1.93 Millas/galn 16.9 15.5 19.2 18.5 27.5 27.2 30.9 20.3 17.0 21.6 16.2 20.6 20.8 18.6 18.1 17.0 17.6 16.5 26.5 34.1 35.1 31.5 29.5 28.4 28.8 26.8 34.2 31.8 30.5 22.0 21.5 31.9
(Fuente: Probabilidad y Estadistica Aplicadas a la Ingenieria. Montgomery et al. 1996) Hacer los siguientes clculos usando el programa Minitab. (a) Estimar la lnea de regresin entre las variables peso del vehculo y el
8-73
rendimiento de gasolina. (b) Estimar el coeficiente de correlacin de la muestra R (llamado tambin coeficiente de correlacin de producto-momento de Pearson) y el coeficiente de determinacin muestral R2. (c) Hacer una grfica que vaya en funcin de Y y X, trazarla en la grfica y tambin trazar la lnea horizontal usando el valor del promedio de Y. (d) Hacer una tabla de ANOVA. (e) Estimar los intervalos de confianza para y las probabilidades correspondientes para cada uno de stos. (f) Qu otros factores tendran que considerarse, para que el modelo de regresin fuera ms confiable? 8.15. Los metales pesados como el Hg, Cr, Pb, etc., pueden interferir con el tratamiento biolgico en las plantas municipales de aguas residuales domsticas. En este estudio se hicieron mediciones mensuales en una planta modelo de tratamiento de las concentraciones de cromo, Cr, en mg/L, tanto en el efluente como en la entrada. Los resultados de las concentraciones de Cr se dan en la tabla de abajo. Tabla mostrando los datos. (Elaboracin propia) Entrada (X) | 250 290 270 100 300 (g/L) Efluente (Y) | 19 10 17 11 70 (g/L) Hacer los siguientes clculos: (a) Hacer un diagrama de dispersin en papel aritmtico. (b) Hacer un diagrama esparcido en papel semilogaritmo y logaritmo completo (transformacin de los ejes). (c) Calcular los modelos de regresin para las partes (a) y (b). (Y = -9.06 + 0.17X; Y = -1.96 + 0.97X)
8-74
410 60
110 18
130 30
1100 180
(d) Estimar Y cuando X = 350 en incisos (a) y (b). (e) Calcular el coeficiente de correlacin para (a) y (b). (f) Comentar sobre lo apropiado de Y y de R en cada caso. 8.16. En un estudio de microbiologa ambiental relacionado con el cultivo de una muestra de agua se dan los siguientes datos. Tabla mostrando los datos. (Elaboracin propia) Tiempo en das desde | 3 6 9 12 15 18 la inoculacin (X) ___________________________________________________________________ No. de bacterias (Y) | 115,000 14,700 23,900 35,600 57,900 86,400 Hacer los siguientes clculos: (a) Trazar una curva Ln Yi versus Xi para ver qu tan bien se puede ajustar una curva exponencial a los datos. (b) Trazar una curva Yi versus Xi para ver que tambin se puede ajustar una lnea recta a los datos. (c) Por interpolacin, usando ambas grficas estimar el nmero de bacterias despus de 20 das. Cuantificar las diferencias en ambos casos. 8.17. En el libro de J. L Devore, Probabilidad y Estadstica para Ingeniera y Ciencias se da una investigacin relacionada con la temperatura (oC) y la profundidad de la nieve acumulada en el suelo. Para esto se la tabla de abajo: Tabla mostrando los datos del problema. _______________________________________________________________ Temperatura (oF) | -62 -41 -36 26 -33 -56 -50 -66 _______________________________________________________________ Profundidad de la | 21 13 12 3 6 22 14 19 capa de nieve _______________________________________________________________ (Fuente: Devore 2001) . (a) Identificar la variable dependiente (Y) y la variable independiente (X).
8-75
(R2 = 0.9425, R = 0.7469)
(b) Estimar un modelo de regresin lineal. (Y = 5.71 0.202(X), R2 = 0.741, s = 3.759, PRESS = 409.02, F = 17.8, p = 0.006) (c) Estimar un modelo cuadrtico. (Y = 3.3 0.0943(X) + 0.0029(X 2), s = 0.019, R2 = 0.996, PRESS = 0.0038, F = 14.98, p = .008) (d) Estimar un modelo cbico. (Y = 9.96 0.139(X) + 0.0189(X 2) + 0.00022(X 3), R2 = 0.914, s = 2.656, PRESS = 8007.75, F = 14.14, p = 0.14) (e) De acuerdo a los resultados estadsticos, Cul de los tres modelos es superior? 8.19. La tasa de flujo en m3/min en un muestreador de alto volumen para medir la calidad del aire, es decir, para partculas atmosfricas, depende de la cada de presin, en pulgadas de agua, a travs del filtro del muestreador. Siendo as, supngase que se coleccion una muestra de 15 valores de cada de presin y la tasa de flujo del aire a travs del filtro del sensor. Los datos se dan en la tabla de abajo. Tabla mostrando los datos para este problema. (Elaboracin propia) Tasa de flujo del aire con Cada de presin despus de 3 las partculas (m /min) algn tiempo (pulgadas de agua) 2.00 5.0 1.99 6.0 1.88 7.0 1.76 7.8 1.68 8.4 1.57 9.6 1.46 9.9 1.40 10.6 1.39 11.7 1.20 14.0 1.15 15.9 1.07 19.0 1.01 24.0 1.00 28.0 0.95 35.0 (a) Calcular el modelo de regresin muestral que estime a la verdadera lnea
8-76
poblacional. Para esto, identificar, primeramente, la variable dependiente y la variable regresora. (Y = 1.95 0.0364 (X)) (b) Validar el modelo de regresin estimado en (a) usando enfoques subjetivos, es decir, a travs de grficas con residuos estandarizados versus valores de cada de presin. Tambin hacer otra grfica de residuos estandarizados versus los renglones. Hacer otra grfica ms con los valores residuales versus los valores de z para la prueba de normalidad. (c) Complementar la validacin del modelo de regresin usando mtodos estadsticos objetivistas. Para esto, estimar el coeficiente de determinacin R2, el error estndar de lo estimado (s dado por el Minitab) y PRESS. Usar el programa Minitab para estos clculos. (R2 = 76.0%, s = 0.1869, PRESS = 0.7405) 8.21. Se hace un estudio sobre la concentracin de cadmio atmosfrico, en ppm, yi y su relacin con Xi = la altura de los muestreadores y X2 = distancia de la fuente emisora. La tabla de abajo muestra los datos. Hacer los siguientes clculos: (a) Ajustar el modelo de regresin que pueda ajustar a los datos del problema de la concentracin de Cd. (Y = 350.99 1.27X1 0.154X2) (b) Validar el modelo usando enfoques de diagnstico de estadstica de inferencia (objetivistas) y de anlisis grfico (subjetivistas). (c) Usar el modelo de regresin lineal mltiple para predecir el la concentracin de cadmio, cuando la altura del muestreador es de X1 = 25 metros y la distancia de la fuente emisora, es X2 = 851 metros. (188.2 ppm de Cd) La tabla de abajo muestra los datos requeridos por este problema.
8-77
Tabla mostrando los datos. (Elaboracin propia) y (concentracin de Cd) | 193 230 15.5 816 172 22.0 1058 91 43.0 1201 113 33.0 1357 125 40.0 1115
X1 (Altura del muestreador) | 1.6 X2 (Distancia) | 851
8.22. El texto Applied Statistics: Analysis de Variance and Regression de los investigadores Olive Dunn y Virginia Clark, discuten un ejemplo para predecir el rendimiento de la cosecha de cebada, en funcin de la precipitacin pluvial X1 y la temperatura X2. Para esto, hacer los siguientes clculos: (a) Enlistar el modelo de regresin lineal mltiple que mejor ajuste a los datos. (b) Estimar la ecuacin de los cuadrados mnimos que ajuste el rendimiento de trigo (Y) a la precipitacin pluvial (X1) y la temperatura (X2). (c) Probar la hiptesis de Ho: 2 = 0 con = 0.05. (d) Estimar el coeficiente de correlacin parcial 2y.1 y probar Ho: 2y.1 = 0 (e) Validar el modelo de regresin derivado para ver, qu tanta confiabilidad se le puede acreditar. Hacer esto, a travs de juicios objetivistas, como los diagnsticos R2, R2ajustada, R2predecida, s, PRESS y Cp. Complementar la evaluacin del modelo usando tcnicas subjetivistas, como los anlisis de los grficos de residuales estandarizados y estudiantizados, prueba de normalidad, etc.
8-78
Tabla mostrando los rendimientos de cebada como variable dependiente de la precipitacin pluvial y la temperatura. Rendimiento de cebada (yi) Precipitacin (x1) Temperatura (x2) (fanegas/acre) (pulgadas) (oF) 21.0 45 54.1 20.0 47 61.6 21.0 33 50.8 24.0 39 52.1 20.0 30 50.2 12.5 28 57.1 19.0 41 55.7 23.0 44 57.6 23.0 31 50.1 19.0 29 38.0 21.0 34 56.2 12.0 27 51.5 21.0 42 54.1 27.0 35 46.7 17.5 43 60.8 26.0 39 56.9 11.0 31 60.3 24.0 42 54.6 26.0 43 53.5 18.5 47 64.0 15.5 25 45.7 (Fuente: Dunn et al. 1974. Applied Statistics: Analysis de Variance and Regression) 8.23. El texto Applied Statistics: Analysis de Variance and Regression de Dunn et al. 1974) hace un estudio mdico relacionado con el cambio de la hemoglobina de la sangre de operaciones de la glndula tiroides, el cual est relacionado con la duracin de la operacin quirrgica y el cambio en el porcentaje de la hemoglobina de la sangre. Los datos se dan en la tabla de abajo.
8-79
Tabla mostrando los datos. ________________________________________________________________ No. de paciente | 1 2 3 4 5 6 7 8 Prdida de sangre (x1) | 105 80 86 112 109 100 96 120 Duracin en minutos (x2) | 503 490 471 505 482 490 513 464 % de cambio de hemoglobina (y1) | -1.7 -4.6 -9.8 -1.1 -4.1 -3.3 0.4 -2.9 ________________________________________________________________ Fuente: Dunn et al. 1974 Hacer los siguientes clculos: (a) Encontrar el modelo de regresin mltiple para predecir el porcentaje del cambio de la hemoglobina (y) en funcin de las variables independientes, es decir, duracin de la operacin (x1) y de la prdida de sangre (x2). (y = -84.002 + 0.129x2 + 0.138x2) (b) Predecir el % del cambio en la hemoglobina, cuando la duracin en minutos de la operacin es de 80 y la prdida de sangre es de 350 ml. obtenido en este problema? (d) Calcular el coeficiente de determinacin mltiple. constante. (R2 = 0.813) (0.793) (e) Calcular el coeficiente parcial de correlacin, es decir, entre y y x1, con x2 8.24. El libro de Jay L. Devore intitulado Probabilidad y Estadstica para Ingeniera y Ciencias discute el diseo eficiente de ciertos incineradores de desperdicios municipales, los cuales requieren de informacin acerca del contenido energtico de los desperdicios. Acordemente, los autores del artculo Modelling the Energy Content of Municipal Solid Waste Using Multiple Regression Techniques (J. of the Air and Waste Mgmt. Assoc., 1996, pp. 650-656) proporcionaron los siguientes datos acerca de Y = contenido energtico (Kcal/Kg.), en funcin de regresores % de
8-80
(25.38%)
(c) Discutir, qu tanta fidelidad se le puede otorgar al modelo de regresin mltiple
plsticos en peso, % de papel en peso, % de basura en peso y % de humedad de peso. Tabla mostrando los datos de este problema.
_______________________________________________________________________________________________ Obs. % Plstico (x1) % Papel (x2) % Basura (x3) % Humedad Contenido energtico (y) _______________________________________________________________________________________________ 1 18.69 15.65 45.01 58.21 947 2 19.43 23.51 39.69 43.61 1407 3 19.24 24.23 43.16 46.63 1452 4 22.64 22.20 35.76 45.85 1553 5 16.54 23.56 41.20 55.14 989 6 21.44 23.65 35.56 42.24 1162 7 19.53 24.45 40.18 47.20 1466 8 23.97 19.39 44.11 43.82 1656 9 21.45 23.84 35.41 51.01 1254 10 20.34 26.50 34.21 49.06 1336 11 17.03 23.46 32.45 53.23 1097 12 21.03 26.99 38.19 51.78 1266 13 20.49 19.87 41.35 46.69 1401 14 20.45 23.01 43.59 53.57 1223 15 18.81 22.62 42.20 52.98 1216 16 18.28 21.87 41.50 47.44 1334 17 21.41 20.47 41.20 54.68 1155 18 25.11 22.59 37.02 48.74 1453 19 21.04 26.27 38.66 53.22 1278 20 17.99 28.22 44.18 53.17 1153 21 18.73 29.39 34.77 51.06 1225 22 18.49 26.58 37.55 50.66 1237 23 22.08 24.88 37.07 50.72 1327 24 14.28 26.27 35.80 48.24 1229 25 17.74 23.61 37.36 49.92 1205 26 20.54 26.58 35.40 53.58 1221 27 18.25 13.77 51.32 51.38 1138 28 19.01 25.62 39.54 50.13 1295 29 21.25 20.63 40.72 48.67 1392 30 21.62 22.71 36.22 48.19 1372 _____________________________________________________________________________________________
Fuente: Jay L. Devore. Probability and Statistics for Engineering and the Sciences (2000) (a) Obtener el modelo de regresin y validarlo acordemente, es decir, usando diagnsticos subjetivos y despus complementar la tarea usando diagnsticos objetivos. 8.25. Treinta muestras del efluente de una planta de tratamiento se analizaron para la
8-81
medicin del DBO5 y la demanda bioqumica de oxgeno (DQO). Los datos se muestran en la tabla de abajo. Hacer lo siguiente: (a) Calcular el promedio, s y el error estndar del DBO y del DQO. ( X DBO = 440.6, s = 93.18, error estndar = 17.01; X DQO = 194.4, s = 45.3, error estndar = 8.27) (b) Graficar los datos en papel de probabilidad. (c) Determinar el DBO5 y el DQO que se exceder el 50% de las veces. (El DBO5 exceder 195 lbs/da el 50% de las veces. El DQO exceder 440 lbs/da el 50% del tiempo) (d) Determinar el DBO5 y el DQO que se exceder el 90% del tiempo. Tabla mostrando las concentraciones de DQO y de DBO5. (Elaboracin propia) DQO | 494 494 528 396 532 308 350 456 440 544 (lbs/da) | 310 538 480 500 396 486 556 600 428 440 | 291 490 546 582 368 386 400 347 278 304 DBO5 | 216 200 238 164 230 116 150 190 190 248 (lbs/da) | 120 226 200 222 176 202 240 280 184 194 | 134 215 246 292 177 193 165 160 125 137 8.26. El director de la oficina de personal de una firma constructora desea saber si la destreza, en determinado tipo de trabajo, dentro de la empresa, puede ser pronosticada usando como pronosticadores las variables edad y experiencia de los empleados. La tabla de abajo da la informacin de una muestra aleatoria de 15 empleados. (Adaptacin del libro Business Statistics de Daniel et al. 1989, p. 577).
8-82
Tabla mostrando los datos del problema. ________________________________________________________________ Nivel de (y) Experiencia (x1) Edad (x2) Destreza 15 0 21 15 0 18 21 0 22 28 1 24 30 1 25 35 1 25 40 1 26 35 2 34 30 2 25 45 2 38 50 3 44 60 3 51 45 4 39 60 4 54 50 5 55 ________________________________________________________________ Fuente: Daniel et al. 1989. Business Statistics Hacer los siguientes clculos: (a) Encontrar la ecuacin de regresin de los cuadrados mnimos. (b) Computar R2y.12. (c) Probar Ho:1 = 0 y Ho:2 = 0. Dejar que = 0.05 y calcular el valor de p para cada prueba. (d) Computar el 95% de intervalo de confianza para 2. (e) Dejar que x1 = 2 y x2 = 25 y calcular y. (f) Encontrar el intervalo de 95% para y. 8.27. La capacidad de los ecologistas para identificar regiones de mxima riqueza de las plantas podra tener un impacto sobre la preservacin de la diversidad gentica. Esto es uno de los objetivos de los ecologistas quienes estn preocupados
8-83
por el medio ambiente. El artculo Prediction of Rarities from Habitat Variables: Coastal Plain Plants on Nova Scotian Lakeshores (Ecology, 1992, pp. 1852-1859) us una muestra de 37 lagos y se obtuvo la ecuacin de regresin de abajo. Este problema se sac del libro del investigador J. L. Devore (2001). y = 3.89 + .033x1 + .024x2 + .023x3 - .0080x4 - .13x5 - .72x6 Donde: y = riqueza de especies de plantas x1 = rea de la cuenca x2 = ancho de la playa x3 = mal drenado (%) x4 = color del agua x5 = % de arena x6 = alcalinidad. El estudio report un coeficiente de determinacin mltiple de R2 = 0.83. Realizar una prueba de la utilidad del modelo de regresin. Sugerencia: usar la funcin estadstica: F = [R2/k] / [(1 - R2)/(n - (k + 1))], con regin de rechazo para una prueba de nivel de F F,k,n-(k+1), donde k es el nmero de pronosticadores usados. Usar la tabla de la distribucin F. Valorar la utilidad del modelo de acuerdo al valor de la probabilidad p. 8.28. Este es ejercicio que involucra la seleccin de un modelo de regresin con 9 variables independientes o predictoras, es decir, x1, x2, x3, x4, x5, x6, x7, x8 y x9. Basando el criterio en los diagnsticos R2, MSE y Cp (criterio de Mallow), decir cul modelo de regresin es el ms apropiado. Esto es, seleccionando los mejores subconjuntos posibles. Los datos se dan abajo.
8-84
Tabla mostrando los datos. (Elaboracin propia) ________________________________________________________________ Subconjunto de predictores 1 2 3 4 5 6 7 8 9 Criterios _________________________________________________________ R2k | .354 .453 .511 .550 .562 .570 .572 .575 .575
MSEk | 2295 1948 1742 1607 1566 1541 1535 1530 1532 Cpk | 314 173 89.6 35.7 19.9 11.0 9.4 8.2 10.0 __________________________________________________________________ 8.29. En un estudio de laboratorio para ver la relacin entre los slidos suspendidos y las concentraciones de DBO se sac una muestra con los datos que se muestran en la tabla de abajo. Tabla mostrando los datos. (Elaboracin propia) Slidos suspendidos| 18 | 55 DBO5 7 14 17 36 31 85 21 62 5 18 11 33 16 41 26 63 29 87
(a) Hacer una grfica que vaya en funcin de la variable dependiente y de la variable independiente. (b) Obtener el modelo de la ecuacin de regresin y trazarla en la grfica. (Slidos suspendidos Y = 0.32 + 0.352 (X) (c) Validar el modelo de regresin objetivamente, calculando el coeficiente de determinaron R2, s y PRESS. de abajo. (R2 = 0.962, s = 0.957, s = 1.85, PRESS = 42.38) (d) Hacer una tabla de ANOVA que incluya el valor de F y p. (Completar la tabla
8-85
Tabla de ANOVA. (Elaboracin propia) __________________________________________________________________ Fuente g.l. SS MS Fcalc. Ftab. Valor p __________________________________________________________________ Debido a la 1 694.16 regresin Error 27.44 3.43 Total 9 721.60 __________________________________________________________________ (e) Hacer un diagnstico grfico para validar la autenticidad del modelo de regresin seleccionado. Sugerencia: usar el programa Minitab. 8.30. Treinta casos del efluente de una planta de tratamiento se analizaron para el DBO y el DQO. Los datos se muestran en la tabla de abajo. Hacer los siguientes clculos: Tabla mostrando los datos del problema. (Elaboracin propia) DQO (lbs/Da)| 494 444 528 396 532 308 350 456 440 544 310 538 | 480 500 396 486 556 600 428 440 291 490 546 582 | 368 386 400 347 278 304 DBO (lbs/Da | 216 200 238 164 230 116 150 190 190 248 120 226 | 200 222 176 202 240 280 184 194 134 215 246 292 | 177 193 165 160 125 137 __________________________________________________________________ (a) Determinar R2 y R. (R2 = 0.9350, R = 0.967) (b) Graficar los datos en papel de probabilidad y determinar lo siguiente: (1) Determinar los valores de DBO y el DQO que excedern el 50% y el 90% de las veces. (195 lbs/Da y 440 lbs/Da) (2) Determinar los valores de DBO y del DQO que se lograrn el 90% de las veces.
8-86
(3) Determinar los valores de DBO y del DQO que puedan ser excedidos el 10% de las veces. (260 lbs/Da y 580 lbs/Da) (4) Calcular el promedio y la desviacin estndar del DBO y del DQO. (c) Evaluar el modelo de regresin aplicando enfoques subjetivistas, es decir, con grficas de los valores residuales en funcin de valores ajustados (para la prueba de independencia), pruebas de normalidad, etc. 8.31. Este es un problema adaptado del libro Introduccin al Anlisis de Regresin Lineal de los autores Montgomery, Peck y Vining (2001). Este proyecto est relacionado con un estudio de energa solar en el Tecnolgico de Georgia, Estados Unidos. El proyecto involucra datos de pruebas de energa trmica con una variable dependiente (y), que relaciona al flujo total de calor (Kwatts) y cinco variables independientes que estn relacionadas con la insolacin (watts/m2), la posicin del foco en direccin del este (en pulgadas), la posicin del foco en direccin del sur (en pulgadas), la posicin del foco en direccin norte (en pulgadas) y la hora del da. Para esto, estimar los siguientes enunciados: (a) Probar el modelo de regresin que mejor ajuste a los datos. (b) Evaluar el modelo de regresin seleccionado, es decir, a travs de criterios estadsticos y complementar la decisin usando grficos subjetivistas. La tabla de abajo muestra la informacin requerida para solucin todos los enunciados requeridos por este problema.
8-87
Tabla mostrando los datos de las pruebas de energa solar trmica.

__________________________________________________________________________________ y x1 x2 x3 x4 x5 __________________________________________________________________________________
271.8 264.0 238.8 230.7 251.6 257.9 263.9 266.1 229.1 239.3 258.0 257.6 267.3 267.0 259.6 240.4 227.2 196.0 278.7 272.3 267.4 254.5 224.7 181.5 227.5 253.6 263.0 265.8 783.35 748.45 684.45 827.80 860.45 875.15 909.45 905.55 756.00 769.35 793.50 801.65 819.65 808.55 774.95 711.85 694.85 638.10 774.55 757.90 753.35 704.70 666.80 568.55 653.10 704.05 709.60 726.90 33.53 36.50 34.66 33.13 35.75 34.46 34.60 35.38 35.85 35.68 35.35 35.04 34.07 32.20 34.32 31.08 35.73 34.11 34.79 35.77 36.44 37.82 35.07 35.26 35.56 35.73 36.46 36.26 40.55 30.19 37.31 32.52 33.71 34.14 34.85 35.89 33.53 33.79 34.72 35.22 36.50 37.60 37.89 37.71 37.00 36.76 34.62 35.40 35.96 36.26 36.34 35.90 31.84 33.16 33.83 34.89 16.66 16.46 17.66 17.50 16.40 16.28 16.06 15.93 16.60 16.41 16.17 15.92 16.04 16.19 16.62 17.37 18.12 18.53 15.54 15.70 16.45 17.62 18.12 19.05 16.51 16.02 15.89 15.83 13.20 14.11 15.68 10.53 11.00 11.31 11.96 12.58 10.66 10.85 11.41 11.91 12.85 13.58 14.21 15.56 15.83 16.41 13.10 13.63 14.51 15.38 16.10 16.73 10.58 11.28 11.91 12.65
263.8 697.15 37.20 36.27 16.71 14.06 ___________________________________________________________________________________________ y = Flujo total de calor (kwatts); x1 = Insolacin (watts/m2); x2 = Posicin del foco en direccin este (pulgadas); x3 = Posicin del foco en direccin sur (pulgadas); x4 = Posicin del foco en direccin norte (pulgadas); x5 = Hora del da
Fuente: Introduccin al Anlisis de Regresin Lineal. Montgomery et al. 2001.
8-88
8.32. La intencin de este ejercicio es la de hacer una grfica, con la variable de respuesta (Y) y con cuatro variables regresivas (X1, X2, X3, X4) usando el programa Minitab. Siendo as, de la configuracin de los puntos esparcidos obtenida predecir, qu tipo de funcin de regresin estadstica encajara mejor en los datos. Adems, evaluar el modelo de regresin candidato o superior usando mtodos estadsticos y grficos. Sugerencia: para hacer la grfica pedida, usar el programa Mintab procediendo de la siguiente manera: Irse a Graph Draftsman Plot. Esto lleva al recuadro de Draftsman Plot. Enseguida, en la ventanilla de Y variable poner la variable dependiente (Y) y, en la ventanilla de X variable poner las variables independientes (X). Tabla mostrando los datos de este problema. (Elaboracin propia).
______________________________________________________________________________
Variable de respuesta (Y) Variable regresiva X1 Variable regresiva X2 Variable regresiva X3 Variable regresiva X4
235 231 285 270 296 312 295 292 263 271 283 256
20 27 40 55 60 68 75 80 70 50 40 30
19 17 20 20 20 21 20 20 20 15 15 15
86 85 83 82 87 89 83 81 58 79 80 79
95 90 105 83 90 94 92 92 105 100 90 88
8.33. Este es un problema adaptado del texto de Jay L. Devore (2001), en el cual se da la informacin requerida para la seleccin del modelo de regresin superior, basado en la inclusin del nmero de variables regresoras, seleccionado entre
8-89
cuatro modelos candidatos. El ejemplo est relacionado con el calor acumulado del endurecimiento del cemento tomado como la variable dependiente, en funcin de los predictores x1 = % de aluminato de tricalcio, x2 = % de silicato de tricalcio, x3 = % ferrato de aluminio y x4 = silicato de dicalcio. Se da un tamao de muestra igual a 13 observaciones y, donde la suma de los cuadrados del total es igual a 2,715.76. Para esto, se pide al lector llenar los faltantes de la tabla de abajo y decidir cual es el modelo superior que tiene el nmero adecuado de variables regresoras. Tabla mostrando la informacin. Llenar los faltantes.
No. de regresores k 1 2 3 4 Regresor (es)k x4 x1, x2 x1, x2, x3 x1, x2, x3, x4 SSEk 880.85 58.01 R2k 0.676 0.982 R2(ajustada)k 0.647 0.876 0.982 Cpk 138.2 2.7 3.2 4.0 F(calc.)k
8-90
CAPITULO 8 Regresin lineal simple y mltiple

Suposiciones del modelo de regresin lineal.- Ecuaciones normales para calcular el intercepto en la ordenada a y la pendiente b de la curva o lnea de regresin.- Coeficiente de determinacin mltiple R2 de la muestra que estima a 2 el coeficiente de determinacin poblacional.- Coeficiente de correlacin R de la muestra que estima a , el coeficiente de correlacin poblacional.Intervalo de confianza para el coeficiente poblacional componente de la lnea de regresin Y|X = + X, estimado por b, la pendiente de la lnea.Intervalo de confianza para el parmetro poblacional , el intercepto de la ordenada de la lnea de regresin Y|X = + X, cuyo estimador es a.- Hiptesis nula de Ho: = o contra las hiptesis alternativas de H1: < 1 y H2: > 1.Hiptesis nula de Ho: = o contra las hiptesis alternativas de H1: o, H2: > o, y de H3: < o.- Intervalo de confianza para Y|X de la lnea de regresin poblacional estimada por Y.- Regresin y correlacin mltiple.- Mtodos para validar el modelo de regresin lineal simple y mltiple: a travs de estadstica de inferencias y a travs del anlisis grfico de los residuales estandarizados. Procedimiento de regresin mltiple usando el programa Minitab.El objetivo de estudiar regresin lineal simple es para obtener el modelo de regresin ms apropiado, es decir, una ecuacin de regresin lineal simple o mltiple para fines de prediccin y estimacin. Los componentes de esta ecuacin de regresin lineal, con solo una variable independiente, tambin llamado modelo lineal de primer orden, son la variable dependiente Y o funcin de respuesta y, la variable independiente X. El modelo de esta ecuacin, que describe la relacin de la variable X con la variable Y, se llama la ecuacin de regresin de Y sobre X y, la grfica de esta funcin, se llama la curva de regresin.
8-1
El modelo de regresin lineal poblacional que describe la relacin entre la respuesta o variable dependiente Y y, la variable independiente o regresora X es: Y = o + 1x1 + Donde: Y = variable dependiente poblacional (tambin se usa la anotacin y) o = intercepto en la ordenada 1 = pendiente de la lnea x1 = variable independiente = error aleatorio con promedio de 0 y varianza 2 constante. Este valor de es la diferencia entre el valor terico de Yi y el valor de Y calculado u observado. Las condiciones de son de que este parmetro debe estar normalmente distribuido; sus valores deben de ser independientes uno del otro y la varianza de es Var() = 2 n = nmero de (x, y) pares de observaciones La ecuacin de la lnea de regresin muestral que estima a modelo de regresin poblacional (8-1) de arriba se da como: Y = a + bx + e Donde: Y = valor de la variable dependiente de la muestra a = intercepto en la ordenada b = pendiente de la lnea e = error o residual de la muestra denotado por ei = yi - Yi. Esta estadstica es la estimadora del parmetro (8-2) i = 1, 2, ., n (8-1)
8-2
Suposiciones del modelo de regresin lineal 1. Los valores de Y son independientes uno del otro, es decir, no deben de estar correlacionados. 2. Las distribuciones condicionales de probabilidad de Y dado X son normales. 3. La varianza del error es 2 y es constante. 4. Los coeficientes o y 1 son desconocidos y deben de estimarse. Para estimar la ecuacin de regresin lineal simple y mltiple se usa lo que se llama el mtodo de los cuadrados mnimos que ajusta los datos de la muestra a la lnea de regresin. Esta es una de las tcnicas ms usadas en investigaciones cientficas, para encontrar la relacin entre dos o ms variables que estn casualmente relacionadas. En esta seccin veremos el problema de regresin lineal de una variable dependiente (Y) otra independiente (X), con fines de prediccin y estimacin. Sin embargo, una vez que se obtiene la ecuacin de regresin lineal, sta se tiene que evaluar o validar para ver qu tanta confiabilidad se le puede poner al modelo para usos de prediccin. Esto se hace usando enfoques objetivos y subjetivos. Por ejemplo, el enfoque objetivo se hace haciendo pruebas estadsticas de inferencia. Este enfoque se complementa usando enfoques subjetivos, es decir, analizando las grficas de los residuales estandarizados o no estandarizados, a travs de inspecciones visuales. Por ejemplo, las condiciones o suposiciones requeridas para validar el modelo, subjetivamente, se hace a travs de los anlisis de los residuos crudos o estandarizados (para diferenciarlos de los residuos estandarizados). Los llamados residuos se definen como las diferencias entre el valor actual de Y y el valor pronosticado de Y por el modelo de regresin estimado. Los residuos se denotan por ei, esto es, ei = Yi Yi. En verdad, las grficas de los residuos dan informacin
8-3
muy importante, acerca de la naturaleza y fuerza de la relacin entre las variables. La figura de abajo muestra los residuos que son las diferencias entre los valores de Y1, Y2, Y3,,Yk y los valores observados de Y1, Y2, Y3,,Yk de la lnea de regresin de la muestra. Por otra parte, los residuos estandarizados se obtienen dividindolos por sus respectivas desviaciones estndares.
Figura. 8.0. Grfica mostrando los residuos de un ejemplo. (Elaboracin propia) Las suposiciones de los valores residuales son: (a) Los residuales ei estn normalmente distribuidos (i estn normalmente distribuidos). (b) Los residuos tienen la misma varianza (i son constantes). (c) Los residuales ei no estn correlacionados, es decir, son independientes. Otro mtodo menos popular que el anlisis de los residuos, para evaluar la ecuacin de regresin es comparando el diagrama esparcido de los puntos, con respecto a la lnea de regresin, con la grfica de los puntos con respecto al promedio de y . Esto se debe a qu, sin importar el valor de X, el promedio y siempre permanece constante (lnea horizontal trazada en el diagrama esparcido de la grfica). De esta manera, si la dispersin de los puntos con relacin a la lnea de
8-4
regresin es mucho menor, que la dispersin de los puntos con respecto a la lnea horizontal de y , entonces, se puede concluir que la ecuacin de la lnea de regresin da un buen ajuste para los datos de la muestra (Daniel et al. 1989). Como se dijo antes, el enfoque objetivista es la otra manera que se usa para evaluar el modelo de regresin lineal, esto es, a travs de anlisis estadsticos. Para esto, se pueden usar las siguientes funciones estadsticas: (a) Coeficiente de determinacin lineal R2 (o r2), el coeficiente de correlacin lineal R, s y PRESS. (b) Anlisis de varianza simple (ANOVA), para probar los coeficientes del modelo de regresin (), para , etc. (c) Intervalos de confianza para 2, para o, i, y|x, etc. Tipos de correlacin lineal 1. Correlacin simple que consiste de dos variables, una dependiente (Y) y la otra independiente (X). Dentro de esta categora tenemos: (a) Correlacin directa. Esta correlacin consiste en el incremento en una variable la cual es acompaada por el incremento de otra variable (correlacin positiva). (b) Correlacin inversa. Esta correlacin consiste en el incremento de una variable la cual es acompaada por el incremento de otra (correlacin negativa). (c) Correlacin no lineal. En esta correlacin no hay ninguna asociacin entre las dos variables. 2. Correlacin mltiple. Aqu, hay ms de dos variables. Una variable es dependiente (Y), mientras que las otras son independientes X1, X2,, Xk, etc. Las figuras de abajo representan varios tipos de correlaciones.
8-5
Fig. 8.1. Diagramas esparcidos con lneas de cuadrados mnimos. La Figura (a) representa una lnea recta con X fija; la Figura (b) representa lnea no recta con X fija; la Figura (c) representa una distribucin adjunta con lnea recta; la Figura (d) representa una distribucin adjunta con lnea no recta; la Figura (e) representa un diagrama donde no hay asociacin entre las dos variable y; la Figura (f) representa una relacin causal. Las otras dos grficas representan correlaciones perfectas. (Elaboracin propia)
8-6
Tipos de curvas ms comunes
Figura 8.2. La figura (a) representa la funcin exponencial; la figura (b) representa la funcin de potencia, la figura (c) representa una funcin recproca y, la figura (d) representa una funcin hiperblica. (Elaboracin propia)
8-7
Ecuaciones normales para calcular el intercepto en la ordenada a y la pendiente b de la curva o lnea de regresin Las variables a y b se obtienen de las ecuaciones normales de abajo, es decir, resolvindolas simultneamente: Y = a n + b X XY = a X + b X la lnea, b: Intercepto = a = Y b X Pendiente = b = [n XY (X)(Y)] / [n X 2 (X)2 ] = xy / x2 Donde: xy y x2 se dan por las ecuaciones (8-8) y (8-9) de abajo. Nota 1. Las siguientes ecuaciones son muy importantes. x2 = Sxx = X 2 (X)2 / n xy = Sxy = XY XY / n y2 = Syy = Y 2 (Y)2 / n minsculas y las maysculas en las ecuaciones de arriba. Coeficiente de determinacin R2 de la muestra que estima a 2 el coeficiente de determinacin poblacional El clculo del coeficiente de determinacin mltiple R2 es una prueba objetivista de estadstica. Esta es una funcin estadstica muy importante, para validar el modelo de regresin lineal. Este coeficiente R2 mide la proporcin de variacin en la variable dependiente Y explicada por la variable independiente X. Los valores de R2 varan de 0 a 1. Por ejemplo, un valor cercano a 0 indica que no hay una
8-8
(8-3) (8-4)
Al resolverse simultneamente dan el intercepto, a en la ordenada y, la pendiente de (8-5) (8-6) (8-7)
(8-8) (8-9) (8-10)
Nota 2. Es muy importante notar las diferencias entre el uso de las variables
relacin lineal entre Y y X, mientras que un valor cercano a uno indica un ajuste lineal perfecto. Aqu, sin embargo, es necesario aclarar que, un valor alto de R2, no necesariamente indica un buen ajuste del modelo de regresin, sino hasta que se hacen todas las pruebas objetivistas y subjetivas. La funcin que calcula R2 es: R2 = (xy)2 / x2y2 = 1 SSe / SSt (8-11) (8-12)
Donde xy, x2 y y2 se dan por las ecuaciones (8-8), (8-8) y (8-10) descritas para la ecuacin (8-11). Adems, para la ecuacin (8-12) SSe es la suma de los cuadrados del error o residual y SSt es la suma de los cuadrados del total, mismos que se describen en el formato de la tabla de ANOVA. Tambin hay el llamado coeficiente R2 de determinacin ajustado. Esta es una versin ajustada de R2, el cual busca remover la distorsin debida a un tamao de muestra pequeo. Se define como: R2ajustada = 1 [(1 R2) (n 1)/(n 2)] Donde R2 ya se defini y n es el tamao de la muestra Coeficiente de correlacin R de la muestra que estima a , el coeficiente de correlacin poblacional El coeficiente de correlacin R, que estima a , tambin se llama coeficiente de correlacin de Pearson. Este coeficiente es un ndice de la fuerza de la asociacin lineal entre las variables X e Y. El coeficiente de correlacin R es: R= (8-13)
xy x y
2
(8-14)
Donde: xy, x2 y y2 se dan por las ecuaciones (8-8), (8-9) y (8-10) Nota: El coeficiente de correlacin R explica el grado de asociacin entre las variables X e Y. Este coeficiente R vara de 1 a 0, si la correlacin es negativa, es
8-9
decir, con pendiente negativa. Pero, si la correlacin es positiva, entonces, R vara de 0 a 1. As, a medida que R se aproxima a 1, mejor asociacin habr entre las variables X e Y. Ntese que, en caso de la regresin lineal mltiple, tenemos lo que se llaman coeficientes parciales de regresin usados para medir la relacin lineal entre la variable dependiente y la variable independiente especificada. Intervalo de confianza para el coeficiente poblacional componente de la lnea de regresin Y|X = + X, estimado por b, la pendiente de la lnea. b t[1-/2;n-2] s / Donde: b = xy / x2 t[1-/2;n-2] = valor de la distribucin de t de Estudiante x2 = X2 (X)2 / n s=
( y b xy )
2
< < b + t[1-/2;n-2] s /
(8-15)
n2
(8-16)
= SSE/(n 2) =
y ( y )
2
- (bXY - XY/n)] / n-2 (8-17)
La ecuacin de la varianza es: s2 = (y2 bxy) / (n 2) xy / x2 o sea el coeficiente de la lnea de regresin muestral.
= coeficiente poblacional de la pendiente de la lnea, el cual es estimado por b = Intervalo de confianza para el parmetro poblacional , el intercepto de la ordenada de la lnea de regresin Y|X = + X, cuyo estimador es a
(8-18) Donde:
8-10
a ya se defini anteriormente t[1-/2;n-2] = a un valor usando la distribucin de t de estudiante con = n 2 grados de libertad s = de la ecuacin (8-16) Sxx = xy (de la ecuacin (8-9)) Hiptesis nula Ho: = o contra las hiptesis alternativas H1: < 1 y H2: > 1. Para esta prueba tambin se usa la distribucin de t de Estudiante con = n 2 grados de libertad, es decir: t = (b o) / s/x2 Donde: t = la estadstica de la distribucin de t de Estudiante o = un valor dado b = pendiente de la lnea Hiptesis nula Ho: = o contra las hiptesis alternativas H1: o, H2: > o, y H3: < o Aqu, nuevamente, se usa la distribucin de t de Estudiante con grados de libertad, = n 2. Para esto se usa la frmula de abajo: (8-19)
(8-20)
8-11
Donde: o = un valor dado s = ya definida anteriormente a ya se defini anteriormente Intervalo de confianza para Y|X de la lnea poblacional estimada por Y El intervalo de confianza para el valor de Y|X se hace es usando la frmula (8-21) de abajo:
Yo t[/2;] s
1 1 + (Xo - X )2/x2 < Y|X < Yo+ t[/2;] s + (Xo - X )2/x2 n n
(8-21)
Donde: Yo = a + b Xo = valor de la lnea de regresin con un valor de Xo dado 0.01 con = n 2 grados de libertad a = ya definida anteriormente s = ya definida anteriormente Xo = un valor dado
X = promedio de la muestra
(8-22)
t[/2;n-2] = valor de la distribucin de t con un nivel de significancia de = .05 o bien
Hiptesis nula Ho: = 0 contra las hiptesis alternativas H1: > 0 y H2: < 0 Para hacer esta prueba usamos la distribucin de t de Estudiante con = n 2 grados de libertad. La funcin estadstica usada para tales fines es: t = (b bo) / s / Donde: s = ya definida anteriormente
8-12
(8-23)
b = intercepto en la ordenada Y bo = un valor dado y2 = Y2 (Y)2/n xy = XY XY/n o = 0 Aqu, tambin se tienen que calcular las regiones crticas usando la distribucin de t, es decir, t[1-/2;], donde es el nivel de significancia deseado y, es el nmero de grados de libertad, es decir, n - 1. Despus de esto, se compara el valor de tcalc., con el valor crtico de ttab. y se sigue el mismo procedimiento para cualquier prueba de hiptesis. Hiptesis nula de Ho: = o contra las hiptesis alternativas H1: > 0 y H2: < 0 Para hacer esta prueba de hiptesis se usa la estadstica de t de Estudiante mostrada abajo:
(8-24) Donde: s = ya definida anteriormente Donde: y2 = Y2 (Y)2/n xy = XY XY/n b = ya definida anteriormente Aqu, tambin se tiene que establecer las regiones crticas usando la distribucin de t de Estudiante. Estas regiones crticas son: t[1-/2;], donde es el nivel de significancia usado.
8-13
Pruebas de hiptesis Ho: = 0, contra la hiptesis alternativas H1: 0, para el coeficiente de correlacin poblacional estimado por R. (Dunn et al. 1974) Para estos fines se usa la estadstica de t de Estudiante: t= R/ Donde: R = xy /
1 R
2
(8-25)
x y
2
(8-26)
= n 2 grados de libertad Aqu, nuevamente, para calcular las regiones crticas se usa la t de Estudiante, es decir, t[/2;n-2]. Ejemplos de problemas usando regresin y correlacin lineal simple Ejemplo #1. Este problema est relacionado con un estudio acerca de la cantidad de precipitacin pluvial y la cantidad de contaminacin atmosfrica. TABLA 8.0. Tabla mostrando los datos. (Elaboracin propia) ___________________________________________________________________ Lluvia (0.026) | 18 7 14 31 21 5 11 16 26 29 Remocin de contaminacin | 55 17 36 85 62 18 33 41 63 87 Hacer las siguientes estimaciones: (a) Identificar la variable dependiente y la variable independiente. Hacer una grfica que vaya en funcin de la variable dependiente Y, y la variable independiente X. (b) Calcular los valores de la estadstica descriptiva de los datos. (c) Obtener la ecuacin de regresin lineal simple y trazarla en la grfica. (d) Validar la confiabilidad del modelo de regresin, es decir, a travs de la emisin de un juicio subjetivo analizando los valores de los residuos estandarizados, de la siguiente manera: 1. Hacer una grfica que muestre la prueba de normalidad.
8-14
2. Hacer una grfica con los residuales estandarizados versus valores ajustados de Y . (El valor predecido o ajustado de Y i es el valor de Y que se esperara cuando se usa la lnea de regresin. En otras palabras, los valores ajustados de Y 1, Y 2,.., Y n se obtienen sustituyendo, sucesivamente, x1, x2, .., xn en la ecuacin de la lnea de regresin estimada: Y i = o + 1xi, .., o + 1xn. 3. Hacer un histograma de residuales. 4. Hacer una grafica que muestre los residuales estandarizados versus renglones. (e) Complementar la evaluacin del modelo con inferencias estadsticas, como: 1. Clculo del coeficiente de determinacin R2 y el coeficiente de correlacin R. 2. Hacer una tabla de anlisis de varianza (ANOVA). 3. Hacer una tabla con los coeficientes, los errores estndares, las pruebas de t, los valores de p, y los intervalos de confianza para el intercepto y la pendiente. Solucin: (a) La variable dependiente es la remocin de contaminantes (Y) y la variable independiente es la cantidad de lluvia (X). La figura de abajo muestra esta solucin:
Figura 8.3. Grfica mostrando Y versus X, con una lnea recta horizontal correspondiente al valor del promedio de Y = 49.7000. (Elaboracin propia) (b) Los valores de la estadstica descriptiva son:
X = 17.8000, Y = 49.7000. Los valores mximos y mnimos de los valores de Y son
8-15
87.000 y 17.000, respectivamente. Los valores mximos y mnimos de los valores de X son 31.000 y 5.0000, respectivamente. Cuadrado medio del error = s2y|x = 26.667; error cuadrtico medio es sy|x = 5.164 (c) Usando un programa de computadora se estiman los valores del intercepto en la ordenada y la pendiente. Estos son: intercepto = a = 1.0213, pendiente de la lnea = b = 2.7348. Sustituyendo estos valores dan la lnea de regresin muestral (misma que se ve en la Figura 8.3), da. Y = a + bX Y = 1.0213 + 2.7348(X) (d) Para este inciso la Figura 8.4 muestra la informacin requerida.
Residual Plots for Remocion de contaminatnes (Y)
99 90 Residual Percent 50 10 1 -10 -5 0 Residual 5 10 5 0 -5 -10
20
40 60 Fitted Value
80

3 Frequency Residual -8 -4 0 Residual 4 2 1 0

5 0 -5 -10
4 5 6 7 Observation Order
10
Figura 8.4. Grficas mostrando las respuestas para el inciso (d). Como se ve en la Figura 8.4 la figura superior izquierda muestra la prueba de normalidad con todos los puntos formando una linea recta. Esto indica que la
8-16
distribucin de los datos es normal. Igualmente, la figura superior derecha muestra los residuales en funcin de los valores ajustados de Y. Aqu, hay aleatoriedad en la distribucin de los puntos con la misma cantidad de puntos negativos y positivos, lo que indica que no hay correlacion de los datos. La figura inferior izquierda muestra la frecuencia versus los residuales. Finalmente, la figura inferior derecha muestra los residuales en funcin de los rdenes de las observaciones. Aqu, en esta figura hay aleatoriedad y el mismo numero de puntos positivos y negativos, lo que sugiere que no hay colinealidad o correlacion en serie de la informacin suministrada. (e) Para complementar el estudio objetivista, esto se hace haciendo pruebas estadsticas de inferencia. (1) Como se dijo antes, el coeficiente de determinacin R2 es un enfoque objetivista, que sirve para validar el modelo de regresin. Este coeficiente de determinacin R2, mide la fuerza relativa de la relacin lineal entre X e Y (mide la proporcin de variacin en Y que puede ser explicada por la variacin en X) es dado por la ecuacin (8-11) y por las ecuaciones (8-6), (8-7) y (8-8), respectivamente: R2 = 0.9620 El clculo del coeficiente de correlacin R es: R=
R 2 = 0.9808
(2) Para el anlisis de varianza (ANOVA), que tambin sirve para validar el modelo de regresin, es una funcin estadstica objetivista que prueba la hiptesis nula de que la pendiente es igual a 0. Aqu se ver que, un valor grande de F indica que el modelo de regresin seleccionado es util. Sin embargo, es necesario analizar todos los dems criterios antes de emitir un juicio final. La tabla de ANOVA de abajo da los resultados.
8-17
TABLA 8.1. Tabla de anlisis de varianza (ANOVA) para el ejemplo. (Elaboracin propia) __________________________________________________________________ Fuente de Suma de los g.l. Cuadrado del Fcalc. Ftab. Valor de p variacin cuadrados promedio __________________________________________________________________ Debido al 5,396.77 1 5,396.77 202.38 5.32 0.00001 tratamiento Residual (error) 213.33 8 26.67 ___________________________________________________________________ Total 5,610.1 9 El valor de Ftab. se saca consultando la tabla de la distribucin de F, esto es F;1,2, el cual da F.95;1,8 = 5.32. Aqu, debido a que el valor de Fcalc. = 202.38 >>> 5.32, se rechaza la hiptesis sustentada de que Ho:1 = 0 y se inclina por Ho:1 0. La conclusin es de que la pendiente de la lnea no es igual a 0 u horizontal. (3) La tabla de abajo muestra los valores del intercepto en la ordenada, el gradiente de la lnea de regresin, los errores estndar, la pruebas de hiptesis usando la t de estudiante, los valores de la probabilidad p y los intervalos de confianza (95%) para o (intercepto) y 1 (pendiente). TABLA 8.2. Tabla mostrando los valores del intercepto, pendiente, pruebas de t de Estudiante, valor del nivel de p y sus intervalos. (Elaboracin propia) __________________________________________________________________ Coeficiente Error Prueba t Valor p Lmite Lmite estndar inferior superior ___________________________________________________________________ Intercepto 1.02 3.79 0.27 0.79 -7.772 9.76 ___________________________________________________________________P endiente 2.73 0.19 14.23 5.8x10-7 2.29 3.18 __________________________________________________________________ Aqu, ntese que el intervalo de confianza para el intercepto es muy amplio y la hiptesis no se puede rechazar, puesto que el valor de t es muy pequeo y el valor de
8-18
p = 0.79 es grande. Esto es apoyado por el valor de 0.79 de p y por un error estndar de 3.79, relativamente grande; lo contrario ocurre con las pruebas estadsticas de la pendiente, cuyo valor de t es grande y cuyo valor de p es muy pequeo. Ejemplo #2. En un estudio de microbiologa ambiental, en muestras de agua, se dieron los siguientes datos de la tabla de abajo. Estos datos se refieren al crecimiento de una colonia de bacterias en un medio de cultivo. TABLA 8.3. Tabla mostrando los datos. (Elaboracin propia) Tiempo en das de | 3 6 9 12 15 18 inoculacin (X) __________________________________________________________________ No. bacterias (Y) | 115,000 147,000 189,000 235,600 257,900 286,400 Hacer los siguientes clculos: (a) Calcular la lnea de regresin. (b) Calcular el coeficiente de determinacin R2 y el coeficiente de correlacin R. (c) Con la ecuacin de regresin, estimar el nmero de bacterias despus de 20 das (d) Encontrar los intervalos de confianza para y usando el paquete de EXCEL. (e) Usar el programa Minitab y estimar los valores residuales y analizarlos subjetivamente, para revisar por la calidad del modelo de regresin. Solucin: (a) La ecuacin de la lnea de regresin es: Y = 81,520.00 + 11,774.29 X (b) El coeficiente de determinacin lineal mltiple R2 es igual a 0.9880. El coeficiente de correlacin R es igual a 0.9940. (c) Cuando X = 20 das, el nmero de bacterias es de: Y = 81,520 + 11,774.29 (20) 317,006 bacterias (d) En cuanto a los intervalos de confianza para y , el programa de computadora de
8-19
EXCEL arroja los siguientes resultados: Intervalo de confianza de 95% para : 61,259.45 < < 101,780.6; valor de la probabilidad p = 0.0004; Intervalo de confianza de 95% para es: 10040.14 < < 13508.43, con un valor de la probabilidad p = 0.000046 (e). Las figuras de abajo muestran las grficas que tratan de validar el modelo de regresin lineal, con del nmero de bacterias en funcin del tiempo de incubacin.
Figura 8.5. Figuras mostrando los resultados del nmero de bacterias versus el tiempo de incubacin. La grfica (a) muestra la relacin entre Y y X, con la lnea recta de Y ; la grfica (b) muestra los residuos crudos versus X; la grfica (c) muestra los residuos crudos versus los renglones y, la grfica (d) muestra los residuos crudos versus residuos rezagados (Elaboracin propia).
8-20
Todas estas grficas sugieren, subjetivamente, que el modelo de regresin lineal es confiable. Por qu? Ejemplo #3. En un estudio de agricultura, relacionado con la siembra de algodn, en cierto estado de la Unin Americana, la precipitacin anual y el rendimiento de la cosecha de algodn son como sigue. TABLA 8.4. Tabla mostrando los datos. (Elaboracin propia) Precipitacin | 7.12 en pulgadas (X) Rendimiento de | 1037 la cosecha en libras/acre (Y) 63.54 380 47.38 416 45.92 427 8.68 619 50.86 388 44.46 321
Hacer los siguientes clculos: (a) Calcular los valores del intercepto a y la pendiente b. (b) Escribir la ecuacin de la lnea de regresin. (c) Calcular el coeficiente de determinacin R2 y el coeficiente de correlacin R. (d) Predecir el rendimiento de la cosecha de algodn, si la precipitacin es de 30 pulgadas. (e) Hacer una tabla de anlisis de varianza. Solucin: (a) Usando un paquete de computadora como el Excel da: Intercepto en la ordenada = a = 880.40 Pendiente de la lnea = b = -9.61 (b) Por lo tanto, la ecuacin de la lnea de regresin es: Y = 880.40 9.61 (X) (c) El coeficiente de determinacin = R2 = 0.6991
8-21
El coeficiente de correlacin = R = 0.8361 (d) Cuando la precipitacin de lluvia es de 30 pulgadas, el rendimiento de la cosecha se calcula usando el modelo de regresin obtenido, es decir sustituyendo el valor de X = 30. De esta manera, usando la ecuacin de regresin dada arriba y sustituyendo el valor de X = 30 nos da: Y = 880.4 9.61 (30) = 592.1 (e) La tabla de anlisis de varianza dada por el paquete Excel se da abajo. TABLA 8.5. Tabla de anlisis de varianza (ANOVA). (Elaboracin propia) Fuente de variacin Debido a la Regresin Residuo Total g.l. SS MS 22,433.11 Fcalc. Ftab. 5.32 Valor de p 0.019
1 260,628.2 260,628.2 11.62 5 112,165.5 6 372793.7
En conclusin, al comparar el valor de la estadstica calculada F con el valor crtico de F se rechaza la hiptesis sustentada con un valor de p igual a 0.019. Ejemplo #4. El libro Applied Statistics: Anlisis of Variance and Regression de Dunn y Clark (1974) describe un estudio de fsica, es decir, de ptica, donde se obtuvieron los datos de abajo que muestran los dimetros de las fibras pticas (en micras) en funcin de la fuerza de rompimiento de stas. Para este problema hacer los siguientes clculos (a) Hacer todos los calculos preliminares y calcular la ecuacin de la lnea de regresin muestral que estima a la ecuacin de regresin poblacional Y|X = + X. (b) Usando un paquete de computadora, encontrar el intervalo de confianza para el coeficiente de regresin poblacional (intercepto en Y), que estima a a. (c) En forma anloga que con en el inciso (b), encontrar el intervalo de confianza para el coeficiente de regresin (la pendiente de la lnea) cuyo estimador es b.
8-22
(d) Probar la hiptesis nula de Ho: = o, es decir, = 0 contra la hiptesis alternativa de H1: > 0 y H2: < 0. Calcular el valor de la probabilidad p. (e) Hacer un intervalo de confianza para Y|Xo. (f) Calcular los criterios evaluadores del modelo de regresion, v. g., R2, PRESS y s. (g) Hacer una prueba de hiptesis para el coeficiente de correlacin poblacional . (h) Graficar los datos y trazar la ecuacin de la lnea de regresin sobre la grfica y trazar la lnea horizontal correspondiente al valor del promedio Y . (i) Emitir un juicio subjetivo que ayude a validar el uso del modelo de regresin. La tabla de abajo muestra los datos. TABLA 8.6. Tabla mostrando el dimetro de fibras vs. fuerza de rompimiento. Dimetro de la fibra (X) Log de la fuerza de rompimiento (Y)
22.5 .19 28.0 .62 27.5 .51 25.5 .53 22.0 .24 30.5 .87 23.0 .25 25.0 .25 23.5 .37 27.0 .32 21.5 .13 22.0 .35 29.0 .53 20.5 .22 27.0 .65 (Fuente: Dunn et al. 1974. Applied Statistics: Analysis of Variance and Regression)
Solucin: (a) Los clculos preliminares son:

8-23
n = 15, X = 374.5, (X)2/n = 9,350.0, Y = 6.03, (Y)2/n = 2.42, XY = 158.25, X

2
= 9,482.75, Y 2 = 3.03, (XY)/n = 2,258.24/15 = 150.55, X = 24.97, Y = 0.402,
x2 = X 2 (X)2/n = 9,482.75 9,350.0 = 132.75, xy = XY XY/n = 158.25 150.55 = 7.70, y2 = Y 2 (Y)2/n = 3.03 (6.03)2/15 = .6074 Para calcular la lnea de regresin de la muestra, primero calculamos manualmente, los coeficientes a y b de la lnea de regresin muestral que estiman a y . b = xy/x2 = 7.70/132.75 = .058 a = Y b X = 0.402 (0.058)(24.97) = -1.046 Por lo tanto, la lnea de regresin muestral es: y = a + b(X) y = -1.046 + 0.058(X) (b) El intervalo de confianza para es usando la funcin (8-18) o usando un paquete de computadora como Excel procediendo como: Tools Data anlisis Regression y OK. Enseguida, despus de que los datos se introdujeron en las columnas A y B de la hoja de Excel irse a la ventanilla de Input Y Range y Input X Range, lo que genera la TABLA 8.7 de abajo. TABLA 8.7. Tabla mostrando el valor del intercepto, la pendiente, los valores de t y p y los intervalos de confianza para y .
Por lo tanto, el intervalo de confianza para el intercepto () se lee de la tabla como: -1.5706 < < -0.5224 (c) En forma anloga el intervalo de confianza para se lee de la TABLA 8.7 como:
8-24
0.0788 > > 0.0371 (d) Para probar la hiptesis nula Ho: = o es decir, = 0, contra H1: > 0 y H2: < 0 usamos la distribucin de t de estudiante con = n 2 = 15 2 = 13 g.l. La frmula es: t = (b o) / s/ x2. Sustituyendo todos los valores de o = 0 y dems valores en la frmula de arriba da: t = (0.058 0) / 0.12/ 132.73 = 5.8 Las regiones crticas son: t = 2.16. En conclusin: debido a que tcalc. = 5.8 > ttab. = 2.16, se rechaza la hiptesis nula de Ho: = 0 y se inclina por H1: > 0. El valor de la probabilidad se calcula usando la frmula de interpolacin (6-10): (2 1)/(t2 t1) = (2 X)/(t2 tcalc.) Sustituyendo los valores apropiados de la tabla de t nos da: (.00001 - .00002)/(6.287 5.607) = (.00001 X)/(6.287 5.8) Lo que da X = p = .00002. Pero como la prueba es bilateral, lo multiplicamos por 2 y da p = .00004. Este valor apoya, muy contundente, la hiptesis alternativa de H1: > 0. (e) El intervalo de confianza para la variable dependiente de la lnea de regresin poblacional, Y|X estimada por Y, con nivel de significancia de = 0.05, dar varios valores a Xo. Para hacer esto, se usa la funcin de abajo: Yo - t[/2;n-2] s Donde:
X = promedio
1 1 +(Xo X )2/x2 < Y|X < Y + t[/2;n-2] s +(Xo X )2/x2 n n
(8-28)
t[/2;n-2] = valor de t con = n 2 g.l. t[.025;13] = 2.16 Xo = los diferentes valores que se le den a Xo para construir los lmites o bandas de
8-25
confianza para Y|X Ahora bien, con los valores de: a = -1.047, X = 24.97, x2 = 132.73, s = 0.12, t.0.25;13 = 2.16 y asignndole valores a Xo, digamos de 19, 28, 30.0, etc., se procede de la siguiente manera: Para Xo = 19.0; Yo = -1.047 + 0.058(19.0) = 0.055, etc. Enseguida, usando la frmula (8-28) y sustituyendo los valores, es decir, para Xo = 19 da:
.0552.16(0.12)
1 +(19.0-24.97)2/132.73 < < .055+2.16(0.12) 1 +(19.0-24.97)2/132.73 Y|19 15 15
El cual se simplifica a:
0.335 > Y|19 > 0.299
As se puede continuar dando diferentes valores de Xo y sustituyndolos, como se hizo arriba, para, finalmente, hacer las bandas de confianza para Y|X. (f) Para calcular los valores de R, R2, s y PRESS se pueden hacer con un paquete de computadora. Por ejemplo, si se hace manualmente, el coeficiente R se calcula usando la ecuacion (8-14), etc. De otra manera, si se usa el Mintab proceder como: Stat Regression Regression En la ventana de Response poner la variable dependiente, y en la ventana de Predictors poner la variable independiente. Tambin se pueden usar las ventanas de Graphs, Options y Results para obtener informacin adicional. Por ejemplo los valores de las estadsticas objetivistas de inferencia dadas por el programa son: R2 = 73.6%, R = 0.858, s = 0.1112, PRESS = 0.2204. Por ejemplo, el valor de R = 0.8576 indica indica una correlacin positiva que va de acuerdo con la pendiente positiva de la curva de .058. Los valores tan pequeos de s y de PRESS indican un buen ajuste de los datos al modelo de regresin. (g) Para la prueba de hiptesis Ho: = 0, es decir, para el coeficiente de correlacin poblacional, con = 0.05, contra la hiptesis alternativa de H1: 0, esto es, H2: > 0
8-26
y H3: < 0 se usan las siguientes estadsticas: (1) Usando la estadstica de t de Estudiante (8-25): t= Donde: R = ya definida Para calcular las regiones crticas se usa la distribucin de t, es decir, t[/2;n-2] = t.025;13 = 2.16 Entonces, usando la frmula de abajo y sustituyendo los valores da: R = xy / y R2 = 0.7396
n 2 R / 1 R
2
x y
2
= 7.701 /
(132.73)(0.6074) = 0.86
Ahora, usando la estadstica de abajo y sustituyendo da t=

n2
R/
1 R
t = 13 (0.86) / .2604 = 6.07 Si se desea sacar el valor de p se busca 6.07 en la tabla de la distribucin de t con = 13 y con = .05, lo que da .025 < p < .05. (h) Para graficar los datos aunados a la ecuacin de la lnea de regresin con una lnea horizontal correspondiente al valor del promedio Y se hace usando un paquete de computadora.
8-27
Figura 8.6. Grfica mostrando la fuerza de rompimiento (log10) en funcin del dimetro de la fibra, con la ecuacin de la linea de regresin Y = -1.046 + 0.058(X) y con el promedio Y = 0.402. (Elaboracin propia). (i) Emitir un juicio subjetivo que ayude a validar el uso del modelo de regresin. Para responder a esta pregunta se hacen los siguientes grficos:
2
-1
-2 2 4 6 8 10 12 14
Observation Order
Figura 8.7a. Grfica mostrando los residuos estandarizados versus el orden de la observacin. Esta es una grfica que muestra todos los residuales en el orden en el cual los datos fueron coleccionados. Aqu hay el mismo nmero de datos positivos y negativos. Esta grfica tambin sirve para encontrar errores no aleatorios, especialmente, en efectos relacionados con el tiempo.
8-28

2
-1
-2 0.1 0.2 0.3 0.4 0.5 0.6 0.7
Fitted Value
Figura 8.7b. Est grfica muestra los residuales versus valores ajustados. Para que el modelo de regresin sea aceptable, se requiere que: los puntos en la grfica sean aleatorios en ambos lados de 0; no debe haber series de puntos que aumenten o disminuyan; no debe haber predominancia de residuales positivos o negativos, ni tampoco debe haber patrones de residuales que aumenten con valores ajustados que aumenten. Como se ve, todas estas condiciones estn bien sustentadas.
2
Normal Score
-1
-2 -2 -1 0 1 2
Figura 8.7c. Grfica mostrando la prueba de normalidad. Los datos deben formar una lnea recta si los residuales estn normalmente distribuidos (situacin que ocurre aqu). De otra manera, la suposicin de normalidad se invlida.
8-29
Como se observa en estas grficas, la emision de un juicio subjetivo es aceptable, porque el modelo de regresin seleccionado ajusta bien los datos. Esto se debe a que, en la Figura 8.7a hay aleatoridad en los datos, es decir, con el mismo nmero de valores positivos y negativos. Adems, en la Figura 8.7b la descripcin de sta, sugiere un modelo de regresin representativo de la informacin dada. Situacin similar ocurre con la descripcin de la Figura 8.7c. Ejemplo #5. En un estudio de ingeniera del agua relacionado con las reducciones de los slidos suspendidos, en funcin de la demanda qumica de oxgeno (DQO), se sac una muestra aleatoria, cuyos datos se dan en la tabla de abajo. Para lo siguiente: (a) Identificar la variable dependiente y la independiente y hacer una grfica de DQO versus reduccin de slidos. (b) Calcular la ecuacin de la lnea de regresin. (c) Hacer una tabla de anlisis de varianza que incluya la F crtica y el valor de p. (d) Validar el modelo candidato, a travs de estadsticas como R2, PRESS, s y de la estadstica de Durbin-Watson (para la prueba de autocorrelacin de residuales). (e) Evaluar la utilidad del modelo a travs de grficos subjetivos: TABLA 8.8. Tabla mostrando las mediciones de slidos y la demanda qumica de oxgeno. (Elaboracin propia) __________________________________________________________________ Slidos supendidos DQO ___________________________________________________________________ 30 29 33 37 25 32 29 27 31 36 25 31 30 30 33 30 35 31 29 28 32 29 30 30 29 30 34 30 36 30 28 29 34 29 34 29 34 31 36 29 31 30 33 30 35 28 30 28 28 31 36 28 33 32 26 30 34 28 30 31 27 32 36 27 31 32 27 32 34 26 29 31 Solucin:
8-30
(a) La variable dependiente es DQO y la variable independiente es reduccin de slidos suspendidos. La figura 8.8 de abajo muestra las concentraciones de DQO versus reduccin de slidos suspendidos.
Figura mostrando la grafica de DQO y solidos suspendios.
35
DQO (Y)
30
25 27 32 37
Solidos suspendidos (X)
Figura 8.8. Grfica mostrando el DQO versus reduccin de slidos. (Elaboracin propia) (b) La ecuacin de la lnea de regresin es: DQO (Y) = 1.53 + 0.909 X(slidos suspendidos) La pendiente es igual a 0.909 y el intercepto es 1.53 (c) La tabla de abajo muestra la informacin de ANOVA. TABLA 8.9. Tabla de ANOVA de slidos suspendidos y DQO. Fuente de SS g.l. MS Fcalc. Fcrtica Valor de p Variacin Entre los grupos 32.00 1 32.00 4.35 3.98 0.04 Residual (error) 515.44 70 7.35 Total 546.44 71 __________________________________________________________________ (d) s = 0.9039 R2 = 88.8% PRESS = 31.8928 R2(predecida) = 87.13% R2(ajustada) = 88.5% Durbin-Watson statistic = 1.67
8-31
Aqu, el coeficiente de determinacion R2, mide, qu tan bien el modelo de regresin ajusta los datos. Anlogamente, el estadstico PRESS (suma de cuadrados de error de prediccin) mide la calidad del modelo de regresin. En cuanto a la estadstica Durbin-Watson, si est cercana a 2 no hay autocorrelaciones en series positivas o negativas. La variacin de los datos la da la estadstica s. (e) La Figura 8.9 da la informacin subjetiva para la evaluacin del modelo. (a)
2
-1
-2
-3
-4 25 30 35
Fitted Value
(b)
Normal Score
-1
-2 -4 -3 -2 -1 0 1 2
Figura 8.9. La figura (a) prueba por la autocorrelacin o falta de independencia de los datos. Adems, la figura (b) prueba por la normalidad de los datos.
8-32
Regresin y correlacin lineal mltiple Muchas aplicaciones del anlisis de regresin involucran situaciones donde se tiene ms de una variable independiente. En la mayor parte de los problemas de investigacin se necesitan varias variables independientes para ver el efecto en la variable dependiente. La variable dependiente o de respuesta (Y) puede estar relacionada con muchas variables independientes o regresoras X1, X2, etc. En el estudio de regresin lineal mltiple se pueden usar el enfoque matricial. Tambin se pueden hacer pruebas de hiptesis, intervalos de confianza, anlisis subjetivos (anlisis de los grficos) y anlisis objetivos (estadstica de inferencia), como los clculos de los coeficientes de determinacin (R2) o de correlacin (R), como en el caso de la regresin lineal simple. Sin embargo, en este caso, se puede calcular el coeficiente de correlacin general y coeficientes de correlacin parciales, es decir, en forma anloga a como se hace con los coeficientes o, 1, etc. Cuando hablamos de regresin lineal mltiple tenemos las siguientes situaciones: 1. Modelo de primer orden con dos variables regresoras o independientes. 2. Modelo de primer orden con ms de dos variables independientes. Modelo de regresin mltiple generalizado Cuando este modelo general es lineal en los coeficientes se denomina modelo de regresin mltiple. Por ejemplo, para el caso de k variables independientes x1, x2, x3,..., xk, el promedio est dado por Y|x1, x2, x3,..., xk y se da por el modelo de regresin mltiple poblacional: Y = Y|x1, x2, x3,..., xk = o + 1x1 + 2x2 + ...+ kxk + k Este modelo, tambin se puede expresar con otra anotacin como:
Y j = o + 1X1j + 2X2j + . + kXkj + j
(8-29) (8-29a)
Los parmetros j, j = 0, 1, 2, 3,.., k se conocen como coeficientes de regresin

8-33
poblacionales. Por ejemplo, el parmetro j representa el cambio esperado en la respuesta Y, por unidad de cambio en xj, cuando todos los dems pronosticadores xi se mantienen constantes. Adems, i y ei son los errores aleatorios o residuos de poblacin y de la estadstica asociados con la respuesta Yi. El modelo de regresin lineal mltiple de la muestra que estima al modelo poblacional de arriba es: Y = bo + b1X1 + b2x2 + ... + bkXk + e (8-30) Donde cada coeficiente de regresin parcial i es estimado por bi. Esto se debe a qu, cada coeficiente parcial i mide el cambio esperado en Y por unidad de cambio en x1, cuando x2 se mantiene constante, y 2 mide el cambio esperado en Y por unidad de cambio en x2 cuando x1 se mantiene constante. El modelo de primer orden con dos variables independientes es: Yi = o + 1Xi1 + 2Xi2 + (8-31) Donde Yi, la variable dependiente que denota la respuesta en las -simas tentativas; Xi1 y Xi2 son las dos variables independientes de la -sima tentativa; o, 1, 2 son los coeficientes de regresin y, es el error o residuo. Modelo de regresin mltiple con ms de dos variables independientes Yi = o + 1Xi1 + 2Xi2 + + p-1Xi,p-1 + (8-32) Cuando hablamos de regresin lineal mltiple, el principal objetivo es la obtencin de la ecuacin de la lnea de regresin muestral, para prediccin y estimacin, la cual emula a la ecuacin poblacional. Sin embargo, antes de poder usar el modelo de regresin calculado, ste se tiene que evaluar, para ver qu tanta confiabilidad se le pueda dar. La evaluacin o validacin del modelo de regresin estimado se hace a travs de anlisis objetivos y subjetivos, en forma anloga como en la regresin lineal simple. Por ejemplo, los anlisis objetivistas se hacen a travs de funciones estadsticas de inferencia. Posteriormente, para que la validacin del modelo sea
8-34
completa, el procedimiento se complementa usando enfoques subjetivistas, a travs de anlisis de las grficas de los valores residuales. Si la validacin no es satisfactoria, se procede con remediacin del modelo, ya sea haciendo transformaciones de los ejes o probando otros modelos ms apropiados, como cuadrticos o cbicos, etc. Aplicacin de anlisis subjetivos y objetivos para la evaluacin del modelo de regresin Como se ha estado mencionando anteriormente, se sugieren dos maneras de revisar la utilidad del modelo obtenido. Estas maneras son: (1) anlisis de grficas de residuos y, (2) pruebas estadsticas de inferencia. Por ejemplo, para validar el modelo de regresin aplicando anlisis subjetivos, es decir, a travs de los grficos de los residuos (ei), stos se describen como las diferencias entre los puntos y la lnea de regresin. Siendo as, las suposiciones son de que los residuos deben ser independientes y normalmente distribuidos, con promedio igual a cero y con varianzas constantes. Ms explcitamente, las descripciones de las suposiciones son: 1. Los valores de la variable aleatoria estadstica ei deben estar normalmente distribuidos. Para lograr esto, se grafican los residuos (crudos o estandarizados) de la variable dependiente en funcin de los valores de z o normales esperados. Para que se rena la condicin de normalidad de los datos, todos los puntos deben de estar dentro de las bandas de confianza y deben de estar muy cercanos a la lnea de regresin. Adems, si los trminos del error ei estn normalmente distribuidos, los residuales estandarizados o crudos debern estar, aproximadamente, de acuerdo con las reglas del 68%, 94% y 99%. Esto quiere decir qu, el 68% de los residuos debern estar entre z = 1; el 95% debern estar entre z = 2 y, finalmente, el 99% de los residuos debern estar entre z = 3.
8-35
2. Los valores de la variable aleatoria ei deben ser independientes uno del otro. No debe haber colinialidad o correlacin en serie. Esto se revisa graficando los residuos (estandarizados o crudos) en funcin de los renglones. Si no hay, aproximadamente, los mismos residuos positivos y negativos en la grfica, entonces, el modelo lineal calculado no es el apropiado y tendrn que buscarse otras alternativas (como funciones polinomiales, cuadrticas, cbicas, etc.). Aqu cabe notar que la suposicin de independencia es la ms importante que se pueda violar, porque es la base para las pruebas estadsticas como la R2, el error de lo estimado (s dado por el programa Minitab), ANOVA, etc. 3. Los valores de la variable aleatoria ei deben de tener la misma varianza. Esto se llama homoscedasticidad. Esto se puede revisar visualmente graficando los residuales estandarizados o no estandarizados (crudos) contra cada valor de las variables independientes (Xi). Aqu, nuevamente, tiene que haber la misma cantidad de valores positivos y negativos expresados en la grfica. Aqu, sin embargo, existen otros mtodos para revisar por el problema de heteroscedasticidad que se retomarn en el captulo de regresin polinomial. Otros investigadores estadsticos (Devore, 2000) sugieren cuatro grficos de diagnstico subjetivo, para la validacin del modelo de regresin mltiple. Estos grficos de diagnstico son: 1. El grfico de los residuos estandarizados y/o crudos en la ordenada versus los valores de Xi en la abscisa. 2. El grfico de los residuos estandarizados y/o crudos en la ordenada versus los valores pronosticados (en la abscisa) por el programa de computadora usado. 3. El grfico de los valores pronosticados en la ordenada versus los valores de Yi en la abscisa. 4. Grfico de normalidad de los residuos estandarizados versus los percentiles de z
8-36
(valores de z). 5. Histogramas. Aplicacin de anlisis objetivos para la evaluacin del modelo de regresin Por otro lado, en cuanto al enfoque objetivista (estadstica inferencial) para la validacin del modelo de regresin, ste est relacionado con el uso de estadsticas como el coeficiente de determinacin mltiple R2 (o r2), el coeficiente de determinacin ajustado R2ajustada, el error estndar de lo estimado, s, tablas de anlisis de varianza, pruebas de t de Estudiante, intervalos de confianza, el criterio de Mallow de Cp, PRESS, etc. De esta manera, cuando se habla de coeficientes en el modelo de regresin mltiple, existen cuatro tipos de coeficientes: (1) El coeficiente de determinacin mltiple (R2) (2) El coeficiente de correlacin mltiple (R) (3) El coeficiente de determinacin ajustado (R2ajustada) (4) El coeficiente parcial de correlacin mltiple (Rij.k) Por ejemplo, el coeficiente de determinacin mltiple R2 es, tal vez, la medida estadstica ms popular usada para medir, qu tan bien encaja el modelo de regresin en los datos de la muestra. En realidad el uso de R2 es una tcnica para medir la adecuacin de un modelo de regresin lineal mltiple. Esta estadstica se puede definir como una proporcin o como un porcentaje. Como proporcin, sus valores varan de cero a uno. Por ejemplo, si el valor de R2 est cercano a cero, esto indica que no hay una relacin lineal entre Y y las Xs, mientras que, un valor cercano a uno, indica una ajuste perfecto. Sin embargo, el valor de R2 no debe de interpretarse ligeramente, sin el apoyo del error estndar de lo estimado (s), el residual (PRESS), el criterio de Mallow (Cp) o los factores de variacin inflados (variance inflation factors, VIF). Adems la validacin del modelo debe estar
8-37
apoyada por los anlisis de los grficos subjetivos. De acuerdo a la lgica del programa de NCSS, los siguientes enunciados dan algunas calificaciones de la interpretacin de R2. 1. El valor de R2 puede incrementarse agregando ms variables independientes, pero esto puede causar un aumento en el error del cuadrado medio, especialmente, cuando la muestra es pequea. 2. La magnitud de R2 est influenciada por el rango de cada variable independiente. R2 aumenta a medida que el rango de las Xs aumenta y viceversa. 3. El valor de R2 no mide la magnitud de las pendientes. 4. La magnitud de R2 no mide la aptitud del modelo lineal; mide la fuerza lineal del componente del modelo. 5. Un valor grande de R2 no necesariamente significa una prediccin grande. Lo opuesto tambin es correcto. Todo esto tiene que ser complementado o corroborado por otras funciones estadsticas y por el anlisis grfico subjetivo. 6. El valor de R2 es altamente sensible al nmero de observaciones. Entre ms grande sea el tamao de la muestra, ms alto ser el valor de R2. Ms adelante, hay lo que se llama el valor ajustado del coeficiente de determinacin mltiple ajustado (R2ajustada). Este coeficiente de determinacin mltiple ajustado R2ajustada es una versin ajustada de R2 la cual busca remover la distorsin causada por un tamao de muestra pequeo. Igualmente, tambin hay lo que se llama PRESS (predicted sum of squares) que se usa para validar el modelo de regresin en trminos de prediccin. Aqu, entre ms pequeo sea el valor de PRESS, mejor ser el modelo candidato. En forma anloga, tambin hay lo que se llama el coeficiente de correlacin mltiple R. Este coeficiente R mide la fuerza de la relacin lineal entre la variable dependiente Y y las variables independientes X1, X2, X3,, Xk. En contraste con el
8-38
coeficiente de correlacin lineal simple, el rango de este coeficiente de correlacin mltiple es de 0 R 1. Esto se debe a que R no indica la pendiente de la ecuacin de regresin debido a que no es posible indicar los signos de todos los coeficientes de regresin que relacionan la variable dependiente Y a las variables independiente Xi. As como en el caso de la correlacin lineal, la medicin de R2 es ms fcil de interpretar que el coeficiente de correlacin mltiple, R. Otro tipo de correlacin relacionado con regresin y correlacin mltiple es lo que se llama coeficiente parcial de correlacin mltiple. Este coeficiente mide la fuerza de la relacin lineal entre la variable dependiente Y y las variables independientes X1, X2, X3,, Xk. Este coeficiente se puede expresar como Rij.k el cual es el estimador del coeficiente de correlacin mltiple poblacional ij.k. Rij.k se puede usar para ver la relacin causal entre Y y una de las variables independientes, manteniendo las dems constantes. Este coeficiente, tambin se puede usar para ver la relacin entre dos variables independientes. Ms adelante, dentro de la categora de anlisis objetivos de estadstica inferencial relacionados con regresin mltiple, tenemos lo que se llama anlisis de varianza (ANOVA) discutido en captulos anteriores. En forma anloga como el uso de R2, este anlisis es un mtodo complementario para revisar las suposiciones del modelo de regresin. La confiabilidad de los resultados del ANOVA est mancomunada a la suposicin de que los residuales estn normalmente distribuidos. El uso de ANOVA prueba los promedios poblacionales donde se analiza la variacin total. ANOVA evala la utilidad del modelo de regresin probando la hiptesis nula de que todos los coeficientes (i) de la ecuacin de regresin (pendientes) son igual a cero. Los componentes del anlisis de varianza o de ANOVA, son parecidos a los del anlisis de varianza simple explicados en captulos anteriores. Los componentes son la fuente de variacin, los grados de
8-39
libertad, la suma de los cuadrados, el cuadrado del promedio, la prueba de F y el nivel de probabilidad. Por ejemplo, la fuente de variacin representa las particiones de la variacin en Y. Hay cuatro fuentes de variacin es decir, el intercepto, el modelo, el residuo o error y, el total ajustado. La prueba de inferencia con la estadstica F se usa para probar la hiptesis de todas las i = 0. Ms importante todava, es el clculo del nivel de probabilidad p. El valor de p es la probabilidad de obtener un estadstico de prueba, al menos tan contradictorio o ms extremo para Ho:, como el valor observado que se obtuvo, asumiendo que Ho: es verdadera. Si el valor de p es menor qu, digamos = 0.05, la hiptesis nula se rechaza; de otra manera se retiene. Entre ms pequeo sea el valor de p, menos credibilidad tendr la hiptesis nula. Otros estadsticos objetivistas para validar el modelo de regresin son las pruebas individuales de t de estudiante para probar la hiptesis de que 1, 2, 3, k son iguales a cero. Adems se pueden usar los intervalos de confianza. Por ejemplo, en regresin mltiple el valor de t de estudiante se usa para probar la hiptesis de que uno de los coeficientes es igual a cero, despus de remover la influencia de los otros. Los investigadores Paffenberger et al. (1987) dan la funcin para el intervalo de confianza para i. Sin embargo, si se concluye que 1 o k no son igual a cero esto, no necesariamente, dice que el modelo de regresin es til para prediccin. En verdad, para determinar si el modelo es apropiado, en lugar de probar que 1 = 0 y 2 = 0, separadamente (usando la prueba de t), se usa una prueba conjunta como el anlisis de varianza (ANOVA). De cualquier manera, la prueba de hiptesis bilateral para probar los coeficientes individuales i se usa el siguiente formato dado en la tabla de abajo.
8-40
TABLA 8.10. Tabla mostrando los mecanismos para una prueba de hiptesis bilateral para los coeficientes individuales i incluidos en el modelo de regresin mltiple. (Elaboracin propia) Hiptesis nula: Ho:i = 0, hiptesis alternativa: H1:i 0 Valor del estadstico: t = bi / sbi Regla de decisin: Rechazar Ho: si t > t/2;n-(k+1) o bien si t < -t/2;n-(k+1). No rechazar Ho: si t/2;n-(k+1) t t/2;n-(k+1) Donde: i son los coeficientes de regresin individuales. bi = estimadores de i sbi = errores estndar = nivel de significancia deseado n = nmero de observaciones k = nmero de variables independientes t = funcin estadstica de t de Estudiante Ejemplos aplicando la regresin y correlacin mltiple Ejemplo #6. En la adsorcin de tierra y sedimento, la magnitud de la acumulacin en forma condensada de los productos qumicos en la superficie es una caracterstica importante que influye en la eficiencia de insecticidas y varios otros productos qumicos. El artculo Adsorption of Phosphate, Arsenate, Methanearsonate and Cacodylate by Lake and Stream Sediments: Comparison with Soils (J. of Environ. Qual., 1984, pp. 499-504) presenta los siguientes datos en la tabla de abajo. Aqu se toma Y como la variable dependiente, la cual denota el ndice de adsorcin de fosfato, X1 es una de las variables independientes denotando la cantidad de hierro extrable y, X2 es otra de las variables independientes denotando la cantidad de aluminio extrable. (Devore, 2000)
8-41
TABLA 8.11. Tabla mostrando los datos del ejemplo. _________________________________________________________________

Observacin
__________________________________________________________________ 1 61 13 4 2 175 21 18 3 111 24 14 4 124 23 18 5 130 64 26 6 173 38 26 7 169 33 21 8 169 61 30 9 160 39 28 10 244 71 36 11 257 112 65 12 333 88 62 13 199 54 40 ________________________________________________________________ (Fuente: Devore, 2000) Hacer los clculos pertinentes. Solucin: Usando un paquete de computadora da: bo = -7.351, desviacin estndar = 3.485, b1 = 0.11273, desviacin estndar = 0.02969, b2 = 0.34900, s = 0.07131 La ecuacin de la lnea de regresin lineal mltiple es: Y = -7.351 + (0.11273)(X1) + (0.34900)(X2) Enseguida, para ver, qu tan confiable es el modelo de regresin calculado, primero procedemos a efectuar el anlisis subjetivo, es decir, el anlisis de las grficas de los residuos.
X1 (Hierro extrable)
X2 (Aluminio extrable)
Y (ndice de adsorcin)
8-42
Figura 8.10 Figura mostrando las grficas de los residuos estandarizados versus valores esperados de z (1); grfica mostrando el residuo estandarizado versus la variable independiente X1 (2); grfica mostrando el residuo estandarizado versus la variable independiente X2 (3); grfica mostrando el residuo estandarizado versus el valor de Y pronosticado (4) y, finalmente, grfica de Y pronosticada versus adsorcin (5). (Elaboracin propia)
8-43
Figura 8.11 Esta grfica muestra un enfoque un poco diferente al de la figura anterior, es decir usando los residuos no estandarizados en contraste con la figura 8.10 que usa los residuos estandarizados. Grfica mostrando la prueba de normalidad (1). Grfica mostrando la prueba de independencia de residuos versus renglones (2). Grfica mostrando los residuos versus valores pronosticados (3). Grfica mostrando los residuos versus variable independiente de hierro (4). Grfica mostrando los residuos versus variable independiente aluminio (5). (Elaboracin propia)
8-44
El valor del coeficiente de determinacin mltiple es: R2 = 0.9480 El coeficiente de determinacin ajustado es: R2ajustada = 0.9380 El coeficiente de correlacin mltiple es: R = 0.9736 Los coeficientes parciales se pueden estimar si se desea saber la relacin entre el ndice de adsorcin y el aluminio extrable, poniendo la variable independiente, hierro constante. Tambin, si se deseara saber la relacin entre el ndice de adsorcin y el hierro extrable, se pondra la variable aluminio constante. Similarmente, si se deseara saber la relacin entre las variables aluminio y la variable del hierro, se pondra la variable ndice de adsorcin fija. TABLA 8.12. Tabla mostrando los coeficientes de regresin, valores de t de Estudiante, niveles de p y decisiones tomadas en Ho: (Elaboracin propia) _________________________________________________________________ Variable Coeficiente Valor de t Nivel Decisin independiente de regresin de p (5%) _________________________________________________________________ Intercepto -7.35066 -2.1094 0.0611 Aceptar Hierro 0.11273 3.7969 0.0035 Rechazar Aluminio 0.34900 4.8944 0.0006 Rechazar _________________________________________________________________ TABLA 8.13. Tabla de anlisis de varianza. (Elaboracin propia) _________________________________________________________________ Fuente de g.l. Suma de los Cuadrado Fcalc. Valor Poder de Variacin cuadrados medio de p la prueba _________________________________________________________________ Intercepto 1 11580.31 11580.31 Regresin 2 3259.90 1764.95 92.03 0.000 1.0000 Error 10 191.79 19.18 _________________________________________________________________ Total 12 3721.69 310.14
8-45
TABLA 8.14. Tabla mostrando el reporte de residuos. (Elaboracin propia) _________________________________________________________________ Rengln Valor Valor Residuo Error estndar actual pronosticado _________________________________________________________________ 1 4 4.0630 -6.3052 5.0077 2 18 19.7066 -1.7066 4.9511 3 14 13.5387 0.4612 4.7055 4 18 14.6552 3.3447 4.6862 5 26 29.6406 -3.6406 5.1051 6 26 25.4141 0.5858 4.5996 7 21 23.2182 -2.2182 4.6488 8 30 32.9902 -2.9902 4.6623 9 28 24.2976 3.7024 4.5671 10 36 44.9352 -8.9352 4.7012 11 65 60.7097 4.2902 5.4250 12 62 60.9014 1.0986 5.4195 13 40 33.9292 6.0707 4.5649 _________________________________________________________________ TABLA 8.15. TABLA mostrando los intervalos de confianza para este problema. (Elaboracin propia) _________________________________________________________________ Variable Lmite inferior (95%) Lmite superior (95%) independiente _________________________________________________________________ Intercepto -15.1149 0.4137 Hierro (X1) 0.0467 0.1789 Aluminio (X2) 0.1901 0.5079 __________________________________________________________________
8-46
TABLA 8.16. Tabla mostrando la estadstica descriptiva. (Elaboracin propia) _________________________________________________________________ Variable Conteo Promedio Desviacin Valor Valor estndar mnimo mximo _________________________________________________________________ Hierro (X1) 13 177.31 70.10 61 333 Aluminio (X2) 13 49.31 29.19 13 112 ndice de (Y) 13 29.85 17.61 4 65 adsorcin _________________________________________________________________ Conclusiones: El modelo de regresin obtenido es vlido para prediccin y estimacin. Los datos encajan bien con un modelo lineal mltiple. Esta contencin est basada en el anlisis subjetivo de las grficas de los residuos. Por ejemplo, en la figura 8.10 y 8.11 la prueba de normalidad es buena, porque todos los puntos estn dentro de las bandas, y muy cercanos a la lnea de regresin. Adems, los puntos estn de acuerdo con la regla del 68%, 95% y 99%, es decir, el 68% de los puntos estn dentro de z = 1, el 95% estn dentro de z = 2, etc. En la figura 8.11 de los residuos versus los renglones, esto satisface la suposicin de independencia, porque hay el mismo nmero de residuos positivos y negativos. Adems, las grficas de los residuos versus las variables independientes no violan la suposicin de no linealidad, porque no hay tendencias definidas. Finalmente, la grfica de residuos versus valores pronosticados estn de acuerdo con la suposicin de varianzas iguales (homoscedasticidad). En cuanto a los anlisis objetivistas, es decir, usando pruebas estadsticas, nuevamente, presuponen un buen ajuste del modelo de regresin estimado. Esto se debe a qu, el valor del coeficiente de determinacin mltiple R2 est muy cercano a uno. Adems, el valor de R = 0.9736 indica muy buena correlacin entre la variable dependiente y las variables independientes. Con respecto a la tabla del anlisis de varianza, el valor de F es mucho menor que el valor crtico y esto est
8-47
demostrado por el valor de la probabilidad p el cual es mucho muy significante. Las pruebas de t de estudiante, tambin son muy aceptables y demuestran que las pendientes de i no son iguales a cero. Los intervalos de confianza dan resultados similares y sugieren que el modelo de regresin es buen pronosticador. Se pueden seguir haciendo pruebas de hiptesis para todos los parmetros poblacionales y, sin lugar a dudas, stas tambin apoyaran la contencin de que, el modelo de regresin, es aplicable. Ejemplo #7. Considerar los datos de la tabla de abajo. Usando el programa de computadora Minitab obtener el modelo de regresin ms apropiado, es decir, un modelo mltiple lineal (Modelo 1); modelo con transformacin en el eje vertical (Modelo 2) y un modelo con transformaciones de los ejes horizontales y del eje vertical (Modelo 3). TABLA 8.17. Tabla mostrando los datos bivariados de regresin. (Elaboracin propia) X1 | X2 | Y | 4 3 3 4 4 2 4 3 7 6 4 6 3 2 5 6 4 6 3 2 7 2 2 4
Solucin: Abajo se dan los resultados de los tres modelos. Al juzgar por los resultados, se le pide al lector que decida cual modelo es el ms apropiado.
8-48
TABLA 8.18. Resultados mostrando el resumen de los tres modelos. (Elaboracin propia) _______________________________________________________________ Regression Analysis: Y versus X1, X2 (Modelo 1)
The regression equation is: Y = 6.00 + 2.00X1 3.00X2 Predictor Constant X1 X2 Coef 6.0000 2.0000 -3.0000 SE Coef 1.803 0.7746 1.183 T 3.33 2.58 -2.54 P 0.021 0.049 0.052
s = 1.414 R-Sq = 58.3% R-Sq(adj) = 41.7% PRESS = 0.1274 R-Sq(pred) = 51.62% Analysis of Variance Source Regression Residual Error Total DF 2 5 7 SS 14.000 10.000 24.000 MS 7.000 2.000 F 3.50 P 0.112
Regression Analysis: Log Y versus X1, X2 (Modelo 2)

The regression equation is: Log Y = 0.810 + =.225X1 0.348X2 Predictor Constant X1 X2 s = 0.1272 PRESS = 0.1274 Coef 0.8101 0.2248 -0.3479 SE coef 0.1622 0.0697 0.1065 T 4.99 3.23 -3.27 P 0.004 0.023 0.022
Regression Analysis: Log Y vs Log X1, Log X2 (Modelo 3)

The regression equation is: Log Y = 0.595 + 1.83 Log X1 2.16 Log X2 Predictor Constant Log X1 Log X2 s = 0.1483 PRESS = 0.3005 Coef 0.5949 1.8342 -2.1573 SE Coef 0.2095 0.7288 0.8332 T 2.84 2.52 -2.59 P 0.036 0.053 0.049
8-49
TABLA 8.19. Tabla mostrando los datos originales del problema. (Elaboracin propia)
___________________________________________________________________________ C1 C2 C3 C4 C5 C6 ___________________________________________________________________________ Y X1 X2 Log Y Log X1 Log X2 ___________________________________________________________________________ 1 3 4 3 0.477121 0.602060 0.477121 ___________________________________________________________________________ 2 2 4 4 0.301030 0.602060 0.602060 ___________________________________________________________________________ 3 7 4 3 0.845098 0.602060 0.477121 ___________________________________________________________________________ 4 6 6 4 0.778151 0.778151 0.060206 ___________________________________________________________________________ 5 5 3 2 0.698970 0.477121 0.301030 ___________________________________________________________________________ 6 6 6 4 0.778151 0.778151 0.602060 ___________________________________________________________________________ 7 7 3 2 0.845098 0.477121 0.301030 ___________________________________________________________________________ 8 4 2 2 0.602060 0.301030 0.301030 ___________________________________________________________________________
Ejemplo #8. En estudios de qumica analtica, el uso del anlisis de fluorescencia de rayos X se usa como una herramienta para estimar los porcentajes de los ingredientes de muchas mezclas. A menudo, la estimacin de las concentraciones depende en la habilidad para ajustar modelos de regresin. En una investigacin intitulada Corrections for Matrix Effects in X-rays fluorescent Analisis Using Multiple Regression Methods, publicado por Analytical Chemistry (Vol. 37, 1965) mezclas contiendo 4 ingredientes (Xi) fueron preparadas. Las concentraciones de los componentes variaron en las mezclas para producir tipos estndares de calibracin (Yi). (Walpole, 1992, p. 421). Los datos de este problema se dan abajo.
8-50
TABLA 8.20. Tabla mostrando los datos del problema de arriba. Yi X1 X2 0.8980 0.8872 0.8030 0.8706 0.8064 0.8404 0.8731 0.8431 0.8314 X3 0.8219 0.9308 0.7668 0.9272 0.9026 0.8662 0.8206 0.8346 0.7596 X4 0.9906 0.9944 1.1221 0.9832 1.1127 1.0836 1.0290 1.0591 1.0994
0.5514 1.1240 0.4426 0.9285 0.5631 1.1214 0.5624 1.1635 0.4505 0.9415 0.5290 1.0712 0.4702 0.9561 0.5001 1.0186 0.4425 0.9039 (Fuente: Walpole et al. 1992)
(a) Ajustar un modelo lineal de regresin mltiple a los datos de la tabla. Enseguida, estimar las concentraciones del ingrediente A para una mezcla cuya tasa de intensidades de rayos-X sean, respectivamente, X1 = 1.10, X2 = 0.900, X3 = 0.800 y X4 = 0.995. Solucin: (a) Usando un paquete de computadora y asumiendo un modelo de regresin lineal mltiple se obtiene la ecuacin de regresin. Y = -0.3004 + 0.5387X1 + 0.1770X2 0.0704X3 + 0.1506X4 Sustituyendo las variables independientes, se obtiene el valor de la respuesta Y, es decir: Y = -0.3004 + 0.538(1.10) + 0.1770(0.90) 0.0704(0.80) + 0.1506(0.995) = 0.50 Ejemplo #9. Montgomery y Peck (1992) describen el uso de un modelo de regresin para relacionar la cantidad de tiempo que requiere un vendedor para dar servicio a una mquina expendedora de artculos y el nmero de empaques contenidos en la mquina y la distancia del vehculo (pies) de servicio del sitio
8-51
donde se encuentra la mquina. Este modelo de regresin mltiple fue utilizado para disear la ruta, los horarios y la salida de los vehculos. La tabla de abajo muestra 25 observaciones del tiempo de suministro, nmero de empaques y la distancia, del vehculo. TABLA 8.21. Tabla mostrando los datos de suministro.
No. de observacin Tiempo de suministro No. de envases Distancia del vehculo
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
9.45 24.45 31.75 35.00 25.02 16.86 14.38 9.60 24.35 27.50 17.08 37.00 41.95 11.66 21.65 17.89 69.00 10.30 34.93 46.59 44.88 54.12 56.23 22.13 21.15
2 8 11 10 8 4 2 2 9 8 4 11 12 2 4 4 20 1 10 15 15 16 17 6 5
50 110 120 550 295 200 375 375 100 300 412 400 500 360 205 400 600 585 540 250 290 510 590 100 400
(Fuente: Montgomery et al. 1992)
8-52
Para este problema calcular los siguientes enunciados: (a) El modelo de regresin lineal mltiple poblacional. (b) El modelo de regresin lineal mltiple de la muestra que estima al modelo poblacional. (c) Predecir el tiempo de suministro para pares de valores de las variables de regresin, nmero de empaques (x1) y distancia (x2), cuando x1 = 1 empaque y la distancia es igual a x2 = 25 pies. (d) Evaluar el modelo de regresin obtenido usando tcnicas objetivistas y sujetivistas, como las descritas en este captulo. Discutir el razonamiento que se sigue en la validacin subjetiva de los grficos. Solucin: (a) El modelo de regresin mltiple, para 2 variables independientes es: Y|x1,x2| = o + 1x1 + 2x2 + (b) El correspondiente modelo de regresin lineal mltiple muestral es: Y = bo + b1X1 + b2X2 + e Donde: Y = tiempo de suministro X1 = no de envases X2 = distancia del vehculo El modelo de regresin de la muestra es: Y = 1.74 + 2.78 (X1) + 0.013 (X2) (c) Para predecir el tiempo de suministro (Y) en relacin con el nmero de envases, cuando X1 = 1 y con la distancia del vehculo, cuando X2 = 25 pies se obtiene sustituyendo los valores en la ecuacin de regresin, es decir: Y = 1.74 + 2.78(1) + 0.013(25) = 4.85 (d) Los resultados objetivistas estadsticos son: R2 = 98.1%; R2ajustada = 97.9%; s =
8-53
2.32; PRESS = 159.89. TABLA 8.22. Tabla mostrando los valores de T y de P. (Elaboracin propia). Predictor Constante No. de envases Distancia del vehculo Coeficiente 1.743 2.790 0.013 SE coeficiente 1.155 0.092 0.003 T 1.51 30.09 4.33 P 0.145 0.000 0.000
_________________________________________________________________ TABLA 8.23. Tabla de anlisis de varianza. (Elaboracin propia) Fuente de Variacin Debido a la Regresin Error Total g.l. 2 22 24 Para la validacin subjetiva del modelo de regresin, analizando las grficas de los residuos estandarizados, deben existir, aproximadamente, el mismo nmero de residuos positivos y negativos. Adems, en la prueba de normalidad, todos los puntos deben estar dentro de las bandas de confianza. El estudiante deber hacer los diagnsticos subjetivos para complementar la refrendacin o confiabilidad del modelo de regresin. Procedimiento de regresin mltiple usando el programa Minitab Procedimiento: 1. Irse a: Stat Regression Regression 2. En la ventana de Regression aparecen las entradas de la variable dependendiente (Y) y de las variables independientes X1, X2, en sus columnas respectivas relacionadas con el problema
8-54
SS 5984.8 118.6
MS 2992.4 5.4
F 555.2
p 0.000
3. En la ventanilla de Response (de esta ventana de Regression) entrar la variable dependiente y, en la ventanilla de Predictors, entrar las variables independientes (que se copiaron en las columnas del programa). 4. Debajo de esta venta de Regression estn las ventanillas de Graphs, Options, Results y Storage. Por ejemplo si se desea usar Graphs se pueden seleccionar los residuales regulares o los estandarizados. En la ventanilla de Option residual plots, puntear las grficas de las cuatro opciones, para el anlisis subjetivista. 5. En la ventana de Regression-Options puntear las funciones deseadas, v.g., variance Inflation factors, Durbin-Watson statistics, PRESS, etc. 6. En la ventana de Regression-Results puntear las funciones deseadas de las cuatro enlistadas, v.g., In addition de sequential sum.. Ejemplo #10. Este es un ejemplo del libro Applied Statistics: Anlisis of Variance and Regresion de los autores Dunn y Clark. Esta es una investigacin relacionada con la temperatura, tomada como la variable de respuesta, en funcin de variables regresoras como la altitud, longitud y latitud. La tabla de abajo muestra los resultados. Usando el programa Minitab: (a) Encontrar el modelo de regresin ms apropiado (b) Validar el modelo usando metodos estadsticos, es decir, estimando el coeficiente de determinacin mltiple R2, R2 ajustada, s, PRESS, tabla de ANOVA, y grficas subjetivistas, como residuos versus rdenes, residuos versus valores ajustados y pruebas de normalidad. (c) Hacer comentarios acerca de los resultados
8-55
TABLA 8.24. Tabla mostrando los valores de la temperatura en oF (Y), Altitud en pies (X1), Longitud en grados (X2) y Latitud en grados (X3).
Temperatura (Y) 55.7 37.8 56.4 51.0 34.5 34.0 36.7 33.4 32.6 49.1 46.6 36.3 18.2 36.7 13.3 30.1 Altitud (X1) 1083 457 312 305 5221 2842 807 4260 815 3920 1054 4397 830 465 1162 787 Longitud (X2) 112 86 118 90 105 116 94 112 83 106 84 120 93 90 92 82 Latitud (X3) 33 38 34 32 40 44 41 41 40 32 34 39 45 39 47 41
__________________________________________________________________
Solucin: (a) Se assume un modelo de regresin lineal (b) La utilidad del modelo se da por los valores de R2, s, PRESS, etc. mostrados por las Figuras 8.12 (a), (b) y (c).
Regression Analysis: (Y) Temperatura versus (X1) Altitud, (X2) Longitud (X3)
The regression equation is: (Y) Temperatura = 99.2 - 0.00138 (X1) Altitud + 0.299 (X2) Longitud - 2.29 (X3) Latitud Predictor Constant (X1) Altitud (X2) Longitud (X3) Latitud Coef 99.24 -0.0013780 0.29877 -2.2900 SE Coef 10.79 0.0005968 0.07736 0.1779 T 9.20 -2.31 3.86 -12.87 P 0.000 0.040 0.002 0.000 VIF 1.7 1.7 1.0
8-56
s = 3.12166, R-Sq = 94.6%, R-Sq(adj) = 93.2%, PRESS = 214.855, R-Sq(pred) = 90.08% Analysis of Variance Table Source Regression Residual Error Total DF 3 12 15 SS 2048.54 116.94 2165.48 MS 682.85 9.74 F 70.07 F crtica F.05;3,12 = 3.49 P <<< 0.001
(a)
(b)
99 95
(c)
(response is (Y) Temperatura)
90 80
Percent
70 60 50 40 30 20
-1
-1
10 5
-2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 O bservation O rder
-2 20 30 40 F itted Value 50 60
-3
-2
-1 0 1 Standardized Residual
Figura 8.12. La Figura (a) muestra los residuales vs. rdenes; la figura (b) muestra los residuales vs. los valores ajustados y la figura (c) da la prueba de normalidad. (c) En conclusin, de acuerdo a los valores del coeficiente de determinacion R2 = 95.6% hay un buen ajuste del modelo. El valor de F de la ANOVA rechaza la hiptesis de igualdad de promedios (de altitud, longitud y latitud), con un valor de p muy significativo. Las pruebas de T son significantes, lo que sugiere que no hay problemas de multicolinealidad. Anlogamente, los valores bajos de VIF sugieren indican que no hay problemas de multicolinealidad. Esto, aunado, a los signos de las variables regresoras de la ecuacin de regresin, los cuales si estn de acuerdo a una lgica a posteriori. El valor de la funcin de Durbin-Watson Statistic o de correlacin en serie igual a 1.53384 indica que no hay problemas de autocorrelacin (aunque aqu, esto se puede ignorar porque el problema no involucra series de tiempo). En cuanto a la Figura 8.12 la grfica (a) muestra los residuales versus los rdenes, en la cual hay aleatoriedad de los datos. Anlogamente, la grfica de residuales vs. valores ajustados (b) indica alateoridad
8-57
o independencia de los datos, sin problemas de heteroscedasticidad (errores de varianzas no constantes), etc. Finalmente, la grfica de la prueba de normalidad (c) indica que los datos estn normalmente distribuidos (porque todos los puntos estn dentro de las bandas de confianza), aunque con sesgo positivo. Nota: Cree usted qu, eventualmente, el calentamiento global, debido a las emisiones de gases de invernadero, generados por emisiones vehiculares e industriales va a modificar las temperaturas que van en funcin de la latitud? Ejemplo #11. Este es un ejemplo hiptetico mostrando la relacin entre las concentraciones de ozono artificial, a nivel del suelo (ppm) y las temperaturas (oF). Este ejercicio est encaminado a calcular, manualmente, los residuales y de hacer una grfica mostrando los residuales crudos. Los datos se dan en la tabla de abajo. TABLA 8.25 mostrando los datos de este problema. __________________________________________________________________ Concentraciones de O3 (y)| 75 80 86 94 99 107 __________________________________________________________________ Temperatura (oF) (x) | 65 71 79 85 93 100 Hacer los siguientes clculos: (a) Calcular el modelo de regresin y medir su adecuacin estimando R2, R2(ajust.), s, PRESS y la estadstica Durbin-Watson (b) Hacer una tabla mostrando el valor de la desviacin entre los datos y el ajuste, es decir, de los residuales regulares o crudos ei = yi y i. (c) Hacer una grfica de O3 (y) y temperaturas (x) mostrando los residuales crudos Solucin: (a) Usando un paquete de computadora da la ecuacin de regresin:
Concentracin de ozono ( y ) = 15.4 + 0.909 Temperatura (x) s = 1.101, R2 = 99.3%, R2(ajust.) = 99.2%, PRESS = 9.42837, estadstica Durbin-Watson = 3.33
(b) La TABLA 8.26 muestra los valores ajustados ( y i), los residuales y SSE.
8-58
TABLA 8.26. Tabla mostrando los datos del problema.

____________________________________________________________________________________________ Suma de los cuadrados del error Residual crudo i xi yi y i = 15.44 + 0.909 x ei = yi - y i SSE = (yi - y i)2
_________________________________________________________________________________________________________________________________________
1 2 3 4 5 6
0.2304 0.0004 1.5625 1.6900 0.9604 0.4356 2 (yi - y i) = 4.8793 __________________________________________________________________________________________
65 71 79 85 93 100
75 80 86 94 99 107
y 1 = 74.53 y 2 = 79.98 y 3 = 87.25 y 4 = 92.71 y 5 = 99.98 y 6 = 106.34
75 74.53 = 0.48 80 79.98 = 0.02 86 87.25 = -1.25 94 92.71 = 1.30 99 99.98 = -0.98 107 106.34 = 0.66
(c) La Figura 8.13 de abajo muestra las concentraciones de ozono en funcin de las temperaturas con los valores de los residuales ei.
8.13. Figura mostrando la medicion de cada uno de los valores residuales con la lnea de regresin. (Elaboracin propia).
8-59
8.1. Los datos de abajo muestran las emisiones de xidos de nitrgeno (NOx) provenientes de calderas de plantas elctricas. Tabla mostrando los datos para el problema. (Elaboracin propia) __________________________________________________________________ MBtu/hr-ft2 (X) |100 125 125 150 150 200 200 250 250 300 300 350 400 400 NOx (Y) |150 140 180 210 190 320 280 400 430 440 390 600 610 570
(a) Calcular la ecuacin de regresin de la muestra que estima a la verdadera ecuacin poblacional. (Y = -24.2 + 1.59X) (R2 = 0.95) (b) Calcular el coeficiente de correlacin R2 y R que estiman a . es de 225 MBtu/hr-ft2? (333.67)
(c) Cul es la estimacin esperada de la emisin de NOx cuando la tasa de liberacin (d) Usar el programa de computadora de Minitab y analizar las grficas de los residuos para la prueba de normalidad y de los residuos en funcin del valor de X. (El lector lo deber hacer) 8.2. Este es un ejemplo del libro de Introduccin al Analisis de Regresin Lineal de Mongomery et al. (2001), donde habla de un ejemplo relacionado con las concentraciones de ozono de debido al calor. As, Davidson (Update on Ozone Trenes in Californias South COSAT Basin, Air and Waste, 43, 226, 1993) estudio las concentraciones de ozono en la cuenca area de la costa sur de California, durante los aos 1976 a 1991. Se cree que la cantidad de das en que las concentraciones de ozono fueron mayores que 0.20 ppm depende del ndice metereolgico estacional, que es el promedio estacional de la temperatura con 850 milibares. La siguiente informacin muestra los datos.
8-60
Tabla mostrando los datos del problema. ___________________________________________________________________ Ao No. de Das (y) ndice meteorolgico ___________________________________________________________________ 1976 91 16.7 1977 105 17.1 1978 106 18.2 1979 108 18.1 1980 88 17.2 1981 91 18.2 1982 58 16.0 1983 82 17.2 1984 81 18.0 1985 65 17.2 1986 61 16.9 1987 48 17.1 1988 61 18.2 1989 43 17.3 1990 33 17.5 1991 36 16.6 __________________________________________________________________ Fuente: Montgomery et al. 2001 (a) Estimar la ecuacin de regresin (b) Qu tanta confiabilidad se le puede dar al modelo seleccionado? Usar enfoques estadsticos y grficos para justificar esta pregunta. 8.3. En un estudio agrcola, para ver los efectos de los cambios climticos globales relacionado, con los patrones pluviales alterados debido al calentamiento global, por las emisiones de CO2, se estudi la precipitacin pluvial anual y el rendimiento de la cosecha de gramneas. La tabla de abajo da los datos.
8-61
Tabla mostrando los datos del problema. (Elaboracin propia) Precipitacin pluvial en pulgadas (X) 7.12 63.54 47.38 45.92 8.68 50.86 44.86 Rendimiento de la cosecha en libras por acre (Y) 1037 380 416 427 619 388 321
___________________________________________________________________ Ver cul modelo de regresin encaja mejor en los datos, al juzgar por las estadsticas y por los anlisis grficos, es decir, usando una aproximacin lineal, una logartmica y una aproximacin de funcin de potencia de la forma de Ln (Y) = Ln(a) + b(LnX). (a) Usar una aproximacin lineal como Y = a + bX y, adems, calcular el coeficiente de determinacin R2. valor de R2. + b (Ln X) y, adems, calcular R2 (Y = 880.4 9.6 (X), R2 = 0.699) (Y = 1331.08 557.03 Lg X) (R2 = 0.829) (b) Usar una aproximacin logartmica como Y = a + b Ln (X) y adems, calcular el (c) Usando una aproximacin de funcin de potencia de la forma de Ln (Y) = Ln (a) 8.4. En un estudio de qumica analtica, en la tabla de abajo se da la relacin entre la temperatura y la molaridad (en moles por litro) de una sustancia. Para esto hacer los siguientes: (a) Estimar el modelo de regresin ms apropiado basado en anlisis estadsticos de R2, R2ajustada, PRESS, s, y Cp y en anlisis grficos subjetivos de los valores
8-62
residuales. Tabla mostrando la informacin requerida. _________________________________________________________________ Temperatura oC | 4.3 4.5 4.8 5.5 5.7 5.9 6.4 6.7 7.5 7.9 _________________________________________________________________ Molaridad | 12.1 12.5 12.9 13.0 13.1 14.0 14.2 14.8 15.0 15.5 _________________________________________________________________ 8.5. El aluminio es el tercer elemento ms abundante que ocurre en minerales, rocas y barros. El aluminio se puede analizar con el mtodo de absorcin atmica espectromtrica (mtodo A), el cual est exento de interferencias como fluoruros y fosfatos. El aluminio tambin se puede analizar por medio del mtodo de calorimetra de cianuro de Eriocromo R (mtodo B), el cual es ms simple que el anterior. La tabla de abajo muestra los resultados de los anlisis (en mg/L) de los dos mtodos usados. Hacer los siguientes clculos usando el programa de computadora de Minitab o SAS. (a) Calcular e interpretar el coeficiente de determinacin R2 y el coeficiente de correlacin R. (R2 = 0.9922, R = 0.9961) Tabla mostrando los datos del ejemplo. (Elaboracin propia) Mtodo A | 5 Mtodo B | 8 6 9 6 9 8 11 10 13 10 13 11 14 11 14
8.6. El berilio (Be) y sus compuestos son extremadamente venenosos y capaces de causar la muerte en concentraciones altas. La inhalacin del Be causa una seria afeccin llamada beriliosis. El berilio tambin puede causar dermatitis, conjuntivitis, neumona aguda y beriliosis pulmonar crnica. Este elemento qumico se usa en los reactores atmicos, aviones, cohetes y en combustibles para msiles. Hay dos
8-63
mtodos para el anlisis (en g/L) del berilio, es decir, el mtodo espectromtrico de absorcin atmica (mtodo 1) y el mtodo aluminon (mtodo 2). Los resultados de los anlisis de los dos mtodos se dan en la tabla de abajo. Hacer los siguientes clculos: (a) Hacer un estudio estadstico objetivista, es decir, estimando los valores de R2, R2ajustada, PRESS, s y tablas de ANOVA. Complementar el estudio haciendo anlisis subjetivistas. Tabla mostrando los resultados de los mtodos 1 y 2 para la medicin del berilio. (Elaboracin propia) Mtodo 1 Mtodo 2 | 0 | 1 3 7 4 11 5 19 9 24 12 31 15 31 17 35 20 41 20 41
8.7. En investigaciones de toxicologa existen estudios que han demostrado que la probabilidad de qu, un fumador de 40 aos de edad, quien ha sido fumador los ltimos 10 aos contraiga el cncer pulmonar en los prximos 20 aos es alta (asumiendo que contine fumando al mismo ritmo). Esta relacin va en funcin del nmero promedio de cigarrillos que fuma. Asumir un modelo de regresin lineal. La tabla de abajo presenta los datos de esta investigacin de toxicologa.
8-64
Tabla mostrando los datos del problema. (Elaboracin propia) Nmero de cigarrillos fumados por da 5 10 20 30 40 50 60 80 Hacer los siguientes clculos: Probabilidad de cncer pulmonar .100 .113 .225 .300 .450 .540 .700 .860
(a) Identificar la variable dependiente y la variable independiente. (b) Describir la ecuacin de regresin que mejor encaje en los datos. (Y = 0.0981 0.00002(X) + 0.0003(X 2)) (c) Calcular R2, R2ajustada, s, y PRESS. (R2 = 0.996, R2ajustada = 0.995 s = 0.019, PRESS = 0.0038) (d) Analizar e interpretar los componentes de la tabla de ANOVA como Fcalc., Fcrtica y el valor de p. (e) Discutir la relacin existente entre R2, s, PRESS, Fcalc., y el valor de p. (f) Validar el modelo de regresin subjetivamente, es decir, analizando los grficos de los residuos estandarizados. 8.8. Se realiz un estudio de qumica ambiental y se registraron las cantidades de cloruro de sodio (NaCl), el cual, cuando se disolvi en 100 gramos de agua destilada, a diferentes temperaturas (oC) dio los siguientes resultados:
8-65
Tabla mostrando los datos del problema. (Elaboracin propia) ___________________________________________________________________ Temperatura (X) NaCl disuelto en gramos de agua (Y) 0 8 6 8 15 12 10 14 30 25 21 24 45 31 33 28 60 44 39 42 75 48 51 44
Calcular los siguientes enunciados: (a) Graficar los datos. (b) Encontrar la lnea de regresin y ponerla en la grfica. (c) Estimar la cantidad de NaCl que se disolver a una temperatura de 300 K. (d) A sabiendas de que, a medida que aumenta la temperatura, la disolucin de las sustancias, como las sales de sodio, aumenta proporcional al incremento de la temperatura, entonces, siendo as, verificar de que hay una correlacin casi perfecta entre ambas variables. (e) Hacer una prueba de hiptesis para el coeficiente de correlacin muestral R, para verificar que si existe una asociacin lineal significante entre las dos variables. Sugerencia: usar la estadstica de t de Estudiante dada abajo:
t= R 1 R n 2
2
con = n - 2 grados de libertad.
(f) Tericamente, la disolucin de muchas sales va en funcin directa a la temperatura y, en teora, el valor del coeficiente de determinacin, R2 debera de ser de 1.0. Siendo as, enlistar 2 factores (en el laboratorio de qumica) que pudieran afectar la disolucin de las sales y de no dar un valor menor que 1.0. 8.9. En un estudio de meteorologa entre la cantidad de lluvia y la remocin de
8-66
contaminantes atmosfricos, se dio la siguiente informacin: Tabla mostrando los datos. (Elaboracin propia) Precipitacin (X) (0.01 cm./da) 4.3 4.5 5.9 5.6 6.1 5.2 3.8 2.1 7.5 Remocin de partculas (Y) (g/m3) 126 121 116 118 114 118 132 141 108
(a) Calcular la remocin de contaminantes (Y) cuando el valor de la precipitacin pluvial es de X = 8.0. (b) Validar el modelo de regresin objetiva y subjetivamente. 8.10. En un estudio para evaluar la capacidad de los sistemas de flujo fretico (wetlands), usados para la degradacin de la materia orgnica de las aguas residuales se uso el parmetro de la demanda bioqumica de oxgeno (DBO) y varios otros componentes qu icos. Este estudio dio como resultado los siguientes datos. Estos m resultados estn relacionados con la carga de masa de DBO (en Kg./hectrea/da), la cual se us como la variable independiente (X) y, la degradacin de la concentracin de masa carbonosa de DBO5 (en Kg./ha/da), la cual se uso como la variable dependiente (Y). (Fuente de informacin es Surface Floor Wetlands: A Performance Evaluation. Water Environ. Res., 1995, pp.244-247). (102.44)
8-67
Tabla mostrando los datos del problema. (X) | 3 (Y) | 4 7 8 10 8 11 8 13 10 16 27 30 26 35 21 37 9 38 31 44 30 103 75 142 90
11 16
(Fuente: Water Environ. Res., 1995) Calcular los siguientes enunciados: (a) Graficar los datos (b) Establecer el modelo de regresin ms apropiado para este problema. Hacer los mismos clculos que el problema anterior. (c) Validar el modelo de regresin seleccionado, objetivistamente, usando los siguientes criterios o diagnsticos: (1) Clculo del coeficiente de determinacin R2 (2) Clculo del coeficiente de determinacin ajustado, R2ajustado (3) El coeficiente de correlacin R (4) La estadstica PRESS (5) El error estndar de lo estimado, s (Util para medir la utilidad del modelo. Se selecciona el modelo que tenga el valor de s ms pequeo) (d) Evaluar el modelo candidato a travs de los siguientes criterios grficos: (1) Prueba de normalidad (2) Residuales en funcin de los ordenes (3) Residuales en funcin de los valores ajustados (e) Una vez que se haya seleccionado el modelo ms apropiado, calcular la remocin del DBO despus de que el agua residual se degrad en el wetland cuando la carga fue de 50 Kg./ha/da.
8-68
Nota: Los sistemas de flujo fretico (reas pantanosas) se usan como sistemas de tratamiento natural, porque tienen la capacidad de degradar las concentraciones carbonosas de DBO actuando como especie de lagunas de oxidacin. En Minatitln y Coatzacoalcos, Veracruz, se usan estos tipos de tratamientos naturales. Solucin: De acuerdo a la tabla de arriba se le pide al lector decidir, cul modelo es superior. 8.11. El texto de Daniel, W.W., James C. Terrell Business Statistics (1989), p. 257 mencionan el problema del envenenamiento del ganado vacuno, por los insecticidas el cual es un problema muy serio, porque los pesticidas tienen la facultad de acumularse en los tejidos de los animales y, de ah se pasan a aquellas personas que los consumen. As, en aos recientes, los ambientalistas se han preocupado mucho por los efectos, en el medio ambiente, debido al uso indiscriminado de insecticidas. Es verdad que los insecticidas matan los insectos, pero tambin matan todo lo dems. De esta manera, los insecticidas contaminan los frutos de las plantas, a los animales y tambin a la gente. Los investigadores Mount y Oehmet estudiaron los efectos de los insecticidas en las ovejas relacionada con la actividad enzimtica en el cerebro. Adems, de otros anlisis estadsticos, estos cientficos derivaron una lnea de regresin que describe las relacin entre la actividad enzimtica en el cerebro de las ovejas (Y) y el tiempo, en horas, despus de que las ovejas has sido expuestas a los insecticidas (X). La funcin de la lnea de regresin estimada por estos cientficos se da abajo. Y = 27.32 + 1.36 X Basando el criterio en esta ecuacin, estimar lo siguiente: (a) Si despus de que han pasado 30 horas, cuando las ovejas han sido expuestas a los insecticidas, Cul sera el valor de la actividad enzimtica? (68.12) (b) Si el coeficiente de correlacin muestral se da como R = 0.86 y, el coeficiente de
8-69
determinacin es R2 = 0.74 (el que mide la fuerza de la relacin lineal entre X e Y, es decir, el % de asociacin entre las dos variables), entonces, hacer una prueba de hiptesis con Ho: = 0, contra H1: 0 (que es lo mismo que decir que no hay asociacin lineal entre X e Y). Asumir que el tamao de la muestra es de n = 16 y el nivel significante de = 0.05. Para esto, seguir las siguientes sugerencias: Usar la distribucin de t con = n 2 grados de libertad y usar las regiones crticas dadas por t[1-/2;]. 8.12. En estudios de qumica, la presin de un gas que corresponde a varios volmenes (de acuerdo a la ley de los gases de Boyle) se da en la tabla de abajo. Asumir que el volumen del gas es (X) y la presin es (Y). Hacer los siguientes clculos: (a) Hacer una grfica con los datos. (b) Estimar la lnea de regresin de la muestra. (c) Estimar el coeficiente de determinacin R2 y el coeficiente de correlacin R. Interpretar los resultados. (d) Predecir la presin del gas, cuando el volumen es .001 m3 (e) Predecir la presin del gas, en libras por pulgada cuadrada (lbs/in2) y, en atmsferas (atm), cuando el volumen del gas es de 0.0528 cuartos (.05 L). (f) En teora, debido a que la relacin entre el volumen del gas y la presin es inversamente proporcional, el coeficiente de correlacin debera ser de R = -1.0. Sin embargo, si R difiriera del valor de -1.0, enlistar 3 factores que pudieran para explicar esta situacin. intervenir
8-70
Tabla mostrando los volmenes y las presiones del gas. (Elaboracin propia) Volumen en cm3 Presin en Kg./cm2 | 50.0 | 64.7 60.0 51.3 70.0 40.5 90.0 25.9 100.0 7.8
Sugerencias: Se dan los siguientes factores de conversin: 1 atm = 14.7 lbs/in2 = 760 torr = 1.0668 kg/cm2; 1 cm2 = 0.16 in2; 1.0567 cuartos = 1 L; 1 pulgada cuadrada = 6.25 cm2; 1 m3 = 1000 L. = 106 cm3. 8.13. Se coleccion una muestra de 33 casos de una descarga de aguas residuales municipales. Esta muestra se analiz para la demanda bioqumica de oxgeno de 5 das (DBO5), en libras por da, y la demanda qumica de oxgeno, DQO (en libras por da). La tabla de abajo muestra la informacin requerida. Tabla mostrando las mediciones de DBO5 y DQO. (Elaboracin propia) Demanda qumica de oxgeno Demanda bioqumica de oxgeno (lbs/da) (lbs/da) 494 444 528 396 532 308 350 456 440 544 309 538 480 500 396 486 556 600 428 440 291 490 545 582 368 386 400 347 278 304 216 200 238 164 230 116 150 190 190 248 120 226 200 222 176 202 240 280 184 194 134 215 246 292 177 193 165 160 125 137
8-71
Hacer lo siguiente: (a) Ver su existe una correlacin significante usando los valores R del DBO5 y el DQO. (R = 0.9677, R2 = 0.9360) (b) Interpretar el valor del coeficiente de correlacin R y el coeficiente de determinacin R2. Usar el programa Minitab o EXCEL para hacer el clculo pedido. Nota. La demanda bioqumica de oxgeno de 5 das (DBO5) mide la concentracin, en mg/L o en libras por da de la materia carbonosa del agua residual. De hecho el DBO mide la fraccin biodegradable del drenaje, o del agua residual industrial o domstica, en trminos del carbono. Usualmente, las unidades son en mg/L. Sin embargo, esto se debe a que, anteriormente, se usaba indiscriminadamente las unidades de ppm y mg/L. Despus, se vio que, con los residuos txicos, la gravedad especfica era diferente a la de los residuos carbonosos. Por esta razn es mejor usar las unidades de mg/L. Por otra parte, la prueba del DBO es de 5 das, para evitar la nitrificacin. En cambio, la prueba de la demanda qumica de oxgeno mide los compuestos orgnicos biodegradables y los compuestos orgnicos txicos. Esto quiere decir que, la demanda qumica de oxgeno (DQO) oxida la cantidad de materiales totales oxidables presentes en el agua residual y vara con la composicin del agua, la temperatura, el periodo de contacto y otros factores ms. 8.14. Considerar los datos de abajo relacionados con el peso del vehculo y el rendimiento de gasolina. El peso del auto se da en toneladas y, el rendimiento del combustible se da en millas galn. Los datos se dan abajo.
8-72
Tabla mostrando los datos del los modelos vehiculares en funcin del peso en toneladas (X), y de millas por galn (Y). ________________________________________________________________
Modelo vehicular Buick Estate Wagon Ford Country Squire Wagon Chevy Malibu Wagon Chrysler Le Baron Wagon Toyota Corona Datsun 510 Dodge Omni Audi 5000 Volvo 99 GLE Saab 99 GLE Peugot 694 SL Buick Century Special Mercury Zephyr Dodge Aspen AMC Concord D/L Chevy Caprice Classic Ford LTD Mercury Grand Marquis Ford Mustang Mazda GLC Dodge Colt VW Scirocco Honda Accord LX Buick Skylark Chevy Citation Oldsmobile Omega Plymouth Horizon Datsun 210 VW Dasher Datsun 810 BMW 3210 VW Rabbit Peso (toneladas) 4.36 4.05 3.61 3.94 2.56 2.30 2.23 2.83 3.14 2.80 3.41 3.38 3.07 3.62 3.41 3.84 3.73 3.96 2.59 1.98 1.92 1.99 2.14 2.67 2.60 2.70 2.20 2.02 2.19 2.82 2.60 1.93 Millas/galn 16.9 15.5 19.2 18.5 27.5 27.2 30.9 20.3 17.0 21.6 16.2 20.6 20.8 18.6 18.1 17.0 17.6 16.5 26.5 34.1 35.1 31.5 29.5 28.4 28.8 26.8 34.2 31.8 30.5 22.0 21.5 31.9
(Fuente: Probabilidad y Estadistica Aplicadas a la Ingenieria. Montgomery et al. 1996) Hacer los siguientes clculos usando el programa Minitab. (a) Estimar la lnea de regresin entre las variables peso del vehculo y el
8-73
rendimiento de gasolina. (b) Estimar el coeficiente de correlacin de la muestra R (llamado tambin coeficiente de correlacin de producto-momento de Pearson) y el coeficiente de determinacin muestral R2. (c) Hacer una grfica que vaya en funcin de Y y X, trazarla en la grfica y tambin trazar la lnea horizontal usando el valor del promedio de Y. (d) Hacer una tabla de ANOVA. (e) Estimar los intervalos de confianza para y las probabilidades correspondientes para cada uno de stos. (f) Qu otros factores tendran que considerarse, para que el modelo de regresin fuera ms confiable? 8.15. Los metales pesados como el Hg, Cr, Pb, etc., pueden interferir con el tratamiento biolgico en las plantas municipales de aguas residuales domsticas. En este estudio se hicieron mediciones mensuales en una planta modelo de tratamiento de las concentraciones de cromo, Cr, en mg/L, tanto en el efluente como en la entrada. Los resultados de las concentraciones de Cr se dan en la tabla de abajo. Tabla mostrando los datos. (Elaboracin propia) Entrada (X) | 250 290 270 100 300 (g/L) Efluente (Y) | 19 10 17 11 70 (g/L) Hacer los siguientes clculos: (a) Hacer un diagrama de dispersin en papel aritmtico. (b) Hacer un diagrama esparcido en papel semilogaritmo y logaritmo completo (transformacin de los ejes). (c) Calcular los modelos de regresin para las partes (a) y (b). (Y = -9.06 + 0.17X; Y = -1.96 + 0.97X)
8-74
410 60
110 18
130 30
1100 180
(d) Estimar Y cuando X = 350 en incisos (a) y (b). (e) Calcular el coeficiente de correlacin para (a) y (b). (f) Comentar sobre lo apropiado de Y y de R en cada caso. 8.16. En un estudio de microbiologa ambiental relacionado con el cultivo de una muestra de agua se dan los siguientes datos. Tabla mostrando los datos. (Elaboracin propia) Tiempo en das desde | 3 6 9 12 15 18 la inoculacin (X) ___________________________________________________________________ No. de bacterias (Y) | 115,000 14,700 23,900 35,600 57,900 86,400 Hacer los siguientes clculos: (a) Trazar una curva Ln Yi versus Xi para ver qu tan bien se puede ajustar una curva exponencial a los datos. (b) Trazar una curva Yi versus Xi para ver que tambin se puede ajustar una lnea recta a los datos. (c) Por interpolacin, usando ambas grficas estimar el nmero de bacterias despus de 20 das. Cuantificar las diferencias en ambos casos. 8.17. En el libro de J. L Devore, Probabilidad y Estadstica para Ingeniera y Ciencias se da una investigacin relacionada con la temperatura (oC) y la profundidad de la nieve acumulada en el suelo. Para esto se la tabla de abajo: Tabla mostrando los datos del problema. _______________________________________________________________ Temperatura (oF) | -62 -41 -36 26 -33 -56 -50 -66 _______________________________________________________________ Profundidad de la | 21 13 12 3 6 22 14 19 capa de nieve _______________________________________________________________ (Fuente: Devore 2001) . (a) Identificar la variable dependiente (Y) y la variable independiente (X).
8-75
(R2 = 0.9425, R = 0.7469)
(b) Estimar un modelo de regresin lineal. (Y = 5.71 0.202(X), R2 = 0.741, s = 3.759, PRESS = 409.02, F = 17.8, p = 0.006) (c) Estimar un modelo cuadrtico. (Y = 3.3 0.0943(X) + 0.0029(X 2), s = 0.019, R2 = 0.996, PRESS = 0.0038, F = 14.98, p = .008) (d) Estimar un modelo cbico. (Y = 9.96 0.139(X) + 0.0189(X 2) + 0.00022(X 3), R2 = 0.914, s = 2.656, PRESS = 8007.75, F = 14.14, p = 0.14) (e) De acuerdo a los resultados estadsticos, Cul de los tres modelos es superior? 8.19. La tasa de flujo en m3/min en un muestreador de alto volumen para medir la calidad del aire, es decir, para partculas atmosfricas, depende de la cada de presin, en pulgadas de agua, a travs del filtro del muestreador. Siendo as, supngase que se coleccion una muestra de 15 valores de cada de presin y la tasa de flujo del aire a travs del filtro del sensor. Los datos se dan en la tabla de abajo. Tabla mostrando los datos para este problema. (Elaboracin propia) Tasa de flujo del aire con Cada de presin despus de 3 las partculas (m /min) algn tiempo (pulgadas de agua) 2.00 5.0 1.99 6.0 1.88 7.0 1.76 7.8 1.68 8.4 1.57 9.6 1.46 9.9 1.40 10.6 1.39 11.7 1.20 14.0 1.15 15.9 1.07 19.0 1.01 24.0 1.00 28.0 0.95 35.0 (a) Calcular el modelo de regresin muestral que estime a la verdadera lnea
8-76
poblacional. Para esto, identificar, primeramente, la variable dependiente y la variable regresora. (Y = 1.95 0.0364 (X)) (b) Validar el modelo de regresin estimado en (a) usando enfoques subjetivos, es decir, a travs de grficas con residuos estandarizados versus valores de cada de presin. Tambin hacer otra grfica de residuos estandarizados versus los renglones. Hacer otra grfica ms con los valores residuales versus los valores de z para la prueba de normalidad. (c) Complementar la validacin del modelo de regresin usando mtodos estadsticos objetivistas. Para esto, estimar el coeficiente de determinacin R2, el error estndar de lo estimado (s dado por el Minitab) y PRESS. Usar el programa Minitab para estos clculos. (R2 = 76.0%, s = 0.1869, PRESS = 0.7405) 8.21. Se hace un estudio sobre la concentracin de cadmio atmosfrico, en ppm, yi y su relacin con Xi = la altura de los muestreadores y X2 = distancia de la fuente emisora. La tabla de abajo muestra los datos. Hacer los siguientes clculos: (a) Ajustar el modelo de regresin que pueda ajustar a los datos del problema de la concentracin de Cd. (Y = 350.99 1.27X1 0.154X2) (b) Validar el modelo usando enfoques de diagnstico de estadstica de inferencia (objetivistas) y de anlisis grfico (subjetivistas). (c) Usar el modelo de regresin lineal mltiple para predecir el la concentracin de cadmio, cuando la altura del muestreador es de X1 = 25 metros y la distancia de la fuente emisora, es X2 = 851 metros. (188.2 ppm de Cd) La tabla de abajo muestra los datos requeridos por este problema.
8-77
Tabla mostrando los datos. (Elaboracin propia) y (concentracin de Cd) | 193 230 15.5 816 172 22.0 1058 91 43.0 1201 113 33.0 1357 125 40.0 1115
X1 (Altura del muestreador) | 1.6 X2 (Distancia) | 851
8.22. El texto Applied Statistics: Analysis de Variance and Regression de los investigadores Olive Dunn y Virginia Clark, discuten un ejemplo para predecir el rendimiento de la cosecha de cebada, en funcin de la precipitacin pluvial X1 y la temperatura X2. Para esto, hacer los siguientes clculos: (a) Enlistar el modelo de regresin lineal mltiple que mejor ajuste a los datos. (b) Estimar la ecuacin de los cuadrados mnimos que ajuste el rendimiento de trigo (Y) a la precipitacin pluvial (X1) y la temperatura (X2). (c) Probar la hiptesis de Ho: 2 = 0 con = 0.05. (d) Estimar el coeficiente de correlacin parcial 2y.1 y probar Ho: 2y.1 = 0 (e) Validar el modelo de regresin derivado para ver, qu tanta confiabilidad se le puede acreditar. Hacer esto, a travs de juicios objetivistas, como los diagnsticos R2, R2ajustada, R2predecida, s, PRESS y Cp. Complementar la evaluacin del modelo usando tcnicas subjetivistas, como los anlisis de los grficos de residuales estandarizados y estudiantizados, prueba de normalidad, etc.
8-78
Tabla mostrando los rendimientos de cebada como variable dependiente de la precipitacin pluvial y la temperatura. Rendimiento de cebada (yi) Precipitacin (x1) Temperatura (x2) (fanegas/acre) (pulgadas) (oF) 21.0 45 54.1 20.0 47 61.6 21.0 33 50.8 24.0 39 52.1 20.0 30 50.2 12.5 28 57.1 19.0 41 55.7 23.0 44 57.6 23.0 31 50.1 19.0 29 38.0 21.0 34 56.2 12.0 27 51.5 21.0 42 54.1 27.0 35 46.7 17.5 43 60.8 26.0 39 56.9 11.0 31 60.3 24.0 42 54.6 26.0 43 53.5 18.5 47 64.0 15.5 25 45.7 (Fuente: Dunn et al. 1974. Applied Statistics: Analysis de Variance and Regression) 8.23. El texto Applied Statistics: Analysis de Variance and Regression de Dunn et al. 1974) hace un estudio mdico relacionado con el cambio de la hemoglobina de la sangre de operaciones de la glndula tiroides, el cual est relacionado con la duracin de la operacin quirrgica y el cambio en el porcentaje de la hemoglobina de la sangre. Los datos se dan en la tabla de abajo.
8-79
Tabla mostrando los datos. ________________________________________________________________ No. de paciente | 1 2 3 4 5 6 7 8 Prdida de sangre (x1) | 105 80 86 112 109 100 96 120 Duracin en minutos (x2) | 503 490 471 505 482 490 513 464 % de cambio de hemoglobina (y1) | -1.7 -4.6 -9.8 -1.1 -4.1 -3.3 0.4 -2.9 ________________________________________________________________ Fuente: Dunn et al. 1974 Hacer los siguientes clculos: (a) Encontrar el modelo de regresin mltiple para predecir el porcentaje del cambio de la hemoglobina (y) en funcin de las variables independientes, es decir, duracin de la operacin (x1) y de la prdida de sangre (x2). (y = -84.002 + 0.129x2 + 0.138x2) (b) Predecir el % del cambio en la hemoglobina, cuando la duracin en minutos de la operacin es de 80 y la prdida de sangre es de 350 ml. obtenido en este problema? (d) Calcular el coeficiente de determinacin mltiple. constante. (R2 = 0.813) (0.793) (e) Calcular el coeficiente parcial de correlacin, es decir, entre y y x1, con x2 8.24. El libro de Jay L. Devore intitulado Probabilidad y Estadstica para Ingeniera y Ciencias discute el diseo eficiente de ciertos incineradores de desperdicios municipales, los cuales requieren de informacin acerca del contenido energtico de los desperdicios. Acordemente, los autores del artculo Modelling the Energy Content of Municipal Solid Waste Using Multiple Regression Techniques (J. of the Air and Waste Mgmt. Assoc., 1996, pp. 650-656) proporcionaron los siguientes datos acerca de Y = contenido energtico (Kcal/Kg.), en funcin de regresores % de
8-80
(25.38%)
(c) Discutir, qu tanta fidelidad se le puede otorgar al modelo de regresin mltiple
plsticos en peso, % de papel en peso, % de basura en peso y % de humedad de peso. Tabla mostrando los datos de este problema.
_______________________________________________________________________________________________ Obs. % Plstico (x1) % Papel (x2) % Basura (x3) % Humedad Contenido energtico (y) _______________________________________________________________________________________________ 1 18.69 15.65 45.01 58.21 947 2 19.43 23.51 39.69 43.61 1407 3 19.24 24.23 43.16 46.63 1452 4 22.64 22.20 35.76 45.85 1553 5 16.54 23.56 41.20 55.14 989 6 21.44 23.65 35.56 42.24 1162 7 19.53 24.45 40.18 47.20 1466 8 23.97 19.39 44.11 43.82 1656 9 21.45 23.84 35.41 51.01 1254 10 20.34 26.50 34.21 49.06 1336 11 17.03 23.46 32.45 53.23 1097 12 21.03 26.99 38.19 51.78 1266 13 20.49 19.87 41.35 46.69 1401 14 20.45 23.01 43.59 53.57 1223 15 18.81 22.62 42.20 52.98 1216 16 18.28 21.87 41.50 47.44 1334 17 21.41 20.47 41.20 54.68 1155 18 25.11 22.59 37.02 48.74 1453 19 21.04 26.27 38.66 53.22 1278 20 17.99 28.22 44.18 53.17 1153 21 18.73 29.39 34.77 51.06 1225 22 18.49 26.58 37.55 50.66 1237 23 22.08 24.88 37.07 50.72 1327 24 14.28 26.27 35.80 48.24 1229 25 17.74 23.61 37.36 49.92 1205 26 20.54 26.58 35.40 53.58 1221 27 18.25 13.77 51.32 51.38 1138 28 19.01 25.62 39.54 50.13 1295 29 21.25 20.63 40.72 48.67 1392 30 21.62 22.71 36.22 48.19 1372 _____________________________________________________________________________________________
Fuente: Jay L. Devore. Probability and Statistics for Engineering and the Sciences (2000) (a) Obtener el modelo de regresin y validarlo acordemente, es decir, usando diagnsticos subjetivos y despus complementar la tarea usando diagnsticos objetivos. 8.25. Treinta muestras del efluente de una planta de tratamiento se analizaron para la
8-81
medicin del DBO5 y la demanda bioqumica de oxgeno (DQO). Los datos se muestran en la tabla de abajo. Hacer lo siguiente: (a) Calcular el promedio, s y el error estndar del DBO y del DQO. ( X DBO = 440.6, s = 93.18, error estndar = 17.01; X DQO = 194.4, s = 45.3, error estndar = 8.27) (b) Graficar los datos en papel de probabilidad. (c) Determinar el DBO5 y el DQO que se exceder el 50% de las veces. (El DBO5 exceder 195 lbs/da el 50% de las veces. El DQO exceder 440 lbs/da el 50% del tiempo) (d) Determinar el DBO5 y el DQO que se exceder el 90% del tiempo. Tabla mostrando las concentraciones de DQO y de DBO5. (Elaboracin propia) DQO | 494 494 528 396 532 308 350 456 440 544 (lbs/da) | 310 538 480 500 396 486 556 600 428 440 | 291 490 546 582 368 386 400 347 278 304 DBO5 | 216 200 238 164 230 116 150 190 190 248 (lbs/da) | 120 226 200 222 176 202 240 280 184 194 | 134 215 246 292 177 193 165 160 125 137 8.26. El director de la oficina de personal de una firma constructora desea saber si la destreza, en determinado tipo de trabajo, dentro de la empresa, puede ser pronosticada usando como pronosticadores las variables edad y experiencia de los empleados. La tabla de abajo da la informacin de una muestra aleatoria de 15 empleados. (Adaptacin del libro Business Statistics de Daniel et al. 1989, p. 577).
8-82
Tabla mostrando los datos del problema. ________________________________________________________________ Nivel de (y) Experiencia (x1) Edad (x2) Destreza 15 0 21 15 0 18 21 0 22 28 1 24 30 1 25 35 1 25 40 1 26 35 2 34 30 2 25 45 2 38 50 3 44 60 3 51 45 4 39 60 4 54 50 5 55 ________________________________________________________________ Fuente: Daniel et al. 1989. Business Statistics Hacer los siguientes clculos: (a) Encontrar la ecuacin de regresin de los cuadrados mnimos. (b) Computar R2y.12. (c) Probar Ho:1 = 0 y Ho:2 = 0. Dejar que = 0.05 y calcular el valor de p para cada prueba. (d) Computar el 95% de intervalo de confianza para 2. (e) Dejar que x1 = 2 y x2 = 25 y calcular y. (f) Encontrar el intervalo de 95% para y. 8.27. La capacidad de los ecologistas para identificar regiones de mxima riqueza de las plantas podra tener un impacto sobre la preservacin de la diversidad gentica. Esto es uno de los objetivos de los ecologistas quienes estn preocupados
8-83
por el medio ambiente. El artculo Prediction of Rarities from Habitat Variables: Coastal Plain Plants on Nova Scotian Lakeshores (Ecology, 1992, pp. 1852-1859) us una muestra de 37 lagos y se obtuvo la ecuacin de regresin de abajo. Este problema se sac del libro del investigador J. L. Devore (2001). y = 3.89 + .033x1 + .024x2 + .023x3 - .0080x4 - .13x5 - .72x6 Donde: y = riqueza de especies de plantas x1 = rea de la cuenca x2 = ancho de la playa x3 = mal drenado (%) x4 = color del agua x5 = % de arena x6 = alcalinidad. El estudio report un coeficiente de determinacin mltiple de R2 = 0.83. Realizar una prueba de la utilidad del modelo de regresin. Sugerencia: usar la funcin estadstica: F = [R2/k] / [(1 - R2)/(n - (k + 1))], con regin de rechazo para una prueba de nivel de F F,k,n-(k+1), donde k es el nmero de pronosticadores usados. Usar la tabla de la distribucin F. Valorar la utilidad del modelo de acuerdo al valor de la probabilidad p. 8.28. Este es ejercicio que involucra la seleccin de un modelo de regresin con 9 variables independientes o predictoras, es decir, x1, x2, x3, x4, x5, x6, x7, x8 y x9. Basando el criterio en los diagnsticos R2, MSE y Cp (criterio de Mallow), decir cul modelo de regresin es el ms apropiado. Esto es, seleccionando los mejores subconjuntos posibles. Los datos se dan abajo.
8-84
Tabla mostrando los datos. (Elaboracin propia) ________________________________________________________________ Subconjunto de predictores 1 2 3 4 5 6 7 8 9 Criterios _________________________________________________________ R2k | .354 .453 .511 .550 .562 .570 .572 .575 .575
MSEk | 2295 1948 1742 1607 1566 1541 1535 1530 1532 Cpk | 314 173 89.6 35.7 19.9 11.0 9.4 8.2 10.0 __________________________________________________________________ 8.29. En un estudio de laboratorio para ver la relacin entre los slidos suspendidos y las concentraciones de DBO se sac una muestra con los datos que se muestran en la tabla de abajo. Tabla mostrando los datos. (Elaboracin propia) Slidos suspendidos| 18 | 55 DBO5 7 14 17 36 31 85 21 62 5 18 11 33 16 41 26 63 29 87
(a) Hacer una grfica que vaya en funcin de la variable dependiente y de la variable independiente. (b) Obtener el modelo de la ecuacin de regresin y trazarla en la grfica. (Slidos suspendidos Y = 0.32 + 0.352 (X) (c) Validar el modelo de regresin objetivamente, calculando el coeficiente de determinaron R2, s y PRESS. de abajo. (R2 = 0.962, s = 0.957, s = 1.85, PRESS = 42.38) (d) Hacer una tabla de ANOVA que incluya el valor de F y p. (Completar la tabla
8-85
Tabla de ANOVA. (Elaboracin propia) __________________________________________________________________ Fuente g.l. SS MS Fcalc. Ftab. Valor p __________________________________________________________________ Debido a la 1 694.16 regresin Error 27.44 3.43 Total 9 721.60 __________________________________________________________________ (e) Hacer un diagnstico grfico para validar la autenticidad del modelo de regresin seleccionado. Sugerencia: usar el programa Minitab. 8.30. Treinta casos del efluente de una planta de tratamiento se analizaron para el DBO y el DQO. Los datos se muestran en la tabla de abajo. Hacer los siguientes clculos: Tabla mostrando los datos del problema. (Elaboracin propia) DQO (lbs/Da)| 494 444 528 396 532 308 350 456 440 544 310 538 | 480 500 396 486 556 600 428 440 291 490 546 582 | 368 386 400 347 278 304 DBO (lbs/Da | 216 200 238 164 230 116 150 190 190 248 120 226 | 200 222 176 202 240 280 184 194 134 215 246 292 | 177 193 165 160 125 137 __________________________________________________________________ (a) Determinar R2 y R. (R2 = 0.9350, R = 0.967) (b) Graficar los datos en papel de probabilidad y determinar lo siguiente: (1) Determinar los valores de DBO y el DQO que excedern el 50% y el 90% de las veces. (195 lbs/Da y 440 lbs/Da) (2) Determinar los valores de DBO y del DQO que se lograrn el 90% de las veces.
8-86
(3) Determinar los valores de DBO y del DQO que puedan ser excedidos el 10% de las veces. (260 lbs/Da y 580 lbs/Da) (4) Calcular el promedio y la desviacin estndar del DBO y del DQO. (c) Evaluar el modelo de regresin aplicando enfoques subjetivistas, es decir, con grficas de los valores residuales en funcin de valores ajustados (para la prueba de independencia), pruebas de normalidad, etc. 8.31. Este es un problema adaptado del libro Introduccin al Anlisis de Regresin Lineal de los autores Montgomery, Peck y Vining (2001). Este proyecto est relacionado con un estudio de energa solar en el Tecnolgico de Georgia, Estados Unidos. El proyecto involucra datos de pruebas de energa trmica con una variable dependiente (y), que relaciona al flujo total de calor (Kwatts) y cinco variables independientes que estn relacionadas con la insolacin (watts/m2), la posicin del foco en direccin del este (en pulgadas), la posicin del foco en direccin del sur (en pulgadas), la posicin del foco en direccin norte (en pulgadas) y la hora del da. Para esto, estimar los siguientes enunciados: (a) Probar el modelo de regresin que mejor ajuste a los datos. (b) Evaluar el modelo de regresin seleccionado, es decir, a travs de criterios estadsticos y complementar la decisin usando grficos subjetivistas. La tabla de abajo muestra la informacin requerida para solucin todos los enunciados requeridos por este problema.
8-87
Tabla mostrando los datos de las pruebas de energa solar trmica.

__________________________________________________________________________________ y x1 x2 x3 x4 x5 __________________________________________________________________________________
271.8 264.0 238.8 230.7 251.6 257.9 263.9 266.1 229.1 239.3 258.0 257.6 267.3 267.0 259.6 240.4 227.2 196.0 278.7 272.3 267.4 254.5 224.7 181.5 227.5 253.6 263.0 265.8 783.35 748.45 684.45 827.80 860.45 875.15 909.45 905.55 756.00 769.35 793.50 801.65 819.65 808.55 774.95 711.85 694.85 638.10 774.55 757.90 753.35 704.70 666.80 568.55 653.10 704.05 709.60 726.90 33.53 36.50 34.66 33.13 35.75 34.46 34.60 35.38 35.85 35.68 35.35 35.04 34.07 32.20 34.32 31.08 35.73 34.11 34.79 35.77 36.44 37.82 35.07 35.26 35.56 35.73 36.46 36.26 40.55 30.19 37.31 32.52 33.71 34.14 34.85 35.89 33.53 33.79 34.72 35.22 36.50 37.60 37.89 37.71 37.00 36.76 34.62 35.40 35.96 36.26 36.34 35.90 31.84 33.16 33.83 34.89 16.66 16.46 17.66 17.50 16.40 16.28 16.06 15.93 16.60 16.41 16.17 15.92 16.04 16.19 16.62 17.37 18.12 18.53 15.54 15.70 16.45 17.62 18.12 19.05 16.51 16.02 15.89 15.83 13.20 14.11 15.68 10.53 11.00 11.31 11.96 12.58 10.66 10.85 11.41 11.91 12.85 13.58 14.21 15.56 15.83 16.41 13.10 13.63 14.51 15.38 16.10 16.73 10.58 11.28 11.91 12.65
263.8 697.15 37.20 36.27 16.71 14.06 ___________________________________________________________________________________________ y = Flujo total de calor (kwatts); x1 = Insolacin (watts/m2); x2 = Posicin del foco en direccin este (pulgadas); x3 = Posicin del foco en direccin sur (pulgadas); x4 = Posicin del foco en direccin norte (pulgadas); x5 = Hora del da
Fuente: Introduccin al Anlisis de Regresin Lineal. Montgomery et al. 2001.
8-88
8.32. La intencin de este ejercicio es la de hacer una grfica, con la variable de respuesta (Y) y con cuatro variables regresivas (X1, X2, X3, X4) usando el programa Minitab. Siendo as, de la configuracin de los puntos esparcidos obtenida predecir, qu tipo de funcin de regresin estadstica encajara mejor en los datos. Adems, evaluar el modelo de regresin candidato o superior usando mtodos estadsticos y grficos. Sugerencia: para hacer la grfica pedida, usar el programa Mintab procediendo de la siguiente manera: Irse a Graph Draftsman Plot. Esto lleva al recuadro de Draftsman Plot. Enseguida, en la ventanilla de Y variable poner la variable dependiente (Y) y, en la ventanilla de X variable poner las variables independientes (X). Tabla mostrando los datos de este problema. (Elaboracin propia).
______________________________________________________________________________
Variable de respuesta (Y) Variable regresiva X1 Variable regresiva X2 Variable regresiva X3 Variable regresiva X4
235 231 285 270 296 312 295 292 263 271 283 256
20 27 40 55 60 68 75 80 70 50 40 30
19 17 20 20 20 21 20 20 20 15 15 15
86 85 83 82 87 89 83 81 58 79 80 79
95 90 105 83 90 94 92 92 105 100 90 88
8.33. Este es un problema adaptado del texto de Jay L. Devore (2001), en el cual se da la informacin requerida para la seleccin del modelo de regresin superior, basado en la inclusin del nmero de variables regresoras, seleccionado entre
8-89
cuatro modelos candidatos. El ejemplo est relacionado con el calor acumulado del endurecimiento del cemento tomado como la variable dependiente, en funcin de los predictores x1 = % de aluminato de tricalcio, x2 = % de silicato de tricalcio, x3 = % ferrato de aluminio y x4 = silicato de dicalcio. Se da un tamao de muestra igual a 13 observaciones y, donde la suma de los cuadrados del total es igual a 2,715.76. Para esto, se pide al lector llenar los faltantes de la tabla de abajo y decidir cual es el modelo superior que tiene el nmero adecuado de variables regresoras. Tabla mostrando la informacin. Llenar los faltantes.
No. de regresores k 1 2 3 4 Regresor (es)k x4 x1, x2 x1, x2, x3 x1, x2, x3, x4 SSEk 880.85 58.01 R2k 0.676 0.982 R2(ajustada)k 0.647 0.876 0.982 Cpk 138.2 2.7 3.2 4.0 F(calc.)k
8-90
CAPITULO 9 Regresin polinomial

Modelos polinomiales de segundo orden (k = 2) con una variable independiente.Modelo de polinomios de tercer orden (k = 3), con una variable independiente.Modelo de segundo orden (cuadrtico) con interaccin.- Modelo polinomial (de segundo orden o cuadrtico), con tres variables independientes con interaccin.Evaluacin de los modelos de regresin.- Prueba estadstica para comparar la suma de los cuadrados del error (SSE) de cada modelo probado, para saber cual modelo es superior.- Modelos de regresin no lineales y de regresin logstica.Modelos de regresin exponenciales paramtricos, con una sola variable independiente.- Procedimientos para la identificacin de valores atpicos extremos. Diagnstico y mitigacin de multicolinealidad.- Medidas para corregir multicolinealidad severa.- Ejemplos de problemas de regresin polinomial usando el programa de computadora Minitab.- Autocorrelacin en datos de series de tiempo.- Heteroscedasticidad y homoscedasticidad.- Prueba de White para el problema de heteroscedasticidad.La regresin polinomial es un caso especial de la regresin lineal simple o mltiple. Hay modelos polinomiales de segundo o tercer orden. Con la regresin polinomial existen modelos con una variable independiente, con ecuaciones cuadrticas, cbicas o con rdenes ms altos que k = 3. Tambin hay modelos polinomiales con dos o ms variables independientes, con ecuaciones de segundo, tercer orden, etc. Igualmente, puede haber modelos de segundo orden o tercer orden con interaccin. Sin embargo, los modelos polinmicos que tienen tres o ms variables independientes, con valores de k > 3 son aplicaciones muy dificultosas y raras.
9-1
Dentro del tpico de regresin, tambin hay modelos de regresin no lineal, como los modelos de regresin exponenciales, en los cuales los parmetros no son lineales. El modelo de regresin polinomial paramtrico o poblacional es: y = o + 1x + 2 x2 + + k xk + El estimador o modelo de regresin estadstico es: y = bo + b1x + b2 x2 + + bk xk + e Modelos polinomiales de segundo orden (k = 2) con una variable independiente El modelo polinmico de segundo orden (k = 2), con una variable independiente, llamada funcin de respuesta cuadrtica es: y = o + 1x + 11x2 + Que tambin se puede expresar con diferente anotacin como: y = o + 1x + 2 x2 + Donde: y = variable dependiente o funcin de respuesta o = intercepto en la ordenada. Este coeficiente de regresin representa la respuesta promedio de y, cuando x = 0 1 = coeficiente de efecto lineal 11 o 2 es el coeficiente de efecto cuadrtico x = variable independiente = trmino de error o residuo La funcin de respuesta para este modelo de regresin (Neter et al. 1996) es: E{Y} = o + 1x + 11x2 (9-1b) Esta funcin es la forma bsica de una parbola convexa, es decir, cuando 2 < 0. Sin embargo, cuando 2 > 0, la parbola es cncava. Estas situaciones se ven en la Figura 9.0(a) y en la Figura 9.0 (b). El coeficiente o representa el intercepto en la ordenada.
9-2
(9-1) (9-1a)
Los coeficientes 1 y 2 controlan la parbola, relativo a la ordenada. Por ejemplo, si 1 = 0, la parbola es simtrica y centrada alrededor de y = 0. No obstante, si 1 y 2 tienen el mismo signo, la parbola se desva hacia la izquierda, pero si 1 y 2 tienen signos opuestos, la parbola se desva hacia la derecha. Adems, el coeficiente 2 describe la curvatura. Por otra parte, si 2 = 0, no hay curvatura. Esto se ve en la Figura 9.0(c). Entre ms grande sea el valor de 2, mayor ser la tasa de curvatura. Sin embargo, entre ms pequeo sea el valor de 2, menor ser la curvatura (Keller et al. 1990). Todas estas situaciones se ven en estas grficas. Modelo de polinomios de tercer orden (k = 3), con una variable independiente y = o + 1x + 11x2 + 111x3 + Donde: y = variable dependiente 1 = coeficiente de efecto lineal 11 = coeficiente de efecto cuadrtico 111 = coeficiente de efecto cbico. Las Figuras 9.0 (d) y (e) de abajo muestran este tipo de ecuacin. Como se ve, cuando 3 < 0, sobre el rango de x, el valor de y disminuye, pero cuando 3 > 0, el valor de y aumenta. Sin embargo, las aplicaciones del modelo cbico son muy pocas. (9-2)
9-3
Figura 9.0. Figuras mostrando las grficas del modelo cuadrtico y cbico. Por ejemplo, grfica (a) muestra el modelo de segundo orden, con 2 < 0; la grfica (b) muestra el modelo con 2 > 0 y con varios valores de 2. La grfica (c) muestra los modelos de tercer orden con 3 < 0 y, (d), con 3 > 0. (Fuente: Keller et al. 1990)
9-4
Los modelos polinomiales de poderes ms altos que k = 3 deben de usarse con precaucin. Esto se debe a que, la interpretacin de los coeficientes es difcil, y las interpolaciones pueden ser peligrosas. Adems, cuando hablamos de modelos con valores de k = 4, o k = 5, el comportamiento de semejantes modelos es extrao y de aplicaciones raras y, por lo tanto, no se discutirn aqu. Modelo de segundo orden con ms de dos variables independientes con interaccin Antes de discutir estos modelos de regresin hay que definir el trmino interaccin. Interaccin significa que, el efecto de x1 sobre y, es influenciado por el valor de x2, que tambin significa que, el efecto de x2 sobre y, es influenciado por x1. Para ver el efecto de interaccin, supngase que la ecuacin de la lnea de regresin muestral es y = 6 + 4x1 + 5x2 3x1x2. Para explicar este efecto supngase que le demos valores a x2 de 1, 2, y 3. Al sustituir los valores de x2 = 1, 2, y 3, en la ecuacin muestral de arriba, se producen las siguientes ecuaciones: y = 5 + x1, con x2 = 1; y = 10 2x1 con x2 = 2 y, adems, y = 15 5x1, con x2 = 3. Analizando estas tres ecuaciones modificadas vemos que el intercepto y los coeficientes de x1 tambin varan. Aqu se ve que el efecto de x1 sobre y es influenciado por el valor de x2. Al graficar estas tres ecuaciones vemos que las tres lneas rectas se cruzan entre si. Esto se ve en la Figura 9.1 (b). En esta grfica, claramente, se ve que hay interaccin, es decir, cuando las lneas rectas se cruzan entre si. Modelo de segundo orden (cuadrtico) con interaccin Si un investigador cree que en sus datos existe una relacin cuadrtica entre la variable dependiente (y) y cada una de las variables independientes x1 y x2, es decir, cuando las variables independientes interaccionan entre si (decisin que se logr despus de analizar las grficas con tres curvas interaccionando entre si), entonces, se
9-5
debe de inclinar por el modelo de segundo orden con interaccin. El modelo polinomial con dos variables independientes con interaccin se da como: y = o + 1x1 + 2 x2 + 3 x21 + 4 x22 + 5 x1x2 + sealadas abajo: y = o + 1x1 + 2 x2 + 12 x21 + 22 x22 + 12 x1x2 + Donde: 12 = coeficiente de efecto de interaccin, donde x1 y x2 representan la interaccin entre los pronosticadores o variables independientes x1 y x2. Aqu, ntese que, la diferencia entre la ecuaciones (9-2) y (9-3), es el ltimo trmino de la derecha, el cual denota el efecto de la interaccin. Modelo polinomial (de segundo orden o cuadrtico) con tres variables independientes sin interaccin El modelo de segundo orden con tres variables independientes, cuando estas variables no interaccionan entre si, es: y = o + 1x1 + 2 x2 + 3 x3 + 11 x21 + 22 x22 + 33 x23 + independientes con interaccin El modelo de segundo orden con tres variables independientes, con interaccin (Neter et al. 1996) es:
y = o + 1x1 + 2x2 + 3x3 + 11x21 + 22x22 + 33x23 + 12x1x2 + 13x1x3 + 23x2x3 +
(9-3)
Este modelo, tambin se puede expresar con diferentes anotaciones, como las (9-3a)
(9-4)
Modelo polinomial (de segundo orden o cuadrtico), con tres variables
(9-5)
Donde: y = variable dependiente o funcin de respuesta o = intercepto en la ordenada
9-6
12, 13, 23 = los coeficientes del efecto de interaccin entre los pares de variables de prediccin x1x2, x1x3 y x2x3 x1x2, x1x3, x2x3 representan la interaccin entre las variables independientes x1, x2, x3,x1, x2, x3 = variables independientes En la solucin de problemas relacionados con modelos de regresin lineal, mltiple o de regresin polinomial, con una o ms variables independientes es siempre conveniente graficar los datos y examinar el diagrama esparcido. Esto se hace con el objeto de analizar, visualmente, el diagrama esparcido y ver el tipo de curva mostrado y, por consiguiente, el modelo de regresin o funcin que pueda encajar mejor en los datos.
Figura 9.1. Grficas mostrando modelos polinomiales de primero y segundo orden, con dos variables independientes. La grfica (a) muestra la ecuacin y = 6 + 4x1 + 5x2. Cuando x2 = 1, 2 y 3, las ecuaciones modificadas se ven en la grfica en cada uno de sus casos.
9-7
En estas figuras se ve que no hay interaccin (las lneas no se cruzan, porque es un modelo aditivo). La grfica (b) muestra la ecuacin y = 6 + 4x1 + 5x2 3x1x2. Cuando x2 = 1, 2 y 3, la grfica muestra las ecuaciones modificadas. Aqu se ve que, la ecuacin polinomial de primer orden tiene interaccin. Finalmente, las grficas (c) y (d) muestran los modelos de regresin polinomial de segundo orden, sin interaccin y, con efecto de interaccin de inferencia, respectivamente. Esto se vera despus de que se sustituyeran los valores de x2 = 1, 2 y 3 a una ecuacin muestral que emular al modelo (9-6). (Keller et al. 1990). Evaluacin de los modelos de regresin La regresin polinomial es un caso especial de los modelos de regresin lineal simple y mltiple. La validacin de estos modelos es anloga a la de los modelos de regresin lineal. Sin embargo, antes de estar totalmente seguros acerca de la utilidad del modelo de regresin seleccionado, para fines de prediccin y estimacin, hay que ver que el modelo represente adecuadamente la relacin entre las variables. Esto se puede hacer a travs de estadstica de inferencia y de anlisis de grficos. Para la evaluacin de los modelos se puede proceder, jerrquicamente, ajustando modelos de segundo y tercer orden, con interaccin y sin interaccin y, luego se explora la posibilidad de ajustar un modelo de orden ms bajo como modelos de regresin lineal mltiple, pero, nuevamente, con interaccin y sin interaccin. De cualquier manera, como se dijo antes, para evaluar los modelos de regresin se procede explorando los criterios estadsticos, como el coeficiente de determinacin mltiple (R2), el error estndar de lo estimado (s), el coeficiente de determinacin mltiple (R2), el criterio Cp de Mallow, PRESS (la sigla de suma de cuadrados de error de prediccin) o, los valores de t, etc. Adems, se revisan los valores de VIF (factores de varianza inflada; en donde valores grandes de VIFs indican grandes diferencias entre los coeficientes de regresin estimados y los estandarizados), para ver posibles
9-8
problemas de colinealidad. Tambin, se puede usar la estadstica de Durbin-Watson para revisar problemas de autocorrelacin de los residuos en series de tiempo. Aqu, para regresin mltiple, de acuerdo a la lgica del programa NCSS, sta dice que, si esta funcin est cercana a 2, no hay autocorrelacin, pero si es muy diferente de 2, entonces, si la hay. Anlogamente, se pueden usar otros mtodos como Regresin por Pasos o Todas las Regresiones Posibles, que seleccionan los modelos ptimos basndose en los criterios arriba citados, es decir, agregando y/o eliminando las variables independientes o de respuesta. Finalmente, todo esto se puede complementa usando un anlisis subjetivo, es decir, analizando los grficos de los residuos estandarizados o no estandarizados, esto es, examinando la prueba de normalidad, residuos versus valores ajustados, de los rdenes, etc. A. Anlisis de estadstica de inferencia (objetivo) para complementar la validacin del modelo 1. Clculo del coeficiente de determinacin R2. Este criterio indica, qu proporcin de la variacin total en la respuesta Y se explica con el modelo ajustado. En trminos simples, esto dice que R2 indica la proporcin de variacin explicada por las variables independientes x1, x2, x3, ., xk. Este coeficiente de determinacin R2 ya se describi anteriormente, es decir: R2 = (xy)2 / x2y2 se definen por las ecuaciones (8-8), (8-9) y (8-10) dadas en el captulo 8. 2. El error estndar de lo estimado:
s =
SSE = (y y p)2/(n 2) n 1 k
(9-6)
Donde: xy = XY XY/n, x2 = X 2 (X)2/n y y2 = Y 2 (Y)2/n, las cuales
(9-7)
Donde, SSE = e2i se refiere a la suma de los cuadrados del error o residuo, y p es lnea
9-9
de regresin, n es el tamao de muestra y, k, es el nmero de coeficientes i probados en el modelo de regresin polinomial. Un valor pequeo de SSE, indica un buen ajuste del modelo. La funcin SSE es un diagnstico muy importante. 3. Criterio Cp. Este diagnstico est relacionado con el error cuadrtico medio de un valor ajustado. En general, se prefieren valores pequeos de Cp. El modelo ptimo tiene un valor de Cp cercano a (p + 1), donde, p es el nmero de variables independientes. Un Cp mayor que (p + 1) indica que el modelo de regresin contiene variables innecesarias que puedan dar problemas de colinialidad, pero si el Cp es menor que (p + 1), esto indica que se han omitido variables importantes. 4. Anlisis de ANOVAS y pruebas de t de Estudiante para ver cual modelo de regresin ajusta mejor los datos. B. Anlisis grfico (subjetivo). Para hacer la evaluacin, subjetivamente, de la bondad de ajuste de los modelos usados se analizan los siguientes grficos: 1. Prueba de normalidad. Para que exista normalidad, los residuos debern formar una lnea recta o estar dentro de las bandas de confianza. Si no es as, la suposicin de normalidad es invlida. 2. Histogramas de residuos. Esta grfica deber asemejarse a una distribucin normal. 3. Grfica de residuos versus valores ajustados de Y para la prueba de independencia. Aqu, debe haber aleatoriedad de los residuos. No debe haber tendencias crecientes o decrecientes. Adems, debe haber el mismo nmero de residuos positivos y negativos. De no ser as, se violan las suposiciones del modelo. 4. Autocorrelacin (valores de fijos). Para diagnosticar la autocorrelacin en series de tiempo, grficar residuos vs. tiempo. Usar prueba de Durbin-Watson para ver si existe autocorrelacin de primer orden. Se mitiga haciendo transformaciones del eje Y. 5. Anlisis de grficos para diagnosticar colinialidad (correlacin o dependencia casi lineal entre las variables de regresin). Para mitigar esto hacer transformaciones como
9-10
Y= Log Y, Y = Y 2, Y = Y e Y = 1/Y. 6. Prueba de heteroscedasticidad (hetero- = desigual; -scedasticidad = esparcido) o de residuales no uniformes (implica error de varianza de 2 no constante en todos los casos, en contraste con homoscedasticidad, la cual implica error de varianza 2 constante). Para diagnosticar el problema de heteroscedasticidad graficar los residuales versus valores predecidos, Y. Anlogamente, para diagnosticar este problema de heteroscedasticidad se puede hacer aplicando las pruebas de White y de Breusch-Pagan. Para mitigar el problema de la falta de homoscedasticidad, esto se puede hacer por medio de transformaciones, como en el incio (5). Tambin se puede hacer probando otros modelos que ajusten mejor los datos. Resumen de los modelos de regresin usados A. Modelo de regresin lineal simple (de primer orden), con una variable independiente y = o + 1x1 + B. Modelo de regresin lineal mltiple, con dos variables independientes, sin interaccin y = o + 1x1 + 2 x2 + C. Modelo de regresin lineal mltiple, con dos variables independientes, con interaccin y = o + 1x1 + 2 x2 + 12 x1x2 + D. Modelo cuadrtico, con una variable independiente y = o + 1x1 + 2 x22 +
9-11
F. Modelo cbico, con una variable independiente y = o + 1x1 + 2x22 + 3x33 + F. Modelo de segundo orden (cuadrtico), con 2 variables independientes, sin interaccin y = o + 1x1 + 2 x2 + 11 x21 + 22 x22 + G. Modelo cuadrtico con dos variables independientes con interaccin y = o + 1x1 + 2 x2 + 11 x21 + 22 x22 + 12 x1x2 + H. Modelo de segundo orden con 3 variables independientes, sin interaccin y = o + 1x1 + 2 x2 + 3 x3 + 11 x21 + 22 x22 + 33 x23 + I. Modelo cuadrtico con 3 variables independientes con interaccin y = o + 1x1 + 2x2 + 3x3 + 11x21 + 22x22 + 33x23 + 12x1x2 + 13x1x3 + 23x2x3 + Ejemplo #1. En un artculo del J. Agricultural Eng. Research, 1975 (p. 353-361) se reportan los datos con el nmero de das despus de la floracin (x), el rendimiento de la cosecha, en Kg./ha (y). (Devore, 2001). La tabla de abajo muestra los datos. TABLA 9.1. Tabla mostrando los datos del problema.
x | 16
18 20 22 24 26 28 30 32 34 36 38 40 42 44 46
y | 2508 2518 3304 3423 3507 3190 3500 3883 3823 3646 3708 3333 3517 3241 3103 2776
(Fuente: Devore, 2001) Hacer los siguientes clculos: (a) Hacer una grfica que vaya en funcin de (y) y de los das de floracin (x). (b) Ajustar el modelo de regresin ms apropiado. (c) Hacer una relacin de los clculos de los coeficientes de la desviacin estndar y de una tabla de anlisis de varianza. (d) Estimar el valor del coeficiente de determinacin mltiple R2. (e) Hacer una prueba de hiptesis Ho:2 = 0 versus H1:2 0. Hacer otra prueba ms
9-12
con Ho:1 = 0 versus H1:1 0. Solucin: (a) La grfica de abajo indica que, una funcin polinomial cuadrtica, con < 0, sera la ms apropiada.
Figura 9.2. Diagrama esparcido de los datos del rendimiento de la cosecha (y) y el nmero de das de floracin (x). (Fuente: Devore, 2001). (b) La tabla de abajo muestra los resultados. (Elaboracin propia) ___________________________________________________________________ Pronosticador Coeficiente Desviacin estndar Valor de t Valor de p ___________________________________________________________________ Constante -1070.4 617.3 -1.73 0.107 1 293.48 42.18 6.96 0.000 2 -4.5358 0.6744 -6.73 0.000 SSE = 203.9 R2 = 0.794 R2ajustada = 0.762 ___________________________________________________________________ Los niveles crticos para una prueba bilateral, con un nivel significante de = 0.05 son: -2.16 t[.025;13] 2.160 (c) Los resultados obtenidos de este inciso se muestran en la tabla de abajo.
9-13
TABLA 9.0. Tabla de anlisis de varianza. (Elaboracin propia) _________________________________________________________________ Fuente de g.l. SS MS Fcalc. Valor de p Variacin _________________________________________________________________ Debido a la 2 2,084,779 1,042,389 25.08 0.0000 regresin Error 13 540,388 41,568 ________________________________________________________________ Total 15 2,625,167 Conclusin: Debido a que Fcalc. = 25.08 >>> Fcrtica = 3.81, se rechaza la hiptesis nula Ho:2 = 0 y, por lo tanto, se inclina por la hiptesis alternativa de H1:2 0. (d) La estimacin del coeficiente de determinacin es: R2 = 1 SSerror/SStotal = 1 540,388/2,625,167 = 0.794 (e) Para la prueba de hiptesis nula Ho:2 = 0 y la hiptesis alternativa H1:2 0, usamos los datos de arriba. Por ejemplo, 2 = -4.5358 y la desviacin estndar es de s2 = 0.6744. La prueba de Ho:2 = 0 es lo mismo que decir que el modelo polinomial cuadrtico no aplica a los datos y, H1:2 0 dice que si aplica. La funcin de t usada es: t = 2 / s2 Sustituyendo los valores correspondientes nos da: t = -4.5358 / 0.6744 = -6.73 La prueba est basada en n - (k + 1) grados de libertad (), es decir, con n = 16 y k = 2. Por lo tanto, = 13. Las regiones crticas son: -2.160 t.025;13 2.160. En conclusin, debido a que la tcalc. = -6.73 < tcrtica = -2.160, se rechaza la hiptesis nula
9-14
(9-8)
de Ho:2 = 0 y se inclina por la prueba de hiptesis alternativa de H1:2 0. No obstante, si se rechaza la hiptesis nula, se dice que el modelo cuadrtico si encaja bien en los datos; de otra manera se acepta la hiptesis nula. Para hacer la prueba de hiptesis nula de Ho:1 = 0 versus H1:1 0, se procede en forma similar. (f) Para las grficas de los residuos estandarizados, en funcin de las observaciones, estas grficas se pueden formular usando la informacin dada en la tabla de abajo. Prueba estadstica para comparar la suma de los cuadrados del error (SSE) de cada modelo probado, para saber cual modelo es superior Los autores Keller et al. (1990) del libro Statistics for Management and Economics dan una prueba estadstica que mide las diferencias de la suma de los cuadrados del error (SSE), para probar la superioridad de cada modelo probado. Esto se debe a que SSE mide, qu tan bien encajan los datos en el modelo. Esta prueba se hace comparando la suma de los cuadrados del error (SSE1) del modelo simple o abreviado y, la suma de los cuadrados del error (SSE2) del modelo completo o complejo. Esto se hace, porque siempre es conveniente usar modelos simples (el uso de modelos complejos no necesariamente los hace superiores). La prueba estadstica para medir la relacin entre SSE1 y SSE2 es: (SSE1 SSE2)/(k2 k1) F = SSE2 / (n k2 1) (9-9)
Donde:
F = distribucin de Fisher, con 1 = k2 k1 y 2 = n k2 1 grados de libertad. Donde: n k2 1 = nmero de grados de libertad asociados con el modelo completo. Donde: k2 = nmero de coeficientes (i) probados del modelo completo k1 = nmero de coeficientes (i) probados del modelo simple. n = tamao de la muestra SSE1 = suma de los cuadrados del error del modelo simple probado
9-15
SSE2 = suma de los cuadrados del modelo completo probado Nota: Si el ajuste del modelo completo no es significantemente mejor que el modelo simple o abreviado, el valor de SS1 ser pequeo. Por ende, la relacin SS1 SS2 ser pequea y, por lo tanto, el valor de F ser pequeo y no se podr rechazar la hiptesis nula. Sin embargo, si el ajuste del modelo completo es bueno, el valor de SS2 ser pequeo y la relacin SS1 SS2 ser grande y, por consiguiente, el valor de F ser grande y se rechazar la hiptesis nula. La regin de rechazo para la ecuacin de arriba (9-9) es dada por la siguiente funcin estadstica: F > F[;k2-k1,n-k2-1] Donde: F = el valor de la estadstica F calculada = nivel significante de 0.05 o 0.01 de la distribucin de F k2 = nmero de coeficientes i del modelo superior k1 = nmero de coeficientes i del modelo abreviado n = tamao de la muestra Ejemplo #2. El libro Statistics for Management and Economics de Keller et al. (1990) da un ejemplo, para determinar el modelo de regresin ms apropiado. Para esto, se saca una muestra de 25 reas (casos). Cada rea consiste en, aproximadamente, 5,000 viviendas. Se registra la ganancia anual total de las ventas, el ingreso promedio anual de las viviendas y la edad promedio de los nios de este problema. Hacer los siguientes clculos: (a) Probar un modelo de regresin cuadrtico, con interaccin. En este caso, lo llamaremos modelo superior o modelo completo. (b) Despus, probar un modelo de regresin cuadrtico, sin interaccin. El este caso, lo llamaremos modelo abreviado.
9-16
(9-9a)
(c) Finalmente, probar un modelo de regresin lineal mltiple, sin interaccin. Este modelo, lo llamaremos modelo lineal simple. (d) Describir las ecuaciones de los modelos de regresin poblacionales de los incisos (a), (b) y (c). (e) Para decidir cual modelo es mejor, hacer una tabla con los resultados de los tres modelos, basndose en los diagnsticos objetivistas como las estadsticas R2, R2ajustada, s, PRESS, ANOVA, etc. (f) Hacer una prueba de hiptesis para ver si el efecto de interaccin es viable. Adems, usar la ecuacin 9-9, para seleccionar el modelo de regresin ms apropiado.
9-17
TABLA 9.2. Tabla mostrando los datos para este problema. Ingreso anual Ingreso promedio Edad promedio de ventas anual de los nios ___________________________________________________________________ rea (y) (x1) (x2) 1 1,128 23.5 10.5 2 1,005 17.6 7.2 3 1,212 26.3 7.6 4 893 16.5 5.9 5 1,073 22.3 6.6 6 1,179 26.1 6.3 7 1,109 24.3 12.1 8 1,019 20.9 14.9 9 1,228 27.1 8.9 10 812 15.6 3.4 11 1,193 25.7 10.6 12 983 30.5 6.0 13 1,281 26.5 8.6 14 1,156 25.7 11.6 15 1,032 21.8 13.7 16 856 33.6 5.8 17 978 17.9 10.3 18 1,017 18.3 5.3 19 1,091 30.1 6.3 20 1,048 29.8 5.3 21 1,192 28.5 10.4 22 1,256 27.5 8.7 23 1,215 26.8 9.5 24 1,233 24.3 8.3 25 950 17.8 6.1 __________________________________________________________________ (Fuente: Statistics for Management and Economics de Keller et al., 1990) Solucin:
9-18
Figura 9.3. Figura mostrando los resultados usando el programa Minitab de los tres modelos probados. (Elaboracin propia) (a) Primero, se prueba el modelo de regresin polinomial cuadrtico, con interaccin, es decir, el modelo completo.
The Regression Equation is: (y) = -1135 + 173(X1) + 23.6(X2) 3.73(X21) 3.8(X22) + 1.97(X1X2) Predictor Constant (X1) (X2) (X1SQR) (X2SQR) (X1X2) Coef -1134.7 173.24 23.62 -3.7270 -3.8720 1.9671 SE Coef 319.8 28.19 32.21 0.5420 1.1790 0.9424 T -3.55 6.15 0.73 -6.88 -3.28 2.09 p 0.002 0.000 0.472 0.000 0.004 0.051
s = 44.68 R-Sq = 90.7% R-Sq(adj) = 88.2% PRESS = 72380.6 R-Sq(pred) = 82.18% Analysis of Variance Table Source Due to regression Residual Error Total DF 5 19 24 SS 368162 37934 406096 MS 73632 1097 F 36.88 p 0.000
Nota: Aqu, la regin crtica de F, con = 0.05 y con 5 y 19 grados de libertad, es 2.74. (b) Enseguida se prueba el modelo de regresin cuadrtico, sin interaccin, es decir, el modelo abreviado. El programa Minitab arroja los siguientes resultados:
The Regression Equation is: (y) = -1558 + 198(X1) + 70.8(X2) 3.98(X21) 4.12(X22) Predictor Constant (X1) (X2) (X1SQR) (X2SQR) s = 48.29 PRESS = 78054 Coef -1558.30 198.07 70.76 -3.997 -4.117 R-Sq = 88.5% R-Sq(pred) = 80.78% SE Coef 267.1 27.62 24.83 0.5709 1.268 T -5.83 7.17 2.85 -6.97 -3.25 p 0.000 0.000 0.010 0.000 0.004
R-Sq(adj) = 86.2%
9-19
Analysis of Variance Table Source Due to Regression Residual Error Total DF 4 20 24 SS 359463 46633 406096 MS 89866 2832 F 38.54 p 0.000
(c) Finalmente, se prueba el modelo de regresin lineal sin interaccin, es decir, el modelo simple. El programa Minitab arroja los siguientes resultados:
The Regression Equation is: (y) = 668 + 11.4(X1) + 16.8(X2) Predictor Constant (X1) (X2) s = 111.6 PRESS = 392674 Coef 667.8 11.425 16.829 SE Coef 132.2 4.676 7.988 T 5.05 2.44 2.11 p 0.000 0.023 0.047
Analysis of Variance Source Due to regression Residual Error Total DF 2 22 24 SS 132253 273844 406096 MS 66126 12447 F 5.31 p 0.013
Nota: Para probar que los coeficientes son iguales, en cuanto al anlisis de varianza, la funcin de ANOVA prueba la longitud total de la utilidad del modelo. (d) La descripcin de los tres modelos poblacionales, a estimarse, por los modelos de regresin estadstica son: 1. El modelo cuadrtico con interaccin o completo es: y = o + 1x1 + 2 x2 + 3 x21 + 4 x22 + 5 x1x2 + 2. El modelo cuadrtico sin interaccin o abreviado es: y = o + 1x1 + 2 x2 + 3 x21 + 4 x22 + 3. El modelo de regresin lineal mltiple es: y = o + 1x1 + 2 x2 +
9-20
(e) El resumen de los resultados de los tres modelos se da en la tabla de abajo. TABLA 9.3. Tabla mostrando los resultados de las estadsticas de los tres modelos de regresin probados. (Elaboracin propia) Tipo de modelo Modelo completo Modelo abreviado Modelo lineal simple R2 90.7% 88.5% 32.6% s 44.7 48.3 111.6 PRESS 72,380.6 78,054.0 392,674.0 R2(ajustada) 88.2% 86.2% 26.4%
Al juzgar por los resultados, tal parece que los mejores modelos candidatos son el modelo completo y el abreviado. (Para hacer una decision final usar la funcin (9-9). (f) Ahora se va a inquirir si existe suficiente evidencia, para concluir que, el modelo cuadrtico, con interaccin, es el modelo ptimo. Esto se debe a qu, si a los modelos de regresin se les agregan variables innecesarias, que pudieran dar un mejoramiento pequeo, no es recomendable. Bajo estas condiciones, la adicin de variables innecesarias conlleva a problemas de colinealidad (correlacin entre las variables regresoras). Por esta razn, es conveniente dejar el modelo de regresin, lo ms simple posible, a menos de que existan buenas razones estadsticas para agregarle variables adicionales. Una manera de revisar, si el efecto de interaccin es necesario, se prueba 5 (el coeficiente de interaccin) haciendo una prueba de hiptesis, como sigue: La prueba de hiptesis nula es: Ho:5 = 0 La prueba de hiptesis alternativa es: H1:5 0 Con un nivel significante de = 0.05, la regin de rechazo es: |t| > t/2;n-k-1; > t0.05/2;25-6-1; > t.025;19; > 2.093 De la Figura 9.3, en la columna de las pruebas de t, se ve que, para el efecto de
9-21
interaccin de (x1x2) el valor de T es igual a 2.09 con p = .051. Por consiguiente, debido a que T = 2.09 es menor que la T crtica de 2.093, esto indica que, la inclusin del trmino de interaccin 5x1x2 no mejora al modelo completo, es decir, al incluir el factor de interaccin. Esta decisin nos lleva al modelo cuadrtico, sin interaccin, como el mejor modelo para este problema. Otra forma de comprobar lo mismo que arriba, se puede hacer usando la ecuacin (9-9). Esta estadstica dada por Keller et al. (1990) est relacionada con la suma de los cuadrados SS, la cual mide, qu tan bien encajan los datos en el modelo. Como se dijo antes, este procedimiento consiste en comparar la suma de los cuadrados SS1 del modelo abreviado y SS2 del modelo completo. Por ejemplo, si SS2 es significativamente ms pequea que SS1, se concluye que el modelo completo es superior al modelo abreviado; de otra manera, se concluira que, el modelo completo no sera, realmente, superior. Para tales fines se usa la estadstica (9-9) y se procede a sustituir los siguientes valores sacados de la Figura 9.3 es decir, SS1 = 46633, SS2 = 37934, k2 = 5, k1 = 4, n = 25. La prueba de hiptesis nula es: Ho:3 = 4 = 5 = 0. La prueba de hiptesis alternativa es que los coeficientes de regresin no son igual a 0 o, cuando menos, uno de los coeficientes 3, 4 y 5 no es igual a 0. Si el modelo completo (con interaccin en este caso) es mejor que el abreviado (sin interaccin en esta instancia), el valor de SSE2 ser ms pequeo que SSE1, el valor de F ser grande, y se rechazar Ho:, y se concluir que si hay evidencia para afirmar que el modelo completo, con interaccin, es mejor que el modelo sin interaccin. Sin embargo, si el modelo completo no es significantemente mejor que el modelo abreviado, entonces, la relacin SSE1 SSE2, ser, aproximadamente, igual a cero. Por consiguiente, el valor de F ser pequeo y no se rechazar la hiptesis nula Ho: Bajo estas condiciones se concluir que, el modelo abreviado (sin interaccin), es mejor.
9-22
La regin crtica, con = 0.05, es usando la distribucin F. F > F[(k2-k1),(n-k2-1)] > F[0.05(1),(19)] > 4.38 Ahora usando la ecuacin (9-9) y sustituyendo los valores da: (46,633 37,934)/(5 4) F = = 4.35 37,934/(25 5 1) En conclusin, debido a que la Fcalc. = 4.35 < Fcrtica = 4.38, se dice que no hay evidencia para afirmar que el modelo de regresin con interaccin es superior al modelo abreviado. Ejemplo #3. El desarrollo de microorganismos sigue a un crecimiento exponencial matemtico. Para esto decidi usar un modelo cbico, donde Y es el conteo de microorganismos y X es el nmero de horas que han pasado. Usar el programa Minitab para tales propsitos. Solucin: La ecuacin es: Y = -8.10 + 12.7X 0.905(X 2) + 2.14(X 3) s = 41.845 R2 = 0.998 R2(ajustada) = 99.8% TABLA 9.4. Tabla de anlisis de varianza. (Elaboracin propia) Fuente de variacin Debido a la regresin Residuo (error) Total g.l. 3 13 16 SS 12,331,818 22,760 12,354,578 MS 4,110,606 1,751 Fcalc. 1370202
9-23
Modelos de regresin no lineales y de regresin logstica Dentro de esta categora, hay modelos de regresin exponencial y modelos de regresin logstica. El modelo de regresin exponencial se usa en estudios relacionados con el crecimiento de algn proceso, donde la tasa de crecimiento, a un tiempo X dado, es proporcional a la cantidad de crecimiento que queda, a medida que el tiempo se incrementa. Otro uso es el estudio de la relacin entre la concentracin de una sustancia (y), en funcin del tiempo transcurrido (X). En forma anloga, los modelos de regresin logstica se usan en estudios poblacionales, para relacionar el nmero de especies (Y) en funcin del tiempo (X). Estos modelos tambin se pueden usar cuando la variable dependiente es cualitativa; sin embargo, estos modelos no se discutirn en este texto, como en el caso de los modelos exponenciales. Modelos de regresin exponenciales paramtricos, con una sola variable independiente (Neter et al. 1996) Yi = o exp(1Xi) + i Un modelo ms generalizado de regresin exponencial no lineal es: Yi = o + 1 exp(2Xi) + i Donde: Yi es la funcin de respuesta o variable dependiente o, 1, 2 = los parmetros a estimarse por a, b y c Xi = variables constantes i = error o residuo normalmente distribuido y con varianza constante El correspondiente estimador estadstico es: y = a + b exp(-cx) + ei Donde: a, b, c = estimadores estadsticos de o,1 y 2, respectivamente ei = el error o residual estadstico.
9-24
(9-10) (9-11)
(9-12)
Los modelos exponenciales se usan en ejemplos de crecimiento que va en funcin del tiempo (como el crecimiento de bacterias en un plato de agar, o para describir el crecimiento exponencial de los gases de invernadero como el CO2, en funcin del tiempo, que estn ocasionando el calentamiento global y la corrupcin del clima del planeta). Con relacin a los modelos de regresin logsticos, la funcin poblacional que describe estos modelos se da como (Neter et al. 1996): o Yi = + 1 + 1 exp(2Xi) (9-13)
Donde:
Yi = funcin de respuesta o = parmetro a estimarse por sus estadstica correspondiente 1 = parmetro a estimarse por su estadstica 2 = parmetro a estimarse por sus estadstica La evaluacin y estimacin de los parmetros de regresin no lineal se hacen igual que con la regresin lineal. Por ejemplo, para el diagnstico subjetivo, se analizan las grficas para la prueba de normalidad, los grficos de los residuos en funcin del tiempo, y tambin en funcin de los valores ajustados, etc. Sin embargo, en la interpretacin de las grficas de los residuales de la regresin no lineal hay que recordar que, los residuales, no necesariamente, suman a cero. Tambin, se pueden hacer transformaciones de las variables para hacer un mejor ajuste del modelo superior. En cuanto a las inferencias estadsticas, con la regresin no lineal, se basan en la teora de muestreo grande, esto es, con tamaos de muestras grandes. Las funciones de modelos de regresin exponencial, tambin se pueden tratar dentro del
9-25
tpico de series de tiempo. Ejemplo #4. Este es un problema sacado del libro Statistics for Management and Economics de Keller (1990), Warrack y Bartel relacionado con el ajustamiento y anlisis de modelos de regresin no lineales relacionado con datos estadsticos del SIDA en los Estados Unidos de Norteamrica, en funcin del tiempo. Nota: Independientemente de los datos dados por el autor de este problema, a juicio del del autor de este libro de estadstica, el nombre mdico convencional del acrnimo SIDA (AIDS en las siglas del ingls, es decir, acquired inmunodeficiency sndrome) est diciendo que el llamado SIDA es una enfermedad o una deficiencia, en particular, del sistema inmune del cuerpo. Esto no es posible, porque el sistema inmunolgico del cuerpo es una parte dependiene de todo el organismo, como unidad independiente. Si este trmino SIDA fuera correcto, entonces, se tendra que decir que el sistema inmune del cuerpo es una parte independiente del resto del organismo, y no una parte dependiente de todo el cuerpo como unidad independiente. En trminos ms simples, esto significa qu, el organismo humano est compuesto por rganos, partes o sistemas contingentes, cuya funcin, en turno, depende de todo el cuerpo entero, como unidad independiente, es decir, cuando el organismo est en un estado de salud perfecto. De acuerdo a este razonamiento, el llamado SIDA es un sntoma de enfermedad (pero no de una enfermedad en particular), que acusa que todo el cuerpo est enfermo (toda la unidad orgnica distorsionada por vida antinatural), no nicamente, el sistema inmunolgico, como comnmente se cree. De manera qu, para curar los sntomas de este mal, es necesario curar todo el complejo orgnico, a travs de artes mdicas naturales. La lgica siempre aconsejar qu, para curar un efecto (sntomas del SIDA), primero hay que atender el origen causal ms recndito, que no es otra cosa ms que la vida no natural. Al proceder de otra manera, siempre habr complicaciones que agravarn el problema del enfermo.
9-26
TABLA 9.5. Tabla mostrando los datos de este problema. Aos Periodo de tiempo t Nmero de casos de SIDA _________________________________________________________________ 1981 1 1,000 1982 2 6,000 1983 3 10,000 1984 4 14,000 1985 5 25,000 1986 6 48,000 1987 7 63,000 1988 8 108,000 1989 9 161,000 _________________________________________________________________ (Fuente: Keller et al., 1990) Hacer los siguientes clculos: (a) Hacer una grfica con los datos y obtener la ecuacin de regresin del modelo apropiado. Poner la ecuacin sobre la grfica. (b) Predecir el nmero de casos de SIDA para el ao 2000 (t = 20). Solucin: (a) Usando el programa Minitab con una funcin de regresin estadstica de series de tiempo y anlisis de tendencia (trend analysis), da la grfica y la ecuacin sealada abajo.
9-27
Figura 9.4. Grfica mostrando los casos de SIDA, en funcin del tiempo de este problema. (Elaboracin propia) (b) Cuando t = 20 (ao 2000), el nmero de casos de SIDA sera: y = (1290.84)(1.75974) 20 = 104,674,894.9
9-28
Ajustamiento de curvas En el ajustamiento de curvas, para seleccionar el modelo que mejor encaja en los datos se dan abajo varios tipos de curvas. Estas funciones ayudan a seleccionar la forma ms apropiada para los datos. Estos tipos de curvas son sugeridos por el programa de computadora NCSS.
Figura 9.5. Grficas mostrando los diferentes tipos de funciones usados en los ajustes de curvas, para seleccionar el mejor modelo de regresin que pueda encajar en los datos.
9-29
Figura 9.6. Grficas mostrando los diferentes tipos de curvas usados en el ajustamiento de modelos de regresin ms apropiados.
9-30
Procedimientos para la Identificacin de valores atpicos extremos. Diagnstico y mitigacin de multicolinealidad Los procedimientos para refinar el modelo de regresin son la identificacin y eliminacin de valores inusuales extremos. En algunas ocasiones, estos valores extremos se encuentran en la generacin de datos muestrales. Estos valores extremos se refieren a datos univariados que son inconsistentes con el resto de la informacin. Los valores extremos ocurren a menudo debido a errores de medicin, ya sea por mal funcionamiento del equipo o por negligencia del personal, falta de mantenimiento de los instrumentos, etc. En regresin mltiple, los valores extremos pueden ocurrir con las variables independientes y con la variable dependiente. Estos valores, una vez analizados se pueden eliminar o retener, si se sabe que son, en realidad, valores extremos. Siendo as, es necesario eliminarlos, porque pueden distorsionar el modelo de regresin ajustado o causar serios errores en los clculos de regresin. La identificacin de valores extremos se puede hacer de las siguientes maneras: 1. Usando grficas de tallo y hoja. 2. Usando grficas de caja. 3. Usando grficos de probabilidad normal. 4. Usando la estadstica DFITS que identifica valores extremos potenciales, cuando DFITS > 2 p / n , donde p es el nmero de variables independientes y, n, es el tamao de la muestra. 5. Usando grficos de residuos semiestudentizados, los cuales identifican los valores extremos, cuando los valores absolutos de los residuales semiestudentizados son 4. 6. Usando DFBETAS cuando estos valores son 2/ n . 7. Usando los grficos de Rstudent vs. Hat Diagonal. 8. Usando regresin robusta (robust regression) recomendados por la lgica del
9-31
programa NCSS. 9. Tambin se puede hacer usando el valor crtico de Bonferroni, que identifica los valores absolutos de los residuales estudentizados. Esta prueba citada por Neter et al. (1996) se da como t(1 /2n;n p 1). 10. Tambin se hace con la estadstica Cooks Distance (lgica del programa NCSS), la cual dice que, si sta es mayor que F(.50,p,n-p), donde F es un valor de la distribucin F, entonces, esto sugiere un valor extremo. 11. Los valores extremos tambin se pueden identificar con los grficos de los residuos que van en funcin de X o de Y. Diagnstico de multicolinealidad En regresin mltiple hay lo que se llama colinealidad, multicolinealidad o intercorrelacin. Esta situacin existe cuando las variables independientes estn correlacionadas entre si. Lo ideal en regresin mltiple es de que las variables independientes x1, x2,, xkn no estn correlacionadas, de tal manera que, cada una explique un porcentaje separado de la variacin en la variable dependiente. El mal efecto de multicolinealidad es que las desviaciones estndar de los coeficientes del modelo de regresin estn sobreestimadas. Como resultado de esto, cuando se hacen las pruebas de hiptesis, la estadstica t es ms pequea de lo que debera ser. Adems, algunas variables independientes o exgenas aparecen como si no estuvieran relacionadas linealmente con la variable Y, cuando en realidad si lo estn. Existen dos mtodos para descubrir la multicolinealidad, es decir, mtodos informales y mtodos formales. Los mtodos informales para detectar colinealidad severa son: 1. Estudios de los signos algebraicos de los coeficientes del modelo de regresin. Si hay colinealidad, los signos algebraicos de los coeficientes son opuestos, a lo que se debera esperar de consideraciones tericas o de experiencia a posteriori.
9-32
2. Otra situacin que pudiera indicar multicolinealidad es el hecho de que ocurren grandes cambios en los coeficientes estimados de regresin, cuando una variable explicativa o independiente se agrega o se elimina. 3. Cuando se hacen pruebas de hiptesis de Ho:s = 0, las pruebas de t no son significantes. Esta condicin tambin pudiera indicar colinealidad. 4. Cuando hay grandes correlaciones entre pares de variables independientes, esta situacin tambin indica multicolinealidad. 5. Con la lgica del modelo de computadora NCSS, con nmeros de los Eigenvalues mayores que 1000, esta condicin indica colinealidad severa. Sin embargo, con valores de Eigenvalues entre 100 y 1000, esta condicin implica colinealidad moderada a fuerte. 6. Nuevamente, con la lgica del programa NCSS, en la seccin de correlacin de matrices, grandes correlaciones entre las variables explicativas conllevan diagnsticos de colinealidad. 7. Los valores extremos, tambin pueden causar problemas de colinealidad. Por otra parte, los mtodos formales para detectar multicolinealidad son los factores de inflacin de varianza (Variance Inflation Factors, VIF). En este contexto, el problema de multicolinealidad se considera severo, cuando el mximo valor de VIP es mayor que 10 o bien, cuando el promedio de los VIFs es considerablemente > 1. (Pfaffenberger, 1987). En cuanto a situaciones relacionadas con la multicolinealidad se enlistan los siguientes postulados: 1. Si el modelo se va a usar, nicamente, para estimar respuestas promedio o para hacer predicciones de los valores de la variable dependiente Y, y las predicciones son
9-33
hechas, solamente, sobre las regin de los valores de las variables independientes y, los coeficientes de regresin estimados no se usarn para propsitos de interpretacin, concerniendo las relaciones de las variables explicativas (Xs) y de la variable de respuesta (Y), entonces, la multicolinealidad, aun cuando sea severa, no ser un problema (Pfaffenberger, 1987). Aqu, sin embargo, la determinacin de la regin muestreada es difcil. Por ejemplo, si hay una variable independiente, entonces, la regin es un intervalo sobre la lnea real entre el valor mnimo de x y el valor mximo de x en la muestra. Adems, con cuatro variables independientes, la regin muestreada es en el espacio de cuatro dimensiones de las xs y sus linderos no son obvios. Por lo tanto, bajo estas condiciones, hay que ejercer precaucin, de tal manera que, la prediccin no represente una extrapolacin ms all de la regin muestreada de las xs, cuando existe multicolinealidad severa. se puede tolerar. 2. El hecho de que algunos o todas las variables independientes estn correlacionadas entre si, en general, no obstruye la habilidad para obtener un buen ajuste de los datos. Esta situacin tampoco interfiere en las inferencias acerca de las respuestas promedio de predicciones de nuevas observaciones, siempre y cuando, estas inferencias sean hechas dentro de la regin de las observaciones. 3. Cuando las variables independientes estn altamente correlacionadas, los coeficientes de regresin estimados tienden a tener una gran variacin de muestreo. Por lo tanto, bajo estas condiciones, los coeficientes de regresin tienden a variar ampliamente de una muestra a otra. Como resultado de esto, solamente, se obtiene informacin imprecisa acerca de los coeficientes individuales. 4. Cuando hay multicolinealidad, la interpretacin de un coeficiente de regresin, Por otra parte, si se desea hacer interpretaciones de los coeficientes de correlacin (bi), entonces la multicolinealidad no
9-34
como medida de un cambio en el valor esperado en Y, cuando una variable independiente, digamos X1 se incrementa por una unidad, manteniendo constantes las dems variables, no es totalmente aplicable. 5. Otros efectos causados por la multicolinealidad estn relacionados con la suma de los cuadrados, los efectos en los coeficientes de determinacin parcial, efectos en el error estndar de lo estimado s, efectos sobre los valores ajustados, efectos en las pruebas simultneas de los coeficientes s, etc. (Neter et al. 1996). Medidas para corregir multicolinealidad severa 1. El mtodo ms obvio para remediar la multicolinealidad es el de no incluir en el modelo las variables independientes que estn altamente correlacionadas. Esto se hace para reducir los errores estndar de los coeficientes de regresin estimados de las variables independientes que queden en el modelo. Sin embargo, este remedio tiene dos limitaciones porque, de esta manera, ya no habr informacin directa de la variable independiente excluida. En segundo lugar, las magnitudes de los coeficientes de regresin, para los coeficientes restantes son afectadas por las variables independientes correlacionadas, que no se incluyan en el modelo. 2. Otro mtodo para corregir la multicolinealidad se refiere como regresin de cima (ridge regression). Siendo as, cuando hay multicolinealidad, los estimados de los cuadrados mnimos son imparciales, pero sus varianzas son grandes, de tal manera que puedan estar alejados del valor verdadero. Agregando un grado de parcialidad a los estimados de la regresin, la regresin de cima (o ridge regression) reduce los errores estndares, de tal manera que el efecto neto dar coeficientes estimadores ms confiables (Neter et al. 1996). 3. Otro mtodo para reducir la multicolinealidad severa es la regresin por pasos. La regresin por pasos incluye, solamente, las variables independientes que estn
9-35
significantemente relacionadas linealmente, con la variable dependiente. Esto tiende a reducir la colinealidad porque, si hay dos variables independientes, altamente correlacionadas entre si, al incluir una, usualmente se elimina la segunda. En el mecanismo, en la regresin por pasos, una variable independiente, a un tiempo, es incluida en la ecuacin. En el paso 1, la variable independiente, ms fuertemente relacionada con la variable dependiente, es incluida en el modelo. En el paso 2, la siguiente variable independiente (entre las variables independientes restantes) ms fuertemente relacionada con la variable dependiente, se incluyen en el modelo. Esta situacin contina hasta qu, solamente, las variables independientes, que no estn relacionadas con la variable dependiente (dado que las otras variables ya estn en el modelo) permanecen fuera de la ecuacin. De cualquier manera, para evitar problemas, la regresin por pasos debe usarse en conjuncin con un profundo razonamiento estadstico. La pregunta de cuantas variables independientes (incluyendo las variables transformadas) deben de incluirse en el modelo de regresin es el tema a tratar, cuando se habla de los procedimientos usados en el programa Minitab, como Todas las Regresiones Posibles (All Possible Regressions), Regresin por Pasos (Stepwise Regression) y Regresin de los Mejores Conjuntos (Best Subset Regression). Para encontrar el nmero ideal de variables independientes, esto involucra dos objetivos opuestos. Primero se desea que el modelo de regresin sea lo ms completo y realista posible. Esto dice que se debe incluir cada variable independiente, aunque parezca remotamente relacionada con la variable dependiente. En segundo trmino, se debe de incluir lo menos posible de variables independientes. Esto se debe a que, cada variable independiente, que no sea relevante al modelo, disminuye la precisin
9-36
de los coeficientes calculados y de los valores pronosticados. De esta manera, la finalidad de la seleccin de las variables es parsimoniosa, esto quiere decir que debe haber un balance entre lo simple (lo menos posible de variables) y el ajuste (la inclusin de todas las variables que sean pertinentes). Hay diferentes estrategias para la seleccin de las variables ms apropiadas para el modelo de regresin. Por ejemplo el modelo NCSS recomienda que, si no hay ms de quince candidatos de variables independientes (sin incluir el intercepto), entonces, se debe usar el procedimiento de Todas las Regresiones Posibles (All Possible Regressions). Esto se debe a que este procedimiento dar modelos tan buenos o mejores que el procedimiento de Regresin por Pasos. Sin embargo, si hay ms de quince candidatos de variables, entonces, se recomienda el procedimiento de Regresin por Pasos (Stepwise Regression). Otra funcin dada por el programa Minitab est relacionada con la Regresin de Mejores Conjuntos (Best Subsets Regression). Despus de que se haya formado un conjunto de candidatos de variables independientes (una vez que se eliminaron las observaciones extremas y se mitig la multicolinealidad), la siguiente tarea es la de establecer una base para comparar dos modelos finalistas. Cmo se puede decir, si el modelo A es mejor que el modelo B? Para hacer esta decisin crtica el consenso de investigadores de estadstica est basado en las funciones estadsticas citadas anteriormente, como R2, s, PRESS, etc. Como ya se explic anteriormente, estas funciones son: (a) El coeficiente de determinacin R2 (b) El error estndar estimado s (c) El criterio Cp de Mallow (d) PRESS Otros criterios son los valores de t, tablas de ANOVA, anlisis de grficos, etc., pero
9-37
los penltimos cuatro diagnsticos son los ms populares. Ejemplos de problemas de regresin polinomial usando el programa de computadora Minitab Ejemplo #15. Este problema est relacionado con un experimento del consumo de gasolina usando la velocidad baja (overdrive) de una camioneta liviana. Aqu la variable independiente es la velocidad constante dada, en millas por hora (X). Adems, la variable dependiente (Y), est relacionada con las millas por galn obtenidas bajo estas condiciones de manejo. Hacer los siguientes clculos: (a) Graficar los datos. (b) Ajustar un modelo cuadrtico. (c) Ajustar un modelo cbico. (d) Complementar el diagnstico del inciso (d) con los anlisis de los grficos subjetivos para el modelo superior. (f) De acuerdo a los anlisis de los criterios objetivitas y subjetivistas, decidir cual de los dos modelos es superior.
TABLA 9.6. Tabla mostrando los valores originales y los valores del cuadrado y del cubo de los valores de X. (Elaboracin propia) Nota: para hacer esta tabla cuadrar y cubicar los valores de X antes de ponerlos en las columnas. Despus de esto, se corre el programa como si fuera una regresin lineal.
9-38
Solucin: (a) La figura de abajo muestra la grfica de los datos.
Grafica mostrando la relacion entre el tipo de manejo y el consumo de gasolina
40
Millas por galon (y)
30
20 40 50 60
Velocidad constante (x)
Figura 9.7. Figura mostrando el rendimiento de gasolina en funcin del tipo de manejo. (Elaboracin propia) (b) Los resultados asumiendo un modelo cuadrtico son: y = -183 + 8.98(X) 0.0911(X2) Con s = 1.727, R2 = 0.947, PRESS = 49.26 TABLA 9.7. Tabla de ANOVA para el ajuste de un modelo cuadrtico. (Elaboracin propia) Fuente de variacin Debido a la regresin Error o residual Total g.l. 2 9 11 SS 483.17 26.83 510.00 MS 241.58 2.98 Fcalc. 81.0 Valor p 0.000
9-39
TABLA 9.8. Tabla mostrando los coeficientes, los errores estndares de los coeficientes, los valores de t y de p para el modelo cuadrtico. (Elaboracin propia) Predictores Constante X1 XSQR Coeficientes -182.58 8.98 -0.09 Error estndar de coeficientes 17.68 0.76 0.008 Valor t -10.33 11.80 -11.39 Valor p 0.000 0.000 0.000
(c) La ecuacin de un modelo de regresin cbico ajustado es: y = -74 + 1.85(X) + 1.85 + 0.062(X 2) 0.001(X 3) Los diagnsticos estadsticos son: R2 = 0.952, s = 1.75, PRESS = 59.22 TABLA 9.9. Tabla de para el modelo cbico. (Elaboracin propia) Fuente de variacin Debido a la regresin Error o residual Total 11 g.l. 3 8 SS 485.50 24.50 510.00 MS 161.83 3.06 Fcalc. 52.85 Valor de p 0.000
TABLA 9.10. Tabla mostrando los coeficientes, los errores estndares de los coeficientes, los valores de t y de p para el modelo cbico. (Elaboracin propia) Predictores Coeficientes Error estndar Valor t Valor p de coeficientes Constante -73.9 125.7 -0.59 0.57 X1 1.85 8.2 0.23 0.83 XSQR 0.06 17.5 0.35 0.73 XCUBE -0.001 0.001 -0.87 0.41 La figura de abajo muestra los residuos estandarizados en funcin del orden de la observacin para el modelo de regresin cuadrtico
9-40

(response is Millas p)
-1
-2 2 4 6 8 10 12
Observation Order
Figura 9.8. Residuos estandarizados en funcin del orden de la observacin para el modelo de regresin cuadrtico. Aqu, ntese que existen aproximadamente, el mismo nmero de residuos positivos y negativos. En contraste, la grfica del modelo cbico (que no se muestra aqu), no muestra el mismo nmero de residuos positivos y negativos. (Elaboracin propia)
-1
-2 20 30 40
Fitted Value
Figura 9.9. Grfica de los residuos estandarizados versus los valores ajustados de Y para el modelo cbico. Ntese que, en esta grfica hay el mismo nmero de valores positivos y negativos. En contraste, el modelo cbico ajustado (no mostrado aqu) no muestra el mismo nmero de residuos positivos y negativos. (Elaboracin propia).
9-41

2
Normal Score
-1
-2 -2 -1 0 1
Figura 9.10. Grfica mostrando la prueba de normalidad para el modelo cuadrtico. (Elaboracin propia). (d) De acuerdo a los datos tabulados de abajo, y de los diagnsticos grficos, tal parece que el mejor modelo es el modelo cuadrtico. Esto se debe a que, a pesar de que los valores de R2 y s de los dos modelos son parecidos, los valores de PRESS difieren uno del otro. Adems, los valores de t del modelo cuadrtico son muy significantes en comparacin con los del modelo cbico (TABLAS 9.8 y 9.10). Tambin la Figura 9.7 de Y versus X sugiere a una funcin cuadrtica; no cbica. Finalmente, los anlisis de los grficos de los residuales para la funcin cuadrtica son ms convincentes que los del modelo cbico. TABLA 9.11. Tabla mostrando los datos del problema. __________________________________________________________________ Diagnsticos estadsticos _________________________________________ Clase de Modelo R2 s PRESS __________________________________________________________________ Modelo cuadrtico 0.947 1.727 49.26 __________________________________________________________________ Modelo cbico 0.952 1.750 59.22
9-42
Ejemplo #16. Se obtiene una muestra aleatoria de 25 mediciones de partculas atmosfricas (en micras). Se desea saber si hay valores inusuales extremos o moderados. Usar un diagrama de caja. Tabla 9.14. Tabla mostrando los datos (Elaboracin propia)
5 8 14 74 85 88 90 92 92 93 94 94 95 95 96 96 96 97 97 98 99 101 104 106 114
Solucin: Antes de comenzar, vamos a tomar en cuenta la definicin que dice como calcular el cuarto inferior y el cuarto superior de un diagrama de caja. Esta definicin dice que, una vez que se ordenan los datos en forma ascendente, el cuarto inferior y el cuarto superior se definen como: Cuarto = Mediana de los mnimos n/2 casos, cuando n es par inferior Mediana de los mnimos (n + 1)/2 casos, cuando n es impar Cuarto = Mediana de los mximos n/2 casos, cuando n es par superior Mediana de los mximos (n + 1)/2 casos, cuando n es impar El investigador Devore (2001) enlista los valores atpicos usando un diagrama de caja. Estos datos son: El valor mnimo y el valor mximo, el cuarto inferior y el cuarto superior, la mediana, la cuarta dispersin fs (la cual es la diferencia entre el cuarto superior y el cuarto inferior). Adems, para identificar la presencia de valores inusuales moderados y extremos se dice que, toda observacin mayor que 1.5fs, del cuarto ms cercano, es un valor inusual. Anlogamente, si 3fs es mayor que el cuarto ms cercano, entonces, el valor inusual es extremo. Los clculos para este problema son:
9-43
X = 95.0, n = 25, valor mnimo = 5.0, valor mximo = 114.0, X = 84.92, s = 29.55,
error estndar del promedio = 5.91, Q1 = 89.0, Q3 = 97.5 Cuarto inferior para observaciones impares = mediana de los mnimos (25 + 1)/2 = 13 Cuarta dispersin fs = cuarto superior cuarto inferior = 97 - 90 = 7 Adems, 1.5fs = (1.5)(7) = 10.5 y 3fs = (3)(7) = 21 Para estimar los valores atpicos inusuales, el criterio es: cualquier observacin menor que el cuarto inferior, menos 1.5fs o mayor que el cuarto superior ms 1.5fs es un valor atpico inusual. Esto es: 90 10.5 = 79.5 y 97 + 10.5 = 107.5 Analizando los datos de la TABLA 9.14, se ve que hay un valor atpico (114) mayor en el extremo superior de la muestra. Adems hay cuatro valores, de este tipo (5, 8, 14, 74), en el extremo inferior. Para identificar los valores extremos se calcula la diferencia entre el cuarto inferior y 3fs, es decir, 90 21 = 69. Refirindose a la TABLA 9.14 y la Figura 9.11, vemos que las tres observaciones 5, 8 y 14 son valores extremos (que se eliminarn) y los valores 85 y 114 son valores atpicos moderados.
Boxplot of C1
50
100
C1
Figura 9.11. Diagrama de caja con los 3 valores atpicos extremos (5, 8, 14) y los valores atpicos moderados (85, 114). (Elaboracin propia)
9-44
Ejemplo #17. Este ejemplo est encaminado a analizar el efecto que pueda ocurrir en el modelo de regresin estimado, cuando se eliminan valores extremos. Para los datos de la tabla de abajo, asumir un modelo polinomial cbico. En la primera instancia, estimar el modelo cbico incluyendo todas las variables. Enseguida, ajustar un modelo de regresin polinomial, como el anterior, pero esta vez excluyendo los valores extremos (5, 8 y 14) estimados en el ejemplo anterior. Analizar en cada caso, los valores de R2, R2ajustada, el error estndar de lo estimado s, PRESS (la sigla de suma de cuadrados de prediccin), ANOVA, etc. Ver si hay diferencias significantes en cada uno de los dos casos. Hacer una tabla con los dos modelos de regresin que incluya las estadsticas anteriores, correspondientes a cada uno de los dos modelos probados, bajo las dos condiciones. TABLA 9.15. Tabla mostrando los datos de mediciones (micras) de partculas atmosfricas de la variable dependiente, en funcin de sus respectivos casos (X). (Elaboracin propia)
6 8 14 85 88 90 92 92 93 94 94 95 95 96 96 96 97 97 98 99 101 104 106 114 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
El esquema mostrando los resultados del Minitab, en el ajustamiento de un modelo de regresin polinomial cbico, el cual incluye todos los datos y, otro ajustamiento ms, de un modelo de regresin polinomial cbico, el cual excluye los valores extremos se da en la TABLA 9.16. Como se ve en esta tabla, primeramente, se ajusta un modelo de regresin polinomial cbico: (Y) versus (X), (XSQR), (XCUBE). Este modelo incluye los valores extremos. Despus se incluye otro modelo de regresin polinomial que no incluye los valores inusuales extremos. Los resultados obtenidos usando el programa Minitab se dan en la TABLA 9.16 de abajo.
9-45
9-46
TABLA 9.16. Tabla mostrando los resultados del Minitab.

The regression equation is: (Y) = -26.4 + 27.1(X) 1.86 (X2) + 0.0403 (X3) Predictor Constant (X) (XSQR) (XCUBE) Coef -26.434 27.079 -1.8595 0.0403 SECoef 8.891 2.904 0.2568 0.0065 T -2.97 9.33 -7.24 6.20 p 0.007 0.000 0.000 0.000 VIF 121.7 682.9 259.3
s = 9.491 PRESS = 2749.98
R-Sq = 91.0% R-Sq(pred) = 86.88%
R-Sq(adj) = 89.7%
Analysis of Variance Table Source of variation Due to Regression Residual Error Total DF 3 21 24 SS 19072.1 1891.7 20963.8 MS 6357.4 90.1 F 70.57 p 0.000
Durbin-Watson statistic = 1.40 (measures autocorrelation for time series)
Ajustando un Modelo de Regresin Polinomial Cbico: (Y) versus (X), (XSQR), (XCUBE). Este modelo no incluye los valores inusuales extremos.
The regression equation is: (Y) = 71.8 + 6.21 (X) 0.540 (X2) + 0.0155 (X3) Predictor Constant (X) (XSQR) (XCUBE) s = 1.482 PRESS = 105.104 Coef 71.819 6.2092 -0.5400 0.0155 SE Coef 1.514 0.5576 0.0557 0.0016 T 47.42 11.14 -9.70 9.75 p 0.000 0.000 0.000 0.000 VIF 125.3 700.9 265.1
R-Sq = 96.9% R-Sq(pred) = 91.74%
R-Sq(adj) = 96.4%
Analysis of Variance Source of Variation Due to Regression Residual Error Total DF 3 18 21 SS 1232.81 39.56 1272.36 MS 410.94 2.20 F 187.00 p 0.000
9-47
TABLA 9.17. Tabla mostrando el resumen de los resultados de los dos modelos probados, es decir, con y sin los valores extremos. (Elaboracin propia) Tipo de modelo Modelo con valores extremos Modelo sin valores extremos R2 91.0% 96.9% R2ajustada 89.7% 96.5% s 9.491 1.482 PRESS 2749.98 105.10
Analizando la tabla de arriba se nota claramente qu, si hubo un mejoramiento significativo en la obtencin de los modelos de regresin, cuando se eliminaron los valores inusuales extremos. Por ejemplo, el error estndar de lo estimado s, disminuy considerablemente, al excluir los valores extremos, es decir, de 9.49 a 1.482. Situacin similar ocurri con la prediccin de la suma de los cuadrados PRESS, la cual disminuy de 2749.98 a 105.10. En cuanto el coeficiente de determinacin R2, este valor aument de 91% a 96.9%, es decir, al excluir los valores extremos. Igualmente, el valor de F de la tabla de ANOVA, que mide la longitud total aument considerablemente, al excluir los valores extremos. Todos estos diagnsticos estadsticos, aunados a los grficos de los residuales estandarizados (que no se muestran aqu, pero que el estudiante debe analizarlos), indican que la exclusin de los valores inusuales extremos, en el modelo de regresin, si lo mejoraron significantemente. Autocorrelacin en datos de series de tiempo En los modelos bsicos de regresin se asume que los trminos de los errores aleatorios i son variables aleatorias sin correlacionar o variables aleatorias normales independientes (no autocorrelacin). Sin embargo, para series de tiempo, la suposicin de errores sin correlacionar (valores de independientes) no es aplicable, porque los trminos de los errores i estn positivamente correlacionados sobre el tiempo. Bajo
9-48
semejantes condiciones, los errores aleatorios i se dice que estn autocorrelacionados o serialmente correlacionados (autocorrelacin). La causa primordial de obtener errores aleatorios positivamente autocorrelacionados se debe a la omisin de variables claves del modelo (Neter et al. 1996). Comnmente, cuando los datos estn agrupados secuencialmente sobre un periodo de tiempo es decir, en series de tiempo, los valores residuales estn correlacionados. Por ejemplo, las figuras 9.12 y 9.13 muestran grficas de los residuales, en funcin del tiempo, los cuales exhiben autocorrelacin, mientras que la grfica de la Figura 9.14 indica independencia de los residuales. Las maneras de detectar problemas de autocorrelacin de primer orden, una condicin que implica una correlacin entre los residuos et y et - 1, donde t es el periodo de tiempo, son usando la estadstica Durbin-Watson. Matemticamente, esta ecuacin se define como: (et et-1)2 (9-14)
n
t=2
D =
n t=1
e2t
Donde: D es la estadstica de Durbin-Watson et y et-1 relacin entre los residuos sobre el periodo de tiempo n es el nmero de casos En general, a menos que las observaciones sean de series de tiempo, la estadstica de Durbin-Watson debera ser ignorada, porque esta estadstica da una prueba de autocorrelacin positiva o negativa, solamente, para series de tiempo.
9-49
Cuando se estn aplicando series de tiempo y existen problemas de autocorrelacin pueden existir un nmero de importantes consecuencias. Por ejemplo, coeficientes de regresion pueden ser ineficientes, el MSE seriamente subestimar los errores de la varianza, el s{bk} calculado por la funcin de los cuadrados mnimos seriamente subestimar la desviacin estndar y los coeficientes de regresin, etc. (Neter et al. 1996). Las medidas para mitigar problemas de autocorrelacin son los de agregar una o ms variables predictoras al modelo de regresin o de usar variables transformadas (Neter et al. 1996).
Figura 9.12. Grfica de valores residuales versus tiempo mostrando patrones de autocorrelacin (falta de independencia).
Figura 9.13. Grfica de valores residuales versus tiempo indicando autocorrelacin (falta de independencia).
9-50
Figura 9.14. Grfica de valores residuales versus tiempo indicando independencia de los datos. En aplicaciones en la economa y negocios, debido a que estas estimaciones tienden a mostrar correlacin de serie parcial, se pueden usar pruebas de hiptesis como: Ho: = 0 (No hay autocorrelacin o independencia) Ha: > 0 (autocorrelacin) (9-15) (9-16)
La prueba consiste en determinar si el parmetro de autocorrelacin es igual a cero o es mayor que cero. Por ejemplo, si = 0 los trminos del error t son independientes debido a que los trminos ut son independientes. No obstante, los valores crticos son difciles de obtener, pero la prueba de Durbin-Watson ha obtenido los linderos superiores e inferiores dU y dL de tal manera que, un valor de D fuera de estos linderos lleva a una decisin definitiva. De esta manera, Neter et al. (1996), da la regla de decisin para probar entre estas alternativas, esto es: Si D > dU, se concluye Ho: Si D < dL se concluye Ha: Si dL D dU, la prueba es inconclusa (9-17) (9-18) (9-19)
Valores pequeos de D conllevan a la conclusin de que la prueba de hipotesis de Ha:
9-51
> 0, porque los errores aleatorios adyacentes t y t-1 tienden a ser de la misma magnitud cuando estn positivamente autocorrelacionados. Por lo tanto, la diferencia en los resultados t - t-1 tienden a ser menores cuando > 0, lo cual lleva a un numerador pequeo en la funcin de D y, por lo tanto, a una prueba estadstica de D pequea. Las tablas de abajo muestran las pruebas de los linderos de Durbin-Watson, para un nivel de significancia de = 0.05 y 0.01. Como se ve, la columna de la izquierda seala los valores de n. Las siguientes columnas dan los valores para cada k con sus correspondientes linderos. Siendo as, las tablas de abajo muestran las pruebas de los linderos de Durbin-Watson para los niveles significancia de = 0.05 y = 0.01.
9-52
Tabla 9.19. Tabla mostrando las pruebas de los linderos de Durbin-Watson para un nivel de significancia de = 0.05.
Fuente: Keller, G, Brian Warrack, Henry Bartel. Statistics for Management and Economics (1990).
9-53
Tabla 9.20. Tabla mostrando las pruebas de los linderos de Durbin-Watson para un nivel de significancia de = 0.01 (continuacin).
Fuente: Keller, G, Brian Warrack, Henry Bartel. Statistics for Management and Economics (1990).
9-54
Ejemplo #18. Se dan los siguientes datos adaptados del libro Applied Linear Regresin Models de Neter et al. (1996): (et et-1)2 = 0.09794, e2t = 0.1333018 con una tamao de muestra de n = 20. Probar las hiptesis (de autocorrelacin positiva) sealadas abajo usando niveles de significancia de 0.05 y 0.01: Ho: = 0 Ha: > 0 Solucin: Usando la ecuacin (9-14) y sustituyendo da:
20 t=2
0.09794 D = = = 0.735 0.13330 20 2 e t

t=1
(et et-1)2
Usando la Tabla 9.19 con = 0.05, n = 20 y con p 1 = 1 (porque X = 1, es decir, con una sola variable independiente), da: dL = 1.20 y dU = 1.41. Debido a que D = .735 es pequeo y cae debajo de 1.41, se dice que D < dL y se concluye que > 0 o sea Ha: es decir que hay autocorrelacin o falta de independencia, o que los trminos de error t estn positivamente autocorrelacionados. Cosa similar ocurre si se usa un nivel de = 0.01. Nota: Si se hace una prueba de autocorrelacin negativa, la estadstica usada es 4 D, donde D se da en las ecuaciones de arriba. Si es as, entonces, la prueba se conduce de la misma manera que para la autocorrelacin postiva. Esto quiere decir que si la cantidad 4 D cae debajo de dL, se concluye < 0. Adems, si se usa una prueba bilateral para Ho: = 0 versus Ha: 0 se hace usando separadamente las pruebas
9-55
unilaterales. (Neter et al. 1996). Heteroscedasticidad y homoscedasticidad Esta seccin dar una definicin de lo que se denominan heteroscedasticidad y homoscedasticidad. Por ejemplo, cuando la varianza del error, (2), no es constante, esta condicin se llama heteroscedasticidad. En contraste, cuando la varianza del error, (2), es constante, esta condicin se llama homoscedasticidad. El mtodo ms comun para diagnosticar el problema de heteroscedasticidad es graficando los residuales contra los valores pronosticados de y. Siendo as, se analiza el esparcimiento de los puntos graficados. Por ejemplo la Figura 9.15 describe los residuales mostrando heteroscedasticidad, es decir, cuando el error 2 no es constante. Como resultado de esto, si existen cambios sistemticos de los residuales con las funciones de las variables independientes. Esta condicin se prueba analizando la Figura 9.15 porque el error 2 aparece pequeo cuando el valor pronosticado de y es pequeo y grande cuando el valor de y es grande. En contraste, la Figura 9.16 muestra una condicion de homoscedasticidad, es decir, de 2 constante. Como resultado de esto, no hay cambios aparentes en la variacin de los residuales.
Figura 9.15. Grfica de residuales mostrando la condicin de heteroscedasticidad, es decir, de la varianza del error, 2 no constante.
9-56
Figura 9.16. Grfica de residuales mostrando la condicin de homoscedasticidad, cuando la varianza del error, 2 es constante es decir, cuando los residuales son independientes Prueba de White para el problema de heteroscedasticidad Hay funciones estadsticas para probar el problema de heteroscedasticidad. Una de stas es la prueba de White. De esta manera, Hal White propuso una forma simple para probar por heteroscedasticidad, es decir, de variaciones sistemticas de los residuales con las variables regresoras (White, Halbert, 1980. A Heterscedasticity-Consistent Covariance Matriz and a Direct Test for Heteroscedasticity. Econometrica 48:817-838). Para explicar la prueba de White para heteroscedasticidad, supngase que se tienen k variables regresoras incluyendo una constante x = (1, xi2, , xik). De acuerdo a White, despus de estimar el modelo de regresin, se pueden estimar los residuales y la ecuacin de regresin auxiliar: e2i = zi + vi cruzados de los elementos en xi, es decir: z = (1, xi2,.., xik, x2i2,.., x2ik, xi2xi3,.xi,k-1xik)
9-57
(9-20)
Donde es un vector de parmetros, vi es un error y zi contiene todos los productos (9-21)
Las pruebas de hipotesis nulas se pueden hacer de la siguiente manera: Por ejemplo, la prueba de hiptesis de homoscedasticidad, es decir, de que la varianza del error, 2 es constante es: Ho:21 = 22 = = 2n La prueba de hiptesis alternativa de heteroscedasticidad es: Ho:21 22 2n tamao de la muestra tiene una aproximacin a libertad, entonces la funcin se da como: nR2 (9-23) Cuando se usa la distribucin de la JI cuadrada, si el producto de la estadistica R2 y el (9-22)
con [k(k + 1) / 2] -1 grados de
2 (k[k + 1) / 2] 1)
(9-24)
Si el valor de nR2 es mayor que el valor crtico de la JI cuadrada hiptesis nula a favor de la prueba alternativa de heteroscedasticidad.
2 se rechaza la
9-58
9.1. Este es un ejercicio relacionado con el ajustamiento del mejor modelo de regresin. La tabla de abajo da los datos. Tabla mostrando los datos. (Elaboracin propia) X | 0 1 2 3 4 5 6 7 8 9 ___________________________________________________________________ Y | 9.1 7.3 3.2 4.6 4.8 2.9 5.7 7.1 8.8 10.2 (a) Obtener el modelo de regresin ms apropiado, es decir, lineal, cuadrtico o cbico de acuerdo a los criterios R2, Rajustada, s y PRESS calculados. (b) Complementar la decisin del mejor modelo candidato basndose en el diagnstico subjetivo del anlisis grfico. La tabla de abajo da las respuestas objetivistas. Tabla mostrando los datos. (Elaboracin propia). __________________________________________________________________ Tipo de modelo de regresin R2 R2ajustada s PRESS Modelo de regresin cuadrtico 46.3% 30.9% 2.102 100.404 Modelo de regresin cbico 61.3% 42.0% 1.926 421.055 Modelo de regresin lineal 38.2% 30.5% 2.109 51.316 9.2. Se hace un experimento con un nuevo modelo de automvil, para determinar la distancia, despus de frenar a varias velocidades. La siguiente data se da: Tabla mostrando los datos. (Elaboracin propia) Velocidad, v (km/hr) | 37 52 67 Distancia despus de frenar el auto, d (m) | 17 27 43 82 63 97 89 113 120
(a) Ajustar el modelo o la curva de regresin mltiple poblacional d| = o + 1v1 + 2v2, la cual es estimada por la ecuacin de la muestra Y = bo + b1x1 + b2x2 (b) Estimar la distancia despus de frenar, cuando el coche lleva una velocidad de 70
9-59
kilmetros por hora. (c) Estimar la distancia despus de frenar, cuando el coche lleva una velocidad de 120 Km/hr. 9.3. La viscosidad de un tipo de lubricante se midi con 6 velocidades diferentes. Se asumi un modelo cuadrtico de regresin como el ms apropiado y la funcin de regresin polinomial estimada resultante de una muestra de n = 6 fue: y = -113.0937 + 3.3684x 0.01780x2 (a) Identificar la variable dependiente. (b) Identificar la variable independiente. (c) Calcular la viscosidad del lubricante cuando la velocidad es 75 rpm. (39.41) 9.4. El texto de Probabilidad y Estadstica para Ingenieros de los autores Ronald E. Walpole et al. 1999, discuten un experimento con el fin de determinar si el flujo sanguneo cerebral en seres humanos se puede predecir a partir de la presin (en mm Hg) del oxgeno arterial. Para esto se usaron 15 voluntarios en el estudio y se observaron los siguientes datos: Tabla mostrando los datos de este problema. ___________________________________________________________________ Flujo sanguneo (Y) | 84.33 87.80 82.20 78.21 78.44 80.01 83.53 79.46 75.22 76.58 77.90 78.80 80.67 86.60 78.20 Presin de oxgeno (x) | 603.40 582.50 556.20 594.60 558.90 575.20 80.10
451.20 404.00 484.00 452.40 448.40 320.30 350.30 ___________________________________________________________________ (Fuente: Walpole et al. 1999) Estimar la ecuacin cuadrtica o cbica que mejor encaje en los datos. Una vez que se decida por el mejor modelo polinomial (de segundo o tercer orden), predecir el flujo sanguneo cuando la presin del oxgeno es de 760 torr, es decir de 760 mm Hg = 1
9-60
atmsfera). Sugerencia: Usar una regresin por pasos. 9.5. Se dan los siguientes datos en la tabla de abajo. (Elaboracin propia): Tabla mostrando la informacin para este problema. ____________________ (X) | 0 1 2 3 4 5 6 ____________________ (Y) | 1 4 5 3 2 3 4 ____________________ (a) Realmente encaja un modelo cbico mejor que un modelo de regresin cuadrtico o lineal? Justificar el argumento. (Si, porque el valor de R2 = 87.5% es el ms alto de los 3 modelos probados; adems el valor de s = 0.6726 y el valor de PRESS = 18.43 son los valores ms bajos de los 3 modelos probados. Adems, los diagnsticos grficos tambin apoyan a la nocin de un modelo cbico) (b) Si el modelo cbico es superior (justificando el argumento), entonces, pronosticar Y cuando X = 2. (4.422) 9.6. El libro de Probabilidad y Estadstica Aplicadas a la Ingeniera de Montgomery et al. 1996, p.583 da un ejemplo relacionado con los paneles de las paredes laterales de un avin formados en una prensa de 1500 toneladas. El costo de fabricacin de cada unidad cambia con el tamao del lote de produccin. La tabla de abajo proporciona los datos. (a) Hacer un diagrama de dispersin y decidir qu grado del modelo polinomial es conveniente usar. (b) Hacer un anlisis de varianza y probar que los coeficientes son igual a cero. Calcular el valor de p y sacar conclusiones. (c) Obtener el modelo polinomial que mejor encaje en los datos usando la ecuacin (9-9), con su respectiva prueba de hiptesis.
9-61
Tabla mostrando los datos de este ejercicio. __________________________________________________________________ y | 1.81 1.70 1.65 1.55 1.48 1.40 1.30 1.26 1.24 1.21 1.20 1.18 x | 20 25 30 35 40 50 60 65 70 75 80 90
Fuente: Montgomery et al. 1996 9.7. Se dan los siguientes datos en la tabla de abajo. Tabla mostrando los datos del problema. (Elaboracin propia) ___________________________________________________________________ Y | 24.60 24.71 23.90 39.50 39.60 57.12 67.11 67.24 67.15 77.87 80.11 84.67 X | 4.0 4.0 4.0 5.0 5.0 6.0 6.5 6.5 6.8 7.0 7.1 7.3 (a) Ajustar los datos a un modelo polinomial de segundo orden. (b) Ajustar los datos a un modelo polinomial de tercer orden. (c) Usando mtodos subjetivos y objetivos, decidir cul de los dos modelos encaja mejor en los datos justificando el argumento. (Un modelo cuadrtico es el mejor candidato. Justificar la asercin) 9.8. Los datos de la tabla de abajo corresponden a un estudio para la obtencin de cierto producto etlico relacionado con el tiempo. Tabla con los datos. ____________________________________________ x| 1 1 2 4 4 4 6 ____________________________________________ y | 25.0 27.5 28.0 31.9 33.0 34.6 22.0 ____________________________________________ (a) Obtener el modelo probabilstico (cuadrtico o cbico, sin asumir interaccin), ms adecuado para los datos y estimar la funcin de regresin correspondiente. (b) Validar el modelo determinado en (a) construyendo una grfica con los residuales
9-62
estandarizados y analizando, subjetivamente, la conformacin de los datos de la grfica. (c) Estimar el coeficiente de determinacin R2. De acuerdo con el criterio de R2, y dems estadsticas encajan bien los datos en el modelo de regresin seleccionado? (d) Hacer un anlisis de varianza y estimar el nivel de probabilidad p. (e) Complementar el procedimiento usando la ecuacin (9-12) y, de acuerdo a los resultados, y a la prueba de hiptesis, decir cul de los dos modelos encaja mejor en los datos. (f) Usar el criterio de Cp de Mallow para analizar si hubiere muchas variables independientes o superfluas, que se puedan eliminar del modelo si Cp > (p + 1). No obstante, si Cp < (p + 1) esto pudiera indicar que se han omitido variables independientes importan. 9.9. En un estudio de seguridad para los motoristas en las carreteras estatales, se sabe que el nmero de accidentes automovilsticos, en cierta parte de de una carretera, est relacionado con el nmero de vehculos y la velocidad de stos. Para esto, al encargado de este estudio se le piden los promedios de las estadsticas de los ltimos 10 aos, con el objeto de establecer un modelo de regresin para predecir el nmero de accidentes. Siendo as, se decide poner como variable dependiente el nmero de accidentes (Y). Adems, como variables independientes se ponen el nmero de vehculos que pasan por el trecho (x1) y, la velocidad promedio a que viajan (millas por hora), como (x2). Se decide probar cuatro modelos de regresin, es decir, uno lineal mltiple sin interaccin y otro con interaccin. Para el otro modelo probado se decide por uno cuadrtico, con y sin interaccin. Todo esto se hace para ver cual de los modelos encaja mejor en los datos. Hacer los siguientes clculos: (a) Calcular los valores de R2, R2ajustada, s, PRESS, F y el valor de p para cada uno de los modelos probados.
9-63
(b) Hacer un resumen de los resultados de los 4 modelos de regresin probados y decidir cual sistema es superior. Tabla mostrando los promedios anuales del nmero de accidentes, en funcin del nmero de vehculos y la velocidad (millas por hora) en que viajan. (Elaboracin propia) Nmero de (Y) Nmero de (X1) Velocidad del (X2) accidentes vehculos vehculo 5 40 53 9 55 73 15 64 90 3 25 55 4 27 60 6 30 70 1 5 50 10 56 85 6 35 80 8 60 67 (b) Completar la tabla de abajo con los resultados de los cuatro modelos probados y decir cual es el modelo superior. Tabla mostrando los datos del problema (Elaboracin propia) Tipo de modelo Modelo lineal sin interaccin Modelo lineal con interaccin Modelo cuadrtico sin interaccin Modelo cuadrtico R2 R2ajustada s PRESS F p
9-64
con interaccin 9.10. Analizar las grficas de abajo de y versus x1 para una variedad de valores de x2 y determinar si hay o no interaccin.
Grficas (a), (b), (c), (d), (e) y (f) de y en funcin de varios valores de x. (Elaboracin propia) 9.11. El texto de los autores Michael J. Neter, H., Kutner, Christopher J. Nachtsheim y William Wasserman, cuyo ttulo es Applied Linear Regression Models (1996) discute la eficiencia de un tipo de un mecanismo de transmisin que funciona a ms de la capacidad normal se prueba para reducir el consumo de gasolina y, por ende, la reduccin de la contaminacin ambiental (por las emisiones de gases de invernadero). Esto se estudi en 12 pruebas, con una camioneta equipada con este tipo de transmisin. La tabla de abajo muestra la velocidad constante (xi), en millas por hora, en funcin de las millas por galn obtenidas (yi). Asmase un modelo de regresin de segundo orden. Los datos se dan en la tabla de abajo.
9-65
Tabla mostrando los datos del problema del rendimiento de gasolina. No. de prueba Velocidad (xi) |1 2 3 4 5 6 7 8 9 10 55 37 11 60 27 12 60 30
| 35 35 40 40 45 45 50 50 55
Rendimiento (yi) | 22 20 28 31 37 38 41 39 34 (Fuente: Neter et al. 1996) (a) Graficar los de datos millas por galn versus velocidad.
(b) Ajustar el modelo de regresin polinomial de segundo orden. (Y = -183 + 8.98X 0.0911(X 2)) (c) Validar la funcin probabilstica cuadrtica graficando los residuos versus valores observados de y. Tambin, hacer un histograma de frecuencia versus valores residuales. Tambin, preparar una grfica de probabilidad normal, es decir, de residuos versus valores de z. (d) Validar el modelo cuadrtico estimando el valor de SSe, R2 y R. Asimismo, hacer una tabla de ANOVA y hacer pruebas de hiptesis con la t de estudiante. Sacar conclusiones apropiadas. (e) Probar un modelo cbico y comparar los resultados con los del modelo cuadrtico. (f) Cul de los dos modelos es superior? 9.12. En una investigacin cientfica agrcola, se estudi, en 10 pruebas, los efectos de la humedad de la tierra (xi en pulgadas) y la temperatura (x2 en oC) en funcin del rendimiento (en fanegas), de cierta variedad de plantas gramneas (Y). Los datos se dan abajo. Tabla mostrando los datos. (Elaboracin propia). __________________________________________________________________ Humedad (x1) | 6 6 6 6 14 14 14 15 16 16 Temperatura (x2) | 20 21 22 22 22 23 23 23 24 24 Rendimiento (Y) | 49 48 48 48 48 42 44 44 40 40
9-66
El ingeniero agrnomo investigador espera un modelo de la forma: yi = o + 1xi1 + 2xi2 + 11x2i1 + 22x2i2 + 12xi1xi2 + (a) Graficar los valores de yi contra los valores ajustados. (b) Calcular R2. (c) Calcular el valor de F y p. (d) Estimar el rendimiento promedio (en fanegas), cuando la humedad es igual a 8 y cuando la temperatura es igual 22 grados Celsius. (e) Se pudiera eliminar el trmino de interaccin, sin menoscabar la eficiencia del modelo de regresin, que espera el ingeniero agrnomo? 9.13. La suma de los cuadrados del error de un modelo de regresin polinomial cuadrtico completo, con interaccin conteniendo dos variables independientes es de SSe = 200.0. La suma de los cuadrados del modelo simple, sin interaccin, con una variable independiente es de SSa = 500. Asumir k1 = 4, k2 = 5, n = 50 y = 0.05. (a) Determinar cul de los dos modelos es superior. (El modelo completo es superior. Justificar el argumento) 9.14. Probar las siguientes hiptesis usando la funcin (9-9): (a) Prueba de hiptesis nula es Ho: 3 = 4 = 5 = 0 contra la hiptesis alternativa de cuando menos uno de los tres coeficientes 3, 4, 5 no es igual a cero. Asumir, k1 = 2, k2 = 5, n = 100, = 0.05, SSE1 = 7,000.0 del modelo abreviado y SSE2 = 6,000.0 del modelo completo. De acuerdo a estos datos, Cul de los dos modelos es superior? (b) Prueba de hiptesis nula Ho:4 = 5 = 6 = 7 = 0 contra H1: cuando menos uno de estos coeficientes no es igual a 0. Asumir k1 = 3, k2 = 7, n = 45, = 0.05, SSe1 = 1,600, SSe2 = 900.0. Cul de los dos modelos es el mejor? (c) Ho:3 = 4 = 0 contra H1:3 4 0 de que cuando menos uno de los dos coeficientes no es igual a 0. Asumir k1 = 2, k2 = 4, n = 30, = 0.05, suma del error de las
9-67
cuadrados del modelo simple es 130.0 y la suma de los cuadrados del modelo complejo es de 100.0. 9.15. En una investigacin relacionada con la contaminacin del aire por el ozono, a nivel del suelo, se sac una muestra de 5 aos (1999-2003) procedente de una estacin muestreadora localizada en el Parque Chamizal en El Paso, Texas. El mantenimiento y calibracin de los aparatos de esta estacin muestreadora fue hecha por la E. P. A. de Los Estados Unidos. El estudio consisti en el procesamiento estadstico de variables, como el ozono (O3), el monxido de nitrgeno (NO), el bixido de nitrgeno (NO2) y la temperatura en grados Fahrenheit (oF). Esto se hizo con el objeto de obtener un modelo de regresin estadstico para fines de prediccin. El procedimiento consisti en sacar los promedios (de los valores espacio-temporales de una hora), de cada una de las 4 variables independientes de cada una de las 24 horas del da de cada mes de cada uno de los 5 aos. Aproximadamente, se procesaron 178,560 datos (24 horas x 31 das x 12 meses x 5 aos x 4 variables). Los promedios de los promedios, en partes por billn (ppb) se dan abajo. Hacer los siguientes clculos: (a) Graficar los datos para ver el tipo de la funcin grfica que se pueda esperar. Sugerencia: Usar el paquete de computadora Excel. (b) Para obtener el mejor candidato del modelo de regresin usar un best subset regresin (mejor subconjunto de regresin) y un Stepwise Regresin (regresin por pasos). Evaluar la utilidad del modelo usando los criterios R2, s, Cp y PRESS y los criterios subjetivos (grficas de residuales y prueba de normalidad). (c) Usando el modelo de regresin seleccionado, para el mes de julio, predecir la concentracin de ozono, si la concentracin de NO es igual a 4.0 ppb, NO2 igual a 11.8 ppb, y la temperatura es de 23.5 oC. La tabla de abajo muestra la informacin requerida.
9-68
Tabla mostrando los datos del problema de arriba. (Elaboracin propia).

Mes Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre Ozono (ppb) 16.7 19.4 30.0 34.4 35.8 37.5 38.7 36.4 30.7 21.2 16.6 14.9 NO (ppb) 28.2 23.0 12.5 10.2 6.2 4.0 3.3 3.9 8.8 9.8 33.0 34.9 NO2 (ppb) 21.0 18.9 16.3 14.4 12.8 10.9 12.7 14.4 16.6 20.9 22.7 23.8 Temperatura (oF) 49.68 53.06 58.82 68.00 77.36 82.94 83.66 83.12 78.44 67.10 56.30 46.18
(a) Usando el programa Excel introducir los datos en la hoja de Excel, de la siguiente manera: En la primera columna poner los meses del ao, en la segunda columna poner los valores de O3, en la tercera columna poner los valores de NO y en la ltima columna poner los valores de NO2. Una vez hecho esto irse a: Chart Wizard En la ventana de Chart-Wizard-Step 1 of 4 Chart 5 Chart Type Line Next Data Range (sombreando los datos) Column Next Ttulo Finsh. Todos estos rdenes generan la grfica mostrada abajo.
90 80 70 60 50 40 30 20 10 0 E F M A M J J A S O N D Conc. O3 Conc. NO Conc. NO Temperatura
9-69
Como se ve en la grfica, las concentraciones de O3 son directamente proporcionales a las temperaturas, pero inversamente proporcionales a las concentraciones de NO y NO2. Con la qumica atmosfrica, estas relaciones matemticas estn de acuerdo a una lgica a posteriori. Por qu es as? Se le pide al lector contestar esta pregunta. Para el inciso (b) usando el Best Subsets Regression de la funcin del Minitab con Y versus X2, X2, para obtener el siguiente esquema mostrado abajo: (Elaboracin propia). ___________________________________________________________________ XXXX 1234 SSSS XXXQQQQ Vars R-Sq R-Sq(adj) Cp s 2 2 4 R R R R 1 97.4 96.9 95.2 1.6294 X 1 96.7 96.0 123.5 1.8434 X 2 98.2 97.5 68.2 1.4597 X X 2 98.2 97.5 68.5 1.4630 X X 3 99.5 99.3 16.0 0.7796 X X X 3 98.9 98.3 40.9 1.2029 X X X 4 99.7 99.5 10.7 0.6489 X X X X 4 99.7 99.4 12.4 0.6995 X X X X *5 99.9 99.8 5.4 0.4036 X X X X X 5 99.9 99.8 5.9 0.4294 X X X X X 6 99.9 99.8 7.0 0.4214 X X X X X X 6 99.9 99.8 7.2 0.4313 X X X X X X 7 99.9 99.7 9.0 0.4859 X X X X X X X Stepwise regression: Y versus X1, X2, X3, X4,X1SQR, X3SQR Alpha to enter: 0.15 Alpha to remove: 0.15 Response is: on 6 predictors, with N = 12 __________________________________________________________________ De acuerdo a lo observado arriba, se puede decir que, al juzgar por los valores de R2, s y Cp, el modelo ms apropiado es el que excluye a X 22 y a X 24, pero que incluye a
9-70
(NO2), como la mejor alternativa, es decir, usando un modelo de regresin cuadrtico de la forma de abajo (que excluye a X 22 y X 24). Y = o + 1X1 + 2X2 + 3X3 + 4X4 + 5X 21 + 6X 23 La utilidad del modelo candidato se da de acuerdo a los valores de: s = 0.4036, R2 = 99.9%, R2adj. = 99.8%, R2pred. = 99.7% y PRESS = 3.1174. Adems, haciendo un anlisis de regresin por pasos se observa que, siempre se van despreciando los valores de X 22 y X 24, pero siempre se selecciona a X 23 como mejor alternativa. Esta situacin es confirmada por los valores de T y de P mostrados en la tabla de abajo. Tabla mostrando los coeficientes y los valores de T y P. (Elaboracin propia) Predictor Coef. SE Coef T P Constant 17.273 6.2660 2.76 0.040 X1 -2.0544 0.1502 -13.67 0.000 X2 -0.3758 0.1159 -3.24 0.023 X3 1.4376 0.1991 7.22 0.001 X4 -10.8350 2.8080 -3.86 0.012 X1SQR 0.0323 0.0029 11.73 0.000 X3SQR -0.0120 0.0016 -7.47 0.001 Para contestar las preguntas del inciso (c) usar el modelo de regresion seleccionado. 9.16. Las tablas de abajo muestran datos sacados de un experimento, el cual consiste en 4 variables independientes. Se usa un paquete de computadora, el cual selecciona tres de los modelos candidatos ms apropiados. (a) Confirmar la seleccin del los tres candidatos modelos de regresin ms apropiados usando el paquete Minitab, NCSS o SAS. (b) De los tres modelos finalistas sealados en la tabla de abajo, seleccionar el modelo ms ptimo basando el criterio en los diagnsticos estadsticos R2, s, PRESS y Cp. Complementar la decisin usando enfoques subjetivistas, es decir, analizando los grficos de los residuos estandarizados. Hacer, adems, una prueba de normalidad.
9-71
Tabla mostrando los datos originales. (Elaboracin propia) __________________________________________________________________ (Y) X1 X2 X3 X4

_______
79.3 200.1 163.2 200.1 146.0 177.7 30.9 291.9 160.0 339.4 159.6 86.3 237.5 107.2 155.0
5.5 2.5 8.0 3.0 3.0 2.9 8.0 9.0 4.0 6.5 5.5 5.0 6.0 5.0 3.5
31 55 67 50 38 71 30 56 42 73 60 44 50 39 55
10 8 12 7 8 12 12 5 8 5 11 12 6 10 10
8 6 9 16 15 17 8 10 4 16 7 12 6 4 4
La tabla de abajo muestra los tres mejores candidatos de modelos, para que el lector haga una decisin sobre cual de los tres modelos es el mejor. Hacer esta decisin final basndose en los criterios estadsticos R2, s, PRESS y Cp. Pudiera una interaccin mejorar el modelo de regresin? Tabla mostrando los resultados. (Elaboracin propia) Modelo de regresin X2, X3 X1, X2, X3 X1, X2, X3, X4 Fcalc. R2 s PRESS Cp 3.4075 5.0000 Durbin-Watson 1.91 2.02 2.02
998 0.9940 6.6749 782.1896 11.4013 1200 0.9970 4.9795 643.3578 852 0.9971 5.1193 741.7557
9.17. Este problema est relacionado con una informacin de datos de un experimento relacionado entre el pH (X) y la conductividad elctrica (Y). Los datos se dan en la tabla
9-72
de abajo (elaboracin propia). Basando el razonamiento en los resultados dados por el paquete Minitab, decidir si el modelo de regresin ms apropiado es un modelo de cuadrtico o un modelo de regresin cbico.
Quadratic Regression Analysis: (Y) versus (X), XSQR The regression equation is: (Y) = 46.9 19.9 (X) + 2.12 XSQ Predictor Coef SE Coef T P Constant 46.907 9.432 4.97 0.000 (X) -19.909 4.310 -4.62 0.000 XSQ 2.1161 0.4911 4.31 0.001 S = 0.09332 R-Sq = 94.0% R-Sq(adj) = 93.1% PRESS = 0.173201 R-Sq(pred) = 90.88% Analysis of Variance Table Source DF SS Regression 2 1.78578 Residual Error 13 0.11322 Total 15 1.89900 MS F P 0.89289 102.53 0.000 0.00871
Cubic Regression Analysis: (Y) versus (X), XSQR, XSCUBE The regression equation is: (Y) = 248 158(X) + 33.6 XSQR 2.40 XCUBE
9-73
Predictor Constant (X) XSQ XCUBE
Coef 247.9 -157.9 33.64 -2.397
SE Coef T 206.4 1.20 141.6 -1.11 32.35 1.04 2.459 -0.97
P 0.253 0.287 0.319 0.349
S = 0.09350 R-Sq = 94.5% R-Sq(adj) = 93.1% PRESS = 0.172799 R-Sq(pred) = 90.90% Analysis of Variance Table ____________________________________________________ DF SS MS F P Regression 3 1.79409 0.59803 68.41 0.000 Residual Error 12 0.10491 0.00874 Total 15 1.89900 9.18. Se dan los siguientes datos relacionados con la manufactura de chumaceras para vehculos. Se sospecha que ciertas mediciones no estn dentro del rango permitido, posiblemente, debido a fallas de los operadores o tal vez de la maquinaria. Tabla mostrando los datos del problema (Elaboracin propia). Mediciones | 2.75 2.62 2.74 3.85 2.34 2.74 3.93 4.21 3.88 4.33 3.46 4.52 2.43 No. muestra| 1 2 3 4 5 6 7 8 9 10 11 12 13 Hacer los siguientes clculos: (a) Poner los datos en forma ascendente. (b) Determinar el valor del cuarto inferior del cuarto superior. (c) Calcular la cuarta dispersin fs, 1.5fs y 3fs. (d) Calcular un modelo de regresin que incluya todos los datos. (e) Calcular otro modelo de regresin que excluya los valores atpicos extremos calculados en los incisos anteriores. (f) De acuerdo a los diagnsticos objetivistas y subjetivistas, determinar cual de los dos
9-74
3.65 2.78 3.56 3.01 14 15 16 17
modelos es superior. 9.19. Se da la tabla de abajo con datos relacionados con las concentraciones de monxido de carbono (CO) emitidas por motores de combustin interna. Sin embargo, se argumenta que, el aparato analizador que muestreaba el CO, pudo haber tenido fallas durante el muestreo de CO debido a que se notaron valores fuera de lo normal. Para verificar si en verdad hubo valores atpicos en las concentraciones de CO, se requiere saber, cuales fueron los valores extremos. Para tales fines usar diagramas de caja que identifiquen valores atpicos extremos. Para esto se da la tabla de abajo. Tabla mostrando los valores de las concentraciones de monxido de carbono (ppm). (Elaboracin propia). Concentracin de CO | 95 90 90 80 75 65 45 60 57 95 97 130 130 120 105 103 100 99 99 No. de observacin | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Hacer los siguientes clculos: (a) Ordenar los datos en forma ascendente. (b) Estimar la mediana, el valor mximo, el valor mnimo, el cuarto inferior, el cuarto superior, la cuarta dispersin fs, 1.5fs, 3fs, el cuarto inferior Q1 y el cuarto superior Q3. (95, 130, 45, 77.5, 104, 26.5, 75, 103) (c) Hacer una grfica con un diagrama de caja y hacer comentarios al respecto. (d) Identificar los valores atpicos inusuales extremos de CO. (e) Correr un modelo de regresin, es decir, asumiendo un modelo de regresin cuadrtico, con los valores originales y, otro ms, con los valores extremos eliminados. Hay un mejoramiento significante en el modelo corregido, es decir, de acuerdo a los valores de R2, R2ajustada, s y PRESS, de cada uno de los dos modelos de regresin cuadrticos, esto es, incluyendo y excluyendo los valores atpicos extremos? (Tal parece que si hay un mejoramiento significante con el modelo de regresin cuadrtico,
9-75
que no incluye los valores extremos. Bajo estas condiciones, los valores de los diagnsticos estadsticos, para el modelo de regresin, sin los valores atpicos extremos son: R2 = 98,4%, R2ajustada = 98.2%, s = 2.51, PRESS = 135.74. En contraste, para el modelo de regresin cuadrtico, que incluye todos los valores atpicos extremos, los valores de los diagnsticos estadsticos son: R2 = 93.6, R2ajustada = 92.8%, s = 6.26 y PRESS = 949.77) (f) De acuerdo a los diagnsticos objetivistas y subjetivistas, determinar cual de los dos modelos es superior. 9.20. El texto de Jay L. Devore intitulado Probabilidad y Estadstica para Ingeniera y Ciencias (2001) cita una investigacin para determinar la concentracin de cocana en la sangre (mg/L) en una muestra de individuos quienes murieron de delirio excitado (DE) debido al uso de la cocana. Adems, hubo otra muestra de cocana en la sangre de otro grupo de adictos a esta droga, quienes murieron por sobredosis, sin delirio excitado. El tiempo de supervivencia de ambos grupos fue de 6 horas. Los datos adjuntos se graficaron en un diagrama de caja. Este estudio se public en la revista Fatal Excited Delirium Following Cocaine Use (J. of Forensic Sciences, 1997, pp. 25-31). Los datos de este estudio se dan en la tabla de abajo.
9-76
Tabla mostrando los resultados de este problema. Con delirio excitado (DE) 0 0 0 0 .1 .1 .1 .1 .2 .2 .3 .3 .3 .4 .5 .7 .8 1.0 1.5 2.7 2.8 3.5 4.0 8.9 9.2 11.7 21.0 Sin delirio excitado (Sin DE) 0 0 0 0 .1 .1 .1 .1 .2 .2 .2 .3 .3 .3 .4 .5 7.9 8.3 8.7 9.1 9.6 9.9 11.0 (Fuente: Devore, 2001) (a) Determinar las medianas, el cuarto inferior Q1, el cuarto superior Q2, los cuartos inferiores y superiores y las cuartas dispersiones fs de las dos muestras y el promedio. (Para ED: .4,.12.75,2.65, 2.607; para no ED: 1.6, .3, 7.9, 7.60, 4.25) (b) Identificar los valores atpicos moderados y extremos. (ED: 8.9 y 9.2 son valores atpicos moderados y 11.7 y 21.0 son valores atpicos extremos. En la muestra de no ED: no hay valores atpicos). (c) Trazar un diagrama de caja comparativo y usarlo para comparar y diferenciar las muestras con y sin delirio excitado. (Existe una asimetra positiva apreciable en ED y en no ED; menor variabilidad en observaciones de la muestra ED, esto es, menor fs. Adems, las observaciones de la muestra no ED son mayores que las de la muestra no ED) 9.21. El texto de qumica intitulado Chemistry: The Central Science de Brown et. al. (2000), discute la fase gaseosa de la descomposicin de NO2, la cual es dada por: NO2(gas) NO(gas) + O2(gas) (a) Decir si la reaccin es de primero o segundo orden con respecto a la concentracin de NO2. Despus, ratificar la decisin hecha usando tcnicas de regresin evaluadas .6 .5 .7 .6 .8 1.0 1.2 1.4 1.5 1.7 2.0 3.2 3.5 4.1 4.3 4.8 5.0 5.6 5.9 6.0 6.4 11.5 12.2 12.7 14.0 16.6 17.8
9-77
por estadsticos objetivistas (como R2, s, PRESS y ANOVA) y complementadas por medio de grficos subjetivistas (como prueba de normalidad, residuos vs. valores ajustados, etc.). Adems, calcular el valor de la constante de la reaccin k (pendiente). Los valores se dan abajo. Tabla mostrando los datos del problema ___________________________ Tiempo (seg) [NO2] (M) ___________________________ 0.0 0.1000 5.0 0.0170 10.0 0.0090 15.0 0.0062 20.0 0.0047 ___________________________ Fuente: Chemistry: The Central Science. Brown et al. (2000) 9.22. Los autores Sawyer C. N., Perry L. McCarty del libro Chemistry for Sanitary Engineers, 2nd. Edition (1967) proporcionan los siguientes datos provenientes de un experimento para evaluar la desinfeccin de un almacenamiento de agua con una dosis de cloro dada para matar las bacterias coliformes. Usando el programa Minitab o cualquier otro programa de computadora, correr un anlisis de regresin estadstico y hacer lo siguiente: (a) Decir el orden de la reaccin de estos datos. criterio objetivista y uno subjetivista para justificar la asercin. (c) Calcular la vida media (d) Calcular la tasa de la reaccin coliformes?
9-78
(Primer orden)
(b) Que tan bien encajan los datos en el modelo de regresin? Para esto, usar un
(0.1848)
(e) Predecir el tiempo que se llevara para aniquilar el 50% de las bacterias
Tabla mostrando los datos del problema. ____________________________________________ Tiempo (min) Porcentaje de coliformes que van quedando ____________________________________________ 0 100 10 70 20 21 30 6.3 60 0.6 ____________________________________________ (Fuente: Sawyer et al. 1967) 9.23. El texto de Mongomery, Peck y Vining, intitulado Introduccin al Anlisis de Regresin Lineal (2001) da un estudio relacionado con la ingeniera qumica y mecnica en la cual se necesita conocer la presin de vapor de agua a diversas temperaturas; para esto se pueden usar la infames tablas de vapor. Los datos de la presin de vapor y del agua a diversas temperaturas se dan abajo. Tabla mostrando los datos del problema. _________________________________________________________________ y = presin de vapor de agua (mm Hg) x = Temperatura (oC) __________________________________________________________________ 9.2 10 17.5 20 31.8 30 55.3 40 92.5 50 149.4 60 Fuente: Montgomery et al. (2001) (a) Ajustar un modelo de regresin de primer orden sustentado por estadsticos objetivos y grficos. (b) Ajustar un modelo de regresin de segundo orden sustentado con estadsticos objetivos y grficos.
9-79
(c) De acuerdo a los resultados obtenidos en los incisos (a) y (b) decidir cual de los dos modelos es superior, es decir, el modelo de regresin que ajusta mejor a los datos. 9.24. En un experimento relacionado con la velocidad del vehculo y el consumo de gasolina se estudia en una muestra de un tamao 15, es decir, usando un solo vehculo. Los datos se dan en la tabla de abajo. Tabla mostrando los datos de este experimento. __________________________________________________________________ Velocidad (km/hr) | 57 57.6 64 66 66 80 81 89.6 98 99 Consumo de gasolina (L/km) | 20 21 25 26.3 26.5 29 29 27 25.5 25 Hacer los siguientes clculos: (a) Identificar la variable dependiente y la variable independiente (b) Graficar los datos de la variable dependiente versus la variable independiente. (c) Ajustar el modelo de regresin que mejor encaje en los datos (d) Evaluar la utilidad del modelo candidato mediante anlisis objetivistas (R2, R2ajustada, error estndar de lo estimado s, PRESS, y anlisis de varianza). Complementar la decisin obtenida usando grficos subjetivistas (Grficos de prueba de normalidad, residuales versus valores ajustados de Y, residuales versus ordenes, etc.) (e) Una vez que se haya obtenido el modelo superior, predecir el consumo de gasolina cuando la velocidad es de 96 km/hr
9-80
CAPITULO 10 Estadstica no paramtrica. El modelo de ANOVA libre

Ventajas de los mtodos no paramtricos.- Desventajas de los mtodos no paramtricos.- Prueba de H de Kruskal-Wallis para anlisis de varianza por rangos.- Pruebas de hiptesis con las funciones no paramtricas.Procedimientos de pruebas de Kruskal-Wallis para ANOVA simple.- Pruebas de hiptesis no tradicionales, para la prueba de Kruskal-Wallis, es decir, usando el valor de la probabilidad p.Cuando se estudian procedimientos libres o de pruebas no paramtricas se incluyen la prueba de suma de rangos de Wilcoxon, la prueba de Kruskal-Wallis para diseos completamente aleatorizados, la prueba de Friedman, la prueba de Kolmogorov-Smirnov, etc. Existen muchas aplicaciones en la ciencia y en la ingeniera donde los datos se reportan, no como valores continuos, sino en una escala ordinal de tal manera que se puedan asignar rangos a los datos obtenidos. Todos los mtodos discutidos anteriormente, como la distribucin normal, la distribucin de t de estudiante, la distribucin de F, el modelo de regresin, etc., se llaman mtodos estadsticos paramtricos. Esto se debe a qu, estas distribuciones continuas asumen que la variacin aleatoria de los datos debe de seguir a la suposicin de normalidad. Sin embargo, existen situaciones en que las suposiciones de normalidad no se satisfacen para las pruebas de hiptesis. Para resolver este problema, los estadsticos han diseado varias alternativas para aquellos investigadores que estn renuentes a aceptar las suposiciones de normalidad, es decir, de funciones no paramtricas. Estos procedimientos no paramtricos se aplican igualmente a distribuciones paramtricas y a distribuciones no paramtricas.
10-1
En el uso de las estadsticas no paramtricas, como la prueba de KruskalWallis, la prueba de signos, la prueba de Wilcoxon, la prueba de rangos de signos, etc., es necesario aclarar qu, estos procedimientos no paramtricos no son tan poderosos como sus contrapartes, es decir, los mtodos paramtricos, como la distribucin normal, la t de estudiante, etc. Esto se debe a qu, para una probabilidad de error I, las pruebas no paremtricas darn una probabilidad ms alta del error tipo II. Esto tambin ocurre, porque una prueba que ignore la normalidad de los datos (como lo hacen las pruebas no paramtricas), no ser tan buena como aquellas pruebas que la sigan (como las paramtricas). Otra limitacin de las pruebas no paramtricas es que las poblaciones muestreadas deben se ser independientes. Esto quiere decir qu, un grupo no debe de tener influencia sobre el otro. Sin embargo, haciendo a un lado la condicin de normalidad, en que se basan las estadsticas paramtricas, las pruebas no paramtricas tienen muchas aplicaciones en el campo de la ingeniera. Ventajas de los mtodos no paramtricos 1. Estos mtodos pueden aplicarse a un gran nmero de situaciones, porque no requieren de las condiciones de normalidad requeridas por sus contrapartes paramtricas y son ms simples que su contraparte, los mtodos paramtricos. 2. En contraste con los mtodos paramtricos, los mtodos no paramtricos pueden ser aplicados a datos no numricos. Desventajas de los mtodos no paramtricos 1. Los mtodos no paramtricos tienden desperdiciar informacin, porque los datos numricos exactos usualmente se reducen a forma cualitativa. Por ejemplo, en una prueba no paramtrica, digamos de pruebas de signos, la prdida de peso por dietistas se registran simplemente signos negativos. Con este mtodo de signos, la
10-2
prdida de peso de una sola libra, recibe la misma representacin que la prdida de 50 libras. 2. Las pruebas no paremtricas no tienen la eficiencia de las pruebas paramtricas. Esto se debe a qu, con los mtodos no paramtricos, en las pruebas de hiptesis se necesita una fuerte evidencia, antes de que se pueda rechazar la hiptesis. La TABLA 10.0 muestra una comparacin entre los mtodos paramtricos y los no paramtricos. TABLA 10.0. Tabla mostrando una comparacin entre los mtodos paramtricos y los mtodos no paramtricos. (Elaboracin propia) Aplicacin
Datos pareados para muestras dependientes Datos para muestras independientes Varias muestras independientes (ANOVA) Correlacin Aleatoriedad
Prueba paramtrica
Prueba de z o de t* Prueba de z o de t** Anlisis de varianza (prueba F) Correlacin lineal
Prueba no paramtrica
Prueba de signo Prueba de signos de rangos de Wilcoxon Prueba de KruskalWallis
Eficiencia
0.63 0.95 0.95 0.91
No hay base ______________________________________________________________________________ * t = ( D - o)/ sD/ n
Prueba de correlacin de rangos Prueba no paramtrica Pruebas corridas
** t = ( X 1 X 2) (1 2) / ** z = ( X 1 X 2) (1 2) /
2 p
1
1
n n
2 2
1
2
+
2
con 1 y 2 conocidas
10-3
Prueba de H de Kruskal-Wallis para anlisis de varianza por rangos La nica prueba que se discutir en este captulo es la prueba de Kruskal-Wallis, la cual est relacionada con la estadstica paramtrica del anlisis de varianza. El anlisis de varianza o ANOVA paramtrico se aplica para ver si tres o ms promedios poblacionales son iguales, es decir, que no hay diferencias en los promedios. Sin embargo, aqu se asume qu, las poblaciones muestreadas, estn normalmente distribuidas y, las desviaciones estndar de estas distribuciones son iguales. No obstante, si no se pueden seguir las suposiciones de la ANOVA paramtrica, lo apropiado es usar las pruebas no paramtricas, como la prueba de Kruskal-Wallis, prueba de signos de rangos de Wilcoxon o prueba U de MannWhitney. Empero, como ya se dijo, aqu debe existir independencia entre las poblaciones muestreadas. De cualquier manera, si se rene esta condicin, entonces si podemos usar la funcin de Kruskal-Wallis para hacer anlisis de varianza, para ver si existen diferencias entre los promedios poblacionales. Procedimientos de pruebas de Kruskal-Wallis para ANOVA simple 1. Todos los valores de la muestra son combinados. 2. Los rangos ordenados son del ms alto al ms bajo. 3. Los valores ordenados se reemplazan por rangos empezando por uno para el ms pequeo hasta el ms alto. 4. Para la prueba de hiptesis se usa la distribucin de la JI cuadrada y es unilateral derecha. Para la prueba no tradicional se usa el clculo de la probabilidad p usando la tabla de la distribucin de la JI cuadrada (2). La funcin de Kruskal-Wallis se designa por la funcin H que est muy cercana a la distribucin de la JI cuadrada. Esta funcin se da como:
10-4
12 (R1)2 (R2)2 (Rk)2 H = [ + + + ] 3(N + 1) N(N+1) n1 n2 nk
(10-1)
Con = k 1 grados de libertad Donde k es el nmero de poblaciones muestreadas o nmero de muestras Donde: R1, R2, Rk = suma de los rangos para la k-sima muestra n1, n2, ,nk = tamaos de muestras 1, 2, .., k N = nmero total de las observaciones para todas las muestras combinadas. Si el valor computado de la estadstica H cae en la regin crtica derecha (las pruebas siempre son unilaterales derechas), es decir, H > 2;, con = k 1 grados de libertad, entonces, se rechaza Ho: al nivel de significancia usado. De otra manera se retiene Ho: Pruebas de hiptesis con las funciones no paramtricas Para las pruebas de hiptesis tradicionales se usan los mismos trminos que en las pruebas paramtricas de ANOVA, es decir, si H > 2, con = k 1 grados de libertad cae en la regin crtica derecha, se rechaza la hiptesis sustentada, Ho:. De otra manera se retiene, se acepta o no se hace ninguna decisin. La prueba de hiptesis nula para la prueba de Kruskal-Wallis es la tradicional, es decir: Ho: 1 = 2 = 3 = = k La hiptesis alternativa es: H1:1 2 3 . k (10-3) (10-2)
10-5
Los niveles de significancia son los mismos que las pruebas paramtricas, es decir, = .05 y = .01. Estos valores se buscan en la tabla de la JI cuadrada con 2, donde es igual a .05 o .01 (extremo derecho de la tabla). Pruebas de hiptesis no tradicionales, para la prueba de Kruskal-Wallis, es decir, usando el valor de la probabilidad p Para hacer estas pruebas de hiptesis no tradicionales usando el valor de p, se siguen los mismos criterios usado anteriormente. El procedimiento se hace buscando el valor de la estadstica calculada H en la tabla de la distribucin de JI cuadrada, y se hace una interpolacin usando la misma frmula usada con las pruebas paramtricas. Ejemplos usando la prueba de Kruskal-Wallis Ejemplo #1. Se quiere probar si existen diferencias en las concentraciones de xidos de nitrgeno (NO2) provenientes de tres muestreadores (1, 2 y 3) localizados en diferentes lugares. Probar que no hay diferencias entre las concentraciones de xido de nitrgeno, entre las tres poblaciones muestreadas. Usar = 0.05. Las concentraciones de NO2 se dan en la tabla de abajo. TABLA 10.1. Tabla mostrando las concentraciones de xidos de nitrgeno (NOx) en ppm provenientes de los tres muestreadores. (Elaboracin propia) Muestreador 1 51 32 17 69 86 62 96 97 Muestreador 2 14 31 68 87 20 28 77 Muestreador 3 89 20 60 72 56 22
10-6
Solucin: Primeramente, se tienen que ordenar los rangos, para cada uno de los tres muestreadores. Aqu, sin embargo, hay que tener cuidado de tomar en consideracin situaciones donde hay repeticiones. En este caso hay dos repeticiones en los muestreadores 2 y 3. Estas situaciones se modifican como se ve en la TABLA 10.2 de abajo. Analizando la tabla de abajo, vemos que, el marcador ms bajo, es el 14 de la columna dos, el 17 de la columna uno y, el 20 de la columna dos y tres. La tabla de abajo muestra el orden de los rangos. TABLA 10.2. Tabla mostrando los datos de los marcadores con sus respectivos rangos. (Elaboracin propia) __________________________________________________________________ Mestreador 1 Muestreador 2 Muestreador 3 Marcador 51 32 17 69 86 62 96 Rango 9 8 2 14 17 12 20 Marcador Rango 14 1 31 7 68 13 87 18 20 *3.5 28 6 77 16 97 21 Marcador Rango 89 19 20 *3.5 60 11 72 15 56 10 22 5
*Debido a que hay dos nmeros 20 entonces, (3 + 4)/2 = 3.5 Ahora se procede a sumar los rangos para cada una de las tres columnas: R1 = 82 n1 = 7 R2 = 85.5 n2 = 8 R3 = 63.5 n3 = 6
La regin crtica derecha se calcula usando la distribucin de la JI cuadrada. El valor de 2;, es decir, 20.05; que, en este caso, es de 2 0.05;2 = 5.991, esto es, con = k 1 = 3 1 = 2 grados de libertad.
10-7
Enseguida, sustituyendo los valores de la frmula de Kruskal-Wallis (10-1) y resolviendo por H da: 12 (82)2 (85.5)2 (63.5)2 H = [ + + ] 3 (21+1) 21(21+1) 7 8 6 = (0.026)[(960.57) + (913.78) + (672.04)] - 66 = 0.21 Conclusin: Debido a que el valor de la estadstica 2 = H = 0.21 es menor que 20.05;2 = 5.991, no se puede rechazar la hiptesis nula de igualdad de promedios y se dice que la prueba no es significante. Esto dice que tenemos una evidencia muy insuficiente para rechazar la hiptesis nula de que las concentraciones de las tres poblaciones de NO2 provenientes de los tres muestreadores son iguales. Ejemplo #2. En un estudio de toxicologa, con el objeto de verificar el contenido de alquitrn se prueban cuatro muestras aleatorias de cigarrillos. Como no se sabe si la poblacin muestreada es normal, en lugar de usar un anlisis de varianza paramtrico, se decide usar un mtodo no paramtrico, es decir, el de KruskalWallis. Usando un nivel de significancia de = .05 probar que no hay diferencias entre las cuatro poblaciones de marcas de cigarrillos. Los datos de las cuatro marcas de cigarrillos con sus respectivas concentraciones de alquitrn se dan en la tabla de abajo. Tambin calcular el valor de la probabilidad p. TABLA 10.3. Tabla mostrando los datos. (Elaboracin propia) Marca A Marca B Marca C Marca D 10 18 15 20 11 14 14 19 13 15 12 21 14 16 16 17 Solucin:
10-8
1. Primero sacamos los rangos correspondientes, como se ve en la tabla de abajo. TABLA 10.4. Tabla mostrando los rangos. (Elaboracin propia) Marca A Rango Marca B Rango Marca C Rango Marca D 10 1 18 13 15 8.5 20 11 2 14 6 14 6 19 13 4 15 8.5 12 3 21 14 6 16 10.5 16 10.5 17 Rango 15 14 16 12
2. Enseguida, establecemos la regin crtica unilateral derecha (no hay ms que esa, por qu?). 2[;k-1] = 2[.05;4-1] = 2[.05;3] = 7.82 (de la tabla de la JI cuadrada) 3. Usando la frmula de Kruskal-Wallis (10-1) y sustituyendo: N = 16, (R1)2 = (13)2 = 169, (R2)2 = (38)2 = 1444, (R3)2 = (28)2 = 784, (R4)2 = (57)2 = 3249, n1 = n2 = n3 = n4 = 4, da: H = 12/16(16+1) [169/4 + 1444/4 + 784/4 + 3249/4] 3(16+1) = 11.06. 4. Conclusin: Debido a que 11.27 > 7.82 se rechaza la hiptesis de igualdad de poblaciones, y se dice que si hay diferencias entre los promedios de las concentraciones de alquitrn en los cigarrillos. 5. El valor de la probabilidad p se saca buscando 11.06, con 3 grados de libertad en la tabla de la JI cuadrada y est entre .025 y .01. Si se requiere mas precisin se puede usar la frmula de interpolacin (5-28), es decir, buscando el valor de 11.27. Los valores interpolados son: 2 = 0.99, 2 = 11.345, 1 = 0.975, 2 = 9.348, H = 11.06 Sustituyendo estos valores en la frmula de interpolacin: (2 1) / (22 21) = (2 X) / (2 2calc.) (0.99 0.975)/(11.345 9.348) = (0.99 X)/(11.345 11.06)
10-9
Ahora, resolviendo por X da X = .9879. El valor de p es igual a p = 1 - .9879 = 0.01. Este valor de la probabilidad p es significante. Ejemplo #3. El libro Statistics for Modern Business Decision de Lawrence L. Lapin, menciona un estudio de qumica analtica, relacionado con las impurezas que contienen los reactivos qumicos, las cuales pueden interferir en las reacciones qumicas, es decir, en cuanto a la cantidad de tiempo requerido para que se logre la reaccin qumica. Los datos se dan en la tabla de abajo. TABLA 10.5. Tabla mostrando los niveles de impurezas en los reactivos qumicos en funcin del tiempo para que se haga la reaccin. Niveles de impurezas .001 .01 .05 .10
Tiempo de reaccin en minutos 103 111 107 105 104 113 117 120 113 153 127 143 119 138 143 Fuente: Lapin (1982) (a) Calcular la estadstica H de Kruskal-Wallis. (b) Usando un nivel de significancia de = 0.05 probar la hiptesis nula de que los niveles de impurezas en los reactivos qumicos no afectan el tiempo de reaccin. Hacer esto, usando la prueba de hiptesis tradicional y la prueba de hiptesis no tradicional. Solucin:
10-10
207 183 173
La tabla de abajo enlista los marcadores y sus rangos correspondientes. TABLA 10.6 Tabla mostrando los valores de los marcadores en forma ascendente de los cuatro niveles de impurezas en los reactivos qumicos y el tiempo. Marcador | 103 Rango |
1 104 105 107 111 113 113 117 119 120 127 138 143 143 153 173 183 207 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 118
TABLA 10.7. Tabla mostrando los cuatro marcadores con sus correspondientes rangos. (1) (2) (3) (4) .001 .01 .05 .10 _______________ ______________ ______________ _______________ Marcador Rango Marcador Rango Marcador Rango Marcador Rango 103 111 107 105 1 5 4 3 104 113 117 120 113 2 6.5* 8 10 6.5* 153 127 143 119 138 143 15 11 13.5* 9 12 13.5* 207 183 173 18 17 16
*Debido a que hay dos 113 y dos 143, entonces el rango correspondiente a 113 es (6+7)/2 = 6.5 y el rango correspondiente a 143 es (13 + 14)/2 = 13.5 Ahora se procede a sumar los rangos para cada una de las cuatro columnas. R1 = 13 n1 = 4 R2 = 33 n2 = 5 R3 = 74 n=6 R4 = 51 n=3
La regin crtica derecha se calcula usando la distribucin de JI cuadrada. El valor de 2; = 20.05;3 = 7.82, es decir, donde = k 1 = 4 1 = 3. Enseguida sustituyendo los valores de arriba en la ecuacin (10-1)
10-11
12
(13)2
(33)2
(74)2
(51)2
H = + + + 3(18 + 1) 18(18+1) 4 5 6 3
= 0.035 [42.25 + 217.8 + 912.67 + 867.0] - 57 = 0.035(2039.72) 57 = 14.39 Conclusin: debido a que el valor de la estadstica 2 = H = 14.39 es mayor que 7.82 se rechaza la hiptesis nula y se dice que los niveles de impurezas si estn afectando el tiempo de las reacciones qumicas. Ahora bien, para hacer la prueba de hiptesis de p o no tradicional, se hace usando la frmula de interpolacin de abajo: (2 1) / (22 21) = (2 X) / (22 - 2calc.) Se busca en la tabla de JI cuadrada el valor de 2calc. = 14.39 con 4 g.l. y est entre 14.86 con valor porcentual de .005 y 13.277 con valor porcentual de .01. Es decir, con los valores de 2 = .005, 1= .01, 22 = 14.86, 21 = 13.277, y 2calc. = 14.39. Sustituyendo todos estos valores en la frmula de arriba y resolviendo por X da: (.005 - .01) / (14.86 13.277) = (.005 X) / (14.86 14.39) X = 0.0072 = p Este valor de 0.0072 es mucho muy significante y refrenda la decisin tomada en afirmar que si hay diferencias entre los niveles de impurezas que retardan las reacciones qumicas.
10-12
10.1. En un experimento para determinar, cul de tres tipos de motores usaban menos gasolina, se hizo un estudio tratando de mantener todas las dems variables constantes. Usar un nivel significante de = 0.05. (a) Establecer Ho: y H1: y calcular H. (b) Establecer la regin crtica. (Ho:1 = 2 = 3; H1:1 2 3, H = 1.66 y se retiene Ho:) (h > 20.05;2 = 5.991) (c) Usar la prueba no paramtrica de Kruskal-Wallis y probar que no hay diferencias en el consumo de gasolina de los tres motores, en cuanto al millaje obtenido. Tabla mostrando los datos. (Elaboracin propia) Motor 1 24.0 16.7 22.8 19.8 18.9 17.8 Motor 2 23.2 19.8 18.1 17.6 20.2 18.9 18.8 19.3 Motor 3 18.4 19.1 17.3 17.3 19.7 (H = 1.66 y se retiene Ho:)
10.2. La tabla de abajo da las temperaturas de 5 sujetos seleccionados, aleatoriamente, de tres grupos diferentes. Usando un nivel de significancia de = 0.05 probar que las tres poblaciones de temperaturas son iguales. Calcular p.
10-13
Tabla mostrando las temperaturas del cuerpo (oF) clasificadas por edades. (Elaboracin propia) 18-20 aos 98.0 98.4 97.7 98.5 97.1 21-29 aos 99.6 98.2 99.0 98.2 97.9 >30 aos 98.6 98.6 97.0 97.5 97.5
10.3. Un panel de siete expertos fue consultado para calificar a cinco industrias (A, B, C, D, E) en cuanto a la probabilidad de que cambios tecnolgicos produzcan mejoras en el control de la contaminacin ambiental, en el curso de los prximos 10 aos. Las calificaciones en se dan en la tabla de abajo. Tabla mostrando los datos. (Elaboracin propia) Industrias _________________________________________________ A B C D E _________________________________________________ Experto 1 2 3 4 5 6 7 0.15 0.30 0.20 0.00 0.10 0.25 0.40 0.75 0.60 0.80 0.50 0.55 0.70 0.95 0.10 0.20 0.30 0.25 0.15 0.35 0.45 0.00 0.05 0.00 0.10 0.15 0.25 0.20 0.30 0.25 0.50 0.60 0.40 0.45 0.35
(a) Probar con el nivel de significancia de = 0.05, que las poblaciones son idnticas. (b) Calcular el valor de la probabilidad p.
10-14
10.4. El libro Probabilidad y Estadstica para Ingeniera y Ciencias de Jay L. Devore (p. 662) proporciona los siguientes datos, los cuales se refieren a la concentracin del istopo estroncio 90, en muestras de leche obtenidas de 5 lecheras seleccionadas, aleatoriamente, en cada una de cuatro regiones diferentes. Tabla mostrando los datos de las concentraciones de estroncio en leche. Regin 1 Regin 2 Regin 3 Regin 4 6.4 7.1 5.7 9.5 5.8 9.9 5.9 12.1 6.5 11.2 8.2 10.3 7.7 10.5 6.6 12.4 6.1 8.8 5.1 11.7
(Fuente: Devore, 2001) Hacer los siguientes clculos: (a) Probar con el nivel de significancia de 0.10 para verificar si el promedio de concentraciones de estroncio 90 difiere, al menos en dos de las regiones. (b) Calcular el valor de p. (c) Hacer un anlisis de varianza paramtrico y comparar los resultados. 10.5. Los datos de abajo muestran 4 tratamientos para determinado proceso, en el cual no se sabe si la poblacin muestreada es normal. Usar la ANOVA paramtrica y, luego, usar el mtodo no paramtrico de Kruskal-Wallis. Hay suficiente evidencia, con = 0.05, que nos permita concluir que existen diferencias entre los 4 tratamientos? En ambos casos comparar los resultados y examinar el valor de F y de p. Cul de los dos mtodos (paramtricos o no paremtricos) sera el ms preciso, si se supiera que la poblacin muestreada fuera normal?
10-15
Datos del problema de arriba. (Elaboracin propia) Tratamientos 1 2 3 4 12 10 10 9 15 12 8 6 13 11 12 8 18 14 15 7 20 10 13 9 19 11 11 7 15 12 13 6 ________________________________________________________________
10-16
CAPITULO 11 Series de tiempo

Clasificacin de los movimientos de las series de tiempo.- Tendencias a largo plazo.- Componentes cclicos de series de tiempo.- Variaciones estacionales.Variacin irregular.- Mtodos para encontrar lneas de tendencia.- Lnea de los cuadrados mnimos y parbolas de los cuadrados mnimos.Cualquier variable en funcin del tiempo, en sucesin, se llama series de tiempo. Las series de tiempo son una secuencia de valores de variables tomadas en periodos de tiempo sucesivos. La grfica de una serie de tiempo es un diagrama, con el eje vertical mostrando el valor observado (y) y, con el eje horizontal denotando el tiempo (minutos, das, aos, etc.). Las grficas como los histogramas o diagramas de tallo y hoja son mtodos visuales tiles para mostrar la variacin en los datos. Sin embargo, el tiempo es un factor muy importante que contribuye a la variacin observada de los datos, que los histogramas o las grficas de caja no los toman en cuenta. Las series de tiempo son un conjunto de observaciones tomadas a tiempos especficos, usualmente, a intervalos iguales en un orden cronolgico. Las series de tiempo o secuencias de tiempo se definen como datos estadsticos que son coleccionados, registrados u observados en incrementos de tiempos sucesivos. El anlisis de los datos de las series de tiempo es de inters para aqullos quienes deseen entender la naturaleza de los datos pasados y presentes. Tambin, las series de tiempo son de inters para aquellos investigadores, quienes deseen usar el conocimiento de datos pasados para predecir el futuro. Las aplicaciones de las series de tiempo son muy comunes en la economa, pero tambin en la economa o la ingeniera. Por ejemplo:
11-1
1. Los gobiernos de las naciones industrializadas quieren saber los valores futuros de las tasa de intereses monetarios. Las naciones en desarrollo quieren saber las tendencias de las tasas de devaluacin de la moneda. Tambin es deseable predecir las tasas de empleos o de desempleos. Igualmente, es importante saber los porcentajes de los incrementos de los costos de la vida. 2. Otras aplicaciones de las series de tiempo son los pronsticos de las tasas de inters para la construccin de viviendas y el costo de los materiales de construccin. 3. Tambin las compaas manufacturadoras quieren pronosticar la demanda de sus productos y sus acciones en el mercado. 4. En ingeniera ambiental, los activistas y protectores del medio ambiente quieren saber cules son las tendencias en los aumento de los gases de invernadero, como el bixido de carbono (ocasionado por la emisiones vehiculares, la industria, fuegos forestales, etc.) que estn calentando la tierra, fundiendo los glaciares montaosos y las capas polares y cambiando el clima mundial. Tambin es interesante saber las tendencias y los aumentos de la radiacin ultravioleta, que tanto dao est causando al ser humano, por la destruccin del ozono natural estratosfrico, causado por la irracionalidad del hombre moderno. 5. Las series de tiempo tambin aplican para saber las tendencias y pronsticos de los incrementos de la poblacin mundial, etc. Cuando se grafican las mediciones de series de tiempo, a menudo se observan tendencias, ciclos o variaciones importantes de los datos que, de otra manera, pasaran inadvertidos. Definicin: Matemticamente, una serie de tiempo se define por valores Y1, Y2,....... de una variable Y, como la temperatura, concentraciones de contaminantes, como CO2, SO2, partculas atmosfricas, etc., a tiempos t1, t2,.... Por lo tanto, Y es una funcin de t
11-2
simbolizada por Y = F(t). Clasificacin de los movimientos de las series de tiempo Los movimientos caractersticos de las series de tiempo pueden clasificarse en cuatro tipos llamados componentes de series de tiempo. Estos componentes de las series de tiempo se describen como sigue: 1. Tendencias a largo plazo o movimientos seculares. 2. Movimientos o fluctuaciones cclicas. 3. Variaciones estacionales o movimientos estacionales. 4. Variaciones o movimientos irregulares o aleatorios. Tendencias a largo plazo La tendencia a largo plazo o tendencia secular de una serie de tiempo es el componente uniforme de las series que representan el crecimiento o decremento de tiempos, sobre un periodo grande de tiempo. La tendencia secular se refiere a la direccin general en la cual la grfica de unas series aparecen moverse durante un intervalo de tiempo. Por ejemplo, la poblacin de los Estados Unidos durante los ltimos 40 aos ha mostrado una tendencia de crecimiento de 137 millones de personas a 246 en 1988. Las tendencias a largo plazo se ve en la Figura 11.0(a). La determinacin de las tendencias de las lneas y de las curvas se puede hacer usando el mtodo de ajustamiento de curvas. Tambin se puede hacer por medio del anlisis de los diagramas esparcidos, para encontrar la funcin matemtica que mejor encaje en los datos. Componentes cclicos de series de tiempo Los componentes cclicos se refieren a los movimientos recurrentes de arriba y abajo de las tendencias de las series de tiempo. Estas fluctuaciones de onda, llamadas ciclos de los negocios, son diferentes de las fluctuaciones estacionales. Es decir, en el
11-3
sentido de que cubren periodos largos de tiempo, tienen causas diferentes y son menos predecibles. Las fluctuaciones duran de 2 a 10 aos, o ms, cuando se miden las ondas de cresta a cresta o de canal a canal. Ejemplos de componentes ciclos son periodos de recesiones econmicas o de periodos de inflacin, demanda de productos a largo plazo, etc. Esta situacin se ve en la Figura 11.0 (b) Variaciones estacionales Este tipo de series de tiempo se refieren a variaciones peridicas, pero no estn limitadas a variaciones con la estacin del ao. Estos son patrones de periodos en las series de tiempo que se completan en un ao y, luego se repiten de acuerdo al mismo patrn de periodo en aos, subsecuentes. Por ejemplo, los precios de los mercados financieros pueden mostrar tendencias altas o bajas en un da o en una semana. En estudios ambientales, las fluctuaciones de los contaminantes muestran tendencias cclicas durante el da, como en el caso del estudio de las concentraciones de ozono troposferico. Otros ejemplos son la produccin de ciertos productos de granjas agrcolas, el nmero de vehculos que pasan por cierto punto, entre dos sitios, etc. La unidad de tiempo en variaciones estacionales es menos que un ao, pero pueden ser de un mes, una semana, o parte del da. Esta situacin se ve en la Figura 11.0(c). Variacin irregular Este es un tipo de variacin que no est considerado por tendencias, ciclos o factores estacionales, sino que se compone de fuerzas no recurrentes, espordicas que no se describen como o atribuidas a factores de tendencias, ciclos, o estacionales. Ejemplos de variaciones irregulares son movimientos espordicos de series de tiempo debido a inundaciones, granizadas, heladas, tornados, huracanes, sequas, fuegos forestales, etc.
11-4
Adems, las figuras de abajo muestran ejemplos de algunos posibles patrones de tendencia en series de tiempo. Por ejemplo, la Figura 11.1(a) muestra una tendencia no lineal. La Figura 11.1(b) muestra una tendencia lineal que disminuye. La Figura 11.1(c) muestra una grfica sin tendencia.
Figura 11.0. Grficas mostrando los tipos de tendencias. La grfica (a) muestra una tendencia de lnea a largo plazo o de movimiento secular. La grfica (b) muestra una lnea de tendencia a largo plazo con un movimiento cclico sobrepuesto. La grfica (c) muestra tendencias cclicas a largo plazo y movimientos estacionales. (Spiegel, 1961).
Figura 11.1. Ejemplos de algunos patrones de tendencias en series de tiempo. Aplicaciones de las funciones de series de tiempo Las aplicaciones en ingeniera de las tendencias a largo plazo o tendencias seculares son varias. Ejemplos de estas aplicaciones son los incrementos de la contaminacin ambiental. Un ejemplo clsico es el aumento constante de las concentraciones de bixido de carbono, gas metano, vapor de agua, etc., a nivel mundial, que han estado ocurriendo desde el inicio de la era industrial hasta al presente. Esto, como es bien
11-5
sabido, est corrompiendo el clima de nuestro planeta, al estarse calentando la tierra y las aguas marinas. Otros ejemplos, a los cuales se les pueden aplicar las series de tiempo, son los incrementos en la radiacin ultravioleta (en sus formas de UV-A y UV-B), que estn causando cncer en la piel (en sus tres formas, melanoma, basal y escamoso) y daos en la visin y alteraciones en la estructura del DNA. Otras aplicaciones de las series de tiempo estn relacionadas con los crecimientos poblacionales o demogrficos. Otros ms estn relacionados con la produccin industrial, la produccin de energa, la economa, etc. Tipos de funciones matemticas para lneas de tendencia Las ecuaciones o funciones matemticas ms comunes para aproximar los datos grficos de lneas de tendencia de un diagrama esparcido se dan el la tabla de abajo. Aqu, las letras a, b y c representan valores constantes y, las letras X e Y, representan las variables independientes y dependientes, respectivamente.
11-6
TABLA 11.0. Tabla mostrando los tipos de funciones matemticas ms comunes usadas para lneas de tendencia. (Elaboracin propia) Funcin matemtica (1) y = a + bx (2) y = f(x) = ax2 + bx + c (3) y = ax3 + bx2 + cx + d (4) y = ax4 + bx3 + cx2 + dx + e (5) y = a + bx + cx2 + ... + an xn (6) y = abx o Log y = Log a + (Log b) x (7) y = axb o Log y = Log a + b Log x (8) y = 1/a + bx o 1/y = a + bx (9) y = pqbx o Log y = Log p + bx Log q (10) y = abx + g (11) y = axb + g (12) y = Ln x (13) y = a (a b) exp(-(c)|x|)d (14) y = a (a b)/(1 + (c|x|)d (15) y = a(1 + (b 1) exp(-c(x d))1/(1 - b) Descripcin Lnea recta Curva cuadrtica o parablica Curva cbica Curva curtica Polinomial generalizado Curva exponencial Curva geomtrica Funcin hiprbola Curva de Gompertz Curva exponencial modificada Curva geomtrica modificada Funcin logartmica Funcin de Weibull Funcin de Morgan-Mercer-Floding Funcin de Richards
Para decidir, cul funcin matemtica es la ms apropiada, para ajustar los datos se puede hacer viendo un diagrama esparcido de la grfica de los datos. Por ejemplo, si el diagrama esparcido en papel semilogaritmo de Log (y) vs. x muestra una relacin lineal, la ecuacin tiene la forma de la curva exponencial (6). Si se usa el papel logaritmo completo, Log y-Log x, y los datos muestran una relacin lineal, la ecuacin tiene la forma de una curva geomtrica (7). De cualquier manera, los programas de computadora, como el SAS, Minitab, NCSS, etc., son las mejores herramientas para encontrar la funcin que mejor ajuste los datos. Mtodos para encontrar lneas de tendencia 1. El mtodo a mano libre o visual.
11-7
2. El mtodo de los cuadrados mnimos. 3. El mtodo de semipromedios. 4. El mtodo de promedios en movimiento. 1. El mtodo a mano libre consiste en ajustar la tendencia de una lnea o curva, examinando la grfica visualmente. Sin embargo, este mtodo subjetivo depende mucho del juicio individual. 2. El mtodo de los cuadrados mnimos puede usarse para encontrar la ecuacin de la tendencia de la curva. Hay muchos programas de computadora que ayudan a esto. 3. El mtodo del promedio del movimiento. Usando los rdenes apropiados del movimiento de promedios, los patrones cclicos, estacionales o irregulares pueden ser eliminados dejando, solamente, la tendencia del movimiento. 4. Mtodo de semipromedios. Este mtodo consiste en separar los datos en dos partes (preferentemente iguales) promediando los datos en cada parte, obteniendo dos puntos en la grfica de las series de tiempo. Enseguida, una lnea de tendencia se dibuja obteniendo dos puntos en la grfica de las series de tiempo. Este mtodo es simple, pero puede dar resultados pobres. Este mtodo es aplicable, solamente, cuando la tendencia es lineal o aproximadamente lineal. Mtodo a mano libre para el ajustamiento de curvas Este es el mtodo ms simple para las series de tiempo. Consiste en graficar las series de tiempo y, por medio de observacin visual, trazar una lnea recta sobre los puntos. Una vez hecho esto, se estima la ecuacin de la lnea recta para despus calcular cualquier valor de Yc sustituyendo el valor de X. Mtodo de los cuadrados mnimos Este mtodo es el ms usado y preciso para encontrar la ecuacin de una serie de tiempo. Considrese la Figura 11.2 de abajo.
11-8
Figura 11.2. Grfica mostrando el mtodo de los cuadrados mnimos. Fuente: Spiegel (1961). Los puntos de los datos se dan por (X1, Y1), (X2, Y2), ..., (Xn, Yn). Para un valor dado de X, digamos, X1, habr una diferencia entre el valor Y1 y el valor correspondiente como se determin de la curva C. Como se ve en la grfica, denotamos esta diferencia por D1, la cual, en algunas ocasiones se refiere como la desviacin, error o residual y puede ser positivo, negativo o cero. Similarmente, correspondiendo a los valores de X1, X2,.. Xn, obtenemos las desviaciones D2, D3, ..., Dn. La medicin de bondad de ajuste se da por la relacin D21 + D22 + ... + D2n. De esta manera, si la suma de estos cuadrados D21, D22, D23, etc., es pequea, el ajuste es bueno. Pero, si la suma es grande, el ajuste es malo, lo cual quiere decir que, el error o residual ser grande, indicando mucha variacin entre los datos (Spiegel, 1961). Definicin. De todas las curvas que aproximan un grupo de datos en el sentido de los cuadrados mnimos, la curva que tiene la propiedad de: D21 + D22 +... + D2n es un mnimo y se llama la curva que mejor ajusta los datos. Una curva que tenga esta propiedad se dice que ajusta los datos en el sentido del mejor cuadrado mnimo y se llama la curva de los cuadrados mnimos. Por lo tanto, una lnea que tenga esta propiedad se llama la lnea de los cuadrados mnimos, parbola de los cuadrados mnimos, etc.
11-9
Lnea de los cuadrados mnimos y parbolas de los cuadrados mnimos La lnea de los cuadrados mnimos, que aproxima el conjunto de puntos (X1, Y1), (X2, Y2), ... (Xn, Yn), ya se discuti en el Captulo 8, donde se habl de regresin y correlacin simple y mltiple. En ese captulo se describieron modelos de regresin de una lnea recta. Anlogamente, en el Captulo 9, se describieron modelos polinomiales, con una o ms de dos variables independientes. Tambin, en ese captulo se describieron modelos cbicos. Siendo as, entonces, no se repetirn los mecanismos usados para ajustar los datos a los modelos ms apropiados. Ejemplos usando las series de tiempo Ejemplo #1. Se dan los datos de las siguientes concentraciones de bixido de carbono (CO2) (Y) en funcin del tiempo (X) en la tabla de abajo. TABLA 11.1. Tabla mostrando los datos de CO2 en funcin del tiempo. (Elaboracin propia) Conc. de CO2 (Y) | 1 2 4 4 5 7 8 9 10 11.5 (Millones de toneladas) Tiempo (X) | 1900 1920 1930 1940 1950 1960 1970 1980 1990 2000 (Aos codificados) | 1 3 4 6 8 9 11 14 15 16
Hacer los siguientes clculos: (a) Trazar a mano en la grfica obtenida los datos y una lnea recta. (b) Encontrar la ecuacin de esta lnea. (c) Usando estadstica encontrar la lnea ajustada de los cuadrados mnimos y comparar los valores de la pendiente y del intercepto Y encontrados en el inciso (b). (d) Trazar en la grfica la lnea de la ecuacin encontrada (a). (e) Usando las ecuaciones encontradas en los incisos (b) y (c), estimar las concentraciones de CO2 para el ao 2010. Solucin:
11-10
(a) Graficamos los puntos (1,1), (2,3), (4,4), (6,4), (8,5), (9,7), (11,8), (14,9) en un sistema de coordenadas rectangulares como se muestra en la Figura 11.3 de abajo.
Grfica mostrando las concentraciones de bixido de carbono vs. tiempo
12 10 Conc. de CO2 (Y) 8 6 4 2 0 0 2 4 6 8 10 Tiempo (X) 12 14 16
Figura 11.3. Grfica mostrando las concentraciones de CO2 en funcin del tiempo. (Elaboracin propia) (b) Para obtener la ecuacin de la lnea, usamos la grfica de arriba y seleccionamos cualesquiera de dos puntos sobre la lnea trazada a mano, esto es, como punto P y punto Q. Enseguida, estimamos las coordenadas de estos dos pares puntos que son (1, 1) y (12, 7.5). Ahora usando la ecuacin de los cuadrados mnimos dada por la funcin Y = a + b(X) y sustituyendo los valores de Y1 = 1, X1 = 0, Y2 = 7.5 y X2 = 12 nos da: 1.0 = a + b(0) 7.5 = a + b(12) Resolviendo da a = 1. 7.5 = 1 + b (12) y b = .542. Por lo tanto, la ecuacin es: Yc = 1 + .542(X) Otra forma de hacer lo mismo es con la ecuacin de la forma del punto de la pendiente de una lnea, Y = Y1 = m(X X1), donde m = (Y2 Y1)/(X2 X1), para dar: Y Y1 = (Y2 Y1)/(X2 X1) (X X1)
11-11
(11-1)
Ahora sustituyendo los valores en (11-1) da: Y 1 = (7.5 1)/(12 0) (X 0), Y 1 = .542 X, esto es Yc = 1 + .542 (X) (c) Para encontrar la ecuacin de la lnea recta usamos mtodos estadsticos, es decir, usando las ecuaciones que estiman el intercepto en Y y la pendiente de la lnea (Ver captulo de regresin). ( Y)( X 2) ( X)( XY) a = n X 2 ( X)2 n XY (X)(Y) b = n X 2 (X)2 (11-2)
(11-3)
Para esto, podemos usar una calculadora de bolsillo o un programa de computadora y estimamos las siguientes sumatorias: X = 56, Y = 40, X 2 = 524, Y 2 = 256, (Y)2 = 1600, XY = 364, XY = 2240, (X)2 = 3136, n = 8. Ahora, sustituyendo todos estos valores en las ecuaciones (11-2) y (11-3), para a y b dan los siguientes resultados: (40)(524) (56)(364) Intercepto en Y = a = = .545 (8)(524) (56)2
11-12
(8)(364) (56)(40) Pendiente = b = = .636 (8)(524) (56)2 Por lo tanto, la ecuacin de los cuadrados mnimos es: Yc = .545 + .636(X) Aqu, se puede ver que esta ecuacin es ms precisa, que la obtenida por medio del juicio individual. Ahora, para trazar la lnea en la grfica correspondiente a la ecuacin de arriba, ponemos Y = 0 y resolvemos por X para dar X = -0.857. Enseguida, ponemos X = 0 y resolvemos por Y para dar Y = 0.545. Enseguida, usando estos dos pares de coordenadas, es decir, (0.857, 0) y (0, 0.545) podemos trazar en la grfica una lnea ms precisa que aqulla hecha a mano. (e) Usando las ecuaciones Y = 1 + .542(X) e Y = .545 + .636(X), cuando X = 17 (ao 2010), nos da, respectivamente, Y = 10.21 y 11.36, este ltimo valor siendo ms preciso que el anterior. Ejemplo #2. Una compaa de programas de computadora reporta la demanda para un determinado paquete de computadora, sobre un periodo de tres aos. Los datos se dan en la tabla de abajo: TABLA 11.2. Tabla mostrando los datos del problema. (Elaboracin propia) Demanda trimestral (Y) | 37 22 62 80 77 95 94 131 148 155 126 161 Periodos de tiempo (X) | 1 Hacer los siguientes clculos: (a) Visualmente ajustar una lnea recta a los datos de la grfica. (b) Usando mtodos estadsticos estimar la ecuacin lineal de las series de tiempo, es
11-13
10 11
12
decir, Yc = a + b(X) Ntese que tambin se puede usar Y en lugar de Yc). (c) Trazar una lnea recta usando el par de coordenadas derivados de esta ecuacin. (d) Comparar la lnea hecha a mano con la lnea obtenida en (c). (e) Predecir el valor de Yc cuando X = 140 Solucin: (a) La grfica de abajo muestra el diagrama esparcido de los datos.
Grfica mostrando la demanda trimestral vs. periodos de tiempo
180 160 Demanda trimestral (Y) 140 120 100 80 60 40 20 0 2 4 6 8 Periodos de tiempo (X) 10 12
Figura 11.4. Grfica mostrando los datos del ejemplo de arriba. (Elaboracin propia) (a) Para obtener la ecuacin de la lnea, usamos la grfica de arriba y seleccionamos cualesquiera de dos puntos sobre la lnea trazada a mano, esto es, como punto P y punto Q. Enseguida, estimamos las coordenadas de estos pares de puntos que son (1, 1) y (12, 7.5). Ahora, usando la ecuacin de los cuadrados mnimos dada por: Y = a + b(X) ecuacin (11-3) de arriba, nos da: 1.0 = a + b(0) y 7.5 = a + b(12). (b) Usando mtodos estadsticos calculamos las sumatorias: X = 78, X 2 = 650, (X)2/n = 507, Y = 1188, Y 2 = 140774, (Y)2/n = 117,612 Intercepto Y = 20.55, Pendiente = 12.07, R = 0.95.
11-14
(11-3)
Ahora, sustituyendo todos los valores de Y1 = 1, X2 = 0 y Y2 = 7.5 y X2 = 12, en la
Por lo tanto, la ecuacin de lineal de las series de tiempo para este problema es: Yc = 20.55 + 12.07(X) Para trazar una lnea recta sobre los datos, seleccionamos dos puntos, digamos X = 3 y X = 9 y resolviendo por Yc en la ecuacin lineal de las series de tiempo, da las coordenadas (3, 56.76) y (9, 129.18). Ahora, juntamos los puntos de estas dos coordenadas y trazamos la lnea como se ve en la figura de arriba, la cual muestra la demanda trimestral (Y) por un periodo de 3 aos (X). (c) Para predecir el valor de Yc cuando X = 140 los podemos hacer por interpolacin usando la Figura 11.4 o, simplemente, sustituyendo el valor de X = 140 en la ecuacin de las series de tiempo, esto es: Yc = 20.55 + 12.07(X) = 20.55 + 12.07(140) = 1,710.35 Ejemplo #3. En un estudio hipottico relacionado con los casos de SIDA, se da la tabla de abajo. Estimar la funcin ajustada de tendencia usando anlisis de tendencia con una funcin exponencial.
11-15
TABLA 11.3. Tabla mostrando los casos de SIDA de un estudio hipottico. Aos
1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Nmero hipottico de casos de SIDA

1,200 6,500 12,000 15,000 27,000 50,000 63,000 110,000 170,000 210,000 390,000 500,000 900,000 1,500,000 2,900,000 4,000,000 7,000,000 10,000,000 15,000,000 25,000,000
_____________________________________________________________________________________________
Hacer lo siguiente: (a) Derivar la ecuacin del modelo propuesto. Con este modelo predecir el nmero de casos de SIDA para el ao 2008. (El lector lo deber hacer).
No. de casos de SIDA para periodo (1981-2000)
Growth Curve Model Yt = 2097.90 * (1.60517**t) 30000000 25000000 Casos de SIDA 20000000 15000000 10000000 5000000 0 2 4 6 8 10 12 Index 14 16 18 20
Variable A ctual Fits A ccuracy Measures MA PE 2.04662E+01 MA D 2.83975E+05 MSD 4.13874E+11
Figura 11.5. Grfica mostrando la relacin de los casos de SIDA en funcin del tiempo.
11-16
Ejercicios Captulo 11. 11.1. Los datos de abajo muestran los millones de toneladas de bixido de carbono emitidos a la atmsfera durante los aos de 1950 a 1955 en cierta regin industrial. Tabla mostrando los datos del problema. (Elaboracin propia) ________________________________________________________________ Aos (X) Codificados Millones de toneladas de CO2 (Y) 1950 (50) 5 1951 (51) 8 1952 (52) 12 1953 (53) 15 1954 (54) 20 1955 (55) 23 Hacer los siguientes clculos: (a) Graficar los datos del diagrama esparcido. (b) Trazar una lnea visualmente que mejor conecte los datos y derivar la ecuacin y estimar la ecuacin por juicio individual. (c) Estimar la ecuacin de los cuadrados mnimos, es decir, usando mtodos estadsticos. (Y = 5 + 3.6 X) (d) Predecir los millones de toneladas de CO2 (el valor de Y) para el ao 2005. Sugerencia: Para resolver estos problemas usar el programa de computadora Minitab o SAS. 11.2. Este problema est relacionado con un estudio de contaminacin atmosfrica, de partculas menores que 10 micras emitidas en cierta regin industrial, durante el periodo de 1984 a 1999. Los datos de las concentraciones promedio de las partculas se muestran en la tabla de abajo. (a) Hacer una grfica con los datos (b) Usando mtodos estadsticos (no de juicio individual) estimar la ecuacin de la
11-17
lnea de las series de tiempo (Yc) y trazar una lnea recta sobre los datos grficos (c) Estimar las concentraciones promedio de partculas para el ao 2003 por medio de interpolacin y por medio de la ecuacin. Tabla mostrando los datos del problema. (Elaboracin propia) ________________________________________________________________ Aos Conc. promedio Aos Conc. promedio (ppm) (ppm) 1984 (84) 1985 (85) 1986 (86) 1987 (87) 1988 (88) 1989 (89) 1990 (90) 1991 (91) 100 110 112 115 113 116 117 117 1992 (92) 1993 (93) 1994 (94) 1995 (95) 1996 (96) 1997 (97) 1998 (98) 1999 (99) 116 117 118 120 123 125 124 125
11.3. Decir si la grfica de abajo muestra tendencia o estacionalidad. Ventas
Tiempo 11.4. Qu tipo de tendencia muestra la grfica de abajo, es decir, tendencia o

11-18
estacionalidad?
11.5. La grfica de abajo muestra, tendencia o estacionalidad?
(tendencia)
Ventas anuales (unidades)
Precio
11-19
CAPITULO 11 Series de tiempo

Clasificacin de los movimientos de las series de tiempo.- Tendencias a largo plazo.- Componentes cclicos de series de tiempo.- Variaciones estacionales.Variacin irregular.- Mtodos para encontrar lneas de tendencia.- Lnea de los cuadrados mnimos y parbolas de los cuadrados mnimos.Cualquier variable en funcin del tiempo, en sucesin, se llama series de tiempo. Las series de tiempo son una secuencia de valores de variables tomadas en periodos de tiempo sucesivos. La grfica de una serie de tiempo es un diagrama, con el eje vertical mostrando el valor observado (y) y, con el eje horizontal denotando el tiempo (minutos, das, aos, etc.). Las grficas como los histogramas o diagramas de tallo y hoja son mtodos visuales tiles para mostrar la variacin en los datos. Sin embargo, el tiempo es un factor muy importante que contribuye a la variacin observada de los datos, que los histogramas o las grficas de caja no los toman en cuenta. Las series de tiempo son un conjunto de observaciones tomadas a tiempos especficos, usualmente, a intervalos iguales en un orden cronolgico. Las series de tiempo o secuencias de tiempo se definen como datos estadsticos que son coleccionados, registrados u observados en incrementos de tiempos sucesivos. El anlisis de los datos de las series de tiempo es de inters para aqullos quienes deseen entender la naturaleza de los datos pasados y presentes. Tambin, las series de tiempo son de inters para aquellos investigadores, quienes deseen usar el conocimiento de datos pasados para predecir el futuro. Las aplicaciones de las series de tiempo son muy comunes en la economa, pero tambin en la economa o la ingeniera. Por ejemplo:
11-1
1. Los gobiernos de las naciones industrializadas quieren saber los valores futuros de las tasa de intereses monetarios. Las naciones en desarrollo quieren saber las tendencias de las tasas de devaluacin de la moneda. Tambin es deseable predecir las tasas de empleos o de desempleos. Igualmente, es importante saber los porcentajes de los incrementos de los costos de la vida. 2. Otras aplicaciones de las series de tiempo son los pronsticos de las tasas de inters para la construccin de viviendas y el costo de los materiales de construccin. 3. Tambin las compaas manufacturadoras quieren pronosticar la demanda de sus productos y sus acciones en el mercado. 4. En ingeniera ambiental, los activistas y protectores del medio ambiente quieren saber cules son las tendencias en los aumento de los gases de invernadero, como el bixido de carbono (ocasionado por la emisiones vehiculares, la industria, fuegos forestales, etc.) que estn calentando la tierra, fundiendo los glaciares montaosos y las capas polares y cambiando el clima mundial. Tambin es interesante saber las tendencias y los aumentos de la radiacin ultravioleta, que tanto dao est causando al ser humano, por la destruccin del ozono natural estratosfrico, causado por la irracionalidad del hombre moderno. 5. Las series de tiempo tambin aplican para saber las tendencias y pronsticos de los incrementos de la poblacin mundial, etc. Cuando se grafican las mediciones de series de tiempo, a menudo se observan tendencias, ciclos o variaciones importantes de los datos que, de otra manera, pasaran inadvertidos. Definicin: Matemticamente, una serie de tiempo se define por valores Y1, Y2,....... de una variable Y, como la temperatura, concentraciones de contaminantes, como CO2, SO2, partculas atmosfricas, etc., a tiempos t1, t2,.... Por lo tanto, Y es una funcin de t
11-2
simbolizada por Y = F(t). Clasificacin de los movimientos de las series de tiempo Los movimientos caractersticos de las series de tiempo pueden clasificarse en cuatro tipos llamados componentes de series de tiempo. Estos componentes de las series de tiempo se describen como sigue: 1. Tendencias a largo plazo o movimientos seculares. 2. Movimientos o fluctuaciones cclicas. 3. Variaciones estacionales o movimientos estacionales. 4. Variaciones o movimientos irregulares o aleatorios. Tendencias a largo plazo La tendencia a largo plazo o tendencia secular de una serie de tiempo es el componente uniforme de las series que representan el crecimiento o decremento de tiempos, sobre un periodo grande de tiempo. La tendencia secular se refiere a la direccin general en la cual la grfica de unas series aparecen moverse durante un intervalo de tiempo. Por ejemplo, la poblacin de los Estados Unidos durante los ltimos 40 aos ha mostrado una tendencia de crecimiento de 137 millones de personas a 246 en 1988. Las tendencias a largo plazo se ve en la Figura 11.0(a). La determinacin de las tendencias de las lneas y de las curvas se puede hacer usando el mtodo de ajustamiento de curvas. Tambin se puede hacer por medio del anlisis de los diagramas esparcidos, para encontrar la funcin matemtica que mejor encaje en los datos. Componentes cclicos de series de tiempo Los componentes cclicos se refieren a los movimientos recurrentes de arriba y abajo de las tendencias de las series de tiempo. Estas fluctuaciones de onda, llamadas ciclos de los negocios, son diferentes de las fluctuaciones estacionales. Es decir, en el
11-3
sentido de que cubren periodos largos de tiempo, tienen causas diferentes y son menos predecibles. Las fluctuaciones duran de 2 a 10 aos, o ms, cuando se miden las ondas de cresta a cresta o de canal a canal. Ejemplos de componentes ciclos son periodos de recesiones econmicas o de periodos de inflacin, demanda de productos a largo plazo, etc. Esta situacin se ve en la Figura 11.0 (b) Variaciones estacionales Este tipo de series de tiempo se refieren a variaciones peridicas, pero no estn limitadas a variaciones con la estacin del ao. Estos son patrones de periodos en las series de tiempo que se completan en un ao y, luego se repiten de acuerdo al mismo patrn de periodo en aos, subsecuentes. Por ejemplo, los precios de los mercados financieros pueden mostrar tendencias altas o bajas en un da o en una semana. En estudios ambientales, las fluctuaciones de los contaminantes muestran tendencias cclicas durante el da, como en el caso del estudio de las concentraciones de ozono troposferico. Otros ejemplos son la produccin de ciertos productos de granjas agrcolas, el nmero de vehculos que pasan por cierto punto, entre dos sitios, etc. La unidad de tiempo en variaciones estacionales es menos que un ao, pero pueden ser de un mes, una semana, o parte del da. Esta situacin se ve en la Figura 11.0(c). Variacin irregular Este es un tipo de variacin que no est considerado por tendencias, ciclos o factores estacionales, sino que se compone de fuerzas no recurrentes, espordicas que no se describen como o atribuidas a factores de tendencias, ciclos, o estacionales. Ejemplos de variaciones irregulares son movimientos espordicos de series de tiempo debido a inundaciones, granizadas, heladas, tornados, huracanes, sequas, fuegos forestales, etc.
11-4
Adems, las figuras de abajo muestran ejemplos de algunos posibles patrones de tendencia en series de tiempo. Por ejemplo, la Figura 11.1(a) muestra una tendencia no lineal. La Figura 11.1(b) muestra una tendencia lineal que disminuye. La Figura 11.1(c) muestra una grfica sin tendencia.
Figura 11.0. Grficas mostrando los tipos de tendencias. La grfica (a) muestra una tendencia de lnea a largo plazo o de movimiento secular. La grfica (b) muestra una lnea de tendencia a largo plazo con un movimiento cclico sobrepuesto. La grfica (c) muestra tendencias cclicas a largo plazo y movimientos estacionales. (Spiegel, 1961).
Figura 11.1. Ejemplos de algunos patrones de tendencias en series de tiempo. Aplicaciones de las funciones de series de tiempo Las aplicaciones en ingeniera de las tendencias a largo plazo o tendencias seculares son varias. Ejemplos de estas aplicaciones son los incrementos de la contaminacin ambiental. Un ejemplo clsico es el aumento constante de las concentraciones de bixido de carbono, gas metano, vapor de agua, etc., a nivel mundial, que han estado ocurriendo desde el inicio de la era industrial hasta al presente. Esto, como es bien
11-5
sabido, est corrompiendo el clima de nuestro planeta, al estarse calentando la tierra y las aguas marinas. Otros ejemplos, a los cuales se les pueden aplicar las series de tiempo, son los incrementos en la radiacin ultravioleta (en sus formas de UV-A y UV-B), que estn causando cncer en la piel (en sus tres formas, melanoma, basal y escamoso) y daos en la visin y alteraciones en la estructura del DNA. Otras aplicaciones de las series de tiempo estn relacionadas con los crecimientos poblacionales o demogrficos. Otros ms estn relacionados con la produccin industrial, la produccin de energa, la economa, etc. Tipos de funciones matemticas para lneas de tendencia Las ecuaciones o funciones matemticas ms comunes para aproximar los datos grficos de lneas de tendencia de un diagrama esparcido se dan el la tabla de abajo. Aqu, las letras a, b y c representan valores constantes y, las letras X e Y, representan las variables independientes y dependientes, respectivamente.
11-6
TABLA 11.0. Tabla mostrando los tipos de funciones matemticas ms comunes usadas para lneas de tendencia. (Elaboracin propia) Funcin matemtica (1) y = a + bx (2) y = f(x) = ax2 + bx + c (3) y = ax3 + bx2 + cx + d (4) y = ax4 + bx3 + cx2 + dx + e (5) y = a + bx + cx2 + ... + an xn (6) y = abx o Log y = Log a + (Log b) x (7) y = axb o Log y = Log a + b Log x (8) y = 1/a + bx o 1/y = a + bx (9) y = pqbx o Log y = Log p + bx Log q (10) y = abx + g (11) y = axb + g (12) y = Ln x (13) y = a (a b) exp(-(c)|x|)d (14) y = a (a b)/(1 + (c|x|)d (15) y = a(1 + (b 1) exp(-c(x d))1/(1 - b) Descripcin Lnea recta Curva cuadrtica o parablica Curva cbica Curva curtica Polinomial generalizado Curva exponencial Curva geomtrica Funcin hiprbola Curva de Gompertz Curva exponencial modificada Curva geomtrica modificada Funcin logartmica Funcin de Weibull Funcin de Morgan-Mercer-Floding Funcin de Richards
Para decidir, cul funcin matemtica es la ms apropiada, para ajustar los datos se puede hacer viendo un diagrama esparcido de la grfica de los datos. Por ejemplo, si el diagrama esparcido en papel semilogaritmo de Log (y) vs. x muestra una relacin lineal, la ecuacin tiene la forma de la curva exponencial (6). Si se usa el papel logaritmo completo, Log y-Log x, y los datos muestran una relacin lineal, la ecuacin tiene la forma de una curva geomtrica (7). De cualquier manera, los programas de computadora, como el SAS, Minitab, NCSS, etc., son las mejores herramientas para encontrar la funcin que mejor ajuste los datos. Mtodos para encontrar lneas de tendencia 1. El mtodo a mano libre o visual.
11-7
2. El mtodo de los cuadrados mnimos. 3. El mtodo de semipromedios. 4. El mtodo de promedios en movimiento. 1. El mtodo a mano libre consiste en ajustar la tendencia de una lnea o curva, examinando la grfica visualmente. Sin embargo, este mtodo subjetivo depende mucho del juicio individual. 2. El mtodo de los cuadrados mnimos puede usarse para encontrar la ecuacin de la tendencia de la curva. Hay muchos programas de computadora que ayudan a esto. 3. El mtodo del promedio del movimiento. Usando los rdenes apropiados del movimiento de promedios, los patrones cclicos, estacionales o irregulares pueden ser eliminados dejando, solamente, la tendencia del movimiento. 4. Mtodo de semipromedios. Este mtodo consiste en separar los datos en dos partes (preferentemente iguales) promediando los datos en cada parte, obteniendo dos puntos en la grfica de las series de tiempo. Enseguida, una lnea de tendencia se dibuja obteniendo dos puntos en la grfica de las series de tiempo. Este mtodo es simple, pero puede dar resultados pobres. Este mtodo es aplicable, solamente, cuando la tendencia es lineal o aproximadamente lineal. Mtodo a mano libre para el ajustamiento de curvas Este es el mtodo ms simple para las series de tiempo. Consiste en graficar las series de tiempo y, por medio de observacin visual, trazar una lnea recta sobre los puntos. Una vez hecho esto, se estima la ecuacin de la lnea recta para despus calcular cualquier valor de Yc sustituyendo el valor de X. Mtodo de los cuadrados mnimos Este mtodo es el ms usado y preciso para encontrar la ecuacin de una serie de tiempo. Considrese la Figura 11.2 de abajo.
11-8
Figura 11.2. Grfica mostrando el mtodo de los cuadrados mnimos. Fuente: Spiegel (1961). Los puntos de los datos se dan por (X1, Y1), (X2, Y2), ..., (Xn, Yn). Para un valor dado de X, digamos, X1, habr una diferencia entre el valor Y1 y el valor correspondiente como se determin de la curva C. Como se ve en la grfica, denotamos esta diferencia por D1, la cual, en algunas ocasiones se refiere como la desviacin, error o residual y puede ser positivo, negativo o cero. Similarmente, correspondiendo a los valores de X1, X2,.. Xn, obtenemos las desviaciones D2, D3, ..., Dn. La medicin de bondad de ajuste se da por la relacin D21 + D22 + ... + D2n. De esta manera, si la suma de estos cuadrados D21, D22, D23, etc., es pequea, el ajuste es bueno. Pero, si la suma es grande, el ajuste es malo, lo cual quiere decir que, el error o residual ser grande, indicando mucha variacin entre los datos (Spiegel, 1961). Definicin. De todas las curvas que aproximan un grupo de datos en el sentido de los cuadrados mnimos, la curva que tiene la propiedad de: D21 + D22 +... + D2n es un mnimo y se llama la curva que mejor ajusta los datos. Una curva que tenga esta propiedad se dice que ajusta los datos en el sentido del mejor cuadrado mnimo y se llama la curva de los cuadrados mnimos. Por lo tanto, una lnea que tenga esta propiedad se llama la lnea de los cuadrados mnimos, parbola de los cuadrados mnimos, etc.
11-9
Lnea de los cuadrados mnimos y parbolas de los cuadrados mnimos La lnea de los cuadrados mnimos, que aproxima el conjunto de puntos (X1, Y1), (X2, Y2), ... (Xn, Yn), ya se discuti en el Captulo 8, donde se habl de regresin y correlacin simple y mltiple. En ese captulo se describieron modelos de regresin de una lnea recta. Anlogamente, en el Captulo 9, se describieron modelos polinomiales, con una o ms de dos variables independientes. Tambin, en ese captulo se describieron modelos cbicos. Siendo as, entonces, no se repetirn los mecanismos usados para ajustar los datos a los modelos ms apropiados. Ejemplos usando las series de tiempo Ejemplo #1. Se dan los datos de las siguientes concentraciones de bixido de carbono (CO2) (Y) en funcin del tiempo (X) en la tabla de abajo. TABLA 11.1. Tabla mostrando los datos de CO2 en funcin del tiempo. (Elaboracin propia) Conc. de CO2 (Y) | 1 2 4 4 5 7 8 9 10 11.5 (Millones de toneladas) Tiempo (X) | 1900 1920 1930 1940 1950 1960 1970 1980 1990 2000 (Aos codificados) | 1 3 4 6 8 9 11 14 15 16
Hacer los siguientes clculos: (a) Trazar a mano en la grfica obtenida los datos y una lnea recta. (b) Encontrar la ecuacin de esta lnea. (c) Usando estadstica encontrar la lnea ajustada de los cuadrados mnimos y comparar los valores de la pendiente y del intercepto Y encontrados en el inciso (b). (d) Trazar en la grfica la lnea de la ecuacin encontrada (a). (e) Usando las ecuaciones encontradas en los incisos (b) y (c), estimar las concentraciones de CO2 para el ao 2010. Solucin:
11-10
(a) Graficamos los puntos (1,1), (2,3), (4,4), (6,4), (8,5), (9,7), (11,8), (14,9) en un sistema de coordenadas rectangulares como se muestra en la Figura 11.3 de abajo.
Grfica mostrando las concentraciones de bixido de carbono vs. tiempo
12 10 Conc. de CO2 (Y) 8 6 4 2 0 0 2 4 6 8 10 Tiempo (X) 12 14 16
Figura 11.3. Grfica mostrando las concentraciones de CO2 en funcin del tiempo. (Elaboracin propia) (b) Para obtener la ecuacin de la lnea, usamos la grfica de arriba y seleccionamos cualesquiera de dos puntos sobre la lnea trazada a mano, esto es, como punto P y punto Q. Enseguida, estimamos las coordenadas de estos dos pares puntos que son (1, 1) y (12, 7.5). Ahora usando la ecuacin de los cuadrados mnimos dada por la funcin Y = a + b(X) y sustituyendo los valores de Y1 = 1, X1 = 0, Y2 = 7.5 y X2 = 12 nos da: 1.0 = a + b(0) 7.5 = a + b(12) Resolviendo da a = 1. 7.5 = 1 + b (12) y b = .542. Por lo tanto, la ecuacin es: Yc = 1 + .542(X) Otra forma de hacer lo mismo es con la ecuacin de la forma del punto de la pendiente de una lnea, Y = Y1 = m(X X1), donde m = (Y2 Y1)/(X2 X1), para dar: Y Y1 = (Y2 Y1)/(X2 X1) (X X1)
11-11
(11-1)
Ahora sustituyendo los valores en (11-1) da: Y 1 = (7.5 1)/(12 0) (X 0), Y 1 = .542 X, esto es Yc = 1 + .542 (X) (c) Para encontrar la ecuacin de la lnea recta usamos mtodos estadsticos, es decir, usando las ecuaciones que estiman el intercepto en Y y la pendiente de la lnea (Ver captulo de regresin). ( Y)( X 2) ( X)( XY) a = n X 2 ( X)2 n XY (X)(Y) b = n X 2 (X)2 (11-2)
(11-3)
Para esto, podemos usar una calculadora de bolsillo o un programa de computadora y estimamos las siguientes sumatorias: X = 56, Y = 40, X 2 = 524, Y 2 = 256, (Y)2 = 1600, XY = 364, XY = 2240, (X)2 = 3136, n = 8. Ahora, sustituyendo todos estos valores en las ecuaciones (11-2) y (11-3), para a y b dan los siguientes resultados: (40)(524) (56)(364) Intercepto en Y = a = = .545 (8)(524) (56)2
11-12
(8)(364) (56)(40) Pendiente = b = = .636 (8)(524) (56)2 Por lo tanto, la ecuacin de los cuadrados mnimos es: Yc = .545 + .636(X) Aqu, se puede ver que esta ecuacin es ms precisa, que la obtenida por medio del juicio individual. Ahora, para trazar la lnea en la grfica correspondiente a la ecuacin de arriba, ponemos Y = 0 y resolvemos por X para dar X = -0.857. Enseguida, ponemos X = 0 y resolvemos por Y para dar Y = 0.545. Enseguida, usando estos dos pares de coordenadas, es decir, (0.857, 0) y (0, 0.545) podemos trazar en la grfica una lnea ms precisa que aqulla hecha a mano. (e) Usando las ecuaciones Y = 1 + .542(X) e Y = .545 + .636(X), cuando X = 17 (ao 2010), nos da, respectivamente, Y = 10.21 y 11.36, este ltimo valor siendo ms preciso que el anterior. Ejemplo #2. Una compaa de programas de computadora reporta la demanda para un determinado paquete de computadora, sobre un periodo de tres aos. Los datos se dan en la tabla de abajo: TABLA 11.2. Tabla mostrando los datos del problema. (Elaboracin propia) Demanda trimestral (Y) | 37 22 62 80 77 95 94 131 148 155 126 161 Periodos de tiempo (X) | 1 Hacer los siguientes clculos: (a) Visualmente ajustar una lnea recta a los datos de la grfica. (b) Usando mtodos estadsticos estimar la ecuacin lineal de las series de tiempo, es
11-13
10 11
12
decir, Yc = a + b(X) Ntese que tambin se puede usar Y en lugar de Yc). (c) Trazar una lnea recta usando el par de coordenadas derivados de esta ecuacin. (d) Comparar la lnea hecha a mano con la lnea obtenida en (c). (e) Predecir el valor de Yc cuando X = 140 Solucin: (a) La grfica de abajo muestra el diagrama esparcido de los datos.
Grfica mostrando la demanda trimestral vs. periodos de tiempo
180 160 Demanda trimestral (Y) 140 120 100 80 60 40 20 0 2 4 6 8 Periodos de tiempo (X) 10 12
Figura 11.4. Grfica mostrando los datos del ejemplo de arriba. (Elaboracin propia) (a) Para obtener la ecuacin de la lnea, usamos la grfica de arriba y seleccionamos cualesquiera de dos puntos sobre la lnea trazada a mano, esto es, como punto P y punto Q. Enseguida, estimamos las coordenadas de estos pares de puntos que son (1, 1) y (12, 7.5). Ahora, usando la ecuacin de los cuadrados mnimos dada por: Y = a + b(X) ecuacin (11-3) de arriba, nos da: 1.0 = a + b(0) y 7.5 = a + b(12). (b) Usando mtodos estadsticos calculamos las sumatorias: X = 78, X 2 = 650, (X)2/n = 507, Y = 1188, Y 2 = 140774, (Y)2/n = 117,612 Intercepto Y = 20.55, Pendiente = 12.07, R = 0.95.
11-14
(11-3)
Ahora, sustituyendo todos los valores de Y1 = 1, X2 = 0 y Y2 = 7.5 y X2 = 12, en la
Por lo tanto, la ecuacin de lineal de las series de tiempo para este problema es: Yc = 20.55 + 12.07(X) Para trazar una lnea recta sobre los datos, seleccionamos dos puntos, digamos X = 3 y X = 9 y resolviendo por Yc en la ecuacin lineal de las series de tiempo, da las coordenadas (3, 56.76) y (9, 129.18). Ahora, juntamos los puntos de estas dos coordenadas y trazamos la lnea como se ve en la figura de arriba, la cual muestra la demanda trimestral (Y) por un periodo de 3 aos (X). (c) Para predecir el valor de Yc cuando X = 140 los podemos hacer por interpolacin usando la Figura 11.4 o, simplemente, sustituyendo el valor de X = 140 en la ecuacin de las series de tiempo, esto es: Yc = 20.55 + 12.07(X) = 20.55 + 12.07(140) = 1,710.35 Ejemplo #3. En un estudio hipottico relacionado con los casos de SIDA, se da la tabla de abajo. Estimar la funcin ajustada de tendencia usando anlisis de tendencia con una funcin exponencial.
11-15
TABLA 11.3. Tabla mostrando los casos de SIDA de un estudio hipottico. Aos
1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Nmero hipottico de casos de SIDA

1,200 6,500 12,000 15,000 27,000 50,000 63,000 110,000 170,000 210,000 390,000 500,000 900,000 1,500,000 2,900,000 4,000,000 7,000,000 10,000,000 15,000,000 25,000,000
_____________________________________________________________________________________________
Hacer lo siguiente: (a) Derivar la ecuacin del modelo propuesto. Con este modelo predecir el nmero de casos de SIDA para el ao 2008. (El lector lo deber hacer).
No. de casos de SIDA para periodo (1981-2000)
Growth Curve Model Yt = 2097.90 * (1.60517**t) 30000000 25000000 Casos de SIDA 20000000 15000000 10000000 5000000 0 2 4 6 8 10 12 Index 14 16 18 20
Variable A ctual Fits A ccuracy Measures MA PE 2.04662E+01 MA D 2.83975E+05 MSD 4.13874E+11
Figura 11.5. Grfica mostrando la relacin de los casos de SIDA en funcin del tiempo.
11-16
Ejercicios Captulo 11. 11.1. Los datos de abajo muestran los millones de toneladas de bixido de carbono emitidos a la atmsfera durante los aos de 1950 a 1955 en cierta regin industrial. Tabla mostrando los datos del problema. (Elaboracin propia) ________________________________________________________________ Aos (X) Codificados Millones de toneladas de CO2 (Y) 1950 (50) 5 1951 (51) 8 1952 (52) 12 1953 (53) 15 1954 (54) 20 1955 (55) 23 Hacer los siguientes clculos: (a) Graficar los datos del diagrama esparcido. (b) Trazar una lnea visualmente que mejor conecte los datos y derivar la ecuacin y estimar la ecuacin por juicio individual. (c) Estimar la ecuacin de los cuadrados mnimos, es decir, usando mtodos estadsticos. (Y = 5 + 3.6 X) (d) Predecir los millones de toneladas de CO2 (el valor de Y) para el ao 2005. Sugerencia: Para resolver estos problemas usar el programa de computadora Minitab o SAS. 11.2. Este problema est relacionado con un estudio de contaminacin atmosfrica, de partculas menores que 10 micras emitidas en cierta regin industrial, durante el periodo de 1984 a 1999. Los datos de las concentraciones promedio de las partculas se muestran en la tabla de abajo. (a) Hacer una grfica con los datos (b) Usando mtodos estadsticos (no de juicio individual) estimar la ecuacin de la
11-17
lnea de las series de tiempo (Yc) y trazar una lnea recta sobre los datos grficos (c) Estimar las concentraciones promedio de partculas para el ao 2003 por medio de interpolacin y por medio de la ecuacin. Tabla mostrando los datos del problema. (Elaboracin propia) ________________________________________________________________ Aos Conc. promedio Aos Conc. promedio (ppm) (ppm) 1984 (84) 1985 (85) 1986 (86) 1987 (87) 1988 (88) 1989 (89) 1990 (90) 1991 (91) 100 110 112 115 113 116 117 117 1992 (92) 1993 (93) 1994 (94) 1995 (95) 1996 (96) 1997 (97) 1998 (98) 1999 (99) 116 117 118 120 123 125 124 125
11.3. Decir si la grfica de abajo muestra tendencia o estacionalidad. Ventas
Tiempo 11.4. Qu tipo de tendencia muestra la grfica de abajo, es decir, tendencia o

11-18
estacionalidad?
11.5. La grfica de abajo muestra, tendencia o estacionalidad?
(tendencia)
Ventas anuales (unidades)
Precio
11-19
CAPITULO 12 Seleccin del tamao de la muestra

Derivacin de la frmula para estimar el tamao ms apropiado de la muestra para el promedio.- Seleccin del tamao de la muestra para dos poblaciones.En estudios de diseos experimentales estadsticos es necesario estimar el tamao de la muestra ms apropiado para la estimacin de promedios, proporciones, etc. La seleccin ms apropiada del tamao de la muestra es importante, porque no queremos sacar un tamao de muestra excesivamente grande, que va a ser muy costoso. Por la misma razn, tampoco queremos sacar un tamao de muestra pequeo, que nos incline a aceptar hiptesis nulas, es decir, de cometer el error II. De esta manera, el tamao apropiado de la muestra es importante, porque tamaos de muestras innecesariamente grandes son costosos y desperdician dinero y tiempo y, tambin, porque tamaos de muestras pequeos dan resultados pobres. Existen varias funciones estadsticas para determinar el tamao ms apropiado de la muestra estadstica, es decir, para estimar el promedio poblacional , la varianza 2, la desviacin estndar , la proporcin , etc. Para estimar estos parmetros usamos la distribucin normal, pero es necesario saber si la poblacin muestreada es normal o aproximadamente normal. Esto se hace para las pruebas de hiptesis usando los niveles de significancia de 0.05 y 0.01, que dan los coeficientes crticos de 1.96 y 2.58, es decir, correspondientes a los niveles de confianza de 95% y 99%. En situaciones donde puede controlarse el tamao de la muestra es posible elegir un tamao de muestra n, de modo que se tenga una confianza del 100(1 )
12-1
por ciento de que el error, al estimar, digamos , sea menor que el error especificado E, esto es, lo que queremos arriesgar. En la determinacin del tamao de la muestra en un experimento estadstico tenemos que saber dos cosas: 1. Qu tan cerca deseamos que nuestra estimacin est del verdadero valor del parmetro poblacional. 2. Qu tanta certeza deseamos que nuestra estimacin est dentro del nmero de unidades seleccionadas del valor del parmetro. Derivacin de la frmula para estimar el tamao ms apropiado de la muestra para el promedio Para derivar la frmula para estimar el tamao ptimo de la muestra, usamos la distribucin de la estadstica del promedio X . Por ejemplo, sabemos qu, de la distribucin del promedio X mostrada abajo, el intervalo 2X contiene, aproximadamente, el 95% de los valores de la estadstica del promedio X .
Figura 12.0. Grfica mostrando la distribucin de la estadstica del promedio. (Elaboracin propia) Acordemente, si deseamos estar, a no ms de E unidades de con nuestro
12-2
estimador estadstico del promedio X , entonces, dejamos que E = 2X esto es, E = 2 / n Ahora, resolviendo por n da: n = 42 / E2 (12-2) Esta funcin (12-2) tiene un coeficiente de confianza de (1 ) = 0.9544. Si queremos un coeficiente de confianza de (1 ), entonces, se deja que: z/2 X = E Que resulta en la frmula: n = z/2 2/E2 = (z/2 /E)2 Donde: z/2 = valor de la distribucin normal estndar de tal manera que, P(Z z/2) = /2. Aqu, usualmente, los valores crticos de z/2 son de 1.97 y 2.58, = desviacin estndar poblacional. E = error mximo de la estimacin De acuerdo a la ecuacin anterior, el error E es dado por: E = z/2(n) (12-6) Para poder usar la frmula (12-4) necesitamos conocer (1 ), E y . Si el tamao de la muestra es n 30 casos o si la poblacin muestreada es normal, entonces, se puede aproximar a s. Definicin: Si el promedio X se usa como estimacin de , entonces, puede tenerse una confianza del 100(1 ) por ciento de que el error | X | no ser mayor que una cantidad especfica E cuando el tamao de la muestra sea n = (z/2 / E)2. Esta funcin puede ser usada para determinar el tamao de
12-3
(12-1)
o bien
z/2 /n = E
(12-3) (12-4) (12-5)
muestra necesario, para producir buenos resultados a un grado de confianza deseado y margen de error. No obstante, esta frmula requiere de los valores de o de 2. Estos valores se pueden conocer de estudios previos o pueden ser razonablemente, estimados de estudios anteriores o estudios pilotos. Ejemplos ilustrando la determinacin del tamao de muestra ms apropiado para el promedio X Ejemplo #1. Un consultor estadstico intenta usar el promedio de una muestra aleatoria de tamao n = 150, para estimar la aptitud mecnica promedio (promedio mediante cierta prueba) de obreros de la lnea de montaje de una industria. Si con base en la experiencia, el estadstico puede suponer que = 6.2, entonces, para estos datos, qu puede afirmar este consultor, con probabilidad de 0.99, acerca de la dimensin mxima del error E? Solucin: Para estimar E usamos n = 150, = 6.2, z/2 = z0.01/2 = 2.575. Usando la frmula (12-5) y sustituyendo da: E = z/2 (/n) = 2.575(6.2/150) = 1.30 Con este resultado, el estadstico puede afirmar, con un nivel de confianza de 99% (o con una probabilidad de 0.99), que su error ser cuando ms de 1.30. Ejemplo #2. Refirindose al problema anterior, supongamos ahora que el consultor estadstico desea un nivel de confianza del 95%, siendo as, cul sera la magnitud del error, E? Solucin: Usando, nuevamente, la frmula (12-6), con z/2 = z0.05/2 = z.025 = 1.96
12-4
E = 1.96(6.2/150) = 0.992 Aqu, ntese que debido a que queremos menos precisin (usando el nivel de confianza de 95%) el error es ms pequeo que si usamos el nivel de confianza de 99%. Tambin es de notarse que, a medida que el tamao de n se hace ms grande, el error E disminuye. Ejemplo #3. En un estudio de qumica, en un artculo publicado en el Journal of Heat Transfer, se describe un nuevo mtodo para medir la conductividad trmica del hierro Armco. Supngase que se desea que el error promedio en la conductividad trmica del hierro Armco sea menor que 0.05 Btu/hr-ft-oF, con un nivel de confianza del 95%. Entonces, si de estudios previos se sabe que la desviacin estndar es de = 0.10, estimar el tamao de muestra requerido. Solucin: Aqu, z/2 = z0.05/2 = z0.025 = 1.96, = 0.10, E 0.05. Usando la ecuacin (12-4): n = (z/2 / E)2 y sustituyendo estos valores nos da: n = [(1.96)(0.10) / 0.05)]2 = 15.37 16 Nota 1. Siempre queremos redondear el tamao de la muestra de manera que, el nmero requerido en la muestra sea cuando menos adecuado, en lugar de un poco adecuado. Esto es un convencionalismo. Ejemplo #4. En un estudio de recoleccin de basura desechada por el sector domstico, es decir, del salvamento de basura reciclable, queremos estimar el promedio del plstico desechado por las casas. Qu tamao de muestra de casas debe ser seleccionado, aleatoriamente, si queremos estar seguros, en 99%, que el promedio muestral est dentro de 0.250 kilogramos del verdadero promedio poblacional ? Asumir que estudios pilotos dan una desviacin estndar conocida
12-5
de = 1.100 kilogramos. Solucin: Queremos un tamao de muestra n, dado que = 0.01 (99% de nivel de confianza) de manera que, z/2 = z0.01/2 = 2.575 (valor constante de la tabla de la distribucin normal con 99% nivel de confianza). Adems, E = 0.250, = 1.100. As, usando la frmula (12-5) nos da: n = (z/2 / E)2 = [(2.575)(1.100) / (0.250)]2 = 128.37 129 En conclusin, debemos de obtener una muestra, de cuando menos 129 casas domsticas seleccionadas aleatoriamente (que estn descartando el plstico). Con semejante muestra, estaremos confiados en un 99% de que el promedio muestral
X estar dentro de 0.250 kilos de .
Ejemplo #5. Refirindose al ejemplo anterior, si quisiramos tener resultados menos precisos usando un margen de error de 0.500 kilos, calcular el tamao de la muestra n asumiendo las mismas condiciones anteriores. Solucin: Usando la frmula (12-4) obtenemos: n = [(2.575)(1.100) / (0.500)]2 = 32.09 33 Se observan los siguientes puntos en la relacin general entre el tamao de la muestra, la longitud deseada del intervalo 2E, el nivel de confianza 100(1 ) por ciento y :
12-6
1. Conforme disminuye la longitud del intervalo 2E, el tamao requerido de la muestra n aumenta para un valor fijo de y para el nivel de confianza especificado. 2. A medida que aumenta, el tamao requerido de la muestra n aumenta, para una longitud deseada 2E fija y un nivel de confianza especificado. 3. Conforme aumenta el nivel de confianza, el tamao requerido de la muestra n aumenta para una longitud fija deseada 2E y una desviacin estndar . Seleccin del tamao de la muestra para dos poblaciones Tambin se puede seleccionar el tamao de la muestra, ms apropiado, para la diferencia de dos promedios. Por ejemplo, si se conocen las desviaciones estndar de las muestras uno y dos, es decir, 1 y 2, y los tamaos de las dos muestras son iguales, es decir, n1 = n2 = n, entonces, puede determinarse el tamao ms apropiado de la muestra. Esto se hace de modo que se tenga una confianza de 100(1 ) por ciento en que el error E en la estimacin de la diferencia de 1 2, por los promedios de las muestras X 1 X 2 sea menor que E. La ecuacin usada para calcular el tamao de la muestra ms apropiado para la diferencia de dos poblaciones es: n = (z/2 / E)2 (21 + 22) (12-7) Nota 1. Recurdese que es necesario redondear n, si este valor no es un entero. Con esto, se asegura que el nivel de confianza no sea menor que 100(1 ) por ciento. Ejemplo #6. Se prueban dos frmulas diferentes de gasolina oxigenada para reducir las emisiones de monxido de carbono (CO) emitidas por los motores de combustin interna. Se sabe de antemano que la varianza para la primera frmula es de 21 = 1.5, mientras que la varianza para la segunda frmula es de 22 = 1.2. Qu tamao de muestra debe usarse para cada poblacin muestreada, si se desea
12-7
tener una confianza del 95% de que el error, al estimar la diferencia entre los promedios de las dos frmulas diferentes, sea menor que 1? Solucin: Aqu, usamos la frmula (12-7) para calcular el tamao de la muestra de dos poblaciones, es decir, n = (z/2 / E)2 (21 + 22) Donde: z/2 = z0.05/2 = z.025 = 1.97, E = 1, 21 = 1.5, 22 = 1.2 Sustituyendo estos valores en la frmula de arriba da: n = (1.95 / 1)2 (1.5 + 1.2) = 10.27 11 Por lo tanto, el tamao de la muestra para las poblaciones 1 y 2 es: n = n1 = n2 = 11
12-8
Ejercicios Captulo 12 12.1. Se sabe que la duracin, en horas, de un foco de 75 watts tiene una distribucin, aproximadamente normal, con una desviacin estndar de 25 horas. Supngase que se desea una confianza del 95% en que el error en la estimacin de la duracin promedio sea menor que 5 horas. Qu tamao de muestra debe usarse? de 99% y un error E = 1 y comparar los resultados. 12.3. Un ingeniero automotriz desea determinar el tiempo promedio que tardara un mecnico en girar las llantas de un auto. Este ingeniero quiere estimar, con una confianza de 95%, que el promedio de su muestra es imprecisa en cuando ms 0.50 minutos. Si sabe de estudios pilotos anteriores que la desviacin estndar es de = 1.6 minutos, qu tan grande deber ser la muestra que debe de seleccionar, aleatoriamente? Sugerencia: Usar la frmula n = (z/2 /E)2 (39.3 40 mecnicos) 12.4. El director de cierta universidad desea usar el promedio de una muestra aleatoria para estimar el monto promedio de tiempo que se les lleva a los estudiantes para ir de un saln a otro y tomar sus clases sin llegar tarde. Para esto desea afirmar con 99% de confianza que el error es cuando ms de 0.25 minutos. Experiencias anteriores estiman una desviacin estndar de = 1.40 minutos. Siendo as, qu tan grande deber ser la muestra que se deba tomar? 12.5. La Environmental Protection Agency (EPA) de los Estados Unidos desea conducir una prueba de millaje de cierto modelo de un auto importado. El ingeniero estadstico de la EPA desea estimar el promedio , de millas por galn de combustible usado por este modelo, con 95% de nivel de confianza. Asumiendo
12-9
( 97)
12.2. Hacer el mismo problema que el anterior, pero ahora usando una confianza
que = 2.5 millas por galn, qu tamao de muestra (nmero de autos de este modelo) deber tomar para conducir esta prueba? (n = 25) 12.6. Considerar el ejemplo 12.1 de la gasolina oxigenada, para la estimacin del tamao de las muestras para las poblaciones uno y dos. Siendo as, estimar los tamaos de las muestras apropiados, si queremos una confianza de 99% y el error de la estimacin de las diferencias entre los promedios sea menor que 4.
12-10
CAPITULO 12 Seleccin del tamao de la muestra

Derivacin de la frmula para estimar el tamao ms apropiado de la muestra para el promedio.- Seleccin del tamao de la muestra para dos poblaciones.En estudios de diseos experimentales estadsticos es necesario estimar el tamao de la muestra ms apropiado para la estimacin de promedios, proporciones, etc. La seleccin ms apropiada del tamao de la muestra es importante, porque no queremos sacar un tamao de muestra excesivamente grande, que va a ser muy costoso. Por la misma razn, tampoco queremos sacar un tamao de muestra pequeo, que nos incline a aceptar hiptesis nulas, es decir, de cometer el error II. De esta manera, el tamao apropiado de la muestra es importante, porque tamaos de muestras innecesariamente grandes son costosos y desperdician dinero y tiempo y, tambin, porque tamaos de muestras pequeos dan resultados pobres. Existen varias funciones estadsticas para determinar el tamao ms apropiado de la muestra estadstica, es decir, para estimar el promedio poblacional , la varianza 2, la desviacin estndar , la proporcin , etc. Para estimar estos parmetros usamos la distribucin normal, pero es necesario saber si la poblacin muestreada es normal o aproximadamente normal. Esto se hace para las pruebas de hiptesis usando los niveles de significancia de 0.05 y 0.01, que dan los coeficientes crticos de 1.96 y 2.58, es decir, correspondientes a los niveles de confianza de 95% y 99%. En situaciones donde puede controlarse el tamao de la muestra es posible elegir un tamao de muestra n, de modo que se tenga una confianza del 100(1 )
12-1
por ciento de que el error, al estimar, digamos , sea menor que el error especificado E, esto es, lo que queremos arriesgar. En la determinacin del tamao de la muestra en un experimento estadstico tenemos que saber dos cosas: 1. Qu tan cerca deseamos que nuestra estimacin est del verdadero valor del parmetro poblacional. 2. Qu tanta certeza deseamos que nuestra estimacin est dentro del nmero de unidades seleccionadas del valor del parmetro. Derivacin de la frmula para estimar el tamao ms apropiado de la muestra para el promedio Para derivar la frmula para estimar el tamao ptimo de la muestra, usamos la distribucin de la estadstica del promedio X . Por ejemplo, sabemos qu, de la distribucin del promedio X mostrada abajo, el intervalo 2X contiene, aproximadamente, el 95% de los valores de la estadstica del promedio X .
Figura 12.0. Grfica mostrando la distribucin de la estadstica del promedio. (Elaboracin propia) Acordemente, si deseamos estar, a no ms de E unidades de con nuestro
12-2
estimador estadstico del promedio X , entonces, dejamos que E = 2X esto es, E = 2 / n Ahora, resolviendo por n da: n = 42 / E2 (12-2) Esta funcin (12-2) tiene un coeficiente de confianza de (1 ) = 0.9544. Si queremos un coeficiente de confianza de (1 ), entonces, se deja que: z/2 X = E Que resulta en la frmula: n = z/2 2/E2 = (z/2 /E)2 Donde: z/2 = valor de la distribucin normal estndar de tal manera que, P(Z z/2) = /2. Aqu, usualmente, los valores crticos de z/2 son de 1.97 y 2.58, = desviacin estndar poblacional. E = error mximo de la estimacin De acuerdo a la ecuacin anterior, el error E es dado por: E = z/2(n) (12-6) Para poder usar la frmula (12-4) necesitamos conocer (1 ), E y . Si el tamao de la muestra es n 30 casos o si la poblacin muestreada es normal, entonces, se puede aproximar a s. Definicin: Si el promedio X se usa como estimacin de , entonces, puede tenerse una confianza del 100(1 ) por ciento de que el error | X | no ser mayor que una cantidad especfica E cuando el tamao de la muestra sea n = (z/2 / E)2. Esta funcin puede ser usada para determinar el tamao de
12-3
(12-1)
o bien
z/2 /n = E
(12-3) (12-4) (12-5)
muestra necesario, para producir buenos resultados a un grado de confianza deseado y margen de error. No obstante, esta frmula requiere de los valores de o de 2. Estos valores se pueden conocer de estudios previos o pueden ser razonablemente, estimados de estudios anteriores o estudios pilotos. Ejemplos ilustrando la determinacin del tamao de muestra ms apropiado para el promedio X Ejemplo #1. Un consultor estadstico intenta usar el promedio de una muestra aleatoria de tamao n = 150, para estimar la aptitud mecnica promedio (promedio mediante cierta prueba) de obreros de la lnea de montaje de una industria. Si con base en la experiencia, el estadstico puede suponer que = 6.2, entonces, para estos datos, qu puede afirmar este consultor, con probabilidad de 0.99, acerca de la dimensin mxima del error E? Solucin: Para estimar E usamos n = 150, = 6.2, z/2 = z0.01/2 = 2.575. Usando la frmula (12-5) y sustituyendo da: E = z/2 (/n) = 2.575(6.2/150) = 1.30 Con este resultado, el estadstico puede afirmar, con un nivel de confianza de 99% (o con una probabilidad de 0.99), que su error ser cuando ms de 1.30. Ejemplo #2. Refirindose al problema anterior, supongamos ahora que el consultor estadstico desea un nivel de confianza del 95%, siendo as, cul sera la magnitud del error, E? Solucin: Usando, nuevamente, la frmula (12-6), con z/2 = z0.05/2 = z.025 = 1.96
12-4
E = 1.96(6.2/150) = 0.992 Aqu, ntese que debido a que queremos menos precisin (usando el nivel de confianza de 95%) el error es ms pequeo que si usamos el nivel de confianza de 99%. Tambin es de notarse que, a medida que el tamao de n se hace ms grande, el error E disminuye. Ejemplo #3. En un estudio de qumica, en un artculo publicado en el Journal of Heat Transfer, se describe un nuevo mtodo para medir la conductividad trmica del hierro Armco. Supngase que se desea que el error promedio en la conductividad trmica del hierro Armco sea menor que 0.05 Btu/hr-ft-oF, con un nivel de confianza del 95%. Entonces, si de estudios previos se sabe que la desviacin estndar es de = 0.10, estimar el tamao de muestra requerido. Solucin: Aqu, z/2 = z0.05/2 = z0.025 = 1.96, = 0.10, E 0.05. Usando la ecuacin (12-4): n = (z/2 / E)2 y sustituyendo estos valores nos da: n = [(1.96)(0.10) / 0.05)]2 = 15.37 16 Nota 1. Siempre queremos redondear el tamao de la muestra de manera que, el nmero requerido en la muestra sea cuando menos adecuado, en lugar de un poco adecuado. Esto es un convencionalismo. Ejemplo #4. En un estudio de recoleccin de basura desechada por el sector domstico, es decir, del salvamento de basura reciclable, queremos estimar el promedio del plstico desechado por las casas. Qu tamao de muestra de casas debe ser seleccionado, aleatoriamente, si queremos estar seguros, en 99%, que el promedio muestral est dentro de 0.250 kilogramos del verdadero promedio poblacional ? Asumir que estudios pilotos dan una desviacin estndar conocida
12-5
de = 1.100 kilogramos. Solucin: Queremos un tamao de muestra n, dado que = 0.01 (99% de nivel de confianza) de manera que, z/2 = z0.01/2 = 2.575 (valor constante de la tabla de la distribucin normal con 99% nivel de confianza). Adems, E = 0.250, = 1.100. As, usando la frmula (12-5) nos da: n = (z/2 / E)2 = [(2.575)(1.100) / (0.250)]2 = 128.37 129 En conclusin, debemos de obtener una muestra, de cuando menos 129 casas domsticas seleccionadas aleatoriamente (que estn descartando el plstico). Con semejante muestra, estaremos confiados en un 99% de que el promedio muestral
X estar dentro de 0.250 kilos de .
Ejemplo #5. Refirindose al ejemplo anterior, si quisiramos tener resultados menos precisos usando un margen de error de 0.500 kilos, calcular el tamao de la muestra n asumiendo las mismas condiciones anteriores. Solucin: Usando la frmula (12-4) obtenemos: n = [(2.575)(1.100) / (0.500)]2 = 32.09 33 Se observan los siguientes puntos en la relacin general entre el tamao de la muestra, la longitud deseada del intervalo 2E, el nivel de confianza 100(1 ) por ciento y :
12-6
1. Conforme disminuye la longitud del intervalo 2E, el tamao requerido de la muestra n aumenta para un valor fijo de y para el nivel de confianza especificado. 2. A medida que aumenta, el tamao requerido de la muestra n aumenta, para una longitud deseada 2E fija y un nivel de confianza especificado. 3. Conforme aumenta el nivel de confianza, el tamao requerido de la muestra n aumenta para una longitud fija deseada 2E y una desviacin estndar . Seleccin del tamao de la muestra para dos poblaciones Tambin se puede seleccionar el tamao de la muestra, ms apropiado, para la diferencia de dos promedios. Por ejemplo, si se conocen las desviaciones estndar de las muestras uno y dos, es decir, 1 y 2, y los tamaos de las dos muestras son iguales, es decir, n1 = n2 = n, entonces, puede determinarse el tamao ms apropiado de la muestra. Esto se hace de modo que se tenga una confianza de 100(1 ) por ciento en que el error E en la estimacin de la diferencia de 1 2, por los promedios de las muestras X 1 X 2 sea menor que E. La ecuacin usada para calcular el tamao de la muestra ms apropiado para la diferencia de dos poblaciones es: n = (z/2 / E)2 (21 + 22) (12-7) Nota 1. Recurdese que es necesario redondear n, si este valor no es un entero. Con esto, se asegura que el nivel de confianza no sea menor que 100(1 ) por ciento. Ejemplo #6. Se prueban dos frmulas diferentes de gasolina oxigenada para reducir las emisiones de monxido de carbono (CO) emitidas por los motores de combustin interna. Se sabe de antemano que la varianza para la primera frmula es de 21 = 1.5, mientras que la varianza para la segunda frmula es de 22 = 1.2. Qu tamao de muestra debe usarse para cada poblacin muestreada, si se desea
12-7
tener una confianza del 95% de que el error, al estimar la diferencia entre los promedios de las dos frmulas diferentes, sea menor que 1? Solucin: Aqu, usamos la frmula (12-7) para calcular el tamao de la muestra de dos poblaciones, es decir, n = (z/2 / E)2 (21 + 22) Donde: z/2 = z0.05/2 = z.025 = 1.97, E = 1, 21 = 1.5, 22 = 1.2 Sustituyendo estos valores en la frmula de arriba da: n = (1.95 / 1)2 (1.5 + 1.2) = 10.27 11 Por lo tanto, el tamao de la muestra para las poblaciones 1 y 2 es: n = n1 = n2 = 11
12-8
Ejercicios Captulo 12 12.1. Se sabe que la duracin, en horas, de un foco de 75 watts tiene una distribucin, aproximadamente normal, con una desviacin estndar de 25 horas. Supngase que se desea una confianza del 95% en que el error en la estimacin de la duracin promedio sea menor que 5 horas. Qu tamao de muestra debe usarse? de 99% y un error E = 1 y comparar los resultados. 12.3. Un ingeniero automotriz desea determinar el tiempo promedio que tardara un mecnico en girar las llantas de un auto. Este ingeniero quiere estimar, con una confianza de 95%, que el promedio de su muestra es imprecisa en cuando ms 0.50 minutos. Si sabe de estudios pilotos anteriores que la desviacin estndar es de = 1.6 minutos, qu tan grande deber ser la muestra que debe de seleccionar, aleatoriamente? Sugerencia: Usar la frmula n = (z/2 /E)2 (39.3 40 mecnicos) 12.4. El director de cierta universidad desea usar el promedio de una muestra aleatoria para estimar el monto promedio de tiempo que se les lleva a los estudiantes para ir de un saln a otro y tomar sus clases sin llegar tarde. Para esto desea afirmar con 99% de confianza que el error es cuando ms de 0.25 minutos. Experiencias anteriores estiman una desviacin estndar de = 1.40 minutos. Siendo as, qu tan grande deber ser la muestra que se deba tomar? 12.5. La Environmental Protection Agency (EPA) de los Estados Unidos desea conducir una prueba de millaje de cierto modelo de un auto importado. El ingeniero estadstico de la EPA desea estimar el promedio , de millas por galn de combustible usado por este modelo, con 95% de nivel de confianza. Asumiendo
12-9
( 97)
12.2. Hacer el mismo problema que el anterior, pero ahora usando una confianza
que = 2.5 millas por galn, qu tamao de muestra (nmero de autos de este modelo) deber tomar para conducir esta prueba? (n = 25) 12.6. Considerar el ejemplo 12.1 de la gasolina oxigenada, para la estimacin del tamao de las muestras para las poblaciones uno y dos. Siendo as, estimar los tamaos de las muestras apropiados, si queremos una confianza de 99% y el error de la estimacin de las diferencias entre los promedios sea menor que 4.
12-10
APENDICE A. LISTA DE TABLAS TABLA 1. Probabilidades binomiales acumuladas TABLA 2. Probabilidades de Poisson acumuladas TABLA 3. reas bajo la curva normal P(z zo) TABLA 4. Puntos porcentuales de t[;] de la distribucin de t de Estudiante TABLA 5. Puntos porcentuales de 2( ;) de la distribucin de JI cuadrada TABLA 6. Funcin de gamma incomplete TABLA 7. Valores crticos para la distribucin de F P(F Fo) TABLA 8. Puntos porcentuales de la distribucin de r10
TABLA 1. Probabilidades binomiales acumuladas
Fuente: Daniel W. W. y James Terrell. Business Statistics. Houghton Mifflin Company (1989).
Por ejemplo, si F(X) = P(X x), y si p = 0.20, x = 2, n = 7, entonces, F(2) = P(X 2) = 0.8520
Apndice A-1
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-2
Apndice A-3
Apndice A-4
Apndice A-5
Apndice A-6
Tabla 1. Probabilidades binomiales acumuladas (Continuacin)
Apndice A-7
Apndice A-8
Apndice A-9
TABLA 1. Probabilidades binomiales acumuladas
Apndice A-10
Apndice A-11
Apndice A-12
Apndice A-13
Apndice A-14
Apndice A-15
Apndice A-16
Apndice A-17
Apndice A-18
Apndice A-19
Apndice A-20
Apndice A-21
Apndice A-22
Apndice A-23
Apndice A-24
Apndice A-25
TABLA 2. Probabilidades acumuladas de Poisson. F(c) = P(X c) = x e- / x!

x=0 c
Fuente: Morris Hamburg. Statistical Analysis for Decision Making. Harcourt Brace Javanovich, Inc. (1991).
Ejemplo: Si = 1.00 y x = c = 2, entonces, F(2) = P(X 2) = 0.9200
Apndice A-26
TABLA 2. Probabilidades acumuladas de Poisson (Continuacin)
Apndice A-27
Apndice A-28
Apndice A-29
TABLA 3. reas bajo la curva normal
Fuente: Daniel W. W. y James Terrel. Business Statistics. Houghton Mifflin Company (1989). Apndice A-30
TABLA 3. reas bajo la curva normal (Continuacin)
Apndice A-31
TABLA 3. reas bajo la curva normal (Continuacin)
Apndice A-32
TABLA 3. reas bajo la curva normal. (Continuacin)
Apndice A-33
TABLA 3. reas bajo la curva normal. (Continuacin)
Apndice A-34
TABLA 4. Puntos porcentuales de t(;) de la distribucin de t de Estudiante.
____________________________________________________________________ Fuente: Dunn, O. J. y Virginia A. Clark. Applied Statistics: Analysis of Variance and Regression. John Wiley and Sons, Inc., New York (1974).
Ejemplo de interpolacin usando = 32 grados de libertad con = 0.95 35 1.609 32 x 30 1.697 (32 30)/(35 30) = X/(1.697 - 1.690), x = .0028 Enseguida agregar .0028 a 1.690 para dar 1.6923. Por lo tanto, el valor de t[.95;32] = 1.693 Apndice A-35
TABLA 4. Puntos porcentuales de t(;) de la distribucin de t de Estudiante (Continuacin).
________________________________________________
Apndice A-36
TABLA 5. Distribucin de JI cuadrada (2).
Fuente: Mario F. Triola. Elementary Statistics. Addison-Wesley Publishing Company (1995).
Apndice A-37
Tabla 7. Valores crticos para la distribucin F(P)F Fo)
____________________________________________________________ Fuente: J. L. Devore. Probabilidad y Estadstica para Ingeniera y Ciencias. Thomson Learning (2001).
Apndice A-38
TABLA 7. Valores crticos para la distribucin F (P(F Fo) (Continuacin).
_______________________________________________________________
Apndice A-39
_________________________________________________________________
Apndice A-40
TABLA 7. Valores crticos para la distrtibucin F (P(F Fo) Continuacin).
________________________________________________________________
Apndice A-41
_____________________________________________________________________
Apndice A-42
TABLA 6. Funcin de gamma incompleta. F(x;) =
x 0
1 / () y-1 e-ydy
Fuente: Jay L. Devore. Probabilidad y estadstica para ingeniera y ciencias. ThomsonLearning (2001).
Apndice A-43
TABLA 8. Puntos porcentuales de la distribucin de r10.
________________________________________________________ Fuente: Dunn, O. J. y Virginia A. Clark. Applied Statistics: Analysis of Variance and Regression. John Wiley and Sons, Inc. New York (1974)
Apndice A-44
Apndice B Bibliografa
Anderson, D. R, Dennis J. Sweeney, Thomas A. Williams. Estadstica para Administracin y Economa. Vol. 1. Sptima edicin. South-Western Publishing (1999). Berthoux, P. M., Linfield C. Brown. Statistics for Environmental Engineers. Lewis Publishers (1994). Brown L. Theodore, H. Eugene Le May, Jr., Bruce E. Bursten. Chemistry. The Central Science. Prentice Hall, Upper Saddle River, New Jersey. Eight Edition, (2000). Daniel, W. W., James C. Terrell. Business Statistics. First Edition. Houghton Mifflin Company (1989). Devore, J. L. Probabilidad y Estadstica Para Ingeniera y Ciencias. Quinta edicin. Thomson Learning. (2001) Dunn, O. J., Virginia A. Clark. Applied Statistics: Analysis of Variance and Regression. John Wiley and sons. New York London, Sydney, Toronto (1974). Freund, J.E. Statistics. A First Course. Second Edition. Prentice Hall, Inc. Englewood Cliffs, New Jersey (1976). Goldber, Ss. Probability. An Introduction. Published by Prentince Hall, Inc. Englewood Cliffs, N. J. (1960). Hamburg, M. Statistical Analysis for Decision Making. Fifth Edition. Harcourt Brace Jovanovich, Publishers. Academic Press. San Diego, New York, Chicago, Austin, Washington, D. C. (1989). Herber A., Raymond R. Colton. Statistical Methods. Fourth Edition. Barnes and Noble, Inc. New York (1966).
Jerome, C. R. Li. Statistical Inference. Distributed by Edwards Brothers, Inc. Ann Arbor, Michigan. (1964). Keller, G., Brian Warrock, Henry Bartel. Statistics for Management and Economics: a Systematic Approach. Second Edition. Wardsworth Publishing Company, Belmont, California (1990). Kutner, M. H., Chistopher J. Nachtsheim, John Neter, Willliam Li. Applied Linear Statistical Models. Fifth edition. McGraw-Hill International Edition (2005). Lapin, L. L. Statistics for Modern Business Decisions. Harcourt Brace Javanovich, Inc. (1981). Manly, B. F. J. Statistics for Environmental Science and Management. Chapman & Hall/CRC (2001). Montgomery, D., George C. Runger. Probabilidad y Estadstica Aplicadas a la Ingeniera. Mcgraw Hill Interamericana Editores, S.A. De C. V. (1996). Montgomery, D. C. Elizabeth A. Peck, G. Geoffrey Vining. Introduccin al Anlisis Lineal. Grupo Patria Cultural, S. A. De C. V. (2002). Myers, W., Raymond H. Myers. Probabilidad y Estadstica. Cuarta Edicin. Mcgraw Hill/Interamericana de Mexico, S. S. De C. V. (1992). Neter, J., Michael H. Kutner, Christopher J. Nachtsheim, William Wasserman. Applied Linear Regression Models. Third Edition. Irwin (1996). Sanders, D. H. Statistics. A First Course. Fifth Edition. Sawyer, N.C., Perry L. Mccarty. Chemistry for Sanitary Engineers. Second Edition. Mcgraw-Hill (1967). Smith, G. Statistical Reasoning. Allyn And Bacon, Inc. Boston London Sydney Toronto (1985). Spiegel, M. R. Schaum's Outline of Theory and Problems of Statistics. Schaum Publishing Company, New York (1961).
Standard Methods for the Examination of Water and Wastewater. Prepared And Published Jointly by: American Public Health Association, American Water Works Association and Water Pollution Control Federation. American Public Health Association, 1015 Eighteenth Street, N.W., Washington, D.C. 20036 (1971). McClave, J. T., George Benson. Statistics for Business and Economics. Second Edition. Dellen Publishing Company, San Francisco and Santa Clara, California (1982). Triola, M. F. Elementary Statistics. Sixth Edition. Copyright 1995. AddisonWesley Publishing Company, Inc. Walpole, E. R., Raymond H. Myers. Probability and Statistics for Engineers and Scientists. Fifth Edition. Prentice Hall, Inc. (1993). Yamane, T. Statistics, an Introductory Analysis. Harper & Row, Publishers, Incorporated, 49 East 33rd Street, New York 16, N.Y. (1964).
Apndice C Papel de grfica Papel de grfica semilogartmico de 5 ciclos Papel de grfica logartmico Papel de grfica de probabilidad Papel de grfica de probabilidad binomial para analizar datos enumerados Papel de grfica de frecuencia relativa acumulada en funcin de la variable aleatoria X
Apndice C
Papel de escala semilogartmica
Papel de grfica de escala logartmica completa.
Papel de grfica logartmico de 2x2 ciclos
Papel de grfica de escala aritmtica
Papel de grafica de frecuencia relativa acumulada en funcin de la variable aleatoria X
Apndice D ndice
Ajustamiento de curvas, 9-29, 9-30 Anlisis de varianza en dos sentidos, 7-25 Anlisis de varianza en tres sentidos, 7-36 7-39 Anlisis de varianza, 7-1 anlisis de varianza de bloques completamente aleatorizados, 7-17 diseos de ANOVA completamente aleatorizados, 7-3 ANOVA con tres factores usando el Minitab, 7-50, 7-53 Aplicaciones de la distribucin de Poisson, 4-1. Ver distribucin de Poisson dentro de sus propios trminos y como una aproximacin a la distribucin binomial, 4-6, 4-7 Aplicaciones de la distribucin de t de Estudiante, 6-4 Aplicaciones de la distribucin hipergeomtrica usando el programa Minitab, 3-40 reas bajo la curva normal, 5-7 Autocorrelacin, 8-30, 8-58, 9-9, 9-47, 9-48, 9-49, 9-54 Axiomas y propiedades bsicas de la probabilidad, 2-6 Coeficiente de correlacin R, 8-9, 8-17 Coeficiente de determinacin R2, 8-8, 8-17 Combinaciones ortogonales, 7-43 Combinaciones, 2-32 Complemento, 2-11 Componentes de la prueba de hiptesis, 5-41 Cuartiles, 1-30, 1-31 Curvas de frecuencia, tipos de, 1-19 Desviacin estndar, 1-10 Desviaciones del promedio, 1-13 Diagramas de rbol, 2-24 Diagramas de tallo y hoja, 1-27 Diagramas de Venn, 2-18 Diferencias entre la distribucin de Poisson y la distribucin binomial, 4-2 Distribucin binomial, 3-1 Distribucin de gamma, 5-28 Distribucin de JI cuadrada, 6-24 Distribucin de Poisson, 4-1 Distribucin de t de Estudiante, 6-1 Distribucin de Weibull, 5-31 Distribucin exponencial, 5-24 Distribucin hipergeomtrica, 3-1, 3-31 Distribucin normal estndar y distribucin normal no estndar, 5-10 Distribucin normal, 5-6 Distribuciones de frecuencia, 1-17, 1-21 Distribuciones de probabilidad continua, 5-1 Durbin-Watson, prueba de autoacorrelacin, 9-48- 9-53
Estadstica inferencial, 5-34 Error estndar, 1-14, 5-36 Estadstica, definicin de, 1-1 Estadstica no paramtrica, 10-1 Ensayo de Bernoulli, 3-2 Ecuacin de la lnea de regresin, 8-2 Eventos mutuos excluyentes, 2-13 Eventos dependientes e independientes, 2-16 Estocstico, definicin de, 2-18 Estadstica descriptiva, 1-1, 1-3 Espacio muestral, 2-8 Evaluaciones de los modelos de regresin, 8-37, 9-8 Funcin de densidad de probabilidad de la variable aleatoria continua x, 5-2 Frmula emprica para hacer interpolaciones para calcular el valor de la probabilidad p, 5-53 Frmula fundamental del clculo, 5-3 Heteroscedasticidad y homoscedasticidad, 9-55 prueba de hiptesis para heteroscedasticidad, 9-57 Hiptesis nula para , , y Y|X, 8-11, 8-12 Histogramas, 1-20 Interaccin con ANOVA de dos factores, 7-26, 7-27, 7-28 Interaccin con ANOVA de tres factores, 7-39, 7-40 Interseccin de eventos, 2-10 Intervalo de confianza para el coeficiente , 8-10 Intervalos de confianza para la diferencia de dos promedios (1 2) con varianzas conocidas, 5-72 Intervalos de confianza para proporciones, 5-77 Intervalos de confianza para 2 usando la distribucin de JI cuadrada, 6-28 Intervalos de confianza para con varianza 2, conocida, 5-32 Intervalo de confianza para , 8-10 Kolmogorov-Smirnov para prueba de normalidad, 5-63 Kurtosis, 1-14 Mediana, 1-6 Medidas de tendencia central, 1-4 Moda, 1-7 Modelo de regresin cuadrtico con 2 y 3 variables independientes, con y sin interaccin, 9-24 Modelo de regresin mltiple generalizado, 8-33 Modelo de segundo orden con mas de dos variables independientes con interaccin, 9-5 Modelos de regresin mltiple con mas de dos variables regresoras, 8-34 Modelos de regresin no lineales y de regresin logstica, 9-24, 9-25 Multicolinealidad, diagnstico de, 8-17, 8-58, 9-21, 9-31, 9-32, 9-33
Niveles de significancia, 5-33, 5-38, 5-40, 4-49, 5-50, 5-55, 9-5 Niveles de confianza. Ver niveles de significancia
Papel de probabilidad, uso de, 1-24 Permutaciones, 2-28 Probabilidad de frecuencia relativa, 2-4 Probabilidad subjetiva, 2-5Rango, 1-13 Probabilidad, definicin de, 2-1, 2-2 Promedio aritmtico, 1-4, 1-5 Promedio geomtrico, 1-9 Prueba de bondad de ajuste usando la distribucin de JI cuadrada, 6-31, 9-32 Prueba de Kruskall-Wallis para funciones no paramtricas, 10-4 Prueba de normalidad, usando la funcin de Anderson-Darling, 5-63 Prueba de White para heteroscedasticidad, 9-56 Pruebas de hiptesis para el promedio usando la t de Estudiante, 6-5 Pruebas de hiptesis para observaciones pares, 6-6 Pruebas de hiptesis para proporciones, 5-74, 5-75 Pruebas de hiptesis, 5-34 Pruebas estadsticas para seleccionar el mejor modelo de regresin, 9-15 Rango, 1-13 Regla aditiva para eventos mutuos excluyentes y no mutuos excluyentes, 2-40 Regla de multiplicacin mas general, 2-22 Regla de multiplicacin para eventos dependientes e independientes, 2-37 Regla del producto para pares ordenados, 2-12 Regla factorial, 2-23 Regresin lineal mltiple, 8-1 Regresin mltiple usando el paquete Minitab, 8-54 Regresin polinomial, 9-31 modelos polinomiales de segundo orden, 9-2 modelos polinomiales de tercer orden, 9-3 Relacin entre la distribucin binomial y la distribucin de Poisson, 3-6 Relacin entre la distribucin binomial y la distribucin normal, 3-6 Relacin entre la distribucin hipergeomtrica y la distribucin binomial, 3-33 Series de tiempo, 11-1 clasificaciones de los movimientos de series de tiempo, 11-3 Sesgo, 1-14 Tamao de la muestra, 12-1 Tcnicas de conteo, 2-20 Tipos de errores I y II, 5-37 Tringulo de Pascal, 3-4 Unin, 2-9 Valor de la probabilidad p, 5-48, 5-50, 6-16, 6-17
metodologa para calcular el valor de p, 5-42 Valores atpicos extremos, diagnstico de, 9-31 Valores de varianza inflada (VIF), 9-33 Variable aleatoria continua definicin de, 1-4, 2-18 Variable aleatoria discreta, 2-18 Variable aleatoria estandarizada z, 1-12, 5-8 Variable aleatoria, definicin de, 2-17 Varianza, 1-10

Estadistica Aplicada A La Ingenieria Ambiental

Enviado por

Dados do documento

Título original

Direitos autorais

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Estadistica Aplicada A La Ingenieria Ambiental

Enviado por

Direitos autorais:

UNIVERSIDAD AUTNOMA DE CD.

MTODOS ESTADSTICOS PARA LA INGENIERA AMBIENTAL Y LA CIENCIA

DR. HCTOR ADOLFO QUEVEDO URIAS

CONTENIDO Introduccin Captulo 1

Distribucin Binomial e Hipergeomtrica

Distribuciones de Probabilidad Continua

Distribuciones de t de Estudiante, JI Cuadrada y F

Regresin Lineal Simple y Mltiple

Estadstica no Paramtrica. El modelo de Distribucin de ANOVA Libre 10-1

Seleccin del Tamao de la Muestra

Apndice B Apndice C Apndice D

Bibliografa Papel de grfica ndice

Apndice-B Apndice-C Apndice-D

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Xjs, desde j = 1 hasta j = N.

Ejemplo #1. Xj = X1 + X2 + X3 + ... + Xn

Dr. Hctor Quevedo Uras

Ejemplo #2. XjYj = X1Y1 + X2Y2 + X3Y3 + ...+ XNYn

Ejemplo #3. aXj = aX1 + aX2 +...+ aXn

= a(X1 + X2 +,..,+ Xn) = a Xj

Dr. Hctor Quevedo Uras

de poblacin, y se define como:

Dr. Hctor Quevedo Uras

Ejemplo # 6. La muestra de observaciones 3, 4, 4, 5, 6, 8, 8, 10 tiene una mediana de

Dr. Hctor Quevedo Uras

Figura 1.0. Distribucin oblicua a la derecha (sesgo positivo). (Elaboracin propia)

Figura 1.1. Distribucin oblicua a la izquierda (sesgo negativo) (Elaboracin propia)

Dr. Hctor Quevedo Uras

49.5, 50.3, 51.6. Solucin:

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Desviacin del promedio = |Xj - X |/N

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

(1-9) (1-9a) (1-9b) (1-9c)

Distribucin bimodal. Se refiere a una distribucin con dos modas.

Dr. Hctor Quevedo Uras

La kurtosis mide lo achatado o puntiagudo de la distribucin.

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

fX 5 x 61 = 305 64 x 18 = 1152 67 x 42 = 2814 70 x 27 = 1890 73 x 8 = 584 fX = 6745

Dr. Hctor Quevedo Uras

2 1 69 7 2 25669 (25) 3 0011112223334445567778899 8 4 11234577 __________________________________________________________________

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Dr. Hctor Quevedo Uras

Maximum Range 4.700 3.100

Dr. Hctor Quevedo Uras

Histogram (with Normal Curve) of Mediciones de 40 objetos

2.4 3.2 4.0 Mediciones de 40 objetos

Dr. Hctor Quevedo Uras

Figura mostrando la grafica de f.r.a. y valores de X