Você está na página 1de 36
41 capitulo L REGRESION SIMPLE Y CORRELACION Conocer cudntas decisiones comer- ciales dependen del conocimiento de la relacion especifica entre dos o mas variables Utilizar diagramas de dispersion para visualizar la relacién entre dos variables Emplear el andlisis de regresion para estimar la relacién entre dos variables Utilizar la ecuaci6n de estimacién de minimos cuadrados para predecir valores futuros de la variable dependiente 12.4 122 Introduccién de regresion 123 124 25 510 Estimacién mediante la recta 516 Analisis de correlacién Inferencias sobre parémetros de poblacién 545 Uso del analisis de regresion y correlacién: limitaciones, errores y advertencias Aprender cémo el andlisis de correlacién describe el grado en el cual dos variables estan relacionadas linealmente entre si Comprender el coeficiente de determinacién como una medida de la fuerza de la relacion entre dos variables Conocer las limitaciones de la regresién y del analisis de correlacién y las advertencias sobre su uso Ejercicio de base de datos computacional 553 Del libro de texto al mundo: real 554 Términos introducidos en el capitulo 12555 Ecuaciones introducidas en el capitulo 12 555 551 Ejercicios de repaso 557 535 Estadistica en el trabajo 553 509 compafia quimica y de fabricacion de fibras cree que las ganancias anuales de la empresa dependen de la cantidad gastada en ID. El nuevo presidente de la compafia no est de acuerdo y ha solicitado pruebas. Los datos de seis afos son los siguientes: E: vicepresidente de investigacién y desarrollo (1D) de una gran Millonesgastades en Ganancia anual ‘Rio investgaciony desare (millones) 1990 2 2 1981 3 5 1992 5 uM 1993 4 30 1994 n ‘0 1995 5 ” El vicepresidente de ID desea una ecuacién para pronosticar los beneficios anuales derivados de la cantidad presupuestada para ID. Con los métodos de éste capitulo, podremos proporcionarle esa herramienta para la toma de decisiones y orientarlo respecto ala precision que puede esperar al usarla, Bl 12.1 Introduccion Felon ene varable Ditrnca ane Jevarada ys inasdeese captuo gen es as regesny regen mitiple Desaralo de una teen dee mnacin ‘aries ingen nts y depen Todos los dias, los administradores toman decisiones personales y profesionales basadas en predic- cones de sucesos futuro. Para hacer ests prondsticos, se basan en la reacin (intsitva y calcula) entre lo que ya se sabe y lo que se debe estimar, Silo responsable dela toma de decisiones pueden ‘determina Gémo lo conocido se relaciona con el evento fatro, pueden ayudar considerablemente al proceso de toma de decisiones. Ese es el objetivo de este capitulo eémo determinar Ia relacién en- tre variables. En el capitlo 11, atlizamos pruebas de rewadrada de independencia para determinar si exista una rlacinestadistica entre dos variables, La prueba -cuadrada nos dice si exist tal relacidn, pe- ro no nos dice cues esa elacidn, Los andlisis de regresiény correlacién nos mostraran emo dleterminar tante la naturaleza como la fuerza de una relacién entre dos variables. De esta for ma, aprenderemos a pronostca, con iertapreisin, el valor de una variable desconocida baséindo- fos en observaciones anteriores de ésa yottas variables El término regres fe wiizado or primera vez como un concepto estaistico en 1877 por sit Francis Galton, quien llevs a cabo un estudio que moses que la estaira de los nis nacidos de pe dees alts tiende a retrocedero “egresar” hacia la estatara media dela poblaciin. Designs ta palabra rgresin como el nombre de proceso general de predecir na variable (Ia estatura de los nos) a partir de otra a estatura del pace o de a made), Més tarde, los estadistics acaron el téemino ragresion _milipe para describ el proceso mediante el cial se wblizan varias variables para predecir otra. nel andlisi de regresin desarollaemos una ecuaciin de estimaci, esto es, una forma ma- temética que relaciona ls variables conocidas con la variable desconocida, Después de conocer cl pateon de esta elacidn, podrenosapliar el ands de correla para determina el grado en el «que las variables se relacionan, El andlisis de corrlacin,entonces, nos inca qué ta bien la ect cn de estimacién describe realmente la relacin, Tipos de relaciones Los anliis de rgresin y de correlain se basan ena relacin,oasociacién entre dos (o mis) va riables. La variable (o variables) conocida(s) se llaman vartable(3) independiente(s); la que tratamos. de predeci es la variable dependicnt 510 capitulo 12 _Regresion simple y correlacén FIGURA 12.1 Relaciones drecas einversasenve b variable indepen: cient Xy la var ble dependiente ¥ Falain seca ere Xy ¥ Felon versa ere xy Y Felaones dase yeteco Dayana de espesion (oaaneen crete an ome 4 Prose ragene Fert sve : x x Paden ae Gena conea lamar Los cientificos saben, por ejemplo, que existe una relacion entre las ventas amuales de Latas de aerosoles la cantidad de fluorocarburos liberados a la atmésfera cada aio, Si estudiéramos esta re- lacisn, “el nimero de latas de aerosol vendidas cada afio” seria la variable independiente y “la can- tidad de fluorocarburos iberados amualmente” seria la variable dependiente Consideremos otro ejemplo, Los economistas pueden basar sus predicciones del producto inter- no bruto anual, o PIB, en el gasto final de consumo dentro de la economia, Por tanto, “el consumo final” es la variable independiente y “el PNB" Ia variable dependiente En regresidn, podemos tener slo una variable depenciente en la ecuacién de estimacién, Sin em- Dargo, podemos usar més de una variable independiente, A menudo, cuando agregamos variables independientes, mejoramos la exactitud de nuestra prediccién, Los economistas, por ejemplo, con frecuencia afaden una segunda variable independiente, “el nivel de gasto de inversion”, para mejo- rar su estimacién del PIB. Los dos ejemplos de fluorocarturos y PIB son ilustraciones de asoctaciones directas entre variables independientes y dependientes, Al incrementarse la variable independiente la variable dependiente también Io hace, De manera similar, esperamos que las ventas de una cormpafifa se incrementen al aumentar el presupuesto de publicidad, Podemos graficar una relacicn directa de este tipo colocan- do la variable independiente en el eje Xy la variable dependiente en el eje ¥. La grfica (a) de la f- gura 12-1 muestra esto, Note cémo la pendiente dela recta sube cuando Xtoma valores cada vez més grandes, Se dice que la pendiente de esta recta es pasitiva, porque Yerece si Xcrece Las relaciones pueden ser inversas en vez de ditecas, En estos casos, la variable dependientedis- sminuye al aumentar la variable independiente, El gobiemo supone que existe una asociacién inversa entre un mayor gasto anual de una compania en dispositivos anticontaminantes y menores emisiones contaminantes, La grafica (b) de la figura 12-1 iustra este tipo de relacién, que se caracteriza por una pendiente nogativa (la variable dependiente ¥ disminuye al aumentar la variable independiente X) ‘A menudo encontramos una relacién causal entre variables, sto es la variable independien- te “causa” cambios en la variable dependiente, Este cs cl caso en el ejemplo de la contaminacién Pero en muchos casos, otros factores ocasionan los cambios tanto en las variables dependientes co- mo en las independientes, Podriamos predecir las ventas de arctes de diamantes abservando las de Cadillacs nuevos, pero no podriamos decir que una origina a la otra, Mas bien, nos damos cuenta que otra factor, como el nivel de ingresos disponibles, es la causa de los niveles de ventas tanto de Cadi- lacs como de aretes ce diamante Por esta razén, es importante considerar que las relaciones encontradas por la regresién son. relaciones de asociacin, pero no necesariamente de causa y efecto. A menos que tenga razones especificas para creer que los valores dela variable dependliente se originan por los valores de las variables independlientes, no infiera causalidad en las relaciones encontradas por la regresién. Diagramas de dispersion El primer paso para determinar si existe una relacién entre dos variables es examinar la gréfica de los datos observados (o conocidos). Esta gafica o dibujo, se lama diagrama de dispersin. 124 Introduccion = 511 a eres rr ene CUO ead Pec ee rer FIGURA 12-2 Diagrama de ddspersin de as calliceciones de ‘estudiantes en cexdmenes de ad isin graticadas «conta al promedio ‘general acumulado Transeenca de inlormacn ur aura gfe Tat, 0 "ase de line eas de agama dspersén FIGURA 12:3 Diagrama de cs pesiin en donde Fa inea recta re presenta lala don enve Xy ¥ *ajutada" 512 capitulo 12 Esudante AB CoD fF F GW licacone de examen de sign (00=miximacalfcadénposbl) = 74S GBT Promesio general acunulado(40=A) 26 «22-34-2343 Prenatogned somdice ‘Un diagrama de dispersiéa nos puede dar dos tipos de informacion, Visualmente, podemos ie tifcar patrones que indiquen que las variables estén relacionadas, Si esto sucede, podemos ver qué tipo de kinea, o ecuacién de estimacin, describe esta relacion Desarrollaremos y wilizaremos un diagrama de dispersiinespecifico, Suponga que el director de admisiones de una universidad nos pide determina si existe una relacin entre las calificaciones dle un estudianteen su examen de admiston y su promedio general al graduarse, El director ha reu- nido una muestra aleatoria de datos de los registro de Ia universidad, La tabla 12-1 contiene esta ine formacién ara comenzar, debemos transfer la informacidn dela tabla 12-1 a una gfica.Puesto que el dt rector dsea utilizar las calificaciones de los examenes para pronosticar éxitos en la niversidad, he- ‘mos colocado el promedio de calificaciones acumulado (la variable depenciente) en el eje vertical 0 ¥.y lacalificacion del examen de admisién (a variable independiente) en eleje horizontal 0 X La figura 12-2 nos rauestra el diagrama de dispersién completo, ‘A primera vista se sabe por qué Hamamos ast al diagrama de dispersi6n, El patrén de puntos r- sulla al registrar cada par de datos de la tabla 12-1 como un punto. Cuando vemos todos estos pune tos juntos, podemos visualizar la relacin que existe entre las dos variables. Como resultado, pode- mos trazar “ajusat” una linea recta a través de nuesteo diagrama de dispersin para representar la relacién; Ia figura 12-8 dustr est, Bs comin intentartrazar estas Lineas de forma tal que wn mime- ro igual de puntos caiga en cada lado de Ia linea, 1 as 80 sas 00 Sas 20 228 200 ltl ess Prone os os 0 Hh wo 8 ww Calin cine arisen Regresién simple y correlacién FIGURA 12-4 felacéncuiines entree epode fensrccion ce lnumere de un’ des produce Irepretacion Iatneareca Felons canines: eps de as anes pases FIGURA 12.5 Relaciones pos- bes entre Xy Y en ciagramas de cispension tomb soins: 10 soo ime era grave 7s 0 8 mS 0 s 0 © Nines avers protues En este caso, la linea trazada a través de Tos puntos representa una relacién directa, porque ¥se fnerementa al aumentar X’ Como los puntos estan relativamente cerca de esta linea, podemos decir que existe un alto grado de asociacién entre las calificaciones de examenes y el promedio de calif caciones acumulativo, En la figura 12-3, podemos ver que la relacién descrita por los puntos esta bien descrita por una linea recta, Por tanto, podemos decir que es una relacién lineal La relacién entre las variables X'y Ytambién puede tomar la forma de una curva, Los especialis- tas en estadistica la aman relacién curvilinea, Los empleados de rauchas industrias, por ejemplo, cexperimentan lo que se denomina “curva de aprendizaje”, es decir, al fabricar un nuevo producto, el tiempo requerido para producir una unidad se reduce en alguna proporcisn fija al duplicarse el ni ‘mero total de unidades, Una industria de este tipo es Ia aviacién, El tiempo de fabricacion por un dad de una nueva aeronave tiende a disminuir un 20% cada vez que se duplica el mimero de nuevos aviones terminadas, La figura 12-4 ilustra la relacion curvilinea de este fenémeno de “curva de aprendizaje’ La direccién de la curva puede indicar sila relacién curvilinea es directa o inversa, La curva de Ja figura 12-4 describe una relacidn inversa porque ¥ disminuye al aumentar X. Para repasar las relaciones pasibles en un diagrama de dispersién, examinemos las graficas de la figura 12-5, Las graficas (a) y (b) muestran relaciones lineales directas e inversas. Las graficas (c) y (@) son ejemplos de relaciones curvilineas que indican asociaciones directas e inversas entre varia- bles, respectivamente, La gréfica (e) ilustra una relacidn lineal inversa con un patrén de puntos am- pliamente disperso. Esta mayor dispersién indica que existe menor grado de asociacién entre las va~ (ect b)Aetiness (curate cine te) fecaimasacon res asp , x x x 124 Introduccion = 513 riables independiente y dependiente que el existente en la grafica (b). El patron de puntos en la gré- fica (0) parece indicar que no existe relacién entre las dos variables; por tanto, conocer el pasado re- ferente a una variable no nos permitiré pronosticar ocurrencias futuras de Ia otra Ejercicios de autoevaluacion EA 12-1 Uninstnictar est interesado en saber mo se relacina el mimero de estudiantes ausentes con la tempe- satura media del dia, Usd una masta aleatoria de 10 dias para el estudio, Los siguientes datos ndican el :nimeto de estudiantes ausentes (AUS) y la temperatura media (TEMP) para cada dia a a rw Dw SDS 2) Establezca la variable dependient (3) y la vasiable independiente (X) 4) Dibuje un diagrama de dispersiin para estos datos. ©) dLarelacién entre las variables parece lineal o curvlinea? 4) {Qué tipo de curva puede dibujar através de los datas? 6) {Cul es la explicacicn logica para la telaion observada? Conceptos basicos T1241 {Qué esel anaiss de regresn? E122 Enetaniaisdereqrenen, gues una ccucin de estinacé? TE 125 (Cuatencl popes del nisi de comeacson? TE 124 Beta qu sonia lacines ces cierses 123 qu sesefered nnn relecon causal? TE 128 Faplque ls irene ene feacons ines ycavinss TE 127 Enplgue pr quey camo se comuye an dain Je daprsion. TE 128 {Ques nai drogen mug? TE 128 Parca uo delos sigue grams de dispersion, inquest wa lan en eas fea tho. ses depo dace owen ai Aplicaciones 12.10 Un profesor itenta mostrar asus estudiantes la importancia de los exémenescortos, un cuando e 90% deta colficacion final est determinada por ls exdmenesparciales, Fl cree que cuanto ms alas sean as califiaciones de los examenescortos, mis alts sera la calificacon final. Seleccon6 una muestra aleato- sade 15 estudiantes des clase con los siguientes datos Promedio de eximenes corto: Promedio final 8 6 2 a n 7 %0 ® 5 u (once) 514 capitulo 12 Regresion simple y corrlacin mi mii Soluciones a los ejerci EA 124 Promedio de exdmenescortos _Promed final 7 a ® © n a 16 » 5 ® 7” a 2 0 o* n 2 5 1 0 a) Establezca la variable dependiente (1) y la variable independiente () ) Dibyje un diagrama de dispersion para estos datos. ©) {Larelacién entre las variables parece lineal o curvilinea? )_{Parece justificarse Ia idea del profesor? Explique su razonamiento. William Hawkins, vicepresidente de personal de la Intemational Motors, rabaja en la relacién entre el sa- lario de un trabajador y el porcentaje de ausentismo. Hawkins dividis el intevalo de salaros de Interna- tional en 12 gradas o niveles (1 es el de menor grado, 12 el mas alto) y después muestred aleatoriamente ‘aun grupo de trabajadores, Determing el grado de salario de cada trabajadory el mimero de dias que ese cempleado habia faltado en los ultimos 3 aftos Caegoradesio = 11ST Ausencas 7 wo wo Categoria de sala moo 7 2 8 8 6 3 Ausenciae uo 2 8 % BH labore un diagrama de dispersion para estos datos e inique el tipo de reacts. I Instituto Nacional de Ciencias para la Salud Ambiental (NIEHS, por sus sighs en inglés) ha estudiado las telaciones estadisticas enize muchas variables diferentes y el resfiado comin. Una de las variables analizadas es el uso de pafuelos desechables (X} y el mimero de dia de sintomas de resfrio mostrados (3] por siete personas en un pertodo de 12 meses. {Qué relacién, si la hay, parece exisir entre las dos varia- Dles? Indica esto algin efecto causal? x 20001500 S00 750600 $001,000 Y 60 ® © 6% 5 3% w ios de autoevaluacion a). Se desea ver si as ausencias (AUS) dependen de la temperatura (TEMP) ») tat t_ tt Tergorsue ©) Curvilines d)_ Una curva cuadratica (parabola) @} Cuando hace mucho fio 0 mucho calor hay muchos ausentes, Para temperaturas moderadas, no hay tantos estudiantes ausent 124 Introduccién = 515, 12.2 Estimacion mediante la recta de regresion Cieoeaines de En los diagramas de dispersion que hemos utilizado hasta ahora, se colocaron las lineas de regresidn ‘egesén vss ure ajustando las Iineas visualmente entre los puntos de datos. En esta seccién, aprenderemos a calcular camsin lallinea de regresién de manera mas precisa, usando una ecuacién que relaciona las dos variables ma- tematicamente. Aqui, examinaremos sélo relaciones lineales entre dos variables; estudiaremos las relaciones entre mas de dos variables en el siguiente capitulo, Eaacénpueue La ecuacién para una linea recta donde la variable dependiente Yesta determinada por la varia- lea reco ble independiente Xes cui n para una linea recta se (r2-t} “Veale erdenad i Inworeacén de Usando esta ecuacién, podemos tomar un valor dado de XY calcular el valor de ¥ La ase denomina Inecaaen Ja “ordenada ¥” porque su valor es el punto en el cual la linea de regresién cruza el eje ¥, es decir, el «je vertical. La ben la ecuacién 12-1 es la “pendiente” de la recta, Representan qué tanto cada cam- bio de una unidad de la variable independiente Xhace que cambie la variable dependiente ¥. Tanto como b son constantes numéricas porque para cualquier linea recta dada, sus valores no cambian. ‘Supongamos que sabemas que aes 3 y Bes 2, Determinemos cual seria Ypara Xigual a5. Al sus- tituir Ios valores de a, by Xen la ecuacidn 12-1, encontramos que el valor correspondiente de Yes Y=atox 112-1) =3+29) =3+10 S13 ahr ron xes Seundo ou ¥).90. 1 poe Preah 1.01.3) pre eel FIGURA 12-6 Linea recta con pendiente posta, la ordenaca ¥ puntos en fa Trea designada ys #38 516 capitulo 12 _Regresion simple y correlacén Bisquda delos aleve ay 8 soley uso de Inecsaciin de una elaine pendent postiva Uso de la ecuacién de estimacién para una linea recta {Como podemos encontrar Ios valores de las constantes numéricas, ay 6? Para ilustrar este proce- 50, se usar la recta de la figura 12-6, Podemios encontrar a visualmente (la ordenada ¥) localizando el punto donde la recta cruza el eje ¥.En la figura 12-6, esto sucede cuando a~ 3. Para encontrar la pendiente dela recta, b, debemos determinar cémo cambia la variable depen- diente, ¥, al cambiar la variable independiente, X Podemos empezar por elegir dos puntos sobre la linea de la figura 12-6. Ahora, debemos encontrar los valores de X’y ¥ (las coordenadas) de ambos puntos. Podemos llamar alas coordenadas de nuestro primer punto (X;, ¥4) y (Xe, ¥) a las del se- undo, Al examinar la figura 12-6, podemos ver que (X,, ¥)) = (1, §) y 4) = (2 7). Entonces podemas calcular el valor de b, usando esta ecuacién La pendiente de una linea recta woh ’ (12-2) piss 2-1 2 oT = 2 reser clovece De esta manera, podemos conocer los valores de las constantes muméricas, a y 6, y escribir la cecuacién de la recta. La linea de la figura 12-6 puede describirse por la ecuacién 12-1, en Ja que a= 3y b= 2, Por tanto, Y=atox 12-1] Y=342x Usando esta ecuacién, podemos determinar el valor correspondiente de la variable dependiente par ra cualquier valor de X. Supongamos que deseamos encontrar el valor de Ycuando X'= 7. La res- puesta seria Y=atox 12-1] =34+20) =3+u = Si sustituye mis valores de Xen la ecuacién, observara que Ye incrementa al aumentar X.Por tan- to, larelacidn entre las variables es directa y la pendiente es positiva ‘Ahora consideremos la linea de la figura 12-7. Vemas que cruza el eje Yen 6. Por tanto, sabemos que a= 6, Siseleccionamos los dos puntos donde (Xj, ¥) = (0, 6) y (Xs, ¥4) = (1, 3), encontrare- ‘mos que la pendiente de Ta recta es, 12.21 122 Estimacin mediante ia recta de reresién 517 Aehcéninvesa: Observe que cuando b es negativa, la recta representa una relacin dnversa y la pendiente es nagat persee regia va (Yisminuye al aumentar 4). Una vez determinados los valores numéricos de ay b, podemos sus- titirlos en la ecuacion general de la Linea recta: at ox 12-11 =64(-9X =6-3x YeaioX _Suponga que deseamos encontrar el valor de la variable dependiente que corresponde a X'= 2 ‘Sustituyendo en la ecuacién 12-1 obtenemos: = (8) =6-6 =o Por tanto, cuando X= 2, Ydebe ser igual a0. Si consultamos la linea de la figura 12-7, podemos ver que el punto (2,0) siesté en la recta El método de minimos cuadrados suse maentco Ahora que hemos visto eémo determinar la ecuacién de una linea recta, pensemos c6mo calcular una ceunarecade —ecuacién para una linea dibujada en medio de un conjunto de puntos de un diagrama de dispersion, sin uCémo podemos “ajustar” una recta matematicamente si ninguno de los puntos esté sobre ella? Pax +a un especialista en estadistica, la linea tendra un “buen ajuste” si minimiza el error ente los pun- tos estimados en Ia recta y los puntos observados reales que se wilizaron para trazarla, Inveeuecn de ¥ ‘Antes de proceder, necesitamos introducir un nuevo simbolo. Hasta ahora, hemos utilizado Ypara representar Ios valores individuales de los puntos observados medidos a lo largo del eje ¥. Ahora de- rina Sunde th Y)=1.3) FIGURA 12-7 Linea recta con pendients negative 518 capitulo 12 _Regresion simple y correlacén Demos comenzar a usar ¥ (je gorre) para simbotizar los valores individuales de los puntos estima- dos, esto es, aquellos puntos que estén en la linea de estimacién. En consecuencia, escribiremos la cecuacién para la linea de estimacién como La linea de estimacién Y= a+ ox (123) Qué nea seajuta Enna figura 12-8, tenemos dos lineas de estimacidn que se han ajustado al mismo conjunto de tres rojo? puntos. Estos tres puntos dados, u abservados, se muestran en negro, Se han trazado dos lineas muy diferentes para describir la relacién entre las dos variables. Obviamente, necesitamos una forma de decidir cual de estas lineas nos proporciona un mejor ajuste Uso del era total ‘Una forma en que podemos “medir el error” de nuestra Linea de estimacién es sumanclo todas las pardeeminar diferencias. o errores, individuales entre los puntos estimados mostrados en circulo y 1os puntos ob- slmezraiste —servados mostrados en negro. En la tabla 12-2, calculamos las diferencias individuales entre las ¥ correspondientes y Jy luego encontramos la suma de estas diferencias. Tabla 122 ‘raficao) Griiea6) yi v-¥ Peet rooney ENN Taba 1255 Grafica Getic) =F v-i pra aners Fe Boga? a asl=a cs T2~ tno absolut total ao , © Poem essen } Po aes eee) as » Or oateerecs ena w Leeda 4 . tp Jie hee ows Lo fe reac eimsitn \ FIGURA 12-8 Dos ness de etimacén derenesajustads a les mismos tes puntos obsewvados se muestranevtores en ambos casos 12.2 Estimacin mediante ia recta de regresién 519 Dat mis peso aks partos mse tle el evar ‘usr so de mininese alos coin et FIGURA 12.9 Dos lneas de est: rmacin deremes ajustadas ales rismes puntos ‘observades; se estan erores en ambos cases, Un répido examen visual de las dos kinas de estimacién de la figura 12-8 revela que la linea de la grafica (a) se ajusta alos tres puntos de datos mejor que la linea de la grafica (b)." Sin embargo. nuestro proceso de suma de las diferencias individuales de la tabla 12-2 indica que ambas lineas des- criben los datos igualmente bien (el error total en ambos casos es cero). Por tanto, debemos concluir que el proceso de suma de las diferencias individuales para calcular el error no es una forma confia- ble de juzgar la bondad de ajuste ce una linea de estimacisn, El problema al sumar los errores individuales es el efecto de cancelacién de los valores positivos yy negativos. De esto, podriamos deducir que el criteio adecuado para juzgar la bondad del ajustese- fa sumar los valores absolutos {los valores sin los signos algebraicos) de cada error. Hemos hecho esto ena tabla 12-3. (El simbolo del valor absoluto son dos lineas verticales paralelas, ||} Como el error absoluto en la grafica{a) es menor que el error absoluto en la grafica (b). dado que buscamos 1 "minimo error absoluto”, confirmamos nuestra impresin intuitiva de que Ia linea de estimacién. de la grafica (a) es l mejor ajust. ‘Con base en este éxito, podriamos conclu que la minimizacién de Ia suma de los valores abso- lutos de los errores es el mejor crterio para encontrar un buen ajuste. Pero antes de sentirnos dema- siado cémodos con él, debemos examinar una situaciGn distnta La figura 12-9 nuevamente presenta dos diagramas de dispersin idénticos con dos lineas de es- timacién diferentes ajustadas alos tres datos puntuales. En la tabla 12-4, sumamos los valores abso- lutos de los errores y encontramos que la linea de estimacin de la grafica (a) es un mejor ajuste que la de Ia grafica(b). Intuitivamente, sin embargo, pareciera que la linea de la gréfica (b) es la mejor linea de ajuste, porque se ha movido verticalmente para tomar el punto medio en consideracién. La ‘grafica (a), por otra parte, parece ignorar completamente el punto medio. Asi que tal vez descarta- rfamos este segundo criterio para encontrar el mejor ajuste. Por qué? La suma de los valores abso- tos no hace hincapié en la magnitud del error. Parece razonable que mientras més lejos esté un punto dela linea de estimaciGn, més serio es el crtor. Prefeririamos ener varios errores absolutos pequefios que uno grande, como vimos en el ejem- plo anterior. En efecto, deseamos encontrar una forma de “penalizar” errores absolutos gran- des, para poder evitarlos. Podemos lograr esto si elevamos al cuadrado los errores individ Jes antes de sumarlos, Los cuadrados de cada término logran dos objetivos: 1, Magnifica, o penaliza, los errores més grandes, 2. Cancela el efecto de los valores positivos y negativos (un error negativo al cuadrado sigue sien- do positive) ‘Como estamos buscando la linea de estimacién que minimiza la suma de los euadrados de los exto- tes, a esto le Ilamamos método de minimos cuadrados. rt ” Poesia deinen (© Pose bes) se * Podemes rzanar qu esto os sal observar que mientras amas lineas de estimacin se separan el segundo y trex pu to de sags clerks) sna taeda gu ane del ries () se separa dl primer panto na tans mace me soe quel inca dea grfica(). 520 capitulo 12 _Regresion simple y corrlacén re Grif (a) Grafica (6) ees Pierre eran Crear) re -Aplicacion del criteria de poner es Tineas deestimacién ETN (= ar=( 3p = 8 Como enconar ma tensticnente roca de minince cadres que mejor Peiente de rea de repesion de in os easrados ‘dena de recta de eesion dein os esiadoe w-4 Q-27 = OF = 0 Q-3F == 4 “Fé + Suma de cuadrados Ti « Suma de cuadrades Apliquemos el criterio de mfnimos cuadrados al problema de la figura 12-9. Una vez. que organi- ‘amos los datos y sumamos los cuadrados de la tabla 12-5, vemos que, tal como lo pensamos, la Ie nea de estimacidn en la grfica (b) es el mejor ajuste. Usando el criterio de los minimos cuadradas, podemos determinar si una linea de estimacién es ‘mejor ajuste que otto, Pero para un conjunto de puntos a través de los cuales podriamos trazar un nd ‘mero infinita de lineas de estimacién, geémo podemos saber cudndo hemos encontrado Ja recta del mejor ajuste? Los estadisticos han desarrollado dos ecuaciones que podems utilizar para encontvar la pendien- tey la ordenada Ye la recta de regresisn de mejor ajuste. La primera formula calcula la pendiente: Pendiente de la recta de regresion de mejor ajuste SAY 01 = (12-4) donde, pendiente de la linea de estimacién de mejor ajuste ‘+ X= valores de la variable independiente valores de la variable dependiente media de los valores de la variable independiente media de las valores de la variable dependiente + n= mimero de puntos (es decir, el mimero de pares de valores de las variables independiente y dependiente) La segunda formula calcula la ordenada Yde la recta cuya pendiente calculamos usando la ecuacién 12-4: Ordenada ¥ de la recta de regresién de mejor ajuste a=P-ox i235) donde, + a =ordenada ¥ = pendiente de la ecuacién 12-4 12.2 Estimacin mediante la recta de regresién 521 Flea del més Bisquda ce valor ge Bisque cel var Determinacon dee reasende aia Ing media de los valores de la variable dependiente + Y= media de los valores de la variable independiente Con estas dos ecaciones, podemas encontrar la recta de regresi6n de mejor ajuste para cualquier con- junto de puntos para dos variables, Uso del método de minimos cuadrados en dos problemas ‘Suponga que la directora del Departamento de Salubridad de Chapel Hill est interesada en la rela- ‘ign que existe entre la antiguedad de un camién de basura y los gastos anuales de reparacién que debe esperar. Con el fin de determinas esta relacién la directora ha reunido informacion de cuatro de los camiones de la ciudad (tabla 12-6). El primer paso para calcular la recta de regresiGn de este problema es arganizar los datos como se resumen en la tabla 12-7. Esto nos permite sustituitlosdirectamente en las ecuaciones 12-4 y 12-5 para encontrar la pendicate y la ordenada ¥de la recta de regresion de mejor ajuste. ‘Con la informacién de la tabla 12-7, podemos usar las ecuaciones para la pendiente(ecuacién 12-4) y para la ordenada ¥ (ecuacién 12-5) con el fin de encontrar las constantes numéricas para la recta 4e rogresin, La pendiente es: b = 0.75 < renter st nes Y la ordenada Yes: a= Y- oF (125) = 6 - 0.75) = 2.25 = 3.75 <— cneatsy Ahora, para obtener la ecuacién de estimacidn que describe la relacién entre la antigitedad de un ca- ‘min y sus gastos anuales de reparacién, podemos sustituir los valores de ay ben la ecuacién gene- ral para wna linea recta Peat ox (23) = 3.75 +075X aes Numero del —Antigiedad del_———Gastos de ep. durante el time camién camign en aes (X) aio en cientos de délares (Y) renee roe Eerircctirs 101 5 7 1 3 7 107 3 ‘ 104 1 4 522 capitulo 12 _Regresion simple y corrlacén Uso deb een ‘seestmacén ove gens poe ‘ntighe.—_ Gastos de aad) reparacén(t) XY errors @ @ axe) res = 6 = Media de os valores dea variable depesiece oe Willones de dares Ganancia anual sgastados eninvestgacién (millones de een ydesarrllo delares) investigacisn, desarrollo ” mn Utitizando esta ecuacién de estimacién (que podriamos graficar como una recta de regresin si asi lo desearamos). a directora del Departamento de Salubridad puede estimar Ios gastos anuales de re- paracion, dada la antigiedad de su equipo. Si, por ejemplo Ia ciudad tiene un camién de 4 afios de antigiiedad, la directora podria usar la ecuacién para predecir los gastos anuales de reparacién para este camién de la siguiente manera 3.75 +0.75(4) 31543 6.75 «casos aks crprcin ented $575.09 Asi, se calcularia que la ciudad gesta aproximadamente $675 al afio en reparaciones de un camin de 4 aos de antigiedad. ‘Ahora podemos resolver el problema del inicio del capitulo, referente a la relacién entre el dine- ro gastado en investigacién y desarrollo y las ganancias anuales de la compafia quimica, La tabla 12-8 presenta la informacién de los 6 afios anteriores. Con esto, podemos determinar Ia ecuacién de regresin que describe la reac. "Nuevamente, podemos faciitar la recoleccién de a informacion necesaria si realizamos los céleu- Ios de la tabla 12-9, 122 Estimacin mediante areca de reresién 5:23 Cleo deb Cle de 2 Deterinain de Ibecncdn eeeatinacba Uso deb ean ceestinacn 99 promos Con esta informacion, estamos listos para encontrar las constantes muméricas ay b para la ecua- ign de estimacién. El valor de bes: EAY ~ nX¥ = 1,000 ~ (6))(30) 200 — (65) 1,000 900 200 — 150 100 50 (4 Y el valor de aes: ox (125) 0 — (2108) = 30-10 0 = orsrats Entonces podemos sustituir estos valores de ay ben la ecuacién 12-3 y obtener: Yo atx (123) = 20+ 2x Alutilizar esta ecua de estimacién, el vicepresidente de investigacisn y desarrollo puede prede- cir las ganancias futuras amuales a partir de la cantidad presupuestada para 1D. Sila compafia gasté 8 millones de délares para ID en 1996, entonces debi6 ganar aproximadam Iares durante ese ao 36 millones de d6- ee Gastos Aho eto Cena - 9 “ ea x Perera ror 1985 18 2s 1394 400 m 1983 20 16 987 B 1991 9 1990 a4 2x =o eta de os valores de la varie independiente Bal = 30 —Mesia de os valores dea variable depencinte 524 capitulo 12 _Regresion simple y correlacén Defies de a caa0sn de etna cin para redecr Una foma eve rls eaacin de va ema de vei carl eaacin de FIGURA 12-10 Dispesién de pur tos akededor de Tinea de regresisn F=20 +208) 20+ 16 36 «carsales ns dele Las ecuaciones de estimacién no son pronosticadores perfectos. En la figura 12-10, que grafica los puntos encontrados en a tabla 12-8, la estimacién de 36 millones de ganancia para 1996 es sélo so, una estimacién. Aun asi, la regresion si nos da una idea de qué esperar para el siguiente aio. Verificacién de la ecuacién de estimacién Ahora que sabemos cémo calcular la linea de regresién, podemos aprender cdma verificar nuestro trabajo. Una forma burda de verificar la exactitud de Ia ecuacién de estimacién es examinar la gré- fica de los puntos de la muestra. Como podlemas ver del problema anterior, la linea de regresién de la figura 12-10 parece seguir la trayectoria descrita por los puntos de la muestra, ‘Un método ms sofisticado surge de una de las propiedades matematicas de una recta ajustada por el método de minimos euadrados, es decir, los errores individuales positivos y negativos deben sumar cera, Usando la informacién de la tabla 12-9, verifique que la suma de los errores en el it ‘mo problema sea igual a cero. Esto se hace en la tabla 12-10. ‘Como la suma de Tos errores de la tabla 12-10 si es igual a cero, y puesto que la Linea de regre- sign parece “ajustarse” a los puntos de la figura 12-10, podemos estar razonablemente seguros de que no hemos cometido exrores mateméticos serios al determinar la ecuacién de estimacién para es- te problema Poe Fes dei tor 20428) individual ere pcm = Bo aie 1 EAE) = por enn = po+ aN) = Ro + 216) = bo+ 216) = por aia O Err total r a ® 8 8 Gretssinate pelos Kevan de eg F202 Se clean ilo ts) TPs es es ee ‘sa ce nti y era nines ste) 12.2 Estimacin mediante ia recta de reresién 5:25 Medicine con fabled os eu ‘in de sian Detricn yas del tier andr de a tstmaedn Ecuacn par ale. larelerr etre dela estinacin nese ise tne ec 12-6 FIGURA 12-11 Grados contastane tes de dispersion sd datos ountuaes yeletectoreul- ance en pec sién dela recta de regtesién El error estandar de la estimacion El siguiente proceso que debemos aprender en nuestro estudio del anlisis de regresién es cOmo me- dir la confabilidad de la ecuacion de estimacién desarollada, Aludimos a este tema cuando intro- ddujimos los diagramas de dispersin; en ese punto, nos dimos cuenta intuitivamente de que una It nea sera mds exacta como estimador cuando Tos datos puntuales caen cerca dela linea [como en la arafica (a) de la figura 12-11] que cuando los puntos estan alejados de la linea [como en la grifica (b) dela figura 12-11) Para medir la confabilidad de la ecuacién de estimacién, los especialstas en estadistica han de- sarrollado el error esténdar de la estimacin. Este error estandar se simboliza por s, yes similar a Ja desviacion estindar (que examinamos por primera vez en el capitulo 3), en cuanto a que ambas son medidas de dispersion, Recordara que la desviacion estandar se utiliza para medir la dispersién «de un conjunto de observaciones respecto ala media. E error estandar dela estimacién, por otra parte, mide Ia variabilidad, o dispersién, de los valores observados alrededor de la recta de re- sgresin. Aun asi, ver la similitud entre el error estandar de la estimacion y la desviaciin estindar si compara la ecuacién 12-6, que define el error estindar de a estimacién, con la ecuacién 3-18, que define la desviacién estindar: Error estandar de la estimacion [12-6] alores del variable dependiente «P= valores estimados con la ecuacién de estinacin que coresponden a cada valor de ¥ + 1 mimeo de puntos ukzados para ajustar la iea de regesion Observe que, en la ecuacién 12-6, la suma de las desviaciones al cuadrado se divide entre 1 — 2 y no entre n. Esto sucede porque perdimos dos grados de libertad al estimar la recta de rogresi6n. Po- demos razonar que, dado que los valores de ay bse obtuvieron de una muestra de datos puntuales, perdemos dos grados de libertad cuando usamos estos puntos para estimar la recta de regresién, ‘Ahora, no referizemos de nuevo al ejemplo anterior de la directora del Departamento de Salubri- dad que relacionaba la antigliodad de sus camiones con la cantidad de reparaciones anuales. Encon- ‘ramos que la ecuacisn de estimacién en esa situacién era 3.75 + 0.75X (asta eee de egses mas ns simi irs t Ieee ney Iter ee xyY 526 capitulo 12 _Regresion simple y correlacén Una foma ms = arcealalars, prey Wes deci, Error individual XY 37540754) v-¥) wy Creed c vor Seca e o 2 CG) @-8 er Poona 57 375+ @75)6) 025 207 38+ 078) 1.00 3 6 275+ (07598) 0.90 18 375+ 5H) 025 donde Xes a antigiedad del camién y Via cantidad estimada de reparaciones anuales (en cientos de délares) Para calcular s, para este problema, primero debemos determinar el valor de S(¥- i) esto es 1 numerador de la ecuacién 12-6, Hicimos esto en la tabla 12-11, usando (3.75 + 0.754) para ¥. siempre que fue necesario. Como 3(¥ ~ ¥)*es igual a 1.50, podemos usar la ecuacisn 12-6 para en- contrarel error estandar de la estimacién: (12-6) \i-2 = VO 0.866 — trove We del esinacin de $640 Uso de un método abreviado para calcular el error estandar de la estimacién Para usar la ecuactén 12-6, debemos hacer la tediosa serie de céleulos descritos en ta tabla 12-11, ara cada valor de ¥, debemos calcular el valor correspondiente de ¥ Entonces debemas sustituit es- tos valores en la expresioa S(Y— )? ‘Mortunadamente, podemos eliminar algunos pasos de esta tara al usar el camino corto propor- cionado por la ecuacién 12-7, esto es Método abreviado para encontrar el error estdndar de la estimacion (12-7) donde, + X= valotes de la variable independiente valores de la variable dependiente rdenada Ye Ia ecuacién 12-5 pendiente de la ecuacién de estimacién de Ta ecuacién 12-4 + n= mimero de puntos Esta ecuacién es un atajo, porque al organizar primero los datos de este problema para calcular la pendientey Ia ordenada ¥ tabla 12-7), determinamos cada valor que necesitamos pare la ecuacién 150 = Suma de ls euarados de los erores 12.2 Estimacin mediante ia recta de regresién 5:27 Irerereracén y wo eo estan Inesimacén Uso de spa mnt Ite aes ela inn erage Supesiones pa PRISTINE) Ceviones — amigue- ——_Gasts dad (2) dereparacién() XY x r eter 0 @) @ xB) er oF Pena) vai 5 7 5 5 ® 10 2 7 n ° ® 10 2 ‘ 1 ° 6 tot 1 4 4 1 16 MR eH oe ao 12-7, excepto ano: el yalor de SF La tabla 12-12 es una repetiién de fa tabla 12-7, afadiendo la coluraia ‘Ahora potemos consulta la tabla 12-12 y nuestros cilewlos anteriores de ay b, con ol fn de caleulars, usando el método abreviado (SFo aro a (27) = vos = 0.866 = croreninto se ste resultado es igual al obtenido usando la ecuacin 12-6, jpero pense en cuintos pasos nos ahorramos! Interpretacién del error estandar de la estimacion ‘Como ocurria en el caso dle la desviacion estandar, mientras mas grande sea el error esténdar de la estimacin, mayor seré la dispersion de los puntos alrededor de la linea de regresién, De manera in- vversa, si = D, esperamos que la ecuacién de estimacién sea un estimador “perfecto” de la variable ddependiente. En ese caso, todos los puntos caerian directamente sobre la linea de regresidn y no ha- bria puntos dispersos alrededor, ‘Usaremos el error estandar de la estimacién como una herramienta, de la misma forma que podle- ‘mos usar la desviaci6n esténdar, Esto es, suponiendo que los puntos observados siguen tna distribu- ‘in normal alrededor de Ia recta de regresin, podemos esperar encontrar el 68% de los puntos den- tro de *1s, (o mas menos 1 error estandar de la estimaci6n), el 95.5% de los puntos dentro de 2s, y e1 99.7% de los puntos dentro de +35, La figura 12-12 ilustr estos “limites” alrededor de la linea {de regresién, Otra cosa que debemos observar en Ja figura 12-12 es que el error estandar de la estimacién se mide a lo largo del eje ¥, y no perpendicularmente desde la recta de regresién. En este punto, debemos establecer las suposiciones necesarias, ya que pronto haremos algunas afit- ‘maciones probabilisticas, Especificamente’ 1. Los valores observads para Yeenen distribu normal alrededor de cada valor estimado de 2. La varianza de as distribuciones alrededor de cada valor posible de Yes la misma Siesta segunda suposicién no fuera cierta, entonces el error esténdlar en un punto de Ta reeta de re- ‘resis podria diferir del error estindar en otro punto. 528 capitulo 12 _Regresion simple y correlacén FIGURA 12-12 lies alededoe ela Ines dere gresién de =15, PY Bhe Uitzain oe spa genes inva ‘plain dees in eras de conianza par esimacen eu er estandat Inenak de conan ‘pan esimacen de dos eres, stir roasted, Yeast, ores +b gs) 25 87% ees une te siren ep ‘Ys dees une bear an ep) 215 8s eta es tte oe) Vail arene Intervalos de confianza para la estimacién (0 el valor esperado) Podlemos concebir al errr estndar de la estimaci6n como la herramientaestadistica que podemos usar para hacer afirmaciones de probabilidad acerca del interval alrededor del valor esttmado de J, dentro de cual cae el valor real de ¥. En la figura 12-12 podemos ver, por ejemplo, que hay una se- gutidad del 95.5% de que el valor real de Ycaerd dentro de dos errores estindat del Valor estimado de ¥, Llamanos a estos intervalos alrededor de la Yestimada, intervalos de conflanza para la est! ‘iactén. Tlenen la mista funcién que ls intervalos de conflanza en el capstulo 7 ‘Ahora, aplicanda el concepto de intervalos de conflanza para la estimacién al problema de la dt rectora del Departamento de Salubrida, sabemos que la ecuacién de estimacin usada para prede- cir el gasto anual de reparacion es: Y= 3.75 +0.75X YY sabemos que si el departamento tiene un camién de cuatro afios de antiguedad, predecimos que tendrd un gasto de reparaciones anuales de S675: 15 + 0.75(4) 75 + 3.00 = 6.75 < cao mule pecs pended $615 Por tiltimo, recordara que calculamos el error estandar de la estimacién como s, = 0.866 ($86.60). Ahora podemos combinar estas dos piezas de informacién y decir que estamos seguros aproximada- mente el 68% del tempo, de que el gasto real de reparaciones estara dentro de +1 error estandar de laestimacién de ¥. Podemos calcular los limites superior e inferior de este intervalo de confianza pa- ral gasto de reparacién de la siguiente manera: V+ 1s, = $675 + (1)($86.60) = $761.40 — nie sar deli oe preccen ¥— 1s, = $675 — (1) ($86.60) = $588.40 — nisin al eal te een Si, en lugar de esto, decimos que estamos seguros aproximadamente el 95.5% del tiempo de que el jgasto real de reparaciones estara dentro de *2 errares estandar de la estimacién de Y, podriamos calcular los limites de este nuevo intervalo de confianza de la siguiente manera: 12.2 Estimacin mediante ia recta de reresién 5:29 aes demasad pe apa usarla Sstrbuedn nema Uvtzacin de fie trove ferent vals 2 confaza| arab estinacon fan alaler Inenabs de ‘cnfanza para a Ys 2s, = $675 + (2)($86.60) = $848.20 — untesr $675 — (2)(S86.60) = $501.80 unteinire Recuerde que los estadisticos aplican Tos intervalos de confianza para la estimacidn basatos en Ta Aistribucién normal (1 68% paral, el 95.5% para 2s, e1 99.7% para 3s) solopara muestas grane des, esto es, cuando n> 30. En este problema, nueseo tamafio de muestra es demasiado pequeno (2 ) Por tanto, nestras conclusiones son inexactas. Pero de todos mods el método que hemos ui- lWzalo demuestra el principio involucrado en los intervalos de confianza para la estimacién Si deseamos evitarinexactitudes ocasionadas por el tamafo de Ta auesra,necesitamos usar Ta Aistrbucién ¢ Reewerde que esta distibucidn ¢ es apropiada cuando nes menor que 30y la desvise cin esténdar de la pablacién no se conoce. Estas dos condiciones, se cumplen puesto que n= 4, y ‘es una estimacién y no la desviacin esténdar conocida de la poblacién, ‘Ahora suponga que a directora del Departamento de Salubridad desea tener una seguridad apro- ximadla del 90% de que los gastos anuales dle reparacién caerén en el ntervalo de la estimacién. .C6- 1mo caleulamos este intervalo? Como la tabla de distrinucin (se concentra en la probabilidad de que l pardmetro que estamos estimando caerd fuera del intervalo de prediceién, necesitamos consular latabla 2 del apéndice en la colurma de 100% ~ 90% = 10%. Una ver localiza la coluron, bus- ‘camos el renglin para 2 grados de ibertad; porque n= 4 y sabemos que perdemos 2 grados de I bertad (al estimar los valores de ay), entonces n — 2 = 2. Encontraremos que el valor apropiado 10s 2.920. ‘Ahora, usando este valor de & podemos hacer un céleulo més exacto de los Isnites del intervalo de la estimacin, dela siguiente manera P+ ts = $675 + (2.920)($86.60) = $675 + $252.87 = $927.87 — unten ¥ ts.) = $675 — (2.920) $86.60) = $675 — $252.87 $422.13 — tinienrer Asi, la ditectora puede estar 90% segura de que los gastos anuales de reparacién de un camién de cuatro afios de antigledad estarén entre $422.13 y $927.87. ‘Debemos resaltar que estos intervalos de la esiimacién es lo que se espera que ocurra. De hecho, los especialistas en estadistica pueden calcular el error esténdar exacto para calcular intervalos de es- ‘imacién s,, usando la formula: donde X; es el valor especifico de X para el que deseamos predecir el valor de ¥ ‘Observe que si usamos esta forma, s, sera diferente para cada valor de Xj. En particular, si Xy esti lejos de Z, entonces 5, seré grande, porque (X — X)* seré grande. Si, por otra parte, Xp esta cer cade X y nes moderadamente grande (mayor que 10), entonces 5, estaré cerca de s, Esto sucede porque 1/n es pequeno y (Xy — X)* también lo es. Por tanto, el valor dentro de la raiz cuadrada es cercano 1, la raz euadrada es atin mas cercana a1 y 3, estard muy cerca de s, Est justifica nues- tra uilizacion de s, para calcular intervalos de estimacién aproximados. 530 capitulo 12 _Regresion simple y corrlacén SUGERENCIAS Sugerencia: antes de dedicar tiempo al Y celoulo de una recta de regresidn para SUPOSICIONES un conjunto de datos, tiene sentido dibu- ERIE jar un diagrama de dispersion para esos puntos. Esto permite investiga los puntos distantes porque {guiza algunos datos no representen el problema que se de- sea resolver, Por ejemplo, el gerente de ua cadena de res- taurantes cerca de a universidad, quien quiere examina la hipdtesis de que las ventas a la hora del almuerzo bajan en. dias calurosos, puede encontrar que fos datos reunidos du- rante vacaciones y dias festivos distorsionan una regresién {que de otra manera seria util, No pierda de vista que es pe- ligroso escoger entre los datos sdlo porque se “ajusten” 0 ‘no a una idea preconcebida de cual debe ser la conclusién, Enel analisis de regresin la seleccidn cuidadosa y el uso consistente de la mejor base de datos leva ala ecuacién de estimacién més valiosa Ejercicios de autoevaluacion EA 12-2 Pact siguinte conjuto de datos a) dibuje un diagrama de dispersion, 3) dsatotle fa eruacon de estimation qu 8) promostique Ppa X10. 15-20 x uw wot Y 62 46 12 ‘A menuido, quienes hacen la contabilidad d EA 123 1e mejor describa los datos, Cr 5 90 35 65 93 8S Sa fe costos estiman los gastos generales con base en el nivel de produccién, En Standard Knitting Co. han reunido informactén acerca de los gastos generales y las uni= dads producidas en diferentes plantas, y ahora desean estim los gastos generales futuros, tuna ecusacién de regresion para predecit Gatsgenenies 191 10 2 15S DHT Uniades © 2 3 8 3% 8 & 0 7 @ a} Desarolle una ecuacion de regresion para contabilidad de costs. 5) Pronostqie los gastos generates cuando se producen 50 anidades «)_ Calcul el error estindar de la estimacién, Conceptos basicos 1213 Para os siguientes datos: a) ace un diagram de dispersén, 3) desartolfe a ecuacion de estimaci que mejor describa los dats c} pronostique Ypara X= 6, 13.4, 20.5, x 07 a8 56k Sta? Y wes Ika x 6 39a 7 wk Y sods ang 71S «126 SO] BAR 12-14 Usando tos datos dados acontinuacsn, a) trace el diagrama de dispersion, 1). desarlle a eciacin de extimaciin que mejor describa los datos, 6) pronosique Ypara X= 66,1 x ow 6 @ 5s 2 4 Yo-ie 80a) 28 12.15 Dado siguiente conjunto de datos a) encientela linea de mejor ajst, 122 Estimacin mediante la recta de regresién 53.1 Aplica 532 mi26 mia mis 1) calcule el ertorestindar de la estimacisn, )encuentee tn intervalo de la estimacisn aproximada (con el 95% ble dependiente dado que Xes Ad x wD Yo 4 35 M5 aT 0331 ot de nivel de confianza) para la varia- nes Las ventas de linea blanca varfan segin el estado del mercado de casas nuevas: cuando las ventas de ca sas nuevas son buenas, también lo son las de lavaplatos, lavadoras de ropa, secadoras y refrigeradotes. Una asociacin de comercio compilé los siguientes datos historicos (en miles de unidades) de las ventas de linea blanca y la construceién de casas, Construceén de Ventas de linea casas (ies) blanca (miles) 20 so 25 35 32 60 36 19 3 2 40 Wn a2 a4 46 90 48 97 so 109 4) Desarrolle una ecuacién para la relacién entre las ventas de Iinea blanca (en miles) y a construccién de casas (en miles) 1) Interprete la pendiente de la recta de regresién. ) Caleule e interprete el error estandar de la estimacisn, 4) La construccion de casas durante el afo préximo puede ser mayor que el intervalo registrado: se han pronosticado estimaciones hasta de 8.0 millones de unidades, Calcule un intervalo de prediccién de 90% de confianza para las ventas de kina blanca, con base en los datos anteriores y el nuevo prons- tico de construccidn de casas Durante partidos recientes de tenis, Diane ha observado que sus lanzamientos no han sido eficaces, pues sus oponentes le han regresado algunos de ellos. Algunas de las personas con las que juega son bastante alas, asi que se pregunta si la estaura de su contrincante podria explicar el mimero de lanzamientos no regresados durante i partido. Los siguientes datos se sacaron de cinic partidos recientes, Estatura del 0 ente (HW) Lanzamientos grasa 50 55 60 6s 50 4) [Cuil es la variable dependiente? 1) Cul es la ecuacion de estimacién de minimos cuadrados para estas datos? ) {Cudles su mejor estimacion del nuimero de lanzamientos no regresados en su partido de mafiana con 'un oponente de 5.9 pies de estatura? Un estudio elaborado por el Departamento de'Transporte de Atlanta, Georgia, acerca del efecto de los pre ‘dios de boletos de autobiis sobre el nimero de pasajeras produjo los siguientes resultados: 2 6 3 0 7 Preciodelboleto (centavos) 253035] SSS wD Pasajeros por 100 mils 800««780««780—««6GO_« HD «GOD DH a) Grafique estos datos 1) Desarrollo la ecuacidn de estimacién que mejor describa estos datos. Capitulo 12 Regresion simple y correlacion mi m1220 mize wm 1222 )_ Pronostique el mimero de pasajeros/100 millas sl precio de boleto fuera de 50 centavos, Utiice un intervalo de prediceién del 95% de aproximacién, William C. Andrews, consultor de comportamiento organizacional de Victory Motorcycles, ha diseéiado tuna prueba para mostrar ls supervises de la compaia fs peligros de sobtevigilara sus trabajadores Un trabajador de a Knea de ensamble tiene a su cargo una serie de tareascomplicadas, Durante el desem- pefio del trabajador, un inspector lo interrumpe constantemente para ayudarlo a teminar las tareas. Ela bajador, después de terminar su trabajo, recibe una prucba sicol6gica diseiada para medit Ia hostiidad del trabajador hacia la autoridad (una alta puntuacidn implica una hosilidad baja). A ocho distintos tar bajadores se es asignaron las taeas yIuego se les interrumpio para darles instrucciones vies un mime- +0 variable de veees Qinea 3). Sus ealficaciones en la prueba de hostilidad se dan en el renglon ¥. X(oimero interupcione al trabajador) 5 0 0 15 15 2 2% 2% Y ealifiacin del vabajader en host soa 7 Be oR OS a) Grafique estos datos 1) Desarrole la ecuacin que mejor describa a relacién entre el niimero de interrupctones y la califiea- cid de la prueba )Pronastique la calificacin esperada de la prueba si el trabajador es intertumpido 18 veces, El editor en jefe de un importante periédico metropolstano ha intentado convencer al duetio para que me- joe las condiciones de trabajo en la imprenta. Fsté convencido de que, cuando trabajan las prensas, el gra- do de ruido crea niveles no saludables de tensidn y ansiedad. Recientemente hizo que un sicdlogo reali- ‘zara una prueba durante la cual situaron a los prensistas en cuartos con niveles variables de muido y Iuego les hicioton otra prucha para medi niveles de humor y ansiedad, La siguiente tabla muestra el indice de su grado de ansiedad o nerviosismo y el nivel de ruido al que se vieron expuestas (1.0 es bajo y 10.0 es alto) Nive de rid 4301 2 6 7 2 3 Gradedeansiedad 393816 kB a) Grafique estos datos b) Desarrolle una ecuacién de estimacidn que deseriba los datos. 6). Pronostique el grato de ansiedad que podriamos esperar cuando el nivel de nuido es 5 ‘Una compafa administra a sus vendedores en capacitacion una prueba de ventas antes de salir a trabajar. La administracin de la compaifaestéinteresada en determinar la relaciin ene las calificaciones de la prueba y las Ventas logradas por esos vendedores al final de un alo de trabajo. Se recolectaron los siguien- tes datos de 10 agentes de ventas que han estado en el campo un afo. Num. de vendedor Calif dea prueba (7) Mum, de undades vendidas (5) 1 26 8 2 a7 140 3 ae 5 4 “5 180 5 as 100 6 50 135 7 ae 15 8 30 16 9 40 us 10 3a 150 4) Encuente la recta de regresién de mnimos cuadrados que podsta usarse para predect las ventas. a par Ur de ls calficactones en la prueba de capacitacin. +5) En cuénto se incrementa el niimero esperado de unidades vendidas por cada incremento de 1 punto fen una calificacion de la prueba? )Utiice la recta de regresidn de mifnimos cuadrados para predecir el nimero de unidades que venderia tun capacitando que obtuvo una calificacién promedio en la prucba, El consejo municipal de la ciudad de Bowie, Maryland, ha recabado datos del nimero de accidentes meno- res de trafic y el rimero de partidos de ftbol de jovenes que tienen Iugar en la ciudad el fin de semana Apatides defitbo = 21S Yiaccidentesmenors) = € «84ST 122 Estimacin mediante la recta de regresién 533 m2 mize a) Grafique estos datos. 1). Desarrolle la ecuacidn de estimacién que mejor describa estos datos. ) Pronostique el mimero de accidentes monores de tsfico que ocurrcén en un fin de semana durante ol cual tendrn lugar 33 partidos de ftbol en Bowie 4) Calcul el error estandar de la estimacién, En economia, la fincion de demanda de un producto a menudo se estima mediante una regresion de la cantidad vendida (Q) sobre el precio (P). La compaiia Bamsy esta tratando de estimar la funcién de de- ‘manda para su nueva mufteca “Ma’am’, y ha recabado los siguientes datos: > 100 «7S 1604S 9 5561S a). Grafique estos datos. 1) Calcule la recta de regresién de minimos cuadrados, () Trace la recta de regresis ajustada en su grafica del inciso a) Una compatia fabricante de Hantas etd interesada en eliminar contaminantes de los tubos de emisién de su fabrica y el costo es una preocupacién. La compania ha recolectado datos de otras companias respec toa monto gestado en medidas ambientales y I cantidad de contaminantes eliminada que resulté (como porcentaje de la emisién total). Dinero gastado miles de délars) 84 102165. gag Porcentaje de contaminantes 358-1827 52 HB SR BA Dinero gastado miles de délares) 184 167193287123 Porcentaje de contaminantes 254316 27M SRO 289 a) Calcul la eeuacidn de egresién. 1) Pronostique el porcentaje de contaminantes eliminados si se gastan 20,000 en medidas de contral ) Calcul el error estindar dela estimacién, Soluciones a los ejercicios de autoevaluacion 534 EA 122 a b) x y ” we ims 108 285 530 nS 5 1581 ima 684 xy = T50 Capitulo 12 Regresion simple y correlacion X= 140/10 = 14 Y= 700/10 =7.0 EAY=nikP _ 1,035.0 ~ 10(14)(7.0 °° Sera 7 2038 — 104) 6.7051 a= Y— sR =70- (0.70514) = -28714 Entonces, = ~28714 + 0.7051X. Si usa un paquete de regresién de compitadora para hacer los caulas, es posible que obtenga f= 29718 + 07051¥ Esta pequesia diferencia ocurre porque la mayoria de los paquetes de software hacen sus céleulos con mas de diez lugares decimales, y aqui se redonded b antes de calcular a, Para cast todas las situacio- nes practicas, esta pequetia diferencia (es decir, a= ~2.8724 en lugar de ~2.8718) es intrascendent, ) X= 10, f= —2.8714 + 0.7051(10) = 4.1796 X= 15, f= —2e714 + 0.7051(15) = 7.7051 X= 20, f= —28714 + 0.7051(20) = 11.2306 EA 12.3 Eneste problema, Y= gastos generales y X= unidades producidas. a x y xr x Yr o 1m 76a 7600 Beat a 7 7140 764 28900 2 2 wane 208 rises 8 155, 5s ims rams 56 280 15,680, 336 75.400 8 wn e7ar isn 29929 8 ae 1a aan 54756 30 16 380 356 37 3 581 23.409 0 ae a0 st sas skis aay=tsiT 420 x 2 10 SNY= nk _ 84541 — 10(42)(192.2) _ ZY ak" 18.228 — 1042)" a= P~ eX = 1922 ~ 6.4915(42) = —80.4430 Entonces, 7= ~80.4430 + 6.4915 con software: = ~80.1428 + 6.49154) bw) f= 80.4430 + 6.49 44.1320 os aaa [S.UeA— BO ALGO SAD) — FARTS BAS AT) 8 10.2320 12.3 Analisis de correlacion ‘Quthaceelanilss’ Elanalisis de correlacién es la herramienta estadistica que podemos usar para describir el gra- do en el que una variable esté linealmente relacionada con otra. Con frecuencia, el andlisis de co- relaciGn se utiliza junto con el de regresién para medir qué tan bien la kinea de regresién explica los cambios de la variable dependiente, ¥. Sin embargo, la correlacin también se puede usar sola para rmedir el grado de asociacion entre dos variables. 123° Anélisis de correlacién = 535 Dos meds ue dase a ca Desarallo dl oef= cent de deterrina ‘cn murs Tacin poeta Los estadistics han desarrollado dos medidas para describir la cortelacién entre dos variables: el coeliciente de determinacién y el cocticiente de correlacidn. Presentar estas dos medidas de asocia- cidn es el objetivo de esta seccién, El coeficiente de determinacién El coeficiente de determinacién es la principal forma en que podemos medir el grado, 0 fuerza, de Ta asociacin que existe entre dos variables, Xy ¥ Debido a que usamos una muestra de puntos pa +a desarrollar rectas de regresién, nos referimas a esta medida como el coeficiente de determinacién muestral El coeficiente de determinacién muestral se deriva de la relacién entre dos tipos de variacion: la variacion de los valores ¥en un conjunta de datos alrededor de 1. Ia recta de regresion ajustada 2, su propia media, El término variacidn en estos dos casos se utiliza en su sentido estadistico usual para expresar “la ssuma de los cuadrados de un grupo de desviaciones". Usando esta definicién, entonces, es razona- Dle expresar la variacién de los valores Yalrededor de la recta de regresidn con esta ecuaciGn’ \Variacién de los valores de Y alrededor de la recta de regresion ‘Variacién de los valores de Y alrededor de la recta de regresién = 3(¥— H}* [12:8] La segunda variacién, la de los valores de Yalrededor de su propa media, esta determinada por: Variacién de los valores de Y alrededor de su propia media ‘Variacién de los valores de Yalrededor de su propia media = S(Y— 1)? [12-9] Uno menos la razén entre estas dos vartaciones es el coeficiente de determinacién muestra, que se denota por 1? Coeficiente de determinacién muestral 2, 2 i . ’ 57a 12-19} Las siguientes dos secciones mostraran que 2”, segiin la definicién de la ecuacién 12-10, es una me- dida del grado de asociacién lineal entre Xy ¥ Una interpretacién intuitiva de r? Considere las dos formas extremas en las que las variables Xy ¥’pueden relacionarse, En a tabla 12-13, cada valor observado de Y’cae en la linea de esimacién, como puede verse en la figura 12-13 Esta es una corrlacidn perfect. La ecuacidn de estimacion apropiada para estos datos es fil de determinar. Dado que Ia recta de regresidn pasa por el origen, sabemos que la ordenada Yes cero; como ¥se incrementa en 4 cada ver que Xe incrementa en 1. la pendiente debe ser igual a4, Por tant, la recta de regresion es Poax 536 capitulo 12 _Regresion simple y corrlacién FIGURA 12-13, Comelacion pera taenve Xy todos los puntos caen ena rec eregesion Desaral del oe cere de deen ‘cen dela mura ‘ael jen ce una ‘enelacén pateca Pen Punto de datos ValordeX Valor de ¥ eon tx oer 2nd a 4 se 6 re a 51M F715 -wesia delossaloresde ¥ 2 2% r % o . 2s 4s 6 7S ‘Ahora, para establecer el coeficiente de determinacién de la muestra para la recta de regresién de la figura 12-13, primero calculamos el numerador de la fraccién en la ecuacién 12-10: ‘Variacién de los valores de Yalrededor de Ia recta de regresién = 3(Y— 4? (128 = 30% SON cana Yea sea dengan bares ery Tecan onc Entonces podemos encontrar el denominador de Ia fraccién Variacién de los valores de Yalrededor desu propia media = 3(Y— ¥)? 1129) (4 18)* (8 18)* (12 - 18)? (16 — 18)* (20 — 18)* (24 - 18)? (28 — 18)* (32 - 18)* O12 — a 123° Anélisis de conelacin = 537. Pre ‘Dato puntual Valor de X Valor de ¥ eer eas perpen ae FIGURA 12.14 Comelacnces 4 entre Xy Flos mismosvalores 2 de Vaparecen parecisintosvale- = Ly 4 4 4 1 1 _y resde x reo @ os 6 7 8 Al sustituir estos valores en la ecuacidn 12-10, podemos encontrar que el coeficiente de determina- cin de la muestra es igual a +1 ee (12-1 Q ~ Br 10 1 < cate terri de rae cana nayur coin rec De hecho, res igual a + siempre que la recta de regresin sea un estimador perfect. ‘Una segunda forma extrema en que las variables Y’y Y pueden relacionarse es aquella dande los puntos podrian caer a distancias iguales en ambos ladas de una linea de eegresion horizontal, como se ve en la figura 12-14. Este canjunto de datos consist en los ocho punts registrados en la abla 12-14 Enla figura 12-14, podemos ver que la recta de regresién de minimos euadrados apropiada para estos datos esté dada por la ecuacién Y= 9, La pendiente de la recta es cero, porque los mismos va- lores de Yaparecen para todos los valores de X. Tanto la ordenada Ycomo la media de los valores de Yon iguales 3 9, Ciao eleowiceve Ahora calcularemos las dos variaciones usando las ecuaciones 12-8 y 12-9, para poder calcular Ge dewminacin deel coeficiente de determinacién de la muestra para esta recta de regresién. Primero calculamos la va- farwsizs ars slacion de los valores de Yalrededor dela Kinca de estimacién Y= 9 538 capitulo 12 _Regresion simple y correlacén Invepretaci de lesvabres 7 ‘ea fama de inte rear elcviene Se deterninacén de lamest Variacién de los valores de Yalrededor de la recta de rogresion = X(Y— 1)? 12-8] (6-9)? = (-3)* (2-9 =( 3)'=9 (6-9 =(-3)*=9 (2-9 =( 3)? =9 (6-9)? = (-3)°=9 G2-9%=( 3%=9 (6-9)? = (-3)?=9 (2-9%=( 3%=9 Rex HF Vatiacion de tos valores de Valrededor de su propia media = (— if? 124] (6-9%= (3 (2-9 =( 3)%=9 (6-9)%=(-3)*=9 (2-92 =( 3)@=9 (6-92=(-3)?=9 (2 -9)%=( 3)@=9 (6-92=(-3)?=9 (2-9%=( 3)*=9 T—sy- 7 Sustituyendo estos dos valores en la eeuacién 12-10, vemos que el coeficente de determinacién de Ta muestra es 0 12-10] Por tanto, el valor de r? es cera cuando no hay correlacisn, En os problemas con que se topa la mayaria de los responsables dela toma de decisions, 4 en alguna parte entre estos dos extremas de 1 y 0, Recuerde, no obstante, que r? cercana a 1 indica tina fuerte correlacidn entre X’y Y, mientras que r? cercana a 0 significa que existe poca correlacién entre estas dos variables Un punto que dehemos resaltares que 7 mide slo la fuerza de una relacidn lineal entre des variables. Por ejemplo, i tviéramos mitchos puntos Xy ¥.y todos cayeran en la circunferenia de tn crculo, aunque disperss aleatoriamente,claramente habria una relacidn entre estos punts (o- dos estén en el mismo circulo). Pera en este caso, si calculéramos r*, resultaria estar cerca de cero, Porque los puntos no tienen una relacion lineal entre ellos cae Otra interpretacién de r? Los estaisticos también interpretan el coeficiente de determinacion de la muestra viendo la cant dad de la variacion en ¥ que se explica por Ia recta de regresidn. Para entender est significado de +r*, consideremos la recta de regresidn de la figura 12-15. Aqui, separamos un valor observado de ¥, rostrado como el ciculo negro superior. Si samos la media de los valores de 1, para etimar este 123° Anélisis de conelacin = 539. Desa expends no extada Varian exokeads todo abreviado parle? FIGURA 12.15, Desvictén total desviacén ex cada ydesiacion no expl cada para un valor observedo ay valor de ¥ del efreulo negro, entonces la desviacién total de esta Ylejos de su media serfa (Y— 7). ‘Observe que si usamos la recta de regresin para estimar este valor de Ydel eculo negro, obtendriamos ‘una mejor estimacin, Sin embargo, aun cuando la recta de regresin justifica, o explica (7— 1} de la desviaci6n total, la porcisn restante de la desviacién total (Y— J) sigue sin explicarse Pero consideremos un conjunto completo de valores Y observados en vez de un solo valor. La vie slacién total, esto es, la summa de los cuadrados de las desviaciones totales, de estos puntos alrededor de su media seria xr [129] yyla porcién explicada de la variacién total, ola suma de los cuadradas de las desviaciones explica- das de estos puntos alrededor de su media, era: su YP La porcién no explicada de la variacin total (la suma de los cuadrados de Tas desviaciones no ex- plicadas) de estos puntos respecto a su recta de regresidn seria: s- HF [12-8] Si deseamos expresar l fraccién de la variacin total que queda no explicada,dvidirfamos la vari cid no explicada, 3(Y— 2), entre fa variacisn total, 3(Y— PY, dela siguiente manera xe f? s0- y, finalmente, si estamos de Ila fraccién de la variacin total que sigue no explicada, tendremos la {ormula para encontrar Ia fraccién de la vaiacién total de Y que es explicada por la recta de regre- sin, Esa formula es — Frecin de weiner rains x= LY— Fy la misma ecuacién que usamos para calcular 2, Bs en este sentido que mide qué tan bien Xexpli- ca ¥ esto es, el grado de asociacién entre Xy ¥ Una abservacisn final respecto al calculo de 7 Para obtener usano las ecuaciones 12-8, 12-9 y 12-10, se requiere una serie de catclostediosos; para evitaros, los estadisticos han desarolado ‘na versin abreviada, usando valores que habriamos determinado de antemano en el andiss de e- resin, La frmala es: Pe [12-19] Método abreviado para obtener el coeficiente de determinacién de la muestra asY + BAY a IF -aF Pca por elma certs ——> (24111 ato dea cree Dessnts non, ‘eas pea ferlomcr ech) 540 capitulo 12 _Regresion simple y correlacén en Crrrant any Pernice ‘plac del ‘tod abrevid Inveretacion de axe = 30 Mesa de osyalres ola variate sepencente coeficiente de determinacién de la muestra + a= ordenada Y pendiente de la linea de estimacién de mejor ajuste numero de puntos de datos valores de la variable independiente valores de la variable dependiente ‘media de Ios valores observados de la variable dependiente Para ver por qué esta formula consituye un modo abreviao, la aplcareios a a regresin que r- laciona los gastos de investgacion y desaroo on las ganancias. En la abla 12-15, repels ls columnas dla tabla 129, afadiendo una columna ¥, Recuerde que cuando encontramos los valo- res para a yb a recta de egresion para este problema ea: Pam9+2x UUsando esta eta yla informacion de a abla 12-15, podemos calcula de la siglente manera: 2, a+ OxY- oF? EY =a _ (20)(180) + (2)44,000) ~ 5.642 — (6) 30)" 211 (6)(30)? 00 + 2,000 ~ 5.400 Sot — 5.400 200 242 = 0.826 = cortcme vrs cela mani Asi, podemos concluir que la variacin en los gastos de investigacion y desarrollo (Ia variable inde- pendiente 4) exptica el 82.6% de la variacién en las ganancias anuales (la variable dependiente J). 123 541 (il de roa a troblera de inv ncn desaroto| FIGURA 12.16 Vatiascaracters ties de fel cet cient de corel «ign ae a muesta El coeficiente de correlacion El coeficiente de correlacién es a segunda medida que podemos usar para describir qué tan bien ex- plica una variable a otra. Cuando tratamos con muestras, el coeficiente de correlacion de Ja muestra se denota por ry es la raiz cuadrada del coeficiente de determinacion de muestra: Coeficiente de correlacién de la muestra ve (12-12) ‘Cuando la pendiente dela ecuaci6n de estimacién es posiiva, res la raiz cuadrada posiiv, pero si bes negativa, res la riz cuadrada negativa, Entonces el signo de rindica la direccién dela rela- cin entre las dos variables Xy ¥. Si existe una relacin inversa —esto es, si ¥disminaye ala rentar A, entonces rcaeré entre Dy —1, De manera similar, si existe una relacion directa (iY ‘aumenta al aumentar 4), entonces rserd un valor en el intervalo de 0 a I. La figura 12-16 ilustraes- tas caracteristcas de El oeficiente de correlacn es més dificil de interpretar que Que significa r= 0.9? Parares- ponder esta pregunta, debemos recordar que r= 0.9 eso mismo que ? = 081. Esto ikimo nos dice «qe el 81% de la variacion en Yes explicada por la recta de rereston. De esta forma, vemos que r es solo la raz cura de 7, y su significado es qué tanto se relacionan ls variables xy x. Por lo que r= 0.9 significa que el 90% de los datos se relacionan entre st ‘Ahora encontremos el coeficiente de corelacion del problema que relciona gastos de investiga- con y desarrollo con ganancias anuales. En la seccidn anterior. encontramos que el coficente de dleterminacin de la muestra es * = 0.826, de manera que podemos susttir est valor en a ecus- con 12-12 y encontrar que reVP [12-12] = V0.826 0.909 « concen eee mana Larelacion entre las dos variables es directa y la pendiente es positiva; por tanto, el signo de res po- sitive, GP eoaryroas a psn es 542 capitulo 12 _Regresion simple y correlacén SUGERENCIAS Advertencia: como ya sabe que el coefi- Y ciente de determinacién (14) es el cua~ SUPOSICIONES drado del coeficiente de correlaciin, 5, MERE debe tener cuidado de usar todo, menos las correlaciones ms altas, como base para tomar decisio- nes, Sugerencia: si se encuentra que la cantidad gastada en peliculas se correlaciona a 0.6 con el ingreso familiar, pa- 110 que de cero). Pero cuando se eleva al cuadrado, se ve que es responsable sélo de 0.6 X 0.6 = 0.36 0 el 36% dela variacién en la cantidad de dinero que gastan las familias enpeliculas. Si disena su estrategia de mercado diigida s6- Jo a familias con altos ingresos perder muchos clientes potenciales. Sugerencia: en su lugar, intente averiguar qué sms influye en las decisiones de peliculas de las familias. rece una correlacin bastante fuerte (0.6 esté mis cerca de Ejercicios de autoevaluacién EA 12-4 Las librerias de la universidad han vendid el libro Beliove or Not: Wonders of Statistics Guide durante 12 semestes y desean estimat la relacisn entre las ventas y el nsimeto de secciones de estadistica elemen- tal que se ensefian en cada semestre, Se recolectaron los siguientes datos: ‘Ventas (unidades) Be om Namero de seciones B07 68 6 UM OR Ventas (unidades) Ss 2 » 8 0 ® Namero de seciones mB oR Bo wo a) Desarrolle la ecuacién de estimacién que mejor se juste a los datos, 'b)Caloule el coeficiente de determinacion de la muestra y el coeficiente de correlacion de la muestra, Calcule el coeficiente de determinacién de la muestra y el coeficiente de correlacin de la muestra para ls datos del ejercicio EA 12-3, EA 125 Conceptos basicos 12.25 Qué tipo de corelacin (postive, negativao ceo} debe esperrse de esas vasacones? 4} Habidad de fos supersoresyproduccion desis subordinados. 3). Bdnden el prime abajo de empo completo y af de eduacin 8) Peso y preston sanguinea 4}. Pomedio genre niversidady estatra det estutante Enlos siguientes ejricis, calcul cl coefcente de determinacdn dela muestra el coficiente de co- rrelacén para los eercicios especiicados Catele ef cnefcente de determination de a muestra y el coficlent de corel para los datos del sjeciio 1217 ateate el coeiciente de determinacon de la muestay el coficiente de crrlacion para fos ats dl ject 1218, Gitete el coeiiente de determinacin de a muestay leone de corel para fos ats dl sjecicio 1218, lteteelcoeiciente de determinacn de la muestay lcoeiciente de crrlacin para fos datos dl eject 1220, tet el coeicente de detrminacin de arcs y leona de corelacin para fos datos dl sjecicio 1221 m2 m2 m2 mi229 m 1230 ‘aciones 12-31 El Bank of Lincoln est interesado en reduc el tempo que las personas esperan para ver a su banguero personal, También e interesa la relacin entre el tempo de espera (J) en minutos y el ndmero de banque- tos atendiendo (X). Los clientes se seleccionaron al azar con los datos siguientes: 543 123 Andlisis de cortelacion x2 3 8 6 2 6 1 3 6 § 3 2 4 Yous "3 32 64 "6 32 87 WS 82 12 94 8 a2 4) Caleule la ecuacién de regresion que mejor se ajustaa estos datos. 1) Caleue el coefciente de determinacién de la muestra yelcoefciente de corelacién de muestra 1232 Zippy Cola est estatiandoel efecto de su ultima campata publictaria, Se escogieron personas al azar y se les Ham para preguntarles cunts lata de Zippy Cola habian comprada la semana anterior y cans anuncios de Zippy Cola habianlidoo visto duante el mismo pesiodo Xtvimerodeanuncs) 3 T4201? Yatascompradas) now 8 4 7 6 3 4) Desarolle la ecuacién de estimacicn que mejor ajuste los datos 1). Caloule el coeficiente de determinacién de la muestra y el coefciente de correlacién Soluciones a los ejercicios de autoevaluacién FA 124 Eneste problema, Y= ventas y X= miimero de secciones, a x y x” x e 3 B 98 9 1088 7 38 266 % nase 6 a uae 6 576 6 6 366 6 a7 10 3 320 100 2708 2 5 a0 148 2s 2 6 0 148 425 3 2 11086 168 ene 2 » He 148 aa 3 8 a3 168 3.968 4 50 00 196 2.500 15 % 1.185 ns 5241 KT y= =H Tay = T6058 Fe wane= 1025 Y= eana=s1.75 SAV ART _ 6833 — 12(00.25) (61.75) oak Tao — 12(00.25)" a= Y- 6k 5178 ~ 21890025) = 218913 EEmonces, Y= 21.8313 + 2.91894 (con software: aXY+ bNAY= a? = 2.9189 1.8315 + 2.91892), rd 21.8313(621) + 2.9189(6,833) — 12(51. 36,059 — 12(51.75)" O46 r= VORIBT = 05000 EA 125 Dela solucisn del ejercicio RA 12-3, e dene n= 10, SY = 1,922, F= 1922, SAY'= 84541, 3° 395,024, a = 80.4430 y b= 6.4915, Por amt, _ ays oexy— ao SF =80.4430(1,922) + 6.4915(84,541) ~ 10(192.2)" 395,024 ~ 10(1922) 0.9673 r= VOB6TS = 0.9835 544 capitulo 12 _Regresion simple y correlacén

Você também pode gostar