Escolar Documentos
Profissional Documentos
Cultura Documentos
parecen
en
direcciones
11.1
(d)
indican
relaciones curvilineales. El
patrn de los puntos de
dispersin no se describe
bien con la lnea recta,
pero se define de manera ms exacta con la curva que proporciona un mejor
ajuste. Finalmente, es difcil observar toda relacin entre X y Y en la figura 11.1 (c).
La ausencia de todo patrn detectable sugiere que no existe ninguna relacin
entre X y Y.
Relaciones lineales y curvilneas. Si X y Y se relacionan en forma lineal, entonces
a medida que X cambia, Y cambia en una cantidad constante. Si existe una
relacin curvilnea, Y cambiar en una cantidad diferente a medida que X cambia.
Mediciones univariables
Como se ha visto, los mtodos de anlisis univariable se utilizan para estudiar el
comportamiento de las variables de forma individual.
Mediciones bivariables
Los mtodos de anlisis bivariable se utilizan para estudiar las relaciones que hay
entre variables tomadas de dos en dos.
SILVIA VICTORIA SALES DOMNGUEZPgina 2
El diagrama de dispersin
La forma simple de un diagrama de dispersin consiste de un grfico en el plano
cartesiano para mostrar la relacin entre
dos
variables.
Cuando
se
analizan
Revela que existe ua relacin negativa tal que entre Xy Y que por cada incremento
(reduccin) de una unidad en X, Y reducir (aumentar) en tres unidades. Si la
pendiente de la recta es b1=0 como en la figura 11.3 b), entonces un cambio en X
0 y 1
, respectivamente, y e
en donde
Y^
es la
es la pendiente E(y) es la
Al igualar a cero las derivadas parciales y reacomodar los trminos, obtenemos las
ecuaciones siguientes (llamadas ecuaciones normales).
Se puede usar clculos diferenciales para demostrar (vase apndice 14.1) que
los valores de b0 y b1 que minimiza la expresin (14.5) se pueden encontrar
usando las ecuaciones (14.6) y (14.7).
Donde
Ahora, ya es fcil obtener una media que nos indique el porcentaje de variaciones
controladas o explicadas mediante el modelo, que se conoce como Coeficiente de
Determinacin, que denotaremos con R2. Su expresin en tantos por 1, ser:
Como puede observarse, a partir de la expresin anterior: 0< R <1. Por tanto:
Si R=1, entonces no hay residuos, habr una dependencia funcional. Cuanto ms
se acerque dicho valor a la unidad, mayor poder explicativo tendr el modelo de
regresin.
SILVIA VICTORIA SALES DOMNGUEZPgina 11
Suposiciones en la R. L. S.
1. Los valores de la variable independiente X son fijos, medidos sin error.
2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribucin normal de valores de Y
(subpoblaciones Y)
4. Las variancias de las subpoblaciones Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y estn sobre la recta.
6. Los valores de Y estn normalmente distribuidos y son estadsticamente
independientes.
Inferencias en la R. L. S.
Adems de tan solo estimar la relacin lineal entre x y Y para fines de prediccin,
el experimentador podra estar interesado en hacer ciertas inferencias acerca de la
pendiente y la interseccin. Debe estarse dispuesto a hacer la suposicin adicional
de que cada i, i = 1, 2, . . . , n, tiene distribucin normal, con la finalidad de
permitir la prueba de hiptesis y la construccin de intervalos de confianza sobre
y . Esta suposicin implica que Y1, Y2, . . . , Yn tambin estn distribuidas en
forma normal, cada una con una distribucin de probabilidad n(yi; + xi, ).
Como A y B son funciones lineales de variables normales independientes, del
Ha
x + . Si x y y estn
0. El objetivo de la prueba t es
0. Para probar la hiptesis siguiente
1 =0
Si se rechaza H0, se concluir que b1 0 y que entre las dos variables existe una
relacin estadsticamente significante. La base para esta prueba de hiptesis la
proporcionan las propiedades de la distribucin muestral de b1, el estimador de
1, obtenido mediante el mtodo de mnimos cuadrados.
Primero, considrese que es lo que ocurrira si para el mismo estudio de regresin
se usara otra muestra aleatoria simple. Supngase, por ejemplo, que Armands
Pizza Parlors usa una muestra de las ventas de otros 10 restaurantes. El anlisis
de regresin de esta otra muestra dar como resultado una ecuacin de regresin
parecida a la ecuacin de regresin anterior
Y^ =
1.
b1
b1
, que se
b1
Al calcular los lmites de confianza para los valores de medios, estos se obtiene
para cada valor de Xo; tales limites sern ms estrechos a medida que se
aproximan a la medida de la variable independiente y ms amplios a medida que
se alejan de ella, por esta razn se obtienen limites llamados bandas de confianza
dentro de las cuales queda comprendida la recta verdadera para un nivel de
significacin a.
Para trazar las bandas de confianza se elegirn cuando menos 3 valores de X0
dos valores extremos y uno intermedio, y se harn las estimaciones por intervalo.
Estos intervalos se dibujan sobre los diagramas de dispersin uniendo todos los
puntos generados por los lmites inferiores y por otro lado, todos los
correspondientes a los lmites superiores.
es ms
amplio que el de
ei
S YX 1hi
En la que
1
hi = +
n
( X i X )
X 21n X 2
i=1
donde
y es el valor observado de la variable dependiente
^y
^y
la cuarta columna de la tabla, ayuda a determinar si las suposiciones hechas acerca del
modelo de regresin son adecuadas.
A continuacin se revisan las suposiciones de regresin en el ejemplo de Armands
Pizza Parlors. Se supuso un modelo de regresin lineal simple
y=
x+
(14.29)
Este modelo indica que se supone que las ventas trimestrales (y) son funcin lineal del
tamao
de la poblacin de estudiantes (x), ms un trmino del error . En la seccin 14.4, para
el trmino
del error se hicieron las siguientes suposiciones
1. E() = 0.
2. La varianza de , que se denota 2, es la misma para todos los valores de x.
3. Los valores de son independientes.
4. El trmino del error tiene distribucin normal.
Estas suposiciones son la base terica para las pruebas t y F que se usan para
determinar si la relacin
entre x y y es significativa y para las estimaciones, mediante intervalos de confianza y
de
prediccin, presentadas en la seccin 14.6. Si las suposiciones acerca del trmino del
error son
dudosas, puede ser que las pruebas de hiptesis acerca de la significancia de la
relacin de regresin y los resultados de la estimacin por intervalo no sean correctos.
Los residuales proporcionan la mejor informacin acerca de ; por lo tanto, el anlisis
de los
residuales es muy importante para determinar si las suposiciones hechas acerca de
son apropiadas.
Gran parte del anlisis residual se basa en examinar grficas. En esta seccin se
estudiarn
las siguientes grficas de residuales.
^y
El coeficiente de Determinacin
La intensidad de una relacin entre dos variables de una poblacin por lo general
se mide mediante el coeficiente de correlacin p, cuyos valores van desde -1,
correspondiente
una
correlacin
perfectamente
negativa,
hasta
+1,
r 2=
De modo que
r= r 2
(X 1 X )(Y 1Y )
r=
i=1
2
( X 1 X )
i=1
(Y 1Y )
i=1
X 1 Y 1n X Y
r=
i=1
n
i=1
X n X 2
2
1
i=1
Y 21 n Y 2
+ Introduccin
(SCxy )
SCR =
SCx
- Introduccin
Clculo del coeficiente
Al cociente de la variacin explicada entre la variacin total se le llama coeficiente
de determinacin. Si hay cero variacin explicada (es decir, si la variacin total es
slo variacin no explicada), este cociente es 0. Si hay 0 variacin no explicada
(es decir, si la variacin total es slo variacin explicada), este cociente es 1. En
los dems casos, este cociente se encuentra entre 0 y 1; como siempre es no
negativo, se denota r2. A la cantidad r se le llama coeficiente de correlacin; est
dado por
y vara entre 1 y +1. Los signos + y se usan para correlacin lineal positiva y
correlacin lineal negativa, respectivamente.
Obsrvese que r es una cantidad adimensional; es decir, no depende de las
unidades que se empleen.
Utilizando las ecuaciones (8) y (11) y el hecho de que la desviacin estndar de Y
es
se encuentra que la ecuacin (12) puede expresarse, sin hacer caso del signo,
como
- P. de H. e Interpretacin