Escolar Documentos
Profissional Documentos
Cultura Documentos
=
tan cercano a cero como sea posible.
Esto no es aconsejable puesto que errores positivos y negativos se
compensarn dando lneas inadecuadas como respuesta. Por lo tanto, se minimizar la
suma de los cuadrados de e
i
. Es decir, se elegirn a y b de modo que:
1
n
i
y
i
a b x
i
+ ( )
=
sea mnimo
Esto equivale a minimizar la suma de los cuadrados de las distancias verticales a
partir de los puntos respecto de la lnea. Este mtodo (llamado de los Mnimos
Cuadrados) da valores de a y b (estimaciones de y ) que tienen muchas propiedades
convenientes.
Una condicin necesaria para que exista un mnimo relativo es la anulacin de
las derivadas parciales con respecto a a y b:
2
1
n
i
y
i
a b x
i
+ ( )
1 ( )
=
0
derivada respecto de a
2
1
n
i
y
i
a b x
i
+ ( )
x
i
( )
=
0
derivada respecto de b
lo que se puede reescribir como:
1
n
i
y
i
=
a n b
1
n
i
x
i
=
+
1
n
i
y
i
x
i
=
a
1
n
i
x
i
=
b
1
n
i
x
i
( )
2
=
+
esto es un conjunto de ecuaciones lineales con incgnitas a y b, denominadas
Ecuaciones Normales.
Resolviendo por determinantes:
a
1
n
i
y
i
= 1
n
i
x
i
( )
2
1
n
i
y
i
x
i
= 1
n
i
x
i
=
n
1
n
i
x
i
( )
2
1
n
i
x
i
=
|
\
|
|
|
b
n
1
n
i
x
i
y
i
1
n
i
x
i
= 1
n
i
y
i
=
n
1
n
i
x
i
( )
2
1
n
i
x
i
=
|
\
|
|
|
Ejemplo: Los siguientes datos son las mediciones de la Tensin Arterial en 14 pacientes
de distintas edades:
ajustar una lnea recta a estos datos por el mtodo de mnimos cuadrados y utilizarla
para estimar la tensin arterial para una persona de 36 aos.
1
n
i
x
i
=
461
1
n
i
y
i
x
i
=
63892
1
n
i
x
i
( )
2
=
16819
1
n
i
y
i
=
1901
de aqu el sistema de ecuaciones queda:
1901 a 14 b 461 +
63892 a 461 b 16819 +
con la soluciones:
a 109.7715 b 0.79
Para una persona de 36 aos de edad:
y = 0.79.(36)+109.7715 = 138.2122
En el siguiente grfico se puede apreciar el Diagrama de Dispersin y la recta
del mejor ajuste (desde el punto de vista de los mnimos cuadrados) y la estimacin
para una persona de 36 aos de edad:
La siguiente funcin Matlab permite obtener los resultados vistos del proceso:
function recta
% Ajuste lineal de un conjunto de datos por Minimos Cuadrados
% con datos presentes en el archivo ascii regre.txt
% Entradas: u, vector, obtenido del archivo ascii "regre.txt"
% Salida: a, real, Ordenada al origen
% b, real, pendiente de la recta
load regre.txt;u=regre;n=size(u,1);
sy=0; for i=1:n, sy=sy+u(i,2);end
sx=0; for i=1:n, sx=sx+u(i,1);end
sx2=0; for i=1:n, sx2=sx2+u(i,1)^2;end
sxy=0; for i=1:n, sxy=sxy+u(i,1)*u(i,2);end
A(1,1)=n;A(1,2)=sx;A(2,1)=sx;A(2,2)=sx2;B(1,1)=sy;B(2,1)=sxy;
C=inv(A)*B;a=C(1,1);b=C(2,1);
i=1:n;plot(u(i,1),b*u(i,1)+a,u(i,1),u(i,2),'*')
a
b
El Teorema de Gauss-Markov establece: Entre los estimadores insesgados de
y que son lineales en los y
i
, los estimadores de mnimos cuadrados tienen la
varianza ms pequea.
4.1.3. Aplicar el mtodo de mnimos cuadrados para determinar la recta,
parbola curva que mejor se ajuste a un conjunto de datos
INFERENCIAS BASADAS EN ESTIMADORES DE MNIMOS CUADRADOS
En lo que sigue se supondr que la regresin es lineal y, ms an, que las n
variables aleatorias que tienen valores y
i
(i=1, 2, , n) son independientes y que estn
distribuidos normalmente con las medias + .x
i
y la varianza comn
2
.
Si se escribe: y
i
= + .x
i
+
i
se deriva que los
i
son valores de variables
aleatorias independientes, distribuidas normalmente, y que tienen medias 0 y varianza
comn
2
. Grficamente:
En las suposiciones hechas hasta aqu, como se ilustra, se pueden advertir las
distribuciones de los y
i
para varios valores de las x
i
.
Antes de establecer un teorema relativo a la distribucin de los estimadores de
mnimos cuadrados de y , es conveniente introducir una notacin especial:
Sxx n
1
n
i
x
i
( )
2
1
n
i
x
i
=
|
\
|
|
|
2
n sx
2
n 1 ( )
Syy n
1
n
i
y
i
( )
2
1
n
i
y
i
=
|
\
|
|
|
2
n sy
2
n 1 ( )
Sxy n
1
n
i
x
i
y
i
1
n
i
x
i
= 1
n
i
y
i
=
n sxy n 1 ( )
en base a esto, las ecuaciones normales, resueltas por determinantes, quedan:
b
Sxy
Sxx
a y
b x
donde e son, respectivamente las medias de las x y de las y. Debe notarse tambin
la estrecha relacin entre las Sxx y Syy con las varianzas muestrales respectivas de las x
y las y (sx y sy).
La varianza comn
2
puede estimarse en trmino de las desviaciones
verticales de los puntos muestrales a partir de la lnea de mnimos cuadrados. La i-
sima de tales desviaciones es:
y
i
a b x
i
+ ( )
De aqu, la estimacin, s
e
2
, es:
s
e
2
1
n 2
1
n
i
y
i
a b x
i
+ ( )
donde s
e
se denomina Error Estndar de Estimacin, tambin la suma de los cuadrados
dada por s
e
2
.(n-2) recibe el nombre de Suma de Cuadrados Residual o Suma de
Cuadrados de Error.
Una frmula equivalente de esa estimacin de
2
es:
s
e
2
Sxx Syy Sxy
2
n n 2 ( ) Sxx
el divisor n-2 se emplea para que el estimador resultante de
2
sea insesgado.
En base a las suposiciones efectuadas relativas a la distribucin de las y, se
pueden probar los siguientes teoremas:
Teorema 1: Con las suposiciones dadas, los estadsticos:
con valores de variables aleatorias que tienen la distribucin t-Student con n-2 grados
de libertad.
Si se requieren intervalos de confianza para los coeficientes de regresin y ,
se sustituye el trmino medio de t
/2
< t < t
/2
por el estadstico t adecuado del
teorema anterior. Luego, por medio de clculos simples, se determinan los
correspondientes intervalos de confianza:
b t
2
s
e
n
Sxx
< b t
2
s
e
n
Sxx
+ <
4.2 Correlacin
Correlacin.
Recordemos que para el caso de una variable, la varianza era un parmetro que nos
mostraba cuanta variacin exista entre la media un conjunto de datos. En el mismo
tenor, estamos en determinar la dependencia entre dos variables por lo que una primera
propuesta es construir una medida que nos permita en forma anloga tratar la
variacin.
Se define la covarianza como la variacin que existe entre los datos de dos variables,
expresada como:
donde son las variables para n datos que intervienen en el estudio.
En realidad la correlacin es una medida sobre el grado de relacin entre dos variables,
sin importar cual es la causa y cual es el efecto. La dependencia de la que se habla en
este sentido es la dependencia entre la varianza de las variables.
Como hemos visto el manejo de unidades adimensionales nos permiten tener un
coeficiente sobre el que de forma cmoda se pueda trabajar, por lo que podemos dividir
entre el producto de las desviaciones de las variables, es decir:
( )( )
n
y y x x
S
i i
xy
=
i i
y y x
los valores para este coeficiente estn comprendidos entre -1 y 1.
Se tiene los siguientes criterios para r
entre mas se aproxima a los valores 1 y -1 la aproximacin a una correlacin se
considera buena. Cuando mas se aleja de 1 o de -1 y se acerca a cero se tiene menos
confianza en la dependencia lineal por lo que una aproximacin lineal ser lo menos
apropiado, sin embargo no significa que no existe dependencia, lo nico que podemos
decir es que la dependencia no es lineal. Un valor positivo para r indica que a medida
que una variable crece la otra tambin lo hace, por el contrario si su valor es negativo, lo
que podemos decir es que a medida que una variable crece la otra decrece.
Datos influyentes
Ejemplos de correlacin
Una vez que se determina que existe dependencia lineal un aspecto sumamente
relevante es el investigar las caractersticas del modelo matemtico que relaciona una
variable con otra, as de esta forma podemos decir, una variable puede clasificarse como
( )
y x
xy
S S n
S
r =
=
=
=
=
negativa lineal n correlaci o inversa perfecta, es lineal n correlaci la 1
nula lineal n correlaci o lineal n correlaci existe no 0
positiva lineal n correlaci o directa perfecta, es lineal n correlaci la 1
r
r
r
r
determinstico y probabilistico. El modelo determinstico, que no ser abordado en este
curso, esta ligado a la ecuacin que regula de forma determinante el comportamiento de
un fenmeno, as por ejemplo podemos determinar a partir de la obtencin de una
ecuacin sobre el potencial de frenado en un material, que ante cambios de la longitud
de onda la relacin es lineal no permitir predecir cuales sern sus valores. Ecuaciones
que permiten ver como es la oposicin a la corriente elctrica, o resistencia elctrica, al
aumentar la temperatura de un metal, entre otros, es un claro indicio de una ecuacin
que es determinstica, en ella se podr describir como cambiara la resistencia elctrica
del material en cuestin ante el aumento de una temperatura en el material. Por otro
lado, los fenmenos probabilsticos estn sujetos a la modelos que aunque puedan ser
descritos por una ecuacin no implica que todos los valores que intervienen en el
estudio puedan ser localizados en el grfico que los representan, y por supuesto un dato
mas no es garanta que sea localizado en la ecuacin
Bibliografa
Cannavos G. Probabilidad y Estadstica Aplicacin y mtodos. Ed. en espaol Mc
GRAW- HILL/INTERAMERICANA DE MEXICO.1995.
http://www.eumed.net/libros/2006a/rmss/a8.htm
Devore, J.L. (2000). Probabilidad y Estadstica para Ingeniera y Ciencias, Quinta Edicin,
Thomson Learning.
Mendenhall, W. (1998). Estadstica para Administradores, Segunda Edicin, Grupo Editorial
Iberoamrica.
Montgomery, D.C. y Runger G.C. (1996). Probabilidad y Estadstica Aplicadas a la Ingeniera,
Primera Edicin, Mc Graw Hill.
Sheaffer, R. L. y McClave, J.T. (1990). Probabilidad y Estadstica para Ingeniera, Primera
Edicin, Grupo Editorial Iberoamrica.
Spiegel, M.R. (1970). Estadstica, Primera Edicin, Serie Schaum, Mc Graw Hill.
Walpole, R. E., Myers, R.H., y Myers, S.L. (1998). Probabilidad y Estadstica para Ingenieros,
Sexta Edicin, Prentice Hall.
Weimer, R.C. (1996). Estadstica, Segunda Edicin, CECSA.
Actividades complementarias adicionales
1.- Problema: Los siguientes datos son las mediciones de la velocidad del
aire y del coeficiente de evaporacin de las gotitas de combustible en una
turbina de propulsin:
Velocidad del aire
(cm/s)
20 60 100 140 180 220 260 300 340 380
Coeficiente de
Eva-poracin
(mm
2
/seg)
.18 .37 .35 .78 .56 .75 1.18 1.36 1.17 1.65
Construir un intervalo de confianza del 95% para el coeficiente de regresin
.
2.- Las cifras siguientes son datos sobre el porcentaje de llantas radiales
producidas por cierto fabricante que an pueden usarse despus de
recorrer cierto nmero de millas:
Miles de Millas
recorridas (x)
1
2
5 10 20 30 40
Porcentaje til (y) 98.2 91.7 81.3 64.0 36.4 32.6 17.1
Log(y) 1.992
1
1.9624 1.910
1
1.806
2
1.561
1
1.5132 1.2330
a) Graficar los datos proporcionados en escala semilogaritmica para
advertir si es razonable que la relacin es exponencial.
b) Ajustar una curva exponencial aplicando el mtodo de mnimos
cuadrados a las parejas de puntos [x
i
,log(y
i
)].
c) Emplear los resultados de la parte b) para estimar qu porcentaje de las
llantas radiales del fabricante durarn al menos 25000 millas.