Você está na página 1de 16

DEPARTAMENTE DE INGENIERA INDUSTRIAL

CARRERA: INGENIERA INDUSTRIAL SEMESTRE: CUARTO GRUPO: VI-3 MATERIA: ESTADSTICA INFERENCIAL II TITULO DEL TRABAJO: ALUMNO: SCAR IVN RIVERA DZIB MATRICULA:11470334

MAESTRO: BOCOS PATRN

SAN FRANCISCO DE CAMPECHE 2012

Oscar Rivera Dzib


[COMPANY NAME] | [Company address]

INDICE LA REGRESIN LINEAL SIMPLE ANTECEDENTES MEDICIONES UNIVARIALES, BIVARIABLES Y MULTIVARIABLES

UNA DEFINICIN FORMAL DE LA R.L.S EL DIAGRAMA DE DISPERSIN TIPOS DE MODELOS DE REGRESIN DETERIMNACIN DE LA ESCUACIN DE LA R.L.S EL MTODO DE MNIMOS CUADRADOS DETERIMNACIN DE LOS COEFICIENTES 0 Y 1 AJUSTE E INTERPRETACIN DE LA RECTA

INTERPRETACIN DE LA PENDIENTE DEL MODELO SUPOSICIONES DE LA R.L.S INFERENCIAS EN LA R.L.S ERROR ESTNDAR DE LA MEDICIN PRUEBA t DE INDEPENDENCIA ENTRE LAS VARIABLES (SIGNIFICACIN DE LA REGRESIN) ENFOQUE DEL ANDEVA P/LA PRUEBA DE SIGNIFICACIN DE LA REGRESIN I. DE C. PARA 1 Y 0 (PENDIENTE Y ORDENADA DEL MODELO) I. DE C. PARA LA MEDIA , I. DE C. DE PREDICCIN PARA UNA OBSERVACIN FUTURA

EVALUACIN DE LA ADECUACIN DEL MODELO DE REGRESIN ANLISIS RESIDUAL EL COEFICIENTE DE DETERMINACIN INTRODUCCIN MEDIDAS DE VARIACIN EN LA REGRESIN Y CORRELACIN * SCT (SST), SCR (SSR), SCE (SSE) CLCULO DEL COEFICIENTE E INTERPRETACIN PRUEBA DE FALTA DE AJUSTE

EL ANLISIS DE CORRELACIN INTRODUCCIN CLCULO DEL COEFICIENTE P. DE H. E INTERPRETACIN

TRANSFORMACIONES QUE LLEVAN A UNA LINEA RECTA

LA REGRESIN LINEAL SIMPLE ANTECEDENTES

El trmino "regresin" fue acuado por Sir Francis Galton (1822-1911), primo de Charles Darwin. Galton estudiaba la eugnica, trmino tambin introducido por s mismo para definir el estudio de la mejora de la raza humana a partir de los caracteres hereditarios. Galton estudi la altura de los hijos con relacin a la altura de sus padres, y prob que la altura de hijos altos regresaba hacia la media de la altura de la poblacin a lo largo de sucesivas generaciones. En otras palabras, hijos de padres extraordinariamente altos tendan a ser en promedio ms bajos que sus padres, e hijos de padres muy bajos tendan a ser en promedio ms altos que sus padres. En la actualidad, el trmino de regresin se utiliza siempre que se busca predecir una variable en funcin de otra, y no implica que se est estudiando si se est produciendo una regresin a la media. Anteriormente a Galton se debe mencionar a Legendre (1752-1833), quien introdujo el mtodo de los mnimos cuadrados utilizndolos para definir la longitud de 1 metro como una diez millonsima parte del arco meridional. Con posterioridad a Galton, las propiedades de las tcnicas de regresin fueron estudiadas por Edgeworth, Pearson y Yule. La tcnica de regresin lineal simple est indicada cuando se pretende explicar una variable respuesta cuantitativa en funcin de una variable explicativa cuantitativa tambin llamada variable independiente, variable regresora o variable predictora. Por ejemplo, se podra intentar explicar el peso en funcin de la altura. El modelo intentara aproximar la variable respuesta mediante una funcin lineal de la variable explicativa. Las suposiciones que se realizan al aplicar las tcnicas de regresin lineal son: El modelo propuesto es lineal (es decir existe relacin entre la variable explicativa y la variable explicada, y esta relacin es lineal). La variable explicativa se ha medido sin error.

Para estudiar la validez del modelo es necesario confirmar estas hiptesis mediante el estudio de los residuos (valores observados - valores predichos): normalidad, tendencias, etc. Cuando no se cumplen los criterios de aplicacin es necesario realizar transformaciones a las variables, o bien para obtener una relacin lineal o bien para homogeneizar la varianza.

MEDICIONES UNIVARIALES, BIVARIABLES Y MULTIVARIABLES

Tcnicas univariables:

Se analiza cada variable de forma aislada. Tcnicas Bivariables

Establece relacin o asociacin entres dos variables y mide su intensidad. Relaciones descriptivas de asociacin (sexo y categora de comprador) Relaciones causales (causa-efecto), experimentacin. Las ms utilizadas en Marketing son X2 y el anlisis de la varianza Tcnicas multivariables

Dependencia: Analizan una o ms variables dependientes a travs de dos o ms variables independientes, para explicar un fenmeno y/o realizar un anlisis como base de una prediccin. Tcnicas: regresin mltiple, anlisis de varianza y conjunto Independencia: estudian la interrelacin entre todas las variables como un conjunto. Su objetivo puede ser organizar los datos reduciendo su dimensionalidad y hacindolos ms manejables para el investigador y ofrecer una mayor comprensin global de su estructura subyacente.
UNA DEFINICIN FORMAL DE LA R.L.S

Es un mtodo de modelacin que usa una ecuacin de regresin lineal para relacionar la variable conocida (X) es decir la independiente, con la variable dependiente (Y). Para determinar a primera instancia la relacin entre las dos variables se har el diagrama de dispersin, que es la representacin grfica de los datos observados. EL DIAGRAMA DE DISPERSIN

El diagrama de dispersin es una grfica del tipo X, Y cuyo objetivo es analizar la forma en que dos variables numricas estn relacionadas. El diagrama de dispersin se obtiene coleccionando los datos en pares de valores sobre dos variables (x,y). Las parejas de datos obtenidos se representan a travs de puntos en una grfica del tipo X Y (ejes de coordenada cartesianos). El anlisis de un diagrama de dispersin puede mostrar varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. La correlacin puede ser positiva (Y aumenta con X), negativa (Y disminuye con X), o nula (las variables no estn correlacionadas). El diagrama de dispersin es una de las herramientas bsicas de gestin de la calidad, muy til al analizar las causas de un problema y para Identificar oportunidades de mejora continua. TIPOS DE MODELOS DE REGRESIN Se pueden clasificar los tipos de regresin segn diversos criterios: a) En funcin del nmero de variables independientes: Regresin simple: Cuando la variable Y depende nicamente de una nica variable X. Regresin mltiple: Cuando la variable Y depende de varias variables (X1, X2,., Xr) b) En funcin del tipo de funcin f(x): Regresin lineal: cuando f(x) es una funcin lineal. Regresin no lineal: cuando f(x) no es una funcin lineal. La variable X puede ser la causa del valor de la variable Y

c) En funcin de la naturaleza de la relacin que exista entre las dos variables:

Por ejemplo, en toxicologa, si X = Dosis de la droga e Y = Mortalidad, la mortalidad se atribuye a la dosis administrada y no a otras causas. d) Puede haber simplemente relacin entre las dos variables:

Por ejemplo, en un estudio de medicina en que se estudian las variables X = Peso e Y = Altura de un grupo de individuos, puede haber relacin entre las dos, aunque difcilmente una pueda considerarse causa de la otra.
DETERIMNACIN DE LA ESCUACIN DE LA R.L.S EL MTODO DE MNIMOS CUADRADOS

Este mtodo encuentra las estimaciones para los parmetros en la ecuacin seleccionada mediante la minimizacin de la suma de cuadrados de las diferencias entre los valores observados de la variable de respuesta y de aquellos proporcionados por la ecuacin de prediccin. Estos valores se conocen como los estimadores por mnimos cuadrados (EMC) de los parmetros. Usando la ecuacin = 0 + 1 + , las n observaciones de la muestra pueden expresarse como: = 0 + 1 + , i = 1, 2,., n Y la suma de los cuadrados de las desviaciones de las observaciones de la verdadera recta de regresin es:

2 =1

= ( 0 + 1 1 )2
=1

Los estimadores de mnimos cuadrados de 0 1 , 0 1, deben satisfacer: | , = 2 ( 0 + 1 ) = 0 0 0 1


=1

| , = 2 ( 0 + 1 ) = 0 1 0 1
=1

Al simplificar estas dos ecuaciones se obtiene:


0 + 1 = ( )
=1 2 =1

0 + 1
=1 =1

=
=1

DETERIMNACIN DE LOS COEFICIENTES 0 Y 1

Se ha seleccionado la forma correcta de la ecuacin de regresin. Esto implica que cualquier variabilidad de la variable de respuesta que no pueda explicarse mediante el empleo de la ecuacin de regresin, se debe a un error aleatorio. Por ejemplo, se sabe que la distancia de que recorre un objeto en un tiempo t, est dada por la siguiente relacin: = 0 + 1 Donde 1 es la velocidad promedio y 0 es la posicin del objeto para t=0. Si no fuese posible medir d en forma precisa para un valor dado de t, pero se observ un valor: = +

Donde es el error aleatorio, se ha seleccionado la forma correcta de la ecuacin de regresin y el problema se reduce a estimar los valores de 0 1 . Sin embargo, rara es la vez que el problema resulta ser tan sencillo. AJUSTE E INTERPRETACIN DE LA RECTA

INTERPRETACIN DE LA PENDIENTE DEL MODELO SUPOSICIONES DE LA R.L.S 1. Los valores de la variable independiente X son fijos, medidos sin error. 2. La variable Y es aleatoria 3. Para cada valor de X, existe una distribucin normal de valores de Y (subpoblaciones Y) 4. Las varianzas de las subpoblaciones Y son todas iguales 5. Todas las medias de las subpoblaciones de Y estn sobre la recta 6. Los valores de Y estn normalmente distribuidos y son estadsticamente independientes.

INFERENCIAS EN LA R.L.S ERROR ESTNDAR DE LA MEDICIN


YX

El error estndar de la estimacin designado por s

mide la disparidad . Se utiliza

"promedio" entre los valores observados y los valores estimados de la siguiente formula.

PRUEBA t DE INDEPENDENCIA ENTRE LAS VARIABLES (SIGNIFICACIN DE LA REGRESIN) 0 = 1 1,0


2

Sigue una distribucin t con n-2 grados de libertad bajo: 0 = 1 1,0 . Se


rechazaran 0 = 1 1,0 si:

|0 | > ,2
2

Donde 0 se calcula con la ecuacin


0 = 1 1,0
2

El denominador de la ecuacin anterior es el error estndar de la pendiente, por lo que el estadstico de la prueba podra escribirse como: 0 = 1 1,0 (1 )

Puede ser un procedimiento similar para probar hiptesis cerca de la ordenada al origen. Para probar: 0 = 0 = 0,0 0 = 0 0,0 Se usara el estadstico: 0 = 0 0,0 2 1 2 [ + ] = 0 0,0 (0 )

ENFOQUE DEL ANDEVA P/LA PRUEBA DE SIGNIFICACIN DE LA REGRESIN

Puede usarse un mtodo llamada anlisis de varianza para probar la significacin de una regresin. En el procedimiento se ahce la particin de la variabilidad total de la variable de respuesta en componentes significativos como base de la prueba. El anlisis de identidad de la varianza es el siguiente:
2 2

(1 ) = (1 ) + (1 )2
=1 =1 =1

Las dos componentes del miembro derecho de la ecuacin anterior miden, respectivamente, la cantidad de variabilidad en explicada por la recta de regresin y la variacin residual que queda sin explica por la recta de regresin. I. DE C. PARA 1 Y 0 (PENDIENTE Y ORDENADA DEL MODELO)

Bajo el supuesto de que las observaciones tienen una distribucin normal e independiente, un intervalo de confianza del 100(1-) por ciento para la pendiente 1 en una regresin lineal simple es:
2 2 1 ,2 1 1 + ,2 2 2

De manera similar, un intervalo de confianza del 100(1-) por ciento para la ordenada al origen 0 es:

1 2 1 2 0 ,2 2 * + + 0 0 + ,2 2 * + + 2 2

I. DE C. PARA LA MEDIA ,

Puede construirse un intervalo de confianza a partir de la respuesta media en un valor especificado de x, por ejemplo, x0. ste es un intervalo de confianza alrededor de (|0 ) = |0 , al que suele llamrsele intervalo de confianza alrededor de la recta de regresin. Puesto que (|0 ) = |0 =0 + 1 0 , puede obtenerse una estimacin puntual de |0 a partir del modelo ajustado como: |0 = 0 + 1 0 Entonces |0 es un estimador puntual insesgados de |0 ,ya que 0 1 son estimadores insesgados de 0 1 Un intervalo de confianza del 100(1-) por ciento alrededor de la respuesta media en el valor de x = x0, simbolizando |0 , est dado por: |0 ,2 2 * +
2

(0 )2

+ |0 |0 + ,2 2 * +
2

(0 )2

Donde: |0 = 0 + 1 0 Se calcula a partir del modelo de regresin ajustado.

I. DE C. DE PREDICCIN PARA UNA OBSERVACIN FUTURA

Una aplicacin importante de los modelos de regresin es predecir observaciones nuevas o futuras Y que correspondan a un nivel de especificado de la variable de regresin x. Si x0 es el valor de la variable de regresin de inters, entonces: 0 = 0 + 1 0 Es el estimador puntual del valor nuevo o futuro de la respuesta Y0 Se considera ahora cmo obtener la estimacin de un intervalo para esta observacin futura Y0. Esta nueva observacin es independiente de las observaciones utilizadas para desarrollar el modelo de regresin. Por lo tanto, el intervalo de confianza para |0

EVALUACIN DE LA ADECUACIN DEL MODELO DE REGRESIN El ajuste de un modelo de regresin requiere varios supuestos. La estimacin de los parmetros del modelo requiere el supuesto de que los errores son variables aleatorias no correlacionadas con media cero y varianza constante. Las pruebas de hiptesis y la estimacin de intervalos requieren que los errores tengan una distribucin normal. Adems, se supone que el orden del modelo es correcto; es decir, si se ajusta un modelo de regresin lineal simple, entonces se est suponiendo que el fenmeno se comparta en realidad de manera lineal o de primer orden. El analista deber considerar siempre la validacin de estos supuestos, deber ser precavido y llevar a cabo anlisis a fin de examinar la adecuacin del modelo que se ha propuesto de manera tentativa. ANLISIS RESIDUAL Los residuales de un modelo de regresin son = , = 1, 2, , , donde es una observacin real y es el valor ajustado correspondientemente con el modelo de regresin. El anlisis de los residuales con frecuencia resulta de utilidad para

10

verificar el supuesto de que los errores siguen una distribucin normal aproximada con varianza constante, as como para determinar si sera conveniente incluir trminos adiciones en el mtodo. Como verificacin aproximada de la normalidad, el experimentador puede construir un histograma de frecuencias de los residuales o una grfica de probabilidad normal de los residuales.

EL COEFICIENTE DE DETERMINACIN INTRODUCCIN El estadstico R2 deber usarse con cuidado, ya que siempre es posible hacer R2 igual a la unidad mediante la simple adicin de trminos suficientes al modelo. Por ejemplo, puede obtenerse un ajuste perfecto para n datos o puntos observados con un polinomio de grado n-1. Adems, R2 siempre incrementar si se agrega una variable al modelo, aunque esto no implica necesariamente que el nuevo modelo sea superior al original. A menos que la suma de cuadrados de los errores del nuevo modelo tenga una reduccin por una cantidad igual al cuadrado medio del error original, el nuevo modelo tendr un cuadrado medio del error mayor que original, debido a la prdida de un grado de libertad del error. Por tanto, el nuevo modelo ser en realidad peor que el original. Hay varias concepciones errneos en cuanto a R2. En general, R2 no mide la magnitud de la pendiente de la recta de regresin. Un valor grande de R 2 no implica una pendiente pronunciada. Por otra parte, R2 no mide la adecuacin del modelo, ya que puede inflarse artificialmente agregando al modelo trminos polinmicos en x de orden superior. Incluso si y y x estn relacionadas en una forma no lineal, R2 con frecuencia ser grande MEDIDAS DE VARIACIN EN LA REGRESIN Y CORRELACIN SCT (SST), SCR (SSR), SCE (SSE)

11

Fuente de variacin Regresin Error Total

Suma de cuadrados = 1 = 1

Grados de libertad 1 n-2 n-1

Cuadrado medio MSR MSE

F0 MSR/MSE

CLCULO DEL COEFICIENTE E INTERPRETACIN


A la cantidad: 2 = =1

Se le llama coeficiente de determinacin y se usa con frecuencia para juzgar la adecuacin de un modelo de regresin. Ms adelante se ver que en que en el caso en que X y Y son variables aleatorias con una distribucin conjunta. R2 es el cuadro del coeficiente de correlacin entre X y Y.

PRUEBA DE FALTA DE AJUSTE

Con frecuencia los modelos de regresin se ajustan a los datos para proporcionar un modelo emprico cuando la verdadera relacin entre las variables Y y x es desconocida. Naturalmente, a uno le interesa saber si el orden del modelo propuesto de manera tentativa es el correcto. Se presenta ahora una prueba de la bondad de ajuste del modelo de regresin. Especficamente, las hiptesis que quieren probarse son: H0: El modelo de regresin lineal simple es correcto H1: El modelo de regresin lineal simple no es correcto = + Donde es la suma de los cuadrados atribuible al error puro, y es la suma de los cuadrados atribuible a la falta de ajuste del modelo. Para calcular

12

, deben tenerse observaciones repetidas de la respuesta Y para al menos un nivel de x. EL ANLISIS DE CORRELACIN INTRODUCCIN

En el anlisis de regresin desarrollado aqu se ha propuesto que x es una variable matemtica medida con mayo omisible, y que Y es una variable aleatoria. Muchas aplicaciones del anlisis de regresin incluyen situaciones en las que tanto X como Y son variables aleatorias. En estas situaciones, es comn suponer que las observaciones (Xi, Yi), i = 1,2,, n, son variables aleatorias con una distribucin conjunta que se obtiene de la distribucin f(x,y). Por ejemplo, suponga que quiere desarrollarse un modelo de regresin que relacione la resistencia al corte de los puntos de soldadura con el dimetro de los mismos. En este ejemplo, el dimetro de la soldadura no puede controlarse. Al analista le gustara seleccionar aleatoriamente n puntos de soldadura y observar el dimetro (Xi) y la resistencia al corte (Yi) de cada uno de ellos. Por lo tanto (Xi, Yi) son variables aleatorias con una distribucin conjunta. CLCULO DEL COEFICIENTE

Se supone que la distribucin de Xi y Yi es la distribucin normal de dos variables,


2 y que y y son la media y la varianza de X, y que es el coeficiente de

correlacin entre Y y X. Recurdese que el coeficiente de correlacin se define como: = Donde es la covarianza entre Y y X. La distribucin condicional de y para un valor dado de X=x es:
1 0 + 1 = e p [ ( ) ] 2 | 2 | 1
2

Donde:

13

0 =

1 =

Y la varianza de la distribucin condicional de Y dada X=x es:


2 2 | = (1 2 )

Es decir, la distribucin condicional de Y dada X ) x es normal con media: (|) = 0 + 1

P. DE H. E INTERPRETACIN

Con frecuencia es til probar las hiptesis: 0 : = 0 1 = 0 El estadstico para la prueba apropiado para estas hiptesis es: 0 = 2 1 2

TRANSFORMACIONES QUE LLEVAN A UNA LINEA RECTA En ocasiones se encuentra que el modelo de regresin lineal = 0 + 1 + no es apropiado debido a que la verdadera funcin de regresin es no lineal. Algunas veces la naturaleza no lineal del modelo se determina por inspeccin visual del diagrama de dispersin, y algunas veces se debe de antemano, como resultado de experiencias previas o de la teora implcita, que el modelo es no lineal. En ocasiones, un diagrama de dispersin mostrar una aparente relacin no lineal Y y X. en algunas de esas situaciones, una funcin no lineal puede expresarse como una lnea recta mediante el uso de la transformacin pertinente. A tales modelos no lineales se les llama intrnsecamente lineales.

14

BIBLIOGRAFA:

15

Você também pode gostar