Você está na página 1de 19

Estadı́stica

Tema 2: Estadı́stica Bivariante


Unidad 1: Correlación y Regresión

Área de Estadı́stica e Investigación Operativa


Licesio J. Rodrı́guez-Aragón

Octubre 2010

Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

Variables Bidimensionales 3
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Variables Bidimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Frecuencias y Frecuencias Marginales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Distribución Condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Variables Bidimensionales con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Variables Bidimensionales con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Representaciones Gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Representaciones Gráficas con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Representaciones Gráficas con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Análisis de la Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Coeficiente de Correlación de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Correlación con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

Regresión 18
Regresión y Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Modelo de Regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Suma de Cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Regresión Lineal Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Coeficiente de Determinación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Regresión con R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Regresión con R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
summary(Regresion) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Regresión Lineal X sobre Y. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Regresión Exponencial, Potencial e Hiperbólica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Regresión Polinómica y Múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

1
Contenidos
 Variables Bidimensionales

– Frecuencias, Frecuencias Marginales, Distribución Condicionada, Representaciones


Gráficas.

 Correlación.

– Covarianza y Coeficiente de Correlación de Pearson.

 Regresión.

– Modelo de Regresión, Regresión Lineal Simple, Coeficiente de Determinación.

La Regresión tiene como objetivo buscar una función que permita explicar una
Variable en función de otra.

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 2 / 29

Variables Bidimensionales 3 / 29

Introducción
Hasta ahora, para cada Unidad Estadı́stica de nuestra muestra, sólo hemos observado un
determinado Carácter.

En la realidad, la mayorı́a de las ocasiones que tomamos una muestra observaremos más de un
Carácter por Unidad Estadı́stica.

Como ya vimos los Caracteres podı́an ser: Cuantitativos o Cualitativos.

El valor que adoptaba un Carácter entre sus distintas Modalidades posibles era una Variable
Estadı́stica.

 Cuantitativas Discretas o Continuas.

 Cualitativas Nominales u Ordinales.

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 4 / 29

2
Variables Bidimensionales
El caso más sencillo es cuando para cada Unidad Estadı́stica se observan dos Caracteres distintos.
Siendo X e Y dos Variables Estadı́sticas.

La ordenación de datos bidimensionales se puede efectuar mediante tablas de doble entrada,


según sean:

 Variables cualitativas o no agrupadas.

 Variables cuantitativas agrupadas.

Se tendrá: Para Variables cualitativas o no agrupadas,


X \Y y1 ... yj ... yl Totales
x1 n11 ... n1j ... n1l n1·
.. .. .. .. ..
. . . . .
xi ni1 ... nij ... nil ni·
.. .. .. .. ..
. . . . .
xm nm1 ... nmj ... nml nm·
Totales n·1 ... n·j ... n·l n
Para Variables cuantitativas agrupadas,
X \Y [b1 , b2 ) ... [bj , bj+1 ) ... [bl , bl+1 ] Totales
d1 ... dj ... dl
[a1 , a2 ) c1 n11 ... n1j ... n1l n1·
.. .. .. .. .. ..
. . . . . .
[ai , ai+1 ) ci ni1 ... nij ... nil ni·
.. .. .. .. .. ..
. . . . . .
[am , am+1 ) cm nm1 ... nmj ... nml nm·
Totales n·1 ... n·j ... n·l n

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 5 / 29

Frecuencias y Frecuencias Marginales


Se definen entonces las Frecuencias Absolutas y las Frecuencias Relativas:

Frecuencia Absoluta de (xi , yj ) es nij .


nij
Frecuencia Relativa de (xi , yj ) es fij = n .

Además podemos definir Frecuencias Marginales:

Frecuencia Marginal Absoluta n·i o ni· , suma por columnas o por filas respectivamente.

Frecuencia Marginal Relativa f·i o fi· , suma de las fij por columnas o filas respectivamente.

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 6 / 29

3
Distribución Condicionada
Se define la Distribución Condicionada como la distribución de una de las variables respecto
de un valor concreto de la otra variable.

nij fij
f (yi |xj ) = =
nj· fj·
nij fij
f (xi |yj ) = =
n·j f·j

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 7 / 29

Ejemplo
Pedidos recibidos hoy en nuestra empresa de transporte logı́stico.

En primer lugar observaremos el carácter Cualitativo de la Delegación Comercial que ha recibido


el pedido y en segundo lugar el Producto Solicitado.

Resinas Aceites Aditivos


Ciudad Real 5 21 28
Puertollano 12 35 19

Completamos la tabla de frecuencias con las Frecuencias Marginales:


Resinas Aceites Aditivos Totales
Ciudad Real 5 21 28
Puertollano 12 35 19
Totales
Frecuencias condicionadas por Delegación Comercial:
Resinas Aceites Aditivos Totales
Ciudad Real 1
Puertollano 1

Frecuencias Condicionadas por Producto Solicitado:


Resinas Aceites Aditivos
Ciudad Real
Puertollano
Totales 1 1 1

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 8 / 29

4
Variables Bidimensionales con R
> Producto<-c("a","r","o","a","o","a","r","a","o","a")
> Delegacion<-c("CR","P","CR","CR","P","CR","P","CR","CR","P")
> addmargins(table(Producto,Delegacion))

Delegacion
Producto CR P Sum
a 4 1 5
o 2 1 3
r 0 2 2
Sum 6 4 10

> margin.table(table(Producto,Delegacion),1)

Producto
a o r
5 3 2

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 9 / 29

Variables Bidimensionales con R


> Producto<-c("a","r","o","a","o","a","r","a","o","a")
> Delegacion<-c("CR","P","CR","CR","P","CR","P","CR","CR","P")
> prop.table(table(Producto,Delegacion),1)

Delegacion
Producto CR P
a 0.8000000 0.2000000
o 0.6666667 0.3333333
r 0.0000000 1.0000000

> prop.table(table(Producto,Delegacion),2)

Delegacion
Producto CR P
a 0.6666667 0.2500000
o 0.3333333 0.2500000
r 0.0000000 0.5000000

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 10 / 29

5
Representaciones Gráficas
Las representaciones gráficas más usadas son los Diagramas de Rectángulos para Caracteres
Cualitativos y diagramas de Barras e Histogramas, para datos Caracteres Cuantitativos.
Pedidos Pedidos

35
Puertollano Ciudad Real
Ciudad Real Puertollano

50

30
40

25
20
30

15
20

10
10

5
0

0
Resinas Aceites Aditivos Resinas Aceites Aditivos

Zona Comercial Zona Comercial

Ahora bien, en el caso de parejas de Variables Estadı́sticas las representaciones más sencillas son
los diagramas de dispersión.
1.5
1.0
0.5
0.0
Y

−0.5
−1.0
−1.5

−2 −1 0 1 2

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 11 / 29

6
Representaciones Gráficas con R
> Producto<-c("a","r","o","a","o","a","r","a","o","a")
> Delegacion<-c("CR","P","CR","CR","P","CR","P","CR","CR","P")
> barplot(table(Producto,Delegacion),legend.text=TRUE)
> barplot(table(Producto,Delegacion),legend.text=TRUE,
+ beside=TRUE) 6

4
r a
o o
5

a r

3
4
3

2
2

1
1
0

0
CR P CR P

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 12 / 29

7
Representaciones Gráficas con R
> library(UsingR)
> Ingresos<-cfb$INCOME[1:15]
> Ahorros<-cfb$SAVING[1:15]
> plot(Ingresos,Ahorros)

15000
10000
Ahorros

5000
0

10000 30000 50000 70000

Ingresos

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 13 / 29

8
Momentos
Se definen los Momentos de orden (r, s) respecto de (v, w):
r s
P
i,j nij (xi − v) (yj − w)
M(r,s) (v, w) = ,
n
teniendo especial interés para (v, w) = (0, 0) y (v, w) = (x, y)

 Momentos Respecto al Origen, (v, w) = (0, 0).

 Momentos Centrales, (v, w) = (x, y).

Momentos respecto al origen, (v, w) = (0, 0):


1X
a0,0 = nij = 1
n
ij
1X 1X
a1,0 = nij xi = ni· xi = x
n n
ij i
1X 1X
a0,1 = nij yj = n·j yj = y
n n
ij j
1X
a1,1 = nij xi yj = xy
n
ij
1X 1X
a2,0 = nij x2i = ni· x2i = x2
n n
ij i
1X 1
nij yj2 = n·j yj2 = y 2
X
a0,2 =
n n
ij j

Momentos centrales, (v, w) = (x, y):

m0,0 = 1, m0,1 = m1,0 = 0


1X
m1,1 = nij (xi − x)(yj − y) = a1,1 − a1,0 · a0,1 =
n
i,j
= xy − x · y = sxy = syx = Covarianza
1X 1X
m2,0 = nij (xi − x)2 = ni· (xi − x)2 = s2x
n n
i,j i
1 X 1 X
m0,2 = nij (yj − y)2 = n·j (yi − y)2 = s2y
n n
i,j j

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 14 / 29

9
Análisis de la Covarianza

1X
sxy = nij (xi − x)(yj − y) = a1,1 − a1,0 · a0,1 = xy − x · y.
n
i,j

11.0
10.8
10.6
Var2

10.4
10.2
10.0
9.8

1.0 1.2 1.4 1.6 1.8 2.0

Var1

sxy = 0
2.2
2.0
1.8
1.6
Var3

1.4
1.2
1.0

1.0 1.2 1.4 1.6 1.8 2.0

Var1

sxy > 0
8.0
Var4

7.5
7.0

1.0 1.2 1.4 1.6 1.8 2.0

Var1

sxy < 0

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 15 / 29

10
Coeficiente de Correlación de Pearson
La Covarianza posee unidades, las unidades de la Unidad Estadı́stica al cuadrado.

Para conseguir un dato adimensional que nos permita comparar la correlación entre parejas de
variables, se define el Coeficiente de Correlación de Pearson:
sxy
r=
sx · sy
−1 < r < 1
Este coeficiente determina el grado de correlación lineal, pudiendo existir otro tipo de
relaciones.

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 16 / 29

11
Correlación con R
> Diesel<-c(0,0,0,2,2,2,4,4,4,6,6,6,8,8,8,10,10,10,12,12,12)
> Viscosidad<-c(71.95,71.89,71.92,65.56,65.54,65.66,60.53,60.73,
+ 60.48,56.05,56.09,56.02,51.93,51.75,51.88,47.91,48.1,48.12,44.91,44.37,44.5)
> cor(Diesel,Viscosidad)

[1] -0.9950753

> plot(Diesel,Viscosidad)

70
65
Viscosidad

60
55
50
45

0 2 4 6 8 10 12

Diesel

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 17 / 29

Regresión 18 / 29

Regresión y Correlación
La Regresión trata de buscar una función que permita explicar los valores de una variable en
función de otra.

La Correlación cuantifica el grado de dependencia o asociación que liga ambas variables.

La regresión persigue:

 Determinar el tipo de relación que une a las variables.

 Ecuación funcional matemática que representa al modelo.

 Estimar los parámetros del modelo y determinar la bondad del ajuste.

 Realizar predicciones de la variable respuesta, dentro del rango de valores.

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 19 / 29

12
Modelo de Regresión
Siendo X la variable explicativa o independiente e Y la variable respuesta o dependiente,
tendremos la Regresión Simple:
Y = f (X)
Si la variable respuesta, Y , depende de varias variables explicativas, X1 , X2 , . . . , Xn , tendremos la
Regresión Múltiple:
Y = f (X1 , X2 , . . . , Xn )

Según la naturaleza de la función f podemos tener distintos tipos de Modelos de Regresión:

Regresión Lineal Simple:


Y = a+b·X
Regresión Polinómica Simple:

Y = a + b · X + c · X2 + d · X3 + . . .

Regresión Lineal Múltiple:

Y = a + b1 · X1 + b2 · X2 + · · · + bn · Xn

También hay Regresión: Logarı́tmica, Exponencial, Potencial, Hiperbólica, Trigonométrica, etc.


Los valores desconocidos que caracterizan la función f se denominan Parámetros de
Regresión, Regression Parameters.

Qué criterio utilizar para escoger unos valores adecuados para los parámetros.

Regresión Y=f(X)
1.0
0.5
0.0
Y

−0.5
−1.0
−1.5

−3 −2 −1 0 1 2

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 20 / 29

13
Suma de Cuadrados
Para una observación dada (xi , yj ) con una frecuencia nij , definimos el error cometido por el
modelo de regresión:
εij = (yj − f (xi )),
yj = f (xi ) + εij .
El objetivo es minimizar el error cometido por el modelo al explicar la variable respuesta Y en
función de la variable independiente X:
X X
SCE = nij · ε2ij = nij · (yj − f (xi ))2 .
i,j i,j

Los parámetros del Modelo que minimizan la Suma del Cuadrado de los Errores, definen al
Modelo de Regresión. En el caso del Modelo Lineal Simple tendremos:

εij = (yj − f (xi )),

yj = a + b · xi + εij .
El objetivo es entonces minimizar la Suma del Cuadrado de los Errores:
X X
SCE = nij · ε2ij = nij · [yj − (a + b · xi )]2 = G(a, b).
i,j i,j

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 21 / 29

14
Regresión Lineal Simple
La recta que explique la dependencia de Y respecto a X, tendrá parámetros a y b que minimizen
la SCE:
nij · [yj − (a + b · xi )]2 .
X
G(a, b) =
i,j

Para obtener a y b: 
∂G(a,b)

 ∂a =0
 ∂G(a,b)

∂b =0
 P P P
 ij nij · yj − ij nij · a − ij nij · b · xi =0

nij · b · x2i = 0
 P P P
ij nij · yj · xi − ij nij · a · xi − ij

Las ecuaciones normales que resultan de minimizar G(a, b), son:



 y =a+b·x

yx = a · x + b · x2

Resolviendo el sistema, tenemos los valores a y b:



 a =y−b·x

yx−x·y sxy
 b
 = = s2x
x2 −x2

Con lo que la recta de regresión de Y sobre X es:


sxy
y = f (x) = y + (x − x)
s2x

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 22 / 29

Coeficiente de Determinación
El Coeficiente de Correlación de Pearson determina el grado de correlación lineal entre las
variables.
−1 < r < 1
Se demuestra que para r 2 = 1, la Suma de los Cuadrados de los Errores, SCE= 0.

SCE = Gmin = n · s2y (1 − r 2 )


El Coeficiente de Determinación, R2 , en este caso de Regresión Lineal Simple coincide con
r 2 , expresa el porcentaje de Variabilidad Explicada por el modelo.

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 23 / 29

15
Regresión con R
> Diesel<-c(0,0,0,2,2,2,4,4,4,6,6,6,8,8,8,10,10,10,12,12,12)
> Viscosidad<-c(71.95,71.89,71.92,65.56,65.54,65.66,60.53,60.73,
+ 60.48,56.05,56.09,56.02,51.93,51.75,51.88,47.91,48.1,48.12,44.91,44.37,44.5)
> Regresion<-lm(Viscosidad ~ Diesel)
> Regresion

Call:
lm(formula = Viscosidad ~ Diesel)

Coefficients:
(Intercept) Diesel
70.425 -2.246

> plot(Diesel,Viscosidad)
> abline(Regresion)

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 24 / 29

Regresión con R
70
65
Viscosidad

60
55
50
45

0 2 4 6 8 10 12

Diesel

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 25 / 29

16
summary(Regresion)

Call:
lm(formula = Viscosidad ~ Diesel)

Residuals:
Min 1Q Median 3Q Max
-0.9598 -0.7098 -0.3724 0.9007 1.5250

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 70.42500 0.37018 190.25 <2e-16 ***
Diesel -2.24631 0.05133 -43.76 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.941 on 19 degrees of freedom


Multiple R-squared: 0.9902, Adjusted R-squared: 0.9897
F-statistic: 1915 on 1 and 19 DF, p-value: < 2.2e-16

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 26 / 29

17
Regresión Lineal X sobre Y
En el caso en que busquemos explicar la dependencia de X respecto de Y , mediante regresión
lineal simple:
X =a+b·Y
εij = (xi − f (yj )), xi = f (yj ) + εij .

Regresión X=f(Y)

1.0
0.5
0.0
Y

−0.5
−1.0

−2 −1 0 1 2

nij · [xi − (a + b · yj )]2 .


P
La SCE a minimizar será, G(a, b) = i,j

∂G(a,b)

 ∂a =0
 ∂G(a,b)

∂b =0

Resolviendo el sistema, tenemos los valores a y b:



 a =x−b·y

yx−x·y sxy
 b
 = = s2y
y 2 −y 2

Con lo que la recta de regresión de Y sobre X es:


sxy
x = f (y) = x + (y − y)
s2y

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 27 / 29

18
Regresión Exponencial, Potencial e Hiperbólica
Para los casos de modelos Exponenciales, Potenciales e Hiperbólicos, una transformación de las
variables permite adaptar lo visto para la Regresión Lineal Simple:

Exponencial:
Y = a · bX → log(Y ) = log(a) + log(b) · X
Potencial:
Y = a · Xb → log(Y ) = log(a) + b · log(X)
Hiperbólica:
1 1
Y = → =a+b·X
a+b·X Y

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 28 / 29

Regresión Polinómica y Múltiple


De forma genérica se obtienen los parámetros de regresión para ecuaciones Polinómicas o para el
caso de Regresión Múltiple:
Y = f (X; θ), θ = (a, b, c, . . . ).
εij = (xi − f (yj )),
xi = f (yj ) + εij .
La Suma de Cuadrados a minimizar será,
X
G(θ) = nij · [xi − f (xi )]2 .
i,j

∂G(a, b)
=0
∂θ

Licesio J. Rodrı́guez-Aragón Tema 2, Unidad 1. – 29 / 29

19

Você também pode gostar