Você está na página 1de 9

Curso de Estadstica no-paramtrica

Sesin 3: Regresin no paramtrica y Contrastes de Aleatoriedad


y bondad de ajuste

Facundo Muoz

Grup dEstadstica espacial i Temporal Departament dEstadstica


en Epidemiologia i Medi Ambient i Investigaci Operativa

Universitat de Valncia

Junio 2013
Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Ejemplo
Mortalidad infantil vs. PIB

mortalidadInfantil-PIB.csv1

Relacin entre las tasas de
150


mortalidad infantil (por mil nacidos
Mortalidad infantil (x 1000)









vivos) y el PIB per cpita (en


100








dlares) para 193 pases del mundo.












50


































0

0 10000 20000 30000 40000


PIB per cpita (US$)

Las variables estn claramente asociadas, pero la relacin es no lineal.


La lnea de regresin no paramtrica fue producida por el mtodo de
regresin polinomial local lowess. Uno de los mtodos no
paramtricos ms comunes.
1
John Fox and Sanford Weisberg (2011). An R Companion to Applied
Regression, Second Edition. Thousand Oaks CA: Sage. URL:
http://socserv.socsci.mcmaster.ca/jfox/Books/Companion 2 / 18
Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Regresin paramtrica vs. no paramtrica

Mtodos de regresin
Objetivo: estimar el valor central (media, mediana) de una variable
respuesta y (cuantitativa) como una funcin de una o ms (co)variables
predictivas (tambin cuantitativas).

Hiptesis de la regresin lineal (paramtrica)


Asociacin lineal: E (y |x ) = (x ) = + x
Normalidad: y |x N (x ), 2 (x )


Homocedasticidad: 2 (x ) = 2
Independencia
La regresin no paramtrica sustituye la hiptesis de linealidad por la de
suavidad en la funcin de regresin

3 / 18

Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Transformacin de variables

Hiptesis de linealidad
Cuando la hiptesis de linealidad falla, a veces es posible trabajar de forma
paramtrica con una transformacin de las variables.

Esto suele ser preferible a una regresin no paramtrica

Interpretabilidad de los
150

coeficientes. Pendiente
logMortalidad infantil (x 1000)



0,5: por cada punto

100







porcentual de incremento en




el PIB per cpita se observa


50






una reduccin de un 0,5 % en












la mortalidad infantil


























(elasticidad).
0

100 1000 10000 Simplicidad del modelo


logPIB per cpita (US$)

4 / 18
Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Mtodos de regresin no paramtrica

Medias mviles: calcular la media de y en una ventana alrededor de


cada valor de x
Medias mviles ponderadas (suavizacin kernel): ponderar los datos
en funcin de la distancia
Regresin polinomial local: ajustar un polinomio por mnimos
cuadrados a los puntos en una ventana local, ponderados por la
distancia

5 / 18

Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Parmetros de ajuste

Funcin kernel
Forma de la funcin de ponderacin
Funciones comunes: uniforme, triangular, gaussiana, tricbica, etc.
Difieren en la rapidez con que decae el peso relativo con la distancia

6 / 18
Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Parmetros de ajuste

Ancho de banda
Regula a cuntos vecinos afecta la funcin Kernel
Normalmente es variable, y se regula para que en cada punto la
ponderacin se realice sobre una cierta proporcin de las
observaciones
A mayor ancho de banda, ms suave es la curva de regresin

7 / 18

Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Inferencia
En una regresin paramtrica, los objetos de estimacin son los
coeficientes de regresin. Rutinariamente se calculan intervalos de
confianza o se contrasta la hiptesis de que sean diferentes de cero.
En regresin no paramtrica no hay coeficientes de regresin. El
objeto central de estimacin es la funcin de regresin.
En cambio, se pueden construir bandas de confianza sobre la media
de y para cada valor de x , a partir de las hiptesis de independencia,
homocedasticidad y normalidad.


150

Mortalidad infantil (x 1000)











100















50


























0

0 10000 20000 30000 40000


PIB per cpita (US$) 8 / 18
Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Mtodos de regresin no paramtrica


Implementacin

SPSS
Puede aadirse manualmente una curva de regresin (lowess)
Pero no parece haber forma de recoger los valores predichos en una
nueva variable, ni de utilizar la curva como efecto estimado en un
modelo ms complejo, ni de hacer inferencia
Est disponible slo como un elemento descriptivo para valorar
visualmente la relacin entre dos variables

Ejercicio
Ajustar una curva no paramtrica a los datos de
mortalidadInfantil-PIB.csv
Explorar las diferencias en el ajuste con diferentes anchos de banda y
funciones kernel
Ajustar un modelo lineal con las variables transformadas (log)
9 / 18

Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Mtodos de regresin no paramtrica


Ms cosas

En regresin mltiple (i.e., ms de una variable predictiva) aparecen


nuevos problemas (e.g., correlacin entre predictores, interacciones,
etc.)
Una estrategia popular son los Modelos de Regresin Aditivos en los
que se especifica la media de la variable respuesta como la suma de
funciones suaves de los regresores

E (y |x1 , . . . , xk ) = + f1 (x1 ) + + fk (xk )

Cuando la variable respuesta no es Normal, se generaliza todo lo


anterior a Modelos de Regresin (Aditivos) Generalizados.
Tambin aparecen el problema de seleccin de variables y
comparacin de modelos
Todo esto se escapa del alcance de este curso, y del software utilizado.
10 / 18
Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Aleatoriedad o independencia

Ejemplo
Queremos saber si la evolucin de cierto valor es aleatoria o sigue algn
patrn (tendencia, ciclo) que nos permita predecir las ganancias o
prdidas.

Esta pregunta la podemos responder con un contraste de aleatoriedad


Equivale a preguntarse si las observaciones son independientes entre s
Muchos mtodos no paramtricos asumen la independencia como
hiptesis de trabajo.

11 / 18

Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Test de aleatoriedad por Rachas

Contraste de WaldWolfowitz
Transformar los datos en una secuencia de dos smbolos, de acuerdo a su
valor, y contar el nmero de rachas de la muestra. Un nmero de rachas
demasiado alto o demasiado bajo ser evidencia de una muestra no
aleatoria.
+ + + + + + R = 2 rachas (correlacin positiva)
+ + + + + + R = 12 rachas (correlacin negativa)
+ + + + + + + R = 4 rachas (posiblem. independientes)

Ejemplo: variable continua


Codificar los datos como + si el valor est por encima de cierto valor,
o como si est por debajo.
Si la muestra es aleatoria, se puede calcular el nmero aproximado de
Rachas que deberan observarse
Se puede establecer cualquier punto de corte
12 / 18
Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Test de aleatoriedad por Rachas


Implementacin

SPSS
La variable debe ser Cuantitativa, o Nominal, con una codificacin
numrica
Si es necesario, Transformar:Recodificacin automtica
Analizar:Pruebas no paramtricas:Rachas...

Ejercicio
Recodificar automticamente la variable progenie en
progenie-cebada.csv
Comprobar si la muestra puede considerarse aleatoria utilizando
diversos puntos de corte

13 / 18

Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Variables categricas

Variables categricas (o cualitativas, o factores)


Aquellas que pueden tomar un nmero finito de valores

Ejemplos y clasificacin
Nominales Grupo sanguneo {A, B, AB, O}
Dicotmicas o binarias Sexo {H, M}; Factor RH {+, -}
Ordinales Concentracin {Baja, Media, Alta}; Grupo de edad {0-25,
26-40, 40-60, 60+}

SPSS
Es importante definir correctamente el tipo de variable en SPSS ya
que los mtodos disponibles dependen de ello
Vista de variables:Medida

14 / 18
Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Ejemplo
Caractersticas de una progenie

Ejemplo 1.- En un estudio sobre el cruce de variedades de cebada, se


observaron dos caractersticas: presentar 2 filas de granos (a) o no (A,
dominante), y tener color verde (B, dominante) o ser planta clortica (b).
La combinacin de estas caractersticas nos da cuatro posibilidades: verdes
sin dos filas de granos, verdes con dos filas, clorticas sin dos filas y
clorticas con dos filas. Se recogieron datos de cruces entre
heterozigticos (AaBb), resultando:

Verde sin 2 filas 1178


Verde con 2 filas 291
Clortica sin 2 filas 273
Clortica con 2 filas 156
Total 1898

Se cumple la segregacin normal dihbrida con dominacin completa


(AaBb x AaBb > 9 A-B- ; 3 A-bb ; 3 aaB- ; 1 aabb)?
15 / 18

Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Abstraccin
Bondad de ajuste de una poblacin

Tenemos una poblacin (la progenie de los cruces heterozigticos)


Una nica variable respuesta: combinacin del cruce (categrica con 4
categoras).
Objetivo: comprobar si se cumplen las proporciones (9/16, 3/16,
3/16, 1/16).

16 / 18
Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Test de bondad de ajuste

Consideremos una variable categrica con k categoras y una muestra


aleatoria de N observaciones de esa variable. Las observaciones se
clasifican segn las k categoras y se representan en una tabla de
frecuencias absolutas (O1 , . . . , Ok ).
Nuestro objetivo es contrastar si la proporcin poblacional de cada
categora (1 , . . . , k ) cumple unas proporciones prefijadas
(p1 , . . . , pk ). H0 : 1 = p1 , . . . , k = pk
Si la hiptesis H0 fuera cierta, las frecuencias esperadas seran
Ei = Ni .
Para comparar las frecuencias observadas con las frecuencias
esperadas podemos utilizar el estadstico de contraste:
X (Oi Ei )2
2s = 2 (k 1)
i
Ei

17 / 18

Regresin no paramtrica Contraste de aleatoriedad Bondad de ajuste

Test de bondad de ajuste


Implementacin

SPSS
La variable debe ser Nominal, con una codificacin numrica
Si no es as, utilizar Transformar:Recodificacin automtica
Analizar:Pruebas no paramtricas:Chi-cuadrado...

Ejercicio
Comprobar las proporciones tericas del banco de datos
progenie-cebada.csv

18 / 18