Escolar Documentos
Profissional Documentos
Cultura Documentos
* Ao meu orientador, professor Doutor Joaquim Fernando Pinto da Costa, pelo apoio,
disponibilidade e compreensão manifestados ao longo destes meses, assim como por
todos os reparos críticos feitos a este trabalho.
* A Dra Gabriela Direito, pelas facilidades concedidas nos horários Durante o tempo de
frequência do mestrado.
* Aos meus pais e irmã, que sempre acreditaram em mim e cuja força me deu coragem
para continuar.
* Ao PRODEP, pela atribuição de uma bolsa que facilitou a frequência deste mestrado.
Introdução 3
1. A r v o r e s binárias d e regressão e o m é t o d o C A R T 5
1.5.1 A árvore T m a x 17
2. O m é t o d o M A R S 29
2.2.1 Continuidade 32
1
2.5 O critério LOF: estimador da ineficiência da função aproxiroante 38
3. Aplicações 42
Anexo A 57
Anexo B 22
Referências 85
2
Introdução
3
compreender quais as variáveis que originam o fenómeno em estudo, e o modo como estão
relacionadas nesse fenómeno. Ao contrário das outras técnicas, as árvores não necessitam de
conhecer à priori todos os atributos. Este facto é especialmente vantajoso em problemas nos
quais os valores dos atributos são difíceis de medir ou cuja medição acarreta custos elevados. Para
prever o valor resposta de um caso temos apenas de recolher um a um os valores dos atributos
que aparecem no seu percurso de descida na árvore. A utilização e interpretação simples de
certas árvores são outros dos atractivos da utilização das mesmas.
As árvores binárias, são construídas de acordo com regras de divisão baseadas nas variáveis
preditivas do domínio em estudo. O domínio é particionado recursivamente de forma binária, por
forma a aumentar a homogeneidade dentro dos nós, a qual é determinada pela variável resposta
do problema. Quando o processo de partição termina, cada um dos nós obtidos é declarado
terminal e a cada um deles é associada uma classe nos problemas de classificação, ou um valor
constante real nos problemas de regressão. Assim, os ingredientes principais da construção de
uma árvore resumem-se aos seguintes pontos:
1. determinação de todas as divisões possíveis de um nó para cada variável do espaço de
predição (usualmente as divisões são determinadas por questões binárias);
2. selecção da "melhor" divisão de todas;
3. determinar quando se deve considerar um nó como terminal;
4. atribuição de um valor resposta a cada nó terminal.
No capítulo 1, explicitaremos o processo de construção de arvores de regressão, dando prin-
cipal relevo ás técnicas utilizadas por [Breiman & ai., 84] no programa CART. Este programa,
implementa um dos métodos não paramétricos que melhor se adapta à aproximação de funções
multivariadas. Contudo, o método CART revela-se extremamente ineficiente ao aproximar
funções contínuas, ou funções nas quais as interações existentes envolvem um pequeno número
de variáveis (por exemplo funções lineares). No capítulo 2, apresentamos uma série de modi-
ficações introduzidas por Friedman no programa CART, as quais vieram permitir a obtenção de
funções aproximantes contínuas com primeira derivada contínua. Estas modificações originaram
o método MARS ("Multivariate Adaptive Regression Splines"). Este método partilha das pro-
priedades atractivas do método CART, sendo no entanto mais potente e flexível na modelação
de funções contínuas ou de funções cuja interação entre as variáveis envolva um número reduzido
de variáveis.
Por último, no capítulo 4, alertamos para os problemas inerentes à comparação global dos
métodos e apresentamos os resultados da aplicação dos mesmos a conjuntos de dados reais e
simulados.
4
Capítulo 1
f- x —* R
x —> f(x)
5
terminação do valor de resposta, denota-se por R* (f(X)), e representa o risco asssociado à
utilização de / (X) para prever o verdadeiro valor de Y;
R*(Î(X))=E(L(YJ(X))).
Na regressão dos menores desvios absolutos (LAD) o valor do risco da função de predição
/ (X) é dado pelo erro absoluto médio
R*(f(X))=E(\Y-f(X)\)
e na regressão dos menores desvios quadrados (LSD) pelo erro quadrático médio
R*(f(X))=E^Y-f(X)j
(para uma revisão de métodos de regressão linear de menor desvio absoluto veja-se [Narula e
Wellington, 82]).
Neste capítulo apresentaremos a técnica de regressão por arvores binárias de regressão. Em
particular descreveremos alguma da metodologia utilizada no programa CART ("Classification
and Regression Trees"), desenvolvido em 1984 por Breiman, Friedman, Olshen e Stone [Breiman
k al., 84].
A uma árvore binária de regressão associa-se uma função de predição correspondente a uma
partição T de x, isto é, uma função de predição que a cada elemento t € T ( logo í c x ) associa
uma constante real t? (t).
A construção de uma árvore de regressão binária efectua-se de modo recursivo determinando
uma sequência de divisões binárias de subconjuntos de x ( a iniciar-se pela divisão do próprio
X em 2 subconjuntos descendentes). As sucessivas divisões processam-se por forma a obter a
partição T do espaço x Toaais adequada ao nosso problema. Posteriormente é atribuído um valor
real de resposta a cada elemento dessa partição.
Na figura 1.1, que se segue, representamos uma possível árvore de regressão T. Os conjuntos
e e
Xi X2 são disjuntos com x = Xi U X2'-> analogamente xs X4 são disjuntos com xi = Xz U X4>
e assim sucessivamente. O conjunto x designa-se por nó raiz de T e os seus subconjuntos,
determinados pelas sucessivas divisões, por nós de T. Os nós de T que não sofrem divisões,
e
neste caso X4> X5> X7> X8> X9 Xio> designam-se por nós terminais e formam a partição T
de x determinada pela árvore. Sob cada nó terminal encontramos o correspondente valor de
resposta.Assim, uma árvore de regressão T determina uma função de partição associada a T,
6
isto é, uma função T \ \-*T onde r (x) = t se e somente se x G t, à qual fica associada uma
função de predição / (r (a;)) = tf (í), i9 (í) G J? para cada valor x de X.
Na prática, para construir uma árvore binária dispomos apenas de uma amostra aleatória do
vector (X,Y), ou seja, dispomos de um conjunto de valores observados de X para os quais se
sabe o valor exacto da variável resposta, e é com base nestes dados que se efectuam as referidas
divisões. Em cada passo, a ideia fundamental por detrás da divisão de um nó, consiste em
determinar, de entre todos os elementos do conjunto S (conjunto de todas as divisões binárias
admissíveis de um nó), aquele que origine os dois nós descendentes com dados mais "puros"; isto
é, aquele que conduza a uma diminuição máxima da "impureza" entre um nó de partida, t, e os
seus descendentes, Í£ e Í R .
A "impureza" de um nó t é quantificada pelo risco pesado
Um conjunto de sucessivas divisões binárias conjuntamente com a ordem pela qual são
efectuadas formam uma árvore binária T e a partição de x P o r e l e s determinada constitui o
conjunto T dos seus nós terminais (ou nós folhas).
7
A impureza de uma árvore T, que denotaremos por R* (T), é dada pela soma das impurezas
de cada uma das suas folhas. Assim,
ir(r)=£iT(í)=5>(í)p(í),
tef tef
ondeP(í) > 0 , V t e T .
Cada divisão de um nó t G T em £& e tR origina uma nova árvore T' de folhas
f = (f-{t})u{tL,tR}
Em cada passo, procuramos escolher a divisão s* G S do nó t E T que minimize a impureza
da árvore T7 criada.
De facto, como
a divisão s*que maximiza AR* (s,t), maximiza R* (T) — R*(T'), o que equivale a minimizar
R*Çf).
Observando que
onde
pL = P(XetL/Xet) =^ - e PR = P(X€tR/X€t) = ^ - ,
onde PL > 0 e PR > 0 representam a probabilidade dos elementos de t serem enviados pela
divisão para o nó ti, e tR, respectivamente (figura 1.2).
Fig 1.2
8
A construção de uma árvore binária de regressão inicia-se com um processo iterativo que em
cada passo visa a maximização de AR*(s /t); terminado o processo de crescimento da árvore,
a cada nó terminal t fica associada a resposta $(i) que será produzida pela árvore sempre que
um caso "atinja" esse nó. Fica assim definida uma função de predição, a qual confere à árvore
binária a estrutura de árvore binária de regressão.
R*(f(x)) = E[E(L(YJ(X))/X)]
= J E(L (Y, f (*)) /X = x)fx (x) dx.
x
Assim sendo, a regra fB é uma regra de Bayes se
R*(f(X))=E(\Y-f(X)\),
onde
R*(f(X))=E(Y-f(X))2,
9
é dada pela função de regressão de Y em X, isto é,
fB(x)=E(Y/X = x).
Definimos de modo análogo a regra de Bayes correspondente a uma partição. O risco de uma
função de predição ff correspondente a uma partição T é dado por
v(t) = v(Y/Xet),
a regra de Bayes é dada por um qualquer valor da mediana da variável resposta no nó " atingido"
por X, isto é,
fB(X) = v(r(X)),
K*(fB(X)) = X>(|y-t>(í)|/XGt).P(í)
= £>(Í)P(Í).
l*(t)=E(Y/Xet),
a regra de Bayes é dada pela média da variável resposta no nó "atingido" por X, ou seja,
fB(X) = /,(r(X)),
R*(h(X)) = ^£((y-M(í)f/l€í)P(í)
t€T
= ^C72(Í)P(Í).
10
V t e í , o = i9(t) minimiza £ ( L (Y, a) /Xet).
T e o r e m a 1.1: Seja t um nó de uma árvore T e J w uma colecção de nós que formam uma
partição de t. Então
R*(t)>Y, R*(s),
sefW
ocorrendo a igualdade, se e só se a resposta óptima dada no nó t, i9 (t), for também óptima para
cada nó s da partição de t, isto é, se e só se
Os teoremas anteriores, provados em [Breiman &; ai., 84], pág. 271, garantem-nos que o risco
de Bayes de uma árvore não aumenta com as segmentações dos nós; na pior das hipóteses uma
segmentação manterá inalterado o valor do risco. S e i G T for segmentado em ti, e ÍR dando
origem à árvore T', então o risco de Bayes de T1 será estritamente inferior ao risco de Bayes de
T, exceptuando se a acção óptima i? (í), tomada em t, for também óptima para ti, e Í R (caso
em que a redução do risco é nula). Assim, AR*(s /t) > 0, ocorrendo a igualdade se e só se
r{tL)=E{L(X,ti(t)) IX G t£) er(tR)=E(L(Y,#(t)) jX G tR).
11
1.3 E s t i m a d or e s d o r isco m í n i m o
onde N(t), N(tj_) e N(tn) representam o número de elementos da amostra que pertencem a t,
ÍL e ÍR, respectivamente.
Assim PL e PR são estimados pela proporção de dados de í que são enviados para Í£ e ÍR,
respectivamente:
PL = e
W **=w
Na regressão dos menores desvios absolutos os valores de d(t), d(ti) e <a(i#) são estimados
pelos respectivos desvios médios amostrais em relação à mediana amostrai do respectivo nó:
ã
® =m £ iy»-*(*)i. (L2)
*■ ' nenN(t)
onde í)(t) representa a mediana amostrai do nó t; d[ti) e C2(ÍR) calculam-se de modo análogo
substituindo em (1.2) t por Í£ e ÍR, respectivamente.
Deste modo um estimador de
é dado por
AR(s J t) = d(t) - pL d(tL) - PR d(tR).
Neste caso, a melhor divisão de t será a minimizadora da soma pesada dos desvios médios
dos nós descendentes relativos à sua mediana amostrai
PLd(tL)+pRd{tR). (1.3)
sendo os valores de <x2(í), <T 2 (ÍL) ecr 2 (í^) estimados pelas respectivas variâncias amostrais:
S2
® = m) v
S (Yn-Y(t))2, (1.5)
' n€nN(t)
com
?
W=]4 £ fti (1-6)
nenjv(í)
12
S ^ Í L ) e S^(ifl) calculam-se de modo análogo substituindo em (1.5) e (1.6) t por í& e tR,
respectivamente.
Assim um estimador de AR*(s /t) é dado por
sendo a melhor divisão de t determinada por forma a minimizar a soma pesada das variâncias
amostrais dos nós descendentes
pLS2(tL)+pRS2(tR). (1.7)
Como
n(t)=PLix(tL) + PRn{tR)
e
= PLPR(M^)-M*ÍÍ))2,
No programa CART, [Breiman &; ai., 84], em problemas de regressão nos quais não dispomos
da distribuição de (X, Y), a regra utilizada na divisão de cada nó consiste em escolher, de entre
as divisões possíveis desse nó, aquela que minimiza (1.3) ou (1.7), consoante o problema de
regressão. Na regressão LSD minimizar (1.7) é equivalente a maximizar (1.9). Mais à frente
explicamos qual o método escolhido para terminar o crescimento da árvore e como a escolha da
árvore final é feita recorrendo a uma amostra independente ou à vaJidação-cruzada, para podar
a arvore.
1.4-1 Conjunto das questões binárias inerentes ao método CART e que de-
terminam as divisões admitidas e m cada nó
Os dados que neste trabalho nos propusemos estudar possuem estrutura standard, ou seja, os
vectores i e ^ , descritores dos casos em estudo tem dimensão fixa. O programa CART incorpora
para este tipo de situação (que ocorre na maioria dos problemas existentes) um conjunto standard
13
de questões binárias da forma x E Al que determina o conjunto das divisões standard permitidas
em cada nó. A questão x G A? associada a um qualquer nó t determina de modo unívoco a
divisão do conjunto t em dois subconjuntos disjuntos Í£ e ÍR, com Í£, U ÍR = í tais que,
tL = tDA e tR = tn(x-A),
assim, o nó descendente esquerdo, t^, será constituído pelos elementos de t que originam uma
resposta afirmativa à questão x e Al, sendo o nó descendente direito, ÍR, formado pelos restantes
elementos de t.
Considerando que cada vector observado é constituído pelos valores { x m } ^ _ x , tomados pelas
M variáveis {Xm}m=l, o conjunto das questões standard é dado por:
Notemos que embora # Q possa ser infinito, o número de divisões binárias distintas origi-
nadas por um conjunto de dados ( # 5 ) é sempre finito. De facto, sendo a amostra finita, uma
variável numérica, digamos Xm, tomará no máximo N valores distintos. Sejam xmi, xm2,..., xmN
esses valores que, sem perda de generalidade, consideraremos ordenados. As questões standard
associadas a tal variável conduzirão, no máximo, a J V - 1 divisões binárias distintas de um nó,
as quais coincidem com as divisões geradas pelas questões xm < Ci ?, com xmi < Cj < xmi+1,
i = 1,..., N — 1. Por sua vez, as questões associadas a uma variável nominal com L modalidades
conduzem à obtenção de 2L~l — 1 divisões binárias distintas de um nó.
As divisões geradas por questões standard dependem apenas do valor tomado por uma única
variável (numérica ou nominal). Sob um ponto de vista geométrico, no caso das variáveis serem
todas numéricas, o processo de construção de uma árvore de regressão binária recorrendo a
divisões standard, consiste em particionar recursivamente o espaço em rectângulos multidimen-
sionais, de lados perpendiculares aos eixos determinados pelas variáveis, nos quais a população
é cada vez mais homogénea (figura 1.3).
A h *
Fig 1.3
14
Situações há de problemas nos quais dados homogéneos se separam de um modo natural
por hiperplanos não perpendiculares aos eixos. O tratamento deste tipo de problemas torna-se
complexo e origina árvores de grandes dimensões se as divisões possíveis em cada nó se basearem
apenas em questões standard. Para tratar mais eficazmente dados que apresentam estrutura
linear, o conjunto das questões permitidas em cada nó foi extendido, possibilitando que a procura
da melhor divisão em cada nó se efectue também ao longo das combinações lineares das variáveis
ordenadas. Reuniu-se então ao conjunto das questões standard o conjunto de todas as questões
K
da forma Yl °fcxfc < c ?, onde K representa o número de variáveis numéricas, c um qualquer
fc=i
número real e os coeficientes a\, ..., a # (associados ás variáveis numéricas com o mesmo índice)
K
números reais tais que £) a I — !• No entanto a introdução de questões permitindo combinações
fc=i
lineares das variáveis numéricas não trás só benefícios; se por um lado ela permite que se descubra
e utilize possíveis estruturas lineares dos dados, gerando árvores menos complexas (com menos
nós terminais), por outro lado tais árvores não têm a interpretação fácil, característica daquelas
produzidas apenas com questões standard.
1.4.2 R e d u ç ã o d a c o m p l e x i d a d e d o a l g o r i t m o d e d e t e r m i n a ç ã o d a partição
ó p t i m a d e u m a variável n o m i n a l n a regressão LSD
Seja Xm uma variável nominal do vector X com modalidades em B = {61, ..., &£,}. Considere-
se a divisão de um nó t em Í£, e i# efectuada em Xm dividindo B em Bi = {b^, ...} C B e
Bi = B—Bi e originando os nós descendentes Í£ = {x € t : Xm € Bi} e ÍR = {x € t : Xm € -62}-
Suponhamos que a divisão óptima de um nó t é aquela que origina a bipartição Bi, Bi de
B, minimizadora de Pz,(j) (/li (íz,)) + PR(J> (/U(ÍR)), onde (f> é uma função côncava num intervalo
contendo /J,(.) (ver por exemplo (1.7)). Denomine-se esta partição por bipartição óptima de
B. Como o número de divisões possíveis de um nó, baseadas numa variável nominal, aumenta
exponencialmente com o número de modalidades (2L~l — 1 divisões binárias distintas de um
nó para uma variável nominal com L modalidades), a complexidade do algoritmo de escolha da
bipartição óptima que testa exaustivamente todas as possíveis bipartições torna-se insustentável
para variáveis nominais com um elevado número de modalidades. Na procura da bipartição
óptima de B pressupomos que
P(Xet,Xm = b)>0,\/b<EB
e que
15
O teorema que se segue, é demonstrado em [Breiman & ai., 84], págs. 275-278 (com simpli-
ficação devida a P. Feigin). No caso particular da regressão LSD, no qual <j> (y) = —y2 (veja-se
(1.8)), o resultado deve-se a [Fisher, 58]. Este resultado é a base teórica do algoritmo de pesquisa
utilizado no programa CART [Breiman & ai., 84] na regressão LSD e que reduz a complexidade.
Teorema 1.3: Existe uma partição óptima de B em Bi e B^. Essa partição é tal que
para b\ 6 Bi e b2 G Bi.
E(Y/Xe t,Xm = bh) <E{Y/Xet,Xm = bh) < ... <E(Y/Xe t,Xm = blL),
y(bh)<y(bh)<...<y(blL)
temos a certeza de que a melhor divisão s* em Xm no nó t é uma das L — l divisões que originam
tL = {xet:XmeBi} e tR = {x G t : Xm G B2} com Bi = {bh, ...,kh} e
=
-S2 {fy.+i' — ,hL\, h = 1, ..., L — 1. Assim, em vez de procurar Bi de entre 2L~l — 1
subconjuntos de B basta procurá-lo entre os L — 1 subconjuntos de B descritos acima. Este
resultado reduz drasticamente a complexidade do algoritmo de procura da bipartição óptima
baseada numa variável nominal aumentando consideravelmente a eficiência computacional.
1.5 Q u a n d o parar o p r o c e s s o d e s e g m e n t a ç ã o d o s n ó s . O m é t o d o d a p o d a
[Breiman & ai., 84] revolucionaram de certo modo o processo de criação de árvores de regressão
ao abordarem o problema da determinação da árvore de regressão final sob um ponto de vista
completamente diferente dos adoptados até à data. Os métodos de construção de árvores de
regressão existentes até então, e mesmo o método CART [Breiman & ai., 84] numa fase inicial,
utilizavam uma regra heurística de paragem da segmentação dos nós para terminar o processo
de crescimento da árvore e declará-la como árvore final. Esta regra consistia em declarar um
nó como terminal quando este não admitisse nenhuma divisão que conduzisse a um decréscimo
16
significativo da impureza, ou seja, se fixada à priori uma quantidade /3 > 0, max AR (s, t) < (3.
Tal regra produzia geralmente resultados insatisfatórios; tornava-se impossível fixar um /? que
fosse eficaz para todos os nós. Um j3 "pequeno" tinha o inconveniente de conduzir a árvores
"excessivamente grandes", no entanto, um aumento de f3 levava normalmente a declarar como
terminais certos nós nos quais o decréscimo de impureza era ínfimo mas cujos descendentes
possuíam divisões que originavam grandes decréscimos de impureza. Assim, aumentando /3, as
árvores tornavam-se "demasiado pequenas", na medida em que, alguns nós com elevado poder
predictivo (e portanto desejáveis) não chegavam a ser criados.
Depois de inventarem e testarem algumas variantes desta regra, que se revelaram de igual
modo insatisfatórias, [Breiman & ai., 84] propuseram um novo método de procura da árvore
final. Em vez de utilizarem critérios de paragem resolveram deixar crescer a árvore inicial
até obter uma árvore, Tmax, de grandes dimensões, a qual é posteriormente submetida a um
adequado processo de poda ascendente (que explicitaremos mais adiante) por forma a produzir
uma sequência de sub-árvores
de complexidade decrescente. A árvore de regressão final será então escolhida desta sequência
como sendo aquela que minimiza a estimativa do risco da sua utilização como função de predição.
A escolha é feita através de uma amostra teste independente no caso de a amostra ter grandes
dimensões, ou através de um processo de validação cruzada no caso contrário.
1.5.1 A á r v o r e Tmaa.
Sob um ponto de vista teórico a construção da árvore inicial Tmax de [Breiman & ai., 84],
consistia num processo sequencial de divisão dos nós por forma a maximizar o decréscimo de
impureza, processo este que finalizaria apenas quando todos os nós folhas fossem conjuntos
singulares. No entanto, em diversos problemas, a criação de tal árvore acarretava custos com-
putacionais elevados e pressupunha a disponibilidade de tempo computacional ilimitado o que
inviabilizava a sua utilização directa. Assim, uma vez que o tempo e custo computacionais dis-
pendidos são factores de extrema importância e limitados, na prática, ao criar a árvore Tmax,
termina-se o processo de segmentação de um nó se este for puro (isto é, se o valor da variável
de resposta for o mesmo para todos os seus casos), ou for formado por um número pequeno
(geralmente entre 1 e 5) de casos.
As árvores Tmax assim obtidas são menores; no entanto, o tamanho exacto da árvore Tmax
de partida não é importante, desde que seja "suficientemente grande", uma vez que não tem
influência na determinação da árvore final. Como veremos, a partir de dada altura, a sequência
17
de subárvores originadas pelo processo de poda aplicado à maior árvore Tmax será coincidente
com a sequência obtida pelo mesmo processo quando este é aplicado a uma árvore de tamanho
inferior. Para uma árvore inferior mas "suficientemente grande" as sequências poderão ser
totalmente coincidentes, conduzindo à escolha da mesma árvore final.
Como nota final, referiremos apenas que, comparativamente, as árvores iniciais dos problemas
de regressão têm geralmente dimensões muito maiores do que as dos problemas de classificação.
Numa fase inicial de trabalhos, [Breiman k, ai., 84] sugeriram construir a sequência de sub
árvores podadas de Tmax,
Tmax, T\,T2,..., {ti} ,
do seguinte modo:
considerese para cada H, 1 < H < \fmax\ (onde \Tmax\ representa a complexidade, isto é,
o número de nós terminais da árvore Tmax) a classe TH de todas as subárvores de Tmax com
complexidade \Tmax\ — He escolhase a árvore TH da classe TH tal que
18
(i) Ra(T(a)) = min Ra{ï) ;
(H) se J R Q ^ ) = Ra(T(a)) então T(a) ^ T \
Teorema 1.4: Toda a árvore T tem uma única menor sub-árvore optimamente podada com
respeito a a. Seja T uma árvore não trivial com raiz ti e ramos primários TL e TR. Então,
Temos T(a) = {h} se Ra(h) < Ra(TL(a)) + Ra(TR(a)) e T(a) = {ti} U TL(a) U TR(a) no
caso contrário.
Se T < Tmax, a partir de um dado a teremos Tmax(a) ■< T1, logo T'(a) = T max (o;). Isto
significa que se começarmos o processo de poda com uma subárvore T1 de Tmax, a partir de um
certo a a sequência de subárvores obtida coincide com a que se obteria partindo de Tmax. Se a
subárvore "t for "suficientemente grande" o primeiro valor de a para o qual Tmax{a) ^ T" será
pequeno e as referidas sequências serão praticamente idênticas.
19
a raiz até aos nós terminais têm exactamente n + 1 nós. Temos f"1 = 2n e N(Trn+1) =
(N(Tn))2 + 1. Assim, para n = 4 teremos 677 sub-árvores, para n = 5, 458330 sub-árvores e,
para n = 6, 210066388900 sub-árvores. Daqui se depreende que o número de sub-árvores de
uma dada árvore aumenta vertiginosamente com o número de nós, pelo que, um processo de
pesquisa directo sobre todas as sub-árvores de T para determinar a sub-árvore T(a) se torna
computacionalmente dispendioso podendo até ser inviável em árvores de grandes dimensões.
O teorema 1.5, juntamente com os dois que se seguem, provados em [Breiman & ai., 84], págs.
286-288, permitem mostrar como é possível determinar a cadeia de sub-árvores encaixadas por
um processo iterativo simples.
Seja
Ra{Tt) = R{Tt) + a
Dada uma árvore não trivial T, a condição necessária de aplicabilidade do teorema anterior
ocorre se e só se
Ã
Ra(t) > Ra{Tt) <* R(t) + a> R(Tt) + aft& g(t, T) = ^ _ ~ R(T*> > a vt G T - f.
Tt - 1
Temos então,
Teorema 1.7: Dada uma árvore não trivial T, seja a\ = min g(t,T). Então T é a única
teT-f
sub-árvore optimamente podada de si própria com respeito a a para a < a\; T é uma sub-
árvore optimamente podada de si própria com respeito a a i , mas não a menor; e T não é uma
sub-árvore optimamente podada de si própria com respeito a a para a > ot\.
T\ = T(ai) = {t G T : g(s,T) > ampara todos os antepassados s G Tde t}.
SeteTi-fi então g(t,T{) > g(t,T) se Tu <Tt e g(t,T{) = g(t,T) no caso contário.
Com base nos teoremas anteriores determina-se de forma recursiva uma sequência de perâmetros
de complexidade
20
—OO < aX < OC < ... < OiK < + ° °
onde cada sub-árvore Tfc+i, k=û,...,K-i, é a menor sub-árvore optimamente podada de Tmax com
respeito a afc+i e é obtida da sub-árvore anterior Tfc removendo desta um ou mais dos seus
ramos.
ai = min_ g(t,TmaX)
cfc-í max -* max
e
Ti = {t € Tmax '■ 9(s, Tmax) > <*i para todos os antepassados s € Tmax de í } .
Se Ti = {íi} temos, pelo teorema 1.5, T rnaa; (a) = Ti para todo o a > a i e o processo termina.
Caso contrário tome-se
a 2 = min. g(t,Ti)
teTi-Ti
e
T% = {t € Ti : p(s, Ti) > a2 para todos os antepassados s G Ti de í } .
Como a2 > a i , decorre do teorema 1.5, que Tmaxi^) ^ Tmax(ai) = Ti ■< Tmax logo por (1.10)
Tmaxfa) = Ti(a 2 ) = T 2 . Por outro lado se a i < a < a 2 então T ^ a ) X Tmax(ai) = Ti -<
Tmax pelo que, por (1.10), Tmax(a) = Ti{a) = Tx.
Caso T2 = {ti}, pelo teorema 1.5, T m a x (a) = T2 para todo o a > a2 e o processo termina.
Senão o processo prossegue de modo análogo: no passo, fc + 1, definimos
e
Tfc+i = {t € Tfc : g(s,Tk) > ctk+i para todos os antepassados s G Tk de t}.
21
Como ak > a fc+1) temos pelo teorema 1.5 Tmax{ak+i) < Tmax(ak) = Tk< Tmax logo por (1.10)
TmaX(ak+i) = Tk(ak+i) = Tk+i. Por outro lado para ak < a < ak+i vem, pelo teorema 1.5,
Tmax(a) 1 Tm^iak) = Tk± Tmax logo por (1.10) Tmaxia) = Tfc(a) = Tk.
Se Tk+i = {ti} então, pelo teorema 1.5, Tmax(a) = Tk+i para todo o a > ak+i e o processo
termina. Caso contrário o processo segue até se obter uma subárvore trivial.
—00 < « i < Oi2 < ■■■ < OLK < +oo
tais que
Tmax , a <a\
Tmax{oc) — < Tk , l<k<Keak<a< ak+i
TK -, Oi>aK
1.6 A m e l h o r sub-árvore p o d a d a : u m p r o b l e m a d e e s t i m a ç ã o
22
Tendo sido as divisões de Tmax determinadas a partir da amostra £ por forma a mini-
mizar a impureza estimada da árvore, torna-se óbvio que a utilização da estimativa R (Tk) de
R* (Tk), calculada com base na mesma amostra, levaria inevitavelmente à escolha de Tmax para
árvore óptima e dar-nos-ia um panorama optimista e enviesado do erro. A estimativa R(Tk)
diminui à medida que Tk aumenta, porque em cada divisão de um nó t em Í£ e tu se tem
R(t) > R(t£) + R(tR). Sendo assim, a estimativa R(Tk) de R* (Tk) é tanto mais optimista
quanto maior for a árvore.
Uma forma óbvia de curar a tendência optimista da estimativa R (Tk) é basear o seu cálculo
num novo conjunto de dados distintos dos de £, não intervenientes na criação da árvore. Contudo,
usualmente apenas dispomos da amostra de dados £, havendo poucas hipóteses de se obter um
novo conjunto de dados. Deste modo a amostra £ tem de ser utilizada simultaneamente para
gerar a árvore e para calcular estimativas credíveis do seu erro. A este tipo de estimativas
chamamos estimativas internas de £. Em [Toussaint, 74] encontrará um resumo e referência a
alguma bibliografia acerca das mesmas.
Apresentamos a seguir dois métodos de estimação frequentemente utilizados: o método de
amostra independente e o método de validação cruzada. A escolha de cada um deles depende
geralmente da dimensão de £: o método de amostra independente é preferível em amostras de
grandes dimensões uma vez que é computacionalmente mais eficiente; em amostras pequenas,
o método de validação cruzada, embora computacionalmente mais dispendioso é o preferido
porque faz uma utilização exaustiva dos dados tanto na criação da árvore como na estimação do
seu erro.
23
sendo essa estimativa dada por
2
(x„,y„)e&
com
£ í *n> /fc (Xn)) = in ~ À (Xn)
na regressão LAD e
L(YnJk(Xnj) = (Yn-fk(Xn))
na regressão L5.D.
Notando que os L \Yn,fk (Xn)j são variáveis aleatórias independentes e identicamente dis-
tribuídas, por serem funções contínuas de variáveis aleatórias independentes e identicamente
distribuídas, é fácil ver que
i £ [i(^,/fc(Xn))-i?ÍS(T,)]2
2
. (x„,y„)6& J
= / —
As estimativas do desvio padrão na regressão LAD dependem apenas dos momentos absolutos
amostrais de primeira e segunda ordem, pelo que são menos variáveis do que as correspondentes
estimativas na regressão LSD (que dependem dos momentos amostrais de segunda e quarta
ordem) e portanto mais credíveis.
Na regressão LSD o erro relativo determina a precisão de uma árvore de regressão Tk com-
parando o seu erro quadrático médio com o erro quadrático médio do predictor constante que a
24
cada valor associa E (Y); na regressão LAD comparando o desvio absoluto médio de Tk com o
desvio absoluto médio do predictor constante que a cada valor associa a mediana de Y. Assim
o estimador i£E*s(Tfc) de RE*(Tk) é dado por
Rts(Tk)
REts(Tk) =
&>{$)
onde ip = v (mediana amostrai de Y) na regresssão LAD e tp = Y (media amostrai de Y) na
regressão LSD.
Por razões que dizem respeito à eficiência computacional, a medida de erro classicamente
utilizada em regressão é o erro quadrático médio. Neste caso, um estimador do erro padrão
assintótico ([Breiman & ai., 84], págs. 305 e 306) é dado por:
I" i / rfM1/2
s 5 S? tí2 oo
2Si2 S%
SE (itE* (Tfc)J = RE* ^
N2 \i? s (r f c ) 2 ^(Tfc)^ 2 s\
onde S 2 representa a variância amostrai de Y,
S
l = (w E {Yn-fk(Xn))4)-RtS(Tkf,
2
V (x„,yn)eí2 /
e
5
12 = ( ~ E fr - A (Xn))2 (Yn ~ Y)2) - R^S*
2
V (^n,yn)SÍ2 /
1.6.2 E s t i m a d o r e s d e validação c r u z a d a
25
rp rp\ rpV
Relembre-se que
e
{*i} = Tmax{a) para a > aK.
Para um valor de V suficientemente grande as amostras £W têm a maior parte dos elementos
de £, pelo que podemos supor que as árvores Tmax e Tmax ,v = 1,2,..., V, não são muito dife-
rentes. Assim sendo, uma estimação credível de R*(Tk) pode ser obtida testando as observações
de £„, que não foram consideradas na criação de 7 ^ . , na sub-árvore optimalmente podada de
Tmax c o m respeito a a'k, Tmàx{aík), onde a'k € [afc, ak+i[ para fc = 1,2,..., K.
[Breiman & ai., 84] sugerem utilizar para ak a média geométrica de ak e ak+i,
= è E ^ / S * 0 (*»)),
onde (x„,y„)€í
/í l) (X n ) se (Xn,Yn)eh
f{kVn) (Xn) = \
fiV)(Xn) se (Xn,Yn)e£v
O estimador de validação cruzada RE^iTk) de RE*(Tk) é dado por
26
onde ip = v (mediana amostrai de Y) na regressão LAD e ip — Y (média amostrai de Y) na
regressão LSD.
Não é claro como se poderão obter estimadores do desvio padrão de iîcu(Tfc) e de RE^iTk)
porque as variáveis L \Yn, f^' (Xn)j não são independentes. [Breiman k, ai., 84] sugerem que na
prática se utilizem regras heurísticas que ignorem a falta de independência entre essas variáveis.
As fórmulas heurísticas assim obtidas são semelhantes ás obtidas no método de amostra inde-
pendente. Temos,
SE(R™(Tk)) = M,
com
52
= ^E^(^^n)(^))-^N:
n=l
e, na regressão dos menores desvios quadrados,
Sf 2S\2 st 1/2
% = (w E {Yn-ft](Xn)y)-R™(Tk)2,
2
\ (*«,yn)€& /
S2 = £ (Yn-Y)4)-S*
(x„,y n )€í2
2
\ (x„,Yn)eç2 " /
1.6.3 A e s c o l h a d a á r v o r e final: u t i l i z a ç ã o d a r e g r a 1 S E
Estimativas de amostra independente ou de validação cruzada podem ser usadas para se-
leccionar a árvore óptima de entre as candidatas To >- Ti y T2 y ... y TK- De entre estas
sub-árvores a de tamanho óptimo pode ser definida como sendo a árvore T ^ minimizadora da
estimativa R (Tk) utilizada (Rts(Tk) ou jR^ÇT*)), ou seja, T^ é tal que
27
Observando as estimativas R (Tk) como função do número Tk de nós terminais, [Breiman &
ai., 84] verificaram que à medida que Tk aumenta ocorre um decréscimo inicial rápido dos val-
ores das estimativas, seguindo-se um longo vale onde esses valores são praticamente constantes,
terminando com um aumento gradual dos valores das estimativas para valores elevados de Tk
(figura 1.4).
O valor R(Tko) referido em (1.11) encontra-se necessariamente nesse longo vale, onde os
valores dos R (Tk) são praticamente constantes mas a sua posição é instável na medida em que,
uma ligeira alteração dos dados (ou até uma separação aleatória distinta dos mesmos) pode
originar a escolha de uma árvore final ligeiramente diferente (mas cujo valor da estimativa de
erro se encontra nesse vale). Assim, atendendo à referida instabilidade e visando obter uma
árvore precisa mas o mais simples possível, [Breiman h al., 84] sugeriram que em alternativa à
regra (1.11) se utilizasse a regra 1SE. Esta regra consiste em escolher para árvore final a árvore
com menor número de nós terminais e com precisão comparável à da árvore Tfc„, no sentido de
que o valor da sua estimativa de erro não difira de R (T^) mais do que um desvio padrão.
Em resumo, a árvore de tamanho óptimo, Topt, é a menor sub-árvore Tk que verifique
28
Capítulo 2
O método MARS
Embora sendo um dos métodos não paramétricos que melhor se adapta à aproximação de
funções gerais multivariadas, o método CART de [Breiman & ai., 84] apresenta certas restrições
que limitam fortemente a sua eficiência. A utilização da metodologia de atribuir à função apro-
ximante valores constantes nas sub-regiões do espaço de predição determinadas pelas divisões,
conduz inevitavelmente à obtensão de funções aproximantes fortemente descontínuas nas fron-
teiras dessas sub-regiões e é uma das causas principais da ineficiência deste método quando
aplicado a situações em que a função a aproximar é contínua. Outro problema do método
CART é a extrema dificuldade que ele tem em aproximar funções lineares ou aditivas com mais
do que uma variável; de um modo geral, este método aproxima com dificuldade funções nas
quais as interações existentes envolvem um pequeno número de variáveis. A necessidade de
colmatar estas (e outras) limitações motivou o desenvolvimento de novas metodologias. Neste
capítulo descreveremos de forma sucinta o método MARS ("Multivariate Adaptive Regression
Splines"), desenvolvido por Friedman, em 1991, apresentando-o como uma série de genera-
lizações do método CART que ultrapassam algumas das limitações referidas anteriormente. Este
método permite obter funções aproximantes, / , contínuas com primeira derivada contínua e é
mais potente e flexível na modelação de funções aditivas ou de funções cuja interação entre as
variáveis envolva um número reduzido de variáveis.
Os valores de resposta originados por uma árvore de regressão obtida através do método
CART podem ser expressos formalmente pela função aproximante
M
f(X)=T,<hnBm(X),
771=1
29
onde os {Bm (.)}£f=1 representam as funções base
1 se X e Km
Bm (X) = <
0 se X^Rm
1 se 77 > 0
H(rj) = { (2.1)
0 se 77 < 0
e LOF (g) a função que estima, com base na amostra de dados, a ineficiência da função g como
função aproximante da função real. Então o procedimento de regressão passo a passo apresentado
no algoritmo 1 (que se segue) é equivalente ao do método CART aquando da criação da árvore
J-max-
A primeira linha do algoritmo 1 equivale no método CART a tomar para região inicial todo
o espaço de predição; o primeiro ciclo "for" gere as sucessivas divisões das regiões, permitindo
um número máximo, M m a x , de sub-regiões (funções base) finais; nos três ciclos "for" interiores
procede-se à escolha da função base Bm*, da variável xv* e do ponto de divisão t* que originam
a melhor função aproximante g (minimizadora de LOF(g)), de entre todas as funções base
existentes até então. A função base Bm* é posteriormente substituída pelo seu produto por
H [— (x„* — **)] e uma nova função base, produto de Bm* (x) por H [+ (xv* —£*)], é introduzida
no modelo. Este processo equivale no método CART a escolher em cada iteração, de entre todas
as regiões existentes, a região Rm que proporcione a melhor divisão, sendo esta divisão efectuada
sob a variável xv* no ponto t*.
Algoritmo 1
Bi (z) «- 1;
For M = 2 to Mmax do:
l0f* +- +OO;
For m = 1 to M — 1 do:
For v = 1 to n do:
For t G {xvj : Bm {XJ) > 0} do:
g <- £ OiBi (x) + OmBm (x) H {+ (xv -1)] + aMBm (x) H [- {xv -1)] ;
30
lof*- min LOF (g);
01,...,OM
onde a quantidade ífm representa o número de divisões que dão origem a Bm, os s km tomam
os valores ±1 e indicam o sentido (dir./esq.) imposto pela função H que lhes corresponde, os
v (k, m) indicam as variáveis de predição intervenientes na função base Bm e os £fcm os valores
dessas variáveis nos quais se processa a divisão.
A figura 2.1, que se segue, representa em forma de árvore binária uma possível solução do
algoritmo 1. Aos nós intermédios da árvore estão associadas funções H, com os respectivos
parâmetros. Aos nós terminais da árvore estão associadas as funções base (2.2), produto das
funções H encontradas percorrendo o único caminho descendente desde a raiz até ao nó folha
correspondente. Assim,
Bi = H[-(xVa - ta)]H[-(xVb - tb)], B 2 = H[-(xVa - ta)]H[+(xVb - tb)]H[-(xVc - tc)],
B 3 = H [-(xVa - ta)]H [+{xVb - tb)]H [+(xVc - tc)] eB4 = H [+{xVa - ta)}.
31
Terminado o algoritmo 1 efectua-se um processo adequado de poda ascendente. O procedi-
mento de podar uma das funções base de cada vez não é conveniente porque origina "buracos"
no espaço de predição a cujos elementos o algoritmo 1 atribui indesejavelmente o valor zero.
Analogamente ao que foi visto no capítulo 1, o processo adequado de poda ascendente remove,
em cada iteração, duas regiões complementares substituindo-as pela região pai (que no processo
descendente lhes deu origem).
2.2 O m é t o d o M A R S c o m o p r o d u t o d e generalizações d o C A R T
2.2.1 Continuidade
H(±(x-t)) = {±(x-tk))°+,
ocorre de modo natural substitui-las pelas funções de potências truncadas de grau q > 0,
6f = (± (x - tk))%,
de modo a originar um modelo contínuo com q — l derivadas contínuas.
As funções base obtidas com a referida substituição são da forma
32
Embora as funções base (2.2) resultantes da aplicação do algoritmo 1 constituam um subconjunto
do produto tensorial completo de funções "spline" de grau q = 0 com "knots" em todos os valores
distintos dos dados, o mesmo não ocorre com as funções base (2.3) produzidas pela generalização
contínua (com q - 1 derivadas contínuas) do mesmo algoritmo. Na realidade, o algoritmo 1
permite divisões múltiplas na mesma variável, pelo que, a sua generalização contínua origina
funções base que podem conter vários factores de grau q > 0 envolvendo a mesma variável (não
sendo portanto um produto tensorial).
Seria desejável que a generalização contínua do algoritmo 1 produzi-se funções base "spline"
multivariadas, utilizadas na aproximação de funções multivariadas, porque estas têm muitas
propriedades interessantes [de Boor, 78]. Estas funções "spline" são produtos tensoriais de
funções "spline" univariadas. No entanto, não podemos simplesmente proibir divisões múltiplas
da mesma variável, de modo a obter produtos tensoriais de funções "spline" univariadas.
Outro problema inerente às funções base (2.2) produzidas pelo algoritmo 1 (ou às produzi-
das pela sua generalização contínua (2.3)) surge com o aumento de uma unidade no nível de
interacção entre as variáveis sempre que ocorre uma divisão (uma vez que a função base Bm* (z)
é removida e substituída por duas funções fruto do seu produto por duas funções univariadas
reflexas). À medida que as divisões prosseguem as funções base finais têm tendência a envolver
um número significativo de variáveis envolvendo elevada interacção. Estes factores incapacitam
o método CART e a referida generalização contínua de aproximar convenientemente funções
nas quais não existe interacção entre as variáveis ou cujas interacções existentes envolvam um
pequeno número de variáveis (funções lineares e aditivas encontram-se nesta classe de funções).
Novas alterações no algoritmo 1 permitirão resolver este problema e obter funções base
"spline" multivariadas. O problema central reside na substituição da função base pelos seus
produtos por uma função "spline" univariada e pela sua reflexa da base bilateral de potências
truncadas, causando sucessivos aumentos de interacção. A solução proposta para o mesmo con-
siste em simplesmente não remover a função base pai mas, em vez disso, acrescentar ao modelo
as duas funções suas "descendentes". Procedendo deste modo, o número de funções base au-
menta duas unidades por iteração, sendo todas as funções base (pais e filhos) possíveis eleitas
para futuras divisões. Assim, funções envolvendo uma só variável obtêm-se escolhendo para pai
a função base Bi (x) = 1, funções de duas variáveis escolhendo para pai a função base univari-
ada adequada, e assim sucessivamente. Uma vez que neste novo modelo não se fazem restrições
quanto à escolha da função pai, ele é capaz de produzir funções envolvendo tanto fortes como
33
fracas interacções entre as variáveis (até mesmo com ambas as situações). Modelos aditivos puros
obtêm-se escolhendo sempre como pai a função Bi (x) = 1. Esta estratégia de não remover a
função pai e possibilitar a escolha de qualquer função base para nova divisão torna redundante
a existência de múltiplos factores envolvendo uma mesma variável numa função base. Para
efectuar múltiplas divisões na mesma variável basta escolher várias vezes a mesma função pai
(correspondente a essa variável), aumentando o número de termos mas não a profundidade da di-
visão. Modificando novamente o algoritmo por forma a não permitir funções base com múltiplos
factores envolvendo a mesma variável não alteramos o modelo e fazemos com que as funções
base obtidas sejam elementos do produto tensorial completo de funções "spline" univariadas
com "knots" em todos os valores distintos dos dados.
Como o nosso objectivo é produzir uma boa função aproximante da função real (e não das suas
derivadas) em geral pouco se ganha e muito se pode perder impondo, para além da continuidade
da função aproximante, a continuidade das suas derivadas, especialmente em espaços de predição
de elevadas dimensões. A dificuldade associada à utilização de funções "spline" de ordem elevada
deve-se aos chamados "end effects". A maior contribuição para o erro estimado da função
aproximante
1 N , 2
— V* (yi — f (XÍ) J ( estimativa do erro quadrático médio)
i=l
é dada pelos valores dos dados próximos da fronteira do domínio. Este fenómeno torna-se
ainda mais evidente em dimensões elevadas porque a proporção de dados próximos da fron-
teira aumenta vertiginosamente com o aumento da dimensão do espaço de predição (os dados
encontram-se muito mais dispersos relativamente à média). Nestas regiões, a aproximação da
função real recorrendo a polinómios de grau elevado (determinados por funções base "spline" de
grau elevado), conduz a grande variância da função aproximante.
34
Para resolver este problema, [Stone & Koo, 85] sugeriram modificar as funções base "spline"
convertendo-as de modo diferenciável em funções lineares perto das fronteiras do intervalo de
dados de cada variável.
A forma computacional mais simples de assegurar aproximações lineares perto das fronteiras
é aproximar linearmente (por bocados) a função real sobre todo o espaço de predição. Para o
efeito basta utilizar produtos tensoriais de funções base "spline" de grau q — l.
Seguindo as sugestões de [Stone & Koo, 85] o programa MARS implementa, numa fase
inicial, as generalizações referidas em parágrafos anteriores utilizando q — 1, obtendo um modelo
aproximante contínuo com boas condições de fronteira. Posteriormente o conjunto de funções
base finais é modificado por forma a obter um modelo com primeira derivada contínua mas
mantendo condições favoráveis de fronteira.
2.2.3 O algoritmo d o M A R S
Algoritmo 2
Bi (x) <- 1; M <- 2;
Loop until M > Mmax:
lof* *— oo;
For m = 1 t o M - 1 do:
For v g {v (k, m) : 1 < k < Km} do:
For t G {xvj : Bm (XJ) > 0}:
M—1
g^Yl ciiBi (x) + aMBm (x) [+ {xv -1)]+ + aM+iBm {x) [- (xv -1)]+ ;
lof +- min LOF (g);
ai,...,ajvf
35
Este algoritmo produz Mmax funções base, produtos de funções "spline"de grau q = 1, que
são elementos da base bilateral de polinómios truncados representada pelo produto tensorial
completo sobre todas as funções base univariadas com "knots" em todos os valores distintos dos
dados. Como no método CART, este conjunto de funções é posteriormente sujeito a um processo
de poda que determina o conjunto de funções base final intervenientes na função aproximante
contínua.
As localizações dos "knots" associados a esta aproximação são então utilizadas para determi-
nar funções cúbicas truncadas que permitem obter o modelo final do método MARS, contínuo e
com primeira derivada contínua.
Algoritmo 3
J* = {l,2,...,Mmax};K*+-J*;
lof* *- min LOF l £ a-jBj (x) ) ;
{dj-.-.jeJ*} \j€J* )
For M = Mmax t o 2 do:
b <- oo; L «- K*;
For m = 2 to M do:
K «- L - {m} ;
lof ^r min LOF [ £ akBk (x) ) ;
{ak:k£K} \k€K )
if lof < b then
b 4 - lof; K* <- K;
end if
if lof < lof* then
36
lof* «- lof; J* <- K;
end if
end for
end for
M Km
r ( M
m Skm X
/ (x) = Oo+ X^ ° II [ \ Hk,m) - tkm) > (2-4)
m—\ k=\
onde a primeira soma se processa sobre todas as funções base que envolvem apenas uma variável,
a segunda sobre todas as funções base que envolvem duas variáveis (salientando as variáveis com
interação de nível dois), e assim sucessivamente.
Pela sua semelhança com a decomposição utilizada na análise de variância em tabelas de
contingência, denominamos a representação (2.5) por decomposição ANOVA do modelo MARS.
Seja V (m) = {v ( f c , ™ ) } ^ o conjunto das variáveis associadas à m-ésima função base Bm
(2.4).
Escrevemos cada função da primeira soma de (2.5) na forma
soma de todas as funções base envolvendo apenas a variável Xi. Do mesmo modo escreve-se cada
função de duas variáveis da segunda soma de (2.5) na forma
37
Termos envolvendo mais variáveis são associados e representados de modo análogo. A con
tribuição para o modelo de três ou mais variáveis específicas é usualmente avaliada representando
a correspondente função / * nos vários pares de variáveis para valores fixos das outras variáveis.
A representação de (2.4) na decomposição ANOVA (2.5) permitenos identificar facilmente
as variáveis intervenientes no modelo, averiguar se são puramente aditivas ou estão envolvidas
em interacções com outras variáveis e identificar o nível das interacções existentes.
A função LOF{}M) fornece, com base nos dados, um estimador do erro de futuras previsões
obtidas a partir da função aproximante / M NO decorrer do programa são determinados os
parâmetros do procedimento que minimizam esta função.
Como em [Friedman, 88] e [Friedman k Silverman, 89] utilizamos uma forma modificada do
critério generalizado de validação cruzada (G CV) originalmente proposto por [Craven k Wahba,
79,:
£EÍVÍ/MM]2
IX>F (/„) = G CV (M) = \ ^ ■ <2'8>
O critério G CV representa o erro quadrático médio com que a função aproximante apro
xima os dados (numerador) multiplicado por um factor (inverso do denominador) que penaliza
o aumento da variância associado ao aumento da complexidade do modelo (número de funções
base).
Se os valores dos parâmetros das funções base (o número de factores Km, as variáveis v (k, m),
a localização dos "knots" tkm e os sinais Skm), associados ao programa MA RS, fossem de
terminados independentemente dos valores de resposta dos dados, (yi,...,2/jv), então apenas
os coeficientes (ao, a 1? ..., aM) teriam de ser ajustados aos dados. Neste caso a função de
custocomplexidade seria dada por
sendo B a matriz M x JV dos valores tomados pelas funções base em cada elemento dos dados
(Bij = Bi(xj)), [Friedman, 91]. Este valor representa o número de funções base linearmente
independentes em (2.4) e portanto o número de coeficientes a determinar. A s expressões (2.8) e
(2.9) definem o critério GCV de [Craven k Wahba, 79].
No entanto, tal como no programa CA RT, o programa MA RS utiliza exaustivamente os
valores resposta dos dados para determinar o conjunto de funções base (sendo a sua eficácia e
flexibilidade devida, em grande parte, a esta utilização).
38
Embora a utilização dos valores de resposta dos dados, na determinação das funções base,
conduza geralmente a diminuições drásticas do viés do modelo ela origina simultaneamente um
aumento da variância, porque novos parâmetros (os das funções base) têm de ser ajustados.
A redução do viés diminui acentuadamente o valor estimado do erro (numerador de (3.8)).
Contudo, o inverso do denominador (2.8), com C (M) definido por (2.9), reflecte apenas a
variância associada à determinação dos coeficientes (ao, ai, ..., CLM), não reflectindo portanto o
aumento da variância devido ao número adicional de parâmetros a ajustar.
[Friedman & Silverman, 89] sugeriram a utilização de (2.8) para estimar a ineficiência de
função aproximante mas com uma função de custo-complexidade modificada. A nova função
de custo-complexidade, tem em conta, tanto os coeficientes (ao, ai, ..., ajií) como os parâmetros
adicionais das funções base a ajustar, e é dada por:
Nesta expressão C (M) é determinado por (2.9) e M é o número de funções base não cons-
tantes produzidas pelo método MARS ( número este proporcional ao número de parâmetros
dessas funções). A quantidade d representa um custo associado à optimização de cada função
base. Valores elevados de d conduzem à utilização de menos "knots" e portanto a um modelo
mais "suave". Um método de escolha do valor de d consiste em interpertar este valor como um
parâmetro do procedimento utilizado para controlar o grau de "suavidade" imposto à solução.
Estudos efectuados em variados conjuntos de dados simulados conduziram aos seguintes re-
sultados:
1. o melhor valor de d é praticamente independente dos valores de M, N, n e das
distribuições das variáveis do espaço de predição;
2. em todas as situações estudadas o melhor valor de d pertence ao intervalo [2,4];
3. a aproximação (2.10), com d = 3, é geralmente eficiente;
4. o valor de GCV para o modelo final do método MARS depende moderadamente do valor
escolhido para d;
5. a eficiência real do modelo é praticamente insensível à escolha do valor de d neste
intervalo.
Uma consequência de 4 e 5 é que, embora a eficiência real do modelo produzido pelo método
MARS não dependa do valor de d, a eficiência que pensamos estar a produzir (baseados no
critério GCV modificado) depende desse valor. Em [Friedman k Silverman, 89] são dados
argumentos para a escolha de d = 2 no caso de modelos aditivos. Nos restantes casos toma-se,
em geral, d = 3.
39
2.5 O m o d e l o final: c o n t í n u o e c o m primeira d e r i v a d a c o n t í n u a
Motivados por [Stone e Koo, 85], com o objectivo de produzir um modelo com primeira
derivada contínua mas mantendo as propriedades óptimas de fronteira do modelo produzido
pelos algoritmos 2 e 3, substituímos cada factor (2.11) de cada função base do mesmo pela
correspondente função cúbica truncada da forma
0 X<t-
C(x/s = +l,t-,t,t+) = < p+ (x - í_) 2 + r+ (x - í_) ; t-<t<t+ ,
x —t x>t+
(2.12)
-(x-t) X<t-
C(x/s = -l, <_, t, t+) = i p- (x - t+)2 + r_ (x - í+) 3 t- <t<t+ ,
0 X>t+
obtemos uma função "spline" aproximante contínua com primeira derivada contínua e segunda
derivada descontínua nos pontos x = t±.
Na figura 2.2 apresentamos duas funções truncadas de potências de grau q = 1 com "knot"
t = 0.5 e as correspondentes funções cúbicas truncadas com "knot" central í = 0.5 e "knots"
laterais t_ = 0.2 e í + = 0.7.
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
40
A localização do "knot" central t de cada função cúbica truncada (2.12) coincide com a do
"knot" da função linear truncada (2.11) que lhe está associada.
A cada função base m de (2.4) está associado um conjunto de "knots" {tkm}k=v A decom-
posição ANOVA junta todas as funções base correspondentes a um mesmo conjunto de variáveis
{v (k, m)}%=v Deste modo, o conjunto de "knots" associado a cada função ANOVA (2.6), (2.7)
pode ver-se como um conjunto de pontos de um mesmo espaço if m -dimensional. As projecções
desses pontos em cada um dos Km eixos, v (k, m), dão-nos a localização dos "knots" dos factores
correspondentes a essa variável que, como referimos, será a localização dos "knots" centrais das
funções cúbicas truncadas. Para "knots" laterais, i±, de cada função cúbica truncada, escolhem-
se os pontos médios entre o seu "knot" central e os dois "knots" centrais adjacentes na mesma
projecção.
Na figura 2.3 ilustra-se este procedimento para uma função ANOVA unidimensional com
três funções base e para uma função ANOVA bidimensional com duas funções base.
Fig 2.3
O modelo final obtido é contínuo e tem primeira (mas não segunda) derivada contínua. Como
a aproximação gerada por cada nova função base em pontos "afastados" do seu "knot" central
coincide com a originada pela correspondente função linear truncada, este modelo, embora com
derivada contínua, tem tendência a possuir as mesmas propriedades (óptimas) de fronteira que
o modelo de aproximação linear (por bocados) produzido pelos algoritmos 2 e 3.
41
Capítulo 3
Aplicações
Iniciamos este capítulo alertando os leitores de que a comparação global de vários métodos
é um problema complexo que envolve inúmeras questões estatísticas. A árvore taxonómica de
questões estatísticas que se segue permitirá compreender melhor a referida complexidade.
42
independentes, o mesmo não ocorre em amostras com poucos elementos.
Salientamos ainda que, os métodos em estudo estão sujeitos a várias fontes de variação, as
quais dificultam a análise.
Uma das fontes de variação é proveniente da escolha aleatória do conjunto de teste utilizado
na avaliação dos algoritmos. Para um conjunto teste uma função de predição pode originar
melhores resultados do que outra e, no entanto, se considerarmos a população total, ambas terem
"performances" idênticas, ou a outra ser a melhor. Este problema evidencia-se principalmente
em amostras com poucos elementos.
Uma outra fonte de variação deve-se à escolha aleatoridade na escolha da amostra treino.
Para uma amostra de treino específica um algoritmo de aprendizagem pode originar uma melhor
função de predição do que outro e, no entanto, se considerarmos varieis amostras de treino os
dois algoritmos podem ter, em média, a mesma "performance", ou o outro ser o melhor. Uma
pequena modificação do conjunto de treino pode originar significativas modificações na função
de predição produzida por um mesmo algoritmo. Em [Breiman, 94] e [Breiman, 96] designa-se
este comportamento por "instabilidade" e mostra-se que este é um problema sério inerente ao
CART.
Uma terceira fonte de variação é devida a factores aleatórios internos que ocorrem nalguns
algoritmos.
Um bom teste estatístico não deve ser "enganado" por estas fontes de variação. Para ter em
conta a variação dos dados da amostra teste e a possível aleatoridade do erro por ela determinado,
o procedimento de pesquisa, deve considerar o tamanho do conjunto de teste e as consequências
das modificações deste conjunto. Para ter em conta a variação dos dados da amostra de treino
e aleatoridade interna do algoritmo, o procedimento de pesquisa deve executar múltiplas vezes
o algoritmo e medir a variação da precisão das funções de predição resultantes.
Enumeros testes são sugeridos na literatura para responder a questões específicas ( veja-se
por exemplo [Snedecor k Cochran, 89], [Efron k Tibshirani, 93], [Kohavi,95], [Hinton& ai, 95],
[Rasmussen, 96], entre outros). No entanto todos eles apresentam problemas [Dietterich, 97].
Neste capítulo não pretendemos fazer uma comparação global dos algoritmos de regressão
CART e MARS. Limitamo-nos a apresentar os resultados da aplicação destes métodos a dois
conjuntos de dados simulados e a dois conjuntos de dados reais. O nosso objectivo é familiarizar-
nos com o "output" de cada programa e compreender em que situações deveremos esperar melhor
"performance" de cada um deles neste tipo de dados. Para além de compararmos entre si os
resultados obtidos com estes dois métodos (em cada conjunto específico de dados) comparamo-los
43
ainda com o resultado do tradicional método de regressão linear.
No que respeita aos programas CART e MARS utilizamos a versão 1.309 e a versão 3.6 para
UNIX, respectivamente. O CART e o MARS são programas comerciais (http://www.salford-
systems.com). Para produzir os modelos do método de regressão linear utilizamos a versão 4.0
para UNIX do programa RT [Luis Torgo, 99]. Refira-se contudo que a regressão linear é ape-
nas um dos vários métodos de regressão implementados neste programa. O RT4.0 implementa
ainda, entre outras técnicas, a técnica de regressão por árvore, utilizando alguma da metodolo-
gia do CART. O RT4.0 não é comercial mas poderão obter informações acerca do mesmo em
http://www.ncc.up.pt/~ltorgo/RT ou contactando o autor ltorgo@ncc.up.pt.
Nos exemplos do CART com amostras treino com menos de 1000 elementos, para escolher a
árvore óptima, utilizamos o método de validação cruzada associado à regra 1SE; nos restantes
casos utilizamos o método de amostra independente associado à regra 1SE. Nos exemplos do
MARS atribuímos o valor 3 ao parâmetro d (o software transforma-o automaticamente no valor
2 no caso de modelos aditivos) e os valor 15 ou 30 a M m a x . Em todos os exemplos estudados,
os erros associados a cada modelo (MSE e MAD) foram calculados a partir de um conjunto
independente de dados.
Para comparar a precisão das funções de predição obtidas, com uma mesma amostra de
treino, por dois métodos, digamos A e B, fixada a amostra de teste, procedemos a um teste
de amostras emparelhadas. Para o efeito começamos por determinar o erro quadrático de cada
valor resposta, em cada um desses métodos; ou seja, determinamos para a realização disponível,
{(xi,yi)}i=v d* amostra teste {(X^Yi)}^ os valores das variáveis
DABÍ = SE AÍ - SEBÍ,
44
Sob a hipótese Ho e porque a amostra é grande podemos assumir que
z = DAB
dABi
^ za )
SDAB
VN
onde za é tal que P (Z < za) = 1 - §.
Na comparação simultânea dos resultados dos 3 métodos, efectuamos múltiplos testes de
hipótese deste tipo. Contudo, se os múltiplos testes forem efectuados a um nível de significância
a, o nível global de significância obtido (probabilidade de efectuarmos pelo menos uma rejeição
incorrecta) será superior a a. Para garantir um nível global de significância não superior a 5%,
quando efectuamos k testes, procedemos à correcção de Bonferroni para comparações múltiplas,
efectuando cada teste a um nível de significância de (5/k)%.
Para averiguar o comportamento dos três métodos (LR, CART e MARS) na aproximação de
uma função com estrutura não linear geramos um conjunto de dados artificiais do modo seguinte:
1. geramos 10 variáveis, X\, X2,..., -X"io, correlacionadas (descrição detalhada no anexo
Al);
2. a variável resposta Y associada ao vector X = {X\,..., -X"io), e que pretendemos prever,
foi obtida pela equação Y - 10sin(7rXi X2) + 20(X 3 - 0.5) 2 + 10X 4 + 5X 5 + e, onde e
representa uma perturbação Gaussiana de média nula e variância unitária.
[Friedman,1991], págs. 37-41, e [Breiman, 96], pag. 193, estudaram esta mesma equação mas
para variáveis X\, X2,..., X10 independentes e uniformemente distribuídas no intervalo [0,1].
Geramos dois conjuntos de treino com 100 e 5000 elementos, respectivamente, e um conjunto
de teste com 10000 elementos. Para cada conjunto de treino construímos os modelos em estudo
e, para obter as estimativas dos erros, recorremos ao conjunto de teste.
Tendo a função a prever uma estrutura fortemente não linear é de esperar que o método de
regressão linear multivariada não aproxime adequadamente a função. Vejamos como se compor-
t a m nesta situação o método CART e o método MARS. No anexo A2 encontram-se os resultados
detalhados obtidos em cada programa.
45
Paxá a amostra treino de 100 elementos o CART gerou a árvore de regressão da figura 3.1.
Os nós não terminais da árvore são representados por elipses e os terminais por rectângulos.
Em cada nó encontra-se o valor da média e do desvio padrão da variável resposta nesse nó, bem
como o número de elementos no nó. Nos nós não terminais refere-se ainda a variável e o ponto
no qual se efectua a divisão do nó. A arvore é muito simples, apresentando apenas divisões na
variável X3 (que é sem dúvida a variável que mais influencia o valor da função a prever). No
entanto, o erro associado à sua utilização como função de predição é elevado.
av=220.0, sd=20.0
N=4
av=140.0, sd=35.0
N=2
Fig 3.1: Arvore produzida pelo CART para o primeiro conjunto de dados simulados
Com 5000 elementos de treino o método CART constrói agora uma árvore com 107 nós, 54
deles terminais, seleccionando como relevantes as variáveis Xz, X4, X2, X& e X10. Observe-
se contudo, que a variável X10 não figura na função a prever e que a variável X\, embora
presente na função, não é identificada pelo CART. Os valores das estimativas de erro diminuiram
significativamente quando comparados com os da árvore anterior.
No que diz respeito ao método MARS, observando a decomposição ANOVA do modelo
produzido pelo MARS a partir de 100 elementos de treino, concluímos que o modelo MARS
obtido é aditivo nas variáveis X3, X4 e X5, e envolve interacção entre as variáveis X2 e Xs
(note-se que a variável X$ não intervém na função real). As estimativas de erro associadas a
46
este modelo são bastante elevadas. O modelo produzido a partir de 5000 elementos de treino e
permitindo no máximo 15 funções base apresenta estimativas de erro significativamente menores
e, por observação da decomposição ANOVA do mesmo, concluímos que o modelo obtido é
aditivo nas variáveis X$, X4 e X5, e envolve interacção entre as variáveis X\ e X%. Este modelo
está de acordo com a função real. Permitindo um número máximo de 30 funções base no modelo
construído a partir de 5000 elementos, obtivemos erros muito menores. A decomposição ANOVA
confirma a construção de um modelo aditivo nas variáveis Xz, X4 e X5, envolvendo interacção
entre as variáveis Xi e Xi- A mesma decomposição revela interação entre as variáveis X3 e Xf
(que não faz parte da função real). A tendendo a que, a remoção da 7a função ANOVA conduz
a um pequeno desvio da função aproximante (na ordem de 1.612, vejase anexo A 2), e a que a
variável X7 tem pouca importância para o modelo, podemos considerar que a 7 o função ANOVA
é desnecessária, podendo ser removida do modelo. Notese que todos os modelos MARS relativos
a esta função seleccionam as variáveis X3, X4, X5, X2 e Xi como variáveis relevantes no modelo
(por esta ordem de importância). A variável X3 é sem dúvida a que mais influencia os valores
de resposta.
Tendo em conta que, para cada teste za ~ 2.395, obtivemos os seguintes resultados:
47
Deste modo concluímos, com um nível global de significância não superior a 5%, que os resul-
tados obtidos nos 3 métodos são significativamente diferentes. Por observação das estimativas
dos erros podemos agora afirmar que o método de regressão linear não é adequado para tratar
este problema (o que era de esperar) e que, embora neste problema o método CART seja muito
melhor do que a regressão linear, é o método MARS aquele que produz as melhores aproximações.
Para averiguar o comportamento dos três métodos (LR, CART e MARS) na aproximação de
uma função linear, geramos um conjunto de dados simulados, da forma que se segue:
1. geramos 10 variáveis, X\, -X2,..., .X10, independentes e uniformemente distribuídas no
intervalo [0,1];
2. a variável resposta Y, associada ao vector X = (X\,..., -X10), e que pretendemos prever,
foi obtida pela equação Y = 2X\ — 4X2+20( X3 — 0.5) + IO.X4 + 5X5 + e, onde e representa
uma perturbação Gaussiana de média nula e variância unitária.
Deste modo geramos dois conjuntos de treino com 100 e 5000 elementos, respectivamente, e
um conjunto de teste com 10000 elementos. Como no exemplo anterior, para cada conjunto de
treino construímos os modelos em estudo, e obtivemos as estimativas dos erros recorrendo ao
conjunto de teste.
Tendo a função a prever uma estrutura fortemente linear é de esperar que, dos três métodos,
o mais adequado para aproximar esta função seja o método de regressão linear multivariada.
Vejamos que de facto isto acontece e que, embora nesta situação o método CART não aproxime
adequadamente a função, o método MARS produz resultados competitivos comparativamente
aos obtidos na regressão linear. No anexo B encontram-se os resultados detalhados obtidos em
cada programa.
Para a amostra treino com 100 elementos o CART (utilizando apenas as questões standard)
produziu a árvore de regressão da figura 3.2. As variáveis X3, X4, X$ e XQ foram seleccionadas
como relevantes e obtivemos um MSE = 9.871.
Com 5000 elementos de treino, o MSE reduziu para 3.910, no entanto, a árvore obtida é
muitíssimo mais complexa (122 nós terminais). A elevada complexidade desta árvore não é de
estranhar. Como o método CART que utiliza apenas as questões standard aproxima a função
particionando o espaço em rectângulos de lados perpendiculares aos eixos determinados pelas
variáveis, ele tem de efectuar enumeras divisões nas variáveis seleccionadas para aproximar uma
estrutura linear. Neste último conjunto de dados, o CART identificou como relevantes para o
48
problema, as variáveis X\, X2, X3, X4 e X5, atribuindo-lhes a seguinte importância relativa:
Variável Xz x4 Xs x2 Xi
Imp. Relativa 100 58 26 24 5
Como o método CART permite a utilização de combinações lineares das variáveis aquando
das divisões dos nós, por forma a procurar possíveis estruturas lineares dos dados, utilizamo-las
neste conjunto de dados. No entanto, a árvore obtida tinha uma estrutura muito mais complexa.
Esta complexidade da estrutura das árvores obtidas a partir do CART com combinações lineares
é a principal causa da impopularidade da utilização destas no método CART.
/ X3<-0.7374 \
av=l 1.0. «1=1.7 av=16.0.5d=2.4 av=y.O. sd=0.85
[ «v»7.9.«fa2J )
N N=IJ N=2
V *" J
/live \ false
av.5.7.!d*l.6 •v=9.4.sd=1.9
N.1I
Fig 3.2 : Arvore produzida pelo CART para o segundo conjunto de dados simulados
Quanto aos resultados obtidos pelo método MARS, observando a decomposição ANOVA do
modelo por ele produzido a partir de 100 elementos de treino, concluímos que o modelo obtido
é aditivo nas variáveis X3, X4, X5, X2 e X\, sendo esta a ordem de importância das variáveis
no modelo (o que está de acordo com a função). Note-se que, mesmo tendo sido construído a
partir de um número reduzido de exemplos, este modelo é confiável porque apresenta estimativas
de erro pequenas. Aumentando o número de elementos de treino para 5000, verificamos uma
melhoria insignificante das estimativas de erro. A decomposição ANOVA deste novo modelo
apresenta 4 funções ANOVA (a 6 a ,7°,8° e 9 a funções ANOVA) irrelevantes para o modelo, na
49
medida em que, a remoção de cada uma delas produz desvios mínimos no modelo aproximante.
Removendo estas funções o modelo obtido é um modelo aditivo nas variáveis X3, X4, X$, X2 e
X\. A variável X3 é aquela que mais influencia os valores de resposta, seguindolhe as variáveis
X4, Xe,, X2 e X\.
Como anteriormente cada um dos testes foi realizado para uma significância de (5/3)% sendo
portanto za ~ 2.395. Os resultados dos testes encontramse resumidos na tabela que se segue:
Em domínios com variáveis nominais não podemos aplicar o método de regressão linear e
o método MA RS. O CA RT é então, dos 3 métodos que temos vindo a referir, o único que
50
permite gerar um modelo aproximante. Nestas situações, se o método CART por si só não
produz uma aproximação com estimativas de erro "satisfatórias" ele pode ainda ser utilizado
como um instrumento de selecção das variáveis relevantes do problema, permitindo averiguar
se as variáveis nominais têm ou não um papel importante na estrutura da função a prever.
Se as variáveis nominais não forem relevantes, a aplicação posterior do método MARS e/ou
da regressão linear nas variáveis numéricas, ou nas variáveis numéricas escolhidas pelo CART,
conduz, em certos domínios, à obtensão de melhores aproximações. O conjunto de dados que se
segue ilustra esta situação.
51
a árvore de regressão da figura 3.3.
av=4.9.sd=:l.2
N=126
av=l2.0.sd=2.6
N=66
52
menos complexo.
Nas tabela que se seguem estão os erros associados aos modelos produzidos.
COIltra H Q
PDCAXT LR = ° l '• VDCART LR = 7a 0 ;
Aí V-Di* MARS = ° c o n t r a H
'i ■■ VDLR MARS ^ 0 ;
=
HQ '■ PDMARS(S var) MARS(4 var) ^ COntra H± l ^DMARS(8 xvt ) MARS(_4 var) ^ ^ !
Neste conjunto de dados, com um nível global de significância não superior a 5%, concluímos
que os resultados do CART diferem significativamente dos da regressão linear e dos do método
MARS e que, em cada domínio, os resultados da LR e do MARS também diferem significativa
mente. A s estimativas de erro permitemnos então concluir que o método CA RT é o que produz
53
o pior modelo aproximante e que o melhor modelo é obtido com a aplicação do método MARS
nas 8 variáveis contínuas. Contudo, a utilização conjunta do CART e do MARS, cria um modelo
bem mais simples e cuja precisão não difere significativamente da do anterior. A regressão linear
nas 8 variáveis contínuas gera uma função aproximante "competitiva" com a do MARS e tem
uma estrutura menos complexa.
Os dados que estudaremos a seguir, foram recolhidos por [Harrison & Rubinfeld, 78], para
prever o preço médio das casas numa determinada área de Boston. Para o efeito [Harrison h
Rubinfeld, 78] efectuaram 506 censos na área de boston, registando os valores de 14 variáveis
contínuas (entre elas a variável de previsão) que descrevemos de seguida. Estes dados foram
utilizados por [Belsley, Kuh & Welsch, 80] em estudos de regressão.
Nome Descrição
CRIM Taxa criminal
ZN percentagem de terrenos divididos em lotes
INDUS percentagem de negócios de terrenos não retalhados
CHAS 1 se a casa é em Charles River, 0 caso contrário
NOX Concentração de oxido nítrico (partes por cada 10 milhões)
RM Número médio de quartos
AGE Percentagem de casas construídas antes de 1940
DIS Distância pesada a 5 centros de trabalho de Boston
RAD índice de acessibilidade a estradas nacionais
TAX Taxa de impostos
PTRATIO Taxa professor/aluno
B Proporção de negros
LSTAT Proporção de população de baixa posição social
MV Valor médio das casas em milhares de dollars
Aplicamos a regressão linear, o CART e o MARS a este domínio e estudamos ainda como se
comportam a regressão linear e o MARS quando aplicados apenas ás variáveis seleccionadas pelo
CART. Em todas as situações, utilizamos 405 elementos para treino e 101 elementos estimar
os erros. O método CART seleccionou como relevantes para prever o preço médio das casa em
Boston as variáveis CRIM, RM, DIS e LSTAT. A árvore de regressão obtida encontra-se na
figura 3.4 da página que se segue.
Quanto aos modelos obtidos com o método MARS, observando a decomposição ANOVA
54
do modelo produzido a partir das 14 variáveis e permitindo um número máximo de 15 funções
base, verificamos que o modelo envolve interacção entre as variáveis "RM" e "RAD", "TAX" e
"LSTAT", "DIS" e " B " , "RM" e "TAX" e "LSTAT" e "TAX"; o modelo MARS gerado a partir
das variáveis seleccionadas pelo método CART e permitindo um número máximo de 15 funções
base, apresenta interação entre as variáveis "CRIM" e "RM',"DIS" e "LSTAT" e "CRIM" e
"LSTAT". Os modelos obtidos quando se permitem até 30 funções base têm uma estrurura
bastante mais complexa, envolvendo variadas interações entre duas e três variáveis.
av=45.0. sd=6.1
N=30
Fig 3.4: Arvore produzida pelo CART para os dados relativos ás casas de Boston
55
Para averiguar se podemos considerar significativas as diferenças dos resultados obtidos, efec
tuamos os testes:
H0 : HDcAKT LR=0 C O n t r a H
l :
VDcART LR = 0
7a 0
!
:
#0 VDCART MARS = 0 contra H'[ : (J.DCART MARS # 0;
H
'ó '■ VDLR MARS =0 contra H[ : (J.DLR MARS ^ 0;
H, r l -C , AíARS(14 var, 30bf) MARS(B var, 15bf) 0 contra Hx : fioMARS(14 var, 30bf) MARS{5 var, lBbf) 7^0;
H
0 0.493 Não rej. HQ"'
A um nível global de significância não superior a 5%, concluímos que os resultados dos
vários métodos não diferem significativamente. A ssim sendo, parecenos preferível a utilização
de árvore de regressão como função de predição, uma vez que, para além do seu poder descritivo,
ela permite que os valores das variáveis sejam tomados consoante "vamos descendo" na árvore,
evitando a necessidade de recolher os valores das 4 variáveis.
56
Anexo A
attrpficontinuous,[ (_,unif_r(0,l)] ).
57
A2-Resultados dos vários programas
****************************************************************
RT version 4.0, a Regression Tree Inductive System
****************************************************************
(c) Copyright Luis Torgo, All Rights Reserved.
12-May-99
Information on 11 attributes was loaded.
100 examples were loaded.
USED SETTINGS:
# Learning Mode :
Model obtained using all training data
# Regression Model :
Least squares multiple linear regression
58
Script for runing CART vl.3 (c) California Statistical Software
(c) 1998, Luis Torgo
Learning...
WELCOME TO CART (TM) Version 1.309 October 29,
1993
TREE SEQUENCE
Terminal Cross -Validated Resubstitution Complexity
ree Nodes Relat ive ]Error Relative Error Parameter
1 37 0.15 +/- 0.044 0.02 0.00
2 36 0.15 +/- 0.044 0.02 2.34
3 35 0.15 +/- 0.044 0.02 11.4
4 34 0.15 +/- 0.044 0.02 17.6
5 33 0.15 +/- 0.044 0.02 21.3
6 32 0.15 +/- 0.044 0.02 24.2
7 31 0.15 +/- 0.044 0.02 25.6
8 30 0.15 +/- 0.044 0.02 39.1
9 29 0.15 +/- 0.044 0.02 50.7
10 28 0.15 +/- 0.044 0.02 65.5
11 27 0.15 +/- 0.044 0.02 77.1
12 26 0.15 +/- 0.044 0.02 108.
13 25 0.15 +/- 0.044 0.02 119.
14 24 0.15 +/- 0.044 0.02 129.
15 23 0.15 +/- 0.044 0.02 141.
16 22 0.15 +/- 0.044 0.02 145.
17 21 0.15 +/- 0.044 0.02 154.
18 20 0.15 +/- 0.044 0.02 169.
19 19 0.14 +/- 0.043 0.02 190.
20 18 0.14 +/- 0.043 0.03 219.
21 17 0.15 +/- 0.043 0.03 244.
22 16 0.15 +/- 0.044 0.03 275.
23 15 0.15 +/- 0.044 0.03 323.
24 14 0.15 +/- 0.044 0.03 489.
25 13 0.15 +/- 0.043 0.03 517.
26 12 0.15 +/- 0.043 0.04 643.
27 11 0.15 +/- 0.043 0.04 751.
28 10 0.15 +/- 0.044 0.04 965.
29 9 0.15 +/- 0.044 0.05 0.141E+04
30 8 0.17 +/- 0.047 0.05 0.200E+04
31 7 0.18 +/- 0.049 0.06 0.253E+04
32* 6 0.18 +/- 0.050 0.08 0.461E+04
33 5 0.20 +/- 0.053 0.10 0.591E+04
34 4 0.29 +/- 0.099 0.13 0.671E+04
35 3 0.40 +/- 0.119 0.24 0.289E+05
36 2 0.41 +/- 0.114 0.36 0.319E+05
37 1 1.00 +/- 0.002 1.00 0.171E+06
Initial mean = 38.1
Initial variance = 0.266E+04
Number of cases in the learning sample = 100
NODE INFORMATION
59
* * Improvement == 1.7e+03 (C. T. = 1.7e+05)
* l*
Node Cases Average Standard
Dev. * *
1 100 38. 52.
* * 2 e 0.20E+03 36.
3 94 28. 30.
* *
94
* Surrogate Split Assoc.
Improve.
* 1 x7 s -■3.4805e+00 0 33 6.5<
02
* *
* * * * Competitor Split
Improve.
* * 1 X7 -3.4805e+00 6.5e+
02
* 2 * 2 x2 1.0031e+00 1.5e+
02
3 X4 9.7909e-01 1.2e+
02
4 xlO 1.4012e+00 1.2e+
02
5 x9 1.0543e+00 9. 0e+
01
60
Node 3 was split on variable x3
A case goes left if variable x3 .le. -9.1235e-01
Improvement = 3.1e+02 (C. T. = 3.1e+04)
3 94 28. 30.
-3 15 70. 17.
4 79 20. 25.
Competitor Split
1 x2 5.6850e-01 9.6e+
2 x9 -2.0057e+00 5.4e+
3 xl 8.5878e-01 4 . 4e+
4 x4 -2.0025e-01 3.9e+
5 x7 -1.8623e+00 3.9e+
4 79 20. 25.
5 77 17. 16.
-6 2 0.14E+03 35.
Competitor Split
1 x4 4.4593e-01 1.0e+
2 x2 5.3896e-01 7.5e+
3 x8 8.9692e-01 6.2e+
4 x7 3.8896e-01 2.1e+
61
* 5 *
* * Node Cases Average Standard
Dev.
* * 5 77 17. 16.
* -4 18 33. 9.8
* * -5 59 11. 14.
*
18 59
* Surrogate Split Assoc
Improve.
* 1x7 s -2.5930e+00 0.16 6 0e+
00
2 x8 s 7.5714e-02 0.11 3 4e+
00
3 x2 r 1.9717e+00 0.05 9 4e-
01
4 x6 s -2.2398e+00 0.05 8 2e+
00
4 5 x9 s -3.2795e+00 0.05 8 2e+
I
00
Competitor Split
Improve.
1 x4 4.2308e-01 6.4e+
01
2 x2 5.0234e-01 4.1e+
01
3 x7 2.1237e+00 2.5e+
01
4 x8 9.7177e-01 1.7e+
01
5 x5 -2.2666e-01 1.6e+
01
1 4 224. 20.
2 2 158. 13.
3 15 70.0 17.
4 18 33.5 9.8
5 59 11.4 14.
6 2 138. 35.
VARIABLE IMPORTANCE
62
Variables Used See variable importance list above.
Response is variable y
Linear Combinations No
63
MARS modeling, version 3.6 (3/25/93)
bsfn: 6 7 8 9 10
11
coef : 0.000 7.703 0.000 -6.524 15.82
0.000
bsfn: 12 13 14 15
coef: -38.41 -58.24 0.000 0.000
(piecewise linear) gcv = 48.06 #efprms = 28.0
anova decomposition on 9 basis functions:
fun. std. dev. -gcv #bsfns #efprms variable(s)
1 50.86 3496. 4 12.0 3
2 5.756 98.76 1 3.0 4
3 3.430 61.16 1 3.0 2
4 2.407 53.88 1 3.0 5
5 4.654 68.79 2 6.0 2 8
64
-gcv removing each variable:
1 2 3 4 5 6
48,.06 68 . 9 3 98 .76
3496. 98.76 53.88 48.06
7 8 9 10
4 8 ..06 6 8 .. 7 9 48.06 4 8 .. 0 6
65
****************************************************************
RT version 4.0, a Regression Tree Inductive System
****************************************************************
(c) Copyright Luis Torgo, All Rights Reserved.
12-May-99
Information on 11 attributes was loaded.
5000 examples were loaded.
USED SETTINGS:
# Learning Mode :
Model obtained using all training data
# Regression Model :
Least squares multiple linear regression
66
MARS modeling, version 3.6 (3/25/93)
input parameters (see doc.)
n p nk ms mi df il fv ic
5000 10 15 0 8 3.000 0 0.000 0
bsfn: 6 7 8 9 10
11
coef : 0.000 9.920 14.71 -5.049 2.912
10.96
bsfn: 12 13 14 15
coef : -34.75 -39.56 19.39 0.000
67
-gcv removing each variable:
1 2 3 4 5 6
26.72 44.14 1372. 58.77 36.31 16.55
7 8 9 10
16.55 16.55 16.55 16.55
relative variable importance:
1 2 3 4 5 6
8.660 14.27 100.0 17.65 12.07 0.000
7 8 9 10
0.000 0.000 0.000 0.000
68
MARS modeling, version 3.6 (3/25/93)
input parameters (see d o c ) :
n
P nk ms mi df il fv 1C
5000 10 30 0 8 3.000 0 0.000 0
there are 10 ordinal predictor variables.
var min n /4 n/2 3n/4
1 0.1300E-03 0.2547 max
0.5039 0.7605 0.9999
2 0.9988 0.1774 0.6294 1.151
3 -3.723 -0.6750 1.998
-0.9984E-02 0.5797 4.327
4 -2.883 0.1237
5 0.4270 0.7342 3.445
-3.692 -0.8096 -0.1885 0.3571
6 3.618
-3.031 0.7022E-01 0.6561 1 413 4.796
7 -6.216 -1.498 -0.7008 0.2256E- 01
8 3.364
0.4870E-03 0.2524 0.4992 0.7566 0.9998
9 -10.19 -0.5118 0.4750E-03 0.5047
10 13.18
-2.214 0.5901 1.204 1.855 5.418
forward stepwise knot placement:
basfn(s) gcv #indbsfns #efprms variable
parent knot
0 1465. 0.0 1.0
2 1 208.0 2.0 6.0
0. 3. -0.7954E-01
4 3 162.2 3.0 10.0
0. 3. 1.368
6 5 107.3 4.0 14.0 3.
0. -1.422
7 67.90 5.0 18.0
0. 4. -2.883
9 8 47.55 7.0 23.0 5.
0. 2.349
11 10 29.73 9.0 28.0 2.
0. 0.6995
13 12 19.58 11.0 33.0
10. 1. 0.2954
15 14 16.55 12.0 37.0
0. 3. 0.6500
17 16 13.38 13.0 41.0 3.
0. 2.349
19 18 10.80 14.0 45.0 3.
0. -0.6187
21 20 8.709 15.0 49.0
0. 3. -2.299
23 22 7.419 17.0 54.0
0. 1. 0.5039
25 24 4.672 19.0 59.0
23. 2. 0.6729
27 26 4.112 21.0 64.0
22. 2. 1.559
29 28 3.646 22.0 68.0
22. 2. •0.6328
30 3.569 23.0 72.0 7.
16. -6.216
Sfn: 24
2£ 25 26 27 28
QCoef: 13.49 30.80 -14.31 84.77 87.67
bsfn: 30
coef: -4.999
70
Anexo B
****************************************************************
RT version 4.0, a Regression Tree Inductive System
****************************************************************
(c) Copyright Luis Torgo, All Rights Reserved.
12-May-99
Information on 11 attributes was loaded.
100 examples were loaded.
USED SETTINGS:
# Learning Mode :
Model obtained using all training data
# Regression Model :
Least squares multiple linear regression
71
###############################################################
Script for runing CART vi.3 (c) California Statistical Software
(c) 1998, Luis Torgo
Learning...
WELCOME TO CART (TM) Version 1.309 October 29,
1993
TREE SEQUENCE
72
* Node 1 was split on variable x3
* * A case goes left if variable x3 .le. 3.6839e-01
* * Improvement = 2.6e+01 (C. T. 2.6e+03)
* l *
Node Cases Average Standard
Dev.
* * l 100 6.7 6 .8
* 2 38 0.15 4 .0
* * 5 62 4 .8
11.
*
38 62
* Surrogate Split A£5SOC
Improve.
* 1 x2 r 6.5483e-01 0..13 3., 6e+
00
2 x4 r 9.5590e-01 0..13 5.. le-
01
* * 3 x6 s 1.3922e-01 0..10 1..3e+
00
4 x8 r 9.4710e-01 0,.10 1.. 6e+
00
* 2 * 5 * 5 xl r 8.1626e-01 0..07 7 . 5e-
01
* * * *
* * * * Competitor Split
Improve.
* 1 x4 2.7576e-01 7.6e+
00 2 x5 6.0453e-01 5.6e+
00 9.8014e-01 5.3e+
3 x9
00 7.2490e-01 4 . 6e+
4 x2
00 9.9154e-01 3.8e+
5 xl
00
Node 2 was split on variable x4
* * A case goes left if variable x4 .le. 3.5650e-01
* * Improvement = 3.3e+00 (C. T. 3.3e+02)
' 2 *
Node Cases Average Standard
Dev.
* * 2 38 0.15 4 .0
* 3 14 -3.8 2 .8
* * 4 24 2.4 2 .5
*
14 24
* Surrogate Split Assoc
Improve.
* 1 xl s 2.8075e-01 0.14 6. 3e
01
* 2 x2 s 2.6711e-02 0.14 4.,5e
02
3 x6 r 5.8742e-01 0.14 5.. 9e
02
•* 4 xlO s 6.0313e-02 0.14 1.. 3e
01
* 3 * 5 x7 r 9.4078e-01 0.07 2..le
01
* * * *
* * * * Competitor Split
Improve.
* 1 x2 7.4468e-01 l.le+
00 2 xl 9.4963e-01 1.0e+
00 2.6377e-01 1.0e+
3 x3
00
73
4 X5 9.3086e-01 4.9e-
5 x6 3.2698e-01 3.7e-
Competitor Split
1 x3 1.7342e-01 4.3e-
2 xl 9.9417e-01 3.5e-
3 x2 2.1144e-01 2.9e-
4 x7 8.1157e-01 2.9e-
5 x8 4.0160e-01 2.6e-
4 x2 r 2.8283e-01 0.11 2. le
Competitor Split
1 x2 3.6868e-01 3.4e-
74
01
2 Xl 7.1275e-01 3.2e-
01
3 x7 8.6326e-01 2.7e-
01
4 x4 8.2313e-01 2.5e-
01
5 x5 9.3086e-01 2.2e-
01
37 25
* Surrogate Split Assoc .
Improve.
* 1 xl S 5.7013e-01 0.32 1.6e-
01
2 x2 r 8.3518e-02 0.16 2.7e+
00
* * * 3 x6 s 8.9300e-01 0.16 1.0e-
01
* 4 x9 s 6.6081e-01 0.16 8.9e-
* *
01 9 * 5 xlO s 5.5442e-01 0.16 1.2e+
* 6 *
00 *
* * * Competitor Split
* *
Improve. 1 x3 6.6054e-01 4 . 4e+
*
2 x9 9.5979e-01 3.0e+
00
3 x2 8.3518e-02 2.7e+
00
4 x5 5.1766e-01 2.2e+
00
5 xlO 5.6016e-01 1.4e+
00
00
* Node 6 was split on variable x3
* * A case goes left if variable x3 .le. 5.1619e-01
* * Improvement = 1.6e+00 (C. T. = 1.6e+02)
* 6 *
Node Cases Average Standard
Dev.
* * 6 37 8.4 3 .4
* -5 5 3.1 1 .2
* * 7 32 9.3 2 .8
32
* Surrogate Split Assoc
Improve.
* 1x5 s 2.8152e-02 0.20 5.. le-
01
2 x6 r 9.0514e-01 0.20 1.,4e-
01 3 x7 r 9.3985e-01 0.20 3.,9e-
I I
4 x9 s 2.8628e-02 0.20 3., 9e-
01
01
75
* 7 *
* * Competitor Split
Improve.
I
00
I 1 x5 5.1766e01 l.le+
2 x4 3.2997e01 9.9e
01
3 x9 3.0754e01 8.6e
01
4 x8 8.5795e01 8.0e
01
5 xlO 7.7339e01 5.9e
01
76
3 x9 s 3.2136e-01 0 50 1.4e-
01
1 6 1 1 7 5 x5 s 9.6066e-02 0 25 9.3e-
02
Competitor Split
Improve.
1 x5 5.1766e-01 5.3e-
01
2 xl 6.0022e-01 3.9e-
01
3 x9 5.4691e-01 2.9e-
01
4 x7 6.6161e-02 2.5e-
01
5 x2 1.4298e-01 2.1e-
01
77
Surrogate Split Assoc.
Improve.
* 1 xl r 1.8440e-01 0.50 2 5e
01
2 x3 s 9.6632e-01 0.50 4 6e
01
I
01
I 3 x4 s 9.4483e-01 0.50 4 6e
I I 4 x5 s 9.7081e-01 0.50 2 5e
01
10 I 1 1 5 x6 r 3.3215e-02 0.50 2 5e
01
Competitor Split
Improve.
1 x3 9.0917e-01 5.6e-
01
2 x4 9.3127e-01 5.0e-
01
3 x8 6.2725e-01 5.0e-
01
4 x5 1.8497e-01 4.0e-
01
5 xlO 6.3574e-01 2.8e-
01
VARIABLE IMPORTANCE
78
1 Initial value of the complexity parameter = 0.000
2 Minimum size below which node will not be split = 5
3 Node size above which sub-sampling will be used = 101
4 Maximum number of surrogates used for missing values = 9
5 Number of surrogate splits printed = 5
6 Number of competing splits printed = 5
7 Maximum number of trees printed in the tree sequence = 100
8 Max. number of cases allowed in the learning sample = 20000
9 Maximum number of cases allowed in the test sample = 20000
10 Maximum number of nodes in the largest tree grown = 10000
(Actual number of nodes in largest tree grown = 42)
11 Max. no. of categorical splits including surrogates = l
12 Max. number of linear combination splits in a tree = 0
(Actual number cat. + linear combination splits = 0)
13 Maximum depth of largest tree grown = loo
(Actual maximum depth of largest tree grown = 10)
(Depth of final tree = 5)
Dimension of CART internal memory array = 7300000
(Memory used by this run = 375737)
Testing...
Test Set results :
MSE = 9.871293 MAD = 2.523043
79
MARS modeling, version 3.6 (3/25/93)
input parameters (see d o c ) :
n
P nk ms mi df il fv 1C
100 10 15 0 8 3.000 0 0.000 0
there are 10 ordinal predictor variables
var min n/4 n/2 3n/4
1 0.7500E-02 0.2866 max
0.4750 0.7896 0.9968
2 0.7778E-02 0.1747 0.4228 0.6568
3 0.1361E-01 0.2544 0.9909
0.5179 0.7505 0.9825
4 0.2022E-02 0.1970 0.4794 0.7629
5 0.8600E-03 0.2290 0.9957
0.4868 0.7479 0.9732
6 0.2440E-02 0.2088 0.4213 0.6929
7 0.1988E-01 0.2570 0.9968
0.4906 0.7524 0.9798
8 0.1867E-01 0.2643 0.4953 0.7662
9 0.1845E-01 0.2306 0.9937
0.5203 0.6952 0.9986
10 0.9280E-03 0.1600 0.4247 0.6185 0.9961
forward stepwise knot placement:
basfn(s gcv #indbsfns #efprms
parent variable knot
0 47.34 0.0 1.0
16.14 5.0 3.
0 1 1.0 0.1361E-01
5.584 9.0 4.
0 2 2.0 0.2022E-02
3.513 13.0 5.
0. 3 3.0 0.8600E-03
1.927 17.0 2.
0. 4 4.0 0.7778E-02
1.483 21.0 1.
0. 5 5.0 0.7500E-02
7 1.585 26.0 10.
5. 6 7.0 0.5696
9 1.719 31.0 5.
5. 8 9.0 0.7889
11 1.905 36.0 9.
0. 10 11.0 0.8471
13 2.118 41.0
12 2. 0.8606
11. 13.0
15 2.356 46.0 7.
1. 14 15.0 0.2466
bsfn: 6 7 8
11 9 10
coef: 0.000 0.000 0.000
0.000 0.000 0.000
bsfn: 12 13 14
coef: 15
0.000 0.000 0.000 0.000
(piecewise linear) gcv = 1.311 #efprms = 16.0
anova decomposition on 5 basis functions-
S d eV 9 #bsfns
T' R ;«? - „; r # e f P™* variable(s)
1 5.781 43.00 1 3 0 3
2 2.985 12.36 1 3'0 4
3
1.417 3.851 1 3o 5
4 1.102 2.793 1 3"o 2
5 0.6614 1.754 1 30 1
80
piecewise cubic fit on 5 basis functions, gcv = 1.311
-gcv removing each variable:
1 2 3 4 5 6
1.754 2.793 43.00 12.36 3.851 1.311
7 8 9 10
1.311 1.311 1.311 1.311
.ative variable importance:
1 2 3 4 5 6
10.30 18.85 100.0 51.48 24.68 0.000
7 8 9 10
0.000 0.000 0.000 0.000
81
****************************************************************
RT version 4.0, a Regression Tree Inductive System
****************************************************************
(c) Copyright Luis Torgo, All Rights Reserved.
12-May-99
Making predictions...
Prediction Statistics based on 10000 test cases :
MEAN SQUARED ERROR (MSE) = 0.981
MEAN ABSOLUTE DEVIATION (MAD) = 0.794
RELATIVE MEAN SQUARED ERROR (RMSE) = 0.022
USED SETTINGS :
# Learning Mode :
Model obtained using all training data
# Regression Model :
Least squares multiple linear regression
82
MARS modeling, version 3.6 (3/25/93)
bsfn: 0 1 2 3 4 5
coef : 8.987 20.00 IC1.10 5.,061 3.979 1.544
bsfn: 6 7 8 9 10 11
coef: 2.139 0.000 0. 000 0 .000 89.14 0.000
bsfn: 12 13 14 15
coef: 401.8 915.6 0..000 4 .842
1 2 3 4 5 6
1.297 2.286 34.40 9.608 3.095 0.9818
7 8 9 10
0.9813 0.9828 0.9813 0.9813
83
relative variable importance:
1 2 3 4 5 6
9.716 19.76 100.0 50.81 25.15 0.4079
7 8 9 10
0.000 0.6763 0.000 0.000
84
Referências
[Belsley, Kuh & Welsch, 80] D.A. Belsley, E. Kuh and R. E. Welsch, 1980. Regression
Diagnostics. New York: Wiley.
[Breiman & al., 84] Leo Breiman,Jerome H. Friedman, Richard A. Oslhen & Charles J. Stone,
1984. Classification and Regression Trees. Belmont, Wadsworth.
[Breiman, 94] Leo Breiman, 1994. Heuristics of Instability and Stabilization in Model Selec-
tion. Tech. rep. 416, Department of Statistics, University of California, Berkeley, CA.
[Breiman, 96] Leo Breiman, 1996. Bagging Predictors. Machine Learning, 24(2), 123-140.
[Craven k Wahba, 79] P. Craven and G. Wahba, 1979. Smoothing and Noisy Data with
Spline Functions. Estimating the Correct Degree of Smoothing by the Method of Generalized
Cross-Validation. Numer. Math., 31: 317-403.
[de Boor, 78] C.de Boor, 1978. A Practical Guide to Splines. Springer, New York.
[Dietterich, 97] Thomas G. Dietterich, 1997. Approximate Statistical Tests for Comparing
Supervised Classification Learning Algorithms. Département of Computer Science, Oregon State
University, Corvallis, OR 97331.
[Efron & Tibshirani, 93] B. Efron and R. J. Tibshirani, 1993. An Introduction to the Boot-
strap. Chapman and Hall, New York, NY.
[Fielding, 77] A. Fielding, 1977. Binary Segmentation: the Automatic Interaction Detector
and Related Techniques for Exploring Data Structure. In the Analysis of Survey Data, vol I,
ed. C. A. O'Muircheartaigh and C. Payne. Chichester: Wiley.
[Fisher, 58] W. D. Fisher, 1958. On Grouping for Maximum Homogeneity. J. Amer. Statist.
Assoc, 53: 789-798.
[Friedman, 88] Jerome H. Friedman, 1988. Fitting Functions to Noisy Data in High Dimen-
sions. In Computing Science and Statistics: Proc. Twentieth Symp. on the Interface (E. J.
Wegman, D. T. Gantz and J. J. Miller, eds.) 13-43. Amer. Statist. Asso., Alexandria, Va.
[Friedman, 91] Jerome H. Friedman, 1991. Multivariate Adaptive Regression Splines (with
85
discussion). The Annals of Statistics 1991, vol. 19: 1-141.
[Friedman k Silverman, 89] Jerome H. Friedman and B. W. Silverman, 1989. Flexible Par-
simonious Smoothing and Additive Modeling. Technometrics, 31: 3-39.
[Harrison k Rubinfeld, 78] D.Harrison and D. L.Rubinfeld, 1978. Hedonic prices and the
demand for clean air. J. Environ. Economics and Management, vol. 5: 81-102.
[Hinton k al, 95] G. E.Hinton, R. M. Neal, R Tibshirani and DELVE team members, 1995.
Assessing Learning Procedures Using DELVE. Tech. rep., University of Toronto, Département
of Computer Science.
[Hunt & Stone, 66] E. B. Hunt, J. Marin and P. J. Stone, 1966. Experiments in Induction.
NeW York: Academic Press.
[Kohavi, 95] R. Kohavi, 1995.Wrappers for Performance Enhancement and Decision Graphs.
Ph.D. tesis, Stanford University.
[Messenger k Mandell, 72] R. C.Messenger and M. L. Mandell, 1972. A model Search Tech-
nique for Predictive Nominal Scale Multivariate Analysis. J. Amer. Statist. Assoc, 67: 768-772.
[Morgan k Sonquist, 63] J.N. Morgan and J. A.Sonquist, 1963. Problems in the Analysis of
Survey Data and a Proposal. J. Amer. Statist. Assoc, 58: 415-434.
[Quinlan, 86] J. R Quinlan, 1986. Induction of Decision Trees. Machine Learning, 81-106.
[Rasmussen, 96] C. E. Rasmussen, 1996. Evaluation of Gaussian Processes and other Methods
for Non-Linear Regression. Ph.D. thesis, University of Toronto, Département of Computer
Science, Toronto, Canada.
[Sonquist k Morgan, 64] J. A.Sonquist and J.N. Morgan, 1964. The Detection of Interaction
86
Effects. Ann. Arbor: Institute for Social Research, University of Michigan.
[Sonquist, Baker & Morgan, 73] J. A.Sonquist, E. L. Baker and J.N. Morgan, 1973. Searching
for Structure. Rev. ed. Ann Arbor: Institute for Social Research, University of Michigan.
[Stone & Koo, 85] Charles J. Stone and C. Y. Koo, 1985. Additive Splines in Statistics. Proc.
Ann. Meeting Amer. Statist. Assoc. Statist. Comp. Section, 45-48.
[Van Eck, 80] A. N. Van Eck, 1980. Statistical Analysis and Data Management Highlights of
OSIRIS IV Amer. Statist., 34: 119-121.
[Warwick Nash & al., 94] Warwick Nash,TracySellers,Simon Talbot, Andrew Cawthorn k
Wes Ford, 1994. The Population Biology of Abalone (Haliotis Species) in Tasmania. I. Blacklip
Abalone (H. Rubra) from the North Coast and Islands of Bass Strait.Fisheries Division, technical
Report no 48 (ISSN 1034-3288).
87