Você está na página 1de 12
Proposta e Andlise de Desempenho de Dois Métodos de Selegao de Caracteristicas para Random Forests Denise G. D. Bastos!, Patricia $. Nascimento', Marcelo S. Lauretto! 'Bycola de Artes, Ciéncias e Humanidades ~ Universidade de Sao Paulo (EACH-USP) Rua Arlindo Bettio, 1000 ~ 03828-000 ~ Sao Paulo ~ SP ~ Brazil {denise.bastos,marcelolauretto}@usp.br, poulain.patricia@gnail.com Abstract. In supervised learning, itis very usual the ocurrence of datasets con- taining irrelevant attributes. Under such circumstances, it is crucial to apply some feature selection criterion, mainly in learning problems where data ac- quisition costs are proportional to the number of attributes. In this paper, we introduce two attribute selection criteria designed for Random Forests, named Incidence Factor (IF) and Depth Factor (DF). Comparative tests indicate that DF is a robust criterion, outperforming the Error-Based Importance (ED) and performing similarly to the Gini Importance (GI), the two main criteria for Ran- dom Forests currently in use. Resumo. Em aprendizado supervisionado, & comum a ocorréncia de bases de dados contendo atributos irrelevantes. Sob tais circunstancias, a adogéio de critérios de selecao de caracteristicas relevantes para a classificacao é funda- ‘menial, principalmente nos problemas em que os custos de coleta de dados sito proporcionais @ quantidade de atributos. Neste artigo, propomos dois critérios de selecdo de atributos voltados para Random Forests, denominados Fator de Incidéncia (FI) e Fator de Profundidade (FP). Testes comparativos indicam que 0 FP é um critério robusto, com desempenho superior ao da Importancia Baseada no Biro (IE) ¢ equivalente ao da Importancia de Gini (IG) — os dois principais critérios para Random Forests atualmente em uso. 1. Introdugio Em aprendizado supervisionado, € bastante frequente a ocorréncia de bases de dados con- tendo grande ntimero de atributos, muitos dos quais irrelevantes ou com alta correlacdo entre si. O primeiro impacto imediato do treinamento de algoritmos de aprendizado com essas caracteristicas € o fenémeno de overfitting —um ajustamento excessivo dos modelos a0 conjunto de treinamento, que compromete a acurdcia na classificagaio de novos casos. segundo aspecto a ser considerado é que, em diversos dominios, tais como diagndstic médicos baseados em exames clinicos/genéticos ou problemas de decisfio baseados em entrevistas, existem custos associados 2 obtengdo dos atributos, muitas vezes variiveis [Mitchell 1997, He et al. 2012]. ies relevan- Sob tais circunstincias, a adogao de critérios de selecao de caracter tes para a classificago é fundamental no processo de aprendizado computacional. Assim, a adogio de procedimentos de selegio de atributos podem trazer diversas vantagens a um sistema de classificagao supervisionada, tais como o aumento da acurdcia do sistema, a 49 diminuigao dos custos de aquisigio, 0 aumento da simplicidade entendimento do mo- delo de classificagdo © uma maior compreensao dos processos que originam os dados [Inza et al. 2010} Neste artigo, nosso interesse se concentra nos métodos de selegio de carac~ terfsticas baseadas no algoritmo Random Forests, proposto por [Breiman 2001]. Uma Random Forest (RF) & um classificador formado por uma colegio de drvores de classificagio, cada qual construida a partir de uma reamostra aleat6ria do conjunto de treinamento original. A classificagdo de um vetor de caracteristicas a € feita por votagao, submetendo-se 0 vetor as drvores da floresta e atribuindo-se a a a classe mais votada, [Breiman 2001] prop6s duas medidas de importincia de atributos para utilizagao com florestas aleat6rias. O primeiro, aqui denominado Importincia Baseada no Erro (IE), mede © aumento do erro quando se permutam os valores do atributo de interesse. segundo, denominado Importancia de Gini (IG), € baseado na soma dos decréscimos do indice de Gini em todos os nés rotulados pelo atributo. Cada uma dessas medidas pode ser utilizada como um critério de selegfo de caracteristicas, através do qual so selecionados 0s atributos com maior importincia [Guyon and Elisseeff 2003]. Por essa razao, adotaremos nesse trabalho os termos medida de importancia e critério de selecao indistintamente. Neste artigo, propomos duas novas medidas de importincia de atributos, com- putadas sobre Random Forests, comparamos empiricamente seu desempenho com as medidas IE ¢ IG no contexto de selegio de caracteris icas. ‘Na construcdo das drvores em uma RF, atributos com maior relevancia global ten- dem a ser escolhidos antes dos atributos com relevaincia local. Logo, tendem a aparecer nos nds mais proximos a raiz, sobre os quais incidem as maiores quantidades de exem- plos. Com base nessas premissas, a primeira medida proposta, aqui denominada Faror de Incidéncia (Fl), busca medir a quantidade relativa de exemplos do conjunto de treina- ‘mento que incidem sobre nés rotulados por cada atributo; a segunda medida, denominada Fator de Profundidade (FP), busca medir as profundidades relativas dos nés rotulados pelo atributo, ou seja, suas distiincias em relagao a rai O artigo esté organizado da seguinte maneira, Na Sego 2 apresentamos breve- mente as definigdes de Random Forests seu método basico de construgio. A Seco 3 descreve as medidas de importincia de atributos, sendo que as duas primeiras subsegdes descrevem as medidas definidas por [Breiman 2001], e as duas tltimas apresentam as novas medidas propostas. Na Secao 4 descrevemos os experimentos numéricos € 08 re- sultados obtidos, e na Seco 5 apresentamos nossas conclusdes. 2. Random Forests As Random Forests (RFS) sio obtidas através de bootstrapping aggregating (ou sim- plesmente bagging). um método utilizado para gerar miltiplas verses de um preditor [Breiman 1996a]. Tais verses sio construfdas a partir de reamostras do conjunto origi- nal, obtidas via sorteio simples com reposigao. Apresentamos a seguir a notagio sugerida por [Breiman 2001]. Um conjunto de treinamento € denotado por £-= {(2q,Yfn)yn = 1,2,..-..V}, onde N € a quantidade de exemplos, «,, € 0 vetor de atributos ¢ yy € {1,2,...,C} € a classe verdadeira do 50 n—€simo exemplo. Os atributos so indexados por m = 1,2,...,.M,e assim o vetor de atributos do n—ésimo exemplo € denotado por y= (tn,1s-En2++-+uat)> Denote por var, £) um preditor para a classe de a construido a partir do con- junto de treinamento £. Suponha que exista uma seqténcia finita de conjuntos de trei- namento {£)}, é = 1,2,..., K’, cada um consistindo de V observagdes independentes provenientes da mesma distribuigao subjacente xo conjunto £. A idéia central é usar {£')} para obter um preditor melhor do que o preditor simples «(2, £), tendo como Jo utilizar apenas a seqiiéncia de preditores 1, £). Indexando-se as classes pore = 1,2,...,C, um método de agregar os preditores ¥(ar, £0) € através de votagio, escolhendo para x a classe mais votada entre os preditores. Formalmente, denotando por Neo = [{k € {1...K} = w(a, £) = c}| © ntimero de “votos” na classe c, 0 classifica~ dor agregado pode ser definido por q(x O subserito A em 14 denota agregaciio. rg MAX, A obtencao de {£4}, k = 1,2,..., K€ feita tomando-se reamostras bootstrap de L, via sorteio com repetico, cada qual de tamanho ) Em cada reamostra de treinamento bootstrap, aproximadamente 37% das instancias do conjunto original ndo sao utilizadas para o teinamento [Breiman 19966]. Essas instncias so usadas como um conjunto de teste, para estimar o erro de cada clas- cador e, a partir deste, o erro do classificador agregado. O erro out-of-bag de cada classificador (x, £) 6 detinido como o percentual do conjunto de teste (constituido por £ \ £) classiticado erroneamente. Na formulagdo das RFS propostas por [Breiman 2001], 0 algoritmo bésico de construgio das drvores & 0 CART ~ Classification and Regression Trees [Breiman et al. 1984]. As drvores siio expandidas ao maximo, sem poda. Para a divisio de cada n6, um subconjunto de tamanho fixo dos atributos de entrada é selecionado alea- toriamente, escolhendo-se a divisdo 6tima dentro desse subconjunto, 3. Indices de Importincia de Atributos Nos algoritmos de construg3o de drvores de clas: o tradicionais, os atributos mais relevantes para classificagio so selecionados gracas aos procedimentos de pré e pés poda [Breiman et al. 1984]. Nas RFs, por sua vez, a identificagiio dos atributos relevantes ni € imediata, devido ao grande niimero de drvores geradas e devido auséncia de procedi- ‘mentos de poda na construgdo das drvores. Assim, so adotadas algumas métricas de avali 440 da importincia de cada atri- buto. [Breiman 2001] sugere duas medidas de importincia, descritas nas proximas sub- secoe: Neste artigo, apresentamos a notagio a seguir. Denotamos por A’ 0 nimero de Arvores da floresta, ‘M0 nimero de atributos e C/o ntimero de classes. As arvores so i dexadas por k = 1,2,..., A 08 atributos avaliados so indexados por m = 1,2, as classes sio indexadas por ¢ = 1,2, Ty denota 0 niimero de nds da k- drvore. © 0 par (h,#) Ki= LQyeee lye 51 © Ti, = {(b6,1), (i. 2),-. ++ (Bn) } denota 0 conjunto dos nés da érvore k. ‘© Ti(m) © Ti, denota o subconjunto dos nds de 7), rotulados pelo atributo m: Te(m) = {i € Tilr(k,é) =m} i) ‘* n(k,4) € 0 ntimero de exemplos do conjunto de treinamento que incidem sobre 0 arvore ki. incidem sobre 0 n6 i da drvore & ‘© r(k,’) denota o atributo que rotula 0 i- terminais, define-se r(it,i) = 0. © d(k, i) denota a profundidade do i-ésimo né da k-ésima arvore, ou seja, 0 compri- mento do caminho da raiz da arvore k até o n6 (ki). Por definigio, a profundidade dda raiz de uma drvore € 0. imo n6 da k-ésima drvore, Para os nés 3.1. Importineia Baseada no Ero (IE) Essa técnica consiste em, uma vez construfda a floresta aleat6ria, permutar aleatoriamente 0s valores do atributo m entre os exemplos do conjunto de teste. Aplicam-se os exemplos com © m—ésimo atributo permutado sobre as drvores, analisando-se os erros resultan- tes. O aumento do erro de class sobre os exemplos permutados em relagdo wos exemplos originais fornece a medida de importincia do atributo, Formalmente, denotemos por erry € por errj! 0 percentual de exemplos out-of- bag classificados incorretamente pela drvore k, respectivamente antes e apés a permutacio dos valores do atributo m. O indice de importiincia do atributo m baseado no erro (IE) & dado por : IE(m) = — }) —~_— 2 Lye 3.2. Importancia de Gini (IG) Na metodologia CART para construgio de drvores de classificagio, a escolha das partigdes Gtimas dos nés utiliza como critério de pureza o Indice de Gi [Breiman et al. 1984]. Esse indice € utilizado para avaliar a distribuigdo das classes em cada nd, A divisao de cada n6 € feita de maneira a resultar em nds filhos mais “puros” do que 0 pai original, ou seja, com maiores concentragdes de exemplos em certas classes. Dado um né i de uma drvore k, denotemos por p. = n(k,i,c)/n(k,#) as proporcées de exemplos de i pertencentes 3 classe c. indice de diversidade Gi definido como Gk.) = DO PePos 8 cif Note que esse indice tem sew valor maximo quando todas as classes sio equi- provaveis, ou seja, quando p. = &,¢=1...C;e€ igual a zero quando uma das classes tem proporgao 1 (e conseqiientemente as demais t&m proporgao 0). Para escolher a divi como segue. Seja (m, s) uma divisdo candidata representando uma restrigd0 74, < 5, onde s€um ndimero real. Suponha que (m, s) divide 0 n6 em dois nds filhos, i,,(correspondente o de um né i de uma drvore k, 0 indice de Gini é utilizado 52 s instdncias que obedecem a restrigio) e iy (correspondente as demais ins A qualidade da divisao de (m, s) € medida pelo decréscimo no indice de Gini: ’ si) — Mb) ec j,) — BOD AG(k,i,m,s) = G(k, Gk, (4) (bsism,9) = G(b,i) ~ TET Us i) — AEP Clip) “ Para expandir 0 n6 %, escolhe-se a divisdo (m*, s*) que maximiza AG(k, i,m, 5 A medida de importincia de cada atributo a em uma Floresta Aleat6ria pode ser dada pela soma dos decréscimos nos indices de Gini de todos os nds rotulados por a: 1G(m) = 7> XY AG(e,i,m,s*) 6) 4 kek icing) 3.3. Fator de Incidéncia (FI) A primeira medida de importancia proposta nesse artigo leva em consideragao o ntimero relativo de exemplos que so afetados pela presenga de cada atributo, ou mais especifi- camente, 0 nimero relativo de exemplos incidentes sobre os nds rotulados pelo atributo, Como essa medida é, em média, proporcional a freqiiéncia do atributo nos n geradas e inversamente proporcional & profundidade do atributo nas drvores, essa é uma medida baseada (indiretamente) na topologia das drvores geradas. 3 das drvores A soma das quantidades de exemplos incidentes sobre os nés da k—ésima drvore rotulados pelo atributo m & denotado por NVa(m): Ng(m) = Dyergm n(hs4)- Note que, na soma acima, um exemplo pode ser computado mais de uma vez. tell mos 0 Fator de Incidéncia Local (FIL) do atributo m na k-ésima drvore por FILe(m) = N(mn)/Ne, © onde Ny = Dyer, n(k é) denota a soma das quantidades de exemplos incidentes sobre todos os nés da drvore ki. Fator de Incidéncia (F1) do atributo rm € definido como a média de seus fatores de incidéncia locais sobre todas as drvores: 1& = K LFILa(m). i) 3.4. Fator de Profundidade (EP) A segunda medida de importincia proposta parte do principio de que os atributos mais relevantes tendem a rotular os n6s que estio mais préximos A raiz, e portanto de menor profundidade. Assim, definimos uma fungdo de importancia inversamente proporcional as profundidades dos n6s rotulados pelo atributo na Random Forest. Denotamos por d(,i) a profundidade do i—ésimo né da k—ésima drvore da flo- resta, Dada uma dirvore k, H¢(2m) representa a soma das inversas das profundidades dos nds da k—ésima drvore rotulados pelo atributo m: Hymn) «s) ict) 53 i0 d(ke,) + 1 no denominador € uti fundidade zero.) Definimos 0 Fator de Profundidade Local (FPL) do atributo m na k—ésima arvore rada para tratar a rai que tem pro- por Hylmn) Hy FPLy(m) = o onde Hy = Syer, Helm). O Fator de Profundidade (FP) do atributo m é definido como a média de seus fatores de profundidade locais sobre todas as drvores: K FP(m) = k SFPLi(m) (10) 4. Experimentos Numéricos Os experimentos numéricos foram baseados em nove datasets piiblicos obtides da UCL Machine Learning Repository [Frank and Asuncion 2010], todos com 15 ou mais atribu- tos, mais de 100 exemplos € sem valores faltantes. Os datasets de testes selecionados foram Dermatology, Image Segmentation, lonosphere, Letter Recognition, Landsat Satel- lite, Sonar, Vehicle Silhouette, Wave and WDBC (Wisconsin Diagnostic Breast Cancer), cujas descrigdes detalhadas estao disponiveis em [Frank and Asuncion 2010}. primeiro passo consistiu em construir uma RF para cada dataset completo (com todos os atributos), ¢ calcular as importéncias dos atributos sob cada um dos quatro critérios estudados (IE, IG, FI, FP). Dessa forma, para cada critério se obteve um ran- King dos atributos do dataset, em ordem decrescente de importanc segundo passo consistiu em selecionar os atributos mais relevantes sob cada critério e comparar os erros out-of-bag obtidos pelas RFs sobre os subconjuntos gerados. Mais especificamente, para cada dataset foram definidos de 8 a 10 valores distintos de M (sendo M a quantidade de atributos selecionados), dentro da faixa de 15% a 67% da quan- tidade original de atributos, espacados 2 a2. Por exemplo, para o dataset Dermatology, 0s valores de M definidos foram M © {5,7,9, 11, 18, 15, 17, 19, 21,23}. Para cada valor de M e para cada critério, foram geradas 500 sub-amostras aleat6rias, cada uma por sor- teio simples sem reposigdo, contendo 60% dos exemplos do dataset original e composta apenas pelos M atributos mais relevantes. Para cada sub-amostra gerada, foi construida uma Random Forest ¢ calculado seu respectivo erro out-of-hag. O desempenho de cada critério de selegdo foi entao avaliada pela média dos erros obtidos nas 500 sub-amostras contendo os M atributos mais relevantes, O ambiente de teste foi implementado na linguagem R [R Core Team 2012], © para a construgaio e aplicagdes das RFs utilizou-se 0 Pacote randomForest [Liaw and Wiener 2002] Nas Figuras 1, 2 © 3 so apresentados 0s grificos dos erros out-of-bag médios obtidos pelos quatro critérios de selego, em funcio da quantidade M de atributos se- ecionados. Nas legendas dos grificos também sio apresentados 0s erros médios finais obtidos pelos critérios, calculados sobre todos os valores de M. 54 Dataset: Dermatology 40 L (137%) 1G (140%) Fl (10.2%) FP (13.1%) ~~ - 10 1 Erros out-of bag médios (%) 5 10 1s 20 Quantidade de atrbutes selecionados Dataset: Image Segmentation E G46%) 1G (23.7%) Fl (449%) FP (182%) tett Erros otf-of bag médios (4) 10 20 30 40 50 60 70 1 ‘4 6 8 10 2 CQuantidade de atrbutos selecionados Dataset: lonosphere E 675%) 1G 6.90%) Fl (734%) FP (7.13%) 10 1 ~~ _ Eros outot bag médios (%) 5 10 18 20 Quantidede de atrbutos selecionados. Figura 1. Taxas de erro out-of-bag em funcao da quantidade de atributos seleci- ‘onados. Datasets: Dermatology, Image Segmentation e lonosphere 55 Dataset: Landsat Satellite 2°] te E (130%) g = bine $24 om FL (13%) 3 oe a) ee 24 Bad ; " 10 15 2 Cuantiade de atrbutos selecionados Dataset Letter Recognition z “EEK = 34 = 6 Go9%) 3 “em Fi Ca1e%) = Fete) a] 394 Ea ‘ 8 8 10 Cuantiade de strbutos seleconados Dataset: Sonar ull ~~ Em) #8 > 6 229%) fe we hen) 3 = Pam z a8 3 a4 gay Be 10 18 2 2 30 38 0 Quantidede de atrbutos selecionados. Figura 2. Taxas de erro out-of-bag em funco da quantidade de atributos seleci- onados. Datasets: Landsat Satellite, Letter Recognition e Sonar 56 Dataset: Vehicle Sithouettes. (296%) 1G (282%) FI G43%) FP (31.8%) ttt Erros out-of bag médios (%) 95 hi 25 1 ‘4 6 a 10 2 Quantidade de atrbutes selecionados Dataset: Waveform (199%) 1G 20.3%) Fi 220%) FP (28.0%) tett Erros otf-of bag médios (4) 15 20 25 30 35 40 1 10 15 20 2s CQuantidade de atrbutos selecionados Dataset: WOBC E 654%) 1G 27%) Fl (6.36%) FP (587%) ~~ _ Eros outot bag médios (%) 6 8 10 2 “ 16 18 Quantidede de atrbutos selecionados. Figura 3. Taxas de erro out-of-bag em funco da quantidade de atributos seleci- ‘onados. Datasets: Vehicle Silhouettes, Waveform e WDBC 57 Nos datasets Dermatology, Ionosphere ¢ Sonar, os desempenhos dos quatro critérios sdo bastante similares entre si, com ligeira vantagem do FI no Dermatology. No dataset Image Segmentation, foram observadas diferencas mais acentuadas entre os erros médios, na seguinte ordem de desempenho: FP, IG, IE, FI. No dataset Landsat Sa- tellite, 0 Fl € 0 IG obtiveram os melhores resultados, enquanto 0 TE obteve os maiores erros médios para alguns valores de M. No dataset Letter Recognition também se obser- varam significativas diferengas de erros entre os quatro critérios, sendo o ranking: FP, Fl, IG, IE, Nos datasets Vehicle Silhouetes ¢ Waveform, o IE e 0 IG obtiveram os menores erros médios. No dataset WDBC, 0 critério FP apresentou erros médios inferiores aos demais, para quase todos os valores de M. A partir dos gréticos nao é possivel observar uma hegemonia clara de um critério sobre os demais, jé que se verificam alterndncias dos desempenhos relativos dos critérios nos diferentes dazasets. Para uma comparacao mais ampla dos desempenhos, a Tabela | apresenta 0 erro médio final de cada critério sobre cada dazaset. As células sombreadas em cinza escuro € cinza claro indicam, respectivamente, o primeiro € segundo menores erros médios para cada dataser. A partir da Tabela 1, so computados: ‘© MD: Namero de datasets em que cada critério obteve © melhor desempenho; » 2MD: Niimero de datasets em que cada critério ficou entre os dois de melhores desempenhos; © PD: Nimero de datasets em que cada critério obteve o pior desempenho, Esses indicadores so apresentados na Figura 4. Nota-se que 0 IE obteve resulta- dos piores do que 0 FI e 0 FP, nos trés quesitos. Além disso, embora o TE tenha pequena vantagem sobre 0 1G no quesito MD, apresenta resultados consideravelmente piores nos demais quesitos. Assim, consideramos 0 IE como o critério de pior resultado entre os quatro. O critério FP & superior a0 FI, j4 que obteve resultados melhores nos quesitos 2MD € PD e apresentou um empate no quesito MD. Os dois critérios com melhores de- sempenhos parecem ser 0 IG e o FP. Ambos empatam no critério PD, ¢ cada um apresenta ligeira vantagem sobre 0 outro nos eritétios MD (3 para o FP, 1 para o IG) e 2MD (6 para 0 IG, 5 para o FP), Assim, 5 resultados obtidos neste trabatho indicam que o FP é um bom com petidor entre os critérios de selego, com desempenho superior ao IE e equivalente ao IG. O critério FI, embora tendo apresentado desempenho inferior ao FP e ao IG, obteve resultados ainda superiores ao critério IE, nos trés quesitos analisados. 5. Conclusdes Neste trabalho, foram propostas e avaliadas duas medidas de importincias de atributos de- senvolvidas para Random Forests (RPS), dentro do contexto de selecio de caracteristicas em aprendizado supervisionado, Essas medidas, denominadas Fator de Incidéncia (FD) & Fator de Profundidade (FP), sio inspiradas em uma propriedade fundamental do processo de construgdo das drvores de decisao: atributos mais relevantes tendem a rotular n6s com mais exemplo: s proximos a raiz lentes e m: Foram realizados experimentos numéricos baseados em nove problemas de classificagio, para comparar 0 desempenho dessas duas medidas com os desempenhos 58 Tabela 1. Erros out-of-bag médios obtidos pelos critérios de selecao de atributos sobre cada dataset Dataset Dermatclogy Image Segmentation Heewiphere Landsat Satelite Lemter Recopnitcs Sonar Vehicle Sihouettes Waveform woac = i @ Melhor desempenho (MD) 437 BDeismahores desempenhos (2MO) j '=Phor desempmnbo (PD) ° © 6 n cf Figura 4, Nmero de datasets nos quals cada critério obteve o melhor desem- penho (MD), um dos dois melhores desempenhos (2MD) e o pior desempenho (PD) da Importéncia Baseada no Erro (IE) ¢ da Importéncia de Gini (IG), ambas propostas por [Breiman 2001]. Os resultados obtidos sugerem que o critério FP € bastante robusto, tendo apresentado resultados superiores ao IE e compardveis ao IG. O critério FI apre- sentou resultados inferiores ao FP e ao IG, porém superiores ao IE. Ou seja, 0 TE, embora intuitivo e um dos critérios mais utilizados atualmente, foi o que apresentou 0 pior de- sempenho entre os quatro, Os critérios Fl e FP sio facilmente computaveis, com custo linear no néimero total de nés das drvores (custo equivalente ao do 1G), nao trazendo nenhum impacto significa- tivo no custo computacional de treinamento. Os resultados obtidos motivam a realizagao de diversos estudos futuros, dentre os quais: comparagdes envolvendo um niimero maior de datasets; andlises de desempe- ho em outros contextos alm do aprendizado supervisionado, tais como problemas de regressio e aprendizado nio supervisionado: comparacio dos critérios propostos com ou- 59 tros critérios desenvolvidos para RFs [Altmann et al. 2010]; desempenho dos critérios e as caracteristicas dos datasets. isd entre 0 Os autores so gratos pelo apoio € financiamento recebidos da EACH-USP, da Coordenagio de Aperfeigoamento de Pessoal de Nivel Superior (CAPES), do Conselho Nacional de Desenvolvimento Cientifico e Tecnolégico (CNPq) ¢ da Fundagao de Apoio Pesquisa do Estado de Sao Paulo (FAPESP). Referéncias Altmann, A., Tolosi, L., Sander, O., and Lengauer, T. (2010). Permutation importance: a corrected feature importance measure. Bioinformatics, 26(10):1340-1347. Breiman, L. (1996a). Bagging predictors. Machine Learning, 24:123-140. Breiman, L. (1996b). Out-of-bag estimation. Technical report, Technical report, Statisti- cal Department, University of California Berkeley, Berkeley CA. 32. Breiman, L. (2001). Random forests. Machine Learning, Breiman, L., Freadman, J., Olshen, R., and Stone, C. (1984). Classification and Regres- sion Trees. Wadsworth International, CA. Frank, A. and Asuncion, A. (2010). Uci machine learning repository. Guyon, 1. and Journal of Machine Learning Research, eff, A. (2003). An introduction to variable and feature selection. 1157-1182, He, H., I, H. D., and Eisner, J. (2012). Cost-sensitive dynamic feature selection, In International Conference on Machine Learning (ICML) workshop on Inferning: Inte- ractions be- tween Inference and Learning, Edinburgh, Scotland. Inza, 1., Calvo, B., nanzas, R. A., Bengoetxea, E., naga, P. L.,. and Lozano, J. A. (2010). Machine learning: An indispensable tool in bioinformatics. In Matthiesen, R., editor, Bioinformatics Methods in Clinical Research, volume 503 of Methods in Molecular Biology, chapter 2, pages 25-48. Humana Press. Liaw, A. and Wiener, M. (2002). Classification and regression by randomforest. R News, 2(3):18-22. Mitchell, T. M. (1997). Machine Learning. McGraw-Hill, Redmond, WA. R Core Team (2012). Foundation for Statis A Language and Environment for Statistical Computing. R cal Computing, Vienna, Austria. ISBN 3-900051-07. 60

Você também pode gostar