Boosting Lazy Decision Trees

Boosting Lazy Decision Trees
Xiaoli Zhang Fern & Carla E. Brodley
Réalisé par:
Rouahi Aouatef Sassi Najla
 Définitions Utiles
 Etat de l’art
 Relevance-based boosting-style algorithm
 Pruning algorithm
 Conclusion
© 12/8/21 Novell Inc, Confidential & Proprietary

2
 Etat de l’art
 Conclusion

3
 Etat de l’art
 Conclusion

4
 Etat de l’art
 Conclusion

5
 Etat de l’art
 Conclusion

6
Définitions
Utiles

7
Les arbres de décision réguliers(RDT) - Définition
« diviser pour régner »
 Un algorithme descendant;
 La construction de l’arbre de décision se base sur toutes les

instances d’apprentissage;
 Plusieurs chemins de décision capables de classifier toute

nouvelle instance de test.

8
Les arbres de décision réguliers(RDT) - Limitations
 Algorithme coûteux en complexité;
 Une fragmentation inutile qui diminue la précision des chemins

de décision générés;
 Une réplication de certains sous-arbres;
 La non prise en compte des valeurs manquantes.

9
Les arbres de décision paresseux (LDT) - Définition
« le retard est préférable à l’erreur »
 Sélectionner le meilleur arbre de décision pour chaque instance

à tester;
 Arbre composé d'un seul chemin de décision utilisé pour classer

une seule instance de test donnée.

10
Les arbres de décision paresseux (LDT) - Avantages
 Eviter la fragmentation inutile de l’ensemble d’apprentissage

selon des attributs qui ne sont pas pertinents pour l’instance test
courante.
 Eliminer le problème de la réplication.
 Les chemins de décisions sont plus courts et plus compréhensible.
 Le taux d’erreur des classifieurs est limité.

11
Les arbres de décision paresseux (LDT) - Algorithme
Input: Un échantillon S, une instance test y
Output: Une prédiction de la classe de y
1. Si toutes les instances dans S appartiennent à la même classe l,

alors retourner l ;
2. Sinon, sélectionner un attribut (test) T, soit t la valeur de cet

attribut dans l’instance test y alors soit S’ l’ensemble
d’instances d’apprentissage qui satisfont (T=t), appliquer cet
algorithme (récursivement) sur S’ et y ;

12
Boosting - Définition
« l’union fait la force »
 Un algorithme ensembliste;
 permettant, sous certaines conditions, d’améliorer les

performances de n’importe quel algorithme d’apprentissage.

13
Boosting - Algorithme
 Les exemples mal classés sont re-pondérées à la hausse tandis

que les biens classés sont ré-pondérés à la baisse.
 Le boosting force cet algorithme à concentrer ses efforts

d’apprentissage sur les exemples les plus difficiles « hard ».
 L’hypothèse finale est un vote pondéré des différentes

hypothèses obtenues à chaque instance de l’algorithme
d’apprentissage.

14
Boosting - AdaBoost
Input: Un ensemble d’apprentissage S, un nombre d’itérations T, un

apprenant faible L
Output: Une hypothèse (règle de décision) globale HT
1. Associer une distribution de poids Dt (i) à tous les exemples xi

de S ;
2. Cette distribution change après chaque itération ;
3. Des poids plus importants sont affectés aux exemples qui sont
mal classifiés par le classifieur.

15
Etat de l’art

16
Motivations
Confidence-
Rated Boosting
Algorithm
 Avec un manque d’informations de classification, le processus de

modification de poids pour définir les distributions ne peut pas
être entamé directement.
 La non prise en compte de la notion

de pertinence.
17
Proposition
 La prise en compte des informations de classification

incomplètes.
 La production de plusieurs chemins de décision paresseux.
 La mise au point de l’objectif primordial qui vise la

classification correcte de l’instance test donnée.
18
Relevance-based
boosting-style
algorithm
19
L’algorithme de base
Input: une instance de test, un ensemble d’apprentissage et un ensemble de taille T

Output: T chemins de décision
 Dans chaque itération, un chemin de décision spécifique à l’instance de test donnée

est construit en appliquant la méthode LDT à l’ensemble d’apprentissage avec une
distribution des poids des instances.
 Dans la distribution initiale toutes les instances d’apprentissage ont des poids
égaux ;
 Dans la suite, les poids des instances sont ajustés selon le chemin de décision appris
afin de construire une nouvelle distribution D`, utilisée comme entrée dans
l’itération suivante ;
 Le processus est répété T fois ;
 La prédiction finale de l’instance de test donnée est obtenue par vote majoritaire
sur les T chemins de décision.
20
Problème : comment ajuster le poids d’une instance ?
 L’algorithme ajuste le poids d’une instance d’apprentissage

selon le degré de pertinence de cette instance pour la
classification de l’instance de test donnée et le fait que la
classe de cette instance d’apprentissage soit prédite par le
chemin de décision courant ou non.
 Pour évaluer la pertinence d’une instance d’apprentissage pour

la classification d’une instance de test, il faut analyser comment
cette instance d’apprentissage est utilisée par les LDT dans le
processus de construction du chemin de décision.

21
Algorithme LDT - Rappel
Etant donné une instance de test et un ensemble

d’apprentissage :
1. L’algorithme LDT commence par sélectionner un attribut

(test) pour le nœud racine en utilisant toutes les instances
d’apprentissage ;
2. Une fois l’attribut est sélectionné, l’ensemble d’apprentissage

est partitionné selon les valeurs de l’attribut sélectionné par
rapport à la valeur de cet attribut dans l’instance de test.
Le processus est répété jusqu'à ce que toutes les instances

restantes appartiennent à la même classe. A ce niveau un nœud
feuille est généré et libellé au nom de cette classe.
22
Algorithme basé sur la pertinence (1/2)
 Une instance est abandonnée dans ce processus si on la

considère comme la plus pertinente pour la classification de
l’instance test donnée
 Etant donné une instance test y et un chemin de décision

généré pour y : on définit le niveau de pertinence r d’une
instance d’apprentissage x comme étant la profondeur du
nœud au niveau duquel cette instance est abandonnée
pendant la construction du chemin de décision donné.
 NP(x) pour (y, Cy) est différent de NP(x) pour (y’, Cy’)

23
Algorithme basé sur la pertinence (2/2)
 Pour chaque itération, après la construction du chemin de

décision, le niveau de pertinence de chaque instance
d’apprentissage est utilisé pour régler l’ampleur de changement
de son poids pour l’itération suivante.
 En plus de l’ampleur, il faut décider la direction du changement

de poids (augmentation ou diminution).

24
Le processus de changement des poids des instances
d’apprentissage
Etant donné un chemin de décision R :
1. Calculer pour chaque instance d’apprentissage x le niveau de

pertinence r ;
2. Comparer la classe de x avec la classe du nœud feuille du R
Si x a la même classe alors poids(x) = poids(x) * αr
Sinon poids(x)=poids(x) * βr
Tel que α < 1 et β > 1
 Après parcourir tout l’ensemble d’apprentissage, les

poids des instances sont normalisés pour former une
distribution valide pour l’itération suivante.

25
Exemple

26
Les critères d’arrêt
 L’algorithme LDT arrête la construction du chemin de décision

s’il ne reste qu’une seule instance.
 l’implémentation des LDT dans cet algorithme qui prend en

compte les poids des instances, arrête la construction du chemin
de décision si le poids total de toutes les instances restantes est
inférieur à 1.

27
Problème : comment optimiser le choix de α et β ?
 α et β sont sélectionnées arbitrairement, avec l’hypothèse

0.85< α < 1 et 1< β <1.15.
 le choix de ces paramètres n’est pas discuté dans l’article.

28
Les critères d’arrêt
 L’algorithme LDT arrête la construction du chemin de décision

s’il ne reste qu’une seule instance.
 l’implémentation des LDT dans cet algorithme qui prend en

compte les poids des instances, arrête la construction du chemin
de décision si le poids total de toutes les instances restantes est
inférieur à 1.

29
Bagging (Bootsrap aggregation)
Etant donné une instance test et l’ensemble d’apprentissage :
1. Le Bagging génère T échantillons bootstrap par un

échantillonnage uniforme de m instances de l’ensemble
d’apprentissage initial.
2. En moyenne chaque échantillon contient presque 63.2%
différentes instances issues de l’ensemble d’apprentissage
initial.
3. Chaque échantillon bootstrap est utilisé comme un ensemble
d’apprentissage pour construire un LDT pour classifier l’instance
test donnée.
4. Un vote majoritaire sur les T LDT résultants est utilisé comme
étant la sortie finale de l’ensemble BA-LDT.

30
Comparaison entre BO-LDT, LDT, et BA-LDT

31
Comparaison entre BO-LDT et AdaBoost (1/2)

32
Comparaison entre BO-LDT et AdaBoost (2/2)
La longueur moyenne du chemin de décision est calculée comme

suit :
 Pour chaque instance de test, on calcule la longueur moyenne du

chemin de décision sur tous les classifieurs dans l’ensemble puis
on prend la moyenne pour toutes les instances de test.
 Pour un RDT le chemin pris par l’instance de test est considère

comme étant son chemin de décision.

33
Pruning
algorithm

34
Pruning Algorithm - Définition
Sur-Apprentissage
 Est un problème de classification;

 Il présente un risque de sur adéquation aux données;
 Généraliser les caractéristiques de données;
 Ce phénomène ce produit généralement à un modèle complexe.
Afin de réduire l’effet du sur apprentissage et augmenter la

performance des arbres de décisions paresseux, nous utilisons une
stratégie d’élagage basée sur la distance.

35
Pruning Algorithm - Algorithme
 Pour chaque itération;
1. Supprimer un test à partir de la règle de décision;
2. Pour chaque règle; Calculer le rapport Ȓ-distance/ R-

distance;
 Répéter jusqu'à aucune autre amélioration n’est pas possible.

36
Pruning Algorithm - Calcul de la distance(1/2)
 S= {<xi, yi>;i=1…..n} présente l’ensemble d’apprentissage;
 xi :la valeur des attributs d’une instance i;
 yi :la classe de x;
 Ci :un sous ensemble de S ayant comme classe i;
 R : Contient toutes les instances qui répondent à la règle;
 Ȓ : Contient toutes les instances qui ne répondent pas à la règle.

37
Pruning Algorithm - Calcul de la distance(2/2)
?Ȓ-distance/ R-distance?
 R-distance=Dfr(x,Ci˄R);
 Ȓ-distance=min yɛY-{j} Dfr(x,cy);
 Df(x,A) :est la distance entre x et A.
La bonne règle est celle ayant le rapport le plus élevé

38
Exemple d’élagage d’un arbre de décision paresseux

39
La comparaison de LazyDT et boosted LazyDT avec et sans élagage

40
Pruning Algorithm - Avantages
 Réduire le sur apprentissage et améliorer la performance de LazyDT;
 Produire une règle plus générale;
 Corriger les erreurs de classifications;
 Améliorer la précision de LazyDT de 1.81%;
 Améliorer la précision de boostedDT 1.61%;
 Réduire la complexité de l’arbre de décision :

 Réduit de 22% pour LazyDT;
 Réduit de 25% pour boosted LazyDT;
 Appliquer sur les lazyDT et boosted LazyDT.

41
Conclusion

42
discussion
 Une complexité temporelle qui augmente avec le nombre d’instances a

tester. Donc, l’algorithme est efficace si seulement si le nombre
d’instances de test est limité et la précision et la compréhensibilité du
classifieur utilisé sont importantes pour une instance test.
 La présence des contraintes sur les valeurs des attributs et la tailles de

l’ensemble d’apprentissage dans l’algorithme d’élagage.

43
Références
 Bagging, Boosting, and C4.5; J.R.Quinlan.
 A short introduction to boosting; Yoar Freund, Robert .Schapire.
 An empirical evaluation of bagging and boosting; Richard Maclin, David

Opitz.
 Lazy decision trees; Jerome H.Freidman, Ron Kohavi, Yeaogirl Van.

44

Boosting Lazy Decision Trees

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Boosting Lazy Decision Trees

Enviado por

Direitos autorais:

Formatos disponíveis

Boosting Lazy Decision Trees

Xiaoli Zhang Fern & Carla E. Brodley

 Relevance-based boosting-style algorithm

© 12/8/21 Novell Inc, Confidential & Proprietary

 Relevance-based boosting-style algorithm

© 12/8/21 Novell Inc, Confidential & Proprietary

 Relevance-based boosting-style algorithm

© 12/8/21 Novell Inc, Confidential & Proprietary

 Relevance-based boosting-style algorithm

© 12/8/21 Novell Inc, Confidential & Proprietary

 Relevance-based boosting-style algorithm

© 12/8/21 Novell Inc, Confidential & Proprietary

© 12/8/21 Novell Inc, Confidential & Proprietary

« diviser pour régner »

 La construction de l’arbre de décision se base sur toutes les

 Plusieurs chemins de décision capables de classifier toute

© 12/8/21 Novell Inc, Confidential & Proprietary

 Algorithme coûteux en complexité;

 Une fragmentation inutile qui diminue la précision des chemins

 Une réplication de certains sous-arbres;

 La non prise en compte des valeurs manquantes.

© 12/8/21 Novell Inc, Confidential & Proprietary

« le retard est préférable à l’erreur »

 Sélectionner le meilleur arbre de décision pour chaque instance

 Arbre composé d'un seul chemin de décision utilisé pour classer

© 12/8/21 Novell Inc, Confidential & Proprietary

 Eviter la fragmentation inutile de l’ensemble d’apprentissage

 Eliminer le problème de la réplication.

 Les chemins de décisions sont plus courts et plus compréhensible.

 Le taux d’erreur des classifieurs est limité.

© 12/8/21 Novell Inc, Confidential & Proprietary

Input: Un échantillon S, une instance test y

Output: Une prédiction de la classe de y

1. Si toutes les instances dans S appartiennent à la même classe l,

2. Sinon, sélectionner un attribut (test) T, soit t la valeur de cet

© 12/8/21 Novell Inc, Confidential & Proprietary

« l’union fait la force »

 permettant, sous certaines conditions, d’améliorer les

© 12/8/21 Novell Inc, Confidential & Proprietary

 Les exemples mal classés sont re-pondérées à la hausse tandis

 Le boosting force cet algorithme à concentrer ses efforts

 L’hypothèse finale est un vote pondéré des différentes

© 12/8/21 Novell Inc, Confidential & Proprietary

Input: Un ensemble d’apprentissage S, un nombre d’itérations T, un

Output: Une hypothèse (règle de décision) globale HT

1. Associer une distribution de poids Dt (i) à tous les exemples xi

© 12/8/21 Novell Inc, Confidential & Proprietary

© 12/8/21 Novell Inc, Confidential & Proprietary

 Avec un manque d’informations de classification, le processus de

 La non prise en compte de la notion

 La prise en compte des informations de classification

 La production de plusieurs chemins de décision paresseux.

 La mise au point de l’objectif primordial qui vise la

Input: une instance de test, un ensemble d’apprentissage et un ensemble de taille T

 Dans chaque itération, un chemin de décision spécifique à l’instance de test donnée

 Le processus est répété T fois ;

 L’algorithme ajuste le poids d’une instance d’apprentissage

 Pour évaluer la pertinence d’une instance d’apprentissage pour

© 12/8/21 Novell Inc, Confidential & Proprietary

Etant donné une instance de test et un ensemble

1. L’algorithme LDT commence par sélectionner un attribut

2. Une fois l’attribut est sélectionné, l’ensemble d’apprentissage

Le processus est répété jusqu'à ce que toutes les instances

 Une instance est abandonnée dans ce processus si on la