Você está na página 1de 44

Boosting Lazy Decision Trees

Xiaoli Zhang Fern & Carla E. Brodley

Réalisé par:
Rouahi Aouatef Sassi Najla
 Définitions Utiles

 Etat de l’art

 Relevance-based boosting-style algorithm

 Pruning algorithm

 Conclusion

© 12/8/21 Novell Inc, Confidential & Proprietary


2
 Définitions Utiles

 Etat de l’art

 Relevance-based boosting-style algorithm

 Pruning algorithm

 Conclusion

© 12/8/21 Novell Inc, Confidential & Proprietary


3
 Définitions Utiles

 Etat de l’art

 Relevance-based boosting-style algorithm

 Pruning algorithm

 Conclusion

© 12/8/21 Novell Inc, Confidential & Proprietary


4
 Définitions Utiles

 Etat de l’art

 Relevance-based boosting-style algorithm

 Pruning algorithm

 Conclusion

© 12/8/21 Novell Inc, Confidential & Proprietary


5
 Définitions Utiles

 Etat de l’art

 Relevance-based boosting-style algorithm

 Pruning algorithm

 Conclusion

© 12/8/21 Novell Inc, Confidential & Proprietary


6
Définitions
Utiles

© 12/8/21 Novell Inc, Confidential & Proprietary


7
Les arbres de décision réguliers(RDT) - Définition

« diviser pour régner »

 Un algorithme descendant;

 La construction de l’arbre de décision se base sur toutes les


instances d’apprentissage;

 Plusieurs chemins de décision capables de classifier toute


nouvelle instance de test.

© 12/8/21 Novell Inc, Confidential & Proprietary


8
Les arbres de décision réguliers(RDT) - Limitations

 Algorithme coûteux en complexité;

 Une fragmentation inutile qui diminue la précision des chemins


de décision générés;

 Une réplication de certains sous-arbres;

 La non prise en compte des valeurs manquantes.

© 12/8/21 Novell Inc, Confidential & Proprietary


9
Les arbres de décision paresseux (LDT) - Définition

« le retard est préférable à l’erreur »

 Sélectionner le meilleur arbre de décision pour chaque instance


à tester;

 Arbre composé d'un seul chemin de décision utilisé pour classer


une seule instance de test donnée.

© 12/8/21 Novell Inc, Confidential & Proprietary


10
Les arbres de décision paresseux (LDT) - Avantages

 Eviter la fragmentation inutile de l’ensemble d’apprentissage


selon des attributs qui ne sont pas pertinents pour l’instance test
courante.

 Eliminer le problème de la réplication.

 Les chemins de décisions sont plus courts et plus compréhensible.

 Le taux d’erreur des classifieurs est limité.

© 12/8/21 Novell Inc, Confidential & Proprietary


11
Les arbres de décision paresseux (LDT) - Algorithme

Input: Un échantillon S, une instance test y

Output: Une prédiction de la classe de y

1. Si toutes les instances dans S appartiennent à la même classe l,


alors retourner l ;

2. Sinon, sélectionner un attribut (test) T, soit t la valeur de cet


attribut dans l’instance test y alors soit S’ l’ensemble
d’instances d’apprentissage qui satisfont (T=t), appliquer cet
algorithme (récursivement) sur S’ et y ;

© 12/8/21 Novell Inc, Confidential & Proprietary


12
Boosting - Définition

«  l’union fait la force »

 Un algorithme ensembliste;

 permettant, sous certaines conditions, d’améliorer les


performances de n’importe quel algorithme d’apprentissage.

© 12/8/21 Novell Inc, Confidential & Proprietary


13
 Boosting - Algorithme

 Les exemples mal classés sont re-pondérées à la hausse tandis


que les biens classés sont ré-pondérés à la baisse.

 Le boosting force cet algorithme à concentrer ses efforts


d’apprentissage sur les exemples les plus difficiles « hard ».

 L’hypothèse finale est un vote pondéré des différentes


hypothèses obtenues à chaque instance de l’algorithme
d’apprentissage.

© 12/8/21 Novell Inc, Confidential & Proprietary


14
Boosting - AdaBoost

Input: Un ensemble d’apprentissage S, un nombre d’itérations T, un


apprenant faible L

Output: Une hypothèse (règle de décision) globale HT

1. Associer une distribution de poids Dt (i) à tous les exemples xi


de S ;
2. Cette distribution change après chaque itération ;
3. Des poids plus importants sont affectés aux exemples qui sont
mal classifiés par le classifieur.

© 12/8/21 Novell Inc, Confidential & Proprietary


15
Etat de l’art

© 12/8/21 Novell Inc, Confidential & Proprietary


16
Motivations
Confidence-
Rated Boosting
Algorithm

 Avec un manque d’informations de classification, le processus de


modification de poids pour définir les distributions ne peut pas
être entamé directement.

 La non prise en compte de la notion


de pertinence.

17
Proposition

 La prise en compte des informations de classification


incomplètes.

 La production de plusieurs chemins de décision paresseux.

 La mise au point de l’objectif primordial qui vise la


classification correcte de l’instance test donnée.

18
Relevance-based
boosting-style
algorithm
© 12/8/21 Novell Inc, Confidential & Proprietary
19
L’algorithme de base

Input: une instance de test, un ensemble d’apprentissage et un ensemble de taille T


Output: T chemins de décision

 Dans chaque itération, un chemin de décision spécifique à l’instance de test donnée


est construit en appliquant la méthode LDT à l’ensemble d’apprentissage avec une
distribution des poids des instances.

 Dans la distribution initiale toutes les instances d’apprentissage ont des poids
égaux ;

 Dans la suite, les poids des instances sont ajustés selon le chemin de décision appris
afin de construire une nouvelle distribution D`, utilisée comme entrée dans
l’itération suivante ;

 Le processus est répété T fois ;

 La prédiction finale de l’instance de test donnée est obtenue par vote majoritaire
sur les T chemins de décision.
© 12/8/21 Novell Inc, Confidential & Proprietary
20
Problème : comment ajuster le poids d’une instance ?

 L’algorithme ajuste le poids d’une instance d’apprentissage


selon le degré de pertinence de cette instance pour la
classification de l’instance de test donnée et le fait que la
classe de cette instance d’apprentissage soit prédite par le
chemin de décision courant ou non.

 Pour évaluer la pertinence d’une instance d’apprentissage pour


la classification d’une instance de test, il faut analyser comment
cette instance d’apprentissage est utilisée par les LDT dans le
processus de construction du chemin de décision.

© 12/8/21 Novell Inc, Confidential & Proprietary


21
Algorithme LDT - Rappel

Etant donné une instance de test et un ensemble


d’apprentissage :

1. L’algorithme LDT commence par sélectionner un attribut


(test) pour le nœud racine en utilisant toutes les instances
d’apprentissage ;

2. Une fois l’attribut est sélectionné, l’ensemble d’apprentissage


est partitionné selon les valeurs de l’attribut sélectionné par
rapport à la valeur de cet attribut dans l’instance de test.

Le processus est répété jusqu'à ce que toutes les instances


restantes appartiennent à la même classe. A ce niveau un nœud
feuille est généré et libellé au nom de cette classe.
© 12/8/21 Novell Inc, Confidential & Proprietary
22
Algorithme basé sur la pertinence (1/2)

 Une instance est abandonnée dans ce processus si on la


considère comme la plus pertinente pour la classification de
l’instance test donnée

 Etant donné une instance test y et un chemin de décision


généré pour y : on définit le niveau de pertinence r d’une
instance d’apprentissage x comme étant la profondeur du
nœud au niveau duquel cette instance est abandonnée
pendant la construction du chemin de décision donné.

 NP(x) pour (y, Cy) est différent de NP(x) pour (y’, Cy’)

© 12/8/21 Novell Inc, Confidential & Proprietary


23
Algorithme basé sur la pertinence (2/2)

 Pour chaque itération, après la construction du chemin de


décision, le niveau de pertinence de chaque instance
d’apprentissage est utilisé pour régler l’ampleur de changement
de son poids pour l’itération suivante.

 En plus de l’ampleur, il faut décider la direction du changement


de poids (augmentation ou diminution).

© 12/8/21 Novell Inc, Confidential & Proprietary


24
Le processus de changement des poids des instances
d’apprentissage 

Etant donné un chemin de décision R :

1. Calculer pour chaque instance d’apprentissage x le niveau de


pertinence r ;
2. Comparer la classe de x avec la classe du nœud feuille du R
Si x a la même classe alors poids(x) = poids(x) * αr
Sinon poids(x)=poids(x) * βr
Tel que α < 1 et β > 1

 Après parcourir tout l’ensemble d’apprentissage, les


poids des instances sont normalisés pour former une
distribution valide pour l’itération suivante.

© 12/8/21 Novell Inc, Confidential & Proprietary


25
Exemple

© 12/8/21 Novell Inc, Confidential & Proprietary


26
Les critères d’arrêt

 L’algorithme LDT arrête la construction du chemin de décision


s’il ne reste qu’une seule instance.

 l’implémentation des LDT dans cet algorithme qui prend en


compte les poids des instances, arrête la construction du chemin
de décision si le poids total de toutes les instances restantes est
inférieur à 1.

© 12/8/21 Novell Inc, Confidential & Proprietary


27
Problème : comment optimiser le choix de α et β ?

 α et β sont sélectionnées arbitrairement, avec l’hypothèse


0.85< α < 1 et 1< β <1.15.

 le choix de ces paramètres n’est pas discuté dans l’article.

© 12/8/21 Novell Inc, Confidential & Proprietary


28
Les critères d’arrêt

 L’algorithme LDT arrête la construction du chemin de décision


s’il ne reste qu’une seule instance.

 l’implémentation des LDT dans cet algorithme qui prend en


compte les poids des instances, arrête la construction du chemin
de décision si le poids total de toutes les instances restantes est
inférieur à 1.

© 12/8/21 Novell Inc, Confidential & Proprietary


29
Bagging (Bootsrap aggregation)

Etant donné une instance test et l’ensemble d’apprentissage :

1. Le Bagging génère T échantillons bootstrap par un


échantillonnage uniforme de m instances de l’ensemble
d’apprentissage initial.
2. En moyenne chaque échantillon contient presque 63.2%
différentes instances issues de l’ensemble d’apprentissage
initial.
3. Chaque échantillon bootstrap est utilisé comme un ensemble
d’apprentissage pour construire un LDT pour classifier l’instance
test donnée.
4. Un vote majoritaire sur les T LDT résultants est utilisé comme
étant la sortie finale de l’ensemble BA-LDT.

© 12/8/21 Novell Inc, Confidential & Proprietary


30
Comparaison entre BO-LDT, LDT, et BA-LDT 

© 12/8/21 Novell Inc, Confidential & Proprietary


31
Comparaison entre BO-LDT et AdaBoost (1/2)

© 12/8/21 Novell Inc, Confidential & Proprietary


32
Comparaison entre BO-LDT et AdaBoost (2/2)

La longueur moyenne du chemin de décision est calculée comme


suit :

 Pour chaque instance de test, on calcule la longueur moyenne du


chemin de décision sur tous les classifieurs dans l’ensemble puis
on prend la moyenne pour toutes les instances de test.

 Pour un RDT le chemin pris par l’instance de test est considère


comme étant son chemin de décision.

© 12/8/21 Novell Inc, Confidential & Proprietary


33
Pruning
algorithm

© 12/8/21 Novell Inc, Confidential & Proprietary


34
Pruning Algorithm - Définition

Sur-Apprentissage

 Est un problème de classification;


 Il présente un risque de sur adéquation aux données;
 Généraliser les caractéristiques de données;
 Ce phénomène ce produit généralement à un modèle complexe.

Afin de réduire l’effet du sur apprentissage et augmenter la


performance des arbres de décisions paresseux, nous utilisons une
stratégie d’élagage basée sur la distance.

© 12/8/21 Novell Inc, Confidential & Proprietary


35
Pruning Algorithm - Algorithme

 Pour chaque itération;

1. Supprimer un test à partir de la règle de décision;

2. Pour chaque règle; Calculer le rapport Ȓ-distance/ R-


distance;

 Répéter jusqu'à aucune autre amélioration n’est pas possible.

© 12/8/21 Novell Inc, Confidential & Proprietary


36
Pruning Algorithm - Calcul de la distance(1/2)

 S= {<xi, yi>;i=1…..n} présente l’ensemble d’apprentissage;

 xi :la valeur des attributs d’une instance i;

 yi :la classe de x;

 Ci :un sous ensemble de S ayant comme classe i;

 R : Contient toutes les instances qui répondent à la règle;

 Ȓ : Contient toutes les instances qui ne répondent pas à la règle.

© 12/8/21 Novell Inc, Confidential & Proprietary


37
Pruning Algorithm - Calcul de la distance(2/2)

?Ȓ-distance/ R-distance?

 R-distance=Dfr(x,Ci˄R);

 Ȓ-distance=min yɛY-{j} Dfr(x,cy);

 Df(x,A) :est la distance entre x et A.

La bonne règle est celle ayant le rapport le plus élevé

© 12/8/21 Novell Inc, Confidential & Proprietary


38
Exemple d’élagage d’un arbre de décision paresseux

© 12/8/21 Novell Inc, Confidential & Proprietary


39
La comparaison de LazyDT et boosted LazyDT avec et sans élagage 

© 12/8/21 Novell Inc, Confidential & Proprietary


40
Pruning Algorithm - Avantages

 Réduire le sur apprentissage et améliorer la performance de LazyDT;

 Produire une règle plus générale;

 Corriger les erreurs de classifications;

 Améliorer la précision de LazyDT de 1.81%;

 Améliorer la précision de boostedDT 1.61%;

 Réduire la complexité de l’arbre de décision :


 Réduit de 22% pour LazyDT;
 Réduit de 25% pour boosted LazyDT;

 Appliquer sur les lazyDT et boosted LazyDT.

© 12/8/21 Novell Inc, Confidential & Proprietary


41
Conclusion

© 12/8/21 Novell Inc, Confidential & Proprietary


42
discussion

 Une complexité temporelle qui augmente avec le nombre d’instances a


tester. Donc, l’algorithme est efficace si seulement si le nombre
d’instances de test est limité et la précision et la compréhensibilité du
classifieur utilisé sont importantes pour une instance test.

 La présence des contraintes sur les valeurs des attributs et la tailles de


l’ensemble d’apprentissage dans l’algorithme d’élagage.

© 12/8/21 Novell Inc, Confidential & Proprietary


43
Références

 Bagging, Boosting, and C4.5; J.R.Quinlan.

 A short introduction to boosting; Yoar Freund, Robert .Schapire.

 An empirical evaluation of bagging and boosting; Richard Maclin, David


Opitz.

 Lazy decision trees; Jerome H.Freidman, Ron Kohavi, Yeaogirl Van.

© 12/8/21 Novell Inc, Confidential & Proprietary


44

Você também pode gostar