Você está na página 1de 80

Prise en main du logiciel xlstat

www.xlstat.com

Comment lancer XLSTAT la premire fois ?

Quelle que soit votre version d'Excel ou de XLSTAT, il est indispensable que le niveau de
scurit des Macros soit sur la position "Moyen" pour que XLSTAT puisse fonctionner. Voici
comment procder en fonction de la version d'Excel.

Excel 2007 :

- Veuillez cliquer le "bouton Office" qui se trouve en haut gauche de la fentre d'Excel pour
ouvrir le menu Office.
- Veuillez cliquer le bouton "Options Excel" en bas de la fentre du menu Office.
- La fentre "Options Excel" apparat.
- Veuillez slectionner "Centre de gestion de la confidentialit" au milieu gauche de la
fentre.
- Veuillez cliquer sur le bouton "Paramtres du Centre de gestion de la confidentialit..."
droite de la fentre.
- La fentre "Centre de gestion de la confidentialit" apparat.
- Veuillez choisir l'option "Paramtres des macros".
- Veuillez choisir la 3me option dans la rubrique "Paramtres des macros"
- Veuillez activer l'option "Accs approuv au modle d'objet du projet VBA"
- Veuillez cliquer OK pour fermer la fentre "Centre de gestion de la confidentialit".
- Veuillez cliquer OK pour fermer la fentre "Options Excel".

Excel 97 to Excel 2003 : Utilisez le menu Outils/Macros/Scurit d'Excel


Mise jour Excel et installation d'XLSTAT :

Il est aussi vivement recommand que vous vrifiez que votre Excel est jour. Microsoft
publie rgulirement des mises jour gratuites. Pour les tlcharger et les installer, vous
pouvez vous rendre sur :
http://office.microsoft.com/officeupdate.

Si vous n'avez pas de droit d'administration sur votre machine, vous devez demander une
personne ayant des droits d'administrateur de venir installer XLSTAT. Une fois l'installation
termine, vous pourrez utiliser XLSTAT depuis votre compte utilisateur.

Lancer XLSTAT :

Pour dmarrer XLSTAT, vous pouvez :


- choisir l'option "Lancer XLSTAT" la fin de la procdure d'installation,
- cliquer sur Dmarrer/Programmes/Addinsoft/XLSTAT/XLSTAT 2008,
- cliquer sur l'icne XLSTAT disponible sur votre bureau Windows,
- ou lancer Excel et charger le fichier XLSTAT.xla qui se trouve dans le rpertoire Addinsoft
XLSTAT2008, en utilisant la commande Fichier/Ouvrir d'Excel.
XLSTAT vous demande alors d'introduire votre numro de licence. Si vous n'en avez pas,
cliquez simplement sur "OK". Cela vous permettra d'valuer XLSTAT pendant 30 jours sans
aucune limitation fonctionnelle.

Si vous utilisez XLSTAT pour la premire fois, XLSTAT ajoutera un bouton dans la barre
de menu d'Excel. Ce bouton permet d'ouvrir rapidement XLSTAT depuis Excel. Il peut tre
ventuellement enlev en utilisant le menu Affichage / Barres d'outils / Personnaliser d'Excel.

Ensuite, la barre d'outils de XLSTAT et le menu XLSTAT sont ajouts Excel. Vous pouvez
accder toutes les fonctionnalits de XLSTAT par ces deux moyens.

La barre d'outils de XLSTAT permet d'accder des sous-barres. Si vous laissez la souris sur
un des boutons, le nom de la fonction est affich. En cliquant sur un bouton, vous activez la
bote de dialogue correspondant la fonction.
Cliquez ici pour accder d'autres tutoriels.

Comment fermer XLSTAT

Si vous quittez Excel, vous n'avez pas besoin de fermer XLSTAT qui sera ferm
automatiquement. Si vous dsirez fermer XLSTAT et continuer utiliser Excel, il suffit
d'aller dans le menu de XLSTAT et de choisir l'option "Fermer XLSTAT".
Vous pouvez aussi cliquer sur le bouton XLSTAT de la barre d'outils Excel, ou sur le bouton
"Fermer XLSTAT" de la barre d'outils XLSTAT.

Cliquez ici pour accder d'autres tutoriels.

Comment dsinstaller XLSTAT

Si vous souhaitez dsinstaller XLSTAT parce que vous pensez que ce produit ne correspond
pas vos besoins ou parce que vous souhaitez installer une mise jour, il vous suffit de :
XLSTAT versions 5.0 et suprieures :

- fermer Excel,
- aller dans Dmarrer / Panneau de configuration / Ajout/Suppression de programmes, puis
slectionner XLSTAT, puis choisir Supprimer.

- versions 5.0 6.1 : supprimer le bouton . Pour cela, slectionner Affichage / Barres
d'outils / Personnaliser, puis dplacer le bouton au dessus de la boite de dialogue qui apparat,
XLSTAT sera ainsi proprement supprim de votre ordinateur. Vous pourrez ensuite installer
une version plus rcente si vous le souhaitez.

XLSTAT versions 3.0 4.5 :

- vrifier qu'XLSTAT n'est pas slectionn dans le menu Excel / Outils / Macros
complmentaires; si c'est le cas, il faut dslectionner XLSTAT,
- fermer Excel,
- supprimer tous les fichiers commenant par "xlstat" dans le rpertoire o vous aviez install
XLSTAT.

XLSTAT sera ainsi proprement supprim de votre ordinateur. Vous pourrez ensuite installer
une version plus rcente si vous le souhaitez.

Comment slectionner les donnes avec XLSTAT ?


demoSelectf.xls

Bien que la slection des donnes avec XLSTAT soit trs intuitive pour des utilisateurs de MS
Excel, certains d'entre vous qui ont l'habitude d'utiliser d'autres outils de statistique pourraient
ne pas se sentir l'aise immdiatement, car vous ne ralisez pas quel point il peut tre facile
de travailler avec XLSTAT. Les exemples suivants devraient vous aider trs vite
comprendre comment tirer le meilleur parti d'XLSTAT. Le classeur Excel qui a t utilis
pour crer les vidos ci-dessous peut-tre tlcharg en cliquant ici.

1er cas : Slection rapide par colonnes

Ce mode de slection n'est possible que si votre tableau de donnes commence ds la


premire ligne (ligne 1) de la feuille Excel. Si le nom des variables figure sur la premire
ligne, cela n'a pas d'importance, car l'option "Libells prsents" vous permet de prciser
XLSTAT si la premire ligne doit tre considre comme contenant des donnes ou des
libells.

La vido suivante vous permet de voir un exemple de slection rapide par colonnes avec la
rgression linaire. Pour slectionner une colonne, il vous suffit de cliquer sur la lettre de la
colonne avec la souris. XLSTAT dtecte automatiquement la fin d'un tableau de donnes en
reprant la prsence d'une ligne vide. A la fin de la vido, vous pourrez voir que les
graphiques gnrs par XLSTAT peuvent tre modifis comme n'importe quel autre
graphique Excel.

Des slections multiples de colonnes non adjacentes sont possibles. Ce point est dtaill dans
le 3ime cas.

Cliquez sur le nom du ficher pour le tlcharger, extrayez le fichier puis lancez la vido en
mode plein cran :

demoselect1f.zip (960 Ko).

2ime cas : Slection par plages

Utilisez ce type de slection lorsque votre tableau de donnes ne commence pas ds la


premire ligne de la feuille Excel. Les donnes doivent tre slectionnes avec la souris.

La vido ci-dessous vous permet de visualiser un exemple de Slection cible avec l'outil
"Comparaison de deux chantillons". Un test de Student et un test de Fisher sont calculs pour
comparer la moyenne et la variance de deux chantillons. Les deux chantillons sont
slectionns sparment avec la souris.

Des slections cibles multiples sont possibles. Ce point est dtaill dans le 3ime cas.
Cliquez sur le nom du ficher pour le tlcharger, extrayez le fichier puis lancez la vido en
mode plein cran :

demoselect2f.zip (715 Ko).

3ime cas : Slections multiple

Utilisez ce mode de slection lorsque vous souhaitez liminer de la slection une ou des
colonnes et/ou une ou des lignes dans un tableau de donnes. La slection multiple s'applique
la slection rapide par colonnes et la slection par plages. L'exemple ci-dessous a t
enregistr partir des donnes ayant servi dans le cas 1. Pour faire une slection multiple, il
suffit de laisser la touche Ctrl enfonce pendant la slection de plages de donnes ou de
colonnes non adjacentes avec la souris.

La vido ci-dessous vous permet de voir un exemple de Rgression linaire avec de la


slection multiple en mode de slection rapide par colonnes. La variable X3 n'est pas
slectionne, on a d'abord slectionn les variables X1et X2 en cliquant sur les colonnes B et
C, puis on a laiss enfonce la touche Ctrl du clavier tout en cliquant sur la colonne E pour
ajouter la variable X4 la slection.

Cliquez sur le nom du ficher pour le tlcharger, extrayez le fichier puis lancez la vido en
mode plein cran :

demoselect3f.zip (490 Ko).

4ime cas : raccourcis clavier

La possibilit d'utiliser le clavier pour slectionner des donnes a disparu dans les versions
2000 et 2002 de MS Excel. Des correctifs disponibles sur le site de Microsoft
http://office.microsoft.com/officeupdate permettent maintenant de corriger ce problme. Avec
Excel 97, il est en revanche possible de rapidement slectionner des donnes en utilisant les
touches curseur (haut, bas, gauche, droite) et les touches Ctrl et Shift, quelque soit la version.
Par exemple, pour slectionner le tableau de donnes pour une Analyse en Composantes
Principales (ACP), il suffit de cliquer sur le coin suprieur gauche du tableau puis d'appuyer
sur les touches curseurs "bas" puis "droite" tout en enfonant les touches Ctrl et Shift.

Remarque: avec toutes les versions d'Excel, vous pouvez utiliser la touche Tab ( gauche du
A) pour passer d'un lment au suivant dans la bote de dialogue.

Cliquez ici pour accder d'autres tutoriels.


Comment changer la langue d'affichage ?

Si vous voulez changer la langue de XLSTAT (par exemple pour changer des rsultats avec
un collgue anglophone), il vous suffit d'aller dans le menu "Options" de XLSTAT ou de
cliquer sur le bouton de la barre d'outils, pour faire apparatre la bote des options.

Slectionnez alors la langue que vous voulez utiliser (ici l'Anglais).

Cliquez ensuite sur "Enregistrer" pour que le changement de langue soit pris en compte.

Cliquez ici pour accder d'autres tutoriels.


Comment choisir l'option d'affichage des rsultats ?

Dans chaque bote de dialogue, XLSTAT vous propose trois modes d'affichage des rsultats :
- Plage : les rsultats sont affichs partir d'une cellule qui constituera le coin suprieur
gauche du rapport d'analyse,
- Feuille : les rsultats sont affichs sur une nouvelle feuille Excel cre par XLSTAT,
- Classeur : les rsultats sont affichs dans un nouveau classeur Excel cr par XLSTAT.

A titre d'exemple, voici comment sont affiches les trois options (cercle rouge) dans la bote
de dialogue de l'ACP, sachant que la prsentation est identique dans toutes les botes :

Si vous choisissez l'option "Plage", vous devez ensuite slectionner au niveau du champ
correspondant (cercle bleu), avec la souris, la cellule qui sera le coin suprieur gauche du
rapport de rsultats.

Si vous choisissez l'option "Feuille", plusieurs possibilits vous sont offertes au niveau du
panneau des options XLSTAT. Pour accder au panneau des options, il vous suffit de cliquer
sur le bouton correspondant de la barre d'outils XLSTAT (voir ci-dessous) ou de choisir la
commande correspondante dans le menu XLSTAT.

Ensuite cliquez sur l'onglet "Sorties" dans lequel sont accessibles les options d'affichage des
rsultats.
Vous pouvez alors dfinir la "Position de la feuille des rsultats" :
- En premire position : la feuille des rsultats est ajoute en premire position dans le
classeur des donnes.
- En dernire position : la feuille des rsultats est ajoute en dernire position dans le classeur
des donnes.
- Avant la feuille de donnes : XLSTAT positionne la feuille de rsultats juste avant la feuille
des donnes, mme si des calculs similaires ont t prcdemment raliss.
- Aprs la feuille de donnes : XLSTAT positionne la feuille de rsultats juste aprs la feuille
des donnes, mme si des calculs similaires ont t prcdemment raliss.

Remarques :
- si vous choisissez l'option "Feuille", XLSTAT donne la feuille de rsultats le nom de la
mthode employe. Dans le cas de l'ACP, la feuille de rsultats sera nomme "ACP". Si une
feuille ACP se trouve dj dans le classeur, XLSTAT nommera la feuille "ACPx", o x est le
premier entier suprieur ou gal 1, tel que la feuille "ACPx" nexistent pas dans le classeur.
- le mode "Classeur" est conseill lorsque vous travaillez sur de gros volumes de donnes.

Cliquez ici pour accder d'autres tutoriels.

Comment mmoriser les slections dans une bote de dialogue ?

Si vous utilisez souvent XLSTAT sur des jeux de donnes similaires (mme feuille, mme
nombre de lignes et de colonnes), vous pouvez utiliser l'option de mmorisation de XLSTAT
pour gagner du temps. Pour accder cette option, allez dans le menu "Options" de XLSTAT
ou cliquez sur le bouton de la barre d'outils.
Cochez l'option "Y compris les slections de donnes" afin que les slections des botes de
dialogue soient mmorises d'une session l'autre.

Cliquez ici pour accder d'autres tutoriels.

Comment utiliser des fonctions XLSTAT directement dans votre feuille


Excel ?
demoFunctionsf.xls

XLSTAT-Pro vous permet d'utiliser des fonctions XLSTAT directement depuis votre feuille
Excel. Les fonctions proposes permettent de corriger des absences ou des erreurs de
Microsoft Excel. Les fonctions actuellement disponibles sont :
Fonction Description Paramtres

Vector : une
colonne ou ligne
contenant les
donnes. Les
donnes
manquantes sont
acceptes.
Calcul d'un cart-
type sur un
XLSTAT_Stdev(Vector, Weights) Weights :
chantillon (sans
biais) optionnel ; une
colonne ou ligne
contenant les
poids des donnes.
Une donne
manquante
entrane un poids
nul.

Vector : une
colonne ou ligne
contenant les
donnes. Les
donnes
manquantes sont
acceptes.
Calcul d'cart-
type sur une Weights :
XLSTAT_StdevP(Vector, Weights)
population optionnel ; une
(biaise)
colonne ou ligne
contenant les
poids des donnes.
Une donne
manquante
entrane un poids
nul.
Vector : une
colonne ou ligne
contenant les
donnes. Les
donnes
manquantes sont
acceptes.
Calcul d'une
variance sur un Weights :
XLSTAT_Var(Vector, Weights)
chantillon (sans optionnel ; une
biais)
colonne ou ligne
contenant les
poids des donnes.
Une donne
manquante
entrane un poids
nul.

Vector : une
colonne ou ligne
contenant les
donnes. Les
donnes
manquantes sont
acceptes.
Calcul d'une
variance sur une Weights :
XLSTAT_VarP(Vector, Weights)
population optionnel ; une
(biaise)
colonne ou ligne
contenant les
poids des donnes.
Une donne
manquante
entrane un poids
nul.

Calcul du
XLSTAT_Correl(Vector1, Vector2, Weights) Vector1 : une
coefficient de
corrlation de colonne ou ligne
Pearson
contenant les
(corrlation
classique) entre donnes de la
deux chantillons. premire variable.
Les donnes
manquantes sont
acceptes.

Vector2 : une
colonne ou ligne
contenant les
donnes de la
seconde variable.
Les donnes
manquantes sont
acceptes.

Weights :
optionnel ; une
colonne ou ligne
contenant les
poids des donnes.
Une donne
manquante
entrane un poids
nul.

cf. cf.
XLSTAT_Pearson(Vector1, Vector2, Weights)
XLSTAT_Correl XLSTAT_Correl

Vector1 : une
colonne ou ligne
Calcul du contenant les
coefficient de donnes de la
XLSTAT_Spearman(Vector1, Vector2, Weights) corrlation de premire variable.
Spearman entre Les donnes
deux chantillons.
manquantes sont
acceptes.
Vector2 : une
colonne ou ligne
contenant les
donnes de la
seconde variable.
Les donnes
manquantes sont
acceptes.

Weights :
optionnel ; une
colonne ou ligne
contenant les
poids des donnes.
Une donne
manquante
entrane un poids
nul.

Vector1 : une
colonne ou ligne
contenant les
donnes de la
premire variable.
Les donnes
manquantes sont
Calcul du acceptes.
coefficient de
XLSTAT_Kendall(Vector1, Vector2, Weights) corrlation de Vector2 : une
Kendall entre colonne ou ligne
deux chantillons.
contenant les
donnes de la
seconde variable.
Les donnes
manquantes sont
acceptes.

Weights :
optionnel ; une
colonne ou ligne
contenant les
poids des donnes.
Une donne
manquante
entrane un poids
nul.

Afin d'illustrer l'utilisation des fonctions XLSTAT dans une feuille Excel, nous vous
proposons un exemple trs connu mettant en vidence une faiblesse de l'algorithme utilis par
Excel jusqu' la version 2003 pour le calcul de la variance et de l'cart-type, et la correction
apporte par XLSTAT. La feuille Excel sur laquelle sont disponibles les donnes et les
formules peut tre tlcharge en cliquant ici. Dans un premier temps nous procdons un
court rappel sur l'utilisation des formules dans Excel.

1. Rappel

L'utilisation de formules dans les cellules Excel permet de lier les cellules entre elles et de
raliser des oprations simples ou complexes (mathmatiques, logiques, texte, ...). Ainsi pour
imposer la cellule D2 d'tre gale la valeur de C2 plus 1000000000, il suffit de taper dans
D2, =C2+1000000000. L'utilisation de fonctions plus complexes est possible. Par exemple,
pour calculer dans la cellule F2 la racine carre de la cellule D2, et si vous ne vous souvenez
plus du nom de la fonction dans Excel, vous pouvez aller dans le menu "Insrer / Fonction"
d'Excel aprs avoir slectionn la cellule F2. La fentre suivante apparat :
Vous devez alors choisir "Math & Trigo" dans la liste de gauche (voir ci-dessus) puis la
fonction "RACINE" (SQRT dans la version anglaise d'Excel) dans la liste de droite. Une fois
cette fonction choisie, vous pouvez cliquer sur OK et Excel vous invite alors entrer
l'argument de la fonction RACINE, savoir D2 (vous pouvez slectionner la cellule D2 avec
la souris). Le rsultat est alors pr calcul et n'est affich dans la cellule F2 que lorsque vous
cliquez sur "OK".

Si vous voulez ensuite savoir quelle formule est utilise dans une cellule ou si vous voulez
modifier la formule, il vous suffit de cliquer dans la barre de formules Excel, la formule y
tant affiche :
2. Utilisation de la fonction XLSTAT_Var

L'exemple utilis ici met en jeu deux sries de donnes : la premire est la srie des entiers de
1 9, et la seconde correspond la premire augmente de 1e9 (un milliard).

La moyenne de la premire srie est 5 et celle de la seconde vaut (5 + 1e9), soit 1000000005.
En revanche la variance et l'cart-type des sries doivent tre identiques puisque ce sont des
mesures de l'cart la moyenne, donc invariantes une translation identique pour toutes les
donnes.

Dans un premier temps nous dcidons de calculer une variance sans biais (la somme des
carts quadratiques la moyenne, divise par n-1 o n est le nombre de donnes), en utilisant
la fonction VAR d'Excel correspondante. Le rsultat donn dans la cellule C13 pour la
premire srie est correct (7.5), mais il est faux en D13 pour la seconde srie (sauf partir
d'Excel 2003).

Dans un deuxime temps nous allons calculer la variance pour les deux sries en utilisant la
fonction XLSTAT.
Pour accder la liste des fonctions XLSTAT, il suffit de taper = suivi du nom de la fonction,
ou d'utiliser le menu "Insrer / Fonction" d'Excel, puis de choisir "XLSTAT" dans la liste de
gauche. Apparaissent alors dans la liste de droite, les fonctions XLSTAT.

Nous choisissons ici la fonction XLSTAT_Var. Les arguments reprsents en gras sont
obligatoires, les autres tant facultatifs. Nous slectionnons avec la souris les cellules C2
C10 pour la premire srie, puis les cellules D2 D10 pour la seconde srie.

On obtient bien des rsultats identiques pour les deux sries.


En conclusion, il est possible d'utiliser dans Excel des fonctions s'appuyant sur des
algorithmes de XLSTAT. Rappelons que XLSTAT est un logiciel qui n'utilise Excel que pour
la rcupration et l'affichage des donnes. Tous les calculs sont effectus dans des
programmes indpendants utilisant des algorithmes prouvs.

Cliquez ici pour accder d'autres tutoriels.

Comment gnrer des Box plots ?


demoBPf.xls

Une feuille Excel contenant un exemple de donnes et de rsultats peut tre tlcharge en
cliquant ici. Les donnes correspondent un chantillon de 150 fleurs (Iris) dcrites par cinq
variables (quatre numriques et une qualitative). Les fleurs appartiennent 3 espces
diffrentes. Ce jeu de donnes bien connu, a t utilis par Fisher pour illustrer l'analyse
discriminante. Nous avons choisi d'analyser la variable "Long. Spales" pour vrifier
visuellement les diffrences entre espces.

Une fois XLSTAT lanc, choisissez la commande XLSTAT/Description des


donnes/Statistiques descriptives ou cliquez sur le bouton "Statistiques descriptives" de la
barre d'outils "Description des donnes".
Une fois le bouton cliqu, la bote de dialogue correspondant aux "Statistiques descriptives"
apparat. Les donnes correspondant la variable "Long. Spales" sont slectionns avec la
souris dans la feuille Excel. Pour les Box plots, les donnes doivent tre des donnes
quantitatives. La variable espce est choisie pour identifier les sous-chantillons (3 espces de
fleurs). L'option "Libells des chantillons" est coche parce que le nom des variables est
inclus dans la slection. L'option "Feuille" est choisie pour que l'affichage des rsultats soit
effectu sur une nouvelle feuille du mme classeur.

Dans l'onglet "Options", seules deux options sont actives. Les options "Normaliser" et
"Remettre l'chelle" permettent de comparer plusieurs variables utilisant diffrentes
chelles. L'option "Comparer l'chantillon total" permet de comparer les sous-chantillons
l'chantillon total.

Dans l'onglet "Graphiques", l'option Box plots est active. L'option "Grouper les graphiques"
est active pour que les trois box plots correspondant aux trois espces d'iris soient affichs
sur le mme graphique.
Les rsultats et les graphiques sont affichs dans une nouvelle feuille nomme "Desc". Le
premier tableau correspond aux statistiques descriptives.

Il apparat clairement que la variable "Long. Spales" est diffrente en fonction des espces.
On observe une valeur extrme dans la catgorie 3. Elle est reprsente par un "o" (cette
valeur est aussi le minimum - il faut supprimer la srie correspondant aux minima et maxima
pour voir le "o").

Comment crer un histogramme avec XLSTAT ?


demoHistof.xls

Une feuille Excel contenant les donnes et les rsultats de cet exemple peut tre tlcharge
en cliquant ici. Les donnes correspondent une exprience o 200 chantillons d'eau
prlevs dans une rivire ont t mis en culture sur un milieu nutritif, afin de dterminer la
prsence ou non de bactries de type Escherichia coli. Le nombre de colonies a t compt
aprs trois jours d'incubation. Dans la colonne "Bact-Data" se trouve le rsultat des comptages
pour chacun des 200 chantillons.

En utilisant d'abord l'outil de XLSTAT permettant de crer des histogrammes, puis en


utilisant l'outil d'ajustement d'une loi de distribution, nous voulons vrifier si l'chantillon (au
sens statistique) des 200 comptages suit une loi binomiale ngative ou non. La loi binomiale
ngative reprsente souvent bien le phnomne d'agrgation/dispersion des bactries dans les
milieux aquatiques.

Une fois XLSTAT lanc, choisissez la commande XLSTAT/Description des


donnes/Histogrammes ou cliquez sur le bouton "Histogrammes" de la barre d'outils
"Description des donnes".
Une fois le bouton cliqu, la bote de dialogue apparat. Vous pouvez alors slectionner les
donnes sur la feuille Excel. L'option "discrtes" est active car les donnes de comptage sont
bien des donnes discrtes. L'option "Libell des chantillons" est laisse active car la
premire ligne de la colonne de donnes comprend le nom de la variable.
Une fois que vous avez cliqu sur le bouton "OK", les calculs sont effectus, puis
l'histogramme est affich, suivi du tableau servant la construction de l'histogramme (voir
feuille "Histogramme").

Nous voyons que la classe la plus nombreuse est la classe 0, et qu'elle reprsente plus de 20%
des donnes. Autrement dit dans plus d'un chantillon d'eau sur cinq, aucune bactrie n'a pu
tre mise en vidence. Ensuite, on observe une dcroissance rapide et assez rgulire des
frquences relatives. Dans un chantillon, on a trouv jusqu' 36 colonies.

Comme nous voulons faire ensuite un test d'ajustement la loi binomiale ngative (le test du
Khi ncessite qu'il y ait au moins 5 donnes par classe), et tant donne l'imprcision des
comptages de bactries, il semble ncessaire de regrouper les comptages dans des classes plus
importantes. Pour cela on cre une liste de bornes (0, 1, 2, 3, 4, 5, 10, 15, 20, 40) qui semble
cohrente avec la problmatique.

Afin de vrifier que les nouvelles classes qui en rsultent rpondent bien aux exigences du test
d'ajustement du Khi, nous faisons un nouvel histogramme en spcifiant cette fois les bornes
des intervalles des classes.

Une fois le bouton "OK" cliqu, une nouvelle feuille est cre ("Histogramme1") contenant
l'histogramme correspondant aux classes dfinies ci-dessus.
On constate que toutes les classes contiennent au moins 6 lments, ce qui est en accord avec
le test d'ajustement du Khi que nous allons utiliser ci-dessous, pour vrifier si l'chantillon
suit bien une loi binomiale ngative.

Pour ajuster une loi de probabilit un chantillon, et tester la qualit de l'ajustement,


choisissez la commande XLSTAT/Modlisation/Ajustement d'une loi de probabilit ou
cliquez sur le bouton "Ajustement d'une loi de probabilit" de la barre d'outils "Modlisation".

Une fois le bouton cliqu, la bote de dialogue apparat. Vous pouvez alors slectionner les
donnes sur la feuille Excel. Nous laissons XLSTAT libre d'"estimer" les paramtres de la loi
binomiale ngative. XLSTAT propose deux formulations de la loi binomiale ngative. Celle
qui est adapte ce type de donnes est la deuxime.

Nous activons l'option de test de conformit du Khi, ncessaire pour tester notre hypothse.
Pour le test du Khi, nous dcidons qu'il sera effectu sur les classes que nous avons
prcdemment cres.
Pour les graphiques, les options suivantes sont actives.

Le premier rsultat qui nous intresse est la valeur des paramtres k et p de la loi binomiale
ngative (ajuste par la mthode du maximum de vraisemblance).

Dans le tableau suivant, on peut comparer 4 statistiques lmentaires (moyenne, variance,


asymtrie, et aplatissement), calcules partir des donnes, et partir des paramtres en
utilisant les proprits de la loi choisie.
On note ici que les esprances et les variances ne diffrent pas trop, ce qui se justifie par la
taille de l'chantillon et la bonne adquation la loi. (NB: l'esprance thorique vaut kp, et la
variance thorique vaut kp(p+1)).

Le test de conformit du Khi permet de tester si la distance du Khi entre la distribution


empirique et la distribution thorique, calcule sur les classes, n'est pas au-del d'une valeur
critique. La comparaison visuelle des histogrammes thoriques et observs est possible sur la
figure suivante.

Pour les classes 1, 6 et 7, il semble y avoir une lgre inadquation. Malgr ces lgers carts,
la p-value associe au test (0.765) est nettement suprieure au seuil de signification que l'on
s'est fix (0.05). Le test du Khi permet donc de confirmer l'hypothse selon laquelle
l'chantillon est distribu suivant une loi binomiale ngative.
En conclusion, la prsence de la bactrie tudie dans la rivire dans laquelle ont eu lieu les
prlvements, suit une loi binomiale ngative de paramtres (k=0.839, p=5.763), avec une
esprance de 4.8 et une variance de 32.7.

Cliquez ici pour accder d'autres tutoriels.

Comment crer un Scatter plot avec XLSTAT ?


demoScatterf.xls

Un classeur Excel comprenant la fois les donnes utilises dans cet exemple et les rsultats
obtenus peut tre tlcharg en cliquant ici. Les donnes correspondent un petit groupe de
patients qui ont suivi un rgime donn. Leur mdecin a relev plusieurs donnes, dont leur
poids avant le rgime (kg), le poids qu'ils ont perdu, leur satisfaction quant aux rsultats du
rgime et leur ge. Le but est ici de visualiser les donnes tout en gardant un maximum
d'information.

Une fois XLSTAT-Pro lanc, slectionnez le menu XLSTAT/Visualisation des


donnes/Scatter Plot, ou cliquez sur le bouton correspondant de la barre d'outils "Visualisation
des donnes" (voir ci-dessous).
Une fois que vous avez cliqu sur le bouton, la bote de dialogue de l'outil Scatter Plot
apparat. Slectionnez alors les donnes sur la feuille Excel. Pour faire apparatre la seconde
partie de la bote de dialogue, vous devez cliquer sur le bouton "Plus". Remarquez que les
options "Frquences" et "Seulement si >1"sont slectionns, afin que l'on sache si des
donnes sont superposes sur le graphique.

Le graphique apparat sur la feuille Excel (parce que l'option Plage a t slectionne pour les
sorties) aprs que vous avez cliqu sur le bouton OK.
Afin d'amliorer la lisibilit du graphique, nous avons utilis AxesZoomer et boug la
lgende.

NB 1 : pour l'une des observations, une tiquette "2" a t ajoute. Cela signifie que deux
observations sont superposes cet endroit.
NB 2 : les tiquettes de donnes n'ont pas t utilises sur ce graphique car l'option "Afficher
les libells des observations" n'a pas t active dans la bote de dialogue.
Cliquez ici pour accder d'autres tutoriels.

Comment obtenir une Visualisation en Coordonnes Parallles avec


XLSTAT ?
demoPCorf.xls

Un classeur Excel comprenant la fois les donnes utilises dans cet exemple et les rsultats
obtenus peut tre tlcharg en cliquant ici. Les donnes correspondent une extraction des
rsultats d'une enqute mene par le American Census Bureau. L'chantillon est tel que 50%
des individus ont un revenu infrieur 50k$ et l'autre moiti un revenu suprieur 50k$.
Tous les individus ont pour pays d'origine les Etats-Unis.

La Visualisation en Coordonnes Parallles est une mthode graphique qui peut tre trs utile
avant ou aprs une classification.

Le but est ici de visualiser rapidement si certains facteurs (l'ge, le nombre d'annes d'tudes,
la race, le sexe, le nombre d'heures travailles par semaine), ont une influence sur le revenu
des individus.

Une fois XLSTAT-Pro lanc, slectionnez le menu XLSTAT/Visualisation des


donnes/Visualisation en Coordonnes Parallles, ou cliquez sur le bouton correspondant de
la barre d'outils "Visualisation des donnes".

Une fois que vous avez cliqu sur le bouton, la bote de dialogue de l'outil Visualisation en
Coordonnes Parallles apparat. Slectionnez alors les donnes sur la feuille Excel. Cet outil
accepte que vous slectionniez la fois des variables numriques et nominales. L'information
d'appartenance des "Groupes" est utilise pour la coloration des lignes. L'option "Lignes
moyennes" permet de faire apparatre les lignes correspondant aux moyennes des variables
numriques et aux modes des variables nominales. L'option "Remise l'chelle" permet
d'amliorer la visualisation en faisant en sorte que toutes les variables voluent entre 0 et 100.
Une fois que vous avez cliqu sur le bouton OK, les calculs sont effectus, et un graphique
apparat dans une nouvelle feuille du classeur.

Sur ce graphique on voit que les hommes blancs plus gs, travaillant beaucoup et ayant fait
de longues tudes sont ceux qui sont le plus susceptibles de gagner plus de 50k$. Cependant
on remarque que le nombre d'heures travailles n'est vraiment discriminant, la diffrence entre
les moyennes des deux groupes (50k$) n'tant pas trs importante.

Cliquez ici pour accder d'autres tutoriels.

Comment faire une Analyse en Composantes Principales (ACP) avec


XLSTAT ?
demoPCAf.xls
Une feuille Excel contenant la fois les donnes et les rsultats peut-tre tlcharge en
cliquant ici. Les donnes proviennent du US Census Bureau (le fichier original peut-tre
obtenu sur http://eire.census.gov/popest/states_dataset.csv). Elles correspondent la mesure
de paramtres dmographiques dans 51 Etats des Etats-Unis en 2000 et 2001. Dans le cadre
de ce tutoriel, seules les donnes de l'anne 2001 ont t conserves, et afin de supprimer les
effets d'chelle, les variables initiales ont t converties en taux pour 1000 habitants. Le but
est ici d'analyser les corrlations entre les variables et d'identifier des tats se diffrenciant
fortement des autres. Ces donnes sont aussi utilises pour le tutoriel de la Classification
Ascendante Hirarchique (CAH).

L'ACP est une mthode trs efficace pour l'analyse de donnes quantitatives (continues ou
discrtes) se prsentant sous la forme de tableaux M observations / N variables. Elle permet
de :
- visualiser et analyser rapidement les corrlations entre les N variables,
- visualiser et analyser les M observations initialement dcrites par N variables sur un
graphique deux ou trois dimensions, construit de manire ce que la dispersion entre les
donnes soit aussi bien prserve que possible,
- construire un ensemble de P facteurs non corrls (P<=N) qui peuvent ensuite tre rutiliss
par d'autres mthodes (la rgression par exemple).

Les limites de l'ACP viennent du fait que c'est une mthode de projection, et que la perte
d'information induite par la projection peut entraner des interprtations errones. Des astuces
permettent cependant d'viter ces inconvnients.

Une fois qu'XLSTAT-Pro est activ, cliquez sur le menu XLSTAT/Analyse de


donnes/Analyse en Composantes Principales, ou cliquez sur le bouton correspondant de la
barre "Analyse de donnes" (voir ci-dessous).
Une fois le bouton cliqu, la bote de dialogue correspondant l'Analyse en composantes
principales apparat. Vous pouvez alors slectionner les donnes sur la feuille Excel. Il y a
plusieurs faons de slectionner les donnes dans la bote de dialogue XLSTAT (voir le
tutoriel sur le sujet). Dans l'exemple tudi ici les donnes commencent ds la premire ligne;
il est donc plus rapide de choisir le mode de slection par colonnes. C'est pourquoi dans la
bote de dialogue ci-dessous, les slections apparaissent sous forme de colonnes. L'option
"Libells des variables" est active, car la premire ligne de donnes contient le nom des
variables. Le "Format des donnes" choisi ici est "Observations/Variables" car c'est bien le
format des donnes de dpart. Le "Type d'ACP" choisi est Pearson, ce qui signifie que les
calculs seront bass sur une matrice compose des coefficients de corrlation de Pearson, le
coefficient de Pearson tant le coefficient de corrlation classiquement utilis.

Dans l'onglet "Sorties", on a choisi d'activer l'option "Tester la significativit" pour afficher en
gras les corrlations significativement diffrentes de 0.
Dans l'onglet "Graphiques", les options d' "Etiquettes" sont toutes actives afin que les libells
des variables et des observations soient bien affichs. L'option de filtrage des observations
afficher est aussi dsactive afin d'afficher toutes les observations. Lorsqu'il y a beaucoup
d'observations, il est conseill de ne pas afficher les tiquettes pour acclrer la gnration du
graphique, et de ne pas afficher toutes les observations afin de rendre le graphique plus lisible.

Les calculs commencent lorsque vous cliquez sur le bouton "OK". Si vous avez choisi dans le
panneau des options XLSTAT l'option "Demander la confirmation des slections", XLSTAT
vous demande de confirmer le nombre de lignes et de colonnes des slections.

Puis une nouvelle bote vous permet de choisir les axes pour lesquels les graphiques doivent
tre affichs. Dans notre cas, le % de variabilit reprsent sur les deux premiers axes n'est
pas particulirement lev (67.72%) ; pour viter une mauvaise interprtation des graphiques,
un affichage sur les axes 1 et 3 est donc aussi demand.
Le premier rsultat intressant analyser est la matrice des corrlations. On remarque le
rsultat vident que les taux de la proportion de gens tant ags de plus et moins de 65 ans
sont parfaitement corrls (r = -1). Les deux variables sont donc redondantes. On remarque
l'immigration provenant d'autres tats des USA est trs peu corrle avec les autres variables,
y compris avec l'immgration provenant de pays trangers. Cela indique que les raisons
d'immigration sont srement diffrentes pour les deux populations concernes.

Le tableau suivant et le graphique associ sont lies un objet mathmatique, les valeurs
propres, qui sont heureusement lies un concept trs simple : la qualit de la projection
lorsque l'on passe de N dimensions (N tant le nombre de variables, ici 7) un nombre plus
faible de dimensions. Dans notre cas, on voit que la premire valeur propre vaut 3.567 et
reprsente 51% de la variabilit. Cela signifie que si l'on reprsente les donnes sur un seul
axe, alors on aura toujours 51% de la variabilit totale qui sera prserve.
A chaque valeur propre correspond un facteur. Chaque facteur est en fait une combinaison
linaire des variables de dpart. Les facteurs ont la particularit de ne pas tre corrls entre
eux. Les valeurs propres et les facteurs sont tris par ordre dcroissant de variabilit
reprsente.

Idalement, les deux premires valeurs propres correspondent un % lev de la variabilit, si


bien que la reprsentation sur les deux premiers axes factoriels est de bonne qualit. Dans
notre exemple, cela n'est pas tout fait le cas, d'o la ncessit de valider les hypothses
formules par l'utilisation des graphiques sur les facteurs F1 et F2 d'une part, et F1 et F3
d'autre part. Nous voyons ici que le nombre de facteurs est 6, alors que nous avions au dpart
7 variables. Cela est d aux deux variables redondantes. On comprend bien que l'information
puisse tre synthtise sur 6 dimensions. Le nombre de dimensions "utiles" maximum est
automatiquement dtecter par la mthode utilise.

Le premier graphique particulier la mthode est le cercle des corrlations (voir ci-dessous le
cercle sur les axes F1 et F2). Il correspond une projection des variables initiales sur un plan
deux dimensions constitu par les deux premiers facteurs. Lorsque deux variables sont loin
du centre du graphique, alors si elles sont :
proches les unes par rapport aux autres, alors elles sont significativement positivement
corrles (r proche de 1),
orthogonales les unes par rapport aux autres, alors elles sont significativement non-corrles
(r proche de 0),
symtriquement opposes par rapport au centre, alors elles sont significativement
ngativement corrles (r proche de -1).

Lorsque les variables sont relativement proches du centre du graphique, alors toute
interprtation est hasardeuse, et il est ncessaire de se rfrer la matrice de corrlations
d'autres plans factoriels pour interprter les rsultats. Dans notre exemple, nous pourrions
dduire du graphique ci-dessous que les variables Immigration domestique, et Immigration
Internationale sont corrles, alors qu'elles ne le sont pas, ce que l'on peut voir sur la matrice
des corrlations ou sur le cercle des corrlations sur les axes F1 et F3. En revanche, on voit
bien la forte corrlation entre le taux de mortalit et le taux de personnes dont l'ge est
suprieur 65 ans.

Le cercle des corrlations est aussi utile pour interprter la signification des axes. Dans notre
cas, l'axe F1 est clairement li l'ge de la population et son renouvellement, alors que l'axe
F2 est essentiellement li l'immigration domestique. Ces tendances sont particulirement
intressantes dgager pour l'interprtation du graphique des individus (voir ci-dessous). Pour
confirmer le fait qu'une variable est fortement lie un facteur, il suffit de consulter la table
des cosinus : plus le cosinus est lev (en valeur absolue), plus la variable et lie l'axe. Plus
le cosinus est proche de zro, moins la variable est lie l'axe. Dans notre cas, nous voyons
que ce qui concerne l'immigration internationale sera mieux interprte sur les F2/F3.
Le graphique ci-dessous correspond l'un des objectifs de l'ACP. Il permet de reprsenter les
individus sur une carte deux dimensions, et ainsi d'identifier des tendances. On voit dans
notre exemple que sur la base des variables dmographiques dont on dispose, le Nevada et la
Floride sont assez particuliers, de mme que l'Utah et Alaska qui semblent partager des
caractristiques : en regardant les donnes, on s'aperoit que ces deux tats ont une population
nettement plus jeune que la moyenne, et une natalit trs leve.

Cliquez pour voir le graphique en trois dimensions gnr par XLSTAT-


3DPlot sur les trois premiers axes factoriels.

L'Analyse en Composantes Principales est souvent utilise avant une rgression car elle
permet d'viter d'utiliser des variables redondantes, ou avant une classification car elle permet
d'identifier la structure de la population et ventuellement de dterminer le nombre de groupes
construire. Les donnes utilises dans ce tutoriel sont aussi utilises dans le tutoriel sur la
Classification Ascendante Hirarchique. En tenant compte des remarques faites ci-dessus, la
variable "pop >65" a t supprime afin de ne pas rendre le poids des variables lies l'ge
trop important pour le regroupement des tats.

Cliquez ici pour accder d'autres tutoriels.

Comment faire une analyse factorielle des variables latentes avec


XLSTAT ?
demoFAf.xls

Une feuille Excel comprenant la fois les donnes et les rsultats de l'analyse peut tre
tlcharge en cliquant ici. Les donnes proviennent de [Kendall M. (1975). Multivariate
analysis. Griffin, London] et correspondent 48 candidats pour un poste en entreprise ayant
t valus sur 15 critres :
- Lettre de motivation
- Prsentation
- Niveau d'tudes
- Sympathie
- Confiance en soi
- Lucidit
- Honntet
- Sens commercial
- Exprience
- Charisme
- Ambition
- Comprhension
- Potentiel
- Motivation pour le poste
- Adquation

Parce que les corrlations entre les critres sont importantes, il est possible que la personne
interviewant les candidats ait confondu certains critres ou que certains critres soient
redondants. On a procd une analyse factorielle des variables latentes, afin de dterminer
quels sont les critres (ou facteurs) latents. Plusieurs mthodes d'analyse factorielle des
variables latentes existent. Trois mthodes d'extraction des facteurs sont proposes par
XLSTAT (composantes principales, facteurs principaux, et maximum de vraisemblance).
Nous utilisons ici la mthode des facteurs principaux dans le but de gnrer quatre facteurs,
avant de procder une rotation varimax pour faciliter l'interprtation des rsultats.

Pour activer la bote de dialogue de l'analyse factorielle, lancez XLSTAT, puis slectionnez la
commande XLSTAT/Analyse de donnes/Analyse Factorielle, ou cliquez sur le bouton
quivalent de la barre d'outils "Analyse des donnes".
Une fois le bouton cliqu, la bote de dialogue apparat. Vous pouvez alors slectionner les
donnes sur la feuille Excel.

Dans l'onglet "Options" la rotation Varimax sur les deux premiers facteurs a t choisie.

Les options de sortie et de graphiques suivantes sont actives.


Une fois que vous avez cliqu sur le bouton "OK", les calculs commencent puis les rsultats
sont affichs. Les premiers rsultats sont les statistiques descriptives simples des variables
slectionnes, puis la matrice de corrlation pour ces mmes variables. On note que certaines
corrlations sont importantes (0.883 pour Comprhension et Lucidit). On remarque que le
juge est probablement influenc par l'exprience et le charisme du candidat lorsqu'il dtermine
l'Adquation entre le candidat et le poste.

Lalpha de Cronbach standardis est ensuite calcul. Il vaut ici 0.914, ce qui indique qu'il y a
probablement de la redondance dans les variables slectionnes.

L'algorithme utilis pour les calculs des facteurs principaux est itratif. Dans notre cas,
l'algorithme a converg au bout de 41 itrations pour atteindre une prcision de 0,0001 sur le
critre du changement maximum de communalit entre deux itrations. La mthode consiste
essayer de reproduire la matrice des corrlations. La matrice des corrlations reproduites et
des corrlations rsiduelles permet de mesurer cas par cas si les corrlations sont bien
reproduites ou non.

Dans le tableau ci-dessous sont affiches les valeurs propres issues de l'analyse factorielle.
Nous constatons qu'avec quatre facteurs on conserve 74.5 % de la variabilit des donnes
initiales.

Remarque : les valeurs propres affiches ci-dessus sont celles qui correspondent l'analyse
factorielle par la mthode des facteurs principaux. Avec l'analyse en composantes principales
on obtiendrait pour les 10 premiers facteurs :

La rotation varimax change la faon dont chaque facteur reprsente une part de la variance.
La rotation varimax rend l'interprtation plus aise en maximisant la variance du carr des
coordonnes des variables par colonne. Pour un facteur donn, les coordonnes leves le sont
encore plus, les coordonnes faibles le sont encore plus, et les coordonnes intermdiaires
deviennent soit plus leves, soit plus faibles. Le % de variance correspondant au premier
reste bien entendu inchang, mme si au niveau de chacun des deux axes pris en compte pour
la rotation les % sont inchangs.

On peut ensuite analyser les coordonnes des variables aprs la rotation varimax. Ces rsultats
sont utiliss pour interprter le sens des facteurs aprs rotation.
D'aprs le tableau ci-dessus, on remarque que le premier facteur est fortement li
l'Ambition, la Confiance en soi, au Sens commercial et la Lucidit. Le second facteur est
quant lui li la Lettre de motivation, l'Exprience, et l'Adquation. De ces rsultats, on
dduit que les candidats qui ont des coordonnes leves sur le premier facteur sont des
commerciaux prometteurs, tandis que ce que l'on destinerait des postes de management
auraient plutt des coordonnes leves sur le second et le troisime facteur.

Le graphique ci-dessous donne la position des variables sur les axes F1 et F2.
Le alpha de Cronbach est ensuite calcul pour chaque facteur, en prenant pour chaque facteur,
les variables dont la valeur absolue de la coordonne (ou loading) est maximale pour ce
facteur. Lalpha est proche de 1 pour les facteurs aprs rotation. Ceci semble confirmer que
ces deux facteurs ont un caractre unidimensionnel, traduisant un facteur latent.

Un tableau suivant fournit les coordonnes des individus sur les axes factoriels aprs la
rotation varimax.
XLSTAT affiche la carte factorielle en deux dimensions. Le graphique ci-dessous correspond
la carte factorielle sur F1 et F2.

Les meilleurs candidats sont probablement les individus 40 et 39. S'ils refusent l'offre, les
candidats 8, 20, 22, 23, 24 seraient une alternative.

Cliquez ici pour accder d'autres tutoriels.


Comment rendre un graphique issu d'une ACP plus lisible ?
demoEasyf.xls

Une feuille Excel contenant les donnes et les rsultats de cet exemple peut tre tlcharge
en cliquant ici. Ce tutoriel utilise les rsultats obtenus dans le tutoriel sur l'ACP. (Analyse en
Composantes Principales). Notre but est d'amliorer la lisibilit de la reprsentation graphique
des observations sur les axes F1 et F2.

Pour commencer, nous faisons une copie de la reprsentation, pour ensuite l'agrandir. On peut
observer qu'au cours de l'agrandissement certaines tiquettes s'loignent du point auquel elles
correspondent. Pour remdier cela, nous slectionnons le graphique puis nous utilisons
l'outil "Repositionnement des tiquettes" de la barre "Visualisation des donnes", et
choisissons les options suivantes :

Nous crons ensuite, droite du tableau des coordonnes des observations, une colonne qui
contient la somme des valeurs issues du tableau des cosinus carrs obtenus pour une
observation donne et pour les deux premiers axes. Pour rappel, pour un axe et une
observation donns, le cosinus correspond au cosinus de l'angle entre l'axe et le vecteur reliant
l'origine au point. Ainsi, plus le cosinus carr est lev, plus le point est proche de l'axe dans
l'espace multidimensionnel rsultant de l'ACP. La somme des cosinus carrs sur les deux
premiers axes factoriels F1 et F2, pour une observation donne, donne donc une ide de la
fidlit de la reprsentation dans le plan dfini par F1 et F2, pour cette observation. Pour une
observation donne, la somme des cosinus carrs sur l'ensemble des axes vaut 1. Donc plus on
est proche de 1, plus grande est la fidlit.
Afin d'indiquer le niveau de fidlit de la reprsentation en deux dimensions pour les
diffrents points, nous souhaitons grossir les points en fonction de la valeur du cosinus. Cela
nous permettra de savoir quels points peuvent tre interprts sans risque d'erreur.

Par ailleurs, pour diffrencier les Etats des cinq regroupements du Census Bureau (Nord Est,
Sud, Midwest, West et Pacifique), nous allons utiliser diffrents motifs.

Pour modifier les motifs, nous devons utiliser les codes dfinis par XLSTAT qui eux-mmes
respectent l'ordre des motifs proposs par Excel (voir bote de dialogue Excel ci-dessous) : 1
correspond un carr, 2 un losange, 3 un triangle, 4 un x, 5 une toile, 6 un point, 7
un -, 8 un + et 9 un disque. Seules quatre motifs tant rellement utilisables, les Etats de
Hawa et d'Alaska qui font partie de la zone Pacifique seront reprsents sous forme de ronds
avec un pourtour noir.

Nous crons ensuite une colonne contenant les codes correspondant chaque Etat.

Pour augmenter la lisibilit du graphique, nous allons colorer en rouge les points ayant une
somme des cosinus carrs suprieure 0.8. Pour modifier la couleur des points, nous devons
appliquer les couleurs utiliser aux cellules contenant les motifs. Dans un premier temps,
nous colorons le fond des cellules en bleu pour toute la colonne contenant la somme des
cosinus carrs. Ensuite, nous utilisons l'outil DataFlagger (barre "Outils") pour colorer en
rouge les cellules suprieures ou gales 0.8.
Pour entourer de noir les points correspondant Hawa et l'Alaska, une bordure infrieure
noire a t ajoute aux cellules concernes. Le format des cellules est ensuite copi et coll
dans la colonne contenant les motifs, et nous effaons les formats dans la colonne des cosinus
(Excel / Editer / Effacer les formats).

Nous slectionnons ensuite le graphique, puis nous lanons l'outil EasyPoints de la barre
"Visualisation des donnes". Les options suivantes ont t choisies :

Nous obtenons alors la carte suivante :


Plus lisible, cette reprsentation nous permet d'identifier les Etats dont on peut interprter la
proximit. Par exemple, on peut conclure que la West Virginia et la Pennsylvanie sont
proches, alors que la Pennsylvanie et l'Alaska sont trs diffrents. Par ailleurs, on remarque
que dans la partie en haut droite ou en bas droite de la reprsentation, on retrouve surtout
des Etats de l'Ouest.

Cliquez ici pour accder d'autres tutoriels.

Comment faire une Analyse Factorielle des Correspondances (AFC) avec


XLSTAT ?
demoCAf.xls

L'Analyse Factorielle des Correspondances (AFC) est une mthode trs utilis pour analyser
des tableaux croiss, et notamment des tableaux de contingence croisant deux variables
qualitatives. Si l'on souhaite analyser les proximits entre les modalits de plus de deux
variables qualitatives, on peut utiliser l'Analyse des Correspondances Multiples (ACM).
Une feuille Excel contenant les donnes et les rsultats peut tre tlcharge en cliquant ici.
Les donnes correspondent une enqute dans laquelle les personnes interroges donnent
leurs opinions sur un film qu'elles viennent de voir. On leur demande galement leur tranche
d'ge.

Une fois que XLSTAT est ouvert, choisissez XLSTAT/Analyse des donnes/Analyse
Factorielle des Correspondances, ou cliquez sur le bouton correspondant de la barre d'outils
"Analyse des donnes".

Une fois le bouton cliqu, la bote de dialogue de l'analyse des correspondances apparat.
Vous pouvez alors slectionner les donnes avec la souris sur la feuille Excel. Si vos donnes
sont comme ici dans un tableau de contingence, slectionnez l'option "Tableau crois". Si vos
donnes sont dans un tableau Individus/variables slectionnez l'autre option. L'option
"Libells inclus" est active parce que les noms des modalits en lignes et en colonnes sont
galement slectionns. Cliquez sur une cellule de votre feuille pour y placer les rsultats de
l'analyse. Cette cellule correspond la position en haut et gauche des tableaux (Feuil1!$J$4
dans notre exemple ; Feuil1 est le nom de la feuille des donnes). Vous pouvez galement
diter les rsultats dans une feuille spare ou dans un nouveau classeur.
Dans l'onglet "Graphiques" les options suivantes ont t actives.

Une fois que vous avez cliqu sur OK, puis choisi les axes utiliser pour les graphiques, les
rsultats sont affichs. De nombreuses dtails sont disponibles y compris le test du Khi, qui
permet de dterminer si l'on peut considrer les lignes et les colonnes comme indpendantes
ou non. Comme on peut le voir ci-dessous, ici le test nous amne rejeter l'hypothse
d'indpendance.
La qualit de la reprsentation graphique peut tre value grce l'histogramme ou au
tableau des valeurs propres. Si la somme des deux premires (ou des n premires) valeurs
propres reprsentent une grande partie de l'inertie totale, la qualit des graphiques est bonne.
Dans notre cas cette qualit est trs bonne dans la mesure o les deux premires valeurs
propres totalisent 97 % de la variance totale.

Le principal intrt de l'analyse des correspondances est la reprsentation graphique


simultane des modalits des deux variables. Lorsque la qualit de l'analyse est bonne (97%
dans notre cas) la reprsentation graphique permet d'interprter facilement les donnes. Nous
pouvons ainsi remarquer que les jeunes de 16 24 ans ont des opinions sensiblement
diffrentes des autres classes d'ges. Les personnes appartenant la classe des 55-64 ans
n'apprcient pas le film.
Cliquez ici pour accder d'autres tutoriels.

Comment faire une Analyse des Correspondances Multiples (ACM) avec


XLSTAT ?
demoACM.xls

Une feuille Excel contenant les donnes et les rsultats de cet exemple peut tre tlcharge
en cliquant ici. Les donnes correspondent une enqute effectue par un concessionnaire
automobile, auprs de 28 clients, une semaine aprs que ces derniers ont rcupr leur
vhicule suite une rparation mcanique. Le questionnaire comprend cinq questions :
- Etes-vous globalement satisfait de votre visite au garage ? (Oui / Non)
- Considrez-vous que la rparation a bien t effectue ? (Oui / Non / Ne sait pas)
- Comment jugez-vous la qualit de l'accueil ? (1 5)
- Le rapport qualit prix vous semble-t-il correct ? (Oui / Non)
- Reviendrez vous dans ce garage pour une rparation ? (Oui / Non / Ne sait pas)

En effectuant une Analyse des Correspondances Multiples (ACM), nous souhaitons identifier
les relations possibles entre les diffrentes rponses aux diffrentes questions.

Une fois XLSTAT lanc, choisissez la commande XLSTAT/Analyse des donnes/Analyse


des Correspondances Multiples ou cliquez sur le bouton "Analyse des Correspondances
Multiples" de la barre d'outils "Analyse des donnes".
Une fois le bouton cliqu, la bote de dialogue correspondant l'Analyse des Correspondance
Multiples (ACM) apparat. Vous pouvez alors slectionner les donnes sur la feuille Excel.
L'option "Libells des variables" est laisse active car la premire ligne des colonnes
slectionnes comprend le nom des variables. L'option "Libells des observations" est active
et les donnes correspondantes ont t slectionnes.

Dans l'onglet "Options" l'option d'analyse avance "Donnes supplmentaires" est


slectionne, puis dans l'onglet du mme nom, la variable "Reviendra" est utilise comme
"Variable supplmentaire" car on ne souhaite pas qu'elle influe sur les calculs; en revanche
son positionnement a posteriori nous intresse.

L'option 1/p a t choisie pour filtrer les facteurs n'apportant que peu d'information. Ainsi,
tous les rsultats concernant des facteurs dont la valeur propre est infrieure 1/p (p tant le
nombre de variables qualitatives actives slectionnes), ne seront pas affichs.
Les options suivantes ont t choisies pour les sorties et les graphiques.
Une fois que vous avez cliqu sur le bouton "OK", les calculs commencent puis les rsultats
sont affichs. XLSTAT commence par afficher des tableaux impliqus dans les calculs
(tableau disjonctif complet et tableau de Burt).

L'inertie totale vaut 2. En ACM, l'inertie totale dpend uniquement du nombre de variables et
de modalits et non des liaisons entre les variables; cette quantit n'a donc pas d'interprtation
statistique.

Dans le tableau suivant sont affiches les valeurs propres non nulles et le % d'inertie
correspondant. Contrairement ce qui est le cas en AFC, les % ne sont pas interprtables en
terme de qualit de la reprsentation, seul lment important pour l'utilisateur de la mthode.
Greenacre et al (2005) ont proposent d'utiliser une inertie ajuste, plus proche de la ralit.
Alors que le calcul habituel nous donne seulement 46.6% avec les deux premiers axes, nous
voyons ici que la mthode base sur l'inertie ajuste nous donne 87.3%.

Le scree plot utilise les % d'inertie ajuste.


Ensuite sont affiches les coordonnes des modalits dans l'espace factoriel (les diffrentes
catgories des variables qualitatives slectionnes). Les rsultats concernant les modalits de
la variable supplmentaire sont affichs en bleu. Les coordonnes des individus sont affiches
plus bas. Les contributions, les cosinus carrs et les valeurs test sont des rsultats utiliser
lors de l'interprtation des reprsentations graphiques : avant d'interprter la proximit entre
deux modalits et/ou observations, on doit vrifier qu'il ne s'agit pas uniquement d'un effet de
projection. Pour cela on pourra vrifier que les cosinus ou les contributions sont levs pour
les axes et les modalits/observations concerns.

Le graphique ci-dessous reprsente la carte factorielle superposant modalits et individus.


Afin de mieux visualiser la position relative des modalits, nous avons ralis avec XLSTAT-
3DPlot une visualisation dans l'espace des trois premiers facteurs partir du tableau des
coordonnes des modalits.

De ces graphiques, on a la confirmation d'une vidence : un client ne reviendra que s'il est
globalement satisfait de la prestation, de l'accueil, du prix et s'il a l'impression que la
rparation a bien t faite. On notera aussi que de manire plus trange, le sentiment que la
rparation ait t mal faite concide avec un mauvais accueil. Cela mriterait une analyse
approfondie : est-ce que la personne a mal mentionn le problme parce qu'elle tait mal
accueillie ? Ou bien a-t-elle rappel pour signaler que le problme n'tait pas rgl et a t mal
accueillie ce moment l ?

Cliquez ici pour accder d'autres tutoriels.

Comment faire une Rgression linaire simple ?


demoRegf.xls

Une feuille Excel contenant les donnes et les rsultats de cet exemple peut tre tlcharge
en cliquant ici. Les donnes proviennent de Lewis T. and Taylor L.R. (1967). Introduction to
Experimental Ecology, New York: Academic Press, Inc.. Elles concernent 237 enfants,
dcrits par leur sexe, leur ge en mois, leur taille en inch (1 inch = 2.54 cm), et leur poids en
livres (1 livre = 0.45 kg).

En utilisant la rgression linaire simple, notre but est d'tudier comment le poids varie en
fonction de la taille, et si une relation linaire a un sens. Nous nous limitons ici au cas des
filles. Il s'agit ici d'une rgression linaire simple, car une seule variable explicative est
utilise (la taille). Dans un tutoriel sur la Rgression multiple cet exemple est repris afin
d'tudier l'influence de l'ge sur cette relation. Un tutoriel sur l'ANCOVA reprend cet exemple
afin d'ajouter le sexe (variable qualitative) comme variable explicative, et les donnes
concernant les garons sont alors prises en compte.

Une fois XLSTAT lanc, choisissez la commande XLSTAT/Modlisation/Rgression ou


cliquez sur le bouton "Rgression" de la barre d'outils "Modlisation".

Une fois le bouton cliqu, la bote de dialogue correspondant la rgression apparat. Vous
pouvez alors slectionner les donnes sur la feuille Excel. La "Variable dpendante"
correspond la variable explique (ou variable modliser), qui est dans ce cas prcis le
poids. La variable quantitative explicative est ici la taille. On veut ici expliquer la variabilit
du poids par celle de la taille. L'option "Libells des colonnes" est active car la premire
ligne des colonnes comprend le nom des variables. Nous laissons l'option "Rsidus"
slectionne car nous analyserons les prdictions et les rsidus pour valider l'hypothse de
normalit de la rgression, et pour identifier des valeurs extrmes.
Une fois que vous avez cliqu sur le bouton "OK", les calculs commencent puis les rsultats
sont affichs. Le premier tableau de rsultats fournit les coefficients d'ajustement du modle.
Le R (coefficient de dtermination) donne une ide du % de variabilit de la variable
modliser, expliqu par l a variable explicative. Plus ce coefficient est proche de 1, meilleur
est le modle.

Dans notre cas, 56% de la variabilit du poids est explique par la taille. Le reste de la
variabilit est d des effets (autres variables explicatives) qui ne sont pas pris en compte
dans cet exemple.

Le tableau d'analyse de la variance est un rsultat qui doit tre analys attentivement (voir ci-
dessous). C'est ce niveau que l'on teste si l'on peut considrer que la variable explicative
slectionne (la taille) apporte une quantit d'information significative au modle (hypothse
nulle H0) ou non. En d'autres termes, c'est un moyen de tester si la moyenne de la variable
modliser (le poids) suffirait dcrire les rsultats obtenus ou non.
Le test du F de Fisher est utilis. tant donn que la probabilit associe au F est dans ce cas
infrieure 0.0001, cela signifie que l'on prend un risque de se tromper de moins de 0.01% en
concluant que la variable explicative apporte une quantit d'information significative au
modle.

Le tableau suivant fournit les dtails sur le modle et est essentiel ds lors que le modle doit
tre utilis pour faire des prvisions, des simulations ou s'il doit tre compar d'autres
rsultats, par exemple les coefficients que l'on obtiendrait pour les garons. Nous voyons que
si le paramtre de la taille a un intervalle de confiance assez troit, celui de la constante du
modle est assez large. L'quation du modle est donne sous le tableau. Le modle indique
que dans les limites de l'intervalle de variation de la variable taille donnes par les
observations, chaque fois que la taille augmente d'un inch, le poids augmente de 4 livres.

Le tableau suivant prsente l'analyse des rsidus. Une attention particulire doit tre porte
aux rsidus centrs rduits, qui, tant donnes les hypothses lies la rgression linaire,
doivent tre distribus suivant une loi normale N(0,1). Cela signifie, entre autres, que 95% des
rsidus doivent se trouver dans l'intervalle [-1.96, 1.96]. Etant donn le faible nombre de
donnes dont on dispose ici, toute valeur en dehors de cet intervalle est rvlatrice d'une
donne suspecte. Afin de mettre en vidence rapidement les valeurs se trouvant hors de
l'intervalle [-1.96, 1.96], nous avons utilis l'outil DataFlagger de XLSTAT.

Sur les 111 observations, cinq (26, 38, 64, 69, 77) sont hors de l'intervalle [-1.96, 1.96]. Cette
analyse des rsidus n'invalide donc pas l'hypothse de normalit.

Le premier graphique permet de visualiser les donnes, la droite de rgression, et les deux
intervalles de confiance (le plus proche de la courbe est l'intervalle autour de la moyenne de
l'estimateur, le second est l'intervalle autour de l'estimation ponctuelle aussi appel intervalle
de prdiction). On voit ainsi clairement une tendance linaire, mais avec une forte variabilit
autour de la droite. Les 5 valeurs suspectes sont en dehors du second intervalle de confiance.

Le troisime graphique semble indiquer que les rsidus croissent en fonction du poids.

L'histogramme des rsidus centrs rduits permet quant lui de reprer rapidement et
visuellement la prsence de valeurs hors de l'intervalle [-2, 2].
En conclusion, la taille permet d'expliquer 56% de la variabilit du poids. Pour expliquer la
variabilit restante, d'autres sources de variabilit doivent donc tre prises en compte dans le
modle. Dans le tutoriel sur la rgression linaire multiple, l'ge est ajout comme seconde
variable explicative.

Cliquez ici pour accder d'autres tutoriels.

Comment faire une Rgression linaire multiple ?


demoReg2f.xls

Une feuille Excel contenant les donnes et les rsultats de cet exemple peut tre tlcharge
en cliquant ici. Les donnes proviennent de Lewis T. and Taylor L.R. (1967). Introduction to
Experimental Ecology, New York: Academic Press, Inc.. Elles concernent 237 enfants,
dcrits par leur sexe, leur ge en mois, leur taille en inch (1 inch = 2.54 cm), et leur poids en
livres (1 livre = 0.45 kg).

En utilisant la rgression linaire multiple, notre but est d'tudier comment le poids varie en
fonction de la taille et de l'ge, et si une relation linaire a un sens. Nous nous limitons ici au
cas des filles. Il s'agit ici d'une rgression linaire multiple, car deux variables explicatives
sont utilises (la taille et l'ge). Dans un tutoriel sur la Rgression simple cet exemple est
trat avec seulement la taille comme variable explicative. Un tutoriel sur l'ANCOVA reprend
cet exemple afin d'ajouter le sexe (variable qualitative) comme variable explicative, et les
donnes concernant les garons sont alors prises en compte.
Une fois XLSTAT lanc, choisissez la commande XLSTAT/Modlisation/Rgression ou
cliquez sur le bouton "Rgression" de la barre d'outils "Modlisation".

Une fois le bouton cliqu, la bote de dialogue correspondant la rgression apparat. Vous
pouvez alors slectionner les donnes sur la feuille Excel. La "Variable dpendante"
correspond la variable explique (ou variable modliser), qui est dans ce cas prcis le
poids. Les variables quantitatives explicatives sont ici la taille et l'ge. On veut ici expliquer la
variabilit du poids par celle de la taille et de l'ge. L'option "Libells des colonnes" est
laisse active car la premire ligne des colonnes comprend le nom des variables. Nous
laissons l'option "Rsidus" slectionne car nous analyserons les prdictions et les rsidus
pour valider l'hypothse de normalit de la rgression, et pour identifier des valeurs extrmes.

Une fois que vous avez cliqu sur le bouton "OK", les calculs commencent puis les rsultats
sont affichs. Le premier tableau de rsultats fournit les coefficients d'ajustement du modle.
Le R (coefficient de dtermination) donne une ide du % de variabilit de la variable
modliser, expliqu par les variables explicatives. Plus ce coefficient est proche de 1, meilleur
est le modle.
Dans notre cas, 59% de la variabilit est explique par la taille et l'ge. Le reste de la
variabilit est d des effets (autres variables explicatives) qui ne sont pas pris en compte
dans cet exemple. Dans le tutoriel sur la rgression simple, nous avons vu que l'utilisation de
la taille dans le modle expliquait dj 56%. L'apport de la variable ge est donc faible.

Le tableau d'analyse de la variance est un rsultat qui doit tre analys attentivement (voir ci-
dessous). C'est ce niveau que l'on teste si l'on peut considrer que les variables explicatives
slectionnes (la taille et l'ge) apportent une quantit d'information significative au modle
(hypothse nulle H0) ou non. En d'autres termes, c'est un moyen de tester si la moyenne de la
variable modliser (le poids) suffirait dcrire les rsultats obtenus ou non.

Le test du F de Fisher est utilis. tant donn que la probabilit associe au F est dans ce cas
infrieure 0.0001, cela signifie que l'on prend un risque de se tromper de moins de 0.01% en
concluant que les variables explicatives apportent une quantit d'information significative au
modle.

Le tableau suivant fournit les dtails sur le modle et est essentiel ds lors que le modle doit
tre utilis pour faire des prvisions, des simulations ou s'il doit tre compar d'autres
rsultats, par exemple les coefficients que l'on obtiendrait pour les garons. Nous voyons que
la p-value associ au test de Student pour l'ge est d'environ 0.01, et que l'intervalle de
confiance 95% associ frle la valeur 0. Cela confirme le faible impact de l'ge sur le
modle. L'quation du modle est donne sous le tableau. Le modle indique que dans les
limites de l'intervalle de variation de la variable taille et de la variable ge donnes par les
observations, chaque fois que la taille augmente d'un inch, le poids augmente de 3.6 livres,
et chaque fois que l'ge augmente d'un mois, le poids augmente de 0.2 livres.
Le tableau suivant prsente l'analyse des rsidus. Une attention particulire doit tre porte
aux rsidus centrs rduits, qui, tant donnes les hypothses lies la rgression linaire,
doivent tre distribus suivant une loi normale N(0,1). Cela signifie, entre autres, que 95% des
rsidus doivent se trouver dans l'intervalle [-1.96, 1.96]. Etant donn le faible nombre de
donnes dont on dispose ici, toute valeur en dehors de cet intervalle est rvlatrice d'une
donne suspecte. Afin de mettre en vidence rapidement les valeurs se trouvant hors de
l'intervalle [-1.96, 1.96], nous avons utilis l'outil DataFlagger de XLSTAT. Nous pouvons ici
identifier huit observations suspectes sur 111 observations, soit 7% au lieu de 5%, ce qui ne
semble pas aberrant, mais qui pourrait ncessiter une analyse plus pousse.

Le premier graphique permet de visualiser les rsidus centrs rduits en fonction du Poids. Il
semble indiquer que les rsidus croissent en fonction du poids. L'histogramme des rsidus
centrs rduits permet de reprer rapidement et visuellement la prsence de valeurs hors de
l'intervalle [-2, 2].

En conclusion, la taille et l'ge permettent d'expliquer 59% de la variabilit du poids.


Nanmoins l'ge n'a pas permis d'amliorer sensiblement le rsultat obtenu avec la seule
variable taille. D'autres variables doivent donc tre prises en compte dans le modle pour
expliquer les variations du poids. Dans le tutoriel sur l' ANCOVA, le sexe est ajout comme
variable qualitative explicative.

Cliquez ici pour accder d'autres tutoriels.

Comment faire une Rgression non linaire avec XLSTAT ?


demoNLINf.xls

Une feuille Excel contenant les donnes et les rsultats de cet exemple peut tre tlcharge
en cliquant ici. Les donnes proviennent de [Ratkowsky D.A. (1983). Nonlinear Regression
Modeling. Marcel Dekker New York].

En utilisant la rgression non linaire, notre but est d'tudier comment le Poids sec des
oignons varie en fonction du Temps. S'il parat intuitivement normal d'utiliser une rgression
logistique trois paramtres, le modle propos par Ratkowsky est plus complexe.

Rgression logistique 2 paramtres

Rgression logistique 3 paramtres

Modle de Ratkowsky 4 paramtres

Afin de dmontrer l'tendue des possibilits de XLSTAT, et bien que le modle logistique
trois paramtres soit directement disponible sous XLSTAT, nous allons montrer dans cet
exemple comment l'utilisateur peut lui-mme crer et ajouter sa fonction la liste des
fonctions disponibles.

Dans un premier temps, comme la rgression non linaire de XLSTAT ne propose pas parmi
les fonctions prprogrammes le modle de Ratkowsky, et comme sa structure est complexe,
nous devons calculer les drives de la fonction par rapport chacun des 4 paramtres. Dans
le tableau ci-dessous sont donnes les quatre drives, et leur transcription avec les
conventions imposes par XLSTAT (syntaxe Excel, avec "pri" pour le paramtre i et "Xj"
pour la variable j). Remarque : si une drive commence par un "-", il faut la faire prcder
d'une cote ' pour viter qu'Excel ne dtecte une erreur.

Ecriture mathmatique

Syntaxe XLSTAT
(pr3/pr4)*exp(-pr1-pr2*X1)/(1+exp(-pr1-pr2*X1))^(1+1/pr4)

Ecriture mathmatique

Syntaxe XLSTAT
(pr3*X1/pr4)*exp(-pr1-pr2*X1)/(1+exp(-pr1-pr2*X1))^(1+1/pr4)

Ecriture mathmatique

Syntaxe XLSTAT
1/(1+exp(-pr1-pr2*X1))^(1/pr4)

Ecriture mathmatique

Syntaxe XLSTAT
(pr1/pr4^2)*ln(1+exp(-pr1-pr2*X1))/(1+exp(-pr1-pr2*X1))^(1/pr4)

Enfin, lorsque les fonctions ont une structure complexe, il est conseill d'indiquer XLSTAT
un point de dpart. Dans notre cas, il semble que [0, 0, 725, 1] soit raisonnable. 725
correspond au maximum de la variable dpendante. Le point de dpart et les drives doivent
tre saisis en colonne sur une feuille Excel. On peut ensuite dmarrer l'analyse.

Une fois XLSTAT lanc, choisissez la commande XLSTAT/Modlisation/Rgression non


linaire ou cliquez sur le bouton "Rgression non linaire" de la barre d'outils "Modlisation".
Une fois le bouton cliqu, la bote de dialogue correspondant la rgression non linaire
apparat. Vous pouvez alors slectionner les donnes sur la feuille Excel. La "Variable
dpendante" correspond la variable rponse (ou variable modliser), qui est dans ce cas
prcis le Poids. La variable quantitative explicative est ici le temps. On veut ici expliquer la
variabilit du Poids par celle du Temps. L'option "Libells des variables" est laisse active
car la premire ligne des colonnes comprend le nom des variables.

Dans l'onglet "Options" les donnes correspondant aux valeurs de dpart des quatre
paramtres du modle sont slectionnes. NB : un libell ne doit pas tre slectionn ici.
Dans l'onglet "Fonctions", comme la fonction de Ratkowsky n'existe pas dans la liste des
fonctions prprogrammes (en revanche, la logistique 3 paramtres s'y trouve), nous devons
d'abord entrer la fonction de Ratkowsky, en cliquant sur "Ajouter". On peut alors saisir la
fonction dans la case "Fonction : Y =". Il y a autant de drives que de paramtres, qu'il faut
avoir pralablement entr dans des cellules d'une feuille du classeur, les unes en-dessous des
autres. Pour les slectionner, il faut cliquer sur la case cocher "Drives", puis slectionner
sur la feuille Excel les quatre drives. Afin d'ajouter cette fonction la librairie des fonctions
dfinies par l'utilisateur, et de pouvoir la rutiliser plus tard, nous cliquons sur "Enregistrer".
Elle est alors ajoute et automatiquement slectionne.

Une fois que vous avez cliqu sur le bouton "OK", les calculs commencent puis les rsultats
sont affichs. Le premier tableau de rsultats fournit des statistiques simples sur les donnes
slectionnes. Le second tableau (ci-dessous) donne les coefficients d'ajustement du modle
parmi lesquels le R (coefficient de dtermination) qui donne une ide du % de variabilit de
la variable dpendante, expliqu par la variable explicative. Plus ce coefficient est proche de
1, meilleur est le modle. La somme des carrs des rsidus (SCE) est le critre utilis par
XLSTAT pour ajuster le modle.

Dans notre cas, 99% de la variabilit du Poids est explique par le Temps, ce qui constitue un
excellent rsultat.

Le tableau suivant fournit les dtails sur les paramtres du modle aprs ajustement. Nous
voyons que le paramtre pr3, dont la valeur de dpart tait 725 vaut 699.64 aprs ajustement.
L'cart-type donne une ide de la fiabilit du rsultat obtenu. Le paramtre pr4 tant proche de
1, on peut imaginer que le modle logistique 3 paramtres donnerait un aussi bon rsultat,
hypothse que vous pourrez facilement vrifier en utilisant la fonction prprogramme de
XLSTAT.

L'quation du modle ajuste est fourni. La synthaxe est compatible avec Excel afin de rendre
sa rutilisation aise.

Le tableau suivant (voir feuille Excel) prsente l'analyse des rsidus. On remarque que les
observations pour lesquelles le modle est le moins bien ajust sont les observations 11 et 14.
Le premier graphique (voir ci-dessous) permet de visualiser les donnes et la courbe du
module ajust. Les autres graphiques permettent d'analyser les rsidus, et sont
particulirement utiles lorsque le nombre de donnes est important.

En conclusion, dans le cadre de cette tude et du modle choisi, le temps de culture de


l'oignon, permet de modliser trs efficacement son Poids sec.

Cliquez ici pour accder d'autres tutoriels.

Comment effectuer une rgression non linaire multiple avec XLSTAT ?


demoNLIN2.xls

Une feuille Excel contenant les donnes et les rsultats de cet exemple peut tre tlcharge
en cliquant ici. Le but de l'tude est d'tudier l'effet de la concentration de deux composants
sur la viscosit d'un yaourt. Le modle que nous voulons ajusts est dfini par :

F(C1, C2) = pr5 / (1+Exp(-pr1-pr2*C1-pr3*C2-pr4*C1*C2))

pr1, ..., pr5 sont les paramtres du modle. Ce modle dont la forme est sigmode (comme la
fonction logistique) permet de prendre en compte la fois la concentration des composants et
leur interaction.

Une fois XLSTAT lanc, choisissez la commande XLSTAT/Modlisation/Rgression non


linaire ou cliquez sur le bouton "Rgression non linaire" de la barre d'outils "Modlisation".
Once you've clicked on the button, the nonlinear regression dialog box appears. Select the
data on the Excel sheet. The "Dependent variable" (or response variable) is in our case the
"Viscosity". The quantitative explanatory variables are the concentration of the two
components C1 and C2. As we selected the column headers, we left the option "Variable
labels" option activated. We left the "Residuals" option activated as well, because we want to
analyze the predictions and the residuals.

In the "Options" tab we selected the values of the initial values of the five parameters.
In the "Functions" tab, the various functions are displayed. As the function we want to use is
not listed in the "Preprogrammed functions" (you can notice the univariate version of the
function in the list), we needed to enter the model: we first clicked on "Add", then entered the
function, then checked "Derivatives", then selected them on the Excel sheet. In order to add
this function to the user functions library, we clicked on "Save". The function is then
automatically added and selected.

The computations begin once you have clicked on the "OK" button. The results will then be
displayed. The first table gives the basic statistics of the selected variables.

The second table (see below) displays the goodness of fit coefficients, including the R
(coefficient of determination), and the SSE (sum of square of errors), the later being the
criterion used for the model optimization. The R corresponds to the % of the variability of
the dependant variable (the dry weight) that is explained by the explanatory variable (the
time). The closer to 1 the R is, the better the fit.

In our case, 99% of the variability is explained by the two variables and their interaction,
which is an excellent result that confirms that the selected model is appropriate.

The next table shows the results for the model parameters. As we can see, the ratios
(parameter)/(std deviation) are larger for pr5 and pr4. As the same ratio is the largest for pr5
we deduce that the interaction between the two components has a greater effect on the
viscosity than the concentrations themselves.

The following chart allows to visualize the quality of the fit by comparing the predicted
values to the observed values.
Cliquez ici pour accder d'autres tutoriels.

Você também pode gostar