Escolar Documentos
Profissional Documentos
Cultura Documentos
Cours de Statistiques
pour la description de données
Romain Raveaux1
1 Laboratoire L3I – Université de La Rochelle
romain.raveaux01 at univ-lr.fr
1 / 54
Quelques Rappels
Relations entre deux séries de données
Etude descriptive du tableau de contingence
Analyse Factorielle des Correspondances
Content
1 Quelques Rappels
2 Relations entre deux séries de données
Relations entre deux séries de données numériques
Relations entre deux variables ordinales
3 Etude descriptive du tableau de contingence
Tableau de contingence
Notations
Tableau des fréquences
Taux de liaison et Contribution au χ2
4 Analyse Factorielle des Correspondances
Introduction
Décomposition en valeurs propres
Projection sur les axes factoriels
2 / 54
Quelques Rappels
Relations entre deux séries de données
Etude descriptive du tableau de contingence
Analyse Factorielle des Correspondances
Type de variable
Numérique
Soit l’étude de la variable X , une série de valeurs définies dans <.
Exemple: Age, poids,...
Nominale
Ne prend qu’un nombre limité de valeurs.
Et que ces valeurs n’ont entre elles aucune relation apparente.
Exemple : Le statut marital, qui pourrait prendre les valeurs ”Célibataire”,
”Marié”, ”Veuf”, ”Divorcé”, ”Union libre”.
Ordinale
Ne prend qu’un nombre limité de valeurs.
Et que ces valeurs n’ont entre elles aucune relation apparente.
Les grades dans l’armée: ”lieutenant”, ”capitaine”, ”commandant” etc...
Par nature, les rangs sont des variables ordinales.
Statistiques multi-dimensionnelles
Soit l’étude d’un ensemble fini de variables (Ω), Ω est
l’univers des statistiques.
Avec card(Ω) = M
Ω = X1 , X2 , ..., Xm
∀ Xi ∈ Ω, Xi est une série à valeurs individuelles.
4 / 54
Quelques Rappels
Relations entre deux séries de données
Etude descriptive du tableau de contingence
Analyse Factorielle des Correspondances
Estimateurs
5 / 54
Quelques Rappels
Relations entre deux séries de données
Etude descriptive du tableau de contingence
Analyse Factorielle des Correspondances
6 / 54
Quelques Rappels
Relations entre deux séries de données
Etude descriptive du tableau de contingence
Analyse Factorielle des Correspondances
7 / 54
Quelques Rappels
Relations entre deux séries de données
Etude descriptive du tableau de contingence
Analyse Factorielle des Correspondances
Plus la variance d’un échantillon est grande et plus les données sont
éparses. Cela peut dénoter une érreur dans le phénoméne mesuré.
8 / 54
Quelques Rappels
Relations entre deux séries de données Relations entre deux séries de données numériques
Etude descriptive du tableau de contingence Relations entre deux variables ordinales
Analyse Factorielle des Correspondances
Exemples :
Mesurer le poids ou la longueur d’un organe (variable
dépendante) à différentes dates successives choisies
arbitrairement (variable indépendante).
Mesurer le rendement d’une culture (variable dépendante) en
fonction de différentes doses d’engrais (variable
indépendante).
Mesurer la capacité à résoudre un problème ou à réaliser une
tâche (variable dépendante) en fonction de différentes doses
d’un médicament (variable indépendante).
9 / 54
Quelques Rappels
Relations entre deux séries de données Relations entre deux séries de données numériques
Etude descriptive du tableau de contingence Relations entre deux variables ordinales
Analyse Factorielle des Correspondances
10 / 54
Quelques Rappels
Relations entre deux séries de données Relations entre deux séries de données numériques
Etude descriptive du tableau de contingence Relations entre deux variables ordinales
Analyse Factorielle des Correspondances
Covariance
N
X
θxy = cov (X , Y ) = (xi − X )(yi − Y )
i=1
Intuitivement, la covariance est une mesure de la variation
simultanée de deux variables aléatoires.
C’est-à-dire que la covariance devient plus positive pour
chaque couple de valeurs qui diffèrent de leur moyenne dans le
même sens, et plus négative pour chaque couple de valeurs
qui diffèrent de leur moyenne dans le sens opposé.
11 / 54
Quelques Rappels
Relations entre deux séries de données Relations entre deux séries de données numériques
Etude descriptive du tableau de contingence Relations entre deux variables ordinales
Analyse Factorielle des Correspondances
12 / 54
Quelques Rappels
Relations entre deux séries de données Relations entre deux séries de données numériques
Etude descriptive du tableau de contingence Relations entre deux variables ordinales
Analyse Factorielle des Correspondances
Corrélation de Kendall
et,
k(k − 1)
D= (2)
2
13 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Tableau de contingence
Prenons le temps de faire un petit sondage anonyme au sein de la
classe :
Université IUT/BTS Autre Total
L ? ? ? ..
ES ? ? ? ..
S ? ? ? ..
ST ? ? ? ..
Total .. .. .. N
Pour être appelé tableau de contingence, il faut pour cela que les
nombres dans les cellules soient le résultat d’un décompte, de
façon à ce que additionner les contenus des cellules d’une ligne ou
d’une colonne ait un sens.
Question
Quelle matrice aurait-on si la répartition dans les filières post-Bac
ne dépendait pas du type de Bac ?
14 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Notion d’indépendance
15 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Notion d’indépendance
16 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Tableau de contingence
P1 P2 P3 P4 P5
R1 28 14 45 33 12
R2 36 21 25 64 23
R3 21 64 38 11 7
R4 79 42 67 9 41
Pour être appelé tableau de contingence, il faut pour cela que les
nombres dans les cellules soient le résultat d’un décompte, de
façon à ce que additionner les contenus des cellules d’une ligne ou
d’une colonne ait un sens.
17 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Tableau de contingence
Une entreprise vend 5 produits dans 4 régions. A la fin de chaque
exercice, ses ventes, exprimées par exemple en milliers d’unités,
peuvent se résumer dans un tableau comme celui-ci :
P1 P2 P3 P4 P5
R1 28 14 45 33 12
R2 36 21 25 64 23
R3 21 64 38 11 7
R4 79 42 67 9 41
Notations
19 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
20 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
21 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
22 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
23 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Taux de liaison
24 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
25 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Variables indépendantes
P1 P2 P3 P4 P5
R1 28 14 45 33 12
R2 36 21 25 64 23
R3 21 64 38 11 7
R4 79 42 67 9 41
26 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Variables indépendantes
P1 P2 P3 P4 P5
R1 28 14 45 33 12
R2 36 21 25 64 23
R3 21 64 38 11 7
R4 79 42 67 9 41
27 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Variables indépendantes
P1 P2 P3 P4 P5
R1 28 14 45 33 12
R2 36 21 25 64 23
R3 21 64 38 11 7
R4 79 42 67 9 41
Test du χ2
29 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Test du χ2
30 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Contribution au χ2
31 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Contribution au χ2
32 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Contribution au χ2
33 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Contribution au χ2
X \Y d1 ... dk ... ds total
c1 n11 ... n1k ... n1s n1•
... ... ... ... ...
ch nh1 ... nhk ... nhs nh•
... ... ... ... ...
cr nr 1 ... nrk ... nrs nr •
total n•1 ... n•k ... n•s n
Contribution au χ2
35 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Contribution au χ2
36 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Contribution au χ2
37 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Contribution au χ2
38 / 54
Quelques Rappels Tableau de contingence
Relations entre deux séries de données Notations
Etude descriptive du tableau de contingence Tableau des fréquences
Analyse Factorielle des Correspondances Taux de liaison et Contribution au χ2
Contribution au χ2
39 / 54
Quelques Rappels
Introduction
Relations entre deux séries de données
Décomposition en valeurs propres
Etude descriptive du tableau de contingence
Projection sur les axes factoriels
Analyse Factorielle des Correspondances
40 / 54
Quelques Rappels
Introduction
Relations entre deux séries de données
Décomposition en valeurs propres
Etude descriptive du tableau de contingence
Projection sur les axes factoriels
Analyse Factorielle des Correspondances
Introduction
Pourquoi ”Factorielle” :
Décomposition du tableau de contingence en une somme de
tableaux qui sont le produit de facteurs simples.
41 / 54
Quelques Rappels
Introduction
Relations entre deux séries de données
Décomposition en valeurs propres
Etude descriptive du tableau de contingence
Projection sur les axes factoriels
Analyse Factorielle des Correspondances
Introduction
42 / 54
Quelques Rappels
Introduction
Relations entre deux séries de données
Décomposition en valeurs propres
Etude descriptive du tableau de contingence
Projection sur les axes factoriels
Analyse Factorielle des Correspondances
Introduction
Méthodologie
Matrice des fréquences (r lignes, s colonnes) et
nij
r <= s.fij =
n••
fij − fi• .f•j
Matrice de liaison. Mij = p
fi• .f•j
V = M’M (matrice basse) ou MM’ (matrice haute) et X’ est
la transposée de la matrice X.
Soit D, la diagonalisation de la matrice V. Recherche des
valeur propres de V. Det(V − λI ) = 0
Projection de M par D. Produit matricielle : AFC = M’D
43 / 54
Quelques Rappels
Introduction
Relations entre deux séries de données
Décomposition en valeurs propres
Etude descriptive du tableau de contingence
Projection sur les axes factoriels
Analyse Factorielle des Correspondances
Tableau de contingence
P1 P2 P3 P4 P5
R1 28 14 45 33 12
R2 36 21 25 64 23
R3 21 64 38 11 7
R4 79 42 67 9 41
44 / 54
Quelques Rappels
Introduction
Relations entre deux séries de données
Décomposition en valeurs propres
Etude descriptive du tableau de contingence
Projection sur les axes factoriels
Analyse Factorielle des Correspondances
P1 P2 P3 P4 P5
R1 0.041176471 0.020588235 0.066176471 0.048529412 0.017647059
R2 0.052941176 0.030882353 0.036764706 0.094117647 0.033823529
R3 0.030882353 0.094117647 0.055882353 0.016176471 0.010294118
R4 0.116176471 0.061764706 0.098529412 0.013235294 0.060294118
45 / 54
Quelques Rappels
Introduction
Relations entre deux séries de données
Décomposition en valeurs propres
Etude descriptive du tableau de contingence
Projection sur les axes factoriels
Analyse Factorielle des Correspondances
V = M’M
R1 R2 R3 R4
R1 0.261941351 0.203307819 0.252463142 0.182346888
R2 0.203307819 0.287629263 0.23523261 0.140405753
R3 0.252463142 0.23523261 0.275094933 0.183209496
R4 0.182346888 0.140405753 0.183209496 0.287907509
46 / 54
Quelques Rappels
Introduction
Relations entre deux séries de données
Décomposition en valeurs propres
Etude descriptive du tableau de contingence
Projection sur les axes factoriels
Analyse Factorielle des Correspondances
47 / 54
Quelques Rappels
Introduction
Relations entre deux séries de données
Décomposition en valeurs propres
Etude descriptive du tableau de contingence
Projection sur les axes factoriels
Analyse Factorielle des Correspondances
48 / 54
Quelques Rappels
Introduction
Relations entre deux séries de données
Décomposition en valeurs propres
Etude descriptive du tableau de contingence
Projection sur les axes factoriels
Analyse Factorielle des Correspondances
Produit matriciel : M 0 .D
0 .λ1) + (M 0 ∗ 0) + ... + (M 0 ∗ 0))
P1axe1 = (M11 21 41
0 ∗ 0) + (M 0 ∗ λ2) + ... + (M 0 ∗ 0))
P1axe2 = (M11 21 41
....
0 ∗ 0) + (M 0 ∗ 0) + ... + (M 0 ∗ λ4))
P1axe4 = (M11 21 41
La première analyse est alors terminée. Nous l’avons dit plus haut
nous nous trouvons dans un cas de relations duales, il est inutile de
faire la seconde analyse, les coordonnées des 4 points ”régions” se
déduisent immédiatement de celles des cinqs points ”produits”
49 / 54
Quelques Rappels
Introduction
Relations entre deux séries de données
Décomposition en valeurs propres
Etude descriptive du tableau de contingence
Projection sur les axes factoriels
Analyse Factorielle des Correspondances
50 / 54
Quelques Rappels
Introduction
Relations entre deux séries de données
Décomposition en valeurs propres
Etude descriptive du tableau de contingence
Projection sur les axes factoriels
Analyse Factorielle des Correspondances
Conclusion
53 / 54
Quelques Rappels
Introduction
Relations entre deux séries de données
Décomposition en valeurs propres
Etude descriptive du tableau de contingence
Projection sur les axes factoriels
Analyse Factorielle des Correspondances
Références (liens)
54 / 54