Escolar Documentos
Profissional Documentos
Cultura Documentos
Statistiques descriptives
STATISTIQUES DESCRIPTIVES
BIVARIES
Exercice 1. Un site internet reoit 113 457 visiteurs durant un mois. On dsigne par X le
navigateur internet utilis et Y le systme dexploitation utilis.
X\Y
Chrome
Firefox
Internet Explorer
Safari
Autres
Windows
14103
30853
47389
668
2974
Mac
1186
4392
23
6416
40
Linux
427
3234
0
0
1752
(a) Identifier la population, sa taille ainsi que les variables tudies en prcisant leur type.
(b) Quelle est la proportion de visiteurs sous Windows ?
(c) Quelle proportion de visiteurs utilisent le navigateur Safari ?
(d) Parmi les utilisateurs de Mac, quelle proportion utilise Chrome ?
(e) Parmi les utilisateurs de Safari, quelle proportion est sous Windows ?
( f ) Reprsenter graphiquement la distribution des proportions par Navigateur pour chaque
systme dexploitation. Les variables X et Y sont-elles indpendantes ?
Corrig de lexercice 1.
(a) Population : visiteurs du site internet tudi.
Individu : un visiteur du site internet.
Taille : 113 457.
Variables tudies : on tudie deux variables, savoir X et Y. La variable X est le navigateur utilis par le visiteur ; cest une variable qualitative nominale. La variable Y est le
systme dexploitation utilis par le visiteur ; cest une variable qualitatif nominale.
1
(b) On recherche la proportion marginale P(Y = Windows). Pour cela, on dtermine les eecteurs marginaux dans le tableau de contingence :
X\Y
Chrome
Firefox
Internet Explorer
Safari
Autres
TOTAL
Windows
14103
30853
47389
668
2974
95987
Mac
1186
4392
23
6416
40
12057
Linux
427
3234
0
0
1752
5413
TOTAL
15716
38479
47412
7084
4766
113457
95 987
= 84,60 %.
113 457
7084
= 6,24 %.
113 457
(d) On est sous la condition Y = Mac donc on extrait du tableau de contingence la colonne
Mac et on calcule les proportions correspondantes :
X | Y = Mac
Chrome
Firefox
Internet Explorer
Safari
Autres
TOTAL
Eectif
1186
4392
23
6416
40
12057
Proportion (%)
9,84
36,43
0,19
53,21
0,33
100
On a donc :
P(X = Chrome | Y = Mac) = 9,84 %.
(e) On est sous la condition X = Safari, donc on extrait du tableau de contingence la ligne
correspondant Safari :
Y | X = Safari
Eectif
Proportion (%)
Windows
668
9,43
Mac
6416
90,57
Linux
0
0
TOTAL
7084
100
On a donc :
P(Y = Windows | X = Safari) = 9,43 %.
( f ) Puisque lon demande la rpartition des proportions, on met les proportions en ordonne.
Puisque lon demande la rpartition par Navigateur, on met la variable X en abscisse. Finalement, puisque lon demande la rpartition pour chaque systme dexploitation, on doit
2
Eectif
14103
30853
47389
668
2974
95987
Proportion (%)
14,69
32,14
49,37
0,7
3,1
100
X | Y = Linux
Chrome
Firefox
Internet Explorer
Safari
Autres
TOTAL
Eectif
427
3234
0
0
1752
5413
Proportion (%)
7,89
59,75
0
0
32,37
100,01
60
50
40
30
20
10
Chrome
Firefox
IE
Safari
Autres
Navigateur
Pour chaque modalit de X, les tuyaux ne sont pas du tout de la mme hauteur ; cela
signifie que le systme dexploitation influe fortement sur le navigateur utilis. Autrement
dit, il ny a pas indpendance entre systme dexploitation et navigateur utilis.
Exercice 2. En 1885, Francis Galton publie un tableau de donnes comparant la taille Y des
enfants avec la taille X de leurs parents (la taille des parents est gale la moyenne de la taille
3
du pre et de la mre). Pour compenser les dirences de tailles entre sexes, toutes les tailles
des personnes de sexe fminin ont t multipli par 1,08. Les tailles sont exprimes en pouces
(1 pouce = 2,54 cm).
X \ Y ]60 ; 61,7] ]61,7 ; 63,7] ]63,7 ; 65,7] ]65,7 ; 67,7] ]67,7 ; 69,7] ]69,7 ; 71,7] ]71,7 ; 73,7] ]73,7 ; 75]
]62 ; 64]
1
2
5
4
2
0
0
0
]64 ; 66]
2
14
17
32
16
7
1
0
]66 ; 68]
0
14
36
108
93
34
4
0
]68 ; 70]
1
8
47
100
135
84
22
5
]70 ; 72]
1
1
2
11
38
35
18
5
]72 ; 74]
0
0
0
0
3
3
13
4
Les bornes des classes extrmes ont t fixes arbitrairement pour les besoins de lexercice.
(a) Prciser la population, les individus, la taille de la population ainsi que les variables
tudies.
(b) Quelle est la proportion denfants dont la taille est comprise entre 65,7 et 67,7 ?
(c) Parmi les enfants dont la taille est comprise entre 71,7 et 73,7, quelle proportion a des
parents dont la taille est entre 70 et 72 ?
(d) Quelle est la taille moyenne des enfants dont les parents ont une taille comprise entre 68
et 70 ? Convertir le rsultat en centimtres.
(e) Mme question pour la taille mdiane.
( f ) Mme question pour lcart-type.
Corrig de lexercice 2.
(a) Population : les enfants tudis par Galton (en notant qu chaque enfant, on associe ses
deux parents).
Individu : un enfant (et ses parents).
Taille de la population : 938 (cest la somme de tous les lments du tableau).
Variables tudies : la variable X taille de lenfant (quantitative continue) et la variable
Y taille des parents (quantitative continue).
(b) On cherche la proportion marginale P(65,7 X 67,7) :
P(65,7 X 67,7) =
(c) On cherche la proportion conditionnelle P(X ]70 ; 72] | Y ]71,7 ; 73,7]). Pour la
calculer, on extrait la colonne Y ]71,7 ; 73,7] du tableau et on calcule les proportions :
X | Y ]71,7 ; 73,7]
]62 ; 64]
]64 ; 66]
]66 ; 68]
]68 ; 70]
]70 ; 72]
]72 ; 74]
TOTAL
Eectifs
0
1
4
22
18
13
58
4
Proportions (%)
0
1,72
6,9
37,93
31,03
22,41
On a donc
P(X ]70 ; 72] | Y ]71,7 ; 73,7]) = 31,03 %.
(d) On regarde la distribution conditionnelle de Y sachant que X ]68 ; 70]. On extrait donc
du tableau la ligne correspondante (on met les proportions cumules pour les questions
suivantes) :
Y | X ]68 ; 70] ]60 ; 61,7] ]61,7 ; 63,7] ]63,7 ; 65,7] ]65,7 ; 67,7] ]67,7 ; 69,7] ]69,7 ; 71,7] ]71,7 ; 73,7] ]73,7 ; 75] TOTAL
Eectifs
1
8
47
100
135
84
22
5
402
Proportions (%)
0,25
1,99
11,69
24,88
33,58
20,9
5,47
1,24
Prop. cumul. (%) 0,25
2,24
13,93
38,81
72,39
93,29
98,76
100
Centre
60,85
62,7
64,7
66,7
68,7
70,7
72,7
74,35
Y|X]68;70] =
27 457,80
= 68,30.
=
402
Pour convertir en centimtres, on utilise la formule 1 pouce = 2,54 cm :
Y|X]68;70] = 68,30 2,54 = 173,48.
(e) La mdiane de Y | X ]68 ; 70] se calcule partir des proportions cumules donnes dans
le tableau prcdent. La classe correspondant la proportion cumule 50 % est ]a ; b] =
]67,7 ; 69,7] donc la mdiane est donne par la formule
50 P(X a)
mdiane = a + (b a)
P(X b) P(X a)
50 38,81
= 67,7 + (69,7 67,7)
72,39 38,81
11,19
= 67,7 + 2
33,58
= 67,7 + [2 0,3332]
= 67,7 + 0,67
= 68,37.
Pour convertir en centimtres, on utilise la formule 1 pouce = 2,54 cm :
mdiane = 68,37 2,54 = 173,66.
5
( f ) Calculons lcart-type :
v
u
u
u
u
t 1 60,852 + 8 62,72 + 47 64,72 + 100 66,72
+ 135 68,72 + 84 70,72 + 22 72,72 + 5 74,352
Y|X]68;70] =
2Y|X]68;70]
402
r
1 877 735,57
4664,89
=
402
p
= 4670,98 4664,89
p
= 6,09
= 2,47.
Pour convertir en centimtres, on utilise la formule 1 pouce = 2,54 cm :
Y|X]68;70] = 2,47 2,54 = 6,27.
Exercice 3. Les mesure du nombre X de jours de pluie et de la hauteur Y (en mm) de pluie
Paris tous les 5 ans entre 1960 et 1995 sont rcapitules dans le tableau suivant.
anne
X
Y
1960
198
739
1965
196
880
1970
199
631
1975
164
658
1980
170
690
1985
163
501
1990
149
501
1995
162
670
X (jours de pluie)
150
200
6
(b) Pour calculer le coecient de corrlation, on doit calculer la covariance et les deux carttypes. Pour calculer la covariance, on a besoin des deux moyennes. Rappelons les direntes formules lorsquon dispose des donnes individuelles :
rP
P
X =
x(i)
,
N
X =
x(i)2
X ,
N
P
Cov(X, Y) =
x(i)y(i)
X Y
N
Moyenne de X. On a
x(i) 198 + 196 + 199 + 164 + 170 + 163 + 149 + 162 1401
=
=
N
8
8
= 175,125.
P
X =
Moyenne de Y. On a
y(i) 739 + 880 + 631 + 658 + 690 + 501 + 501 + 670 5270
=
=
N
8
8
= 658,750.
P
Y =
cart-type de X. On a
rP
x(i)2
2X
N
r
1982 + 1962 + 1992 + 1642 + 1702 + 1632 + 1492 + 1622
=
175,1252
8
r
248031
30 668,766
=
8
p
= 31 003,875 30 668,766
p
= 335,109
= 18,306.
X =
cart-type de Y. On a
rP
y(i)2
2Y
N
r
7392 + 8802 + 6312 + 6582 + 6902 + 5012 + 5012 + 6702
=
658,7502
8
r
3578648
=
433 951,562
8
p
= 447 331,000 433 951,562
p
= 13 379,438
= 115,670.
Y =
Covariance de X et Y. On a
P
x(i)y(i)
Cov(X, Y) =
X Y
N
198 739 + 196 880 + + 162 670
=
175,125 658,750
8
934435
=
115 363,594
8
= 116 804,375 115 363,594
= 1440,781.
Coefficient de corrlation de X et Y. On a
Cov(X, Y)
X Y
1440,781
=
18,306 115,670
1440,781
=
2117,455
= 0,680.
r(X, Y) =
(c) Le coecient de corrlation est proche de 0,7 donc on peut considrer que les variables
sont assez fortement lies. On peut reprsenter la droite de rgression qui illustre cette
dpendance :
Y (hauteur de pluie)
900
800
700
600
500
400
100
X (jours de pluie)
150
200
Le fait que les points sont relativement proches de la droite illustre la corrlation relativement forte.