Você está na página 1de 8

L1 Psycho

Statistiques descriptives

STATISTIQUES DESCRIPTIVES
BIVARIES

Exercice 1. Un site internet reoit 113 457 visiteurs durant un mois. On dsigne par X le
navigateur internet utilis et Y le systme dexploitation utilis.
X\Y
Chrome
Firefox
Internet Explorer
Safari
Autres

Windows
14103
30853
47389
668
2974

Mac
1186
4392
23
6416
40

Linux
427
3234
0
0
1752

(a) Identifier la population, sa taille ainsi que les variables tudies en prcisant leur type.
(b) Quelle est la proportion de visiteurs sous Windows ?
(c) Quelle proportion de visiteurs utilisent le navigateur Safari ?
(d) Parmi les utilisateurs de Mac, quelle proportion utilise Chrome ?
(e) Parmi les utilisateurs de Safari, quelle proportion est sous Windows ?
( f ) Reprsenter graphiquement la distribution des proportions par Navigateur pour chaque
systme dexploitation. Les variables X et Y sont-elles indpendantes ?
Corrig de lexercice 1.
(a) Population : visiteurs du site internet tudi.
Individu : un visiteur du site internet.
Taille : 113 457.
Variables tudies : on tudie deux variables, savoir X et Y. La variable X est le navigateur utilis par le visiteur ; cest une variable qualitative nominale. La variable Y est le
systme dexploitation utilis par le visiteur ; cest une variable qualitatif nominale.
1

(b) On recherche la proportion marginale P(Y = Windows). Pour cela, on dtermine les eecteurs marginaux dans le tableau de contingence :
X\Y
Chrome
Firefox
Internet Explorer
Safari
Autres
TOTAL

Windows
14103
30853
47389
668
2974
95987

Mac
1186
4392
23
6416
40
12057

Linux
427
3234
0
0
1752
5413

TOTAL
15716
38479
47412
7084
4766
113457

Leectif marginal de la modalit Windows pour Y est donc 95 987. On a donc :


P(Y = Windows) =

95 987
= 84,60 %.
113 457

(c) Leectif marginal de la modalit Safari pour X est 7084 donc


P(X = Safari) =

7084
= 6,24 %.
113 457

(d) On est sous la condition Y = Mac donc on extrait du tableau de contingence la colonne
Mac et on calcule les proportions correspondantes :
X | Y = Mac
Chrome
Firefox
Internet Explorer
Safari
Autres
TOTAL

Eectif
1186
4392
23
6416
40
12057

Proportion (%)
9,84
36,43
0,19
53,21
0,33
100

On a donc :
P(X = Chrome | Y = Mac) = 9,84 %.
(e) On est sous la condition X = Safari, donc on extrait du tableau de contingence la ligne
correspondant Safari :
Y | X = Safari
Eectif
Proportion (%)

Windows
668
9,43

Mac
6416
90,57

Linux
0
0

TOTAL
7084
100

On a donc :
P(Y = Windows | X = Safari) = 9,43 %.
( f ) Puisque lon demande la rpartition des proportions, on met les proportions en ordonne.
Puisque lon demande la rpartition par Navigateur, on met la variable X en abscisse. Finalement, puisque lon demande la rpartition pour chaque systme dexploitation, on doit
2

dterminer les proportions conditionnelles de X sachant les modalits de Y, cest--dire


X | Y = Windows, X | Y = Mac et X | Y = Linux.
la question (d), on a dj dterminer X | Y = Mac donc il nous reste X | Y = Windows
et X | Y = Linux :
X | Y = Windows
Chrome
Firefox
Internet Explorer
Safari
Autres
TOTAL

Eectif
14103
30853
47389
668
2974
95987

Proportion (%)
14,69
32,14
49,37
0,7
3,1
100

X | Y = Linux
Chrome
Firefox
Internet Explorer
Safari
Autres
TOTAL

Eectif
427
3234
0
0
1752
5413

Proportion (%)
7,89
59,75
0
0
32,37
100,01

On est maintenant en mesure de tracer le diagramme en tuyaux dorgues :


Proportion (%)
Windows
Mac
Linux

60
50
40
30
20
10
Chrome

Firefox

IE

Safari

Autres

Navigateur

Pour chaque modalit de X, les tuyaux ne sont pas du tout de la mme hauteur ; cela
signifie que le systme dexploitation influe fortement sur le navigateur utilis. Autrement
dit, il ny a pas indpendance entre systme dexploitation et navigateur utilis.
Exercice 2. En 1885, Francis Galton publie un tableau de donnes comparant la taille Y des
enfants avec la taille X de leurs parents (la taille des parents est gale la moyenne de la taille
3

du pre et de la mre). Pour compenser les dirences de tailles entre sexes, toutes les tailles
des personnes de sexe fminin ont t multipli par 1,08. Les tailles sont exprimes en pouces
(1 pouce = 2,54 cm).
X \ Y ]60 ; 61,7] ]61,7 ; 63,7] ]63,7 ; 65,7] ]65,7 ; 67,7] ]67,7 ; 69,7] ]69,7 ; 71,7] ]71,7 ; 73,7] ]73,7 ; 75]
]62 ; 64]
1
2
5
4
2
0
0
0
]64 ; 66]
2
14
17
32
16
7
1
0
]66 ; 68]
0
14
36
108
93
34
4
0
]68 ; 70]
1
8
47
100
135
84
22
5
]70 ; 72]
1
1
2
11
38
35
18
5
]72 ; 74]
0
0
0
0
3
3
13
4

Les bornes des classes extrmes ont t fixes arbitrairement pour les besoins de lexercice.
(a) Prciser la population, les individus, la taille de la population ainsi que les variables
tudies.
(b) Quelle est la proportion denfants dont la taille est comprise entre 65,7 et 67,7 ?
(c) Parmi les enfants dont la taille est comprise entre 71,7 et 73,7, quelle proportion a des
parents dont la taille est entre 70 et 72 ?
(d) Quelle est la taille moyenne des enfants dont les parents ont une taille comprise entre 68
et 70 ? Convertir le rsultat en centimtres.
(e) Mme question pour la taille mdiane.
( f ) Mme question pour lcart-type.
Corrig de lexercice 2.
(a) Population : les enfants tudis par Galton (en notant qu chaque enfant, on associe ses
deux parents).
Individu : un enfant (et ses parents).
Taille de la population : 938 (cest la somme de tous les lments du tableau).
Variables tudies : la variable X taille de lenfant (quantitative continue) et la variable
Y taille des parents (quantitative continue).
(b) On cherche la proportion marginale P(65,7 X 67,7) :
P(65,7 X 67,7) =

4 + 32 + 108 + 100 + 11 255


=
= 27,19 %.
938
938

(c) On cherche la proportion conditionnelle P(X ]70 ; 72] | Y ]71,7 ; 73,7]). Pour la
calculer, on extrait la colonne Y ]71,7 ; 73,7] du tableau et on calcule les proportions :
X | Y ]71,7 ; 73,7]
]62 ; 64]
]64 ; 66]
]66 ; 68]
]68 ; 70]
]70 ; 72]
]72 ; 74]
TOTAL

Eectifs
0
1
4
22
18
13
58
4

Proportions (%)
0
1,72
6,9
37,93
31,03
22,41

On a donc
P(X ]70 ; 72] | Y ]71,7 ; 73,7]) = 31,03 %.
(d) On regarde la distribution conditionnelle de Y sachant que X ]68 ; 70]. On extrait donc
du tableau la ligne correspondante (on met les proportions cumules pour les questions
suivantes) :
Y | X ]68 ; 70] ]60 ; 61,7] ]61,7 ; 63,7] ]63,7 ; 65,7] ]65,7 ; 67,7] ]67,7 ; 69,7] ]69,7 ; 71,7] ]71,7 ; 73,7] ]73,7 ; 75] TOTAL
Eectifs
1
8
47
100
135
84
22
5
402
Proportions (%)
0,25
1,99
11,69
24,88
33,58
20,9
5,47
1,24
Prop. cumul. (%) 0,25
2,24
13,93
38,81
72,39
93,29
98,76
100
Centre
60,85
62,7
64,7
66,7
68,7
70,7
72,7
74,35

La moyenne est donc :

Y|X]68;70] =

1 60,85 + 8 62,7 + 47 64,7 + 100 66,7 + 135 68,7


+ 84 70,7 + 22 72,7 + 5 74,35
402

27 457,80
= 68,30.
=
402
Pour convertir en centimtres, on utilise la formule 1 pouce = 2,54 cm :
Y|X]68;70] = 68,30 2,54 = 173,48.
(e) La mdiane de Y | X ]68 ; 70] se calcule partir des proportions cumules donnes dans
le tableau prcdent. La classe correspondant la proportion cumule 50 % est ]a ; b] =
]67,7 ; 69,7] donc la mdiane est donne par la formule



50 P(X a)
mdiane = a + (b a)
P(X b) P(X a)


50 38,81
= 67,7 + (69,7 67,7)
72,39 38,81


11,19
= 67,7 + 2
33,58
= 67,7 + [2 0,3332]
= 67,7 + 0,67
= 68,37.
Pour convertir en centimtres, on utilise la formule 1 pouce = 2,54 cm :
mdiane = 68,37 2,54 = 173,66.
5

( f ) Calculons lcart-type :
v
u
u
u
u
t 1 60,852 + 8 62,72 + 47 64,72 + 100 66,72
+ 135 68,72 + 84 70,72 + 22 72,72 + 5 74,352
Y|X]68;70] =
2Y|X]68;70]
402
r
1 877 735,57
4664,89
=
402
p
= 4670,98 4664,89
p
= 6,09
= 2,47.
Pour convertir en centimtres, on utilise la formule 1 pouce = 2,54 cm :
Y|X]68;70] = 2,47 2,54 = 6,27.
Exercice 3. Les mesure du nombre X de jours de pluie et de la hauteur Y (en mm) de pluie
Paris tous les 5 ans entre 1960 et 1995 sont rcapitules dans le tableau suivant.
anne
X
Y

1960
198
739

1965
196
880

1970
199
631

1975
164
658

1980
170
690

1985
163
501

1990
149
501

1995
162
670

(a) Reprsenter graphiquement le nuage de points.


(b) Calculer le coecient de corrlation.
(c) Y a-t-il une relation de liaison entre les variables X et Y ?
Corrig de lexercice 3.
(a) Pour tracer un nuage de points, on place chaque donne individuelle sur un graphique avec
X en abscisse et Y en ordonne :
Y (hauteur de pluie)
900
800
700
600
500
400
100

X (jours de pluie)
150

200
6

(b) Pour calculer le coecient de corrlation, on doit calculer la covariance et les deux carttypes. Pour calculer la covariance, on a besoin des deux moyennes. Rappelons les direntes formules lorsquon dispose des donnes individuelles :
rP

P
X =

x(i)
,
N

X =

x(i)2
X ,
N

P
Cov(X, Y) =

x(i)y(i)
X Y
N

Moyenne de X. On a
x(i) 198 + 196 + 199 + 164 + 170 + 163 + 149 + 162 1401
=
=
N
8
8
= 175,125.
P

X =

Moyenne de Y. On a
y(i) 739 + 880 + 631 + 658 + 690 + 501 + 501 + 670 5270
=
=
N
8
8
= 658,750.
P

Y =

cart-type de X. On a
rP

x(i)2
2X
N
r
1982 + 1962 + 1992 + 1642 + 1702 + 1632 + 1492 + 1622
=
175,1252
8
r
248031
30 668,766
=
8
p
= 31 003,875 30 668,766
p
= 335,109
= 18,306.

X =

cart-type de Y. On a
rP

y(i)2
2Y
N
r
7392 + 8802 + 6312 + 6582 + 6902 + 5012 + 5012 + 6702
=
658,7502
8
r
3578648
=
433 951,562
8
p
= 447 331,000 433 951,562
p
= 13 379,438
= 115,670.

Y =

Covariance de X et Y. On a
P
x(i)y(i)
Cov(X, Y) =
X Y
N
198 739 + 196 880 + + 162 670
=
175,125 658,750
8
934435
=
115 363,594
8
= 116 804,375 115 363,594
= 1440,781.
Coefficient de corrlation de X et Y. On a
Cov(X, Y)
X Y
1440,781
=
18,306 115,670
1440,781
=
2117,455
= 0,680.

r(X, Y) =

(c) Le coecient de corrlation est proche de 0,7 donc on peut considrer que les variables
sont assez fortement lies. On peut reprsenter la droite de rgression qui illustre cette
dpendance :
Y (hauteur de pluie)
900
800
700
600
500
400
100

X (jours de pluie)
150

200

Le fait que les points sont relativement proches de la droite illustre la corrlation relativement forte.

Você também pode gostar