Você está na página 1de 39

LANALYSE DES DONNEES

Samuel MAYOL
S. Mayol - Lanalyse des donnes

UTILISATIONS
La statistique est lensemble des mthodes scientifiques partir desquelles sont recueillies, prsentes, rsumes et analyses les donnes. Deux niveaux: Stat. Descriptive sert dcrire des ensembles nombreux et dgager lessentiel de linformation qui en rsulte. Stat. Thorique permet dnoncer et dlaborer des lois.
S. Mayol - Lanalyse des donnes

I - TABLEAUX STATISTIQUES
1) CAS D'UNE SEULE VARIABLE Le tableau brut se prsente sous la forme suivante: Le nombre d'individus observ tant en gnral important, le tableau prcdent ne permet pas d'analyser l'information obtenue. Il est donc ncessaire de crer un tableau plus synthtique o les observations identiques (possdant la mme modalit) ont t regroupes.
S. Mayol - Lanalyse des donnes

Pour une variable qualitative, les modalits sont susceptibles dtre classes en groupes dindividus. Pour une variable quantitative, les modalits ne sont pas classes Exemple: le sexe est une variable qualitative alors que lge ne lest pas. Nanmoins toutes les variables peuvent tre transformes en variable qualitative, par regroupement. Ainsi, le variable ge peut permettre une classification des individus en classes dge.

S. Mayol - Lanalyse des donnes

2) CAS DE DEUX VARIABLES

Le tableau brut se prsente sous la forme suivante

On dsire crer un tableau appel tableau de contingence donnant le nombre d'individus possdant simultanment la modalit i de variable1 et la modalit j de variable2 qui se prsentera sous la forme suivante:

II - TENDANCE CENTRALE
1) MODE C'est la valeur observe d'effectif maximum. Variable discrte: classer les donnes par ordre croissant. Celle d'effectif maximum donne le mode. Il est fortement conseill d'utiliser le diagramme en btons pour dterminer le mode. En effet, deux valeurs conscutives xi , xi+1 peuvent avoir le mme effectif maximum; on parlera d'intervalle modal [xi , xi+1]. Il peut aussi y avoir un mlange de deux populations qui conduit un diagramme en btons o apparaissent deux bosses; on considrera deux modes. Il est dconseill, sauf raison explicite, d'envisager plus de deux modes. Variable classe: la classe modale correspond la classe ayant l'effectif maximum. Il est fortement conseill d'utiliser l'histogramme pour dterminer le mode. Comme pour le cas discret, on peut avoir deux classes modales. Toutes les valeurs de la classe pouvant priori se raliser, on ne se contentera pas de dterminer la classe modale. Une des valeurs de cette classe sera le mode. Certains auteurs prconisent par simplicit de prendre le centre de la classe modale. Il est prfrable cependant de tenir compte des classes adjacentes de la manire suivante:

S. Mayol - Lanalyse des donnes

2) MEDIANE Les valeurs tant ranges par ordre croissant, c'est la valeur de la variable qui spare les observations en deux groupes d'effectifs gaux. Variable discrte: la dtermination peut s'obtenir partir du tableau statistique en recherchant la valeur de la variable correspondant une fonction cumule gale n/2 (effectif cumul) ou 12 (frquence cumule). Il est encore plus facile de lire sur les graphiques cumulatifs les abscisses des points d'ordonne n/2 (effectif cumul) ou 12 (frquence cumule). Si tout un intervalle a pour image n/2 ( 12 pour la frquence), on parlera d'intervalle mdian (on peut prendre le milieu de l'intervalle comme mdiane)

S. Mayol - Lanalyse des donnes

Variable classe: l'abscisse du point d'ordonne n/2 ( 12 pour la frquence)se situe en gnral l'intrieur d'une classe. Pour obtenir une valeur plus prcise de la mdiane, on procde une interpolation linaire. La valeur de la mdiane peut tre lue sur le graphique ou calcule analytiquement.

d'o la valeur de la mdiane.


De manire gnrale, si a et b sont les bornes de la classe contenant la mdiane, F(a) et F(b) les valeurs de la frquence cumule croissante en a et b, alors

S. Mayol - Lanalyse des donnes

3) MOYENNE ARITHMETIQUE Si xi sont les observations d'une variable discrte ou les centres de classe d'une variable classe,

La moyenne arithmtique est un paramtre de tendance centrale plus utilis que les autres de par ses proprits algbriques: a) Pour plusieurs populations d'effectifs n1, n2, ....., nk, de moyennes respectives moyenne globale = moyenne des moyennes

b) La moyenne arithmtique conserve les changements d'chelle et d'origine

S. Mayol - Lanalyse des donnes

4) QUANTILES

Ce sont des caractristiques de position. Il y a 1 mdiane M qui spare les observations en 2 groupes d'effectifs gaux 3 quartiles Q1, Q2, Q3 qui sparent les observations en 4 groupes d'effectifs gaux 9 dciles D1, D2, ..., D9 qui sparent les observations en 10 groupes d'effectifs gaux 99 centiles C1, C2, ..., C99 qui sparent les observations en 100 groupes d'effectifs gaux La dtermination de ces caractristiques est identique celle de la mdiane. Les quartiles sont obtenus lorsqu'on a cumul 25, 50, 75% de la population Les dciles sont obtenus lorsqu'on a cumul 10, 20,...., 90% de la population Les centiles sont obtenus lorsqu'on a cumul 1, 2,...., 99% de la population Remarque: la notion de dciles et de centiles n'a de sens que s'il y a beaucoup d'observations et donc essentiellement pour une variable classe.
S. Mayol - Lanalyse des donnes

III - DISPERSION
Comme leur nom l'indique, ces caractristiques essayent de synthtiser par une seule valeur numrique la dispersion de toutes les valeurs observes. 1) TENDUE C'est la diffrence entre la plus grande et la plus petite observation 2) INTERVALLE INTER-QUARTILE C'est la diffrence entre le troisime et le premier quartile

S. Mayol - Lanalyse des donnes

3) VARIANCE ET ECART-TYPE

Si xi sont les observations d'une variable discrte ou les centres de classe d'une variable classe, la variance

On utilise plus couramment l'cart-type qui est la racine carre de la variance et qui a l'avantage d'tre un nombre de mme dimension que les donnes (contrairement la variance qui en est le carr) La variance est un paramtre de dispersion plus utilis que les autres de par ses proprits algbriques:

S. Mayol - Lanalyse des donnes

S. Mayol - Lanalyse des donnes

4) COEFFICIENT DE VARIATION

C'est un coefficient qui permet de relativiser l'cart-type en fonction de la taille des valeurs. Il permet ainsi de comparer la dispersion de sries de mesures exprimes dans des units diffrentes

S. Mayol - Lanalyse des donnes

IV - LA CORRELATION
Lorsqu'on observe deux variables quantitatives sur les mmes individus, on peut s'intresser une liaison ventuelle entre ces deux variables. Le coefficient de corrlation r permet de mesurer un lien entre deux variables continues X et Y, sans que celui-ci ne soit forcment un lien de causalit. Il est calcul avec la formule.

XY = (var (X) var (Y)


O la variance de X, var (X), est gale la moyenne de X moins la moyenne de X au carr, et la covariance de X et Y, cov (X, Y) est gale la moyenne de XY moins le produit de la moyenne de X et de la moyenne de Y.
S. Mayol - Lanalyse des donnes

COV (X;Y)

Linterprtation de la valeur de r est la suivante r proche de 0 = pas de lien entre X et Y r proche de 1 = lien fort et dans le mme sens r proche de -1 = lien fort en sens contraire Exemple On mesure sur 7 enfants leur ge et le nombre dheures passes par jour devant la tlvision. Observe t-on un lien ?
X= AGE Y= TEMPS 5 2 6 2 7 2 13 4 15 3 18 3 10 2

S. Mayol - Lanalyse des donnes

Les calculs sont les suivants

X Y X2 Y2 XY

5 2 25 4 10

6 2 36 4 12 X Y X2 Y2 XY

7 2 49 4 14

13 15 18 10 4 3 3 2 169 225 324 100 16 9 9 4 52 45 54 20 10,57 2,57 132,57 7,14 29,57


S. Mayol - Lanalyse des donnes

Les moyennes sont

Do VAR (X) = 132,57-10,572 = 20,85 VAR (Y) = 7,14-2,572 = 0,54 COV (X,Y) = 29,57 - 10,57x2,57 = 2,4 r = 0,72 La corrlation est donc assez forte, et le temps pass devant la tlvision semble augmenter avec lge. Cependant, il faut savoir si ce rsultat est significatif, cest dire si ce coefficient de corrlation est significativement diffrent de 0. Le test z de Fisher permet de le savoir. Dans ce test, on cherche savoir si le coefficient de corrlation es t diffrent ou non dune certaine valeur r0 = 0 
S. Mayol - Lanalyse des donnes

Pour effectuer ce test, on calcule la quantit (Z-Z0)(n-3) o n est le nombre dindividus et 1+r0 1-r0 1+r et Z0 = 0,5Ln 1-r Si cette quantit est suprieure 2, les deux coefficients de corrlation r0 et r sont significativement diffrents lun de lautre.

Z0 = 0,5Ln

Ici Z = 1,8 Le coefficient de corrlation 0,72 nest donc pas significativement diffrent de 0, ce qui signifie que le lien entre lge et le temps pass devant la tlvision nest pas significatif sur cet chantillon. La raison cela est bien sr la taille beaucoup trop faible -de lchantillon S. Mayol Lanalyse des donnes

IV - LA REGRESSION
Faire une rgression linaire entre une variable expliquer et des Variables explicatives X1, X2, X3, , cest trouver la meilleure quation du type Y = a1X1+a2X2+a3X3++anXn+b Le t de Student permet de savoir si cette variable est significative. Elle lest lorsque la valeur absolue de t est suprieure 1,96.

S. Mayol - Lanalyse des donnes

VI - LE KHI DEUX
Le test du khi 2, not c 2 , permet de savoir si un lien observ entre deux variables est significatif. Pour utiliser ce test, les variables doivent tres qualitatives. Testons par exemple le lien entre le genre des consommateurs et la possession dun vtement de marque Dyna, spcialise dans le sport.
Possdent un Dyna Ne possdent pas de Dyna

Total

Hommes Femmes Total

10 20 30

40 30 70

50 50 100
S. Mayol - Lanalyse des donnes

Ce tableau indique, par exemple, que 20 femmes possdent un Dyna La proportion de femmes qui possdent un Dyna est donc de 40%. Chez les hommes, elle est de 20%. Les femmes semblent donc plus susceptibles dacheter cette marque. Toutefois cette diffrence observe entre hommes et femmes pourrait uniquement rsulter de fluctuations engendres par un chantillon trop petit. Il faut donc vrifier que cette diffrence nest pas due lchantillonnage. c 2=n

cases

case2 ligne X colonne

-1

S. Mayol - Lanalyse des donnes

O case = effectif de chacune des 4 cases du tableau ligne et colonne = ligne et colonne du tableau o se trouve cette case n = nombre total dindividus

2=100

402 50X70

302 50X70

102 50X30

202 50X30

-1

c 2 = 4,76

S. Mayol - Lanalyse des donnes

Le lien entre deux variables est statistiquement significatif quand Le c 2 calcul est suprieur au c 2 critique, qui dpend de la taille du tableau donn. Quand les deux variables ont chacune deux modalits, comme cest Le cas dans cet exemple, le degr de libert v est gal (nombre de lignes -1) X (nombre de colonnes -1) Ici (2-1)X(2-1) = 1 Avec un v=1, on obtient un c 2 critique = 3,84

c2 observ = 4,76 > c 2critique = 3,84


Le lien observ ici est donc significatif malgr la petite taille de lchantillon.

Le test du c 2 permet galement de vrifier sil y a accord entre des effectifs issus de la ralit et des effectifs supposs partir dune thorie. Dans ce cas on calcul les effectifs thorique de chaque phnomne observ. Le calcul du c 2 seffectue selon la formule c 2 cal =

(effectif thorique - effectif observ)2 Effectif thorique

Exemple : les donnes suivantes concernent la consommation dun jus de fruit auprs dun chantillon de 220 femmes.
S. Mayol - Lanalyse des donnes

0-1 enfant
regulirement
occasionnellement

2 enfants 30 50 40 120

+2 ans 8 45 10 63

Total 43 115 62 220

% 19,5 52,3 28,2 100

Oui , Oui, Non Total

5 20 12 37

0-1 enfant Oui , Oui, Non Total

2 enfants

+2 ans

Total

regulirement
occasionnellement

8* 19 19 37

23 63* 34 120

12 33 18* 63

43 115 62 220

* 37x19,5% = 8

* 120x52,3% = 63
* 63x28,2% = 18

S. Mayol - Lanalyse des donnes

(8-5)2 (23-30)2 (12-8)2 (19-20)2 (63-50)2 (33-45)2 + + + + + + c2= 23 12 19 63 33 8 (10-12)2 (34-40)2 (18-10)2 = 14,79 + + 10 34 18 Le nombre de degrs de liberts ici est gal 4. La lecture de la table du de Pearson indique que la probabilit dindpendance est infrieure 1%. Le nombre denfants explique bien la propension acheter des jus de fruits.

S. Mayol - Lanalyse des donnes

VII - LANALYSE EN COMPOSANTE PRINCIPALE (ACP)


Cette mthode ralise un exercice de smantique en identifiant Des groupes de variables associes des rponses similaires. Elle permet une radioscopie des donnes.

Elle nopre que sur des variables quantitatives (chelles ou numriques)

S. Mayol - Lanalyse des donnes

L'analyse en composantes principales est une technique de statistique descriptive qui calcule les axes principaux du nuage des observations regroupes selon les modalits de la variable valuer. Les cartes factorielles sont des reprsentations graphiques issues de cette analyse. Ce sont des graphiques en deux dimensions, chacune reprsentant un des axes. Les critres d'valuation et les modalits de la variable valuer sont positionnes sur ce graphique. L'interprtation de leur position relative donnera des indications sur les rapport qu'entretiennent les variables.

S. Mayol - Lanalyse des donnes

Le pourcentage de variance qui caractrise chacun des axes est indiqu au cot de chacun des axes. La fonction Choisir les axes permet de modifier les composantes de la carte. L'analyse en composantes principales suppose le calcul pralable des coefficients de corrlations entre deux couples de critres. On peut galement prsenter ces coefficients sous la forme de la Matrice des corrlations ou du Diagramme des corrlations (graphique dans lequel les variables corrles sont relies par un trait dont l'paisseur est fonction du coefficient de corrlation).

S. Mayol - Lanalyse des donnes

Analyse en composantes principales

Variables :VITESSE, CONFORT, SECURITE.


VITESSE Nb. cit. Frq.

SECURITE

Nb. cit.

Frq.

Non rponse 25 12,5% Pas du tout 7 3,5% Plutt non 17 8,5% Moyennement 61 30,5% Plutt oui 45 22,5% Tout fait 45 22,5% TOTAL OBS. 200 100% Moyenne = 3,59 Ecart-type = 1,09 CONFORT Nb. cit. Frq.

Non rponse 25 12,5% Pas du tout 4 2,0% Plutt non 14 7,0% Moyennement 69 34,5% Plutt oui 78 39,0% Tout fait 10 5,0% TOTAL OBS. 200 100% Moyenne = 3,43 Ecart-type = 0,81

Non rponse 25 12,5% Pas du tout 5 2,5% Plutt non 11 5,5% Moyennement 85 42,5% Plutt oui 69 34,5% Tout fait 5 2,5% TOTAL OBS. 200 100% Moyenne = 3,33 Ecart-type = 0,76

S. Mayol - Lanalyse des donnes

Analyse en composantes principales

Variables :VITESSE, CONFORT, SECURITE.


La carte montre les positions des 3 critres et les coordonnes des 175 observations. 25 observations ne sont pas prises en compte (non-rponse au moins un des critres).
VITESSE SECURITE

CONFORT

86.2% de la variance est explique par les deux axes reprsents. Chaque observation est reprsente par un point.

Analyse en composantes principales

Variables :VITESSE, CONFORT, SECURITE.


VITESS E CONFO RT SECURI TE

VITESSE CONFORT SECURITE

1,00 0,47 0,58

1,00 0,42

1,00

La carte montre les positions des 3 critres et les coordonnes des 175 observations.

25 observations ne sont pas prises en compte (non-rponse au moins un des critres).


86.2% de la variance est explique par les deux axes reprsents. Chaque observation est reprsente par un point.

Analyse en composantes principales

Variables :VITESSE, CONFORT, SECURITE.


Axe 1 (+66.0%) CONTRIBUTIONS POSITIVES VITESSE SECURITE Axe 2 (+20.2%) +36,0% CONFORT +34,0% SECURITE VITESSE -23,0% -7,0% +69,0%

CONTRIBUTIONS NEGAT IVES

La carte montre les positions des 3 critres et les coordonnes des 175 observations.

25 observations ne sont pas prises en compte (non-rponse au moins un des critres).


86.2% de la variance est explique par les deux axes reprsents. Chaque observation est reprsente par un point.

VII - LANALYSE FACTORIELLE DES CORRESPONDANCES (AFC)


Le rsultat de cette analyse est un graphique en deux dimensions, due l'on appelle la carte factorielle et qui donne les projections des modalits suivant les axes les plus reprsentatifs. Le pourcentage de la variance explique par chacun des axes est mentionne en regard de chacun des axes. La fonction permet de choisir les deux facteurs (composantes) qui seront utilises sur l'axe horizontal et l'axe vertical de la carte factorielle. Le pourcentage de variance explique qui caractrise chacun des axes factoriels est indiqu sous les axes.

Analyse des correspondances multiples


Non

Variables :FIDELITE, SEXE.


La carte montre les positions des 7 modalits et les coordonnes des 168 observations.

Pro bab lement pas

42.7% de la variance est explique par les deux axes reprsents.


Ne sait pas

Femme Homme

Les non-rponses ont t ignores.

Oui

32 observations ne sont pas reprsentes (non-rponse l'une au moins des questions).


Sans doute

Chaque observation est

reprsente par un point.

Analyse des correspondances multiples

Variables :FIDELITE, SEXE.

F1 F2 F3 F4 F5 S1 S2

F1 15 5 10

F2 52 27 25

F3 19 9 10

F4 17 8 9

F5 S1 S2 - 5 10 - 27 25 - 9 10 - 8 9 65 37 28 37 86 28 - 82

La carte montre les positions des 7 modalits et les coordonnes des 168 observations. 42.7% de la variance est explique par les deux axes reprsents..

Le tableau est le tableau des effectifs (tableau de Burt) pour les 7 modalits. Les non-rponses ont t ignores. F1 : Oui F2 : Sans doute F3 : Probablement pas F4 : Non F5 : Ne sait pas S1 : Homme S2 : Femme

Analyse des correspondances multiples

Variables :FIDELITE, SEXE.


Axe 1 (+22.7%) CONTRIBUTIONS Homme POSITIVES Ne sait pas Sans doute CONTRIBUTIONS Oui NEGATIVES Femme Probablement pas Axe 2 (+20.0%) +24.3% Non +14.7% Probablement pas +0.0% Ne sait pas -32.6% Sans doute -25.6% Oui -1.6% Homme +46.7% +6.9% +2.4% -40.1% -3.3% -0.3%

Le tableau donne, pour les 2 premiers axes factoriels, les contributions relatives (positives et ngatives) des modalits. Les non-rponses ont t ignores.

Você também pode gostar