Escolar Documentos
Profissional Documentos
Cultura Documentos
Loi de Bernouilli
Modle : urne avec des Boules Rouges (X = 1, en proportion v) et des Boules Blanches (X = 0, en proportion 1 - v) ; on tire une boule. Alors : pHX = 1L = v ; pHX = 0L = 1 - v
Loi de Poisson
La loi de Poisson est une limite de la loi binomiale quand n est grand, v est faible et n v = l fini (en pratique n > 50 et v < 0.1)
l pHK = kL = e-l k! k
Esprance mathmatique
Loi de Bernouilli : E HX L = v Loi binomiale : E HX L = n v Loi de Poisson : EH X L = l
Loi hypergomtrique : E HX L = n v
Thorme de Bayes
Soit un vnement B dont la ralisation dpend de l'une des causes Ai alors :
i i pH Ai B L = pH A L pHB A L k pH A L pH B A L k k
www.thierry-verdel.com
2. La Loi Normale
Distribution uniforme sur @a, bD
pHxL =
1 b-a
et P HxL =
x -a b-a
Relations fondamentales
E HX + Y L = E HX L + E HY L VarHX L = E HX 2 L - HE HX LL2 VarHa X + bL = a2 VarHX L E HX Y L = E HX L . E HY L + CovHX Y L VarHX + Y L = VarHX L + VarHY L + 2 CovHX Y L VarHX - Y L = VarHX L + VarHY L - 2 CovHX Y L Si X et Y sont indpendants alors : E HX Y L = E HX L.E HY L VarHX + Y L = VarHX L + VarHY L
; E HX L =
a 2
; VarHX L =
a2 12.
Variable de Bernouilli
P H0L = 1 - v ; P H1L = v ; E HX L = v ; VarHX L = v H1 - vL.
Variable de Poisson
pHkL = !-l
lk k!
; E HX L = l ; VarHX L = l
Loi normale X
pHX = xL =
1 s 2p
1 Hx-mL2 2 s2
E HX L = m et VarHX L = s2
pH T = t L =
1 2p
t2 2
E HT L = 0 et VarHT L = 1.
www.thierry-verdel.com
Ingalit de Bienaym-Tchebichef
Ingalit de Bienaym-Tchebichef
Soit X une variable alatoire de moyenne m et d'cart-type s, ceci prs quelconque alors : Prob 8 X - m > a< <
s2 a2
www.thierry-verdel.com
3. Le Contrle Statistique
Thierry Verdel, Ecole des Mines de Nancy, www.thierry-verdel.com
E H M L = m et VarH M L = s2 n Mn X s s n
Contrle statistique
Considrant l'exemple d'une machine qui fabrique des pices dont la taille suit une loi de probabilit de moyenne m0 et d'cart-type s et dont l'intervalle de tolrance est @a, bD centr sur m0 . Dans ce cas, comme le montre la figure ci-dessous : - a est le risque de procder un rglage alors que la machine n'est pas drgle. C'est aussi le risque du fournisseur (probabilit que le client lui refuse un bon lot). - b est le risque de ne pas rgler la machine alors que son drglage est inadmissible. C'est aussi le risque du client (probabilit d'accepter un mauvais lot). s !!! n s !!! n
a2 m1 a
b m0 b
a2 Mn
www.thierry-verdel.com
4. L'Estimation Statistique
Infrence statistique
C'est porter un jugement sur une population partir d'chantillons
Estimateur
Tn HX1 , X2 , ..., Xn L est un estimateur de q si : E HTn L q et VarHTn L 0 quand n . L'estimateur est dit sans biais quand VarHTn = 0L quelque soit n.
Ainsi si X1 , X2 , ... Xn sont des variables normales de mme moyenne et de mme variance s2 et si M est l'ala dfini comme la moyenne des Xi , alors la variable suivante :
ns Hn-1 L s i= 1 = = suit une loi du khi deux n - 1 degrs de libert ( c2 n- 1 ). s2 s2 s2 n 2 *2 HX i - M L2
Loi de Student
Soit U , U1 , U2 , ..., Un , n + 1 variables alatoires indpendantes normales centres et rduites.
U Alors la variable T @nD = = U suit une loi de Student n degrs de libert. 1 $%%%%%%%%%%%%%%%% %%%%%%%% %%%% n U2 n i=1 i 1 %%%%%% 2 $%%%%%%%% c n n
Ainsi si X1 , X2 , ... Xn sont des variables normales de mme moyenne m et de mme variance s2 et si M est l'ala M -m dfini comme la moyenne des Xi , alors la variable !!! suit une loi de Student n - 1 degrs de libert. s* n
Intervalle de confiance d'une moyenne si on connait l'cart-type de la population (n tant la taille de l'chantillon prlev)
M -m s s = N @0, 1D m - ua2 < m < m + ua 2 , ua2 lu dans la table de la loi normale centre rduite. !!! !!! !!! s n n n
Intervalle de confiance d'une moyenne si on ne connait pas l'cart-type de la population (n tant la taille de l'chantillon prlev)
s n * * n n
M -m s s = T @n - 1D m - ta2 < m < m + ta2 , ta2 lu dans la table de Student de degr Hn - 1L. !!! !!! !!! *
Intervalle de confiance de la variance d'une population (n tant la taille de l'chantillon prlev et s son cart-type)
nS nS nS 2 2 2 2 = c2 @n - 1D 2 < s < 2 , c1 et c2 lus dans la table du c Hn - 1L degrs de libert. s2 2 2 2 c2 c1
www.thierry-verdel.com
5. Comparaisons Statistiques
Test d'hypothse (Neyman et Pearson)
Etat ralis : H0 Jugement correct H0 Jugement port : H1 a = Prob 8H1 H0 < Jugement incorrect b = Prob 8H0 H1 < Jugement incorrect Jugement correct H1
a : erreur de premire espce (considrer dfavorable ce qui est favorable). b : erreur de deuxime espce (considrer favorable ce qui ne l'est pas). L'intervalle d'acceptation de l'hypothse H0 est l'intervalle tel que pour a donn, b soit minimal. b est aussi la puissance du test.
Comparaison de la moyenne d'une population normale (de variance connue) une valeur donne
l'intervalle @- ua2 , ua 2 D lu dans la table de la loi normale centre rduite pour un risque a donn. Si u @- ua2 , ua2 D, on peut rejeter l'hypothse au risque a.
n 0 = N @0, 1D . A partir d'un chantillon, on mesure la valeur de u = 0 H0 : m = m0 !!! et on la compare !!! M -m s s n m -m
2 2 l'intervalle @ c2 1 , c2 D obtenu dans la table de la loi du c Hn - 1L degrs de libert pour un risque a donn. Si n s2 2 2 @ c1 , c2 D, on peut rejeter l'hypothse au risque a s 2 0
Comparaison de la moyenne d'une population normale (de variance inconnue) une valeur donne
donn. Si t @- ta2 , ta2 D, on peut rejeter l'hypothse au risque a.
s n m-m s M -m n
t = 0 et on la compare l'intervalle @- ta2 , ta2 D lu dans la table de la loi de Student de degr Hn - 1L pour un risque a !!! *
0 H0 : m = m0 = T Hn - 1L loi de Student de degr Hn - 1L. A partir d'un chantillon, on mesure la valeur de !!! *
D Soit D = Y - X , H0 : E H DL = 0 = T Hn - 1L, loi de Student de degr Hn - 1L. A partir d'un chantillon, on !!!! !!!!! s n -1
d mesure la valeur de t = et on la compare l'intervalle @- ta 2 , ta 2 D lu dans la table de la loi de Student de degr !!!!!!!!!
partir de la table de loi de Sndcor pour un risque a donn. Si f @- f1 Ha2 L , f2 Ha 2L D on peut rejeter l'hypothse au risque a. Si f @- f1 Ha2 L , f2 Ha 2L D, on ne peut pas rejeter l'hypothse d'galit des variances et pour la suite, on retient une variance commune gale s*
2 1 1 2 2 = . n +n -2 1 2 n S 2 +n S 2
www.thierry-verdel.com
Comparaison sur chantillons des moyennes de 2 populations normales (le test d'galit des variances tant dj ralis)
1 1 s * $%%%%%%%%%%%%%%%% + % %%%%%% n1 n 2 m1 - m2 M -M
1 2 H0 : m1 = m2 = m = T Hn1 + n2 - 2L, loi de Student de degr Hn1 + n2 - 2L. A partir d'un chantillon,
on mesure la valeur de t = et on la compare l'intervalle @- ta 2 , ta 2 D lu dans la table de la loi de Student de degr Hn1 + n2 - 2L pour un risque a donn. Si t @- ta2 , ta2 D, on peut rejeter l'hypothse au risque a.
1 1 s* $%%%%%%%%%%%%%%%% + %% %%%% n1 n 2
www.thierry-verdel.com
6. Faits et modles
Estimation d'une proportion
n 1 Soit Fn = l'ala moyenne de n variables de Bernouilli. On peut crire : n v H1-vL E HFn L = v et s2 HFn L = n 0 n X +... + X
Il s'en suit que Fn est un estimateur sans biais de v. Par ailleurs, si n est assez grand, on peut approximer la loi de Fn par une loi normale et remplacer v par son estimation fn . Cela conduit l'intervalle de confiance d'une proportion v au risque a: fn H1fn L # fn H1fn L # ######## ######## f - u "######## < v < f + u "########
n a2 n n a 2 n
est approximativement une ralisation dune variable normale rduite, si lhypothse est vraie. Il suffit de placer la valeur obtenue dans l'intervalle correspondant au risque choisi.
Dans l'hypothse o les carts entre effectifs thoriques et effectifs observs ne sont dus qu'aux alas de l'chantillonnage (que les donnes sont effectivement issues de la loi teste), l'expression suivante est une ralisation d'une loi du c2 q degrs de libert avec q = nb de classes - 1 Hsi theo = obsL - p Hnb de paramtres estims dans la loi de raccordementL. On ne peut pas rejeter la lgitimit du raccordement test si la valeur numrique de l'expression prcdente se situe dans l'intervalle donn par la loi du c2 correspondante pour un risque a fix l'avance. Dans le cas contraire on rejetera le modle avec un risque de rejet tort infrieur ou gal a. En gnral on mettra tout le risque droite (on cherche rejeter des distances trop grandes), mais dans certains cas, une distance obtenue trop petite pourra faire douter de la lgalit des observations.
www.thierry-verdel.com
7. Rgression linaire
Droite de rgression
y = a x + b (observation de la vraie droite inconnue : y = a x + b) avec :
i i i= 1 a = ; L2 n Hx -x i=1 i n L H y - Hx - x yL @n L H y - Hx -x yLD2 I1- r2 M H yi - y L2
; b = y-ax
i i=1 i r 2 = ; n 2 n 2
Hx - xL i=1 H yi - yL i= 1 i
i=1 s*2 = n -2
Loi de A et B
s A-a A = N Aa, E = T @n - 2D utilis pour tester toute hypothse sur a ##### ##### "################ ######## "################ ######## n n i= 1 Hxi - xL2 s* i=1 Hxi -xL2 i=1 i 2
B- b x 1 B = N A b, s $%%%%%%%%%%%%%%%% J = T @n - 2D utilis pour tester toute hypothse sur b %%%%%%%% %%%%%%%% %N% E L n Hx 2 + -x n 2 i y j z x 1 j j z s * &'''''''''''''''''''''''''''''''' '''''''' + z j z L2 n n '''' H x x k i=1 i {
A partir desquels on pourra dterminer les intervalles de confiance par passage une loi de Student de degrs Hn - 2L.
A -A
B -B
Hn1 + n2 - 4L degrs de libert, ce qui permet de tester lgalit des ordonnes lorigine.
www.thierry-verdel.com
8. Exprimentation statistique
Analyse de la variance un facteur
Le modle de base de lanalyse de la variance scrit yi j = m + a j + i j . Il contient comme hypothses que : - les a j sont des quantits inconnues, mais certaines, qui mesurent linfluence du facteur A. - les i j reprsentent les fluctuations alatoires correspondant aux erreurs de mesure ou linfluence des facteurs non contls. On suppose quil ny a pas derreur systmatique, ou quelle est contenue dans m, donc que EHi j L = 0. Et qu'ils : - sont indpendants : sHi j , i' j' L = 0 pour Hi, j L Hi ', j 'L, - suivent des lois normales. On calcule alors :
j p j 2 2 2 SCT = p j =1 i=1 H yi j - yL = j =1 i=1 yi j - n y n n p 2 2 2 SCA = p j = 1 n j H y j - y L = j =1 n j y j - n y
- ont mme variance : s2 Hi j L = s2 , (hypothse la plus restrictive : erreurs non multiplicatives, voir test de Bartlett)
et par diffrence : SCR = SCT - SCA. On constitue ensuite le tableau suivant : Variation SC Degrs de libert Facteur Totale SCA SCT p-1 n- p n-1 Rsiduelle SCR
SCA H p -1 L SCR H n- pL
f calcul F Sndcor Fa
www.thierry-verdel.com
y11 r yi1r y1 j 1 yi j 1
Plan factoriel :
Bj
y1 j r
yi j k yi j r yp j r yi q 1 yi q r yp q 1 yp q r
Bq
y1 q 1 y1 q r
Modle additif (additivit des facteurs et des erreurs) : yi j k = m + a i + b j + i j k . Modle avec interaction (interaction des facteurs et additivit des erreurs) : yi j k = m + ai + b j + gi j + i j k 1 Appelons yi la moyenne dune colonne du tableau des mesures : yi = j k yi j k . qr
1 Appelons y j la moyenne dune ligne du tableau : y j = i k yi j k . pr
L'quation d'analyse de la variance s'crit : 2 2 yL2 = q r i H yi - yL2 + p r j H y j - yL2 + r i j @H yi i j k H yi j k - j - yL - H yi - yL - H y j - yLD + i j k H yi j k - yi j L Qu'on peut noter symboliquement : SCT = SCA + SCB + SCAB + SCR. On calcule SCA, SCB, SCAB et SCR par les formules suivantes : SCA = q r y 2 - p q r y2 , 2 2 SCB = p r j y j - pqr y ,
i i
2 2 SCAB = r i j yi j - p q r y - SCA - SCB, SCT = i j k yi j k 2 - p q r y2 . Puis SCR sobtient par diffrence : SCR = SCT - SCA - SCB - SCAB. On dresse enfin le tableau : SC DL SCA SCB p-1 q-1
SCA H p -1 L f A = SCR p q Hr-1 L SCAB H p -1 L Hq-1L f AB = SCR p q Hr-1L SCB Hq -1 L fB = SCR p q Hr-1L
f calcul
F Sndcor FA FB F AB
A partir duquel on peut faire les tests d'influence des facteurs et d'interaction entre facteurs.
www.thierry-verdel.com
B j y1 j yi j Bq y1 q yi q
soit, avec les notations habituelles : SCT = SCA + SCB + SCAB. Il est impossible de tester linteraction, puisquon ne dispose plus de SCR permettant, par division, dliminer s2 et d obtenir une loi de Snedecor. Il est donc ncessaire, dans ce cas de faire lhypothse (impossible vrifier) quil ny a pas d interaction. On doit donc adopter le modle additif : yi j = m + a i + b j + i j . Le test d'influence du facteur A (par exemple) est conduit partir du fait que, sous l'hypothse que A n'a pas d'influence : f A = suit une loi de Snedecor H p - 1L et H p - 1L Hq - 1L degrs de libert. SCAB
H p- 1L Hq- 1L SCA 1 L H p-
www.thierry-verdel.com