Você está na página 1de 5
2eazo1e verte vt En Californie un étude a éte méné dans le but d'améliorer les résultats académiques des lycéens. Les chercheurs ont essayé de trouver les facteurs qui ont une influence importante sur la performance scolaire des étudiants mésurée par les résultats d'un test standardisé. Plusieurs variables ont eté considérées comme : + le nombre d'étudiants par enseignant, + la dotation informatique du licée, + la composition linguistique des classes (hispanophones vs. anglophones), + le révénu familial Pour notre exemple nous nous limitons a une seule variable : le rapport entre nombre étudiants et la taille du corps enseignant. ‘On veut tester Faffirmation que /a qualité de I'encadrement, i.e. le nombre d'étudiants par prof, joue un role déterminant pour les résultats au test. Intuition Moins d’étudiants un lycée a par prof, mieux il se porte au test standardisé. ‘est RsersiatalinvDomrloadsiBivariate’20e_vt him 15 zeae variate vt Concretement, on s'intéresse aux deux caractéresiv.a. : + X :nombre d’étudiants per enseignant dans le lycée (de 14 jusqu’é 25) + ¥ :le score obtenu par le lycée dans un test standardisé (de 600 jusqu'a 710) Dans ce qui suit, on fait plus que considérer deux variables aléatoires séparées, On s'intéresse a leur interaction, a la dépendence qu'lly ait entre eux. In[ ]: data=read.table(' /home/starica/Datasets/california_highschools.csv', header=T, sep 1. Quels sont les caractéres de cette population ? Afficher l'information sur les 10 premiers individus de la population. 2. Construir en R les deux caractéresivariables d'intéret > + X (student to teacher ratio) - valeurs modelisées par la v.a. X + Y (test scores) - valeurs modelisées par la v.a. Y 3. Faire un graphique avec X in abscisse et Y en ordonnée. Qu'est-ce que vous voyez ? A Taide de la fonction abline ajouter les deux moyennes comme une ligne verticale (pour X) et respective horizontale (pour le Y). In[ ]: ETC. Xedata[,"enroll ETC. jata[,"test_ ETC. plot (x, Y) ETC. A. Premiére étape : Pour simplifier la discussion nous allons introduire une nouvelle paire de caractéresiv.a. : (Xi, ¥1) of : + Xi: encadrement prend ‘est RsersiatalinvDomrloadsiBivariate’20e_vt him 2reteats Bivariate vt * la valeur 1 sile lycée a moins de 19 étudiants/enseignant (bon encadrement) * la valeur 2 sile lycée a 20 ou plus d’étudiants/enseignant (mauvais encadrement), + Yi: performance prend = la valeur 1 sie lycée a un score de 665 ou plus (haute performance) = la valeur 2 sile lycée a un score das 645 a 664 (performance moyenne) = la valeur 3 si le lycée a un score de mois de 645 (faible performance). 4, Construir les deux nouveaux caractéres : In[ ]: x1=x XA[X« ETC. Lihypothése que les chercheurs ont formulé est que 'encadrement est, au mois partiellement, responsable de la performance. Il faut donc vérifier si les lyc6es avec un nombre plus bas d’étudiants par enseignant sont caractérisés par des meilleurs scores dans le test. Pour y arriver nous allons franchir plusieurs étapes. Important : Dans ce notebook nous allons faire les choses 4 Ja main pour voir comment ¢a fonctionne. Dans le notebook suivant nous allons ‘automatiser' les calculs a l'aide de la fonction table. |. Construir la densité jointe des deux v.a. qui modélisent les 2 caractéres X; et Yi Hint : Ecrire une double boucle for qui remplisse la matrice qui est la densité jointe. Vérifier que la commande [X==1 & Y==2] vous donne les individues qui ont ¥ = 1 et Y = 2. Essayer [sum(X==1 & Y==2)] Qu'est-ce qu'elle fait ? Fle: 1UserslestalinDowrloads/Bivarste%20e_v'.him as zeae verte vt In [ J: prob=matrix(@,2,3) for (i in 1:2) for (j in 1:3) { ETC. colnames(prob)=c("Y1=1', ETC. rownames(prob)=c( ETC. prob II. A partir du tableau de densité jointe construir les densités marginales des deux v.a. qui modélisent les 2 caracteres X1 et Yi. Hint : utiliser la fonction apply pour calculer la somme des lignes/colonnes dans la matrice qui contient la densité jointe In [ ]: y aX apply(prob, ETC. v1 apply ETC. Il, Construir la densité conditionelle de - $Y_1, la performace, sachant que $"X_1=1"$ (le lycée a un bon encadre ment) - $V_1, la performace, sachant que $"X_1=2"$ (le lycée a beaucoup d'étu diants par prof). Autrement dit, quelle est la distribution de la performance pour les lycées ayant peu/moyen/beaucoup d'étudiants par prof? fle:iC:AsersicaalvDomrloads/Bivariate%20_vi hm 4s 2za016 Bivaritor_vt Hint : & partir de la densité jointe et des densités marginales, ecrire une boucle for qui calcule les densités conditionelles. In [ ]: prob. condsmatrix(®,2,3) for (i in 1:2) { + prob.cond[i, J= ETC. colnames (prob.cond)=c( prob. cond IV, Représenter les 2 densités conditionelles de la variable performance conditionnée par la valeur prise par la variable encadrement dans 2 graphiques dans la meme fenetre graphique de R. Les trois distributions sont-elles différentes ? Qu'est-ce que ca montre ? In []: par (mfrow=c(2,1)) for (i in 1:2) , { barplot( ETC. box) } Fle: 1UserslestalinDowrloads/Bivarste%20e_v'.him 8

Você também pode gostar