ManualLanguageTest Alte2011 FR

MANUEL pour LELABORATION et la PASSATION
DE TESTS et dEXAMENS DE LANGUE

A utiliser en liaison avec le CECR
ALTE,
pour le Conseil de lEurope,
Division des politiques linguistiques
Division des Politiques linguistiques

DG II Service de lducation
Conseil de lEurope, Strasbourg
www.coe.int/lang/fr
Conseil de lEurope, avril 2011

Les opinions exprimes dans cet ouvrage nengagent que leurs auteurs et ne refltent pas ncessairement la
politique officielle du Conseil de lEurope.
Toute correspondance concernant cette publication, la reproduction ou la traduction de tout ou partie de ce
document doit tre adresse au directeur dEducation et Langues (Division des politiques linguistiques) (F-67075
Strasbourg cedex, ou decs-lang@coe.int )
La reproduction dextraits est autorise, except des fins commerciales, condition que la source soit cite.
TRADUCTION
Gilles BRETON
Christine TAGLIANTE
SOMMAIRE
Contenu
MANUEL pour LELABORATION ET LA PASSATION DE TESTS ET DEXAMENS DE LANGUE ..........Error! Bookmark not
defined.
NOTE PRLIMINAIRE .....................................................................................................................................................7
INTRODUCTION ............................................................................................................................................................8
1.
Considrations essentielles ................................................................................................................................12

1.1.
Comment dfinir la comptence langagire ..............................................................................................12
1.1.1.
Modles dutilisation du langage et de la comptence......................................................................12
1.1.2.
Le modle dutilisation du langage du CECR ......................................................................................12
1.1.3.
Rendre le modle oprationnel ..........................................................................................................14
1.1.4.
Les niveaux du CECR ...........................................................................................................................14
1.2.
La validit ....................................................................................................................................................16
1.2.1.
Quest-ce que la validit ? ..................................................................................................................16
1.2.2.
La validit et le CECR........................................................................................................................... 16
1.2.3.
La validit dans le cycle dlaboration du test....................................................................................16
1.3.
La fiabilit ...................................................................................................................................................18
1.3.1.
Quest-ce que la fiabilit ? ..................................................................................................................18
1.3.2.
La fiabilit en pratique ........................................................................................................................ 18
1.4.
Ethique et quit ........................................................................................................................................19
1.4.1.
Les consquences sociales de lvaluation : thique et quit ..........................................................19
1.4.2.
Lquit ...............................................................................................................................................19
1.4.3.
Proccupations thiques ....................................................................................................................19
1.5.
Organisation du travail ...............................................................................................................................20
1.5.1.
Les tapes du travail ........................................................................................................................... 20
1.6.
Questions-cls ............................................................................................................................................21
1.7.
Lectures complmentaires .........................................................................................................................21
2. Llaboration du test ou de lexamen .....................................................................................................................22

2.1. Le processus dlaboration ..............................................................................................................................22
2.2. La dcision de produire un test ou un examen ...............................................................................................22
2.3. La planification.................................................................................................................................................22
2.4. La conception...................................................................................................................................................23
2.4.1 Premires proccupations ......................................................................................................................... 23
2.4.2 Comment tenir compte la fois des exigences propres au test ou lexamen et des considrations
dordre pratique .................................................................................................................................................24
2.4.3 Spcifications du test ou de lexamen .......................................................................................................25
2.5 Lexprimentation ............................................................................................................................................25
2.6. Linformation des parties concernes .............................................................................................................26
2.7. Questions cls ..................................................................................................................................................26
4
2.8 Lectures complmentaires ...............................................................................................................................27

3 Assemblage du test ou de lexamen ........................................................................................................................28
3.1. Le processus dassemblage..............................................................................................................................28
3.2 Les premiers pas ...............................................................................................................................................28
3.2.1 Le recrutement et la formation des rdacteurs ditems ...........................................................................28
3.2.2 La gestion des items produits .................................................................................................................... 28
3.3 La production des items ...................................................................................................................................29
3.3.1 Lvaluation de la demande ......................................................................................................................29
3.3.2 La commande ............................................................................................................................................29
3.4 Le contrle qualit ...........................................................................................................................................30
3.4.1 La vrification des nouveaux items ..........................................................................................................30
3.4.2 Pilotage/test pilote, pr-test et exprimentation .....................................................................................31
3.4.3 La rvision des items .................................................................................................................................32
3.5 La constitution du test ou de lexamen ............................................................................................................33
3.6 Questions cls ...................................................................................................................................................34
4. La dlivrance des examens .....................................................................................................................................34
4.1. Les objectifs de la dlivrance des examens .....................................................................................................34
4.2. Le processus de dlivrance des examens ........................................................................................................35
4.2.1. Organisation des salles dexamens ...........................................................................................................35
4.2.2 Linscription des candidats ........................................................................................................................36
4.2.3 Lenvoi du matriel ....................................................................................................................................36
4.2.4 La passation de lexamen........................................................................................................................... 37
4.2.5 Le retour du matriel .................................................................................................................................37
4.3 Questions cls ...................................................................................................................................................37
4.4 Lecture complmentaire ..................................................................................................................................37
5 Correction, notation et dlivrance des rsultats ..................................................................................................... 38
5.1 La correction .....................................................................................................................................................38
5.1.1
La correction humaine ........................................................................................................................38
5.1.2 La correction par une machine corriger .................................................................................................40

5.1.3. Lvaluation ..............................................................................................................................................41
5.2 La notation ........................................................................................................................................................44
5.3 La dlivrance des rsultats ...............................................................................................................................45
5.4 Questions cls ...................................................................................................................................................45
6 Contrle et rvision .................................................................................................................................................46
6.1 Le contrle de routine ......................................................................................................................................46
6.2 Rvision priodique du test ou de lexamen ....................................................................................................46
6.3 A quoi servent le contrle et la rvision ........................................................................................................... 47
6.4 Les questions cls .............................................................................................................................................48
5

Annexe I Dvelopper un argument de validit ........................................................................................................49
Lectures complmentaires .....................................................................................................................................50
Annexe II Le processus de dveloppement du test ou de lexamen .......................................................................54
Annexe III Exemple du format de lexamen examen danglais .............................................................................55
Contenu et vue densemble ...................................................................................................................................55
Exemple pour la comprhension crite..................................................................................................................56
Annexe IV Conseils aux rdacteurs ditems ............................................................................................................. 57
Conseils sur le choix des textes ..............................................................................................................................57
Conseils sur la prsentation ...................................................................................................................................57
Conseils dtaills pour chaque tche .....................................................................................................................57
Annexe V Etude de cas rvision dune tche de niveau A2 ..................................................................................59
Version 1 soumise par le rdacteur ditems pour rvision (runion 1) ...............................................................59
Nouvelle vrification de la version soumise pour rvision (runion 1) ..................................................................60
Version 2 tches modifies soumises nouveau par le rdacteur .....................................................................61
Version 2 La tche rcrite, soumise nouveau par le rdacteur, aprs la discussion de rvision (runion 2) 62
Vrification de la version soumise nouveau pour rvision (runion 2) ...............................................................63
Version 3 Version utilisable en prtest, incluant les changements effectus lors de la seconde runion de
rvision ...................................................................................................................................................................64
Rvision de la version prteste (runion 3)..........................................................................................................65
Version 4 version dfinitive (identique la version 3) ........................................................................................67
Annexe VI - Recueil des donnes du prtest et de lexprimentation .......................................................................68
Retour dinformation des surveillants- Tous les lments .....................................................................................68
Retour dinformation des candidats test de comprhension crite ...................................................................68
Retour dinformation des correcteurs test de production crite ........................................................................68
Annexe VII Utilisation des analyses statistiques dans le cycle dlaboration de tests ............................................69
Les donnes ............................................................................................................................................................69
La thorie classique des tests .................................................................................................................................70
Analyses statistiques pour la notation et le classement ........................................................................................73
Validation du construit ...........................................................................................................................................74
Les outils pour des analyses statistiques ................................................................................................................75
Annexe VIII Glossaire ...............................................................................................................................................76
Remerciements...........................................................................................................................................................84
NOTE PRLIMINAIRE
Ce Manuel complte la bote outils qui propose une aide lutilisation du Cadre europen commun de
rfrence pour les langues : apprendre, enseigner, valuer (CECR). Nos remerciements vont lAssociation des
organismes certificateurs en Europe (ALTE) charge par le Conseil de lEurope de la prparation ce Manuel. Cette
association contribue une fois de plus une utilisation efficace du CECR, dans le respect de lesprit des statuts
participatifs dont lOrganisation internationale non gouvernementale (INGO) jouit auprs du Conseil de lEurope.
Lobjectif du CECR tait de fournir aux Etats membres du Conseil de lEurope, un point de dpart commun pour la
rflexion et les changes entre les diffrents partenaires du champ, incluant les personnels impliqus dans la
formation denseignants ainsi que dans llaboration des programmes de langues, des directives concernant les
cursus, des manuels dapprentissage, des examens, etc. Le CECR propose un outil descriptif qui permet aux
utilisateurs de rflchir leurs dcisions et leurs pratiques, de bien placer leurs efforts et de les coordonner, en
tant que de besoin, au profit des apprenants de diffrents contextes. Le CECR est donc un outil souple, adaptable
aux diffrents contextes dutilisation lillustration parfaite de cet aspect fondamental est le systme de niveaux,
qui peut tre adapt et exploit souplement pour llaboration de diffrents objectifs denseignement /
apprentissage ainsi que pour lvaluation, et pour la Description des niveaux de rfrence (DNR) pour des
langues et des contextes particuliers.
Les descripteurs, crs partir de ceux qui ont t reconnus clairs, utiles et pertinents par des groupes de
professeurs enseignant ou non leur langue maternelle dans des secteurs ducatifs varis et avec des profils de
formation et une exprience professionnelle trs diffrents (CECR, p. 30), ne prtendent pas tre dtaills de
faon exhaustive, ni, en aucune faon, normatifs. Les utilisateurs sont invits les adapter ou les complter en
fonction du contexte et des besoins. Le prsent Manuel fournit de prcieux conseils pour construire dans cet
esprit des tests de comptence lis aux niveaux du CECR dune manire la fois guide et non prescriptive.
La ncessit de garantir la qualit, la cohrence et la transparence dans les prestations lies aux langues ainsi que
lintrt croissant dans laspect porteur des examens, ont cr un grand intrt pour les niveaux du CECR, perus
en Europe et au-del comme un outil de rfrence et un instrument de calibrage. Partageant ce point de vue,
nous souhaitons galement encourager les utilisateurs explorer et partager des expriences sur la faon dont le
CECR, dans ses diffrents aspects, peut tre encore davantage utilis pour favoriser lvolution, tout au long de la
vie, du profil plurilingue (irrgulier et changeant) des apprenants qui, au final, devront prendre la responsabilit
dorganiser et dvaluer leur apprentissage en fonction de leurs besoins volutifs et des changements de
circonstances. Linitiative du Conseil de lEurope de promouvoir lducation plurilingue et interculturelle, ainsi
quune approche globale de toutes les langues dans et pour lducation, prsente de nouveaux dfis pour
llaboration des programmes, pour lenseignement et lvaluation, le moindre dentre eux ntant pas celui
dvaluer la comptence des apprenants laide de leurs rpertoires plurilingues et interculturels. Nous
attendons beaucoup de la contribution essentielle dassociations professionnelles telles quALTE pour nous aider
promouvoir les valeurs du Conseil de lEurope dans le domaine de lducation aux langues.
Joseph Sheils
Division des politiques linguistiques
Conseil de lEurope
INTRODUCTION
Contexte
Depuis sa publication dans sa version finalise, en 2001, le Cadre europen commun de rfrence pour les langues (CECR) na
cess de connatre un intrt toujours croissant non seulement en Europe, mais galement lchelle mondiale. Son impact
a dpass les attentes et il ne fait aucun doute quil a contribu veiller lattention sur dimportants problmes lis
lapprentissage, lenseignement et lvaluation en langues. Le Conseil de lEurope a galement encourag la cration dune
bote outils comportant des ressources pour linformation et lutilisation du CECR par les dcideurs politiques, les
enseignants, les organismes certificateurs et les autres partenaires du domaine.
Comme la signal Daniel Coste, lun des auteurs du CECR, linfluence du Cadre sur lvaluation a t particulirement
remarquable, et le processus dancrage des examens de langue aux niveaux de rfrence a reu plus dattention que tout
autre de ses aspects (2007). Un certain nombre doutils sont dsormais disponibles lintention des organismes certificateurs
et des praticiens intresss par les tests de langue :
Manuel pour relier les examens de langue au Cadre europen commun de rfrence pour les langues : apprendre,
enseigner, valuer (Conseil de lEurope, 2009).
Supplment technique de rfrence au Manuel (Banerjee 2004 ; Verhelst 2004 a, b, c, d ; Kaftandjieva 2004 ; Eckes
2009).
Illustrations des niveaux de comptences en langues.
Grilles danalyses de contenus pour la production orale et crite ainsi que la rception orale et crite.
Description des niveaux de rfrence pour langlais et dautres langues.
Le Conseil de lEurope a galement organis des forums (Rflexions sur lutilisation de lavant-projet du Manuel pour relier les
examens de langue au CECR, Cambridge, 2007 ; sminaire pr-confrence, Confrence dEALTA, Athnes, 2008) au cours
desquels les praticiens ont chang leurs rflexions sur lutilisation du manuel ainsi que sur leurs expriences de mise en
pratique des diffrentes tapes dancrage suggres dans le Manuel.
LAssociation des organismes certificateurs en Europe (ALTE), en tant quOrganisation internationale non-gouvernementale
(INGO) ayant un statut consultatif au sein du Conseil de lEurope, a contribu aux ressources composant la bote outils, y
incluant le Portfolio europen des langues (PEL) dEAQUALS/ALTE ainsi que les grilles danalyse de contenus dALTE.
Lassociation tait galement reprsente par le Dr Piet van Avermaet, du groupe dauteurs du Manuel pour relier les
examens de langue au CECR. En accord avec la Division des politiques linguistiques du Conseil de lEurope, ALTE tient ce que
les utilisateurs de la bote outils se servent efficacement du Cadre dans leur propre contexte et afin de satisfaire leurs
propres objectifs.
Le but de ce Manuel
Le Manuel pour relier les examens de langue au CECR mentionn ci-dessus a t spcifiquement conu pour aborder
lancrage des tests et examens au Cadre, et, avec le Supplment de rfrence, il prsente et propose une approche gnrale
ainsi quun certain nombre de choix, y compris sur la dfinition des points de csure.
Le Manuel pour l'laboration et la passation de tests et d'examens de langues est conu comme un complment du Manuel
pour Relier les examens de langues au CECR. Il met laccent sur les aspects de llaboration et de la passation de tests et
dexamens qui ne sont pas couverts par lautre Manuel. Il sagit, en fait, dune version actualise dun document antrieur
produit par le Conseil de lEurope connu sous le nom de CECR : Evaluation de comptences en langues et conception de tests
(1996), lun des Guides pour les utilisateurs accompagnant le premier projet du CECR en 1996/7, commandits par le Conseil
de lEurope.
ALTE tait l'auteur de la premire version de ce Manuel sur l'valuation. Au cours de la dernire dcennie, des volutions de
la thorie de la validit ainsi que lutilisation et linfluence grandissantes du CECR ont montr la ncessit dune relle
actualisation du document. ALTE a accept avec plaisir de coordonner ces rvisions en 2009/10 et de nombreuses personnes,
membres et associs dALTE ont contribu la rdaction de ce document.
Lors des rvisions, il a t utile de se souvenir des origines et des buts du CECR et de les faire apparatre dans la structure et
les objectifs de ce Manuel destin aux utilisateurs.
En tant que cadre commun de rfrence, le CECR se voulait tout dabord un outil pour la rflexion, la communication et la
prise de dcision (Trim, 2010). Il a t conu pour permettre une mme comprhension des domaines de lapprentissage,
de lenseignement et de lvaluation en langues et, dans le dbat sur lducation aux langues, il permet un langage commun
sur chacun de ces aspects. Il fournit galement un ensemble de niveaux de rfrence pour identifier les niveaux de
comptence en langues, depuis le faux dbutant (A1) jusqu un niveau trs avanc (C2), et ceci dans toute une srie de
capacits diffrentes et de domaines dutilisation.
Grce tout cela le CECR permet la comparaison des pratiques dans des contextes trs diffrents, en Europe et au-del. En
tant quoutil de rfrence, il doit cependant, dans certaines situations, tre adapt au contexte et aux objectifs locaux.
Ce point a t trs clairement dcrit par les auteurs du CECR. Dans lavertissement destin aux utilisateurs (p.4), ils prcisent
notamment Soyons clairs : il ne sagit aucunement de dicter aux praticiens ce quils ont faire et comment le faire , et ils
le ritrent plusieurs reprises. Parmi les ressources de la bote outil, le Manuel pour Relier les examens de langues au
CECR suit la mme dmarche. Ses auteurs indiquent sans ambigit que ce manuel nest pas le seul qui permette dancrer un
test ou un examen au CECR et quaucune institution nest oblige dentreprendre ce processus dancrage (p.1).
Dans un forum politique intergouvernemental du Conseil de lEurope sur lutilisation du CECR Strasbourg en 2007, Coste a
soulign combien les utilisations contextuelles prises comme des interventions dlibres dans un environnement donn
peuvent prendre des formes varies, concerner des niveaux diffrents, avoir diffrents objectifs et impliquer des types de
partenaires distincts . Il dclare Chacune de ces application contextuelles est lgitime et significative, mais, alors que le
Cadre lui-mme propose une srie de choix intgrs, certaines de ces applications contextuelles les exploitent fond, alors
que dautres les largissent ou les dpassent . Cest pourquoi, lorsquon envisage la question de lancrage, il est important
davoir prsent lesprit que le CECR na pas t conu pour tre utilis de faon prescriptive et quil ny a donc pas une
faon unique de justifier lancrage dun examen dans un contexte et un but dutilisation particuliers.
Comme lont soulign Jones et Saville (2009 : 54-55) :
certaines personnes disent appliquer scrupuleusement le CECR un contexte particulier. Nous prfrons plutt
rapporter le contexte au CECR. Lautre faon dagir est la transitivit. Le dbat en faveur de lancrage est encore construire,
la base de comparaison est tablir. Cest le contexte spcifique qui dtermine la signification dfinitive de laffirmation
dancrage. En posant le problme ainsi, nous replaons le CECR dans son rle de point de rfrence et contribuons son
volution future.
Alors que le Manuel pour Relier les examens de langues au CECR met laccent sur les procdures engages pour prsenter
les preuves de laffirmation que tel test ou examen est ancr au CECR et ne donne pas de conseils gnraux sur la faon
de concevoir de bon tests ou de bons examens (p.2), lapproche complmentaire adopte dans le prsent Manuel part du
processus dlaboration du test et montre comment il est possible dtablir un lien avec le CECR chaque tape de ce
processus, de faon :
spcifier le contenu du test ou de lexamen

cibler des niveaux spcifiques de comptence langagire
interprter la performance au test de langue en termes qui se rfrent la langue relle utilise hors situation de
test.
Ce Manuel a par consquent un objectif plus vaste que les trois principales utilisations du CECR, qui sont :
La spcification des contenus des tests et examens.

Ltablissement des critres permettant datteindre un objectif dapprentissage, en liaison la fois avec lvaluation
dune performance orale ou crite particulire et avec lvaluation continue de lenseignant, lvaluation par les
pairs et lauto-valuation.
La description des niveaux de comptence dans les tests et les examens existants qui permet des comparaisons
entre les diffrents systmes de certification.
Son souhait est de fournir un guide cohrent pour llaboration de tests et dexamens gnraux, qui peut tre utile pour
concevoir des tests et examens objectifs spcifiques, en prsentant cette laboration sous la forme dun cycle, chaque
tape russie tant due au travail fourni ltape prcdente. La totalit du cycle doit obligatoirement tre traite pour que
chaque tape fonctionne correctement. La section 1.5 montre une vue densemble du cycle, qui est par ailleurs dtaill aux
chapitres suivants :
Chapitre 1 Prsentation des concepts fondamentaux lis la comptence langagire : validit, fiabilit et quit.
Chapitre 2 Elaboration - depuis la dcision de concevoir jusqu la rdaction des spcifications dfinitives.
Chapitre 3 Assemblage - traite de la rdaction des items et de la construction des tests.
Chapitre 4 Passation - sapplique ladministration des tests, depuis linscription des candidats jusquau retour du matriel
de test.
Chapitre 5 Correction, notation et dlivrance des rsultats la fin du cycle oprationnel.
Chapitre 6 Contrle et rvision montre comment le cycle peut tre rpt au fil du temps afin damliorer la qualit et
lutilit du test ou de lexamen.
Pour qui a t conu ce Manuel ?
Il est destin tous ceux qui sont impliqus dans llaboration et lutilisation de tests et dexamens de langues lis au CECR. Il
a t conu pour tre utile aussi bien aux concepteurs dbutants quaux plus expriments. Cest pourquoi il prsente des
principes communs, qui sappliquent aux tests de langues en gnral, que lorganisme certificateur soit une grande
institution prparant des tests pour des milliers de candidats dans le monde, ou quil sagisse dun enseignant isol
souhaitant valuer ses lves en classe. Les principes sont les mmes pour des tests fort ou faible enjeu, seules les tapes
pratiques varieront.
Nous partons du principe que les lecteurs sont dj familiariss avec le CECR, ou seront prts lutiliser conjointement avec
ce Manuel lors de llaboration et de lutilisation de tests ou dexamens.
Comment utiliser ce Manuel ?
Bien que les principes prsents ici soient gnraux, le certificateur doit dcider de leur application dans son contexte
particulier. Ce Manuel donne des exemples et des conseils sur la faon de mener certaines activits. Ces conseils pratiques
seront toutefois plus pertinents dans certains contextes que dautres en fonction de lobjectif du test ou de lexamen et des
ressources disponibles pour les mettre au point. Cela ne signifie pas que le Manuel est moins utile pour certains : si les
utilisateurs comprennent les principes, ils peuvent se servir des exemples pour les appliquer leur contexte particulier.
Outre le CECR, il existe de nombreuses autres ressources utiles pour relier un test ou un examen de langue au CECR. Ce
Manuel nest quun outil parmi ceux proposs dans la bote outils conue et mise disposition par le Conseil de lEurope.
Cest pourquoi on ny trouvera pas dinformations ou de thories disponibles ailleurs. Comme nous lavons dj signal, cet
ouvrage est complmentaire du Manuel pour Relier les examens de langues au CECR, il ne reprend pas les informations qui y
sont donnes.
Il nest pas ncessaire de le lire de A Z. Chacun, en fonction de ses besoins dlaboration et de passation de test ou de
lexamen, peut lire uniquement les parties qui lui conviennent. Cependant, mme pour ceux qui se sont spcialiss dans lun
des champs des examens de langue, la lecture complte du Manuel permet davoir un bon aperu de lensemble du cycle.
A la fin de chaque chapitre, des Lectures complmentaires guident le lecteur soit vers des ressources pour approfondir un
domaine, soit vers des outils pratiques. Ces lectures sont suivies de questions cls destines renforcer la comprhension de
ce qui a t lu.
Cet ouvrage est non prescriptif, son objectif est de mettre laccent sur les grands principes et les approches concernant la
conception de tests et dvaluation de faon ce que lutilisateur puisse y faire rfrence lors quil labore un test ou un
examen rpondant son contexte particulier. Ce nest pas un livre de recettes pour placer les questions dun test sur les
chelles du CECR : les six niveaux de rfrence, suffisamment clairs et dtaills, fournissent un outil commun de rfrence et
nont pas t conus lorigine dans ce but.
En ralit, dans lune des premires versions du Cadre (Strasbourg, 1998), les chelles descriptives se trouvaient en annexe,
titre dexemples, et napparaissaient pas dans le corps du texte. Seuls les niveaux communs de rfrence taient prsents
dans le texte. La mise en page originale de la version de 1998 renforait les diffrents statuts et fonctions des niveaux de
rfrence gnraux, dont certains ntaient pas calibrs et taient sous-reprsents aux niveaux C.
Dans la version de 1998 du CECR, le statut provisoire des chelles de descripteurs tait dcrit de faon explicite dans le texte
(p.25) :
Llaboration dun ensemble de points de rfrence communs ne limite en aucune faon les choix que peuvent faire des
secteurs diffrents, relevant de cultures pdagogiques diffrentes, pour organiser et dcrire leur systme de niveaux. On
peut aussi esprer que la formulation prcise de lensemble des points communs de rfrence ainsi que la rdaction des
descripteurs volueront avec le temps, au fur et mesure que lexprience des Etats membres et des organismes
comptents dans le domaine sera prise en compte.
10
Le risque dutiliser les chelles de faon exagrment prescriptive est de laisser croire quon peut mesurer la comptence
langagire par une approche universelle . Les chelles fonctionnelles et linguistiques sont plus conues pour illustrer la
nature gnrale des niveaux que pour en donner une dfinition prcise. Cest pourquoi, tant donn la grande diversit des
contextes dmographiques, des besoins et des types dapprentissage et denseignement, il est par exemple impossible de
donner les caractristiques dun tudiant de type B1 . Le corolaire est quil est difficile de concevoir un programme ou un
test convenant tous les contextes, que ce soit pour B1 ou pour nimporte quel autre niveau.
Afin que le CECR ait un impact durable et positif, les organismes certificateurs doivent intgrer ses principes et ses pratiques
dans leurs procdures. Cela permettra, au fur et mesure, aux systmes professionnels dtablir des argumentaires en
faveur de lancrage afin dappuyer leur affirmation, et impliquera de travailler en sappuyant sur le texte du CECR
ventuellement adapt aux contextes et aux applications particuliers.
Puisquil nest pas possible, partir dun seul atelier de dfinition des points de csure, de mettre en vidence un ancrage
stable et constant, il est important que les organismes certificateurs fournissent des preuves varies, accumules dans le
temps. Les recommandations du Manuel pour Relier les examens de langues au CECR ainsi que celles des autres ressources
de la bote outil doivent donc faire partie intgrante des procdures standard que les organismes certificateurs mettent en
uvre pour leurs besoins dancrage, et ne doivent pas tre traites la lgre.
Cest ce quoi ce Manuel encourage le lecteur, en mettant laccent sur limportance de concevoir des systmes qui
permettent dtablir des normes et de les suivre au fil du temps.
Conventions utilises
Les conventions suivantes sont appliques tout au long du Manuel :
Les termes ce Manuel sont utiliss pour dsigner le Manuel pour llaboration et la passation de tests et dexamens
de langues.
Le sigle CECR dsigne le Cadre europen commun de rfrence pour les langues : apprendre, enseigner, valuer.
Linstitution charge de dvelopper le test est appele organisme certificateur. Lexpression le concepteur de test est
parfois utilise pour dsigner ceux qui ont une fonction particulire dans le cycle dlaboration du test.
Lors de leur premire apparition dans ce Manuel, et lorsquil nous semble quil est utile de les signaler au lecteur, les
mots indexs au glossaire (annexe VIII) apparaissent en PETITES MAJUSCULES.
Dr Michael Milanovic
Directeur dALTE
11
1. Considrations essentielles
Les conseils pratiques donns dans ce Manuel pour laborer des tests ou des examens de langue ncessitent de bonnes
bases en principes et thorie. Ce chapitre traite des questions suivantes :
Comment dfinir la comptence langagire
Pourquoi la validit est-elle la qualit-cl dun bon test
Quest-ce que la fiabilit
Lquit dans les tests et examens.
Cette dernire section prsente galement les grandes lignes des processus dlaboration dun test, dtailles dans les
chapitres ultrieurs.
1.1.
Comment dfinir la comptence langagire
1.1.1. Modles dutilisation du langage et de la comptence

Le langage en cours dutilisation est un phnomne trs complexe qui fait appel un grand nombre de capacits ou de
comptences diffrentes. Lors du dmarrage dun projet de test ou dexamen, il est important de disposer dun modle
explicite de ces comptences et de la faon dont elles interagissent les unes avec les autres. Il nest pas utile que ce modle
soit reprsentatif dun grand courant concernant la faon dont la comptence langagire est organise dans nos ttes ; son
rle est didentifier des aspects de la comptence significatifs pour notre propos. Cest un point de dpart qui permet de
dcider quels aspects de lutilisation du langage ou de la comptence peuvent ou devraient faire lobjet dun test ou dun
examen et cela aide sassurer que les rsultats seront utiles et interprtables. La caractristique mentale identifie par les
modles est galement appele TRAIT ou CONCEPT.
1.1.2. Le modle dutilisation du langage du CECR

Des modles de comptence langagire dterminants ont t proposs par diffrents auteurs (Bachman en 1990, Canale et
Swain en 1981, Weir en 2005).
Il tait logique que ce Manuel commence avec le modle gnral dutilisation du langage et de lapprentissage propos par le
CECR. Cette APPROCHE ACTIONNELLE est prsente ainsi :
Lusage dune langue, y compris son apprentissage, comprend les actions accomplies par des gens qui, comme individus et
comme acteurs sociaux, dveloppent un ensemble de comptences gnrales et notamment une comptence
communiquer langagirement. Ils mettent en uvre les comptences dont ils disposent dans des contextes et des
conditions varis et en se pliant diffrentes contraintes afin de raliser des activits langagires permettant de traiter (en
rception et en production), des textes portant sur des thmes, lintrieur de domaines particuliers, en mobilisant les
stratgies qui paraissent le mieux convenir laccomplissement des tches effectuer. Le contrle de ces activits par les
interlocuteurs conduit au renforcement ou la modification des comptences. (CECR p.15, caractres gras dans le texte
original).
Ce paragraphe identifie les lments essentiels du modle, qui sont prsents de faon plus dtaille dans le CECR. De fait,
on peut considrer quun modle hirarchique comprenant des lments embots dans des lments plus vastes est dfini
dans les titres et sous-titres des chapitres 4 et 5 du CECR.
A titre dillustration, la figure 1 prsente quelques titres et sous-titres du chapitre 5, Les comptences de
lapprenant/utilisateur. Elle montre la dclinaison des comptences : Comptences gnrales (telles que Savoir et Savoir-tre,
non prsents ici) et Comptences communicatives langagires, qui sont dclines en trois : comptences linguistiques,
sociolinguistiques et pragmatiques. Chaque entre est ensuite subdivise.
12
Les comptences de lutilisateur/apprenant
Comptences gnrales
Comptences communicatives langagires
Comptences linguistiques
Lexicale
Grammaticale
Smantique
Phontique
Orthographique
Orthopique
Comptences sociolinguistiques
Marqueurs linguistiques des
relations sociales
Rgles de politesse
Expression de la sagesse populaire
Diffrences de registres
Dialecte et accent
Comptences
pragmatiques
Discursive
Fonctionnelle
Echelles de descripteurs fournies pour illustration
Figure 1. Vue partielle du chapitre 5 du CECR : Les comptences de lutilisateur/apprenant

Le chapitre 4 quant lui, examine les objectifs communicatifs et les faons dutiliser le langage. La figure 2 indique que cela
implique de prendre en compte ce qui est communiqu (les thmes, les tches et les objectifs) ainsi que les activits de
communication langagire et les stratgies et, partant, les capacits fonctionnelles du langage que les apprenants mettent en
uvre lorsquils communiquent. Pour plus de clart, la figure 2 nillustre quune partie de cette hirarchie complexe.
Lutilisation de la langue et lapprenant/utilisateur
Contexte de
lutilisation du
langage
Thmes de
communication
Activits de production
et stratgies
Interaction crite
Tches
communicatives et
finalits
Activits de
communication
langagire et stratgies
Activits de rception
et stratgies
Activits interactives
et stratgies
Interaction en face face
Stratgies dinteraction
Echelles de descripteurs fournies pour illustration
Figure 2. Vue partielle du chapitre 4 du CECR : Lutilisation de la langue et lapprenant/utilisateur
13
1.1.3. Rendre le modle oprationnel

Lorsquon cherche oprationnaliser le MODLE DUTILISATION DU LANGAGE, deux paramtres importants ayant une influence
considrable sur laspect final du test sont prendre en compte : lAUTHENTICIT des ITEMS et des TCHES et le caractre
discret avec lequel les comptences sont values.
Authenticit
Deux aspects importants de lauthenticit dans lvaluation en langue sont lauthenticit situationnelle et lauthenticit
interactionnelle. Lauthenticit situationnelle se rfre lexactitude avec laquelle les tches et les items reprsentent des
activits langagires telles quon les trouve dans la vie quotidienne. Lauthenticit interactionnelle se rfre au caractre
naturel quil peut y avoir dans linteraction que mne le candidat en accomplissant une tche et les processus mentaux qui
entrent en jeu. Un test de comprhension dinformation spcifique, fond sur des tches, peut tre rendu plus authentique
au niveau situationnel si un contexte quotidien est cr, de type bulletin mto la radio. Il peut gagner de lauthenticit au
niveau interactionnel si on donne au candidat un objectif dcoute, par exemple choisir, dans la semaine, le jour qui convient
pour organiser un pique-nique.
Dans les tests de langue, lors de la cration dune tche, il faut souvent composer entre les diffrents aspects de la fidlit. Il
faut par exemple adapter des supports et des activits au niveau de comptence langagire de lapprenant dans la langue
cible. Cette adaptation signifie qualors que les supports peuvent ne pas tre entirement authentiques, les situations dans
lesquelles les apprenants sengagent ainsi que leur interaction avec les textes et entre eux peuvent, elles, tre authentiques.
Pour que litem ou la tche soit le plus authentique possible, il faut identifier les caractristiques de la tche dans la vie relle
et les reproduire autant que possible. On peut obtenir une plus grande authenticit interactionnelle en :
utilisant des situations ou des tches vraisemblablement familires et pertinentes pour le candidat vis, un niveau
donn
rendant claires pour le public vis, les raisons de mener une tche spcifique bien, par une contextualisation bien
choisie
rendant clairs les critres de russite dans laccomplissement de la tche.
Comptences intgres
Les comptences peuvent paratre indpendantes les unes des autres quand on dfinit un modle dutilisation du langage.
Dans des tches authentiques, il est cependant trs difficile de les isoler. En effet, tout acte de communication implique
lutilisation de plusieurs comptences en mme temps. Par exemple, lorsquun apprenant essaie de comprendre quelquun
qui vient de larrter dans la rue pour demander son chemin, plusieurs comptences entrent en jeu : les comptences
grammaticales et textuelles pour dcoder le message, la comptence sociolinguistique pour comprendre le contexte social
de la communication, la comptence illocutionnaire pour mener bien ce quil souhaite exprimer.
Lors de la conception dune tche destine un examen, il est essentiel de voir clairement les comptences requises pour
une REPONSE correcte. Certaines comptences seront plus importantes que dautres ce sont celles-ci qui seront mises en
avant dans la tche. Laccomplissement de la tche devra susciter suffisamment de ralisation langagire pour quun
jugement puisse tre port sur la capacit du candidat dans la ou les comptences choisies. Il faut galement prendre en
compte la faon dont la rponse est CORRIGEE et note (sections 2.5 et 5.13) : la correction doit porter uniquement sur la
capacit dans la ou les comptences choisies.
1.1.4. Les niveaux du CECR

Accompagnant le modle prsent ci-dessus, le CECR dcrit un ensemble de six niveaux de comptence langagire
communicative, qui permettent de fixer des objectifs dapprentissage et de mesurer les progrs de lapprentissage ou du
niveau de comptence. Une srie dchelles de descripteurs affirmant est capable de / peut, illustre ce Cadre conceptuel.
Exemple daffirmation pour le premier niveau (A1), en comprhension crite :
Peut comprendre des noms familiers, des mots et des phrases trs simples, par exemple sur des pancartes, des affiches ou des
catalogues.
A comparer avec le descripteur du dernier niveau (C2) :
Peut comprendre aisment toute forme de langage crit, y compris des textes abstraits, structurellement et linguistiquement
complexes, comme des manuels et des articles spcialiss ainsi que des ouvrages littraires.
Les six niveaux de comptence sont intituls ainsi :
14
C2
Matrise
C1
Autonome
B2
Indpendant
B1
Niveau seuil
A2
Intermdiaire
A1
Introductif
Utilisateur expriment
Utilisateur indpendant
Utilisateur lmentaire
Le concepteur de tests de langues doit avoir une bonne comprhension des affirmations est capable de / peut. Elles sont :
Illustratives.
Elles ne sont donc pas :
Exhaustives
Prescriptives
Une dfinition
Un programme
Une liste de contrle.
Les descripteurs donnent des conseils aux ducateurs afin quils puissent reconnatre les niveaux de comptence et en parler.
On peut considrer quils sont une indication pour laborer un test mais les adopter ne signifie en aucun cas que le travail de
dfinition des niveaux pour ce test a t achev.
Il appartient aux organismes certificateurs de dcider quels descripteurs correspondent le mieux leur contexte. Ils doivent,
par exemple, dcider du DOMAINE de leur test : pour enseigner aux personnels dun htel et les valuer, les descripteurs de la
Coopration vise fonctionnelle peuvent tre utiles (CECR 4-4.3.1) alors que les descripteurs ayant trait Comprendre
des missions de tlvision et des films (CECR 4-4.2.3) ne le seront probablement pas. Si les chelles descriptives
disponibles ou si dautres matriels de la bote outils du CECR ne conviennent pas suffisamment au contexte, il est possible
de les complter avec des descripteurs provenant dautres sources ou den rdiger de nouveaux destins ce contexte.
Ancrer des tests ou des examens sur le CECR
Travaillant de cette faon, il est ais de voir que le travail dancrage dun test ou dun examen sur le CECR dbute par
ladaptation du CECR au contexte du test. Il est possible de faire cela parce que le CECR est la fois hors contexte afin de
prendre en compte les rsultats gnralisables provenant de situations spcifiques diffrentes et en mme temps
pertinent par rapport au contexte, rattachable ou transposable dans chaque contexte pertinent (CECR, p.23).
Lancrage ne doit pas consister en une tentative dappliquer de faon rigide et mcanique le CECR nimporte quel contexte.
Les organismes certificateurs doivent pouvoir justifier la faon dont ils ont rattach ou transpos le CECR leurs contextes,
en partie en expliquant les caractristiques de ces contextes.
Les caractristiques des candidats sont dautres points importants prendre en compte. Les apprenants peuvent, par
exemple, tre trs diffrents en termes dge et de dveloppement cognitif, dobjectifs dapprentissage, etc. En fait,
quelques-unes de ces diffrences dterminent les caractristiques des diffrents groupes dapprenants. Les tests de langue
sont souvent conus pour lun de ces groupes en particulier, par exemple pour de jeunes apprenants, ou pour des adultes.
Les deux groupes peuvent tre relis au CECR, mais un B1 pour jeunes apprenants et un B1 pour adultes seront deux types
diffrents de B1, car des descripteurs diffrents auront t appliqus.
Le profil de capacits des apprenants est souvent variable (certains seront meilleurs en rception orale quen rception
crite, dautres seront le contraire). Cest pourquoi il est difficile de les comparer laide dune seule chelle. Deux candidats
peuvent tre placs en B1, mais pour des qualits et des points faibles diffrents. Il faut distinguer les aptitudes dans les
diffrentes capacits, certaines pourront tre values part et dans ce cas-l on utilisera les descripteurs spcifiques
comme base pour dfinir les niveaux de comptence dans cette capacit particulire.
Il y a cependant une limite importante ladaptation du CECR un contexte particulier. Le CECR a t uniquement prvu
pour dcrire la comptence langagire en fonction du modle de lutilisation du langage dcrit au paragraphe 1.1.2 de ce
Manuel. On ne doit pas essayer de RELIER des connaissances ou des capacits non prvues par ce modle, comme, par
exemple, la comprhension de la littrature en langue trangre.
15
1.2.
La validit
1.2.1. Quest-ce que la validit ?

On peut la dfinir de faon simple : un test est valide sil mesure ce quil a lintention de mesurer. Ainsi, par exemple, si notre
test a lintention de mesurer la comptence communicative en italien, et que les scores obtenus par les candidats soient
systmatiquement plus levs ou plus faibles en fonction de leur comptence en italien, alors, notre test est valide. Cette
dfinition plutt troite a t largie ces dernires annes afin dinclure la faon dont les tests sont utiliss, ainsi, la validit
se rapporte au : degr de preuves et de thorie sous-tendant linterprtation des scores entrane par les utilisations
donnes des tests (AERA, APA, NCME 1999).
Cette dfinition largie met laccent sur lIMPACT social des tests et la ncessit de fournir aux candidats des informations
satisfaisantes afin quils puissent ventuellement prendre des dcisions importantes. De ce point de vue, il est impossible de
dire dun test quil est valide, au sens absolu. On dirait plutt que la validit se rapporte la faon dont les rsultats un test
sont utiliss pour des besoins particuliers : cest linterprtation de la signification des rsultats au test, par le candidat, qui le
rend valide ou invalide.
Bachman rapporte cela au cas particulier du langage (1990), en dclarant que les tests devraient tre adosss un domaine
de lutilisation de la langue cible. Cela signifie que pour juger de la validit des rsultats un test, nous devons tout dabord
dterminer ce que nous attendons dun candidat lorsquil utilise la langue dans la vie relle, puis dcider si le test apporte ou
non la preuve de cette comptence. Le CECR propose une approche utile pour dfinir la russite dans des domaines
particuliers dutilisation de la langue. Ses descripteurs sont un point de dpart.
1.2.2. La validit et le CECR

Pour le CECR, lorsquon dlivre les rsultats obtenus un test, cela signifie que lon prtend tre capable dinterprter des
performances en termes de dfinition des candidats des niveaux particuliers du CECR. La validit permet de dmontrer que
ce que nous prtendons faire est la ralit : un apprenant valu en B1 est rellement du niveau B1 conformment aux
preuves que nous pouvons fournir.
Le type de preuve peut varier en fonction du contexte du test. Le modle dutilisation/apprentissage du langage du CECR
prsent ci-dessus peut tre appel sociocognitif : le langage est la fois un ensemble intrioris de comptences et un
ensemble externalis de comportements sociaux. Selon le contexte, un test de langue mettra plus laccent sur lun ou lautre
aspect, et cela a une incidence sur la preuve de la validit :
Si laccent porte sur lutilisation, la preuve de la validit se rapportera lutilisation relle de la langue pour
diffrents objectifs de communication.
Si laccent est mis sur la comptence, alors la preuve de la validit portera sur les capacits cognitives, les stratgies
et la connaissance de la langue, qui tayent la preuve de la capacit potentielle pour lutilisation de la langue.
Dans ce dernier cas, il est important de montrer que la ralisation des tches sollicitent les mmes capacits, les mmes
stratgies et les mmes connaissances de la langue que celles dont on aurait besoin dans le domaine dutilisation de la
langue cible ce qui signifie quelles ont une authenticit interactionnelle (cf. 1.1.3).
Les deux types de preuves peuvent tayer la validit lie au CECR. Lquilibre entre les deux dpend des exigences du
contexte particulier. Le poids de lutilisation de la langue psera certainement assez lourd dans la balance pour un test de
langue destin des vendeurs alors quun test de langue pour des lves mettra sans doute plus laccent sur les
comptences.
1.2.3. La validit dans le cycle dlaboration du test

La validit, on la vu, fait un lien entre la performance dans la ralisation de la tche et la preuve de la comptence langagire
du candidat dans le monde rel. Concevoir et laborer des tches est manifestement une tape cruciale, mais dautres
tapes sont tout autant dcisives.
Cette section traite de la validit dans le cycle de production des tests (cf. 1.5), afin que lon puisse observer linfluence des
phases de production. Cela signifie que lensemble des tapes est dcrit de faon squentielle, et que, si lobjectif final est
que le test soit valide, chaque tape doit tre finalise de faon satisfaisante.
16
Observation
Evaluation
Gnralisation
Extrapolation
Que faut-il observer ?

Comment ?
Comment noter
ce qui est observ ?
Les notes sont-elles

cohrentes et interprtables ?
Quelle est la comptence

langagire du candidat
dans la vie relle ?
Elaboration
Performance
Note obtenue
(score)
Mesure
Vie relle
(Situation cible
dutilisation)
Figure 3. Chane du raisonnement pour une dclaration de validit (adapt de Kane, Crooks et Cohen 1999 ; Bachman 2005)
La figure 3 illustre schmatiquement ces tapes :
1.
2.
3.
4.
5.
Le test ou lexamen est conu de faon obtenir un chantillon interprtable de la performance, fonde sur un
modle de comptence dapprentissage. On peut par exemple demander un candidat dcrire une lettre un
ami sur un sujet particulier.
La performance au test est note (elle obtient un score). Quels aspects de la performance seront valoriss ou au
contraire pnaliss ? Dans lexemple prcdent, ces aspects seront lis la comptence communicative dcrite
dans le modle dutilisation de la langue, incluant le REGISTRE (comptence sociolinguistique), la comptence
lexicale, grammaticale et orthographique (comptences linguistiques), etc.
Jusqu ce point, les notes obtenues (ou les scores) sont des nombres qui reprsentent uniquement une
performance isole dans la ralisation dune tche spcifique. Comment peut-on les gnraliser le candidat
obtiendrait-il le mme rsultat lors dune autre passation, sur une version du test diffrente ? Cette question
concerne la fiabilit (cf. Section 1.3). Un second aspect de la gnralisation concerne lancrage une chelle de
comptence plus large, une version du test pouvant se rvler plus facile quune autre, il est ncessaire
didentifier et de compenser cela (cf. annexe VII).
Jusqu prsent, nous avons dcrit la performance en situation de test, mais nous souhaitons extrapoler aux
situations hors test. A ce point, nous mettrons en relation une mesure avec un niveau du CECR, en dcrivant ce
que le candidat devrait tre capable de faire dans la vie relle, laide des descripteurs appropris.
En sappuyant sur cela, il sera possible de prendre des dcisions au sujet du candidat.
Il est clair, aprs ce bref expos, que la validit, incluant une dclaration dancrage au CECR, dpend de chaque tape du
cycle dlaboration et de passation du test. La validit se construit tout au long de lensemble du processus.
Lannexe I propose des conseils pour laborer une dclaration de validit.
17
1.3.
La fiabilit
1.3.1. Quest-ce que la fiabilit ?

En valuation, la fiabilit est synonyme de cohrence : un test qui a des rsultats fiables produit les mmes rsultats ou des
rsultats similaires lors de diffrentes sessions. Cela signifie que le test classera un groupe de candidats de pratiquement la
mme faon. Cela ne signifie pas que les mmes personnes russiraient ou choueraient, parce que le seuil de passation
peut tre modifi. On utilise gnralement le terme de fiabilit lorsquon porte de lintrt la cohrence et lexactitude
des notes ou des rsultats.
Une grande fiabilit nimplique pas ncessairement que le test soit bon ou que linterprtation des rsultats soit valide. Un
mauvais test peut produire des notes (ou des scores) extrmement fiables. Le contraire nest pas vrai, bien que pour une
interprtation valide des rsultats, les notes doivent avoir une fiabilit acceptable, car sans cela, les rsultats ne peuvent
jamais tre ni srs ni significatifs.
Version du test
Autre
Correcteur
Capacit
Jour
Candidat
Candidat
Correcteur
Capacit
Jour
Erreur
Version du test
Autre
Figure 4. Sources derreur possible dans la notation dun test.

Les notes (ou le score) obtenues un test varient en fonction des candidats. On dfinit la fiabilit comme la proportion de
variabilit du score ce test, due la capacit mesure et non dautres facteurs. La variabilit due dautres facteurs est
appele ERREUR. Il est noter que cet emploi du terme erreur est diffrent de son usage habituel qui signifie souvent que
quelquun est coupable de ngligence. Tous les tests sont sujets un certain degr derreur.
La figure 4 illustre quelques sources courantes derreur :
Le jour de la session (le temps quil fait, la faon dadministrer, etc., peuvent varier).
Le candidat peut tre plus ou moins performant le jour du test.
Les correcteurs de la version du test peuvent excuter leur tche de faon diffrente.
Il peut y avoir dautres facteurs incontrlables.
Notre objectif est de produire des tests dans lesquels la proportion globale de la variabilit du score due la capacit
lemporte sur celle due une erreur.
1.3.2. La fiabilit en pratique

Le concepteur doit connatre les sources probables derreur et faire en sorte de les minimiser. Suivre les procdures et les
principes dcrits dans ce Manuel ly aidera. Se servir de la statistique pour estimer la fiabilit des scores un test constitue
toutefois une importante tape post session. Lannexe VII prcise ce quest lestimation de la fiabilit.
On ne peut fixer dobjectif de fiabilit des scores pour tous les tests car les estimations de fiabilit dpendent du degr de
variation des scores des candidats. Un test pour un groupe dapprenants qui ont dores et dj pass une procdure de
slection produira typiquement des estimations de fiabilit plus faibles que celles dun test destin une population trs
varie. Les estimations de fiabilit peuvent galement dpendre de litem, de la question ou du type de tche et de la faon
dont elle est note. Les scores des tches values (cf. Section 5) sont typiquement moins fiables que ceux des ITEMS
DICHOTOMIQUES car davantage de variance (erreur) est introduite dans le processus dvaluation que dans le processus
administratif de notation.
18
Le fait dtudier systmatiquement la fiabilit sera utile pour identifier les tests qui ont bien march par rapport ceux qui
ont moins bien march ainsi que pour contrler, au fil du temps, lamlioration de la qualit. La plupart des estimations de
fiabilit, telles que celles de lAlpha de Cronbach ou le KR-20 avoisinent le 1. On considre souvent, de faon empirique,
quune estimation situe dans le tiers suprieur de lamplitude (de 0.6 1) est acceptable.
Lestimation statistique de la fiabilit est gnralement impossible lorsque le nombre de candidats et/ou ditems est faible.
Dans ces cas, il est impossible destimer si la fiabilit convient aux objectifs du test. Dans ces situations, une bonne stratgie
dvaluation consiste dcider que le test nest quun lment de preuve parmi ceux qui vont permettre de prendre des
dcisions. Un portfolio de travaux, dautres tests passs pendant une priode donne ainsi que dautres sources peuvent
apporter des preuves supplmentaires.
1.4.
Ethique et quit
1.4.1. Les consquences sociales de lvaluation : thique et quit

Messick (1989) plaide en faveur du rle critique des valeurs et des consquences des tests comme tant partie intgrante de
la fiabilit. Son influence a conduit une plus grande attention envers la valeur sociale des tests ainsi quenvers leurs
consquences pour les PERSONNES CONCERNES. Les effets et les consquences des tests comprennent les rsultats prvus (et
heureusement positifs) de lvaluation ainsi que les effets secondaires imprvus et parfois ngatifs. Lapparition dun
nouveau test peut par exemple affecter (positivement ou ngativement) la faon dont les enseignants enseignent
( limpact ).
Il se peut que les organismes certificateurs conduisent des recherches sur les effets et limpact afin den apprendre plus sur
les consquences sociales de leur test. On peut faire ce type de recherche une toute petite chelle. En situation de classe,
on peut voir si les tudiants privilgient certains aspects du programme aux dpends dautres aspects, car ils mettent laccent
sur la passation du test. Il peut y avoir dautres pistes pour stimuler le travail sur les aspects ngligs, y compris en changeant
lobjectif du test.
1.4.2. Lquit
Les organismes certificateurs ont comme objectif de rendre leur test le plus juste possible. Voir le Code de pratiques pour une
valuation quitable en ducation (JCTP 1988) et les Standards pour une valuation en ducation et psychologie (AERA et al.
1999).
Les Standards de 1999 mentionnent trois aspects de lquit : lquit en tant quabsence de biais, lquit en tant que
traitement quitable dans le processus de lvaluation et lquit en tant qugalit dans les rsultats de lvaluation.
Louvrage de Kunnan Cadre de rfrence sur lquit des tests (Kunnan 2000a, 2000b, 2004, 2008) met laccent sur cinq
aspects de lvaluation en langue, incontournables pour obtenir lquit : la validit (cf. Section 1.2), labsence de biais (cf.
annexe VII), laccs, ladministration (cf. Section 4) et les consquences sociales.
De nombreux organismes ont rdig des Codes de pratiques ou des Codes dquit, pour aider les organismes certificateurs
grer les aspects pratiques permettant dassurer lquit des tests.
Lors de la conception des tests et des examens, les organismes certificateurs peuvent essayer de minimiser les biais. Certains
sujets (par exemple les coutumes locales) peuvent avantager ou dsavantager certains groupes de candidats (par exemple
ceux qui viennent de pays o les coutumes sont trs diffrentes). On peut donner aux rdacteurs ditems une liste de sujets
viter. Des groupes significatifs de candidats peuvent comprendre ceux qui sont dfinis par lge, le sexe ou la nationalit
bien que cela dpende de la situation dvaluation (cf. 3.4.1).
1.4.3. Proccupations thiques

On a commenc sintresser aux proccupations thiques depuis le dbut des annes 80. Spolsky en particulier (1981), a
mis en garde contre les consquences ngatives que les tests de langue forts enjeux pouvaient avoir pour des individus et a
affirm que les tests de langues devaient, au mme titre que les mdicaments, porter la mention utiliser avec
prcaution . Il a en particulier mis laccent sur un usage spcifique des tests de langues, par exemple dans le contexte de
limmigration, o les dcisions prises sur la base des rsultats un test peuvent avoir de graves et radicales consquences
pour la personne.
LAssociation internationale des tests de langue (ILTA) a publi son Code dthique en 2000 ; il propose des conseils gnraux
sur la faon dont les organismes certificateurs doivent se comporter ce sujet.
Les organismes certificateurs doivent sassurer de la bonne diffusion et comprhension des bons principes parmi les
membres de leurs organisations. Cela permettra de sassurer que lorganisme applique bien les directives proposes.
Dautres mesures peuvent galement convenir pour certains aspects de lquit dun test (cf. Section 4 et Annexe VII).
19
1.5.
Organisation du travail
Les tapes de llaboration et de lutilisation dun test se prsentent sous la forme dun cycle dans lequel la russite une
tape dpend des conclusions de ltape prcdente. Cest pourquoi il est important de bien grer lensemble du cycle. Il faut
galement prendre en considration la collecte des preuves, puisquelles entreront en jeu dans les dcisions importantes qui
seront prises au cours du processus.
1.5.1. Les tapes du travail

La figure 5 illustre les tapes de llaboration dun nouveau test ou dun nouvel examen. Tout commence avec la dcision de
concevoir un test, prise par lorganisme certificateur ou quelquun dautre, comme un directeur dcole, un bureau
administratif ou un ministre. Vient ensuite ltape dlaboration du test, suivie par les tapes en liaison avec lutilisation du
test. La ralisation de chaque tape repose sur lachvement dun grand nombre de petites tches lintrieur de cette
tape. Lensemble de ces tches est conu pour rpondre aux objectifs lists dans les cases de droite du diagramme. Une
flche de dure indique que les tapes se suivent de faon conscutive, car les donnes de sortie dune tape sont
ncessaires au dmarrage de ltape suivante. Une fois le test labor, les phases de lutilisation peuvent tre rptes un
grand nombre de fois, en utilisant les donnes (les spcifications du test) de la phase dlaboration. Cest ce qui permet
llaboration de diffrentes FORMES EQUIVALENTES du mme test.
Dcision de concevoir
Preuve
Elaboration du test
Elaboration
But : produire des spcifications
Assemblage
But : produire du matriel pour la passation
But : recueillir de linformation sur chaque capacit du candidat
Preuve
Passation
Dure
Utilisation du test
Correction
But : fournir chaque candidat une correction exacte et fiable
Notation
But : traduire la performance de chaque candidat en une catgorie qui

permette la comprhension des rsultats
Dlivrance des
rsultats
But : fournir aux candidats et aux autres parties concernes, des rsultats et
des informations utiles une bonne interprtation
Figure 5. Lessentiel du cycle dlaboration dun test

Les tapes illustres par la figure 5 sappliquent tout projet dlaboration de test, quelle que soit la taille de lorganisme
certificateur.
Chacune des tapes reprsentes dans la figure 5 comporte de nombreuses micro-tches et de nombreuses activits.
Elles sont dtailles dans les sections suivantes du Manuel. Le processus dlaboration des tches doit tre standardis afin
de sassurer que chaque test produit soit sensiblement semblable aux versions prcdentes.
Le recueil et lutilisation de preuves apparat dans les cases de gauche du diagramme. Les preuves, qui peuvent tre une
information contextuelle concernant le candidat, un retour dinformation de la part des personnes impliques, les rponses
des candidats aux tches et items, le temps quils ont mis raliser certaines tches, sont importantes en tant que
vrification continue du bon processus dlaboration ainsi que, par la suite, pour faire la preuve de la validit des utilisations
indiques des rsultats du test.
Veillez systmatiquement runir et utiliser de telles preuves faute de quoi cette activit importante risque dtre oublie au
cours du processus dlaboration.
20
1.6.
Questions-cls
Quels aspects du modle dutilisation du langage du CECR conviennent le mieux votre situation ?
Quels niveaux de comptence du CECR conviennent le mieux ?
De quelle faon aimeriez-vous que les rsultats obtenus votre test soient compris et interprts ?
Dans votre situation, quest-ce qui mettrait la fiabilit le plus en danger ?
De quelle faon pouvez-vous assurer que votre travail est la fois thique et quitable pour les candidats ?
Quels dfis devez-vous relever lors de lorganisation de votre cycle dvaluation ?
1.7.
Lectures complmentaires
MODLES DUTILISATION DU LANGAGE

Fulcher et Davidson (2007 :36-51) dbattent plus avant des concepts et des modles.
VALIDIT
ALTE (2005 :19) propose un rsum utile des types de validit ainsi que le contexte de lacception moderne de la validit.
Kane (2004, 2006, Mislevy, Steinberg et Almond (2003) examinent les questions lies aux argumentaires sur la validit
(prsente dans lannexe I de ce manuel) et donnent de plus amples conseils sur la faon de les dvelopper.
FIABILIT
Traub et Rowley (1991) et Frisbie (1998) abordent tous deux simplement la fiabilit des notes (du score) obtenues. Parkes
(2007) illustre quand et comment linformation venant dun seul test peut tre complte avec dautres preuves pour
pouvoir prendre des dcisions concernant les candidats.
THIQUE ET QUIT
Depuis le dbut des annes 90, des Codes de pratique spcialiss pour les valuateurs ont galement t rdigs par des
associations professionnelles sur lvaluation en langue, par exemple :
Le Code de pratique dALTE (1994)
Les Conseils pour une pratique dILTA (2007)
Les Conseils pour une bonne pratique dans les tests de langue et lvaluation dEALTA (2006)
Dans les annes 90, une dition spciale des Tests de langue, avec la contribution dAlan Davies (1997) mettait laccent sur
lthique dans les tests de langue et une confrence sur Lthique dans lvaluation en langues tait organise en 2002
Pasadena. Les actes de cet vnement ont permis une dition spciale de la revue trimestrielle Lvaluation en langues
(galement avec la contribution dAlan Davies en 2004). McNamara et Roever (2006) ont list les revues sur lquit et les
Codes dthique pour les examens.
Plusieurs articles de Lvaluation en langues davril 2010 mettent laccent sur la collecte des preuves pour lquit des tests
et sur la faon de les prsenter sous forme dargumentaire (Davies 2010, Kane 2010, Xi 2010).
21
2. Llaboration du test ou de lexamen

2.1. Le processus dlaboration
Llaboration du test ou de lexamen a pour objectif de produire des spcifications qui serviront concevoir les examens
passs par les candidats (lpreuve finale). Cette laboration commence quand une personne ou une organisation (le
commanditaire) dcide quun nouvel examen est ncessaire. La figure 6 dcrit le processus dlaboration de lexamen qui
comprend trois tapes indispensables (la planification, la conception, lexprimentation) et une autre tape (linformation
auprs des parties prenantes) qui peut savrer ncessaire selon les contextes. Cest que la diffusion de linformation ne fait
pas partie, comme les autres tapes, de llaboration des spcifications. Son objectif est avant tout dinformer les intresss
de lexistence du nouvel examen.
Un diagramme plus dtaill est disponible en Annexe II.
Dcision de
fournir un test
ou un examen
Elaboration du test ou de lexamen

Planificatio
n
Conception
Exprimentation
Information des
partenaires
Spcifications
de lpreuve
finale
Figure 6 Processus dlaboration de lexamen
2.2. La dcision de produire un test ou un examen

Cette dcision ne fait pas vraiment partie du processus dlaboration mais elle fournit des informations importantes dans la
mesure o les besoins exprims par le commanditaire auront une influence dterminante sur la conception de lexamen et
son utilisation.
Qui dcide de la ncessit dun nouvel examen ? Dans certains cas la dcision vient de lorganisme certificateur qui se charge
du processus dlaboration. Elle peut aussi venir dun commanditaire qui a besoin dun nouvel examen.
Dans les deux cas, il faut que les besoins soient clairement identifis, ce qui suppose un travail supplmentaire de la part de
ceux qui vont laborer lexamen. Il est souvent plus difficile de comprendre les intentions dun commanditaire qui ne fait pas
partie de lorganisation qui produit lexamen ou qui na aucune expertise en valuation ou dans lenseignement des langues.
Dans ce dernier cas, il ne connait pas les informations dont un concepteur a besoin.
2.3. La planification
Cette tape consiste rechercher les informations ncessaires dans les tapes ultrieures. En principe la plupart de ces
informations devraient tre fournies par le commanditaire. Il est cependant recommand de sadresser aux parties
prenantes telles que les diffrents ministres concerns, les diteurs, les tablissements scolaires, les parents, les experts, les
employeurs, les centres denseignement et les administrations. Si un nombre important de personnes doit tre consult, il
faut prparer des questionnaires et organiser des sminaires pour transmettre linformation dsire. Par contre, en situation
de classe, la connaissance personnelle du contexte et des candidats est suffisante.
Les concepteurs de test ou dexamens doivent imprativement poser les questions suivantes :
Quelles sont les caractristiques des candidats qui vont passer le test ou lexamen (ge, genre, situation sociale,
niveau dtudes, langue maternelle, etc.) ?
Quel est lobjectif du test ou de lexamen? (certificat de fin de scolarit, admission un programme denseignement,
minimum requis dans un domaine professionnel, valuation formative ou diagnostic, etc.) ?
Quel est le contexte ducatif dans lequel sinscrit le test ou lexamen? (un programme, une approche
mthodologique, des objectif dapprentissage, etc.)
Quelle est la norme requise par lobjectif propos? (un niveau du CECR dans certaines capacits langagires, dans
toutes les comptences, une norme relie un domaine spcifique, etc.) ?
Comment les rsultats du test ou de lexamen seront-ils utiliss ?
Le concepteur du test ou de lexamen pourra, grce aux rponses apportes aux questions prcdentes, commencer
dfinir les capacits langagires valuer, dcider des points de csure (cf. partie 5) et de la faon de prsenter et
dexpliquer les rsultats aux utilisateurs (voir partie5).
Les questions portant sur limpact du test ou de lexamen peuvent tre utiles :
Qui sont les parties prenantes ?
Quel type dimpact est recherch?
A quel impact peut-on sattendre ?
22
Et enfin, il ne faut pas oublier des questions dordre pratique :
Combien de candidats sont attendus ?

A quel moment le test ou de lexamen doit-il tre prt ?
Comment le test ou de lexamen sera-t-il financ et quel est le budget allou ?
Combien de fois lexamen sera-t-il pass ?
O va-t-il tre pass ?
Sous quelle forme doit-il tre livr ? (par exemple, papier ou lectronique)
Quel sera le ou la responsable de chaque tape dlaboration du test ou de lexamen? (par exemple la production
du matriel et la conception du test ou de lexamen, la passation, la notation, la communication des rsultats)
Quelles seront les implications en termes de scurit (par exemple sera-t-il ncessaire dutiliser une ou plusieurs
versions du test ou de lexamen?)
Comment le suivi long terme va-t-il tre assur ?
Est-ce quil sera possible de faire des prtests ?
Quelles sont les implications en termes logistiques ? (par exemple, lorganisme certificateur devra-t-il prendre en
compte la situation dautres institutions telles que les centres dexamens ?)
2.4. La conception
Ltape de la conception commence une fois que toutes les informations de la prcdente tape ont t recueillies. Cest le
moment de prendre des dcisions importantes sur la nature du test et dlaborer les premires spcifications. Ces
spcifications dcrivent la structure densemble du test et les diffrentes parties du contenu. Les spcifications dtailles qui
concernent les rdacteurs ditems ainsi que les personnes impliques dans la distribution des tests et lorganisation de leur
passation peuvent tre rdiges une fois que les premires spcifications ont t agres.
2.4.1 Premires proccupations

Le premier dfi relever dans cette tape est davoir une ide prcise du contenu du test ou de lexamen et de son format.
On partira des informations recueillies concernant les besoins et le contexte : caractristiques des candidats, objectif du test
et le niveau de capacit langagire requis.
Le CECR et tout particulirement les chapitres du CECR consacrs lvaluation sont une source prcieuse dinformations
pour dfinir les caractristiques du test ou de lexamen.
Le chapitre 6 sur lapprentissage et lenseignement des langues concerne les objectifs dapprentissage et la
mthodologie de lenseignement, deux aspects qui ont un impact sur le type, le contenu et la fonction des tests ou
des examens.
Le chapitre 7 sur les TACHES et leur rle dans lenseignement des langues influe sur la faon de les utiliser dans
lvaluation.
Le chapitre 9 sur lvaluation traite de la faon dutiliser le CECR en fonction des diffrents objectifs dvaluation.
Les chapitres 4 et 5 qui traitent du contenu du test et des capacits langagires valuer sont les plus pertinents. Ils
offrent au concepteur de test ou dexamen un large ventail doptions choisir dans lapproche actionnelle et le modle
de langue en usage (cf. 1.1) proposs dans le CECR. Cela concerne par exemple:
lobjet principal de la tche : la comprhension dtaille dun texte, etc. (cf. chapitre 4.4 et 4.5 du CECR) ;
lobjet de lvaluation : les capacits langagires, les comptences et stratgies (cf. CECR chap. 5) ;
les genres et les types de textes utiliss comme supports (cf. CECR chap. 4.1 et 4.6) ;
des propositions de thmes (cf. CECR chap. 4.1 et 4.2) ;
des types de dclencheurs utiliss dans des tests de production orale (cf. CECR chap. 4.3 et 4.4) ;
des types de situations de la vie quotidienne familires aux candidats (cf. CECR chap. 4.1 et 4.3) ;
le niveau de performance correspondant ces situations (voir les nombreux niveaux de savoir-faire (can
dos) du CECR ;
des critres pour valuer des tches dcriture crative et des tests de production orale (voir les niveaux
correspondant reprsentatifs de savoir-faire (can dos) du CECR par exemple pages 58 et 74, etc.).
Lorganisme certificateur doit galement prciser les caractristiques techniques du test ou de lexamen, savoir :
23
la dure. Un candidat moyen devrait disposer dassez de temps pour rpondre tous les items du test ou de
lexamen sans avoir se presser. Lessentiel est que les candidats aient loccasion de montrer leur capacit
relle. Il est sans doute ncessaire quun valuateur expriment sen charge mais quelques chantillons
peuvent tre consults (cf. 2.8 Lectures complmentaires ). La dure peut tre modifie aprs
exprimentation ou passation en situation relle). Il arrive que des tests minuts soient utiliss, dans lesquels
on demande aux candidats de rpondre en un temps limite aux items. Dans ce cas aussi, une exprimentation
doit avoir lieu ;
le nombre ditems ou de questions. Il faut en avoir assez pour couvrir le contenu ncessaire et pouvoir donner
une apprciation fiable des capacits du candidat. La longueur du test ou de lexamen est cependant limite
pour des raisons pratiques ;
le nombre ditems par partie. Si le test ou lexamen a pour objectif de mesurer de faon fiable les diffrents
aspects de la capacit langagire, il faut un nombre suffisant ditems par partie. On peut consulter des
chantillons et calculer la fiabilit. (cf. annexe VII) ;
le type ditems. Des items peuvent induire des rponses choisir ou fournir. Les items choix de rponse sont
les questions choix multiple, les appariements ou les classements. Dans les items comportant des rponses
donner, celles-ci peuvent tre courtes (exercices de phrases complter par un mot ou plus). Pour connatre les
avantages et les inconvnients des diffrents types ditems, consulter ALTE (2005 :111-34) ;
la longueur totale des textes et celle de chaque texte mesure en nombre de mots. Des exemples peuvent
donner une ide de la longueur communment admise (cf. 2.8 Lectures complmentaires ) ;
le format. Un examen items discrets consiste en un examen comprenant des items indpendants les uns
des autres. Dans un test conu sur le principe des tches, les items sont groups et ont par exemple pour
support un texte de comprhension orale ou crite. Ces tests conus partir de tches conviennent en gnral
beaucoup plus lvaluation de type communicative car les stimuli utilisables sont plus longs et plus
authentiques.(Pour plus dinformations sur les types ditems, voir ALTE 2005 :135-47) ;
le nombre de points donner chaque item et chaque tche ou partie sachant que leur importance grandira
avec le nombre de points qui leur sera attribu. On recommande en gnral dattribuer un point par item. Il est
parfois ncessaire de donner plus de poids tel ou tel item. (cf. annexe VII) ;
les caractristiques des ECHELLES DE NOTATION. Va-t-on procder par tches, quelle sera lventail de lchelle,
cette chelle sera-t-elle analytique ou holistique ? (cf. 2.5 et 5.1.3 o il est question des chelles de notation).
Ltape de conception se termine une fois que seront prises les dcisions concernant les objectifs du test ou de lexamen, les
capacits langagires et les contenus valuer ainsi que les dtails techniques de son utilisation. Il faut aussi penser
lvaluation des tches, llaboration des chelles de notation des productions orales et crites, (cf. 2.5), la faon
dorganiser la passation des tests ou des examens (cf. partie 4) et la formation des correcteurs et des examinateurs (cf.
5.1.3). Toutes les parties prenantes devraient alors revoir ces propositions de faon dtaille afin de pouvoir en faire une
estimation srieuse.
Il faut galement prendre en compte la communication avec les candidats et les parties prenantes sur les sujets suivants :
le nombre dheures requis si des cours de prparation au test ou lexamen sont ncessaires ;
la mise disposition dexemples de tests ou dexamen ;
linformation transmettre aux utilisateurs (toutes les parties prenantes concernes) avant et aprs le test ou
lexamen.
Enfin, la prise en compte des attentes des partenaires :
ladquation du test ou de lexamen avec le systme en place en termes dobjectifs de programme et de pratique de
classe ;
ladquation du test ou de lexamen avec les attentes des parties prenantes.
Le chapitre 4 du CECR fournit un schma de rfrence trs utile qui met laccent sur les caractristiques de tout test ou
examen en voie dlaboration. Un diagramme en reprend lessentiel. Cette approche est illustre dans lannexe III de ce
Manuel. Lexamen donn en exemple est destin des candidats de niveau B2, apprenant la langue en contexte
professionnel. Il comprend quatre parties. On y trouve la fois une vue densemble du contenu de lexamen et une
description gnrale de chaque partie.
2.4.2 Comment tenir compte la fois des exigences propres au test ou lexamen et des
considrations dordre pratique
A cette tape de llaboration du test ou de lexamen, il faut mettre en rapport la structure propose avec les contraintes
dordre pratique. Le dtail de ces contraintes est recueilli ltape de la planification, en mme temps que les exigences
24
propres lexamen (partie 2.3). Le concepteur doit concilier les exigences et les contraintes, et avoir laccord du
commanditaire. Pour ce faire, Bachman et Palmer (1996, chap. 2) proposent un cadre traduisant le concept dutilit du test.
Selon eux, les qualits propres ce concept sont:
La validit : les interprtations des notes obtenues ou dautres rsultats sont significatives et appropries.
La fidlit : les rsultats fournis sont constants et stables.
Lauthenticit : les tches refltent des situations langagires de la vie relle dans les centres dintrt de
lutilisateur.
Linteractivit : les tches mettent en uvre les mmes processus et stratgies que celles mises en uvre dans des
tches de la vie relle.
Limpact : leffet du test ou de lexamen, que lon espre positif, sur les personnes, les pratiques de classe et plus
largement la socit.
Lapplication : on doit pouvoir laborer, produire et organiser la passation du test ou de lexamen tel quil est
planifi avec les ressources disponibles.
Il se peut que ces qualits se contredisent : ainsi plus une tche est authentique moins elle est fidle. Cest pour cette
raison quil faut constamment rechercher un quilibre qui renforce lutilit du test dans son ensemble.
2.4.3 Spcifications du test ou de lexamen

Le rsultat de ltape dlaboration constitue un ensemble complet de spcifications. La premire version de ces
spcifications inclut des dcisions concernant une grande partie des points abords ci-dessus. La version finale des
spcifications sera rdige aprs ltape dexprimentation (cf. 2.5). Les spcifications sont dautant plus importantes
que lenjeu du test ou de lexamen est grand. Elles sont loutil mme qui atteste de la qualit du test ou de lexamen et
montre aux autres que les interprtations des rsultats sont valides.
Mais les spcifications sont tout aussi importantes pour les tests ou les examens dont lenjeu est moindre. Elles sont une
garantie que les formes du test ou de lexamen ont les mmes bases et quil tient rigoureusement compte du
programme et du contexte dvaluation.
La rdaction des spcifications peut varier en fonction des besoins de lorganisme certificateur et de la population
concerne. Les modles de spcifications labors (cf. 2.8 Lectures complmentaires ,) peuvent servir de rfrence.
2.5 Lexprimentation
Lobjectif de cette tape est de tester sur le terrain les premires versions des spcifications afin de faire les
changements ncessaires en tenant compte des rsultats de lexprience et des propositions des parties concernes.
Une fois les spcifications rdiges, on passe la fabrication dchantillons du matriel. Pour ce faire, on peut se rfrer
la partie 3 de ce Manuel. On peut collecter ce matriel de diffrentes faons :
faire un test pilote (demander quelques candidats de passer le test ou lexamen) et analyser les rponses
donnes (cf. 3.4 et VII). ;
consulter des collgues ;
consulter dautres parties prenantes.
Le test pilote doit tre propos des candidats dont les caractristiques (ge, sexe, ) sont les mmes que celles des
candidats au test ou lexamen final. La passation du test pilote doit avoir lieu dans les mmes conditions que celles de
lpreuve finale. Mais mme si toutes les conditions ne sont pas remplies (par exemple, manque de temps pour faire passer
tout le test, nombre insuffisant de candidats), la phase pilote sera quand mme utile. Elle peut fournir des renseignements
sur la dure allouer chaque tche, sur la clart des consignes accompagnant les tches, sur la mise en page pour les
rponses, etc. Pour la production orale, il est recommand dobserver (par exemple en les enregistrant) les performances
orales.
La consultation des collgues ou des parties concernes peut se faire de diffrentes faons. Soit en face face sil sagit de
petits groupes, soit sous forme de questionnaires ou de rapports denqute sil sagit de projets plus importants.
Les renseignements que fournit cette phase pilote peuvent galement donner lieu la conception de graphiques et
dchelles de notation assez dtaills (cf. 5.1.3 pour les lments de ces chelles). Les performances des candidats sont les
plus mme dillustrer les niveaux de comptences et de fournir ces lments. Cest partir de ces derniers que seront
rdigs les descripteurs de chaque niveau. Une fois labores, les chelles de niveau doivent passer par ltape du test pilote
25
et une analyse la fois qualitative et quantitative doit tre faite sur la faon dont elles ont t utilises par les examinateurs
(cf. annexe VII). Il se peut que dautres tests pilotes et des modifications soient ncessaires.
Il faudra peut-tre mener dautres recherches pour rpondre aux questions qui se sont poses durant ltape
dexprimentation. Les donnes du test pilote peuvent y rpondre et des tudes spcifiques peuvent tre entreprises. On
peut par exemple se demander :
si les types de tches que nous voulons utiliser conviennent la population qui va passer le test (par exemple des
enfants) ;
si les types de tche correspondent au domaine cibl (par exemple le tourisme ou le droit ;
si les items et les tches valuent vritablement la comptence concerne ? Des techniques statistiques peuvent
tre utilises pour dcider quel point les items et les tches choisies valuent les diffrents aspects de lactivit
langagire (cf. annexe VII) ;
si les examinateurs vont tre capables dinterprter et dutiliser correctement les chelles de notation et les critres
dvaluation ;
quand un test doit tre rvis, sil est ncessaire de faire une tude de comparabilit pour sassurer que le nouveau
test ou le nouvel examen fonctionnera de la mme faon que le prcdent ;
si les items et les tches font appel aux processus cognitifs prvus du candidat. On peut sen assurer en mettant en
place des protocoles verbaux au cours desquels les apprenants expriment ces processus quand ils accomplissent ces
tches.
La rdaction des spcifications peut donner lieu plusieurs versions avant la version du test ou de lexamen final.
2.6. Linformation des parties concernes

Les spcifications peuvent tre usage multiple : servir aux rdacteurs ditems et aux enseignants qui veulent prparer leurs
lves lexamen et adapter leurs programmes. Cela implique llaboration de diffrentes versions en fonction des acteurs
concerns. On peut par exemple rdiger lintention de ceux qui prparent lexamen, une version simplifie comprenant
les lments linguistiques (lexique, grammaire), les thmes, le format, etc. Une version beaucoup plus labore sera
destine aux rdacteurs ditems.
Outre ces spcifications, les parties concernes voudront voir des exemples dpreuves (pour plus dinformation sur la
fabrication du matriel, voir partie 3). Ces exemples peuvent comporter, non seulement les preuves sur papier mais aussi
les enregistrements audio ou vido des preuves de comprhension orale. Ce matriel peut servir en classe la prparation
lexamen. Par la suite, des preuves dexamens dj passes pourront tre utilises.
Les rponses donnes dans les tches de production orale et crite doivent galement faire partie des chantillons,
condition que le matriel ait t prtest ou quil ait dj t utilis dans un test ou un examen final. On peut aussi donner
des conseils aux candidats pour les aider se prparer.
Quel que soit le matriel, il doit parvenir aux intresss en temps utile, bien avant les dates de passation. Il en est de mme
pour les rglements, les responsabilits des uns et des autres, les calendriers.
2.7. Questions cls
Qui a pris la dcision dorganiser un test ou un examen et pour quel objectif et quel usage?
Quel sera limpact en termes denseignement et sur la socit ?
Quel type et quel niveau de performance langagire doivent tre valus ?
Quel type de tches est ncessaire pour y arriver ?
Quelles sont les ressources pratiques disponibles ? (locaux, personnel)
Qui doit faire partie de lquipe de rdaction des spcifications et dlaboration des lments des chantillons du
test ou de lexamen ? (en termes dexpertise, dinfluence, dautorit, etc.)
En quels termes le contenu, les dtails techniques et de procdure du test ou de lexamen seront-ils dcrits dans les
spcifications ?
Quel type de renseignements doit-on donner aux utilisateurs (une version publiable des spcifications) et comment
la diffuser ?
Comment le test ou lexamen peut-il tre expriment ?
Comment les parties prenantes peuvent-elles sinformer sur le test ou lexamen, ?
26
2.8 Lectures complmentaires

Ceux qui sont impliqus dans llaboration de tests ou dexamens et qui veulent comprendre les niveaux du CECR, trouveront
de nombreux exemples dans le CECR lui-mme. Voir le Conseil de lEurope (2006a, b; 2005), Eurocentres / Fdration des
Coopratives Migros (2004), University of Cambridge ESOL Examinations (2004), CIEP / Eurocentres (2005), Bolton,
Glaboniat, Lorenz, Perlmann-Balme et Steiner (2008), Grego Bolli (2008), Conseil de lEurope et CIEP (2009), CIEP (2009).
Des exemples dintituls de spcifications sont disponibles dans Bachman et Palmer (1996:33534), Alderson, Clapham et
Wall (1995:1417) et Davidson et Lynch (2002:2032).
Des modles de grilles dcrivant et comparant les tches sont disponibles : voir les membres de ALTE (2005a, b; 2007a, b),
Figueras, Kuijper, Tardieu, Nold and Takala (2005).
27
3 Assemblage du test ou de lexamen

3.1. Le processus dassemblage
Lobjectif de ltape dassemblage est de fournir les lments selon les donnes des spcifications afin que test ou lexamen
soit prt dans les dlais. Le processus dassemblage comprend trois grandes tapes, reprsentes dans la figure 7.
Assemblage
Spcifications
du test ou de
lexamen
Productio
n des
items
Contrle
qualit
Fabrication du test
ou de lexamen
Elments du
test ou de
lexamen final
Figure 7 Les grandes tapes du processus dassemblage du test ou de lexamen

Dans ce schma, la production des preuves du test ou de lexamen et la fabrication du test ou de lexamen lui-mme sont
considrs comme deux tapes distinctes car cette distinction permet de clarifier les objectifs de chaque tape. Il est
cependant possible den faire une seule tape. Lessentiel est le contrle qualit qui peut entraner, selon le rsultat, des
modifications.
3.2 Les premiers pas

Avant de produire les items, il faut :
recruter et former des rdacteurs ditems ;
assurer la gestion de cette production.
3.2.1 Le recrutement et la formation des rdacteurs ditems

Il se peut que les rdacteurs ditems soient ceux qui laborent aussi les preuves du test ou de lexamen. Dans ce cas, le
problme du recrutement et de la formation ne se pose pas car ils sont familiariss avec le test.
Dans le cas o il faut recruter des rdacteurs, le concepteur de test doit penser aux exigences professionnelles requises pour
ce travail. La comptence dans la langue concerne et la connaissance du contexte dvaluation font partie des critres. Il
nest pas ncessaire dinclure parmi les critres une bonne connaissance des tests ou examens existants ou des principes de
lvaluation dans la mesure o une formation peut tre mise en place (voir ALTE 2005) pour ce faire. La formation, le suivi et
lvaluation continus assureront le perfectionnement professionnel du rdacteur ditem.
Les professeurs de langue sont souvent les mieux placs pour tre de bons rdacteurs dans la mesure o ils ont une trs
bonne comprhension des apprenants et de la langue valuer. Ce travail leur conviendra dautant plus quils auront
prpar leurs lves la passation dun test ou dun examen similaire ou ont t impliqus comme correcteur ou
examinateur dpreuves orales. On peut leur demander de rdiger soit toutes les preuves soit une partie selon les besoins
de lorganisme certificateur.
3.2.2 La gestion des items produits

Lorganisme certificateur doit mettre en place un dispositif permettant de collecter, stocker et traiter les items. Ce dispositif
est dautant plus indispensable que le nombre ditems et de tches est important. Tous les items doivent tre soumis au
mme traitement dassurance qualit tel que la vrification et la passation du test pilote. Il est donc indispensable de
connatre lhistorique du traitement de chaque item et ce tout moment. Cela est indispensable quand la production ditems
et le nombre de personnes impliques chaque tape sont importants. Tout dispositif devrait au moins comprendre :
un numro didentification pour chaque item ;
une liste de contrle comprenant les tapes acheves, les modifications et dautres renseignements ;
un moyen de sassurer de la possibilit daccs aux items et aux renseignements concerns et de limpossibilit
daccs aux versions des tapes antrieures. La meilleure faon de sen assurer est de les stocker au mme endroit
ou de les transfrer par courriel aprs chaque tape de rdaction et de mise en forme.
28
3.3 La production des items

On demande aux rdacteurs de produire les items qui seront utiliss dans lpreuve finale. Dans le Manuel, nous appelons
cela passation de la commande . Les rdacteurs trouveront dans lannexe IV les renseignements qui peuvent les aider
accomplir cette tche. Ils doivent connatre le nombre et le type ditems ainsi que les dates de remise exiges.
Cette partie concerne essentiellement la description du matriel requis et les moyens de communiquer aux rdacteurs le
travail exig. Un compte rebours partir de la date de passation du test final permet de dcider de la date de remise des
lments demands.
3.3.1 Lvaluation de la demande

Pour fabriquer un test ou un examen, les organismes certificateurs doivent pouvoir faire leur choix parmi les items et les
tches produits. Il est difficile de connatre le nombre exact ditems ou de tches requis dans la mesure o dans la
constitution dun test ou dun examen il faut prendre en compte les types ditems, le thme, le niveau de langue (cf. 3.5). Par
consquent, il faut demander, lors de la commande, plus ditems que ceux qui seront utiliss dans le test, dautant que lon
sait que certains seront rejets ltape du contrle qualit.
3.3.2 La commande
La commande peut rpondre la ncessit davoir des items pour la passation dun test ou dun examen ou la constitution
dune banque ditems qui serviront ultrieurement la constitution dun test ou dun examen. Dans les deux cas, il faut
prvoir les dlais de production.
Il faut se mettre daccord sur un certain nombre de paramtres et formaliser cet accord, afin dviter tout malentendu. Il est
ncessaire, quand beaucoup de rdacteurs dhorizons divers sont impliqus, dtablir une liste officielle des exigences. Les
points ci-dessous, utiles quel que soit le cas de figure, doivent tre clairement et formellement indiqus.
Prcisions sur les lments attendus
Indiquer le nombre de textes, de tches et ditems requis ;
sagissant des textes, indiquer si les items doivent tre rdigs en mme temps que le texte ou sil faut attendre que
le texte soit accept pour le faire ;
pour la production orale avec un dclencheur visuel, indiquer sil faut fournir le dclencheur visuel et dans ce cas
quels types de dclencheurs sont requis ;
informer sur les problmes de droits de reproduction dimages ou de textes et la faon de les traiter ;
prciser quil faut donner la CL et la rpartition des points pour chaque item, y compris pour la rponse correcte ;
pour les tches de production crite, sassurer que les candidats vont pouvoir accomplir la tche en tenant compte
du lexique et de la capacit langagire de leur niveau, en prvoyant des rponses simples ;
indiquer le format standard de la rdaction de la tche.
Prcisions sur la prsentation attendue des items
Le document lectronique est ce qui convient le mieux car il peut tre facilement stock et le rdacteur peut
travailler partir dun modle qui assurera une prsentation cohrente ;
si un examen complet est requis, indiquer si les items doivent tre numrots en continu et si les parties se suivent
ou si chaque partie ou chaque exercice doit tre prsent sur une nouvelle feuille ;
penser la faon didentifier le rdacteur ditems, la date et lintitul de lexamen.
(Toutes ces prcisions peuvent tre indiques dans le guide du rdacteur ditems voir ci-dessous)
Prcisions sur les chances
Il est important que les rdacteurs sachent quand leur production va tre mise en forme et si on attend deux quils y
participent. Si les rdacteurs ne sont pas impliqus dans la suite du processus de production, il faut leur indiquer comment
leur travail sintgre au calendrier gnral de production afin quils comprennent limportance des chances quon leur
demande de respecter.
Prcisions supplmentaires, telles que les conditions demploi
Il faut prciser aux rdacteurs le type de contrat de travail auquel ils seront soumis, soit parce que le travail demand vient
en supplment de ce quils font dans leur tablissement ou leur entreprise, soit parce quils sont travailleurs indpendants.
On peut ne rmunrer que le matriel accept (ne pas payer le matriel rejet) ou ne payer quune partie la remise du
matriel et rgler le complment correspondant au matriel accept. On peut aussi avoir des tarifs diffrents selon le type
ditems ou donner une somme correspondant une partie de lexamen ou lexamen complet.
29
Les professeurs dun tablissement scolaire auxquels on aura demand de rdiger des items devront disposer dassez de
temps dans le cadre de leur emploi du temps.
Les documents suivants sont mettre la disposition des rdacteurs :
Des spcifications dtailles lintention des rdacteurs. Ces spcifications dont il faut souligner le caractre
confidentiel, dcrivent de faon plus dtaille que les spcifications destines au grand public, les conditions de
slection et de prsentation du matriel. Ces indications permettent de gagner du temps et dviter tout
malentendu sur ce que des rdacteurs peuvent considrer comme tant acceptable.
Des chantillons de matriel ou dpreuves dj passes.
Il est galement important que les rdacteurs aient des indications sur la population laquelle le test est destin :
lge, le sexe, le contexte linguistique (L1, Niveau dtudes) des candidats.
Enfin, selon la situation, dautres documents et consignes peuvent tre donns :
un formulaire dacceptation de la commande sign par le rdacteur ;

un accord crit selon lequel lorganisme certificateur a les droits de copyright du matriel ;
une liste ou un glossaire dfinissant ltendue et le niveau du lexique et des structures utiliser ;
un livret dinformations sur lorganisme certificateur.
3.4 Le contrle qualit

3.4.1 La vrification des nouveaux items
La qualit du matriel qui a t remis par les rdacteurs doit tre vrifie par des experts et les items doivent tre
expriments. Si des items doivent tre changs, une nouvelle vrification doit avoir lieu.
Lidal est que la vrification, qui est essentielle, ne soit pas mene par la personne qui a rdig les items. Les items et les
tches peuvent par exemple tre revus par des collgues. Dans le cas o un rdacteur travaille seul, le fait de laisser un
certain temps entre la production et la rvision, ainsi que la rvision en une seule fois dun ensemble peut renforcer
lobjectivit.
La premire dmarche consiste vrifier si le matriel est conforme aux spcifications et aux exigences formules la
commande. Il faut bien sr transmettre aux rdacteurs les conclusions de cette vrification afin quils revoient leur travail et
se perfectionnent. Celles-ci peuvent inclure des suggestions sur la faon de changer un item (cf. annexe V).
La commande peut ne concerner tout dabord que des textes sans items, le rdacteur ne produisant les items quaprs
acceptation du texte. Cette premire vrification ainsi que la rvision dun petit nombre ditems peut se faire rapidement. Il
faudra prvoir une runion spcifique si les items vrifier sont nombreux.
A ltape de la mise en forme, chaque item et chaque tche sont revus de faon plus dtaille et il est important que cette
rvision ne soit pas faite par la personne qui a produit le matriel. Les professeurs dun tablissement peuvent par exemple
changer leur production avec leurs collgues pour vrification.
Le nombre de personnes faisant partie du groupe charg de la mise en forme est un lment important : plus de quatre
ralentit le travail et moins de trois rend la diversit des points de vue insuffisante. Si plusieurs runions sont envisages, il est
souhaitable de dsigner un coordinateur qui organisera les runions en termes de dates, de personnes et de travail
effectuer.
On peut gagner du temps dans les runions en donnant le matriel lavance chaque membre qui travaillera de la faon
suivante :
des items sappuyant sur des textes doivent tre lus avant le texte. On peut ainsi reprer ceux auxquels on peut
rpondre sans se rfrer au texte (cest dire par bon sens ou grce la culture gnrale) ;
on rpondra aux autres items sans regarder la rponse, comme si on passait le test. Cela permettra didentifier les
items pour lesquels plus dune rponse correcte est possible, ceux qui sont mal formuls, les distracteurs
improbables ou les items qui sont difficiles ;
30
on vrifiera si la longueur ou la dure, le sujet, le style et le niveau de langue des textes de comprhension crite et
orale conviennent. Il est ncessaire de faire appel un expert ou ventuellement des rfrentiels pour la
vrification du niveau de langue.
Si la vrification se fait en groupe, tout problme relev dans le matriel sera discut en dtail par le groupe. Cela donne
souvent lieu de longues discussions sur le matriel et les rdacteurs doivent tre, ce qui nest pas toujours facile, capables
daccepter les critiques constructives et den formuler. Lorsquun rdacteur se sent oblig de justifier et dexpliquer certaines
de ses propositions des collgues expriments, cest quelles ont des faiblesses.
Le groupe dsigne un rapporteur qui recueillera de faon prcise et dtaille toutes les dcisions qui auront t prises et
rendra clairement compte de toute modification. Il est essentiel qu la fin de la runion tous soient daccord et quil ny ait
aucun doute sur les modifications dcides.
Cest lorganisme certificateur de prendre les dcisions finales et de clore les discussions.
Les points revoir de faon dtaille sont les suivants:
lattention donne aux consignes et la cl ;

la surveillance des biais lors de la rdaction ditems en se rfrant une liste de sujets viter et en prenant les
prcautions ncessaires (cf. annexe VII) ;
il se peut que certaines propositions soient potentiellement intressantes mais les modifications ne peuvent tre
faites pendant la runion. On rendra les items leur rdacteur qui apportera les changements ncessaires ou on les
confiera un rdacteur plus expriment pour quil apporte les corrections qui simposent ;
pour des raisons de scurit, aprs la runion, on dtruira toutes les copies dexemplaires supplmentaires du
matriel prpar et les copies de travail. Lorganisme certificateur garde les exemplaires rviss du matriel accept.
Les rdacteurs sont en droit dattendre de lorganisme certificateur une explication sur le matriel refus, surtout
sils nont pas particip la rvision ou taient absents lors du traitement de leur propre matriel ;
les runions de vrification offrent aux nouveaux rdacteurs une trs bonne occasion dapprendre travailler en
groupe avec des rdacteurs plus expriments.
3.4.2 Pilotage/test pilote, pr-test et exprimentation

Il est ncessaire de tester le matriel labor car les rponses des candidats peuvent tre inattendues.
Cela peut se faire soit sous la forme de la passation dun test pilote, dun prtest et dune exprimentation ou en combinant
les trois formes en fonction des objectifs et des moyens dont on dispose.
Le test pilote peut tre pass de faon informelle par un nombre restreint de personnes qui peuvent par exemple tre des
collgues. Leurs rponses sont analyses et leurs remarques prises en compte (cf. annexe VI) en vue de modifications
ventuelles.
Le prtest concerne avant tout les items qui donnent lieu une valuation objective (rception orale et crite).
Les conditions de passation du prtest sont les mmes que celles de lpreuve finale : les candidats sont identiques la
population attendue et le nombre de rponses sera suffisamment important pour mener bien des analyses statistiques. (cf.
annexe VII). Ces analyses montrent comment les choix ont fonctionn, la difficult dun item, la moyenne des rsultats, si le
test correspondait au niveau des candidats, les erreurs, les biais ventuels (cf. annexe VII), leur adquation gnrale au
concept, etc. Il existe, pour les analyses statistiques, du matriel peu sophistiqu et de moindre cot qui donne des
informations trs utiles.
Les tches qui donnent lieu une valuation subjective (production orale et crite) peuvent galement donner lieu des
analyses statistiques, mais des analyses qualitatives dun nombre rduit de rponses peuvent tre dune plus grande utilit.
On donne parfois le nom dexprimentation cette forme de prtest petite chelle pour la distinguer de celle du prtest
compos ditems de type objectif.
Lexprimentation permet de savoir si les tches fonctionnent et indiquent de faon explicite la performance attendue.
A la diffrence du test pilote, lorganisation du prtest est la mme que celle de lpreuve finale dans la mesure o il est
ncessaire davoir :
un grand nombre de candidats (cf. annexe VII) ;

des preuves rvises et scurises ;
31
des lieux de passation et du personnel ;

des correcteurs.
La population passant le prtest doit rellement avoir des caractristiques identiques celle qui va passer lpreuve finale
(ge, sexe). Lidal est de faire appel des apprenants se prparant passer un examen.
Pour les motiver participer et donner des rponses qui correspondent vraiment leur comptence, on leur proposera un
retour dinformations sur leur performance. Ces informations leur permettront ainsi qu leur professeur davoir une ide du
niveau atteint et de prendre conscience des domaines dans lesquelles ils doivent samliorer avant la passation de lpreuve
finale.
Le principal inconvnient de ce dispositif est le risque que lon fait courir lpreuve finale en termes de scurit. Cest
parfois la raison invoque par certains organismes certificateurs pour ne pas faire de prtest.
Pour rduire les risques, on recommande de ne pas prsenter les preuves sous leur forme dfinitive. Il faut par ailleurs
prvoir un laps de temps assez grand entre lutilisation dun item dans un pr-test et lutilisation du mme item dans
lpreuve finale. Dans le cas de prtests organiss ailleurs que dans lorganisme producteur du test, il faut donner au
personnel qui va sen occuper des consignes impratives de scurit et faire signer des engagements de confidentialit.
Il nest pas ncessaire que les preuves du prtest soit exactement identiques aux preuves de lexamen final dans la mesure
o ce sont les items et non pas le test lui-mme qui sont prtests. Il faut quand mme savoir que la motivation de ceux qui
vont passer le prtest sera dautant plus grande quils sauront que le format du prtest est trs proche de lpreuve finale. Il
est donc recommand de proposer un format quasi identique.
Quoi quil en soit, les conditions dorganisation de la passation du prtest doivent tre les mmes que celles de lpreuve
finale. Pour que les interprtations des donnes ne soient pas fausses, il est indispensable que les candidats au prtest
puissent se concentrer, ne trichent pas et que la dure du test soit la mme pour tous.
Quand la qualit des donnes statistiques est de premire importance (par exemple en cas de calibrage des items, cf. annexe
VII), il faut faire passer le prtest par un nombre important de candidats. Le nombre requis dpend des analyses effectuer.
On peut malgr tout dtecter des problmes que certains items peuvent poser avec un nombre rduit de candidats (moins
de 50). Avec des effectifs encore plus rduits, il vaut mieux faire des analyses qualitatives.
Il est galement essentiel de faire appel des candidats dont les caractristiques sont aussi proches que possibles que celles
des candidats au test final. Avec un chantillon plus petit et moins reprsentatif, des conclusions hasardeuses seront tires
des analyses et celles-ci devront tre rquilibres par le jugement dexperts lors de la rvision des items. Voir lannexe VII
pour plus de renseignements sur les analyses.
Si la passation dun prtest a pour but de recueillir des renseignements de type qualitatif sur les items, il faut tenir compte
des lments suivants pour optimiser cette opration :
pour des items dont lvaluation/correction est objective, il est possible de recueillir les renseignements fournis par
les candidats et les professeurs aprs la passation. On peut utiliser une liste de questions ou un questionnaire cet
effet (cf. annexe VI) ;
dans le cas de tches de production orale faisant intervenir un interlocuteur, linformation donne par ce dernier
peut tre dune grande utilit. Lorganisme certificateur saura si ltudiant a compris la tche, si elle est adapte
son exprience et son ge et si les informations donnes ont t suffisantes pour lui permettre de la raliser
correctement (cf. annexe VI) ;
dans le cas ditems et de tches dont lvaluation est subjective, les rponses des candidats montrent quel point
on leur a donn loccasion de sexprimer et de montrer ltendue des structures syntaxiques et du lexique attendue
au niveau du test ;
on peut galement recueillir des informations sur leur exprience en tant que candidat un prtest ainsi que
dautres informations concernant la session elle-mme.
3.4.3 La rvision des items

Il faut prvoir une runion de rvision des items aprs les phases de pilotage et de prtest. Participent cette runion
lorganisme certificateur, des rdacteurs expriments et, pour les items et les tches de production, un examinateur
expriment.
32
Le but de cette runion est de garder, amliorer ou rejeter les items en fonction des donnes du pilotage et du prtest. La
figure 8 montre quel moment les items qui doivent tre amliors repassent le test pilote et le prtest
Rejet
Edition
Test pilote /
pr-test
Rvision
Figure 8 Amlioration des items selon la procdure de lassurance qualit

La rvision du prtest traite des points suivants :
Quels items et tches sont prts tre utiliss tels quels dans lpreuve finale ?
Quels items et tches doivent tre rejets car ne convenant pas ?
Quels items et tches peuvent tre rcrits et prtests nouveau avant de les inclure dans lpreuve finale ?
La runion de rvision doit envisager de rpondre aux questions suivantes :
dans quelle mesure les rponses des candidats au prtest correspondaient celles de la population cible ?
Ladquation permettra dvaluer le degr de fiabilit des donnes des analyses ;
dans quelle mesure les tches et les thmes taient intressants et taient la porte des candidats ? Les
procdures ont-elles bien fonctionn ?
en ce qui concerne les items et les tches individuels, il est utile, pour valuer ceux qui donnent lieu une correction
subjective, dtudier un certain nombre de rponses de candidats. Dans le cas ditems valuation objective, on
pourra dceler des problmes grce aux analyses statistiques, quune rvision par des experts pourra confirmer et
corriger. Prudence, en revanche, si les donnes servant aux analyses sont insuffisantes (par exemple avec un petit
nombre de candidats ou des candidats qui ne conviennent pas). On peut galement donner une certaine importance
lapprciation qualitative des items et des tches ;
il faut avoir une approche cohrente et assurer un suivi des donnes concernant les tches qui ont pos problme
lors des analyses statistiques et qui se trouvent dans une banque ditems. On en verra lutilit lors de la fabrication
du test ou de lexamen. Voir lannexe VII pour plus dinformation sur les analyses statistiques.
3.5 La constitution du test ou de lexamen

Une fois le matriel disponible, les tests ou les examens peuvent tre constitus. Lobjectif de cette tape est de produire un
format de test qui rponde aux normes de qualit et corresponde aux spcifications requises.
Ltape de fabrication doit prendre en compte un certain nombre dlments tels que le contenu du test ou de lexamen et la
difficult de litem afin que de rpondre aux exigences des spcifications.
Certaines caractristiques du test ou de lexamen peuvent tre fixes partir des spcifications ou du format (par exemple le
nombre et le type ditems/de tches inclure), dautres peuvent rester plus souples (par exemple les thmes, les accents
diffrents, etc.). Des directives pourront tre donnes pour arriver un quilibre entre les caractristiques suivantes:
le niveau de difficult. Il peut tre dcid soit en faisant appel un jugement subjectif soit en se rfrant la
difficult moyenne des items du test et ltendue de difficult couverte (cf. annexe VII) ;
le contenu (thme) ;
ltendue (la reprsentativit des tches par rapport au concept) ;
la graduation ( savoir sil y a une graduation de la difficult dans le test).
Ces directives devraient concerner le test ou lexamen dans son ensemble, ainsi que ses diffrentes composantes, fin de
comparaison.
Dautres considrations pour certains types de tests ou dexamens sont prendre en compte. Par exemple dans une preuve
de comprhension crite comprenant plusieurs textes et items, il faut sassurer que les thmes ne sont pas rpts, que le
33
nombre de mots nest pas trop lev. De la mme faon, dans une preuve de comprhension orale, il faut assurer lquilibre
entre les voix fminines et masculines, les accents rgionaux (si cela est pertinent).
3.6 Questions cls
Comment le processus de production du matriel va-t-il tre organis ?

Peut-on disposer dune banque ditems ?
Qui va rdiger les preuves?
Quelles doivent tre les comptences professionnelles des rdacteurs ditems ?
Quelle formation doit tre donne ?
Qui va faire partie des runions de vrification?
Comment les runions de vrification seront-elles diriges ?
Est-il possible de prtester ou dexprimenter le matriel ?
Quelles peuvent tre les consquences si le matriel ne peut tre ni prtest ni expriment et quelle solution peuton trouver ?
Quel type danalyse doit tre fate des donnes sur les performances recueillies grce au prtest ?
Comment les analyses seront-elles analyses ? (par exemple en vue de llaboration de lpreuve finale, pour la
formation des rdacteurs ditems, etc.)
Qui va participer llaboration du test ou de lexamen ?
Quelles sont les variables dont il faut tenir compte et quel poids doit-on leur donner ? (par exemple le niveau de
difficult, le contenu thmatique, lventail du type ditems, etc.)
Quel sera le rle des analyses statistiques ? (par exemple en tablissant une difficult moyenne et ltendue de
difficult).
Quelle sera le poids des analyses statistiques par rapport aux informations venant dautres sources dans la prise de
dcision ?
Les lments du test ou de lexamen une fois assembls seront-ils contrls de faon indpendante ?
Comment les prsentations des diffrentes parties vont-elles sinscrire dans la prsentation gnrale du test ou de
lexamen et comment cette prsentation va-t-elle tre reprise dans une srie de tests ou dexamens?

Pour le manuel du rdacteur ditems, voir ALTE (2005)
Pour lanalyse des tches, voir ALTE (2004a,b,c,d,e,f,g,h,i,j,k).
Des rfrentiels de certaines langues en relation avec le CECR sont disponibles : rfrentiels de descripteurs de niveaux,
(Beacco et Porquier 2007,Beacco, Bouquet et Porquier 2004 ; Glaboniat, Mller, Rusch, Schmitz et Wertenschlag 2005 ;
Instituto Cervantes 2007 ; Spinelli et Parizzi 2010 ; www.englishprofile.org). Niveau Seuil (Van Ek et Trim 1991), Niveau
indpendant, (Van Ek et Trim 1990) et Matrise, (Van Ek et Trim 2001) sont des ouvrages antrieurs aux rfrentiels.
Lannexe VII comprend un complment dinformations sur la faon dutiliser les donnes statistiques.
4. La dlivrance des examens

4.1. Les objectifs de la dlivrance des examens
Lobjectif principal du processus de dlivrance des examens est de recueillir des renseignements prcis et fiable sur les
comptences de chaque candidat.
Les plus grands dfis auxquels la dlivrance des examens doit faire face sont dordre logistique. Il ne sagit pas ce niveau
damliorer la qualit du matriel comme prcdemment. Les organismes certificateurs doivent sassurer que :
la performance du candidat dpend avant tout de ses comptences langagires et le moins possible de facteurs
extrieurs tels que le bruit ou la triche ;
les rponses et les corrections du candidat sont recueillies de faon efficace et sre en vue de la correction et de
la notation ;
tout le matriel li lexamen soit livr au bon endroit et temps.
34
Toutes ces tches sont importantes, que lexamen soit organis sur une grande chelle ou localement. Le moindre dtail, tel
que lamnagement de la salle dexamen, a son importance.
Le recueil de plus amples informations sur le profil des candidats peut constituer un objectif supplmentaire. Ces
informations sont dautant plus utiles si lorganisme certificateur ne les connat pas. Une bonne connaissance des candidats
est un lment tangible de la validit (cf. annexes I et VII).
4.2. Le processus de dlivrance des examens

La figure 9 montre le processus de dlivrance de lexamen. Il se peut que, dans un contexte tel que la passation de lexamen
dans une salle de classe, certaines tapes telles que linscription des candidats ou la dlivrance du matriel ne posent pas de
problme. Il nen reste pas moins quil faut tre attentif aux conditions de passation telles que la taille de la salle, le bruit
environnant. Dans dautres contextes, il faut rsoudre des problmes de logistique beaucoup plus importants.
Dlivrance du test ou de lexamen
Items de
lpreuve finale
Organisation des
salles dexamen
Envoi du
matriel
Inscription des
candidats
Passation
Matriel
retourn
Retour du
matriel
Figure 9 Processus de dlivrance du test ou de lexamen
4.2.1. Organisation des salles dexamens

Les salles o se droulera lexamen doivent tre inspectes avant la passation. Cette inspection peut tre faite soit par
lorganisme certificateur soit par une personne de lcole o lexamen est organis et en laquelle lorganisme a confiance.
Dans le cas o la passation a lieu dans dautres centres, ceux-ci doivent avoir t agrs. Les critres dagrment sont les
suivants :
Espace suffisant pour accueillir le nombre prvu de candidats

Accs aux locaux
Scurit des conditions de stockage
Adoption sans rserve des rgles imposes par lorganisme certificateur
Formation du personnel aux procdures de lorganisme certificateur
Quand cest une tierce personne qui a trouv les centres de passation, lorganisme certificateur doit mettre en place un
dispositif dinspections alatoires afin de vrifier les conditions de passation faite en son nom.
Les critres servant aux inspections doivent toujours tre les mmes. Il est recommand de vrifier les conditions matrielles
avant chaque passation car les organisateurs de lexamen nont peut-tre pas toujours t informs de travaux en cours dans
le voisinage.
Les points vrifier sont les suivants :
Le bruit ambiant
Lacoustique de la salle (particulirement pour lpreuve de comprhension orale)
Les capacits daccueil (permettant un espace entre les tables)
La configuration de la salle (permettant aux surveillants de bien voir tous les candidats)
Laccs la salle
La mise disposition de toilettes et dune salle daccueil des candidats
Des lieux de stockage du matriel avant et aprs la passation comportant la scurit ncessaire
Les centres qui ne remplissent pas les conditions requises ou les organisations qui commettent des erreurs doivent tre
supprims de la liste dventuels lieux de passation ou de collaborateurs.
35
4.2.2 Linscription des candidats

Si lexamen a lieu la fin dun cours, il suffit alors davoir la liste des tudiants connus du professeur. Par contre, si
lorganisme certificateur ne connat pas les candidats ou si des candidats supplmentaires sont susceptibles de sinscrire, il
est alors indispensable de recueillir des informations sur eux. Un processus dinscription fournissant les informations
ncessaires pour la passation de lexamen et la remise des rsultats doit tre mis en place. Les candidats peuvent aussi
demander ce que les conditions dexamen soient adaptes leurs capacits rduites :
Personne sourde ou malentendante

Personne aveugle ou mal voyante
Personne dyslexique
Personne mobilit rduite
Il faut savoir valuer les diffrents types de demandes avec prcision pour prvoir lassistance ou la compensation
ncessaires. Il est donc recommand de mettre en place des procdures pour les demandes les plus communes comprenant
les preuves que le candidat doit fournir (par exemple la lettre dun mdecin), les dispositifs mettre en place et la date de la
demande.
Pour des besoins particuliers comme une mobilit trs rduite supposant une aide pour que le candidat accde sa place,
cette aide devrait pouvoir se trouver sur place.
Il est parfois ncessaire de prendre dautres mesures plus adaptes dans le cas par exemple de candidats ayant des difficults
lire (dyslexiques ou mal voyants). Par contre, il faut faire attention ne pas avantager certains candidats.
A ce stade, il est galement possible de recueillir des informations sur le contexte des candidats. Des informations sur le
profil des candidats peuvent permettre de tirer des conclusions importantes en termes de comparabilit des groupes qui se
prsentent lexamen. Ces informations concernent :
Le niveau des tudes

La premire langue apprise
Le sexe
Lge
Lexprience dapprentissage de la langue cible.
Il est indispensable que les candidats sachent pourquoi ces informations sont demandes, de mme quil faut que ces
donnes soient gardes en lieu sr et restent confidentielles afin dassurer tous les droits la vie prive des candidats.
Linscription est galement loccasion de fournir des informations aux candidats telles que les conditions dinscription, les
rgles respecter lors de la passation, les possibilits de faire appel et les moyens mis leur disposition pour une assistance
particulire. Il faut bien sr donner aux candidats toutes les informations ncessaires en particulier celles sur les lieux, les
jours et heures de passation. Pour une bonne diffusion, ces informations peuvent tre imprimes et distribues, disponibles
sur internet ou par courrier lectronique.
Linscription peut tre faite directement par lorganisme certificateur, les centres de passation ou des institutions
indpendantes telles que le ministre de lEducation. Dans la mesure du possible, lorganisme certificateur doit sassurer que
les modalits dinscription sont identiques pour tous les candidats.
4.2.3 Lenvoi du matriel

Il est parfois ncessaire denvoyer le matriel aux centres de passation. Le dispositif de transport doit tre scuris et prvoir
un suivi du matriel pour tre sr quil arrive destination temps.
Il est prfrable denvoyer le matriel bien avant la date prvue de lexamen pour viter tout retard et avoir ventuellement
le temps denvoyer des pices manquantes. Il faut de toute faon sassurer quune fois sur place le matriel est en lieu sr
pour toute la dure de lopration.
36
Les responsables de la passation doivent vrifier le contenu de lenvoi en comparant avec une liste du matriel. En cas de
matriel manquant ou endommag, les responsables suivent alors les procdures mises en place et demandent les pices
ajouter ou remplacer.
4.2.4 La passation de lexamen

Les centres dexamens doivent prvoir un nombre suffisant de personnel : surveillants, correcteurs, autres. Ces personnes
doivent connatre leurs responsabilits et quand beaucoup de monde est impliqu, un emploi du temps doit tre tabli.
Les directives de passation doivent comprendre des instructions pour le contrle des documents des candidats et ladmission
des retardataires.
Avant le dbut de lexamen, il faut donner des instructions prcises aux candidats sur la conduite tenir pendant lexamen :
prcisions sur le matriel non autoris, lutilisation des portables, les conditions pour quitter la salle, le dbut et la fin de la
passation. Il faut galement avertir des consquences en cas de bavardage ou de copiage.
Pendant la passation, il faut que les surveillants sachent comment ragir en cas de non-respect du rglement ou
dvnements prvisibles ou non, par exemple sils voient un candidat tricher, sil y a une panne dlectricit ou quelque
autre vnement provoquant un biais ou une injustice impliquant larrt de la passation. En ce qui concerne la tricherie, il
faut que les surveillants connaissent les moyens actuels tels que les enregistreurs digitaux, le MP3, les stylos qui scannent et
les portables avec une camra incluse.
Dans le cas dvnements non prvisibles, les surveillants doivent valuer le degr de gravit et prendre les initiatives
appropries puis rdiger un rapport indiquant tous les dtails de lincident comme le nombre de candidats concerns, lheure
et une description de lincident. On peut galement mettre disposition des surveillants un numro de tlphone durgence.
4.2.5 Le retour du matriel

Le matriel servant la passation est soit retourn lorganisme certificateur, soit dtruit. En cas de retour ds la fin de la
session, les centres joignent lenvoi les feuilles de prsence et les plans de disposition des tables dans la salle. Lenvoi du
matriel doit tre scuris, en utilisant le mme mode de transport que pour lenvoi. La socit qui soccupe de lenvoi doit
pouvoir assurer sa traabilit en cas de retard ou de perte.
4.3 Questions cls
Quelles sont les ressources disponibles pour la passation de lexamen ? (personnel administratif,
surveillants, salles, lecteurs de CD, etc.)
Comment former lquipe ?
Comment sassurer de la conformit des salles et du fonctionnement des lecteurs CD avant le jour de
lexamen ?
Quelle est la frquence des sessions ?
Combien de candidats sont attendus ?
Comment va se drouler linscription des candidats et lenregistrement de leur prsence ?
Combien de lieux de passation sont utiliss et sil y a plus dune salle, sont-elles regroupes ou disperses?
Comment acheminer le matriel dans les salles et le rcuprer ?
Quels sont les endroits scuriss o le matriel peut tre stock ?
Quel dysfonctionnement peut se produire et quelles sont les procdures et le rglement pour y rpondre ?
4.4 Lecture complmentaire

Voir ALTE (2006b) pour une liste de contrle dauto valuation pour la logistique et ladministration.
37
5 Correction, notation et dlivrance des rsultats

Le but de la correction est dvaluer la performance de tous les candidats et dassurer chacun une correction juste et fiable.
La notation, elle, vise placer chaque candidat dans une catgorie significative de faon ce que son score soit aisment
comprhensible. Une catgorie significative peut, par exemple, tre le niveau A2 ou C1 du CECR. Dlivrer les rsultats,
signifie fournir au candidat et aux parties concernes les rsultats au test ainsi que toute information ncessaire pour utiliser
ces rsultats correctement. Cela peut aller jusqu la dcision dengager ou non le candidat lissue dun entretien de
recrutement. La figure 10 propose une vue densemble du processus gnral. Lvaluation de la performance du candidat
peut cependant parfois avoir lieu en mme temps que lexamen. Cest le cas pour la production orale qui est parfois value
ainsi, bien que la note puisse tre ajuste par lorganisme certificateur avant la dlivrance des rsultats.
Matriel de test
retourn
Correction, notation et dlivrance des rsultats

Correction
Notation
Dlivrance des rsultats
Figure 10. Le processus de correction, notation et dlivrance des rsultats

Etapes prliminaires
Les tapes suivantes sont impratives avant dentreprendre la correction et la notation :
Dfinir lapproche choisie pour la correction
Recruter les CORRECTEURS et les EVALUATEURS
Former les correcteurs et les valuateurs
5.1 La correction
Le terme correction couvre toutes les activits qui permettent dattribuer une note aux rponses donnes un test ou un
examen. On fait souvent une diffrence entre le correcteur et lvaluateur, le premier tant moins qualifi que le second, qui
a lui, bnfici dune formation professionnelle. Cette distinction est faite dans cet ouvrage. Cette section couvre la
correction administrative (cest--dire humaine) ainsi que les machines corriger.
5.1.1
La correction humaine
Il nest nul besoin que les CORRECTEURS soient des experts en valuation par les tests il suffit quils aient un excellent niveau
de comptence dans la langue value. Pour mener bien leur travail, les correcteurs ont cependant besoin de formation et
de conseils ainsi que cls de rponses univoques. Si la correction est effectue par un petit groupe de collgues, ils peuvent
vrifier la qualit du travail des uns et des autres.
Le processus de correction doit tre gr de faon ce que les procdures respectent la planification prvue et que les
rsultats soient prts temps. La charge de travail de chacun des correcteurs ne doit pas tre trop leve, sous peine de
mettre en pril la fiabilit ou lexactitude des corrections.
Le recrutement et la formation des correcteurs
Dans sa forme la plus simple, lacte de corriger implique que le correcteur associe la rponse du candidat une question du
test, une ou plusieurs sries de rponses. Les questions choix multiple (QCM) en sont le plus clair exemple, puisquaucune
modification des choix donns nest possible. Lorsquil sagit de ce type de correction, les correcteurs doivent simplement
avoir une excellente connaissance du langage concern, tre attentifs aux dtails et tre prts accomplir des tches
rptitives. Aucune autre comptence particulire nest requise. Dans ce cas, la formation consiste en une familiarisation
avec les procdures suivre. Avec une technologie approprie, ce type de correction peut seffectuer aussi bien, voire mieux,
laide dune machine.
Dans le cas o la correction ncessite autre chose quun simple appariement entre questions et rponses, le correcteur peut
avoir besoin de connaissances sur la langue, sur la langue des apprenants et sur la construction du test. Selon le degr de
russite, par exemple, aux QUESTIONS A CREDIT PARTIEL on peut leur attribuer une note choisie dans une srie de note. Une
38
note peut par exemple tre attribue si le choix dun verbe sest rvl exact et une autre note si la forme correcte a t
utilise. Le correcteur doit avoir un niveau dexpertise adquat afin de pouvoir reconnatre une rponse incorrecte.
Pour des questions de ce type, il peut tre difficile de sassurer que la cl est suffisamment exhaustive. Cest pourquoi il est
utile que le correcteur puisse identifier et relever les diffrentes rponses rencontres.
Lorsque les correcteurs sont recruts de faon temporaire mais rgulire, il est utile de les valuer selon un certain nombre
de paramtres tels que la justesse, la fiabilit et la rapidit de correction. Les correcteurs ne donnant pas satisfaction
peuvent alors tre soit remercis, soit forms nouveau. Un tel systme peut faire partie de la formation, comme le montre
la figure 11. Les correcteurs qui sont frquemment appels corriger peuvent tre dispenss de certaines sessions de
formation. Lestimation de leur performance (cf. 5.1.3 Surveillance et contrle de qualit) rendra plus facile la dcision de
renvoi une session complte de formation, ou une formation complmentaire, ou un remerciement.
Recruter
Former et
valuer
Standardiser et
valuer
Travailler et
valuer
Renvoyer
Figure 11 Recrutement, formation et valuation des correcteurs et valuateurs
Conseils pour valuer les rponses

Une cl de rponse formalise est la meilleure faon denregistrer la rponse correcte et de la communiquer aux correcteurs.
Les cls sont conues en mme temps que les questions et suivent les mmes procdures de rdaction. La cl doit prendre
en compte toutes les rponses acceptables de manire globale et tre totalement univoque.
La figure 12 montre un exemple de question o lon demande au candidat de complter un blanc en utilisant le mot donn
( quelle ) . La cl donne quatre choix possibles pour un lment (1 point) et une possibilit pour le second (1 point). Le
nombre total de points accords cette question est donc de 2.
Le travail des correcteurs ne peut tre que plus efficace, juste et fiable si la cl est prsente de faon claire.
Le magasin fermera, que vous le vouliez ou non.

quelle
Le magasin va votre opinion.
Cl :
(certainement / srement / obligatoirement) fermer quelle que soit
Figure 12 Exemple dexercice trou
Dautres rponses peuvent tre correctes mais ne sont pas donnes par la cl. Cest pourquoi les correcteurs doivent relever
les rponses quils pensent tre correctes. Ces rponses doivent tre examines et si elles sont rellement correctes, les
39
points seront attribus aux candidats. Si les corrections sont effectues par un petit groupe de correcteurs, les problmes
peuvent tre aisment rsolus en discutant rgulirement avec un concepteur. Dans quelques cas, si la cl est rvalue ou
modifie, tout ou partie des copies devront tre recorriges.
Grer le processus de la correction
Les corrections seffectuent gnralement pendant une priode fixe, les rsultats devant tre dlivrs aux candidats des
dates prcises. Pour estimer le temps ncessaire il suffit de mettre en relation le nombre de candidats et le nombre de
correcteurs disponibles. Il est prudent de lgrement surestimer le temps ncessaire ou bien dengager plus de correcteurs
afin de sassurer que tous les problmes pourront tre rgls.
Si on a faire un grand nombre de candidats et de correcteurs, on doit mettre en place un systme de traage des copies
tout au long du processus. Un systme simple consiste noter le nombre de copies et le numro du correcteur, ainsi que la
date de remise des copies et la date de correction. Lorganisme certificateur peut ainsi estimer le temps et le nombre de
correcteurs requis pour un nombre donn de candidats.
Le systme de traage donne galement des informations importantes sur la performance de chaque correcteur, comme par
exemple le temps moyen dont ils ont besoin pour corriger une copie. Si on sattache vrifier le travail du correcteur on peut
galement compter le nombre moyen derreurs faites. Ces statistiques peuvent tre obtenues en vrifiant, pour chaque
correcteur, un chantillon reprsentatif de son travail.
5.1.2 La correction par une machine corriger

Les machines corriger les copies utilisent gnralement une LECTURE OPTIQUE / une technologie de reconnaissance optique
de la correction (ROC). La ROC est trs utile lorsquil sagit de corriger un nombre lev de copies qui ne requirent aucune
valuation humaine (cest le cas des QCM, des questions de type VRAI/FAUX ou dappariement). Les candidats peuvent alors
noter leurs rponses sur des feuilles adaptes, comme le montre la figure 13. Ces feuilles sont ensuite scannes, de faon
enregistrer les donnes et les transmettre un ordinateur. La technologie ROC peut galement tre utilise pour des
questions qui requirent une correction humaine. Le correcteur note les rponses sur la feuille ROC qui est ensuite scanne.
Les scanners acclrent le processus de correction et rduisent les erreurs humaines mais ce processus nest pas infaillible :
le scanner peut se tromper en lisant une case coche, ou peut lire par erreur une case non voulue. Pour viter de telles
erreurs, des contrles de donnes doivent tre effectues en cherchant dans toutes les feuilles ROC des rponses contraires
aux directives du test, par exemple plusieurs cases coches alors quun seul choix est demand. On devra alors corriger les
feuilles ROC la main.
CONSIGNES
Numro du candidat
Utilisez un crayon noir (B ou HB). Utilisez une

gomme pour effacer toute rponse que vous
souhaitez changer.
Cochez une case pour chaque question. Par
exemple, si vous pensez que C est la rponse
correcte la question, cochez la case C :
Figure 13 Partie dune feuille ROC
40
5.1.3. Lvaluation
On utilisera les termes valuation et valuateur lorsquun jugement dexpert intervient de faon bien plus importante que
dans le type de correction dcrit prcdemment. Lorsque le jugement entre en jeu, cest que le concepteur du test donne
plus dune seule rponse correcte . Il y a, dans ce cas de plus grandes possibilits de dsaccord entre les jugements des
valuateurs que dans dautres types de correction, laissant ainsi la place un plus grand danger de divergence entre les
valuateurs ou dans le travail dun valuateur individuel. Pour assurer la justesse et la fiabilit, on devra combiner des
sessions de formation, des conseils et des remarques correctives.
Beaucoup de ce qui a t dit de la correction humaine est galement vrai dans lvaluation : on doit grer le processus afin
dutiliser les ressources de faon efficace, contrler et surveiller afin dassurer la justesse de lvaluation. La fiabilit doit
galement tre surveille (cf. Section 1.3, Annexe VII).
Les chelles dvaluation
La plupart des approches de la comptence valuative sont lies une chelle dvaluation. Il sagit dune srie de
descripteurs des performances diffrents niveaux, indiquant la note ou le classement que mrite chaque performance.
Les chelles dvaluation limitent les variations inhrentes la subjectivit des jugements humains. On prend gnralement
en compte les options suivantes :
Echelles holistiques ou analytiques : on peut attribuer une note une performance en utilisant une chelle qui
dcrit chaque niveau de performance laide dune srie de caractristiques. Lvaluateur choisit le niveau qui
dcrit le mieux les performances. De la mme faon, des chelles peuvent tre conues pour toute une srie de
critres (par exemple effet communicatif, justesse, adquation au contexte, etc.), et une note peut tre attribue
chacun de ces critres. Les deux approches peuvent relever du mme concept de comptence langagire dcrits en
termes similaires la diffrence rside dans le jugement que lvaluateur est appel donner.
Echelles relatives ou absolues : les termes utiliss dans les chelles peuvent tre relatifs, lis lvaluation (par
exemple insuffisant , adquat , bon ) ou peuvent tendre vers la dfinition du niveau de performance en
termes positifs et prcis. Pour interprter la performance selon les chelles et les niveaux du CECR, cette dernire
option est prfrable, les chelles de descripteurs du CECR permettant de construire de telles chelles dvaluation.
Echelles ou listes de contrle : une autre approche de lvaluation laide dune chelle, qui peut tre
complmentaire, consiste attribuer des notes partir dune liste de jugements oui/non si la performance
correspond ou non ce qui a t demand.
Echelles gnralistes ou sur tches spcifiques : Un examen peut utiliser soit une chelle dite gnraliste ou un jeu
dchelles pour toutes les tches, soit encore fournir des critres dvaluation spcifiques chaque tche. Il est
possible de combiner les deux. On peut, par exemple, fournir la fois des critres spcifiques pour permettre
lvaluation (une liste des points qui doivent tre traits), et des chelles gnralistes.
Jugement comparatif ou absolu : On peut dfinir une chelle partir de performances modles, de faon ce que
la tche de lvaluateur ne soit pas de donner le niveau indiscutable de la performance, mais dindiquer simplement
si cette performance est en-dessous, quivalente ou au-dessus dune ou de plusieurs performances modles. La
note correspond alors un classement sur une chelle. Pour le CECR, linterprtation de ce classement dpend du
jugement sur le niveau attribu aux modles. Cette approche fonctionne merveille si les modles sont des tches
spcifiques.
Ces approches peuvent sembler grandement diffrentes, elles dpendent cependant toutes de principes sous-jacents
semblables :
Toute valuation repose sur la comprhension que lvaluateur a des niveaux.
Les modles sont essentiels pour dfinir et communiquer sur cette comprhension.
Il est impratif que les tches permettant de produire la performance value soient lies aux chelles.
Il est classique de dire que les niveaux avaient une signification locale, correspondant au contexte dun examen particulier et
quil tait donc difficile dtablir une comparaison avec les niveaux dun autre examen pris dans un autre contexte. La
cration de cadres de comptences tels que le CECR a permis de comparer les niveaux de diffrents contextes. Cet tat de
fait a eu une incidence sur la faon dont les chelles dvaluation sont articules.
41
Lorsque le niveau tait classiquement implicite et compris, les chelles taient traduites en termes valuatifs relatifs.
Aujourdhui, on a plus tendance traduire les chelles en fonction du CECR et de son approche, qui est de dcrire les niveaux
de performance de faon identifiable, en termes positifs et prcis. Les modles (encore plus que le texte des descripteurs),
restent essentiels pour dfinir et indiquer le niveau, et ils poussent les organismes certificateurs tre plus explicites sur ce
que signifie atteindre un niveau.
Le CECR favorise la rflexion et le travail en termes de niveaux de comptence critris. Deux lments permettent de dfinir
les niveaux : ce que les gens peuvent faire et quel degr ils peuvent le faire. Dans un examen, le ce que est dfini par les
tches spcifies. A quel degr ces tches sont ralises, cest ce que lvaluateur doit juger.
Cest pourquoi lapproche classique de lvaluation, qui consiste appliquer des chelles dvaluation, fonctionne
relativement bien, condition que les tches soient bien choisies et que les jugements portent sur la ralisation des tches.
Les tches servent alors grandement dfinir les chelles, mme si on sy rfre de faon plus ou moins explicite dans la
dfinition de ce que signifie une performance qui permet le passage .
Le CECR (p. 142) traite de certains aspects de lvaluation subjective.
Le processus dvaluation
Pour que le processus se droule correctement les valuateurs doivent avoir une comprhension identique des normes. Pour
arriver cette comprhension commune, il faut saccorder sur des exemples de performance.
Dans le cas dexamens sur une petite chelle, un groupe dvaluateurs peut arriver un accord la suite dune discussion.
Dans cette situation o les valuateurs sont sur un pied dgalit, la norme reconnue par tous risque de navoir quune
porte locale et de ne pas tre la mme dune session lautre. Dans le cas dexamens sur une grande chelle, la norme doit
tre stable et doit tre significative. Pour y arriver, il faut sappuyer sur la pratique dexaminateurs expriments qui, de par
lautorit quon leur reconnait, transmettent la norme aux nouveaux.
Cest ainsi quun petit groupe dvaluateurs expriments va former le noyau qui assurera la continuit en termes de normes
de la formation, du contrle et de la correction des autres correcteurs.
Un tel systme hirarchique peut avoir diffrents niveaux comme le montre la figure 14. Cest une faon assez efficace
dassurer une formation en face face ou le contrle du travail des correcteurs. Mais les nouvelles technologies de
linformation ainsi que lvolution de la formation par internet rduisent les besoins dune telle hirarchie. Il faut aussi noter
que la transmission prcise de la norme est vraiment assure grce des exemples de corrections tablies de manire
autoritaire pour chaque niveau.
Figure 14 Maintien des normes grce un systme de chef dquipe
42
La formation des valuateurs

Le but de la formation est darriver une correction constante et juste. On appelle standardisation le processus de formation
des valuateurs visant appliquer la norme concerne. Si le CECR est pris comme rfrence pour fixer les normes, il faut
alors que la formation commence par des exercices de familiarisation avec le CECR et utilise des chantillons de performance
de production orale ou crite se rfrant au CECR (Conseil de lEurope 2009). Il peut aussi savrer ncessaire de former les
valuateurs en utilisant une chelle de classement avec laquelle ils sont familiariss. La formation doit alors se faire par
tapes en partant dune discussion informelle pour arriver une valuation indpendante utilisant des chantillons en
relation avec lexamen qui doit tre corrig :
discussion guide partir dun chantillon qui dbouche sur la comprhension du niveau par les correcteurs ;
correction indpendante dun chantillon, suivie dune comparaison avec la correction prtablie puis large
discussion sur les raisons des ventuelles diffrences ;
correction indpendante de plusieurs chantillons pour montrer combien les correcteurs sont proches de la
correction prtablie.
Lidal serait que les chantillons reprsentent des performances ralises partir des tches de la session du test ou de
lexamen en cours. Si ce nest pas possible, on utilisera des tches de sessions prcdentes.
La surveillance et le contrle qualit
Lidal est qu lissue de la formation, tous les correcteurs arrivent une justesse et une constance telle quaucune
correction ou retour dinformation ne soit ncessaire. La phase de correction peut alors se drouler sans problme. Mais il y
a des cas o un contrle simpose pour identifier sans tarder les problmes.
On peut identifier quatre types de problmes, ce quon appelle aussi les effets valuateurs :
1.
2.
3.
4.
La svrit ou le laxisme : lvaluateur sous-estime ou surestime le travail.

Lutilisation de lventail de notes : lvaluateur utilise un ventail trop troit, et de cette faon ne fait pas de
distinction entre une performance faible et une bonne performance.
Leffet de halo : dans le cas dattribution de plusieurs notes dans un examen, lvaluateur se fait une impression du
candidat partir de la premire note mise et lapplique aux notes qui suivent, indpendamment du niveau rel des
performances.
Manque de constance : lvaluateur napplique pas la norme avec constance et ses rsultats diffrent de ceux des
autres valuateurs.
La gravit de ces problmes dpend en partie des corrections qui peuvent y tre apportes. Prenons lexemple de la
svrit. Beaucoup dvaluateurs ont une nette tendance la svrit, tenter de la remettre en question peut avoir pour
effet de diminuer leur confiance en eux et par consquent de les rendre moins constant. Il vaut donc mieux accepter une
certaine systmatisation dans la svrit ou le laxisme si cela peut tre corrig par une procdure statistique.
Lchelonnage ou le modle de rponse litem sont deux options possibles (cf. annexe VII).
Un ventail trop troit de notes ne peut tre corrig que partiellement laide des statistiques. Le manque de constance
ne peut tre corrig de faon statistique. Ces deux problmes doivent donc tre reprs et la solution apporte sera soit
de demander lvaluateur de suivre une nouvelle formation soit de ne plus faire appel cette personne.
Il faut donc mettre en place dun systme de contrle. Il savre plus ais pour la correction de la production crite car
les valuateurs peuvent se transmettre la copie pendant la sance de correction. Le contrle sur la production orale est
par contre bien plus difficile, sauf si lon dispose denregistrements. Dans ce cas, leffort doit porter sur la formation et
lapprciation du travail de lvaluateur avant la session de correction. Il est recommand de saider de statistiques
montrant la performance de lvaluateur (voir lannexe VII).
Les diffrentes approches du contrle vont de la plus simple par exemple, vrification ponctuelle informelle et
nombreux retours dinformation oraux aux valuateurs, au plus complexe par exemple nouvelle correction partielle
du travail dun correcteur et cration de statistiques dindices de performance. Une mthode intressante consiste
43
inclure des copies dj values celles attribues un valuateur et de comparer les notes. En fait, pour que cette
procdure soit fiable, il faut que les copie ne puissent pas tre distingues les unes des autres afin quil ne soit pas
possible de les photocopier. Pratiquement, cette mthode ne peut sappliquer quavec des copies issues de tests sur
ordinateur ou avec des copies scannes, dans un systme dvaluation en ligne.
Une autre faon de diminuer la marge derreur et de comparer les valuateurs entre eux (ce qui permet didentifier des
effets de lvaluation et de les corriger statistiquement), est doprer une double correction ou une correction multiple
partielle consistant faire corriger un certain nombre de copies par plus dun correcteur. En fonction de lapproche
statistique utilise, il faudra mettre en place une mthode pour combiner les informations et arriver donner une note
au candidat.
5.2 La notation
Tout le processus de conception, dlaboration, de passation et de correction qui vient dtre dcrit dbouche sur
lvaluation de la performance de chaque candidat et la faon de la rapporter.
Dans certains contextes, un test ou un examen classe les candidats en les regroupant du niveau le plus haut au niveau le
plus bas en fixant des limites de niveaux arbitraires - par exemple les 10% les plus hauts ont le niveau A, les 30% suivants
ont le niveau B et ainsi de suite. Cette approche, qui se rfre une norme qui peut tre dune certaine utilit sociale est
peu satisfaisante dans la mesure o la performance est value uniquement par rapport celle des autres mais ne
donne aucune indication sur ce quelle signifie en termes de niveau de comptence langagire.
Lalternative, qui est une approche plus significative, se rfre des critres. La performance y est value en tenant
compte des critres ou des normes fixes et absolues. Cest en fait lapproche adopte par les tests ou les examens qui
dlivrent des rsultats en termes de niveaux du CECR.
Un examen peut tre conu sur plusieurs niveaux du CECR ou sur un seul. Dans ce dernier cas, les candidats qui sont du
niveau sont considrs comme ayant russi et les autres comme ayant chou . Les degrs de russite ou dchec
de la performance peuvent aussi tre indiqus.
Le fait didentifier la note qui correspond la russite dans un niveau sappelle la dtermination ou la DEFINITION DU
SCORE DE CESURE. Cette dcision suppose un jugement subjectif si possible fond sur des faits probants.
Il y a diffrentes faons dappliquer la dfinition des scores de csure dans les preuves de production (crites et orales)
et de rception (crite et orale) qui sont souvent corriges de faon objective. Les preuves de production sont
relativement faciles traiter. La rception crite et orale pose plus de problme dans la mesure o il faut interprter des
processus mentaux qui ne sont observables quindirectement, ce qui rend donc la notion de niveau de comptence
critrie difficile cerner
Quand un test ou un examen comprend plusieurs sous preuves de rception ou de production diffrentes, il faut fixer
une norme pour chacune sparment, et ne pas soccuper de lensemble (cf. 5.3 pour plus dinformation sur cette
question).
Le lecteur est appel se rfrer au Manuel Relier les examens de langues au CECR (Conseil de lEurope 2009) qui traite
en dtail de la dfinition des scores de csure. Concernant lorganisation et la terminologie du Manuel, veuillez noter
que :
Le chapitre 6 sur la dfinition des scores de csure ne fait rfrence quaux tests et examens qui donnent lieu
une correction objective (cest--dire la rception crite et orale).
Les preuves de production sont abordes au chapitre 6 sous le titre de Formation la standardisation et au
calibrage.
Le chapitre 7 sur la VALIDATION est galement important. Il y a deux approches pour dfinir les points de
csure : soit centre sur la tche, soit centre sur le candidat. Lactivit centre sur la tche qui est dcrite dans
le chapitre 6 dpend dun jugement dexperts sur les items du test ou de lexamen. En revanche, lactivit
centre sur le candidat suppose la collecte dinformation sur celui-ci et est aborde dans le chapitre 7.
44
Ce nest pas pour autant que la dfinition du score de csure partir de lactivit centre sur la tche est plus
importante que celle centre sur le candidat.
Pour tre clair, la dfinition des scores de csure est une opration qui ne devrait tre mene quune seule fois, quand le test
ou lexamen est organis pour la premire fois, mme si arriver la norme dsire est un processus itratif. Avec le temps la
notation devrait non plus concerner la dfinition des normes mais leur maintien. Cela suppose que le cycle de conception
du test ou de lexamen prsente des procdures adquates. Ces questions sont largement abordes dans le document en
supplment du Manuel (North et Jones 2009).
5.3 La dlivrance des rsultats

Cest lutilisateur de dcider de la faon de publier les notes du candidat : soit en donnant un rsultat global soit en
donnant le profil du candidat avec la performance dans chaque composante du test ou de lexamen.
La premire option est la plus communment pratique car la plupart des parties concernes (candidats, institutions)
prfrent une rponse simple. La seconde option donne plus dinformations qui peuvent tre trs utiles dans certains cas.
La troisime possibilit est de publier les deux rsultats sachant que le CECR apprcie la publication de rsultats indiquant le
profil du candidat.
Dans le cas o un rsultat simple est demand, il faut mettre au point une mthode permettant de tenir compte des notes
attribues dans chaque activit langagire et pour cela dcider du poids qui va leur tre attribu, qui peut tre le mme pour
toutes ou plus important pour certaines. Cela suppose quelques ajustements des scores bruts (cf. annexe VII).
Si des certificats sont dlivrs, lutilisateur doit prendre en compte les lments suivants :
les informations supplmentaires qui doivent tre fournies pour illustrer les niveaux (par exemple les
descripteurs ) ;
comment sassurer que le document est loriginal (par exemple empcher toute falsification du document ou mettre
en place un service de vrification) ;
les prcisions qui doivent tre donnes sur linterprtation des rsultats.
5.4 Questions cls
Quelle doit tre la proportion de correction du test ou de lexamen qui nest pas faite par la machine et quelle
frquence?
Quelle est la proportion qui concerne lvaluation et quelle frquence ?
Quel est le niveau dexpertise requis pour vos valuateurs ?
Comment vous assurer que la correction et lvaluation sont justes et fiables ?
Quelle est la meilleure faon de noter les candidats dans votre contexte ?
Qui sont les destinataires des rsultats et comment allez-vous les dlivrer ?

Voir ALTE (2006c) pour la liste de contrle dauto valuation pour la correction, la notation et les rsultats
Kaftandjieva (2004) North et Jones (2009), Figueras et Noijons (2009) donnent tous des informations sur la dfinition des
scores de csure.
45
6 Contrle et rvision
Il est important de vrifier le travail accompli pour llaboration et lutilisation du test ou de lexamen. Rpond-il aux normes
en vigueur ou des changements sont-ils ncessaires ? Lobjectif du contrle est de vrifier si des aspects importants du test
ou de lexamen sont acceptables alors que le test est utilis ou juste aprs son utilisation. Si des modifications doivent tre
faites, il est souvent possible de les faire tout de suite. Des amliorations ne peuvent tre que bnfiques aux candidats en
cours ou venir.
La rvision est une sorte de projet consistant passer en revue diffrents aspects du test ou de lexamen. A cette occasion,
on revient sur la conception du test ou de lexamen et on se pose des questions essentielles telles que quelle est lutilit du
test ? quel en est objectif ? , pour quelle population ? , que cherche-t-on tester ? . Cela ressemble la phase
dlaboration mais avec lavantage davoir des donnes et davoir acquis lexprience de lutilisation. De par son tendue, la
rvision du test ou de lexamen ne peut pas faire partie du cycle normal de lvaluation et ne peut pas tre organise
chaque session.
6.1 Le contrle de routine

Le contrle fait partie des oprations de routine dans la production et lutilisation dun test ou dun examen. Les preuves
ncessaires la rvision vont tre utilises pour sassurer que tout ce qui concerne le test en cours est au point : les lments
sont conus correctement, ils sont distribus temps, les niveaux corrects sont attribus aux candidats, etc. Aprs cela, les
mmes preuves peuvent tre utilises pour estimer la performance du processus utilis, tels que les processus de rdaction
et de correction des items, le processus de construction du test ou de lexamen, le processus de correction, etc. Les preuves
peuvent aussi servir pour lARGUMENT DE VALIDITE (cf. annexe I) et doivent aussi tre penses en ces termes.
Plusieurs exemples sur la faon de collecter des preuves pour le contrle ont t prsents dans ce Manuel. Ainsi :
Faire appel au jugement dexperts, exprimenter et prtester pour sassurer de la qualit de rdaction des items (cf.
3.4).
Utiliser les rponses des candidats pour savoir si les items fonctionnent correctement (Annexe VII).
Utiliser des formulaires pour le retour dinformation sur la passation (cf. annexe VI).
Collecter et analyser des donnes sur la performance des correcteurs (Annexe VII).
Contrler lefficacit du travail est tout aussi important. Ce contrle permet aux organismes certificateurs de mesurer le
temps ncessaire la prparation et de dcider de le raccourcir ou de lallonger.
6.2 Rvision priodique du test ou de lexamen

Des rvisions priodiques peuvent avoir lieu hors passation du test ou de lexamen. Cette rvision peut tre dcide aprs un
certain temps dutilisation ou aprs des modifications concernant par exemple la population cible ou des modifications du
test lui-mme ou du programme auquel il se rfre. La ncessit dune rvision peut aussi avoir t dcide loccasion dun
contrle. Lors de la rvision, le test dans son ensemble ainsi que la faon de le concevoir doivent tre tudis de prs. Les
preuves qui ont t collectes pendant lutilisation du test ou de lexamen, telles que la performance des valuateurs
analyse loccasion du contrle, peuvent tre dune grande utilit. Enfin lorganisme certificateur peut dcider de la
ncessit dun complment de preuves que lon collectera loccasion de la rvision.
Au cours de la rvision, des renseignements sont runis sur le test ou lexamen. Ils permettent de dcider des aspects
changer (par exemple le concept, le format, les rgles de passation). Il se peut que lopration de rvision ne dbouche que
sur peu ou pas de modifications.
46
Preuve
Elaboration du test
Elaboration
Utilisation du test
Preuve
Passation
Dure
Assemblage
Correction
Notation
Dlivrance des
rsultats
Rvision priodique
du test
Figure 15 Cycle dlaboration et de la rvision dun test ou dun examen
La figure 15 est une reproduction de la figure 5 (partie 1.5.1) laquelle a t ajoute la rvision priodique. Elle montre
lapport de la rvision aux premires tapes du diagramme : la dcision de concevoir un test ou un examen. Le processus
dlaboration du test ou de lexamen fait partie de la rvision.
Il ne faut pas oublier de prvenir les PARTIES CONCERNEES en cas de modifications (cf. 2.6)
6.3 A quoi servent le contrle et la rvision

Le contrle et la rvision font partie du travail de routine dlaboration dun test ou dun examen. Ils montrent lorganisme
certificateur que tout fonctionne correctement et que des modifications ont t faites pour palier dventuels
dysfonctionnements. La rvision peut galement aider montrer aux autres, directeurs dcole ou partenaires accrdits,
quils peuvent avoir confiance dans le test ou lexamen.
De toute faon, analyser ce qui est fait pour savoir si cela convient constitue en quelque sorte un audit de largument de
validit.
ALTE (2007) a tabli une liste de 17 normes, appeles NORMES MINIMALES qui permettent aux organismes certificateurs de
structurer leur argument de validit. Ces normes sont rpertories dans les cinq domaines suivants :
Conception du test ou de lexamen

Passation et logistique
Correction et classement
Analyse de test
Communication avec les parties prenantes
47
Ces normes peuvent tre utilises avec des listes plus spcifiques et dtailles, telles que les listes de contrle danalyse du
contenu de ALTE (ALTE 2004a-k,2005,2006a-c).
Les organismes certificateurs peuvent utiliser dautres outils pour concevoir et vrifier les arguments de validit. Jones,
Smith et Talley (2006 :490-2) propose une liste de 31 points cls pour lvaluation sur une chelle plus rduite. Lessentiel de
leur liste est inspir des normes pour lvaluation ducationnelle et psychologique (AERA et al 1999).
6.4 Les questions cls
Quelles donnes faut-il collecter pour un contrle efficace ?

Certaines de ces donnes sont-elles dj collectes permettant de prendre des dcisions en cours dutilisation du
test ou de lexamen ? Comment peuvent-elles servir la fois au contrle et lutilisation ?
Ces donnes peuvent-elles tre gardes et utilises par la suite pour la rvision ?
Qui doit prendre part la rvision ?
Quelles ressources sont ncessaires pour la rvision ?
Avec quelle frquence la rvision doit-elle se faire?
Dans la liste des points cls, quels sont ceux qui peuvent servir la vrification de largument de validit.

ALTE (2007) propose des rubriques auxquelles se rfrer pour valuer un test ou un examen.
Voir ALTE (2002) pour consulter la liste dauto-valuation pour lanalyse statistique et la rvision.
Fulcher et Davidson (2009) ont une faon intressante dillustrer la hirarchie des preuves pour la rvision dun test ou dun
examen. Ils utilisent la mtaphore de la construction pour savoir quelles parties dun test ou dun examen doivent tre
modifies rgulirement et celles qui doivent tre modifies en permanence.
Les descriptions des diffrents aspects de la rvision dun test ou dun examen sont proposs par Weir et Milanovic (2003).
48
Annexe I Dvelopper un argument de validit

Cette annexe aborde une approche de la VALIDATION incluant le dveloppement dun ARGUMENT DE VALIDIT. La dmarche est
plus dtaille que les grandes lignes prsentes en 1.2.3. Elle montre quil ne sagit pas dune succession dtapes
discontinues, mais quelles sont toutes imbriques et en corrlation.
Kane (2006), Kane, Crooks et Cohen (1999), Bachman (2005) et Bachman et Palmer (2010) font une description plus complte
des argumentas de validit. La validation est en effet un processus continu, dans lequel on ajoute et on prcise les preuves au
fur et mesure.
Linterprtation et lusage des rsultats au test constituent le point central de largument de validit, lorsque lon dfinit la
validit comme le degr auquel la preuve et la thorie confirment les interprtations des scores en fonction des utilisations
prvues des tests. (AREA et al 1999).
Un argument de validit consiste en une srie de propositions qui dcrivent les raisons selon lesquelles les interprtations
conseilles des rsultats au test sont valides, et apportent la preuve pratique et la thorie qui les tayent. Cette annexe
donne une vue densemble sur la faon de procder.
Lors de la prsentation de largument aux diffrentes PARTIES PRENANTES, on commence par prciser clairement de quelle
faon les rsultats au test devraient tre interprts pour chaque utilisation. Un ARGUMENT DUTILISATION DE LEVALUATION
(galement appel argument dinterprtation), explique cet tat de fait. Ce que lon appelle simplement un argument de
validit vient lgitimer largument dutilisation laide de la thorie et de preuves.
La figure 16 illustre de faon conceptuelle largument dutilisation selon Bachman (2005). Il sagit dun raisonnement en
quatre tapes (montres chacune par une flche), qui justifie lutilisation du test. Chaque tape apporte la base conceptuelle
de ltape suivante. Des scores fiables par exemple (score universel), ne sont utiles que sils reprsentent la performance au
test (score observ). Il ne sagit pas dune suite dtapes complter obligatoirement dans lordre. Les preuves permettant
dtayer chaque tape peuvent provenir de diffrentes tapes du dveloppement et de la production du test.
Observation
Score observ
Score universel
Score cible
(interprtation
Dcision
)
valuation
Comment noter ce qui
est observ ?
gnralisation
Les notes (scores) sont-elles
cohrentes et stables ?
extrapolation
Les notes refltent-elles la
capacit du candidat dans le
domaine cibl ?
Session du test
utilisation
Comment peut-on
utiliser les scores
obtenus au test ?
Prise de dcision
au sujet du candidat
Figure 16 Chane du raisonnement dans un argument de validit (adapt de Kane, Crooks, Cohen 1999, Bachman 2005)
La justification de largument de validit est dtayer largument dutilisation et consiste en preuves, thorie et propositions
raisonnes. Les preuves qui tayent chaque tape sont runies pendant le dveloppement du test, sa construction et son
utilisation.
De nombreuses preuves utilises dans largument de validit proviendront du processus de routine de lutilisation du test.
Des exemples de ce type de preuves sont numrs dans la section 6.1. Les preuves sont galement runies pour un objectif
plus immdiat, qui est de contrler le travail du correcteur, et servent naturellement lorsquon tablit largument de validit,
comme le montre la figure 17.
Grce aux preuves, on peut amliorer largument de validit chaque fois que lon dveloppe et utilise une nouvelle forme
de test. La conception de largument de validit devrait dbuter lors de la tout premire tape du processus, lorsque lon
dfinit les objectifs du test. Une grande partie de largument de validit pour une forme donne du test peut tre utilise
pour la forme suivante.
Certains thoriciens (Bachman 2005, Mislevy et al 2003) soulignent que largument de validit devrait tre prsent comme
un argument informel, en opposition un argument logique. Cela signifie que le raisonnement seul ne peut tablir que
49
largument est juste ou erron. Il peut en revanche sembler plus ou moins convaincant quelquun qui lexaminerait. Le
degr de crdibilit dpend de la thorie applique et des preuves disponibles pour ltayer.
Preuve
Elaboration du test
Elaboration
Utilisation du test
Preuve
Passation
Dure
Assemblage
Correction
Notation
Argument de
validit
Dlivrance des
rsultats
Figure 17 Le cycle du test, la rvision priodique et largument de validit

Il est possible que largument de validit paraisse moins convaincant cause dune nouvelle preuve ou dune nouvelle
thorie ou par une interprtation diffrente dune preuve existante. Il est galement possible que les fournisseurs de tests
appuient, de faon non intentionnelle, leur interprtation favorite, sans tre suffisamment critiques. Lorsquon a dvelopp
largument pour la premire fois, on doit alors le remettre en question, mme si cela doit modifier linterprtation souhaite
des rsultats. On peut par exemple examiner les diffrentes faons dinterprter une preuve ou de vrifier que toutes les
conclusions auxquelles on est arriv sont bonnes. Les fournisseurs de tests pourraient alors revoir leur argument en y faisant
les changements ncessaires et en prsentant les raisons de linterprtation des preuves.
Des exemples de preuves utilisables pour tayer un argument sont donns dans ces annexes. Des exemples des diffrentes
faons de comprendre les preuves sont galement donns. Ces exemples sont tirs des travaux de Kane (2004) et Bachman
(2005). Ils correspondent au sommaire de ce Manuel : Dvelopper des tests ou des examens ; assembler des tests ou des
examens ; corriger, noter et dlivrer les rsultats. Les fournisseurs de tests peuvent commencer la conception de leur propre
argument de validit laide de ces preuves. Leur liste nest cependant pas exhaustive.
Lectures complmentaires
ALTE (2005 : 19) propose un rsum utile des diffrents types de validit et dcrit le contexte de la conception moderne de la
validit.
AERA et al (1999) expose les grandes lignes du concept moderne de la validit et des standards qui soulignent certains
aspects spcifiques du problme et peuvent ainsi aider la conception dun argument de validit.
Messik (1989) dbat du concept unitaire de la validit ainsi que des considrations thiques qui en dcoulent.
Haertel (1999) exemplifie la faon dont les preuves et largumentation sont relies aux interprtations des scores.
Kane, Crooks et Cohen (1999) prsentent de faon claire les premires tapes de largument de validit. Cela est trait de
faon plus approfondie par Kane (2006).
50
Bachman (2005) examine la relation entre les arguments de validit et lvaluation en langues. Il relie galement entre eux
les modles de Bachman et de Palmer (1996) du modle dargument de validit. Le premier modle considrait la notion
dutilit comme tant la plus grande qualit dun test, runissant la fiabilit, la validit, lauthenticit, linteractivit et
limpact.
Bachman et Palmer (2010) expliquent comment les arguments de validit sont au cur du dveloppement du test et
peuvent proposer un cadre pour ces tches.
Evaluation
Comment noter ce
qui est observ ?
Dveloppement du test (section 2)

Preuve en faveur
Gnralisation
Les notes (scores)
sont-elles
cohrentes et
stables ?
Extrapolation
Les notes refltentelles la capacit du
candidat dans le
domaine cibl ?
Un test format standard

est dfini par les
spcifications cela
signifie que les
diffrentes versions du
test sont semblables (cf.
section 2 et annexe III)
Un domaine dutilisation
est clairement dfini
dans le Guide du
rdacteur ditems et
dans les spcifications.
Ce domaine peut
galement avoir t
identifi par une analyse
de besoins (cf. section
2.4).
La preuve que les notes
de russite au test ont
t convenablement
tablies viendra tayer
linterprtation des
rsultats de chaque
candidat (cf. sections 2.0
et 5.2).
Certaines parties du
CONSTRUIT
napparaissent pas
clairement dans les
spcifications. Cela
signifie que les rsultats
au test napporteront
pas dinformation
pertinente sur ce que le
candidat est capable de
faire (cf. sections 1.1 et
2).
Les items de chaque

version du test sont
reprsentatifs du
construit. Cela ne signifie
pas que toutes les
parties du construit sont
chaque fois
reprsentes mais que
ces parties ont t
slectionnes dune
faon comparable (cf.
sections 2, 3.5 et annexe
VII).
La faon de relier les
versions entre elles est
convenable (cf. annexe
La rdaction ditems et la
construction du test ont
t confis des experts
(cf. section 3.2).
Preuve contre
Production du test (section 3)

Toutes les cls de
Preuve en faveur
correction sont
correctes.
On peut, pour le vrifier,
utiliser des grammaires
et des dictionnaires et
faire appel des experts.
51
Utilisation
Comment peut-on
utiliser les scores
obtenus au test ?
7).
Si des analyses
statistiques ont t
utilises, on a trouv de
faibles niveaux derreur
et les MODELES
statistiques convenaient
aux donnes (cf. annexe
VII).
Les versions du test
nont pas t relies
entre elles.
Les versions du test ne
sont pas reprsentatives
du mme construit.
Preuve contre
Passation du test (section 4)

Des procdures ont t
Preuve en faveur
Preuve contre
appliques pendant la
passation du test. Cela
permet de montrer que
les rsultats ne
dpendront pas dautres
facteurs (tels que trop
ou trop peu de temps)
(cf. section 4.2).
Une fraude non traite
signifiera que les scores
ne sont pas
reprsentatifs des
capacits du candidat.
Des procdures ont

toujours t respectes
et permettront de
montrer que les versions
du test sont comparables
au fur et mesure des
passations (cf. section
4.2).
Une fraude non dtecte
signifiera que les scores
de quelques candidats
ne sont pas
suffisamment
reprsentatifs de leurs
capacits langagires.
Cela se rpercutera
probablement dans les
diffrentes versions du
test.
Correction, notation et dlivrance des rsultats (section 5)

Des procdures ont t
La preuve de la fiabilit
Preuve en faveur
appliques pendant la
correction. Cela permet
de montrer que le score
ne dpend pas dautres
facteurs (tels que la prise
en compte dune cl
incorrecte ou encore des
erreurs de scan) (cf.
section 5.0).
La correction a t juste
et fiable (cf. section 5.1
et annexe VII).
Certaines parties du
construit napparaissent
pas suffisamment dans
le matriel de test. Cela
signifie que les rsultats
napporteront pas
dinformation pertinente
sur ce que le candidat
est capable de faire.
du score (gnralement
une preuve statistique),
montre que la version du
test donne une mesure
cohrente de la
performance du
candidat (cf. sections 1.3
et 5.1, et annexe VII).
Si les donnes de
quelques candidats ont
t analyses, ces
donnes sont
reprsentatives de
lensemble des candidats
(cf. annexe VII).
Les points de csure qui
ont de bas niveaux
derreur indiqueront que
les candidats sont
vraisemblablement
placs du ct correct de
52
Les rsultats peuvent

avoir t affects par des
facteurs extrieurs. Cela
peut provenir du fait que
les procdures de
passation nont pas t
respectes. Cela se
rpercutera sur les
rsultats au test. Ces
rsultats nimpacteront
probablement pas
uniquement les
capacits langagires (cf.
section 4.1)
Lemploi de correcteurs
experts signifie que les
corrections refltent
vraisemblablement le
domaine dintrt (cf.
section 5.1).
De mme, lutilisation
dchelles de notation
bien conues
augmentera les chances
que les performances
soient corriges en
fonction du domaine
cibl (cf. sections 2.5 et
5.1.3).
Si lon suit des rgles

pour prendre des
dcisions spcifiques
bases sur les rsultats
au test, il est probable
que le test est utilis
comme il avait t prvu
de ltre et que les effets
indsirables seront
minimiss (cf. sections
1.2, 5.3 et annexe 1).
Preuve contre
lchelle (cf. annexe VII).

Si des donnes dun
groupe non reprsentatif
de lensemble des
candidats a t utilis
des fins danalyses,
lanalyse peut contenir
des erreurs ou des biais
(cf. annexe VII).
53
Si aucune procdure
standard ni aucune rgle
nont t suivies pour
prendre des dcisions, le
test peut tre utilis de
faon inapproprie (cf.
sections 1.5 et 5.3).
Annexe II Le processus de dveloppement du test ou de lexamen
Planifier
Planifier
Planifier
Groupes impliqus
Candidats
Enseignants
Ecoles
Administrateurs
Editeurs
Experts
Autorits ducatives
Employeurs
Informer les parties

prenantes
Exprimenter
Concevoir
Groupes impliqus
Personnel dencadrement
Spcialistes des tests
Personnel de gestion
IT
Chercheurs
Psychomtriciens
Personnel oprationnel
Personnel commercial
Recueil dinformations
Consquences
Consultations
Questionnaires
Sminaires
Besoins pralables
Considrations et
contraintes
Construct du test
Utilit du test
Caractristiques techniques
Procdures
Standards requis
Consquences
Premire bauche des
spcifications
Commission
Prtest et recherche
Analyse
Rvision
Conclusions
Modifications des
spcifications
Documentation
Spcifications
Rglementations
Echanciers
Manuels
Echantillons de matriel
Echantillons de rponses
(tches de production
crite ou orale)
Considrations et
contraintes
Site Internet
Courriels
Version imprime
Vidos / DVD
Fichiers lectroniques
54
Consquences
Candidats
Enseignants
Chefs dtablissements
Personnel administratif
Editeurs
Experts
Employeurs
Autorits ducatives
Ministres
Annexe III Exemple du format de lexamen examen danglais

Contenu et vue densemble
Dure
Format
Comprhension Partie 1
crite
1 heure
Partie 2
Partie 3
Partie 4
Partie 5
Production
crite
Partie 1
45 minutes
Partie 2
Comprhension Partie 1
orale
40 minutes
Partie 2
Partie 3
Production
orale
Partie 1
Nombre
de
questions
Objectif
TACHE DAPPARIEMENT partir dun texte

suivi divis en 4 sections informatives ;
environ 250 350 mots au total.
TACHE DAPPARIEMENT partir dun texte
unique (article, reportage, etc.) avec des
phrases manquantes ; environ 450 550
mots.
QCM 4 choix partir dun texte unique ;
environ 450 550 mots.
Test de closure en QCM 4 choix partir
dun texte informatif o du lexique
manque ; les trous sont prsents dans le
texte ; environ 200 300 mots.
Tche de relecture corrective impliquant
lidentification de mots supplmentaires
non ncessaires dans un texte court ;
environ 150 200 mots.
Message, note ou courriel.
Le candidat doit produire un crit
communicatif bas sur un seul sujet (ainsi
que la mise en page de son texte) ; 40 50
mots.
Courrier daffaires, court rapport ou projet.
Le candidat doit produire une lettre, un
court rapport ou un projet partir dun
sujet et dune ou plusieurs ides donnes ;
120 140 mots.
Tche de compltion partir de trois
monologues ou dialogues denviron 1
minute chaque. Deux coutes.
Tche dappariement multiple partir de
deux fois cinq courts monologues.
Tche dappariement multiple partir dun
monologue, une interview ou une
discussion denviron 4 minutes. 2 coutes.
Conversation entre un interlocuteur et
chaque candidat (questions orales)
Laccent est mis sur le balayage du

texte et sur la comprhension
gnrale.
Comprhension de la structure du
texte.
Mini-prsentation par chaque candidat.

Chaque candidat reoit un choix de trois
Thmes lis au domaine commercial et
dispose dune minute pour prparer un
expos dune minute.
Tche collaborative. Les candidats
engagent une discussion dans le domaine
commercial. Linterlocuteur rplique en
largissant la discussion des sujets
voisins.
Une
prsentation
par candidat
6
15
12
Comprhension de la structure des

phrases et recherche derreurs.
1 tche
obligatoire
Donner des instructions, expliquer un

vnement, demander des
prcisions, des informations, accepter
des demandes.
1 tche
obligatoire
Courrier : Expliquer, sexcuser,

rassurer, se plaindre.
Rapport : dcrire, rsumer.
Projet : dcrire, rsumer,
recommander, persuader.
Prise de notes.
12
10
8
Plusieurs
14 minutes
Partie 2
Partie 3
55
Comprhension gnrale et
recherche dinformations spcifiques.
Lexique et structure.
Plusieurs
Identification dun sujet, dun

contexte, dune fonction, etc.
Comprhension des points principaux
et identification dinformations
spcifiques.
Donner des informations
personnelles. Parler des circonstances
prsentes, des expriences passes et
des projets futurs, exprimer des
opinions, faire des suppositions, etc.
Organiser son discours. Donner des
informations, exprimer et justifier des
opinions.
Commencer une discussion et

rpondre, ngocier, collaborer,
changer des informations, exprimer
et justifier des opinions, approuver ou
dsapprouver, suggrer, faire des
suppositions, comparer et exposer
des diffrences, prendre des
dcisions.
Exemple pour la comprhension crite

Description gnrale
Format de lexamen
Dure
Nombre de parties
Nombre de questions
Type de tches
Type de textes
Longueur des textes
Format des rponses
Note
Lexamen consiste en une srie de textes dans le domaine

commercial et de tches raliser. Un texte peut tre constitu de
plusieurs sections courtes.
1 heure
5 parties
Parties 1 3 : comprhension de lecture
Parties 4 et 5 : comprhension de lexique, locutions, phrases et
paragraphes.
45
Appariement
QCM 4 choix
Test de closure en QCM 4 choix
Relecture corrective
Textes informatifs, articles et reportages.
De 150 550 mots
Les candidats indiquent leurs rponses en grisant une case ou en
crivant un mot sur une feuille de rponse lisible par une machine.
Toutes les questions sont notes
56
Annexe IV Conseils aux rdacteurs ditems

Conseils sur le choix des textes
La dfinition dun texte dans ce Manuel se rfre celle donne dans le CECR (section 4.6). On appelle texte toute
squence discursive orale ou crite.
Les instructions aux rdacteurs ditems sur la faon de choisir les textes doivent prendre en compte les points suivants :
Les meilleures sources (qualit des articles de journaux, brochures)
Les sources le moins mme de fournir des textes acceptables (matriels spcialiss)
Une information gnrale sur la faon dviter les biais (biais culturel, biais de sexe, dge, )
Une liste de motifs de rejet des textes, parmi lesquels :
o Les textes font appel trop de connaissances culturelles ou locales (sauf si cest prcisment ce qui est
valu).
o Les thmes ne conviennent pas au groupe de candidats cibls. Par exemple : la guerre, la mort, la politique,
les croyances religieuses, ou dautres thmes qui peuvent choquer ou bouleverser certains candidats.
o Des thmes qui ne conviennent pas la classe dge des candidats.
o Un niveau lexical ou conceptuel trop lev ou trop faible.
o Des erreurs ou des idiosyncrasies techniques ou stylistiques.
o Une rdaction originale mdiocre.
Une liste des thmes dj utiliss de nombreuses fois et quil nest donc plus ncessaire de proposer.
Les chapitres 4 et 7 du CECR situent les textes dans le contexte de lutilisation de la langue. Les mdias lists dans la section
4.6.2 (voix, tlphone, radio, etc.) ainsi que les genres et types de textes oraux et crits de la section 4.6.3 sont extrmement
utiles en tant que vrifications et possibilits de diversifier les types ditems.
Conseils sur la prsentation

On peut recommander aux rdacteurs ditems de prendre en compte les points suivants :
A quel texte affecter un interligne double
Quelles informations faire figurer dans len-tte
Faut-il joindre une photocopie ou le texte original
A quel point dtailler la source (exemple : date de publication)
Conseils dtaills pour chaque tche

Voici un exemple fictif de conseils donns aux rdacteurs ditems pour un test de closure modifi, conu pour valuer des
mots de type plus structurels que lexicaux :
Rechercher un texte authentique denviron 200 mots, comportant un titre court. Laccent est mis uniquement sur
les structures. Le texte ne doit pas comporter trop de vocabulaire inconnu.
Pour tre slectionn aprs le prtest, il doit y avoir au minimum 16 items et plus si possible. Le premier item servira
dexemple et portera le numro 0 (zro). Les items valueront les prpositions, les pronoms, les modificateurs,
les verbes auxiliaires, etc. Ils seront rpartis au hasard dans le texte et on veillera ce quune rponse fausse
ninduise pas une erreur la rponse suivante (interdpendance des items).
On ne supprime gnralement ni le premier mot de la phrase, ni une forme contracte, car dans ce cas, le candidat
ne saura pas sil compte pour un mot ou pour deux. On vite galement de supprimer un mot si la phrase reste
grammaticalement correcte sans lui (par exemple en supprimant le mot tous dans la phrase Nous avons t
informs que tous les trains avaient du retard ). On vite de mme les items qui traitent de structures trs
inhabituelles ou idiosyncratiques.
Lintitul courant utiliser pour cette tche doit galement tre donn au rdacteur ditems.
Les rdacteurs qui ont lhabitude des items partir de textes trouvent souvent, de faon continue, de bons textes, partir
des sources recommandes. Lorsquon leur commande des items, ils travaillent partir des textes les plus intressants quils
ont dj slectionns. Le rdacteur ditem doit pouvoir disposer dun dictionnaire ou dun thsaurus pour rdiger certains
57
types ditems (par exemple ceux de grammaire et de vocabulaire). Lorsquil rdige du matriel de comprhension orale, il
doit couter les passages de faon rdiger les items partir de lenregistrement et non de sa transcription.
De nombreux rdacteurs ditems trouvent utile de tester les tches conues auprs dun collgue ou dun ami non impliqus
dans lvaluation en langues. Cela peut aider reprer des fautes de frappe, des consignes peu claires, des cls errones, des
items pour lesquels la rponse est trs difficile ou bien qui comportent plus dune rponse correcte.
Les SPECIFICATIONS doivent proposer des listes de contrle que le rdacteur ditem peut utiliser pour vrifier le texte, les
items et la tche dans son ensemble, avant de les soumettre. La liste de contrle de la tche de closure modifie est donne
ci-dessous titre dexemple. Si le texte, les items et la tche conviennent, le rdacteur doit pouvoir rpondre oui
chacune des questions suivantes.
texte
Le thme du texte est-il accessible / culturellement acceptable, etc. ?
Le texte est-il dbarrass de tout contenu indlicat ?
Le texte est-il au bon niveau de difficult ?
Le texte est-il appropri pour une tche centre sur les structures ?
Le texte est-il suffisamment long pour quon puisse rdiger 16 items ?
Le texte comporte-t-il un titre appropri ?
Items
Le nombre ditems demands a-t-il t pris en compte ?
Les items sont-ils bien rpartis dans le texte ?
A-t-on pris en compte une gamme suffisante de langage ?
A-t-on vrifi que tous les items mettent laccent sur les structures ?
A-t-on vrifi que les items ne sont pas interdpendants ?
A-t-on ajout un ou deux items supplmentaires ?
Est-ce que les items idiosyncratiques ont t vits ?
Sujet et cl
Est-ce que les intituls ont t vrifis ?
Est-ce quun exemple a t donn ?
Est-ce que toutes les cls ont t fournies sur une feuille part ?
Avant de soumettre leur matriel, les rdacteurs ditems doivent vrifier quils en ont bien gard une copie. Si les originaux
des textes ont t fournis, le rdacteur ditems doit en garder une photocopie sur laquelle il aura report les dtails de la
source originale.
58
Annexe V Etude de cas rvision dune tche de niveau A2

Cette annexe montre les modifications apportes une tche lors de sa rvision et explique les raisons de ces modifications.
Chaque nouvelle version comporte des commentaires. Les parties qui font dbat apparaissent en rouge.
Version 1 soumise par le rdacteur ditems pour rvision (runion 1)

Compltez la conversation entre deux amis.
Que dit Josh son amie Marta ?
Pour les questions 1 5, crivez la lettre correcte A H sur la feuille de rponses.
Exemple 0
Marta : Salut, Josh ! Cest chouette de te voir ! Ctait comment, tes vacances ?
Josh : 0 ___________________________.E
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
O es-tu all cette anne ?

1 ..
Il a fait beau ?
2
Super ! Tu as pris des photos ?
3
Vous tiez lhtel ?
4
a avait lair super ! Tu y retourneras ?
5
Ce serait probablement plus intressant.
rponse
A
B
C
D
E
F
G
H
Il faisait assez chaud. Je suis all nager.

Non, on tait chez des amis de mon oncle.
Je pensais quelles taient vraiment super !
Sans doute pas. Je voudrais aller ailleurs lanne prochaine.
Ctait super, merci !
Jen ai pris des super bonnes !
On navait pas assez dargent.
Je suis all chez mon oncle en Islande
Cls : 1H, 2A, 3F, 4B, 5D
59
Nouvelle vrification de la version soumise pour rvision (runion 1)

Lors de la premire runion de rvision, il a t demand au rdacteur ditems de soumettre nouveau la tche aprs les
modifications suivantes :
Eviter la rptition du modle question / rponse dans la conversation.
Eviter la rptition de vocabulaire.
Modifier les distracteurs G et C ainsi que le texte qui y correspond.
Reformuler le lexique et les structures qui ne sont ni dans la liste de vocabulaire ni dans les spcifications
grammaticales.
La premire modification tait ncessaire afin dviter que la tche soit trop facile et centre sur des rponses et des
questions isoles. Dans la version originale, chaque blanc valuait la rponse de Josh une question pose par Marta. On a
demand au rdacteur de varier le modle dinteraction (en transformant par exemple les choix A-H en questions) et de
reformuler certaines parties (en ajoutant par exemple une proposition la fin du choix F) de faon obtenir un dialogue plus
cohrent.
La deuxime modification tait dviter que la mme forme verbale apparaisse la fois dans les questions et dans les
rponses et rendent alors la tche trop facile. Par exemple : tu as pris des photos ? et Jen ai pris des super bonnes ;
O es-tu all cette anne ? et je suis all chez mon oncle en Islande . On a galement demand au rdacteur de varier
le vocabulaire. Super , par exemple, apparat cinq fois.
La troisime modification tait dviter que les distracteurs C et G soient des cls possibles. On a demand au rdacteur de
les reformuler, ainsi que le texte qui y correspond, de faon ce quils ne puissent pas tre des rponses correctes pour
litem 3, et de sassurer que G ne pouvait correspondre litem 4.
Le quatrime changement tait li au niveau de difficult du contenu des tches. On a par exemple demand au rdacteur de
reformuler probablement , qui nest pas dans la liste de vocabulaire, ainsi que ce serait , qui nest pas dans la liste
des fonctions pour cet examen.
60
Version 2 tches modifies soumises nouveau par le rdacteur

Modifications effectues par le rdacteur ditems :
i.
ii.
iii.
iv.
v.
Les modles dinteraction sont diversifis ; probablement et ce serait ont t supprims.

Le choix C a t modifi de faon ne plus correspondre litem 3.
Le texte prcdant et suivant le blanc de litem 4 a t chang de faon liminer le choix G pour les items 3 et 4.
Le verbe prendre a t supprim du choix F.
Selon le rdacteur ditems, remplacer all par rendu visite aurait donn un aspect non naturel au dialogue.
Pour dissimuler ces deux occurrences du verbe tre , des segments de texte ont t rajouts.

Exemple 0
Josh : 0 ___________________________.E
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
O es-tu all cette anne ? A nouveau chez

ton oncle ?
1 ..
Non, il fait trop froid pour moi l-bas.
2
3
Oui, sil te plat. Vous tiez lhtel ?
4
Tu as eu de la chance !
5
Je ne savais pas. Il faudra que tu me
racontes.
rponse
Non, pas vraiment, lt il fait assez chaud. On peut mme

se baigner dans la mer.
B
C
D
E
F
G
H
Mon oncle a des amis l-bas. On a habit chez eux.

Non, mais est-ce que tu as pass de bonnes vacances ?
Oui, les htels sont trs chers l-bas.
Beaucoup. Je te les montrerai si tu veux.
On a fait quelque chose dautre. On est all en Islande. Tu

connais ?
Cls : 1H, 2A, 3F, 4B, 5D
61
Version 2 La tche rcrite, soumise nouveau par le rdacteur, aprs la discussion

de rvision (runion 2)

Exemple 0
Josh : 0 ___________________________.E
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :

ton oncle ?
1 ..
Non, il fait trop froid pour moi l-bas.
2
3
Oui, sil te plat. Vous habitiez lhtel ?
4
5
racontes.
rponse

B
C
D
E
F
G
H
Mon oncle a des amis l-bas. On a habit chez eux.


connais ?
Cls : 1H, 2A, 3F, 4B, 5D
62
Vrification de la version soumise nouveau pour rvision (runion 2)

A la seconde runion de rvision, les modifications suivantes ont t effectues :
Suppression de son amie (deuxime ligne de lintitul du sujet).
Modification de la deuxime rplique de Marta Non, il fait trop froid pour moi l-bas (entre les blancs 1 et 2).
Modification du choix A Non, lt il fait assez chaud. On peut mme se baigner dans la mer. .
Modification du choix B Mon oncle a des amis l-bas. On a habit chez eux. .
Le premier changement avait des raisons stylistiques : viter la rptition du mot ami , qui apparat la premire ligne de
la consigne.
Il y a deux raisons la modification de la deuxime rplique de Marta. La premire tait dliminer le choix B pour litem 2 (la
cl est A). La seconde tait de donner une indication sur le contenu du blanc. Dans la premire version, la conversation peut
changer de sujet aprs lintervention de Marta, mais si cette intervention est une question, la rponse de Josh tait presque
vidente.
Le choix A a t chang pour tre cohrent avec la deuxime rplique de Marta. Non, pas vraiment est devenu une
rponse la question de Marta. Linformation sur lt et les baignades dans la mer ont t gardes mais lgrement
modifies.
Il y a eu galement deux raisons aux changements apports au choix B, qui est la cl de litem 4. La premire a t de
supprimer la rfrence loncle de Josh, car cela redirigeait le choix plus vers le dbut de la conversation que vers le
quatrime blanc. La rfrence eux portait galement confusion. Cest pourquoi on a prfr faire la distinction entre
la maison de loncle et la maison des amis de loncle. Les candidats qui nont pas fait cette distinction nont pas pu choisir le
choix B pour litem 4. Le choix B a donc t chang pour Nous avons des amis l-bas . La seconde raison de la modification
du choix B a t dviter une redite lexicale : Habiter , dans Vous habitiez lhtel ? apparat dans la question de Marta
avant litem 4 et il apparat galement dans le choix B. Cette dernire occurrence a t change pour Nous avons dormi
chez eux .
63
Version 3 Version utilisable en prtest, incluant les changements effectus lors de la

seconde runion de rvision
Que dit Josh Marta ?
Exemple 0
Josh : 0 ___________________________.E
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :

ton oncle ?
1 ..
Non, il ne fait trop froid l-bas ?
2
3
Oui, sil te plat. Vous habitiez lhtel ?
4
5
racontes.
rponse

B
C
D
E
F
G
H
Mon oncle a des amis l-bas et on a dormi chez eux.


connais ?
Cls : 1H, 2A, 3F, 4B, 5D
64
Rvision de la version prteste (runion 3)

Aucune tche na ncessit de modification lors de cette troisime runion. Les statistiques ont indiqu que la tche tait au
bon niveau de difficult (cf. annexe VII pour la faon de comprendre ces statistiques). La cible moyenne du niveau de
difficult est de -2.09 pour KET et cette tche a une difficult moyenne de -2.31. Les items 1 5 sont dun niveau de difficult
acceptable, compris entre -3.19 et -0.99.
Difficult de litem (logits)

-2.72
-2.90
-2.86
-1.92
-1.13
-2.31
1
2
3
4
5
Moyenne
Eliminer les ventuelles doubles cls a galement t abord dans cette runion. Le tableau ci-dessous montre la ventilation
des rponses des candidats avec lanalyse statistique Classique. Exemple : pour litem 2, 20 % du groupe faible a choisi F et
pour litem 4, 50 % du groupe faible a fait le choix D. Ces choix ont fait lobjet dun nouvel examen pour voir sils pouvaient
tre des rponses possibles pour les items 2 et 4. Par exemple, F ne peut pas tre la cl de litem 2 parce que les , dans
Je te les montrerai ne se rfre rien. D est exclu comme cl pour litem 4 cause de Oui .
Statistiques classiques
Autres statistiques
N de
litem
Rang
de
litem
Proportion
de rponses
correctes
Indice de
discrimination
Point
bisrial
Choix
Proportion
totale
1-13
.73
.41
.40
A
B
C
D
E
F
G
H
Autre
.07
.07
.09
.01
.01
.01
.02
.73
.00
.15
.15
.11
.00
.00
.00
.02
.57
.00
.00
.00
.02
.00
.00
.00
.00
.98
.00
-.24
-.27
-.13
-.04
-.06
.05
-.04
.40
A
B
C
D
E
F
G
H
Autre
.76
.04
.05
.03
.03
.07
.00
.02
.00
.57
.07
.07
.04
.04
.20
.00
.02
.00
.98
.00
.00
.00
.00
.02
.00
.00
.00
.36
-.08
-.11
-.06
-.15
-.30
A
B
C
D
E
F
G
H
Autre
.02
.03
.07
.03
.04
.76
.04
.01
.01
.00
.00
.15
.09
.11
.50
.11
.02
.00
.00
.00
.04
.02
.00
.91
.02
.00
.00
.00
-.02
-.15
-.16
-.21
38
-.18
-.15
.08
1-14
1-15
.76
.76
.41
.41
.36
.38
65
Bonnes rponses
Groupe
Groupe
faible
fort
Point
bisrial
Cl
-.04
1-16
1-17
.58
.41
.56
.60
45
.50
66
A
B
C
D
E
F
G
H
Autre
.01
.58
.02
.29
.01
.00
.10
.00
.00
.00
.28
.00
.50
.02
.00
.20
.00
.00
.00
.84
.04
.07
.00
.00
.04
.00
.00
.01
.45
.12
-.37
-.04
A
B
C
D
E
F
G
H
Autre
.02
.07
.10
.41
.17
.06
.07
.09
.00
.02
.09
.07
.13
.35
.09
.11
.15
.00
.00
.07
.07
.73
.02
.07
.04
.00
.00
-.01
-.06
-.05
.50
-.33
-.04
-.06
-.22
-.22
Version 4 version dfinitive (identique la version 3)
67
Annexe VI - Recueil des donnes du prtest et de lexprimentation

Cette annexe comprend des questions que lon peut poser aprs le pr-test ou lexprimentation (voir partie 3.4.2)
Retour dinformation des surveillants- Tous les lments

Commentaires attendus sur les points suivants :
1.
2.
3.
4.
5.
Contenu : Etendue et types de questions/textes/tches, etc. ;

Niveau : Difficult, par exemple, linguistique/cognitive des diffrentes parties/tches ;
Pr-test portant sur la comprhension orale seulement : clart/vitesse du dbit/accent des locuteurs,etc.
Candidature : ge des tudiants qui ont pass le pr-test ;
Autres commentaires
Retour dinformation des candidats test de comprhension crite

1.
2.
3.
4.
5.
6.
Le temps imparti tait-il suffisant pour faire le travail demand ? (Combien de temps supplmentaire aurait t
ncessaire ?)
Avez-vous eu des problmes de comprhension de vocabulaire ? (Veuillez relever les mots/expressions qui ont pos
problme)
Avez-vous suivi sans problme le fil des ides et largumentation des auteurs des textes ? (Facilement/Avec
difficilement/Trs difficilement)
Le thme propos vous tait-il familier ? (Trs familier/Assez familier/Pas trs familier/Pas du tout familier)
Quand pensez-vous passer le test rel (si vous avez lintention de le passer)
Avez-vous dautres commentaires faire ?
Retour dinformation des correcteurs test de production crite

Les composantes de la tche : Lessentiel
1. La tche a-t-elle t comprise ?
2. Le rle du rdacteur a-t-il t clairement identifi ?
3. Le lecteur cible a-t-il t clairement identifi ?
4. Existe-t-il des biais culturels ? La tche favorise-elle un candidat en fonction de son ge, sa formation
5. Est-il ncessaire de reformuler la question ? Dans ce cas, quelles sont vos propositions ?
Les composantes de la tche: Langue
6. La question a-t-elle t comprise par des candidats de niveau B2 ?
7. La formulation na-t-elle pas cr des malentendus ?
8. Les candidats ont-ils choisi le registre de langue adquat ?
9. Est-il ncessaire de reformuler la question ? Que suggrez-vous ?
La production des candidats (output) : Contenu
10. Le type de tche a-t-il t interprt de faon adquate ?
11. Certains lments du contenu ont-ils t mal compris/omis ? Donnez des exemples.
12. La longueur demande tait-elle adquate ?
La production des candidats : Etendue/ton
13. Des lments de la question ont-ils t omis dans la production ? Prciser.
14. Quel est le registre de langue utilis par le candidat (formel/informel)
La production des candidats : Niveau
15. La question a-t-elle donn assez dopportunit un candidat C1 de montrer ses capacits ?
La grille de notation
16. Comment peut-on amliorer la grille de notation ? Que proposez-vous ?
Impression gnrale
17. Donnez votre impression gnrale sur la question.
68
Annexe VII Utilisation des analyses statistiques dans le cycle dlaboration de

tests
Le recueil et lanalyse des donnes dun test qui suppose une planification et des ressources a pour effet daugmenter la
qualit dun test et linterprtation des rsultats. Il est de toute faon indispensable denregistrer des informations sur les
candidats qui ont pass le test, leur note et le niveau quils ont obtenu. Des analyses statistiques simples peuvent tre
utilises cet effet. Se rfrer exemple Carr (2008).
Des donnes plus prcises sur la performance dun candidat peuvent montrer le bon fonctionnement des items et sur quels
lments leffort de vrification doit porter. Il est possible de mener bien la plupart des analyses dcrites ci-dessous avec
des logiciels dun usage trs simple. Ces outils peuvent tre utiliss avec un nombre restreint de candidats (par ex 50).
Le recueil de donnes supplmentaires comprend :
des donnes sur le niveau de la tche :il sagit de la note obtenue par un candidat pour chaque tche et non pas
simplement la note globale,
des donnes de rponse litem : il sagit de la rponse dun candidat chaque item du test,
re
des donnes dmographiques sur les candidats :ge, genre, 1 langue utilise, etc.
Les donnes
La plupart des logiciels danalyse classique utilisent des donnes qui se prsentent plus ou moins sous la forme de la figure
18. On peut saisir les donnes avec nimporte quelle application de processeur de mots, mais il faut alors :
utiliser une police espacement fixe tel que Courrier,
ne pas utiliser de tabulations,
sauvegarder le dossier au format dun texte simple (txt)
Identit de
la personne
Rponses aux items
Personnes
Figure 18: Exemple typique de prsentation des donnes de rponse litem.

Dans la figure 18 :
chaque range comprend les rponses dune seule personne,
la premire colonne indique lidentit de la personne (elle peut comporter des donnes dmographiques),
chaque colonne comprend les rponses un item du test.
Lexemple ci-dessus porte sur un test ditems choix multiple dans lequel les options (a-h) choisies par chaque personne sont
saisies.
Il faudra fournir au logiciel des informations supplmentaires, comme par exemple l loption correcte pour chaque item.
69
La thorie classique des tests

La thorie classique des tests est utilise :
pour lanalyse des donnes de prtest qui permettent ensuite de slectionner et de vrifier les tches utilises dans
les tests rels,
pour lanalyse des donnes issues des tests rels.
Le rsultat est un ensemble danalyses statistiques sur la performance des items et de la totalit du test. En particulier :
Analyses dcrivant la performance de chaque item :
facilit et difficult dun item pour un groupe de candidats,
indice de discrimination des items entre un candidat fort et un candidat faible,
bon fonctionnement de la cl et de chaque distracteur.
Synthse des analyses sur la totalit du test ou par partie, comprenant :
le nombre de candidats,
la dviation moyenne ou lcart type des rsultats,
lindice de fidlit.
Nous proposons ci-dessous quelques indications considres comme des valeurs acceptables pour certaines de ces analyses.
Elles ne doivent pas tre considres comme des rgles absolues car en pratique les valeurs gnralement observes
dpendent du contexte. Les analyses statistiques classiques ont plus de poids quand elles comportent:
un nombre plus important ditems dans un test,
plus de candidats se prsentant au test,
un ventail plus large de comptences dans le groupe qui passe le test.
Et rciproquement, elles ont moins de poids quand elles portent sur peu ditems ou de candidats ou un ventail peu large de
comptences.
La figure 19 montre des exemples danalyses statistiques ditems utilisant des logiciels danalyses ditems MicroCat (voir les
logiciels pour les analyses statistiques ci-dessous). Il sagit l des analyses de trois items.
Statistiques classiques
Autres statistiques
N de
litem
Rang
de
litem
Proportion
de rponses
correctes
Indice de
discrimination
Point
bisrial
Choix
Proportion
totale
1-1
.38
.52
.48
A
B
C
D
Autre
A
B
C
D
Autre
A
B
Autre
.00
.38
.12
.49
.01
.07
.11
.10
.71
.01
.93
.07
.01
1-2
1-3
.71
.93
.42
.19
.42
.39
Figure 19 Exemple de statistiques classiques (Analyse ditems MicroCAT)
70
Bonnes rponses
Groupe
Groupe
faible
fort
.00
.13
.11
.74
.00
.11
.18
.16
.53
.00
.81
.18
.00
.00
.66
.12
.23
.00
.01
.04
.00
.95
.00
.00
.00
.00
Point
bisrial
Cl
.48
-.01
-.44
-.16
-.22
-.22
.42
.39
-.39
-.03
Facilit
Lindice de facilit est la proportion de rponses correctes (proportion de rponses correctes dans la figure 9). Il montre la
facilit de litem en question pour ce groupe de candidats. La valeur se situe entre 0 et 1, un chiffre lev correspondant un
item facile. La figure 19 montre que litem 1 est le plus difficile et litem 3 le plus facile.
Lindice de facilit est la premire donne statistique consulter, car si le chiffre est trop lev ou trop bas (par exemple non
inclus dans lventail 0.25 -0.80%), cela signifie que lestimation des autres donnes statistiques nest pas correcte et que les
informations sur ce groupe de candidats ne sont pas fiables.
Sil reprsente la population du test rel, on en conclura que litem est tout simplement trop facile ou trop difficile. Si nous ne
sommes pas srs du niveau des candidats, il se peut alors que litem soit bon mais que le groupe ne soit pas au bon niveau.
La conclusion tirer est quil faut toujours faire passer le prtest des candidats qui ont en gros le mme niveau que celui
des candidats qui passeront le test rel.
Discrimination
Les bons items doivent pouvoir distinguer un candidat faible dun candidat fort. La thorie classique des tests propose deux
indices : lindice de DISCRIMINATION et le point bisrial de CORRELATION (Disc.Index et Point Biser dans la figure 19).
Lindice de discrimination est une simple donne statistique : cest la diffrence entre la proportion de rponses correctes
obtenues par les candidats ayant les meilleurs rsultats et celle obtenue par les candidats ayant les moins bons rsultats (en
gnral le tiers suprieur et infrieur des candidats). Les donnes de la figure 19 figurent dans les colonnes bas (low) et
haut (high) .Pour litem 1, la diffrence entre le groupe fort et faible est de 0.66-0.13. Cest la valeur de lindice de
discrimination (dans le cadre de lerreur due larrondissement).
Un item trs discriminant a un indice de discrimination proche de +1, indiquant que les candidats les plus forts rpondent
correctement litem alors que les plus faibles se trompent.
Si lindice de facilit est trs lev ou trs bas, les groupes faibles et forts auront de bons rsultats (ou des rsultats mauvais).
Lindice sous- estimera alors la discrimination. LItem 3 en est une illustration : 1.00-0.81 = 0.19, cest--dire une valeur basse.
Le point bisrial suppose un calcul plus complexe que lindice de discrimination et est plus robuste que lindice de facilit. Il
sagit dune corrlation entre les rsultats des candidats un item (1 ou 0) et la totalit du test.
On considre quen gnral les items qui ont une corrlation de point bisrial suprieure 0.30 sont acceptables. Un point
bisrial ngatif signifie que les candidats forts sont susceptibles de ne pas rpondre correctement litem. Dans ce cas, soit
un des distracteurs est la rponse correcte, soit la cl est fausse.
Analyse des distracteurs

Les distracteurs sont les options qui ne sont pas correctes dans un item choix multiple. On sattend ce que des candidats
faibles choisissent un distracteur alors que les forts choisiront la cl (loption correcte est indique par +).
Lanalyse des distracteurs montre la proportion des candidats qui ont choisi chaque distracteur (prop..total dans la figure 19).
Litem 1 a un indice de facilit bas pour loption correcte B (0.38). Le distracteur B attire plus de rponses (indice de
facilit=0.49). Le distracteur A nattire aucun candidat, ce qui signifie que ce nest pas un bon distracteur. Cependant, litem
fonctionne bien dans lensemble, avec un bon indice de discrimination. Il ny a donc aucune raison de le changer. En fait, il est
difficile de trouver trois distracteurs qui fonctionnent bien.
Les analyses de la figure 19 montrent aussi la proportion haute et basse dans les choix et le point bisrial pour chaque option.
Le point bisrial dun bon item sera positif pour la cl et ngatif pour chaque distracteur.
Fidlit des rsultats

Il y a plusieurs faons dvaluer la fidlit et diffrentes formules existent pour ce faire. Chaque mthode a ses avantages. La
mthode de bissection (split-half) consiste diviser le test en deux parties gales et comparer le rsultat du candidat dans
71
ces deux parties. Si on utilise cette mthode, il est important que les deux parties soient aussi quivalentes que possible:
quivalence du construit dans toute son tendue , quivalence de difficult, etc.
Dautres mthodes consistent mesurer la consistance interne du test. Elles fonctionnent bien condition que le type
ditems et le contenu soient similaires. Par contre, si les items sont htrognes, la fidlit sera sous-estime.
Pour les analyses classiques:
Nombre de candidats : 50 80 (Jones, Smith et Talley 2006:495)
Pour plus ample information : Verhelst (2004a,b); Bachman (2004)
Lanalyse de Rasch
Lanalyse de Rasch est la forme la plus simple et pratique de la THEORIE DE REPONSE A LITEM ou TRI. Cette analyse permet
dune part de mieux comprendre ce quest la difficult de litem que par lanalyse classique et a dautre part des applications
supplmentaires telles que les faons de relier les tests entre eux.
Avec lanalyse de Rasch :
la diffrence exacte de difficult entre deux items est claire car les items sont placs sur une ECHELLE DINTERVALLE
mesure en logits (appele aussi chelle logit ),
la diffrence entre les items, les candidats, les rsultats au test et les points de csure peut tre interprte de la
mme faon dans la mesure o toutes ces donnes sont sur une mme chelle,
la difficult de litem peut tre interprte indpendamment des capacits du candidat (alors quavec lanalyse
classique, selon le niveau du groupe de candidats, un item peut paratre plus facile ou plus difficile).
Lanalyse de Rasch est donc trs utile pour contrler et maintenir des standards dune session lautre. Cependant, si on veut
utiliser Rasch dans ce but, les items des diffrents tests doivent tre relis entre eux. Par exemple, deux tests peuvent tre
relis entre eux de diffrentes faons :
les mmes items sont utiliss dans les deux tests,
un groupe DITEMS ANCRES est utilis dans les deux tests,
quelques items ou tous les items sont CALIBRES avant dtre utiliss dans les tests rels (voir 3.4.2 le prtest),
certains candidats passent les deux tests.
Quand les donnes des deux tests sont analyses, le lien cr permet davoir un seul cadre de rfrence pour tous les items,
tous les candidats, etc. et des valeurs de difficult calibres sont attribues aux items. Dautres tests peuvent tre ajouts au
cadre de rfrence en utilisant la mme procdure.
Les standards peuvent tre contrls en comparant la position respective des lments importants :
Les items sont-ils de la mme difficult dans tous les tests ?

Les candidats ont-ils les mmes capacits ?
Les points de csure (mesurs en logits) concident-ils avec les SCORES BRUTS (eux aussi mesurs en logits) dans
tous les tests ?
Les standards peuvent tre maintenus si les points de csure sont chaque fois dcids en tenant compte des mmes valeurs
de difficult.
Il est certes plus facile de maintenir des standards et la qualit dun test sil est labor avec des items calibrs. Toute la
difficult dun test peut tre dcrite par sa difficult moyenne et son ETENDUE. La difficult dun test peut tre contrle en
slectionnant un groupe ditems qui correspond ltendue cible et la moyenne cible.
Quand vous commencez calibrer des items, les valeurs de difficult ne signifient pas grand-chose. Mais avec le temps, on
finit par bien se reprsenter les capacits relles dun candidat en regardant les points sur lchelle de capacits. Une autre
possibilit est aussi dmettre un jugement subjectif sur des items (Je pense quun apprenant B1 aurait 60% de chance de
rpondre correctement cet item) afin de donner un sens aux difficults des items. Cest ainsi quon se familiarise avec les
chiffres de lchelle de capacits et quils prennent un sens.
72
Nombre de candidats : 50 80 (Jones, Smith et Talley 2006:495)

Pour plus ample information : Verhelst (2004d); Fox (2007)
Analyses statistiques pour la notation et le classement

La correction humaine
Il est important de sassurer de la qualit du travail des correcteurs. Si le travail nest pas bien fait , il faut alors exiger quils
suivent une nouvelle formation- (voir partie 5.1).Sil y a peu de candidats au test, il est toujours possible de vrifier la note
donne chaque item chaque candidat. Par contre, quand les candidats sont plus nombreux, un chantillon (peut-tre
10%) des preuves corriges par un correcteur peut tre relev et un taux tabli. Un taux derreur est le nombre derreurs
commises par un correcteur divis par le nombre ditems corrigs. Si cet chantillon est reprsentatif de tout son travail, le
taux derreur sera sans doute le mme pour la totalit de sa correction.
Il est prfrable que lchantillon soit recueilli de faon alatoire si lon veut quil soit reprsentatif. Pour tre sr que la
slection de lchantillon est faite de faon alatoire, il faut savoir comment le correcteur travaille. Le choix alatoire ne
signifie pas les 10% de nimporte quelles preuves corriges dans la mesure o cet chantillon peut comprendre uniquement
les dernires corrections effectues par le correcteur, et qui ont choisies parce quelles taient plus accessibles. Dans ce cas,
le taux derreur sous-estime tout le temps pass par le correcteur avant le recueil de lchantillon en oubliant quil a ensuite
amlior ses performances.
Lvaluation
La performance des valuateurs peut tre value statistiquement de faon trs simple en calculant la moyenne de leurs
valuations et LECART TYPE(une mesure de la dispersion de leurs valuations, de la plus basse la plus haute). Les
valuateurs peuvent tre compars les uns aux autres et une recherche peut tre faite sur les valuations dun correcteur
dont la mesure diffrerait de celles des autres. Cela suppose que les preuves du test soient distribues de faon alatoire. Si
ce nest pas le cas, un valuateur peut trs bien valuer des candidats qui sont dhabitude meilleurs ou moins bons que la
moyenne. Dans ce cas la moyenne risque dtre plus leve ou moins leve que les autres valuateurs, mais cela ne remet
pas en question la comptence de lvaluateur.
Si certaines tches peuvent tre values par deux valuateurs, la fidlit de ces notes peut tre value. On peut le faire par
exemple avec Excel en utilisant la fonction de corrlation de Pearson. Les donnes peuvent tre prsentes de la faon
suivante:
Candidat 1
Candidat 2
Candidat 3
Evaluateur 1
5
3
4
Evaluateur 2
4
4
5
Le coefficient de corrlation sera entre -1 et 1. Dans la plupart des cas, un nombre infrieur 0,8 est suspect et demande
vrification. Car il suppose que lvaluateur na pas valu de faon cohrente.
Une estimation de fidlit comme celle produite par lAlpha de MicroCat (se rfrer aux logiciels pour les analyses
statistiques mentionns ci-dessous) peut tre calcule pour tout le groupe dvaluateurs. Les donnes peuvent tre
prsentes comme dans la figure 18, avec quelques modifications, chaque range pouvant indiquer les performances dun
candidat une tche; et les colonnes les notes des valuateurs.
Mesure tablie avec un modle de Rasch multi facettes

Une manire plus sophistique de porter un jugement sur la performance des valuateurs est dutiliser la mesure tablie
avec un modle de Rasch multi facettes : (many-facet rasch measurement - MFRM).Cest une variante de lanalyse de
73
Rasch. La MFRM peut tre mene en utilisant le logiciel Facets (Linacre 2009). Lanalyse mesure, comme avec lanalyse de
Rasch, la difficult des tches et les capacits des candidats, mais elle peut aussi valuer la svrit ou le laxisme des
valuateurs. De plus, les notes attribues sont plus prcises dans la mesure o les effets dus la svrit ou au laxisme sont
supprims.
Quand on utilise la mesure tablie avec un modle de Rasch multi facettes, il est trs important de sassurer que les donnes
comprennent les liens entre les valuateurs, les candidats, les tches et les autres facettes mesures. Il est par exemple
ncessaire que des candidats accomplissent plus quune tche afin dtablir un lien entre les tches. Si les donnes sont
groups sans lien entre elles, la mesure tablie avec le modle de Rasch multi facettes ne pourra pas fournir des estimations
pour tous les lments.
Pour la mesure tablie avec un modle de Rasch multi facettes :
Nombre minimum de performances : 30 pour chaque tche devant tre value (Linacre 2009)
Nombre minimum dvaluations par valuateur : 30 (Linacre 2009)
Pour plus ample information : Eckes (2009).
Validation du construit
Vrification de la structure du test
Lanalyse factorielle ou les modles dquations structurelles permettent de vrifier si les items appliquent le construit prvu.
La structure du test doit reflter le modle dusage de la langue qui a t choisi. (voir partie 1.1). Lanalyse factorielle est trs
utile lors des tapes dlaboration du test, car elle permet de vrifier que le test ou les spcifications fonctionnent comme
prvu.
Pour les analyses factorielles:
Nombre minimum de candidats : 200 (Jones, Smith and Talley 2006:495)
Pour plus ample information : Verhelst (2004c)
La dtection des biais d items

On dtecte des biais ditems quand des items favorisent ou dfavorisent certains groupes de candidats de capacits
quivalentes. Par exemple, un item peut tre plus facile pour une candidate que pour un candidat alors quils ont les mmes
capacits. Cela cre une injustice dans la mesure o le but du test nest pas de mesurer des diffrences dans le domaine du
genre mais dans celui des capacits langagires (voir partie 1.4).
Il faut cependant tre prudent quand il sagit de faire le diagnostic des biais dans la mesure o toutes les diffrences ne sont
pas injustifies. Des diffrences entre la langue 1 de deux groupes dapprenants de mme comptence peuvent les amener
trouver quun item de la langue cible est plus difficile pour un groupe que pour un autre. Comme il sagit de mesurer les
performances langagires , il faut considrer que cela fait partie de la nature de la performance dans la langue cible et ne pas
le voir comme un problme de mesure de cette performance.
Une faon de minimiser ce biais est dutiliser la mthodologie du Fonctionnement diffrentiel des items (FDI) (Differential
Item Functioning DIF) pour dtecter dventuels biais et effectuer les vrifications ultrieurement. Cela suppose que lon
compare les rponses des groupes de candidats de capacits identiques. Si par exemple le test est destin aux adultes dges
diffrents, on peut comparer les performances des plus jeunes et des plus vieux ayant sensiblement les mmes capacits. Les
analyses du type de l4TRI (thorie de rponse litem) conviennent tout fait.
74
Pour le Fonctionnement diffrentiel des items (Differential Item Functioning - DIF) avec lanalyse de Rasch
Nombre minimum de candidats : 500 dont au minimum 100 par groupe(Jones, Smith and Talley 2006:495)
Pour plus ample information : Camilli et Shepard (1994); Clauser et Mazor (1998)Verhelst (2004c)
La vrification de lchantillon de candidats

Toute analyse ou recherche utilisant des donnes de test, doit tre mene de telle sorte que ces donnes soient
reprsentatives du groupe cible de candidats (la population). On peut recueillir des informations sur les candidats de faon
rgulire et vrifier si les analyses sont menes sur un chantillon totalement reprsentatif de candidats.
On peut recueillir des donnes sur les candidats chaque passation dun test (voir partie 4). Ces donnes peuvent tre
compares en utilisant tout simplement des pourcentages, par exemple pour comparer le nombre de femmes et dhommes
dans deux chantillons diffrents.
Une analyse plus sophistique permettra dtablir si les diffrences entre deux chantillons sont dues au hasard. On peut
utiliser un test Khi-carr de cette faon. Les rsultats dune analyse doivent ensuite tre vrifis sur le plan qualitatif pour
vrifier si les diffrences entrainent des diffrences significatives de performance du candidat.
Les outils pour des analyses statistiques

Un certain nombre de logiciels sont disponibles des fins danalyses. Il est possible de mener trs facilement bien des
mesures de calcul en utilisant Microsoft Excel, ou un autre programme de feuilles de calcul. Une liste des fournisseurs
spcialiss est donne ci-dessous dans lordre alphabtique. Ils peuvent fournir des logiciels pour diffrents types danalyses.
Des versions de dmonstration sont parfois disponibles.
Assessment Systems
http://www.assess.com/softwarebooks.php
Curtin University of Technology
http://lertap.curtin.edu.au/index.htm
RUMM Laboratory
http://www.rummlab.com.au/
Winsteps
http://www.winsteps.com/index.htm
Dautres outils gratuits sont disponibles des fins spcifiques :

William Bonk, University of Colorado
http://psych.colorado.edu/~bonk/
Del Siegle, University of Connecticut: http://www.gifted.uconn.edu/siegle/research/Instrument%20

Reliability%20and%20Validity/Reliability/reliabilitycalculator2.xls
75
Annexe VIII Glossaire

Administration
Date ou priode durant laquelle un examen a lieu. Certains examens sont administrs dates fixes plusieurs fois par an, d'autres
ont lieu la demande.
Approche de type actionnel

Faon de considrer lusager et lapprenant dune langue comme des acteurs sociaux ayant accomplir des tches dans des
circonstances et un environnement donns lintrieur dun domaine daction particulier (dfinition du CERL)
Analyse d'items
Description de la performance des items de tests individuels, employant gnralement des indices statistiques classiques tels
que la facilit ou la discrimination. On utilise pour cette analyse des logiciels tels que MicroCAT Iteman.
Argumentaire pour les utilisations de lexamen

La partie de largument de validit qui explique comment les rsultats doivent tre interprts pour un usage spcifique.
Argument interprtatif
Voir Argumentaire pour les utilisations de lexamen
Argument de validit
Ensemble de propositions et de preuves qui ont pour but de soutenir la validit des interprtations des rsultats du test.
Authenticit
Degr de ressemblance des tches avec celles de la vie quotidienne. Par exemple, la prise de notes dans un test mesurant la
comptence dans le domaine ducationnel plutt que la simple coute dun document. Voir aussi Utilit dun test.
Banque d'items
Gestion des items qui permet de stocker des informations afin de pouvoir laborer des tests aux contenu et difficults connus.
Barme de notation
Liste de toutes les rponses acceptables aux items d'un test. Le barme permet au correcteur d'accorder la note approprie.
Calibrage
Dtermination de l'chelle pour un ou plusieurs tests. Le calibrage peut impliquer des items d'ancrage de diffrents tests sur une
chelle de difficult commune (chelle thta). Quand un test est labor partir d'items calibrs, les notes, en fonction de leur
localisation sur l'chelle thta, indiquent la capacit du candidat.
Calibrer
Dans la thorie item-rponse: estimer la difficult d'un ensemble de questions.
Classement
Conversion des notes obtenues en niveaux.
Cl
a) Choix correct dans un item choix multiple ( voir: item choix multiple)
76
b) Plus gnralement, un ensemble de rponses correctes ou acceptables.
Composante
Partie d'un examen souvent prsente comme un test part entire, comportant un livret de consignes et une limite de temps.
Les composantes sont souvent des preuves bases sur les aptitudes langagires telles que la comprhension ou la production
orale. Egalement appel sous-test..
Consigne
Instructions donnes aux candidats afin de les guider dans leurs rponses une tche prcise.
Construit
Capacit hypothtique ou trait mental qui ne peut pas tre observ ou mesur, comme par exemple dans lvaluation, la
capacit de comprhension orale.
Correcteur
Personne qui attribue une note ou un classement aux rponses d'un candidat un test. Cette activit peut demander un
jugement dexpert ou, dans le cas d'une notation mcanique, la simple application d'un barme de notation.
Corrlation
Relation entre deux ou plusieurs mesures, en tenant compte du fait quelles peuvent varier de la mme faon. Si, par exemple,
les rsultats de candidats sont les mmes dans des tests diffrents, il existe une corrlation positive entre les deux ensembles de
rsultats.
Dclencheur
Support graphique ou crit qui permet d'obtenir une rponse du candidat dans les tests de production orale ou crite.
Dfinition des points de csure

Processus de dfinition des points de csure dans un test (par exemple la limite entre lchec/le succs et par consquent de la
dfinition des rsultats du test).
Descripteur
Brve description accompagnant un graphique en bande sur une chelle de notation. Elle rsume le degr de comptence ou le
type de performance attendue pour qu'un candidat atteigne une note prcise.
Ecart type
Lcart type est la mesure de la dispersion des rsultats un test (ou la distribution dautres donnes). Si la distribution des
rsultats est normale, 68% dentre eux sont compris dans la 1 ET de la moyenne et 95% dans la 2 ET. Plus lcart type est lev
et plus il est loign de la majorit des donnes.
Discrimination
Le fait qu'un item puisse tablir une distinction entre des candidats en les classant selon un degr allant du plus faible au plus
fort. On utilise plusieurs indices de discrimination. Voir lannexe VII pour plus de renseignements.
Domaine dusage de la langue

Vastes domaines de la vie sociale, telle que lducation ou la vie personnelle que lon peut dfinir pour choisir le contenu et
laccent mettre dans les activits langagires dans les examens.
77
Double notation
Mthode d'valuation o la performance du candidat est valide de faon indpendante par deux personnes.
Echelle
Ensemble de nombres ou de catgories destins mesurer quelque chose. On distingue quatre sortes dchelles: chelle
nominale, ordinale, d'intervalle et de rapport.
Echelle de notation; syn.: chelle d'valuation

Echelle compose de plusieurs catgories qui permettent d'exercer un jugement subjectif. Ce type d'chelle est frquemment
accompagn de descripteurs qui permettent d'interprter les catgories.
Echelle de mesure
Une chelle de mesure est une chelle compose de nombres qui mesurent la diffrence entre les candidats, les items, les
points de csure, etc. sur le construit du test. On labore une chelle de mesure en appliquant des techniques statistiques des
rponses des candidats des items. (cf. annexe VII). Lchelle de mesure fournit bien plus dinformations que des rsultats
bruts dans la mesure o elle ne montre pas seulement quels candidats sont meilleurs que tels autres mais aussi quel est de
combien ils sont meilleurs. On utilise parfois les termes dchelles nominales et ordinales pour dsigner des chelles de mesure
mais ces dfinitions nont pas t retenues dans ce Manuel
Echelle dintervalle
Echelle de mesure dans laquelle la distance entre deux units adjacentes de mesure est la mme, mais dans laquelle il ny a pas
de points zro absolus.
Elaboration de test
Action de slectionner des items ou des tches en vue de la production d'un test. Souvent prcde du pr-testage ou de
l'exprimentation du matriel. Les tches ou les items ncessaires l'laboration du test peuvent tre slectionns dans une
banque ditems.
Elaborateur de test
Personne implique dans llaboration dun test nouveau
Enjeux
Degr dimportance que peut avoir les rsultats dun test sur lavenir dun candidat. On parle gnralement de test fort ou
faible enjeu, un test fort enjeu ayant un impact plus grand.
Erreur standard de mesure

Dans la thorie de la note vraie, l'erreur standard de mesure (ES) indique l'imprcision de la mesure . Si, par exemple, lerreur de
mesure est 2, un candidat ayant obtenu une note 15 aura une note entre 13 et 17 (avec 68% de certitude). Une erreur plus
petite aura pour consquence une note plus prcise.
Etendue
Ltendue est une mesure simple de la dispersion : cest la diffrence entre le nombre le plus lev et le plus bas dans un
groupe.
78
Exprimentation
Etape de l'laboration des tches d'un test servant vrifier que le test fonctionne de la faon attendue. Souvent utilise dans le
cas de tches notation subjective telles que la composition ou l'essai et administre une population limite.
Examen rel (en grandeur nature)

Un test prt tre utilis et qui, pour cette raison, doit tre stock en toute scurit.
Evaluateur.
Personne charge de noter, de faon subjective, la performance du candidat un test donn. Les valuateurs sont
gnralement qualifis dans leur domaine. On attend d'eux qu'ils se soumettent un processus de formation et de
standardisation. l'oral, on distingue parfois les rles d'examinateur et d'interlocuteur.
Faisabilit
Degr dlaboration dun test rpondant des exigences dordre pratique. Voir aussi Utilit dun test.
Fidlit
Uniformit, constance ou stabilit des mesures. Plus un test est fidle, moins il contient d'erreurs accidentelles. Un test
prsentant une erreur systmatique, par exemple une distorsion qui dsavantagerait certains groupes, peut tre fidle mais pas
valide.
Formes quivalentes; syn.: formes parallles, formes alternes

Diffrentes versions du mme test considres comme quivalentes car bases sur les mmes spcifications et mesurant la
mme comptence. Dans la thorie classique du test, pour rpondre aux exigences d'une vritable quivalence, les diffrentes
formes du test doivent avoir le mme type de difficult, la mme variance, la mme covariance et avoir un critre concordant
lorsqu'ils sont administrs aux mmes personnes. Dans la pratique, l'quivalence est trs difficile atteindre.
Impact
Effet produit par un examen, la fois en termes d'influence sur le processus ducatif en gnral et pour les individus intresss
par les rsultats de cet examen.
Indice de facilit
Proportions de rponses correctes un item, transcrites sur une chelle de 0 1. Egalement exprim sous forme de
pourcentage. Aussi considr comme la proportion correcte, lindice de facilit ou la valeur-p.
Input
Composantes de la tche fournies au candidat afin quil puisse produire une rponse adquate. Par exemple, dans un test de
comprhension orale, il peut sagir dun test enregistr et des items auxquels il doit rpondre par crit.
Interactivit
Degr auquel des items et des tches font appel des processus et des stratgies cognitifs sapprochant de ceux de la vie
quotidienne. Voir aussi Utilit du test.
Item
Chaque point particulier d'un test auquel on attribue une ou plusieurs notes spares. Exemples: un "blanc" dans un test de
closure, une des questions dans un questionnaire choix multiple quatre options, une phrase donne pour une
transformation grammaticale, une question dont la rponse attendue est une phrase complte.
79
Modle de crdit partiel

Un item dont la rponse nest ni totalement vraie ni totalement fausse. Par exemple, les notes attribues un item peuvent tre
0,1,2,3 selon le degr dexactitude de la rponse.
Item bas sur un texte

Item qui s'appuie sur un discours suivi par exemple items choix multiple bass sur une comprhension de texte.
Item ancre
Item inclus dans un ou plusieurs tests. Les caractristiques de ces items ancres sont connues. Ils forment une partie de la
nouvelle version dun test. Lobjectif est de fournir des informations sur le test et les candidats qui lont pass afin, par exemple,
de calibrer un nouveau test sur lchelle de mesure.
Item discret
Item contenant en lui-mme tous les lments de la question. Il n'est li ni un texte, ni d'autres items, ni un quelconque
matriel complmentaire.
Item dichotomique
Item qui est not vrai ou faux. Les items sous forme de questions choix multiple(QCM), vrai/faux, questions rponses courtes
(QRC) sont des items dichotomiques.
Lecteur optique; syn.: scanner

Appareil optique utilis pour scanner l'information directement recueillie partir des feuilles de notes ou des feuilles de
rponse. Les candidats ou les examinateurs marquent les rponses aux items sur une feuille de notes et cette information est
automatiquement lue par l'ordinateur.
Logit
Le logit est lunit de mesure utilise dans les analyses du modle de Rasch (TRI) et le modle multi facet de Rasch (MFRM).
Mise en relation
La mise en relation est une procdure qui traduit les rsultats dun test pour quils puissent tre compris en relation avec les
rsultats dun autre test. Cette procdure permet de compenser les diffrences de difficult dun test ou de capacit des
candidats.
Modle de Rasch
Modle mathmatique, connu galement comme le modle de la logistique simple, qui postule qu'il existe une relation entre la
probabilit qu'un individu ralise une tche et la diffrence entre la capacit de l'individu et la difficult de la tche. Equivalant
mathmatiquement au modle paramtre unique dans la thorie de l'item rponse.
Modle concordant
Quand un modle (comme le modle de Rasch) est utilis pour des analyses statistiques, il est important de voir jusqu quel
point les donnes et le modle sont en concordance. Un modle reprsente un ce que des donnes devraient tre dans lidal
et on ne peut donc sattendre une concordance parfaite. Par contre un degr lev de discordance signifie que les conclusions
tires des donnes sont fausses.
80
Mesure tablie avec un modle de Rasch multi facettes

La mesure tablie avec un modle de Rasch multi facettes est un prolongement du modle de base de Rasch. La difficult de
litem ainsi que les capacits du candidat sont rpartis en facettes , ce qui permet dutiliser les donnes relatives ces facettes
pour expliquer les rsultats donnes aux candidats. Par exemple, la svrit dun valuateur peut permettre dexpliquer les
rsultats de candidats la production crite. Dans ce cas, on explique que les rsultats sont dus aux capacits du candidat, la
difficult de la tche et la svrit de lvaluateur. Il est alors possible de supprimer le facteur svrit de lvaluateur des
rsultats rels attribus aux candidats.
Modle dutilisation de la langue

Description des capacits langagires et des comptences ncessaires lutilisation de la langue et de la relation entre elles. Un
modle est la composante de base de la conception.
Moyenne
La moyenne est la mesure de la tendance centrale. On obtient la note moyenne un test en additionnant toutes les notes
obtenues et en divisant ce total par le nombre de notes.
Niveau
La note obtenue un test peut tre communique au candidat sous forme de niveau, par exemple sur une chelle de A E, o A
reprsente le niveau le plus lev, B un bon niveau, C un niveau passable et D et E des niveaux insuffisants.
Notation
Attribution d'une note aux rponses d'un candidat un test. Cette activit peut demander un jugement professionnel ou
l'application d'un barme o sont indiques toutes les rponses acceptables.
Notation objective
Items qui peuvent tre nots en appliquant un barme sans lapport de point de vue ou de jugement subjectif dexpert.
Notation subjective
Items o le point de vue ou le jugement subjectif dexpert intervient dans la notation.
Notation standardise (mcanique)

Mthode de notation dans laquelle on n'attend pas des correcteurs qu'ils exercent quelque comptence ou jugement subjectif
que ce soit. La note est tablie d'aprs un relev de toutes les rponses acceptables pour chaque question du test.
Parties prenantes / parties concernes

Personnes ou organisations parties prenantes du test. Par exemple, les candidats, les institutions scolaires, les parents, les
employeurs, le gouvernement, les salaris du fournisseur de test.
Pilotage
Exprimentation du matriel sur une petite chelle en demandant par exemple aux collgues de rpondre aux items et de faire
des commentaires.
Pondration; syn.: coefficient

Action d'assigner un nombre plus grand de points un item, une tche ou une preuve afin de changer sa contribution relative
au total des points en fonction des autres parties du test. Si, par exemple, on attribue une note double tous les items de la
81
tche n 1 d'un test, la tche n 1 sera proportionnellement plus importante que les autres tches dans le total des points
obtenus.
Prtest ; syn.: pr-testage

Etape de l'laboration du matriel des tests pendant laquelle on essaie les items sur des chantillons reprsentatifs de la
population cible afin de dterminer leur niveau de difficult. Suivant une analyse statistique, les items considrs comme
satisfaisants pourront tre utiliss dans des tests rels.
Question
Terme parfois utilis pour dsigner une tche ou un item.
Question ouverte; syn.: question rponse construite, question rponse libre

Type d'item ou de tche dans un test crit qui demande au candidat de produire une rponse (et non de la slectionner).
L'objectif de ce type d'item est de faire produire une rponse relativement libre et dont la longueur peut aller de quelques mots
un grand nombre de phrases. Le barme proposera alors tout un choix de rponses acceptables.
Registre
Diffrentes varits de langue correspondant des activits particulires ou un formalisme plus ou moins grand.
Rponse
Comportement du candidat manifest par les entres donnes dans un test. Par exemple, la rponse donne un item choix
multiple ou le travail produit dans un test de production crite.
Rvision; syn.: contrle

Une tape au cours du cycle dlaboration du test pendant laquelle les laborateurs de tests valuent le travail demand aux
rdacteurs ditems, et dcident de garder ou rejeter les items produits selon quils rpondent ou non aux spcifications du test.
Script
Feuille contenant les rponses du candidat un test, dans les tches de type rponse ouverte.
Situation de communication relle

Point de vue selon lequel les tests devraient inclure des tches ressemblant le plus possible des activits relles. Le contenu
d'un test valuant la capacit dun candidat suivre un cours de langue trangre devrait, par exemple, tre bas sur une
analyse de la langue et des activits langagires particulires ce cours.
Score brut
Rsultat du test qui na pas donn lieu des analyses statistiques supposant des transformations, des pondrations ou des
reclassements.
Spcification
Description des caractristiques d'un examen indiquant ce qui est test, de quelle faon, ainsi que le nombre et la longueur des
preuves, les types d'items utiliss, etc.
Surveillant
Personne qui est responsable de la bonne passation de lexamen dans une salle dexamen.
82
Tche
Ce quun candidat doit faire pour accomplir une partie du test et qui suppose plus de complexit quune rponse un seul item
discret. Le terme concerne en gnral des performances de production orale ou crite ou un ensemble ditems lis entre eux
comme par exemple un texte accompagn de questions choix multiple auxquelles on peut rpondre en suivant une seule
consigne.
Tche dappariement :
Type de tche consistant comparer des lments de deux lites distinctes. Un type de test dappariement consiste choisir la
phrase correcte pour complter chacune des phrases incompltes. Un autre exemple est celui qui est utilis dans les tests de
comprhension crite et qui consiste choisir dans une liste des vacances ou un livre convenant une personne aux
caractristiques correspondantes.
Thorie de l'item-rponse TIR

Groupe de modles mathmatiques permettant de mettre en rapport la performance d'un candidat un test avec son niveau
de capacit. Ces modles se fondent sur la thorie fondamentale qui spcifie que la performance attendue d'un individu une
question ou un item donn d'un test est fonction la fois du niveau de difficult de la question et du niveau de capacit de
l'individu.
Trait
Caractristiques physiques ou psychiques dune personne (comme les capacits langagires) ou lchelle de mesure qui permet
de les dcrire. Voir aussi construit.
Utilit dun test

Le concept dutilit (Bachman et Palmer 1996) renvoie lide quun test est dautant plus utile que la relation entre la validit,
la fidlit, lauthenticit, linteractivit, limpact et la faisabilit est optimale.
Validation
Le processus qui consiste tablir la validit des interprtations des rsultats proposs par le fournisseur de test.
Validit
Degr auquel les interprtations des rsultats d'un test permettent de tirer des conclusions appropries, significatives et utiles,
en relation avec l'objet du test.
83
Remerciements
Ce Manuel est une version actualise dune version publie par le Conseil de lEurope en 2002 intitule Passation et
laboration de tests et dexamens de langue . Ce document tait lui-mme une version actualise du Guide pour les
examinateurs conu par ALTE pour le Conseil de lEurope en 1996.
Le Conseil de lEurope tient remercier pour sa contribution :
Lassociation des centres valuateurs en Europe (ALTE)
Lquipe responsable de ldition de cette nouvelle version:
David Corkill
Neil Jones
Martin Nuttall
Michael Corrigan
Michael Milanovic
Nick Saville
Les membres du groupe objectifs spcifiques (ALTE/CECRL) ainsi que leurs collgues ayant propos des documents et
particip la relecture des textes :
Elena Archbold-Bacalis
Sharon Ashton
Andrew Balch
Hugh Bateman
Lyan Bekkers
Nick Beresford-Knox
Cris Betts
Margherita Bianchi
Inmaculada Borrego
Jasminka Buljan Culej
Cecilie Carlsen
Lucy Chambers
Denise Clarke
Mara Cuquejo
Emyr Davies
Desislava Dimitrova
Angela ffrench
Colin Finnerty
Anne Gallagher
Jon-Simon Gartzia
Annie Giannakopoulou
Begona Gonzalez Rei
Giuliana Grego Bolli
Milena Grigorova
Ines Haelbig
Berit Halvorsen
Marita Harmala
Sibylle Plassmann
Laura Puigdomenech
Meilute Ramoniene
Ldia Rhov
Shelagh Rixon
Martin Robinson
Lorenzo Rocca
Shalini Roppe
Dittany Rose
Angeliki Salamoura
Lisbeth Salomonsen
Georgio Silfer
Gabriela Snaidaufov
Ioana Sonea
Annika Spolin
Stefanie Steiner
Michaela Stoffers
Gunlog Sundberg
Lynda Taylor
Julia Todorinova
Rnnaug Katharina Totland
Gerald Tucker
Piet van Avermaet
Mart van der Zanden
Juliet Wilson
Beate Zeidler
Ron Zeronis
Martina Huleov
Nuria Jornet
Marion Kavallieros
Gabriele Kecker
Kevin Kempe
Wassilios Klein
Mara Kokina
Zsofia Korody
Henk Kuijper
Gad Lim
Juvana Llorian
Karen Lund
Lucia Luyten
Hugh Moss
Tatiana Nesterova
Desmond Nicholson
Gitte stergaard Nielsen
Irene Papalouca
Szilvia Papp
Francesca Parizzi
Jose Ramn Parrondo
Jose Pascoal
Roberto Perez Elorza
Michaela Perlmann-Balme
Tatiana Perova
Les relecteurs du Conseil de lEurope :

Neus Figueras
Johanna Panthier
Brian North
Sauli Takala
Lquipe charge de la publication :

Rachel Rudge
Gary White
84
LAssociation des organismes certificateurs en Europe (ALTE), en tant quOrganisation internationale non-gouvernementale
(INGO) ayant un statut consultatif au sein du Conseil de lEurope, a contribu aux ressources composant la bote outils, y
incluant le Portfolio europen des langues (PEL) dEAQUALS/ALTE ainsi que les grilles danalyses de contenus du CECR pour la
production orale et crite.
En accord avec la Division des politiques linguistiques du Conseil de lEurope, ALTE tient ce que les utilisateurs de la bote
outils se servent efficacement du Cadre dans leur propre contexte et afin de satisfaire leurs propres objectifs.
Produit par:
Association of language testers in Europe
1 Hills Road,
Cambridge CB1 2EU
Royaume Uni
www.alte.org
Au nom du :
Conseil de lEurope
85

ManualLanguageTest Alte2011 FR

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

ManualLanguageTest Alte2011 FR

Enviado por

Direitos autorais:

Formatos disponíveis

MANUEL pour LELABORATION et la PASSATION

DE TESTS et dEXAMENS DE LANGUE

Division des Politiques linguistiques

Conseil de lEurope, avril 2011

Considrations essentielles ................................................................................................................................12

Comment dfinir la comptence langagire ..............................................................................................12

Modles dutilisation du langage et de la comptence......................................................................12

Le modle dutilisation du langage du CECR ......................................................................................12

Rendre le modle oprationnel ..........................................................................................................14

Les niveaux du CECR ...........................................................................................................................14

Quest-ce que la validit ? ..................................................................................................................16

La validit dans le cycle dlaboration du test....................................................................................16

Quest-ce que la fiabilit ? ..................................................................................................................18

La fiabilit en pratique ........................................................................................................................ 18

Ethique et quit ........................................................................................................................................19

Les consquences sociales de lvaluation : thique et quit ..........................................................19

Proccupations thiques ....................................................................................................................19

Organisation du travail ...............................................................................................................................20

Les tapes du travail ........................................................................................................................... 20

Lectures complmentaires .........................................................................................................................21

2. Llaboration du test ou de lexamen .....................................................................................................................22

2.8 Lectures complmentaires ...............................................................................................................................27

La correction humaine ........................................................................................................................38

5.1.2 La correction par une machine corriger .................................................................................................40

6.5 Lectures complmentaires ...............................................................................................................................48

spcifier le contenu du test ou de lexamen

La spcification des contenus des tests et examens.

Comment dfinir la comptence langagire

1.1.1. Modles dutilisation du langage et de la comptence

1.1.2. Le modle dutilisation du langage du CECR

Les comptences de lutilisateur/apprenant

Comptences communicatives langagires

Echelles de descripteurs fournies pour illustration

Figure 1. Vue partielle du chapitre 5 du CECR : Les comptences de lutilisateur/apprenant

Lutilisation de la langue et lapprenant/utilisateur

Interaction en face face

Echelles de descripteurs fournies pour illustration

Figure 2. Vue partielle du chapitre 4 du CECR : Lutilisation de la langue et lapprenant/utilisateur

1.1.3. Rendre le modle oprationnel

1.1.4. Les niveaux du CECR

1.2.1. Quest-ce que la validit ?

1.2.2. La validit et le CECR

1.2.3. La validit dans le cycle dlaboration du test

Que faut-il observer ?

Les notes sont-elles

Quelle est la comptence

1.3.1. Quest-ce que la fiabilit ?

Figure 4. Sources derreur possible dans la notation dun test.

1.3.2. La fiabilit en pratique

1.4.1. Les consquences sociales de lvaluation : thique et quit

1.4.3. Proccupations thiques

1.5.1. Les tapes du travail

But : produire des spcifications

But : produire du matriel pour la passation

But : recueillir de linformation sur chaque capacit du candidat

But : fournir chaque candidat une correction exacte et fiable

But : traduire la performance de chaque candidat en une catgorie qui

Figure 5. Lessentiel du cycle dlaboration dun test

MODLES DUTILISATION DU LANGAGE

2. Llaboration du test ou de lexamen

Elaboration du test ou de lexamen

Figure 6 Processus dlaboration de lexamen

2.2. La dcision de produire un test ou un examen

Et enfin, il ne faut pas oublier des questions dordre pratique :