Escolar Documentos
Profissional Documentos
Cultura Documentos
ALTE,
pour le Conseil de lEurope,
Division des politiques linguistiques
TRADUCTION
Gilles BRETON
Christine TAGLIANTE
SOMMAIRE
Contenu
MANUEL pour LELABORATION ET LA PASSATION DE TESTS ET DEXAMENS DE LANGUE ..........Error! Bookmark not
defined.
NOTE PRLIMINAIRE .....................................................................................................................................................7
INTRODUCTION ............................................................................................................................................................8
1.
1.1.1.
1.1.2.
1.1.3.
1.1.4.
1.2.
La validit ....................................................................................................................................................16
1.2.1.
1.2.2.
La validit et le CECR........................................................................................................................... 16
1.2.3.
1.3.
La fiabilit ...................................................................................................................................................18
1.3.1.
1.3.2.
1.4.
1.4.1.
1.4.2.
Lquit ...............................................................................................................................................19
1.4.3.
1.5.
1.5.1.
1.6.
Questions-cls ............................................................................................................................................21
1.7.
NOTE PRLIMINAIRE
Ce Manuel complte la bote outils qui propose une aide lutilisation du Cadre europen commun de
rfrence pour les langues : apprendre, enseigner, valuer (CECR). Nos remerciements vont lAssociation des
organismes certificateurs en Europe (ALTE) charge par le Conseil de lEurope de la prparation ce Manuel. Cette
association contribue une fois de plus une utilisation efficace du CECR, dans le respect de lesprit des statuts
participatifs dont lOrganisation internationale non gouvernementale (INGO) jouit auprs du Conseil de lEurope.
Lobjectif du CECR tait de fournir aux Etats membres du Conseil de lEurope, un point de dpart commun pour la
rflexion et les changes entre les diffrents partenaires du champ, incluant les personnels impliqus dans la
formation denseignants ainsi que dans llaboration des programmes de langues, des directives concernant les
cursus, des manuels dapprentissage, des examens, etc. Le CECR propose un outil descriptif qui permet aux
utilisateurs de rflchir leurs dcisions et leurs pratiques, de bien placer leurs efforts et de les coordonner, en
tant que de besoin, au profit des apprenants de diffrents contextes. Le CECR est donc un outil souple, adaptable
aux diffrents contextes dutilisation lillustration parfaite de cet aspect fondamental est le systme de niveaux,
qui peut tre adapt et exploit souplement pour llaboration de diffrents objectifs denseignement /
apprentissage ainsi que pour lvaluation, et pour la Description des niveaux de rfrence (DNR) pour des
langues et des contextes particuliers.
Les descripteurs, crs partir de ceux qui ont t reconnus clairs, utiles et pertinents par des groupes de
professeurs enseignant ou non leur langue maternelle dans des secteurs ducatifs varis et avec des profils de
formation et une exprience professionnelle trs diffrents (CECR, p. 30), ne prtendent pas tre dtaills de
faon exhaustive, ni, en aucune faon, normatifs. Les utilisateurs sont invits les adapter ou les complter en
fonction du contexte et des besoins. Le prsent Manuel fournit de prcieux conseils pour construire dans cet
esprit des tests de comptence lis aux niveaux du CECR dune manire la fois guide et non prescriptive.
La ncessit de garantir la qualit, la cohrence et la transparence dans les prestations lies aux langues ainsi que
lintrt croissant dans laspect porteur des examens, ont cr un grand intrt pour les niveaux du CECR, perus
en Europe et au-del comme un outil de rfrence et un instrument de calibrage. Partageant ce point de vue,
nous souhaitons galement encourager les utilisateurs explorer et partager des expriences sur la faon dont le
CECR, dans ses diffrents aspects, peut tre encore davantage utilis pour favoriser lvolution, tout au long de la
vie, du profil plurilingue (irrgulier et changeant) des apprenants qui, au final, devront prendre la responsabilit
dorganiser et dvaluer leur apprentissage en fonction de leurs besoins volutifs et des changements de
circonstances. Linitiative du Conseil de lEurope de promouvoir lducation plurilingue et interculturelle, ainsi
quune approche globale de toutes les langues dans et pour lducation, prsente de nouveaux dfis pour
llaboration des programmes, pour lenseignement et lvaluation, le moindre dentre eux ntant pas celui
dvaluer la comptence des apprenants laide de leurs rpertoires plurilingues et interculturels. Nous
attendons beaucoup de la contribution essentielle dassociations professionnelles telles quALTE pour nous aider
promouvoir les valeurs du Conseil de lEurope dans le domaine de lducation aux langues.
Joseph Sheils
Division des politiques linguistiques
Conseil de lEurope
INTRODUCTION
Contexte
Depuis sa publication dans sa version finalise, en 2001, le Cadre europen commun de rfrence pour les langues (CECR) na
cess de connatre un intrt toujours croissant non seulement en Europe, mais galement lchelle mondiale. Son impact
a dpass les attentes et il ne fait aucun doute quil a contribu veiller lattention sur dimportants problmes lis
lapprentissage, lenseignement et lvaluation en langues. Le Conseil de lEurope a galement encourag la cration dune
bote outils comportant des ressources pour linformation et lutilisation du CECR par les dcideurs politiques, les
enseignants, les organismes certificateurs et les autres partenaires du domaine.
Comme la signal Daniel Coste, lun des auteurs du CECR, linfluence du Cadre sur lvaluation a t particulirement
remarquable, et le processus dancrage des examens de langue aux niveaux de rfrence a reu plus dattention que tout
autre de ses aspects (2007). Un certain nombre doutils sont dsormais disponibles lintention des organismes certificateurs
et des praticiens intresss par les tests de langue :
Manuel pour relier les examens de langue au Cadre europen commun de rfrence pour les langues : apprendre,
enseigner, valuer (Conseil de lEurope, 2009).
Supplment technique de rfrence au Manuel (Banerjee 2004 ; Verhelst 2004 a, b, c, d ; Kaftandjieva 2004 ; Eckes
2009).
Illustrations des niveaux de comptences en langues.
Grilles danalyses de contenus pour la production orale et crite ainsi que la rception orale et crite.
Description des niveaux de rfrence pour langlais et dautres langues.
Le Conseil de lEurope a galement organis des forums (Rflexions sur lutilisation de lavant-projet du Manuel pour relier les
examens de langue au CECR, Cambridge, 2007 ; sminaire pr-confrence, Confrence dEALTA, Athnes, 2008) au cours
desquels les praticiens ont chang leurs rflexions sur lutilisation du manuel ainsi que sur leurs expriences de mise en
pratique des diffrentes tapes dancrage suggres dans le Manuel.
LAssociation des organismes certificateurs en Europe (ALTE), en tant quOrganisation internationale non-gouvernementale
(INGO) ayant un statut consultatif au sein du Conseil de lEurope, a contribu aux ressources composant la bote outils, y
incluant le Portfolio europen des langues (PEL) dEAQUALS/ALTE ainsi que les grilles danalyse de contenus dALTE.
Lassociation tait galement reprsente par le Dr Piet van Avermaet, du groupe dauteurs du Manuel pour relier les
examens de langue au CECR. En accord avec la Division des politiques linguistiques du Conseil de lEurope, ALTE tient ce que
les utilisateurs de la bote outils se servent efficacement du Cadre dans leur propre contexte et afin de satisfaire leurs
propres objectifs.
Le but de ce Manuel
Le Manuel pour relier les examens de langue au CECR mentionn ci-dessus a t spcifiquement conu pour aborder
lancrage des tests et examens au Cadre, et, avec le Supplment de rfrence, il prsente et propose une approche gnrale
ainsi quun certain nombre de choix, y compris sur la dfinition des points de csure.
Le Manuel pour l'laboration et la passation de tests et d'examens de langues est conu comme un complment du Manuel
pour Relier les examens de langues au CECR. Il met laccent sur les aspects de llaboration et de la passation de tests et
dexamens qui ne sont pas couverts par lautre Manuel. Il sagit, en fait, dune version actualise dun document antrieur
produit par le Conseil de lEurope connu sous le nom de CECR : Evaluation de comptences en langues et conception de tests
(1996), lun des Guides pour les utilisateurs accompagnant le premier projet du CECR en 1996/7, commandits par le Conseil
de lEurope.
ALTE tait l'auteur de la premire version de ce Manuel sur l'valuation. Au cours de la dernire dcennie, des volutions de
la thorie de la validit ainsi que lutilisation et linfluence grandissantes du CECR ont montr la ncessit dune relle
actualisation du document. ALTE a accept avec plaisir de coordonner ces rvisions en 2009/10 et de nombreuses personnes,
membres et associs dALTE ont contribu la rdaction de ce document.
Lors des rvisions, il a t utile de se souvenir des origines et des buts du CECR et de les faire apparatre dans la structure et
les objectifs de ce Manuel destin aux utilisateurs.
En tant que cadre commun de rfrence, le CECR se voulait tout dabord un outil pour la rflexion, la communication et la
prise de dcision (Trim, 2010). Il a t conu pour permettre une mme comprhension des domaines de lapprentissage,
de lenseignement et de lvaluation en langues et, dans le dbat sur lducation aux langues, il permet un langage commun
sur chacun de ces aspects. Il fournit galement un ensemble de niveaux de rfrence pour identifier les niveaux de
comptence en langues, depuis le faux dbutant (A1) jusqu un niveau trs avanc (C2), et ceci dans toute une srie de
capacits diffrentes et de domaines dutilisation.
Grce tout cela le CECR permet la comparaison des pratiques dans des contextes trs diffrents, en Europe et au-del. En
tant quoutil de rfrence, il doit cependant, dans certaines situations, tre adapt au contexte et aux objectifs locaux.
Ce point a t trs clairement dcrit par les auteurs du CECR. Dans lavertissement destin aux utilisateurs (p.4), ils prcisent
notamment Soyons clairs : il ne sagit aucunement de dicter aux praticiens ce quils ont faire et comment le faire , et ils
le ritrent plusieurs reprises. Parmi les ressources de la bote outil, le Manuel pour Relier les examens de langues au
CECR suit la mme dmarche. Ses auteurs indiquent sans ambigit que ce manuel nest pas le seul qui permette dancrer un
test ou un examen au CECR et quaucune institution nest oblige dentreprendre ce processus dancrage (p.1).
Dans un forum politique intergouvernemental du Conseil de lEurope sur lutilisation du CECR Strasbourg en 2007, Coste a
soulign combien les utilisations contextuelles prises comme des interventions dlibres dans un environnement donn
peuvent prendre des formes varies, concerner des niveaux diffrents, avoir diffrents objectifs et impliquer des types de
partenaires distincts . Il dclare Chacune de ces application contextuelles est lgitime et significative, mais, alors que le
Cadre lui-mme propose une srie de choix intgrs, certaines de ces applications contextuelles les exploitent fond, alors
que dautres les largissent ou les dpassent . Cest pourquoi, lorsquon envisage la question de lancrage, il est important
davoir prsent lesprit que le CECR na pas t conu pour tre utilis de faon prescriptive et quil ny a donc pas une
faon unique de justifier lancrage dun examen dans un contexte et un but dutilisation particuliers.
Comme lont soulign Jones et Saville (2009 : 54-55) :
certaines personnes disent appliquer scrupuleusement le CECR un contexte particulier. Nous prfrons plutt
rapporter le contexte au CECR. Lautre faon dagir est la transitivit. Le dbat en faveur de lancrage est encore construire,
la base de comparaison est tablir. Cest le contexte spcifique qui dtermine la signification dfinitive de laffirmation
dancrage. En posant le problme ainsi, nous replaons le CECR dans son rle de point de rfrence et contribuons son
volution future.
Alors que le Manuel pour Relier les examens de langues au CECR met laccent sur les procdures engages pour prsenter
les preuves de laffirmation que tel test ou examen est ancr au CECR et ne donne pas de conseils gnraux sur la faon
de concevoir de bon tests ou de bons examens (p.2), lapproche complmentaire adopte dans le prsent Manuel part du
processus dlaboration du test et montre comment il est possible dtablir un lien avec le CECR chaque tape de ce
processus, de faon :
Ce Manuel a par consquent un objectif plus vaste que les trois principales utilisations du CECR, qui sont :
Son souhait est de fournir un guide cohrent pour llaboration de tests et dexamens gnraux, qui peut tre utile pour
concevoir des tests et examens objectifs spcifiques, en prsentant cette laboration sous la forme dun cycle, chaque
tape russie tant due au travail fourni ltape prcdente. La totalit du cycle doit obligatoirement tre traite pour que
chaque tape fonctionne correctement. La section 1.5 montre une vue densemble du cycle, qui est par ailleurs dtaill aux
chapitres suivants :
Chapitre 1 Prsentation des concepts fondamentaux lis la comptence langagire : validit, fiabilit et quit.
Chapitre 2 Elaboration - depuis la dcision de concevoir jusqu la rdaction des spcifications dfinitives.
Chapitre 3 Assemblage - traite de la rdaction des items et de la construction des tests.
Chapitre 4 Passation - sapplique ladministration des tests, depuis linscription des candidats jusquau retour du matriel
de test.
Chapitre 5 Correction, notation et dlivrance des rsultats la fin du cycle oprationnel.
Chapitre 6 Contrle et rvision montre comment le cycle peut tre rpt au fil du temps afin damliorer la qualit et
lutilit du test ou de lexamen.
Pour qui a t conu ce Manuel ?
Il est destin tous ceux qui sont impliqus dans llaboration et lutilisation de tests et dexamens de langues lis au CECR. Il
a t conu pour tre utile aussi bien aux concepteurs dbutants quaux plus expriments. Cest pourquoi il prsente des
principes communs, qui sappliquent aux tests de langues en gnral, que lorganisme certificateur soit une grande
institution prparant des tests pour des milliers de candidats dans le monde, ou quil sagisse dun enseignant isol
souhaitant valuer ses lves en classe. Les principes sont les mmes pour des tests fort ou faible enjeu, seules les tapes
pratiques varieront.
Nous partons du principe que les lecteurs sont dj familiariss avec le CECR, ou seront prts lutiliser conjointement avec
ce Manuel lors de llaboration et de lutilisation de tests ou dexamens.
Comment utiliser ce Manuel ?
Bien que les principes prsents ici soient gnraux, le certificateur doit dcider de leur application dans son contexte
particulier. Ce Manuel donne des exemples et des conseils sur la faon de mener certaines activits. Ces conseils pratiques
seront toutefois plus pertinents dans certains contextes que dautres en fonction de lobjectif du test ou de lexamen et des
ressources disponibles pour les mettre au point. Cela ne signifie pas que le Manuel est moins utile pour certains : si les
utilisateurs comprennent les principes, ils peuvent se servir des exemples pour les appliquer leur contexte particulier.
Outre le CECR, il existe de nombreuses autres ressources utiles pour relier un test ou un examen de langue au CECR. Ce
Manuel nest quun outil parmi ceux proposs dans la bote outils conue et mise disposition par le Conseil de lEurope.
Cest pourquoi on ny trouvera pas dinformations ou de thories disponibles ailleurs. Comme nous lavons dj signal, cet
ouvrage est complmentaire du Manuel pour Relier les examens de langues au CECR, il ne reprend pas les informations qui y
sont donnes.
Il nest pas ncessaire de le lire de A Z. Chacun, en fonction de ses besoins dlaboration et de passation de test ou de
lexamen, peut lire uniquement les parties qui lui conviennent. Cependant, mme pour ceux qui se sont spcialiss dans lun
des champs des examens de langue, la lecture complte du Manuel permet davoir un bon aperu de lensemble du cycle.
A la fin de chaque chapitre, des Lectures complmentaires guident le lecteur soit vers des ressources pour approfondir un
domaine, soit vers des outils pratiques. Ces lectures sont suivies de questions cls destines renforcer la comprhension de
ce qui a t lu.
Cet ouvrage est non prescriptif, son objectif est de mettre laccent sur les grands principes et les approches concernant la
conception de tests et dvaluation de faon ce que lutilisateur puisse y faire rfrence lors quil labore un test ou un
examen rpondant son contexte particulier. Ce nest pas un livre de recettes pour placer les questions dun test sur les
chelles du CECR : les six niveaux de rfrence, suffisamment clairs et dtaills, fournissent un outil commun de rfrence et
nont pas t conus lorigine dans ce but.
En ralit, dans lune des premires versions du Cadre (Strasbourg, 1998), les chelles descriptives se trouvaient en annexe,
titre dexemples, et napparaissaient pas dans le corps du texte. Seuls les niveaux communs de rfrence taient prsents
dans le texte. La mise en page originale de la version de 1998 renforait les diffrents statuts et fonctions des niveaux de
rfrence gnraux, dont certains ntaient pas calibrs et taient sous-reprsents aux niveaux C.
Dans la version de 1998 du CECR, le statut provisoire des chelles de descripteurs tait dcrit de faon explicite dans le texte
(p.25) :
Llaboration dun ensemble de points de rfrence communs ne limite en aucune faon les choix que peuvent faire des
secteurs diffrents, relevant de cultures pdagogiques diffrentes, pour organiser et dcrire leur systme de niveaux. On
peut aussi esprer que la formulation prcise de lensemble des points communs de rfrence ainsi que la rdaction des
descripteurs volueront avec le temps, au fur et mesure que lexprience des Etats membres et des organismes
comptents dans le domaine sera prise en compte.
10
Le risque dutiliser les chelles de faon exagrment prescriptive est de laisser croire quon peut mesurer la comptence
langagire par une approche universelle . Les chelles fonctionnelles et linguistiques sont plus conues pour illustrer la
nature gnrale des niveaux que pour en donner une dfinition prcise. Cest pourquoi, tant donn la grande diversit des
contextes dmographiques, des besoins et des types dapprentissage et denseignement, il est par exemple impossible de
donner les caractristiques dun tudiant de type B1 . Le corolaire est quil est difficile de concevoir un programme ou un
test convenant tous les contextes, que ce soit pour B1 ou pour nimporte quel autre niveau.
Afin que le CECR ait un impact durable et positif, les organismes certificateurs doivent intgrer ses principes et ses pratiques
dans leurs procdures. Cela permettra, au fur et mesure, aux systmes professionnels dtablir des argumentaires en
faveur de lancrage afin dappuyer leur affirmation, et impliquera de travailler en sappuyant sur le texte du CECR
ventuellement adapt aux contextes et aux applications particuliers.
Puisquil nest pas possible, partir dun seul atelier de dfinition des points de csure, de mettre en vidence un ancrage
stable et constant, il est important que les organismes certificateurs fournissent des preuves varies, accumules dans le
temps. Les recommandations du Manuel pour Relier les examens de langues au CECR ainsi que celles des autres ressources
de la bote outil doivent donc faire partie intgrante des procdures standard que les organismes certificateurs mettent en
uvre pour leurs besoins dancrage, et ne doivent pas tre traites la lgre.
Cest ce quoi ce Manuel encourage le lecteur, en mettant laccent sur limportance de concevoir des systmes qui
permettent dtablir des normes et de les suivre au fil du temps.
Conventions utilises
Les conventions suivantes sont appliques tout au long du Manuel :
Les termes ce Manuel sont utiliss pour dsigner le Manuel pour llaboration et la passation de tests et dexamens
de langues.
Le sigle CECR dsigne le Cadre europen commun de rfrence pour les langues : apprendre, enseigner, valuer.
Linstitution charge de dvelopper le test est appele organisme certificateur. Lexpression le concepteur de test est
parfois utilise pour dsigner ceux qui ont une fonction particulire dans le cycle dlaboration du test.
Lors de leur premire apparition dans ce Manuel, et lorsquil nous semble quil est utile de les signaler au lecteur, les
mots indexs au glossaire (annexe VIII) apparaissent en PETITES MAJUSCULES.
Dr Michael Milanovic
Directeur dALTE
11
1. Considrations essentielles
Les conseils pratiques donns dans ce Manuel pour laborer des tests ou des examens de langue ncessitent de bonnes
bases en principes et thorie. Ce chapitre traite des questions suivantes :
Comment dfinir la comptence langagire
Pourquoi la validit est-elle la qualit-cl dun bon test
Quest-ce que la fiabilit
Lquit dans les tests et examens.
Cette dernire section prsente galement les grandes lignes des processus dlaboration dun test, dtailles dans les
chapitres ultrieurs.
1.1.
12
Comptences gnrales
Comptences linguistiques
Lexicale
Grammaticale
Smantique
Phontique
Orthographique
Orthopique
Comptences sociolinguistiques
Marqueurs linguistiques des
relations sociales
Rgles de politesse
Expression de la sagesse populaire
Diffrences de registres
Dialecte et accent
Comptences
pragmatiques
Discursive
Fonctionnelle
Contexte de
lutilisation du
langage
Thmes de
communication
Activits de production
et stratgies
Interaction crite
Tches
communicatives et
finalits
Activits de
communication
langagire et stratgies
Activits de rception
et stratgies
Activits interactives
et stratgies
Stratgies dinteraction
13
utilisant des situations ou des tches vraisemblablement familires et pertinentes pour le candidat vis, un niveau
donn
rendant claires pour le public vis, les raisons de mener une tche spcifique bien, par une contextualisation bien
choisie
rendant clairs les critres de russite dans laccomplissement de la tche.
Comptences intgres
Les comptences peuvent paratre indpendantes les unes des autres quand on dfinit un modle dutilisation du langage.
Dans des tches authentiques, il est cependant trs difficile de les isoler. En effet, tout acte de communication implique
lutilisation de plusieurs comptences en mme temps. Par exemple, lorsquun apprenant essaie de comprendre quelquun
qui vient de larrter dans la rue pour demander son chemin, plusieurs comptences entrent en jeu : les comptences
grammaticales et textuelles pour dcoder le message, la comptence sociolinguistique pour comprendre le contexte social
de la communication, la comptence illocutionnaire pour mener bien ce quil souhaite exprimer.
Lors de la conception dune tche destine un examen, il est essentiel de voir clairement les comptences requises pour
une REPONSE correcte. Certaines comptences seront plus importantes que dautres ce sont celles-ci qui seront mises en
avant dans la tche. Laccomplissement de la tche devra susciter suffisamment de ralisation langagire pour quun
jugement puisse tre port sur la capacit du candidat dans la ou les comptences choisies. Il faut galement prendre en
compte la faon dont la rponse est CORRIGEE et note (sections 2.5 et 5.13) : la correction doit porter uniquement sur la
capacit dans la ou les comptences choisies.
14
C2
Matrise
C1
Autonome
B2
Indpendant
B1
Niveau seuil
A2
Intermdiaire
A1
Introductif
Utilisateur expriment
Utilisateur indpendant
Utilisateur lmentaire
Le concepteur de tests de langues doit avoir une bonne comprhension des affirmations est capable de / peut. Elles sont :
Illustratives.
Elles ne sont donc pas :
Exhaustives
Prescriptives
Une dfinition
Un programme
Une liste de contrle.
Les descripteurs donnent des conseils aux ducateurs afin quils puissent reconnatre les niveaux de comptence et en parler.
On peut considrer quils sont une indication pour laborer un test mais les adopter ne signifie en aucun cas que le travail de
dfinition des niveaux pour ce test a t achev.
Il appartient aux organismes certificateurs de dcider quels descripteurs correspondent le mieux leur contexte. Ils doivent,
par exemple, dcider du DOMAINE de leur test : pour enseigner aux personnels dun htel et les valuer, les descripteurs de la
Coopration vise fonctionnelle peuvent tre utiles (CECR 4-4.3.1) alors que les descripteurs ayant trait Comprendre
des missions de tlvision et des films (CECR 4-4.2.3) ne le seront probablement pas. Si les chelles descriptives
disponibles ou si dautres matriels de la bote outils du CECR ne conviennent pas suffisamment au contexte, il est possible
de les complter avec des descripteurs provenant dautres sources ou den rdiger de nouveaux destins ce contexte.
Ancrer des tests ou des examens sur le CECR
Travaillant de cette faon, il est ais de voir que le travail dancrage dun test ou dun examen sur le CECR dbute par
ladaptation du CECR au contexte du test. Il est possible de faire cela parce que le CECR est la fois hors contexte afin de
prendre en compte les rsultats gnralisables provenant de situations spcifiques diffrentes et en mme temps
pertinent par rapport au contexte, rattachable ou transposable dans chaque contexte pertinent (CECR, p.23).
Lancrage ne doit pas consister en une tentative dappliquer de faon rigide et mcanique le CECR nimporte quel contexte.
Les organismes certificateurs doivent pouvoir justifier la faon dont ils ont rattach ou transpos le CECR leurs contextes,
en partie en expliquant les caractristiques de ces contextes.
Les caractristiques des candidats sont dautres points importants prendre en compte. Les apprenants peuvent, par
exemple, tre trs diffrents en termes dge et de dveloppement cognitif, dobjectifs dapprentissage, etc. En fait,
quelques-unes de ces diffrences dterminent les caractristiques des diffrents groupes dapprenants. Les tests de langue
sont souvent conus pour lun de ces groupes en particulier, par exemple pour de jeunes apprenants, ou pour des adultes.
Les deux groupes peuvent tre relis au CECR, mais un B1 pour jeunes apprenants et un B1 pour adultes seront deux types
diffrents de B1, car des descripteurs diffrents auront t appliqus.
Le profil de capacits des apprenants est souvent variable (certains seront meilleurs en rception orale quen rception
crite, dautres seront le contraire). Cest pourquoi il est difficile de les comparer laide dune seule chelle. Deux candidats
peuvent tre placs en B1, mais pour des qualits et des points faibles diffrents. Il faut distinguer les aptitudes dans les
diffrentes capacits, certaines pourront tre values part et dans ce cas-l on utilisera les descripteurs spcifiques
comme base pour dfinir les niveaux de comptence dans cette capacit particulire.
Il y a cependant une limite importante ladaptation du CECR un contexte particulier. Le CECR a t uniquement prvu
pour dcrire la comptence langagire en fonction du modle de lutilisation du langage dcrit au paragraphe 1.1.2 de ce
Manuel. On ne doit pas essayer de RELIER des connaissances ou des capacits non prvues par ce modle, comme, par
exemple, la comprhension de la littrature en langue trangre.
15
1.2.
La validit
16
Observation
Evaluation
Gnralisation
Extrapolation
Comment noter
ce qui est observ ?
Elaboration
Performance
Note obtenue
(score)
Mesure
Vie relle
(Situation cible
dutilisation)
Figure 3. Chane du raisonnement pour une dclaration de validit (adapt de Kane, Crooks et Cohen 1999 ; Bachman 2005)
La figure 3 illustre schmatiquement ces tapes :
1.
2.
3.
4.
5.
Le test ou lexamen est conu de faon obtenir un chantillon interprtable de la performance, fonde sur un
modle de comptence dapprentissage. On peut par exemple demander un candidat dcrire une lettre un
ami sur un sujet particulier.
La performance au test est note (elle obtient un score). Quels aspects de la performance seront valoriss ou au
contraire pnaliss ? Dans lexemple prcdent, ces aspects seront lis la comptence communicative dcrite
dans le modle dutilisation de la langue, incluant le REGISTRE (comptence sociolinguistique), la comptence
lexicale, grammaticale et orthographique (comptences linguistiques), etc.
Jusqu ce point, les notes obtenues (ou les scores) sont des nombres qui reprsentent uniquement une
performance isole dans la ralisation dune tche spcifique. Comment peut-on les gnraliser le candidat
obtiendrait-il le mme rsultat lors dune autre passation, sur une version du test diffrente ? Cette question
concerne la fiabilit (cf. Section 1.3). Un second aspect de la gnralisation concerne lancrage une chelle de
comptence plus large, une version du test pouvant se rvler plus facile quune autre, il est ncessaire
didentifier et de compenser cela (cf. annexe VII).
Jusqu prsent, nous avons dcrit la performance en situation de test, mais nous souhaitons extrapoler aux
situations hors test. A ce point, nous mettrons en relation une mesure avec un niveau du CECR, en dcrivant ce
que le candidat devrait tre capable de faire dans la vie relle, laide des descripteurs appropris.
En sappuyant sur cela, il sera possible de prendre des dcisions au sujet du candidat.
Il est clair, aprs ce bref expos, que la validit, incluant une dclaration dancrage au CECR, dpend de chaque tape du
cycle dlaboration et de passation du test. La validit se construit tout au long de lensemble du processus.
Lannexe I propose des conseils pour laborer une dclaration de validit.
17
1.3.
La fiabilit
Autre
Correcteur
Capacit
Jour
Candidat
Candidat
Correcteur
Capacit
Jour
Erreur
Version du test
Autre
18
Le fait dtudier systmatiquement la fiabilit sera utile pour identifier les tests qui ont bien march par rapport ceux qui
ont moins bien march ainsi que pour contrler, au fil du temps, lamlioration de la qualit. La plupart des estimations de
fiabilit, telles que celles de lAlpha de Cronbach ou le KR-20 avoisinent le 1. On considre souvent, de faon empirique,
quune estimation situe dans le tiers suprieur de lamplitude (de 0.6 1) est acceptable.
Lestimation statistique de la fiabilit est gnralement impossible lorsque le nombre de candidats et/ou ditems est faible.
Dans ces cas, il est impossible destimer si la fiabilit convient aux objectifs du test. Dans ces situations, une bonne stratgie
dvaluation consiste dcider que le test nest quun lment de preuve parmi ceux qui vont permettre de prendre des
dcisions. Un portfolio de travaux, dautres tests passs pendant une priode donne ainsi que dautres sources peuvent
apporter des preuves supplmentaires.
1.4.
Ethique et quit
1.4.2. Lquit
Les organismes certificateurs ont comme objectif de rendre leur test le plus juste possible. Voir le Code de pratiques pour une
valuation quitable en ducation (JCTP 1988) et les Standards pour une valuation en ducation et psychologie (AERA et al.
1999).
Les Standards de 1999 mentionnent trois aspects de lquit : lquit en tant quabsence de biais, lquit en tant que
traitement quitable dans le processus de lvaluation et lquit en tant qugalit dans les rsultats de lvaluation.
Louvrage de Kunnan Cadre de rfrence sur lquit des tests (Kunnan 2000a, 2000b, 2004, 2008) met laccent sur cinq
aspects de lvaluation en langue, incontournables pour obtenir lquit : la validit (cf. Section 1.2), labsence de biais (cf.
annexe VII), laccs, ladministration (cf. Section 4) et les consquences sociales.
De nombreux organismes ont rdig des Codes de pratiques ou des Codes dquit, pour aider les organismes certificateurs
grer les aspects pratiques permettant dassurer lquit des tests.
Lors de la conception des tests et des examens, les organismes certificateurs peuvent essayer de minimiser les biais. Certains
sujets (par exemple les coutumes locales) peuvent avantager ou dsavantager certains groupes de candidats (par exemple
ceux qui viennent de pays o les coutumes sont trs diffrentes). On peut donner aux rdacteurs ditems une liste de sujets
viter. Des groupes significatifs de candidats peuvent comprendre ceux qui sont dfinis par lge, le sexe ou la nationalit
bien que cela dpende de la situation dvaluation (cf. 3.4.1).
19
1.5.
Organisation du travail
Les tapes de llaboration et de lutilisation dun test se prsentent sous la forme dun cycle dans lequel la russite une
tape dpend des conclusions de ltape prcdente. Cest pourquoi il est important de bien grer lensemble du cycle. Il faut
galement prendre en considration la collecte des preuves, puisquelles entreront en jeu dans les dcisions importantes qui
seront prises au cours du processus.
Dcision de concevoir
Preuve
Elaboration du test
Elaboration
Assemblage
Preuve
Passation
Dure
Utilisation du test
Correction
Notation
Dlivrance des
rsultats
But : fournir aux candidats et aux autres parties concernes, des rsultats et
des informations utiles une bonne interprtation
20
1.6.
Questions-cls
Quels aspects du modle dutilisation du langage du CECR conviennent le mieux votre situation ?
Quels niveaux de comptence du CECR conviennent le mieux ?
De quelle faon aimeriez-vous que les rsultats obtenus votre test soient compris et interprts ?
Dans votre situation, quest-ce qui mettrait la fiabilit le plus en danger ?
De quelle faon pouvez-vous assurer que votre travail est la fois thique et quitable pour les candidats ?
Quels dfis devez-vous relever lors de lorganisation de votre cycle dvaluation ?
1.7.
Lectures complmentaires
21
Conception
Exprimentation
Information des
partenaires
Spcifications
de lpreuve
finale
2.3. La planification
Cette tape consiste rechercher les informations ncessaires dans les tapes ultrieures. En principe la plupart de ces
informations devraient tre fournies par le commanditaire. Il est cependant recommand de sadresser aux parties
prenantes telles que les diffrents ministres concerns, les diteurs, les tablissements scolaires, les parents, les experts, les
employeurs, les centres denseignement et les administrations. Si un nombre important de personnes doit tre consult, il
faut prparer des questionnaires et organiser des sminaires pour transmettre linformation dsire. Par contre, en situation
de classe, la connaissance personnelle du contexte et des candidats est suffisante.
Les concepteurs de test ou dexamens doivent imprativement poser les questions suivantes :
Quelles sont les caractristiques des candidats qui vont passer le test ou lexamen (ge, genre, situation sociale,
niveau dtudes, langue maternelle, etc.) ?
Quel est lobjectif du test ou de lexamen? (certificat de fin de scolarit, admission un programme denseignement,
minimum requis dans un domaine professionnel, valuation formative ou diagnostic, etc.) ?
Quel est le contexte ducatif dans lequel sinscrit le test ou lexamen? (un programme, une approche
mthodologique, des objectif dapprentissage, etc.)
Quelle est la norme requise par lobjectif propos? (un niveau du CECR dans certaines capacits langagires, dans
toutes les comptences, une norme relie un domaine spcifique, etc.) ?
Comment les rsultats du test ou de lexamen seront-ils utiliss ?
Le concepteur du test ou de lexamen pourra, grce aux rponses apportes aux questions prcdentes, commencer
dfinir les capacits langagires valuer, dcider des points de csure (cf. partie 5) et de la faon de prsenter et
dexpliquer les rsultats aux utilisateurs (voir partie5).
Les questions portant sur limpact du test ou de lexamen peuvent tre utiles :
Qui sont les parties prenantes ?
Quel type dimpact est recherch?
A quel impact peut-on sattendre ?
22
2.4. La conception
Ltape de la conception commence une fois que toutes les informations de la prcdente tape ont t recueillies. Cest le
moment de prendre des dcisions importantes sur la nature du test et dlaborer les premires spcifications. Ces
spcifications dcrivent la structure densemble du test et les diffrentes parties du contenu. Les spcifications dtailles qui
concernent les rdacteurs ditems ainsi que les personnes impliques dans la distribution des tests et lorganisation de leur
passation peuvent tre rdiges une fois que les premires spcifications ont t agres.
Le chapitre 6 sur lapprentissage et lenseignement des langues concerne les objectifs dapprentissage et la
mthodologie de lenseignement, deux aspects qui ont un impact sur le type, le contenu et la fonction des tests ou
des examens.
Le chapitre 7 sur les TACHES et leur rle dans lenseignement des langues influe sur la faon de les utiliser dans
lvaluation.
Le chapitre 9 sur lvaluation traite de la faon dutiliser le CECR en fonction des diffrents objectifs dvaluation.
Les chapitres 4 et 5 qui traitent du contenu du test et des capacits langagires valuer sont les plus pertinents. Ils
offrent au concepteur de test ou dexamen un large ventail doptions choisir dans lapproche actionnelle et le modle
de langue en usage (cf. 1.1) proposs dans le CECR. Cela concerne par exemple:
lobjet principal de la tche : la comprhension dtaille dun texte, etc. (cf. chapitre 4.4 et 4.5 du CECR) ;
lobjet de lvaluation : les capacits langagires, les comptences et stratgies (cf. CECR chap. 5) ;
les genres et les types de textes utiliss comme supports (cf. CECR chap. 4.1 et 4.6) ;
des propositions de thmes (cf. CECR chap. 4.1 et 4.2) ;
des types de dclencheurs utiliss dans des tests de production orale (cf. CECR chap. 4.3 et 4.4) ;
des types de situations de la vie quotidienne familires aux candidats (cf. CECR chap. 4.1 et 4.3) ;
le niveau de performance correspondant ces situations (voir les nombreux niveaux de savoir-faire (can
dos) du CECR ;
des critres pour valuer des tches dcriture crative et des tests de production orale (voir les niveaux
correspondant reprsentatifs de savoir-faire (can dos) du CECR par exemple pages 58 et 74, etc.).
Lorganisme certificateur doit galement prciser les caractristiques techniques du test ou de lexamen, savoir :
23
la dure. Un candidat moyen devrait disposer dassez de temps pour rpondre tous les items du test ou de
lexamen sans avoir se presser. Lessentiel est que les candidats aient loccasion de montrer leur capacit
relle. Il est sans doute ncessaire quun valuateur expriment sen charge mais quelques chantillons
peuvent tre consults (cf. 2.8 Lectures complmentaires ). La dure peut tre modifie aprs
exprimentation ou passation en situation relle). Il arrive que des tests minuts soient utiliss, dans lesquels
on demande aux candidats de rpondre en un temps limite aux items. Dans ce cas aussi, une exprimentation
doit avoir lieu ;
le nombre ditems ou de questions. Il faut en avoir assez pour couvrir le contenu ncessaire et pouvoir donner
une apprciation fiable des capacits du candidat. La longueur du test ou de lexamen est cependant limite
pour des raisons pratiques ;
le nombre ditems par partie. Si le test ou lexamen a pour objectif de mesurer de faon fiable les diffrents
aspects de la capacit langagire, il faut un nombre suffisant ditems par partie. On peut consulter des
chantillons et calculer la fiabilit. (cf. annexe VII) ;
le type ditems. Des items peuvent induire des rponses choisir ou fournir. Les items choix de rponse sont
les questions choix multiple, les appariements ou les classements. Dans les items comportant des rponses
donner, celles-ci peuvent tre courtes (exercices de phrases complter par un mot ou plus). Pour connatre les
avantages et les inconvnients des diffrents types ditems, consulter ALTE (2005 :111-34) ;
la longueur totale des textes et celle de chaque texte mesure en nombre de mots. Des exemples peuvent
donner une ide de la longueur communment admise (cf. 2.8 Lectures complmentaires ) ;
le format. Un examen items discrets consiste en un examen comprenant des items indpendants les uns
des autres. Dans un test conu sur le principe des tches, les items sont groups et ont par exemple pour
support un texte de comprhension orale ou crite. Ces tests conus partir de tches conviennent en gnral
beaucoup plus lvaluation de type communicative car les stimuli utilisables sont plus longs et plus
authentiques.(Pour plus dinformations sur les types ditems, voir ALTE 2005 :135-47) ;
le nombre de points donner chaque item et chaque tche ou partie sachant que leur importance grandira
avec le nombre de points qui leur sera attribu. On recommande en gnral dattribuer un point par item. Il est
parfois ncessaire de donner plus de poids tel ou tel item. (cf. annexe VII) ;
les caractristiques des ECHELLES DE NOTATION. Va-t-on procder par tches, quelle sera lventail de lchelle,
cette chelle sera-t-elle analytique ou holistique ? (cf. 2.5 et 5.1.3 o il est question des chelles de notation).
Ltape de conception se termine une fois que seront prises les dcisions concernant les objectifs du test ou de lexamen, les
capacits langagires et les contenus valuer ainsi que les dtails techniques de son utilisation. Il faut aussi penser
lvaluation des tches, llaboration des chelles de notation des productions orales et crites, (cf. 2.5), la faon
dorganiser la passation des tests ou des examens (cf. partie 4) et la formation des correcteurs et des examinateurs (cf.
5.1.3). Toutes les parties prenantes devraient alors revoir ces propositions de faon dtaille afin de pouvoir en faire une
estimation srieuse.
Il faut galement prendre en compte la communication avec les candidats et les parties prenantes sur les sujets suivants :
le nombre dheures requis si des cours de prparation au test ou lexamen sont ncessaires ;
la mise disposition dexemples de tests ou dexamen ;
linformation transmettre aux utilisateurs (toutes les parties prenantes concernes) avant et aprs le test ou
lexamen.
Enfin, la prise en compte des attentes des partenaires :
ladquation du test ou de lexamen avec le systme en place en termes dobjectifs de programme et de pratique de
classe ;
ladquation du test ou de lexamen avec les attentes des parties prenantes.
Le chapitre 4 du CECR fournit un schma de rfrence trs utile qui met laccent sur les caractristiques de tout test ou
examen en voie dlaboration. Un diagramme en reprend lessentiel. Cette approche est illustre dans lannexe III de ce
Manuel. Lexamen donn en exemple est destin des candidats de niveau B2, apprenant la langue en contexte
professionnel. Il comprend quatre parties. On y trouve la fois une vue densemble du contenu de lexamen et une
description gnrale de chaque partie.
2.4.2 Comment tenir compte la fois des exigences propres au test ou lexamen et des
considrations dordre pratique
A cette tape de llaboration du test ou de lexamen, il faut mettre en rapport la structure propose avec les contraintes
dordre pratique. Le dtail de ces contraintes est recueilli ltape de la planification, en mme temps que les exigences
24
propres lexamen (partie 2.3). Le concepteur doit concilier les exigences et les contraintes, et avoir laccord du
commanditaire. Pour ce faire, Bachman et Palmer (1996, chap. 2) proposent un cadre traduisant le concept dutilit du test.
Selon eux, les qualits propres ce concept sont:
La validit : les interprtations des notes obtenues ou dautres rsultats sont significatives et appropries.
La fidlit : les rsultats fournis sont constants et stables.
Lauthenticit : les tches refltent des situations langagires de la vie relle dans les centres dintrt de
lutilisateur.
Linteractivit : les tches mettent en uvre les mmes processus et stratgies que celles mises en uvre dans des
tches de la vie relle.
Limpact : leffet du test ou de lexamen, que lon espre positif, sur les personnes, les pratiques de classe et plus
largement la socit.
Lapplication : on doit pouvoir laborer, produire et organiser la passation du test ou de lexamen tel quil est
planifi avec les ressources disponibles.
Il se peut que ces qualits se contredisent : ainsi plus une tche est authentique moins elle est fidle. Cest pour cette
raison quil faut constamment rechercher un quilibre qui renforce lutilit du test dans son ensemble.
2.5 Lexprimentation
Lobjectif de cette tape est de tester sur le terrain les premires versions des spcifications afin de faire les
changements ncessaires en tenant compte des rsultats de lexprience et des propositions des parties concernes.
Une fois les spcifications rdiges, on passe la fabrication dchantillons du matriel. Pour ce faire, on peut se rfrer
la partie 3 de ce Manuel. On peut collecter ce matriel de diffrentes faons :
faire un test pilote (demander quelques candidats de passer le test ou lexamen) et analyser les rponses
donnes (cf. 3.4 et VII). ;
consulter des collgues ;
consulter dautres parties prenantes.
Le test pilote doit tre propos des candidats dont les caractristiques (ge, sexe, ) sont les mmes que celles des
candidats au test ou lexamen final. La passation du test pilote doit avoir lieu dans les mmes conditions que celles de
lpreuve finale. Mais mme si toutes les conditions ne sont pas remplies (par exemple, manque de temps pour faire passer
tout le test, nombre insuffisant de candidats), la phase pilote sera quand mme utile. Elle peut fournir des renseignements
sur la dure allouer chaque tche, sur la clart des consignes accompagnant les tches, sur la mise en page pour les
rponses, etc. Pour la production orale, il est recommand dobserver (par exemple en les enregistrant) les performances
orales.
La consultation des collgues ou des parties concernes peut se faire de diffrentes faons. Soit en face face sil sagit de
petits groupes, soit sous forme de questionnaires ou de rapports denqute sil sagit de projets plus importants.
Les renseignements que fournit cette phase pilote peuvent galement donner lieu la conception de graphiques et
dchelles de notation assez dtaills (cf. 5.1.3 pour les lments de ces chelles). Les performances des candidats sont les
plus mme dillustrer les niveaux de comptences et de fournir ces lments. Cest partir de ces derniers que seront
rdigs les descripteurs de chaque niveau. Une fois labores, les chelles de niveau doivent passer par ltape du test pilote
25
et une analyse la fois qualitative et quantitative doit tre faite sur la faon dont elles ont t utilises par les examinateurs
(cf. annexe VII). Il se peut que dautres tests pilotes et des modifications soient ncessaires.
Il faudra peut-tre mener dautres recherches pour rpondre aux questions qui se sont poses durant ltape
dexprimentation. Les donnes du test pilote peuvent y rpondre et des tudes spcifiques peuvent tre entreprises. On
peut par exemple se demander :
si les types de tches que nous voulons utiliser conviennent la population qui va passer le test (par exemple des
enfants) ;
si les types de tche correspondent au domaine cibl (par exemple le tourisme ou le droit ;
si les items et les tches valuent vritablement la comptence concerne ? Des techniques statistiques peuvent
tre utilises pour dcider quel point les items et les tches choisies valuent les diffrents aspects de lactivit
langagire (cf. annexe VII) ;
si les examinateurs vont tre capables dinterprter et dutiliser correctement les chelles de notation et les critres
dvaluation ;
quand un test doit tre rvis, sil est ncessaire de faire une tude de comparabilit pour sassurer que le nouveau
test ou le nouvel examen fonctionnera de la mme faon que le prcdent ;
si les items et les tches font appel aux processus cognitifs prvus du candidat. On peut sen assurer en mettant en
place des protocoles verbaux au cours desquels les apprenants expriment ces processus quand ils accomplissent ces
tches.
La rdaction des spcifications peut donner lieu plusieurs versions avant la version du test ou de lexamen final.
Qui a pris la dcision dorganiser un test ou un examen et pour quel objectif et quel usage?
Quel sera limpact en termes denseignement et sur la socit ?
Quel type et quel niveau de performance langagire doivent tre valus ?
Quel type de tches est ncessaire pour y arriver ?
Quelles sont les ressources pratiques disponibles ? (locaux, personnel)
Qui doit faire partie de lquipe de rdaction des spcifications et dlaboration des lments des chantillons du
test ou de lexamen ? (en termes dexpertise, dinfluence, dautorit, etc.)
En quels termes le contenu, les dtails techniques et de procdure du test ou de lexamen seront-ils dcrits dans les
spcifications ?
Quel type de renseignements doit-on donner aux utilisateurs (une version publiable des spcifications) et comment
la diffuser ?
Comment le test ou lexamen peut-il tre expriment ?
Comment les parties prenantes peuvent-elles sinformer sur le test ou lexamen, ?
26
Des modles de grilles dcrivant et comparant les tches sont disponibles : voir les membres de ALTE (2005a, b; 2007a, b),
Figueras, Kuijper, Tardieu, Nold and Takala (2005).
27
Assemblage
Spcifications
du test ou de
lexamen
Productio
n des
items
Contrle
qualit
Fabrication du test
ou de lexamen
Elments du
test ou de
lexamen final
28
3.3.2 La commande
La commande peut rpondre la ncessit davoir des items pour la passation dun test ou dun examen ou la constitution
dune banque ditems qui serviront ultrieurement la constitution dun test ou dun examen. Dans les deux cas, il faut
prvoir les dlais de production.
Il faut se mettre daccord sur un certain nombre de paramtres et formaliser cet accord, afin dviter tout malentendu. Il est
ncessaire, quand beaucoup de rdacteurs dhorizons divers sont impliqus, dtablir une liste officielle des exigences. Les
points ci-dessous, utiles quel que soit le cas de figure, doivent tre clairement et formellement indiqus.
Prcisions sur les lments attendus
Indiquer le nombre de textes, de tches et ditems requis ;
sagissant des textes, indiquer si les items doivent tre rdigs en mme temps que le texte ou sil faut attendre que
le texte soit accept pour le faire ;
pour la production orale avec un dclencheur visuel, indiquer sil faut fournir le dclencheur visuel et dans ce cas
quels types de dclencheurs sont requis ;
informer sur les problmes de droits de reproduction dimages ou de textes et la faon de les traiter ;
prciser quil faut donner la CL et la rpartition des points pour chaque item, y compris pour la rponse correcte ;
pour les tches de production crite, sassurer que les candidats vont pouvoir accomplir la tche en tenant compte
du lexique et de la capacit langagire de leur niveau, en prvoyant des rponses simples ;
indiquer le format standard de la rdaction de la tche.
Prcisions sur la prsentation attendue des items
Le document lectronique est ce qui convient le mieux car il peut tre facilement stock et le rdacteur peut
travailler partir dun modle qui assurera une prsentation cohrente ;
si un examen complet est requis, indiquer si les items doivent tre numrots en continu et si les parties se suivent
ou si chaque partie ou chaque exercice doit tre prsent sur une nouvelle feuille ;
penser la faon didentifier le rdacteur ditems, la date et lintitul de lexamen.
(Toutes ces prcisions peuvent tre indiques dans le guide du rdacteur ditems voir ci-dessous)
Prcisions sur les chances
Il est important que les rdacteurs sachent quand leur production va tre mise en forme et si on attend deux quils y
participent. Si les rdacteurs ne sont pas impliqus dans la suite du processus de production, il faut leur indiquer comment
leur travail sintgre au calendrier gnral de production afin quils comprennent limportance des chances quon leur
demande de respecter.
Prcisions supplmentaires, telles que les conditions demploi
Il faut prciser aux rdacteurs le type de contrat de travail auquel ils seront soumis, soit parce que le travail demand vient
en supplment de ce quils font dans leur tablissement ou leur entreprise, soit parce quils sont travailleurs indpendants.
On peut ne rmunrer que le matriel accept (ne pas payer le matriel rejet) ou ne payer quune partie la remise du
matriel et rgler le complment correspondant au matriel accept. On peut aussi avoir des tarifs diffrents selon le type
ditems ou donner une somme correspondant une partie de lexamen ou lexamen complet.
29
Les professeurs dun tablissement scolaire auxquels on aura demand de rdiger des items devront disposer dassez de
temps dans le cadre de leur emploi du temps.
Les documents suivants sont mettre la disposition des rdacteurs :
Des spcifications dtailles lintention des rdacteurs. Ces spcifications dont il faut souligner le caractre
confidentiel, dcrivent de faon plus dtaille que les spcifications destines au grand public, les conditions de
slection et de prsentation du matriel. Ces indications permettent de gagner du temps et dviter tout
malentendu sur ce que des rdacteurs peuvent considrer comme tant acceptable.
Des chantillons de matriel ou dpreuves dj passes.
Il est galement important que les rdacteurs aient des indications sur la population laquelle le test est destin :
lge, le sexe, le contexte linguistique (L1, Niveau dtudes) des candidats.
des items sappuyant sur des textes doivent tre lus avant le texte. On peut ainsi reprer ceux auxquels on peut
rpondre sans se rfrer au texte (cest dire par bon sens ou grce la culture gnrale) ;
on rpondra aux autres items sans regarder la rponse, comme si on passait le test. Cela permettra didentifier les
items pour lesquels plus dune rponse correcte est possible, ceux qui sont mal formuls, les distracteurs
improbables ou les items qui sont difficiles ;
30
on vrifiera si la longueur ou la dure, le sujet, le style et le niveau de langue des textes de comprhension crite et
orale conviennent. Il est ncessaire de faire appel un expert ou ventuellement des rfrentiels pour la
vrification du niveau de langue.
Si la vrification se fait en groupe, tout problme relev dans le matriel sera discut en dtail par le groupe. Cela donne
souvent lieu de longues discussions sur le matriel et les rdacteurs doivent tre, ce qui nest pas toujours facile, capables
daccepter les critiques constructives et den formuler. Lorsquun rdacteur se sent oblig de justifier et dexpliquer certaines
de ses propositions des collgues expriments, cest quelles ont des faiblesses.
Le groupe dsigne un rapporteur qui recueillera de faon prcise et dtaille toutes les dcisions qui auront t prises et
rendra clairement compte de toute modification. Il est essentiel qu la fin de la runion tous soient daccord et quil ny ait
aucun doute sur les modifications dcides.
Cest lorganisme certificateur de prendre les dcisions finales et de clore les discussions.
Les points revoir de faon dtaille sont les suivants:
31
La population passant le prtest doit rellement avoir des caractristiques identiques celle qui va passer lpreuve finale
(ge, sexe). Lidal est de faire appel des apprenants se prparant passer un examen.
Pour les motiver participer et donner des rponses qui correspondent vraiment leur comptence, on leur proposera un
retour dinformations sur leur performance. Ces informations leur permettront ainsi qu leur professeur davoir une ide du
niveau atteint et de prendre conscience des domaines dans lesquelles ils doivent samliorer avant la passation de lpreuve
finale.
Le principal inconvnient de ce dispositif est le risque que lon fait courir lpreuve finale en termes de scurit. Cest
parfois la raison invoque par certains organismes certificateurs pour ne pas faire de prtest.
Pour rduire les risques, on recommande de ne pas prsenter les preuves sous leur forme dfinitive. Il faut par ailleurs
prvoir un laps de temps assez grand entre lutilisation dun item dans un pr-test et lutilisation du mme item dans
lpreuve finale. Dans le cas de prtests organiss ailleurs que dans lorganisme producteur du test, il faut donner au
personnel qui va sen occuper des consignes impratives de scurit et faire signer des engagements de confidentialit.
Il nest pas ncessaire que les preuves du prtest soit exactement identiques aux preuves de lexamen final dans la mesure
o ce sont les items et non pas le test lui-mme qui sont prtests. Il faut quand mme savoir que la motivation de ceux qui
vont passer le prtest sera dautant plus grande quils sauront que le format du prtest est trs proche de lpreuve finale. Il
est donc recommand de proposer un format quasi identique.
Quoi quil en soit, les conditions dorganisation de la passation du prtest doivent tre les mmes que celles de lpreuve
finale. Pour que les interprtations des donnes ne soient pas fausses, il est indispensable que les candidats au prtest
puissent se concentrer, ne trichent pas et que la dure du test soit la mme pour tous.
Quand la qualit des donnes statistiques est de premire importance (par exemple en cas de calibrage des items, cf. annexe
VII), il faut faire passer le prtest par un nombre important de candidats. Le nombre requis dpend des analyses effectuer.
On peut malgr tout dtecter des problmes que certains items peuvent poser avec un nombre rduit de candidats (moins
de 50). Avec des effectifs encore plus rduits, il vaut mieux faire des analyses qualitatives.
Il est galement essentiel de faire appel des candidats dont les caractristiques sont aussi proches que possibles que celles
des candidats au test final. Avec un chantillon plus petit et moins reprsentatif, des conclusions hasardeuses seront tires
des analyses et celles-ci devront tre rquilibres par le jugement dexperts lors de la rvision des items. Voir lannexe VII
pour plus de renseignements sur les analyses.
Si la passation dun prtest a pour but de recueillir des renseignements de type qualitatif sur les items, il faut tenir compte
des lments suivants pour optimiser cette opration :
pour des items dont lvaluation/correction est objective, il est possible de recueillir les renseignements fournis par
les candidats et les professeurs aprs la passation. On peut utiliser une liste de questions ou un questionnaire cet
effet (cf. annexe VI) ;
dans le cas de tches de production orale faisant intervenir un interlocuteur, linformation donne par ce dernier
peut tre dune grande utilit. Lorganisme certificateur saura si ltudiant a compris la tche, si elle est adapte
son exprience et son ge et si les informations donnes ont t suffisantes pour lui permettre de la raliser
correctement (cf. annexe VI) ;
dans le cas ditems et de tches dont lvaluation est subjective, les rponses des candidats montrent quel point
on leur a donn loccasion de sexprimer et de montrer ltendue des structures syntaxiques et du lexique attendue
au niveau du test ;
on peut galement recueillir des informations sur leur exprience en tant que candidat un prtest ainsi que
dautres informations concernant la session elle-mme.
32
Le but de cette runion est de garder, amliorer ou rejeter les items en fonction des donnes du pilotage et du prtest. La
figure 8 montre quel moment les items qui doivent tre amliors repassent le test pilote et le prtest
Rejet
Edition
Test pilote /
pr-test
Rvision
Quels items et tches sont prts tre utiliss tels quels dans lpreuve finale ?
Quels items et tches doivent tre rejets car ne convenant pas ?
Quels items et tches peuvent tre rcrits et prtests nouveau avant de les inclure dans lpreuve finale ?
dans quelle mesure les rponses des candidats au prtest correspondaient celles de la population cible ?
Ladquation permettra dvaluer le degr de fiabilit des donnes des analyses ;
dans quelle mesure les tches et les thmes taient intressants et taient la porte des candidats ? Les
procdures ont-elles bien fonctionn ?
en ce qui concerne les items et les tches individuels, il est utile, pour valuer ceux qui donnent lieu une correction
subjective, dtudier un certain nombre de rponses de candidats. Dans le cas ditems valuation objective, on
pourra dceler des problmes grce aux analyses statistiques, quune rvision par des experts pourra confirmer et
corriger. Prudence, en revanche, si les donnes servant aux analyses sont insuffisantes (par exemple avec un petit
nombre de candidats ou des candidats qui ne conviennent pas). On peut galement donner une certaine importance
lapprciation qualitative des items et des tches ;
il faut avoir une approche cohrente et assurer un suivi des donnes concernant les tches qui ont pos problme
lors des analyses statistiques et qui se trouvent dans une banque ditems. On en verra lutilit lors de la fabrication
du test ou de lexamen. Voir lannexe VII pour plus dinformation sur les analyses statistiques.
le niveau de difficult. Il peut tre dcid soit en faisant appel un jugement subjectif soit en se rfrant la
difficult moyenne des items du test et ltendue de difficult couverte (cf. annexe VII) ;
le contenu (thme) ;
ltendue (la reprsentativit des tches par rapport au concept) ;
la graduation ( savoir sil y a une graduation de la difficult dans le test).
Ces directives devraient concerner le test ou lexamen dans son ensemble, ainsi que ses diffrentes composantes, fin de
comparaison.
Dautres considrations pour certains types de tests ou dexamens sont prendre en compte. Par exemple dans une preuve
de comprhension crite comprenant plusieurs textes et items, il faut sassurer que les thmes ne sont pas rpts, que le
33
nombre de mots nest pas trop lev. De la mme faon, dans une preuve de comprhension orale, il faut assurer lquilibre
entre les voix fminines et masculines, les accents rgionaux (si cela est pertinent).
Quel type danalyse doit tre fate des donnes sur les performances recueillies grce au prtest ?
Comment les analyses seront-elles analyses ? (par exemple en vue de llaboration de lpreuve finale, pour la
formation des rdacteurs ditems, etc.)
Quelles sont les variables dont il faut tenir compte et quel poids doit-on leur donner ? (par exemple le niveau de
difficult, le contenu thmatique, lventail du type ditems, etc.)
Quel sera le rle des analyses statistiques ? (par exemple en tablissant une difficult moyenne et ltendue de
difficult).
Quelle sera le poids des analyses statistiques par rapport aux informations venant dautres sources dans la prise de
dcision ?
Les lments du test ou de lexamen une fois assembls seront-ils contrls de faon indpendante ?
Comment les prsentations des diffrentes parties vont-elles sinscrire dans la prsentation gnrale du test ou de
lexamen et comment cette prsentation va-t-elle tre reprise dans une srie de tests ou dexamens?
la performance du candidat dpend avant tout de ses comptences langagires et le moins possible de facteurs
extrieurs tels que le bruit ou la triche ;
les rponses et les corrections du candidat sont recueillies de faon efficace et sre en vue de la correction et de
la notation ;
tout le matriel li lexamen soit livr au bon endroit et temps.
34
Toutes ces tches sont importantes, que lexamen soit organis sur une grande chelle ou localement. Le moindre dtail, tel
que lamnagement de la salle dexamen, a son importance.
Le recueil de plus amples informations sur le profil des candidats peut constituer un objectif supplmentaire. Ces
informations sont dautant plus utiles si lorganisme certificateur ne les connat pas. Une bonne connaissance des candidats
est un lment tangible de la validit (cf. annexes I et VII).
Items de
lpreuve finale
Organisation des
salles dexamen
Envoi du
matriel
Inscription des
candidats
Passation
Matriel
retourn
Retour du
matriel
Quand cest une tierce personne qui a trouv les centres de passation, lorganisme certificateur doit mettre en place un
dispositif dinspections alatoires afin de vrifier les conditions de passation faite en son nom.
Les critres servant aux inspections doivent toujours tre les mmes. Il est recommand de vrifier les conditions matrielles
avant chaque passation car les organisateurs de lexamen nont peut-tre pas toujours t informs de travaux en cours dans
le voisinage.
Les points vrifier sont les suivants :
Le bruit ambiant
Lacoustique de la salle (particulirement pour lpreuve de comprhension orale)
Les capacits daccueil (permettant un espace entre les tables)
La configuration de la salle (permettant aux surveillants de bien voir tous les candidats)
Laccs la salle
La mise disposition de toilettes et dune salle daccueil des candidats
Des lieux de stockage du matriel avant et aprs la passation comportant la scurit ncessaire
Les centres qui ne remplissent pas les conditions requises ou les organisations qui commettent des erreurs doivent tre
supprims de la liste dventuels lieux de passation ou de collaborateurs.
35
Il faut savoir valuer les diffrents types de demandes avec prcision pour prvoir lassistance ou la compensation
ncessaires. Il est donc recommand de mettre en place des procdures pour les demandes les plus communes comprenant
les preuves que le candidat doit fournir (par exemple la lettre dun mdecin), les dispositifs mettre en place et la date de la
demande.
Pour des besoins particuliers comme une mobilit trs rduite supposant une aide pour que le candidat accde sa place,
cette aide devrait pouvoir se trouver sur place.
Il est parfois ncessaire de prendre dautres mesures plus adaptes dans le cas par exemple de candidats ayant des difficults
lire (dyslexiques ou mal voyants). Par contre, il faut faire attention ne pas avantager certains candidats.
A ce stade, il est galement possible de recueillir des informations sur le contexte des candidats. Des informations sur le
profil des candidats peuvent permettre de tirer des conclusions importantes en termes de comparabilit des groupes qui se
prsentent lexamen. Ces informations concernent :
Il est indispensable que les candidats sachent pourquoi ces informations sont demandes, de mme quil faut que ces
donnes soient gardes en lieu sr et restent confidentielles afin dassurer tous les droits la vie prive des candidats.
Linscription est galement loccasion de fournir des informations aux candidats telles que les conditions dinscription, les
rgles respecter lors de la passation, les possibilits de faire appel et les moyens mis leur disposition pour une assistance
particulire. Il faut bien sr donner aux candidats toutes les informations ncessaires en particulier celles sur les lieux, les
jours et heures de passation. Pour une bonne diffusion, ces informations peuvent tre imprimes et distribues, disponibles
sur internet ou par courrier lectronique.
Linscription peut tre faite directement par lorganisme certificateur, les centres de passation ou des institutions
indpendantes telles que le ministre de lEducation. Dans la mesure du possible, lorganisme certificateur doit sassurer que
les modalits dinscription sont identiques pour tous les candidats.
36
Les responsables de la passation doivent vrifier le contenu de lenvoi en comparant avec une liste du matriel. En cas de
matriel manquant ou endommag, les responsables suivent alors les procdures mises en place et demandent les pices
ajouter ou remplacer.
Quelles sont les ressources disponibles pour la passation de lexamen ? (personnel administratif,
surveillants, salles, lecteurs de CD, etc.)
Comment former lquipe ?
Comment sassurer de la conformit des salles et du fonctionnement des lecteurs CD avant le jour de
lexamen ?
Quelle est la frquence des sessions ?
Combien de candidats sont attendus ?
Comment va se drouler linscription des candidats et lenregistrement de leur prsence ?
Combien de lieux de passation sont utiliss et sil y a plus dune salle, sont-elles regroupes ou disperses?
Comment acheminer le matriel dans les salles et le rcuprer ?
Quels sont les endroits scuriss o le matriel peut tre stock ?
Quel dysfonctionnement peut se produire et quelles sont les procdures et le rglement pour y rpondre ?
37
Matriel de test
retourn
Notation
5.1 La correction
Le terme correction couvre toutes les activits qui permettent dattribuer une note aux rponses donnes un test ou un
examen. On fait souvent une diffrence entre le correcteur et lvaluateur, le premier tant moins qualifi que le second, qui
a lui, bnfici dune formation professionnelle. Cette distinction est faite dans cet ouvrage. Cette section couvre la
correction administrative (cest--dire humaine) ainsi que les machines corriger.
5.1.1
La correction humaine
Il nest nul besoin que les CORRECTEURS soient des experts en valuation par les tests il suffit quils aient un excellent niveau
de comptence dans la langue value. Pour mener bien leur travail, les correcteurs ont cependant besoin de formation et
de conseils ainsi que cls de rponses univoques. Si la correction est effectue par un petit groupe de collgues, ils peuvent
vrifier la qualit du travail des uns et des autres.
Le processus de correction doit tre gr de faon ce que les procdures respectent la planification prvue et que les
rsultats soient prts temps. La charge de travail de chacun des correcteurs ne doit pas tre trop leve, sous peine de
mettre en pril la fiabilit ou lexactitude des corrections.
Le recrutement et la formation des correcteurs
Dans sa forme la plus simple, lacte de corriger implique que le correcteur associe la rponse du candidat une question du
test, une ou plusieurs sries de rponses. Les questions choix multiple (QCM) en sont le plus clair exemple, puisquaucune
modification des choix donns nest possible. Lorsquil sagit de ce type de correction, les correcteurs doivent simplement
avoir une excellente connaissance du langage concern, tre attentifs aux dtails et tre prts accomplir des tches
rptitives. Aucune autre comptence particulire nest requise. Dans ce cas, la formation consiste en une familiarisation
avec les procdures suivre. Avec une technologie approprie, ce type de correction peut seffectuer aussi bien, voire mieux,
laide dune machine.
Dans le cas o la correction ncessite autre chose quun simple appariement entre questions et rponses, le correcteur peut
avoir besoin de connaissances sur la langue, sur la langue des apprenants et sur la construction du test. Selon le degr de
russite, par exemple, aux QUESTIONS A CREDIT PARTIEL on peut leur attribuer une note choisie dans une srie de note. Une
38
note peut par exemple tre attribue si le choix dun verbe sest rvl exact et une autre note si la forme correcte a t
utilise. Le correcteur doit avoir un niveau dexpertise adquat afin de pouvoir reconnatre une rponse incorrecte.
Pour des questions de ce type, il peut tre difficile de sassurer que la cl est suffisamment exhaustive. Cest pourquoi il est
utile que le correcteur puisse identifier et relever les diffrentes rponses rencontres.
Lorsque les correcteurs sont recruts de faon temporaire mais rgulire, il est utile de les valuer selon un certain nombre
de paramtres tels que la justesse, la fiabilit et la rapidit de correction. Les correcteurs ne donnant pas satisfaction
peuvent alors tre soit remercis, soit forms nouveau. Un tel systme peut faire partie de la formation, comme le montre
la figure 11. Les correcteurs qui sont frquemment appels corriger peuvent tre dispenss de certaines sessions de
formation. Lestimation de leur performance (cf. 5.1.3 Surveillance et contrle de qualit) rendra plus facile la dcision de
renvoi une session complte de formation, ou une formation complmentaire, ou un remerciement.
Recruter
Former et
valuer
Standardiser et
valuer
Travailler et
valuer
Renvoyer
Figure 11 Recrutement, formation et valuation des correcteurs et valuateurs
Dautres rponses peuvent tre correctes mais ne sont pas donnes par la cl. Cest pourquoi les correcteurs doivent relever
les rponses quils pensent tre correctes. Ces rponses doivent tre examines et si elles sont rellement correctes, les
39
points seront attribus aux candidats. Si les corrections sont effectues par un petit groupe de correcteurs, les problmes
peuvent tre aisment rsolus en discutant rgulirement avec un concepteur. Dans quelques cas, si la cl est rvalue ou
modifie, tout ou partie des copies devront tre recorriges.
Grer le processus de la correction
Les corrections seffectuent gnralement pendant une priode fixe, les rsultats devant tre dlivrs aux candidats des
dates prcises. Pour estimer le temps ncessaire il suffit de mettre en relation le nombre de candidats et le nombre de
correcteurs disponibles. Il est prudent de lgrement surestimer le temps ncessaire ou bien dengager plus de correcteurs
afin de sassurer que tous les problmes pourront tre rgls.
Si on a faire un grand nombre de candidats et de correcteurs, on doit mettre en place un systme de traage des copies
tout au long du processus. Un systme simple consiste noter le nombre de copies et le numro du correcteur, ainsi que la
date de remise des copies et la date de correction. Lorganisme certificateur peut ainsi estimer le temps et le nombre de
correcteurs requis pour un nombre donn de candidats.
Le systme de traage donne galement des informations importantes sur la performance de chaque correcteur, comme par
exemple le temps moyen dont ils ont besoin pour corriger une copie. Si on sattache vrifier le travail du correcteur on peut
galement compter le nombre moyen derreurs faites. Ces statistiques peuvent tre obtenues en vrifiant, pour chaque
correcteur, un chantillon reprsentatif de son travail.
Numro du candidat
40
5.1.3. Lvaluation
On utilisera les termes valuation et valuateur lorsquun jugement dexpert intervient de faon bien plus importante que
dans le type de correction dcrit prcdemment. Lorsque le jugement entre en jeu, cest que le concepteur du test donne
plus dune seule rponse correcte . Il y a, dans ce cas de plus grandes possibilits de dsaccord entre les jugements des
valuateurs que dans dautres types de correction, laissant ainsi la place un plus grand danger de divergence entre les
valuateurs ou dans le travail dun valuateur individuel. Pour assurer la justesse et la fiabilit, on devra combiner des
sessions de formation, des conseils et des remarques correctives.
Beaucoup de ce qui a t dit de la correction humaine est galement vrai dans lvaluation : on doit grer le processus afin
dutiliser les ressources de faon efficace, contrler et surveiller afin dassurer la justesse de lvaluation. La fiabilit doit
galement tre surveille (cf. Section 1.3, Annexe VII).
Les chelles dvaluation
La plupart des approches de la comptence valuative sont lies une chelle dvaluation. Il sagit dune srie de
descripteurs des performances diffrents niveaux, indiquant la note ou le classement que mrite chaque performance.
Les chelles dvaluation limitent les variations inhrentes la subjectivit des jugements humains. On prend gnralement
en compte les options suivantes :
Echelles holistiques ou analytiques : on peut attribuer une note une performance en utilisant une chelle qui
dcrit chaque niveau de performance laide dune srie de caractristiques. Lvaluateur choisit le niveau qui
dcrit le mieux les performances. De la mme faon, des chelles peuvent tre conues pour toute une srie de
critres (par exemple effet communicatif, justesse, adquation au contexte, etc.), et une note peut tre attribue
chacun de ces critres. Les deux approches peuvent relever du mme concept de comptence langagire dcrits en
termes similaires la diffrence rside dans le jugement que lvaluateur est appel donner.
Echelles relatives ou absolues : les termes utiliss dans les chelles peuvent tre relatifs, lis lvaluation (par
exemple insuffisant , adquat , bon ) ou peuvent tendre vers la dfinition du niveau de performance en
termes positifs et prcis. Pour interprter la performance selon les chelles et les niveaux du CECR, cette dernire
option est prfrable, les chelles de descripteurs du CECR permettant de construire de telles chelles dvaluation.
Echelles ou listes de contrle : une autre approche de lvaluation laide dune chelle, qui peut tre
complmentaire, consiste attribuer des notes partir dune liste de jugements oui/non si la performance
correspond ou non ce qui a t demand.
Echelles gnralistes ou sur tches spcifiques : Un examen peut utiliser soit une chelle dite gnraliste ou un jeu
dchelles pour toutes les tches, soit encore fournir des critres dvaluation spcifiques chaque tche. Il est
possible de combiner les deux. On peut, par exemple, fournir la fois des critres spcifiques pour permettre
lvaluation (une liste des points qui doivent tre traits), et des chelles gnralistes.
Jugement comparatif ou absolu : On peut dfinir une chelle partir de performances modles, de faon ce que
la tche de lvaluateur ne soit pas de donner le niveau indiscutable de la performance, mais dindiquer simplement
si cette performance est en-dessous, quivalente ou au-dessus dune ou de plusieurs performances modles. La
note correspond alors un classement sur une chelle. Pour le CECR, linterprtation de ce classement dpend du
jugement sur le niveau attribu aux modles. Cette approche fonctionne merveille si les modles sont des tches
spcifiques.
Ces approches peuvent sembler grandement diffrentes, elles dpendent cependant toutes de principes sous-jacents
semblables :
Toute valuation repose sur la comprhension que lvaluateur a des niveaux.
Les modles sont essentiels pour dfinir et communiquer sur cette comprhension.
Il est impratif que les tches permettant de produire la performance value soient lies aux chelles.
Il est classique de dire que les niveaux avaient une signification locale, correspondant au contexte dun examen particulier et
quil tait donc difficile dtablir une comparaison avec les niveaux dun autre examen pris dans un autre contexte. La
cration de cadres de comptences tels que le CECR a permis de comparer les niveaux de diffrents contextes. Cet tat de
fait a eu une incidence sur la faon dont les chelles dvaluation sont articules.
41
Lorsque le niveau tait classiquement implicite et compris, les chelles taient traduites en termes valuatifs relatifs.
Aujourdhui, on a plus tendance traduire les chelles en fonction du CECR et de son approche, qui est de dcrire les niveaux
de performance de faon identifiable, en termes positifs et prcis. Les modles (encore plus que le texte des descripteurs),
restent essentiels pour dfinir et indiquer le niveau, et ils poussent les organismes certificateurs tre plus explicites sur ce
que signifie atteindre un niveau.
Le CECR favorise la rflexion et le travail en termes de niveaux de comptence critris. Deux lments permettent de dfinir
les niveaux : ce que les gens peuvent faire et quel degr ils peuvent le faire. Dans un examen, le ce que est dfini par les
tches spcifies. A quel degr ces tches sont ralises, cest ce que lvaluateur doit juger.
Cest pourquoi lapproche classique de lvaluation, qui consiste appliquer des chelles dvaluation, fonctionne
relativement bien, condition que les tches soient bien choisies et que les jugements portent sur la ralisation des tches.
Les tches servent alors grandement dfinir les chelles, mme si on sy rfre de faon plus ou moins explicite dans la
dfinition de ce que signifie une performance qui permet le passage .
Le CECR (p. 142) traite de certains aspects de lvaluation subjective.
Le processus dvaluation
Pour que le processus se droule correctement les valuateurs doivent avoir une comprhension identique des normes. Pour
arriver cette comprhension commune, il faut saccorder sur des exemples de performance.
Dans le cas dexamens sur une petite chelle, un groupe dvaluateurs peut arriver un accord la suite dune discussion.
Dans cette situation o les valuateurs sont sur un pied dgalit, la norme reconnue par tous risque de navoir quune
porte locale et de ne pas tre la mme dune session lautre. Dans le cas dexamens sur une grande chelle, la norme doit
tre stable et doit tre significative. Pour y arriver, il faut sappuyer sur la pratique dexaminateurs expriments qui, de par
lautorit quon leur reconnait, transmettent la norme aux nouveaux.
Cest ainsi quun petit groupe dvaluateurs expriments va former le noyau qui assurera la continuit en termes de normes
de la formation, du contrle et de la correction des autres correcteurs.
Un tel systme hirarchique peut avoir diffrents niveaux comme le montre la figure 14. Cest une faon assez efficace
dassurer une formation en face face ou le contrle du travail des correcteurs. Mais les nouvelles technologies de
linformation ainsi que lvolution de la formation par internet rduisent les besoins dune telle hirarchie. Il faut aussi noter
que la transmission prcise de la norme est vraiment assure grce des exemples de corrections tablies de manire
autoritaire pour chaque niveau.
42
discussion guide partir dun chantillon qui dbouche sur la comprhension du niveau par les correcteurs ;
correction indpendante dun chantillon, suivie dune comparaison avec la correction prtablie puis large
discussion sur les raisons des ventuelles diffrences ;
correction indpendante de plusieurs chantillons pour montrer combien les correcteurs sont proches de la
correction prtablie.
Lidal serait que les chantillons reprsentent des performances ralises partir des tches de la session du test ou de
lexamen en cours. Si ce nest pas possible, on utilisera des tches de sessions prcdentes.
La surveillance et le contrle qualit
Lidal est qu lissue de la formation, tous les correcteurs arrivent une justesse et une constance telle quaucune
correction ou retour dinformation ne soit ncessaire. La phase de correction peut alors se drouler sans problme. Mais il y
a des cas o un contrle simpose pour identifier sans tarder les problmes.
On peut identifier quatre types de problmes, ce quon appelle aussi les effets valuateurs :
1.
2.
3.
4.
La gravit de ces problmes dpend en partie des corrections qui peuvent y tre apportes. Prenons lexemple de la
svrit. Beaucoup dvaluateurs ont une nette tendance la svrit, tenter de la remettre en question peut avoir pour
effet de diminuer leur confiance en eux et par consquent de les rendre moins constant. Il vaut donc mieux accepter une
certaine systmatisation dans la svrit ou le laxisme si cela peut tre corrig par une procdure statistique.
Lchelonnage ou le modle de rponse litem sont deux options possibles (cf. annexe VII).
Un ventail trop troit de notes ne peut tre corrig que partiellement laide des statistiques. Le manque de constance
ne peut tre corrig de faon statistique. Ces deux problmes doivent donc tre reprs et la solution apporte sera soit
de demander lvaluateur de suivre une nouvelle formation soit de ne plus faire appel cette personne.
Il faut donc mettre en place dun systme de contrle. Il savre plus ais pour la correction de la production crite car
les valuateurs peuvent se transmettre la copie pendant la sance de correction. Le contrle sur la production orale est
par contre bien plus difficile, sauf si lon dispose denregistrements. Dans ce cas, leffort doit porter sur la formation et
lapprciation du travail de lvaluateur avant la session de correction. Il est recommand de saider de statistiques
montrant la performance de lvaluateur (voir lannexe VII).
Les diffrentes approches du contrle vont de la plus simple par exemple, vrification ponctuelle informelle et
nombreux retours dinformation oraux aux valuateurs, au plus complexe par exemple nouvelle correction partielle
du travail dun correcteur et cration de statistiques dindices de performance. Une mthode intressante consiste
43
inclure des copies dj values celles attribues un valuateur et de comparer les notes. En fait, pour que cette
procdure soit fiable, il faut que les copie ne puissent pas tre distingues les unes des autres afin quil ne soit pas
possible de les photocopier. Pratiquement, cette mthode ne peut sappliquer quavec des copies issues de tests sur
ordinateur ou avec des copies scannes, dans un systme dvaluation en ligne.
Une autre faon de diminuer la marge derreur et de comparer les valuateurs entre eux (ce qui permet didentifier des
effets de lvaluation et de les corriger statistiquement), est doprer une double correction ou une correction multiple
partielle consistant faire corriger un certain nombre de copies par plus dun correcteur. En fonction de lapproche
statistique utilise, il faudra mettre en place une mthode pour combiner les informations et arriver donner une note
au candidat.
5.2 La notation
Tout le processus de conception, dlaboration, de passation et de correction qui vient dtre dcrit dbouche sur
lvaluation de la performance de chaque candidat et la faon de la rapporter.
Dans certains contextes, un test ou un examen classe les candidats en les regroupant du niveau le plus haut au niveau le
plus bas en fixant des limites de niveaux arbitraires - par exemple les 10% les plus hauts ont le niveau A, les 30% suivants
ont le niveau B et ainsi de suite. Cette approche, qui se rfre une norme qui peut tre dune certaine utilit sociale est
peu satisfaisante dans la mesure o la performance est value uniquement par rapport celle des autres mais ne
donne aucune indication sur ce quelle signifie en termes de niveau de comptence langagire.
Lalternative, qui est une approche plus significative, se rfre des critres. La performance y est value en tenant
compte des critres ou des normes fixes et absolues. Cest en fait lapproche adopte par les tests ou les examens qui
dlivrent des rsultats en termes de niveaux du CECR.
Un examen peut tre conu sur plusieurs niveaux du CECR ou sur un seul. Dans ce dernier cas, les candidats qui sont du
niveau sont considrs comme ayant russi et les autres comme ayant chou . Les degrs de russite ou dchec
de la performance peuvent aussi tre indiqus.
Le fait didentifier la note qui correspond la russite dans un niveau sappelle la dtermination ou la DEFINITION DU
SCORE DE CESURE. Cette dcision suppose un jugement subjectif si possible fond sur des faits probants.
Il y a diffrentes faons dappliquer la dfinition des scores de csure dans les preuves de production (crites et orales)
et de rception (crite et orale) qui sont souvent corriges de faon objective. Les preuves de production sont
relativement faciles traiter. La rception crite et orale pose plus de problme dans la mesure o il faut interprter des
processus mentaux qui ne sont observables quindirectement, ce qui rend donc la notion de niveau de comptence
critrie difficile cerner
Quand un test ou un examen comprend plusieurs sous preuves de rception ou de production diffrentes, il faut fixer
une norme pour chacune sparment, et ne pas soccuper de lensemble (cf. 5.3 pour plus dinformation sur cette
question).
Le lecteur est appel se rfrer au Manuel Relier les examens de langues au CECR (Conseil de lEurope 2009) qui traite
en dtail de la dfinition des scores de csure. Concernant lorganisation et la terminologie du Manuel, veuillez noter
que :
Le chapitre 6 sur la dfinition des scores de csure ne fait rfrence quaux tests et examens qui donnent lieu
une correction objective (cest--dire la rception crite et orale).
Les preuves de production sont abordes au chapitre 6 sous le titre de Formation la standardisation et au
calibrage.
Le chapitre 7 sur la VALIDATION est galement important. Il y a deux approches pour dfinir les points de
csure : soit centre sur la tche, soit centre sur le candidat. Lactivit centre sur la tche qui est dcrite dans
le chapitre 6 dpend dun jugement dexperts sur les items du test ou de lexamen. En revanche, lactivit
centre sur le candidat suppose la collecte dinformation sur celui-ci et est aborde dans le chapitre 7.
44
Ce nest pas pour autant que la dfinition du score de csure partir de lactivit centre sur la tche est plus
importante que celle centre sur le candidat.
Pour tre clair, la dfinition des scores de csure est une opration qui ne devrait tre mene quune seule fois, quand le test
ou lexamen est organis pour la premire fois, mme si arriver la norme dsire est un processus itratif. Avec le temps la
notation devrait non plus concerner la dfinition des normes mais leur maintien. Cela suppose que le cycle de conception
du test ou de lexamen prsente des procdures adquates. Ces questions sont largement abordes dans le document en
supplment du Manuel (North et Jones 2009).
les informations supplmentaires qui doivent tre fournies pour illustrer les niveaux (par exemple les
descripteurs ) ;
comment sassurer que le document est loriginal (par exemple empcher toute falsification du document ou mettre
en place un service de vrification) ;
les prcisions qui doivent tre donnes sur linterprtation des rsultats.
Quelle doit tre la proportion de correction du test ou de lexamen qui nest pas faite par la machine et quelle
frquence?
Quelle est la proportion qui concerne lvaluation et quelle frquence ?
Quel est le niveau dexpertise requis pour vos valuateurs ?
Comment vous assurer que la correction et lvaluation sont justes et fiables ?
Quelle est la meilleure faon de noter les candidats dans votre contexte ?
Qui sont les destinataires des rsultats et comment allez-vous les dlivrer ?
45
6 Contrle et rvision
Il est important de vrifier le travail accompli pour llaboration et lutilisation du test ou de lexamen. Rpond-il aux normes
en vigueur ou des changements sont-ils ncessaires ? Lobjectif du contrle est de vrifier si des aspects importants du test
ou de lexamen sont acceptables alors que le test est utilis ou juste aprs son utilisation. Si des modifications doivent tre
faites, il est souvent possible de les faire tout de suite. Des amliorations ne peuvent tre que bnfiques aux candidats en
cours ou venir.
La rvision est une sorte de projet consistant passer en revue diffrents aspects du test ou de lexamen. A cette occasion,
on revient sur la conception du test ou de lexamen et on se pose des questions essentielles telles que quelle est lutilit du
test ? quel en est objectif ? , pour quelle population ? , que cherche-t-on tester ? . Cela ressemble la phase
dlaboration mais avec lavantage davoir des donnes et davoir acquis lexprience de lutilisation. De par son tendue, la
rvision du test ou de lexamen ne peut pas faire partie du cycle normal de lvaluation et ne peut pas tre organise
chaque session.
Faire appel au jugement dexperts, exprimenter et prtester pour sassurer de la qualit de rdaction des items (cf.
3.4).
Utiliser les rponses des candidats pour savoir si les items fonctionnent correctement (Annexe VII).
Utiliser des formulaires pour le retour dinformation sur la passation (cf. annexe VI).
Collecter et analyser des donnes sur la performance des correcteurs (Annexe VII).
Contrler lefficacit du travail est tout aussi important. Ce contrle permet aux organismes certificateurs de mesurer le
temps ncessaire la prparation et de dcider de le raccourcir ou de lallonger.
46
Dcision de concevoir
Preuve
Elaboration du test
Elaboration
Utilisation du test
Preuve
Passation
Dure
Assemblage
Correction
Notation
Dlivrance des
rsultats
Rvision priodique
du test
Figure 15 Cycle dlaboration et de la rvision dun test ou dun examen
La figure 15 est une reproduction de la figure 5 (partie 1.5.1) laquelle a t ajoute la rvision priodique. Elle montre
lapport de la rvision aux premires tapes du diagramme : la dcision de concevoir un test ou un examen. Le processus
dlaboration du test ou de lexamen fait partie de la rvision.
Il ne faut pas oublier de prvenir les PARTIES CONCERNEES en cas de modifications (cf. 2.6)
47
Ces normes peuvent tre utilises avec des listes plus spcifiques et dtailles, telles que les listes de contrle danalyse du
contenu de ALTE (ALTE 2004a-k,2005,2006a-c).
Les organismes certificateurs peuvent utiliser dautres outils pour concevoir et vrifier les arguments de validit. Jones,
Smith et Talley (2006 :490-2) propose une liste de 31 points cls pour lvaluation sur une chelle plus rduite. Lessentiel de
leur liste est inspir des normes pour lvaluation ducationnelle et psychologique (AERA et al 1999).
48
Observation
Score observ
Score universel
Score cible
(interprtation
Dcision
)
valuation
Comment noter ce qui
est observ ?
gnralisation
Les notes (scores) sont-elles
cohrentes et stables ?
extrapolation
Les notes refltent-elles la
capacit du candidat dans le
domaine cibl ?
Session du test
utilisation
Comment peut-on
utiliser les scores
obtenus au test ?
Prise de dcision
au sujet du candidat
Figure 16 Chane du raisonnement dans un argument de validit (adapt de Kane, Crooks, Cohen 1999, Bachman 2005)
La justification de largument de validit est dtayer largument dutilisation et consiste en preuves, thorie et propositions
raisonnes. Les preuves qui tayent chaque tape sont runies pendant le dveloppement du test, sa construction et son
utilisation.
De nombreuses preuves utilises dans largument de validit proviendront du processus de routine de lutilisation du test.
Des exemples de ce type de preuves sont numrs dans la section 6.1. Les preuves sont galement runies pour un objectif
plus immdiat, qui est de contrler le travail du correcteur, et servent naturellement lorsquon tablit largument de validit,
comme le montre la figure 17.
Grce aux preuves, on peut amliorer largument de validit chaque fois que lon dveloppe et utilise une nouvelle forme
de test. La conception de largument de validit devrait dbuter lors de la tout premire tape du processus, lorsque lon
dfinit les objectifs du test. Une grande partie de largument de validit pour une forme donne du test peut tre utilise
pour la forme suivante.
Certains thoriciens (Bachman 2005, Mislevy et al 2003) soulignent que largument de validit devrait tre prsent comme
un argument informel, en opposition un argument logique. Cela signifie que le raisonnement seul ne peut tablir que
49
largument est juste ou erron. Il peut en revanche sembler plus ou moins convaincant quelquun qui lexaminerait. Le
degr de crdibilit dpend de la thorie applique et des preuves disponibles pour ltayer.
Dcision de concevoir
Preuve
Elaboration du test
Elaboration
Utilisation du test
Preuve
Passation
Dure
Assemblage
Correction
Notation
Argument de
validit
Dlivrance des
rsultats
Lectures complmentaires
ALTE (2005 : 19) propose un rsum utile des diffrents types de validit et dcrit le contexte de la conception moderne de la
validit.
AERA et al (1999) expose les grandes lignes du concept moderne de la validit et des standards qui soulignent certains
aspects spcifiques du problme et peuvent ainsi aider la conception dun argument de validit.
Messik (1989) dbat du concept unitaire de la validit ainsi que des considrations thiques qui en dcoulent.
Haertel (1999) exemplifie la faon dont les preuves et largumentation sont relies aux interprtations des scores.
Kane, Crooks et Cohen (1999) prsentent de faon claire les premires tapes de largument de validit. Cela est trait de
faon plus approfondie par Kane (2006).
50
Bachman (2005) examine la relation entre les arguments de validit et lvaluation en langues. Il relie galement entre eux
les modles de Bachman et de Palmer (1996) du modle dargument de validit. Le premier modle considrait la notion
dutilit comme tant la plus grande qualit dun test, runissant la fiabilit, la validit, lauthenticit, linteractivit et
limpact.
Bachman et Palmer (2010) expliquent comment les arguments de validit sont au cur du dveloppement du test et
peuvent proposer un cadre pour ces tches.
Evaluation
Comment noter ce
qui est observ ?
Gnralisation
Les notes (scores)
sont-elles
cohrentes et
stables ?
Extrapolation
Les notes refltentelles la capacit du
candidat dans le
domaine cibl ?
Un domaine dutilisation
est clairement dfini
dans le Guide du
rdacteur ditems et
dans les spcifications.
Ce domaine peut
galement avoir t
identifi par une analyse
de besoins (cf. section
2.4).
La preuve que les notes
de russite au test ont
t convenablement
tablies viendra tayer
linterprtation des
rsultats de chaque
candidat (cf. sections 2.0
et 5.2).
Certaines parties du
CONSTRUIT
napparaissent pas
clairement dans les
spcifications. Cela
signifie que les rsultats
au test napporteront
pas dinformation
pertinente sur ce que le
candidat est capable de
faire (cf. sections 1.1 et
2).
La rdaction ditems et la
construction du test ont
t confis des experts
(cf. section 3.2).
Preuve contre
51
Utilisation
Comment peut-on
utiliser les scores
obtenus au test ?
7).
Si des analyses
statistiques ont t
utilises, on a trouv de
faibles niveaux derreur
et les MODELES
statistiques convenaient
aux donnes (cf. annexe
VII).
Les versions du test
nont pas t relies
entre elles.
Les versions du test ne
sont pas reprsentatives
du mme construit.
Preuve contre
Preuve contre
appliques pendant la
passation du test. Cela
permet de montrer que
les rsultats ne
dpendront pas dautres
facteurs (tels que trop
ou trop peu de temps)
(cf. section 4.2).
Une fraude non traite
signifiera que les scores
ne sont pas
reprsentatifs des
capacits du candidat.
Certaines parties du
construit napparaissent
pas suffisamment dans
le matriel de test. Cela
signifie que les rsultats
napporteront pas
dinformation pertinente
sur ce que le candidat
est capable de faire.
du score (gnralement
une preuve statistique),
montre que la version du
test donne une mesure
cohrente de la
performance du
candidat (cf. sections 1.3
et 5.1, et annexe VII).
Si les donnes de
quelques candidats ont
t analyses, ces
donnes sont
reprsentatives de
lensemble des candidats
(cf. annexe VII).
Les points de csure qui
ont de bas niveaux
derreur indiqueront que
les candidats sont
vraisemblablement
placs du ct correct de
52
Preuve contre
53
Si aucune procdure
standard ni aucune rgle
nont t suivies pour
prendre des dcisions, le
test peut tre utilis de
faon inapproprie (cf.
sections 1.5 et 5.3).
Planifier
Planifier
Planifier
Groupes impliqus
Candidats
Enseignants
Ecoles
Administrateurs
Editeurs
Experts
Autorits ducatives
Employeurs
Exprimenter
Concevoir
Groupes impliqus
Personnel dencadrement
Spcialistes des tests
Personnel de gestion
IT
Chercheurs
Psychomtriciens
Personnel oprationnel
Personnel commercial
Recueil dinformations
Consquences
Consultations
Questionnaires
Sminaires
Besoins pralables
Considrations et
contraintes
Construct du test
Utilit du test
Caractristiques techniques
Procdures
Standards requis
Consquences
Premire bauche des
spcifications
Commission
Prtest et recherche
Analyse
Rvision
Conclusions
Modifications des
spcifications
Documentation
Spcifications
Rglementations
Echanciers
Manuels
Echantillons de matriel
Echantillons de rponses
(tches de production
crite ou orale)
Considrations et
contraintes
Site Internet
Courriels
Version imprime
Vidos / DVD
Fichiers lectroniques
54
Consquences
Candidats
Enseignants
Chefs dtablissements
Personnel administratif
Editeurs
Experts
Employeurs
Autorits ducatives
Ministres
Format
Comprhension Partie 1
crite
1 heure
Partie 2
Partie 3
Partie 4
Partie 5
Production
crite
Partie 1
45 minutes
Partie 2
Comprhension Partie 1
orale
40 minutes
Partie 2
Partie 3
Production
orale
Partie 1
Nombre
de
questions
Objectif
Une
prsentation
par candidat
6
15
12
1 tche
obligatoire
1 tche
obligatoire
12
10
8
Plusieurs
14 minutes
Partie 2
Partie 3
55
Comprhension gnrale et
recherche dinformations spcifiques.
Lexique et structure.
Plusieurs
Nombre de questions
Type de tches
Type de textes
Longueur des textes
Format des rponses
Note
56
57
types ditems (par exemple ceux de grammaire et de vocabulaire). Lorsquil rdige du matriel de comprhension orale, il
doit couter les passages de faon rdiger les items partir de lenregistrement et non de sa transcription.
De nombreux rdacteurs ditems trouvent utile de tester les tches conues auprs dun collgue ou dun ami non impliqus
dans lvaluation en langues. Cela peut aider reprer des fautes de frappe, des consignes peu claires, des cls errones, des
items pour lesquels la rponse est trs difficile ou bien qui comportent plus dune rponse correcte.
Les SPECIFICATIONS doivent proposer des listes de contrle que le rdacteur ditem peut utiliser pour vrifier le texte, les
items et la tche dans son ensemble, avant de les soumettre. La liste de contrle de la tche de closure modifie est donne
ci-dessous titre dexemple. Si le texte, les items et la tche conviennent, le rdacteur doit pouvoir rpondre oui
chacune des questions suivantes.
texte
Le thme du texte est-il accessible / culturellement acceptable, etc. ?
Le texte est-il dbarrass de tout contenu indlicat ?
Le texte est-il au bon niveau de difficult ?
Le texte est-il appropri pour une tche centre sur les structures ?
Le texte est-il suffisamment long pour quon puisse rdiger 16 items ?
Le texte comporte-t-il un titre appropri ?
Items
Le nombre ditems demands a-t-il t pris en compte ?
Les items sont-ils bien rpartis dans le texte ?
A-t-on pris en compte une gamme suffisante de langage ?
A-t-on vrifi que tous les items mettent laccent sur les structures ?
A-t-on vrifi que les items ne sont pas interdpendants ?
A-t-on ajout un ou deux items supplmentaires ?
Est-ce que les items idiosyncratiques ont t vits ?
Sujet et cl
Est-ce que les intituls ont t vrifis ?
Est-ce quun exemple a t donn ?
Est-ce que toutes les cls ont t fournies sur une feuille part ?
Avant de soumettre leur matriel, les rdacteurs ditems doivent vrifier quils en ont bien gard une copie. Si les originaux
des textes ont t fournis, le rdacteur ditems doit en garder une photocopie sur laquelle il aura report les dtails de la
source originale.
58
Exemple 0
Marta : Salut, Josh ! Cest chouette de te voir ! Ctait comment, tes vacances ?
Josh : 0 ___________________________.E
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
rponse
A
B
C
D
E
F
G
H
59
60
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
rponse
B
C
D
E
F
G
H
61
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
rponse
B
C
D
E
F
G
H
62
63
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
Josh :
Marta :
rponse
B
C
D
E
F
G
H
64
1
2
3
4
5
Moyenne
Eliminer les ventuelles doubles cls a galement t abord dans cette runion. Le tableau ci-dessous montre la ventilation
des rponses des candidats avec lanalyse statistique Classique. Exemple : pour litem 2, 20 % du groupe faible a choisi F et
pour litem 4, 50 % du groupe faible a fait le choix D. Ces choix ont fait lobjet dun nouvel examen pour voir sils pouvaient
tre des rponses possibles pour les items 2 et 4. Par exemple, F ne peut pas tre la cl de litem 2 parce que les , dans
Je te les montrerai ne se rfre rien. D est exclu comme cl pour litem 4 cause de Oui .
Statistiques classiques
Autres statistiques
N de
litem
Rang
de
litem
Proportion
de rponses
correctes
Indice de
discrimination
Point
bisrial
Choix
Proportion
totale
1-13
.73
.41
.40
A
B
C
D
E
F
G
H
Autre
.07
.07
.09
.01
.01
.01
.02
.73
.00
.15
.15
.11
.00
.00
.00
.02
.57
.00
.00
.00
.02
.00
.00
.00
.00
.98
.00
-.24
-.27
-.13
-.04
-.06
.05
-.04
.40
A
B
C
D
E
F
G
H
Autre
.76
.04
.05
.03
.03
.07
.00
.02
.00
.57
.07
.07
.04
.04
.20
.00
.02
.00
.98
.00
.00
.00
.00
.02
.00
.00
.00
.36
-.08
-.11
-.06
-.15
-.30
A
B
C
D
E
F
G
H
Autre
.02
.03
.07
.03
.04
.76
.04
.01
.01
.00
.00
.15
.09
.11
.50
.11
.02
.00
.00
.00
.04
.02
.00
.91
.02
.00
.00
.00
-.02
-.15
-.16
-.21
38
-.18
-.15
.08
1-14
1-15
.76
.76
.41
.41
.36
.38
65
Bonnes rponses
Groupe
Groupe
faible
fort
Point
bisrial
Cl
-.04
1-16
1-17
.58
.41
.56
.60
45
.50
66
A
B
C
D
E
F
G
H
Autre
.01
.58
.02
.29
.01
.00
.10
.00
.00
.00
.28
.00
.50
.02
.00
.20
.00
.00
.00
.84
.04
.07
.00
.00
.04
.00
.00
.01
.45
.12
-.37
-.04
A
B
C
D
E
F
G
H
Autre
.02
.07
.10
.41
.17
.06
.07
.09
.00
.02
.09
.07
.13
.35
.09
.11
.15
.00
.00
.07
.07
.73
.02
.07
.04
.00
.00
-.01
-.06
-.05
.50
-.33
-.04
-.06
-.22
-.22
67
Le temps imparti tait-il suffisant pour faire le travail demand ? (Combien de temps supplmentaire aurait t
ncessaire ?)
Avez-vous eu des problmes de comprhension de vocabulaire ? (Veuillez relever les mots/expressions qui ont pos
problme)
Avez-vous suivi sans problme le fil des ides et largumentation des auteurs des textes ? (Facilement/Avec
difficilement/Trs difficilement)
Le thme propos vous tait-il familier ? (Trs familier/Assez familier/Pas trs familier/Pas du tout familier)
Quand pensez-vous passer le test rel (si vous avez lintention de le passer)
Avez-vous dautres commentaires faire ?
68
Les donnes
La plupart des logiciels danalyse classique utilisent des donnes qui se prsentent plus ou moins sous la forme de la figure
18. On peut saisir les donnes avec nimporte quelle application de processeur de mots, mais il faut alors :
utiliser une police espacement fixe tel que Courrier,
ne pas utiliser de tabulations,
sauvegarder le dossier au format dun texte simple (txt)
Identit de
la personne
Personnes
69
Nous proposons ci-dessous quelques indications considres comme des valeurs acceptables pour certaines de ces analyses.
Elles ne doivent pas tre considres comme des rgles absolues car en pratique les valeurs gnralement observes
dpendent du contexte. Les analyses statistiques classiques ont plus de poids quand elles comportent:
un nombre plus important ditems dans un test,
plus de candidats se prsentant au test,
un ventail plus large de comptences dans le groupe qui passe le test.
Et rciproquement, elles ont moins de poids quand elles portent sur peu ditems ou de candidats ou un ventail peu large de
comptences.
La figure 19 montre des exemples danalyses statistiques ditems utilisant des logiciels danalyses ditems MicroCat (voir les
logiciels pour les analyses statistiques ci-dessous). Il sagit l des analyses de trois items.
Statistiques classiques
Autres statistiques
N de
litem
Rang
de
litem
Proportion
de rponses
correctes
Indice de
discrimination
Point
bisrial
Choix
Proportion
totale
1-1
.38
.52
.48
A
B
C
D
Autre
A
B
C
D
Autre
A
B
Autre
.00
.38
.12
.49
.01
.07
.11
.10
.71
.01
.93
.07
.01
1-2
1-3
.71
.93
.42
.19
.42
.39
70
Bonnes rponses
Groupe
Groupe
faible
fort
.00
.13
.11
.74
.00
.11
.18
.16
.53
.00
.81
.18
.00
.00
.66
.12
.23
.00
.01
.04
.00
.95
.00
.00
.00
.00
Point
bisrial
Cl
.48
-.01
-.44
-.16
-.22
-.22
.42
.39
-.39
-.03
Facilit
Lindice de facilit est la proportion de rponses correctes (proportion de rponses correctes dans la figure 9). Il montre la
facilit de litem en question pour ce groupe de candidats. La valeur se situe entre 0 et 1, un chiffre lev correspondant un
item facile. La figure 19 montre que litem 1 est le plus difficile et litem 3 le plus facile.
Lindice de facilit est la premire donne statistique consulter, car si le chiffre est trop lev ou trop bas (par exemple non
inclus dans lventail 0.25 -0.80%), cela signifie que lestimation des autres donnes statistiques nest pas correcte et que les
informations sur ce groupe de candidats ne sont pas fiables.
Sil reprsente la population du test rel, on en conclura que litem est tout simplement trop facile ou trop difficile. Si nous ne
sommes pas srs du niveau des candidats, il se peut alors que litem soit bon mais que le groupe ne soit pas au bon niveau.
La conclusion tirer est quil faut toujours faire passer le prtest des candidats qui ont en gros le mme niveau que celui
des candidats qui passeront le test rel.
Discrimination
Les bons items doivent pouvoir distinguer un candidat faible dun candidat fort. La thorie classique des tests propose deux
indices : lindice de DISCRIMINATION et le point bisrial de CORRELATION (Disc.Index et Point Biser dans la figure 19).
Lindice de discrimination est une simple donne statistique : cest la diffrence entre la proportion de rponses correctes
obtenues par les candidats ayant les meilleurs rsultats et celle obtenue par les candidats ayant les moins bons rsultats (en
gnral le tiers suprieur et infrieur des candidats). Les donnes de la figure 19 figurent dans les colonnes bas (low) et
haut (high) .Pour litem 1, la diffrence entre le groupe fort et faible est de 0.66-0.13. Cest la valeur de lindice de
discrimination (dans le cadre de lerreur due larrondissement).
Un item trs discriminant a un indice de discrimination proche de +1, indiquant que les candidats les plus forts rpondent
correctement litem alors que les plus faibles se trompent.
Si lindice de facilit est trs lev ou trs bas, les groupes faibles et forts auront de bons rsultats (ou des rsultats mauvais).
Lindice sous- estimera alors la discrimination. LItem 3 en est une illustration : 1.00-0.81 = 0.19, cest--dire une valeur basse.
Le point bisrial suppose un calcul plus complexe que lindice de discrimination et est plus robuste que lindice de facilit. Il
sagit dune corrlation entre les rsultats des candidats un item (1 ou 0) et la totalit du test.
On considre quen gnral les items qui ont une corrlation de point bisrial suprieure 0.30 sont acceptables. Un point
bisrial ngatif signifie que les candidats forts sont susceptibles de ne pas rpondre correctement litem. Dans ce cas, soit
un des distracteurs est la rponse correcte, soit la cl est fausse.
71
ces deux parties. Si on utilise cette mthode, il est important que les deux parties soient aussi quivalentes que possible:
quivalence du construit dans toute son tendue , quivalence de difficult, etc.
Dautres mthodes consistent mesurer la consistance interne du test. Elles fonctionnent bien condition que le type
ditems et le contenu soient similaires. Par contre, si les items sont htrognes, la fidlit sera sous-estime.
Pour les analyses classiques:
Nombre de candidats : 50 80 (Jones, Smith et Talley 2006:495)
Pour plus ample information : Verhelst (2004a,b); Bachman (2004)
Lanalyse de Rasch
Lanalyse de Rasch est la forme la plus simple et pratique de la THEORIE DE REPONSE A LITEM ou TRI. Cette analyse permet
dune part de mieux comprendre ce quest la difficult de litem que par lanalyse classique et a dautre part des applications
supplmentaires telles que les faons de relier les tests entre eux.
Avec lanalyse de Rasch :
la diffrence exacte de difficult entre deux items est claire car les items sont placs sur une ECHELLE DINTERVALLE
mesure en logits (appele aussi chelle logit ),
la diffrence entre les items, les candidats, les rsultats au test et les points de csure peut tre interprte de la
mme faon dans la mesure o toutes ces donnes sont sur une mme chelle,
la difficult de litem peut tre interprte indpendamment des capacits du candidat (alors quavec lanalyse
classique, selon le niveau du groupe de candidats, un item peut paratre plus facile ou plus difficile).
Lanalyse de Rasch est donc trs utile pour contrler et maintenir des standards dune session lautre. Cependant, si on veut
utiliser Rasch dans ce but, les items des diffrents tests doivent tre relis entre eux. Par exemple, deux tests peuvent tre
relis entre eux de diffrentes faons :
les mmes items sont utiliss dans les deux tests,
un groupe DITEMS ANCRES est utilis dans les deux tests,
quelques items ou tous les items sont CALIBRES avant dtre utiliss dans les tests rels (voir 3.4.2 le prtest),
certains candidats passent les deux tests.
Quand les donnes des deux tests sont analyses, le lien cr permet davoir un seul cadre de rfrence pour tous les items,
tous les candidats, etc. et des valeurs de difficult calibres sont attribues aux items. Dautres tests peuvent tre ajouts au
cadre de rfrence en utilisant la mme procdure.
Les standards peuvent tre contrls en comparant la position respective des lments importants :
72
Lvaluation
La performance des valuateurs peut tre value statistiquement de faon trs simple en calculant la moyenne de leurs
valuations et LECART TYPE(une mesure de la dispersion de leurs valuations, de la plus basse la plus haute). Les
valuateurs peuvent tre compars les uns aux autres et une recherche peut tre faite sur les valuations dun correcteur
dont la mesure diffrerait de celles des autres. Cela suppose que les preuves du test soient distribues de faon alatoire. Si
ce nest pas le cas, un valuateur peut trs bien valuer des candidats qui sont dhabitude meilleurs ou moins bons que la
moyenne. Dans ce cas la moyenne risque dtre plus leve ou moins leve que les autres valuateurs, mais cela ne remet
pas en question la comptence de lvaluateur.
Si certaines tches peuvent tre values par deux valuateurs, la fidlit de ces notes peut tre value. On peut le faire par
exemple avec Excel en utilisant la fonction de corrlation de Pearson. Les donnes peuvent tre prsentes de la faon
suivante:
Candidat 1
Candidat 2
Candidat 3
Evaluateur 1
5
3
4
Evaluateur 2
4
4
5
Le coefficient de corrlation sera entre -1 et 1. Dans la plupart des cas, un nombre infrieur 0,8 est suspect et demande
vrification. Car il suppose que lvaluateur na pas valu de faon cohrente.
Une estimation de fidlit comme celle produite par lAlpha de MicroCat (se rfrer aux logiciels pour les analyses
statistiques mentionns ci-dessous) peut tre calcule pour tout le groupe dvaluateurs. Les donnes peuvent tre
prsentes comme dans la figure 18, avec quelques modifications, chaque range pouvant indiquer les performances dun
candidat une tche; et les colonnes les notes des valuateurs.
73
Rasch. La MFRM peut tre mene en utilisant le logiciel Facets (Linacre 2009). Lanalyse mesure, comme avec lanalyse de
Rasch, la difficult des tches et les capacits des candidats, mais elle peut aussi valuer la svrit ou le laxisme des
valuateurs. De plus, les notes attribues sont plus prcises dans la mesure o les effets dus la svrit ou au laxisme sont
supprims.
Quand on utilise la mesure tablie avec un modle de Rasch multi facettes, il est trs important de sassurer que les donnes
comprennent les liens entre les valuateurs, les candidats, les tches et les autres facettes mesures. Il est par exemple
ncessaire que des candidats accomplissent plus quune tche afin dtablir un lien entre les tches. Si les donnes sont
groups sans lien entre elles, la mesure tablie avec le modle de Rasch multi facettes ne pourra pas fournir des estimations
pour tous les lments.
Pour la mesure tablie avec un modle de Rasch multi facettes :
Nombre minimum de performances : 30 pour chaque tche devant tre value (Linacre 2009)
Nombre minimum dvaluations par valuateur : 30 (Linacre 2009)
Pour plus ample information : Eckes (2009).
Validation du construit
Vrification de la structure du test
Lanalyse factorielle ou les modles dquations structurelles permettent de vrifier si les items appliquent le construit prvu.
La structure du test doit reflter le modle dusage de la langue qui a t choisi. (voir partie 1.1). Lanalyse factorielle est trs
utile lors des tapes dlaboration du test, car elle permet de vrifier que le test ou les spcifications fonctionnent comme
prvu.
Pour les analyses factorielles:
Nombre minimum de candidats : 200 (Jones, Smith and Talley 2006:495)
Pour plus ample information : Verhelst (2004c)
74
Pour le Fonctionnement diffrentiel des items (Differential Item Functioning - DIF) avec lanalyse de Rasch
Nombre minimum de candidats : 500 dont au minimum 100 par groupe(Jones, Smith and Talley 2006:495)
Pour plus ample information : Camilli et Shepard (1994); Clauser et Mazor (1998)Verhelst (2004c)
http://www.assess.com/softwarebooks.php
http://lertap.curtin.edu.au/index.htm
RUMM Laboratory
http://www.rummlab.com.au/
Winsteps
http://www.winsteps.com/index.htm
http://psych.colorado.edu/~bonk/
75
Analyse d'items
Description de la performance des items de tests individuels, employant gnralement des indices statistiques classiques tels
que la facilit ou la discrimination. On utilise pour cette analyse des logiciels tels que MicroCAT Iteman.
Argument interprtatif
Voir Argumentaire pour les utilisations de lexamen
Argument de validit
Ensemble de propositions et de preuves qui ont pour but de soutenir la validit des interprtations des rsultats du test.
Authenticit
Degr de ressemblance des tches avec celles de la vie quotidienne. Par exemple, la prise de notes dans un test mesurant la
comptence dans le domaine ducationnel plutt que la simple coute dun document. Voir aussi Utilit dun test.
Banque d'items
Gestion des items qui permet de stocker des informations afin de pouvoir laborer des tests aux contenu et difficults connus.
Barme de notation
Liste de toutes les rponses acceptables aux items d'un test. Le barme permet au correcteur d'accorder la note approprie.
Calibrage
Dtermination de l'chelle pour un ou plusieurs tests. Le calibrage peut impliquer des items d'ancrage de diffrents tests sur une
chelle de difficult commune (chelle thta). Quand un test est labor partir d'items calibrs, les notes, en fonction de leur
localisation sur l'chelle thta, indiquent la capacit du candidat.
Calibrer
Dans la thorie item-rponse: estimer la difficult d'un ensemble de questions.
Classement
Conversion des notes obtenues en niveaux.
Cl
a) Choix correct dans un item choix multiple ( voir: item choix multiple)
76
Composante
Partie d'un examen souvent prsente comme un test part entire, comportant un livret de consignes et une limite de temps.
Les composantes sont souvent des preuves bases sur les aptitudes langagires telles que la comprhension ou la production
orale. Egalement appel sous-test..
Consigne
Instructions donnes aux candidats afin de les guider dans leurs rponses une tche prcise.
Construit
Capacit hypothtique ou trait mental qui ne peut pas tre observ ou mesur, comme par exemple dans lvaluation, la
capacit de comprhension orale.
Correcteur
Personne qui attribue une note ou un classement aux rponses d'un candidat un test. Cette activit peut demander un
jugement dexpert ou, dans le cas d'une notation mcanique, la simple application d'un barme de notation.
Corrlation
Relation entre deux ou plusieurs mesures, en tenant compte du fait quelles peuvent varier de la mme faon. Si, par exemple,
les rsultats de candidats sont les mmes dans des tests diffrents, il existe une corrlation positive entre les deux ensembles de
rsultats.
Dclencheur
Support graphique ou crit qui permet d'obtenir une rponse du candidat dans les tests de production orale ou crite.
Descripteur
Brve description accompagnant un graphique en bande sur une chelle de notation. Elle rsume le degr de comptence ou le
type de performance attendue pour qu'un candidat atteigne une note prcise.
Ecart type
Lcart type est la mesure de la dispersion des rsultats un test (ou la distribution dautres donnes). Si la distribution des
rsultats est normale, 68% dentre eux sont compris dans la 1 ET de la moyenne et 95% dans la 2 ET. Plus lcart type est lev
et plus il est loign de la majorit des donnes.
Discrimination
Le fait qu'un item puisse tablir une distinction entre des candidats en les classant selon un degr allant du plus faible au plus
fort. On utilise plusieurs indices de discrimination. Voir lannexe VII pour plus de renseignements.
77
Double notation
Mthode d'valuation o la performance du candidat est valide de faon indpendante par deux personnes.
Echelle
Ensemble de nombres ou de catgories destins mesurer quelque chose. On distingue quatre sortes dchelles: chelle
nominale, ordinale, d'intervalle et de rapport.
Echelle de mesure
Une chelle de mesure est une chelle compose de nombres qui mesurent la diffrence entre les candidats, les items, les
points de csure, etc. sur le construit du test. On labore une chelle de mesure en appliquant des techniques statistiques des
rponses des candidats des items. (cf. annexe VII). Lchelle de mesure fournit bien plus dinformations que des rsultats
bruts dans la mesure o elle ne montre pas seulement quels candidats sont meilleurs que tels autres mais aussi quel est de
combien ils sont meilleurs. On utilise parfois les termes dchelles nominales et ordinales pour dsigner des chelles de mesure
mais ces dfinitions nont pas t retenues dans ce Manuel
Echelle dintervalle
Echelle de mesure dans laquelle la distance entre deux units adjacentes de mesure est la mme, mais dans laquelle il ny a pas
de points zro absolus.
Elaboration de test
Action de slectionner des items ou des tches en vue de la production d'un test. Souvent prcde du pr-testage ou de
l'exprimentation du matriel. Les tches ou les items ncessaires l'laboration du test peuvent tre slectionns dans une
banque ditems.
Elaborateur de test
Personne implique dans llaboration dun test nouveau
Enjeux
Degr dimportance que peut avoir les rsultats dun test sur lavenir dun candidat. On parle gnralement de test fort ou
faible enjeu, un test fort enjeu ayant un impact plus grand.
Etendue
Ltendue est une mesure simple de la dispersion : cest la diffrence entre le nombre le plus lev et le plus bas dans un
groupe.
78
Exprimentation
Etape de l'laboration des tches d'un test servant vrifier que le test fonctionne de la faon attendue. Souvent utilise dans le
cas de tches notation subjective telles que la composition ou l'essai et administre une population limite.
Evaluateur.
Personne charge de noter, de faon subjective, la performance du candidat un test donn. Les valuateurs sont
gnralement qualifis dans leur domaine. On attend d'eux qu'ils se soumettent un processus de formation et de
standardisation. l'oral, on distingue parfois les rles d'examinateur et d'interlocuteur.
Faisabilit
Degr dlaboration dun test rpondant des exigences dordre pratique. Voir aussi Utilit dun test.
Fidlit
Uniformit, constance ou stabilit des mesures. Plus un test est fidle, moins il contient d'erreurs accidentelles. Un test
prsentant une erreur systmatique, par exemple une distorsion qui dsavantagerait certains groupes, peut tre fidle mais pas
valide.
Impact
Effet produit par un examen, la fois en termes d'influence sur le processus ducatif en gnral et pour les individus intresss
par les rsultats de cet examen.
Indice de facilit
Proportions de rponses correctes un item, transcrites sur une chelle de 0 1. Egalement exprim sous forme de
pourcentage. Aussi considr comme la proportion correcte, lindice de facilit ou la valeur-p.
Input
Composantes de la tche fournies au candidat afin quil puisse produire une rponse adquate. Par exemple, dans un test de
comprhension orale, il peut sagir dun test enregistr et des items auxquels il doit rpondre par crit.
Interactivit
Degr auquel des items et des tches font appel des processus et des stratgies cognitifs sapprochant de ceux de la vie
quotidienne. Voir aussi Utilit du test.
Item
Chaque point particulier d'un test auquel on attribue une ou plusieurs notes spares. Exemples: un "blanc" dans un test de
closure, une des questions dans un questionnaire choix multiple quatre options, une phrase donne pour une
transformation grammaticale, une question dont la rponse attendue est une phrase complte.
79
Item ancre
Item inclus dans un ou plusieurs tests. Les caractristiques de ces items ancres sont connues. Ils forment une partie de la
nouvelle version dun test. Lobjectif est de fournir des informations sur le test et les candidats qui lont pass afin, par exemple,
de calibrer un nouveau test sur lchelle de mesure.
Item discret
Item contenant en lui-mme tous les lments de la question. Il n'est li ni un texte, ni d'autres items, ni un quelconque
matriel complmentaire.
Item dichotomique
Item qui est not vrai ou faux. Les items sous forme de questions choix multiple(QCM), vrai/faux, questions rponses courtes
(QRC) sont des items dichotomiques.
Logit
Le logit est lunit de mesure utilise dans les analyses du modle de Rasch (TRI) et le modle multi facet de Rasch (MFRM).
Mise en relation
La mise en relation est une procdure qui traduit les rsultats dun test pour quils puissent tre compris en relation avec les
rsultats dun autre test. Cette procdure permet de compenser les diffrences de difficult dun test ou de capacit des
candidats.
Modle de Rasch
Modle mathmatique, connu galement comme le modle de la logistique simple, qui postule qu'il existe une relation entre la
probabilit qu'un individu ralise une tche et la diffrence entre la capacit de l'individu et la difficult de la tche. Equivalant
mathmatiquement au modle paramtre unique dans la thorie de l'item rponse.
Modle concordant
Quand un modle (comme le modle de Rasch) est utilis pour des analyses statistiques, il est important de voir jusqu quel
point les donnes et le modle sont en concordance. Un modle reprsente un ce que des donnes devraient tre dans lidal
et on ne peut donc sattendre une concordance parfaite. Par contre un degr lev de discordance signifie que les conclusions
tires des donnes sont fausses.
80
Moyenne
La moyenne est la mesure de la tendance centrale. On obtient la note moyenne un test en additionnant toutes les notes
obtenues et en divisant ce total par le nombre de notes.
Niveau
La note obtenue un test peut tre communique au candidat sous forme de niveau, par exemple sur une chelle de A E, o A
reprsente le niveau le plus lev, B un bon niveau, C un niveau passable et D et E des niveaux insuffisants.
Notation
Attribution d'une note aux rponses d'un candidat un test. Cette activit peut demander un jugement professionnel ou
l'application d'un barme o sont indiques toutes les rponses acceptables.
Notation objective
Items qui peuvent tre nots en appliquant un barme sans lapport de point de vue ou de jugement subjectif dexpert.
Notation subjective
Items o le point de vue ou le jugement subjectif dexpert intervient dans la notation.
Pilotage
Exprimentation du matriel sur une petite chelle en demandant par exemple aux collgues de rpondre aux items et de faire
des commentaires.
81
tche n 1 d'un test, la tche n 1 sera proportionnellement plus importante que les autres tches dans le total des points
obtenus.
Question
Terme parfois utilis pour dsigner une tche ou un item.
Registre
Diffrentes varits de langue correspondant des activits particulires ou un formalisme plus ou moins grand.
Rponse
Comportement du candidat manifest par les entres donnes dans un test. Par exemple, la rponse donne un item choix
multiple ou le travail produit dans un test de production crite.
Script
Feuille contenant les rponses du candidat un test, dans les tches de type rponse ouverte.
Score brut
Rsultat du test qui na pas donn lieu des analyses statistiques supposant des transformations, des pondrations ou des
reclassements.
Spcification
Description des caractristiques d'un examen indiquant ce qui est test, de quelle faon, ainsi que le nombre et la longueur des
preuves, les types d'items utiliss, etc.
Surveillant
Personne qui est responsable de la bonne passation de lexamen dans une salle dexamen.
82
Tche
Ce quun candidat doit faire pour accomplir une partie du test et qui suppose plus de complexit quune rponse un seul item
discret. Le terme concerne en gnral des performances de production orale ou crite ou un ensemble ditems lis entre eux
comme par exemple un texte accompagn de questions choix multiple auxquelles on peut rpondre en suivant une seule
consigne.
Tche dappariement :
Type de tche consistant comparer des lments de deux lites distinctes. Un type de test dappariement consiste choisir la
phrase correcte pour complter chacune des phrases incompltes. Un autre exemple est celui qui est utilis dans les tests de
comprhension crite et qui consiste choisir dans une liste des vacances ou un livre convenant une personne aux
caractristiques correspondantes.
Trait
Caractristiques physiques ou psychiques dune personne (comme les capacits langagires) ou lchelle de mesure qui permet
de les dcrire. Voir aussi construit.
Validation
Le processus qui consiste tablir la validit des interprtations des rsultats proposs par le fournisseur de test.
Validit
Degr auquel les interprtations des rsultats d'un test permettent de tirer des conclusions appropries, significatives et utiles,
en relation avec l'objet du test.
83
Remerciements
Ce Manuel est une version actualise dune version publie par le Conseil de lEurope en 2002 intitule Passation et
laboration de tests et dexamens de langue . Ce document tait lui-mme une version actualise du Guide pour les
examinateurs conu par ALTE pour le Conseil de lEurope en 1996.
Le Conseil de lEurope tient remercier pour sa contribution :
Lassociation des centres valuateurs en Europe (ALTE)
Lquipe responsable de ldition de cette nouvelle version:
David Corkill
Neil Jones
Martin Nuttall
Michael Corrigan
Michael Milanovic
Nick Saville
Les membres du groupe objectifs spcifiques (ALTE/CECRL) ainsi que leurs collgues ayant propos des documents et
particip la relecture des textes :
Elena Archbold-Bacalis
Sharon Ashton
Andrew Balch
Hugh Bateman
Lyan Bekkers
Nick Beresford-Knox
Cris Betts
Margherita Bianchi
Inmaculada Borrego
Jasminka Buljan Culej
Cecilie Carlsen
Lucy Chambers
Denise Clarke
Mara Cuquejo
Emyr Davies
Desislava Dimitrova
Angela ffrench
Colin Finnerty
Anne Gallagher
Jon-Simon Gartzia
Annie Giannakopoulou
Begona Gonzalez Rei
Giuliana Grego Bolli
Milena Grigorova
Ines Haelbig
Berit Halvorsen
Marita Harmala
Sibylle Plassmann
Laura Puigdomenech
Meilute Ramoniene
Ldia Rhov
Shelagh Rixon
Martin Robinson
Lorenzo Rocca
Shalini Roppe
Dittany Rose
Angeliki Salamoura
Lisbeth Salomonsen
Georgio Silfer
Gabriela Snaidaufov
Ioana Sonea
Annika Spolin
Stefanie Steiner
Michaela Stoffers
Gunlog Sundberg
Lynda Taylor
Julia Todorinova
Rnnaug Katharina Totland
Gerald Tucker
Piet van Avermaet
Mart van der Zanden
Juliet Wilson
Beate Zeidler
Ron Zeronis
Martina Huleov
Nuria Jornet
Marion Kavallieros
Gabriele Kecker
Kevin Kempe
Wassilios Klein
Mara Kokina
Zsofia Korody
Henk Kuijper
Gad Lim
Juvana Llorian
Karen Lund
Lucia Luyten
Hugh Moss
Tatiana Nesterova
Desmond Nicholson
Gitte stergaard Nielsen
Irene Papalouca
Szilvia Papp
Francesca Parizzi
Jose Ramn Parrondo
Jose Pascoal
Roberto Perez Elorza
Michaela Perlmann-Balme
Tatiana Perova
Johanna Panthier
Brian North
Sauli Takala
Gary White
84
LAssociation des organismes certificateurs en Europe (ALTE), en tant quOrganisation internationale non-gouvernementale
(INGO) ayant un statut consultatif au sein du Conseil de lEurope, a contribu aux ressources composant la bote outils, y
incluant le Portfolio europen des langues (PEL) dEAQUALS/ALTE ainsi que les grilles danalyses de contenus du CECR pour la
production orale et crite.
En accord avec la Division des politiques linguistiques du Conseil de lEurope, ALTE tient ce que les utilisateurs de la bote
outils se servent efficacement du Cadre dans leur propre contexte et afin de satisfaire leurs propres objectifs.
Produit par:
Association of language testers in Europe
1 Hills Road,
Cambridge CB1 2EU
Royaume Uni
www.alte.org
Au nom du :
Conseil de lEurope
85