La docimologie est née à Paris il y a un siècle1. Il s'agissait d'appliquer aux évaluations traditionnelles de l'enseignement, s'il se trouve sous forme de question à choix multiple (qcm), les méthodes de l'analyse statistique (calcul de la moyenne, de l'écart-type, de la discriminance). L'analyse des comportements en situation d'apprentissage a été poussée plus loin2, jusqu'au «sur mesure». On ne se contente plus d'indices statistiques globaux3 ni de rangs d'après le nombre des «bonnes réponses» sans plus. Une courbe logistique4 tient compte de l'habileté de chaque répondant. L'édumétrie succède à la docimologie. La courbe logistique5 dessine et mesure un «moment pédagogique», qui est le niveau d'apprentissage6. Le point mesuré est le moment où 50% du groupe passe de l'ignorance au savoir. Ainsi est précisé un degré d'habileté auquel sont maximales les chances d'acquérir un élément microgradué de connaissance (disons le sens nouveau d'un terme, ou la pénétration inconsciente d'un calque: le «alors que» accepté par le Robert comme équivalent de «when» et non plus comme adversatif).
Dans les groupes où il trouve des répondants, tout distracteur devient représentatif d'un stade de connaisance, même embryonnaire. Il reçoit alors un niveau dont la formulation mathématique permet de tracer la courbe. Cette «strate de compétence» dessine sur le graphe du groupe tout entier la zone où se situent, en qualité et quantité, ses répondants. Avec plus ou moins de vigueur suivant sa «sélectivité»7, elle décèle un niveau d'habileté, un degré de connaissance du français écrit. De l'ensemble des réponses dépend le calcul de chaque indice8. Même une réponse moins bonne a un niveau qui est celui de l'habileté globale de ceux et celles qui l'ont choisie.
Les indices ainsi calculés pour les réponses apportées effectivement varient selon les connaissances présentes des individus de chaque groupe. Leur habileté individuelle est mesurée en fonction de ces réponses avec une échelle de valeurs qui est tout simplement le nombre des bonnes réponses de chacun. Or c'est l'enseignant, représentant de l'institution scientifique et de ses fluctuations, qui établit quel distracteur doit être la bonne réponse. Mais maintenant, puisque chaque distracteur a reçu un niveau, il devient possible de renvoyer la balle et de mesurer, non plus le niveau des distracteurs, mais cette fois celui de chaque étudiant, à partir du niveau de chacune de ses réponses. On obtient ainsi une évaluation plus juste puisque même les «mauvaises» réponses y ont contribué, pour peu qu'elles eussent quelque chose de bon (qui vient d'être mesuré).
Tel est le premier résultat intéressant d'une pondération édumétrique des distracteurs. Ce n'est pas le seul. Les nouvelles habiletés, pondérées en fonction de la valeur de toute les réponses, ne vont-elle pas modifier à leur tour, si on reprend tous les calculs, la valeur des distracteurs? La balle est renvoyée à nouveau puisque c'était par l'habileté des répondants que les niveaux des distracteurs avaient été mesurés. Ils vont être remesurés, s'ajuster davantage. Et ainsi de suite. À chaque itération, quelques rangs changent, quelques distracteurs s'ajustent, des réponses jugées bonnes le deviennent moins et inversement. La clé de correction du professeur devient peu à peu celle du groupe, non pas globalement, par le grand nombre, en une fois, mais par la pondération édumétrique.
Ceux qui répondent au hasard ont des ensembles de réponses qui ne ressemblent à aucun autre et ne prouvent que leur peu de compétence mais ceux qui sont le plus souvent d'accord entre eux sont identifiés, reconnus comme les meilleurs, non plus sur l'échelle a priori des bonnes réponses prévues, mais sur une échelle qui se constitue progressivement à partir de celle-là, et qui donne aux distracteurs la valeur des habiletés mesurées de ceux qui les ont choisis. Les habiletés mesurées sur les réponses qui font converger les répondants donnent une échelle où les niveaux s'ajustent davantage encore. Le processus est poursuivi informatiquement, en reprenant depuis les données de base, la totalité des réponses, et en mesurant chaque fois le niveau des distracteurs sur la plus récente échelle obtenue. À chaque itération, on voit diminuer le nombre de modifications nécessaires. On rejoint progressivement la norme interne du groupe.
Les indices obtenus permettent ensuite de prioriser des points de langue qui renforcent le fonctionnement du système d'expression selon l'état de connaissance du groupe, de trier les qcm par niveau pour les attribuer à chacun dans un ordre de difficulté qui croît avec la compétence renforcée progressivement. On respecte ainsi les moments d'apprentissage mesurés. Sont aussi écartés du programme les points qui déstabilisent, comme trop difficiles, car ils ne peuvent que convaincre l'apprenant de son incapacité.
Loin d'être contestée, la langue soignée, académique, sort finalement renforcée, sur bien des points, par cette épreuve, en dépit d'une certaine démocratisation didactique. Les expérimentations ont presque partout démontré que la norme enseignée et pratiquée était la mieux partagée par les plus compétents, même loin de Paris. Dans le cas des règles les plus subtiles ou des nuances de sens impondérables, ces compétents deviennent sans doute de moins en moins nombreux. C'est ce qui élève le niveau de la qcm (son indice de difficulté). Le point de langue sera à réserver aux plus habiles, en attendant que l'habileté des autres se soit élevée, et qu'ils puissent à leur tour saisir aisément une subtilité.
On se doute aussi que, pour la pondération édumétrique, la représentativité de la «population» testée (sa conformité à un public cible) est essentielle, comme en toute statistique. Et l'enseignant voit sa tâche facilitée mais non diminuée. Il lui restera à interpréter les réactions, pour son groupe, à trouver les motifs des choix selon les strates, à envisager des hypothèses, à reformuler les règles en conformité avec ce qui se passe dans les esprits de ses élèves. Il a le privilège de recueillir leurs opinions.
Ce n'est pas le lieu d'en dire davantage mais ce simple aperçu sur les ressources de l'édumétrie introduit à une étude sur l'ensemble diversifié des données cueillies en francophonie9.
1. H. Laugier, H. Pieron, Mme H. Pieron, E. Toulouse, D. Weinberg, 1934,
« Études docimologiques sur le perfectionnement des examens et concours »,
Conservatoire national des arts et métiers, 88p.
2. Allan Birnbaum, 1962, « On the foundations of statistical inference »
Journal of American Statistical Association, vol 57, no 298, p 269-326.
Georg Rasch, 1981, « Probabilistic Models for Some Intelligence and Attainment
Tests », Univ. of Chicago, 199p.
3. Avec la forme de courbe «en cloche», caractéristique d'une
«distribution normale».
4. Frederic M. Lord et Melvin R. Novick, 1968, « Statistical Theories of
Mental Test Scores » Addison-Wesley, 568p.
5. Progression lente, rapide, puis de nouveau lente, «en S».
6. En unité d'écart-type, entre -3 et +3 sigmas.
7. La raideur de la courbe, la discriminance.
8. Les algorithmes et leur application informatisée sont l'oeuvre de
Norman W. Molhant.
9. Voir «Le français enseigné sur mesure.
Apprivoiser la langue,»
(http://cafe.edu/accueil/ordolit.pdf)
Conseil international de la langue française.
Copyrigth ©1998-2021 C.A.F.É.