Évaluation authentique

Depuis le début des années 2010, la docimologie marque une recrudescence d’intérêt pour le concept d’évaluation authentique. Dans la littérature spécialisée américaine, cette approche se retrouve sous les rubriques authentic assessment, authentic evaluation et performance based assessment.

Dans le cadre de ce bref travail, nous essaierons de définir ce qu’on entend par Évaluation authentique. Nous donnerons quelques exemples d’application dans la formation générale et la formation spécialisée. Nous soulèverons quelques problèmes associés à cette méthode d’évaluation. Finalement, nous illustrerons grâce à quelques cas précis comment la Direction générale de la formation professionnelle et technique du Québec utilise l’évaluation pratique pour certifier la compétence de ses étudiants. Ces évaluations pratiques s’approchent énormément de l’évaluation authentique préconisée par Grant Wiggins.

Définition du concept

Selon Grant Wiggins, un chercheur et un spécialiste en réformes scolaires :

« Assessment is authentic when it directly examines students performance on worthy intellectual tasks. Traditional assessment, by contrast, relies on indirect proxy items —efficient, simplistic substitutes from which we think valid inferences can be made about the student’s performance at those valued challenges. »

trad. : « l'évaluation est authentique lorsqu'elle examine directement les performances des étudiants sur des tâches intellectuelles utiles. L'évaluation traditionnelle, par comparaison, repose sur des éléments indirectement liés — des substituts efficaces et simplistes dont on pense pouvoir tirer des conclusions pertinentes à partir des performances de l'étudiant sur ces défis estimés. »

Selon lui, l’étudiant peut démontrer par l’évaluation authentique sa maîtrise des compétences en l’utilisant dans un cadre le plus réel possible. Les examens traditionnels ne sont que des moyens de montrer que l’étudiant se rappelle les éléments d’informations ou qu’il peut appliquer machinalement des techniques.

« Test validity should depend in part upon whether the test stimulates real-world tests of ability. Validity on most multiple-choice tests is determined merely by matching items to the curriculum content. »[1].

Trad. « La réussite des tests devrait dépendre en partie du fait de stimuler des capacités mises en œuvre dans le monde réel. La réussite à la plupart des questionnaires à choix multiples est plutôt déterminée par la capacité à faire correspondre des éléments au contenu du programme d'enseignement. »

Selon Janine Huot : une tâche basée sur la performance consiste en une activité qui requiert la démonstration par les apprenants de leurs aptitudes à intégrer et utiliser leur savoir, savoir-faire et jugement dans un contexte authentique. Une telle tâche possède une ou plusieurs caractéristiques suivantes :

elle exige l’utilisation de connaissances et d’habiletés dans un contexte représentant des situations ou problèmes réels :
elle permet de découvrir la démarche utilisée par les apprenants pour affronter une situation donnée, plutôt que de se limiter au résultat final :
elle fait appel à plusieurs résultats d’apprentissage ou compétences ;
elle exige l’utilisation d’aptitudes intellectuelles complexes ;
elle permet d’observer de multiples facettes de l’apprentissage ;
elle donne aux apprenants le choix des types de production pour exhiber ce qu’ils ont appris[2].

Quelques exemples d’application

Depuis très longtemps, l’évaluation authentique a été utilisée dans des domaines professionnels. On peut penser au droit et au notariat qui s’enseignaient par apprentissage et qui étaient évalués par un bureau d’examinateurs. Les armées américaine, britannique et canadienne se servent de l’évaluation authentique dans l’attribution des brevets d’officiers.

Exemple de l’École des aspirants officiers des Forces armées canadiennes

Dans le cours de l’École des aspirants officiers des Forces armées canadiennes, on utilise l’évaluation authentique pour vérifier les compétences en leadership. Un élève-officier reçoit l’ordre d’aller chercher deux rebelles de l’Armée de libération de l’Ontario sur une route située à plus de 15 kilomètres de la base militaire. Pour ce faire, il dirige une équipe de 6 soldats. On met à sa disposition un camion avec chauffeur et tout l’équipement militaire nécessaire. Durant toute l’opération, les actions de l’élève-officier sont examinées par un sergent ou un adjudant qui les évalue méthodiquement. On étudie la façon dont il planifie l’opération et la manière de passer les ordres à ses subalternes. On prépare une appréciation globale de toute l’opération. L’observateur n’interviendra que si la vie des participants est en jeu ou s’il y a des risques de destruction de matériel.

Afin de rendre l’opération plus réaliste, les rebelles peuvent opposer une résistance à leur arrestation ou un membre de l’équipe peut mourir subitement. L’évaluation des membres du corps médical se fait également par évaluation authentique. Au moment où l’interne se trouve au chevet d’un pseudo-patient et lui pose des questions, ce dernier peut mourir sans avertissement[3]. Cette mise en scène peut également se réaliser avec un modèle informatique.

Chaque épreuve est suivie d’un de briefing avec l’aspirant où toute l’opération sera passée en revue. Cette méthode permet aux autorités militaires de faire en même temps une évaluation formative des connaissances des candidats. En colligeant les rapports, les autorités produisent une évaluation sommative de la performance des individus.

Cette méthode d’évaluation respecte la validité et la fidélité. On peut définir la validité d’un test ou d’un examen comme l’évaluation globale, fondée sur des preuves empiriques et sur un rationnel théorique, de l’adéquation et de la justesse des inférences et des actions issues des scores de test. La fidélité se définit comme la qualité que possède un instrument à mesurer avec la même exactitude chaque fois qu’il est administré. Le ministère de l'Éducation du Québec (MEQ) considère la fidélité comme la qualité d’un instrument de mesure dont les résultats demeurent stables pour les mêmes sujets qui se trouvent dans des conditions identiques lors d’administrations différentes[4]

Dans le cas des cours des aspirants officiers, la validité de l’évaluation est assurée par la corrélation entre les contenus de cours donnés et les compétences évaluées. La fidélité inter-juge est favorisée en préparant un cours que tous les évaluateurs doivent suivre.

Exemple dans l’enseignement général au secondaire

Dans le domaine de l’enseignement général au secondaire, Guillermo Solano-Flores et Richard J. Shavelson rapportent quelques exemples d’utilisation de l’évaluation authentique. L’expérience Astronomie diurne consiste à recréer avec un globe terrestre, une lampe de poche et une boîte, les ombres créés par le soleil de l’aube au crépuscule[5].

Dans ce cas, l’évaluation d’une seule compétence demande du matériel parfois encombrant. Une de ces expériences permet seulement de vérifier un seul objectif. On doit ainsi laisser de côté d’autres objectifs.

Quelques problèmes associés à l’évaluation authentique

Samuel Messick, de Educational Testing Service, soutient qu’il existe deux standards d’évaluation quand il s’agit d’évaluer les compétences. Le premier type est le standard de contenu qui concerne ce que l’étudiant doit connaître et être capable de faire pour un sujet précis. L’autre type concerne le standard de performance qui indique le degré de compétence qu’un étudiant doit atteindre à un moment donné. Pour lui, la performance doit refléter la complexité du construit et non la complexité de l’épreuve. Ce qu’on veut vérifier c’est la capacité de l’étudiant à transférer en pratique ce qu’il a appris de façon théorique.

Messick voit un conflit entre le temps nécessaire pour passer une évaluation authentique et la nécessité d’évaluer toute la matière apprise. Une épreuve authentique demande beaucoup de temps et évalue peu de choses. Il soutient que ce genre d’épreuve peut avoir des conséquences adverses sur l’étudiant. Celui-ci peut ne pas se sentir à l’aise avec la manipulation d’instruments tout en maîtrisant parfaitement les concepts qu’il doit utiliser[6].

Solano-Flores soulève quelques problèmes avec l’administration de certains tests. Il souligne que le montage et le démontage de l’équipement peut prendre tellement de temps que l’administration des tests devient presque impossible. L’utilisation de matériel qui sera détruit au cours de l’évaluation authentique devient coûteux. Les institutions peuvent alors utiliser du matériel moins cher mais de qualité inférieure. La mauvaise qualité des matériaux introduit alors des erreurs de mesure et fausse les résultats finals. Il souligne également le problème de la fidélité entre les différents évaluateurs. Pour lui, il est très important de former les évaluateurs afin que d’une façon générale leur évaluation soit standardisée[7].

Pour Bert F. Green, de Johns Hopkins University, si les autorités scolaires veulent pouvoir comparer les résultats de l’évaluation authentique d’une année à l’autre, il faut s’assurer que les résultats de performance puissent être comparables. Des changements dans l’administration des tests créent des difficultés de comparaison. D’autre part, si d’année en année, on utilise les mêmes tests, l’information circule parmi les étudiants. Les étudiants se préparent alors uniquement en fonction d’une épreuve spécifique. On assiste alors à du bachotage[8].

Chez plusieurs auteurs que nous avons consulté, il semble se dégager une constante. L’évaluation authentique possède de nombreuses qualités mais elle ne peut pas dans tous les cas remplacer l’examen traditionnel, papier crayon. Pour ce qui est de vérifier l’acquisition de connaissance, l’examen traditionnel a fait ses preuves. On peut facilement en déterminer la fiabilité, la validité et la comparabilité.

L’évaluation de la formation professionnelle

Le Guide général d’évaluation pour la formation professionnelle et technique nous indique que ce type de formation au secondaire est axé sur l’évaluation de la compétence acquise. À cet égard, deux aspects importants sont retenus : la maîtrise du métier et la formation fondamentale.

Pour certifier l’atteinte des objectifs, on peut utiliser une ou plusieurs de ces méthodes:

l’évaluation d’un produit, qui donne lieu à une épreuve pratique
l’évaluation d’un processus de travail, qui donne lieu également à une épreuve pratique
l’évaluation des connaissances pratiques, qui donne lieu à une épreuve théorique.

On privilégie l’évaluation d’un produit plutôt que l’évaluation d’un processus de travail dans tous les cas où l’on peut confirmer par inférence l’acquisition de la compétence considérée.

L’administration d’une épreuve en vue de l’évaluation d’un produit est généralement moins complexe que celle d’une épreuve en vue de l’évaluation d’un processus de travail. De plus, l’évaluation d’un produit permet à l’examinateur d’observer plus de candidats à la fois.

La formation professionnelle du ministère de l’Éducation se fait par programme. Chaque programme contient un certain nombre de modules correspondant chacun à une compétence spécifique. Le processus d’acquisition des connaissances suit un logigramme spécifique à chaque programme. Chaque module fait l’objet d’une évaluation. Celle-ci peut être locale ou faire l’objet d’une épreuve ministérielle. La loi de l’Instruction publique prévoit que le ministre de l’Éducation peut imposer des épreuves pour tous les programmes de la formation professionnelle. Généralement, un module sur cinq sera soumis à une épreuve ministérielle.

Le but de l’évaluation en formation professionnelle est de certifier que l’étudiant a atteint les compétences contenues dans le module. Un étudiant qui complète un programme spécifique devrait posséder les compétences pour atteindre les qualifications minimales d’entrée dans le métier ou la profession. Il est certain qu’un finissant n’aurait pas l’habileté qui vient avec plusieurs années de pratique d’un métier.

Comme il s’agit de métiers professionnels, les épreuves d’évaluation doivent se rapprocher le plus possible de la réalité du travail. Ainsi les étudiants en mécanique procéderont à des changements de silencieux sur une voiture ou à la mise au point d’un moteur. Chaque évaluation portera soit sur le processus soit sur le produit final, et parfois les deux en même temps. Si on évalue le travail d’un étudiant dans un cours d’auxiliaire aux malades, on lui fera déplacer un malade d’une civière à un lit d’hôpital. Dans ce cas, le processus est plus important que le résultat final. Dans d’autres cas, c’est le résultat final, une lettre bien rédigée ou un moteur bien ajusté qui démontreront l’atteinte de la compétence.

L’utilisation d’épreuves pratiques posent certains problèmes logistiques. Le problème de coûts et de la faisabilité des examens se présentent souvent. Dans le cas des examens sur l’épandage des pesticides, il faudrait mélanger des pesticides et les étendre dans un champ avec un tracteur. L’utilisation d’un tracteur n’est pas toujours faisable et le fait de gaspiller des pesticides n’est pas très écologique. Alors, une épreuve papier-crayon demande de déterminer les actions à entreprendre à partir d’une mise en situation.

Dans le cadre du module de Confection de veston de femme sur mesure, les candidates apprennent à confectionner un veston pour dame. On leur apprend à prendre des mesures puis à modifier un patron existant conformément aux spécifications d’une cliente avant de confectionner ledit veston. Dans le cadre d’un cours de 90 heures, elles réussissent à réaliser un ou deux vestons avant de se présenter à l’évaluation finale. Elles disposent 12 heures pour réaliser un veston complet. Lors de l’évaluation, les examinateurs avaient à leur disposition une fiche d’évaluation où ils notent la performance à toutes les étapes nécessaires de la confection. Chaque critère est évalué de façon dichotomique. L’étudiante atteint ou non chacun des critères. À la fin de l’épreuve, l’étudiante se doit d’atteindre 80 points sur un total de 100. Il s’agit ici d’une évaluation critériée avec un seuil de passage de 80 points.

Malgré la meilleure préparation possible en ce qui concerne la validité et la fidélité de l’épreuve. On s’est aperçu qu’il faut jusqu’à 24 heures pour réaliser l’épreuve. Ainsi, plusieurs étudiantes échouent. Ces échecs ne sont pas nécessairement dus à un manque de compétence des étudiantes mais au manque de temps pour réaliser toutes les étapes de la réalisation d’un veston. Après consultation, il a été entendu d’allonger la durée de l’épreuve.

Pour assurer une certaine fidélité dans l’administration des épreuves ministérielles, la Direction générale de la formation professionnelle et technique prépare des épreuves. Celles-ci sont rédigées par des enseignants en formation professionnelle sous la direction d’un conseiller en évaluation. Après leur rédaction, les épreuves sont soumises à la validation d’un groupes d’enseignants qui en vérifie la validité. Par la suite, il y a des séances d’implantation dans les commissions scolaires. Il y a donc une interaction entre les examinateurs qui feront passer les épreuves et les concepteurs de celles-ci. Après avoir fait passer les examens à leurs étudiants, les professeurs peuvent faire une rétroaction sur les épreuves. Ceci permet de modifier, clarifier ou changer les critères et consignes entourant l’exécution des épreuves.

Conclusion

Les méthodes d’évaluation de la formation professionnelle du ministère de l’Éducation rencontrent les mêmes problèmes et les mêmes difficultés que ceux soulevés par Wiggins, Messick et autres. Lors de la rédaction d’épreuves, il faut toujours faire attention à la validité de contenu. Il ne faut pas que des défauts de matériel ou d’appareil ne viennent nuire aux chances de réussite des étudiants. Le ministère essaie d’assurer la fidélité inter-juge en imposant des épreuves ministérielles. Le système de rétroaction permet un réajustement des épreuves en cas de besoin. Somme toute, l’évaluation basée sur la performance représente un excellent instrument pour déterminer si les étudiants possèdent les compétences de chaque module.

Annexes

Article connexe

Jeu de rôle (psychologie)

Bibliographie

Bert F.Green, A Comparability of Scores from Performance Assessments, in Educational Measurement: Issues and Practice, hiver 1995.
Janine Huot, A Learning Outcomes: A Performance Assessment Perspective
Janine Huot, Un aperçu de l’approche pédagogique basée sur la performance [9]
Ministère de l’Éducation, Guide général d’évaluation, La formation professionnelle et technique, Québec, 1993.
Renald Legendre, Dictionnaire actuel de l’éducation, 2^e édition, Édition 2000, Guérin, Montréal 1993.
Robert L. Linn, David B. Swanson et Geoffrey R. Norman, A Performance-Based Assessment: Lessons From the Health Professions, in Educational Researcher, juin/juillet 1995.
Robert L. Linn, Eva Baker et Stephen B. Dunbar, A Complex, Performance Based Assessment: Expectations and Validation Criteria, in Educational Researcher, novembre 1991.
Samuel Messick, A Standards of Validity and the Validity of Standards in Performance Assessment, in Educational Measurement: Issues and Practice, hiver 1995.
Guilermo Solano-Flores et Richard J. Shavelson, A Development of Performance Assessment in Science: Conceptual, Practical and Logistical Issues, in Educational Measurement: Issues and Practice, automne 1997.
Grant P. Wiggins, Assessing Student Performance: Exploring the Purpose and Limits of Testing, Jossey-Bass Publishers, San Francisco, 1993.
Grant, P. Wiggins, The case for authentic Assessment. ERIC Digest

Références

Grant, P. Wiggins, The case for authentic Assessment. ERIC Digest, p1
Janine Huot, Un aperçu de l’approche pédagogique basée sur la performance Telecom British Columbia, Alberta, Ontario, Quebec | Uniserve, p3
Robert L. Linn, David B. Swanson et Geoffrey R. Norman, A Performance-Based Assessment: Lessons From the Health Professions, in Educational Researcher, juin/juillet 1995, p9
Renald Legendre, Dictionnaire actuel de l’éducation, 2^e édition, Édition 2000, Guérin, Montréal 1993, p609
Guilermo Solano-Flores et Richard J. Shavelson, A Development of Performance Assessment in Science: Conceptual, Practical and Logistical Issues, in Educational Measurement: Issues and Practice, automne 1997, p18
Samuel Messick, A Standards of Validity and the Validity of Standards in Performance Assessment, in Educational Measurement: Issues and Practice, hiver 1995, p6
Guilermo Solano-Flores et Richard J. Shavelson, A Development of Performance Assessment in Science: Conceptual, Practical and Logistical Issues, in Educational Measurement: Issues and Practice, automne 1997, p19
Bert F.Green, A Comparability of Scores from Performance Assessments, in Educational Measurement: Issues and Practice, hiver 1995, p12
Telecom British Columbia, Alberta, Ontario, Quebec | Uniserve

Portail de l’éducation

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[1] Grant, P. Wiggins, The case for authentic Assessment. ERIC Digest, p1

[2] Janine Huot, Un aperçu de l’approche pédagogique basée sur la performance Telecom British Columbia, Alberta, Ontario, Quebec | Uniserve, p3

[3] Robert L. Linn, David B. Swanson et Geoffrey R. Norman, A Performance-Based Assessment: Lessons From the Health Professions, in Educational Researcher, juin/juillet 1995, p9

[4] Renald Legendre, Dictionnaire actuel de l’éducation, 2^e édition, Édition 2000, Guérin, Montréal 1993, p609

[5] Guilermo Solano-Flores et Richard J. Shavelson, A Development of Performance Assessment in Science: Conceptual, Practical and Logistical Issues, in Educational Measurement: Issues and Practice, automne 1997, p18

[6] Samuel Messick, A Standards of Validity and the Validity of Standards in Performance Assessment, in Educational Measurement: Issues and Practice, hiver 1995, p6

[7] Guilermo Solano-Flores et Richard J. Shavelson, A Development of Performance Assessment in Science: Conceptual, Practical and Logistical Issues, in Educational Measurement: Issues and Practice, automne 1997, p19

[8] Bert F.Green, A Comparability of Scores from Performance Assessments, in Educational Measurement: Issues and Practice, hiver 1995, p12

[9] Telecom British Columbia, Alberta, Ontario, Quebec | Uniserve