Le New York Times a un long commentaire sur le système d'évaluation des enseignants à «valeur ajoutée» utilisé pour donner un feedback aux éducateurs de la ville de New York. La lede est l'équation utilisée pour calculer les scores - présentée sans contexte. La stratégie rhétorique semble être l'intimidation via les mathématiques:
Le texte intégral de l'article est disponible sur: http://www.nytimes.com/2011/03/07/education/07winerip.html
L'auteur, Michael Winerip, fait valoir que le sens de l'équation dépasse la capacité de quiconque autre que, euh, Matt Damon à comprendre, et encore moins un enseignant moyen:
«Le calcul du score de 3,69 prévu par Mme Isaacson est encore plus intimidant. Il est basé sur 32 variables - notamment si un élève a été« retenu en classe avant l'année de prétest »et si un élève est« nouveau en ville en prétest ou post-test ». an."
Ces 32 variables sont connectées à un modèle statistique qui ressemble à l'une de ces équations que, dans «Good Will Hunting», seul Matt Damon était capable de résoudre.
Le processus semble transparent, mais il est clair comme de la boue, même pour les laïcs intelligents comme les enseignants, les directeurs et - j'hésite à le dire - les journalistes.
Mme Isaacson a peut-être deux diplômes en Ivy League, mais elle est perdue. «Je trouve cela impossible à comprendre», a-t-elle déclaré.
En clair, la meilleure supposition de Mme Isaacson sur ce que le ministère essaie de lui dire est la suivante: même si 65 de ses 66 élèves ont obtenu de bons résultats au test d'État, plus de ses 3 auraient dû être 4.
Mais ce n'est qu'une supposition. "
Comment expliqueriez-vous le modèle à un profane? Pour info, le rapport technique complet est à:
Mise à jour: Andrew Gelman offre ses réflexions ici: http://www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html
Réponses:
Voici une possibilité.
L'évaluation des performances des enseignants a toujours été difficile. Une partie de cette difficulté tient au fait que différents élèves ont différents niveaux d'intérêt pour une matière donnée. Si un étudiant donné obtient un A, cela ne signifie pas nécessairement que l'enseignement était excellent - cela peut plutôt signifier qu'un étudiant très doué et intéressé a fait de son mieux pour réussir même en dépit d'une mauvaise qualité d'enseignement. À l'inverse, un élève obtenant un D ne signifie pas nécessairement que l'enseignement était médiocre - il peut plutôt signifier qu'un élève désintéressé a échoué malgré les meilleurs efforts de l'enseignant pour éduquer et inspirer.
La difficulté est aggravée par le fait que la sélection des étudiants (et donc le niveau d'intérêt des étudiants) est loin d'être aléatoire. Il est courant que les écoles mettent l'accent sur une matière (ou un groupe de matières) par rapport aux autres. Par exemple, une école peut privilégier les matières techniques aux humanités. Les élèves de ces écoles sont probablement tellement intéressés par les domaines techniques qu'ils recevront une note de passage, même avec le pire professeur possible. Ainsi, la fraction des élèves qui réussissent les mathématiques n'est pas une bonne mesure de l'enseignement - nous nous attendons à ce que les bons enseignants réussissent beaucoup mieux que ceux qui ont tellement envie d'apprendre. En revanche, ces mêmes élèves peuvent ne pas s'intéresser du tout aux arts. Il serait difficile d'attendre, même du meilleur enseignant, que tous les élèves obtiennent un A.
Une autre difficulté est que tout le succès dans une classe donnée n'est pas directement attribuable à l'enseignant de cette classe. Au contraire, le succès peut être dû au fait que l'école (ou tout le district) a créé la motivation et le cadre de réussite.
Pour prendre en compte toutes ces difficultés, les chercheurs ont créé un modèle qui évalue la «valeur ajoutée» de l'enseignant. En substance, le modèle prend en compte les caractéristiques intrinsèques de chaque élève (niveau général d'intérêt et de réussite dans l'apprentissage), ainsi que les contributions de l'école et du district à la réussite des élèves, et prédit les notes des élèves qui seraient attendues avec une «moyenne» l'enseignement dans cet environnement. Le modèle compare ensuite les notes réelles aux notes prévues et, sur la base de celui-ci, décide si l'enseignement était adéquat compte tenu de toutes les autres considérations, mieux qu'adéquat ou pire. Bien que le modèle puisse sembler complexe à un non-mathématicien, il est en fait assez simple et standard. Les mathématiciens utilisent des modèles similaires (et encore plus complexes) depuis des décennies.
Pour résumer, la supposition de Mme Isaacson est correcte. Même si 65 de ses 66 élèves ont obtenu de bons résultats au test d'État, ils auraient obtenu le même résultat même si un chien avait été leur professeur. Un bon enseignant réel permettrait à ces élèves d'obtenir non seulement des «compétences», mais en fait de «bons» scores sur le même test.
À ce stade, je pourrais mentionner certaines de mes préoccupations concernant le modèle. Par exemple, les développeurs de modèles affirment qu'il résout certaines des difficultés liées à l'évaluation de la qualité de l'enseignement. Ai-je suffisamment de raisons de les croire? Les quartiers à faible revenu auront des scores de «district» et «école» plus faibles. Disons qu'un quartier aura un score attendu de 2,5. Un enseignant qui obtiendra une moyenne de 3 obtiendra une bonne évaluation. Cela peut inciter les enseignants à viser le score de 3 plutôt qu'un score de, disons, 4 ou 5. En d'autres termes, les enseignants viseront la médiocrité plutôt que la perfection. Voulons-nous que cela se produise? Enfin, même si le modèle est mathématiquement simple, il fonctionne d'une manière très différente de la façon dont fonctionne l'intuition humaine. En conséquence, nous n'avons aucun moyen évident de valider ou de contester le modèle » s décision. Le malheureux exemple de Mme Isaacson illustre à quoi cela peut conduire. Voulons-nous dépendre aveuglément de l'ordinateur dans quelque chose d'aussi important?
Notez qu'il s'agit d'une explication à un profane. J'ai évité plusieurs questions potentiellement controversées ici. Par exemple, je ne voulais pas dire que l'on s'attend à ce que les districts scolaires à faible revenu démographique obtiennent de moins bons résultats, car cela ne semblerait pas bon pour un profane.
De plus, j'ai supposé que l'objectif était en fait de donner une description assez juste du modèle. Mais je suis presque sûr que ce n'était pas le but du NYT ici. Donc, au moins une partie de la raison pour laquelle leur explication est mauvaise est le FUD intentionnel, à mon avis.
la source
"Votre score d'enseignement dépend de la performance de vos élèves par rapport à une prédiction faite sur la base de
Ce qu'ils savaient à l'avance, mesuré par un pré-test,
Dans quelle mesure nous pensons que les élèves peuvent apprendre en fonction de ce que nous savons d'eux individuellement (leurs «caractéristiques»),
Et comment les élèves réussissent en moyenne dans votre district, votre école et votre classe (s'il y a d'autres enseignants dans votre classe).
"En d'autres termes, nous vous évaluons en fonction de la quantité d'apprentissage qui a été mesurée, après avoir pris en compte la préparation et les caractéristiques de vos élèves et les performances typiques de tous les élèves dans des environnements comme le vôtre avec les ressources à votre disposition.
"De cette façon, votre score reflète ce que vous avez contribué aux performances des élèves, dans la mesure où nous pouvons le déterminer. Bien sûr, nous ne pouvons pas tout savoir: nous savons que vous avez eu des élèves uniques et spéciaux et que la situation à laquelle vous avez fait face ne pourrait jamais être reproduite. Par conséquent, nous sachez que ce score n'est qu'une estimation qui reflète imparfaitement la façon dont vous avez enseigné, mais c'est une estimation plus juste et plus précise que celle basée uniquement sur des post-tests ou sur des gains de tests bruts réalisés par votre classe. "
la source
Il n'y a rien à comprendre ici.
Eh bien, c'est juste un modèle de régression linéaire standard. Il suppose que le score d'un élève peut être décrit comme une fonction linéaire de plusieurs facteurs, y compris les coefficients d'efficacité de l'école et des enseignants - il partage donc tous les problèmes standard des modèles linéaires, principalement le fait qu'il s'agit d'une grande approximation d'un non linéaire monde et peut aussi bien fonctionner parfaitement ou embarrassant mal en fonction d'une situation et dans quelle mesure on tenterait d'extrapoler avec elle. (Cependant, il faut s'attendre à ce que les auteurs du technicien le vérifient et découvrent que c'est ok ;-)).
Mais le vrai problème est qu'il s'agit d'un outil analytique et que celui-ci ne devrait pas être utilisé pour évaluer les réalisations des gens - de cette façon (totalement indépendamment du fait que les notes soient justes ou non) chaque évaluateur essayant de comprendre sa note (probablement dans l'espoir de l'optimisation) ne rencontrera que la confusion désespérée, comme dans ce cas.
la source