Comment la formule de prophétie Spearman-Brown est-elle affectée par des questions de difficultés différentes?

10

Comment les résultats de la formule de la prophétie Spearman-Brown sont-ils affectés par le fait d'avoir des questions de test de difficultés différentes ou des évaluateurs qui sont des classeurs faciles ou difficiles Un texte respecté dit que le SB est affecté, mais ne donne pas de détails. (Voir citation ci-dessous.)

Guion, R. M (2011). Évaluation, mesure et prévision des décisions du personnel, 2e édition. Pg 477

"La fiabilité peut être augmentée en regroupant les évaluateurs, en utilisant l'équation de Spearman-Brown. ... Si la fiabilité d'une seule évaluation est de 0,50, alors la fiabilité de deux, quatre ou six évaluations parallèles sera d'environ 0,67, 0,80. et .86, respectivement »(Houston, Raymond et Svec, 1991, p. 409). J'aime cette citation parce que le mot reconnaît approximativement que les estimations statistiques sont des déclarations "en moyenne" de ce qui pourrait être attendu si tout se passe comme prévu. Au-delà de cela, le mot clé est parallèle. La moyenne des notes (ou l'utilisation de Spearman-Brown) si un évaluateur est, par exemple, systématiquement indulgent, ne correspond tout simplement pas à l'hypothèse. Si les essais sont notés chacun par deux évaluateurs, un plus indulgent que l'autre, le problème est comme celui de l'utilisation de deux tests à choix multiple de difficulté inégale (formes non parallèles). Les scores basés sur des formulaires de test différents (non évalués) ne sont pas comparables. Il en va de même pour le mélange des évaluateurs indulgents et difficiles; la fiabilité des notes regroupées est incorrectement estimée par l'équation de Spearman-Brown de la théorie des tests classiques. Les choses sont pires si chaque juge définit un concept un peu différemment. "

Joel W.
la source
1
Je pense que le problème avec la recherche d'une source crédible est que la réponse vient de la théorie des tests, et c'est un peu évident si vous comprenez la théorie sous-jacente, et en particulier les limites de notre capacité à évaluer la fiabilité. C'est pourquoi Guion ne prend pas la peine de l'expliquer. Mais bonne chance dans votre recherche quand même - peut-être que quelqu'un, quelque part, connaît une meilleure explication.
Jeremy Miles

Réponses:

10

Bien que je me sente un peu penaud contredisant à la fois un "texte respecté" et un autre utilisateur de CV, il me semble que la formule Spearman-Brown n'est pas affectée par des éléments de difficulté différente. Certes, la formule de Spearman-Brown est généralement dérivée en supposant que nous avons des éléments parallèles , ce qui implique (entre autres) que les éléments ont la même difficulté. Mais il s'avère que cette hypothèse n'est pas nécessaire; il peut être assoupli pour permettre des difficultés inégales, et la formule Spearman-Brown tiendra toujours. Je le démontre ci-dessous.


Rappelons que dans la théorie classique des tests, une mesure est supposée être la somme d'une composante "vrai score" et d'une composante d'erreur , c'est-à-dire avec et non corrélés. L'hypothèse des éléments parallèles est que tous les éléments ont les mêmes scores réels, ne différant que par leurs composantes d'erreur, bien que ceux-ci soient supposés avoir une variance égale. En symboles, pour toute paire d'éléments et , XTE

X=T+E,
TEXX
T=Tvar(E)=var(E).
Voyons ce qui se passe lorsque nous assouplissons la première hypothèse, de sorte que les éléments peuvent différer dans leurs difficultés, puis dérivons la fiabilité d'un score de test total sous ces nouvelles hypothèses. Plus précisément, supposons que les vrais scores puissent différer d'une constante additive, mais les erreurs ont toujours la même variance. Dans les symboles, Toutes les différences de difficulté sont capturées par la constante additive. Par exemple, si , alors les scores sur ont tendance à être supérieurs aux scores sur , de sorte que est "plus facile" que . Nous pourrions les appeler essentiellement parallèles
T=T+cvar(E)=var(E).
c>0XXXXpar analogie avec l'hypothèse d'une "équivalence tau essentielle" qui assouplit le modèle équivalent tau d'une manière similaire.

Maintenant, dériver la fiabilité d'un formulaire de test de ces éléments. Considérons un test composé de éléments essentiellement parallèles, dont la somme donne la note du test. La fiabilité est, par définition, le rapport de la vraie variance du score à la variance du score observé. Pour la fiabilité des éléments individuels, il résulte de la définition du parallélisme essentiel qu'ils ont la même fiabilité, que nous désignons par , avec étant la vraie variance du score et la variance d'erreur. Pour la fiabilité du score total du test, nous examinons d'abord la variance du score total du test, qui est kρ=σT2/(σT2+σE2)σT2σE2 Tσ 2 T σ 2 E k 2 σ 2 T

var(i=1kTi+Ei)=var(i=1kT+ci+Ei)=k2σT2+kσE2,
où (sans indice) est un vrai score arbitraire vers lequel les vrais scores de tous les éléments peuvent être décalés via leurs termes constants, est la vraie variance du score, et est la variance d'erreur. Notez que les termes constants disparaissent! C'est la clé. Ainsi, la fiabilité du score total du test est TσT2σE2
k2σT2k2σT2+kσE2=kσT2kσT2+σX2σT2=kρ1+(k1)ρ,
qui est juste la formule classique de Spearman-Brown, inchangée. Ce que cela montre, c'est que même en faisant varier la «difficulté» des éléments, définis comme leurs scores moyens, la formule de Spearman-Brown est toujours valable.

@JeremyMiles soulève des points intéressants et importants sur ce qui peut se produire lorsque nous augmentons la durée du test "dans le monde réel", mais au moins selon les hypothèses idéalisées de la théorie classique des tests, les variations de difficulté des éléments n'ont pas d'importance pour la fiabilité d'un forme de test (en contraste frappant avec les hypothèses de la théorie moderne de la réponse aux objets!). Ce même raisonnement de base est aussi la raison pour laquelle nous parlons généralement d' équivalence tau essentielle plutôt que d'équivalence tau, car la plupart de tous les résultats importants valent pour le cas le plus clément où les difficultés d'items (c'est-à-dire les moyens) peuvent différer.

Jake Westfall
la source
2
Oui, bon point. Ce que j'ai écrit ne tient pas nécessairement.
Jeremy Miles
5

Ce n'est pas facile à dire.

Premièrement, Spearman-Brown suppose que les éléments de test (ou évaluateurs) sont échantillonnés au hasard à partir d'une population d'éléments de test (ou évaluateurs). Ce n'est jamais vraiment vrai, en particulier pour les tests, car créer plus d'éléments est difficile, et il est probable que vous utiliserez les meilleurs éléments pour commencer - alors vous constaterez que le test doit être plus long, donc vous «grattez le baril» pour les articles.

Deuxièmement, les éléments varient dans leur fiabilité, et la fiabilité n'est pas nécessairement liée à la difficulté (si cela aide, pensez à la pente et à l'ordonnée à l'origine de la courbe caractéristique de l'élément dans la théorie de la réponse aux éléments). Cependant, le calcul de la fiabilité (par exemple, l'alpha de Cronbach, qui est une forme de corrélation intra-classe) suppose que les fiabilités sont toutes égales (elles supposent un modèle de mesure essentiel équivalent tau - c'est-à-dire que les fiabilités non normalisées de chaque élément sont toutes égal). C'est presque certainement faux. L'ajout d'éléments peut augmenter ou diminuer. Cela dépend des articles.

Voici une autre façon d'y penser. Je sélectionne au hasard un échantillon d'une population et calcule la moyenne et l'erreur standard de la moyenne. Cette moyenne sera un estimateur non biaisé de la moyenne de la population. Ensuite, j'augmente la taille de mon échantillon - la valeur attendue de la moyenne est la même, mais il est peu probable qu'elle soit en fait la même - elle augmentera ou diminuera certainement. Tout comme je m'attends à ce que l'erreur standard diminue, mais la quantité qu'elle rétrécit ne sera pas cohérente (et il n'est pas impossible que l'erreur standard s'agrandisse.)

Jeremy Miles
la source
La formule SB donne-t-elle le minimum, le maximum ou une valeur intermédiaire pour la fiabilité attendue? De plus, comme les fiabilité sont calculées en termes de corrélations, pourquoi les éléments faciles / difficiles ou les évaluateurs ont-ils un effet?
Joel W.
La formule SB donne la fiabilité attendue. Il pourrait être supérieur ou inférieur à cela. Un problème est qu'il existe plus d'une façon de calculer la fiabilité, et les hypothèses qu'ils font sont rarement satisfaites. Le tout est en quelque sorte ancré dans la théorie des tests classiques - la théorie de la réponse aux éléments est une façon plus moderne de penser à la mesure, et elle a plus de sens la plupart du temps, par exemple, la fiabilité d'un test n'est pas la même pour chaque personne en IRT.
Jeremy Miles
Si une question est très difficile ou très facile, cela peut affecter la corrélation. Par exemple, "7 * 11" pourrait être une question fiable pour la 3e année, mais pour les étudiants de premier cycle en mathématiques, ce n'est pas le cas.
Jeremy Miles
1
<le test doit être plus long, vous allez donc "gratter le tonneau" pour les objets. De toute évidence, vous avez eu une expérience concrète de la mise en place de tests.
Joel W.