Comment les résultats de la formule de la prophétie Spearman-Brown sont-ils affectés par le fait d'avoir des questions de test de difficultés différentes ou des évaluateurs qui sont des classeurs faciles ou difficiles Un texte respecté dit que le SB est affecté, mais ne donne pas de détails. (Voir citation ci-dessous.)
Guion, R. M (2011). Évaluation, mesure et prévision des décisions du personnel, 2e édition. Pg 477
"La fiabilité peut être augmentée en regroupant les évaluateurs, en utilisant l'équation de Spearman-Brown. ... Si la fiabilité d'une seule évaluation est de 0,50, alors la fiabilité de deux, quatre ou six évaluations parallèles sera d'environ 0,67, 0,80. et .86, respectivement »(Houston, Raymond et Svec, 1991, p. 409). J'aime cette citation parce que le mot reconnaît approximativement que les estimations statistiques sont des déclarations "en moyenne" de ce qui pourrait être attendu si tout se passe comme prévu. Au-delà de cela, le mot clé est parallèle. La moyenne des notes (ou l'utilisation de Spearman-Brown) si un évaluateur est, par exemple, systématiquement indulgent, ne correspond tout simplement pas à l'hypothèse. Si les essais sont notés chacun par deux évaluateurs, un plus indulgent que l'autre, le problème est comme celui de l'utilisation de deux tests à choix multiple de difficulté inégale (formes non parallèles). Les scores basés sur des formulaires de test différents (non évalués) ne sont pas comparables. Il en va de même pour le mélange des évaluateurs indulgents et difficiles; la fiabilité des notes regroupées est incorrectement estimée par l'équation de Spearman-Brown de la théorie des tests classiques. Les choses sont pires si chaque juge définit un concept un peu différemment. "
la source
Réponses:
Bien que je me sente un peu penaud contredisant à la fois un "texte respecté" et un autre utilisateur de CV, il me semble que la formule Spearman-Brown n'est pas affectée par des éléments de difficulté différente. Certes, la formule de Spearman-Brown est généralement dérivée en supposant que nous avons des éléments parallèles , ce qui implique (entre autres) que les éléments ont la même difficulté. Mais il s'avère que cette hypothèse n'est pas nécessaire; il peut être assoupli pour permettre des difficultés inégales, et la formule Spearman-Brown tiendra toujours. Je le démontre ci-dessous.
Rappelons que dans la théorie classique des tests, une mesure est supposée être la somme d'une composante "vrai score" et d'une composante d'erreur , c'est-à-dire avec et non corrélés. L'hypothèse des éléments parallèles est que tous les éléments ont les mêmes scores réels, ne différant que par leurs composantes d'erreur, bien que ceux-ci soient supposés avoir une variance égale. En symboles, pour toute paire d'éléments et ,X T E
Maintenant, dériver la fiabilité d'un formulaire de test de ces éléments. Considérons un test composé de éléments essentiellement parallèles, dont la somme donne la note du test. La fiabilité est, par définition, le rapport de la vraie variance du score à la variance du score observé. Pour la fiabilité des éléments individuels, il résulte de la définition du parallélisme essentiel qu'ils ont la même fiabilité, que nous désignons par , avec étant la vraie variance du score et la variance d'erreur. Pour la fiabilité du score total du test, nous examinons d'abord la variance du score total du test, qui estk ρ=σ2T/(σ2T+σ2E) σ2T σ2E Tσ 2 T σ 2 E k 2 σ 2 T
@JeremyMiles soulève des points intéressants et importants sur ce qui peut se produire lorsque nous augmentons la durée du test "dans le monde réel", mais au moins selon les hypothèses idéalisées de la théorie classique des tests, les variations de difficulté des éléments n'ont pas d'importance pour la fiabilité d'un forme de test (en contraste frappant avec les hypothèses de la théorie moderne de la réponse aux objets!). Ce même raisonnement de base est aussi la raison pour laquelle nous parlons généralement d' équivalence tau essentielle plutôt que d'équivalence tau, car la plupart de tous les résultats importants valent pour le cas le plus clément où les difficultés d'items (c'est-à-dire les moyens) peuvent différer.
la source
Ce n'est pas facile à dire.
Premièrement, Spearman-Brown suppose que les éléments de test (ou évaluateurs) sont échantillonnés au hasard à partir d'une population d'éléments de test (ou évaluateurs). Ce n'est jamais vraiment vrai, en particulier pour les tests, car créer plus d'éléments est difficile, et il est probable que vous utiliserez les meilleurs éléments pour commencer - alors vous constaterez que le test doit être plus long, donc vous «grattez le baril» pour les articles.
Deuxièmement, les éléments varient dans leur fiabilité, et la fiabilité n'est pas nécessairement liée à la difficulté (si cela aide, pensez à la pente et à l'ordonnée à l'origine de la courbe caractéristique de l'élément dans la théorie de la réponse aux éléments). Cependant, le calcul de la fiabilité (par exemple, l'alpha de Cronbach, qui est une forme de corrélation intra-classe) suppose que les fiabilités sont toutes égales (elles supposent un modèle de mesure essentiel équivalent tau - c'est-à-dire que les fiabilités non normalisées de chaque élément sont toutes égal). C'est presque certainement faux. L'ajout d'éléments peut augmenter ou diminuer. Cela dépend des articles.
Voici une autre façon d'y penser. Je sélectionne au hasard un échantillon d'une population et calcule la moyenne et l'erreur standard de la moyenne. Cette moyenne sera un estimateur non biaisé de la moyenne de la population. Ensuite, j'augmente la taille de mon échantillon - la valeur attendue de la moyenne est la même, mais il est peu probable qu'elle soit en fait la même - elle augmentera ou diminuera certainement. Tout comme je m'attends à ce que l'erreur standard diminue, mais la quantité qu'elle rétrécit ne sera pas cohérente (et il n'est pas impossible que l'erreur standard s'agrandisse.)
la source