Si vous avez lu les bulletins communautaires récemment, vous avez probablement vu The Hunting of the Snark, un article sur le blog officiel StackExchange de Joel Spolsky, PDG du réseau StackExchange. Il discute d'une analyse statistique réalisée sur un échantillon de commentaires SE pour évaluer leur «convivialité» du point de vue d'un utilisateur extérieur. Les commentaires ont été échantillonnés au hasard à partir de StackOverflow et les analystes de contenu étaient membres de la communauté Mechanical Turk d'Amazon, un marché du travail qui relie les entreprises aux travailleurs qui effectuent de petites et courtes tâches pour des frais abordables.
Il n'y a pas si longtemps, j'étais un étudiant diplômé en sciences politiques et l'une des classes que j'ai suivies était l'analyse du contenu statistique . Le projet final de la classe, en fait tout son objectif, était de mener une analyse détaillée des reportages de guerre du New York Times, afin de vérifier si de nombreuses hypothèses que les Américains font sur la couverture des informations pendant les guerres étaient exactes (spoiler: des preuves suggèrent qu'elles sont ne pas). Le projet était énorme et assez amusant, mais de loin sa section la plus douloureuse était la «phase de formation et de test de fiabilité», qui s'est produite avant que nous puissions effectuer une analyse complète. Il avait deux objectifs (voir page 9 du document lié pour une description détaillée, ainsi que des références aux normes de fiabilité des intercodeurs dans la littérature statistique sur l'analyse de contenu):
Confirmer que tous les codeurs, c'est-à-dire les lecteurs du contenu, ont été formés aux mêmes définitions qualitatives. Dans l'analyse de Joel, cela signifiait que tout le monde saurait exactement comment le projet définissait «amical» et «hostile».
Confirmez que tous les codeurs ont interprété ces règles de manière fiable, c'est-à-dire que nous avons échantillonné notre échantillon, analysé le sous-ensemble, puis démontré statistiquement que nos corrélations par paires sur les évaluations qualitatives étaient assez similaires.
Les tests de fiabilité ont fait mal parce que nous avons dû le faire trois ou quatre fois. Jusqu'à ce que -1- soit verrouillé et -2- présente des corrélations par paires suffisamment élevées, nos résultats pour l'analyse complète étaient suspects. Ils n'ont pas pu être démontrés valides ou invalides. Plus important encore, nous avons dû faire des tests pilotes de fiabilité avant le jeu d'échantillons final.
Ma question est la suivante: l'analyse statistique de Joel n'avait pas de test de fiabilité pilote et n'a pas établi de définitions opérationnelles de «convivialité». Les données finales étaient-elles suffisamment fiables pour dire quoi que ce soit sur la validité statistique de ses résultats?
Pour une perspective, considérons cet amorce sur la valeur de la fiabilité de l'intercodeur et des définitions opérationnelles cohérentes. De plus profond dans la même source, vous pouvez lire sur les tests de fiabilité des pilotes (point 5 dans la liste).
Selon la suggestion d'Andy W. dans sa réponse, j'essaie de calculer une variété de statistiques de fiabilité sur l'ensemble de données, qui est disponible ici, en utilisant cette série de commandes dans R (mise à jour lorsque je calcule de nouvelles statistiques).
Les statistiques descriptives sont ici
Accord en pourcentage (avec tolérance = 0): 0,0143
Accord en pourcentage (avec tolérance = 1): 11,8
Alpha de Krippendorff: 0,1529467
J'ai également essayé un modèle de réponse à l'item pour ces données dans une autre question.
la source
Réponses:
Ces mesures d'accord stipulent qu'il n'y a pratiquement pas d'accord catégoriel - chaque codeur a son propre point de coupure interne pour juger les commentaires «amicaux» ou «hostiles».
Si nous supposons que les trois catégories sont ordonnées, c'est-à-dire: Inamical <Neutre <Amical, nous pouvons également calculer la corrélation intraclasse comme une autre mesure de l'accord. Sur un échantillon aléatoire de 1000 commentaires, il y a un ICC (2,1) de 0,28 et un ICC (2, k) de 0,88. Cela signifie que si vous ne preniez que l'un des 20 évaluateurs, les résultats seraient très peu fiables (0,28), si vous prenez la moyenne de 20 évaluateurs, les résultats sont fiables (0,88). En prenant différentes combinaisons de trois évaluateurs aléatoires, la fiabilité moyenne se situe entre 0,50 et 0,60, ce qui serait toujours jugé trop faible.
La corrélation bivariée moyenne entre deux codeurs est de 0,34, ce qui est également assez faible.
Si ces mesures d'accord sont considérées comme une mesure de la qualité des codeurs (qui devraient en fait montrer un bon accord), la réponse est: ce ne sont pas de bons codeurs et devraient être mieux formés. Si cela est considéré comme une mesure de "la qualité de l'accord spontané entre personnes aléatoires", la réponse est également: pas très élevée. À titre de référence, la corrélation moyenne pour les cotes d'attractivité physique se situe autour de 0,47 à 0,71 [1].
[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M., et Smoot, M. (2000). Maximes ou mythes de la beauté? Une revue méta-analytique et théorique. Bulletin psychologique, 126, 390–423. doi: 10.1037 / 0033-2909.126.3.390
la source
La fiabilité des scores est fréquemment interprétée en termes de théorie des tests classiques . Ici, on a un vrai score,
X
mais ce que vous observez à un résultat particulier n'est pas seulement le vrai score, mais le vrai score avec une erreur (c.Observed = X + error
-à-d.). En théorie, en prenant plusieurs mesures observées du même test sous-jacent (en faisant certaines hypothèses sur la distribution des erreurs de ces tests), on peut alors mesurer le vrai score non observé.Notez ici dans ce cadre que vous devez supposer que vos multiples mesures observées mesurent le même test sous-jacent. La mauvaise fiabilité des éléments de test est alors fréquemment considérée comme une preuve que les mesures observées ne mesurent pas le même test sous-jacent. Cependant, ce n'est qu'une convention du domaine, une mauvaise fiabilité, en soi, ne prouve pas (dans un sens statistique) que les éléments ne mesurent pas la même construction. On pourrait donc faire valoir qu'en prenant de nombreuses mesures observées, même avec des tests très peu fiables, on pourrait obtenir une mesure fiable du vrai score.
Il convient également de mentionner que la théorie des tests classique n'est pas nécessairement la seule façon d'interpréter de tels tests, et de nombreux chercheurs diraient que le concept de variables latentes et de la théorie de la réponse aux éléments est toujours plus approprié que la théorie des tests classique.
Une hypothèse implicite similaire dans la théorie des tests classiques est également lorsque les gens disent que la fiabilité est trop élevée. Il ne dit rien sur la validité de savoir si un ou des éléments particuliers mesurent un test sous-jacent, mais que lorsque les fiabilité sont trop élevées, les chercheurs prennent comme preuve que les erreurs entre les tests ne sont pas indépendantes.
Je ne sais pas trop pourquoi vous êtes si véhémente de ne pas entrer et de calculer les fiabilité vous-même. Pourquoi ne pourrait-on pas faire cela et interpréter ensuite l'analyse à la lumière de ces informations supplémentaires?
la source
before the final analysis
, donc je ne sais pas très bien d'où vient cette notion.