Est-ce que Joel Spolsky "Hunting of the Snark" post valide l'analyse du contenu statistique?

25

Si vous avez lu les bulletins communautaires récemment, vous avez probablement vu The Hunting of the Snark, un article sur le blog officiel StackExchange de Joel Spolsky, PDG du réseau StackExchange. Il discute d'une analyse statistique réalisée sur un échantillon de commentaires SE pour évaluer leur «convivialité» du point de vue d'un utilisateur extérieur. Les commentaires ont été échantillonnés au hasard à partir de StackOverflow et les analystes de contenu étaient membres de la communauté Mechanical Turk d'Amazon, un marché du travail qui relie les entreprises aux travailleurs qui effectuent de petites et courtes tâches pour des frais abordables.

Il n'y a pas si longtemps, j'étais un étudiant diplômé en sciences politiques et l'une des classes que j'ai suivies était l'analyse du contenu statistique . Le projet final de la classe, en fait tout son objectif, était de mener une analyse détaillée des reportages de guerre du New York Times, afin de vérifier si de nombreuses hypothèses que les Américains font sur la couverture des informations pendant les guerres étaient exactes (spoiler: des preuves suggèrent qu'elles sont ne pas). Le projet était énorme et assez amusant, mais de loin sa section la plus douloureuse était la «phase de formation et de test de fiabilité», qui s'est produite avant que nous puissions effectuer une analyse complète. Il avait deux objectifs (voir page 9 du document lié pour une description détaillée, ainsi que des références aux normes de fiabilité des intercodeurs dans la littérature statistique sur l'analyse de contenu):

  1. Confirmer que tous les codeurs, c'est-à-dire les lecteurs du contenu, ont été formés aux mêmes définitions qualitatives. Dans l'analyse de Joel, cela signifiait que tout le monde saurait exactement comment le projet définissait «amical» et «hostile».

  2. Confirmez que tous les codeurs ont interprété ces règles de manière fiable, c'est-à-dire que nous avons échantillonné notre échantillon, analysé le sous-ensemble, puis démontré statistiquement que nos corrélations par paires sur les évaluations qualitatives étaient assez similaires.

Les tests de fiabilité ont fait mal parce que nous avons dû le faire trois ou quatre fois. Jusqu'à ce que -1- soit verrouillé et -2- présente des corrélations par paires suffisamment élevées, nos résultats pour l'analyse complète étaient suspects. Ils n'ont pas pu être démontrés valides ou invalides. Plus important encore, nous avons dû faire des tests pilotes de fiabilité avant le jeu d'échantillons final.

Ma question est la suivante: l'analyse statistique de Joel n'avait pas de test de fiabilité pilote et n'a pas établi de définitions opérationnelles de «convivialité». Les données finales étaient-elles suffisamment fiables pour dire quoi que ce soit sur la validité statistique de ses résultats?

Pour une perspective, considérons cet amorce sur la valeur de la fiabilité de l'intercodeur et des définitions opérationnelles cohérentes. De plus profond dans la même source, vous pouvez lire sur les tests de fiabilité des pilotes (point 5 dans la liste).

Selon la suggestion d'Andy W. dans sa réponse, j'essaie de calculer une variété de statistiques de fiabilité sur l'ensemble de données, qui est disponible ici, en utilisant cette série de commandes dans R (mise à jour lorsque je calcule de nouvelles statistiques).

Les statistiques descriptives sont ici

Accord en pourcentage (avec tolérance = 0): 0,0143

Accord en pourcentage (avec tolérance = 1): 11,8

Alpha de Krippendorff: 0,1529467

J'ai également essayé un modèle de réponse à l'item pour ces données dans une autre question.

Christopher
la source
1
Ils ont rendu public les données de codage afin que l'on puisse aller évaluer la fiabilité des codeurs eux-mêmes si on le voulait.
Andy W
3
Re: # 1 - Il convient de noter que ce n'était pas tant un exercice pour savoir si les commentaires étaient amicaux ou non, mais plutôt un exercice pour savoir si les commentaires étaient perçus comme amicaux ou non pour un utilisateur extérieur.
Rachel
3
@Rachel Je ne pense pas que ce soit vrai. S'ils mesuraient la façon dont les étrangers perçoivent les commentaires sur les SO, ils auraient eu besoin d'un ensemble d'échantillons bien plus large que 20 personnes.
Christopher
2
C'est la différence entre conclure quelque chose sur la façon dont les étrangers perçoivent les commentaires et conclure quelque chose sur les commentaires eux-mêmes. Dans le premier cas, vous auriez besoin d'un échantillon beaucoup plus large de personnes, et la conclusion serait «les étrangers pensent que 2,3% des commentaires sur les SO sont hostiles». Dans le second, c'est "2,3% des commentaires SO sont hostiles". Ce sont des conclusions différentes, et je pense que la deuxième pourrait ne pas être possible, car nous ne pouvons pas démontrer que les codeurs évaluent les commentaires de la même manière sans test de fiabilité.
Christopher
2
La convivialité @Christopher est cependant très subjective. Selon qui vous demandez, le même commentaire peut être considéré à la fois comme amical et hostile. C'est pourquoi je pense qu'il est plus important d'obtenir le point de vue d'un grand nombre d'utilisateurs aléatoires plutôt que de quelqu'un qui a exactement le même point de vue que vous.
Rachel

Réponses:

6

Accord en pourcentage (avec tolérance = 0): 0,0143

Accord en pourcentage (avec tolérance = 1): 11,8

Alpha de Krippendorff: 0,1529467

Ces mesures d'accord stipulent qu'il n'y a pratiquement pas d'accord catégoriel - chaque codeur a son propre point de coupure interne pour juger les commentaires «amicaux» ou «hostiles».

Si nous supposons que les trois catégories sont ordonnées, c'est-à-dire: Inamical <Neutre <Amical, nous pouvons également calculer la corrélation intraclasse comme une autre mesure de l'accord. Sur un échantillon aléatoire de 1000 commentaires, il y a un ICC (2,1) de 0,28 et un ICC (2, k) de 0,88. Cela signifie que si vous ne preniez que l'un des 20 évaluateurs, les résultats seraient très peu fiables (0,28), si vous prenez la moyenne de 20 évaluateurs, les résultats sont fiables (0,88). En prenant différentes combinaisons de trois évaluateurs aléatoires, la fiabilité moyenne se situe entre 0,50 et 0,60, ce qui serait toujours jugé trop faible.

La corrélation bivariée moyenne entre deux codeurs est de 0,34, ce qui est également assez faible.

Si ces mesures d'accord sont considérées comme une mesure de la qualité des codeurs (qui devraient en fait montrer un bon accord), la réponse est: ce ne sont pas de bons codeurs et devraient être mieux formés. Si cela est considéré comme une mesure de "la qualité de l'accord spontané entre personnes aléatoires", la réponse est également: pas très élevée. À titre de référence, la corrélation moyenne pour les cotes d'attractivité physique se situe autour de 0,47 à 0,71 [1].

[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M., et Smoot, M. (2000). Maximes ou mythes de la beauté? Une revue méta-analytique et théorique. Bulletin psychologique, 126, 390–423. doi: 10.1037 / 0033-2909.126.3.390

Felix S
la source
7

La fiabilité des scores est fréquemment interprétée en termes de théorie des tests classiques . Ici, on a un vrai score, Xmais ce que vous observez à un résultat particulier n'est pas seulement le vrai score, mais le vrai score avec une erreur (c. Observed = X + error-à-d.). En théorie, en prenant plusieurs mesures observées du même test sous-jacent (en faisant certaines hypothèses sur la distribution des erreurs de ces tests), on peut alors mesurer le vrai score non observé.

Notez ici dans ce cadre que vous devez supposer que vos multiples mesures observées mesurent le même test sous-jacent. La mauvaise fiabilité des éléments de test est alors fréquemment considérée comme une preuve que les mesures observées ne mesurent pas le même test sous-jacent. Cependant, ce n'est qu'une convention du domaine, une mauvaise fiabilité, en soi, ne prouve pas (dans un sens statistique) que les éléments ne mesurent pas la même construction. On pourrait donc faire valoir qu'en prenant de nombreuses mesures observées, même avec des tests très peu fiables, on pourrait obtenir une mesure fiable du vrai score.

Il convient également de mentionner que la théorie des tests classique n'est pas nécessairement la seule façon d'interpréter de tels tests, et de nombreux chercheurs diraient que le concept de variables latentes et de la théorie de la réponse aux éléments est toujours plus approprié que la théorie des tests classique.


Une hypothèse implicite similaire dans la théorie des tests classiques est également lorsque les gens disent que la fiabilité est trop élevée. Il ne dit rien sur la validité de savoir si un ou des éléments particuliers mesurent un test sous-jacent, mais que lorsque les fiabilité sont trop élevées, les chercheurs prennent comme preuve que les erreurs entre les tests ne sont pas indépendantes.

Je ne sais pas trop pourquoi vous êtes si véhémente de ne pas entrer et de calculer les fiabilité vous-même. Pourquoi ne pourrait-on pas faire cela et interpréter ensuite l'analyse à la lumière de ces informations supplémentaires?

Andy W
la source
Alors permettez-moi d'abord de souligner que je ne suis plus un étudiant diplômé qui fait des statistiques pour une bonne raison: ce n'était pas tout à fait mon fort. Je me souviens peut-être mal de la méthodologie. Tout de même, je pense que vous et moi parlons peut-être de différentes mesures de fiabilité, ou au moins il y a des recherches pour suggérer de mesurer la fiabilité de l'intercodeur avant que l'analyse finale ne soit menée. J'ai modifié la question pour inclure une source que j'ai trouvée sur le Web, qui cite considérablement plus de recherches sur le sujet.
Christopher
C'est un contexte différent (fiabilité des éléments de test dichotomiques au lieu de certains résultats continus), mais la logique est fonctionnellement la même. D'où la raison pour laquelle je n'ai pas mentionné de mesure de fiabilité spécifique (il y en a beaucoup). Votre citation n'insinue rien before the final analysis, donc je ne sais pas très bien d'où vient cette notion.
Andy W
Ah ha. Vous avez raison, ce n'est pas tout à fait une exigence. En lisant plus loin ce lien que j'ai publié, il semble que ces tests pilotes soient considérés comme une meilleure pratique méthodologique (recherchez un test pilote dedans).
Christopher
J'ai changé ma question pour tenir compte des nouvelles informations. Merci pour l'aide corrigeant mon erreur.
Christopher
2
Une autre question est en suspens.
Christopher