Peut-on utiliser le Kappa de Cohen pour deux jugements seulement?

8

J'utilise le Kappa de Cohen pour calculer l'inter-accord entre deux juges.

Il est calculé comme suit:

P(A)P(E)1P(E)

où est la proportion d'accord et la probabilité d'accord par hasard.P(A)P(E)

Maintenant, pour l'ensemble de données suivant, j'obtiens les résultats attendus:

User A judgements: 
  - 1, true
  - 2, false
User B judgements: 
  - 1, false
  - 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333

On voit que les deux juges ne se sont pas très bien entendus. Cependant, dans le cas suivant où les deux juges évaluent un critère, kappa est évalué à zéro:

User A judgements: 
  - 1, false
User B judgements: 
  - 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0

Maintenant, je peux voir que l'accord par hasard est évidemment 1, ce qui conduit à kappa étant nul, mais cela compte-t-il comme un résultat fiable? Le problème est que normalement je n'ai pas plus de deux jugements par critère, donc ceux-ci ne seront jamais évalués à un kappa supérieur à 0, ce qui, je pense, n'est pas très représentatif.

Suis-je d'accord avec mes calculs? Puis-je utiliser une méthode différente pour calculer l'inter-accord?

Ici, nous pouvons voir que kappa fonctionne bien pour plusieurs jugements:

User A judgements: 
  - 1, false
  - 2, true
  - 3, false
  - 4, false
  - 5, true
User A judgements: 
  - 1, true
  - 2, true
  - 3, false
  - 4, true
  - 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996
slhck
la source
Pour la fiabilité inter-évaluateur avec des résultats binaires, je pense que généralement on utilise le coefficient tétrachorique.
shabbychef
Pouvez-vous développer sur ce sujet? Je ne suis certainement pas un expert en matière de statistiques et je n'arrive pas à trouver une approche simple pour calculer un coefficient tétrachorique.
slhck
1
Je ne pense pas que vous ayez raison dans le premier calcul. Si je ne me trompe pas, l'accord par hasard devrait être de 0,5, ce qui donne un kappa de 0.
onestop
Je ne comprends pas vraiment le information-retrievaltag ici.
chl
Je ne sais pas, je travaille sur une tâche de recherche d'informations, où les gens jugent si les documents sont pertinents ou non, d'où la statistique kappa. Mais tout le monde peut redéfinir les publications ici, alors n'hésitez pas à le faire! @onestop, en suivant ce guide standard, mes chiffres sont corrects, les marginaux regroupés sont 0,75 et 0,25, respectivement, et les deux au carré et ajoutés les uns aux autres égaux à 0,625
slhck

Réponses:

4

La "correction fortuite" dans le Cohen estime les probabilités avec lesquelles chaque évaluateur choisit les catégories existantes. L'estimation provient des fréquences marginales des catégories. Lorsque vous n'avez qu'un seul jugement pour chaque évaluateur, cela signifie que suppose que la catégorie choisie pour ce seul jugement en général a une probabilité de 1. Cela n'a évidemment aucun sens puisque le nombre de jugements (1) est trop petit pour être estimé de manière fiable les taux de base de toutes les catégories.κκ

Une alternative pourrait être un modèle binomial simple: sans informations supplémentaires, nous pourrions supposer que la probabilité d'accord entre deux évaluateurs pour un jugement est de 0,5 puisque les jugements sont binaires. Cela signifie que nous supposons implicitement que les deux évaluateurs choisissent chaque catégorie avec une probabilité de 0,5 pour tous les critères. Le nombre d'accords attendus par hasard sur tous les critères suit alors une distribution binomiale avec .p=0.5

caracal
la source
4

Je trouve la réponse de Caracal convaincante, mais je crois aussi que le Kappa de Cohen ne peut expliquer qu'une partie de ce qui constitue la fiabilité inter-évaluateurs. Le simple pourcentage de notations en accord représente une autre partie et la corrélation entre les notations, un tiers. Il faut les trois méthodes pour obtenir une image complète. Pour plus de détails, veuillez consulter http://pareonline.net/getvn.asp?v=9&n=4 :

"[...] la pratique générale consistant à décrire la fiabilité inter-évaluateurs comme un concept unique et unifié est au mieux imprécise et au pire potentiellement trompeuse."

rolando2
la source