J'utilise le Kappa de Cohen pour calculer l'inter-accord entre deux juges.
Il est calculé comme suit:
où est la proportion d'accord et la probabilité d'accord par hasard.
Maintenant, pour l'ensemble de données suivant, j'obtiens les résultats attendus:
User A judgements:
- 1, true
- 2, false
User B judgements:
- 1, false
- 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333
On voit que les deux juges ne se sont pas très bien entendus. Cependant, dans le cas suivant où les deux juges évaluent un critère, kappa est évalué à zéro:
User A judgements:
- 1, false
User B judgements:
- 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0
Maintenant, je peux voir que l'accord par hasard est évidemment 1, ce qui conduit à kappa étant nul, mais cela compte-t-il comme un résultat fiable? Le problème est que normalement je n'ai pas plus de deux jugements par critère, donc ceux-ci ne seront jamais évalués à un kappa supérieur à 0, ce qui, je pense, n'est pas très représentatif.
Suis-je d'accord avec mes calculs? Puis-je utiliser une méthode différente pour calculer l'inter-accord?
Ici, nous pouvons voir que kappa fonctionne bien pour plusieurs jugements:
User A judgements:
- 1, false
- 2, true
- 3, false
- 4, false
- 5, true
User A judgements:
- 1, true
- 2, true
- 3, false
- 4, true
- 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996
information-retrieval
tag ici.Réponses:
La "correction fortuite" dans le Cohen estime les probabilités avec lesquelles chaque évaluateur choisit les catégories existantes. L'estimation provient des fréquences marginales des catégories. Lorsque vous n'avez qu'un seul jugement pour chaque évaluateur, cela signifie que suppose que la catégorie choisie pour ce seul jugement en général a une probabilité de 1. Cela n'a évidemment aucun sens puisque le nombre de jugements (1) est trop petit pour être estimé de manière fiable les taux de base de toutes les catégories.κ κ
Une alternative pourrait être un modèle binomial simple: sans informations supplémentaires, nous pourrions supposer que la probabilité d'accord entre deux évaluateurs pour un jugement est de 0,5 puisque les jugements sont binaires. Cela signifie que nous supposons implicitement que les deux évaluateurs choisissent chaque catégorie avec une probabilité de 0,5 pour tous les critères. Le nombre d'accords attendus par hasard sur tous les critères suit alors une distribution binomiale avec .p=0.5
la source
Je trouve la réponse de Caracal convaincante, mais je crois aussi que le Kappa de Cohen ne peut expliquer qu'une partie de ce qui constitue la fiabilité inter-évaluateurs. Le simple pourcentage de notations en accord représente une autre partie et la corrélation entre les notations, un tiers. Il faut les trois méthodes pour obtenir une image complète. Pour plus de détails, veuillez consulter http://pareonline.net/getvn.asp?v=9&n=4 :
la source