Statistics.com a-t-il publié la mauvaise réponse?

28

Statistics.com a publié un problème de la semaine: le taux de fraude à l'assurance habitation est de 10% (une réclamation sur dix est frauduleuse). Un consultant a proposé un système d'apprentissage automatique pour examiner les réclamations et les classer comme fraude ou non-fraude. Le système est efficace à 90% pour détecter les réclamations frauduleuses, mais à 80% seulement pour classer correctement les réclamations non frauduleuses (il qualifie par erreur une sur cinq de «fraude»). Si le système classe une réclamation comme frauduleuse, quelle est la probabilité qu'elle soit réellement frauduleuse?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

Mon pair et moi avons tous deux trouvé la même réponse indépendamment et cela ne correspond pas à la solution publiée.

Notre solution:

(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3

Leur solution:

Il s'agit d'un problème de probabilité conditionnelle. (C'est aussi un problème bayésien, mais l'application de la formule de la règle de Bayes n'aide qu'à obscurcir ce qui se passe.) Considérez 100 réclamations. 10 seront frauduleux, et le système en appellera correctement 9 comme «fraude». 90 réclamations seront OK, mais le système classera incorrectement 72 (80%) comme «fraude». Ainsi, 81 réclamations au total ont été étiquetées comme frauduleux, mais seulement 9 d’entre eux, soit 11%, sont réellement frauduleux.

Qui avait raison

ChrisG
la source
4
ressemble ils ont corrigé la solution sur leur site pour être conforme à ce que vous avez calculé
Nope
2
@nope, corrige tranquillement la réponse. sneaky
Aksakal
Anecdote: dans la prise de décision comportementale, ce problème est souvent appelé «problème de mammographie», car sa présentation habituelle concerne la probabilité qu'un patient atteint d'un cancer reçoive une mammographie positive.
Kodiologist
"La bonne nouvelle est que notre système classe 90% des fraudes comme fraude. La mauvaise nouvelle est qu'il classe 80% des non-fraudes comme fraude." Notez que les 11% qu'ils calculent ne sont que légèrement supérieurs au taux de base de 10%. Un modèle d'apprentissage automatique où le taux de fraude dans les cas signalés n'est que de 10% supérieur au taux de base est assez terrible.
Accumulation
Ceci est connu comme le faux paradoxe positif
BlueRaja - Danny Pflughoeft

Réponses:

41

Je pense que vous et votre collègue avez raison. Statistics.com a la ligne de pensée correcte, mais commet une simple erreur. Sur les 90 réclamations "OK", nous nous attendons à ce que 20% d'entre elles soient incorrectement classées comme fraude, et non 80%. 20% de 90 sont 18, conduisant à 9 réclamations correctement identifiées et 18 réclamations incorrectes, avec un ratio de 1/3, exactement ce que donne la règle de Bayes.

James Otto
la source
11

Vous avez raison. La solution que le site Web a publiée est basée sur une lecture erronée du problème en ce que 80% des réclamations non frauduleuses sont classées comme frauduleuses au lieu des 20% donnés.

Dilip Sarwate
la source