Statistics.com a-t-il publié la mauvaise réponse?

Statistics.com a publié un problème de la semaine: le taux de fraude à l'assurance habitation est de 10% (une réclamation sur dix est frauduleuse). Un consultant a proposé un système d'apprentissage automatique pour examiner les réclamations et les classer comme fraude ou non-fraude. Le système est efficace à 90% pour détecter les réclamations frauduleuses, mais à 80% seulement pour classer correctement les réclamations non frauduleuses (il qualifie par erreur une sur cinq de «fraude»). Si le système classe une réclamation comme frauduleuse, quelle est la probabilité qu'elle soit réellement frauduleuse?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

Mon pair et moi avons tous deux trouvé la même réponse indépendamment et cela ne correspond pas à la solution publiée.

Notre solution:

(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3

Leur solution:

Il s'agit d'un problème de probabilité conditionnelle. (C'est aussi un problème bayésien, mais l'application de la formule de la règle de Bayes n'aide qu'à obscurcir ce qui se passe.) Considérez 100 réclamations. 10 seront frauduleux, et le système en appellera correctement 9 comme «fraude». 90 réclamations seront OK, mais le système classera incorrectement 72 (80%) comme «fraude». Ainsi, 81 réclamations au total ont été étiquetées comme frauduleux, mais seulement 9 d’entre eux, soit 11%, sont réellement frauduleux.

Qui avait raison

probability bayesian puzzle ChrisG
la source

ressemble ils ont corrigé la solution sur leur site pour être conforme à ce que vous avez calculé

Nope

@nope, corrige tranquillement la réponse. sneaky

Aksakal

Anecdote: dans la prise de décision comportementale, ce problème est souvent appelé «problème de mammographie», car sa présentation habituelle concerne la probabilité qu'un patient atteint d'un cancer reçoive une mammographie positive.

Kodiologist

"La bonne nouvelle est que notre système classe 90% des fraudes comme fraude. La mauvaise nouvelle est qu'il classe 80% des non-fraudes comme fraude." Notez que les 11% qu'ils calculent ne sont que légèrement supérieurs au taux de base de 10%. Un modèle d'apprentissage automatique où le taux de fraude dans les cas signalés n'est que de 10% supérieur au taux de base est assez terrible.

Accumulation

Ceci est connu comme le faux paradoxe positif

BlueRaja - Danny Pflughoeft

Statistics.com a-t-il publié la mauvaise réponse?

Réponses: