Statistics.com a publié un problème de la semaine: le taux de fraude à l'assurance habitation est de 10% (une réclamation sur dix est frauduleuse). Un consultant a proposé un système d'apprentissage automatique pour examiner les réclamations et les classer comme fraude ou non-fraude. Le système est efficace à 90% pour détecter les réclamations frauduleuses, mais à 80% seulement pour classer correctement les réclamations non frauduleuses (il qualifie par erreur une sur cinq de «fraude»). Si le système classe une réclamation comme frauduleuse, quelle est la probabilité qu'elle soit réellement frauduleuse?
https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true
Mon pair et moi avons tous deux trouvé la même réponse indépendamment et cela ne correspond pas à la solution publiée.
Notre solution:
(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3
Leur solution:
Il s'agit d'un problème de probabilité conditionnelle. (C'est aussi un problème bayésien, mais l'application de la formule de la règle de Bayes n'aide qu'à obscurcir ce qui se passe.) Considérez 100 réclamations. 10 seront frauduleux, et le système en appellera correctement 9 comme «fraude». 90 réclamations seront OK, mais le système classera incorrectement 72 (80%) comme «fraude». Ainsi, 81 réclamations au total ont été étiquetées comme frauduleux, mais seulement 9 d’entre eux, soit 11%, sont réellement frauduleux.
Qui avait raison
la source
Réponses:
Je pense que vous et votre collègue avez raison. Statistics.com a la ligne de pensée correcte, mais commet une simple erreur. Sur les 90 réclamations "OK", nous nous attendons à ce que 20% d'entre elles soient incorrectement classées comme fraude, et non 80%. 20% de 90 sont 18, conduisant à 9 réclamations correctement identifiées et 18 réclamations incorrectes, avec un ratio de 1/3, exactement ce que donne la règle de Bayes.
la source
Vous avez raison. La solution que le site Web a publiée est basée sur une lecture erronée du problème en ce que 80% des réclamations non frauduleuses sont classées comme frauduleuses au lieu des 20% donnés.
la source