Supposons que j'ai un algorithme qui classe les choses en deux catégories. Je peux mesurer la précision de l'algorithme sur, disons, 1000 choses de test - supposons que 80% des choses sont classées correctement.
Supposons que je modifie l'algorithme de manière à ce que 81% des choses soient classées correctement.
Les statistiques peuvent-elles me dire si mon amélioration de l'algorithme est statistiquement significative? Le concept de signification statistique est-il pertinent dans cette situation? Veuillez m'orienter vers des ressources qui pourraient être pertinentes.
Merci beaucoup.
Comme l'a dit Erik, oui, vous pouvez vérifier cela pour la signification statistique. Cependant, réfléchissez un instant exactement à ce que vous voulez vérifier. Je pense qu'une question plus intéressante pourrait être de se demander dans quelle mesure il est probable que l'algorithme prétendument "amélioré" soit meilleur (ou significativement meilleur) que l'original, étant donné les données d'une différence observée de 1%. Poser des questions en termes de «signification statistique» tend à conduire au type de question opposé: étant donné que les deux algorithmes sont les mêmes, y a-t-il moins de 5% de chances d'observer une amélioration d'au moins autant?
Pour moi, cette dernière question est à l'envers, mais elle est devenue en quelque sorte la norme. Vous pouvez consulter Wikipedia sur la controverse dans les tests d'hypothèses statistiques . Vous pourriez par la suite vous intéresser à l'inférence bayésienne . Si vous voulez vraiment entrer dans l'analyse des données bayésiennes, vous pouvez consulter "Bayesian Data Analysis" de Gelman et al ou consultez cette question .
la source
Application de la réponse d' Erik à celle de Michael :
Vous pouvez faire le même genre de réflexion auquel Erik fait référence lors du choix de la mesure de performance.
Je trouve utile de faire référence à différentes mesures de ce type par les questions auxquelles elles répondent (ici dans le langage de diagnostic médical que je connais le mieux - mais peut-être pouvez-vous simplement remplacer le patient par texte et la maladie par spam ;-)):
Sensibilité: étant donné que le patient a vraiment la maladie, quelle est la probabilité que le classificateur s'en rende compte?
Spécificité: étant donné que le patient n'a vraiment pas la maladie, quelle est la probabilité que le classificateur s'en rende compte?
Valeur prédictive positive: étant donné que le classificateur prétend que le patient est malade, quelle est la probabilité que le patient soit réellement atteint de la maladie?
Valeur prédictive négative: étant donné que le classificateur prétend que le patient n'est pas malade, quelle est la probabilité que le patient ne souffre pas vraiment de la maladie?
Comme vous le voyez, les valeurs prédictives sont ce qui intéresse vraiment les médecins et les patients. Cependant, presque tout le monde caractérise son classificateur par sa sensibilité et sa spécificité. La raison en est que les valeurs prédictives doivent tenir compte de la prévalence de la maladie, et cela peut varier énormément (ordres de grandeur!) Pour différents types de patients.
Plus sur le sujet de votre question:
Je parie que vous avez raison de vous inquiéter.
Prenant les deux scénarios d'Erik dans un exemple:
Voici les échantillons de test indépendants:
(notez que ce test était bilatéral, en supposant que les deux classificateurs auraient été publiés même si les résultats avaient été inversés ...)
Voici la meilleure situation possible: test apparié, et le nouveau classificateur convient à tous les échantillons, l'ancien a raison, plus 10 autres:
(La valeur de p reste inférieure à 0,05 magique tant que pas plus de 10 échantillons sur les 1000 ont été prédits différemment par les deux classificateurs).
Même si les valeurs de p sont la bonne réponse à la mauvaise question, il y a des indications que c'est un peu un endroit restreint.
Cependant, compte tenu de la pratique scientifique habituelle, c'est-à-dire qu'un nombre inconnu (non publié) de nouvelles fonctionnalités a été testé, et que seule celle qui fonctionnait légèrement mieux a été publiée, l'endroit devient encore plus restreint. Et puis, le classificateur à 80% pourrait bien être le successeur d'un classificateur à 79% ...
Si vous aimez lire l'allemand, il y a de très beaux livres de Beck-Bornhold et Dubben. Si je me souviens bien, Mit an Wahrscheinlichkeit grenzender Sicherheit a une très belle discussion sur ces problèmes. (Je ne sais pas s'il y a une édition anglaise, une traduction plutôt littérale du titre est "Avec une certitude à la limite de la probabilité")
la source
Je déconseillerais fortement l'utilisation de toute règle de notation incorrecte discontinue (un score d'exactitude tel que la sensibilité, la spécificité, la proportion classée correctement que lorsque optimisé donne un modèle faux) et utiliserais plutôt des tests de rapport de vraisemblance ou des tests F partiels pour la valeur ajoutée du nouveau variables.
L'une des nombreuses façons de voir les problèmes avec une proportion correctement classée est que si la proportion globale dans une catégorie est de 0,9, vous aurez raison 0,9 fois en ignorant les données et en classant chaque observation comme étant dans cette catégorie.
la source