Pourquoi nous rejetons l'hypothèse nulle au niveau 0,05 et non au niveau 0,5 (comme nous le faisons dans la classification)

11

Le test d'hypothèse s'apparente à un problème de classification. Disons que nous avons 2 étiquettes possibles pour une observation (sujet) - Coupable vs Non coupable. Que l'hypothèse non coupable soit nulle. Si nous considérions le problème du point de vue de la classification, nous formerions un classificateur qui prédirait la probabilité que le sujet appartienne à chacune des 2 classes, compte tenu des données. Nous choisirions alors la classe ayant la probabilité la plus élevée. Dans ce cas, une probabilité de 0,5 serait le seuil naturel. Nous pouvons modifier le seuil au cas où nous affecterions des coûts différents aux erreurs False Positive vs. False Negative. Mais rarement, nous irions aussi loin que de fixer le seuil à 0,05, c'est-à-dire d'affecter le sujet à la classe "coupable" uniquement si la probabilité est de 0,95 ou plus. Mais si je comprends bien, c'est ce que nous faisons en tant que pratique standard lorsque nous considérons le même problème comme un problème de test d'hypothèse. Dans ce dernier cas, nous n'attribuerons pas le label "Non coupable" - équivalent à l'attribution du label "Coupable" - uniquement si la probabilité d'être "Non coupable" est inférieure à 5%. Et peut-être que cela pourrait avoir du sens si nous voulons vraiment éviter de condamner des innocents. Mais pourquoi cette règle devrait-elle prévaloir dans tous les domaines et dans tous les cas?

Décider quelle hypothèse adopter équivaut à définir un estimateur de la vérité compte tenu des données. Dans l'estimation du maximum de vraisemblance, nous acceptons l'hypothèse la plus probable compte tenu des données - pas nécessairement bien que très majoritairement. Voir le graphique ci-dessous:

En utilisant une approche de vraisemblance maximale, nous préférerions l'hypothèse alternative dans cet exemple si la valeur du prédicteur était supérieure à 3, par exemple 4, bien que la probabilité que cette valeur ait été dérivée de l'hypothèse nulle aurait été supérieure à 0,05.

Et tandis que l'exemple avec lequel j'ai commencé le poste est peut-être chargé d'émotion, nous pourrions penser à d'autres cas, par exemple une amélioration technique. Pourquoi devrions-nous donner un tel avantage au statu quo lorsque les données nous indiquent que la probabilité que la nouvelle solution soit une amélioration est supérieure à la probabilité qu'elle ne l'est pas?

probability hypothesis-testing classification p-value rf7
la source

1

Il est essentiellement basé sur la vision de RA Fisher des statistiques en tant qu'outil scientifique (croyez une hypothèse à la fois, jusqu'à ce que vous ayez des preuves suffisantes) et sur son expérience selon laquelle écarts-types semblaient fournir un équilibre utile entre le rejet trop fréquent de l'hypothèse nulle et pas assez souvent

2

$2$

Henry

1

L'OP a raison de dire que la prémisse est défectueuse ici, il n'y a rien dans la procédure NHST classique qui nous oblige à rejeter à 5%. Il s'agit d'un phénomène culturel d'une valeur discutable.

Matthew Drury

1

@Matthew Drury: "choisir des personnes de grande taille pour les équipes de basket-ball" n'est pas vicié comme stratégie simplement parce qu'il n'inclut pas la taille comme règle précise. Bien qu'il existe de nombreux autres problèmes, comme vous le savez, laisser l'utilisateur choisir où tracer la ligne est sans doute une caractéristique de NHST. Mon aversion pour le risque n'excluait pas les récents voyages à Paris ou à Londres mais elle exclurait les visites dans de nombreux pays: les autres traceraient la ligne différemment. Je conviens qu'il existe un phénomène culturel [sic] dans la mesure où différents groupes ont des conventions différentes sur le moment de rejeter les hypothèses.

Nick Cox

Je ne suis pas sûr de ce que vous lisez dans mon commentaire Nick. Je suppose que j'aurais dû être plus clair. Je souhaite juste que les gens réfléchissent davantage à la définition de seuils spécifiques aux problèmes.

Matthew Drury

Vous semblez (ed) dire que la NHST est défectueuse car elle n'implique pas un niveau de rejet spécifique. Je suis d'accord avec vous sur les seuils spécifiques au problème.

Nick Cox

17

Disons que vous vous retrouvez au tribunal et que vous ne l'avez pas fait. Pensez-vous qu'il est juste que vous ayez encore 50% de chances d'être reconnu coupable? Une probabilité de 50% d'être innocent est-elle «coupable hors de tout doute raisonnable »? Pensez-vous qu'il est juste que vous ayez 5% de chances d'être reconnu coupable même si vous ne l'avez pas fait? Si j'étais en cour, je considérerais que 5% ne sont pas assez conservateurs.

Vous avez raison, le 5% est arbitraire. Nous pourrions tout aussi bien choisir 2%, ou 1%, ou si vous êtes ringard % ou %. Il y a des gens qui sont prêts à accepter 10%, mais 50% ne seront jamais acceptables. $\pi$ $e$

En réponse à votre modification de la question:

Votre idée serait raisonnable si toutes les hypothèses étaient créées égales. Cependant, ce n'est pas le cas. Nous nous soucions généralement de l'hypothèse alternative, nous renforçons donc notre argument si nous choisissons un faible . En ce sens, l'exemple que vous avez choisi à l'origine illustre bien ce point. $\alpha$

Maarten Buis
la source

6

+1 "les 5% sont arbitraires". Statisticien universitaire: "nous enseignons parce que c'est ce qu'ils utilisent dans l'industrie". Statisticien en industrie: "nous utilisons parce que c'est ce qu'on nous a enseigné à l'université".

α = 0.05

$\alpha = 0.05$

α = 0.05

$\alpha = 0.05$

knrumsey

8

C'est comme vous le dites - cela dépend de l'importance des erreurs False Positive et False Negative.

Dans l'exemple que vous utilisez, comme Maarten Buis l'a déjà répondu, être condamné s'il y a 50% de chances que vous soyez innocent n'est pas juste.

Lorsque vous l'appliquez à la recherche, regardez de cette façon: Imaginez que vous voulez savoir si un certain nouveau médicament aide contre une certaine maladie. Dites que vous trouvez une différence entre votre groupe de traitement et votre groupe témoin en faveur du traitement. Génial! Le médicament doit fonctionner, non? Vous pouvez rejeter l'hypothèse nulle selon laquelle le médicament ne fonctionne pas. Votre valeur p est de 0,49! Il y a plus de chances que l'effet que vous avez trouvé soit basé sur la vérité plutôt que par hasard!
Considérez maintenant ceci: le médicament a des effets indésirables désagréables. Vous ne voulez le prendre que si vous êtes convaincu que cela fonctionne. Et êtes-vous? Non, car il y a encore 51% de chances que la différence que vous avez trouvée entre les deux groupes soit purement fortuite.

Je peux imaginer qu'il existe des domaines où vous êtes satisfait, par exemple 10%. J'ai vu des articles où 10% est accepté. J'ai également vu des articles où ils ont choisi 2%. Cela dépend de l'importance que vous pensez que vous êtes convaincu que le rejet de l'hypothèse nulle sera basé sur la vérité et non sur le hasard. Je peux difficilement imaginer une situation où vous êtes satisfait avec 50% de chances que la différence que vous avez trouvée soit basée sur la pure chance.

Tami
la source

5

D'autres réponses ont souligné que tout dépend de la façon dont vous appréciez relativement les différentes erreurs possibles et que, dans un contexte scientifique, est potentiellement tout à fait raisonnable, un critère encore plus strict est également potentiellement tout à fait raisonnable, mais qu'il est peu probable que être raisonnable. Tout cela est vrai, mais permettez-moi d'aller dans une direction différente et de contester l'hypothèse qui se cache derrière la question. $.05$ $.50$

Vous prenez "[h] le test d'hypothèse [pour être] semblable à un problème de classification". La similitude apparente ici n'est que superficielle; ce n'est pas vraiment vrai dans un sens.

Dans un problème de classification binaire, il n'y a vraiment que deux classes; cela peut être établi absolument et a priori. Le test d'hypothèse n'est pas comme ça. Votre figure affiche une hypothèse nulle et alternative car elles sont souvent dessinées pour illustrer une analyse de puissance ou la logique du test d'hypothèse dans une classe Stats 101. La figure implique qu'il y a une hypothèse nulle et une hypothèse alternative. Bien qu'il soit (généralement) vrai qu'il n'y a qu'une seule valeur nulle, l'alternative n'est pas fixée pour n'être qu'une seule valeur ponctuelle de la différence moyenne (disons). Lors de la planification d'une étude, les chercheurs choisissent souvent une valeur minimale qu'ils souhaitent pouvoir détecter. Disons que dans une étude particulière, il s'agit d'un décalage moyen de $.67$ SD. Ils conçoivent et alimentent donc leur étude en conséquence. Imaginez maintenant que le résultat est significatif, mais ne semble pas être une valeur probable. Eh bien, ils ne s'en vont pas! Les chercheurs concluraient néanmoins que le traitement fait une différence, mais ajustent leur croyance sur l'ampleur de l'effet en fonction de leur interprétation des résultats. S'il y a plusieurs études, une méta-analyse aidera à affiner le véritable effet à mesure que les données s'accumulent. En d'autres termes, l'alternative qui est proposée lors de la planification des études (et qui est dessinée dans votre figure) n'est pas vraiment une alternative singulière telle que les chercheurs doivent choisir entre elle et le zéro comme seules options. $.67$

Allons-y d'une manière différente. On pourrait dire que c'est assez simple: soit l'hypothèse nulle est vraie soit fausse, donc il n'y a vraiment que deux possibilités. Cependant, le null est généralement une valeur en points (à savoir, ) et le null étant faux signifie simplement que toute valeur autre que exactement est la vraie valeur. Si nous rappelons qu'un point n'a pas de largeur, essentiellement de la droite numérique correspond à l'alternative étant vraie. Ainsi, à moins que votre résultat observé ne soit (c.-à-d. De zéro à une décimale infinie), votre résultat sera plus proche d'une valeur différente de qu'il ne l'est de (c.-à-d. $0$ $0$ $100\%$ $0.\bar{0}$ $0$ $0$ $p<.5$ ). En conséquence, vous finiriez toujours par conclure que l'hypothèse nulle est fausse. Pour rendre cela explicite, la prémisse erronée de votre question est qu'il existe une seule ligne bleue significative (comme illustré dans votre figure) qui peut être utilisée comme vous le suggérez.

Cependant, ce qui précède n'est pas toujours le cas. Il arrive parfois qu'il y ait deux théories faisant des prévisions différentes sur un phénomène où les théories sont suffisamment bien mathématisées pour produire des estimations ponctuelles précises et des distributions d'échantillonnage probables. Ensuite, une expérience critique peut être conçue pour les différencier. Dans un tel cas, aucune théorie ne doit être considérée comme nulle et le rapport de vraisemblance peut être considéré comme le poids de la preuve favorisant l'une ou l'autre théorie. Cette utilisation serait analogue à prendre comme alpha. Il n'y a aucune raison théorique pour laquelle ce scénario ne pourrait pas être le plus courant en science, il se trouve simplement qu'il est très rare qu'il y ait deux de ces théories dans la plupart des domaines en ce moment. $.50$

gung - Réintégrer Monica
la source

3

Pour ajouter aux très bonnes réponses précédentes: Oui, 5% est arbitraire, mais quel que soit le seuil spécifique que vous choisissez, il doit être raisonnablement petit, sinon le test d'hypothèse n'a pas de sens.

Vous recherchez un effet et souhaitez vous assurer que vos résultats ne sont pas uniquement dus au hasard. Dans cette mesure, vous définissez un niveau de signification qui dit essentiellement "S'il n'y avait en fait aucun effet (l'hypothèse nulle est vraie), ce serait la probabilité d'obtenir de tels résultats (ou plus extrêmes) par pur hasard" . Une valeur trop élevée entraînera de nombreux faux positifs et compromettra votre capacité à obtenir une réponse significative à votre question de recherche.

Comme toujours, il y a un compromis à faire, donc la communauté des chercheurs a trouvé cette ligne directrice de 5%. Mais c'est différent dans différents domaines. En physique des particules, c'est plus comme 0,00001% ou quelque chose.

khaozavr
la source

0

Les tests de classification et d'hypothèse sont différents et ont été utilisés différemment . Dans la plupart des cas, les gens utilisent

"Classification" "pour effectuer la tâche de" classer quelque chose selon des qualités ou des caractéristiques communes ".
Et utilisez des «tests d'hypothèses» pour vérifier certaines «découvertes importantes».

Notez que, dans les tests d'hypothèses, l '"hypothèse nulle" est du "bon sens", mais si nous pouvons rejeter les hypothèses nulles, nous avons cependant une pause.

C'est pourquoi nous avons des critères plus stricts dans les tests d'hypothèses. Pensez par exemple au développement de nouveaux drags, nous voulons être très attentifs à dire que c'est significatif et efficace.

Haitao Du
la source

Pourquoi nous rejetons l'hypothèse nulle au niveau 0,05 et non au niveau 0,5 (comme nous le faisons dans la classification)

Réponses: