Comment spécifier l'hypothèse nulle dans le test d'hypothèse

15

Quelle est une bonne règle de base pour savoir comment choisir la question pour l'hypothèse nulle. Par exemple, si je veux vérifier si l'hypothèse B est vraie, dois-je utiliser B comme nulle, B comme hypothèse alternative ou PAS B comme nulle? J'espère que la question est claire. Je sais que cela a quelque chose à voir avec l'erreur que je veux minimiser (Type I?), Mais j'oublie toujours comment ça se passe, car je n'ai pas d'intuition claire pour cela. Merci.

Nestor
la source
Les gars ... excellentes réponses. Tout utile. Cela me surprend toujours lorsque j'obtiens ce niveau de collaboration sur le Web, simplement parce que les gens sont intéressés. Ouah merci !
Nestor

Réponses:

17

Une règle de base d'un bon conseiller à moi était de définir l'hypothèse nulle sur le résultat que vous ne voulez pas être vrai, c'est-à-dire le résultat dont vous voulez montrer le contraire direct.

Exemple de base: supposons que vous ayez développé un nouveau traitement médical et que vous vouliez montrer qu'il est en effet meilleur que le placebo. Vous définissez donc l'hypothèse nulle nouveau traitement est égal ou pire que le placebo et l'hypothèse alternative H 1 : = le nouveau traitement est meilleur que le placebo.H0:=H1:=

En effet, au cours d'un test statistique, vous rejetez l'hypothèse nulle (et privilégiez l'hypothèse alternative) ou vous ne pouvez pas la rejeter. Puisque votre "objectif" est de rejeter l'hypothèse nulle, vous la définissez sur le résultat que vous ne voulez pas être vrai.

Note latérale: Je suis conscient qu'il ne faut pas mettre en place un test statistique pour le tordre et le casser jusqu'à ce que l'hypothèse nulle soit rejetée, le langage informel n'a été utilisé que pour rendre cette règle plus facile à retenir.

Cela peut également être utile: quelle est la signification des valeurs p et des valeurs t dans les tests statistiques? et / ou Qu'est-ce qu'une bonne introduction aux tests d'hypothèses statistiques pour les informaticiens?

steffen
la source
6

Si l'hypothèse B est l'hypothèse intéressante, vous pouvez prendre non-B comme hypothèse nulle et contrôler, sous la valeur nulle, la probabilité de l'erreur de type I pour rejeter à tort non-B au niveau . Rejeter le non-B est alors interprété comme une preuve en faveur de B parce que nous contrôlons l'erreur de type I, il est donc peu probable que le non-B soit vrai. Confus ... ? α

Prenons l'exemple du traitement contre l'absence de traitement dans deux groupes d'une population. L'hypothèse intéressante est que le traitement a un effet, c'est-à-dire qu'il y a une différence entre le groupe traité et le groupe non traité en raison du traitement. L'hypothèse nulle est qu'il n'y a pas de différence et nous contrôlons la probabilité de rejeter à tort cette hypothèse. Ainsi, nous contrôlons la probabilité de conclure à tort qu'il existe un effet de traitement lorsqu'il n'y a pas d'effet de traitement. L'erreur de type II est la probabilité d'accepter à tort la valeur nulle lorsqu'il y a un effet de traitement.

La formulation ci-dessus est basée sur le cadre de Neyman-Pearson pour les tests statistiques, où les tests statistiques sont considérés comme un problème de décision entre les cas, le nul et l'alternative. Le niveau est la fraction de fois où nous commettons une erreur de type I si nous répétons (indépendamment) le test. Dans ce cadre, il n'y a vraiment aucune distinction formelle entre le nul et l'alternative. Si nous échangeons le nul et l'alternative, nous échangeons la probabilité d'erreurs de type I et de type II. Cependant, nous n'avons pas contrôlé la probabilité d'erreur de type II ci-dessus (cela dépend de la taille de l'effet du traitement), et en raison de cette asymétrie, nous pouvons préférer dire que nous ne rejetons pasαl'hypothèse nulle (au lieu de cela, nous acceptons l'hypothèse nulle). Ainsi, nous devons être prudents avant de conclure que l'hypothèse nulle est vraie juste parce que nous ne pouvons pas la rejeter.

ppppp-la valeur n'a pas besoin d'être justifiée par un nombre (imaginaire) répété de décisions.

Aucun des deux cadres n'est sans problème et la terminologie est souvent mélangée. Je peux recommander le livre Preuve statistique: un paradigme de vraisemblance de Richard M. Royall pour un traitement clair des différents concepts.

NRH
la source
5

La réponse "fréquentiste" consiste à inventer une hypothèse nulle de la forme "pas B" et ensuite à argumenter contre "pas B", comme dans la réponse de Steffen. C'est l'équivalent logique de l'argument "Vous avez tort, donc je dois avoir raison". C'est le genre de raisonnement utilisé par le politicien (c'est-à-dire que l'autre parti est mauvais, donc nous sommes bons). Il est assez difficile de traiter plus d'une alternative avec ce type de raisonnement. C'est parce que l'argument "vous avez tort, donc j'ai raison" n'a de sens que lorsqu'il n'est pas possible que les deux se trompent, ce qui peut certainement se produire lorsqu'il existe plusieurs hypothèses alternatives.

La réponse «bayésienne» consiste simplement à calculer la probabilité de l'hypothèse que vous êtes intéressé à tester, sous réserve des preuves dont vous disposez. Cela contient toujours des informations préalables, qui sont simplement les hypothèses que vous avez faites pour bien poser votre problème (toutes les procédures statistiques reposent sur des informations préalables, celles bayésiennes les rendent simplement plus explicites). Il se compose également généralement de certaines données, et nous avons par théorème de bayes

P(H0|DI)=P(H0|I)P(D|H0I)kP(Hk|I)P(D|HkI)

H0H0est "l'alternative". Ce ne sont que les connotations impliquées par les mots «nul» et «alternatif» qui les font paraître différents. Vous pouvez montrer l'équivalence dans le cas du "Lemme de Neyman Pearson" quand il y a deux hypothèses, car il s'agit simplement du rapport de vraisemblance, qui est donné à la fois en prenant la cote du théorème de bayes ci-dessus:

P(H0|DI)P(H1|DI)=P(H0|I)P(H1|I)×P(D|H0I)P(D|H1I)=P(H0|I)P(H1|I)×Λ

H0Λ>Λ~Λ~H1L2L1L1L2

En bref, si vous utilisez le rapport de vraisemblance pour tester votre hypothèse, peu importe ce que vous appelez l'hypothèse nulle. Passer le null à l'alternative ne fait que changer la décision enΛ1<Λ~1

probabilitéislogique
la source
3
Ce premier paragraphe est une parodie de l'approche classique du test d'hypothèse.
whuber
Le test d'hypothèse n'est pas toujours une question de décision. Il est souvent formulé comme tel, mais en science, la question peut être de documenter que le null est faux et de combien. Je considère le jeu de mots comme un rappel de cet objectif. De ce point de vue, ne pas rejeter n'est pas une décision d'accepter mais un manque de preuves dans les données à rejeter.
NRH
@NRH - Je suis d'accord, mais ce n'est pas toujours l'objectif. Si vous voulez tester une nouvelle théorie, vous voulez savoir quelle est la probabilité qu'elle soit vraie, autant vous voulez savoir quelle est la probabilité qu'elle soit fausse. Et bien qu'un test d'hypothèse ne conduise pas toujours directement à une décision, il semble être une perte de temps de s'embêter à le tester s'il n'aboutira pas à une décision. En fait, vous formulez déjà une décision dans votre commentaire: "faites comme si le nul était faux". Il n'y a qu'une seule alternative à cela: "agir comme si la valeur null était vraie". S'il y a plus d'une alternative, alors l'hypothèse ...
probabilitéislogic
(suite) .. le test n'a pas été bien défini et est pour ainsi dire «mal posé mathématiquement». Il peut y avoir une grande incertitude sur cette décision, mais il n'y a pas d'autres alternatives, le null ne peut pas être faux et pas faux en même temps, sauf si vous avez un problème mal posé / ambigu. Mais dans ce cas, le test d'hypothèse est inutile - il ne peut y avoir de conclusion correcte.
probabilitéislogique
(continuant la diatribe) - et si le but est de simplement quantifier les preuves par rapport au nul, alors vous n'avez pas besoin d'un test d'hypothèse. C'est à cela que sert une valeur de p - vous n'avez pas besoin d'accepter ou de rejeter, il suffit de signaler sa valeur.
probabilitéislogic
1

L'hypothèse nulle devrait généralement supposer que les différences dans une variable de réponse sont dues uniquement à l'erreur.

Par exemple, si vous souhaitez tester l'effet d'un facteur AxH0Ax

Ne pas rejeter cette hypothèse nulle serait interprété comme:

1) toutes les différences xsont dues à l'erreur seule et non Aou,

2) que les données sont insuffisantes pour détecter une différence même s'il en existe une (voir erreur de type 2 ci-dessous).

Le rejet de cette hypothèse nulle serait interprété comme l'hypothèse alternative: HaAx

H0AxH0 même s'il est faux - c'est-à-dire que vous ne concluez pas correctement aucun effet Asur xmême s'il en existe un.

DQdlM
la source
1
Le troisième paragraphe semble impliquer que le fait de ne pas rejeter le null signifie que le null est vrai, mais clairement c'est faux: l'alternative pourrait être vraie (et l'est généralement), mais ne diffère pas suffisamment du null pour être détecté avec les données données.
whuber
@whuber - bon point, je vais modifier la réponse pour refléter cela
DQdlM