Maintenant que j'ai rejeté l'hypothèse nulle, quelle est la prochaine étape?

23

J'ai à maintes reprises rejeté ou omis de rejeter l'hypothèse nulle. En cas de non-rejet du cas, vous concluez qu'il n'y a pas suffisamment de preuves pour le rejet et vous "continuez" (c.-à-d., Soit recueillir plus de données, mettre fin à l'expérience, etc.,)

Mais lorsque vous "rejetez" l'hypothèse nulle, fournissant des preuves de l'hypothèse alternative, vous ne pouvez pas vraiment "prouver" que votre hypothèse alternative est vraie.

Alors, quelles sont les prochaines étapes communes une fois que vous rejetez l'hypothèse nulle? Quels outils / techniques adopte-t-on pour «analyser le problème plus en profondeur» afin de rendre les conclusions plus concluantes? Quelles sont les «prochaines étapes» logiques en tant que statisticien justifiant une analyse plus approfondie?

Par exemple:

$H_0: \mu_1 = \mu_0$

$H_1: \mu_1 > \mu_0$ (disons que nous connaissons la direction attendue)

Une fois que nous rejetons l'hypothèse nulle à un certain niveau de signification, nous avons «certaines preuves» pour que l'alternative soit vraie, mais nous ne pouvons pas tirer cette conclusion. Si je veux vraiment tirer cette conclusion de manière concluante (pardonnez le double jeu de mots) que dois-je faire?

Je n'ai jamais réfléchi à cette question pendant mes études de premier cycle, mais maintenant que je fais pas mal de tests d'hypothèses, je ne peux pas m'empêcher de me demander ce qui nous attend :)

hypothesis-testing Doctorat
la source

2

Peut-être intéressant: pourquoi "statistiquement significatif" ne suffit-il pas?

gung - Reinstate Monica

3

D'une manière générale, vos actions après votre décision doivent également être choisies avant le test (comment pouvez-vous peser les coûts des deux types d'erreurs et choisir un sensible ?). À tout le moins, vous devriez probablement passer à la considération de la taille estimée des effets. Le null n'est pas tenable (selon les critères que vous avez choisis - si cela ne vous suffit pas, quelles seraient-elles?), Alors quelles valeurs sont plausibles à la place? Par exemple, dans votre test indiqué, quelles valeurs pour seraient raisonnablement plausibles, compte tenu des données?

α

$\alpha$

μ_{1} - μ_{0}

$\mu_1-\mu_0$

Glen_b -Reinstate Monica

10

Vous pouvez généralement continuer à améliorer votre estimation de tout paramètre que vous pourriez tester avec plus de données. Arrêter la collecte de données une fois qu'un test atteint un certain degré de signification semi-arbitraire est un bon moyen de faire de mauvaises inférences. Le fait que les analystes puissent mal comprendre un résultat significatif comme signe que le travail est fait est l'une des nombreuses conséquences imprévues du cadre de Neyman-Pearson, selon lequel les gens interprètent les valeurs de p comme une cause de rejet ou d'échec de rejet d'un null sans réserve en fonction de de quel côté du seuil critique ils tombent.

Sans considérer les alternatives bayésiennes au paradigme fréquentiste (j'espère que quelqu'un d'autre le fera), les intervalles de confiance continuent d'être plus informatifs bien au-delà du point où une hypothèse nulle de base peut être rejetée. En supposant que la collecte de plus de données rendrait votre test de signification de base encore plus significatif (et ne révélerait pas que votre découverte de signification antérieure était un faux positif), vous pourriez trouver cela inutile parce que vous rejetteriez le null de toute façon. Cependant, dans ce scénario, votre intervalle de confiance autour du paramètre en question continuerait de diminuer, améliorant le degré de confiance avec lequel vous pouvez décrire précisément votre population d'intérêt.

Voici un exemple très simple en r - testant l'hypothèse nulle que pour une variable simulée: $\mu=0$

One Sample t-test

data:  rnorm(99) 
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 -0.377762241 -0.006780574 
sample estimates:
 mean of x 
-0.1922714

t.test(rnorm(99)) $\alpha=.05$ rnorm

set.seed(8);t.test(rnorm(99,1)) $\mu=[.69,1.12]$

$\mu=.8$ mu=.8

set.seed(8);t.test(rnorm(999,1),mu=.8) $\mu=0$ $\mu=.8$ $\mu=[.90,1.02]$ $\mu=.89$

$H_0:\mu=.9$ set.seed(9);t.test(rnorm(999,1),mu=.9)

Tester progressivement des hypothèses nulles plus strictes, ou mieux encore, se concentrer uniquement sur la réduction de vos intervalles de confiance n'est qu'une façon de procéder. Bien sûr, la plupart des études qui rejettent les hypothèses nulles jettent les bases d'autres études qui s'appuient sur l'hypothèse alternative. Par exemple, si je testais une autre hypothèse selon laquelle une corrélation est supérieure à zéro, je pourrais tester des médiateurs ou des modérateurs dans une étude de suivi suivante ... et pendant que j'y suis, je voudrais certainement m'assurer Je pourrais reproduire le résultat d'origine.

Une autre approche à considérer est le test d' équivalence . Si vous souhaitez conclure qu'un paramètre se situe dans une certaine plage de valeurs possibles, et pas seulement différente d'une seule valeur, vous pouvez spécifier cette plage de valeurs dans laquelle vous souhaitez que le paramètre se situe conformément à votre hypothèse alternative conventionnelle et le tester contre un ensemble différent d'hypothèses nulles qui représentent ensemble la possibilité que le paramètre se trouve en dehors de cette plage. Cette dernière possibilité pourrait être plus similaire à ce que vous aviez en tête lorsque vous avez écrit:

Nous avons "quelques preuves" pour que l'alternative soit vraie, mais nous ne pouvons pas tirer cette conclusion. Si je veux vraiment tirer cette conclusion de manière concluante ...

set.seed(8)rnorm(99)rnorm(99,1)-1 $\mu=.8$ $-.2\le\mu\le.2$

require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)

tost $\mu=[-.27,.09]$ rnorm(999) $\mu=[-.09,.01]$

Je pense toujours que l'intervalle de confiance est plus intéressant que le résultat du test d'équivalence. Elle représente ce que les données suggèrent que la moyenne de la population est plus spécifiquement que l'hypothèse alternative, et suggère que je peux être raisonnablement convaincu qu'elle se situe dans un intervalle encore plus petit que celui que j'ai spécifié dans l'hypothèse alternative. Pour démontrer, je vais abuser de mes pouvoirs de simulation irréalistes une fois de plus et "répliquer" en utilisant set.seed(7);tost(rnorm(999),epsilon=.09345092): bien sûr, p = .002.

Nick Stauner
la source

Éclairant! Pourriez-vous s'il vous plaît montrer un exemple rapide et sale de la dernière partie où vous parlez de tests d'équivalence? Il serait vraiment utile de voir à un haut niveau comment cela pourrait être applicable.

PhD

@PhD: terminé. C'est plus "rapide et sale" que "à un niveau élevé", je pense. Je suis moi-même nouveau dans les tests d'équivalence, et comme vous le verrez, je ne suis pas exactement vendu dessus.

Nick Stauner

10

Notez d'abord que @Nick Stauner avance des arguments très importants concernant l' arrêt facultatif . Si vous testez les données à plusieurs reprises au fur et à mesure que des échantillons entrent, en s'arrêtant une fois qu'un test est significatif, vous êtes presque assuré d'un résultat significatif. Cependant, un résultat garanti est pratiquement sans valeur.

Dans ce qui suit, je présenterai mes meilleures tentatives pour élaborer une position déductiviste, sceptique et falsificationniste. Ce n'est certainement pas le seul, mais je pense que c'est plutôt un courant dominant, ou au moins un avec un peu de tradition.

D'après ce que je comprends, Fisher a initialement introduit des tests de signification comme première étape de l'exploration des données - établir quels facteurs pourraient être étudiés plus avant. À moins que l'hypothèse nulle que vous avez mise à l'épreuve ne soit en réalité l'hypothèse critique sur laquelle votre théorie préférée reposait (peu probable), en un sens, votre test initial était plutôt de nature exploratoire. Parmi les étapes possibles après l'exploration, je vois

Une exploration plus approfondie
Estimation des paramètres
Prédiction et confirmation

Une exploration plus approfondie consiste en des tests de suivi où vous essayez de déduire si des variables sur lesquelles vous avez des informations modèrent ou interagissent avec votre effet. Par exemple, l'âge des participants joue peut-être un rôle? Notez que ces analyses doivent être clairement étiquetées comme exploratoires, ou elles reviennent essentiellement à mentir. Si vous tombez sur quelque chose, cela nécessite d'abord une confirmation. En règle générale, vous devez toujours être clair - à la fois dans vos pensées et dans vos écrits - sur le moment où vous travaillez exploratoire et sur la confirmation.

Ensuite, une fois que vous avez établi que vous n'avez aucune confiance dans la valeur d'un paramètre qui est précisément zéro - une fois que vous aurez décidé que vous considérerez pour l'instant le facteur testé comme ayant une certaine influence - une prochaine étape réalisable pourrait être d' estimer davantage la valeur précise du paramètre . Par exemple, pour l'instant, vous n'avez exclu qu'une seule valeur, 0 (en supposant un test bilatéral). Cependant, vos données mettent également en doute de nombreuses autres valeurs possibles.

$\alpha$ $\alpha$

Hume a fait valoir que nous ne pourrions jamais prouver par induction une affirmation correcte. En général, les hypothèses non triviales sont toujours beaucoup plus faciles à falsifier qu'à soutenir; être facile à falsifier en principe (en étant non trivial, faire des prédictions précises), mais pourtant ne pas être falsifié jusqu'à présent est en fait l'une des vertus les plus élevées d'une théorie.

Un CI ne vous permettra donc pas de prouver une valeur spécifique. Cependant, cela réduit l'ensemble des candidats. Peut-être que les seuls candidats laissés en vie vous aident à choisir entre deux théories incompatibles avec H0. Par exemple, peut-être 0 est exclu, mais la théorie 1 prédit une valeur autour de 5, et la théorie 2 prédit une valeur autour de 15. Si votre IC à 95% inclut 5, mais exclut 15, vous avez maintenant également perdu confiance en la théorie 2, mais la théorie 1 reste dans le match. Notez que cela est en fait indépendant du fait que votre test initial soit significatif - même si 0 fait partie des valeurs non rejetées, de nombreuses valeurs seront rejetées. Peut-être pour certains autres chercheurs, certaines de ces valeurs étaient intéressantes.

Après avoir ainsi quelque peu précisé votre compréhension de l'effet à portée de main, vous pourriez idéalement faire une prédiction plus précise pour une expérience de confirmation de suivi qui viserait à tester une hypothèse plus précise que vous pouvez déduire de votre analyse actuelle. Certes, le rejet de votre hypothèse nulle statistique initiale n'était pas si sévère qu'un test de votre hypothèse de recherche d' origine , n'est-ce pas? Beaucoup plus d'explications que celle que vous préférez ne dépendent pas de H0. De plus, comme vous n'avez jamais été en danger d'accepter réellement H0, vous n'étiez pas en mesure de falsifier votre théorie préférée! Vous avez donc besoin d'un test plus sévère. Sans doute, c'est en fait ce que vous voulez; vous ne voulez pas prouver votre théorie, vous voulez la soumettre à des tests de plus en plus sévères, en essayant de la falsifier. En dépit de ces efforts authentiques (mais équitables) pour réfuter, c'est le meilleur qu'une théorie puisse offrir. Mais pour un test sévère, vous avez besoin d'une théorie plus précise que "0 ce n'est pas".

Vous avez maintenant appris plusieurs faits importants concernant une étude de confirmation; par exemple, vous avez une idée de la variance et de l'ampleur de l'effet en question, ce qui vous permet d'estimer la taille d'échantillon requise pour une étude de suivi via une analyse de puissance. Vous pouvez également prédire une valeur spécifique et supposer une région d'équivalence pratique / CORDE autour d'elle. Vous ne pourrez jamais prouver que cette valeur spécifique est la vraie valeur; cependant, si l'IC d'une expérience de suivi relève entièrement de votre CORDE, vous avez des preuves corroborantes de votre théorie (et cela a peut-être causé des ennuis à la concurrence).

jona
la source

6

L'idée que vous ne pouvez pas prouver une proposition scientifique positive, mais seulement la réfuter, est un principe du falsificationnisme de Popper . Je suis d'accord pour dire que vous ne pouvez pas prouver qu'un effet est exactement égal à une valeur ponctuelle donnée (cf., ma réponse ici: pourquoi les statisticiens disent-ils qu'un résultat non significatif signifie "vous ne pouvez pas rejeter le nul" au lieu d'accepter l'hypothèse nulle? ). Mais alors quoi?

$p$ -les valeurs sont généralement mal comprises et les tests d'hypothèse sont utilisés pour des tâches qu'ils ne peuvent logiquement pas accomplir. Par exemple, le test d'hypothèse ne doit pas être utilisé pour générer des hypothèses ou pour sélectionner des variables. De plus, avec les données d'observation, toutes les hypothèses nulles «nulles» doivent être fausses, donc les tester n'a pas de sens. Cependant, les scientifiques ont souvent des hypothèses a priori suggérées par les théories actuelles qu'ils veulent tester, et dans une vraie expérience, un nul nul pourrait être vrai, donc le tester est parfaitement raisonnable. En règle générale, les chercheurs ont des raisons de soupçonner que le zéro pourrait être faux, donc un résultat significatif en conjonction avec une expérience forte est une information valide.

Vous pouvez toujours former des intervalles de confiance pour obtenir une image plus claire de la précision de votre estimation et continuer à collecter plus de données pour augmenter sa précision. Néanmoins, en termes économiques, vous obtiendrez des rendements décroissants . À un moment donné, vous ne croyez tout simplement pas que l'hypothèse nulle fournit une explication raisonnable du phénomène à l'étude. Dans ce cas, pourquoi vous embêtez?

S'il y en a d'autres dans votre domaine qui ne sont pas encore convaincus, mais qui seraient avec plus (des mêmes) données, alors vous pourriez continuer, mais cela semble être une situation inhabituelle. Il me semble plus probable que les sceptiques ont d'autres préoccupations de fond quant à savoir si cette piste d'enquête est suffisamment informative sur la question sous-jacente. Ainsi, vous devez déterminer la nature de ces préoccupations et, si vous pensez qu'elles méritent le travail, rechercher différentes données qui répondent plus adéquatement aux problèmes en question. Par exemple, vous pouvez essayer de reproduire la constatation en utilisant une mesure différente, dans un paramètre différent et / ou avec des conditions de contrôle différentes.

En revanche, tout le monde (plus ou moins) peut être satisfait de vos données et conclusions (félicitations!). Dans de telles circonstances heureuses, vous pouvez suivre deux directions pour faire avancer votre programme de recherche:

Une approche réductionniste chercherait à comprendre les mécanismes qui produisent l'effet que vous avez établi. En termes statistiques, vous rechercherez souvent des médiateurs et / ou un affinement du schéma des forces causales qui relient les variables dont vous avez montré qu'elles étaient liées.
$B$ $C$ $A$ $A$

tl; dr: Si vous avez suffisamment de preuves pour vos fins que la nullité est fausse, déterminez à quelles autres questions théoriquement motivées vous pourriez essayer de répondre et passer à autre chose.

gung - Réintégrer Monica
la source

0

Je pense que j'aimerais ajouter que votre question me rappelle mon moi plus jeune: je voulais désespérément prouver mon hypothèse parce que je n'ai pas comment écrire "l'hypothèse était fausse" d'une manière qui a aidé à améliorer le papier que j'écrivais . Mais alors j'ai réalisé que «ma putain d'hypothèse absolument charmante ne peut pas être prouvée» a aussi une valeur scientifique: 1. Réfléchissez à la raison pour laquelle votre hypothèse ne tient pas la route. C'est un problème avec les données, ou probablement quelque chose avec l'hypothèse elle-même? 2. Quelles sont les conséquences pour les recherches plus anciennes?

À titre d'exemple: j'ai écrit ma thèse de maîtrise sur le conflit ethnique en utilisant un ensemble de données alors nouveau qui était plus grand que les ensembles de données précédents. J'ai testé plusieurs hypothèses contestées comme «le pétrole alimente les conflits ethniques» ou «les regrets d'alpinisme sont plus susceptibles d'expérimenter les conflits». Je n'ai pas pu prouver que le pétrole alimente les conflits ethniques - mais j'ai écrit deux pages sur l'impact de la qualité de l'ensemble de données sur le pétrole disponible sur l'analyse (l'ensemble de données lui-même est une série chronologique, l'ensemble de données sur les puits de pétrole ne l'est pas). La thèse "les montagnes provoquent des conflits" a également été un échec - mais fructueux: des recherches antérieures ont analysé cette thèse avec des données nationales (par exemple, la hauteur moyenne du pays),

Gardez à l'esprit: réfuter une hypothèse n'est pas un échec mais un résultat aussi bon qu'une hypothèse prouvée.

Christian Sauer
la source

Les hypothèses que vous mentionnez ne sont pas des hypothèses nulles (conventionnelles). Je pense que vous avez peut-être manqué le but du PO.

Nick Stauner

0

Il existe une méthode pour peigner les probabilités entre les études décrites ici . Vous ne devez pas appliquer la formule à l'aveugle sans tenir compte de la structure des résultats.

David Lane
la source

Maintenant que j'ai rejeté l'hypothèse nulle, quelle est la prochaine étape?

Réponses: