L'extrait suivant est tiré de l'entrée Quelles sont les différences entre les tests unilatéraux et bilatéraux? , sur le site d'aide des statistiques de UCLA.
... considérer les conséquences de l'absence d'un effet dans l'autre sens. Imaginez que vous avez développé un nouveau médicament qui, à votre avis, constitue une amélioration par rapport à un médicament existant. Vous souhaitez optimiser votre capacité à détecter l'amélioration, vous optez donc pour un test unilatéral. Ce faisant, vous ne testez pas la possibilité que le nouveau médicament soit moins efficace que le médicament existant.
Après avoir appris les bases absolues des tests d'hypothèses et en arriver à la partie relative aux tests à un ou deux tests ... je comprends les bases du calcul et la capacité de détection accrue des tests à un test à la queue, etc. autour d'une chose ... Quel est le point? Je ne comprends vraiment pas pourquoi vous devriez diviser votre alpha entre les deux extrêmes, alors que votre résultat d'échantillon ne peut se situer que dans l'un ou l'autre, ou dans les deux.
Prenez l'exemple de scénario à partir du texte cité ci-dessus. Comment pourriez-vous éventuellement "ne pas tester" un résultat dans la direction opposée? Vous avez votre échantillon moyen. Vous avez votre population moyenne. Une simple arithmétique vous dit lequel est le plus élevé. Qu'y a-t-il à tester ou à ne pas tester dans la direction opposée? Qu'est-ce qui vous empêche de repartir de zéro avec l'hypothèse inverse si vous voyez clairement que la moyenne de l'échantillon est bien différente dans l'autre sens?
Une autre citation de la même page:
Le choix d'un test unilatéral après l'exécution d'un test bilatéral qui n'a pas permis de rejeter l'hypothèse nulle n'est pas approprié, même si le test bilatéral était "proche" de sa signification.
Je suppose que cela s'applique également à la permutation de la polarité de votre test unilatéral. Mais comment ce résultat "trafiqué" est-il moins valable que si vous aviez simplement choisi le test unilatéral correct en premier lieu?
Clairement, il me manque une grande partie de l'image ici. Tout semble trop arbitraire. Ce qui est, je suppose, en ce sens que ce qui dénote "statistiquement significatif" - 95%, 99%, 99,9% ... est arbitraire pour commencer.
la source
Réponses:
Pensez aux données comme à la pointe de l'iceberg - tout ce que vous pouvez voir au-dessus de l'eau est la pointe de l'iceberg, mais en réalité, vous souhaitez en savoir plus sur l'iceberg dans son ensemble.
Les statisticiens, les spécialistes des données et les autres personnes travaillant avec des données veillent à ce que ce qu'ils voient au-dessus de la ligne de flottaison n'influence pas et ne biaise pas leur évaluation de ce qui est caché sous la ligne de flottaison. Pour cette raison, dans une situation de test d'hypothèses, ils ont tendance à formuler leurs hypothèses nuls et alternatives avant de voir la partie émergée de l'iceberg, en se basant sur leurs attentes (ou leur absence) de ce qui pourrait arriver s'ils pouvaient voir l'iceberg dans sa totalité. .
Examiner les données pour formuler vos hypothèses est une mauvaise pratique et doit être évitée - c'est comme si vous mettiez la charrue avant les boeufs. Rappelez-vous que les données proviennent d'un seul échantillon sélectionné (en utilisant, espérons-le, un mécanisme de sélection aléatoire) dans la population / l'univers cible. L'échantillon a ses propres particularités, qui peuvent ou non refléter la population sous-jacente. Pourquoi voudriez-vous que vos hypothèses reflètent une tranche étroite de la population plutôt que la population entière?
Une autre façon de penser à cela est que chaque fois que vous sélectionnez un échantillon dans votre population cible (en utilisant un mécanisme de sélection aléatoire), l'échantillon produit des données différentes. Si vous utilisez les données (ce que vous ne devriez pas !!!) pour guider votre spécification des hypothèses nulles et alternatives, vos hypothèses seront omniprésentes sur la carte, essentiellement en fonction des caractéristiques particulières de chaque échantillon. Bien sûr, dans la pratique, nous n’en tirons qu’un échantillon, mais il serait très inquiétant de savoir que si quelqu'un d'autre effectue la même étude avec un échantillon différent de la même taille, il devra changer ses hypothèses pour refléter les réalités de leur échantillon.
Un de mes professeurs de troisième cycle avait l'habitude de dire de façon très sage: "L'échantillon nous importe peu, sauf qu'il nous dit quelque chose sur la population" . Nous voulons formuler nos hypothèses pour en savoir plus sur la population cible, et non sur l'échantillon que nous avons sélectionné pour cette population.
la source
Je pense que lorsque vous examinez votre question, il est utile d’essayer de garder à l’esprit les objectifs de test de signification de l'hypothèse nulle (NHST); c'est juste un paradigme (bien que très populaire) pour l'inférence statistique, et les autres ont aussi leurs propres forces (par exemple, voir ici pour une discussion de NHST par rapport à l'inférence Bayesienne). Quel est le gros avantage de NHST?: Contrôle des erreurs à long terme . Si vous suivez les règles de NHST (et parfois c'est un très gros si), alors vous devriez avoir une bonne idée de la probabilité que vous vous trompiez avec les déductions que vous faites, à long terme.
L’une des règles strictes de NHST est que, sans autre modification de votre procédure de test, vous ne pouvez examiner que votre test d’intérêt. Les chercheurs dans la pratique ignorent souvent (ou ne sont pas au courant) cette règle (voir Simmons et al., 2012), la réalisation de multiples tests après l' ajout d' ondes de données, vérifier leurp - les valeurs après avoir ajouté / retiré des variables à leurs modèles, etc. ils sont parfaitement conscients que les résultats significatifs ont plus de chances d'être publiés que les résultats non significatifs (pour des raisons à la fois erronées et légitimes; Rosenthal, 1979). Les chercheurs sont donc souvent motivés pour ajouter des données / modifier des modèles / sélectionner des valeurs éloignées et les tester à plusieurs reprises jusqu'à ce qu'ils "découvrent" un effet significatif (voir John et al., 2011, une bonne introduction).
Un problème contre - intuitif est créé par les pratiques ci - dessus, décrit bien dans Dienes (2008): si les chercheurs continueront à ajuster leurs échantillons / conception / modèles jusqu'à ce que la signification est atteint, alors les taux souhaités d'erreur à long terme des faux positifs (souvent ) et les résultats faussement négatifs (souvent ) s'approcheront respectivement de 1.0 et 0.0 (c'est-à-dire que vous rejetterez toujours , que ce soit faux ou vrai).α=.05 β=.20 H0
Dans le cadre de vos questions spécifiques, les chercheurs utilisent des tests bilatéraux par défaut lorsqu'ils ne souhaitent pas effectuer de prédictions particulières en ce qui concerne la direction de l'effet. S'ils se trompent et qu'ils effectuent un test unilatéral dans la direction de l'effet, leur long terme sera gonflé. S'ils examinent des statistiques descriptives et effectuent un test unilatéral basé sur leur observation de la tendance, leur long terme sera gonflé. Vous pensez peut-être que ce n'est pas un gros problème, dans la pratique, que les valeurs perdent leur signification à long terme, mais si elles ne la retiennent pas, il faut se demander pourquoi vous utilisez une approche permettant de déduire que donne la priorité au contrôle d'erreur à long terme.α pα α p
Enfin (et par préférence personnelle), j'aurais moins de problème si vous avez d'abord effectué un test bilatéral, l'avez trouvé non significatif, puis effectué le test unilatéral dans la direction implicite du premier test, et l'a trouvé significatif si (et seulement si) vous avez effectué une réplication de confirmation stricte de cet effet dans un autre échantillon et avez publié la réplication dans le même document. L'analyse exploratoire de données - avec une pratique d'analyse flexible qui gonfle le taux d'erreur - est acceptable, tant que vous êtes en mesure de reproduire votre effet dans un nouvel échantillon sans la même flexibilité analytique.
Références
Dienes, Z. (2008). Comprendre la psychologie en tant que science: introduction à l'inférence scientifique et statistique . Palgrave Macmillan.
John, LK, Loewenstein, G., et Prelec, D. (2012). Mesurer la prévalence de pratiques de recherche douteuses avec des incitations à dire la vérité. Science psychologique , 23 (5), 524-532.
Rosenthal, R. (1979). Le problème du tiroir de fichiers et la tolérance pour les résultats nuls. Bulletin psychologique , 86 (3), 638.
Simmons, JP, LD, Nelson et Simonsohn, U. (2011). Psychologie faussement positive: la flexibilité non divulguée dans la collecte et l'analyse des données permet de présenter quelque chose d'important. Science psychologique , 22 (11), 1359-1366.
la source
Malheureusement, l'exemple motivant du développement de médicaments n'est pas un bon exemple, car ce n'est pas ce que nous faisons pour développer des médicaments. Nous utilisons des règles différentes et plus strictes pour arrêter l'étude si les tendances sont du côté du préjudice. Ceci est pour la sécurité des patients et aussi parce que le médicament est peu susceptible de basculer comme par magie dans le sens d'un bénéfice significatif.
Alors, pourquoi faire deux tests à la queue ? (quand dans la plupart des cas nous avons une idée a priori de la direction d'effet possible que nous essayons de modéliser)
L’hypothèse nulle devrait présenter une certaine ressemblance avec la croyance au sens d’être plausible, informée et justifiée. Dans la plupart des cas, les gens s'accordent pour dire qu'un "résultat inintéressant" se produit lorsqu'il y a un effet, alors qu'un effet négatif ou positif présente le même intérêt. Il est très difficile d’énoncer une hypothèse nulle composée, par exemple le cas où nous savons que la statistique pourrait être égale oumoins d'un certain montant. Il faut être très explicite sur une hypothèse nulle pour donner un sens à leurs découvertes scientifiques. Il convient de souligner que la manière dont on effectue un test d'hypothèse composite est que la statistique sous l'hypothèse nulle suppose la valeur la plus cohérente dans la plage des données observées. Donc, si l'effet est positif comme prévu, la valeur nulle est considérée comme égale à 0 de toute façon, et nous avons discuté inutilement.
Un test bilatéral revient à effectuer deux tests unilatéraux avec contrôle pour des comparaisons multiples! Le test à deux queues est en partie valorisé car il finit par être plus conservateur à long terme. Lorsque nous avons une bonne idée de la direction de l’effet, les tests à deux queues produiront deux fois moins de faux positifs, avec un effet global très faible sur la puissance.
Dans le cas de l'évaluation d'un traitement dans le cadre d'un essai contrôlé randomisé, si vous tentiez de me vendre un test unilatéral, je vous empêcherais de demander: «Eh bien, pourquoi devrions-nous croire que le traitement est réellement nocif? Existe-t-il des preuves? Y a-t-il même un équilibre [une capacité à démontrer un effet bénéfique]? " L’incohérence logique du test unilatéral remet en question l’ensemble de la recherche. Si vraiment rien n'est connu, toute valeur autre que 0 est considérée comme intéressante et le test à deux queues n'est pas simplement une bonne idée, c'est nécessaire.
la source
Une façon de l'aborder est d'oublier temporairement les tests d'hypothèses et de penser plutôt aux intervalles de confiance. Les tests unilatéraux correspondent à des intervalles de confiance unilatéraux et les tests bilatéraux correspondent à des intervalles de confiance bilatéraux.
Supposons que vous souhaitiez estimer la moyenne d'une population. Naturellement, vous prenez un échantillon et calculez une moyenne d'échantillon. Il n'y a aucune raison de prendre une estimation ponctuelle à la valeur nominale, vous exprimez donc votre réponse sous la forme d'un intervalle dont vous êtes raisonnablement sûr qu'il contient la vraie moyenne. Quel type d'intervalle choisissez-vous? Un intervalle bilatéral est de loin le choix le plus naturel. Un intervalle unilatéral n'a de sens que lorsque vous ne vous souciez tout simplement pas de trouver une limite supérieure ou une limite inférieure de votre estimation (car vous pensez déjà connaître une limite utile dans une direction). À quelle fréquence êtes-vous vraiment sûr de la situation?
Passer de la question à des intervalles de confiance n’est peut-être pas vraiment essentiel, mais il est méthodologiquement incohérent de préférer les tests unilatéraux mais les intervalles de confiance bilatéraux.
la source
Le problème est que vous ne connaissez pas la moyenne de la population. Je n'ai jamais rencontré de scénario du monde réel dont je connais la véritable population.
J'ai lu votre paragraphe plusieurs fois, mais je ne suis toujours pas sûr de vos arguments. Voulez-vous reformuler? Vous ne parvenez pas à "tester" si vos données ne vous atterrissent pas dans les régions critiques de votre choix.
La citation est correcte car le piratage d'une valeur p est inapproprié. Que savons-nous du p-hacking "à l'état sauvage"? a plus de détails.
C'est arbitraire. C'est pourquoi les scientifiques de données rapportent généralement l'ampleur de la valeur p elle-même (non seulement significative ou insignifiante), ainsi que la taille des effets.
la source
Eh bien, toute différence repose sur la question à laquelle vous voulez répondre. Si la question est: "Un groupe de valeurs est-il plus grand que l'autre?" vous pouvez utiliser un test unilatéral. Pour répondre à la question: "Ces groupes de valeurs sont-ils différents?" vous utilisez le test à deux queues. Prenez en compte le fait qu'un ensemble de données peut être statistiquement plus élevé qu'un autre, mais pas statistiquement différent ... et ce sont des statistiques.
la source
La valeur alpha est la probabilité que vous rejetiez le null, étant donné que le null est vrai. Supposons que votre valeur NULL est que la moyenne de l'échantillon est normalement distribuée avec une moyenne nulle. Si P (moyenne de l'échantillon> 1 | H0) = 0,05, la règle "Recueillir un échantillon et rejeter la valeur nulle si la moyenne de l'échantillon est supérieure à 1" a une probabilité, étant donné que la valeur nulle est vraie, de 5% de rejeter le null. La règle "Recueillir un échantillon et si la moyenne de l'échantillon est positive, puis rejeter la valeur nulle si la moyenne de l'échantillon est supérieure à 1 et si la moyenne de l'échantillon est négative, rejeter la valeur nulle si la moyenne de l'échantillon est inférieure à 1" a probabilité, étant donné que le null est vrai, de 10% de rejeter le nul. Donc, la première règle a un alpha de 5% et la seconde règle a un alpha de 10%. Si vous commencez avec un test bilatéral, puis changez-le en un test unilatéral basé sur les données, puis vous suivez la deuxième règle. Il serait donc inexact de déclarer votre valeur alpha comme 5%. La valeur alpha dépend non seulement de la nature des données, mais également des règles que vous suivez pour les analyser. Si vous vous demandez pourquoi utiliser une métrique possédant cette propriété plutôt que quelque chose qui ne dépend que des données, la question est plus compliquée.
la source
Concernant le 2ème point
nous avons que, si le null est vrai, le premier test bilatéral rejette faussement avec probabilité , mais le unilatéral peut également rejeter à la deuxième étape.α
La probabilité de rejet globale dépassera donc et vous ne testez plus au niveau que vous croyez être en train de tester - vous obtenez plus souvent de faux rejets que dans des cas dans lesquels la stratégie est appliquée vraies hypothèses nulles.α α⋅100%
Globalement, nous cherchons que nous pourrions exprimer par Les deux événements de l'union sont disjoints, nous sommes donc après Pour le second terme, il y a probabilité de masse entre les quantiles supérieurs et (c'est-à-dire les points de rejet du tests unilatéraux et bilatéraux), c'est-à-dire la probabilité conjointe que le test bilatéral ne rejette pas mais que le unilatéral le fasse. Par conséquent,
Voici une petite illustration numérique:
la source
Ce n'est qu'une façon arbitraire de voir les choses: à quoi sert un test statistique? La raison la plus fréquente pour effectuer un test est probablement parce que vous voulez convaincre les lecteurs (c.-à-d. Rédacteurs, relecteurs, lecteurs, auditoire) que vos résultats sont "suffisamment éloignés du hasard" pour être dignes de mention. Et d’une manière ou d’une autre, nous avons conclu que est la vérité arbitraire, mais universelle.p<α=0.05
Pour toute autre raison sensée d'effectuer des tests, vous ne vous contenterez jamais d'un fixe de , mais vous pourrez varier votre d'un cas à l'autre, en fonction de l'importance des conséquences que vous tirez du test.0,05 αα 0.05 α
Retour à convaincre les gens, que quelque chose est "assez loin de tout hasard" pour répondre à un critère universel de la notoriété. Nous avons un critère insensible, pourtant universellement accepté, que nous pensons être "non aléatoire" à pour les tests bilatérauxα=0.05 . Un critère équivalent serait d'examiner les données, de décider de la manière de tester et de tracer la ligne à . La seconde est équivalente à la première, mais ce n’est pas ce avec quoi nous nous sommes habitués.α=0.025
Une fois que vous commencez à faire des tests unilatéraux avec vous vous méfiez des comportements indus, de la recherche de sens. Ne faites pas ça si vous voulez convaincre les gens!α=0.05
Ensuite, il y a bien sûr ce qu'on appelle le degré de liberté des chercheurs . Vous pouvez trouver une signification dans n'importe quel type de données, si vous disposez de suffisamment de données et que vous êtes libre de les tester de nombreuses manières. C'est pourquoi vous devez décider du test que vous effectuez avant d'examiner les données. Tout le reste conduit à des résultats de test non reproductibles. Je conseille d'aller sur youtube et de regarder Andrew Gelmans parler "Crimes sur données pour plus d'informations.
la source
À première vue, aucune de ces affirmations ne permet d'affirmer qu'un test bilatéral est «supérieur» à une étude unilatérale. Il faut simplement établir un lien logique entre l'hypothèse de recherche testée et l'inférence statistique testée.
Par exemple:
Tout d'abord, il s'agit d'une étude sur les médicaments. Donc, avoir tort dans le sens opposé a une signification sociale qui dépasse le cadre des statistiques. Donc, comme beaucoup l'ont dit, la santé n'est pas le meilleur moyen de généraliser.
Dans la citation ci-dessus, il semble s'agir de tester un médicament alors qu'il en existe déjà un autre. Donc, pour moi, cela implique que votre médicament est supposé déjà efficace. La déclaration concerne la comparaison de deux médicaments efficaces par la suite. Lorsque vous comparez ces distributions si vous négligez une partie de la population pour améliorer ses résultats comparatifs? Ce n'est pas seulement une conclusion biaisée, mais la comparaison n'est plus une justification valable: vous comparez des pommes à des oranges.
De même, il peut très bien y avoir des estimations ponctuelles qui, dans l'intérêt de l'inférence statistique, ne font aucune différence dans la conclusion, mais qui revêtent une très grande importance sur le plan social. C'est parce que notre échantillon représente la vie des gens: quelque chose qui ne peut pas "se reproduire" et qui est inestimable.
Alternativement, la déclaration implique que le chercheur a un incitatif: "vous souhaitez maximiser votre capacité à détecter l'amélioration ..." Cette notion n'est pas triviale pour le cas isolé en tant que protocole erroné.
Là encore, cela implique que le chercheur "passe" son test: d’un recto verso à un verso. Ce n'est jamais approprié. Il est impératif d'avoir un but de recherche avant de tester. En manquant toujours à la commodité d'une approche à deux faces, les chercheurs ne parviennent pas à comprendre le phénomène de manière plus rigoureuse.
En fait, voici un article sur ce sujet, qui démontre que les tests bilatéraux ont été surutilisés.
Il attribue la surutilisation d'un test bilatéral à l'absence de:
Il prend la position et la position que les chercheurs:
https://www.sciencedirect.com/science/article/pii/S0148296312000550
la source
Un test de signification est souvent effectué pour l'hypothèse nulle par rapport à une hypothèse alternative . C’est à ce moment que les solutions unilatérale ou bilatérale font la différence.
Pour les valeurs p, cela n'a pas d'importance! Le fait est que vous sélectionnez un critère qui n’apparaît qu’une fraction du temps où l’hypothèse nulle est vraie. Il s’agit soit de deux petits morceaux des deux queues, soit d’un gros morceau d’une queue, soit de quelque chose d’autre.α
Le taux d'erreur de type I n'est pas différent pour les tests unilatéraux ou bilatéraux.
Par contre, pour le pouvoir, cela compte .
Si votre hypothèse alternative est asymétrique, vous voudriez alors concentrer le critère pour rejeter l'hypothèse nulle uniquement sur cette queue / fin; de telle sorte que lorsque l'hypothèse alternative est vraie, vous avez moins de chances de ne pas rejeter ("accepter") l'hypothèse nulle.
Si votre hypothèse alternative est symétrique (vous ne souhaitez pas placer plus ou moins de puissance sur un côté spécifique) et que la déviation / l’effet sur les deux côtés est tout aussi attendu (ou simplement inconnu / non informé), il est plus puissant d’utiliser une test bilatéral (vous ne perdez pas 50% de la puissance de la queue que vous ne testez pas et où vous commettez de nombreuses erreurs de type II).
Le taux d'erreur de type II est différent pour les tests unilatéraux et bilatéraux et dépend également de l'hypothèse alternative.
C’est de plus en plus un concept bayésien lorsque nous commençons à faire appel à des idées préconçues pour déterminer si nous nous attendons à ce qu’un effet tombe d’un côté ou des deux, et lorsque nous souhaitons utiliser un test (pour voir si nous pouvons falsifier une hypothèse nulle) pour "confirmer" ou rendre plus probable quelque chose comme un effet.
la source
Donc, une autre tentative de réponse:
Je suppose que prendre à un ou deux côtés dépend complètement de l' hypothèse Alternative .
Prenons l'exemple suivant de moyenne de test dans un test t:
Maintenant, si vous observez une moyenne d'échantillon très négative ou une moyenne d'échantillon très positive, il est peu probable que votre hypothèse soit vraie.
D'autre part, vous serez prêt à accepter votre hypothèse si la moyenne de votre échantillon est proche de qu'elle soit négative ou positive . Vous devez maintenant choisir l’intervalle dans lequel, si la moyenne de votre échantillon tombe, vous ne rejetterez pas votre hypothèse nulle. Évidemment, vous choisiriez un intervalle comportant des côtés positifs et négatifs autour de . Donc, vous choisissez le test à deux côtés.0 0
Mais que se passe-t-il si vous ne voulez pas tester , mais plutôt . Maintenant, intuitivement, ce que nous voulons faire ici est que si la valeur de la moyenne de l’échantillon est très négative, nous pouvons définitivement rejeter notre valeur nulle. Nous voudrions donc ne rejeter null que pour les valeurs très négatives de la moyenne de l'échantillon.μ=0 μ≥0
Mais attendez! Si c'est mon hypothèse nulle, comment définirais-je ma distribution nulle? La distribution nulle de la moyenne de l'échantillon est connue pour certaines valeurs supposées du paramètre population (ici ). Mais sous null actuel, cela peut prendre beaucoup de valeurs.0
Disons que nous pouvons faire des hypothèses nulles infinies. Chacun pour assumer une valeur positive de . Mais pensez à ceci: dans notre première hypothèse de , si nous rejetons uniquement la moyenne nulle d'échantillonnage très obsolète, alors toute hypothèse suivante avec rejetera également. Parce que pour eux, la moyenne de l'échantillon est encore plus éloignée du paramètre de population. Donc, fondamentalement, tout ce que nous avons à faire est de faire une hypothèse, mais unilatérale .μ H0:μ=0 H0:μ>0
Donc, votre solution devient:
Le meilleur exemple est le test de Dickey-Fuller pour la stationnarité.
J'espère que cela t'aides. (Voulait inclure des diagrammes mais en répondant depuis un mobile).
la source