J'ai donc entendu dire que ce n'était pas une bonne idée de choisir un test statistique en fonction des résultats d'un autre. Cela me semble cependant étrange. Par exemple, les gens choisissent souvent d'utiliser un test non paramétrique lorsqu'un autre test suggère que les résidus ne sont pas normalement distribués. Cette approche semble assez largement acceptée mais ne semble pas être d'accord avec la première phrase de ce paragraphe. J'espérais juste obtenir des éclaircissements sur cette question.
13
Réponses:
Étant donné que est la probabilité d'observer des données aussi extrêmes ou plus extrêmes si H 0p H0 est vrai, alors quelle est l'interprétation de où le p est obtenu par un processus où une décision contingente a été prise dans la sélection du test qui produit ce p ? La réponse est inconnaissable (ou du moins très inconnue). En prenant la décision d'exécuter le test ou non sur la base d'un autre processus probabiliste, vous avez rendu l'interprétation de votre résultat encore plus compliquée. pp p p p les valeurs sont interprétables au maximum lorsque la taille de l'échantillon et le plan d'analyse ont été entièrement sélectionnés à l'avance. Dans d'autres situations, les interprétations deviennent difficiles, c'est pourquoi ce n'est «pas une bonne idée». Cela étant dit, c'est une pratique largement acceptée ... après tout, pourquoi se donner la peine d'exécuter un test si vous découvrez que le test que vous aviez prévu d'exécuter n'était pas valide? La réponse à cette question est beaucoup moins certaine. Tout cela se résume au simple fait que le test de signification d'hypothèse nulle (le cas d'utilisation principal de ) a quelques problèmes qui sont difficiles à surmonter.p
la source
Oui, beaucoup de gens font ce genre de chose et changent leur deuxième test en un test qui peut traiter l'hétéroscédasticité quand ils rejettent l'égalité de variance, etc.
Ce n'est pas parce que quelque chose est courant que c'est nécessairement sage.
En effet, dans certains endroits (je ne nommerai pas les disciplines les plus fautives), une grande partie de ce test d'hypothèse formel dépendant d'autres tests d'hypothèse formels est réellement enseignée.
Le problème est que vos procédures n'ont pas leurs propriétés nominales, parfois même pas proches. (D'un autre côté, supposer des choses comme ça sans aucune considération pour une violation potentiellement extrême pourrait être encore pire.)
Plusieurs articles suggèrent que pour le cas hétéroscédastique, il vaut mieux agir simplement comme si les variances ne sont pas égales que de le tester et de ne faire quelque chose à ce sujet que lors du rejet.
Dans le cas de la normalité, c'est moins clair. Dans les grands échantillons au moins, dans de nombreux cas, la normalité n'est pas si cruciale (mais ironiquement, avec de grands échantillons, votre test de normalité est beaucoup plus susceptible de rejeter), tant que la non-normalité n'est pas trop sauvage. Une exception concerne les intervalles de prédiction, où vous avez vraiment besoin que votre hypothèse de distribution soit proche de la droite.
En partie, un problème est que les tests d'hypothèse répondent à une question différente de celle à laquelle il faut répondre. Vous n'avez pas vraiment besoin de savoir «les données sont-elles vraiment normales» (presque toujours, ce ne sera pas exactement normal a priori ). La question est plutôt «dans quelle mesure l'étendue de la non-normalité aura-t-elle un impact sur mon inférence».
Le deuxième problème est généralement à peu près indépendant de la taille de l'échantillon ou s'améliore en fait avec l'augmentation de la taille de l'échantillon - mais les tests d'hypothèse sont presque toujours rejetés pour des échantillons de grande taille.
Il existe de nombreuses situations où il existe des procédures robustes ou même sans distribution qui sont très proches de leur efficacité même à la normale (et potentiellement beaucoup plus efficaces à certains départs assez modestes) - dans de nombreux cas, il semblerait idiot de ne pas prendre la même approche prudente.
la source
Les principaux problèmes ont été bien expliqués par d'autres, mais sont confondus avec des éléments sous-jacents ou associés
Sur-révérence pour les valeurs P, tout au plus un type de preuve dans les statistiques.
Réticence à voir que les rapports statistiques sont inévitablement basés sur une combinaison de choix, certains fermement fondés sur des preuves, d'autres basés sur un mélange d'analyses antérieures, l'intuition, la conjecture, le jugement, la théorie, etc.
Supposons que moi et mon ami prudent Test Everything avons tous deux choisi une transformation de journal pour une réponse, mais je saute à cette conclusion basée sur un mélange de raisonnement physique et d'expérience précédente avec des données, tandis que Test Everything choisit l'échelle de journal basée sur les tests et l'estimation de Box-Cox d'un paramètre.
Maintenant, nous utilisons tous les deux la même régression multiple. Nos valeurs P ont-elles des interprétations différentes? Selon une interprétation, les valeurs P de Test Everything sont conditionnelles à ses inférences précédentes. J'ai également utilisé des inférences, mais la plupart du temps, elles étaient informelles, basées sur une longue série de graphiques, de calculs, etc. antérieurs dans des projets précédents. Comment cela doit-il être signalé?
Naturellement, les résultats de la régression sont exactement les mêmes pour Tout tester et moi-même.
Le même mélange de conseils judicieux et de philosophie douteuse s'applique au choix des prédicteurs et de la forme fonctionnelle. Les économistes, par exemple, ont largement appris à respecter les discussions théoriques précédentes et à se méfier de l'espionnage des données, avec une bonne raison dans chaque cas. Mais dans les cas les plus faibles, la théorie concernée n'est qu'une suggestion provisoire faite précédemment dans la littérature, très probablement après une analyse empirique. Mais les références littéraires sanctifient, alors que l'apprentissage à partir des données en main est suspect, pour de nombreux auteurs.
la source