Choisir un test statistique basé sur le résultat d'un autre (par exemple la normalité)

13

J'ai donc entendu dire que ce n'était pas une bonne idée de choisir un test statistique en fonction des résultats d'un autre. Cela me semble cependant étrange. Par exemple, les gens choisissent souvent d'utiliser un test non paramétrique lorsqu'un autre test suggère que les résidus ne sont pas normalement distribués. Cette approche semble assez largement acceptée mais ne semble pas être d'accord avec la première phrase de ce paragraphe. J'espérais juste obtenir des éclaircissements sur cette question.

Jimj
la source
3
Ce n'est pas parce que les résidus ne sont pas gaussiens que vous avez besoin de tests non paramétriques. Vous pouvez généralement discerner le type de modèle à utiliser (oui modèle, pas de test) de la nature des données (nombre, 0 1 données, continu, relation moyenne-variance, relation linéaire ou non linéaire, etc.) et ajuster les modèles en conséquence pour répondre aux caractéristiques des données ayant préalablement décidé quelle était l'hypothèse à tester. Une fois que vous sentez que l'ajustement répond aux hypothèses du modèle ajusté, vous pouvez évaluer la valeur de p et d'autres statistiques,
Réinstallez Monica - G. Simpson

Réponses:

14

Étant donné que est la probabilité d'observer des données aussi extrêmes ou plus extrêmes si H 0pH0 est vrai, alors quelle est l'interprétation de où le p est obtenu par un processus où une décision contingente a été prise dans la sélection du test qui produit ce p ? La réponse est inconnaissable (ou du moins très inconnue). En prenant la décision d'exécuter le test ou non sur la base d'un autre processus probabiliste, vous avez rendu l'interprétation de votre résultat encore plus compliquée. ppppples valeurs sont interprétables au maximum lorsque la taille de l'échantillon et le plan d'analyse ont été entièrement sélectionnés à l'avance. Dans d'autres situations, les interprétations deviennent difficiles, c'est pourquoi ce n'est «pas une bonne idée». Cela étant dit, c'est une pratique largement acceptée ... après tout, pourquoi se donner la peine d'exécuter un test si vous découvrez que le test que vous aviez prévu d'exécuter n'était pas valide? La réponse à cette question est beaucoup moins certaine. Tout cela se résume au simple fait que le test de signification d'hypothèse nulle (le cas d'utilisation principal de ) a quelques problèmes qui sont difficiles à surmonter.p

russellpierce
la source
Je n'ai trouvé aucun article traitant de ce phénomène sur Google, peut-être parce que j'ai utilisé des termes de recherche incorrects. Quelqu'un pourrait-il m'orienter vers un article qui aborde le problème des tests basés sur des tests?
Rob Hall
1
@RobHall: Ceci est un exemple spécifique de "L'importance des questions hypothétiques pour les données imaginaires". Cf. Wagenmakers, 2007, p. 784. Wagenmakers aborde spécifiquement la question des transformations dans la deuxième colonne en déclarant "afin de calculer la valeur p, vous devez savoir ce que vous auriez fait si les données s'étaient avérées différentes ... cela inclut ce que vous auriez fait si les données avait clairement été distribué de manière non normale ..., les valeurs de p ne peuvent être calculées que lorsque le plan d'échantillonnage est entièrement connu et spécifié à l'avance ".
russellpierce
8

Par exemple, les gens choisissent souvent d'utiliser un test non paramétrique lorsqu'un autre test suggère que les résidus ne sont pas normalement distribués. Cette approche semble assez largement acceptée mais ne semble pas être d'accord avec la première phrase de ce paragraphe. J'espérais juste obtenir des éclaircissements sur cette question.

Oui, beaucoup de gens font ce genre de chose et changent leur deuxième test en un test qui peut traiter l'hétéroscédasticité quand ils rejettent l'égalité de variance, etc.

Ce n'est pas parce que quelque chose est courant que c'est nécessairement sage.

En effet, dans certains endroits (je ne nommerai pas les disciplines les plus fautives), une grande partie de ce test d'hypothèse formel dépendant d'autres tests d'hypothèse formels est réellement enseignée.

Le problème est que vos procédures n'ont pas leurs propriétés nominales, parfois même pas proches. (D'un autre côté, supposer des choses comme ça sans aucune considération pour une violation potentiellement extrême pourrait être encore pire.)

Plusieurs articles suggèrent que pour le cas hétéroscédastique, il vaut mieux agir simplement comme si les variances ne sont pas égales que de le tester et de ne faire quelque chose à ce sujet que lors du rejet.

Dans le cas de la normalité, c'est moins clair. Dans les grands échantillons au moins, dans de nombreux cas, la normalité n'est pas si cruciale (mais ironiquement, avec de grands échantillons, votre test de normalité est beaucoup plus susceptible de rejeter), tant que la non-normalité n'est pas trop sauvage. Une exception concerne les intervalles de prédiction, où vous avez vraiment besoin que votre hypothèse de distribution soit proche de la droite.

En partie, un problème est que les tests d'hypothèse répondent à une question différente de celle à laquelle il faut répondre. Vous n'avez pas vraiment besoin de savoir «les données sont-elles vraiment normales» (presque toujours, ce ne sera pas exactement normal a priori ). La question est plutôt «dans quelle mesure l'étendue de la non-normalité aura-t-elle un impact sur mon inférence».

Le deuxième problème est généralement à peu près indépendant de la taille de l'échantillon ou s'améliore en fait avec l'augmentation de la taille de l'échantillon - mais les tests d'hypothèse sont presque toujours rejetés pour des échantillons de grande taille.

Il existe de nombreuses situations où il existe des procédures robustes ou même sans distribution qui sont très proches de leur efficacité même à la normale (et potentiellement beaucoup plus efficaces à certains départs assez modestes) - dans de nombreux cas, il semblerait idiot de ne pas prendre la même approche prudente.

Glen_b -Reinstate Monica
la source
Nice (+1) Pourriez-vous faire référence aux articles que vous mentionnez sur le cas hétéroskédastique?
gui11aume
2
Je ne veux pas le souligner, mais je les rencontre en ligne tout le temps, il n'est donc pas difficile de déterminer ceux qui ont tendance à le souligner (ils ont tendance à être les mêmes que ceux qui ont historiquement surestimé les tests d'hypothèse). En effet, les disciplines des personnes qui posent des questions ici où les affiches pensent qu'elles doivent utiliser des tests formels sont généralement les mêmes. Ce n'est pas seulement une ou deux disciplines - j'en vois beaucoup - mais certaines semblent le faire particulièrement souvent. Pour qu'il soit raisonnablement courant, je ne peux que supposer qu'il y a eu des textes particulièrement connus dans ces domaines qui ont insisté là-dessus.
Glen_b -Reinstate Monica
1
@ gui11aume Voici une référence ... ce n'est pas l'une de celles que je cherchais, mais cela fait le point où je voulais en venir (que les tests préliminaires peuvent aggraver les choses).
Glen_b -Reinstate Monica
2
Andrew Gelman a récemment publié un article sur l' hétérogénéité entre les groupes qui est liée (au moins sur la raison pour laquelle un tel processus est problématique).
Andy W
1
Une question liée à ces discussions depuis longtemps
russellpierce
8

Les principaux problèmes ont été bien expliqués par d'autres, mais sont confondus avec des éléments sous-jacents ou associés

  1. Sur-révérence pour les valeurs P, tout au plus un type de preuve dans les statistiques.

  2. Réticence à voir que les rapports statistiques sont inévitablement basés sur une combinaison de choix, certains fermement fondés sur des preuves, d'autres basés sur un mélange d'analyses antérieures, l'intuition, la conjecture, le jugement, la théorie, etc.

Supposons que moi et mon ami prudent Test Everything avons tous deux choisi une transformation de journal pour une réponse, mais je saute à cette conclusion basée sur un mélange de raisonnement physique et d'expérience précédente avec des données, tandis que Test Everything choisit l'échelle de journal basée sur les tests et l'estimation de Box-Cox d'un paramètre.

Maintenant, nous utilisons tous les deux la même régression multiple. Nos valeurs P ont-elles des interprétations différentes? Selon une interprétation, les valeurs P de Test Everything sont conditionnelles à ses inférences précédentes. J'ai également utilisé des inférences, mais la plupart du temps, elles étaient informelles, basées sur une longue série de graphiques, de calculs, etc. antérieurs dans des projets précédents. Comment cela doit-il être signalé?

Naturellement, les résultats de la régression sont exactement les mêmes pour Tout tester et moi-même.

Le même mélange de conseils judicieux et de philosophie douteuse s'applique au choix des prédicteurs et de la forme fonctionnelle. Les économistes, par exemple, ont largement appris à respecter les discussions théoriques précédentes et à se méfier de l'espionnage des données, avec une bonne raison dans chaque cas. Mais dans les cas les plus faibles, la théorie concernée n'est qu'une suggestion provisoire faite précédemment dans la littérature, très probablement après une analyse empirique. Mais les références littéraires sanctifient, alors que l'apprentissage à partir des données en main est suspect, pour de nombreux auteurs.

Nick Cox
la source
Très clair (+1).
gui11aume
1
+1. Il existe cependant une différence à long terme entre les performances de vos analyses et celles de Test Everything. Chaque fois que cette analyse est exécutée, vous utiliserez la même stratégie, basée sur ce qui a été écrit dans la littérature (qui ne fluctue pas expérience par expérience). OTOH, les données sont un échantillon aléatoire, et la sortie des tests Box-Cox fluctuera étude par étude.
gung - Réintègre Monica
C'est drôle, mais mon expérience change aussi à long terme.
Nick Cox