Supposons que j'adapte une régression multiple de p variables explicatives. Le test t me permettra de vérifier si l'un d'eux est significatif ( ). Je peux faire un test F partiel pour vérifier si un sous-ensemble d'entre eux est significatif ( ).H 0 : β i = β j = . . . = β k = 0
Ce que je vois souvent cependant, c'est que quelqu'un obtient 5 valeurs de p à partir de 5 tests t (en supposant qu'il avait 5 covariables) et ne conserve que celles avec une valeur de p <0,05. Cela semble un peu incorrect car il devrait vraiment y avoir une vérification de comparaison multiple non? Est-il vraiment juste de dire que quelque chose comme et sont importants, mais , et ne le sont pas?β 2 β 3 β 4 β 5
Sur une note connexe, disons que j'exécute 2 régressions sur 2 modèles distincts (résultat différent). Doit-il y avoir une vérification de comparaison multiple pour les paramètres significatifs entre les deux résultats?
Edit: Pour se différencier de la question similaire, existe-t-il une autre interprétation des valeurs de p en plus: "B_i est (in) significatif, en ajustant pour toutes les autres covariables"? Il ne semble pas que cette interprétation me permette de regarder tous les B_i et de supprimer ceux de moins de 0,5 (ce qui est similaire à l'autre post).
Il me semble qu'un moyen sûr de tester si B_i et Y ont une relation serait d'obtenir une valeur de coefficient de corrélation p pour chaque covariable, puis de faire une multi-compression (bien que cela perdrait définitivement le signal).
Enfin, disons que j'ai calculé la corrélation entre B1 / Y1, B2 / Y1 et B3 / Y1 (donc trois valeurs de p). Indépendamment, j'ai également fait une corrélation entre T1 / Y2, T2 / Y2, T3 / Y2. Je suppose que le bon ajustement de Bonferroni serait de 6 pour les 6 tests ensemble (plutôt que 3 pour le premier groupe et 3 pour le deuxième groupe - et donc obtenir 2 valeurs de p semi-ajustées).
la source
Réponses:
Vous avez raison. Le problème de multiples comparaisons existe partout, mais, à cause de la façon dont il est généralement enseigné, les gens pensent que ce qui a trait à la comparaison de nombreux groupes les uns contre les autres par un tas de -Tests. En réalité, il existe de nombreux exemples où le problème des comparaisons multiples existe, mais où il ne ressemble pas à beaucoup de comparaisons par paires; par exemple, si vous avez beaucoup de variables continues et que vous vous demandez si certaines sont corrélées, vous aurez un problème de comparaisons multiples (voir ici: Regardez et vous trouverez une corrélation ).t
Un autre exemple est celui que vous soulevez. Si vous deviez exécuter une régression multiple avec 20 variables et que vous utilisiez comme seuil, vous vous attendriez à ce qu'une de vos variables soit "significative" par hasard, même si toutes les valeurs nulles étaient vraies. Le problème des comparaisons multiples vient simplement des mathématiques de l'exécution de nombreuses analyses. Si toutes les hypothèses nulles étaient vraies et que les variables étaient parfaitement non corrélées, la probabilité de ne pas rejeter faussement tout vrai nul serait de (par exemple, avec , c'est ).α=.05 1 - ( 1 - α ) p p = 5 .231−(1−α)p p=5 .23
La première stratégie pour y remédier consiste à effectuer un test simultané de votre modèle. Si vous ajustez une régression OLS, la plupart des logiciels vous donneront un test global comme partie par défaut de votre sortie. Si vous exécutez un modèle linéaire généralisé, la plupart des logiciels vous fourniront un test de rapport de vraisemblance global analogue. Ce test vous donnera une certaine protection contre l'inflation d'erreur de type I en raison du problème des comparaisons multiples (cf., ma réponse ici: Signification des coefficients en régression linéaire: test t significatif vs statistique F non significative ). Un cas similaire se produit lorsque vous avez une variable catégorielle représentée avec plusieurs codes fictifs; vous ne voudriez pas interpréter cesF tt -tests, mais supprimerait tous les codes fictifs et effectuerait un test de modèle imbriqué à la place.
Une autre stratégie possible consiste à utiliser une procédure d'ajustement alpha, comme la correction de Bonferroni. Vous devez savoir que cela réduira votre puissance ainsi que votre taux d'erreur de type I en famille. Que ce compromis en vaille la peine est un jugement que vous devez faire. (FWIW, je n'utilise généralement pas de corrections alpha dans la régression multiple.)
Concernant la question de l'utilisation des valeurs de pour faire la sélection du modèle, je pense que c'est une très mauvaise idée. Je ne passerais pas d'un modèle à 5 variables à un avec seulement 2 parce que les autres étaient «non significatifs». Lorsque les gens font cela, ils biaisent leur modèle. Cela peut vous aider à lire ma réponse ici: des algorithmes de sélection automatique de modèle pour mieux comprendre cela.p
Concernant votre mise à jour, je ne vous suggérerais pas d'évaluer d'abord les corrélations univariées afin de décider quelles variables utiliser dans le modèle de régression multiple final. Cela entraînera des problèmes d'endogénéité à moins que les variables ne soient parfaitement corrélées entre elles. J'ai discuté de ce problème dans ma réponse ici: Estimation de au lieu deb1x1+b2x2 b1x1+b2x2+b3x3 .
En ce qui concerne la façon de gérer les analyses avec différentes variables dépendantes, si vous souhaitez utiliser une sorte d'ajustement est basé sur la façon dont vous voyez les analyses les unes par rapport aux autres. L'idée traditionnelle est de déterminer si elles sont réellement considérées comme une «famille». Ceci est discuté ici: Quelle pourrait être une définition claire et pratique d'une "famille d'hypothèses"? Vous pouvez également vouloir lire ce fil: Méthodes pour prédire plusieurs variables dépendantes .
la source
Sur un plan pratique, je pense qu'il faut aussi considérer si les Betas reflètent les niveaux des variables catégorielles (c'est-à-dire les nuls). Dans ces circonstances, il est raisonnable de vouloir savoir si une Bêta donnée est différente d'une Bêta référente (significative). Mais avant même de faire des comparaisons par paires, il faudrait savoir si dans l' ensemble les niveaux de la variable catégorielle sont importants (en utilisant un test F commun ou un test de rapport de vraisemblance). Cela a l'avantage d'utiliser moins de df
la source