régression multiple et comparaisons multiples

10

Supposons que j'adapte une régression multiple de p variables explicatives. Le test t me permettra de vérifier si l'un d'eux est significatif ( ). Je peux faire un test F partiel pour vérifier si un sous-ensemble d'entre eux est significatif ( ).H 0 : β i = β j = . . . = β k = 0H0:βi=0H0:βi=βj=...=βk=0

Ce que je vois souvent cependant, c'est que quelqu'un obtient 5 valeurs de p à partir de 5 tests t (en supposant qu'il avait 5 covariables) et ne conserve que celles avec une valeur de p <0,05. Cela semble un peu incorrect car il devrait vraiment y avoir une vérification de comparaison multiple non? Est-il vraiment juste de dire que quelque chose comme et sont importants, mais , et ne le sont pas?β 2 β 3 β 4 β 5β1β2β3β4β5

Sur une note connexe, disons que j'exécute 2 régressions sur 2 modèles distincts (résultat différent). Doit-il y avoir une vérification de comparaison multiple pour les paramètres significatifs entre les deux résultats?

Edit: Pour se différencier de la question similaire, existe-t-il une autre interprétation des valeurs de p en plus: "B_i est (in) significatif, en ajustant pour toutes les autres covariables"? Il ne semble pas que cette interprétation me permette de regarder tous les B_i et de supprimer ceux de moins de 0,5 (ce qui est similaire à l'autre post).

Il me semble qu'un moyen sûr de tester si B_i et Y ont une relation serait d'obtenir une valeur de coefficient de corrélation p pour chaque covariable, puis de faire une multi-compression (bien que cela perdrait définitivement le signal).

Enfin, disons que j'ai calculé la corrélation entre B1 / Y1, B2 / Y1 et B3 / Y1 (donc trois valeurs de p). Indépendamment, j'ai également fait une corrélation entre T1 / Y2, T2 / Y2, T3 / Y2. Je suppose que le bon ajustement de Bonferroni serait de 6 pour les 6 tests ensemble (plutôt que 3 pour le premier groupe et 3 pour le deuxième groupe - et donc obtenir 2 valeurs de p semi-ajustées).

user1357015
la source
1
Cela ressemble à un doublon de (cette question) [ stats.stackexchange.com/questions/3200/… si ce n'est pas le cas, dites pourquoi.
Peter Flom - Réintègre Monica
Salut, c'est similaire mais pas exactement la même chose. Peut-être une meilleure question serait, quand on obtient la liste des valeurs de p, est la seule interprétation possible la suivante: "Contrôle de tous les autres paramètres, cette variable est en / significatif". Comment les considéreriez-vous tous?
user1357015
Si vous souhaitez modifier votre question, c'est bien, mais il vaut probablement mieux le faire dans la question elle-même, afin que les gens la voient en premier. Mais je ne suis pas en train de poursuivre en justice ce que signifie "Comment diriez-vous que vous pensez tous"?
Peter Flom - Réintègre Monica

Réponses:

10

Vous avez raison. Le problème de multiples comparaisons existe partout, mais, à cause de la façon dont il est généralement enseigné, les gens pensent que ce qui a trait à la comparaison de nombreux groupes les uns contre les autres par un tas de -Tests. En réalité, il existe de nombreux exemples où le problème des comparaisons multiples existe, mais où il ne ressemble pas à beaucoup de comparaisons par paires; par exemple, si vous avez beaucoup de variables continues et que vous vous demandez si certaines sont corrélées, vous aurez un problème de comparaisons multiples (voir ici: Regardez et vous trouverez une corrélation ). t

Un autre exemple est celui que vous soulevez. Si vous deviez exécuter une régression multiple avec 20 variables et que vous utilisiez comme seuil, vous vous attendriez à ce qu'une de vos variables soit "significative" par hasard, même si toutes les valeurs nulles étaient vraies. Le problème des comparaisons multiples vient simplement des mathématiques de l'exécution de nombreuses analyses. Si toutes les hypothèses nulles étaient vraies et que les variables étaient parfaitement non corrélées, la probabilité de ne pas rejeter faussement tout vrai nul serait de (par exemple, avec , c'est ). α=.051 - ( 1 - α ) p p = 5 .231(1α)pp=5.23

La première stratégie pour y remédier consiste à effectuer un test simultané de votre modèle. Si vous ajustez une régression OLS, la plupart des logiciels vous donneront un test global comme partie par défaut de votre sortie. Si vous exécutez un modèle linéaire généralisé, la plupart des logiciels vous fourniront un test de rapport de vraisemblance global analogue. Ce test vous donnera une certaine protection contre l'inflation d'erreur de type I en raison du problème des comparaisons multiples (cf., ma réponse ici: Signification des coefficients en régression linéaire: test t significatif vs statistique F non significative ). Un cas similaire se produit lorsque vous avez une variable catégorielle représentée avec plusieurs codes fictifs; vous ne voudriez pas interpréter cesFtt-tests, mais supprimerait tous les codes fictifs et effectuerait un test de modèle imbriqué à la place.

Une autre stratégie possible consiste à utiliser une procédure d'ajustement alpha, comme la correction de Bonferroni. Vous devez savoir que cela réduira votre puissance ainsi que votre taux d'erreur de type I en famille. Que ce compromis en vaille la peine est un jugement que vous devez faire. (FWIW, je n'utilise généralement pas de corrections alpha dans la régression multiple.)

Concernant la question de l'utilisation des valeurs de pour faire la sélection du modèle, je pense que c'est une très mauvaise idée. Je ne passerais pas d'un modèle à 5 variables à un avec seulement 2 parce que les autres étaient «non significatifs». Lorsque les gens font cela, ils biaisent leur modèle. Cela peut vous aider à lire ma réponse ici: des algorithmes de sélection automatique de modèle pour mieux comprendre cela. p

Concernant votre mise à jour, je ne vous suggérerais pas d'évaluer d'abord les corrélations univariées afin de décider quelles variables utiliser dans le modèle de régression multiple final. Cela entraînera des problèmes d'endogénéité à moins que les variables ne soient parfaitement corrélées entre elles. J'ai discuté de ce problème dans ma réponse ici: Estimation de au lieu deb1x1+b2x2b1x1+b2x2+b3x3 .

En ce qui concerne la façon de gérer les analyses avec différentes variables dépendantes, si vous souhaitez utiliser une sorte d'ajustement est basé sur la façon dont vous voyez les analyses les unes par rapport aux autres. L'idée traditionnelle est de déterminer si elles sont réellement considérées comme une «famille». Ceci est discuté ici: Quelle pourrait être une définition claire et pratique d'une "famille d'hypothèses"? Vous pouvez également vouloir lire ce fil: Méthodes pour prédire plusieurs variables dépendantes .

gung - Réintégrer Monica
la source
Merci pour ça. C'est juste ce dont j'avais besoin. Concernant votre commentaire d'édogénéité. Cela a du sens, mais il semble que si je fais la correction conservatrice de Bonferroni sur les valeurs de corrélation p, même s'il y a une indégonéité, la correction de bonferroni devrait en tenir compte non?
user1357015
La correction de Bonferroni n'est pas liée à l'endogénéité. Si vos covariables sont corrélées entre elles, les corrélations univariées XY seront des estimations biaisées de la relation. Vous devez adapter le modèle que vous vouliez adapter et vous y arrêter. En général, il n'est pas vraiment nécessaire d'aller plus loin. Si vous devez créer un véritable modèle prédictif, vous devez utiliser la validation croisée ou d'autres techniques appropriées pour cela.
gung - Rétablir Monica
0

Sur un plan pratique, je pense qu'il faut aussi considérer si les Betas reflètent les niveaux des variables catégorielles (c'est-à-dire les nuls). Dans ces circonstances, il est raisonnable de vouloir savoir si une Bêta donnée est différente d'une Bêta référente (significative). Mais avant même de faire des comparaisons par paires, il faudrait savoir si dans l' ensemble les niveaux de la variable catégorielle sont importants (en utilisant un test F commun ou un test de rapport de vraisemblance). Cela a l'avantage d'utiliser moins de df

Thomas Speidel
la source