Est-ce une bonne idée d’ajuster les valeurs p dans une régression multiple pour des comparaisons multiples?

54

Supposons que vous êtes un chercheur en sciences sociales / économétrique qui essaie de trouver des prédicteurs pertinents de la demande d'un service. Vous avez 2 variables de résultat / variables dépendantes décrivant la demande (en utilisant le service oui / non et le nombre d'occasions). Vous avez 10 variables indépendantes / prédicteurs qui pourraient théoriquement expliquer la demande (par exemple, âge, sexe, revenu, prix, race, etc.). L'exécution de deux régressions multiples distinctes donnera 20 estimations de coefficients et leurs valeurs p. Avec suffisamment de variables indépendantes dans vos régressions, vous trouverez tôt ou tard au moins une variable avec une corrélation statistiquement significative entre les variables dépendantes et indépendantes.

Ma question: est-ce une bonne idée de corriger les valeurs p pour plusieurs tests si je veux inclure toutes les variables indépendantes dans la régression? Toute référence à des travaux antérieurs est très appréciée.

Mikael M
la source
hmmm ... problème intéressant - régression à deux variables avec une variable [en quelque sorte] continue et une dichotomique. Selon la théorie habituelle de la régression MVN, procéder à des régressions distinctes sur chacune des deux réponses normales bivariées - puis reconstituer les résultats - constitue l'analyse correcte - dans le sens Gauss-Markov de minimisation de la matrice vc des estimateurs de régression parmi tous les estimateurs linéaires non biaisés - et dans le cas de MVN, parmi tous les estimateurs non biaisés]. les 'régressions séparées' sont-elles encore la meilleure solution pour une régression logistique? [impartialité semble un peu exagéré dans ce cas,
excep

Réponses:

48

Il semble que votre question aborde plus généralement le problème de l'identification de bons prédicteurs. Dans ce cas, vous devriez envisager d’utiliser une sorte de régression pénalisée (les méthodes traitant de la sélection de variables ou de caractéristiques sont également pertinentes), avec par exemple L1, L2 (ou une combinaison de celles-ci, dénommées les « liens élastiques» ) (recherchez des questions connexes sur ce site, ou le package R pénalisé et élastique , entre autres).

Maintenant, à propos de la correction des valeurs p de vos coefficients de régression (ou équivalents de vos coefficients de corrélation partiels) pour vous protéger contre le suroptimisme (par exemple avec Bonferroni ou, mieux encore, les méthodes de réduction progressive), il semble que cela ne serait pertinent que si vous envisagez un modèle et recherchez les prédicteurs qui contribuent pour une part importante à la variance expliquée, c’est-à-dire si vous n’effectuez pas de sélection de modèle (avec une sélection par étapes ou des tests hiérarchiques). Cet article peut être un bon début: Ajustements de Bonferroni dans les tests de coefficients de régression . Sachez qu’une telle correction ne vous protégera pas contre les problèmes de multicolinéarité, qui affectent les valeurs p rapportées.

stepAICR2

Il faut noter que les approches par étapes ont aussi leurs inconvénients (par exemple, les tests de Wald ne sont pas adaptés aux hypothèses conditionnelles comme induit par la procédure par étapes), ou comme indiqué par Frank Harrell dans R mailing ", la sélection de variables par étapes basée sur AIC a toutes les des problèmes de sélection de variables par étapes basées sur les valeurs P. AIC est simplement une reformulation de la valeur P "(mais AIC reste utile si l'ensemble de prédicteurs est déjà défini); une question connexe - Une variable est-elle significative dans un modèle de régression linéaire? - soulevé des commentaires intéressants ( @Rob , entre autres) sur l'utilisation de l'AIC pour la sélection de variables. Je joins quelques références à la fin (y compris les documents aimablement fournis par @Stephan) il y a aussi beaucoup d'autres références sur P.Mean .

Frank Harrell est l'auteur d'un livre sur la stratégie de modélisation de régression, qui comprend de nombreuses discussions et conseils autour de ce problème (§4.3, p. 56-60). Il a également développé des routines R efficaces pour traiter des modèles linéaires généralisés (voir les packages Design ou rms ). Donc, je pense que vous devez absolument y jeter un coup d'œil (ses documents sont disponibles sur sa page d'accueil).

Références

  1. Whittingham, MJ, Stephens, P, Bradbury, RB et Freckleton, RP (2006). Pourquoi utilisons-nous toujours la modélisation par étapes en écologie et en comportement? Journal of Animal Ecology , 75 , 1182-1189.
  2. Austin, PC (2008). La sélection du modèle Bootstrap a eu des performances similaires pour la sélection de variables authentiques et de bruit par rapport à l’élimination de variables arrière: une étude de simulation . Journal of Clinical Epidemiology , 61 (10) , 1009-1017.
  3. Austin, PC et Tu, JV (2004). Les méthodes automatisées de sélection des variables pour la régression logistique ont produit des modèles instables permettant de prédire la mortalité par infarctus aigu du myocarde . Journal of Clinical Epidemiology , 57 , 1138-1146.
  4. Groenland, S (1994). Régression hiérarchique pour les analyses épidémiologiques d'expositions multiples . Environmental Health Perspectives , 102 (Suppl 8) , 33–39.
  5. Groenland, S (2008). Comparaisons multiples et sélection d'associations en épidémiologie générale . Journal international d'épidémiologie , 37 (3) , 430-434.
  6. Beyene, J, Atenafu, EG, Hamid, JS, To, T et Sung L (2009). Détermination de l'importance relative des variables dans le développement et la validation de modèles prédictifs . Méthodologie de la recherche médicale BMC , 9 , 64.
  7. Bursac, Z, Gauss, CH, Williams, DK et Hosmer, DW (2008). Sélection judicieuse des variables dans la régression logistique . Code source pour la biologie et la médecine , 3 , 17.
  8. Brombin, C, Finos, L et Salmaso, L (2007). Ajuster les valeurs p par étapes dans les modèles linéaires généralisés . Conférence internationale sur les procédures de comparaison multiples . - voir step.adj()dans le paquet R someMTP .
  9. Wiegand, RE (2010). Performances d'utilisation de plusieurs algorithmes pas à pas pour la sélection de variables . Statistics in Medicine , 29 (15), 1647-1659.
  10. Moons KG, AR Donders, Steyerberg EW et Harrell FE (2004). Estimation du maximum de vraisemblance pénalisé pour prédire les résultats binaires. Journal of Clinical Epidemiology , 57 (12) , 1262-1270.
  11. Tibshirani, R (1996). Réduction de régression et sélection via le lasso . Journal de la Société royale de statistique B , 58 (1) , 267–288.
  12. Efron, B, Hastie, T., Johnstone, I et Tibshirani, R (2004). Régression au moindre angle . Annals of Statistics , 32 (2) , 407-499.
  13. Flom, PL et Cassell, DL (2007). Arrêt par étapes: Pourquoi les méthodes de sélection par étapes et similaires sont-elles mauvaises et ce que vous devriez utiliser . NESUG 2007 Proceedings .
  14. Shtatland, ES, Cain, E. et Barton, MB (2001). Les dangers de la régression logistique par étapes et comment y échapper à l'aide de critères d'information et du système de diffusion des résultats . SUGI 26 Proceedings (p. 222–226).
chl
la source
10
Les votes négatifs ne me dérangent pas, mais un commentaire serait apprécié (pour que je puisse apprendre moi-même, comprendre ce qui ne va pas et améliorer mes réponses futures).
chl
3
+1, bonne réponse et aussi, soutenant le commentaire de chl sur le fait de laisser une explication pour les votes négatifs afin d'aider l'auteur et les lecteurs à comprendre ce qui pourrait faire défaut. Merci.
ars
J'appuie la recommandation de chl d'utiliser une sorte de régression pénalisée (par exemple, le lasso).
S. Kolassa - Rétablir Monica
10
@chl: Je ne suis pas satisfait de recommander une sélection de prédicteur par étapes. Habituellement, ceci est basé sur les valeurs p ("exclure un prédicteur avec p> .15, l'inclure si p <.05") et conduit à des estimations biaisées et à de mauvaises performances prédictives (Whittingham et al., 2006, Pourquoi avons-nous encore utiliser la modélisation progressive en écologie et en comportement (J Anim Ecol, 75, 1182-1189). Cependant, les approches par étapes basées sur l'AIC ont la même faiblesse - Frank Harrell en a discuté dans un article posté sur R-help le lundi, 09 août 2010 16:34:19 -0500 (CDT) dans le fil "Régression logistique dans R (SAS - comme sortie) ".
S. Kolassa - Rétablir Monica
Est-il possible d'inclure des liens dans les commentaires?
S. Kolassa - Rétablir Monica
25

Dans une grande mesure, vous pouvez faire ce que vous voulez à condition de disposer de suffisamment de données au hasard pour tester le modèle que vous proposez à partir des données conservées. Un partage de 50% peut être une bonne idée. Oui, vous perdez un peu de votre capacité à détecter les relations, mais ce que vous gagnez est énorme; à savoir la possibilité de reproduire votre travail avant sa publication. Quelle que soit la complexité des techniques statistiques que vous utilisez, vous serez surpris du nombre de prédicteurs «significatifs» qui se révèlent totalement inutiles lorsqu'ils sont appliqués aux données de confirmation.

N'oubliez pas non plus que "pertinent" pour la prédiction signifie plus qu'une faible valeur p. Cela signifie, après tout, que la relation trouvée dans cet ensemble de données n'est probablement pas due au hasard. Pour la prédiction, il est en réalité plus important de rechercher les variables qui exercent une influence substantielle sur le prédictant (sans sur-ajuster le modèle); c'est-à-dire que pour trouver les variables susceptibles d'être "réelles" et, lorsqu'elles varient dans une plage de valeurs raisonnable (pas seulement les valeurs susceptibles de figurer dans votre échantillon!), la prédictande varie sensiblement. Lorsque vous disposez de données en attente pour confirmer un modèle, vous pouvez être plus à l'aise en conservant provisoirement des variables "significatives" marginales qui pourraient ne pas avoir de faibles valeurs p.

Pour ces raisons (et en me basant sur la bonne réponse de chl), bien que j’ai trouvé des modèles pas à pas, des comparaisons AIC et des corrections de Bonferroni très utiles (en particulier avec des centaines ou des milliers de prédicteurs possibles en jeu), ceux-ci ne devraient pas être les seuls déterminants des variables. entrez votre modèle. Ne perdez pas de vue les indications théoriques fournies par la théorie: les variables ayant une forte justification théorique pour figurer dans un modèle doivent généralement être conservées, même lorsqu'elles ne sont pas significatives, à condition qu'elles ne créent pas des équations mal conditionnées ( par exemple, la colinéarité). .

NB : Une fois que vous avez défini un modèle et confirmé son utilité avec les données de réserve, vous pouvez recombiner les données conservées avec les données de réserve pour une estimation finale. Ainsi, rien n’est perdu en termes de précision avec laquelle vous pouvez estimer les coefficients du modèle.

whuber
la source
Merci! Si vous n'avez pas accès aux données d'origine mais uniquement à un tableau de coefficients de régression, le réglage de Bonferroni est-il votre seul choix?
Mikael M
4
Vous avez probablement aussi les valeurs-p :-). Mais avec seulement ceux-ci et les coefficients, il est difficile d’imaginer ce que vous pourriez faire d’autre que l’ajustement de Bonferroni. (Je fais toujours un tel ajustement lorsque je lis un papier avec plusieurs tests: c'est un moyen rapide de vaincre les résultats susceptibles d'être indésirables.) La plupart des gens fournissent également des statistiques résumées pour les variables: vous pouvez utiliser des plages ou des SD avec les coefficients permettant d'estimer l'effet de chaque variable explicative sur le prédictant.
whuber
Merci pour votre explication, esp. sur la validation croisée. J'apprécie votre dernier argument, à savoir que nous devons également rechercher une pertinence théorique (au-delà des valeurs p).
chl
19

Je pense que c'est une très bonne question. il va au cœur du «problème» controversé des tests multiples qui envahit des domaines allant de l'épidémiologie à l'économétrie. Après tout, comment pouvons- nous savoir si la signification que nous trouvons est fallacieuse ou non? Quelle est la véracité de notre modèle multivariable?

En ce qui concerne les approches techniques visant à compenser la probabilité de publication de variables de bruit, je suis tout à fait d’accord avec le mot «whuber» selon lequel l’utilisation d’une partie de votre échantillon comme données d’entraînement et le reste comme données de test est une bonne idée. C'est une approche qui est discutée dans la littérature technique. Si vous prenez le temps, vous pourrez probablement trouver de bonnes directives pour savoir quand et comment l'utiliser.

Mais pour attaquer plus directement la philosophie des tests multiples, je vous suggère de lire les articles que je mentionne ci-dessous, dont certains soutiennent la position selon laquelle l'ajustement pour tests multiples est souvent préjudiciable (coûts en puissance), inutile, et peut même être une erreur logique. . Pour ma part, je n'accepte pas automatiquement l'affirmation selon laquelle notre capacité à enquêter sur un prédicteur potentiel est inexorablement réduite par celle d'un autre. Le taux d'erreur de type 1 au niveau familial peut augmenter si nous incluons plus de prédicteurs dans un modèle donné, mais tant que nous n'allons pas au-delà des limites de la taille de notre échantillon, la probabilité d'erreur de type 1 pour chaque individule prédicteur est constant; et le contrôle de l'erreur familiale n'indique pas quelle variable spécifique est le bruit et quelle variable. Bien sûr, il existe également des arguments contradictoires convaincants.

Ainsi, tant que vous limitez votre liste de variables potentielles à celles qui sont plausibles (c’est-à-dire que vous auriez des voies menant au résultat), le risque de contrefaçon est déjà assez bien géré.

Cependant, j'ajouterais qu'un modèle prédictif n'est pas aussi concerné par la "valeur de vérité" de ses prédicteurs qu'un modèle causal ; il peut y avoir beaucoup de confusion dans le modèle, mais tant que nous expliquons une grande partie de la variance, nous ne sommes pas trop inquiets. Cela facilite le travail, du moins dans un sens.

À votre santé,

Brenden, consultant en biostatistique

PS: vous voudrez peut-être faire une régression de Poisson gonflée à zéro pour les données que vous décrivez, au lieu de deux régressions distinctes.

  1. Perneger, TV: Qu'est-ce qui ne va pas avec les ajustements Bonferroni ? BMJ 1998; 316: 1236
  2. Cook, RJ & Farewell, VT Prise en compte de la multiplicité dans la conception et l'analyse d'essais cliniques . Journal de la Société royale de statistique , série A 1996; Vol. 159, n ° 1: 93-110
  3. Rothman, KJ Aucun ajustement n'est nécessaire pour les comparaisons multiples . Épidémiologie 1990; Vol. 1, n ° 1: 43-46
  4. Marshall, JR Données de dragage et de notoriété . Épidémiologie 1990; Vol. 1, n ° 1: 5-7
  5. Groenland, S. & Robins, JM Des ajustements pour des comparaisons multiples sont parfois utiles . Épidémiologie 1991; Vol. 2, n ° 4: 244-251
Brenden
la source
Suite: 2. Cuire les considérations de multiplicité de RJ et d'adieu VT dans la conception et l'analyse des essais cliniques. Journal de la Société royale de statistique, série A 1996; Vol. 159, N ° 1: 93-110
Brenden
Merci pour vos commentaires, Brenden, en particulier le dernier sur la prédiction vs explication causale. Et bienvenue sur le site! J'espère voir beaucoup plus de vos contributions dans le futur.
whuber
Suite: 3. Rothman KJ Aucun ajustement n'est nécessaire pour les comparaisons multiples. Épidémiologie 1990; Vol. 1, N ° 1: 43-46 4. Marshall JR Dragage de données et mise en évidence. Épidémiologie 1990; Vol. 1, N ° 1: 5-7 5. Groenland S. et Robins JM Les ajustements Empirical-Bayes pour les comparaisons multiples sont parfois utiles. Épidémiologie 1991; Vol. 2, n ° 4: 244-251
Brenden
(+1) Vous pouvez être intéressé par le fil suivant: stats.stackexchange.com/questions/3252/… . Il semble que nous partageons beaucoup de liens en commun :-)
chl
6

Il y a de bonnes réponses ici. Permettez-moi d'ajouter quelques petits points que je ne vois pas abordés ailleurs.

Premièrement, quelle est la nature de vos variables de réponse? Plus spécifiquement, sont-ils compris comme liés les uns aux autres? Vous ne devez effectuer que deux régressions multiples distinctes si elles sont considérées comme indépendantes (théoriquement) / si les résidus des deux modèles sont indépendants (empiriquement). Sinon, vous devriez envisager une régression multivariée. ('Multivarié' signifie> 1 variable de réponse; 'multiple' signifie> 1 variable prédictive.)

F

gung - Rétablir Monica
la source
0

Vous pouvez faire une régression apparemment sans lien et utiliser un test F. Mettez vos données dans un formulaire comme celui-ci:

Out1 1 P11 P12 0  0   0
Out2 0 0   0   1  P21 P22

afin que les prédicteurs de votre premier résultat aient leurs valeurs lorsque ce résultat est la variable y et 0 sinon et inversement. Donc, votre y est une liste des deux résultats. P11 et P12 sont les deux prédicteurs du premier résultat et P21 et P22 sont les deux prédicteurs du deuxième résultat. Si le sexe, par exemple, est un prédicteur des deux résultats, son utilisation pour prédire le résultat 1 doit figurer dans une colonne / colonne distincte pour prévoir le résultat 2. Cela permet à votre régression d'avoir des pentes / impacts différents pour le sexe pour chaque résultat.

Dans ce cadre, vous pouvez utiliser les procédures de test F standard.

Charlie
la source