Supposons que vous êtes un chercheur en sciences sociales / économétrique qui essaie de trouver des prédicteurs pertinents de la demande d'un service. Vous avez 2 variables de résultat / variables dépendantes décrivant la demande (en utilisant le service oui / non et le nombre d'occasions). Vous avez 10 variables indépendantes / prédicteurs qui pourraient théoriquement expliquer la demande (par exemple, âge, sexe, revenu, prix, race, etc.). L'exécution de deux régressions multiples distinctes donnera 20 estimations de coefficients et leurs valeurs p. Avec suffisamment de variables indépendantes dans vos régressions, vous trouverez tôt ou tard au moins une variable avec une corrélation statistiquement significative entre les variables dépendantes et indépendantes.
Ma question: est-ce une bonne idée de corriger les valeurs p pour plusieurs tests si je veux inclure toutes les variables indépendantes dans la régression? Toute référence à des travaux antérieurs est très appréciée.
la source
Réponses:
Il semble que votre question aborde plus généralement le problème de l'identification de bons prédicteurs. Dans ce cas, vous devriez envisager d’utiliser une sorte de régression pénalisée (les méthodes traitant de la sélection de variables ou de caractéristiques sont également pertinentes), avec par exemple L1, L2 (ou une combinaison de celles-ci, dénommées les « liens élastiques» ) (recherchez des questions connexes sur ce site, ou le package R pénalisé et élastique , entre autres).
Maintenant, à propos de la correction des valeurs p de vos coefficients de régression (ou équivalents de vos coefficients de corrélation partiels) pour vous protéger contre le suroptimisme (par exemple avec Bonferroni ou, mieux encore, les méthodes de réduction progressive), il semble que cela ne serait pertinent que si vous envisagez un modèle et recherchez les prédicteurs qui contribuent pour une part importante à la variance expliquée, c’est-à-dire si vous n’effectuez pas de sélection de modèle (avec une sélection par étapes ou des tests hiérarchiques). Cet article peut être un bon début: Ajustements de Bonferroni dans les tests de coefficients de régression . Sachez qu’une telle correction ne vous protégera pas contre les problèmes de multicolinéarité, qui affectent les valeurs p rapportées.
stepAIC
Il faut noter que les approches par étapes ont aussi leurs inconvénients (par exemple, les tests de Wald ne sont pas adaptés aux hypothèses conditionnelles comme induit par la procédure par étapes), ou comme indiqué par Frank Harrell dans R mailing ", la sélection de variables par étapes basée sur AIC a toutes les des problèmes de sélection de variables par étapes basées sur les valeurs P. AIC est simplement une reformulation de la valeur P "(mais AIC reste utile si l'ensemble de prédicteurs est déjà défini); une question connexe - Une variable est-elle significative dans un modèle de régression linéaire? - soulevé des commentaires intéressants ( @Rob , entre autres) sur l'utilisation de l'AIC pour la sélection de variables. Je joins quelques références à la fin (y compris les documents aimablement fournis par @Stephan) il y a aussi beaucoup d'autres références sur P.Mean .
Frank Harrell est l'auteur d'un livre sur la stratégie de modélisation de régression, qui comprend de nombreuses discussions et conseils autour de ce problème (§4.3, p. 56-60). Il a également développé des routines R efficaces pour traiter des modèles linéaires généralisés (voir les packages Design ou rms ). Donc, je pense que vous devez absolument y jeter un coup d'œil (ses documents sont disponibles sur sa page d'accueil).
Références
step.adj()
dans le paquet R someMTP .la source
Dans une grande mesure, vous pouvez faire ce que vous voulez à condition de disposer de suffisamment de données au hasard pour tester le modèle que vous proposez à partir des données conservées. Un partage de 50% peut être une bonne idée. Oui, vous perdez un peu de votre capacité à détecter les relations, mais ce que vous gagnez est énorme; à savoir la possibilité de reproduire votre travail avant sa publication. Quelle que soit la complexité des techniques statistiques que vous utilisez, vous serez surpris du nombre de prédicteurs «significatifs» qui se révèlent totalement inutiles lorsqu'ils sont appliqués aux données de confirmation.
N'oubliez pas non plus que "pertinent" pour la prédiction signifie plus qu'une faible valeur p. Cela signifie, après tout, que la relation trouvée dans cet ensemble de données n'est probablement pas due au hasard. Pour la prédiction, il est en réalité plus important de rechercher les variables qui exercent une influence substantielle sur le prédictant (sans sur-ajuster le modèle); c'est-à-dire que pour trouver les variables susceptibles d'être "réelles" et, lorsqu'elles varient dans une plage de valeurs raisonnable (pas seulement les valeurs susceptibles de figurer dans votre échantillon!), la prédictande varie sensiblement. Lorsque vous disposez de données en attente pour confirmer un modèle, vous pouvez être plus à l'aise en conservant provisoirement des variables "significatives" marginales qui pourraient ne pas avoir de faibles valeurs p.
Pour ces raisons (et en me basant sur la bonne réponse de chl), bien que j’ai trouvé des modèles pas à pas, des comparaisons AIC et des corrections de Bonferroni très utiles (en particulier avec des centaines ou des milliers de prédicteurs possibles en jeu), ceux-ci ne devraient pas être les seuls déterminants des variables. entrez votre modèle. Ne perdez pas de vue les indications théoriques fournies par la théorie: les variables ayant une forte justification théorique pour figurer dans un modèle doivent généralement être conservées, même lorsqu'elles ne sont pas significatives, à condition qu'elles ne créent pas des équations mal conditionnées ( par exemple, la colinéarité). .
NB : Une fois que vous avez défini un modèle et confirmé son utilité avec les données de réserve, vous pouvez recombiner les données conservées avec les données de réserve pour une estimation finale. Ainsi, rien n’est perdu en termes de précision avec laquelle vous pouvez estimer les coefficients du modèle.
la source
Je pense que c'est une très bonne question. il va au cœur du «problème» controversé des tests multiples qui envahit des domaines allant de l'épidémiologie à l'économétrie. Après tout, comment pouvons- nous savoir si la signification que nous trouvons est fallacieuse ou non? Quelle est la véracité de notre modèle multivariable?
En ce qui concerne les approches techniques visant à compenser la probabilité de publication de variables de bruit, je suis tout à fait d’accord avec le mot «whuber» selon lequel l’utilisation d’une partie de votre échantillon comme données d’entraînement et le reste comme données de test est une bonne idée. C'est une approche qui est discutée dans la littérature technique. Si vous prenez le temps, vous pourrez probablement trouver de bonnes directives pour savoir quand et comment l'utiliser.
Mais pour attaquer plus directement la philosophie des tests multiples, je vous suggère de lire les articles que je mentionne ci-dessous, dont certains soutiennent la position selon laquelle l'ajustement pour tests multiples est souvent préjudiciable (coûts en puissance), inutile, et peut même être une erreur logique. . Pour ma part, je n'accepte pas automatiquement l'affirmation selon laquelle notre capacité à enquêter sur un prédicteur potentiel est inexorablement réduite par celle d'un autre. Le taux d'erreur de type 1 au niveau familial peut augmenter si nous incluons plus de prédicteurs dans un modèle donné, mais tant que nous n'allons pas au-delà des limites de la taille de notre échantillon, la probabilité d'erreur de type 1 pour chaque individule prédicteur est constant; et le contrôle de l'erreur familiale n'indique pas quelle variable spécifique est le bruit et quelle variable. Bien sûr, il existe également des arguments contradictoires convaincants.
Ainsi, tant que vous limitez votre liste de variables potentielles à celles qui sont plausibles (c’est-à-dire que vous auriez des voies menant au résultat), le risque de contrefaçon est déjà assez bien géré.
Cependant, j'ajouterais qu'un modèle prédictif n'est pas aussi concerné par la "valeur de vérité" de ses prédicteurs qu'un modèle causal ; il peut y avoir beaucoup de confusion dans le modèle, mais tant que nous expliquons une grande partie de la variance, nous ne sommes pas trop inquiets. Cela facilite le travail, du moins dans un sens.
À votre santé,
Brenden, consultant en biostatistique
PS: vous voudrez peut-être faire une régression de Poisson gonflée à zéro pour les données que vous décrivez, au lieu de deux régressions distinctes.
la source
Il y a de bonnes réponses ici. Permettez-moi d'ajouter quelques petits points que je ne vois pas abordés ailleurs.
Premièrement, quelle est la nature de vos variables de réponse? Plus spécifiquement, sont-ils compris comme liés les uns aux autres? Vous ne devez effectuer que deux régressions multiples distinctes si elles sont considérées comme indépendantes (théoriquement) / si les résidus des deux modèles sont indépendants (empiriquement). Sinon, vous devriez envisager une régression multivariée. ('Multivarié' signifie> 1 variable de réponse; 'multiple' signifie> 1 variable prédictive.)
la source
Vous pouvez faire une régression apparemment sans lien et utiliser un test F. Mettez vos données dans un formulaire comme celui-ci:
afin que les prédicteurs de votre premier résultat aient leurs valeurs lorsque ce résultat est la variable y et 0 sinon et inversement. Donc, votre y est une liste des deux résultats. P11 et P12 sont les deux prédicteurs du premier résultat et P21 et P22 sont les deux prédicteurs du deuxième résultat. Si le sexe, par exemple, est un prédicteur des deux résultats, son utilisation pour prédire le résultat 1 doit figurer dans une colonne / colonne distincte pour prévoir le résultat 2. Cela permet à votre régression d'avoir des pentes / impacts différents pour le sexe pour chaque résultat.
Dans ce cadre, vous pouvez utiliser les procédures de test F standard.
la source