Mon calcul comporte plusieurs covariables pour un modèle, et toutes ne sont pas statistiquement significatives. Devrais-je enlever ceux qui ne le sont pas?
Cette question traite du phénomène, mais ne répond pas à ma question: comment interpréter l'effet non significatif d'une covariable dans ANCOVA?
Rien dans la réponse à cette question ne suggère que des covariables non significatives soient supprimées, bien que, pour le moment, je suis enclin à croire qu'elles devraient rester. Avant même de lire cette réponse, je pensais la même chose, car une covariable peut encore expliquer une partie de la variance (et donc aider le modèle) sans nécessairement expliquer un montant supérieur à un seuil (le seuil de signification, que je considère comme non applicable aux covariables).
Il y a une autre question quelque part sur le CV pour laquelle la réponse semble impliquer que les covariables devraient être conservées indépendamment de leur importance, mais ce n'est pas clair à ce sujet. (Je veux faire un lien vers cette question, mais je n'ai pas été en mesure de la retrouver à l'instant.)
Alors ... Les covariables qui ne sont pas statistiquement significatives doivent-elles être conservées dans le calcul du modèle? (J'ai édité cette question pour préciser que les covariables ne sont jamais dans la sortie du modèle par le calcul.)
Pour ajouter à la complication, que se passe-t-il si les covariables sont statistiquement significatives pour certains sous-ensembles de données (sous-ensembles devant être traités séparément). Par défaut, je garderais une telle covariable, sinon il faudrait utiliser des modèles différents ou une covariable statistiquement significative serait manquante dans l'un des cas. Si vous avez également une réponse pour ce cas fractionné, veuillez toutefois le mentionner.
Réponses:
Vous avez déjà plusieurs bonnes réponses. Il y a des raisons de garder les covariables et des raisons d'abandonner les covariables. La signification statistique ne devrait pas être un facteur clé, dans la grande majorité des cas.
Si vous êtes dans un mode très exploratoire et que la covariable n’est pas importante dans la littérature , que la taille de l’effet est faible et que la covariable a peu d’effet sur votre modèle et que la covariable n’était pas dans votre hypothèse, vous pouvez probablement le supprimer juste pour des raisons de simplicité. .
la source
La réponse longue est "oui". Il existe peu de raisons de supprimer des prédicteurs non significatifs et de nombreuses raisons de ne pas le faire. En ce qui concerne leur interprétation, vous le faites en ignorant lesP
la source
Une idée utile est qu'il n'y a en réalité aucune spécificité statistique sur une covariable, voir par exemple Aide pour écrire des covariables dans une formule de régression . Incidemment, cela pourrait expliquer pourquoi il n'y a pas de
covariate
balise. Par conséquent, la documentation ici et ailleurs sur les termes non significatifs dans un modèle linéaire est pertinente, de même que les critiques bien connus de la régression par étapes, même si ANCOVA n'est pas explicitement mentionné.De manière générale, il est déconseillé de sélectionner des prédicteurs basés uniquement sur la signification. Si, pour une raison quelconque, vous ne pouvez pas spécifier le modèle à l'avance, vous devriez envisager d'autres approches, mais si vous avez l'intention de les inclure, collectez les données en conséquence et ne rencontrez pas de problèmes spécifiques (par exemple, colinéarité), conservez-les.
En ce qui concerne les raisons de les conserver, les objections que vous avez formulées me semblent tout à fait justes. Une autre raison serait que la suppression des prédicteurs non significatifs fausse les inférences basées sur le modèle. Une autre façon de regarder tout cela est de demander ce qui serait gagné en supprimant ces covariables après les faits.
la source
Nous avons vraiment besoin de plus d’informations sur vos objectifs pour répondre à cette question. Les régressions sont utilisées à deux fins principales:
La prédiction se produit lorsque votre objectif est de pouvoir deviner les valeurs de la variable de résultat pour des observations qui ne figurent pas dans l'échantillon (bien qu'elles se situent généralement dans la plage des données de l'échantillon - sinon, nous utilisons parfois le mot "prévision"). La prédiction est utile pour la publicité, la finance, etc. Si vous souhaitez simplement prédire une variable de résultat, je n'ai pas grand chose à vous offrir.
L’inférence est l’amusement (même si ce n’est pas l’argent). L'inférence est l'endroit où vous essayez de tirer des conclusions sur des paramètres de modèle spécifiques, généralement pour déterminer l'effet causal d'une variable sur une autre. Malgré la perception commune, l'analyse de régression n'est jamais suffisante pour l'inférence causale. Vous devez toujours en savoir plus sur le processus de génération de données pour savoir si votre régression capture l'effet causal. La question clé pour l'inférence causale à partir des régressions est de savoir si la moyenne conditionnelle de l'erreur (conditionnelle aux régresseurs) est égale à zéro. Cela ne peut pas être connu à partir des valeurs p sur les régresseurs. Il est possible d'avoir des estimateurs de régression non biaisés ou cohérents, mais cela nécessite beaucoup plus d'efforts que de simplement introduire des contrôles évidents dans la régression et d'espérer que vous en avez les plus importants.Mastering 'Metrics: le passage d'une économétrie de cause à effet et la plupart du temps inoffensif ). Maîtriser les métriques est la lecture la plus facile et la moins coûteuse, mais sachez que ce n'est pas un traitement de la façon de faire des régressions mais plutôt de ce qu'elles signifient. Pour une bonne couverture des exemples de bonnes et de mauvaises conceptions de recherche observationnelle, je recommande David Freedman (1991) "Statistical Models and Shoe Leather", Sociological Methodology , volume 21 (une lecture courte et facile avec des exemples fascinants).
De plus, l'obsession de la technique statistique par rapport à une bonne conception de la recherche dans la plupart des cours de niveau collégial est une bête noire pédagogique.
Deuxièmement, pour souligner l’importance actuelle de cette question: la différence entre la prédiction et l’inférence est la raison pour laquelle le Big Data ne se substitue pas à la science.
la source