Les covariables qui ne sont pas statistiquement significatives doivent-elles être «conservées» lors de la création d'un modèle?

39

Mon calcul comporte plusieurs covariables pour un modèle, et toutes ne sont pas statistiquement significatives. Devrais-je enlever ceux qui ne le sont pas?

Cette question traite du phénomène, mais ne répond pas à ma question: comment interpréter l'effet non significatif d'une covariable dans ANCOVA?

Rien dans la réponse à cette question ne suggère que des covariables non significatives soient supprimées, bien que, pour le moment, je suis enclin à croire qu'elles devraient rester. Avant même de lire cette réponse, je pensais la même chose, car une covariable peut encore expliquer une partie de la variance (et donc aider le modèle) sans nécessairement expliquer un montant supérieur à un seuil (le seuil de signification, que je considère comme non applicable aux covariables).

Il y a une autre question quelque part sur le CV pour laquelle la réponse semble impliquer que les covariables devraient être conservées indépendamment de leur importance, mais ce n'est pas clair à ce sujet. (Je veux faire un lien vers cette question, mais je n'ai pas été en mesure de la retrouver à l'instant.)

Alors ... Les covariables qui ne sont pas statistiquement significatives doivent-elles être conservées dans le calcul du modèle? (J'ai édité cette question pour préciser que les covariables ne sont jamais dans la sortie du modèle par le calcul.)

Pour ajouter à la complication, que se passe-t-il si les covariables sont statistiquement significatives pour certains sous-ensembles de données (sous-ensembles devant être traités séparément). Par défaut, je garderais une telle covariable, sinon il faudrait utiliser des modèles différents ou une covariable statistiquement significative serait manquante dans l'un des cas. Si vous avez également une réponse pour ce cas fractionné, veuillez toutefois le mentionner.

UN M
la source
6
De manière générale, je dirais que vous devriez conserver les variables qui sont théoriquement importantes ou qui ont été significatives dans des études antérieures, même si vos données ne corroborent pas leur effet. Cela dit, pour obtenir une réponse plus précise, je pense que vous devriez ajouter quelques lignes pour expliquer votre modèle et son objectif (par exemple, identifier les facteurs de risque, faire des prévisions, ...).
ocram
Je dirais que ça dépend. Les tests ne sont que des indicateurs. Si vous croyez qu'il devrait y avoir une petite dépendance, songez à rester dans le modèle. Si vous croyez aussi que la dépendance ne devrait pas être là, laissez-la de côté.
Bene
OK, donc vous dites tous les deux que la non-signification ne dicte pas de soustraire une covariable, vous avez donc tous les deux répondu à ma question. Je devrais en fait reformuler ma question pour indiquer plus clairement que ce que je demande, c'est si la signification statistique d'une covariable est une condition nécessaire pour la conserver ("La non-signification d'une covariable signifie-t-elle qu'elle devrait être supprimée ..."), et J'accepterais l'un ou l'autre de vos commentaires comme réponses.
AM
Avant de faire cela, cependant, j'aimerais m'assurer que j'utilise la bonne terminologie. À l’origine, j’écrivais «gardé dans le modèle», mais cela ne semblait pas correct, car les covariables n’apparaissent jamais dans le modèle. Je me suis contenté de "conservé dans le calcul pour le modèle " (et "retiré de l' examen "), mais y a-t-il une meilleure façon de le dire? Quel est le bon terme pour désigner la covariable qui est conservée ou supprimée?
AM
3
Vous devrez valider l'exécution correcte de ces procédures de sélection. D'autres ont échoué.
Frank Harrell

Réponses:

32

Vous avez déjà plusieurs bonnes réponses. Il y a des raisons de garder les covariables et des raisons d'abandonner les covariables. La signification statistique ne devrait pas être un facteur clé, dans la grande majorité des cas.

  1. Les covariables peuvent être d’une importance telle qu’elles doivent être présentes.
  2. La taille d'effet d'une covariable peut être élevée, même si elle n'est pas significative.
  3. La covariable peut affecter d'autres aspects du modèle.
  4. La covariable peut faire partie de la formulation de votre hypothèse.

Si vous êtes dans un mode très exploratoire et que la covariable n’est pas importante dans la littérature , que la taille de l’effet est faible et que la covariable a peu d’effet sur votre modèle et que la covariable n’était pas dans votre hypothèse, vous pouvez probablement le supprimer juste pour des raisons de simplicité. .

Peter Flom - Rétablir Monica
la source
6
Une situation très importante mais souvent négligée est couverte par le numéro 4 ici, mais je vais l'expliquer. Souvent - et même habituellement - vous devriez vouloir comparer vos résultats avec ceux d’anciens travailleurs disposant de données similaires. Si d'autres trouvent des covariables intéressantes dans leurs modèles, comparez vos résultats avec les leurs, que vos covariables atteignent ou non un niveau de signification (conventionnel). Notez que les cas ici peuvent varier du (des) modèle (s) de rapport que vous estimez ne sont pas (particulièrement) bons au modèle de rapport (s) que vous considérez bons.
Nick Cox
1
J'étais définitivement enclin à «garder la parole» (et à ne pas faire beaucoup de p-valeur pour les covariables en premier lieu), mais votre réponse constitue une très belle liste de contrôle (bien… deux) qu'une minorité peut supprimer. La taille de l'effet est quelque chose que je n'avais pas pris en compte et, même si j'ai pris en compte des hypothèses, j'apprécie beaucoup que vous l'ayez incluse, pour les raisons évoquées par @NickCox et simplement pour décourager la pêche.
AM
26

La réponse longue est "oui". Il existe peu de raisons de supprimer des prédicteurs non significatifs et de nombreuses raisons de ne pas le faire. En ce qui concerne leur interprétation, vous le faites en ignorant lesP

Frank Harrell
la source
10
La réponse longue est "oui"! +1 et un lol.
Peter Flom - Réintégrer Monica
Sinon, quelles sont les autres raisons de supprimer les prédicteurs? Vous parlez d'interprétation des intervalles de confiance, mais il semble qu'une "plage intéressante" serait égale à zéro, ce qui signifie que les gens interpréteraient les IC de la même manière que les valeurs p (inclusion ou exclusion de zéro).
Mark White
1
Quelles sont les raisons pour supprimer les prédicteurs lorsque cela fausse les propriétés statistiques? Pas clair sur votre question et le "zéro".
Frank Harrell
7

Une idée utile est qu'il n'y a en réalité aucune spécificité statistique sur une covariable, voir par exemple Aide pour écrire des covariables dans une formule de régression . Incidemment, cela pourrait expliquer pourquoi il n'y a pas de covariatebalise. Par conséquent, la documentation ici et ailleurs sur les termes non significatifs dans un modèle linéaire est pertinente, de même que les critiques bien connus de la régression par étapes, même si ANCOVA n'est pas explicitement mentionné.

De manière générale, il est déconseillé de sélectionner des prédicteurs basés uniquement sur la signification. Si, pour une raison quelconque, vous ne pouvez pas spécifier le modèle à l'avance, vous devriez envisager d'autres approches, mais si vous avez l'intention de les inclure, collectez les données en conséquence et ne rencontrez pas de problèmes spécifiques (par exemple, colinéarité), conservez-les.

En ce qui concerne les raisons de les conserver, les objections que vous avez formulées me semblent tout à fait justes. Une autre raison serait que la suppression des prédicteurs non significatifs fausse les inférences basées sur le modèle. Une autre façon de regarder tout cela est de demander ce qui serait gagné en supprimant ces covariables après les faits.

Gala
la source
4

Nous avons vraiment besoin de plus d’informations sur vos objectifs pour répondre à cette question. Les régressions sont utilisées à deux fins principales:

  1. Prédiction
  2. Inférence

La prédiction se produit lorsque votre objectif est de pouvoir deviner les valeurs de la variable de résultat pour des observations qui ne figurent pas dans l'échantillon (bien qu'elles se situent généralement dans la plage des données de l'échantillon - sinon, nous utilisons parfois le mot "prévision"). La prédiction est utile pour la publicité, la finance, etc. Si vous souhaitez simplement prédire une variable de résultat, je n'ai pas grand chose à vous offrir.

L’inférence est l’amusement (même si ce n’est pas l’argent). L'inférence est l'endroit où vous essayez de tirer des conclusions sur des paramètres de modèle spécifiques, généralement pour déterminer l'effet causal d'une variable sur une autre. Malgré la perception commune, l'analyse de régression n'est jamais suffisante pour l'inférence causale. Vous devez toujours en savoir plus sur le processus de génération de données pour savoir si votre régression capture l'effet causal. La question clé pour l'inférence causale à partir des régressions est de savoir si la moyenne conditionnelle de l'erreur (conditionnelle aux régresseurs) est égale à zéro. Cela ne peut pas être connu à partir des valeurs p sur les régresseurs. Il est possible d'avoir des estimateurs de régression non biaisés ou cohérents, mais cela nécessite beaucoup plus d'efforts que de simplement introduire des contrôles évidents dans la régression et d'espérer que vous en avez les plus importants.Mastering 'Metrics: le passage d'une économétrie de cause à effet et la plupart du temps inoffensif ). Maîtriser les métriques est la lecture la plus facile et la moins coûteuse, mais sachez que ce n'est pas un traitement de la façon de faire des régressions mais plutôt de ce qu'elles signifient. Pour une bonne couverture des exemples de bonnes et de mauvaises conceptions de recherche observationnelle, je recommande David Freedman (1991) "Statistical Models and Shoe Leather", Sociological Methodology , volume 21 (une lecture courte et facile avec des exemples fascinants).

De plus, l'obsession de la technique statistique par rapport à une bonne conception de la recherche dans la plupart des cours de niveau collégial est une bête noire pédagogique.

Deuxièmement, pour souligner l’importance actuelle de cette question: la différence entre la prédiction et l’inférence est la raison pour laquelle le Big Data ne se substitue pas à la science.

Randy Cragun
la source