Après avoir demandé des éclaircissements sur les coefficients du modèle linéaire ici, j'ai une question de suivi concernant les coefficients de niveaux de facteur non significatifs (valeur p élevée).
Exemple: si mon modèle linéaire comprend un facteur à 10 niveaux et que seulement 3 de ces niveaux ont des valeurs de p significatives qui leur sont associées, lors de l'utilisation du modèle pour prédire Y, puis-je choisir de ne pas inclure le terme de coefficient si le sujet tombe dans l'un des le niveau non significatif?
Plus radicalement, serait-il mal de regrouper les 7 niveaux non significatifs en un seul niveau et de ré-analyser?
statistical-significance
linear-model
model-selection
regression-coefficients
regression-strategies
Arbres4laForêt
la source
la source
Réponses:
Si vous insérez une variable prédictive à plusieurs niveaux, vous insérez la variable ou non, vous ne pouvez pas choisir les niveaux. Vous voudrez peut-être restructurer les niveaux de votre variable de prédiction pour diminuer le nombre de niveaux (si cela a du sens dans le contexte de votre analyse.) Cependant, je ne suis pas sûr que cela entraînerait un certain type d'invalidation statistique si vous êtes l'effondrement des niveaux car vous voyez qu'ils ne sont pas significatifs.
De plus, juste une note, vous dites que les petites valeurs de sont insignifiantes. Je suppose que vous vouliez dire que les petites valeurs de p sont significatives, c'est-à-dire qu'une valeur de p de .0001 est significative et donc vous rejetez la valeur nulle (en supposant un niveau α > .0001 ?).p p p α > .0001
la source
La réponse d'Ellie est bonne.
Si vous insérez une variable avec un certain nombre de niveaux, vous devez conserver tous ces niveaux dans votre analyse. Choisir et choisir en fonction du niveau de signification biaisera vos résultats et fera des choses très étranges à votre inférence, même si, par miracle, vos estimations parviennent à rester les mêmes, car vous aurez des trous béants dans vos effets estimés à différents niveaux de la variable.
J'envisagerais d'examiner graphiquement vos estimations pour chaque niveau du prédicteur. Voyez-vous une tendance à mesure que vous montez des niveaux, ou est-ce erratique?
D'une manière générale, je suis également opposé au recodage des variables basé sur des tests statistiques - ou basé uniquement sur des moments statistiques. Les divisions de votre variable doivent être basées sur quelque chose de plus ferme - des points de coupure logiquement significatifs, un intérêt de terrain pour un point de transition particulier, etc.
la source
En approfondissant les deux bonnes réponses que vous avez déjà obtenues, examinons cela de manière approfondie. Supposons que votre variable dépendante soit (disons) le revenu et votre variable indépendante soit (disons) l'ethnicité, avec des niveaux, selon les définitions du recensement (Blanc, Noir / Afr. Am., Am. Indien / Alaska natif, Asiatique, Native Hawaï / Pac Islander, autre et multiraciale). Disons que vous le codez fictivement avec White comme catégorie de référence et vous obtenez
Si vous effectuez cette étude à New York, vous obtiendrez probablement très peu de Hawaïens autochtones / Insulaires du Pacifique. Vous pourriez décider de les inclure (s'il y en a) avec les autres. Cependant, vous ne pouvez pas utiliser l'équation complète et simplement ne pas inclure ce coefficient. L'ordonnée à l'origine sera alors erronée, de même que toute valeur prédite pour le revenu.
Mais comment combiner les catégories?
Comme l'ont dit les autres, cela doit avoir du sens .
la source
Pour donner un avis différent: pourquoi ne pas l'inclure comme effet aléatoire? Cela devrait pénaliser ces niveaux avec un faible support et s'assurer que leur taille d'effet est minimale. De cette façon, vous pouvez les garder tous sans vous soucier d'obtenir des prévisions stupides.
Et oui, cela est plus motivé par une vision bayésienne des effets aléatoires que par l'ensemble de la vue "échantillon de tous les niveaux possibles" des effets aléatoires.
la source
Je me demandais également si je pouvais combiner des catégories non significatives avec la catégorie de référence. Les déclarations suivantes dans le livre "Exploration de données pour la Business Intelligence: Concepts, Techniques et Applications dans Microsoft Office Excel® avec XLMiner®, 2e édition par Galit Shmueli, Nitin R. Patel, Peter C. Bruce", p87-89 (Dimension Section de réduction) ( Résultat de recherche Google ) semble soutenir la deuxième phrase de la réponse de @ Ellie:
Cependant, je prévois de vérifier avec des experts en la matière si la combinaison des catégories est logique (comme impliqué dans les réponses / commentaires précédents, par exemple @Fomite, @gung).
la source