Je fais une régression linéaire multiple. J'ai 21 observations et 5 variables. Mon objectif est simplement de trouver la relation entre les variables
- Mes données sont-elles suffisantes pour effectuer une régression multiple?
Le résultat du test t a révélé que 3 de mes variables ne sont pas significatives. Dois-je refaire ma régression avec les variables significatives (ou ma première régression suffit pour arriver à la conclusion)? Ma matrice de corrélation est la suivante
var 1 var 2 var 3 var 4 var 5 Y var 1 1.0 0.0 0.0 -0.1 -0.3 -0.2 var 2 0.0 1.0 0.4 0.3 -0.4 -0.4 var 3 0.0 0.4 1.0 0.7 -0.7 -0.6 var 4 -0.1 0.3 0.7 1.0 -0.7 -0.9 var 5 -0.3 -0.4 -0.7 -0.7 1.0 0.8 Y -0.2 -0.4 -0.6 -0.9 0.8 1.0
var 1 et var 2 sont des variables continues et var 3 à 5 sont des variables catégorielles et y est ma variable dépendante.
Il convient de mentionner la variable importante qui a été considérée dans la littérature car le facteur le plus influent sur ma variable dépendante ne figure pas également parmi mes variables de régression en raison de la limitation de mes données. Est-il toujours logique de faire une régression sans cette variable importante?
voici mon intervalle de confiance
Varibales Regression Coefficient Lower 95% C.L. Upper 95% C.L.
Intercept 53.61 38.46 68.76
var 1 -0.39 -0.97 0.19
var 2 -0.01 -0.03 0.01
var 3 5.28 -2.28 12.84
var 4 -27.65 -37.04 -18.26
**var 5 11.52 0.90 22.15**
La réponse à la question générale est qu'elle dépend de nombreux facteurs, les principaux étant (1) le nombre de covariables (2) la variance des estimations et des résidus. Avec un petit échantillon, vous n'avez pas beaucoup de pouvoir pour détecter une différence de 0. Je regarderais donc la variance estimée des paramètres de régression. D'après mon expérience avec la régression, 21 observations avec 5 variables ne suffisent pas pour exclure les variables. Je ne serais donc pas si rapide à jeter des variables ni à être trop amoureux de celles qui semblent significatives. La meilleure réponse est d'attendre d'avoir beaucoup plus de données. Parfois, c'est facile à dire mais difficile à faire. Je regarderais la régression pas à pas, la régression avant et arrière juste pour voir quelles variables sont sélectionnées. Si les covariables sont fortement corrélées, cela peut montrer que des ensembles de variables très différents sont sélectionnés. Démarrez la procédure de sélection du modèle car cela révélera la sensibilité de la sélection des variables aux changements dans les données. Vous devez calculer la matrice de corrélation pour les covariables. Peut-être que Frank Harrell interviendra à ce sujet. Il est un véritable expert en sélection de variables. Je pense qu'il serait au moins d'accord avec moi que vous ne devriez pas choisir un modèle final basé uniquement sur ces 21 points de données.
la source