Nombre minimal d'observations pour la régression linéaire multiple

12

Je fais une régression linéaire multiple. J'ai 21 observations et 5 variables. Mon objectif est simplement de trouver la relation entre les variables

  1. Mes données sont-elles suffisantes pour effectuer une régression multiple?
  2. Le résultat du test t a révélé que 3 de mes variables ne sont pas significatives. Dois-je refaire ma régression avec les variables significatives (ou ma première régression suffit pour arriver à la conclusion)? Ma matrice de corrélation est la suivante

           var 1   var 2    var 3   var 4   var 5     Y
    var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
    var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
    var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
    var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
    var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
    Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0
    

var 1 et var 2 sont des variables continues et var 3 à 5 sont des variables catégorielles et y est ma variable dépendante.

Il convient de mentionner la variable importante qui a été considérée dans la littérature car le facteur le plus influent sur ma variable dépendante ne figure pas également parmi mes variables de régression en raison de la limitation de mes données. Est-il toujours logique de faire une régression sans cette variable importante?

voici mon intervalle de confiance

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**
Rose
la source

Réponses:

17

La règle générale (basée sur des éléments du livre de Frank Harrell, Stratégies de modélisation de la régression ) est que si vous vous attendez à pouvoir détecter des effets de taille raisonnable avec une puissance raisonnable , vous avez besoin de 10 à 20 observations par paramètre (covariable) estimées. Harrell discute de nombreuses options pour la "réduction de dimension" (réduire votre nombre de covariables à une taille plus raisonnable), telles que l'ACP, mais la chose la plus importante est que pour avoir confiance dans les résultats , la réduction de dimension doit être effectuée sans regarder la variable de réponse . Refaire la régression avec seulement les variables significatives, comme vous le suggérez plus haut, est dans presque tous les cas une mauvaise idée.

Cependant, comme vous êtes coincé avec un ensemble de données et un ensemble de covariables qui vous intéressent, je ne pense pas que l'exécution de la régression multiple de cette façon soit intrinsèquement erronée. Je pense que la meilleure chose serait d'accepter les résultats tels qu'ils sont, à partir du modèle complet (n'oubliez pas de regarder les estimations ponctuelles et les intervalles de confiance pour voir si les effets significatifs sont estimés être «importants» dans certains cas réels). sens du monde, et si les effets non significatifs sont réellement estimés être plus petits que les effets significatifs ou non).

Quant à savoir s'il est logique de faire une analyse sans le prédicteur que votre domaine considère important: je ne sais pas. Cela dépend du type d'inférences que vous souhaitez faire en fonction du modèle. Au sens étroit, le modèle de régression est encore bien défini ("quels sont les effets marginaux de ces prédicteurs sur cette réponse?"), Mais quelqu'un dans votre domaine pourrait à juste titre dire que l'analyse n'a tout simplement pas de sens. Cela aiderait un peu si vous saviez que les prédicteurs que vous avez ne sont pas corrélés du prédicteur bien connu (quel qu'il soit), ou que ce prédicteur bien connu est constant ou presque constant pour vos données: alors au moins vous pourriez dire que autre chose que le prédicteur bien connu a un effet sur la réponse.

Ben Bolker
la source
Merci pour le commentaire, mais je ne comprends pas à quoi sert de vérifier l'intervalle de confiance?
levé le
Puisque Ben a répondu pour Frank, je répondrai pour Ben et il pourra me corriger s'il avait autre chose en tête. Ben propose jsut en utilisant le modèle complet. Ensuite, au moins vous savez que vous n'avez pas omis une variable importante de l'ensemble de 5. Le problème de sur-ajustement peut nuire à la prédiction, mais au moins vous avez des intervalles de confiance pour les paramètres et vous pouvez obtenir des intervalles de confiance pour la prédiction. Je pense que cela fonctionnera bien si vous avez un problème de colinéarité et que les intervalles de confiance sur les paramètres vous permettent de savoir si la valeur du paramètre pourrait être 0.
Michael R. Chernick
Si le modèle manque encore de variables importantes, la prédiction peut ne pas être bonne et l'évaluation de la précision de la prédiction basée sur les données fournies peut être erronée. Inquiétez-vous des erreurs de spécification du modèle et vérifiez toujours les résidus. Frank Harrell est un membre actif de ce site. J'espère donc que cette question attirera son attention et que nous pourrons alors l'entendre directement.
Michael R. Chernick
p<0.05
D'après les discussions, je pense qu'en raison du manque d'observations suffisantes et de l'absence de la variable indépendante la plus importante dans mon ensemble de données, je dois conclure: 1-Les variables significatives ne sont pas la variable qui a réussi le test t. Le significatif est celui qui passe le test t et son intervalle de confiance n'est pas compris 0. 2-La normalité du résidu doit être vérifiée. 3-La matrice de corrélation doit être vérifiée.
levé
2

La réponse à la question générale est qu'elle dépend de nombreux facteurs, les principaux étant (1) le nombre de covariables (2) la variance des estimations et des résidus. Avec un petit échantillon, vous n'avez pas beaucoup de pouvoir pour détecter une différence de 0. Je regarderais donc la variance estimée des paramètres de régression. D'après mon expérience avec la régression, 21 observations avec 5 variables ne suffisent pas pour exclure les variables. Je ne serais donc pas si rapide à jeter des variables ni à être trop amoureux de celles qui semblent significatives. La meilleure réponse est d'attendre d'avoir beaucoup plus de données. Parfois, c'est facile à dire mais difficile à faire. Je regarderais la régression pas à pas, la régression avant et arrière juste pour voir quelles variables sont sélectionnées. Si les covariables sont fortement corrélées, cela peut montrer que des ensembles de variables très différents sont sélectionnés. Démarrez la procédure de sélection du modèle car cela révélera la sensibilité de la sélection des variables aux changements dans les données. Vous devez calculer la matrice de corrélation pour les covariables. Peut-être que Frank Harrell interviendra à ce sujet. Il est un véritable expert en sélection de variables. Je pense qu'il serait au moins d'accord avec moi que vous ne devriez pas choisir un modèle final basé uniquement sur ces 21 points de données.

Michael R. Chernick
la source
Merci pour votre suggestion. J'ai ajouté ma matrice de corrélation. Pensez-vous qu'avec cette matrice de corrélation, la régression est raisonnable? Soulignez simplement que je ne peux pas collecter plus de données et que je ne veux pas modéliser ou prédire. Je veux juste trouver une relation possible entre les variables indépendantes et la variable dépendante.
levé
La matrice de corrélation est là pour vous donner une idée de la colinéarité. Les estimations auront probablement une grande variance et la signification statistique ne devrait donc pas être au centre. Ypu pourrait examiner les diagnostics de régression pour la colinéarité. Cela pourrait aider. Mais je recommanderais de regarder une variété de modèles de sous-ensembles pour voir comment l'ajustement change et quelles combinaisons de variables semblent bien et mal faire. Je pense vraiment que l'amorçage des données vous montrera quelque chose sur la stabilité du choix des prédicteurs.
Michael R. Chernick
1
Mais rien ne compensera le manque de données. Je pense que vous voulez juste voir s'il y a une ou deux variables qui semblent se tenir la tête au-dessus des autres. Mais vous ne trouverez peut-être rien.
Michael R. Chernick
xx2x3x4