Je veux exécuter une régression avec 4 à 5 variables explicatives, mais je n'ai que 15 observations. Ne pouvant supposer que ces variables sont normalement distribuées, existe-t-il une méthode de régression non paramétrique ou toute autre méthode de régression valide?
9
Réponses:
@Glen_b a raison sur la nature de l'hypothèse de normalité dans la régression 1 .
Je pense que votre plus gros problème sera que vous n'avez pas suffisamment de données pour prendre en charge 4 à 5 variables explicatives. La règle générale standard 2 est que vous devez avoir au moins 10 données par variable explicative, c'est-à-dire 40 ou 50 données dans votre cas (et c'est pour les situations idéales où il n'y a aucun doute sur les hypothèses). Parce que votre modèle ne serait pas complètement saturé 3(vous avez plus de données que de paramètres à ajuster), vous pouvez obtenir des estimations de paramètres (pente, etc.) et, dans des circonstances idéales, les estimations sont asymptotiquement non biaisées. Cependant, il est fort probable que vos estimations soient très éloignées des vraies valeurs et vos SE / CI seront très grandes, vous n'aurez donc aucun pouvoir statistique. Notez que l'utilisation d'une analyse de régression non paramétrique ou d'une autre alternative ne vous permettra pas de résoudre ce problème.
Ce que vous devrez faire ici, c'est choisir une seule variable explicative (avant de regarder vos données!) En fonction des théories antérieures dans votre domaine ou de vos intuitions, ou vous devez combiner vos variables explicatives. Une stratégie raisonnable pour cette dernière option consiste à exécuter une analyse en composantes principales (ACP) et à utiliser la première composante principale comme variable explicative.
Références:
1. Que se passe-t-il si les résidus sont normalement distribués mais Y ne l'est pas?
2. Règles générales pour la taille minimale de l'échantillon pour la régression multiple
3. Nombre maximum de variables indépendantes pouvant être entrées dans une équation de régression multiple
la source