J'ai un ensemble de données d'études de cas de projet pour un nouveau type de méthode de recherche pour les agences gouvernementales pour soutenir les activités de prise de décision. Ma tâche consiste à développer une méthode d'estimation basée sur l'expérience passée pour de futurs projets à des fins d'estimation.
Mon jeu de données est limité à 50 cas. J'ai plus de 30 prédicteurs (potentiels) enregistrés et une variable de réponse (c.-à-d. Heures prises pour terminer le projet).
Tous les prédicteurs ne sont pas significatifs, en utilisant des techniques de sélection pas à pas, je m'attends à ce que le nombre de variables de prédiction soit probablement compris entre 5 et 10. Bien que j'aie du mal à obtenir un ensemble de prédicteurs en utilisant les approches standard dans des outils comme PASW (SPSS).
Je connais bien tout le matériel qui parle des règles empiriques pour les tailles d'échantillon et les ratios variables / prédicteurs. Mon dilemme est qu'il a fallu près de 10 ans pour collecter 50 cas, c'est donc à peu près aussi bon que possible.
Ma question est que dois-je faire pour tirer le meilleur parti de ce petit ensemble d'échantillons?
Y a-t-il de bonnes références pour traiter les petits ensembles de smaple? Changements dans la signification de la valeur p? Changements dans les approches de sélection par étapes? Utilisation de transformations telles que centrage ou log?
Tout conseil est apprécié.
la source
glmnet
paquet (voir fonction:)glmnet
, il vous donne des options pour ajuster leglm
(la régression linéaire est un cas spécial) avec