Je travaille actuellement à la construction d'un modèle utilisant une régression linéaire multiple. Après avoir manipulé mon modèle, je ne sais pas comment déterminer au mieux les variables à conserver et celles à supprimer.
Mon modèle a commencé avec 10 prédicteurs pour le DV. Lors de l'utilisation des 10 prédicteurs, quatre ont été considérés comme significatifs. Si je supprime seulement certains des prédicteurs manifestement incorrects, certains de mes prédicteurs qui n'étaient pas initialement significatifs deviennent significatifs. Ce qui m'amène à ma question: comment déterminer les prédicteurs à inclure dans leur modèle? Il m'a semblé que vous devriez exécuter le modèle une fois avec tous les prédicteurs, supprimer ceux qui ne sont pas significatifs, puis les réexécuter. Mais si supprimer seulement certains de ces prédicteurs rend les autres significatifs, je me demande si je prends la mauvaise approche de tout cela.
Je crois que ce fil est semblable à ma question, mais je ne suis pas sûr d’interpréter correctement la discussion. C’est peut-être davantage un sujet de conception expérimentale, mais peut-être que quelqu'un a une expérience à partager.
Réponses:
Basé sur votre réaction à mon commentaire:
Vous recherchez une prédiction Ainsi, vous ne devriez pas vraiment vous fier à la signification (ou non) des coefficients. Tu ferais mieux de
Pour chaque modèle d’intérêt, c’est là un piège. Avec 10 prédicteurs potentiels, il s’agit d’un chargement de modèles potentiels. Si vous avez le temps ou les processeurs pour cela (ou si vos données sont suffisamment petites pour que les modèles soient bien ajustés et évalués assez rapidement): prenez les choses en main. Si ce n'est pas le cas, vous pouvez y parvenir par des suppositions éclairées, une modélisation en amont ou en aval (mais en utilisant le critère plutôt que l'importance), ou mieux encore: utilisez un algorithme qui sélectionne un ensemble raisonnable de modèles. Un algorithme qui fait cela est la régression pénalisée, en particulier la régression de Lasso. Si vous utilisez R, branchez simplement le paquet glmnet et vous êtes prêt à partir.
la source
Il n'y a pas de réponse simple à cela. Lorsque vous supprimez certaines des variables explicatives non significatives, d'autres corrélées à celles-ci peuvent devenir significatives. Il n’ya rien de mal à cela, mais cela rend la sélection des modèles au moins en partie plus artistique que scientifique. C'est pourquoi les expériences visent à garder les variables explicatives orthogonales les unes aux autres, afin d'éviter ce problème.
Traditionnellement, les analystes ajoutaient et soustrayaient des variables au modèle, une par une (comme ce que vous aviez fait) et les testaient individuellement ou en petits groupes avec des tests t ou F. Le problème avec ceci est que vous pouvez manquer une combinaison de variables à sous-extraire (ou ajouter) lorsque leur effet combiné (ou non-effet) est masqué par la colinéarité.
Avec la puissance de calcul moderne, il est possible d’adapter toutes les 2 ^ 10 = 1024 combinaisons possibles de variables explicatives et de choisir le meilleur modèle selon l’un des critères possibles, par exemple AIC, BIC ou la puissance prédictive (par exemple, capacité à prédire les valeurs). d’un sous-ensemble de test des données que vous avez séparées de l’ensemble que vous utilisez pour l’adapter à votre modèle). Toutefois, si vous testez (implicitement ou explicitement) des modèles 1024, vous devrez repenser vos valeurs p par rapport à l'approche classique - faites preuve de prudence ...
la source
Si vous ne vous intéressez qu'aux performances prédictives, il est probablement préférable d'utiliser toutes les fonctions et d'utiliser la régression par crête pour éviter de surcharger l'échantillon d'apprentissage. C’est essentiellement le conseil donné dans l’annexe de la monographie de Millar sur la "sélection de sous-ensembles dans la régression" , ce qui donne un pedigree raisonnable!
La raison en est que si vous choisissez un sous-ensemble basé sur une estimation de performance basée sur un échantillon fixe de données (par exemple, AIC, BIC, validation croisée, etc.), le critère de sélection aura une variance finie et permettra donc surajustement du critère de sélection lui-même. En d’autres termes, pour commencer par minimiser le critère de sélection, les performances de généralisation s’amélioreront. Toutefois, à un moment donné, plus le critère de sélection sera réduit, plus la généralisation deviendra pire. Si vous êtes malchanceux, vous pouvez facilement vous retrouver avec un modèle de régression moins performant que celui avec lequel vous avez commencé (un modèle avec tous les attributs).
Cela est particulièrement probable lorsque le jeu de données est petit (le critère de sélection a donc une variance élevée) et lorsqu'il existe de nombreux choix de modèle possibles (par exemple, le choix de combinaisons d'éléments). La régularisation semble moins encline à la sur-adaptation car il s’agit d’un paramètre scalaire qui doit être ajusté, ce qui donne une vision plus restreinte de la complexité du modèle, c’est-à-dire moins de degrés de liberté effectifs permettant de sur-ajuster le critère de sélection .
la source
Utilisez la bibliothèque de sauts. Lorsque vous tracez les variables, l’axe des ordonnées indique R ^ 2 ajusté. Vous regardez où les cases sont noires au plus haut R ^ 2. Cela montrera les variables que vous devriez utiliser pour votre régression linéaire multiple.
Exemple de vin ci-dessous:
la source
leaps
calcule explicitement les "meilleurs sous-ensembles", bien qu'il ne vous conseille pas de sélectionner des sous-ensembles de tailles différentes. (C'est un problème entre vous et votre clergé statistique.)leaps
est basé sur "le code FORTRAN77 de Alan Miller [...] qui est décrit plus en détail dans son livre 'Subset Selection in Regression'", un livre mentionné par Dikran dans une autre réponse à cette question :-)Vous pouvez également utiliser la fonction step dans le critère d'information Akaike. Exemple ci-dessous. https://en.wikipedia.org/wiki/Akaike_information_criterion
la source
Pourquoi ne pas faire l'analyse de corrélation Tout d'abord, puis inclure dans la régression uniquement ceux qui sont en corrélation avec Dv?
la source
Mon conseiller m'a proposé une autre façon de s'y prendre. Exécutez toutes vos variables une fois, puis supprimez celles qui ne respectent pas certains seuils (nous avons défini notre seuil sur p <0,25). Continuez à itérer de cette façon jusqu'à ce que toutes les variables tombent en dessous de cette valeur de 0,25, puis signalez les valeurs qui sont significatives.
la source