J'ai un problème de régression avec 5-6k variables. Je divise mes données en 3 ensembles qui ne se chevauchent pas: formation, validation et tests. Je m'entraîne en utilisant uniquement l'ensemble d'entraînement et je génère de nombreux modèles de régression linéaire différents en choisissant un ensemble différent de 200 variables pour chaque modèle (j'essaie environ 100 000 de ces sous-ensembles). Je marque un modèle comme . En utilisant ce critère, je finis par choisir un modèle. Il s'avère que le modèle choisi a un R ^ 2 très similaire sur la formation et les données de validation. Cependant, lorsque j'essaie ce modèle sur les données de test, il a un R ^ 2 beaucoup plus faible . Il semble donc que je sois en quelque sorte sur-ajusté à la fois sur les données de formation et de validation. Avez-vous des idées sur la façon d'obtenir un modèle plus robuste?
J'ai essayé d'augmenter la taille des données d'entraînement, mais cela n'a pas aidé. Je pense peut-être à réduire la taille de chaque sous-ensemble.
J'ai essayé d'utiliser la régularisation. Cependant, les modèles que j'obtiens en utilisant le lasso ou le filet élastique ont un R ^ 2 beaucoup plus faible sur l'ensemble d'apprentissage ainsi que sur l'ensemble de validation, par rapport au modèle que j'obtiens en faisant l'approche de sélection des sous-ensembles. Par conséquent, je ne considère pas ces modèles, car je suppose que si le modèle A fonctionne mieux que le modèle B à la fois sur l'ensemble de formation et sur l'ensemble de validation, le modèle A est clairement meilleur que le modèle B.Je serais très curieux si vous en désaccord avec cela.
Sur une note connexe, pensez-vous que est un mauvais critère pour choisir mes modèles?
Vous êtes surajusté parce que vous utilisez des
min(training r-square,validation r-square)
données pour produire un score, qui est à son tour utilisé pour piloter la sélection du modèle. Parce que votre carré d'entraînement r est probablement égal ou inférieur (après tout, vous venez de faire une régression), cela équivaut à peu près à faire la sélection du modèle sur le carré r des données d'entraînement.Cela a pour effet de s'adapter trop étroitement aux données de formation et d'ignorer les données de validation.
Si vous l'avez utilisé,
validation r-square
vous devriez obtenir un meilleur résultat.la source