Questions marquées «overfitting»

L'erreur de modélisation (en particulier l'erreur d'échantillonnage) au lieu de relations réplicables et informatives entre les variables améliore les statistiques d'ajustement du modèle, mais réduit la parcimonie et aggrave la validité explicative et prédictive.

41
Random Forest - Comment gérer l'overfitting

J'ai une formation en informatique mais j'essaie de m'enseigner la science des données en résolvant des problèmes sur Internet. Je travaille sur ce problème depuis deux semaines (environ 900 lignes et 10 fonctionnalités). J'utilisais initialement la régression logistique, mais maintenant je suis...

25
Un modèle suréquipé est-il nécessairement inutile?

Supposons qu'un modèle a une précision de 100% sur les données de formation, mais une précision de 70% sur les données de test. L'argument suivant est-il vrai à propos de ce modèle? Il est évident qu'il s'agit d'un modèle sur-équipé. La précision du test peut être améliorée en réduisant le...

20
Sur-ajustement et sous-ajustement

J'ai fait des recherches sur le sur-ajustement et le sous-ajustement, et j'ai compris ce qu'ils sont exactement, mais je ne trouve pas les raisons. Quelles sont les principales raisons du sur-ajustement et du sous-ajustement? Pourquoi sommes-nous confrontés à ces deux problèmes dans la formation...

20
Discussion sur l'overfit dans xgboost

Ma configuration est la suivante: Je suis les directives dans "Modélisation prédictive appliquée". J'ai donc filtré les fonctionnalités corrélées et je me retrouve avec ce qui suit: 4900 points de données dans l'ensemble d'apprentissage et 1600 points de données dans l'ensemble de test. J'ai 26...