Supposons qu'un modèle a une précision de 100% sur les données de formation, mais une précision de 70% sur les données de test. L'argument suivant est-il vrai à propos de ce modèle?
Il est évident qu'il s'agit d'un modèle sur-équipé. La précision du test peut être améliorée en réduisant le sur-ajustement. Mais, ce modèle peut toujours être un modèle utile, car il a une précision acceptable pour les données de test.
model
accuracy
overfitting
Hossein
la source
la source
Réponses:
Je pense que l'argument est correct. Si 70% est acceptable dans l'application particulière, alors le modèle est utile même s'il est sur-ajusté (plus généralement, qu'il soit sur -ajusté ou non).
Bien que l'équilibre entre le sur-ajustement et le sous-ajustement concerne l' optimalité (à la recherche d'une solution optimale), avoir des performances satisfaisantes concerne la suffisance (le modèle fonctionne-t-il suffisamment bien pour la tâche?). Un modèle peut être suffisamment bon sans être optimal.
Edit: après les commentaires de Firebug et Matthew Drury sous l'OP, j'ajouterai que juger si le modèle est surajusté sans connaître les performances de validation peut être problématique. Firebug suggère de comparer la validation par rapport aux performances du test pour mesurer la quantité de sur-ajustement. Néanmoins, lorsque le modèle fournit une précision de 100% sur l'ensemble d'entraînement sans fournir une précision de 100% sur l'ensemble de test, c'est un indicateur de sur-ajustement possible (en particulier dans le cas de la régression mais pas nécessairement dans la classification).
la source
set.seed(100)
une illustration comme le phénomène décrit ici etset.seed(15)
pour le contraire. Peut-être vaut-il mieux dire "un indicateur de sur- ajustement possible "Dans mon projet précédent avec la détection de fraude par carte de crédit, nous voulons intentionnellement ajuster les données / codées en dur pour mémoriser les cas de fraude. (Remarque: le sur-ajustement d'une classe n'est pas exactement le problème de sur-ajustement général dont OP a parlé.) Un tel système a des faux positifs relativement faibles et satisfait nos besoins.
Donc, je dirais qu'un modèle surajusté peut être utile dans certains cas.
la source
Peut-être: méfiez-vous. Lorsque vous dites qu'une précision de 70% (quelle que soit la mesure) est suffisante pour vous, vous avez l'impression de supposer que les erreurs sont distribuées de manière aléatoire ou uniforme.
Mais l'une des façons d'envisager le sur-ajustement est qu'elle se produit lorsqu'une technique de modèle permet (et son processus de formation encourage) d'accorder trop d'attention aux bizarreries dans l'ensemble de formation. Les sujets de la population générale qui partagent ces caprices peuvent avoir des résultats très déséquilibrés.
Alors peut-être que vous vous retrouvez avec un modèle qui dit que tous les chiens rouges ont un cancer - en raison de cette bizarrerie particulière dans vos données d'entraînement. Ou que les personnes mariées âgées de 24 à 26 ans sont presque garanties de déposer des réclamations d'assurance frauduleuses. Votre précision de 70% laisse beaucoup de place pour que les poches de sujets se trompent à 100% car votre modèle est trop ajusté.
(Ne pas être surajusté n'est pas une garantie que vous n'aurez pas de poches de mauvaises prédictions. En fait, un modèle sous-ajusté comportera de nombreuses mauvaises prédictions, mais avec un sur-ajustement, vous savez que vous amplifiez l'effet des caprices dans vos données d'entraînement .)
la source
Non, ils peuvent être utiles, mais cela dépend de votre objectif. Plusieurs choses me viennent à l'esprit:
Un tel classificateur peut être vraiment utile dans un ensemble . Nous pourrions avoir un classificateur avec des poids normaux, un surpondérant TPR, un surpondérant FNR. Ensuite, même un simple vote par règle de trois, ou une moyenne, donnera une meilleure ASC que n'importe quel meilleur classificateur. Si chaque modèle utilise des hyperparamètres différents (ou des ensembles d'apprentissage sous-échantillonnés ou des architectures de modèle), cela confère à l'ensemble une certaine immunité contre le sur-ajustement.
De même, pour l' anti-spam, l'anti-fraude ou la notation de crédit en temps réel , il est correct et souhaitable d'utiliser une hiérarchie de classificateurs. Les classificateurs de niveau 1 devraient évaluer très rapidement (ms) et c'est correct d'avoir un FPR élevé ; toutes les erreurs qu'ils commettent seront détectées par des classificateurs de niveau supérieur plus précis, plus complets et plus lents, ou finalement par des évaluateurs humains. Exemple évident: empêcher les gros titres de fausses nouvelles des prises de contrôle de compte Twitter comme l'attentat à la bombe de la Maison-Blanche de 2013 en tue trois »d'affecter des milliards de dollars de transactions dans les ms qui suivent la publication. Il est normal que le classificateur de niveau 1 le signale comme positif pour le spam; laissons cela prendre un peu de temps pour déterminer (automatiquement) la vérité / le mensonge des reportages sensationnels mais non vérifiés.
la source
Je ne nie pas qu'un modèle suréquipé pourrait toujours être utile. Mais gardez à l'esprit que ces 70% pourraient être des informations trompeuses. Ce dont vous avez besoin pour juger si un modèle est utile ou non, c'est l' erreur hors échantillon , pas l'erreur de test (l' erreur hors échantillon n'est pas connue, nous devons donc l'estimer à l'aide d'un ensemble de tests en aveugle ), et que 70% est à peine la bonne approximation.
Afin de nous assurer que nous sommes sur la même page sur la terminologie après le commentaire de @RichardHardy, définissons l'erreur de test comme l'erreur obtenue lors de l'application du modèle sur l'ensemble de test aveugle. Et l'erreur hors échantillon est l'erreur lors de l'application du modèle à l'ensemble de la population.
L'approximation de l'erreur hors échantillon dépend de deux choses: le modèle lui-même et les données.
Un modèle «optimal» donne une précision (d'essai) qui ne dépend guère des données, dans ce cas, ce serait une bonne approximation. "Indépendamment" des données, l'erreur de prédiction serait stable.
Mais, la précision d'un modèle surajusté dépend fortement des données (comme vous l'avez mentionné à 100% sur l'ensemble d'entraînement et à 70% sur l'autre ensemble). Il peut donc arriver que lors de l'application à un autre ensemble de données, la précision puisse être inférieure à 70% (ou supérieure), et nous pourrions avoir de mauvaises surprises. En d'autres termes, ces 70% vous disent ce que vous pensez que c'est, mais ce n'est pas le cas.
la source