Si vous pouvez continuer à ajouter de nouvelles données (basées sur un concept principal tel que la zone, c'est-à-dire le code postal) et que les performances de votre modèle s'améliorent, alors cela est bien sûr autorisé ... en supposant que vous ne vous souciez que du résultat final.
Il existe des mesures qui tenteront de vous guider à cet égard , comme le critère d'information Akaike (AIC) ou le critère d'information bayésien (BIC) comparable . Ceux-ci aident essentiellement à choisir un modèle en fonction de ses performances, étant punis pour tous les paramètres supplémentaires qui sont introduits et qui doivent être estimés. L'AIC ressemble à ceci:
A I C =2k-2ln( L^)
où est le nombre de paramètres à estimer, c'est-à-dire le nombre de caractéristiques que vous appliquez, car chacun aura un coefficient dans votre régression logistique. est la valeur maximale du maximum de vraisemblance (équivalente au score optimal). BIC utilise simplement légèrement différemment pour punir les modèles.kL^k
Ces critères peuvent vous aider à savoir quand vous arrêter, car vous pouvez essayer des modèles avec de plus en plus de paramètres et simplement prendre le modèle qui a la meilleure valeur AIC ou BIC.
Si vous avez encore d'autres fonctionnalités dans le modèle, qui ne sont pas liées au ZIP, elles pourraient potentiellement être dépassées - cela dépend du modèle que vous utilisez. Cependant, ils peuvent également expliquer des choses sur l'ensemble de données qui ne peuvent tout simplement pas être contenues dans les informations ZIP, telles que la surface au sol d'une maison (en supposant que cela soit relativement indépendant du code postal).
Dans ce cas, vous pouvez les comparer à quelque chose comme l'analyse en composantes principales, où une collection de caractéristiques explique une dimension de la variance dans l'ensemble de données, tandis que d'autres caractéristiques expliquent une autre dimension. Donc, peu importe le nombre de fonctionnalités liées à ZIP que vous possédez, vous ne pouvez jamais expliquer l'importance de la surface au sol.
Habituellement, plus les fonctionnalités sont riches, mieux c'est.
Une chose à garder à l'esprit, cependant, les régressions, en général, ne fonctionnent pas bien avec des données qui sont fortement corrélées (multicolinéarité). Lorsque vous développez vos fonctionnalités de cette façon, c'est quelque chose que vous voudrez peut-être garder à l'esprit.
Il y a beaucoup d'informations sur ce sujet (et des moyens potentiels d'atténuer), juste la régression Google et la multicolinéarité.
En bref,
la source
Les fonctionnalités sont les informations de votre modèle. Plus l'information sera grande, meilleure sera sa performance et sa prédiction. Plus la valeur est faible, plus il est difficile de prévoir les valeurs. Donc, le court naser est oui. Il vaut toujours la peine d'avoir autant de fonctionnalités que possible. Il y a toujours une limite à cela, car une surcharge d'informations peut également brûler votre processeur, alors faites attention au nombre de fonctionnalités qui sont conçues. De plus, les fonctionnalités inutiles ne font qu'ajouter au burnout, il est donc toujours recommandé de nettoyer certaines fonctionnalités. Toute la phase de prétraitement des données est à ce sujet.
La première réponse contient de bons détails à ce sujet. En ce qui concerne l'arrêt d'un cycle, il y a plusieurs mesures et facteurs dont vous devez être conscient pour vérifier où votre modèle a cessé de fonctionner mieux et ce sont des mesures comme le RMSE. Un exemple simple sera d'utiliser la
xgboost
régression sur vos données et de spécifier le nombre de cycles. Exécutez le modèle et vous obtiendrez le RMSE pour chaque cycle. Il diminuera jusqu'à une limite après laquelle vous pourrez déduire que le modèle a atteint un plateau après un certain cycle. C'est ainsi que le réglage et l'optimisation du modèle fonctionnent.la source