J'ai quelques modèles prédictifs dont je voudrais tester les performances (c.-à-d. Prendre mon jeu de données, le «rembobiner» à un point antérieur dans le temps et voir comment le modèle aurait fonctionné de manière prospective).
Le problème est que certains de mes modèles ont été construits via un processus interactif. Par exemple, en suivant les conseils des stratégies de modélisation de la régression de Frank Harrell , dans un modèle, j'ai utilisé des splines cubiques restreintes pour gérer les associations non linéaires possibles entre les caractéristiques et la réponse. J'ai attribué les degrés de liberté de chaque spline en fonction d'une combinaison de connaissances du domaine et de mesures univariées de la force de l'association. Mais les degrés de liberté que je veux accorder à mon modèle dépendent évidemment de la taille de l'ensemble de données, qui varie considérablement lors des contre-tests. Si je ne veux pas choisir séparément les degrés de liberté à chaque fois que le modèle est testé à nouveau, quelles sont mes autres options?
Pour un autre exemple, je travaille actuellement sur la détection des valeurs aberrantes via la recherche de points avec un effet de levier élevé. Si j'étais heureux de le faire à la main, je regardais simplement chaque point de données à fort effet de levier, vérifiais sainement que les données étaient propres et les filtrais ou les nettoyais à la main. Mais cela repose sur un tas de connaissances de domaine, donc je ne sais pas comment automatiser le processus.
J'apprécierais des conseils et des solutions à la fois (a) au problème général de l'automatisation des parties interactives du processus de construction de modèles, ou (b) des conseils spécifiques pour ces deux cas. Merci!
Plutôt que d'essayer de comprendre comment automatiser vos efforts de réglage manuel du modèle, je contournerais ce problème tous ensemble en examinant les apprenants à faible variance qui nécessitent beaucoup moins de réglage, même si cela a un coût d'augmentation du biais du modèle. Vous voulez avoir confiance en vos résultats de backtest qui se résument en grande partie à une faible variance d'échantillonnage dans vos prévisions, et l'introduction d'un processus de réglage automatisé au-dessus d'un apprenant qui a déjà une variance d'échantillonnage elle-même va à l'encontre de cet objectif. Il peut sembler que la queue remue le chien ici, mais tout ce qui nécessite un réglage minutieux (manuel ou automatisé) n'est pas un excellent candidat pour un environnement de backtest IMO vraiment honnête.
la source