Disons que j'ai deux méthodes d'apprentissage pour un problème de classification , et , et que j'évalue leurs performances de généralisation avec quelque chose comme la validation croisée répétée ou le bootstrap. De ce processus, j'obtiens une distribution des scores et pour chaque méthode à travers ces répétitions (par exemple la distribution des valeurs ROC AUC pour chaque modèle).
En regardant ces distributions, il se pourrait que mais que (c'est-à-dire que les performances de généralisation attendues de soient supérieures à , mais qu'il y ait plus d'incertitude sur cette estimation).
Je pense que cela s'appelle le dilemme biais-variance dans la régression.
Quelles méthodes mathématiques puis-je utiliser pour comparer et et éventuellement prendre une décision éclairée sur le modèle à utiliser?
Remarque: Par souci de simplicité, je me réfère ici à deux méthodes et , mais je m'intéresse aux méthodes qui peuvent être utilisées pour comparer la distribution des scores de ~ 1000 méthodes d'apprentissage (par exemple à partir d'une recherche sur la grille) et éventuellement faire une décision finale sur le modèle à utiliser.
la source
Réponses:
S'il n'y a que deux méthodes, A et B, je calculerais la probabilité que pour une partition d'entraînement / test arbitraire que l'erreur (selon une mesure de performance appropriée) pour le modèle A soit inférieure à l'erreur pour le modèle B. Si cette probabilité étaient supérieurs à 0,5, j'avais choisi le modèle A et sinon le modèle B (cf test U de Mann-Whitney?) Cependant, je soupçonne fortement que cela finira par choisir le modèle avec la moyenne inférieure à moins que les distributions de la statistique de performance soient très non -symétrique.
En revanche, pour la recherche dans la grille, la situation est un peu différente car vous ne comparez pas vraiment différentes méthodes, mais ajustez plutôt les paramètres (hyper-) du même modèle pour qu'ils s'adaptent à un échantillon fini de données (dans ce cas indirectement via cross -validation). J'ai trouvé que ce type de réglage peut être très sujet à un ajustement excessif, voir mon article
Gavin C. Cawley, Nicola LC Talbot, «Sur le sur-ajustement dans la sélection de modèle et les biais de sélection ultérieurs dans l'évaluation de la performance», Journal of Machine Learning Research, 11 (juillet): 2079−2107, 2010. ( www )
J'ai un article en revue qui montre qu'il est probablement préférable d'utiliser une grille relativement grossière pour les machines à noyau (par exemple les SVM) pour éviter de sur-ajuster le critère de sélection du modèle. Une autre approche (que je n'ai pas étudiée, donc mise en garde!) Serait de choisir le modèle avec l'erreur la plus élevée qui n'est pas statistiquement inférieure au meilleur modèle trouvé dans la recherche de grille (bien que cela puisse être une approche plutôt pessimiste, en particulier pour les petits jeux de données).
La vraie solution n'est cependant probablement pas d'optimiser les paramètres en utilisant la recherche par grille, mais de faire la moyenne sur les valeurs des paramètres, soit dans une approche bayésienne, soit tout simplement comme une méthode d'ensemble. Si vous n'optimisez pas, il est plus difficile de sur-ajuster!
la source
"average over the parameter values"
je pense comprendre comment le faire à travers une méthode d'ensemble (par exemple, construire la sortie d'ensemble comme la moyenne des sorties du classificateur), mais je ne sais pas comment le faire avec une approche bayésienne lorsque vous travaillez avec un modèle discriminant. Je comprends la théorie d'une approche entièrement bayésienne (c'est-à-dire éviter les estimations ponctuelles et marginaliser les paramètres pour construire le postérieur final), mais, en supposant que mon a priori sur les paramètres est uniforme, cela ne serait-il pas équivalent à construire l'ensemble de moyenne ?