Je voulais juste voir si quelqu'un avait une expérience de l'application de la régression de processus gaussienne (GPR) à des ensembles de données de grande dimension. J'examine certaines des diverses méthodes GPR clairsemées (par exemple, les pseudo-entrées GPR clairsemées) pour voir ce qui pourrait fonctionner pour les ensembles de données de grande dimension où la sélection des fonctionnalités fait idéalement partie du processus de sélection des paramètres.
Toute suggestion sur les papiers / code / ou diverses méthodes à essayer est certainement appréciée.
Merci.
Réponses:
Les modèles de processus gaussiens sont généralement bien avec des ensembles de données de grande dimension (je les ai utilisés avec des données de microréseaux, etc.). Leur clé est de choisir de bonnes valeurs pour les hyper-paramètres (qui contrôlent efficacement la complexité du modèle d'une manière similaire à la régularisation).
Les méthodes clairsemées et les méthodes de pseudo-entrée concernent davantage les ensembles de données avec un grand nombre d'échantillons (> environ 4000 pour mon ordinateur) plutôt qu'un grand nombre de fonctionnalités. Si vous avez un ordinateur suffisamment puissant pour effectuer une décomposition Cholesky de la matrice de covariance (n par n où n est le nombre d'échantillons), alors vous n'avez probablement pas besoin de ces méthodes.
Si vous êtes un utilisateur de MATLAB, je recommanderais fortement la boîte à outils GPML et le livre de Rasmussen et Williams comme bons points de départ.
CEPENDANT, si vous êtes intéressé par la sélection des fonctionnalités, j'éviterais les GP. L'approche standard de la sélection des fonctionnalités avec les GP consiste à utiliser un noyau de détermination automatique de la pertinence (par exemple, covSEard en GPML), puis à sélectionner les fonctionnalités en ajustant les paramètres du noyau pour maximiser la probabilité marginale. Malheureusement, cela risque de sur-ajuster la probabilité marginale et de se retrouver avec un modèle qui fonctionne (peut-être beaucoup) moins bien qu'un modèle avec une simple covariance de fonction de base radiale sphérique (covSEiso en GPML).
Ma recherche actuelle se concentre sur le sur-ajustement dans la sélection des modèles en ce moment et j'ai constaté que cela pose autant de problème pour la maximisation des preuves dans les GP que pour l'optimisation basée sur la validation croisée des hyper-paranètres dans les modèles du noyau, pour plus de détails. voir cet article et celui-ci .
La sélection des fonctionnalités pour les modèles non linéaires est très délicate. Souvent, vous obtenez de meilleures performances en vous en tenant à un modèle linéaire et en utilisant des approches de type régularisation L1 (Lasso / LARS / Elastic net etc.) pour obtenir des méthodes de parcimonie ou de forêt aléatoire.
la source
la source