La chose la plus simple à faire serait d'adapter un processus gaussien à la fonction de covariance équivalente non ARD (généralement le RBF) et de comparer les taux d'erreur de test. Pour de nombreux problèmes, une fonction de covariance ARD fonctionne moins bien qu'une fonction de covariance non ARD en raison d'un sur-ajustement dans le réglage des hyper-paramètres. Comme la covariance RBF est un cas particulier de la covariance ARD, si la RBF fonctionne mieux, c'est une forte indication que le noyau ARD est sur-ajusté (commencez à optimiser les coefficients ARD aux valeurs optimales pour la covariance RBF correspondante, c'est plus rapide et contribue également à garantir que le problème de la covariance ARD n'est pas uniquement dû aux minima locaux dans la probabilité marginale). Il s'agit d'un problème beaucoup plus important que ce qui est généralement apprécié.
J'ai écrit quelques articles à ce sujet:
GC Cawley et NLC Talbot, Empêcher le sur-ajustement lors de la sélection du modèle via la régularisation bayésienne des hyper-paramètres, Journal of Machine Learning Research, volume 8, pages 841-861, avril 2007 ( pdf )
et
GC Cawley et NLC Talbot, Sur-ajustement dans la sélection des modèles et biais de sélection subséquent dans l'évaluation des performances, Journal of Machine Learning Research, 2010. Research, vol. 11, p. 2079-2107, juillet 2010 ( pdf )
La première comprend quelques expériences avec des GP, qui montrent que le sur-ajustement dans la sélection de modèle est également un problème pour les GP avec une sélection de modèle basée sur la maximisation de la probabilité marginale.
Une analyse plus approfondie consisterait à évaluer l'erreur de test du GP à chaque étape du processus d'optimisation de la probabilité marginale. Il est très probable que vous obtiendrez la marque classique du sur-ajustement, où le critère de sélection du modèle diminue de façon monotone, mais l'erreur de test diminue initialement, puis recommence à augmenter à mesure que le critère de sélection du modèle est suroptimisé (cf. Figure 2a dans l'article JMLR 2010).