Utiliser le coefficient de corrélation de Pearson comme objectif d'optimisation dans l'apprentissage automatique

12

Dans l'apprentissage automatique (pour les problèmes de régression), je vois souvent l'erreur quadratique moyenne (MSE) ou l'erreur absolue moyenne (MAE) utilisée comme fonction d'erreur pour minimiser (plus le terme de régularisation). Je me demande s'il existe des situations où l'utilisation d'un coefficient de corrélation serait plus appropriée? si une telle situation existe, alors:

  1. Dans quelles situations le coefficient de corrélation est-il une meilleure métrique par rapport à MSE / MAE?
  2. Dans ces situations, MSE / MAE est-il toujours une bonne fonction de coût proxy à utiliser?
  3. La maximisation du coefficient de corrélation est-elle directement possible? Est-ce une fonction objective stable à utiliser?

Je n'ai pas pu trouver de cas où le coefficient de corrélation est utilisé directement comme fonction objective dans l'optimisation. J'apprécierais que les gens me montrent des informations dans ce domaine.

aha
la source

Réponses:

7

L'optimisation de la corrélation est utile lorsque la sortie est très bruyante. En d'autres termes, la relation entre les entrées et les sorties est très faible. Dans un tel cas, la minimisation de MSE aura tendance à rendre la sortie proche de zéro de sorte que l'erreur de prédication est la même que la variance de la sortie d'apprentissage.

L'utilisation directe de la corrélation comme fonction objectif est possible pour l'approche de descente de gradient (changez-la simplement pour minimiser la corrélation négative). Cependant, je ne sais pas comment l'optimiser avec l'approche SGD, car la fonction de coût et le gradient impliquent des sorties de tous les échantillons d'apprentissage.

Une autre façon de maximiser la corrélation est de minimiser le MSE en contraignant la variance de sortie à être identique à la variance de sortie d'apprentissage. Cependant, la contrainte concerne également toutes les sorties, il n'y a donc aucun moyen (à mon avis) de profiter de l'optimiseur SGD.

EDIT: dans le cas où la couche supérieure du réseau neuronal est une couche de sortie linéaire, nous pouvons minimiser MSE puis ajuster les poids et les biais dans la couche linéaire pour maximiser la corrélation. L'ajustement peut être effectué de manière similaire à l'ACC ( https://en.wikipedia.org/wiki/Canonical_analysis ).

Bo Tian
la source
1

Nous utilisons la corrélation de Pearson dans nos recherches et cela fonctionne bien. Dans notre cas, il est assez stable. Puisqu'il s'agit d'une mesure invariante de translation et d'échelle, elle n'est utile que si vous voulez prédire la forme, pas des valeurs précises. Par conséquent, il est utile si vous ne savez pas si votre cible se trouve dans l'espace de solution de votre modèle et que vous êtes uniquement intéressé par la forme. Au contraire, MSE réduit la distance moyenne entre la prédiction et les cibles, il essaie donc d'adapter autant que possible les données. C'est probablement la raison pour laquelle MSE est plus largement utilisé, car vous êtes généralement intéressé à prédire des valeurs précises. Si vous minimisez le MSE, la corrélation augmentera.

HCRuiz
la source