J'entraîne un réseau neuronal artificiel (rétropropagation, feed-forward) avec des données distribuées non normales. En plus de l'erreur quadratique moyenne, la littérature suggère souvent le coefficient de corrélation de Pearson pour évaluer la qualité du filet formé. Mais, le coefficient de corrélation de Pearson est-il raisonnable, si les données d'entraînement ne sont pas normalement distribuées? Ne serait-il pas plus raisonnable d'utiliser une mesure de corrélation basée sur le rang, par exemple Spearman rho?
9
Réponses:
Le coefficient de corrélation de Pearson mesure l'association linéaire. Basée sur des seconds moments centraux empiriques, elle est influencée par des valeurs extrêmes. Donc:
Des preuves de non-linéarité dans un nuage de points de valeurs réelles vs prédites suggéreraient d'utiliser une alternative telle que le coefficient de corrélation de rang (Spearman);
Si la relation semble monotone en moyenne (comme dans la rangée supérieure de l'illustration), un coefficient de corrélation de rang sera efficace;
Sinon, la relation est curviligne (comme dans certains exemples de la rangée inférieure de l'illustration, comme celle la plus à gauche ou au milieu en U) et toute mesure de corrélation sera probablement une description inadéquate; l'utilisation d'un coefficient de corrélation de rang ne résoudra pas ce problème.
La présence de données périphériques dans le diagramme de dispersion indique que le coefficient de corrélation de Pearson peut surestimer la force de la relation linéaire. Cela peut ou peut ne pas être correct; utilisez-le avec prudence. Le coefficient de corrélation de rang peut être ou ne pas être meilleur, selon la fiabilité des valeurs périphériques.
(Image copiée de l'article de Wikipedia sur le coefficient de corrélation produit-moment de Pearson .)
la source