Apparemment, le coefficient de corrélation de Pearson est paramétrique et le rho de Spearman n'est pas paramétrique.
J'ai du mal à comprendre cela. Si je comprends bien, Pearson est calculé comme et Spearman est calculé de la même manière, sauf que nous substituons toutes les valeurs à leurs rangs.
Wikipédia dit
La différence entre le modèle paramétrique et le modèle non paramétrique est que le premier a un nombre fixe de paramètres, tandis que le second augmente le nombre de paramètres avec la quantité de données d'apprentissage.
Mais je ne vois aucun paramètre à l'exception des échantillons eux-mêmes. Certains disent que les tests paramétriques supposent des distributions normales et continuent de dire que Pearson suppose des données distribuées normales, mais je ne vois pas pourquoi Pearson exigerait cela.
Ma question est donc de savoir ce que signifient paramétrique et non paramétrique dans le contexte des statistiques? Et comment Pearson et Spearman s'intègrent-ils là-dedans?
Réponses:
Le problème est que «non paramétrique» a vraiment deux sens distincts de nos jours. La définition dans Wikipedia s'applique à des choses comme l'ajustement de courbe non paramétrique, par exemple via des splines ou une régression locale. L'autre sens, qui est plus ancien, est plus du type "sans distribution" - c'est-à-dire des techniques qui peuvent être appliquées quelle que soit la distribution supposée des données. Ce dernier est celui qui s'applique au rho de Spearman, car la transformation de rang implique qu'elle donnera le même résultat, quelle que soit votre distribution d'origine.
la source
Je pense que la seule raison pour laquelle le coefficient de corrélation de Pearson serait appelé paramétrique est que vous pouvez l'utiliser pour estimer les paramètres de la distribution normale multivariée. par exemple, la distribution normale bivariée a 5 paramètres: deux moyennes, deux variances et le coefficient de corrélation. Ce dernier peut être estimé avec le coefficient de corrélation de Pearson.
la source
La réponse la plus simple, je pense, est que le test rho de Spearmen utilise des données ordinales (des nombres qui peuvent être classés mais ne vous disent rien sur l'intervalle entre les nombres, par exemple 3 saveurs de crème glacée sont classées 1, 2 et 3, mais cela ne vous indique que la saveur n'a pas été préférée par combien). Les données ordinales ne peuvent pas être utilisées dans les tests paramétriques.
Le test r de Pearson utilise des données d'intervalle ou de rapport (nombres qui ont des intervalles fixes, par exemple secondes, kg, mm). 1 mm n'est pas seulement inférieur à 5 mm, mais vous savez exactement combien. ce type de données peut être utilisé dans un test paramétrique.
la source