Pourquoi Pearson est-il paramétrique et Spearman est-il non paramétrique

Apparemment, le coefficient de corrélation de Pearson est paramétrique et le rho de Spearman n'est pas paramétrique.

J'ai du mal à comprendre cela. Si je comprends bien, Pearson est calculé comme et Spearman est calculé de la même manière, sauf que nous substituons toutes les valeurs à leurs rangs.

r_{X y} = \frac{c o v (X, Oui)}{σ_{X} σ_{y}}

$r_{xy} = \frac{cov(X,Y)}{\sigma_x\sigma_y}$

Wikipédia dit

La différence entre le modèle paramétrique et le modèle non paramétrique est que le premier a un nombre fixe de paramètres, tandis que le second augmente le nombre de paramètres avec la quantité de données d'apprentissage.

Mais je ne vois aucun paramètre à l'exception des échantillons eux-mêmes. Certains disent que les tests paramétriques supposent des distributions normales et continuent de dire que Pearson suppose des données distribuées normales, mais je ne vois pas pourquoi Pearson exigerait cela.

Ma question est donc de savoir ce que signifient paramétrique et non paramétrique dans le contexte des statistiques? Et comment Pearson et Spearman s'intègrent-ils là-dedans?

nonparametric pearson-r parametric spearman-rho user2740
la source

C'est une bonne question et il y a énormément de désinformation. Par exemple, l'équation des tests paramétriques et l'hypothèse de distributions normales est malheureusement une confusion fréquente, par laquelle de nombreux rédacteurs de manuels, professeurs de cours et affiches Internet copient simplement ceux qui sont aussi ou plus confus.

Nick Cox

La résolution positive de la question est peut-être la plus simple: oui, la corrélation de Spearman est un paramètre à estimer la force de quantification d'une relation et ressemble donc à Pearson (à la racine, c'est la même idée, comme vous le faites remarquer); mais non, la corrélation de Spearman n'est pas un paramètre qui figure dans une distribution, tandis que celle de Pearson est un paramètre dans une distribution normale bivariée (une interprétation historique mais maintenant minimisée de ce que vous faites lorsque vous effectuez une corrélation). C'est une belle distinction, à comprendre en voyant que le mot "paramètre" a plusieurs sens.

Nick Cox

@NickCox, pourquoi ne postez-vous pas cela comme réponse.

Richard Hardy

Le point sur la normalité de la distribution ne mord vraiment que lorsque vous voulez faire des tests de signification avec corrélation. Si vous utilisez les corrélations uniquement comme mesures descriptives, la non-normalité ne doit pas être un obstacle à l'utilisation des corrélations. Les corrélations peuvent même être un peu utiles avec deux variables binaires tant que les deux varient. Vous devez toujours faire attention aux effets des valeurs aberrantes, etc., etc.

Nick Cox

Puisqu'il ne semble pas encore avoir été clairement dit, je voudrais souligner qu'aucune statistique n'est "paramétrique". C'est comme dire que les nombres sont savoureux: l'adjectif ne s'applique tout simplement pas au nom. Les modèles statistiques peuvent être paramétriques (comme indiqué par la citation de Wikipédia), ainsi que les tests et les procédures qui sont basés sur eux. Les statistiques Spearman et Pearson peuvent être utilisées dans les paramètres paramétriques et non paramétriques. Plus d'informations à ce sujet sur stats.stackexchange.com/questions/67204 . Ce qui rend un modèle paramétrique, c'est son espace d'états .

whuber

Réponses:

Le problème est que «non paramétrique» a vraiment deux sens distincts de nos jours. La définition dans Wikipedia s'applique à des choses comme l'ajustement de courbe non paramétrique, par exemple via des splines ou une régression locale. L'autre sens, qui est plus ancien, est plus du type "sans distribution" - c'est-à-dire des techniques qui peuvent être appliquées quelle que soit la distribution supposée des données. Ce dernier est celui qui s'applique au rho de Spearman, car la transformation de rang implique qu'elle donnera le même résultat, quelle que soit votre distribution d'origine.

Hong Ooi
la source

Non paramétrique a deux significations, mais le commentaire dans wikipedia s'applique vraiment aux deux. Dans la régression non paramétrique, cela fait référence à la relation qui n'est pas paramétrique finie. Du côté «sans distribution», cela fait référence aux modèles de distribution qui ne sont pas paramétriques finis.

Glen_b -Reinstate Monica

Hm, c'est une citation de Wikipedia n'est pas moi. Quelqu'un d'autre l'a ajouté.

Hong Ooi

L'édition principale - qui je crois est incorrecte dans un détail et n'ajoute rien de particulièrement utile - a été examinée car elle a été effectuée par un utilisateur low = rep et a été rejetée par une personne, mais a ensuite été automatiquement acceptée lorsque une troisième personne a tenté de modifier pour l'améliorer (ils ne se sont peut-être pas rendu compte que ce serait une conséquence). Je vais restaurer cette modification sur votre original. Vous pouvez le faire chaque fois qu'il y a une modification que vous n'aimez pas.

Glen_b -Reinstate Monica

Maintenant, revenons à votre message d'origine, car je pense que cela a trop changé votre message sans chercher votre accord et ne semble pas être d'accord avec lui. Si vous avez aimé quelque chose, cliquez sur le lien "modifié ... il y a" au-dessus de mon nom et copiez les parties que vous aimez de ce qui était auparavant, puis modifiez-le et collez-le.

Glen_b -Reinstate Monica

Quand est-il justifié d'utiliser Spearman? Comment Pearson peut-il vous aider lorsque vous utilisez Spearman?

Léo Léopold Hertz

Je pense que la seule raison pour laquelle le coefficient de corrélation de Pearson serait appelé paramétrique est que vous pouvez l'utiliser pour estimer les paramètres de la distribution normale multivariée. par exemple, la distribution normale bivariée a 5 paramètres: deux moyennes, deux variances et le coefficient de corrélation. Ce dernier peut être estimé avec le coefficient de corrélation de Pearson.

$\rho$

Aksakal
la source

le paramètre du coefficient de corrélation de Pearson n'est-il pas dans le sens où vous devez supposer la normalité pour tester sa signification? c'est-à-dire qu'il n'assume pas la normalité en tant que statistique, mais vous supposez que les données sont normales lors du calcul de la distribution du coefficient de corrélation de l'échantillon et le testez? c'est une question honnête, je peux me tromper à 100%.

mugen

Pouvez-vous expliquer s'il vous plaît si vous faites des hypothèses de distribution dans sperman et kendall?

Léo Léopold Hertz 준영

@mugen vous n'avez pas à assumer la normalité pour tester la signification d'une corrélation de Pearson; un test commun d'une corrélation de Pearson le fait. Vous pourriez faire une hypothèse paramétrique différente et proposer un test différent ... ou bien, on pourrait effectuer un test de permutation de la valeur nulle que la corrélation de Pearson de la population est nulle, résultant en un test non paramétrique.

Glen_b -Reinstate Monica

La réponse la plus simple, je pense, est que le test rho de Spearmen utilise des données ordinales (des nombres qui peuvent être classés mais ne vous disent rien sur l'intervalle entre les nombres, par exemple 3 saveurs de crème glacée sont classées 1, 2 et 3, mais cela ne vous indique que la saveur n'a pas été préférée par combien). Les données ordinales ne peuvent pas être utilisées dans les tests paramétriques.

Le test r de Pearson utilise des données d'intervalle ou de rapport (nombres qui ont des intervalles fixes, par exemple secondes, kg, mm). 1 mm n'est pas seulement inférieur à 5 mm, mais vous savez exactement combien. ce type de données peut être utilisé dans un test paramétrique.

Julian Keenlyside
la source

Il est certainement possible d'utiliser des modèles paramétriques - et donc des tests paramétriques - avec des données ordinales. Il suffit de proposer une distribution pour cette variable avec un nombre fini et fixe de paramètres, et une hypothèse appropriée par rapport à ces paramètres et le tour est joué , un test paramétrique existe. La corrélation de Pearson calculée dans des situations où l'une des variables ou les deux ont deux catégories (étiquetées avec deux nombres différents, généralement 0/1) donnent des mesures d'association couramment utilisées pour ces situations.

Glen_b -Reinstate Monica