Est-il «correct» de tracer une droite de régression pour les données classées (corrélation de Spearman)?

12

J'ai des données pour lesquelles j'ai calculé la corrélation Spearman et je souhaite les visualiser pour une publication. La variable dépendante est classée, la variable indépendante ne l'est pas. Ce que je veux visualiser est plus la tendance générale que la pente réelle, j'ai donc classé les indépendants et appliqué la corrélation / régression de Spearman. Mais juste au moment où j'ai tracé mes données et que j'étais sur le point de les insérer dans mon manuscrit, je suis tombé sur cette déclaration (sur ce site ):

Vous n'utiliserez presque jamais de ligne de régression pour la description ou la prédiction lorsque vous effectuez une corrélation de rang Spearman, donc ne calculez pas l'équivalent d'une ligne de régression .

et ensuite

Vous pouvez représenter graphiquement les données de corrélation de rang Spearman de la même manière que pour une régression ou une corrélation linéaire. Cependant, ne mettez pas de ligne de régression sur le graphique ; il serait trompeur de mettre une ligne de régression linéaire sur un graphique lorsque vous l'avez analysé avec une corrélation de rang.

Le fait est que les lignes de régression ne sont pas si différentes de celles où je ne classe pas les indépendants et ne calcule pas la corrélation de Pearson. La tendance est la même, mais en raison des frais exorbitants pour les graphiques en couleur dans les revues, j'ai opté pour une représentation monochrome et les points de données réels se chevauchent tellement qu'ils ne sont pas reconnaissables.

Je pourrais contourner cela, bien sûr, en faisant deux graphiques différents: un pour les points de données (classés) et un pour la ligne de régression (non classé), mais s'il s'avère que la source que j'ai citée est erronée ou le problème pas si problématique dans mon cas, cela me faciliterait la vie. (J'ai également vu cette question , mais cela ne m'a pas aidé.)

Modifier pour plus d'informations:

La variable indépendante sur l'axe des x représente le nombre d'entités et la variable dépendante sur l'axe des y représente le classement des algorithmes de classification par rapport à leurs performances. Maintenant, j'ai quelques algorithmes qui sont comparables en moyenne, mais ce que je veux dire avec mon intrigue est quelque chose comme: "Alors que le classificateur A s'améliore, plus il y a de fonctionnalités, le classificateur B est meilleur quand moins de fonctionnalités sont présentes"

Modifiez 2 pour inclure mes tracés:

Rangs des algorithmes tracés en fonction du nombre de fonctionnalités entrez la description de l'image ici

Rangs des algorithmes tracés par rapport au nombre classé d'entités entrez la description de l'image ici

Donc, pour répéter la question du titre:

Est-il correct de tracer une droite de régression pour les données classées d'une corrélation / régression Spearman?

Sentinelle
la source
Combien de catégories y a-t-il dans le classement? Avez-vous testé l'hypothèse de proportionnalité? De nombreux chercheurs savent parfaitement traiter les données ordinales (par exemple le classement) comme continues. Parfois, s'il y a beaucoup de catégories, cela a du sens.
robin.datadrivers
1
Il y a sept rangs, ils sont utilisés pour un test de Friedman
Sentry

Réponses:

9

Une corrélation de rang peut être utilisée pour détecter l'association monotone entre les variables comme vous le constatez; en tant que tel, vous ne traceriez pas normalement une ligne pour cela.

Il existe des situations où il est parfaitement logique d'utiliser des corrélations de rang pour ajuster les lignes à numeric-y vs numeric-x, que ce soit Kendall ou Spearman (ou un autre). Voir la discussion (et en particulier la dernière intrigue) ici .

Ce n'est pas votre situation, cependant. Dans votre cas, je serais enclin à simplement présenter un nuage de points des données originales, peut-être avec une relation fluide (par exemple par LOESS).

Vous vous attendez à ce que la relation soit monotone; vous pourriez peut-être essayer d'estimer et de tracer une relation monotone. [Il y a une fonction R discutée ici qui peut s'adapter à la régression isotonique - alors que l'exemple est unimodal et non isotonique, la fonction peut faire des ajustements isotoniques.]

Voici un exemple du genre de chose que je veux dire:

entrez la description de l'image ici

L'intrigue montre une relation monotone entre x et y; la courbe rouge est un lœss lisse (dans ce cas, généré dans R par scatter.smooth), qui se trouve également être montonique (il existe des moyens d'obtenir des ajustements lisses qui sont garantis d'être monotones, mais dans ce cas, le lœss lissé par défaut était monotone, donc Je n'ai pas ressenti le besoin de m'inquiéter.

entrez la description de l'image ici
Tracé de rang (y) par rapport au rang (x), indiquant une relation monotone. La ligne verte montre les rangs des valeurs ajustées de la courbe de loess par rapport au rang (x).

La corrélation entre les rangs de x et y (c'est-à-dire la corrélation de Spearman) est de 0,892 - une association monotone élevée. De même, la corrélation de Spearman entre la courbe lissée ajustée (montonique) ( ) et les valeurs y est également de 0,892. [Ce n'est pas surprenant, cependant, car cela serait vrai de toute courbe qui est une fonction monotone croissante de x, qui correspondrait également à la ligne verte. La ligne verte n'est pas une ligne de régression entre le rang (x) et le rang (y), mais c'est la ligne correspondant à un ajustement monotone dans le tracé d'origine. La 'ligne de régression' pour les données classées a une pente de 0,892, pas 1, donc c'est un peu "plus plat".]y^

Si vous n'affichez rien d'autre que le rang (Y) vs X, je pense que j'éviterais d'utiliser des lignes sur les graphiques; autant que je sache, ils ne transmettent pas beaucoup de valeur au-dessus du coefficient de corrélation. Et déjà dit que vous n'êtes intéressé que par la tendance.

[Je ne sais pas si c'est mal de tracer une droite de régression sur un graphique classé-y vs classé-x, la difficulté serait son interprétation.]

Glen_b -Reinstate Monica
la source
Merci, votre réponse est bonne et bien expliquée. Cependant, cela m'a fait réaliser que j'avais peut-être omis des informations cruciales. Est-il toujours valable avec les informations supplémentaires que j'ai fournies? Les graphiques suivent plus tard dans la journée lorsque je suis sur mon PC de travail.
Sentry
Jetez un œil à ma mise à jour et voyez si vous pensez que tout cela a une valeur.
Glen_b -Reinstate Monica
Oui, cela a de la valeur pour, mais plus généralement. Je conviens également que le "tort" vient de la difficulté d'interpréter l'intrigue. Je crains que les gens supposent toujours que je veux prédire le classement à partir de la fonctionnalité, même si je déclare que je veux seulement montrer la tendance .
Sentry
En regardant vos graphiques --- vous montrez les classements, mais avez-vous des mesures originales de performance sur lesquelles les classements étaient basés?
Glen_b -Reinstate Monica
Oui, mais je ne peux pas les utiliser ici, croyez-moi. L'objectif de mon étude est de comparer les algorithmes à l'aide du test de Friedman, qui les classe. Il existe plusieurs ensembles de données avec des plages de performances très différentes, donc seule la comparaison entre eux est intéressante ici.
Sentry
3

L'utilisation du de Spearman équivaut à utiliser le modèle logistique ordinal à cotes proportionnelles si l'on devait classer le vecteur lors de la modélisation. Le modèle PO modélise généralement sur son échelle d'origine et peut inclure des termes non linéaires. Pour obtenir des prédictions, il est avantageux d'utiliser une approche basée sur un modèle. Vous pouvez par exemple tracer rapport à la moyenne prévue ou à la médiane prédite à partir d'un ajustement de modèle PO. Des exemples sont dans les documents de http://biostat.mc.vanderbilt.edu/rms .ρXXXYY

Frank Harrell
la source