Mesure non paramétrique de la force d'association entre une variable aléatoire ordinale et continue

12

Je jette ici le problème tel que je l'ai reçu.

J'ai deux variables aléatoires. L'un est continu (Y) et l'autre est discret et sera abordé comme ordinal (X). J'ai mis en dessous l'intrigue que j'ai reçue avec la requête.

entrez la description de l'image ici

La personne qui m'envoie les données veut mesurer la force de l'association entre X et Y. Je recherche des idées qui ne seraient pas chargées d'hypothèses sur le processus qui a généré les données. Notez qu'il ne s'agit pas de trouver un moyen non paramétrique pour tester la force de la relation (comme dans le bootstrap) mais de trouver un moyen non paramétrique pour la mesurer .

D'un autre côté, l'efficacité n'est pas un problème car il y a beaucoup de points de données.

user603
la source
1
X (la variable discrète) est-elle ordinale ou non?
Peter Flom - Réintègre Monica
@PeterFlom: Merci. Oui. J'ajoute ceci à la question.
user603
Par «non paramétrique», voulez-vous dire ici qu'aucun calcul de la moyenne ou de la variance n'est autorisé?
ttnphns

Réponses:

7

Par définition, l' échelle ordinale est la jauge dans laquelle les distances réelles entre les encoches 1 2 3 4sont inconnues. C'est comme si vous voyiez une règle sous la drogue / l'alcool. Les vraies distances peuvent être quelconques. Cela pourrait être 1 2 3 4ou 1 2 3 4ou quoi que ce soit. Nous ne pouvons pas calculer une statistique - telle qu'une corrélation - à moins de décider des distances, de les fixer.

rrhorrhor

rr". Une mise à l'échelle optimale peut être effectuée dans la régression catégorielle (CATREG). Cependant, la régression catégorielle nécessite que l'autre variable d'entrée soit discrète (pas nécessairement ordinale) et donc si elle contient de nombreuses valeurs uniques, elle devra être arbitrairement rejetée par vous. .

Il existe également d'autres approches. Mais de quelque façon que ce soit, nous transformons l'échelle ordinale de façon monotone "de manière à ..." (une hypothèse ou un objectif), parce que l'échelle ordinale nous est déformée d'une manière inconnue. Radicalement, une autre décision serait de "dégriser" en premier et de décider qu'elle n'est pas déformée (c'est-à-dire qu'elle est un intervalle), ou déformée de manière connue (n'est aucun intervalle), ou qu'elle est nominale.

Certaines approches asymétriques peuvent inclure une régression ordinale de la variable ordinale par l'autre (intervalle / continu). Ou régression linéaire de ce dernier par l'ordinal, avec le modèle où le prédicteur est pris comme contraste polynomial (c'est-à-dire entré comme b1X + b2X^2 + b3X^3,...). La faiblesse de ces approches est qu'elles sont asymétriques: une variable est dépendante, l'autre est indépendante.

ttnphns
la source
Merci; très bonne idée, pour calculer les rangs sur une seule des variables.
user603
6

di=xiyixiyi

rS=16i=1ndi2n(n21)

XY


Les références

Reshef, D., Reshef, Y., Finucane, H., Grossman, S., McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher, M., et Sabeti, P. (2011). Détection de nouvelles associations dans de grands ensembles de données. Science , 334 (6062): 1518–1524.

Reshef, D., Reshef, Y., Mitzenmacher, M. et Sabeti, P. (2013). Analyse d'équitabilité du coefficient d'information maximal, avec comparaisons . arXiv , 14 août.

Alexis
la source
Les deux ressemblent à de très bonnes idées. En fait, les deux approches que vous proposez se complètent même . Je vais laisser la question ouverte encore un peu de temps.
user603