Corrélation entre les données continues et les données de comptage

Supposons que nous ayons affaire à cet ensemble de données $(X_i, N_i)$ où $X_i$ est une variable continue (par exemple, exponentielle) et $N_i$ est une distribution discrète (par exemple Poisson) pour $i=1,...,n$ . Disons que $\rho$ est la corrélation entre $X$ et $N$ . Comment peut-on définir $\rho$ ?

correlation count-data user9292
la source

Il est courant de sélectionner des variables pour la modélisation lorsque certaines des variables prédictives sont des données de comptage et que les données de réponse sont continues. Il n'est pas interdit de comparer les nombres réels aux nombres entiers. La forme des distributions sera un problème plus important. Vous voudrez essayer une série de fonctions de ladder de Tukey (aka power series).

Chris

@Chris Merci pour le commentaire. Je ne traite pas ici de régression (bien que quelqu'un puisse dire que la construction d'un GLM

g (Y) = β N

$g(Y) = \beta N$ capturera la corrélation). Je voudrais savoir s'il existe une mesure de corrélation (c.-à-d. Celle de Pearson pour les données continues).

user9292

Pourquoi la corrélation de Pearson ordinaire ne serait-elle pas une mesure de corrélation pour ce problème?

Glen_b -Reinstate Monica

Je dirais qu'il y a au moins 3 options décentes qui auraient du sens pour vous:

Corrélation polysérienne - Ce serait la plus exotique des 3 options et implique une approximation d'une variable latente continue utilisée pour construire la variable discrète ( $N_i$ dans votre cas) ainsi qu’une procédure d’estimation du maximum de vraisemblance pour les $\rho$ qui pourrait résulter entre cette variable continue latente et la vraie, $X_i$ , lorsqu'ils sont traités comme des échantillons normaux bivariés (exemple d'implémentation dans R: polycor ). Il existe plusieurs références à cette idée, mais il s'agit de la publication originale sur le sujet de 1974: Estimation de la corrélation entre une variable continue et une variable discrète .
Corrélation non paramétrique - Le coefficient de corrélation de rang de Spearman est probablement une bonne option dans ce cas. Le calcul de Rho de Spearman fonctionne en fonction des rangs des valeurs de chaque variable plutôt que des valeurs elles-mêmes, ce qui la rend plus largement applicable en présence de relations non linéaires ou de types de données mixtes.
Modélisation - Je sais que vous avez mentionné dans les commentaires que vous n'essayez pas de faire de modélisation, mais je pense toujours qu'une estimation de paramètre ou deux à partir d'une relation fonctionnelle et bien ajustée entre les deux variables est beaucoup plus informative que n'importe quel coefficient de corrélation que vous trouverez (sauf si la variable discrète a vraiment été créée à partir de la moitié des valeurs d'une distribution normale bivariée - ce dont je doute).

Pour répondre plus directement à votre question, calculez $\rho$ comme d'habitude (en supposant que vous entendez par là le coefficient de corrélation produit-moment) aurait probablement les propriétés que vous attendez, ou du moins il augmenterait à mesure que la dépendance linéaire entre les variables augmente. Cependant, un test statistique de l'importance de la corrélation ne serait pas valide car l'une des hypothèses requises pour un tel test est la normalité bivariée et ce n'est clairement pas vrai si l'une des variables est discrète.

Des tests de signification avec un coefficient de corrélation non paramétrique (par exemple celui de Spearman) seraient cependant possibles et il serait facile de trouver des implémentations bien documentées de cela dans n'importe quelle langue.

Eric Czech
la source

Corrélation entre les données continues et les données de comptage

Réponses: