Quelle mesure de corrélation doit être utilisée avec un grand écart (données manquantes)?

8

J'essaie de corréler l'âge (6-90 ans) avec le volume de la voix (en dB). Cependant, mes données ne contiennent aucun point de données dans la plage de 20 à 50 ans.

Quelle mesure de corrélation est la plus appropriée avec un écart aussi considérable, et pourquoi? J'utilise Kendall Tau jusqu'à présent.

Notez que nous ne traitons pas ici de données distribuées bimodalement, mais d'un écart de données manquant substantiel dans la tranche d'âge.

whuber
la source
1
Le titre mentionne qu'il y a un écart dans une variable, mais d'après le corps, il semble que l'écart se trouve dans les deux variables pour lesquelles vous essayez de calculer la corrélation. Alors, quelles données manquent exactement?
mpiktas

Réponses:

8

Créez un nuage de points pour vérifier s'il est logique de supposer qu'un seul coefficient de corrélation est une description adéquate de l'association entre les variables.

Par exemple, dans ces données (simulées), la corrélation pour les 6 à 20 ans est de 90%, pour les 50 ans et plus, elle est de -70% et, globalement, de 15%. Dans une telle situation, déclarer un seul coefficient de corrélation serait aussi trompeur que déclarer que le nombre moyen de pattes chez les animaux domestiques est de quatre lorsque la moitié des animaux sont des poissons et l'autre moitié sont des araignées ...

Diagramme de dispersion de l'intensité sonore en fonction de l'âge pour 150 personnes simulées

Le choix de la façon d'exprimer la corrélation est une préoccupation secondaire et repose sur d'autres aspects de l'ensemble de données.

whuber
la source
whuber est sage. Avec un écart aussi important, je pense qu'il n'est presque jamais justifié d'accorder une importance à une seule mesure de corrélation.
Michael Bishop
(+1) belle anecdote de poisson araignée!
Dmitrij Celov