J'essaie de corréler l'âge (6-90 ans) avec le volume de la voix (en dB). Cependant, mes données ne contiennent aucun point de données dans la plage de 20 à 50 ans.
Quelle mesure de corrélation est la plus appropriée avec un écart aussi considérable, et pourquoi? J'utilise Kendall Tau jusqu'à présent.
Notez que nous ne traitons pas ici de données distribuées bimodalement, mais d'un écart de données manquant substantiel dans la tranche d'âge.
Réponses:
Créez un nuage de points pour vérifier s'il est logique de supposer qu'un seul coefficient de corrélation est une description adéquate de l'association entre les variables.
Par exemple, dans ces données (simulées), la corrélation pour les 6 à 20 ans est de 90%, pour les 50 ans et plus, elle est de -70% et, globalement, de 15%. Dans une telle situation, déclarer un seul coefficient de corrélation serait aussi trompeur que déclarer que le nombre moyen de pattes chez les animaux domestiques est de quatre lorsque la moitié des animaux sont des poissons et l'autre moitié sont des araignées ...
Le choix de la façon d'exprimer la corrélation est une préoccupation secondaire et repose sur d'autres aspects de l'ensemble de données.
la source