Est-il acceptable de regrouper les données, de calculer la moyenne des cellules, puis de dériver le coefficient de corrélation de Pearson sur la base de ces moyennes? Il me semble une procédure quelque peu louche en ce que (si vous considérez les données comme un échantillon de population) la dispersion de ces moyennes sera l'erreur standard de la moyenne et donc très serrée si est grand. Vous obtiendrez donc probablement un coefficient de corrélation bien meilleur que celui des données primaires, et cela semble faux. D'un autre côté, les gens font souvent la moyenne des mesures répétées avant un calcul de corrélation qui n'est pas très différent.
correlation
binning
James
la source
la source
Réponses:
Pas exactement la même chose que votre question, mais sur une note connexe, je me souviens avoir lu un article il y a quelque temps (The American Statistician ou Chance magazine, entre 2000 et 2003) qui montrait que pour tout ensemble de données de 2 variables où elles sont jolies beaucoup sans corrélation, vous pouvez trouver un moyen de regrouper la variable "prédicteur", puis de prendre la moyenne de la variable de réponse dans chaque groupe et selon la façon dont vous effectuez le regroupement, affichez une relation positive ou négative dans un tableau ou un graphique simple.
la source
Considérons deux variables ( , ). Lorsque vous dites bin les données et que vous "bin" sur , voulez-vous dire répéter la mesure pour exactement le même pour obtenir la valeur correspondante ? Si vous répétez la mesure comme ceci, l'erreur en moyenne diminuera avec , et je pense que vous êtes libre de faire ce que vous voulez avec. Assurez-vous simplement d'utiliser un coefficient de corrélation pondéré si vous considérez des points de données avec des barres d'erreur très différentes.Xi Yi Xi Xi Y′i n−−√
Supposons maintenant que vous ne répétiez pas la mesure de , mais que vous plutôt et le correspondant et le sur et obteniez des valeurs regroupées dans . Je pense que dans cette situation, la solution dépendra de la relation entre la taille du bac, l'erreur sur la mesure et la pente de la corrélation. J'espère que si et sont tous deux petits, la situation sera similaire à celle du paragraphe précédent. Sinon, il peut être avantageux de regrouper ou non; cela changera les résultats car la cov ( ,Xi Xi±δ Yi±δ′ δ δ δ δ´ Xi,bin Yi,bin ) sera différent de celui des valeurs non combinées, mais je pense qu'il est toujours valable de le faire. Je pense que vous ne brisez aucune hypothèse; Je m'assurerais simplement qu'il est avantageux de le faire, et je testerais sa signification par un test de permutation (pour éviter de faire une hypothèse sur la distribution des coefficients).
la source
La principale raison de regrouper les données est de permettre la possibilité d'une relation non linéaire entre les variables. La corrélation de Pearson mesure la force de l' association linéaire , donc elle ne fonctionne pas bien lorsque la relation est non linéaire.
Il existe évidemment de bien meilleures façons de gérer ce problème que le binning. Par exemple, vous pouvez adapter un modèle de régression non linéaire ou local et corréler les valeurs de réponse prédites et réelles (bien que cela suppose qu'une approche prédicteur-réponse est valide, tandis que la corrélation est symétrique). Le binning n'est qu'un moyen de résoudre le problème de non-linéarité que les personnes sans expérience en statistiques ou outils statistiques pourraient utiliser.
la source