J'ai un ensemble de données avec une variable dépendante et indépendante. Les deux ne sont pas une série chronologique. J'ai 120 observations. Le coefficient de corrélation est de 0,43
Après ce calcul, j'ai ajouté une colonne pour les deux variables avec la moyenne pour 12 observations, résultant en 2 nouvelles colonnes avec 108 observations (paires). Le coefficient de corrélation de ces colonnes est de 0,77
Il semble que j'ai amélioré la corrélation de cette façon. Est-ce permis? Ai-je augmenté le pouvoir d'explication de la variable indépendante en utilisant des moyennes?
regression
correlation
mean
predictor
cross-section
user2165379
la source
la source
Réponses:
Jetons un coup d'œil à deux vecteurs, le premier étant
et le deuxième vecteur étant
Calcul de la corrélation de Pearson que vous obtiendrez
Cependant, si vous prenez la moyenne des paires successives pour les valeurs, les deux vecteurs sont identiques. Les vecteurs identiques ont la corrélation 1.
Cet exemple simple illustre un inconvénient de votre méthode.
Edit : Pour l'expliquer plus généralement: Le coefficient de corrélation est calculé de la manière suivante.
la source
La moyenne peut être attrayante ou pratique. Il peut également être une source de tromperie, au pire de tromperie, alors soyez prudent même s'il existe une justification claire pour la moyenne.
Il existe certaines situations dans lesquelles la moyenne peut avoir un sens. Par exemple, si les variations saisonnières présentent peu ou pas d'intérêt, la moyenne des valeurs annuelles crée un ensemble de données réduit dans lequel vous pouvez vous concentrer sur ces valeurs annuelles.
Dans divers domaines, les chercheurs pourraient être intéressés par des corrélations à des échelles assez différentes, par exemple entre le chômage et la criminalité pour les individus, les comtés, les États, les pays (remplacer les termes qui ont le plus de sens).
L'intérêt, et souvent aussi une source majeure de problèmes d'inférence, est d'interpréter ce qui se passe à différentes échelles ou niveaux. Par exemple, une forte corrélation entre le taux de chômage et le taux de criminalité dans les régions ne signifie pas nécessairement que les chômeurs ont plus tendance à être des criminels; vous avez besoin de données sur les individus pour être clair à ce sujet. La fourniture de données peut être gênante au maximum si les données ne sont disponibles qu'à l'échelle la moins intéressante, peut-être pour des raisons d'économie ou de confidentialité.
Je note également que de nombreuses mesures sont en premier lieu souvent des moyennes sur de petits intervalles de temps et / ou de petits intervalles d'espace, de sorte que les données arrivent souvent en moyenne dans tous les cas.
la source