Est-il permis d'utiliser des moyennes sur un ensemble de données pour améliorer la corrélation?

9

J'ai un ensemble de données avec une variable dépendante et indépendante. Les deux ne sont pas une série chronologique. J'ai 120 observations. Le coefficient de corrélation est de 0,43

Après ce calcul, j'ai ajouté une colonne pour les deux variables avec la moyenne pour 12 observations, résultant en 2 nouvelles colonnes avec 108 observations (paires). Le coefficient de corrélation de ces colonnes est de 0,77

Il semble que j'ai amélioré la corrélation de cette façon. Est-ce permis? Ai-je augmenté le pouvoir d'explication de la variable indépendante en utilisant des moyennes?

user2165379
la source
4
Tout ce que vous avez fait, c'est d'exécuter les données via un filtre de lissage. Cela se fait tout le temps dans le traitement du signal et c'est parfaitement acceptable et généralement requis avant que les données ne soient même utilisables. Il élimine le bruit qui prévaut toujours dans les mesures électroniques. Cependant, le fait qu'il soit acceptable pour votre problème particulier dépend des détails de ce que vous essayez de réaliser et probablement dans une large mesure de la quantité de «bruit» par rapport à la «qualité» dans vos données. Je viens de remarquer "Les deux ne sont pas une série chronologique", donc je soupçonne que ce que vous avez fait n'a pas de sens car changer l'ordre change les résultats
Dunk
Merci à tous. Ma variable dépendante est une série de résultats mensuels d'un système de paris (ces résultats ne sont pas liés). La variable indépendante est le résultat d'un indicateur que j'ai construit. Cet indicateur génère un score sur la façon dont les scores des matchs sportifs ont été extrêmes au cours d'un mois donné (ces résultats sportifs ne sont pas liés). Je soupçonnais que ce que je faisais n'avait pas de sens, même si cela m'étonnait que le coefficient de corrélation s'améliore tellement.
user2165379
2
Je ne suis pas certain, mais je pense que la moyenne des données donnerait des résultats similaires. Je pense que la moyenne réduit les effets des valeurs aberrantes. Ainsi, la corrélation devrait s'améliorer. Bien que je parie que certains maths-geek peuvent trouver des données bien choisies qui provoqueraient l'effet inverse, mais je ne m'attendrais pas à ce que des données comme celles-ci se produisent dans le monde réel.
Dunk
Je ne pouvais pas voir si vous aviez précisé à quoi servaient ces données. Cependant, en général, lors de la présentation de vos données à votre public spécifié, la divulgation de la façon dont les données ont été dérivées est une bonne pratique.
Jon Milliken
3
Quelle est la corrélation des valeurs moyennes censées représenter? Ce n'est certainement plus une estimation raisonnable de la corrélation entre les variables d'origine.
Glen_b -Reinstate Monica

Réponses:

15

Jetons un coup d'œil à deux vecteurs, le premier étant

    2 6 2 6 2 6 2 6 2 6 2 6

et le deuxième vecteur étant

   6 2 6 2 6 2 6 2 6 2 6 2

Calcul de la corrélation de Pearson que vous obtiendrez

cor(a,b)
[1] -1

Cependant, si vous prenez la moyenne des paires successives pour les valeurs, les deux vecteurs sont identiques. Les vecteurs identiques ont la corrélation 1.

  4 4 4 4 4 4  

Cet exemple simple illustre un inconvénient de votre méthode.

Edit : Pour l'expliquer plus généralement: Le coefficient de corrélation est calculé de la manière suivante.

E[(XμX)(YμY)]σX σY

XYXμXYμY

Ferdi
la source
1
μσ
Je vous remercie. Est-ce à dire que mes résultats sont «gonflés» ou flattés en utilisant les moyennes et qu'il vaut toujours mieux utiliser les observations sans faire la moyenne?
user2165379
Pour les tests d'hypothèse, vous devriez regarder les données elles-mêmes et non les moyennes. Dans d'autres domaines, les statistiques descriptives peuvent être un outil utile. Vous devriez également jeter un œil à d'autres mesures de statistiques descriptives telles que les quantiles (en particulier la médiane) et les moments supérieurs (centralisés), tels que la variance, l'asymétrie et le kurtosis. Cependant, dans notre cas, cela n'est pas utile. Les vecteurs a et b ont les mêmes quantiles, les mêmes moments et les mêmes moments centralisés.
Ferdi
1
La moyenne tend à augmenter les corrélations en supprimant la diffusion quasi-aléatoire mais une moyenne suffisamment perverse pourrait pousser les corrélations vers zéro.
Nick Cox
Je vous remercie. Donc, si la moyenne tend à augmenter la corrélationa en général, cela implique que ce n'est pas une amélioration? Ou s'agit-il d'une amélioration parce que la dispersion quasi aléatoire est supprimée?
user2165379
10

La moyenne peut être attrayante ou pratique. Il peut également être une source de tromperie, au pire de tromperie, alors soyez prudent même s'il existe une justification claire pour la moyenne.

1

Il existe certaines situations dans lesquelles la moyenne peut avoir un sens. Par exemple, si les variations saisonnières présentent peu ou pas d'intérêt, la moyenne des valeurs annuelles crée un ensemble de données réduit dans lequel vous pouvez vous concentrer sur ces valeurs annuelles.

Dans divers domaines, les chercheurs pourraient être intéressés par des corrélations à des échelles assez différentes, par exemple entre le chômage et la criminalité pour les individus, les comtés, les États, les pays (remplacer les termes qui ont le plus de sens).

L'intérêt, et souvent aussi une source majeure de problèmes d'inférence, est d'interpréter ce qui se passe à différentes échelles ou niveaux. Par exemple, une forte corrélation entre le taux de chômage et le taux de criminalité dans les régions ne signifie pas nécessairement que les chômeurs ont plus tendance à être des criminels; vous avez besoin de données sur les individus pour être clair à ce sujet. La fourniture de données peut être gênante au maximum si les données ne sont disponibles qu'à l'échelle la moins intéressante, peut-être pour des raisons d'économie ou de confidentialité.

Je note également que de nombreuses mesures sont en premier lieu souvent des moyennes sur de petits intervalles de temps et / ou de petits intervalles d'espace, de sorte que les données arrivent souvent en moyenne dans tous les cas.

Nick Cox
la source
3
Je fais écho à la réponse de @ Ferdi en soulignant qu'il peut y avoir de nombreuses façons de faire la moyenne. Cela crée une source supplémentaire d'incertitude. La difficulté est particulièrement aiguë dans l'agrégation de petites zones à de plus grandes.
Nick Cox