Ma compréhension du fonctionnement de la covariance est que les données qui sont corrélées devraient avoir une covariance quelque peu élevée. Je suis tombé sur une situation où mes données semblent corrélées (comme le montre le diagramme de dispersion) mais la covariance est proche de zéro. Comment la covariance des données peut-elle être nulle si elles sont corrélées?
import numpy as np
x1 = np.array([ 0.03551153, 0.01656052, 0.03344669, 0.02551755, 0.02344788,
0.02904475, 0.03334179, 0.02683399, 0.02966126, 0.03947681,
0.02537157, 0.03015175, 0.02206443, 0.03590149, 0.03702152,
0.02697212, 0.03777607, 0.02468797, 0.03489873, 0.02167536])
x2 = np.array([ 0.0372599 , 0.02398212, 0.03649548, 0.03145494, 0.02925334,
0.03328783, 0.03638871, 0.03196318, 0.03347346, 0.03874528,
0.03098697, 0.03357531, 0.02808358, 0.03747998, 0.03804655,
0.03213286, 0.03827639, 0.02999955, 0.0371424 , 0.0279254 ])
print np.cov(x1, x2)
array([[ 3.95773132e-05, 2.59159589e-05],
[ 2.59159589e-05, 1.72006225e-05]])
python
descriptive-statistics
covariance
kilojoules
la source
la source
Réponses:
L'amplitude de la covariance dépend de l'ampleur des données et de la proximité de ces points de données dispersés autour de la moyenne de ces données. C'est facile à voir quand on regarde la formule:
Dans votre cas, la déviance des données
x1
etx2
indique la moyenne dex1
etx2
sont:Maintenant, si vous multipliez ces deux vecteurs, vous obtenez évidemment des nombres assez petits:
C'est la raison pour laquelle l'ampleur de la covariance ne dit pas grand-chose sur la force du comment
x1
et lax2
co-variation. En standardisant (ou en normalisant) la covariance, c'est-à-dire en la divisant par le produit de l'écart type dex1
etx2
(très similaire à la covariance, c'est-à-dire2.609127e-05
),la source
Parlons de ce qui peut être vu d'un rapide coup d'œil sur l'intrigue et de quelques vérifications du caractère raisonnable (ce sont le genre de choses que l'on peut faire naturellement en regardant des données, simplement en étant armé de quelques faits de base):
Par conséquent, les valeurs observées des variances dans votre sortie ont un sens; ils sont tous les deux moins que cela, mais plus d'un dixième.
De cette analyse très approximative, rien ne semble surprenant.
(Pas si mal pour un calcul rapide de retour d'enveloppe commençant par des gammes à deux chiffres significatifs!)
la source