Pourquoi la variance n'est-elle pas définie comme la différence entre chaque valeur se succédant?

19

Cela peut être une question simple pour beaucoup, mais la voici:

Pourquoi la variance n'est-elle pas définie comme la différence entre chaque valeur se succédant au lieu de la différence par rapport à la moyenne des valeurs?

Ce serait le choix le plus logique pour moi, je suppose que je supervise évidemment certains inconvénients. Merci

ÉDITER:

Permettez-moi de reformuler le plus clairement possible. Voici ce que je veux dire:

  1. Supposons que vous ayez une plage de nombres, classés: 1,2,3,4,5
  2. Calculez et résumez (les absolus) les différences (en continu, entre chaque valeur suivante, pas par paire) entre les valeurs (sans utiliser la moyenne).
  3. Divisez par le nombre de différences
  4. (Suivi: la réponse serait-elle différente si les numéros n'étaient pas ordonnés)

-> Quels sont les inconvénients de cette approche par rapport à la formule standard de variance?

user2305193
la source
1
Vous pouvez également être intéressé par des informations sur l'autocorrélation (par exemple, stats.stackexchange.com/questions/185521/… ).
Tim
2
@ user2305193 la réponse de whuber est correcte, mais sa formule utilise la distance au carré entre un ordre des données et la moyenne sur tous les ordres. Une astuce intéressante, mais le processus de recherche de la variance que vous avez indiquée, est exactement ce que j'ai essayé de mettre en œuvre dans ma réponse, et j'ai démontré qu'il ne ferait pas du bon travail. Essayer de dissiper la confusion.
Greenparker
1
Pour le plaisir, recherchez le Allan Variance.
hobbs
sur une autre pensée, je suppose que puisque vous ne faites pas de carré des différences (et vous ne prenez pas la racine carrée après) mais que vous prenez les valeurs absolues, cela devrait plutôt être `` pourquoi n'est-ce pas ainsi que nous calculons l'écart-type '' au lieu de «pourquoi n'est-ce pas ainsi que nous calculons la variance». Mais je vais me reposer maintenant
user2305193

Réponses:

27

La raison la plus évidente est qu'il n'y a souvent pas de séquence temporelle dans les valeurs. Donc, si vous mélangez les données, cela ne fait aucune différence dans les informations véhiculées par les données. Si nous suivons votre méthode, chaque fois que vous mélangez les données, vous obtenez une variance d'échantillon différente.

La réponse plus théorique est que la variance de l'échantillon estime la vraie variance d'une variable aléatoire. La vraie variance d'une variable aléatoire est E [ ( X - E X ) 2 ] .X

E[(XEX)2].

Ici, représente l'attente ou «valeur moyenne». La définition de la variance est donc la distance quadratique moyenne entre la variable et sa valeur moyenne. Lorsque vous regardez cette définition, il n'y a pas de "chronologie" car il n'y a pas de données. C'est juste un attribut de la variable aléatoire.E

Lorsque vous collectez des données iid à partir de cette distribution, vous avez des réalisations . La meilleure façon d'estimer l'attente est de prendre les moyennes de l'échantillon. La clé ici est que nous avons obtenu des données iid, et donc il n'y a pas d'ordre pour les données. L'échantillon est le même que l'échantillonx 1 , x 2 , , x n x 2 , x 5 , x 1 , x n . .x1,x2,,xnx1,x2,,xnx2,x5,x1,xn..

ÉDITER

La variance de l'échantillon mesure un type spécifique de dispersion pour l'échantillon, celui qui mesure la distance moyenne de la moyenne. Il existe d'autres types de dispersion comme la plage de données et la plage inter-quantile.

Même si vous triez vos valeurs par ordre croissant, cela ne change pas les caractéristiques de l'échantillon. Les échantillons (données) que vous obtenez sont des réalisations à partir d'une variable. Le calcul de la variance de l'échantillon revient à comprendre le degré de dispersion de la variable. Ainsi, par exemple, si vous échantillonnez 20 personnes et calculez leur taille, ce sont 20 "réalisations" de la variable aléatoire hauteur des personnes. Maintenant, la variance de l'échantillon est censée mesurer la variabilité de la taille des individus en général. Si vous commandez les données 100 , 110 , 123 , 124 , ,X=

100,110,123,124,,

cela ne change pas les informations de l'échantillon.

Regardons un autre exemple. disons que vous avez 100 observations à partir d'une variable aléatoire ordonnée de cette façon Ensuite, la moyenne la distance suivante est de 1 unités, donc selon votre méthode, la variance sera de 1.

1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.

La façon d'interpréter la «variance» ou la «dispersion» consiste à comprendre quelle plage de valeurs sont susceptibles de contenir les données. Dans ce cas, vous obtiendrez une plage de .99 unité, ce qui bien sûr ne représente pas bien la variation.

Si au lieu de prendre la moyenne, vous additionnez simplement les différences ultérieures, votre variance sera de 99. Bien sûr, cela ne représente pas la variabilité dans l'échantillon, car 99 vous donne la plage des données, pas un sens de la variabilité.

Greenparker
la source
1
Avec le dernier paragraphe que vous m'avez tendu, haha, merci pour cette réponse époustouflante, j'aurais aimé avoir assez de représentants pour voter, s'il vous plaît les gens, faites-le pour moi ;-) ACCEPTÉ !!!
user2305193
Suivi de suivi: Ce que je voulais vraiment dire (ouais, désolé, je n'ai réalisé la bonne question qu'après avoir lu votre réponse) était de résumer les différences et de la diviser par le nombre d'échantillons. Dans votre dernier exemple, il s'agirait de 99/100 - pouvez-vous développer cela pour une sidération complète?
user2305193
@ user2305193 Bon, j'ai dit 1 unité en moyenne, ce qui est incorrect. Il aurait dû être de .99 unités. Je l'ai changé.
Greenparker
Pour plus d'informations sur la série 1-100: la variance de 1-100 serait de 841,7 et la source de l'écart type 29,01 . Donc en effet un résultat assez différent.
user2305193
31

Il est défini de cette façon!

Voici l'algèbre. Soit les valeurs . On note la fonction de répartition empirique de ces valeurs ( ce qui signifie que chaque contribue une masse de probabilité de à la valeur ) et soit et soient des variables aléatoires indépendantes avec une distribution . En vertu des propriétés de base de la variance (à savoir, c'est une forme quadratique) ainsi que de la définition de et du fait que et ont la même moyenne,F x i 1 / n x i X Y F F X Yx=(x1,x2,,xn)Fxi1/nxiXYFFXY

Var(x)=Var(X)=12(Var(X)+Var(Y))=12(Var(XY))=12(E((XY)2)E(XY)2)=E(12(XY)2)0=1n2i,j12(xixj)2.

Cette formule ne dépend pas de la façon dont est ordonnée: elle utilise toutes les paires de composants possibles, en les comparant en utilisant la moitié de leurs différences au carré. Il peut cependant être lié à une moyenne sur tous les ordres possibles (le groupe de toutes les Permutations des indices ). À savoir,S ( n ) n ! 1 , 2 , , nxS(n)n!1,2,,n

Var(x)=1n2i,j12(xixj)2=1n!σS(n)1ni=1n112(xσ(i)xσ(i+1))2.

Cette somme intérieure prend les valeurs réordonnées et additionne les (demi) carrés des différences entre tous les successifs paires. La division par essentiellement la moyenne de ces différences quadratiques successives . Il calcule ce que l'on appelle la semi-variance lag-1 . La sommation externe le fait pour toutes les commandes possibles . n - 1 nxσ(1),xσ(2),,xσ(n)n1n


Ces deux vues algébriques équivalentes de la formule de variance standard donnent un nouvel aperçu de ce que signifie la variance. La semi-variance est une mesure inverse de la covariance série d'une séquence: la covariance est élevée (et les nombres sont positivement corrélés) lorsque la semi-variance est faible, et inversement. La variance d'un ensemble de données non ordonné est donc une sorte de moyenne de toutes les semi- variances possibles pouvant être obtenues dans le cadre de réorganisations arbitraires.

whuber
la source
1
@ Mur1lo Au contraire: je crois que cette dérivation est correcte. Appliquez la formule à certaines données et voyez!
whuber
1
Je pense que Mur1lo ne parlait peut-être pas de l'exactitude de la formule de la variance, mais du passage apparemment direct des attentes des variables aléatoires aux fonctions des quantités d'échantillons.
Glen_b -Reinstate Monica
1
@glen Mais c'est précisément ce que la fonction de distribution empirique nous permet de faire. C'est tout l'intérêt de cette approche.
whuber
3
Oui, c'est clair pour moi; J'essayais de montrer où la confusion semblait se trouver. Désolé d'être vague. Avec un peu de chance, il est plus clair maintenant pourquoi cela semble * être un problème. * (c'est pourquoi j'ai utilisé le mot "apparent" plus tôt, pour souligner que c'était juste l'apparence hors contexte de cette étape qui était susceptible d'être la cause de la confusion)
Glen_b -Reinstate Monica
2
@ Mur1o La seule chose que j'ai faite dans l'une de ces équations est d'appliquer des définitions. On ne passe pas des attentes aux «quantités d'échantillons». (En particulier, aucun échantillon de n'a été posé ou utilisé.) Je ne suis donc pas en mesure d'identifier le problème apparent ni de proposer une autre explication. Si vous pouviez développer votre préoccupation, je pourrais peut-être répondre. F
whuber
11

Juste un complément aux autres réponses, la variance peut être calculée comme la différence au carré entre les termes:

Var(X)=12n2injn(xixj)2=12n2injn(xix¯xj+x¯)2=12n2injn((xix¯)(xjx¯))2=1nin(xix¯)2

Je pense que c'est le plus proche de la proposition OP. N'oubliez pas que la variance est une mesure de la dispersion de chaque observation à la fois, pas seulement entre les nombres "voisins" de l'ensemble.


MISE À JOUR

En utilisant votre exemple: . Nous savons que la variance est . V a r ( X ) = 2X=1,2,3,4,5Var(X)=2

Avec la méthode que vous proposez , nous savons donc à l'avance de prendre les différences entre voisins car la variance ne s'additionne pas. Ce que je voulais dire, c'était de prendre toutes les différences possibles au carré, puis de résumer:Var(X)=1

Var(X)==(51)2+(52)2+(53)2+(54)2+(55)2+(41)2+(42)2+(43)2+(44)2+(45)2+(31)2+(32)2+(33)2+(34)2+(35)2+(21)2+(22)2+(23)2+(24)2+(25)2+(11)2+(12)2+(13)2+(14)2+(15)2252==16+9+4+1+9+4+1+1+4+1+1+4+1+1+4+9+1+4+9+1650==2
Pyromane
la source
Maintenant, je suis sérieusement confus
user2305193
@ user2305193 Dans votre question, vouliez-vous dire chaque différence par paire ou vouliez-vous la différence entre une valeur et la suivante dans une séquence? Pourriez-vous clarifier?
Firebug
2
@ Mur1lo personne n'est cependant, je ne sais pas de quoi vous parlez.
Firebug
2
@ Mur1lo C'est une question générale, et j'y ai répondu de manière générale. La variance est un paramètre calculable, qui peut être estimé à partir d'échantillons. Cette question ne concerne cependant pas l'estimation. Nous parlons également d'ensembles discrets, pas de distributions continues.
Firebug
1
Vous avez montré comment estimer la variance par sa statistique U et son amende. Le problème est quand vous écrivez: Var ("majuscule" X) = choses impliquant "minuscule" x, vous mélangez les deux notions différentes de paramètre et d'estimateur.
Mur1lo
6

D'autres ont répondu sur l'utilité de la variance définie comme d'habitude. Quoi qu'il en soit, nous avons juste deux définitions légitimes de choses différentes: la définition habituelle de la variance et votre définition.

Ensuite, la principale question est de savoir pourquoi la première est appelée variance et non la vôtre. Ce n'est qu'une question de convention. Jusqu'en 1918, vous auriez pu inventer tout ce que vous vouliez et l'appeler "variance", mais en 1918 Fisher a utilisé ce nom pour ce qui est encore appelé variance, et si vous voulez définir autre chose, vous devrez trouver un autre nom pour le nommer.

L'autre question est de savoir si la chose que vous avez définie pourrait être utile pour quelque chose. D'autres ont indiqué que ses problèmes devaient être utilisés comme mesure de la dispersion, mais c'est à vous de trouver des applications. Peut-être trouvez-vous des applications si utiles qu'en un siècle votre truc est plus célèbre que la variance.

Pere
la source
Je sais que chaque définition appartient aux personnes qui en décident, je cherchais vraiment de l'aide à la hausse / à la baisse pour chaque approche. Habituellement, il y a de bonnes raisons pour que les gens convergent vers une définition et, comme je le soupçonnais, je n'ai pas vu tout de suite pourquoi.
user2305193
1
Fisher a introduit la variance comme terme en 1918, mais l'idée est plus ancienne.
Nick Cox
Pour autant que je sache, Fisher a été le premier à utiliser le nom "variance" pour variance. C'est pourquoi je dis qu'avant 1918, vous auriez pu utiliser "variance" pour nommer tout ce que vous aviez inventé.
Pere
3

La réponse @GreenParker est plus complète, mais un exemple intuitif pourrait être utile pour illustrer l'inconvénient de votre approche.

Dans votre question, vous semblez supposer que l'ordre dans lequel les réalisations d'une variable aléatoire apparaissent importe. Cependant, il est facile de penser à des exemples dans lesquels ce n'est pas le cas.

Prenons l'exemple de la taille des individus dans une population. L'ordre dans lequel les individus sont mesurés n'est pas pertinent à la fois pour la taille moyenne de la population et pour la variance (la répartition de ces valeurs autour de la moyenne).

Votre méthode semble étrange appliquée à un tel cas.

Antoine Vernet
la source
2

Bien qu'il existe de nombreuses bonnes réponses à cette question, je pense que certains points importants ont été laissés de côté et, comme cette question a soulevé un point très intéressant, je voudrais apporter un autre point de vue.

Why isn't variance defined as the difference between every value following    
each other instead of the difference to the average of the values?

XFXμx

μX=+xdFX(x)

XσX2

σX2=+(xμX)2dFX(x)

Le rôle de l'estimation en statistique est de fournir, à partir d'un ensemble de réalisations d'un rv, une bonne approximation des paramètres d'intérêt.

Ce que je voulais montrer, c'est qu'il y a une grande différence entre les concepts de paramètres (la variance pour cette question particulière) et la statistique que nous utilisons pour l'estimer.

Why isn't the variance calculated this way?

Xx={x1,,xn}

ψ(x)=1ni=2n|xixi1|

et la statistique habituelle est:

S2(x)=1n1i=in(xix¯)2,

x¯

Lorsque l'on compare deux estimateurs d'un paramètre, le critère habituel pour le meilleur est celui qui a l' erreur quadratique moyenne minimale (MSE), et une propriété importante de MSE est qu'il peut être décomposé en deux composantes:

MSE = biais d'estimateur + variance d'estimateur.

S2

  • Il s'agit d'abord d'un estimateur non biaisé de la variance, mais votre statistique n'est pas non biaisée.

  • S2σ2

S2

Mur1lo
la source
3
1/n1/(n1)
1

Beaucoup de bonnes réponses ici, mais j'en ajouterai quelques-unes.

  1. La façon dont il est défini maintenant s'est avérée utile. Par exemple, les distributions normales apparaissent tout le temps dans les données et une distribution normale est définie par sa moyenne et sa variance. Edit: comme @whuber l'a souligné dans un commentaire, il existe plusieurs autres façons de spécifier une distribution normale. Mais pour autant que je sache, aucun d'eux ne traite des paires de points dans l'ordre.
  2. La variance telle que définie normalement vous donne une mesure de la répartition des données. Par exemple, disons que vous avez beaucoup de points de données avec une moyenne de zéro, mais quand vous les regardez, vous voyez que les données sont principalement autour de -1 ou autour de 1. Votre variance serait d'environ 1. Cependant, sous votre mesure, vous obtiendrez un total de zéro. Laquelle est la plus utile? Eh bien, cela dépend, mais ce n'est pas clair pour moi qu'une mesure de zéro pour sa "variance" aurait du sens.
  3. Cela vous permet de faire d'autres choses. Juste un exemple, dans ma classe de statistiques, nous avons vu une vidéo sur la comparaison des lanceurs (au baseball) au fil du temps. Si je me souviens bien, les lanceurs semblaient s'aggraver puisque la proportion de lancers touchés (ou de circuits) augmentait. L'une des raisons est que les frappeurs s'amélioraient. Cela a rendu difficile la comparaison des lanceurs au fil du temps. Cependant, ils pouvaient utiliser le z-score des lanceurs pour les comparer dans le temps.

Néanmoins, comme l'a dit @Pere, votre métrique pourrait s'avérer très utile à l'avenir.

roundsquare
la source
1
Une distribution normale peut également être déterminée par sa moyenne et son quatrième moment central, d'ailleurs - ou au moyen de nombreuses autres paires de moments. L'écart n'est pas spécial de cette façon.
whuber
@whuber intéressant. J'avoue que je ne m'en suis pas rendu compte. Néanmoins, à moins que je ne me trompe, tous les moments sont de type "variance" dans la mesure où ils sont basés sur des distances à partir d'un certain point plutôt que de traiter des paires de points en séquence. Mais je vais modifier mes réponses pour prendre note de ce que vous avez dit.
roundsquare
1
Pourriez-vous expliquer le sens dans lequel vous voulez dire "traiter des paires de points dans l'ordre"? Cela ne fait partie d'aucune définition standard d'un moment. Notez également que tous les moments absolus autour de la moyenne - qui incluent tous les moments pairs autour de la moyenne - donnent une "mesure de la répartition des données". On pourrait donc construire avec eux un analogue du score Z. Ainsi, aucun de vos trois points ne semble différencier la variance d'un moment central absolu.
whuber
@whuber ouais. La question d'origine posait une séquence de 4 étapes où vous triez les points, prenez les différences entre chaque point et le point suivant, puis faites la moyenne de ceux-ci. C'est ce que j'ai appelé «traiter [des] paires de points dans l'ordre». Vous avez donc raison, aucun des trois points que j'ai donnés ne distingue la variance d'un moment central absolu - ils sont destinés à distinguer la variance (et, je suppose, tous les moments centraux absolus) de la procédure décrite dans la question initiale.
roundsquare