Cela peut être une question simple pour beaucoup, mais la voici:
Pourquoi la variance n'est-elle pas définie comme la différence entre chaque valeur se succédant au lieu de la différence par rapport à la moyenne des valeurs?
Ce serait le choix le plus logique pour moi, je suppose que je supervise évidemment certains inconvénients. Merci
ÉDITER:
Permettez-moi de reformuler le plus clairement possible. Voici ce que je veux dire:
- Supposons que vous ayez une plage de nombres, classés: 1,2,3,4,5
- Calculez et résumez (les absolus) les différences (en continu, entre chaque valeur suivante, pas par paire) entre les valeurs (sans utiliser la moyenne).
- Divisez par le nombre de différences
- (Suivi: la réponse serait-elle différente si les numéros n'étaient pas ordonnés)
-> Quels sont les inconvénients de cette approche par rapport à la formule standard de variance?
Réponses:
La raison la plus évidente est qu'il n'y a souvent pas de séquence temporelle dans les valeurs. Donc, si vous mélangez les données, cela ne fait aucune différence dans les informations véhiculées par les données. Si nous suivons votre méthode, chaque fois que vous mélangez les données, vous obtenez une variance d'échantillon différente.
La réponse plus théorique est que la variance de l'échantillon estime la vraie variance d'une variable aléatoire. La vraie variance d'une variable aléatoire est E [ ( X - E X ) 2 ] .X
Ici, représente l'attente ou «valeur moyenne». La définition de la variance est donc la distance quadratique moyenne entre la variable et sa valeur moyenne. Lorsque vous regardez cette définition, il n'y a pas de "chronologie" car il n'y a pas de données. C'est juste un attribut de la variable aléatoire.E
Lorsque vous collectez des données iid à partir de cette distribution, vous avez des réalisations . La meilleure façon d'estimer l'attente est de prendre les moyennes de l'échantillon. La clé ici est que nous avons obtenu des données iid, et donc il n'y a pas d'ordre pour les données. L'échantillon est le même que l'échantillonx 1 , x 2 , … , x n x 2 , x 5 , x 1 , x n . .x1,x2,…,xn x1,x2,…,xn x2,x5,x1,xn..
ÉDITER
La variance de l'échantillon mesure un type spécifique de dispersion pour l'échantillon, celui qui mesure la distance moyenne de la moyenne. Il existe d'autres types de dispersion comme la plage de données et la plage inter-quantile.
Même si vous triez vos valeurs par ordre croissant, cela ne change pas les caractéristiques de l'échantillon. Les échantillons (données) que vous obtenez sont des réalisations à partir d'une variable. Le calcul de la variance de l'échantillon revient à comprendre le degré de dispersion de la variable. Ainsi, par exemple, si vous échantillonnez 20 personnes et calculez leur taille, ce sont 20 "réalisations" de la variable aléatoire hauteur des personnes. Maintenant, la variance de l'échantillon est censée mesurer la variabilité de la taille des individus en général. Si vous commandez les données 100 , 110 , 123 , 124 , … ,X=
cela ne change pas les informations de l'échantillon.
Regardons un autre exemple. disons que vous avez 100 observations à partir d'une variable aléatoire ordonnée de cette façon Ensuite, la moyenne la distance suivante est de 1 unités, donc selon votre méthode, la variance sera de 1.
La façon d'interpréter la «variance» ou la «dispersion» consiste à comprendre quelle plage de valeurs sont susceptibles de contenir les données. Dans ce cas, vous obtiendrez une plage de .99 unité, ce qui bien sûr ne représente pas bien la variation.
Si au lieu de prendre la moyenne, vous additionnez simplement les différences ultérieures, votre variance sera de 99. Bien sûr, cela ne représente pas la variabilité dans l'échantillon, car 99 vous donne la plage des données, pas un sens de la variabilité.
la source
Il est défini de cette façon!
Voici l'algèbre. Soit les valeurs . On note la fonction de répartition empirique de ces valeurs ( ce qui signifie que chaque contribue une masse de probabilité de à la valeur ) et soit et soient des variables aléatoires indépendantes avec une distribution . En vertu des propriétés de base de la variance (à savoir, c'est une forme quadratique) ainsi que de la définition de et du fait que et ont la même moyenne,F x i 1 / n x i X Y F F X Yx=(x1,x2,…,xn) F xi 1/n xi X Y F F X Y
Cette formule ne dépend pas de la façon dont est ordonnée: elle utilise toutes les paires de composants possibles, en les comparant en utilisant la moitié de leurs différences au carré. Il peut cependant être lié à une moyenne sur tous les ordres possibles (le groupe de toutes les Permutations des indices ). À savoir,S ( n ) n ! 1 , 2 , … , nx S(n) n! 1,2,…,n
Cette somme intérieure prend les valeurs réordonnées et additionne les (demi) carrés des différences entre tous les successifs paires. La division par essentiellement la moyenne de ces différences quadratiques successives . Il calcule ce que l'on appelle la semi-variance lag-1 . La sommation externe le fait pour toutes les commandes possibles . n - 1 nxσ(1),xσ(2),…,xσ(n) n−1 n
Ces deux vues algébriques équivalentes de la formule de variance standard donnent un nouvel aperçu de ce que signifie la variance. La semi-variance est une mesure inverse de la covariance série d'une séquence: la covariance est élevée (et les nombres sont positivement corrélés) lorsque la semi-variance est faible, et inversement. La variance d'un ensemble de données non ordonné est donc une sorte de moyenne de toutes les semi- variances possibles pouvant être obtenues dans le cadre de réorganisations arbitraires.
la source
Juste un complément aux autres réponses, la variance peut être calculée comme la différence au carré entre les termes:
Je pense que c'est le plus proche de la proposition OP. N'oubliez pas que la variance est une mesure de la dispersion de chaque observation à la fois, pas seulement entre les nombres "voisins" de l'ensemble.
MISE À JOUR
En utilisant votre exemple: . Nous savons que la variance est . V a r ( X ) = 2X=1,2,3,4,5 Var(X)=2
Avec la méthode que vous proposez , nous savons donc à l'avance de prendre les différences entre voisins car la variance ne s'additionne pas. Ce que je voulais dire, c'était de prendre toutes les différences possibles au carré, puis de résumer:Var(X)=1
la source
D'autres ont répondu sur l'utilité de la variance définie comme d'habitude. Quoi qu'il en soit, nous avons juste deux définitions légitimes de choses différentes: la définition habituelle de la variance et votre définition.
Ensuite, la principale question est de savoir pourquoi la première est appelée variance et non la vôtre. Ce n'est qu'une question de convention. Jusqu'en 1918, vous auriez pu inventer tout ce que vous vouliez et l'appeler "variance", mais en 1918 Fisher a utilisé ce nom pour ce qui est encore appelé variance, et si vous voulez définir autre chose, vous devrez trouver un autre nom pour le nommer.
L'autre question est de savoir si la chose que vous avez définie pourrait être utile pour quelque chose. D'autres ont indiqué que ses problèmes devaient être utilisés comme mesure de la dispersion, mais c'est à vous de trouver des applications. Peut-être trouvez-vous des applications si utiles qu'en un siècle votre truc est plus célèbre que la variance.
la source
La réponse @GreenParker est plus complète, mais un exemple intuitif pourrait être utile pour illustrer l'inconvénient de votre approche.
Dans votre question, vous semblez supposer que l'ordre dans lequel les réalisations d'une variable aléatoire apparaissent importe. Cependant, il est facile de penser à des exemples dans lesquels ce n'est pas le cas.
Prenons l'exemple de la taille des individus dans une population. L'ordre dans lequel les individus sont mesurés n'est pas pertinent à la fois pour la taille moyenne de la population et pour la variance (la répartition de ces valeurs autour de la moyenne).
Votre méthode semble étrange appliquée à un tel cas.
la source
Bien qu'il existe de nombreuses bonnes réponses à cette question, je pense que certains points importants ont été laissés de côté et, comme cette question a soulevé un point très intéressant, je voudrais apporter un autre point de vue.
Le rôle de l'estimation en statistique est de fournir, à partir d'un ensemble de réalisations d'un rv, une bonne approximation des paramètres d'intérêt.
Ce que je voulais montrer, c'est qu'il y a une grande différence entre les concepts de paramètres (la variance pour cette question particulière) et la statistique que nous utilisons pour l'estimer.
et la statistique habituelle est:
Lorsque l'on compare deux estimateurs d'un paramètre, le critère habituel pour le meilleur est celui qui a l' erreur quadratique moyenne minimale (MSE), et une propriété importante de MSE est qu'il peut être décomposé en deux composantes:
MSE = biais d'estimateur + variance d'estimateur.
Il s'agit d'abord d'un estimateur non biaisé de la variance, mais votre statistique n'est pas non biaisée.
la source
La différence temporelle est en effet utilisée sous une forme, l'Allan Variance. http://www.allanstime.com/AllanVariance/
la source
Beaucoup de bonnes réponses ici, mais j'en ajouterai quelques-unes.
Néanmoins, comme l'a dit @Pere, votre métrique pourrait s'avérer très utile à l'avenir.
la source