Pourquoi les mesures de dispersion sont-elles moins intuitives que la centralité?

11

Il semble qu'il y ait quelque chose dans notre compréhension humaine qui crée des difficultés à saisir intuitivement l'idée de variance. Dans un sens étroit, la réponse est immédiate: la quadrature nous rejette de notre compréhension réflexive. Mais, est-ce seulement la variance qui pose problème, ou est-ce l'idée de propagation dans les données? Nous cherchons refuge dans la gamme, ou simplement énoncer le minimum et le maximum, mais évitons-nous simplement la vraie difficulté? Dans la moyenne (mode ou médiane) on retrouve le centre, le résumé ... une simplification; la variance propage les choses et les rend inconfortables. L'homme primitif utiliserait certainement le moyen de chasser les animaux en triangulant pour prier, mais je suppose que c'est beaucoup plus tard que nous avons ressenti le besoin de quantifier la propagation des choses. En fait, le terme variance a été introduit par Ronald Fisher pour la première fois en 1918 dans le document "La corrélation entre les parents sur la suppression de l'hérédité mendélienne".

La plupart des gens qui suivent l'actualité auraient entendu l'histoire du discours malheureux de Larry Summers sur les aptitudes en mathématiques par sexe , probablement liées à son départ de Harvard. En un mot, il a suggéré une plus grande variance dans la répartition des compétences en mathématiques chez les hommes par rapport aux femmes, même si les deux sexes jouissaient de la même moyenne. Indépendamment de la pertinence ou des implications politiques, cela semble être confirmé dans la littérature scientifique .

Plus important encore, la compréhension de questions telles que le changement climatique - veuillez m'excuser d'avoir soulevé des sujets qui pourraient conduire à des discussions complètement inutiles - par la population en général pourrait être facilitée par une meilleure familiarité avec l'idée de variance.

Le problème est aggravé lorsque nous essayons de saisir la covariance, comme le montre ce post , avec une excellente réponse colorée de @whuber ici .

Il peut être tentant de rejeter cette question comme trop générale, mais il est clair que nous en discutons indirectement, comme dans ce post , où les mathématiques sont triviales, mais le concept continue d'être insaisissable, malgré une acceptation plus confortable de la plage comme opposé à la variance idée plus nuancée .

Dans une lettre de Fisher à EBFord , faisant référence à la controverse suscitée par ses soupçons sur les expériences mendéliennes, nous lisons: "Maintenant, lorsque les données ont été truquées, je sais très bien comment, en général, les gens sous-estiment la fréquence des écarts de chance importants , de sorte que la tendance est toujours de les faire trop bien correspondre aux attentes ... les écarts [dans les données de Mendel] sont scandaleusement faibles. " Le grand RA Fisher est si désireux de soupçonner de petites variations dans de petits échantillons qu'il écrit : "il reste possible, entre autres, que Mendel ait été trompé par un assistant qui ne savait que trop bien ce qui était attendu".

Et il est tout à fait possible que ce parti pris en faveur d'une propagation sous-estimée ou incomprise persiste aujourd'hui. Si oui, y a-t-il une explication pour laquelle nous sommes plus à l'aise avec les concepts de centralité qu'avec la dispersion? Y a-t-il quelque chose que nous puissions faire pour internaliser l'idée?

Certains concepts que nous «voyons» en un clin d'œil, puis nous ne le faisons pas, mais nous les acceptons et continuons. Par exemple, ou E = m c 2 , mais nous n'avons même pas vraiment besoin de connaître ces identités pour prendre des décisions dans notre vie quotidienne. Il n'en va pas de même pour la variance. Alors, ne devrait-il pas être plus intuitif?ejeπ+1=0E=mc2

Nassim Taleb a fait fortune en appliquant sa perception (enfin, vraiment Benoît Mandelbrot ) d'une compréhension erronée de la variance à l'exploitation des temps de crise, et a essayé de rendre le concept compréhensible aux masses avec des phrases comme, "la variance de la variance est, épistémologiquement , une mesure du manque de connaissance sur le manque de connaissance de la moyenne "- oui, il y a plus de contexte à cette bouchée ... Et à son crédit, il l'a aussi simplifié avec l' idée de Thanksgiving Turquie . On peut soutenir que la clé de l'investissement est de comprendre la variance (et la covariance).

Alors, pourquoi est-il si glissant et comment y remédier? Sans formules ... juste l'intuition d'années de gestion de l'incertitude ... Je ne connais pas la réponse, mais ce n'est pas mathématique (nécessairement, c'est-à-dire): par exemple, je me demande si l'idée de kurtosis interfère avec la variance. Dans le graphique suivant, nous avons deux histogrammes se chevauchant avec pratiquement la même variance; pourtant, ma réaction de réflexe est que celle qui a la queue la plus longue et le pic le plus haut (kurtosis supérieur) est plus "étalée":

Antoni Parellada
la source
2
La variance est difficile à comprendre surtout parce qu'elle est au carré, je pense. Les gens ne semblent pas avoir trop de difficulté avec l'écart moyen absolu. (J'utilise habituellement cette idée pour travailler jusqu'à l'écart-type, par exemple.)
gung - Réintégrer Monica
Il est difficile de désapprendre ce que l'on a appris, mais je ne suis pas sûr que la prémisse du titre soit correcte. Par exemple, les différences, y compris la fourchette, semblent à certains égards plus intuitives que les résumés tels que la moyenne ou la médiane. Les comptes diffèrent; mais bien que la moyenne se produise dans les mathématiques classiques, son utilisation pour résumer les données n'est apparue que lentement et douloureusement vers le 17e siècle.
Nick Cox
1
Dans l'espoir que les réponses à cette question ne soient pas détournées vers des détails qui ne sont pas nécessairement liés au problème - cette question concerne-t-elle davantage la variance en soi (pour laquelle la discussion de la quadrature pourrait être pertinente), ou le concept plus général de variabilité (dispersion, propagation, variation - pour laquelle cela ne serait pas)? [Je me demande également dans quelle mesure nous pouvons vraiment généraliser sur le sens de l'intuitivité relative des autres]
Glen_b -Reinstate Monica
Le dernier. Je devrais être clair. Pas sûr de la question dans son ensemble. N'hésitez pas à le fermer.
Antoni Parellada
@Antoni Pourquoi voudrais-je le fermer? L'une ou l'autre forme serait une bonne question; c'est juste que les réponses seraient différentes.
Glen_b -Reinstate Monica

Réponses:

9

Je partage votre sentiment que la variance est légèrement moins intuitive. Plus important encore, la variance en tant que mesure est optimisée pour certaines distributions et a moins de valeur pour les distributions asymétriques. La différence absolue moyenne par rapport à la moyenne n'est pas beaucoup plus intuitive à mon avis, car elle nécessite de choisir la moyenne comme mesure de la tendance centrale. Je préfère la différence moyenne de Gini --- la différence absolue moyenne sur toutes les paires d'observations. Il est intuitif, robuste et efficace. Sur l'efficacité, si les données proviennent d'une distribution gaussienne, la différence moyenne de Gini avec un facteur de mise à l'échelle approprié qui lui est appliqué est de 0,98 aussi efficace que l'écart-type de l'échantillon. Il existe une formule de calcul efficace pour la différence moyenne de Gini une fois les données triées. Le code R est ci-dessous.

w <- 4 * ((1:n) - (n - 1)/2)/n/(n - 1)
sum(w * sort(x - mean(x)))
Frank Harrell
la source
A-t-il tendance à surestimer la dispersion? Je jouais avec votre code ici
Antoni Parellada
1
C'est une mesure valable de dispersion. Si vous aimez sa définition, elle ne met pas trop l'accent sur quoi que ce soit.
Frank Harrell
Absolument. Je prends votre message comme une opportunité d'apprendre, et mon commentaire était ma façon de montrer de l'intérêt. Je dois juste en savoir plus à ce sujet. Je vous remercie!
Antoni Parellada
1
Uniquement si le vecteur a xdéjà été trié.
Frank Harrell
4

Voici certaines de mes pensées. Il n'aborde pas tous les aspects de votre question, en fait, il y a beaucoup de choses qu'il n'aborde pas (la question semble un peu large).

Pourquoi est-il difficile pour les profanes de comprendre le calcul mathématique de la variance?

La variance est essentiellement la répartition des choses. C'est assez facile à comprendre, mais la façon dont il est calculé peut sembler contre-intuitive pour un profane.

Le problème est que les différences par rapport à la moyenne sont au carré (puis moyennées), puis enracinées au carré pour obtenir l'écart-type. Nous comprenons pourquoi cette méthode est nécessaire - la quadrature consiste à rendre les valeurs positives, puis elles sont enracinées pour obtenir les unités d'origine. Cependant, un profane est susceptible d'être confondu avec la raison pour laquelle les nombres sont au carré et à racine carrée. On dirait que cela s'annule (ce n'est pas le cas) et semble donc inutile / étrange.

Ce qui est plus intuitif pour eux, c'est de trouver l'écart en faisant simplement la moyenne des différences absolues entre la moyenne et chaque point (appelée écart absolu moyen). Cette méthode ne nécessite pas de quadrature et de racine carrée, elle est donc beaucoup plus intuitive.

Notez que le simple fait que l'écart absolu moyen soit plus simple ne signifie pas qu'il est «meilleur». Le débat sur l'opportunité d'utiliser des valeurs carrées ou absolues dure depuis un siècle, impliquant de nombreux statisticiens de premier plan, donc une personne au hasard comme moi ne peut pas simplement se présenter ici et dire qu'une est meilleure. (La moyenne des carrés pour trouver la variance est bien sûr plus populaire)

En un mot: la quadrature pour trouver la variance semble moins intuitive pour les profanes qui trouveraient la moyenne des différences absolues plus simple. Cependant, je ne pense pas que les gens ont un problème avec la compréhension de l'idée de la propagation elle - même

Yang Li
la source
3
+1 pour avoir souligné l'effet de la quadrature. Mais je pense que le problème va au-delà de la construction mathématique réelle pour mesurer la propagation. C'est à un niveau du tronc cérébral plus radical - loin du centre ne semble tout simplement pas naturel; le point central est.
Antoni Parellada
Ah, je vois. Je ne savais pas s'il s'agissait de «propagation» ou de la manière mathématique spécifique de trouver la propagation. J'ai peur de ne pas pouvoir vous aider avec le premier - personnellement, je ne pense pas que les gens aient autant de mal à comprendre le concept de propagation ...
Yang Li
Je fais. J'ai une tonne de problèmes pour comprendre le degré d'incertitude, qui est dans une large mesure immédiatement une conséquence de la variance. Je ne sais juste pas pourquoi.
Antoni Parellada
3

Voilà mon opinion sur votre question.

Je commencerai par remettre en question une réponse susmentionnée pour ensuite essayer de faire valoir mon point de vue.

Question à l'hypothèse précédente:

Est-ce vraiment le carré qui rend les mesures de dispersion telles que la déviation moyenne carrée difficiles à comprendre? Je suis d'accord que le carré rend les choses plus difficiles en apportant une complexité mathématique mais si la réponse n'était que les carrés, la déviation absolue moyenne serait aussi simple à comprendre et à mesurer la centralité.

Opinion:

Je pense que ce qui rend difficile pour nous de comprendre les mesures de dispersion, c'est que la dispersion elle-même est une information bidimensionnelle. Essayer de résumer une information bidimensionnelle dans une métrique implique une perte partielle d'information qui, par conséquent, crée de la confusion.

Exemple:

Un exemple qui peut aider à expliquer le concept ci-dessus est le suivant. Obtenons 2 ensembles de données différents:

  1. Suit une distribution gaussienne
  2. Suit une distribution inconnue et asymétrique

Supposons également que la dispersion en termes d'écart-type soit de 1,0.

Mon esprit a tendance à interpréter la dispersion de l'ensemble 1 beaucoup plus clairement que celle de l'ensemble 2. Dans ce cas spécifique, la raison de ma meilleure compréhension est expliquée en sachant que la forme bidimensionnelle de la distribution à l'avance me permet de comprendre la mesure de distribution dans termes d'une probabilité autour de la moyenne gaussienne centralisée. En d'autres termes, la distribution gaussienne m'a donné l'indication bidimensionnelle dont j'avais besoin pour mieux traduire à partir de la mesure de la dispersion.

Conclusion:

En somme, il n'existe aucun moyen tangible de capturer dans une seule mesure de déviation tout ce qu'il y a dans une information bidimensionnelle. Ce que je fais habituellement pour comprendre la dispersion sans regarder directement la distribution elle-même est de combiner de nombreuses mesures qui expliquent une certaine distribution. Ils établiront le contexte pour que mon esprit puisse mieux comprendre la mesure de dispersion elle-même. Si je pouvais utiliser des graphiques, les diagrammes en boîte sont certainement très utiles pour les visualiser.

Grande discussion qui m'a fait beaucoup réfléchir sur la question. Je serais ravi d'entendre votre avis.

fernandosjp
la source
1
Une réponse bien pensée +1. Je n'ai vraiment rien à ajouter, sauf que je pense qu'il y a probablement d'autres raisons qui méritent d'être examinées également.
Yang Li
1

Je pense qu'une raison simple pour laquelle les gens ont plus de mal avec la variabilité (que ce soit la variance, l'écart-type, MAD ou autre) est que vous ne pouvez vraiment comprendre la variabilité qu'après avoir compris l'idée du centre. En effet, les mesures de variabilité sont toutes mesurées en fonction de la distance du centre.

Des concepts comme la moyenne et la médiane sont des concepts parallèles, vous pouvez apprendre l'un ou l'autre en premier et certaines personnes peuvent avoir une meilleure compréhension de l'une et d'autres personnes comprendront mieux l'autre. Mais la propagation est mesurée à partir du centre (pour une certaine définition du centre), donc ne peut pas vraiment être comprise en premier.

Greg Snow
la source
+1 Cela a beaucoup de sens - c'est un concept secondaire ...
Antoni Parellada
@Greg Snow: sauf que ce n'est pas correct; voir la différence moyenne de Gini avec la réponse de Frank Harrells, qui ne mesure pas la déviation par rapport à un centre.
kjetil b halvorsen