Exemples réels de distributions avec asymétrie négative

20

Inspiré par des " exemples concrets de distributions communes ", je me demande quels exemples pédagogiques les gens utilisent pour démontrer une asymétrie négative? Il existe de nombreux exemples "canoniques" de distributions symétriques ou normales utilisées dans l'enseignement - même si celles comme la taille et le poids ne survivent pas à un examen biologique plus approfondi! La pression artérielle pourrait être une normalité plus proche. J'aime les erreurs de mesure astronomiques - d'un intérêt historique, elles ne sont intuitivement pas plus susceptibles de se situer dans une direction que dans l'autre, avec de petites erreurs plus susceptibles que grandes.

Les exemples pédagogiques courants d'asymétrie positive comprennent les revenus des personnes; kilométrage sur les voitures d'occasion à vendre; temps de réaction dans une expérience de psychologie; prix des maisons; nombre de réclamations pour accident par un client d'assurance; nombre d'enfants dans une famille. Leur caractère raisonnablement raisonnable provient souvent du fait d'être limité en dessous (généralement de zéro), des valeurs faibles étant plausibles, même courantes, mais des valeurs très grandes (parfois des ordres de grandeur plus élevés) sont bien connues.

Pour un biais négatif, je trouve plus difficile de donner des exemples sans ambiguïté et vivants qu'un jeune public (lycéens) peut saisir intuitivement, peut-être parce que moins de distributions réelles ont une limite supérieure claire. Un exemple de mauvais goût qu'on m'a enseigné à l'école était le "nombre de doigts". La plupart des gens en ont dix, mais certains en perdent un ou plusieurs dans des accidents. Le résultat était "99% des gens ont un nombre de doigts supérieur à la moyenne"! La polydactylie complique le problème, car dix n'est pas une limite supérieure stricte; étant donné que les doigts manquants et les doigts supplémentaires sont des événements rares, il peut ne pas être clair pour les élèves quel effet prédomine.

J'utilise généralement une distribution binomiale avec un élevé . Mais les élèves trouvent souvent que "le nombre de composants satisfaisants dans un lot est biaisé négativement" moins intuitif que le fait complémentaire que "le nombre de composants défectueux dans un lot est faussé positivement". (Le manuel a un thème industriel; je préfère les œufs fêlés et intacts dans une boîte de douze.) Les élèves estiment peut-être que le «succès» devrait être rare.p

Une autre option consiste à souligner que si est biaisé positivement, alors - X est biaisé négativement, mais le placer dans un contexte pratique ("les prix des logements négatifs sont biaisés négativement") semble voué à l'échec pédagogique. Bien qu'il y ait des avantages à enseigner les effets des transformations de données, il semble sage de donner d'abord un exemple concret. Je préférerais une solution qui ne semble pas artificielle, où le biais négatif est tout à fait sans ambiguïté, et pour lequel l'expérience de vie des étudiants devrait leur donner une conscience de la forme de la distribution.XX

Silverfish
la source
4
Il n'est pas évident que la négation d'une variable sera un «échec pédagogique», car il est possible d'ajouter une constante sans changer la forme de la distribution. De nombreuses distributions asymétriques impliquent des proportions par exemple, et les proportions complémentaires 1 - X sont généralement tout aussi naturelles et faciles à interpréter que les proportions originales. Même avec les prix des maisons X, les valeurs C - XC est le prix maximum d'une maison dans la région pourraient être intéressantes et ne sont pas difficiles à comprendre. Pensez également à utiliser des journaux et des transformations de puissance négatives pour créer une asymétrie négative. X1XXCXC
blanc
2
Je conviens que dans le cas des prix des logements serait un peu artificiel. Mais 1 / X ne le ferait pas: ce serait «la quantité de maison que vous pouvez acheter par dollar». Je soupçonne que dans toute zone raisonnablement homogène, cela aurait un fort biais négatif. De tels exemples pourraient enseigner la leçon plus profonde que l'asymétrie est fonction de la façon dont nous exprimons les données. C-X1/X
whuber
3
@whuber Cela ne serait pas du tout artificiel. Les prix potentiels maximum et minimum sur un marché sont naturellement ceux qui reflètent les différentes évaluations des acteurs du marché. Parmi les acheteurs, il y en a probablement un qui paierait le prix maximum pour une maison donnée. Et parmi les vendeurs, il y en a un qui accepterait vraisemblablement le prix minimum. Mais ces informations ne sont pas publiques et les prix de transaction réels observés sont donc affectés par l'existence d'informations incomplètes. (SUITE)
Alecos Papadopoulos
1
SUITE ... L'article suivant de Kumbhakar et Parmeter (2010) modèle exactement cela (permettant également le cas de la symétrie), et avec une application sur le marché domestique
Alecos Papadopoulos
3
L'âge au décès est biaisé négativement dans les pays développés.
Nick Cox

Réponses:

3

Au Royaume-Uni, prix d'un livre. Il existe un «prix de vente recommandé» qui sera généralement le prix modal, et pratiquement nulle part vous n'auriez à payer plus. Mais certains magasins feront des rabais, et quelques-uns feront de gros rabais.

Aussi, l'âge à la retraite. La plupart des gens prennent leur retraite à 65-68 ans, date à laquelle la pension de l'État entre en vigueur, très peu de gens travaillent plus longtemps, mais certaines personnes prennent leur retraite dans la cinquantaine et beaucoup au début de la soixantaine.

Ensuite aussi, le nombre de GCSE que les gens obtiennent. La plupart des enfants sont inscrits pour 8-10 et obtiennent donc 8-10. Un petit nombre en fait plus. Certains enfants ne réussissent pas tous leurs examens, il y a donc une augmentation constante de 0 à 7.

user148573
la source
1
Cela nécessite peut-être une explication que GCSE est un examen dans les écoles secondaires britanniques et certains systèmes connexes, le plus souvent pris à environ 16 ans. Le nombre est de sujets pris, par exemple les mathématiques sont généralement une matière.
Nick Cox
18

Nick Cox a commenté avec précision que "l'âge à la mort est biaisé négativement dans les pays développés", ce que je pensais être un excellent exemple.

J'ai trouvé que les chiffres les plus pratiques sur lesquels je pouvais mettre la main provenaient du Australian Bureau of Statistics ( en particulier, j'ai utilisé cette feuille Excel ), car leurs bacs d'âge remontaient à 100 ans et le plus vieil homme australien avait 111 ans , donc j'ai senti à l'aise de couper le bac final à 110 ans. D'autres agences statistiques nationales semblaient souvent s'arrêter à 95, ce qui rendait le bac final inconfortablement large. L'histogramme résultant montre une asymétrie négative très claire, ainsi que d'autres caractéristiques intéressantes telles qu'un petit pic de mortalité parmi les jeunes enfants, ce qui serait bien adapté à la discussion et à l'interprétation en classe.

Âge au décès des hommes australiens en 2012

Le code R avec des données brutes suit, le HistogramTools paquet s'est avéré très utile pour le traçage basé sur des données agrégées! Merci à cette question StackOverflow pour l'avoir signalé .

library(HistogramTools)

deathCounts <- c(565, 116, 69, 78, 319, 501, 633, 655, 848, 1226, 1633, 2459, 3375, 4669, 6152, 7436, 9526, 12619, 12455, 7113, 2104, 241)
ageBreaks <- c(0, 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110)

myhist <- PreBinnedHistogram(
    breaks = ageBreaks,
    counts = deathCounts,
    xname = "Age at Death of Australian Males, 2012")
plot(myhist)
Silverfish
la source
2
Quelque peu lié à ce poste, j'ai entendu dire que l'âge de la retraite a une asymétrie négative: la plupart des gens prennent leur retraite vers l'âge nominal (disons, 65 ou 67 ans dans de nombreux pays) mais certains (par exemple, les travailleurs des mines de charbon) partent beaucoup plus tôt.
Christoph Hanck
L'âge au décès suit-il empiriquement une distribution connue?
StubbornAtom
11

Voici les résultats pour les quarante athlètes qui ont réussi un saut légal dans la ronde de qualification du saut en longueur olympique masculin 2012, présenté dans un diagramme de densité de noyau avec un tracé de tapis en dessous.

Résultats de la ronde de qualification masculine aux Jeux Olympiques de Londres 2012

Il semble beaucoup plus facile d'être à un mètre derrière le groupe principal de concurrents que d'avoir un mètre d'avance, ce qui expliquerait l'asymétrie négative.

Je soupçonne qu'une partie du regroupement à l'extrémité supérieure est due aux athlètes qui visent la qualification (qui nécessitait un classement parmi les douze premiers ou un résultat de 8,10 mètres ou plus) plutôt que d'atteindre la distance la plus longue possible. Le fait que les deux premiers résultats aient été de 8,11 mètres, juste au-dessus de la marque de qualification automatique, est fortement suggestif, tout comme la façon dont les sauts médaillés de la finale étaient à la fois plus longs et plus répartis à 8,31, 8,16 et 8,12 mètres. Les résultats de la finale présentaient un léger biais négatif non significatif.

A titre de comparaison, les résultats du Heptathlon olympique à Séoul en 1988 sont disponibles dans l' heptathlonensemble de données dans le package R HSAUR. Dans cette compétition, il n'y a pas eu de tour de qualification mais chaque épreuve a apporté des points au classement final; les compétitrices ont montré une asymétrie négative prononcée dans les résultats du saut en hauteur et une asymétrie quelque peu négative dans le saut en longueur. Il est intéressant de noter que cela n'a pas été reproduit dans les épreuves de lancer (tir et javelot) même s'il s'agit également d'événements dans lesquels un nombre plus élevé correspond à un meilleur résultat. Les notes finales ont également été quelque peu biaisées.

Données et code

require(moments)
require(ggplot2)

sourceAddress <- "http://www.olympic.org/olympic-results/london-2012/athletics/long-jump-m"

longjump.df <- read.csv(header=TRUE, sep=",", text="
rank,name,country,distance
1,Mauro Vinicius DA SILVA,BRA,8.11 
2,Marquise GOODWIN,USA,8.11
3,Aleksandr MENKOV,RUS,8.09
4,Greg RUTHERFORD,GBR,8.08
5,Christopher TOMLINSON,GBR,8.06
6,Michel TORNEUS,SWE,8.03
7,Godfrey Khotso MOKOENA,RSA,8.02
8,Will CLAYE,USA,7.99
9,Mitchell WATT,AUS,7.99,
10,Tyrone SMITH,BER,7.97,
11,Henry FRAYNE,AUS,7.95,
12,Sebastian BAYER,GER,7.92,
13,Christian REIF,GER,7.92,
14,Eusebio CACERES,ESP,7.92,
15,Aleksandr PETROV,RUS,7.89,
16,Sergey MORGUNOV,RUS,7.87,
17,Mohammad ARZANDEH,IRI,7.84,
18,Ignisious GAISAH,GHA,7.79,
19,Damar FORBES,JAM,7.79,
20,Jinzhe LI,CHN,7.77,
21,Raymond HIGGS,BAH,7.76,
22,Alyn CAMARA,GER,7.72,
23,Salim SDIRI,FRA,7.71,
24,Ndiss Kaba BADJI,SEN,7.66,
25,Arsen SARGSYAN,ARM,7.62,
26,Povilas MYKOLAITIS,LTU,7.61,
27,Stanley GBAGBEKE,NGR,7.59,
28,Marcos CHUVA,POR,7.55,
29,Louis TSATOUMAS,GRE,7.53,
30,Stepan WAGNER,CZE,7.50,
31,Viktor KUZNYETSOV,UKR,7.50,
32,Luis RIVERA,MEX,7.42,
33,Ching-Hsuan LIN,TPE,7.38,
33,Supanara SUKHASVASTI N A,THA,7.38,
35,Boleslav SKHIRTLADZE,GEO,7.26,
36,Xiaoyi ZHANG,CHN,7.25,
37,Mohamed Fathalla DIFALLAH,EGY,7.08,
38,Roman NOVOTNY,CZE,6.96,
39,George KITCHENS,USA,6.84,
40,Vardan PAHLEVANYAN,ARM,6.55,
NA,Luis MELIZ,ESP,NA,
NA,Irving SALADINO,PAN,NA")

roundedSkew <- signif(skewness(longjump.df$distance, na.rm=TRUE), 3)

ggplot(longjump.df, aes(x=distance)) + 
    xlab("Distance in metres") +
    ggtitle("London 2012 Men's Long Jump qualifying round results") +
    geom_rug(size=0.8) + 
    geom_density(fill="steelblue") +
    annotate("text", x=7.375, y=0.0625, colour="white", label=paste("Source:", sourceAddress), size=3) +
    annotate("rect", xmin = 6.25, xmax = 7.25, ymin = 0.5, ymax = 1.125, fill="white") +
    annotate("text", x=6.75, y=1, colour="black", label="Best jump in up to 3 attempts") +
    annotate("text", x=6.75, y=.875, colour="black", label="42 athletes competed") +
    annotate("text", x=6.75, y=.75, colour="black", label="2 athletes had no legal jump") +
    annotate("text", x=6.75, y=.625, colour="black", label=paste("Skewness = ", roundedSkew))


# Results of the top twelve who qualified for the Final were closer to symmetric
skewness(longjump.df$distance[1:12])
# -0.1248782

# Results in the Final (some had 3 jumps, others 6) were only slightly negatively skewed
skewness(c(8.31, 8.16, 8.12, 8.11, 8.10, 8.07, 8.01, 7.93, 7.85, 7.80, 7.78, 7.70))
# -0.08578357

# Compare to Seoul 1988 Heptathlon
require(HSAUR)
skewness(heptathlon)
Silverfish
la source
11

Les scores aux tests faciles, ou alternativement, les scores aux tests pour lesquels les étudiants sont particulièrement motivés, ont tendance à être biaisés.

En conséquence, les scores SAT / ACT des étudiants entrant dans les collèges recherchés (et plus encore, leurs GPA) ont tendance à être asymétriques. Il y a beaucoup d'exemples sur collegeapps.about.com, par exemple, une intrigue de l'Université de Chicago SAT / ACT et GPA est ici .

De même, les GPA des diplômés sont souvent asymétriques, par exemple les histogrammes ci-dessous des GPA des diplômés blancs et noirs dans une université à but lucratif tirés de la figure 5 de Gramling, Tim. « Comment cinq caractéristiques des étudiants prédisent avec précision les probabilités d'obtention d'un diplôme universitaire à but lucratifSAGE Open 3.3 (2013): 2158244013497026.

Histogramme de GPA montrant un biais négatif

(Il n'est pas difficile de trouver d'autres exemples similaires.)

Glen_b
la source
2
Pour une classe de statistiques d'introduction, je pense que cet exemple fonctionne bien sur le plan pédagogique - c'est quelque chose que les étudiants sont susceptibles d'avoir une expérience de la vie réelle, peuvent raisonner intuitivement et peuvent confirmer par rapport à des ensembles de données largement disponibles.
Silverfish
9

Dans l'analyse des frontières stochastiques, et en particulier dans son objectif historique initial, la production, la fonction de production d'une entreprise / unité de production en général, est spécifiée stochastiquement comme

q=F(X)+u-w

qF(X)Xuwpour des raisons que l'économétricien peut ne pas savoir, mais il peut mesurer à travers cette configuration. Cette variable aléatoire est généralement supposée suivre une distribution semi-normale ou exponentielle. En supposant la moitié normale (pour une raison), nous avons

uN(0,σu2),wHN(2πσ2,(1-2π)σ22)

σ2

ε=u-w

Fε(ε)=2s2ϕ(ε/s2)Φ((-σ2σu)(ε/s2)),s22=σu2+σ22

0s2(-σ2σu)ϕΦσu=1,σ2=3entrez la description de l'image ici

Donc, l'asymétrie négative est, je dirais, la modélisation la plus naturelle des efforts de la race humaine elle-même: s'écartant toujours de son idéal imaginé - dans la plupart des cas en retard (la partie négative de la densité), alors que dans relativement moins de cas, transcendant ses limites perçues (la partie positive de la densité). Les étudiants eux-mêmes peuvent être modélisés comme une telle fonction de production. Il est simple de cartographier la perturbation symétrique et l'erreur unilatérale à des aspects de la vie réelle. Je ne peux pas imaginer comment plus intuitif peut-on y arriver.

Alecos Papadopoulos
la source
1
Cette réponse semble faire écho à la suggestion de @ Glen_b de grad GPA. Un comportement humain très motivé visant un idéal insaisissable correspond certainement à ce scénario! L'efficacité en général est un excellent exemple.
Nick Stauner
2
@Nick Stauner Le point important ici est que nous considérons la «cible réelle moins» signée, et non la «distance» en valeurs absolues. Nous gardons le signe afin de savoir si nous sommes au dessus ou en dessous de la cible. L'intuition ici est, exactement comme vous l'écrivez, qu'un comportement "très motivé" rapprochera "réel" de "cible", créant une asymétrie.
Alecos Papadopoulos
1
@NickStauner En effet, les résultats de qualification des sauts en longueur de Silverfish se rapportent également à un «comportement très motivé» (compte tenu des limites de ce que les humains peuvent actuellement réaliser comme une sorte d'idéal insaisissable informel)
Glen_b -Reinstate Monica
6

L'asymétrie négative est courante en hydrologie des crues. Ci-dessous, un exemple de courbe de fréquence des crues (South Creek at Mulgoa Rd, lat -33.8783, lon 150.7683) que j'ai emprunté à 'Australian Rainfall and Runoff' (ARR) le guide d'estimation des crues développé par Engineers, Australie.

Il y a un commentaire dans ARR:

Avec un biais négatif, ce qui est courant avec les valeurs logarithmiques des inondations en Australie, la distribution du log Pearson III a une limite supérieure. Cela donne une limite supérieure aux inondations qui peuvent être tirées de la distribution. Dans certains cas, cela peut entraîner des problèmes d'estimation des inondations de faible AEP, mais ne pose souvent aucun problème dans la pratique. [Extrait de Australian Rainfall and Runoff - Volume 1, Book IV Section 2.]

Souvent, les inondations, à un endroit particulier, sont considérées comme ayant une limite supérieure appelée «inondation maximale probable» (PMF). Il existe des moyens standard de calculer un PMF.

entrez la description de l'image ici

Tony Ladson
la source
7
+1 Cet exemple montre bien à quel point la question est arbitraire: lorsque vous mesurez les inondations en termes de débit de pointe, elles seront faussées positivement , mais mesurées en débit logarithmique, elles sont (apparemment) faussées négativement. De même, toute variable positive peut être ré-exprimée d'une manière simple qui biaise négativement sa distribution (simplement en prenant un paramètre Box-Cox convenablement négatif). Tout se résume à ce que l'on entend par «facile à saisir», je suppose - mais c'est une question sur les étudiants, pas sur les statistiques.
whuber
5

Les changements (rendements) des prix des actifs ont généralement une asymétrie négative - de nombreuses petites augmentations de prix avec quelques baisses de prix importantes. Le biais semble se maintenir pour presque tous les types d'actifs: cours des actions, prix des matières premières, etc. Le décalage négatif peut être observé dans les variations de prix mensuelles, mais il est beaucoup plus évident lorsque vous commencez à regarder les variations de prix quotidiennes ou horaires. Je pense que ce serait un bon exemple car vous pouvez montrer les effets de la fréquence sur l'inclinaison.

Plus de détails: http://www.fusioninvesting.com/2010/09/what-is-skew-and-why-is-it-important/

wcampbell
la source
J'aime beaucoup cet exemple! Y a-t-il une manière intuitive de l'expliquer - essentiellement, "les chocs à la baisse sont plus susceptibles (ou du moins, plus susceptibles d'être plus graves) que les chocs à la hausse"?
Silverfish
2
@Silverfish Je dirais que les résultats de marché négatifs extrêmes sont plus probables que les résultats de marché positifs extrêmes. Les marchés ont également une volatilité asymétrique. La volatilité du marché augmente généralement davantage après des rendements négatifs que des rendements positifs. Ceci est souvent modélisé avec des modèles Garch, tels que GJR-Garch (voir l'entrée Wikipédia d'Arch).
John
3
J'ai également vu une explication selon laquelle de mauvaises nouvelles sont diffusées par paquets. Je n'ai pas utilisé GJR-GARCH. J'ai essayé d'utiliser le mouvement brownien multifractal (Mandelbrot) pour modéliser l'asymétrie, mais je n'ai pas réussi à le faire fonctionner.
wcampbell
4
C'est au mieux simpliste. Par exemple, je viens de prendre un ensemble de données de rendements quotidiens sur 31 indices boursiers. Plus de la moitié d'entre eux ont une asymétrie positive (en utilisant l'asymétrie de Pearson) et plus de 70% sont positifs sur la mesure 3 * (moyenne - médiane) / stdev. Pour les produits de base, vous avez tendance à voir une asymétrie encore plus positive, car les chocs de l'offre et de la demande peuvent tous deux faire monter les prix rapidement (par exemple le pétrole, le gaz et le maïs ces dernières années).
Chris Taylor
5

L'âge gestationnel à l'accouchement (en particulier pour les naissances vivantes) reste asymétrique. Les nourrissons peuvent naître vivants très tôt (bien que les chances de survie soient faibles lorsqu'ils sont trop tôt), culminent entre 36 et 41 semaines et chutent rapidement. Aux États-Unis, il est typique d'être induite si 41/42 semaines, donc nous ne voyons généralement pas beaucoup d'accouchements après ce point.

Sara
la source
4

Dans les pêcheries, il existe souvent des exemples de biais négatifs dus aux exigences réglementaires. Par exemple, la distribution de la longueur du poisson relâché dans la pêche récréative; parce qu'il y a parfois une longueur minimale qu'un poisson doit être pour qu'il puisse être conservé, tous les poissons sous la limite sont rejetés. Mais parce que les gens pêchent là où il y a généralement du poisson de longueur légale, il y a généralement un biais négatif et un mode vers la limite légale supérieure. La longueur légale ne représente cependant pas une coupure ferme. En raison des limites de sacs (ou des limites du nombre de poissons qui peuvent être ramenés au quai), les gens rejetteront toujours les poissons de taille légale lorsqu'ils en auront capturé de plus gros.

par exemple, Sauls, B. 2012. Un résumé des données sur la distribution des tailles et les conditions de rejet des rejets de vivaneaux rouges provenant des relevés de la pêche récréative dans le golfe du Mexique. SEDAR31-DW11. SEDAR, North Charleston, Caroline du Sud. 29 pp.

jamesfreinhardt
la source
Le «biais vers les grandes tailles» serait normalement interprété comme un biais positif et non «négatif». Peut-être pourriez-vous clarifier cette réponse avec une illustration d'une distribution typique? Les mécanismes que vous décrivez - une limite supérieure réglementaire et une certaine tendance à la dépasser - pourraient conduire à une asymétrie négative ou positive, selon la distribution tronquée des poissons de petite taille (et selon la façon dont les poissons sont mesurés: l'asymétrie de leur distribution de masse ne serait pas la même que l'asymétrie de leur distribution de longueur).
whuber
3

De grandes suggestions ont été faites sur ce fil. Sur le thème de la mortalité liée à l'âge, les taux de défaillance des machines sont souvent fonction de l'âge des machines et entrent dans cette classe de distributions. En plus des facteurs financiers déjà mentionnés, les fonctions et les répartitions des pertes financières ressemblent généralement à ces formes, en particulier dans le cas de pertes de valeur extrême, par exemple, comme le montrent les estimations BRI III (Bank of International Settlement) du déficit attendu (ES), ou dans BIS II, la valeur à risque (VAR) en tant qu'intrants des exigences réglementaires pour l'allocation des réserves de capital.

Mike Hunter
la source
2

Aux États-Unis, l'âge de la retraite est faussé. La majorité des retraités sont plus âgés et quelques-uns partent relativement jeunes.

Ronet Bachman
la source
2

Dans la théorie des matrices aléatoires, la distribution de Tracy Widom est asymétrique à droite. Il s'agit de la distribution de la plus grande valeur propre d'une matrice aléatoire. Par symétrie, la plus petite valeur propre a une distribution Tracy Widom négative et est donc asymétrique à gauche.

Cela est à peu près dû au fait que les valeurs propres aléatoires s'apparentent à des particules chargées qui se repoussent, et donc la plus grande valeur propre a tendance à être éloignée du reste. Voici une photo exagérée (prise d' ici ):

entrez la description de l'image ici

Alex R.
la source
Les distributions asymétriques à droite présentent une asymétrie positive et ne répondent donc pas à la question.
whuber
@whuber: Conçu pour utiliser la plus petite valeur propre. Corrigée.
Alex R.