La distribution de Cauchy est-elle en quelque sorte une distribution "imprévisible"?
J'ai essayé de faire
cs <- function(n) {
return(rcauchy(n,0,1))
}
dans R pour une multitude de n valeurs et a remarqué qu'elles génèrent occasionnellement des valeurs assez imprévisibles.
Comparez cela à par exemple
as <- function(n) {
return(rnorm(n,0,1))
}
qui semble toujours donner un nuage de points "compact".
Par cette photo, cela devrait ressembler à la distribution normale? Pourtant, cela ne vaut peut-être que pour un sous-ensemble de valeurs. Ou peut-être que l'astuce est que les écarts-types de Cauchy (dans l'image ci-dessous) convergent beaucoup plus lentement (à gauche et à droite) et permettent donc des valeurs aberrantes plus graves, bien qu'à de faibles probabilités?
Ici comme le sont les RV normaux et les CS sont les RV Cauchy.
Mais à l'extrémité des valeurs aberrantes, est-il possible que les queues du pdf de Cauchy ne convergent jamais?
la source
Réponses:
Alors qu'un certain nombre de messages sur le site traitent de diverses propriétés du Cauchy, je n'ai pas réussi à en trouver un qui les a vraiment disposés ensemble. J'espère que cela pourrait être un bon endroit pour en collecter. Je peux développer cela.
Queues lourdes
Alors que le Cauchy est symétrique et à peu près en forme de cloche, un peu comme la distribution normale, il a des queues beaucoup plus lourdes (et moins d'une "épaule"). Par exemple, il y a une probabilité faible mais distincte qu'une variable aléatoire de Cauchy posera plus de 1000 intervalles interquartiles de la médiane - à peu près du même ordre qu'une variable aléatoire normale étant au moins 2,67 intervalles interquartiles de sa médiane.
Variance
La variance du Cauchy est infinie.
Edit: JG dit dans les commentaires qu'il n'est pas défini. Si nous prenons la variance comme la moyenne de la moitié de la distance au carré entre des paires de valeurs - qui est identique à la variance lorsque les deux existent, alors elle serait infinie. Cependant, selon la définition habituelle, JG est correct. [Néanmoins, contrairement aux moyennes d'échantillon, qui ne convergent pas vraiment vers quoi que ce soit à mesure que n devient grand, la distribution des variances d'échantillon continue de croître en taille à mesure que la taille de l'échantillon augmente; l'échelle augmente proportionnellement à n, ou de façon équivalente, la distribution de la variance logarithmique croît linéairement avec la taille de l'échantillon. Il semble productif de considérer réellement que la version de la variance qui produit l'infini nous dit quelque chose.]
Les écarts-types de l'échantillon existent, bien sûr, mais plus l'échantillon est grand, plus il a tendance à être grand (par exemple, l'écart-type médian de l'échantillon à n = 10 est voisin de 3,67 fois le paramètre d'échelle (la moitié de l'IQR), mais à n = 100 c'est environ 11,9).
Signifier
La distribution de Cauchy n'a même pas de moyenne finie; l'intégrale de la moyenne ne converge pas. Par conséquent, même les lois des grands nombres ne s'appliquent pas - à mesure que n croît, les moyennes d'échantillonnage ne convergent pas vers une certaine quantité fixe (en effet, il n'y a rien pour elles de converger).
En fait, la distribution de la moyenne de l'échantillon à partir d'une distribution de Cauchy est la même que la distribution d'une seule observation (!). La queue est si lourde que l'ajout de plus de valeurs dans la somme rend une valeur vraiment extrême probablement suffisante pour compenser simplement la division par un plus grand dénominateur lors de la prise de la moyenne.
Prévisibilité
Vous pouvez certainement produire des intervalles de prédiction parfaitement sensibles pour des observations à partir d'une distribution de Cauchy; il existe des estimateurs simples et assez efficaces qui fonctionnent bien pour estimer l'emplacement et l'échelle et des intervalles de prédiction approximatifs peuvent être construits - de sorte qu'en ce sens, au moins, les variables de Cauchy sont «prévisibles». Cependant, la queue s'étend très loin, de sorte que si vous voulez un intervalle à forte probabilité, il peut être assez large.
Si vous essayez de prédire le centre de la distribution (par exemple dans un modèle de type régression), cela peut dans un certain sens être relativement facile à prévoir; le Cauchy est assez pointu (il y a beaucoup de distribution "proche" du centre pour une mesure d'échelle typique), donc le centre peut être relativement bien estimé si vous avez un estimateur approprié.
Voici un exemple:
J'ai généré des données à partir d'une relation linéaire avec des erreurs de Cauchy standard (100 observations, interception = 3, pente = 1,5) et des lignes de régression estimées par trois méthodes qui sont raisonnablement robustes aux valeurs aberrantes y: ligne de groupe Tukey 3 (rouge), régression de Theil (vert foncé) et régression L1 (bleu). Aucun n'est particulièrement efficace au Cauchy - bien qu'ils constitueraient tous d'excellents points de départ pour une approche plus efficace.
Néanmoins, les trois coïncident presque par rapport au bruit des données et se trouvent très près du centre où les données s'exécutent; en ce sens, le Cauchy est clairement "prévisible".
La médiane des résidus absolus n'est que légèrement supérieure à 1 pour aucune des lignes (la plupart des données se situent assez près de la ligne estimée); en ce sens également, le Cauchy est "prévisible".
Pour l'intrigue de gauche, il y a une grande valeur aberrante. Afin de mieux voir les données, j'ai réduit l'échelle sur l'axe des y vers le bas à droite.
la source
La distribution de Cauchy apparaît un peu dans la nature, en particulier lorsque vous avez une certaine forme de croissance. Il apparaît également là où les choses tournent, comme les rochers qui dévalent les collines. Vous le trouverez comme la distribution de base d'un mélange laid de distributions dans les rendements du marché boursier, mais pas dans les rendements pour des choses comme les antiquités vendues aux enchères. Les rendements des antiquités appartiennent également à une distribution sans moyenne ni variance, mais pas à une distribution de Cauchy. Les différences sont créées par les différences dans les règles de l'enchère. Si vous modifiez les règles du NYSE, la distribution Cauchy disparaîtra et une autre apparaîtra.
Pour comprendre pourquoi il est généralement présent, imaginez que vous étiez un soumissionnaire dans un très grand nombre de soumissionnaires et de soumissionnaires potentiels. Parce que les actions sont vendues dans une double enchère, la malédiction du gagnant ne s'applique pas. En équilibre, le comportement rationnel consiste à offrir votre valeur attendue. Une attente est une forme de moyenne. Une distribution des estimations moyennes convergera vers la normalité lorsque la taille de l'échantillon ira à l'infini.
Cela rend le marché boursier très volatile, si l'on pense que le marché boursier devrait avoir une distribution normale ou log-normale, mais pas de manière inattendue volatile si vous vous attendez à la queue lourde.
J'ai construit les distributions prédictives bayésienne et fréquenciste pour la distribution de Cauchy et, compte tenu de leurs hypothèses, elles fonctionnent bien. La prédiction bayésienne minimise la divergence Kullback-Leibler, ce qui signifie qu'elle est aussi proche que possible de la nature dans une prédiction, pour un ensemble de données donné. La prédiction fréquentiste minimise la divergence moyenne de Kullback-Leibler sur de nombreuses prédictions indépendantes provenant de nombreux échantillons indépendants. Cependant, il ne fonctionne pas nécessairement bien pour un échantillon comme on pourrait s'y attendre avec une couverture moyenne. Les queues convergent, mais elles convergent lentement.
Le Cauchy multivarié a des propriétés encore plus bouleversantes. Par exemple, bien qu'elle ne puisse évidemment pas être covariable car il n'y a pas de moyenne, elle n'a rien de similaire à une matrice de covariance. Les erreurs de Cauchy sont toujours sphériques si rien d'autre ne se passe dans le système. De plus, bien que rien ne convienne, rien n'est indépendant non plus. Pour comprendre à quel point cela pourrait être important d'un point de vue pratique, imaginez deux pays qui sont à la fois en croissance et qui commercent entre eux. Les erreurs dans l'un ne sont pas indépendantes des erreurs dans l'autre. Mes erreurs influencent vos erreurs. Si un pays est pris par un fou, les erreurs de ce fou se font sentir partout. En revanche, comme les effets ne sont pas linéaires comme on pourrait s'y attendre avec une matrice de covariance, les autres pays peuvent rompre les relations pour minimiser l'impact.
C'est aussi ce qui rend la guerre commerciale de Trump si dangereuse. La deuxième économie du monde après l'Union européenne a déclaré la guerre économique par le commerce contre toutes les autres économies et finance cette guerre en empruntant l'argent pour la combattre aux nations sur lesquelles elle a déclaré la guerre. Si ces dépendances sont forcées de se détendre, ce sera laid d'une manière dont personne n'a une mémoire vivante. Nous n'avions pas eu de problème similaire depuis l'administration Jackson lorsque la Banque d'Angleterre a embargo sur le commerce atlantique.
La distribution de Cauchy est fascinante car elle apparaît dans les systèmes de croissance exponentielle et à courbe en S. Ils confondent les gens parce que leur vie quotidienne est remplie de densités qui ont une moyenne et généralement une variance. Cela rend la prise de décision très difficile car de mauvaises leçons sont apprises.
la source