La distribution de Cauchy est-elle en quelque sorte une distribution «imprévisible»?

14

La distribution de Cauchy est-elle en quelque sorte une distribution "imprévisible"?

J'ai essayé de faire

cs <- function(n) {
  return(rcauchy(n,0,1))
}

dans R pour une multitude de n valeurs et a remarqué qu'elles génèrent occasionnellement des valeurs assez imprévisibles.

Comparez cela à par exemple

as <- function(n) {
  return(rnorm(n,0,1))
}

qui semble toujours donner un nuage de points "compact".

Par cette photo, cela devrait ressembler à la distribution normale? Pourtant, cela ne vaut peut-être que pour un sous-ensemble de valeurs. Ou peut-être que l'astuce est que les écarts-types de Cauchy (dans l'image ci-dessous) convergent beaucoup plus lentement (à gauche et à droite) et permettent donc des valeurs aberrantes plus graves, bien qu'à de faibles probabilités?

https://i.stack.imgur.com/zGTLU.png

Ici comme le sont les RV normaux et les CS sont les RV Cauchy.

entrez la description de l'image ici

Mais à l'extrémité des valeurs aberrantes, est-il possible que les queues du pdf de Cauchy ne convergent jamais?

mavavilj
la source
9
1. Votre question est vague / peu claire, il est donc difficile d'y répondre; Par exemple, que signifie "imprévisible" dans votre question? qu'entendez-vous par «les écarts-types de Cauchy» et la convergence vers la fin? Vous ne semblez pas calculer les écarts-types n'importe où. les écarts types de quoi, exactement? 2. De nombreux articles sur le site discutent des propriétés du Cauchy qui peuvent vous aider à concentrer votre question. Il peut également être utile de consulter Wikipedia. 3. Je suggère d'éviter le terme "en forme de cloche"; les deux densités semblent grossièrement en forme de cloche; appelez-les simplement par leur nom.
Glen_b -Reinstate Monica
4
Certes, le Cauchy est très lourd à queue.
Glen_b -Reinstate Monica
1
J'ai publié quelques faits; j'espère que cela vous aidera à comprendre ce que vous voulez savoir afin que vous puissiez affiner votre question.
Glen_b -Reinstate Monica
1
En regardant votre montage, je ne sais pas ce que vous voulez dire quand vous dites "est-il possible que les queues du pdf de Cauchy ne convergent jamais". Certes, la densité passe à 0 sous la forme , et la fonction de survie passe également à 0 sous la forme . Pourriez-vous clarifier ce que vous voulez dire? |X|X
Glen_b -Reinstate Monica
2
De grandes valeurs aberrantes sont possibles avec la normale, mais elles sont incroyablement rares . La densité (et dans la queue supérieure, particulièrement pertinente pour les valeurs aberrantes d'au moins une taille donnée, la fonction de survie) pour les têtes normales vers 0 beaucoup plus rapidement que le Cauchy - mais néanmoins les deux densités (et les deux fonctions de survie) approcher 0 et ne jamais l'atteindre.
Glen_b -Reinstate Monica

Réponses:

39

Alors qu'un certain nombre de messages sur le site traitent de diverses propriétés du Cauchy, je n'ai pas réussi à en trouver un qui les a vraiment disposés ensemble. J'espère que cela pourrait être un bon endroit pour en collecter. Je peux développer cela.

Queues lourdes

Alors que le Cauchy est symétrique et à peu près en forme de cloche, un peu comme la distribution normale, il a des queues beaucoup plus lourdes (et moins d'une "épaule"). Par exemple, il y a une probabilité faible mais distincte qu'une variable aléatoire de Cauchy posera plus de 1000 intervalles interquartiles de la médiane - à peu près du même ordre qu'une variable aléatoire normale étant au moins 2,67 intervalles interquartiles de sa médiane.

Variance

La variance du Cauchy est infinie.

Edit: JG dit dans les commentaires qu'il n'est pas défini. Si nous prenons la variance comme la moyenne de la moitié de la distance au carré entre des paires de valeurs - qui est identique à la variance lorsque les deux existent, alors elle serait infinie. Cependant, selon la définition habituelle, JG est correct. [Néanmoins, contrairement aux moyennes d'échantillon, qui ne convergent pas vraiment vers quoi que ce soit à mesure que n devient grand, la distribution des variances d'échantillon continue de croître en taille à mesure que la taille de l'échantillon augmente; l'échelle augmente proportionnellement à n, ou de façon équivalente, la distribution de la variance logarithmique croît linéairement avec la taille de l'échantillon. Il semble productif de considérer réellement que la version de la variance qui produit l'infini nous dit quelque chose.]

Les écarts-types de l'échantillon existent, bien sûr, mais plus l'échantillon est grand, plus il a tendance à être grand (par exemple, l'écart-type médian de l'échantillon à n = 10 est voisin de 3,67 fois le paramètre d'échelle (la moitié de l'IQR), mais à n = 100 c'est environ 11,9).

Signifier

La distribution de Cauchy n'a même pas de moyenne finie; l'intégrale de la moyenne ne converge pas. Par conséquent, même les lois des grands nombres ne s'appliquent pas - à mesure que n croît, les moyennes d'échantillonnage ne convergent pas vers une certaine quantité fixe (en effet, il n'y a rien pour elles de converger).

En fait, la distribution de la moyenne de l'échantillon à partir d'une distribution de Cauchy est la même que la distribution d'une seule observation (!). La queue est si lourde que l'ajout de plus de valeurs dans la somme rend une valeur vraiment extrême probablement suffisante pour compenser simplement la division par un plus grand dénominateur lors de la prise de la moyenne.

Prévisibilité

Vous pouvez certainement produire des intervalles de prédiction parfaitement sensibles pour des observations à partir d'une distribution de Cauchy; il existe des estimateurs simples et assez efficaces qui fonctionnent bien pour estimer l'emplacement et l'échelle et des intervalles de prédiction approximatifs peuvent être construits - de sorte qu'en ce sens, au moins, les variables de Cauchy sont «prévisibles». Cependant, la queue s'étend très loin, de sorte que si vous voulez un intervalle à forte probabilité, il peut être assez large.

Si vous essayez de prédire le centre de la distribution (par exemple dans un modèle de type régression), cela peut dans un certain sens être relativement facile à prévoir; le Cauchy est assez pointu (il y a beaucoup de distribution "proche" du centre pour une mesure d'échelle typique), donc le centre peut être relativement bien estimé si vous avez un estimateur approprié.

Voici un exemple:

J'ai généré des données à partir d'une relation linéaire avec des erreurs de Cauchy standard (100 observations, interception = 3, pente = 1,5) et des lignes de régression estimées par trois méthodes qui sont raisonnablement robustes aux valeurs aberrantes y: ligne de groupe Tukey 3 (rouge), régression de Theil (vert foncé) et régression L1 (bleu). Aucun n'est particulièrement efficace au Cauchy - bien qu'ils constitueraient tous d'excellents points de départ pour une approche plus efficace.

Néanmoins, les trois coïncident presque par rapport au bruit des données et se trouvent très près du centre où les données s'exécutent; en ce sens, le Cauchy est clairement "prévisible".

La médiane des résidus absolus n'est que légèrement supérieure à 1 pour aucune des lignes (la plupart des données se situent assez près de la ligne estimée); en ce sens également, le Cauchy est "prévisible".

relation linéaire avec les erreurs de Cauchy et trois droites de régression ajustées

Pour l'intrigue de gauche, il y a une grande valeur aberrante. Afin de mieux voir les données, j'ai réduit l'échelle sur l'axe des y vers le bas à droite.

Glen_b -Reinstate Monica
la source
1
Les queues lourdes et la variance étant l'infini sont liées, non?
mavavilj
Certainement. La moyenne non définie est également liée aux queues lourdes.
Glen_b -Reinstate Monica
«Il existe des estimateurs simples et assez efficaces qui fonctionnent bien pour estimer l'emplacement et l'échelle et des intervalles de prédiction approximatifs peuvent être construits» - pouvez-vous fournir les références?
Carlos Cinelli
Les commentaires ne sont pas pour une discussion approfondie; cette conversation a été déplacée vers le chat .
gung - Rétablir Monica
@Carlos Il y a deux problèmes différents - (i) des estimateurs simples et assez efficaces pour l'emplacement (comme une moyenne convenablement ajustée) et l' échelle dans le Cauchy, et (ii) les méthodes pour construire un intervalle de prédiction qui fonctionnerait pour le Cauchy. Je pense que le premier est déjà couvert sur place, et le second mériterait une question en soi.
Glen_b -Reinstate Monica
1

μσnμ±σμ±636,62σ

σ

La distribution de Cauchy apparaît un peu dans la nature, en particulier lorsque vous avez une certaine forme de croissance. Il apparaît également là où les choses tournent, comme les rochers qui dévalent les collines. Vous le trouverez comme la distribution de base d'un mélange laid de distributions dans les rendements du marché boursier, mais pas dans les rendements pour des choses comme les antiquités vendues aux enchères. Les rendements des antiquités appartiennent également à une distribution sans moyenne ni variance, mais pas à une distribution de Cauchy. Les différences sont créées par les différences dans les règles de l'enchère. Si vous modifiez les règles du NYSE, la distribution Cauchy disparaîtra et une autre apparaîtra.

Pour comprendre pourquoi il est généralement présent, imaginez que vous étiez un soumissionnaire dans un très grand nombre de soumissionnaires et de soumissionnaires potentiels. Parce que les actions sont vendues dans une double enchère, la malédiction du gagnant ne s'applique pas. En équilibre, le comportement rationnel consiste à offrir votre valeur attendue. Une attente est une forme de moyenne. Une distribution des estimations moyennes convergera vers la normalité lorsque la taille de l'échantillon ira à l'infini.

rt=pt+1pt

Cela rend le marché boursier très volatile, si l'on pense que le marché boursier devrait avoir une distribution normale ou log-normale, mais pas de manière inattendue volatile si vous vous attendez à la queue lourde.

J'ai construit les distributions prédictives bayésienne et fréquenciste pour la distribution de Cauchy et, compte tenu de leurs hypothèses, elles fonctionnent bien. La prédiction bayésienne minimise la divergence Kullback-Leibler, ce qui signifie qu'elle est aussi proche que possible de la nature dans une prédiction, pour un ensemble de données donné. La prédiction fréquentiste minimise la divergence moyenne de Kullback-Leibler sur de nombreuses prédictions indépendantes provenant de nombreux échantillons indépendants. Cependant, il ne fonctionne pas nécessairement bien pour un échantillon comme on pourrait s'y attendre avec une couverture moyenne. Les queues convergent, mais elles convergent lentement.

Le Cauchy multivarié a des propriétés encore plus bouleversantes. Par exemple, bien qu'elle ne puisse évidemment pas être covariable car il n'y a pas de moyenne, elle n'a rien de similaire à une matrice de covariance. Les erreurs de Cauchy sont toujours sphériques si rien d'autre ne se passe dans le système. De plus, bien que rien ne convienne, rien n'est indépendant non plus. Pour comprendre à quel point cela pourrait être important d'un point de vue pratique, imaginez deux pays qui sont à la fois en croissance et qui commercent entre eux. Les erreurs dans l'un ne sont pas indépendantes des erreurs dans l'autre. Mes erreurs influencent vos erreurs. Si un pays est pris par un fou, les erreurs de ce fou se font sentir partout. En revanche, comme les effets ne sont pas linéaires comme on pourrait s'y attendre avec une matrice de covariance, les autres pays peuvent rompre les relations pour minimiser l'impact.

C'est aussi ce qui rend la guerre commerciale de Trump si dangereuse. La deuxième économie du monde après l'Union européenne a déclaré la guerre économique par le commerce contre toutes les autres économies et finance cette guerre en empruntant l'argent pour la combattre aux nations sur lesquelles elle a déclaré la guerre. Si ces dépendances sont forcées de se détendre, ce sera laid d'une manière dont personne n'a une mémoire vivante. Nous n'avions pas eu de problème similaire depuis l'administration Jackson lorsque la Banque d'Angleterre a embargo sur le commerce atlantique.

La distribution de Cauchy est fascinante car elle apparaît dans les systèmes de croissance exponentielle et à courbe en S. Ils confondent les gens parce que leur vie quotidienne est remplie de densités qui ont une moyenne et généralement une variance. Cela rend la prise de décision très difficile car de mauvaises leçons sont apprises.

Dave Harris
la source
J'aime la façon audacieuse dont les propriétés mathématiques sont mises en correspondance avec le comportement du monde réel dans cette réponse. Mais ne faut-il pas mentionner qu'un Cauchy tronqué (des deux côtés) a tous ses moments finis?
Alecos Papadopoulos
Il n'est tronqué qu'à gauche. La contrainte budgétaire planétaire nominale est stochastique à droite et comme les systèmes monétaires ne sont pas des systèmes conservateurs, ils sont infinis à droite.
Dave Harris