Pourquoi les distributions sont-elles importantes?

10

Cela peut aussi bien descendre que les questions les plus idiotes jamais posées sur ce forum, mais après avoir reçu des réponses judicieuses et significatives à une question précédente, j'ai pensé que j'allais encore tenter ma chance.

Je suis très confus depuis un certain temps sur l'importance des distributions statistiques, notamment en ce qui concerne les rendements des actifs et encore plus précisément la répartition des actifs.

Ma question pour être précis est la suivante: supposons que j'ai 20 ans de données de rendements mensuels S&P 500, pourquoi devrais-je avoir besoin d'assumer un certain type de distribution (c.-à-d. Vol Normal / Johnson / Levy, etc.) pour ma décision d'allocation d'actifs quand je peux simplement juste prendre mes décisions d'allocation d'actifs sur la base des données historiques que j'ai avec moi?

Lignée
la source
3
n'oubliez pas que si vous avez trouvé les réponses à votre question précédente utiles, vous pouvez les marquer comme «acceptées» en cochant la case à côté de la réponse. cela permet aux autres de savoir que votre question est résolue.
Jeff
2
Il y a en fait un récent article de JDCook sur ce sujet. Pour souligner sa pertinence par rapport à votre question, je citerai le premier paragraphe "Lorsque les statisticiens analysent des données, ils ne se contentent pas de regarder les données que vous leur apportez. Ils considèrent également des données hypothétiques que vous auriez pu apporter. En d'autres termes , ils considèrent ce qui aurait pu arriver ainsi que ce qui s'est réellement passé. "
user603
Je crois que Taleb avait quelque chose de convaincant à dire sur les problèmes de prise de décisions uniquement à partir de données historiques :-). (Les données historiques ne révèlent généralement pas directement les événements rares mais possiblement mortels du «cygne noir» jusqu'à ce qu'il soit trop tard.)
whuber
2
... comme la plupart des dindes se rendront compte dans quelques semaines.
Ryogi
Pour développer le point de @ user603 - vous voulez faire des inférences en dehors de votre échantillon. En particulier, le point de votre allocation d'actifs concerne le comportement futur , pas le comportement passé. Cela inclut, par exemple, comment les choses se comportent dans la queue, où vous avez peu d'observations. Vous pouvez apporter des connaissances / compréhension / biais supplémentaires sur le processus via des hypothèses de distribution. Si ces hypothèses sont proches de la droite, vous pouvez ajouter beaucoup d'informations.
Glen_b -Reinstate Monica

Réponses:

5

L'utilisation d'une distribution supposée (c.-à-d. Une analyse paramétrique) réduira le coût de calcul de votre méthode. Je suppose que vous souhaitez effectuer une tâche de régression ou de classification. Cela signifie qu'à un moment donné, vous allez estimer la distribution de certaines données. Les méthodes non paramétriques sont utiles lorsque les données ne sont pas conformes à une distribution bien étudiée, mais elles prennent généralement plus de temps à calculer ou plus de mémoire à stocker.

De plus, si les données sont générées par un processus conforme à une distribution, telles qu'elles sont une moyenne de certains processus uniformément aléatoires, alors l'utilisation de cette distribution est plus logique. Dans le cas de la moyenne d'un ensemble de variables uniformes, la distribution correcte est probablement la distribution gaussienne.

James
la source
0

Pour compléter la réponse de James : les modèles paramétriques nécessitent également (généralement) moins d'échantillons pour avoir un bon ajustement: cela peut augmenter leur pouvoir de généralisation: c'est-à-dire qu'ils peuvent mieux prédire les nouvelles données, même en se trompant. Bien sûr, cela dépend de la situation, des modèles et de la taille des échantillons.

la démence
la source