Je fais des statistiques descriptives des rendements quotidiens des indices boursiers. Autrement dit, si et sont les niveaux de l'indice au jour 1 et au jour 2, respectivement, alors est le retour que j'utilise (tout à fait standard dans la littérature).P 2 l o g e ( P 2
Donc, le kurtosis est énorme dans certains d'entre eux. Je regarde environ 15 ans de données quotidiennes (donc environ observations de séries chronologiques)
means sds mins maxs skews kurts
ARGENTINA -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532
AUSTRIA 0.00003 0.00640 -0.03845 0.04621 0.19614 2.36104
CZECH.REPUBLIC 0.00008 0.00800 -0.08289 0.05236 -0.16920 5.73205
FINLAND 0.00005 0.00639 -0.03845 0.04622 0.19038 2.37008
HUNGARY -0.00019 0.00880 -0.06301 0.05208 -0.10580 4.20463
IRELAND 0.00003 0.00641 -0.03842 0.04621 0.18937 2.35043
ROMANIA -0.00041 0.00789 -0.14877 0.09353 -1.73314 44.87401
SWEDEN 0.00004 0.00766 -0.03552 0.05537 0.22299 3.52373
UNITED.KINGDOM 0.00001 0.00587 -0.03918 0.04473 -0.03052 4.23236
-0.00007 0.00745 -0.09124 0.06405 -1.82381 63.20596
AUSTRALIA 0.00009 0.00861 -0.08831 0.06702 -0.74937 11.80784
CHINA -0.00002 0.00072 -0.40623 0.02031 6.26896 175.49667
HONG.KONG 0.00000 0.00031 -0.00237 0.00627 2.73415 56.18331
INDIA -0.00011 0.00336 -0.03613 0.03063 -0.22301 10.12893
INDONESIA -0.00031 0.01672 -0.24295 0.19268 -2.09577 54.57710
JAPAN 0.00008 0.00709 -0.03563 0.06591 0.57126 5.16182
MALAYSIA -0.00003 0.00861 -0.35694 0.13379 -16.48773 809.07665
Ma question est: y a-t-il un problème?
Je veux faire une analyse approfondie des séries chronologiques sur ces données - analyse de régression OLS et quantile, et aussi causalité de Granger.
Ma réponse (dépendante) et mon prédicteur (régresseur) auront tous deux cette propriété de kurtosis gigantesque. Je vais donc avoir ces processus de retour de chaque côté de l'équation de régression. Si la non-normalité déborde sur les perturbations, cela ne fera que rendre mes erreurs standard très variées, non?
(Peut-être que j'ai besoin d'un bootstrap robuste d'asymétrie?)
Réponses:
Jetez un coup d'œil aux distributions Lambert W x F à queue lourde ou aux distributions Lambert W x F asymétriques (avis de non-responsabilité: je suis l'auteur). Dans R, ils sont implémentés dans le package LambertW .
Articles Similaires:
Voici un exemple d'estimations gaussiennes Lambert W x appliquées aux rendements des fonds d'actions.
Les mesures récapitulatives des retours sont similaires (pas aussi extrêmes) que dans la publication d'OP.
La plupart des séries présentent des caractéristiques clairement non normales (forte asymétrie et / ou kurtosis important). Faisons gaussianiser chaque série en utilisant une distribution gaussienne Lambert W x à queue lourde (= h de Tukey) en utilisant une méthode d'estimateur de moments (
IGMM
).Les graphiques des séries chronologiques montrent beaucoup moins de queues et aussi une variation plus stable dans le temps (pas constante cependant). Le nouveau calcul des métriques sur la série chronologique gaussianisée donne:
IGMM
Gaussianize()
scale()
Régression bivariée simple
Le diagramme de dispersion de gauche de la série originale montre que les valeurs aberrantes fortes ne se sont pas produites aux mêmes jours, mais à des moments différents en Inde et en Europe; à part cela, il n'est pas clair si le nuage de données au centre ne prend en charge aucune corrélation ou dépendance négative / positive. Étant donné que les valeurs aberrantes affectent fortement les estimations de variance et de corrélation, il vaut la peine d'examiner la dépendance avec les queues lourdes supprimées (nuage de points de droite). Ici, les tendances sont beaucoup plus claires et la relation positive entre l'Inde et le marché de l'Europe de l'Est devient apparente.
Causalité de Granger
Cependant, pour les données gaussianisées, la réponse est différente! Ici, le test ne peut pas rejeter H0 que "L'INDE ne cause pas Granger EASTEU", mais rejette toujours que "EASTEU ne cause pas Granger INDIA". Les données gaussianisées soutiennent donc l'hypothèse selon laquelle les marchés européens stimulent les marchés indiens le lendemain.
la source
Ce qu'il faut, c'est un modèle de distribution de probabilité qui corresponde mieux aux données. Parfois, il n'y a pas de moments définis. Une telle distribution est la distribution de Cauchy. Bien que la distribution de Cauchy ait une médiane comme valeur attendue, il n'y a pas de valeur moyenne stable ni de moments supérieurs stables. Cela signifie que lorsque l'on recueille des données, des mesures réelles apparaissent qui ressemblent à des valeurs aberrantes, mais sont des mesures réelles. Par exemple, si l'on a deux distributions normales F et G, avec zéro moyen, et qu'on divise F / G, le résultat n'aura pas de premier instant et sera une distribution de Cauchy. Nous collectons donc volontiers des données, cela ressemble à 5,3,9,6,2,4 et nous calculons une moyenne qui semble stable, puis, tout à coup, nous obtenons une valeur de -32739876 et notre valeur moyenne perd tout son sens, mais notez que la médiane est 4, stable. Il en est ainsi des distributions à longue queue.
Edit: Vous pouvez essayer la distribution t de Student avec 2 degrés de liberté. Cette distribution a des queues plus longues que la distribution normale, l'asymétrie et le kurtosis sont instables ( Sic , n'existent pas), mais la moyenne et la variance sont définies, c'est-à-dire sont stables.
Prochaine édition: Une possibilité pourrait être d'utiliser la régression de Theil. Quoi qu'il en soit, c'est une pensée, car Theil fonctionnera bien, peu importe à quoi ressemblent les queues. On peut faire le MLR (régression linéaire multiple en utilisant des pentes médianes). Je n'ai jamais fait Theil pour l'ajustement des données d'histogramme. Mais, j'ai fait Theil avec une variante jackknife pour établir des intervalles de confiance. L'avantage de faire cela est que Theil ne se soucie pas des formes de distribution et que les réponses sont généralement moins biaisées qu'avec OLS car typiquement OLS est utilisé quand il y a une variance d'axe indépendante problématique. Non pas que Theil soit totalement non surélevé, c'est la pente médiane. Les réponses ont également une signification différente, elles trouvent un meilleur accord entre les variables dépendantes et indépendantes où OLS trouve le moins prédicteur d'erreur de la variable dépendante,
la source