Je lis un exemple donné dans le livre, Machine Learning for Hackers . Je vais d'abord développer l'exemple, puis parler de ma question.
Exemple :
Prend un ensemble de données pour 10 ans de 25 actions. Exécute PCA sur les 25 cours de bourse. Compare la composante principale avec l'indice Dow Jones. Observe une très forte similitude entre PC et DJI!
D'après ce que je comprends, l'exemple ressemble plus à un jouet pour aider les débutants comme moi à comprendre l'efficacité d'un outil PCA!
Cependant, en lisant une autre source , je constate que les cours des actions ne sont pas stationnaires et l'exécution de l'ACP sur les cours des actions est absurde. Les sources d'où j'ai lu totalement ridiculisent l'idée de calculer la covariance et l'APC pour le cours des actions.
Questions :
Comment l'exemple a-t-il si bien fonctionné? Le PCA du cours des actions et le DJI étaient très proches l'un de l'autre. Et les données sont des données réelles des cours des actions 2002-2011.
Quelqu'un peut-il m'indiquer une ressource intéressante pour lire des données stationnaires / non stationnaires? Je suis un programmeur. J'ai une bonne formation en mathématiques. Mais je n'ai pas fait de maths sérieuses depuis 3 ans. J'ai recommencé à lire sur des choses comme des promenades aléatoires, etc.
la source
J'exécute ces types d'analyses de manière professionnelle et je peux confirmer qu'elles sont effectivement utiles. Mais assurez-vous d'analyser les retours et non les prix. Ceci est également mis en évidence par la critique dans Slender Means:
Un cas d'utilisation typique dans notre analyse est de quantifier le risque systémique sur le marché. Plus il y a de co-mouvement sur le marché, moins vous avez vraiment de diversification dans votre portefeuille. Cela peut, par exemple, être quantifié par la quantité de variance décrite par la première composante principale. Qui est identique à la valeur de la première valeur propre.
Pour les données financières, on examine généralement une fenêtre mobile au fil du temps. Une certaine forme de facteur de désintégration qui pondère les observations plus anciennes est utile. Pour les données quotidiennes, entre 20 et 60 jours, pour les données hebdomadaires, peut-être 1-2 ans, tout cela en fonction de vos besoins.
Notez que pour les marchés financiers mondiaux, avec des dizaines ou des centaines de milliers de prix d'actifs changeant continuellement, un typicall ne peut pas exécuter une matrice de covariance 100K vs 100K. Au lieu de cela, le cas d'utilisation typique consiste à exécuter l'analyse par pays, par secteur ou d'autres groupes plus significatifs. Alternativement décomposer le rendement par un ensemble de facteurs sous-jacents (valeur, taille, qualité, crédit ...) et faire l'analyse PCA / Covariance sur ceux-ci.
Quelques articles intéressants incluent la discussion d'Attilio Meucci sur le nombre effectif de paris: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1358533
, et aussi Ledoit et Wolf's Honey I ont réduit l'échantillon de matrice de covariance http://www.math.umn.edu/~bemis/MFM/2014/spring/References/lw_shrinkage.pdf
Pour une introduction financière à la stationnarité, pourquoi ne pas commencer par Investopedia. Ce n'est pas rigoureux, mais transmet les idées principales.
Bonne chance!
EDIT: Voici un exemple de 3 actions montrant Apple, Google et Dow Jones avec des rendements quotidiens jusqu'en 2015. Le triangle supérieur montre une corrélation de rendement, le triangle inférieur montre une corrélation de prix.
Comme on peut le voir, Apple a une corrélation de prix plus élevée avec Dow (en bas à gauche 0,76) que la corrélation de retour (en haut à droite 0,66). Que pouvons-nous en tirer? Pas tant. Google a une corrélation de prix négative avec Apple (-0,28) et Dow (-0,27). Encore une fois, pas grand-chose à apprendre de cela. Cependant, les corrélations de retour nous indiquent qu'Apple et Google ont tous deux une corrélation assez élevée avec le Dow (0,66 et 0,53 respectivement). Cela nous dit quelque chose sur la co-circulation (changement de prix) des actifs dans un portefeuille. Ce sont des informations utiles.
L'essentiel est que, bien que la corrélation des prix puisse être tout aussi facilement calculée, elle n'est pas intéressante. Pourquoi? Parce que le prix d'un stock n'est pas intéressant en soi. Le changement de prix est cependant très intéressant.
la source