Dans un problème sur lequel je travaille, j'ai deux variables aléatoires, X et Y. J'ai besoin de comprendre à quel point elles sont étroitement corrélées, mais elles sont de dimensions différentes. Le rang de l'espace de rangée de X est 4350, et le rang de l'espace de rangée de Y est sensiblement plus grand, dans les dizaines de milliers. X et Y ont le même nombre de colonnes.
J'ai besoin d'une mesure de corrélation entre les deux variables, et le r de Pearson nécessite que X et Y aient une dimension égale (au moins R nécessite que les deux rv soient).
Ai-je le moindre espoir de faire une corrélation entre ces deux, ou devrais-je trouver un moyen d'élaguer les observations de Y?
EDIT
Ajout d'informations à partir des commentaires, qui devraient être dans la question.
Je suppose que j'ai oublié de le mentionner. X et Y sont des cours boursiers. La société X est publique depuis une période beaucoup plus courte que Y. Je voulais dire à quel point les prix de X et Y sont corrélés. Je pourrais certainement obtenir une corrélation pour la période de temps pendant laquelle X et Y existent tous les deux. Je voulais savoir si connaître le cours des actions pour plusieurs années supplémentaires de Y que X n'existait pas m'a fourni des informations supplémentaires.
la source
Réponses:
Aucune quantité d'imputation, d'analyse de séries chronologiques, de modèles GARCH, d'interpolation, d'extrapolation ou d'autres algorithmes sophistiqués ne fera rien pour créer des informations là où elles n'existent pas (bien qu'elles puissent créer cette illusion ;-). L'histoire du prix de Y avant que X ne soit rendu public est inutile pour évaluer leur corrélation ultérieure.
Parfois (souvent en préparation d'une introduction en bourse), les analystes utilisent des informations comptables internes (ou des enregistrements de transactions boursières privées) pour reconstruire rétrospectivement les prix hypothétiques des actions de X avant qu'elles ne deviennent publiques. En théorie, de telles informations pourraient être utilisées pour améliorer les estimations de la corrélation, mais étant donné la nature extrêmement provisoire de ces retransmissions, je doute que l'effort serait d'une quelconque utilité, sauf initialement s'il n'y a que quelques jours ou semaines de prix pour X disponibles.
la source
Le problème est donc celui des données manquantes (tous les Y n'ont pas de X correspondant, où la correspondance est opérationnalisée via des points temporels). Je ne pense pas qu'il y ait beaucoup à faire ici que de jeter le Y pour lequel vous n'avez pas de X et de calculer la corrélation sur les paires complètes.
Vous voudrez peut-être vous renseigner sur les séries chronologiques financières, bien que je ne dispose pas d'une bonne référence à ce stade (idées, n'importe qui?). Les cours des actions présentent souvent des volatilités variant dans le temps, qui peuvent être modélisées, par exemple, par GARCH . Il est concevable que vos deux séries chronologiques X et Y présentent des corrélations positives pendant les périodes de faible volatilité (lorsque l'économie croît, tous les cours des actions ont tendance à augmenter), mais des corrélations négatives lorsque la volatilité globale est élevée (le 11 septembre, les compagnies aériennes ont ravitaillé pendant l'argent a fui vers des investissements plus sûrs). Donc, le simple calcul d'une corrélation globale peut être trop dépendant de votre période d'observation.
MISE À JOUR: Je pense que vous voudrez peut-être regarder les modèles VAR (vector autorégressifs) .
la source
@Jeromy Anglim l'a correctement spécifié. Le fait de disposer d'informations supplémentaires lorsqu'une seule des séries chronologiques existait ne fournirait aucune valeur ici. Et en principe, les données doivent être échantillonnées en même temps pour qu'elles soient significatives en utilisant des mesures de corrélation conventionnelles.
Comme problème plus général, j'ajouterais qu'il existe des techniques pour traiter les données de séries temporelles à espacement irrégulier. Vous pouvez rechercher une "corrélation de séries chronologiques à espacement irrégulier". Certains travaux récents ont été menés sur la "volatilité et corrélation réalisées" (Andersen, Bollerslev, Diebold et Labys 1999) à l'aide de données à haute fréquence.
la source
Compte tenu des informations supplémentaires contenues dans vos commentaires, je vous recommande d'examiner deux corrélations. Le premier serait les périodes de temps communes aux deux sociétés. Donc, si l'on était environ 2 ans plus tôt, il vous suffit de supprimer ces données et de regarder le reste. La seconde serait les périodes de temps relatives. Dans le second, vous ne corrélez pas le temps réel mais le temps mesuré depuis que l'entreprise est devenue publique.
Les premiers seraient fortement influencés par les forces économiques générales partagées au cours de la même période. Ces derniers seraient influencés par les propriétés partagées par les entreprises au fur et à mesure de leur évolution après l'introduction en bourse.
la source
Une autre façon de résoudre un tel problème consiste à imputer les données manquantes pour les séries plus courtes en utilisant un modèle de série chronologique qui peut ou non avoir un sens dans un contexte particulier.
Dans votre contexte, imputer les cours des actions dans le passé signifierait que vous posez la question contrefactuelle suivante: quel serait le cours des actions de la société X si elle avait été rendue publique n années auparavant, au lieu de quand elle est devenue publique? Une telle imputation de données pourrait potentiellement être effectuée en tenant compte des cours des actions des sociétés liées, des tendances générales du marché, etc. Mais une telle analyse peut ne pas avoir de sens ou ne pas être nécessaire compte tenu des objectifs de votre projet.
la source
Eh bien, cela dépend beaucoup des hypothèses que vous faites. Si vous supposez que les données sont stationnaires, plus de données pour la première série vous donneront une meilleure estimation de sa volatilité. Cette estimation peut être utilisée pour améliorer l'estimation de corrélation. Donc, l'énoncé suivant est incorrect:
"L'histoire du prix de Y avant que X ne soit rendu public est inutile pour évaluer leur corrélation ultérieure"
la source
Cela ressemble à un problème pour un algorithme d'apprentissage automatique. Par conséquent, j'essaierais de comprendre un ensemble de fonctionnalités qui décrivent un certain aspect de la tendance et de m'y entraîner. L'ensemble de la théorie de l'apprentissage automatique est un peu trop complexe pour cette boîte à réponses, mais il serait utile que vous y lisions.
Mais honnêtement, je pense que cela existe déjà. Là où l'argent peut être gagné, les gens y mettent leur esprit.
la source