C'est probablement une question très fondamentale, mais je ne semble pas être en mesure d'y trouver une réponse solide. J'espère ici, je peux.
Je lis actuellement des articles en préparation de ma propre thèse de maîtrise. Actuellement, je lis un article qui étudie la relation entre les tweets et les caractéristiques du marché boursier.
Dans l'une de leurs hypothèses, ils proposent que "l'augmentation du volume des tweets soit associée à une augmentation du volume des échanges".
Je m'attendrais à ce qu'ils, dans les corrélations par paires, soient en corrélation tweetVolume
avec tradingVolume
, mais à la place ils signalent utiliser les versions enregistrées: LN(tweetVolume)
et LN(tradingVolume)
.
Pour ma thèse, j'ai reproduit ce bout de papier. J'ai collecté des tweets sur une centaine d'entreprises pendant plus de 6 mois ( tweetVolume
) et un volume de transactions boursières pour la même période. Si je corrèle les variables absolues, je trouve r=.282, p.000
mais quand j'utilise les versions enregistrées, je trouve r=.488, p=.000
.
Je ne comprends pas pourquoi les chercheurs utilisent parfois des versions enregistrées de leurs variables et pourquoi la corrélation semble tellement plus élevée si vous le faites. Quel est le raisonnement ici et pourquoi est-il acceptable d'utiliser des variables enregistrées?
Votre aide est grandement appréciée :-)
Réponses:
Les raisons d'utiliser des variables enregistrées se divisent en deux catégories: statistiques et substantives.
Statistiquement, si vos variables sont asymétriques vers la droite (c'est-à-dire qu'elles ont une longue queue à l'extrémité supérieure), alors une mesure telle que la corrélation ou la régression peut être beaucoup influencée par un ou quelques cas à l'extrémité supérieure par une ou les deux variables (valeurs aberrantes, points de levier, points influents). Prendre le journal peut aider cela en réduisant ou en éliminant l'inclinaison.
Sur le fond, certains concepts sont mieux pensés en termes de ratios que de différences. Prenez les deux mesures de volume dont vous discutez. Maintenant, comparez deux sociétés: l'une est une petite entreprise négociant sur le NASDAQ dont peu de gens ont entendu parler, l'autre une méga-société. Les premiers recevront très peu de tweets par jour. Ces derniers en auront beaucoup; de même pour le volume des transactions. Supposons (juste pour choisir des chiffres) que la société A reçoit généralement 100 tweets par jour et que ce dernier en reçoit 100 000.
Si les tweets de la société A passent de 100 à 500 (une différence de 400, un ratio de 5), c'est une énorme nouvelle - quelque chose doit se passer. Mais si l'entreprise B passe de 100 000 à 100 400 (une différence de 400, un ratio très proche de 1), peu importe. L'équivalent grossier serait de passer de 100 000 à 500 000.
la source