L'extrait suivant est tiré de Schwager's Hedge Fund Market Wizzards (mai 2012), une entrevue avec le gestionnaire de fonds de couverture à succès constant Jaffray Woodriff:
À la question: "Quelles sont les pires erreurs que les gens commettent dans l'exploration de données?":
Beaucoup de gens pensent qu'ils vont bien parce qu'ils utilisent des données dans l'échantillon pour la formation et des données hors échantillon pour les tests. Ensuite, ils trient les modèles en fonction de leur performance sur les données de l'échantillon et choisissent les meilleurs à tester sur les données hors échantillon. La tendance humaine est de prendre les modèles qui continuent de bien fonctionner dans les données hors échantillon et de choisir ces modèles pour le trading. Ce type de processus transforme simplement les données hors échantillon en une partie des données de formation, car il sélectionne les modèles qui ont fait le mieux au cours de la période hors échantillon. C'est l'une des erreurs les plus courantes que les gens commettent et l'une des raisons pour lesquelles l'exploration de données telle qu'elle est généralement appliquée donne des résultats terribles.
L'enquêteur demande alors: "Que devriez-vous faire à la place?":
Vous pouvez rechercher des modèles où, en moyenne, tous les modèles hors échantillon continuent de bien fonctionner. Vous savez que vous vous débrouillez bien si la moyenne des modèles hors échantillon est un pourcentage significatif du score dans l'échantillon. De manière générale, vous obtenez vraiment quelque part si les résultats hors échantillon représentent plus de 50% de l'échantillon. Le modèle commercial de QIM n'aurait jamais fonctionné si SAS et IBM avaient développé un excellent logiciel de modélisation prédictive.
Mes questions
Est-ce que cela a un sens? Que veut-il dire? Avez-vous un indice - ou peut-être même un nom pour la méthode proposée et quelques références? Ou est-ce que ce gars a trouvé le Saint-Graal que personne d'autre ne comprend? Il dit même dans cette interview que sa méthode pourrait potentiellement révolutionner la science ...
Réponses:
Est-ce que cela a un sens ? Partiellement.
Que veut-il dire? Veuillez lui demander.
Avez-vous un indice - ou peut-être même un nom pour la méthode proposée et quelques références?
Validation croisée. http://en.wikipedia.org/wiki/Cross-validation_(statistics)
Ou est-ce que ce gars a trouvé le Saint-Graal que personne d'autre ne comprend? Non.
Il dit même dans cette interview que sa méthode pourrait potentiellement révolutionner la science ... Peut-être qu'il a oublié d'inclure les références de cette déclaration ...
la source
Je ne sais pas s'il y aura d'autres réponses "délirantes", mais voici les miennes.
La validation croisée n'est en aucun cas "nouvelle". De plus, la validation croisée n'est pas utilisée lorsque des solutions analytiques sont trouvées. Par exemple, vous n'utilisez pas la validation croisée pour estimer les bêtas, vous utilisez OLS ou IRLS ou une autre solution "optimale".
Ce que je considère comme une lacune manifestement évidente dans la citation ne fait référence à aucune notion de vérification des «meilleurs» modèles pour voir s'ils ont un sens. Généralement, un bon modèle est logique à un certain niveau intuitif. Il semble que l'affirmation est que le CV est une solution miracle à tous les problèmes de prédiction. Il n'y a pas non plus de coupure , la mise en place au niveau de la structure du modèle - Utilisent-nous SVM , la régression des arbres , Dynamiser , ensachage , OLS , MLG , GLMNS. Régularisons-nous les variables? Si c'est le cas, comment? Regroupons-nous les variables? Voulons-nous la robustesse à la rareté? Avons-nous des valeurs aberrantes? Faut-il modéliser les données dans leur ensemble ou en morceaux? Il y a trop d'approches à décider sur la base du CV .
Et un autre aspect important est quels sont les systèmes informatiques disponibles? Comment les données sont-elles stockées et traitées? Y a-t-il un manque - comment expliquer cela?
Et voici la grande: avons-nous suffisamment de données pour faire de bonnes prédictions? Y a-t-il des variables connues que nous n'avons pas dans notre ensemble de données? Nos données sont-elles représentatives de tout ce que nous essayons de prédire?
la source
Son explication d'une erreur courante dans l'exploration de données semble raisonnable. Son explication de ce qu'il fait n'a aucun sens. Que veut-il dire quand il dit: "D'une manière générale, vous obtenez vraiment quelque part si les résultats hors échantillon représentent plus de 50% de l'échantillon". Ensuite, SAS et IBM de mauvaise gueule ne le rendent pas très intelligent non plus. Les gens peuvent avoir du succès sur le marché sans comprendre les statistiques et une partie du succès est la chance. Il est faux de traiter les hommes d'affaires prospères comme s'ils étaient des gourous de la prévision.
la source
Ma compréhension des modèles de mots ici, c'est qu'il signifie différentes conditions du marché. Une approche naïve analysera toutes les données disponibles (nous savons tous que plus de données sont meilleures), pour former le meilleur modèle d'ajustement de courbe, puis l'exécuter sur toutes les données, et échanger avec lui tout le temps.
Les gestionnaires de hedge funds et les traders algorithmiques les plus performants utilisent leur connaissance du marché. À titre d'exemple concret, la première demi-heure d'une séance de négociation peut être plus volatile. Ils essaieront donc les modèles sur toutes leurs données, mais uniquement pendant cette première demi-heure, et sur toutes leurs données, mais en excluant cette première demi-heure. Ils peuvent découvrir que deux de leurs modèles réussissent bien au cours de la première demi-heure, mais huit d'entre eux perdent de l'argent. Alors que, lorsqu'ils excluent cette première demi-heure, sept de leurs modèles font de l'argent, trois perdent de l'argent.
Mais, plutôt que de prendre ces deux modèles gagnants et de les utiliser dans la première demi-heure de trading, ils disent: c'est un mauvais moment de la journée pour le trading algorithmique, et nous n'allons pas du tout trader. Le reste de la journée, ils utiliseront leurs sept modèles. C'est-à-dire qu'il semble que le marché est plus facile à prédire avec l'apprentissage automatique à ces moments, de sorte que ces modèles ont plus de chances d'être fiables à l'avenir. (L'heure n'est pas le seul modèle; d'autres sont généralement liées à des événements d'actualité, par exemple le marché est plus volatil juste avant l'annonce des chiffres économiques clés.)
C'est mon interprétation de ce qu'il dit; cela peut être totalement faux, mais j'espère que c'est encore une matière de réflexion utile pour quelqu'un.
la source
En tant que professionnel de la finance, je connais suffisamment le contexte pour que la déclaration ne présente aucune ambiguïté. Les séries chronologiques financières sont souvent caractérisées par des changements de régime, des ruptures structurelles et une dérive de concept, de sorte que la validation croisée telle qu'elle est pratiquée dans d'autres industries n'est pas aussi efficace dans les applications financières. Dans la deuxième partie, il se réfère à une métrique financière, soit le retour sur investissement sur le ratio de Sharpe (retour au numérateur), pas MSE ou autre fonction de perte. Si la stratégie dans l'échantillon produit un rendement de 10%, alors dans le trading réel, elle ne peut de manière réaliste que produire 5%. La partie "révolutionnaire" concerne très certainement son approche d'analyse propriétaire, pas les citations.
la source