Imaginez un scénario d’apprentissage automatique standard:
Vous êtes confronté à un vaste ensemble de données multivariées et vous en avez une compréhension assez floue. Ce que vous devez faire est de faire des prédictions sur certaines variables en fonction de ce que vous avez. Comme d'habitude, vous nettoyez les données, consultez des statistiques descriptives, exécutez certains modèles, effectuez des validations croisées, etc., mais après plusieurs tentatives, il semble que rien ne semble fonctionner et que vos résultats soient lamentables. Vous pouvez passer des heures, des jours ou des semaines sur un tel problème ...
La question est: quand arrêter? Comment vous savez que vos données sont en fait sans espoir et tous les modèles de fantaisie ne vous ferait pas plus de bien que de prédire le résultat moyen pour tous les cas ou une autre solution triviale?
Bien sûr, il s’agit d’un problème de prévisibilité, mais pour autant que je sache, il est difficile d’évaluer la prévisibilité pour des données multivariées avant d’essayer quelque chose. Ou ai-je tort?
Avertissement: cette question a été inspirée par celle-ci. Quand dois-je arrêter de chercher un modèle? cela n'a pas attiré beaucoup d'attention. Il serait bien d’avoir une réponse détaillée à cette question pour référence.
Réponses:
Prévisibilité
Vous avez raison de dire qu'il s'agit d'une question de prévisibilité. Quelques articles sur la prévisibilité ont été publiés dans la revue Foresight, destinée aux praticiens . (Divulgation complète: je suis un éditeur associé.)
Le problème est que la prévisibilité est déjà difficile à évaluer dans des cas "simples".
Quelques exemples
Supposons que vous ayez une série chronologique comme celle-ci sans parler allemand:
Comment modéliseriez-vous le pic atteint en avril et comment intégriez-vous ces informations dans les prévisions?
Si vous ne saviez pas que cette série chronologique représente les ventes d'œufs dans une chaîne de supermarchés suisse, qui culmine juste avant le calendrier occidental de Pâques , vous n'auriez aucune chance. De plus, avec Pâques déplaçant le calendrier de six semaines au maximum , toutes les prévisions qui n'incluent pas la date spécifique de Pâques (en supposant, par exemple, qu'il s'agissait simplement d'un pic saisonnier qui se reproduirait l'année suivante, une semaine spécifique) serait probablement très off.
De même, supposons que vous ayez la ligne bleue ci-dessous et que vous souhaitiez modéliser ce qui s'est passé le 2010-02-28 de manière si différente des modèles "normaux" du 2010-02-27:
Encore une fois, sans savoir ce qui se passe quand une ville entière remplie de Canadiens regarde un match de la phase finale du hockey sur glace à la télévision, vous n’avez aucune chance de comprendre ce qui s’est passé ici, et vous ne pouvez pas prédire quand une telle chose va se reproduire.
Enfin, regardez ceci:
Il s’agit d’une série chronologique de ventes quotidiennes dans un magasin cash and carry . (Sur la droite, vous avez un tableau simple: 282 jours avaient zéro vente, 42 jours ont vu des ventes de 1 ... et un jour ont vu 500 ventes.) Je ne sais pas de quel article il s'agit.
À ce jour, je ne sais pas ce qui s'est passé ce jour-là avec des ventes de 500 exemplaires. Mon meilleur choix est qu'un client a déjà commandé une grande quantité de ce produit et l'a collecté. Maintenant, sans le savoir, toute prévision pour cette journée sera lointaine. Inversement, supposons que cela se soit produit juste avant Pâques et que nous ayons un algorithme stupide qui croit que cela pourrait être un effet de Pâques (peut-être que ce sont des œufs?) Et prévoit heureusement 500 unités pour la prochaine Pâques. Oh mon Dieu, est-ce que ça pourrait mal tourner?
Sommaire
Dans tous les cas, nous voyons que la prévisibilité ne peut être bien comprise que lorsque nous avons une compréhension suffisamment approfondie des facteurs susceptibles d’influencer nos données. Le problème est que si nous ne connaissons pas ces facteurs, nous ne savons pas que nous pourrions ne pas les connaître. Selon Donald Rumsfeld :
Si Pâques ou la prédilection des Canadiens pour le hockey sont des inconnues pour nous, nous sommes bloqués - et nous n'avons même pas d'avenir, car nous ne savons pas quelles questions nous devons poser.
La seule façon de les maîtriser est de rassembler les connaissances du domaine.
Conclusions
J'en tire trois conclusions:
Le résultat final
Voici comment je recommanderais de construire des modèles - et de noter quand arrêter:
Notez que je ne préconise pas l’essai de différentes classes de modèles si vos plateaux de modèles originaux. Généralement, si vous avez commencé avec un modèle raisonnable, utiliser quelque chose de plus sophistiqué ne rapportera pas un avantage considérable, mais pourrait simplement entraîner une «sur-adaptation sur le jeu de tests». J'ai souvent vu cela et d'autres personnes sont d'accord .
la source
If you are forecasting a fair coin toss, then there is no way to get above 50% accuracy.
. Vous avez tout dit là-bas.La réponse de Stephan Kolassa est excellente, mais je voudrais ajouter qu’il existe aussi souvent une condition d’arrêt économique:
Par exemple: un client a voulu prédire quand ses machines tombent en panne. Nous avons analysé les données existantes et trouvé essentiellement du bruit. Nous nous sommes plongés dans le processus et avons constaté que les données les plus critiques n’étaient pas enregistrées et qu’il était très difficile à collecter. Mais sans ces données, notre modèle était si pauvre que personne ne l'aurait utilisé et il a été mis en conserve.
Bien que je me suis concentré sur les aspects économiques lorsque je travaillais sur un produit commercial, cette règle s’appliquait également au monde universitaire ou à des projets amusants - bien que l’argent soit moins une préoccupation dans de telles circonstances, le temps reste un bien rare. Par exemple. dans le monde universitaire, vous devriez cesser de travailler lorsque vous ne produisez aucun résultat tangible et que vous en avez d'autres, des projets plus prometteurs que vous pourriez réaliser. Mais n'abandonnez pas ce projet - publiez également les résultats null ou "besoin de plus / autres données", ils sont également importants!
la source
Il y a un autre moyen. Demande toi -
Ainsi, par exemple, si vous avez un grand nombre de variables associées à différentes équipes de football et que vous essayez de prédire qui va gagner, vous pouvez consulter les cotes du bookmaker ou une forme de prédiction en provenance de la foule à comparer avec les résultats de votre apprentissage automatique. algorithme. Si vous êtes meilleur, vous pouvez être à la limite, sinon pire, il y a place à l'amélioration.
Votre capacité à améliorer dépend (en gros) de deux choses:
Cela dépend exactement de ce que j'essaie de faire, mais j'ai tendance à utiliser les réponses à ces questions pour orienter mon cheminement lors de la construction d'un modèle, en particulier s'il s'agit d'extraire plus de données que je peux utiliser ou de me concentrer. en essayant d'affiner le modèle.
Je suis d'accord avec Stephan sur le fait que la meilleure façon de le faire est de demander à un expert du domaine.
la source