Juste une pensée:
Les modèles parcimonieux ont toujours été la référence par défaut dans la sélection des modèles, mais dans quelle mesure cette approche est-elle dépassée? Je suis curieux de savoir à quel point notre tendance à la parcimonie est une relique d'une époque d'abaci et de règles de diapositives (ou, plus sérieusement, d'ordinateurs non modernes). La puissance de calcul actuelle nous permet de construire des modèles de plus en plus complexes avec une capacité de prédiction toujours plus grande. Du fait de l'augmentation de ce plafond de puissance de calcul, devons-nous vraiment encore graviter vers la simplicité?
Bien sûr, les modèles plus simples sont plus faciles à comprendre et à interpréter, mais à l'ère des ensembles de données toujours plus nombreux avec un plus grand nombre de variables et une évolution vers une plus grande concentration sur la capacité de prédiction, cela pourrait même ne plus être réalisable ou nécessaire.
Pensées?
la source
Réponses:
@ La réponse originale de Matt décrit très bien l'un des avantages de la parcimonie, mais je ne pense pas qu'elle réponde réellement à votre question. En réalité, la parcimonie n'est pas l'étalon-or. Pas maintenant ni jamais. Un «étalon-or» lié à la parcimonie est l'erreur de généralisation. Nous aimerions développer des modèles qui ne sont pas trop ajustés. Ils sont aussi utiles pour la prédiction (ou aussi interprétables ou avec une erreur minimale) hors échantillon qu'ils le sont dans l'échantillon. Il s'avère (à cause des choses exposées ci-dessus) que la parcimonie est en fait un bon proxy pour l'erreur de généralisation mais ce n'est en aucun cas le seul.
Vraiment, réfléchissez à la raison pour laquelle nous utilisons la validation croisée ou l'amorçage ou les ensembles de formation / test. L'objectif est de créer des modèles avec une bonne précision de généralisation. La plupart du temps, ces façons d'estimer les performances hors échantillon finissent par choisir des modèles moins complexes mais pas toujours. Comme exemple extrême, imaginez que l'oracle nous tend le modèle vrai mais extrêmement complexe et un modèle pauvre mais parcimonieux. Si la parcimonie était vraiment notre objectif, nous choisirions le second mais en réalité, le premier est ce que nous aimerions apprendre si nous le pouvions. Malheureusement, la plupart du temps, la dernière phrase est le kicker, "si nous le pouvions".
la source
Des modèles parcimonieux sont souhaitables non seulement en raison des exigences informatiques, mais aussi pour les performances de généralisation. Il est impossible d'atteindre l'idéal de données infinies qui couvrent complètement et précisément l'espace d'échantillonnage, ce qui signifie que les modèles non parcimonieux ont le potentiel de s'adapter et de modéliser le bruit ou les idiosyncrasies dans la population de l'échantillon.
Il est certainement possible de construire un modèle avec des millions de variables, mais vous utiliseriez des variables qui n'ont aucun impact sur la sortie pour modéliser le système. Vous pouvez obtenir d'excellentes performances prédictives sur votre ensemble de données d'entraînement, mais ces variables non pertinentes diminueront plus que probablement vos performances sur un ensemble de tests invisibles.
Si une variable de sortie est vraiment le résultat d'un million de variables d'entrée, vous feriez bien de les mettre toutes dans votre modèle prédictif, mais uniquement si vous disposez de suffisamment de données . Pour construire avec précision un modèle de cette taille, vous auriez besoin de plusieurs millions de points de données, au minimum. Les modèles parcimonieux sont agréables car dans de nombreux systèmes du monde réel, un ensemble de données de cette taille n'est tout simplement pas disponible, et en outre, la sortie est largement déterminée par un nombre relativement faible de variables.
la source
Je pense que les réponses précédentes font du bon travail en soulignant des points importants:
Je veux ajouter quelques commentaires qui découlent de mon expérience professionnelle au jour le jour.
La généralisation de l'argument de l'exactitude prédictive est, bien sûr, forte, mais est académiquement biaisée dans sa focalisation. En général, lors de la production d'un modèle statistique, les économies ne sont pas telles que la performance prédictive est une considération complètement dominante. Très souvent, il existe de grandes contraintes extérieures sur l'apparence d'un modèle utile pour une application donnée:
Dans les domaines d'application réels, bon nombre de ces considérations, sinon toutes, viennent avant , et non après , les performances prédictives - et l'optimisation de la forme et des paramètres du modèle est limitée par ces désirs. Chacune de ces contraintes incite le scientifique à la parcimonie.
Il est peut-être vrai que dans de nombreux domaines ces contraintes sont progressivement levées. Mais c'est le scientifique chanceux qui parvient à les ignorer se concentre uniquement sur la minimisation des erreurs de généralisation.
Cela peut être très frustrant pour la première fois scientifique, fraîchement sorti de l'école (c'était définitivement pour moi, et continue de l'être quand je sens que les contraintes imposées à mon travail ne sont pas justifiées). Mais en fin de compte, travailler dur pour produire un produit inacceptable est un gaspillage, ce qui est pire que la piqûre de votre fierté scientifique.
la source
Je pense que c'est une très bonne question. À mon avis, la parcimonie est surfaite. La nature est rarement parcimonieuse, et nous ne devons donc pas nécessairement nous attendre à ce que des modèles prédictifs ou descriptifs précis le soient également. Concernant la question de l'interprétabilité, si vous choisissez un modèle plus simple qui ne se conforme que modestement à la réalité simplement parce que vous pouvez le comprendre, que comprenez-vous exactement? En supposant qu'un modèle plus complexe ait un meilleur pouvoir prédictif, il semblerait de toute façon plus proche des faits réels.
la source
La parcimonie n'est pas un début d'or. C'est un aspect de la modélisation. La modélisation et en particulier les prévisions ne peuvent pas être scriptées, c'est-à-dire que vous ne pouvez pas simplement remettre un script à un modeleur à suivre. Vous définissez plutôt des principes sur lesquels le processus de modélisation doit être basé. Ainsi, la parcimonie est l'un de ces principes, dont l'application ne peut pas être scriptée (encore!). Un modélisateur tiendra compte de la complexité lors de la sélection d'un modèle.
La puissance de calcul n'a pas grand-chose à voir avec cela. Si vous êtes dans l'industrie, vos modèles seront consommés par des gens d'affaires, des gens du produit, peu importe qui vous les appelez. Vous devez leur expliquer votre modèle, cela devrait leur donner un sens . Ayant des modèles parcimonieux aide à cet égard.
Par exemple, vous prévoyez des ventes de produits. Vous devriez être en mesure de décrire quels sont les moteurs des ventes et comment ils fonctionnent. Ceux-ci doivent être liés aux concepts avec lesquels l'entreprise fonctionne, et les corrélations doivent être comprises et acceptées par l'entreprise. Avec des modèles complexes, il pourrait être très difficile d'interpréter les résultats du modèle ou d'attribuer les différences aux réels. Si vous ne pouvez pas expliquer vos modèles aux entreprises, cela ne vous valorisera pas.
Encore une chose qui est particulièrement importante pour les prévisions. Disons que votre modèle dépend de N variables exogènes. Cela signifie que vous devez d'abord obtenir les prévisions de ces variables afin de prévoir votre variable dépendante. Avoir un N plus petit vous facilite la vie, donc un modèle plus simple est plus facile à utiliser.
la source
Peut-être avoir une revue du critère d'information Akaike , un concept que je n'ai découvert que par hasard hier. L'AIC cherche à identifier quel modèle et combien de paramètres sont la meilleure explication pour les observations à la main, plutôt que n'importe quel rasoir d'Occam de base, ou approche parcimonie.
la source