La parcimonie devrait-elle vraiment rester l'étalon-or?

31

Juste une pensée:

Les modèles parcimonieux ont toujours été la référence par défaut dans la sélection des modèles, mais dans quelle mesure cette approche est-elle dépassée? Je suis curieux de savoir à quel point notre tendance à la parcimonie est une relique d'une époque d'abaci et de règles de diapositives (ou, plus sérieusement, d'ordinateurs non modernes). La puissance de calcul actuelle nous permet de construire des modèles de plus en plus complexes avec une capacité de prédiction toujours plus grande. Du fait de l'augmentation de ce plafond de puissance de calcul, devons-nous vraiment encore graviter vers la simplicité?

Bien sûr, les modèles plus simples sont plus faciles à comprendre et à interpréter, mais à l'ère des ensembles de données toujours plus nombreux avec un plus grand nombre de variables et une évolution vers une plus grande concentration sur la capacité de prédiction, cela pourrait même ne plus être réalisable ou nécessaire.

Pensées?

le forestier
la source
4
Toutes mes excuses à Richard Hamming: Le but de la modélisation est la perspicacité, pas les chiffres. Les modèles compliqués empêchent la compréhension.
Eric Towers
12
Les modèles trop simplifiés entravent encore plus la compréhension.
Frank Harrell
6
Cela peut dépendre de l'application; en physique, je pense que l'argument de la parcimonie aura une base solide. Cependant, de nombreuses applications auront une multitude de petits effets qui ne peuvent pas être éliminés (pensez aux modèles de préférences politiques, par exemple). Un certain nombre de travailleurs suggèrent que le recours à la régularisation (comme les méthodes qui entraînent un rétrécissement ou, dans de nombreuses applications, le rétrécissement des différences, ou les deux) plutôt que l'élimination des variables est plus logique; d'autres penchent vers une certaine sélection et un certain rétrécissement (LASSO par exemple, fait les deux).
Glen_b -Reinstate Monica
3
Les modèles parcimonieux ne sont pas le «go-to» dans la sélection des modèles. Sinon, nous modéliserions toujours tout avec sa moyenne d'échantillon et l'appellerions un jour.
shadowtalker
1
Aussi, quelques pistes de réflexion: Mease et Wyner (2008) recommandent des apprenants plus riches en AdaBoost, ce qui est un peu peu intuitif. Une question ouverte dans ce domaine de recherche semble être de savoir si les apprenants de base parcimonieux conduisent réellement à des ensembles parcimonieux.
shadowtalker

Réponses:

25

@ La réponse originale de Matt décrit très bien l'un des avantages de la parcimonie, mais je ne pense pas qu'elle réponde réellement à votre question. En réalité, la parcimonie n'est pas l'étalon-or. Pas maintenant ni jamais. Un «étalon-or» lié à la parcimonie est l'erreur de généralisation. Nous aimerions développer des modèles qui ne sont pas trop ajustés. Ils sont aussi utiles pour la prédiction (ou aussi interprétables ou avec une erreur minimale) hors échantillon qu'ils le sont dans l'échantillon. Il s'avère (à cause des choses exposées ci-dessus) que la parcimonie est en fait un bon proxy pour l'erreur de généralisation mais ce n'est en aucun cas le seul.

Vraiment, réfléchissez à la raison pour laquelle nous utilisons la validation croisée ou l'amorçage ou les ensembles de formation / test. L'objectif est de créer des modèles avec une bonne précision de généralisation. La plupart du temps, ces façons d'estimer les performances hors échantillon finissent par choisir des modèles moins complexes mais pas toujours. Comme exemple extrême, imaginez que l'oracle nous tend le modèle vrai mais extrêmement complexe et un modèle pauvre mais parcimonieux. Si la parcimonie était vraiment notre objectif, nous choisirions le second mais en réalité, le premier est ce que nous aimerions apprendre si nous le pouvions. Malheureusement, la plupart du temps, la dernière phrase est le kicker, "si nous le pouvions".

Nick Thieme
la source
Quelle est "la réponse originale"?
mattdm
:) C'est suffisant. Commentaire de Matt.
Nick Thieme
22

Des modèles parcimonieux sont souhaitables non seulement en raison des exigences informatiques, mais aussi pour les performances de généralisation. Il est impossible d'atteindre l'idéal de données infinies qui couvrent complètement et précisément l'espace d'échantillonnage, ce qui signifie que les modèles non parcimonieux ont le potentiel de s'adapter et de modéliser le bruit ou les idiosyncrasies dans la population de l'échantillon.

Il est certainement possible de construire un modèle avec des millions de variables, mais vous utiliseriez des variables qui n'ont aucun impact sur la sortie pour modéliser le système. Vous pouvez obtenir d'excellentes performances prédictives sur votre ensemble de données d'entraînement, mais ces variables non pertinentes diminueront plus que probablement vos performances sur un ensemble de tests invisibles.

Si une variable de sortie est vraiment le résultat d'un million de variables d'entrée, vous feriez bien de les mettre toutes dans votre modèle prédictif, mais uniquement si vous disposez de suffisamment de données . Pour construire avec précision un modèle de cette taille, vous auriez besoin de plusieurs millions de points de données, au minimum. Les modèles parcimonieux sont agréables car dans de nombreux systèmes du monde réel, un ensemble de données de cette taille n'est tout simplement pas disponible, et en outre, la sortie est largement déterminée par un nombre relativement faible de variables.

Nuclear Wang
la source
5
+1. Je suggère de lire The Elements of Statistical Learning (disponible gratuitement sur le web) , qui traite de ce problème en profondeur.
S.Kolassa - Reinstate Monica
3
D'un autre côté, lorsque vous avez des millions de variables et peu d'objets, il est probable que, purement par hasard, certaines variables expliquent mieux le résultat que la véritable interaction. Dans ce cas, la modélisation basée sur la parcimonie sera plus susceptible de sur-adapter qu'une approche par force brute.
@CagdasOzgenc Par exemple, un grand ensemble de sous-espaces aléatoires.
J'ai l'impression que quelque chose comme une approche Lasso pourrait s'appliquer ici.
theforestecologist
17

Je pense que les réponses précédentes font du bon travail en soulignant des points importants:

  • Les modèles parcimonieux ont généralement de meilleures caractéristiques de généralisation.
  • La parcimonie n'est pas vraiment un étalon-or, mais juste une considération.

Je veux ajouter quelques commentaires qui découlent de mon expérience professionnelle au jour le jour.

La généralisation de l'argument de l'exactitude prédictive est, bien sûr, forte, mais est académiquement biaisée dans sa focalisation. En général, lors de la production d'un modèle statistique, les économies ne sont pas telles que la performance prédictive est une considération complètement dominante. Très souvent, il existe de grandes contraintes extérieures sur l'apparence d'un modèle utile pour une application donnée:

  • Le modèle doit être réalisable dans un cadre ou un système existant.
  • Le modèle doit être compréhensible par une entité non technique.
  • Le modèle doit être efficace sur le plan informatique.
  • Le modèle doit être documentable .
  • Le modèle doit passer des contraintes réglementaires .

Dans les domaines d'application réels, bon nombre de ces considérations, sinon toutes, viennent avant , et non après , les performances prédictives - et l'optimisation de la forme et des paramètres du modèle est limitée par ces désirs. Chacune de ces contraintes incite le scientifique à la parcimonie.

Il est peut-être vrai que dans de nombreux domaines ces contraintes sont progressivement levées. Mais c'est le scientifique chanceux qui parvient à les ignorer se concentre uniquement sur la minimisation des erreurs de généralisation.

Cela peut être très frustrant pour la première fois scientifique, fraîchement sorti de l'école (c'était définitivement pour moi, et continue de l'être quand je sens que les contraintes imposées à mon travail ne sont pas justifiées). Mais en fin de compte, travailler dur pour produire un produit inacceptable est un gaspillage, ce qui est pire que la piqûre de votre fierté scientifique.

Matthew Drury
la source
2
Aucune parcimonie n'est pas une considération. Une procédure d'inférence solide DOIT classer un modèle parcimonieux par rapport à un modèle non parcimonieux si elles expliquent aussi bien les données. Sinon, la longueur de code compressée totale du modèle et les données codées par le modèle ne seront pas les plus petites. Alors oui, c'est un étalon-or.
Cagdas Ozgenc
3
La parcimonie n'est PAS un "étalon or"! Cette déclaration est absurde. Si c'était vrai, alors pourquoi ne construisons-nous pas toujours des modèles qui ne correspondent qu'à la moyenne inconditionnelle? Nous échangeons le biais et la variance par rapport à un ensemble de tests ou, mieux encore, à des observations complètement nouvelles, et nous le faisons dans les limites de notre domaine, de notre organisation et de la loi. Parfois, vous n'avez que suffisamment d'informations pour faire des prédictions naïves. Parfois, vous en avez assez pour ajouter de la complexité.
Brash Equilibrium
1
@BrashEquilibrium Je pense que ce que dit Cagdas est, étant donné le choix entre des modèles également prédictifs, on devrait choisir le plus parcimonieux.
Matthew Drury
1
Ah. C'est une chose différente. Oui, dans ce cas, choisissez le modèle le plus parcimonieux. Je ne pense toujours pas que cela équivaut à la parcimonie étant un «étalon or».
Brash Equilibrium
1
@MatthewDrury Brash, Cagdas. Intéressant. Peut-être que la parcimonie n'est qu'un élément de l'étalon-or; qui est probablement (ou devrait être) mieux fondée sur la notion d’ englobant . Une bonne exposition de cette idée est fournie dans la conférence d'astrophysique suivante de Yale: oyc.yale.edu/astronomy/astr-160/lecture-11 . 7h04. L'idée figure également dans la littérature économétrique / prévisionnelle de David Hendry et Grayham Mizon. Ils soutiennent que l'intégration fait partie d'une stratégie de recherche progressive, dont la parcimonie est un aspect unique.
Graeme Walsh
14

Je pense que c'est une très bonne question. À mon avis, la parcimonie est surfaite. La nature est rarement parcimonieuse, et nous ne devons donc pas nécessairement nous attendre à ce que des modèles prédictifs ou descriptifs précis le soient également. Concernant la question de l'interprétabilité, si vous choisissez un modèle plus simple qui ne se conforme que modestement à la réalité simplement parce que vous pouvez le comprendre, que comprenez-vous exactement? En supposant qu'un modèle plus complexe ait un meilleur pouvoir prédictif, il semblerait de toute façon plus proche des faits réels.

dsaxton
la source
8
Bien dit @dsaxton. Il y a une grande incompréhension de la parcimonie et une grande sous-appréciation de la volatilité de la sélection des fonctionnalités. La parcimonie est agréable lorsqu'elle résulte d'une pré-spécification. La plupart des parcimonies résultant du dragage de données sont trompeuses et ne sont comprises que parce qu'elles sont erronées.
Frank Harrell
2
@FrankHarrell Pourriez-vous développer sur "seulement compris parce que c'est faux", ou peut-être un lien vers quelque chose que vous avez écrit précédemment à ce sujet? C'est un point intéressant que je voudrais m'assurer de bien comprendre.
gui11aume
8
C'est un exemple extrême, mais les personnes qui pratiquent le profilage racial pensent qu'elles comprennent, avec une seule caractéristique (par exemple, la couleur de la peau), quelle valeur a quelqu'un. Pour eux, la réponse est simple. Ils ne le comprennent que parce qu'ils font un mauvais jugement en simplifiant à l'excès. La parcimonie est généralement une illusion (sauf en mécanique newtonienne et dans quelques autres domaines).
Frank Harrell
1
"La nature est rarement parcimonieuse": et un point où la nature est particulièrement non parcimonieuse est les individus (par opposition à nos tailles d'échantillons typiques!). L'évolution utilise une toute nouvelle population d'individus nouveaux à chaque génération ... il s'agit d'une fraction non si petite de l'espace de recherche d'origine). C'est ainsi que nous essayons d'obtenir au moins quelque chose de nos ensembles de données bien trop petits.
cbeleites prend en charge Monica
2

La parcimonie n'est pas un début d'or. C'est un aspect de la modélisation. La modélisation et en particulier les prévisions ne peuvent pas être scriptées, c'est-à-dire que vous ne pouvez pas simplement remettre un script à un modeleur à suivre. Vous définissez plutôt des principes sur lesquels le processus de modélisation doit être basé. Ainsi, la parcimonie est l'un de ces principes, dont l'application ne peut pas être scriptée (encore!). Un modélisateur tiendra compte de la complexité lors de la sélection d'un modèle.

La puissance de calcul n'a pas grand-chose à voir avec cela. Si vous êtes dans l'industrie, vos modèles seront consommés par des gens d'affaires, des gens du produit, peu importe qui vous les appelez. Vous devez leur expliquer votre modèle, cela devrait leur donner un sens . Ayant des modèles parcimonieux aide à cet égard.

Par exemple, vous prévoyez des ventes de produits. Vous devriez être en mesure de décrire quels sont les moteurs des ventes et comment ils fonctionnent. Ceux-ci doivent être liés aux concepts avec lesquels l'entreprise fonctionne, et les corrélations doivent être comprises et acceptées par l'entreprise. Avec des modèles complexes, il pourrait être très difficile d'interpréter les résultats du modèle ou d'attribuer les différences aux réels. Si vous ne pouvez pas expliquer vos modèles aux entreprises, cela ne vous valorisera pas.

Encore une chose qui est particulièrement importante pour les prévisions. Disons que votre modèle dépend de N variables exogènes. Cela signifie que vous devez d'abord obtenir les prévisions de ces variables afin de prévoir votre variable dépendante. Avoir un N plus petit vous facilite la vie, donc un modèle plus simple est plus facile à utiliser.

Aksakal
la source
Bien que vous mentionniez la prévision, la plupart de vos réponses semblent s'appliquer uniquement à la modélisation explicative.
rolando2
@ rolando2, cela ressemble à ça parce que dans mon domaine, vous ne pouvez pas simplement remettre les prévisions aux utilisateurs. Nous devons expliquer les prévisions, les relier aux chauffeurs, etc. Lorsque vous obtenez des prévisions météorologiques, vous ne demandez généralement pas au prévisionniste de vous expliquer pourquoi il pense qu'il va pleuvoir avec 50% de chances. Dans mon cas, je dois non seulement le faire, mais le faire de manière à ce que mes consommateurs comprennent les résultats en le reliant aux moteurs commerciaux auxquels ils font face quotidiennement. C'est pourquoi la parcimonie est précieuse à part entière
Aksakal
1

Peut-être avoir une revue du critère d'information Akaike , un concept que je n'ai découvert que par hasard hier. L'AIC cherche à identifier quel modèle et combien de paramètres sont la meilleure explication pour les observations à la main, plutôt que n'importe quel rasoir d'Occam de base, ou approche parcimonie.

Philip Oakley
la source