Quel est le sens de "Tous les modèles sont faux, mais certains sont utiles"

76

"En gros, tous les modèles sont faux, mais certains sont utiles."

--- Box, George EP; Norman R. Draper (1987). Modèles empiriques de construction et surfaces de réaction, p. 424, Wiley. ISBN 0471810339.

Quel est exactement le sens de la phrase ci-dessus?

gpuguy
la source
13
Le même livre a déjà été mentionné: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.Peut-être que ceci est plus utile.
usεr11852 dit Rétablir Monic

Réponses:

101

Je pense que sa signification est mieux analysée en la regardant en deux parties:

"Tous les modèles ont tort", c’est-à-dire que chaque modèle est faux car c’est une simplification de la réalité. Certains modèles, en particulier dans les sciences "dures", ne sont qu'un peu faux. Ils ignorent des choses comme la friction ou l’effet gravitationnel de corps minuscules. Les autres modèles sont très faux - ils ignorent les choses plus importantes. En sciences sociales, nous ignorons beaucoup.

"Mais certains sont utiles" - des simplifications de la réalité peuvent être très utiles. Ils peuvent nous aider à expliquer, prédire et comprendre l'univers et toutes ses composantes.

Ce n'est pas juste vrai dans les statistiques! Les cartes sont un type de modèle. ils ont tort. Mais les bonnes cartes sont très utiles. Des exemples d'autres modèles utiles mais erronés abondent.

Peter Flom - Rétablir Monica
la source
20
+1 Parce que j'aime l'analogie des cartes. Je vais l'utiliser dans le futur!
usεr11852 dit Rétablir Monic
4
De nombreux modèles dans les sciences "dures" sont également assez éloignés (hier, j'ai assisté à un séminaire où les mesures étaient effectuées dans le modèle d'erreur, mais l'erreur était de deux ordres de grandeur).
gerrit
7
+1 Je pense que votre phrase clé est "chaque modèle a tort car c'est une simplification de la réalité". Les gens l'oublient souvent - par exemple dans les critiques naïves d'économie (j'ai mes propres critiques, mais elles doivent être plus sophistiquées que simplement "la réalité est plus complexe que votre modèle"). Si nous ne le simplifions pas, vous avez une réalité brute, trop complexe pour que nous puissions la comprendre. Nous devons donc le simplifier pour obtenir un aperçu.
Peter Ellis
13
Le fantasme d’une carte parfaite à l’échelle 1: 1 a été utilisé par de nombreux auteurs, dont Lewis Carroll, Jorge Luis Borges et Umberto Eco. En fait, cela ne servirait à rien car ce serait forcément simplement compliqué en raison de la zone qu’il cartographiera et non plus facile à comprendre (sans parler de la maladresse de le déplier et de le présenter à la lecture).
Nick Cox
2
Peut-être pourriez-vous également ajouter qu'un modèle doit être un peu faux, car sinon il ne généraliserait pas et ne serait donc pas applicable ailleurs. Certaines réponses le disent plus bas. Mais il y a maintenant trop de réponses pour toutes les lire.
Ziggystar
9

Cela signifie que des informations utiles peuvent être fournies par des modèles qui ne représentent pas parfaitement les phénomènes qu’ils modélisent.

Un modèle statistique est une description d'un système utilisant des concepts mathématiques. En tant que tel, dans de nombreux cas, vous ajoutez une certaine couche d’abstraction pour faciliter votre procédure inférentielle (par exemple, la normalité des erreurs de mesure, la symétrie composée dans les structures de corrélation, etc.). Il est presque impossible pour un modèle unique de décrire parfaitement un phénomène du monde réel si nous avons une vision subjective du monde (notre système sensoriel n'est pas parfait); Néanmoins, une inférence statistique réussie se produit car notre monde exploite un certain degré de cohérence. Donc, nos modèles presque toujours faux s'avèrent utiles .

(Je suis sûr que vous aurez bientôt une grande réponse en gras, mais j'ai essayé d'être concis à ce sujet!)

usεr11852 dit Réintégrer Monic
la source
Peut-on dire que ces modèles utiles apportent des solutions approximatives?
Gpuguy
2
@ gpuguy: Bien sûr, vous pouvez. Pour citer John Tukey: An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.(. En fait , je chose la citation de JT est étonnamment perspicace)
usεr11852 dit Réintégrer Monic
6
"Mieux vaut une réponse approximative à la bonne question, souvent vague, qu'une réponse exacte à la mauvaise question, qui peut toujours être précisée." John W. Tukey 1962 L'avenir de l'analyse des données. Annals of Mathematical Statistics 33: 1-67 (voir pp.13-14) Il a sans doute dit des choses semblables à d'autres moments, mais c'est la source habituelle.
Nick Cox
J'ai copié la citation directement à partir du fil de citation du CV correspondant.
usεr11852 dit Rétablir Monic
6
J'ai copié le mien de la publication originale.
Nick Cox
6

J'ai trouvé que cette intervention de Thad Tarpey sur la JSA en 2009 fournissait une explication et des commentaires utiles sur le passage de la boîte. Il soutient que si nous considérons les modèles comme des approximations de la vérité, nous pourrions tout aussi bien appeler tous les modèles.

Voici le résumé:

Les étudiants en statistiques sont souvent initiés à la célèbre citation de George Box: «Tous les modèles sont erronés, certains sont utiles». Dans cet exposé, je soutiens que cette citation, bien qu'utile, est fausse. Une perspective différente et plus positive consiste à reconnaître qu'un modèle est simplement un moyen d'extraire des informations d'intérêt à partir de données. La vérité est infiniment complexe et un modèle n’est qu’une approximation de la vérité. Si l'approximation est mauvaise ou trompeuse, le modèle est inutile. Dans cet exposé, je donne des exemples de modèles corrects qui ne sont pas de vrais modèles. Je montre comment la notion de «mauvais» modèle peut conduire à des conclusions erronées.

Dimitriy V. Masterov
la source
3

Pour moi, la compréhension réelle réside dans l'aspect suivant:

Un modèle n'a pas besoin d'être correct pour être utile.

Malheureusement, dans de nombreuses sciences, on oublie souvent que les modèles ne doivent pas nécessairement être des représentations exactes de la réalité pour permettre de nouvelles découvertes et prédictions!

Alors ne perdez pas votre temps à construire un modèle compliqué qui nécessite des mesures précises d’une myriade de variables. Le vrai génie invente un modèle simple qui fait le travail.

utilisateur12719
la source
3

Un modèle ne peut pas fournir des prévisions précises à 100% s'il existe un quelconque aléa dans les résultats. S'il n'y avait pas d'incertitude, pas de hasard, ni d'erreur, alors cela serait considéré comme un fait plutôt que comme un modèle. La première est très importante, car les modèles sont fréquemment utilisés pour modéliser les attentes d'événements qui ne se sont pas produits. Cela garantit presque qu'il y a une incertitude sur les événements réels.

En théorie, il serait peut-être possible de créer un modèle donnant des prévisions parfaites pour des événements aussi connus. Cependant, même dans ces circonstances improbables, un tel modèle peut être si complexe qu'il est impossible à utiliser, et ne peut être précis qu'à un moment donné, car d'autres facteurs changent la façon dont les valeurs changent avec les événements.

Comme la plupart des données du monde réel comportent des incertitudes et des aléas, les efforts pour obtenir un modèle parfait sont un exercice futile. Au lieu de cela, il est plus intéressant de chercher à obtenir un modèle suffisamment précis, suffisamment simple pour être utilisable à la fois en termes de données et de calcul requis pour leur utilisation. Bien que ces modèles soient réputés imparfaits, certaines de ces failles sont bien connues et peuvent être prises en compte pour la prise de décision en fonction de ces modèles.

Des modèles plus simples peuvent être imparfaits, mais ils sont également plus faciles à raisonner, à se comparer, et peuvent être plus faciles à utiliser car ils sont susceptibles de nécessiter moins de calcul.

David Burton
la source
3

Si vous me le permettez, un seul commentaire de plus pourrait être utile. La version du prase que je préfère est

(...) tous les modèles sont des approximations. Essentiellement, tous les modèles sont erronés, mais certains sont utiles (...)

extrait de Response Surfaces, Mixtures, and Ridge Analyses de Box et Draper (2007, p. 414, Wiley). En regardant la citation détaillée, on voit plus clairement ce que Box voulait dire - la modélisation statistique consiste à approximer la réalité et cette approximation n’est jamais exacte; il s’agit donc de trouver l’ approximation la plus appropriée . Ce qui convient à votre objectif est une chose subjective, c’est pourquoi ce n’est pas l’un des modèles qui est utile, mais peut-être que certains le sont, en fonction du but de la modélisation.

Tim
la source
3

Comme personne ne l'a ajouté, George Box a utilisé la phase citée pour introduire la section suivante dans un livre. Je crois qu'il fait le meilleur travail pour expliquer ce qu'il voulait dire:

Il serait maintenant très remarquable qu'un système simple puisse représenter exactement un système existant dans le monde réel . Cependant, des modèles parcimonieux judicieusement choisis fournissent souvent des approximations remarquablement utiles. Par exemple, la loi liant la pression , le volume et la température d’un gaz "idéal" via une constante n’est pas tout à fait vraie pour un gaz réel, mais elle fournit fréquemment une approximation utile et sa structure est informative, car il découle d'une vue physique du comportement des molécules de gaz.PV=RTPVTR

Pour un tel modèle, il n'est pas nécessaire de poser la question "Le modèle est-il vrai?". Si la "vérité" doit être la "vérité entière", la réponse doit être "Non". La seule question d'intérêt est "Le modèle est-il éclairant et utile?".

Box, GEP (1979), "Robustesse dans la stratégie de construction de modèles scientifiques", in Launer, RL; Wilkinson, GN, La robustesse dans les statistiques , Academic Press, p. 201-236.

Tavrock
la source
2

Vous pourriez penser de cette façon. la complexité maximale (c'est-à-dire l'entropie) d'un objet obéit à une certaine forme du lien de Bekenstein :

I2πREcln2

où est l'énergie de repos totale, masse comprise, et le rayon d'une sphère qui entoure l'objet.ER

C'est un grand nombre, dans la plupart des cas:

La limite de Bekenstein pour un cerveau humain moyen serait de bits et représente une limite supérieure sur les informations nécessaires pour recréer parfaitement le cerveau humain moyen jusqu'au niveau quantique. Cela implique que le nombre d'états différents ( ) du cerveau humain (et de l'esprit si le physicalisme est vrai) est d'au plus .2.58991·1042Ω=2I107.79640·1041

Voulez-vous donc utiliser "la meilleure carte", c'est-à-dire le territoire lui-même, avec toutes les équations d'onde correspondant à toutes les particules de chaque cellule? Absolument pas. Non seulement ce serait un désastre informatique, mais vous modéliseriez des choses qui n'ont peut-être rien à voir avec ce qui vous intéresse. Si tout ce que vous voulez faire est, par exemple, d'identifier si je suis réveillé ou non, vous n'avez pas besoin de savoir ce que l'électron # 32458 fait dans le neurone # 844030, molécule # 2 du ribosome # 2305. Si vous ne modélisez pas cela, votre modèle est en effet "faux", mais si vous pouvez identifier si je suis réveillé ou non, votre modèle est certainement utile.

étoile brillante
la source
2

Je pense que Peter et user11852 ont donné d'excellentes réponses. J'ajouterais également (par négation) que si un modèle était vraiment bon, il serait probablement inutile en raison d'une configuration excessive (par conséquent, non généralisable).

Thomas Speidel
la source
2
+1 pour le point d'overfitting. Des algorithmes tels que Naive Bayes et l'analyse discriminante linéaire fonctionnent souvent très bien, même si vous savez que le modèle sous-jacent est incorrect (par exemple, le filtrage anti-spam), tout simplement parce que moins de données sont nécessaires pour estimer les paramètres.
Dikran Marsupial
1

Mon interprétation est la suivante: Croire qu’un modèle mathématique décrit exactement tous les facteurs et leurs interactions gouvernant un phénomène intéressant serait trop simpliste et arrogant. Nous ne savons même pas si la logique que nous utilisons est suffisante pour comprendre notre univers. Cependant, certains modèles mathématiques représentent une approximation assez bonne (en termes de méthode scientifique) qui est utile pour tirer des conclusions sur un tel phénomène.

H2SO4
la source
1

En tant qu'astrostatisticien (une race rare peut-être), je trouve la renommée du dicton de Box malheureuse. En sciences physiques, nous avons souvent un fort consensus pour comprendre les processus sous-jacents d’un phénomène observé, et ces processus peuvent souvent être exprimés par des modèles mathématiques issus des lois de la gravitation, de la mécanique quantique, de la thermodynamique, etc. Les objectifs statistiques consistent à estimer les propriétés physiques des paramètres de modèle les mieux adaptés, ainsi que la sélection et la validation du modèle. Un cas dramatique s'est récemment présenté lors de la publication, en mars 2013, de documents du satellite Planck de l'Agence spatiale européenne.Les mesures du fond micro-onde cosmique établissent de manière convaincante un modèle simple `LambdaCDM 'à 6 paramètres pour le Big Bang. Je doute que le dicton de Box s’applique n'importe où dans le large éventail de méthodes statistiques avancées utilisées dans ces 29 documents.

Eric Feigelson
la source
1

Je viens de reformuler la réponse ci-dessus en considérant les modèles de processus comme un point central. La déclaration peut être interprétée comme suit:

"Tous les modèles ont tort", c’est-à-dire que chaque modèle est faux car c’est une simplification de la réalité. Certains modèles ne sont qu'un peu faux. Ils ignorent certaines choses, par exemple: -> les exigences changeantes, -> l'ignorance du projet dans les délais, -> le fait de ne pas prendre en compte le niveau de qualité souhaité par le client, etc. de plus grandes choses. Les modèles de processus logiciels classiques ignorent beaucoup de choses comparés aux modèles de processus agiles qui en ignorent moins.

"Mais certains sont utiles" - des simplifications de la réalité peuvent être très utiles. Ils peuvent nous aider à expliquer, prévoir et comprendre le projet dans son ensemble et ses différentes composantes. Les modèles sont utilisés car leurs fonctionnalités correspondent à la plupart des programmes de développement logiciel.

Srinath
la source
0

Je voudrais donner une autre interprétation du terme "utile". Probablement pas celui auquel Box pensait.

Lorsque vous devez prendre des décisions et que toutes les informations seront finalement utilisées, vous devez mesurer votre succès sous une forme ou une autre. Quand on parle de décisions avec des informations incertaines, cette mesure est souvent appelée utilité.

Nous pouvons donc aussi penser aux modèles utiles comme à ceux qui nous permettent de prendre des décisions plus éclairées; pour atteindre nos objectifs plus efficacement.

Cela ajoute une autre dimension aux critères habituels, tels que la capacité d'un modèle à prédire correctement quelque chose: cela nous permet de comparer les différents aspects d'un modèle.

ziggystar
la source
-2

"Tous les modèles sont faux, mais certains sont utiles". Cela signifie peut-être que: nous devrions faire de notre mieux avec ce que nous savons + rechercher de nouveaux apprentissages?

Jan
la source
4
(-1) Pouvez-vous fournir une référence suggérant que GEP Box voulait dire cela? Comme vous pouvez le constater dans les autres réponses, il voulait dire quelque chose de totalement différent.
Tim
Le PO prend peut-être la citation et lui donne une nouvelle interprétation. Je suis d’accord avec Tim pour dire que Box disait plus ou moins que le modèle n’est pas une interprétation exacte de la réalité, mais que certains modèles peuvent bien décrire les données.
Michael Chernick