Un modèle est-il adapté aux données ou les données sont-elles adaptées à un modèle?

20

Existe-t-il une différence conceptuelle ou procédurale entre l'ajustement d'un modèle aux données et l'ajustement des données au modèle? Un exemple de la première formulation peut être vu dans https://courses.washington.edu/matlab1/ModelFitting.html , et de la seconde dans https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .

enjayes
la source
7
+1 Je ne suis pas impressionné par le deuxième lien, mais je suis amusé.
Le
De nombreux modèles correspondent aux données actuelles, mais les données correspondent généralement mieux à un modèle
Agnius Vasiliauskas

Réponses:

35

Presque toutes les sources ou personnes avec lesquelles j'ai jamais interagi, à l' exception de la source Wolfram que vous avez liée, font référence au processus comme ajustant un modèle aux données . Cela a du sens, car le modèle est l'objet dynamique et les données sont statiques (c'est-à-dire fixes et constantes).

Pour mettre un point là-dessus, j'aime l'approche de Larry Wasserman à ce sujet. Dans son récit, un modèle statistique est un ensemble de distributions. Par exemple, la collection de toutes les distributions normales:

{Normal(μ,σ):μ,σR,σ>0}

ou l'ensemble de toutes les distributions de Poisson:

{Poisson(λ):λR,λ>0}

L'ajustement d'une distribution aux données est un algorithme qui combine un modèle statistique avec un ensemble de données (les données sont fixes) et choisit exactement l'une des distributions du modèle comme celle qui reflète le mieux les données.

Le modèle est la chose qui change (en quelque sorte): nous le réduisons d'une collection entière de possibilités en un seul meilleur choix. Les données ne sont que des données; rien ne lui arrive du tout.

Matthew Drury
la source
16

Dans le domaine de la modélisation Rasch, il est courant d'adapter les données au modèle. Le modèle est supposé être correct et c'est le travail de l'analyste de trouver des données qui lui sont conformes. L' article Wikipedia sur Rasch contient plus de détails sur le comment et le pourquoi.

Mais je suis d'accord avec d'autres pour dire qu'en général, dans les statistiques, nous adaptons le modèle aux données parce que nous pouvons changer le modèle, mais nous pensons que c'est une mauvaise forme de sélectionner ou de modifier les données.

mdewey
la source
7

En règle générale, les données observées sont fixes pendant que le modèle est modifiable (par exemple parce que les paramètres sont estimés), c'est donc le modèle qui est conçu pour s'adapter aux données, et non l'inverse . (Habituellement, les gens parlent de ce cas lorsqu'ils disent l'une ou l'autre expression.)

Quand les gens disent qu'ils adaptent les données à un modèle, je me retrouve à essayer de comprendre ce qu'ils ont fait pour les données? .

[Maintenant, si vous transformez des données , ce serait sans doute «adapter les données à un modèle», mais les gens ne disent presque jamais cela dans ce cas.]

Glen_b -Reinstate Monica
la source
5
Supprimer les valeurs aberrantes serait également (sans doute) «ajuster les données à un modèle».
Federico Poloni
1
Le libellé pourrait avoir du sens s'ils le considèrent comme "adapté (données à un modèle)". Autrement dit, vous effectuez un processus d'ajustement, et ce processus d'ajustement commence à partir des données et les transforme en modèle. Je suis d'accord que c'est une interprétation moins courante / précise par rapport à l'analyse "(ajustement X) à Y", mais je l'ai expliqué pour expliquer pourquoi quelqu'un pourrait logiquement le dire.
RM
1
@FedericoPoloni Les valeurs aberrantes sont généralement définies indépendamment du modèle que vous souhaitez utiliser ultérieurement. Donc, même si nous voulions l'appeler des données ajustées, ce ne serait pas un modèle, mais quelque chose d'autre.
BartoszKP
1
+1. Il y a une raison pour laquelle on l'appelle "données" - c'est ce qui est donné , voir l'origine latine du mot: latindictionary.wikidot.com/verb:dare
Christoph Hanck
2

Habituellement, nous supposons que nos données correspondent au «monde réel» et apporter des modifications signifie que nous nous éloignons de la modélisation du «monde réel». Par exemple, il faut prendre soin de supprimer les valeurs aberrantes car même si cela rend le calcul plus agréable, les valeurs aberrantes faisaient toujours partie de nos données.

Lors du test d'un modèle ou de l'estimation des propriétés d'un estimateur à l'aide du bootstrap ou d'autres techniques de rééchantillonnage, nous pouvons simuler de nouvelles données à l' aide d'un modèle estimé et de nos données d'origine. Cela suppose que le modèle est correct et nous ne modifions pas nos données d'origine.

qwr
la source