Qu'est-ce qu'un modèle "saturé"?

59

Que veut-on dire quand on dit qu'on a un modèle saturé?

Graham Cookson
la source

Réponses:

36

Un modèle saturé est un modèle dans lequel il existe autant de paramètres estimés que de points de données. Par définition, cela conduira à un ajustement parfait, mais sera peu utile statistiquement, car il ne vous reste aucune donnée pour estimer la variance.

Par exemple, si vous avez 6 points de données et adaptez un polynôme d'ordre 5 aux données, vous aurez un modèle saturé (un paramètre pour chacune des 5 puissances de votre variable indépendante et un pour le terme constant).

James
la source
18
J'ai vu des exemples où un modèle comporte dix points de données et neuf paramètres. En faisant remarquer que le modèle a trop de paramètres, on m'a dit que le R ^ 2 était de 0,999 alors le modèle doit être correct!
csgillespie
4
Comme on peut le lire dans l'article de mon ami Dave, les modèles saturés ne permettent pas, par définition, un ajustement parfait. mais si vous utilisez le polynôme n-1 comme modèle, ils le feront. voir le document fondateur de Sue Doe Nihm sur ce sujet psych.fullerton.edu/mbirnbaum/papers/Nihm_18_1976.pdf
Henrik
24

Un modèle saturé est un modèle surparamétrisé au point qu'il ne fait qu'interpoler les données. Dans certains contextes, tels que la compression et la reconstruction d'image, ce n'est pas nécessairement une mauvaise chose, mais si vous essayez de créer un modèle prédictif, c'est très problématique.

En bref, les modèles saturés conduisent à des prédicteurs de variance extrêmement élevés que le bruit pousse davantage que les données réelles.

En tant qu'expérience théorique, imaginez que vous ayez un modèle saturé et qu'il y ait du bruit dans les données, puis imaginez d'ajuster le modèle plusieurs centaines de fois, à chaque fois avec une réalisation différente du bruit, puis de prédire un nouveau point. Vous êtes susceptible d'obtenir des résultats radicalement différents à chaque fois, à la fois pour votre ajustement et votre prédiction (et les modèles polynomiaux sont particulièrement flagrants à cet égard); autrement dit, la variance de l'ajustement et du prédicteur est extrêmement élevée.

En revanche, un modèle qui n'est pas saturé donnera (s'il est construit de manière raisonnable) des ajustements plus cohérents les uns avec les autres, même en cas de bruit différent, et la variance du prédicteur sera également réduite.

Riches
la source
17

Un modèle est saturé si et seulement si il a autant de paramètres que de points de données (observations). Autrement dit, dans les modèles non saturés, les degrés de liberté sont supérieurs à zéro.

Cela signifie fondamentalement que ce modèle est inutile, car il ne décrit pas les données avec plus de parcimonie que les données brutes (et la description de données avec parcimonie est généralement l’idée derrière l’utilisation d’un modèle). De plus, les modèles saturés peuvent (mais pas nécessairement) fournir un ajustement parfait (inutile) car ils ne font qu'interpoler ou itérer les données.

Prenons par exemple la moyenne comme modèle pour certaines données. Si vous n'avez qu'un seul point de données (par exemple, 5), utiliser la moyenne (c.-à-d. 5; notez que la moyenne est un modèle saturé pour un seul point de données) n'aide en rien. Cependant, si vous avez déjà deux points de données (5 et 7, par exemple), la moyenne (6) est utilisée comme modèle pour vous fournir une description plus parcimonieuse que les données d'origine.

Henrik
la source
8
Ce point à propos de saturé n'impliquant pas un ajustement parfait est la partie la plus intéressante de ce fil. Un exemple naturel d'une telle situation serait la régression monotone . Supposons, par exemple, que vous savez que vos valeurs doivent augmenter avec le temps et que vous effectuez une régression polynomiale, ce qui contraint les polynômes à augmenter. Considérez les données qui ont une erreur, alors parfois elles diminuent un peu. Ensuite, quel que soit le nombre de paramètres que vous utilisez (même lorsque le nombre de valeurs de données est supérieur à celui-ci), vous ne pourrez jamais ajuster ces données à la perfection.
whuber
17

Comme tout le monde l’a déjà dit, cela signifie que vous avez autant de paramètres que vous avez de points de données. Donc, pas de test d'adéquation. Mais cela ne signifie pas que "par définition", le modèle peut parfaitement s’adapter à n’importe quel point de données. Je peux vous dire par expérience personnelle de travailler avec certains modèles saturés qui ne pourraient pas prédire des points de données spécifiques. C'est assez rare, mais possible.

Un autre problème important est que saturé ne signifie pas inutile. Par exemple, dans les modèles mathématiques de la cognition humaine, les paramètres de modèle sont associés à des processus cognitifs spécifiques fondés sur une base théorique. Si un modèle est saturé, vous pouvez tester son adéquation en effectuant des expériences ciblées avec des manipulations qui ne doivent affecter que des paramètres spécifiques. Si les prévisions théoriques correspondent aux différences observées (ou à l'absence de) des estimations de paramètres, on peut dire que le modèle est valide.

Un exemple: imaginons par exemple un modèle comportant deux jeux de paramètres, un pour le traitement cognitif et un autre pour les réponses motrices. Imaginez maintenant que vous avez une expérience avec deux conditions, l'une dans laquelle la capacité de réponse des participants est altérée (ils ne peuvent utiliser qu'une seule main au lieu de deux) et l'autre condition, il n'y a pas d'incapacité. Si le modèle est valide, les différences d'estimation des paramètres pour les deux conditions ne doivent apparaître que pour les paramètres de réponse du moteur.

Sachez également que même si un modèle est non saturé, il peut rester non identifiable, ce qui signifie que différentes combinaisons de valeurs de paramètres produisent le même résultat, ce qui compromet l’adéquation du modèle.

Si vous souhaitez trouver plus d'informations sur ces questions en général, vous pouvez consulter ces documents:

Bamber, D. et van Santen, JPH (1985). Combien de paramètres un modèle peut-il avoir et peut-il toujours être testable? Journal of Mathematical Psychology, 29, 443-473.

Bamber, D. et van Santen, JPH (2000). Comment évaluer la testabilité et l'identifiabilité d'un modèle. Journal of Mathematical Psychology, 44, 20-40.

à votre santé

Dave Kellen
la source
3

C'est également utile si vous devez calculer l'AIC pour un modèle de quasi-vraisemblance. L'estimation de la dispersion devrait provenir du modèle saturé. Vous diviseriez la LR que vous ajustez par la dispersion estimée à partir du modèle saturé dans le calcul de l'AIC.

Stephen Lien
la source
2

Dans le contexte de SEM (ou analyse de chemin), un modèle saturé ou un modèle qui vient d'être identifié est un modèle dans lequel le nombre de paramètres libres correspond exactement au nombre de variances et de covariances uniques. Par exemple, le modèle suivant est un modèle saturé car il y a 3 * 4/2 points de données (variances et covariances uniques) ainsi que 6 paramètres libres à estimer:

un modèle saturé

Ehsan88
la source