Calcul de la probabilité de RMSE

13

J'ai un modèle pour prédire une trajectoire (x en fonction du temps) avec plusieurs paramètres. Pour le moment, je calcule l'erreur quadratique moyenne (RMSE) entre la trajectoire prédite et la trajectoire enregistrée expérimentalement. Actuellement, je minimise cette différence (le RMSE) en utilisant simplex (fminsearch dans matlab). Bien que cette méthode fonctionne pour donner de bons ajustements, je voudrais comparer plusieurs modèles différents, donc je pense que je dois calculer la probabilité afin de pouvoir utiliser l'estimation du maximum de vraisemblance plutôt que de minimiser le RMSE (puis comparer les modèles en utilisant AIC ou BIC ). Existe-t-il un moyen standard de procéder?

Jason
la source

Réponses:

20

L'erreur quadratique moyenne et la probabilité sont en fait étroitement liées. Supposons que vous disposez d'un ensemble de données de paires et que vous souhaitez modéliser leur relation à l'aide du modèle f . Vous décidez de minimiser l'erreur quadratique{Xje,zje}F

je(F(Xje)-zje)2

Ce choix n'est-il pas totalement arbitraire? Bien sûr, vous voulez pénaliser davantage les estimations qui sont complètement fausses que celles qui sont à peu près correctes. Mais il y a une très bonne raison d'utiliser l'erreur quadratique.

Rappelez-vous la densité gaussienne: Zest la constante de normalisation dont nous ne nous soucions pas pour l'instant. Supposons que vos données cibleszsoient distribuées selon une gaussienne. Nous pouvons donc noter la probabilité des données.1Zexp-(X-μ)22σ2Zz

L=je1Zexp-(F(Xje)-zje)22σ2

Maintenant, si vous prenez le logarithme de cela ...

JournalL=je-(F(Xje)-zje)22σ2-JournalZ

... il s'avère qu'il est très étroitement lié à la valeur efficace: les seules différences sont des termes constants, une racine carrée et une multiplication.

Pour faire court: minimiser l'erreur quadratique moyenne équivaut à maximiser la vraisemblance logarithmique des données.

bayerj
la source
Merci pour l'explication claire. Donc, si je veux comparer deux modèles (non intégrés) à l'aide de BIC, je peux simplement supprimer les termes sigma ^ 2 et Z (en supposant effectivement qu'ils sont identiques entre les modèles) lors du calcul de la probabilité?
Jason
σσ
1
JournalL=je(F(Xje)-zje)22σ2-JournalZ
2
Y a-t-il un signe négatif manquant dans la distribution gaussienne?
Manoj
1
La conclusion ne devrait-elle pas être le contraire? La minimisation de la somme des erreurs quadratiques maximise la log-vraisemblance (pour unσ), et maximise ainsi la probabilité (puisque log est monotone).
Tim Goodman