J'ai pris un échantillon de points de données d'une population. Chacun de ces points a une vraie valeur (connue de la vérité terrain) et une valeur estimée. Je calcule ensuite l'erreur pour chaque point échantillonné, puis calcule le RMSE de l'échantillon.
Comment puis-je déduire une sorte d'intervalle de confiance autour de ce RMSE, basé sur la taille de l'échantillon ?
Si j'utilisais la moyenne, plutôt que le RMSE, je n'aurais aucun problème à le faire car je peux utiliser l'équation standard
mais je ne sais pas si cela est valable pour RMSE plutôt que la moyenne. Existe-t-il un moyen de l'adapter?
(J'ai vu cette question , mais je n'ai aucun problème à savoir si ma population est normalement répartie, ce qui est la réponse là-bas)
confidence-interval
robintw
la source
la source
Réponses:
Avec un raisonnement similaire à celui- ci , je pourrai peut-être répondre à votre question sous certaines conditions.
Soit votre vraie valeur pour le point de données et la valeur estimée. Si nous supposons que les différences entre les valeurs estimées et vraies ont i t h x ixi ith x^i
signifie zéro (c'est-à-dire que les sont répartis autour de )xix^i xi
suivre une distribution normale
et tous ont le même écart-typeσ
en bref:
alors vous voulez vraiment un intervalle de confiance pour .σ
Si les hypothèses ci-dessus sont vraies suit une distribution avec (pas ) degrés de liberté. Ça signifie χ 2 n nn-1
Par conséquent, est votre intervalle de confiance.
Voici un programme python qui simule votre situation
J'espère que cela pourra aider.
Si vous ne savez pas si les hypothèses s'appliquent ou si vous voulez comparer ce que j'ai écrit à une autre méthode, vous pouvez toujours essayer le bootstrap .
la source
Le raisonnement de la réponse de fabee semble correct s'il est appliqué au STDE (écart type de l'erreur), pas au RMSE. En utilisant une nomenclature similaire, est un index représentant chaque enregistrement de données, est la vraie valeur et est une mesure ou une prédiction.i = 1 ,… ,n Xje X^je
L'erreur , BIAS, MSE (erreur quadratique moyenne) et RMSE sont données par:ϵje
En accord avec ces définitions, le BIAS correspond à la moyenne de l'échantillon de , mais MSE n'est pas la variance de l'échantillon biaisé. Au lieu de cela: ou, si BIAS et RMSE ont été calculés, Il est à noter que la variance de l'échantillon biaisé est utilisée à la place de la non biaisée , pour maintenir la cohérence avec les définitions précédentes données pour le MSE et le RMSE.ϵ
Ainsi, à mon avis, les intervalles de confiance établis par fabee se réfèrent à l'exemple d'écart-type de , STDE. De même, des intervalles de confiance peuvent être établis pour le BIAS sur la base du score z (ou du score t si ) et.ϵ n < 30 STDE/n--√
la source
Après Faaber 1999 , l'incertitude de RMSE est donnée par où est le nombre de points de données.
la source