Il existe un certain nombre d' estimateurs d'échelle robustes . Un exemple notable est l’écart absolu médian qui se rapporte à l’écart type sous la forme . Dans un cadre bayésien, il existe un certain nombre de moyens pour estimer de manière fiable l' emplacement d'une distribution à peu près normale (disons une normale contaminée par des valeurs aberrantes), par exemple, on pourrait supposer que les données sont distribuées de la même manière que la distribution de Laplace. Maintenant ma question:
Que serait un modèle bayésien permettant de mesurer de manière robuste l’ échelle d’une distribution à peu près normale, robuste au même sens que le MAD ou des estimateurs robustes similaires?
Comme dans le cas de MAD, il serait judicieux que le modèle bayésien puisse approcher le SD d'une distribution normale dans le cas où la distribution des données est réellement distribuée.
éditer 1:
Un exemple typique de modèle qui résiste à la contamination / aux valeurs aberrantes en supposant que les données est à peu près normale utilise la distribution à la manière suivante:
Où est la moyenne, s l’échelle et \ nu le degré de liberté. Avec des a priori convenables sur m, s et \ nu , m sera une estimation de la moyenne de y_i qui sera robuste contre les valeurs aberrantes. Cependant, s ne sera pas une estimation cohérente du SD de y_i car s dépend de \ nu . Par exemple, si \ nu est fixé à 4.0 et que le modèle ci-dessus est ajusté à un très grand nombre d'échantillons d'une distribution \ mathrm {Norm} (\ mu = 0, \ sigma = 1), alors sserait autour de 0,82. Ce que je recherche, c’est un modèle robuste, comme le modèle t, mais pour le SD au lieu de (ou en plus) de la moyenne.
éditer 2:
Voici ci-dessous un exemple codé dans R et JAGS de la manière dont le modèle t mentionné ci-dessus est plus robuste par rapport à la moyenne.
# generating some contaminated data
y <- c( rnorm(100, mean=10, sd=10),
rnorm(10, mean=100, sd= 100))
#### A "standard" normal model ####
model_string <- "model{
for(i in 1:length(y)) {
y[i] ~ dnorm(mu, inv_sigma2)
}
mu ~ dnorm(0, 0.00001)
inv_sigma2 ~ dgamma(0.0001, 0.0001)
sigma <- 1 / sqrt(inv_sigma2)
}"
model <- jags.model(textConnection(model_string), list(y = y))
mcmc_samples <- coda.samples(model, "mu", n.iter=10000)
summary(mcmc_samples)
### The quantiles of the posterior of mu
## 2.5% 25% 50% 75% 97.5%
## 9.8 14.3 16.8 19.2 24.1
#### A (more) robust t-model ####
library(rjags)
model_string <- "model{
for(i in 1:length(y)) {
y[i] ~ dt(mu, inv_s2, nu)
}
mu ~ dnorm(0, 0.00001)
inv_s2 ~ dgamma(0.0001,0.0001)
s <- 1 / sqrt(inv_s2)
nu ~ dexp(1/30)
}"
model <- jags.model(textConnection(model_string), list(y = y))
mcmc_samples <- coda.samples(model, "mu", n.iter=1000)
summary(mcmc_samples)
### The quantiles of the posterior of mu
## 2.5% 25% 50% 75% 97.5%
##8.03 9.35 9.99 10.71 12.14
la source
Réponses:
L'inférence bayésienne dans un modèle de bruit T avec un préalable approprié donnera une estimation robuste de l'emplacement et de l'échelle. Les conditions précises que la probabilité et le besoin préalable à satisfaire sont données dans l'étude Modélisation bayésienne de la robustesse des paramètres de localisation et d'échelle par Andrade et O'Hagan (2011). Les estimations sont robustes en ce sens qu’une seule observation ne peut pas donner des estimations arbitrairement grandes, comme le montre la figure 2 du document.
Lorsque les données sont normalement distribuées, le SD de la distribution T ajustée (pour fixe ) ne correspond pas au SD de la distribution génératrice. Mais c'est facile à résoudre. Soit σ l'écart-type de la distribution génératrice et s soit l'écart-type de la distribution T ajustée. Si les données sont mises à l'échelle par 2, alors, sous la forme de vraisemblance, nous savons que doit être mis à l'échelle par 2. Cela implique que pour une fonction fixe . Cette fonction peut être calculée numériquement par simulation à partir d'une normale standard. Voici le code pour faire ceci:ν σ s s s=σf(ν) f
Par exemple, à je reçois . L'estimateur souhaité est alors .f ( ν ) = 1,18 σ = s / f ( ν )ν=4 f(ν)=1.18 σ^=s/f(ν)
la source
Comme vous posez une question sur un problème très précis (estimation robuste), je vais vous donner une réponse tout aussi précise. Cependant, je commencerai tout d'abord par essayer de dissiper toute hypothèse injustifiée. Il est pas vrai qu'il ya une estimation bayésienne robuste de l' emplacement (il y a des estimateurs bayésiens des endroits , mais comme je l' ai ci - dessous montrent qu'ils ne sont pas robustes et, apparemment , même le plus simple estimateur robuste de l' emplacement n'est pas bayesien). À mon avis, les raisons de l'absence de chevauchement entre les paradigmes «bayésien» et «robuste» dans le cas des localisations expliquent en grande partie pourquoi il n'existe pas non plus d'estimateurs de la dispersion à la fois robustes et bayésiens.
En fait non. Les estimations résultantes ne seront robustes que dans un sens très faible du mot robuste. Cependant, lorsque nous disons que la médiane est robuste aux valeurs aberrantes, nous entendons le mot robuste dans un sens beaucoup plus fort. C'est-à-dire que dans les statistiques robustes, la robustesse de la médiane fait référence à la propriété que si vous calculez la médiane sur un ensemble d'observations de données provenant d'un modèle unimodal et continu, puis que vous remplacez moins de la moitié de ces observations par des valeurs arbitraires , la valeur de la médiane calculée sur les données contaminées est proche de celle que vous auriez obtenue si vous l'aviez calculée sur le jeu de données d'origine (non contaminé). Ensuite, il est facile de montrer que la stratégie d’estimation que vous proposez dans le paragraphe que j’ai cité ci-dessus n’est certainement pas robuste dans le sens où le mot est généralement compris comme la médiane.
Je ne connais pas vraiment l'analyse bayésienne. Cependant, je me demandais ce qui ne va pas dans la stratégie suivante, car elle semble simple, efficace et n’a pas encore été prise en compte dans les autres réponses. Le prior est que la bonne partie des données est tirée d'une distribution symétrique et que le taux de contamination est inférieur à la moitié. Ensuite, une stratégie simple consisterait à:F
MODIFIER:
Merci à l’opérateur d’avoir fourni un code R autonome pour effectuer une analyse bayésienne parfaite du problème.
Le code ci-dessous compare l’approche bayésienne suggérée par le PO à une alternative à la littérature de statistiques robustes (par exemple, la méthode d’ajustement proposée par Gauss pour le cas où les données peuvent contenir autant que valeurs aberrantes et la distribution des valeurs aberrantes). une bonne partie des données est gaussienne).n/2−2
la partie centrale des données est :N(1000,1)
Ajoutez une certaine quantité de contaminants:
l'indice w prend la valeur 1 pour les valeurs aberrantes. Je commence par l'approche proposée par le PO:
Je reçois:
et:
(calme loin donc des valeurs cibles)
Pour la méthode robuste,
on obtient:
(très proche des valeurs cibles)
th
la source
Dans l'analyse bayésienne, l'utilisation de la distribution gamma inverse en tant qu'antérieur de la précision (l'inverse de la variance) est un choix courant. Ou la distribution Wishart inverse pour les modèles multivariés. L'ajout d'un prior sur la variance améliore la robustesse contre les valeurs aberrantes.
Andrew Gelman a rédigé un article intéressant intitulé "Distributions préalables des paramètres de variance dans les modèles hiérarchiques", dans lequel il explique quels sont les bons choix pour les variables a priori sur les variances.
la source
la source
J'ai suivi la discussion de la question initiale. Rasmus quand vous parlez de robustesse, je suis sûr que vous voulez dire dans les données (valeurs aberrantes, pas une spécification erronée des distributions). Je prendrai la distribution des données comme étant la distribution de Laplace au lieu d’une distribution t, puis, comme dans la régression normale dans laquelle nous modélisons la moyenne, nous modélisons ici la régression médiane (très robuste), également connue (connue de tous). Que le modèle soit:
la source
Un raisonnement similaire s'applique si, au lieu de cela, vous affectez une distribution antérieure à un paramètre d'échelle pour une distribution normale. Tangentiellement, les distributions log-normales et gamma-inverses ne sont pas recommandées si vous souhaitez former une limite en évitant le précédent aux fins de l'approximation en mode postérieur, car elles atteignent des sommets nets si vous les paramétrez de sorte que le mode soit proche de zéro. Voir le chapitre 13 de BDA3 pour la discussion. Donc, en plus d'identifier un modèle robuste en termes d'épaisseur de la queue, gardez à l'esprit que le kurtosis peut également être important pour votre inférence.
J'espère que cela vous aidera autant que votre réponse à l'une de mes dernières questions m'a aidé.
la source