Disons que j'ai un grand échantillon de valeurs dans . Je voudrais estimer la distribution sous-jacente . La majorité des échantillons proviennent de cette distribution supposée , tandis que les autres sont des valeurs aberrantes que je voudrais ignorer dans l'estimation de et .
Quelle est la bonne façon de procéder à ce sujet?
La standard: utilisée dans les boîtes à moustaches serait-elle une mauvaise approximation?
Quelle serait une façon plus raisonnée de résoudre ce problème? Existe-t-il des priors particuliers sur et qui fonctionneraient bien dans ce type de problème?
outliers
pymc
beta-distribution
Amelio Vazquez-Reina
la source
la source
Réponses:
Une manière plus systématique de résoudre ce problème serait d'utiliser un modèle de mélange explicite, avec une spécification de la distribution des «valeurs aberrantes». Une forme simple serait d'utiliser un mélange d'une distribution bêta (pour les points qui vous intéressent) et d'une distribution uniforme (pour les «valeurs aberrantes»). En modélisant les données comme une distribution de mélange, vous pouvez obtenir des estimations de et qui prennent automatiquement en compte le fait que certains points peuvent être des valeurs aberrantes.α β
Pour résoudre ce problème à l'aide d'un modèle de mélange, soit la probabilité d'une «valeur aberrante» et supposons que vous avez les valeurs IID . La fonction de vraisemblance pour les données observées est:ϕ X1, . . . ,Xn∼ ϕ ⋅ U ( 0 , 1 ) + ( 1 - ϕ ) ⋅ Bêta ( α , β)
Vous pouvez procéder à partir d'ici en utilisant soit une MLE classique soit une estimation bayésienne. L'un ou l'autre nécessitera des techniques numériques. Après avoir estimé les trois paramètres du modèle, vous auriez alors une estimation de et qui intègre automatiquement la possibilité de valeurs aberrantes. Vous auriez également une estimation de la proportion de valeurs aberrantes du modèle de mélange.α β
la source