L'approche courante pour estimer les paramètres d'une distribution normale consiste à utiliser la moyenne et l'écart-type / variance de l'échantillon.
Cependant, s'il y a des valeurs aberrantes, la médiane et l'écart médian par rapport à la médiane devraient être beaucoup plus robustes, non?
Sur certains ensembles de données que j'ai essayés, la distribution normale estimée par semble produire beaucoup meilleur ajustement que le classique utilisant la déviation moyenne et RMS.
Y a-t-il une raison de ne pas utiliser la médiane si vous supposez qu'il y a des valeurs aberrantes dans l'ensemble de données? Connaissez-vous une référence pour cette approche? Une recherche rapide sur Google ne m'a pas trouvé de résultats utiles qui discutent des avantages de l'utilisation des médianes ici (mais évidemment, la "médiane d'estimation des paramètres de distribution normale" n'est pas un ensemble très spécifique de termes de recherche).
L'écart médian, est-il biaisé? Dois-je le multiplier par pour réduire le biais?
Connaissez-vous des approches d'estimation de paramètres robustes similaires pour d'autres distributions telles que la distribution gamma ou la distribution gaussienne modifiée exponentiellement (qui a besoin d'asymétrie dans l'estimation des paramètres, et les valeurs aberrantes gâchent vraiment cette valeur)?
la source
Réponses:
L'observation selon laquelle dans un exemple impliquant des données tirées d'une distribution gaussienne contaminée, vous obtiendriez de meilleures estimations des paramètres décrivant la majeure partie des données en utilisant le au lieu deoù est:mad med|x−med(x)| mad(x)
--où, est un facteur de cohérence conçu pour garantir que lorsque n'est pas contaminé - a été initialement créé par Gauss (Walker, H. (1931)).(Φ−1(0.75))−1=1.4826
Je ne vois aucune raison de ne pas utiliser le au lieu de la moyenne de l'échantillon dans ce cas. La moindre efficacité (au gaussien!) Du peut être une raison pour ne pas utiliser le dans votre exemple. Cependant, il existe des alternatives tout aussi robustes et très efficaces au . L'un d'eux est lemed mad mad mad Qn . Cet estimateur présente de nombreux autres avantages à côté. Il est également très insensible aux valeurs aberrantes (en fait presque aussi insensible que les fous). Contrairement au fou, il ne se construit pas autour d'une estimation de localisation et ne suppose pas que la distribution de la partie non contaminée des données soit symétrique. Comme le fou, il est basé sur des statistiques de commande, de sorte qu'il est toujours bien défini même lorsque la distribution sous-jacente de votre échantillon n'a pas de moments. Comme le fou, il a une forme explicite simple. Plus encore que pour les fous, je ne vois aucune raison d'utiliser l'écart type d'échantillon au lieu du dans l'exemple que vous décrivez (voir Rousseeuw et Croux 1993 pour plus d'informations sur le ).Qn Qn
Quant à votre dernière question, sur le cas spécifique où , alorsx∼Γ(ν,λ)
et
(dans les deux cas, les approximations deviennent bonnes quand ) de sorte queν>1.5
et
Voir Chen et Rubin (1986) pour une dérivation complète.
la source
Si, comme vous l'affirmez, les données sont normales à l'exception d'une petite proportion de valeurs aberrantes, l'écart médian et l'absolu médian seront robustes aux erreurs brutes mais ne feront pas un usage très efficace des informations dans les données non périphériques.
Si vous connaissiez une limite a priori sur la proportion de valeurs aberrantes, vous pouvez réduire cette proportion pour la moyenne et Winsorize l'écart-type. Une alternative qui ne nécessite pas une telle connaissance serait d'utiliser des estimateurs M pour l'emplacement et les quantités associées pour la variance. Le gain d'efficacité si vos hypothèses sont correctes (telles que les données étant vraiment normales à l'exception d'un petit pourcentage de valeurs aberrantes) peut dans certaines circonstances être substantiel.
la source