Je viens de penser à une façon soignée (pas nécessairement bonne) de créer des estimations de densité unidimensionnelles et ma question est:
Cette méthode d'estimation de la densité a-t-elle un nom? Sinon, s'agit-il d'un cas particulier d'une autre méthode dans la littérature?
Voici la méthode: Nous avons un vecteur que nous supposons est tirée d' une certaine distribution inconnue , nous aimerions estimer. Une façon de faire est de prendre toutes les paires de valeurs possibles dans et pour chaque paire ajuster une distribution normale en utilisant le maximum de vraisemblance. L'estimation de densité résultante est alors la distribution du mélange qui se compose de toutes les normales résultantes, où chaque normale reçoit un poids égal.X [ x i , x j ] i ≠ j
La figure ci-dessous illustre l'utilisation de cette méthode sur le vecteur . Ici, les cercles sont les points de données, les normales colorées sont les distributions de vraisemblance maximales estimées en utilisant chaque paire possible et la ligne noire épaisse montre l'estimation de densité résultante (c'est-à-dire la distribution du mélange).
Au fait, il est vraiment facile d'implémenter une méthode dans R qui tire un échantillon de la distribution de mélange résultante:
# Generating some "data"
x <- rnorm(30)
# Drawing from the density estimate using the method described above.
density_estimate_sample <- replicate(9999, {
pair <- sample(x, size = 2)
rnorm(1, mean(pair), sd(pair))
})
# Plotting the density estimate compared with
# the "data" and the "true" density.
hist(x ,xlim=c(-5, 5), main='The "data"')
hist(density_estimate_sample, xlim=c(-5, 5), main='Estimated density')
hist(rnorm(9999), xlim=c(-5, 5), main='The "true" density')
la source
x <- c(rnorm(30), rnorm(30, 10))
Réponses:
Il s'agit d'une idée intrigante, car l'estimateur de l'écart-type semble être moins sensible aux valeurs aberrantes que les approches habituelles quadratiques moyennes. Cependant, je doute que cet estimateur ait été publié. Il y a trois raisons à cela: il est inefficace sur le plan informatique, il est biaisé, et même lorsque le biais est corrigé, il est statistiquement inefficace (mais seulement un peu). Ceux-ci peuvent être vus avec une petite analyse préliminaire, alors faisons-le d'abord, puis tirons les conclusions.
Une analyse
Les estimateurs ML de la moyenne et de l'écart-type basés sur les données sontμ σ (xi,xj)
et
Par conséquent, la méthode décrite dans la question est
qui est l'estimateur habituel de la moyenne, et
La valeur attendue de cet estimateur est facilement trouvée en exploitant l'interchangeabilité des données, ce qui implique que est indépendant de et . D'oùE=E(|xi−xj|) i j
Mais comme et sont des variables normales indépendantes, leur différence est une normale moyenne nulle avec la variance . Sa valeur absolue est donc fois une , dont la moyenne est . par conséquentxi xj 2σ2 2–√σ χ(1) 2/π−−−√
Le coefficient est le biais de cet estimateur.2/π−−√≈1.128
De la même manière, mais avec beaucoup plus de travail, on pourrait calculer la variance de , mais - comme nous le verrons - il est peu probable que cela suscite beaucoup d'intérêt, donc je vais simplement l'estimer avec une simulation rapide .σ^
Conclusions
L'estimateur est biaisé. a un biais constant substantiel d'environ + 13%. Cela pourrait être corrigé. Dans cet exemple, avec un échantillon de les estimateurs biaisés et corrigés du biais sont tracés sur l'histogramme. L'erreur de 13% est apparente.σ^ n=20,000
Il est inefficace sur le plan des calculs. Parce que la somme des valeurs absolues,, n'a pas de simplification algébrique, son calcul nécessite un effort au lieu de l'effort pour presque tout autre estimateur. Cela évolue mal, ce qui le rend prohibitif une fois que dépasse environ. Par exemple, le calcul du chiffre précédent nécessitait 45 secondes de temps processeur et 8 Go de RAM . (Sur d'autres plates-formes, les besoins en RAM seraient beaucoup plus faibles, peut-être à un faible coût en temps de calcul.)∑i,j|xi−xj| O(n2) O(n) n 10,000
R
Il est statistiquement inefficace. Pour lui donner la meilleure représentation, considérons la version non biaisée et la comparons à la version non biaisée de l'estimateur des moindres carrés ou du maximum de vraisemblance
Len=3 n=300 σ^OLS σ
R
code ci-dessous montre que la version non biaisée de l'estimateur dans la question est étonnamment efficace: sur une plage de tailles d'échantillon de à sa variance est généralement supérieure d'environ 1% à 2% à la variance de . Cela signifie que vous devez prévoir de payer 1 à 2% de plus pour les échantillons afin d'atteindre un niveau de précision donné dans l'estimation de .n = 300 σ O L S σAprès
La forme de rappelle l' estimateur Theil-Sen robuste et résistant - mais au lieu d'utiliser les médianes des différences absolues, il utilise leurs moyennes. Si l'objectif est d'avoir un estimateur résistant aux valeurs périphériques ou robuste aux écarts par rapport à l'hypothèse de normalité, il serait alors préférable d'utiliser la médiane.σ^
Code
la source