Quel est le nom de la méthode d'estimation de la densité où toutes les paires possibles sont utilisées pour créer une distribution de mélange normale?

Je viens de penser à une façon soignée (pas nécessairement bonne) de créer des estimations de densité unidimensionnelles et ma question est:

Cette méthode d'estimation de la densité a-t-elle un nom? Sinon, s'agit-il d'un cas particulier d'une autre méthode dans la littérature?

Voici la méthode: Nous avons un vecteur que nous supposons est tirée d' une certaine distribution inconnue , nous aimerions estimer. Une façon de faire est de prendre toutes les paires de valeurs possibles dans et pour chaque paire ajuster une distribution normale en utilisant le maximum de vraisemblance. L'estimation de densité résultante est alors la distribution du mélange qui se compose de toutes les normales résultantes, où chaque normale reçoit un poids égal. $X = [x_1,x_2,...,x_n]$ $X$ $[x_i,x_j]_{i \neq j}$

La figure ci-dessous illustre l'utilisation de cette méthode sur le vecteur . Ici, les cercles sont les points de données, les normales colorées sont les distributions de vraisemblance maximales estimées en utilisant chaque paire possible et la ligne noire épaisse montre l'estimation de densité résultante (c'est-à-dire la distribution du mélange). $[-1.3,0.15,0.73,1.4]$

entrez la description de l'image ici

Au fait, il est vraiment facile d'implémenter une méthode dans R qui tire un échantillon de la distribution de mélange résultante:

# Generating some "data"
x <- rnorm(30)

# Drawing from the density estimate using the method described above.
density_estimate_sample <- replicate(9999, {
  pair <- sample(x, size = 2)
  rnorm(1, mean(pair), sd(pair))
})

# Plotting the density estimate compared with 
# the "data" and the "true" density.
hist(x ,xlim=c(-5, 5), main='The "data"')
hist(density_estimate_sample, xlim=c(-5, 5), main='Estimated density')
hist(rnorm(9999), xlim=c(-5, 5), main='The "true" density')

entrez la description de l'image ici

r estimation nonparametric pdf kernel-smoothing Rasmus Bååth
la source

Essayez votre méthode en utilisantx <- c(rnorm(30), rnorm(30, 10))

Dason

@Dason Yep, dans ce cas, la méthode ne fonctionne pas du tout! :) De plus, il ne converge pas avec un grand n.

Rasmus Bååth

Cela ressemble à une version corrompue de l'estimation de la densité du noyau où la bande passante est estimée par validation croisée!

Xi'an

Le libellé dans «Nous avons un vecteur que nous supposons provenir d'une distribution inconnue que nous aimerions estimer» devrait peut-être être clarifié car il (pour moi) semble que la question était sur l'estimation d'une distribution multivariée générale à dimensions basée sur une observation.

X = [x_{1}, x_{2}, \dots, x_{n}]

$X=[x_1,x_2,\ldots,x_n]$

n

$n$

Juho Kokkala

Il s'agit d'une idée intrigante, car l'estimateur de l'écart-type semble être moins sensible aux valeurs aberrantes que les approches habituelles quadratiques moyennes. Cependant, je doute que cet estimateur ait été publié. Il y a trois raisons à cela: il est inefficace sur le plan informatique, il est biaisé, et même lorsque le biais est corrigé, il est statistiquement inefficace (mais seulement un peu). Ceux-ci peuvent être vus avec une petite analyse préliminaire, alors faisons-le d'abord, puis tirons les conclusions.

Une analyse

Les estimateurs ML de la moyenne et de l'écart-type basés sur les données sont $\mu$ $\sigma$ $(x_i, x_j)$

\hat{μ} (x_{i}, x_{j}) = \frac{x_{i} + x_{j}}{2}

$\hat\mu(x_i,x_j) = \frac{x_i+x_j}{2}$

\hat{σ} (x_{i}, x_{j}) = \frac{| x_{i} - x_{j} |}{2} .

$\hat\sigma(x_i,x_j) = \frac{|x_i-x_j|}{2}.$

Par conséquent, la méthode décrite dans la question est

\hat{μ} (x_{1}, x_{2}, \dots, x_{n}) = \frac{2}{n (n - 1)} \sum_{i > j} \frac{x_{i} + x_{j}}{2} = \frac{1}{n} \sum_{i = 1}^{n} x_{i},

$\hat\mu(x_1, x_2, \ldots, x_n) = \frac{2}{n(n-1)} \sum_{i\gt j} \frac{x_i+x_j}{2} = \frac{1}{n}\sum_{i=1}^nx_i,$

qui est l'estimateur habituel de la moyenne, et

\hat{σ} (x_{1}, x_{2}, \dots, x_{n}) = \frac{2}{n (n - 1)} \sum_{i > j} \frac{| x_{i} - x_{j} |}{2} = \frac{1}{n (n - 1)} \sum_{i, j} | x_{i} - x_{j} | .

$\hat\sigma(x_1, x_2, \ldots, x_n) = \frac{2}{n(n-1)}\sum_{i\gt j}\frac{|x_i-x_j|}{2} = \frac{1}{n(n-1)}\sum_{i,j}|x_i-x_j|.$

La valeur attendue de cet estimateur est facilement trouvée en exploitant l'interchangeabilité des données, ce qui implique que est indépendant de et . D'où $E = \mathbb{E}(|x_i-x_j|)$ $i$ $j$

E (\hat{σ} (x_{1}, x_{2}, \dots, x_{n})) = \frac{1}{n (n - 1)} \sum_{i, j} E (| x_{i} - x_{j} |) = E .

$\mathbb{E}(\hat\sigma(x_1, x_2, \ldots, x_n)) = \frac{1}{n(n-1)}\sum_{i,j}\mathbb{E}(|x_i-x_j|) = E.$

Mais comme et sont des variables normales indépendantes, leur différence est une normale moyenne nulle avec la variance . Sa valeur absolue est donc fois une , dont la moyenne est . par conséquent $x_i$ $x_j$ $2\sigma^2$ $\sqrt{2}\sigma$ $\chi(1)$ $\sqrt{2/\pi}$

E = \frac{2}{\sqrt{π}} σ .

$E = \frac{2}{\sqrt{\pi}} \sigma.$

Le coefficient est le biais de cet estimateur. $2/\sqrt{\pi} \approx 1.128$

De la même manière, mais avec beaucoup plus de travail, on pourrait calculer la variance de , mais - comme nous le verrons - il est peu probable que cela suscite beaucoup d'intérêt, donc je vais simplement l'estimer avec une simulation rapide . $\hat\sigma$

Conclusions

L'estimateur est biaisé. a un biais constant substantiel d'environ + 13%. Cela pourrait être corrigé. Dans cet exemple, avec un échantillon de les estimateurs biaisés et corrigés du biais sont tracés sur l'histogramme. L'erreur de 13% est apparente. $\hat\sigma$ $n=20,000$
Il est inefficace sur le plan des calculs. Parce que la somme des valeurs absolues,, n'a pas de simplification algébrique, son calcul nécessite un effort au lieu de l'effort pour presque tout autre estimateur. Cela évolue mal, ce qui le rend prohibitif une fois que dépasse environ. Par exemple, le calcul du chiffre précédent nécessitait 45 secondes de temps processeur et 8 Go de RAM . (Sur d'autres plates-formes, les besoins en RAM seraient beaucoup plus faibles, peut-être à un faible coût en temps de calcul.) $\sum_{i,j}|x_i-x_j|$ $O(n^2)$ $O(n)$ $n$ $10,000$ R
Il est statistiquement inefficace. Pour lui donner la meilleure représentation, considérons la version non biaisée et la comparons à la version non biaisée de l'estimateur des moindres carrés ou du maximum de vraisemblance

${\hat{σ}}_{O L S} = \sqrt{(\frac{1}{n - 1} \sum_{i = 1}^{n} {(x_{i} - \hat{μ})}^{2})} \frac{(n - 1) Γ ((n - 1) / 2)}{2 Γ (n / 2)} .$ $\hat\sigma_{OLS} = \sqrt{\left(\frac{1}{n-1} \sum_{i=1}^n \left(x_i - \hat\mu\right)^2\right)} \frac{(n-1)\Gamma((n-1)/2)}{2\Gamma(n/2)}.$
Le Rcode ci-dessous montre que la version non biaisée de l'estimateur dans la question est étonnamment efficace: sur une plage de tailles d'échantillon de à sa variance est généralement supérieure d'environ 1% à 2% à la variance de . Cela signifie que vous devez prévoir de payer 1 à 2% de plus pour les échantillons afin d'atteindre un niveau de précision donné dans l'estimation de . $n=3$ $n=300$ $\hat\sigma_{OLS}$ $\sigma$

Après

La forme de rappelle l' estimateur Theil-Sen robuste et résistant - mais au lieu d'utiliser les médianes des différences absolues, il utilise leurs moyennes. Si l'objectif est d'avoir un estimateur résistant aux valeurs périphériques ou robuste aux écarts par rapport à l'hypothèse de normalité, il serait alors préférable d'utiliser la médiane. $\hat\sigma$

Code

sigma <- function(x) sum(abs(outer(x, x, '-'))) / (2*choose(length(x), 2))
#
# sigma is biased.
#
y <- rnorm(1e3) # Don't exceed 2E4 or so!
mu.hat <- mean(y)
sigma.hat <- sigma(y)

hist(y, freq=FALSE,
     main="Biased (dotted red) and Unbiased (solid blue) Versions of the Estimator",
     xlab=paste("Sample size of", length(y)))
curve(dnorm(x, mu.hat, sigma.hat), col="Red", lwd=2, lty=3, add=TRUE)
curve(dnorm(x, mu.hat, sqrt(pi/4)*sigma.hat), col="Blue", lwd=2, add=TRUE)
#
# The variance of sigma is too large.
#
N <- 1e4
n <- 10
y <- matrix(rnorm(n*N), nrow=n)
sigma.hat <- apply(y, 2, sigma) * sqrt(pi/4)
sigma.ols <- apply(y, 2, sd) / (sqrt(2/(n-1)) * exp(lgamma(n/2)-lgamma((n-1)/2)))

message("Mean of unbiased estimator is ", format(mean(sigma.hat), digits=4))
message("Mean of unbiased OLS estimator is ", format(mean(sigma.ols), digits=4))
message("Variance of unbiased estimator is ", format(var(sigma.hat), digits=4))
message("Variance of unbiased OLS estimator is ", format(var(sigma.ols), digits=4))
message("Efficiency is ", format(var(sigma.ols) / var(sigma.hat), digits=4))

whuber
la source

La littérature pertinente remonte à un certain temps, par exemple Downton, F. 1966 Estimations linéaires avec des coefficients polynomiaux. Biometrika 53: 129-141 doi: 10.1093 / biomet / 53.1-2.129

Nick Cox

Wow, j'ai eu plus que ce que j'avais négocié! :)