Version courte: Quelle est la méthode la plus efficace sur le plan informatique pour estimer le mode d'un ensemble de données multidimensionnelles, échantillonné à partir d'une distribution continue?
Version longue: j'ai un ensemble de données dont j'ai besoin pour estimer le mode. Le mode ne coïncide pas avec la moyenne ou la médiane. Un exemple est montré ci-dessous, c'est un exemple 2D, mais une solution ND serait mieux:
Actuellement, ma méthode est
- Calculer l'estimation de la densité du noyau sur une grille égale à la résolution souhaitée du mode
- Recherchez le plus grand point calculé
Évidemment, cela calcule le KDE à beaucoup de points non plausibles, ce qui est particulièrement mauvais s'il y a beaucoup de points de données de grandes dimensions ou si je m'attends à une bonne résolution sur le mode.
Une alternative serait d'utiliser un recuit simulé, un algorithme génétique, etc. pour trouver le pic global dans le KDE.
La question est de savoir s'il existe une méthode plus intelligente pour effectuer ce calcul?
Réponses:
Une exposition très détaillée sur l'algorithme est également donnée dans cette entrée de blog .
la source
Si votre intérêt principal est les problèmes bidimensionnels, je dirais que l'estimation de la densité du noyau est un bon choix car elle a de belles propriétés asymptotiques (notez que je ne dis pas que c'est la meilleure). Voir par exemple
Pour les dimensions supérieures (4+), cette méthode est vraiment lente en raison de la difficulté bien connue d'estimer la matrice de bande passante optimale, voir .
Maintenant, le problème avec la commande
ks
dans le packageKDE
est, comme vous l'avez mentionné, qu'elle évalue la densité dans une grille spécifique qui peut être très limitative. Ce problème peut être résolu si vous utilisez le packageKDE
pour estimer la matrice de bande passante, en utilisant par exemple l'Hscv
implémentateur de l'estimateur de densité du noyau, puis optimisez cette fonction à l'aide de la commandeoptim
. Ceci est illustré ci-dessous en utilisant des données simulées et un noyau gaussien dansR
.Les estimateurs à forme restreinte ont tendance à être plus rapides, par exemple
Mais ils sont trop pointus à cet effet.
D'autres méthodes que vous pourriez envisager d'utiliser sont: l'ajustement d'un mélange fini multivarié de normales (ou d'autres distributions flexibles) ou
J'espère que ça aide.
la source
Récemment, nous avons publié un article suggérant un estimateur de mode cohérent rapide.
Je suggérerais également les nouveaux estimateurs du mode de variance minimale de mon récent article
la source