Ajustement gaussien multivarié robuste en R

11

J'ai besoin d'adapter une distribution gaussienne généralisée à un nuage de points à 7 dim contenant un nombre assez important de valeurs aberrantes avec un effet de levier élevé. Connaissez-vous un bon package R pour ce travail?

kjetil b halvorsen
la source
3
Vous trouverez des liens vers au moins quatre packages R pour identifier les valeurs aberrantes multivariées dans les réponses à une question similaire sur stats.stackexchange.com/questions/213/… . Ce pourrait être un bon début.
whuber
Peut-être que la question m'échappe, mais en ce qui concerne l'ajustement d'une distribution gaussienne multivariée, pourquoi ne pas simplement utiliser la moyenne empirique et SD comme MLE? Vous pouvez alors vous concentrer sur les statistiques de diagnostic s'il y a des points d'influence / effet de levier élevés.
AdamO

Réponses:

1

Il y a aussi mclust: http://www.stat.washington.edu/research/reports/2012/tr597.pdf http://cran.r-project.org/web/packages/mclust/index.html

Une mise en garde cependant: la modélisation de mélange dans un espace de grande dimension peut consommer beaucoup de CPU et de mémoire si votre nuage de points est grand. Il y a environ quatre ans, je faisais un lot de données en 11 dimensions, 50-200K points, et cela avait tendance à fonctionner avec 4 à 11 Go de RAM et à prendre jusqu'à une semaine pour calculer pour chaque cas (et j'en avais 400). C'est certainement possible, mais cela peut être un casse-tête si vous utilisez un cluster de calcul partagé ou si les ressources disponibles sont limitées.

Kieran O'Neill
la source
1

Cela ressemble à un modèle de mélange gaussien multivarié classique. Je pense que le paquet BayesM pourrait fonctionner.

Voici quelques packages de mélanges gaussiens multivariés

  • bayesm: cran.r-project.org/web/packages/bayesm/index.html
  • mixtools: www.jstatsoft.org/v32/i06/paper
EngrStudent
la source