L'ACP robuste (telle que développée par Candes et al 2009 ou mieux encore Netrepalli et al 2014 ) est une méthode populaire pour la détection des valeurs aberrantes multivariées , mais la distance de Mahalanobis peut également être utilisée pour la détection des valeurs aberrantes étant donné une estimation robuste et régularisée de la matrice de covariance . Je suis curieux de savoir les (dés) avantages d'utiliser une méthode par rapport à l'autre.
Mon intuition me dit que la plus grande distinction entre les deux est la suivante: lorsque l'ensemble de données est "petit" (dans un sens statistique), l'ACP robuste donnera une covariance de rang inférieur tandis que l'estimation de matrice de covariance robuste donnera à la place une pleine- covariance de rang due à la régularisation de Ledoit-Wolf. Comment cela affecte-t-il à son tour la détection des valeurs aberrantes?
la source
Réponses:
Cet article compare certaines méthodes dans ce domaine. Ils se réfèrent à l'approche Robust PCA à laquelle vous avez lié en tant que «PCP» (poursuite des composantes principales) et à la famille de méthodes à laquelle vous avez lié pour une estimation de covariance robuste en tant que M-estimateurs.
Ils soutiennent que
et montrent que PCP (aka robust PCA) peut échouer pour la détection des valeurs aberrantes dans certains cas.
Ils parlent également de trois types «d'ennemis de la récupération du sous-espace», c'est-à-dire différents types de valeurs aberrantes, et quels types de méthodes pourraient bien faire face à chacun. La comparaison de vos propres valeurs aberrantes avec les trois types d '"ennemis" discutés ici pourrait vous aider à choisir une approche.
la source