Supposons que j'ai un grand ensemble de données multivariées avec au moins trois variables. Comment puis-je trouver les valeurs aberrantes? Les diagrammes de dispersion par paires ne fonctionneront pas car il est possible qu'une valeur aberrante existe en 3 dimensions qui ne soit une valeur aberrante dans aucun des sous-espaces à 2 dimensions.
Je ne pense pas à un problème de régression, mais à de vraies données multivariées. Donc, les réponses impliquant une régression robuste ou un effet de levier informatique ne sont pas utiles.
Une possibilité serait de calculer les scores de la composante principale et de rechercher une valeur aberrante dans le diagramme de dispersion à deux variables des deux premiers scores. Cela serait-il garanti de fonctionner? Y a-t-il de meilleures approches?
la source
Réponses:
Jetez un coup d'œil au paquetage mvoutlier qui repose sur des distances mahalanobis robustes et ordonnées, comme suggéré par @drknexus.
la source
Je pense que la réponse de Robin Girard fonctionnerait plutôt bien pour 3 et éventuellement 4 dimensions, mais la malédiction de la dimensionnalité l’empêcherait de fonctionner au-delà de cela. Cependant, sa suggestion m’a amené à une approche connexe consistant à appliquer l’estimation de la densité du noyau validée par recoupement aux trois premières notes en composantes principales. Ensuite, un ensemble de données de très haute dimension peut toujours être géré correctement.
En résumé, pour i = 1 à n
fin pour
Triez Li (pour i = 1, .., n) et les valeurs aberrantes sont celles avec une probabilité inférieure à un seuil. Je ne suis pas sûr de ce qui constituerait un bon seuil - je laisserai cela à quiconque rédigera le papier à ce sujet! Une possibilité consiste à établir une boîte à moustaches des valeurs du journal (Li) et à voir quelles valeurs aberrantes sont détectées à l'extrémité négative.
la source
Vous pouvez trouver un résumé pédagogique des différentes méthodes disponibles dans (1)
Pour certaines comparaisons numériques - récentes - des différentes méthodes énumérées ici, vous pouvez vérifier (2) et (3) .
il existe de nombreuses comparaisons numériques plus anciennes (et moins exhaustives) que l'on trouve généralement dans les livres. Vous en trouverez un aux pages 142-143 de (4), par exemple.
Notez que toutes les méthodes décrites ici ont une implémentation R open source, principalement via le paquet rrcov .
la source
Je ferais une sorte de "laisser un algorithme de test sur" (n est le nombre de données):
pour i = 1 à n
fin pour
Cela fonctionnera si n est suffisamment grand ... vous pouvez également utiliser la "stratégie d'exclusion", qui peut être plus pertinente lorsque vous avez des "groupes" de personnes éloignées ...
la source
Vous pouvez trouver des candidats pour les "valeurs aberrantes" parmi les points de support de l'ellipsoïde de délimitation du volume minimal. ( Des algorithmes efficaces permettant de trouver ces points dans des dimensions assez élevées, à la fois exactement et approximativement, ont été inventés dans une série de documents dans les années 1970, car ce problème est intimement lié à une question de conception expérimentale.)
la source
L’approche novatrice que j’ai vue était celle de l’ analyse en composantes principales de Jolliffe d’IT . Vous exécutez une PCA sur vos données (Remarque: la PCA peut être un outil d'exploration de données très utile en soi), mais au lieu de regarder les premiers composants principaux (PC), vous tracez les derniers PC. Ces PC sont les relations linéaires entre vos variables avec la plus petite variance possible. Ils détectent ainsi des relations multivariées «exactes» ou proches d’exactes dans vos données.
Un graphique des scores PC du dernier PC indiquera les valeurs éloignées difficilement détectables en examinant chaque variable individuellement. Un exemple concerne la taille et le poids - certains qui ont une taille "supérieure à la moyenne" et un poids "inférieur à la moyenne" seraient détectés par le dernier PC de taille et de poids (en supposant que ceux-ci soient positivement corrélés), même si leur taille et leur poids n'étaient pas ". extrême "individuellement (par exemple, une personne de 180 cm et 60 kg).
la source
Je n'ai vu personne mentionner les fonctions d'influence . J'ai d'abord vu cette idée dans le livre multivarié de Gnanadesikan .
Dans une dimension, une valeur aberrante est une valeur extrêmement grande ou extrêmement petite. En analyse multivariée, il s’agit d’une observation retirée de l’essentiel des données. Mais quelle métrique devrions-nous utiliser pour définir l’extrême pour les valeurs aberrantes? Il y a beaucoup de choix. La distance de Mahalanobis n'en est qu'une. Je pense que rechercher chaque type de valeur aberrante est inutile et contre-productif. Je voudrais demander pourquoi vous vous souciez de la valeur aberrante? En estimant une moyenne, ils peuvent avoir une grande influence sur cette estimation. Les estimateurs robustes réduisent le poids et s’adaptent aux valeurs aberrantes, mais ils ne les testent pas formellement. Désormais, en régression, les points aberrants - comme les points de levier - pourraient avoir des effets importants sur les paramètres de pente du modèle. Avec les données bivariées, ils peuvent indûment influencer le coefficient de corrélation estimé et, dans trois dimensions ou plus, le coefficient de corrélation multiple.
Hampel a introduit les fonctions d’influence en tant qu’outil d’estimation robuste et Mallows a rédigé un beau document non publié prônant leur utilisation. La fonction d'influence est une fonction du point où vous vous trouvez dans un espace à n dimensions et du paramètre. Il mesure essentiellement la différence entre l'estimation du paramètre avec le point dans le calcul et avec le point laissé de côté. Plutôt que de prendre la peine de faire le calcul des deux estimations et de prendre la différence, vous pouvez souvent en déduire une formule. Ensuite, les contours d’influence constante vous indiquent la direction extrême par rapport à l’estimation de ce paramètre et vous indiquent donc où, dans l’espace à n dimensions, rechercher la valeur aberrante.
Pour plus d'informations, vous pouvez consulter mon article de 1983 paru dans l'American Journal of Mathematical Sciences and Management Sciences intitulé "La fonction d'influence et son application à la validation des données". Lors de la validation des données, nous voulions rechercher les valeurs aberrantes qui affectaient l'utilisation prévue des données. Mon sentiment est que vous devriez porter votre attention sur les valeurs aberrantes qui affectent grandement les paramètres que vous souhaitez estimer et ne pas vous préoccuper autant des autres qui ne le font pas.
la source
Il peut s'agir d'un dépassement, mais vous pouvez former une forêt aléatoire non supervisée sur les données et utiliser la mesure de proximité de l'objet pour détecter les valeurs éloignées. Plus de détails ici .
la source
Pour les dimensions modérées, comme 3, une technique de validation croisée du noyau, suggérée par ailleurs, semble raisonnable et constitue la meilleure solution que je puisse trouver.
Pour les dimensions supérieures, je ne suis pas sûr que le problème puisse être résolu. il atterrit assez carrément dans un territoire de «malédiction de dimensionnalité». Le problème est que les fonctions de distance ont tendance à converger très rapidement vers de très grandes valeurs à mesure que vous augmentez la dimensionnalité, y compris les distances dérivées de distributions. Si vous définissez une valeur aberrante comme "un point avec une fonction de distance relativement grande par rapport aux autres", et que toutes vos fonctions de distance commencent à converger car vous vous trouvez dans un espace de grande dimension, eh bien, vous avez des problèmes. .
Sans une sorte d’hypothèse de répartition qui vous permettra de le transformer en problème de classification probabiliste, ou du moins une rotation qui vous permettra de séparer votre espace en "dimensions de bruit" et "dimensions informatives", je pense que la géométrie des espaces de grande dimension va interdire toute identification - ou du moins robuste - des valeurs aberrantes.
la source
Je ne suis pas sûr de comprendre ce que vous voulez dire lorsque vous dites que vous ne pensez pas à un problème de régression mais à des "données multivariées vraies". Ma réponse initiale serait de calculer la distance de Mahalanobis car elle n’exige pas que vous spécifiiez un IV ou un DV particulier, mais elle est essentiellement liée à une statistique de levier.
la source
Je ne suis pas au courant que quelqu'un le fasse, mais j'aime généralement essayer la réduction de la dimensionnalité lorsque j'ai un problème comme celui-ci. Vous pourriez envisager une méthode d’apprentissage multiple ou de réduction non linéaire de la dimensionnalité .
Un exemple serait une carte de Kohonen . Une bonne référence pour R est "Cartes auto-organisées et super-organisées dans R: Le paquet kohonen" .
la source
Ma première réponse serait que si vous pouvez effectuer une régression multivariée sur les données, utilisez les résidus de cette régression pour identifier les valeurs aberrantes. (Je sais que vous avez dit que ce n'était pas un problème de régression, alors cela pourrait ne pas vous aider, désolé!)
Je copie une partie de ceci d'une question de Stackoverflow, à laquelle j'ai déjà répondu, qui contient quelques exemples de code R
Nous allons d’abord créer des données, puis les altérer avec une valeur aberrante;
Il est souvent plus utile d’examiner graphiquement les données (votre cerveau est beaucoup mieux à même de détecter les valeurs aberrantes que les calculs).
Vous pouvez ensuite utiliser les statistiques pour calculer les valeurs critiques critiques, ici en utilisant le test de Lund (voir Lund, RE 1975, "Tableaux pour un test approximatif des valeurs éloignées dans les modèles linéaires", Technometrics, vol. 17, n ° 4, p. 473 -476. Et Prescott, P. 1975, "Un test approximatif des valeurs aberrantes dans les modèles linéaires", Technometrics, vol 17, n ° 1, pages 129-132.)
Évidemment, il existe d’autres tests que le test de Lund (Grubbs me vient à l’esprit), mais je ne suis pas sûr de ceux qui conviennent le mieux aux données à plusieurs variables.
la source
vw-top-errors
@ goo.gl/l7SLlB (notez que les exemples ici ont un Y, mais j'ai utilisé la même technique, avec beaucoup de succès sur les problèmes non supervisés aussi en corrigeant Y.)L'une des réponses ci-dessus concerne les distances de mahalanobis .... un pas supplémentaire peut-être plus loin et le calcul d'intervalles de confiance simultanés aiderait à détecter les valeurs aberrantes!
la source