Quelle est la différence entre la détection des valeurs aberrantes et la détection des anomalies?

8

Je voudrais connaître la différence en termes d'applications (par exemple, laquelle est la détection de fraude par carte de crédit?) Et en termes de techniques utilisées.

Des articles types définissant la tâche seraient les bienvenus.

Martin Thoma
la source
avez-vous regardé ça? stats.stackexchange.com/questions/189664/… . Il semble que la réponse à votre question soit là.
2017
@Moh je l'ai vu et je pense que les réponses ne sont pas très claires. C'est pourquoi j'ai demandé que des applications et des techniques soient incluses dans la réponse à ma question.
Martin Thoma
Surtout, il ne semble pas y avoir de consensus si ces deux termes ont des significations différentes ou non. Voyons voir si cette communauté trouve un consensus / des ressources faisant autorité.
Martin Thoma

Réponses:

7

Il n'y a fondamentalement aucune différence. Disons que vous avez des données et que vous souhaitez en créer un modèle. Comme son nom l'indique, la modélisation consiste à trouver un modèle, c'est-à-dire une représentation simplifiée de vos données. À son tour, nous pouvons voir le modèle comme un processus sous-jacent qui a généré vos données en premier lieu, plus du bruit. De ce point de vue, les données que vous voyez ont été générées par le modèle - et nous pouvons dire que certains des points que vous voyez sont moins susceptibles d'avoir été générés par votre modèle que d'autres.

Par exemple, si vous créez un modèle de régression linéaire, les points éloignés de la ligne de régression sont moins susceptibles d'avoir été générés par le modèle. C'est ce que les gens veulent dire quand ils parlent de «résidus» dans le langage statistique normal. Cela s'appelle également la probabilité des données.

Les points de données qui ont une faible probabilité, selon le modèle que vous avez créé, sont des anomalies ou des valeurs aberrantes. Du point de vue de la construction de modèles, c'est la même chose.

Familièrement, les gens utilisent le terme «valeur aberrante» pour signifier «quelque chose que je dois supprimer de l'ensemble de données afin qu'il ne biaise pas mon modèle que je construis», généralement parce qu'ils ont le pressentiment qu'il y a quelque chose qui ne va pas avec ces données et la le modèle qu'ils veulent construire ne devrait pas avoir à en tenir compte. Une valeur aberrante est souvent considérée comme un obstacle à la construction d'un modèle qui décrit les données dans leur ensemble - simplement parce que le modèle tentera ÉGALEMENT d'expliquer la valeur aberrante, ce qui n'est pas ce que le praticien veut.

D'autre part, vous pouvez utiliser le fait qu'un modèle attribue également une probabilité à chaque point de données à votre avantage - peut créer un modèle qui décrit une tendance plus simple dans les données, puis rechercher activement les valeurs existantes ou nouvelles qui ont très faible probabilité. Voilà ce que les gens veulent dire quand ils disent «anomalies». Si votre objectif est de détecter des anomalies, en particulier dans les nouvelles données, c'est une bonne chose. La valeur aberrante d'une personne est l'anomalie d'une autre personne!

à M
la source
7

(Je voulais en fait écrire cela comme une réponse à la question validée par la croix: différence entre anomalie et valeur aberrante , mais la question est protégée - je pense que la réponse ici devrait être correcte, malgré la faible visibilité)

Les gens soutiennent parfois qu'il n'y a pas de différence entre une valeur aberrante et une anomalie en citant Charu Aggarwal, auteur du livre "Outlier Analysis" - en particulier, cette déclaration:

Les valeurs aberrantes sont également appelées anomalies , discordances , déviations ou anomalies dans la littérature d'exploration de données et de statistiques.

(Source: "Outlier Analysis" (Springer), Charu Aggarwal, 2017, http://charuaggarwal.net/outlierbook.pdf )

Cependant, cette déclaration n'implique pas que les valeurs aberrantes et les anomalies sont la même chose - de manière analogue à dire que «les chiens sont parfois appelés animaux» ne signifie pas qu'ils sont la même chose.

Il est difficile de donner une définition formelle des termes. La page Wikipédia sur les valeurs aberrantes fait référence à la page Wikipédia sur la détection des anomalies et vice versa, et elles contiennent toutes les deux de nombreuses définitions et interprétations possibles des termes. Les choses empirent en raison des définitions et des expressions familières spécifiques au domaine , où cela semble suffisant lorsque deux personnes du même domaine savent à peu près de quoi parle l'autre ...

Cependant, Varun Chandola essaie de donner un sens plus précis au terme "anomalie" dans son enquête de détection d'anomalies. En particulier, il classe les anomalies en trois catégories:

  • Anomalies ponctuelles: une instance de données individuelle peut être considérée comme anormale par rapport au reste des données
  • Anomalies contextuelles: si une instance de données est anormale dans un contexte spécifique (mais pas autrement)
  • Anomalies collectives: si une collection d'instances de données connexes est anormale par rapport à l'ensemble des données

(Résumé de "Anomaly Detection - A Survey", Varun Chandola et al, ACM Computing Surveys 2009, http://cucis.ece.northwestern.edu/projects/DMS/publications/AnomalyDetection.pdf )


Ici, le terme «anomalie ponctuelle» semble être le plus proche de ce que je considérerais comme une définition possible du mot «valeur aberrante». Et cela est conforme à la déclaration d'Aggarwal: Une valeur aberrante est une anomalie. Mais toutes les anomalies ne sont pas des valeurs aberrantes.

(Ce dernier peut dépendre de la définition du mot valeur aberrante. Bien sûr, on peut le définir à un méta-niveau, et dire qu'une valeur aberrante est tout ce qu'un certain algorithme (ou modèle) de détection de valeurs aberrantes détecte en tant que tel. Mais la plupart des définitions qui Jusqu'à présent, je me suis basé sur une sorte de "distance", de "dissimilarité" ou de "différence" par rapport à une "majorité" d'autres éléments de données. Cela semble raisonnable ...)

Un exemple: il peut y avoir plusieurs points de données:

14.5, 14.2, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6

On peut calculer la moyenne et l'écart-type et il sera difficile de se demander pourquoi l'un de ces points devrait être une "valeur aberrante".

Pour une séquence de points de données comme celle-ci

14.5, 14.2, 14.4, 14.4, -64564.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6

repérer "la valeur aberrante" devrait être facile.

Cependant, en supposant que la première séquence décrit, par exemple, les températures quotidiennes moyennes à l' extérieur, le fait que la température moyenne exacte même de 14.4pendant une semaine entière degrés a été mesurée pourrait certainement être considéré comme une « anomalie ».

(Probablement une "anomalie collective" selon les définitions ci-dessus, mais je ne contesterai pas cela ...)


Bien que je sois sur la glace lorsque je discute de la signification précise ou intuitive de certains termes (parce que je ne suis ni un expert en science des données ni un anglophone natif), cela signifierait que "anomalie" est un terme beaucoup plus large que "valeur aberrante". ". Mais peut-être que la communauté de la science des données est en train de trier les définitions appropriées de ces termes.

Mise à jour:

Peut-être que mon intuition sur le sens littéral de certains mots est fausse. Mais pour moi, le mot «aberrant» semble dire «se situant quelque part hors (ou loin de) quelque chose (basé sur une mesure de distance)». En ce sens, les 14.4s du premier exemple ne sont pas des «valeurs aberrantes» en soi. Mais bien sûr, les choses deviennent très vite compliquées ici: on pourrait imaginer un modèle pour les données contenant le nombre de jours consécutifs avec des températures égales (comme dans un encodage de durée ). Le calcul de ce modèle pour les données données donnerait

1 * 14.5
1 * 14.2
7 * 14.4
1 * 14.3
1 * 14.2
1 * 14.6

où la valeur 7 t avoir une grande distance (différence) pour les autres valeurs dans le modèle. Ainsi «l'anomalie collective» de 7 jours consécutifs à températures égales s'est transformée en «anomalie ponctuelle» par cette transformation.

Marco13
la source
Très instructif. Qu'est-ce qui nous empêche d'utiliser les "valeurs aberrantes ponctuelles", les "valeurs aberrantes contextuelles" et les "valeurs aberrantes collectives"? Je pense que rien ne force une distinction.
Esmailian
@Esmailian Je pense que la distinction entre "valeur aberrante" et "anomalie" peut avoir un sens. Mais donner une définition précise de chacun de ces termes qui est applicable dans tous les contextes pourrait être difficile (voire impossible). J'ai ajouté une courte mise à jour soulignant quelle est mon interprétation / définition du mot "aberrante", et combien il peut être difficile d'appliquer une telle définition rigoureusement ...
Marco13
Le problème est que c'est une interprétation subjective. Si vous pouviez souligner la différence avec des citations exactes, ce serait beaucoup plus utile.
Code Pope
@CodePope À quoi cela se réfère-t-il exactement? J'ai d'ailleurs ajouté quatre "citations", mais j'ai souligné que même les définitions les plus utilisées sont vagues et parfois même contradictoires.
Marco13
Bien sûr, vous avez ajouté quatre citations, mais aucune d'entre elles ne dit qu'il y a une différence entre une valeur aberrante et une anomalie ou que cette valeur aberrante est un sous-élément d'anomalie. De plus, aucune de vos citations et de tout autre document que j'ai lu n'est d'accord avec votre interprétation selon laquelle les valeurs aberrantes sont des anomalies ponctuelles. C'est l'intuition commune que les valeurs aberrantes sont des points uniques, mais ce n'est pas ce que les définitions formelles impliquent. À titre d'exemple: "Une observation (ou un sous-ensemble d'observations) qui semble ne pas correspondre au reste de cet ensemble de données." (Barnet et Lewis - 1994)
Code Pope
0

Une valeur aberrante est un point de données qui est relativement inhabituel.

Une anomalie est un cas particulier des valeurs aberrantes, elles peuvent avoir des informations ou des raisons spéciales / utiles.

jatin gupta
la source