Différence entre anomalie et valeur aberrante

13

Quelle est la différence entre Outlier et Anomaly dans le contexte de l'apprentissage automatique. Je crois comprendre que les deux se réfèrent à la même chose.

user3282512
la source
3
Par curiosité, où dans la littérature une telle distinction est-elle faite? J'avais l'impression que les «valeurs aberrantes» n'avaient pas de définition formelle, en plus d'être des observations à fort effet de levier et à forte influence. L' influence et l' effet de levier n'ont des définitions mathématiques, mais compte tenu de quelque chose « élevé » est arbitraire. Il semble que des mots arbitraires soient échangés.
AdamO
Les personnes qui utilisent le mot "inlier" font implicitement une sorte de distinction entre "anomalie" et "valeur aberrante", car une inale est une sorte d'anomalie. Étant donné que ni "valeur aberrante" ni "anomalie" n'ont de définitions techniques définies et communément comprises, nous devrions nous attendre à ce que cette question ait des réponses multiples qui diffèrent (au moins légèrement) les unes des autres.
whuber

Réponses:

9

Les deux termes sont synonymes selon:

Aggarwal, Charu C. Analyse des valeurs aberrantes. Springer New York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1

Citation de la page 1:

Les valeurs aberrantes sont également appelées anomalies, discordances, déviations ou anomalies dans la littérature d'exploration de données et de statistiques.

Le texte en gras ne fait pas partie du texte d'origine.

Le pdf gratuit à télécharger du livre disponible auprès de l'auteur est ici.

tomas
la source
Le fait que les «valeurs aberrantes» soient appelées «anomalies» ne signifie pas qu'elles sont synonymes. Les "chiens" sont parfois appelés "animaux", d'ailleurs. J'ai essayé d'aborder cela plus en détail dans cette réponse (je n'ai pas pu le poster ici, car la question est protégée).
Marco13
9

Une réponse ironique:

Valeur aberrante: une valeur que vous trouvez de manière prévisible dans vos données qui indique que votre modèle ne fonctionne pas correctement

Anomalie: une valeur qui, contre toute attente trouvée dans vos données, indique que votre modèle fonctionne correctement

Une réponse plus sérieuse et moins cryptique:

Le concept de valeurs aberrantes part de la question de la construction d'un modèle qui fait des hypothèses sur les données. Les valeurs aberrantes sont souvent des indicateurs que le modèle ne décrit pas correctement les données et nous devons donc remettre en question les résultats de notre modèle ou la qualité de nos données.

Le concept d'anomalies commence à l'extérieur du monde théorique et à l'intérieur du monde appliqué: nous voulons rechercher un comportement inhabituel dans nos données, parfois motivé par le fait que nous sommes intéressés à trouver un comportement que quelqu'un essaie de cacher (comme un virus dans un email). Le problème est que puisque les gens essaient de cacher ce qu'ils font, nous ne savons pas vraiment quoi chercher. Nous prenons donc un ensemble de «bonnes» données, et décidons que tout ce que nous trouvons dans notre nouvel ensemble de données qui ne semble pas «bon» est une anomalie et mérite notre temps pour vérifier plus en détail. Souvent, la recherche d'anomalies signifie la recherche de valeurs aberrantes dans votre nouvel ensemble de données. Mais notez que ces valeurs peuvent être très courantes dans votre nouvel ensemble de données, bien qu'elles soient rares dans votre ancien ensemble de données!

En résumé, les deux concepts sont très similaires en termes de statistiques derrière eux (c'est-à-dire des valeurs inhabituelles compte tenu de votre modèle ajusté) mais viennent à l'idée sous des angles différents. De plus, lorsque nous parlons de valeurs aberrantes, nous entendons généralement un point de données inhabituel dans les données utilisées pour ajuster notre modèle , alors qu'une anomalie est généralement considérée comme un point de données inhabituel dans un ensemble de données en dehors des données utilisées pour ajuster notre modèle .

Remarque: cette réponse est basée sur la façon dont j'ai vu les deux termes fréquemment utilisés plutôt que sur les définitions formelles. Les expériences des utilisateurs peuvent différer.

Cliff AB
la source
6

Une anomalie est un résultat qui ne peut pas être expliqué étant donné la distribution de base (une impossibilité si nos hypothèses sont correctes). Une valeur aberrante est un événement peu probable compte tenu de la distribution de base (une improbabilité).

H. Iqbal
la source
7
La citation de la source pour les définitions et l'exemple améliorerait grandement la réponse.
Tim
4
Autant que je sache, ce sont des synonymes. Alors @H. Iqbal doit vraiment citer la source et tous les lecteurs doivent ensuite évaluer l'autorité de la source sayd
Jacques Wainer
2
L'impossibilité semble impliquer P (X = ANOMALIE) = 0 (c'est-à-dire exactement 0). Ma compréhension de la détection d'anomalies est que le chercheur peut être intéressé par des événements susceptibles d'avoir une probabilité positive.
Cliff AB
4

Les termes sont largement utilisés de manière interchangeable. "Valeur aberrante" se réfère à quelque chose qui se situe en dehors de la norme - c'est donc "anormal". Mais j'ai l'impression que «valeur aberrante» est généralement utilisée pour de très rares observations. En statistiques, sur une distribution normale, vous considéreriez trois sigma comme des valeurs aberrantes. Cela signifie que 99,7% de vos objets devraient être "normaux". "Anomalie" est utilisée de manière beaucoup plus libérale. Si vous avez soudainement des millions de visiteurs sur votre site Web, ce ne sont pas des visiteurs rares. L'augmentation soudaine du nombre de visiteurs reste cependant "anormale", alors que chaque visiteur individuel n'est pas une "valeur aberrante".

C'est peut-être dans cet article que j'ai vu ces différences discutées, mais je ne peux pas y accéder pour l'instant, malheureusement.

Analyse statistique et exploration de données, volume 5, numéro 5, octobre 2012, pages 363–387 Une enquête sur la détection non surveillée des valeurs aberrantes dans les données numériques de grande dimension

A QUIT - Anony-Mousse
la source
1
Je pense que vous avez subtilement laissé entendre la différence entre les valeurs aberrantes et les anomalies; les valeurs aberrantes sont utilisées pour décrire des données qui ne correspondent pas à une tendance générale, les anomalies décrivent un trafic inhabituel sur un serveur. 50% jk.
Cliff AB
2

Juste pour embrouiller les eaux plus loin, en climatologie, une anomalie implique simplement la différence entre la valeur et la moyenne, ou une déviation:

Le terme anomalie de température signifie un écart par rapport à une valeur de référence ou à une moyenne à long terme. Une anomalie positive indique que la température observée était plus chaude que la valeur de référence, tandis qu'une anomalie négative indique que la température observée était plus froide que la valeur de référence.

voir par exemple

Cela peut bien être considéré comme un apprentissage automatique en dehors, mais les personnes intéressées par la question peuvent être intéressées par cela.

Nick Cox
la source
1

Une valeur aberrante est un point de données qui rend difficile l'ajustement d'un modèle. Vous faites face à des valeurs aberrantes, souvent à contrecœur, lorsque vous essayez d'ajuster un modèle sur votre jeu de données. La suppression des valeurs aberrantes permet de construire de meilleurs modèles (c'est-à-dire plus généralisables). Un point(1,5) serait une valeur aberrante pour le modèle y=X. Vous l'ignorez à la lumière du fait que tous vos autres points(1,1), (5,5), (3,3.1) plus en forme y=X.

Une anomalie peut être un point de données, ou également une tendance générale ou un comportement observé dans les données après qu'un modèle a déjà été construit ou une compréhension du processus de génération de données formé. Vous êtes confronté à des anomalies car le système commence à se comporter différemment, ou vous recherchez de tels points de données, car vous souhaitez être informé lorsqu'un événement se produit au cours duquel votre modèle n'est pas valide. Vous pouvez vous soucier d'observer tout comportement anormal dans les amplitudes des vagues océaniques, non pas parce que vous voulez jeter ces points de données et construire un meilleur modèle, mais parce que vous voulez savoir quand un tsunami pourrait se produire.

Semihcan Doken
la source
2
Je suis en désaccord avec la plupart de cela. Tout d'abord, la première phrase peut être votre définition de valeur aberrante si vous le souhaitez, mais il est difficile de se réconcilier avec de nombreuses autres définitions ou usages. Si les données sont (1, 1), (2, 2), (3, 3), (beaucoup plus grandes, beaucoup plus grandes), le point beaucoup plus grand serait souvent décrit comme une valeur aberrante, mais il n'y a aucun problème à ajuster un modèle. Vous pourriez (et devriez) vous demander pourquoi les données viennent de cette façon, mais l'ajustement d'un modèle est facile. Plus généralement, le principe est qu'une valeur aberrante peut être séparée du corps principal des données mais toujours cohérente avec un modèle plausible.
Nick Cox
Deuxièmement, si l'implication que l'omission des valeurs aberrantes est exactement ce que vous devez faire, alors (a) il est souvent problématique même de dire quelles sont les valeurs aberrantes (b) il existe de nombreuses autres solutions. Le fil stats.stackexchange.com/questions/78063/… s'étend plus largement que son titre pour en mentionner plusieurs.
Nick Cox
1
Si vous suivez mon lien, vous verrez que j'ai déjà publié un long article sur les valeurs aberrantes. Je n'ai aucun sens à relire votre réponse que vous pensez rétrospectivement car vous semblez parler de supprimer les valeurs aberrantes pendant le montage. En relisant, je note également que la première phrase de votre deuxième paragraphe inclut l'idée qu'une anomalie peut être «une tendance ou un comportement général», ce qui n'est probablement pas ce que vous voulez dire - ou si c'est le cas, je ne le fais pas » Je ne le comprends pas.
Nick Cox
1

Bonne question. Cependant, la recherche google sur "différence entre les valeurs aberrantes et le site des anomalies: .edu" montre qu'il n'y a pas de différence théorique entre ces deux termes. Ils sont utilisés de manière interchangeable dans la littérature.

Chandra
la source