Quelle est la différence entre Outlier et Anomaly dans le contexte de l'apprentissage automatique. Je crois comprendre que les deux se réfèrent à la même chose.
outliers
terminology
anomaly-detection
user3282512
la source
la source
Réponses:
Les deux termes sont synonymes selon:
Citation de la page 1:
Le texte en gras ne fait pas partie du texte d'origine.
Le pdf gratuit à télécharger du livre disponible auprès de l'auteur est ici.
la source
Une réponse ironique:
Valeur aberrante: une valeur que vous trouvez de manière prévisible dans vos données qui indique que votre modèle ne fonctionne pas correctement
Anomalie: une valeur qui, contre toute attente trouvée dans vos données, indique que votre modèle fonctionne correctement
Une réponse plus sérieuse et moins cryptique:
Le concept de valeurs aberrantes part de la question de la construction d'un modèle qui fait des hypothèses sur les données. Les valeurs aberrantes sont souvent des indicateurs que le modèle ne décrit pas correctement les données et nous devons donc remettre en question les résultats de notre modèle ou la qualité de nos données.
Le concept d'anomalies commence à l'extérieur du monde théorique et à l'intérieur du monde appliqué: nous voulons rechercher un comportement inhabituel dans nos données, parfois motivé par le fait que nous sommes intéressés à trouver un comportement que quelqu'un essaie de cacher (comme un virus dans un email). Le problème est que puisque les gens essaient de cacher ce qu'ils font, nous ne savons pas vraiment quoi chercher. Nous prenons donc un ensemble de «bonnes» données, et décidons que tout ce que nous trouvons dans notre nouvel ensemble de données qui ne semble pas «bon» est une anomalie et mérite notre temps pour vérifier plus en détail. Souvent, la recherche d'anomalies signifie la recherche de valeurs aberrantes dans votre nouvel ensemble de données. Mais notez que ces valeurs peuvent être très courantes dans votre nouvel ensemble de données, bien qu'elles soient rares dans votre ancien ensemble de données!
En résumé, les deux concepts sont très similaires en termes de statistiques derrière eux (c'est-à-dire des valeurs inhabituelles compte tenu de votre modèle ajusté) mais viennent à l'idée sous des angles différents. De plus, lorsque nous parlons de valeurs aberrantes, nous entendons généralement un point de données inhabituel dans les données utilisées pour ajuster notre modèle , alors qu'une anomalie est généralement considérée comme un point de données inhabituel dans un ensemble de données en dehors des données utilisées pour ajuster notre modèle .
Remarque: cette réponse est basée sur la façon dont j'ai vu les deux termes fréquemment utilisés plutôt que sur les définitions formelles. Les expériences des utilisateurs peuvent différer.
la source
Une anomalie est un résultat qui ne peut pas être expliqué étant donné la distribution de base (une impossibilité si nos hypothèses sont correctes). Une valeur aberrante est un événement peu probable compte tenu de la distribution de base (une improbabilité).
la source
Les termes sont largement utilisés de manière interchangeable. "Valeur aberrante" se réfère à quelque chose qui se situe en dehors de la norme - c'est donc "anormal". Mais j'ai l'impression que «valeur aberrante» est généralement utilisée pour de très rares observations. En statistiques, sur une distribution normale, vous considéreriez trois sigma comme des valeurs aberrantes. Cela signifie que 99,7% de vos objets devraient être "normaux". "Anomalie" est utilisée de manière beaucoup plus libérale. Si vous avez soudainement des millions de visiteurs sur votre site Web, ce ne sont pas des visiteurs rares. L'augmentation soudaine du nombre de visiteurs reste cependant "anormale", alors que chaque visiteur individuel n'est pas une "valeur aberrante".
C'est peut-être dans cet article que j'ai vu ces différences discutées, mais je ne peux pas y accéder pour l'instant, malheureusement.
la source
Juste pour embrouiller les eaux plus loin, en climatologie, une anomalie implique simplement la différence entre la valeur et la moyenne, ou une déviation:
voir par exemple
Cela peut bien être considéré comme un apprentissage automatique en dehors, mais les personnes intéressées par la question peuvent être intéressées par cela.
la source
Une valeur aberrante est un point de données qui rend difficile l'ajustement d'un modèle. Vous faites face à des valeurs aberrantes, souvent à contrecœur, lorsque vous essayez d'ajuster un modèle sur votre jeu de données. La suppression des valeurs aberrantes permet de construire de meilleurs modèles (c'est-à-dire plus généralisables). Un point( 1 , 5 ) serait une valeur aberrante pour le modèle y= x . Vous l'ignorez à la lumière du fait que tous vos autres points( 1 , 1 ) , ( 5 , 5 ) , ( 3 , 3.1 ) plus en forme y= x .
Une anomalie peut être un point de données, ou également une tendance générale ou un comportement observé dans les données après qu'un modèle a déjà été construit ou une compréhension du processus de génération de données formé. Vous êtes confronté à des anomalies car le système commence à se comporter différemment, ou vous recherchez de tels points de données, car vous souhaitez être informé lorsqu'un événement se produit au cours duquel votre modèle n'est pas valide. Vous pouvez vous soucier d'observer tout comportement anormal dans les amplitudes des vagues océaniques, non pas parce que vous voulez jeter ces points de données et construire un meilleur modèle, mais parce que vous voulez savoir quand un tsunami pourrait se produire.
la source
Bonne question. Cependant, la recherche google sur "différence entre les valeurs aberrantes et le site des anomalies: .edu" montre qu'il n'y a pas de différence théorique entre ces deux termes. Ils sont utilisés de manière interchangeable dans la littérature.
la source