Quelle est la précision de l'IQR pour détecter les valeurs aberrantes

11

J'écris un script qui analyse les temps d'exécution des processus. Je ne suis pas sûr de leur distribution mais je veux savoir si un processus se déroule "trop ​​longtemps". Jusqu'à présent, j'ai utilisé 3 écarts-types des derniers temps d'exécution (n> 30), mais on m'a dit que cela ne fournit rien d'utile si les données ne sont pas normales (ce qui ne semble pas être le cas). J'ai trouvé un autre test aberrant qui dit:

Trouvez l'intervalle inter quartile, qui est IQR = Q3 - Q1, où Q3 est le troisième quartile et Q1 est le premier quartile. Trouvez ensuite ces deux nombres:

a) Q1 - 1,5 * IQR b) Q3 + 1,5 * IQR

Le point est une valeur aberrante si <a ou> b

Mes données ont tendance à être des choses comme 2 sec, 3 sec, 2 sec, 5 sec, 300 sec, 4 sec, ... où 300 sec est évidemment une valeur aberrante.

Quelle méthode est la meilleure? La méthode IQR ou la méthode de déviation std?

chris bedd
la source
4
Vous voudrez peut-être consulter la réponse de @ user603 ici: existe-t-il une variante boxplot pour les données distribuées de poisson pour savoir comment ajuster cette règle pour les données asymétriques.
gung - Reinstate Monica
3
Cette méthode "IQR" n'a jamais été destinée à être appliquée à l'aveugle. Cela fait partie d'un processus d'analyse exploratoire des données (tel que décrit par Nick Cox dans sa réponse) au cours duquel vous trouveriez d'abord un moyen de ré-exprimer les données pour les rendre approximativement symétriques.
whuber
2
Sur la base de vos commentaires sur les réponses, la bonne réponse est «ni l'un ni l'autre», car votre préoccupation sous-jacente ne concerne pas les valeurs aberrantes, mais le processus.
whuber
Connexe: Détecter les valeurs aberrantes à l'aide des écarts - types est le revers de cette question
user56reinstatemonica8
Les nombres sont pris dans le temps, ils ne seront donc jamais symétriques, sauf si vous les redimensionnez d'une manière ou d'une autre.
JP Bennett

Réponses:

14

Il y a vraiment des livres entiers sur les valeurs aberrantes.

La réponse spécifique habituelle est que l'écart type est relevé par des valeurs aberrantes, de sorte que toute règle basée sur le SD peut mal fonctionner.

Les règles de Tukey sur les quartiles +/- 1,5 IQR que vous citez sont le résultat d'un travail manuel avec des ensembles de données de petite et moyenne taille dans les années 1970, et ont été conçues pour indiquer des valeurs auxquelles vous pourriez penser individuellement. Il n'est pas clair qu'ils se répercutent sur des ensembles de données beaucoup plus vastes, ni qu'ils s'appliquent lorsque vous vous attendez à une asymétrie considérable.

Une réponse plus générale est qu'une règle aberrante est bonne si elle prend toujours les bonnes décisions, mais comment savoir?

C'est un territoire litigieux, mais je m'attends à ce qu'une valeur aberrante ressorte d'un graphique comme étant très différente des autres. Mais c'est souvent (généralement?) Un appel difficile à faire la différence entre ce que vous attendez d'une distribution à queue lourde et ce qui est trop sauvage pour être considéré comme autre chose qu'une valeur aberrante. Parfois, la transformation rend une valeur aberrante beaucoup plus ordinaire.

De plus, si vous utilisez des méthodes robustes, vous pourriez vous préoccuper un peu moins précisément des valeurs qui méritent d'être appelées valeurs aberrantes, mais plutôt des valeurs aberrantes en général.

Nick Cox
la source
1

Vous dites que vous n'êtes pas sûr de la distribution, mais les processus en cours sont faciles à collecter et à évaluer pour la distribution. Il vous suffit d'enregistrer un tas de fois et de les analyser. Étant donné le nombre de fois que vous avez posté, vous pourriez obtenir des lots en quelques heures.

Votre recherche d'une règle pour une valeur aberrante n'a pas besoin d'être aussi générale. Cela peut être spécifique à votre tâche. Vous pouvez collecter de nombreuses données. Collectez-le, examinez-le, puis décidez quand un processus est trop long. Peut-être qu'une approche basée sur l'IQR fonctionnera, mais vous pouvez utiliser votre ensemble de données ou un ajustement paramétrique pour faire des simulations et voir si cela fonctionne bien. Il en va de même pour SD. Il se peut que> 50 ans soit trop long et c'est tout ce dont vous avez besoin.

John
la source
Je collecte des données sur plusieurs processus. Ils peuvent chacun avoir des distributions différentes. J'ai juste besoin d'un moyen simple de dire "temps de fonctionnement trop long" pour alerter les techniciens pour qu'ils approfondissent les choses. Cela peut être général tant qu'il signale des choses qui devraient être signalées. Si quelques faux positifs apparaissent, qu'il en soit ainsi. Cependant, les faux positifs doivent être réduits au minimum, car s'il y en a trop, cela va à l'encontre du but du script et je devrais simplement vider tous les résultats et laisser les techniciens s'en occuper. Le but du script est de "réduire les choses"
chris bedd
Vous pouvez évaluer si les processus sont identiques ou différents. S'ils sont vraiment très différents, certaines règles générales peuvent avoir tendance à déclencher un avertissement particulier plus fréquemment que nécessaire. Cette information devrait vraiment être dans votre question.
John
3
Caractériser ce problème comme une recherche de valeurs aberrantes, chris, est injuste: vous vous attaquez en fait à un problème de contrôle de la qualité . Les principales distinctions sont (1) vous avez un flux de données en cours plutôt qu'un ensemble de données statiques à analyser et (2) vous avez l'intention de spécifier des actions périodiques à entreprendre à la suite de chaque analyse: c'est-à-dire s'il faut intervenir (et tenter de améliorer le processus) ou non (et laisser le processus s'exécuter tel quel). Comprendre que c'est la nature de votre problème montre que l'énorme littérature sur le contrôle de la qualité est pertinente, fournissant un riche assortiment de solutions.
whuber
+1 @whuber. Les valeurs aberrantes ne sont pas pertinentes ici. Ni le temps d'exécution moyen, ni aucun percentile de celui-ci, n'est lié à ce qui est «trop long». Le moyen de découvrir ce qui est «trop long» peut être une enquête auprès des utilisateurs, ou un contrôle auprès des ingénieurs, ou simplement une supposition du siège du pantalon, ou autre chose, mais ce n'est pas une question statistique.
Peter Flom - Réintègre Monica