J'écris un script qui analyse les temps d'exécution des processus. Je ne suis pas sûr de leur distribution mais je veux savoir si un processus se déroule "trop longtemps". Jusqu'à présent, j'ai utilisé 3 écarts-types des derniers temps d'exécution (n> 30), mais on m'a dit que cela ne fournit rien d'utile si les données ne sont pas normales (ce qui ne semble pas être le cas). J'ai trouvé un autre test aberrant qui dit:
Trouvez l'intervalle inter quartile, qui est IQR = Q3 - Q1, où Q3 est le troisième quartile et Q1 est le premier quartile. Trouvez ensuite ces deux nombres:
a) Q1 - 1,5 * IQR b) Q3 + 1,5 * IQR
Le point est une valeur aberrante si <a ou> b
Mes données ont tendance à être des choses comme 2 sec, 3 sec, 2 sec, 5 sec, 300 sec, 4 sec, ... où 300 sec est évidemment une valeur aberrante.
Quelle méthode est la meilleure? La méthode IQR ou la méthode de déviation std?
la source
Réponses:
Il y a vraiment des livres entiers sur les valeurs aberrantes.
La réponse spécifique habituelle est que l'écart type est relevé par des valeurs aberrantes, de sorte que toute règle basée sur le SD peut mal fonctionner.
Les règles de Tukey sur les quartiles +/- 1,5 IQR que vous citez sont le résultat d'un travail manuel avec des ensembles de données de petite et moyenne taille dans les années 1970, et ont été conçues pour indiquer des valeurs auxquelles vous pourriez penser individuellement. Il n'est pas clair qu'ils se répercutent sur des ensembles de données beaucoup plus vastes, ni qu'ils s'appliquent lorsque vous vous attendez à une asymétrie considérable.
Une réponse plus générale est qu'une règle aberrante est bonne si elle prend toujours les bonnes décisions, mais comment savoir?
C'est un territoire litigieux, mais je m'attends à ce qu'une valeur aberrante ressorte d'un graphique comme étant très différente des autres. Mais c'est souvent (généralement?) Un appel difficile à faire la différence entre ce que vous attendez d'une distribution à queue lourde et ce qui est trop sauvage pour être considéré comme autre chose qu'une valeur aberrante. Parfois, la transformation rend une valeur aberrante beaucoup plus ordinaire.
De plus, si vous utilisez des méthodes robustes, vous pourriez vous préoccuper un peu moins précisément des valeurs qui méritent d'être appelées valeurs aberrantes, mais plutôt des valeurs aberrantes en général.
la source
Vous dites que vous n'êtes pas sûr de la distribution, mais les processus en cours sont faciles à collecter et à évaluer pour la distribution. Il vous suffit d'enregistrer un tas de fois et de les analyser. Étant donné le nombre de fois que vous avez posté, vous pourriez obtenir des lots en quelques heures.
Votre recherche d'une règle pour une valeur aberrante n'a pas besoin d'être aussi générale. Cela peut être spécifique à votre tâche. Vous pouvez collecter de nombreuses données. Collectez-le, examinez-le, puis décidez quand un processus est trop long. Peut-être qu'une approche basée sur l'IQR fonctionnera, mais vous pouvez utiliser votre ensemble de données ou un ajustement paramétrique pour faire des simulations et voir si cela fonctionne bien. Il en va de même pour SD. Il se peut que> 50 ans soit trop long et c'est tout ce dont vous avez besoin.
la source