J'ai récemment reçu un commentaire d'un examinateur à partir d'une soumission de journal qui m'a demandé de
rapporter comment j'ai traité les valeurs aberrantes et les fringeliers .
Je n'avais pas entendu parler du terme "fringeliers" et quand j'ai googlé, il y avait quelques articles, mais pas de définition concise. J'ai donc pensé qu'il serait bon d'avoir une question comme celle-ci qui pourrait clarifier ce que sont les "fringeliers" et fournir une définition à la fois pour moi-même et pour les personnes futures posant la même question.
terminology
outliers
Jeromy Anglim
la source
la source
Réponses:
Fringeliers semble être défini comme un type de valeur aberrante moins extrême. C'est-à-dire des données en marge de la distribution.
Par exemple, si vous définissiez un seuil pour les valeurs aberrantes, les fringeliers pourraient être opérationnalisés pour être les valeurs qui sont proches de chaque côté du seuil (par exemple, pour un seuil de 3 SD, entre 2,7 et 3,3 SD de la moyenne).
Osborne et Overbay (2008) écrivent ce qui suit:
Et continuer pour introduire le terme "fringelier" de Wainer (1976)
Quelques exemples:
Dans certains contextes, les valeurs aberrantes suggèrent que les données ne sont pas valides. Par exemple, si la taille d'un homme est enregistrée comme étant de 8 pieds de haut (disons 6,5 SD au-dessus de la moyenne), il s'agit probablement d'une mesure non valide. En revanche, si la taille d'une personne est enregistrée comme 6 pieds 10 pouces de hauteur (3 SD au-dessus de la moyenne - un fringelier), cela pourrait être une mesure valide, mais également, cela pourrait suggérer un problème de mesure car cela est assez rare. Le fait est que déterminer si une valeur est invalide devient plus difficile, moins la valeur devient extrême.
Dans d'autres contextes, les valeurs aberrantes sont une préoccupation car elles ont une influence excessive sur les estimations des paramètres, en particulier lors de l'utilisation de méthodes statistiques standard utilisant les moindres carrés, etc. Ainsi, les fringeliers peuvent avoir un impact plus important que dans la plupart des cas, mais les décisions quant à la conservation ou non des données à des fins de modélisation peuvent être moins claires.
Références
la source
Je pense que vous devez tenir compte de la fréquence des fringeliers par rapport aux points de données résidant en dessous du seuil. Si la proportion de fringeliers par rapport aux données "valides" est élevée (sur la base de certains facteurs), le seuil est peut-être défini de manière irréaliste. Imaginez que vous êtes dans une tente et que les seuls ours de la région sont à 5 kilomètres; mais il y en a 500! :)
la source