Que sont les «fringeliers»?

8

J'ai récemment reçu un commentaire d'un examinateur à partir d'une soumission de journal qui m'a demandé de

rapporter comment j'ai traité les valeurs aberrantes et les fringeliers .

Je n'avais pas entendu parler du terme "fringeliers" et quand j'ai googlé, il y avait quelques articles, mais pas de définition concise. J'ai donc pensé qu'il serait bon d'avoir une question comme celle-ci qui pourrait clarifier ce que sont les "fringeliers" et fournir une définition à la fois pour moi-même et pour les personnes futures posant la même question.

Jeromy Anglim
la source
Voici une proposition de réponse lorsque vous soumettez votre révision: "Je traite avec les fringeliers en tenant compte de leurs commentaires sur mon manuscrit et en révisant mon article en conséquence." ;-)
Stephan Kolassa

Réponses:

10

Fringeliers semble être défini comme un type de valeur aberrante moins extrême. C'est-à-dire des données en marge de la distribution.

Par exemple, si vous définissiez un seuil pour les valeurs aberrantes, les fringeliers pourraient être opérationnalisés pour être les valeurs qui sont proches de chaque côté du seuil (par exemple, pour un seuil de 3 SD, entre 2,7 et 3,3 SD de la moyenne).

Osborne et Overbay (2008) écrivent ce qui suit:

Bien que les définitions varient, une valeur aberrante est généralement considérée comme un point de données qui est bien en dehors de la norme pour une variable ou une population (par exemple, Jarrell, 1994; Rasmussen, 1988; Stevens, 1984). Hawkins (1980) a décrit une valeur aberrante comme une observation qui «s'écarte tant des autres observations qu'elle éveille des soupçons qu'elle a été générée par un mécanisme différent» (p. 1). Les valeurs aberrantes ont également été définies comme des valeurs «douteuses aux yeux du chercheur» (Dixon, 1950, p. 488) et des contaminants (Wainer, 1976).

Et continuer pour introduire le terme "fringelier" de Wainer (1976)

Wainer (1976) a également introduit le concept de «fringelier», se référant aux «événements inhabituels qui se produisent plus souvent que rarement» (p. 286). Ces points se situent près de trois écarts-types de la moyenne et peuvent donc avoir une influence disproportionnée sur les estimations des paramètres, mais ne sont pas aussi évidents ou facilement identifiables que les valeurs aberrantes ordinaires en raison de leur proximité relative avec le centre de distribution.

Quelques exemples:

Dans certains contextes, les valeurs aberrantes suggèrent que les données ne sont pas valides. Par exemple, si la taille d'un homme est enregistrée comme étant de 8 pieds de haut (disons 6,5 SD au-dessus de la moyenne), il s'agit probablement d'une mesure non valide. En revanche, si la taille d'une personne est enregistrée comme 6 pieds 10 pouces de hauteur (3 SD au-dessus de la moyenne - un fringelier), cela pourrait être une mesure valide, mais également, cela pourrait suggérer un problème de mesure car cela est assez rare. Le fait est que déterminer si une valeur est invalide devient plus difficile, moins la valeur devient extrême.

Dans d'autres contextes, les valeurs aberrantes sont une préoccupation car elles ont une influence excessive sur les estimations des paramètres, en particulier lors de l'utilisation de méthodes statistiques standard utilisant les moindres carrés, etc. Ainsi, les fringeliers peuvent avoir un impact plus important que dans la plupart des cas, mais les décisions quant à la conservation ou non des données à des fins de modélisation peuvent être moins claires.

Références

  • Osborne, J. et Overbay, A. (2008). Meilleures pratiques en matière de nettoyage des données: comment les valeurs aberrantes et les «fringeliers» peuvent augmenter les taux d'erreur et diminuer la qualité et la précision de vos résultats. Dans Osborne, J. Best practices in quantitative methods (pp. 205-213). Thousand Oaks, Californie: SAGE Publications, Inc. doi: 10.4135 / 9781412995627
  • Wainer, H.Robust statistics: A survey and some prescription1 (4) 285-312 (1976).
Jeromy Anglim
la source
Je suppose que la différence ne peut se manifester que dans la façon dont ils sont traités. Est-ce que les gens notent la différence suggérant de traiter le "fringelier" avec une pénalité douce tout en traitant la valeur aberrante avec une pénalité sévère comme le rejet pur et simple?
Hans
0

Je pense que vous devez tenir compte de la fréquence des fringeliers par rapport aux points de données résidant en dessous du seuil. Si la proportion de fringeliers par rapport aux données "valides" est élevée (sur la base de certains facteurs), le seuil est peut-être défini de manière irréaliste. Imaginez que vous êtes dans une tente et que les seuls ours de la région sont à 5 kilomètres; mais il y en a 500! :)

Jim
la source
Cela ne fournit pas de définition.
Michael R. Chernick