Supprimer les valeurs aberrantes des données - nombre maximal de valeurs aberrantes que vous pouvez supprimer?
9
J'ai quelques valeurs aberrantes dans mes données et je voulais les exclure pour voir si cela change les résultats. À votre avis, quel est le nombre maximal de valeurs aberrantes auquel on devrait se limiter?
Votre graphique est modifié ici: les étiquettes numériques sur l'axe y sont manquantes et les entrées de légende ne sont pas distinctes. (Cela peut être un moyen de masquer des données non publiées, mais cela ne nous aide pas à vous donner de bons conseils.) La légende cryptique n'affecte pas votre question, mais le fait de ne pas savoir à quelle échelle vous travaillez limite la portée des réponses utiles . Les données présentées montrent un biais gauche ou négatif modéré; cela peut avoir du sens, et les valeurs aberrantes apparentes n'en sont que les conséquences. Alternativement, il se peut que vous ayez sur-transformé, par exemple utilisé des logarithmes où les données ne le méritent pas.
Nick Cox
Réponses:
9
Il n'y a ni maximum ni minimum. Les valeurs aberrantes doivent être supprimées s'il s'agit de données erronées ou s'il existe d'autres raisons substantielles de les supprimer. S'il n'y a pas de raisons substantielles, je suggère d'utiliser des méthodes robustes aux valeurs aberrantes. Je ne supprimerais pas les valeurs aberrantes simplement parce qu'elles sont un peu loin des autres points.
D'accord. Remarquez Box, Hunter & Hunter: "Statistics for Experimenters" dit que dans l'industrie chimique, les valeurs aberrantes ont souvent abouti à de nouveaux brevets! Selon les circonstances, les valeurs aberrantes peuvent être l'élément d'information le plus important dans vos données! Les supprimer ne devrait jamais être facile.
kjetil b halvorsen
3
Aussi en astrophysique. "Supprimons simplement les trous noirs et les étoiles à neutrons des données" :-).
Peter Flom
1
Peter Flom: Oui! Et parmi les êtres humains, s'il n'y avait pas de valeurs aberrantes parmi nous, nous vivrions encore à l'âge de pierre!
kjetil b halvorsen
5
Dans cet exemple, notez que les 7 valeurs aberrantes étiquetées ont des valeurs faibles, tandis qu'aucune n'a des valeurs élevées. Cela pourrait représenter des problèmes de mesure, ou cela pourrait signifier quelque chose de très intéressant. Quoi qu'il en soit, le simple fait de supprimer les valeurs aberrantes ici sans tenir compte de ce qui a conduit aux valeurs faibles semble déconseillé.
EdM
1
J'interprète la question un peu différemment. Il ne propose pas de supprimer les valeurs aberrantes de l'analyse, ce que cette réponse suppose implicitement. Il demande seulement comment effectuer une analyse de sensibilité "pour voir si cela change les résultats". Bien que le conseil donné ici sur la suppression des valeurs aberrantes soit correct - et aurait clairement une certaine incidence sur les décisions ultérieures s'il s'avère que l'analyse est sensible aux valeurs aberrantes - il ne semble pas servir les intérêts du PO dans cette affaire.
whuber
1
Je voudrais insister sur quelque chose qui a été dit dans une autre réponse et commentaires (je pense que les réponses de @Peter Flom sont exactes et qu'EdM est juste au contact des mesures, entre tous).
L'analyse des données est quelque chose qui doit être fait avec soin. Vous devez être très conscient de la signification des valeurs aberrantes dans votre contact. Par exemple, en supposant que votre procédure de mesure a été effectuée "correctement" (je veux dire, vous n'avez pas introduit de biais, votre équipement a été calibré, la personne qui lit l'instrument l'a fait correctement, etc., etc.), certaines valeurs aberrantes peuvent dire quelque chose d'intéressant et parfois très important.
Voici un exemple inventé, soyez indulgent (indiquez-le dans les commentaires) s'il n'est pas correct à 100% sur tous les aspects. ;)
Disons que quelqu'un teste l'effet de l'application d'une certaine quantité d'une substance à certaines cultures (populations) de bactéries. Maintenant, "en général", l'effet est de stabiliser le nombre de bactéries dans la population, mais il existe des valeurs aberrantes parmi les différentes cultures.
Imaginez que toutes vos valeurs aberrantes indiquent des situations où toutes les bactéries sont mortes. Ou que toutes les valeurs aberrantes représentent des cultures où les populations de bactéries sont devenues incontrôlables.
Ce que je veux souligner, c'est que la nature de vos valeurs aberrantes perçues pourrait être significative et que les conséquences de chacune sont différentes. Vous pourriez être dans une situation où il est intolérable que le nombre de bactéries augmente ou diminue.
Bien sûr, si vous avez remarqué que certaines populations ont été anéanties par la substance, vous enquêteriez probablement sur la question, car il s'agit d'une situation facilement reconnaissable. Mais tous les phénomènes ne sont pas facilement détectables.
Pour conclure, la notion de valeurs aberrantes est quelque peu arbitraire, mais leurs significations sont multiples et d'importance différente. J'espère que cela vous fera réfléchir sur la question ... :)
Réponses:
Il n'y a ni maximum ni minimum. Les valeurs aberrantes doivent être supprimées s'il s'agit de données erronées ou s'il existe d'autres raisons substantielles de les supprimer. S'il n'y a pas de raisons substantielles, je suggère d'utiliser des méthodes robustes aux valeurs aberrantes. Je ne supprimerais pas les valeurs aberrantes simplement parce qu'elles sont un peu loin des autres points.
la source
Je voudrais insister sur quelque chose qui a été dit dans une autre réponse et commentaires (je pense que les réponses de @Peter Flom sont exactes et qu'EdM est juste au contact des mesures, entre tous).
L'analyse des données est quelque chose qui doit être fait avec soin. Vous devez être très conscient de la signification des valeurs aberrantes dans votre contact. Par exemple, en supposant que votre procédure de mesure a été effectuée "correctement" (je veux dire, vous n'avez pas introduit de biais, votre équipement a été calibré, la personne qui lit l'instrument l'a fait correctement, etc., etc.), certaines valeurs aberrantes peuvent dire quelque chose d'intéressant et parfois très important.
Voici un exemple inventé, soyez indulgent (indiquez-le dans les commentaires) s'il n'est pas correct à 100% sur tous les aspects. ;)
Disons que quelqu'un teste l'effet de l'application d'une certaine quantité d'une substance à certaines cultures (populations) de bactéries. Maintenant, "en général", l'effet est de stabiliser le nombre de bactéries dans la population, mais il existe des valeurs aberrantes parmi les différentes cultures.
Imaginez que toutes vos valeurs aberrantes indiquent des situations où toutes les bactéries sont mortes. Ou que toutes les valeurs aberrantes représentent des cultures où les populations de bactéries sont devenues incontrôlables.
Ce que je veux souligner, c'est que la nature de vos valeurs aberrantes perçues pourrait être significative et que les conséquences de chacune sont différentes. Vous pourriez être dans une situation où il est intolérable que le nombre de bactéries augmente ou diminue.
Bien sûr, si vous avez remarqué que certaines populations ont été anéanties par la substance, vous enquêteriez probablement sur la question, car il s'agit d'une situation facilement reconnaissable. Mais tous les phénomènes ne sont pas facilement détectables.
Pour conclure, la notion de valeurs aberrantes est quelque peu arbitraire, mais leurs significations sont multiples et d'importance différente. J'espère que cela vous fera réfléchir sur la question ... :)
la source