Est-il possible de supprimer les données aberrantes des données?

33

J'ai cherché un moyen de supprimer les valeurs aberrantes d'un jeu de données et j'ai trouvé cette question .

Cependant, dans certains commentaires et réponses à cette question, certaines personnes ont indiqué qu’il était de mauvaise pratique de supprimer les données aberrantes des données.

Dans mon jeu de données, j'ai plusieurs valeurs aberrantes qui sont probablement dues à des erreurs de mesure. Même si certains ne le sont pas, je n'ai aucun moyen de vérifier cela au cas par cas, car il y a trop de points de données. Est-il statistiquement valable que de simplement supprimer les valeurs aberrantes? Ou, sinon, quelle pourrait être une autre solution?

Si je laisse simplement ces points là, ils influenceront par exemple la moyenne d'une manière qui ne reflète pas la réalité (car la plupart d'entre elles sont de toute façon des erreurs).

EDIT: Je travaille avec des données de conductance cutanée. La plupart des valeurs extrêmes sont dues à des artefacts tels que ceux qui tirent sur les câbles.

EDIT2: Mon principal intérêt dans l'analyse des données est de déterminer s'il existe une différence entre deux groupes

Sininho
la source
3
Et que veux-tu faire? Résumé des données? Analyse prédictive? Visualisation de données? Prouver qu'il n'y a (pas) de différence significative entre deux groupes? Comme pour tout nettoyage de données, il n'y a pas de réponse générale.
Piotr Migdal
5
Je suis un ingénieur qui travaille avec beaucoup de statistiques. C'était un désistement et une confession qui signifiait que je devais livrer des produits. Nous ne sommes autorisés à supprimer que les "mauvais" points entièrement attribués. Pouvez-vous prouver que c'était quelqu'un qui tirait un fil? Si vous obtenez plusieurs mesures intentionnelles, vous pouvez y lier et regrouper. Ensuite, vous pouvez fractionner les données sur le cluster (pull vs non-pull) et il ne s'agit plus de valeurs aberrantes. Si vous ne pouvez pas prouver la cause première du problème, vous devez (le conserver). Cela en dit long sur la variation, et c’est une grande partie de l’analyse. Vous ne pouvez pas vous en débarrasser si vous ne l'aimez pas.
EngrStudent
4
Je pense que vous commencez par le mauvais bout. La première question est de savoir comment identifier les valeurs aberrantes en premier lieu.
user603
5
Plutôt que de supprimer arbitrairement les valeurs aberrantes identifiées de manière arbitraire, vous feriez peut-être mieux de prendre en considération quelque chose du genre "étant donné que des problèmes tels que des personnes tirant sur des câbles me contaminent, quelles méthodes puis-je utiliser qui ne sont pas gravement affectées par une telle contamination?"
Glen_b -Reinstate Monica

Réponses:

26

Je ne recommande pas d'exclure les valeurs aberrantes dans l'analyse principale (à moins que vous ne soyez vraiment positif, ils se trompent). Vous pouvez toutefois le faire dans une analyse de sensibilité et comparer les résultats des deux analyses. En sciences, vous découvrez souvent de nouvelles choses précisément lorsque vous vous concentrez sur de telles valeurs.

Pour aller plus loin, il suffit de penser à la découverte déterminante de la pénicilline par Fleming, basée sur la contamination accidentelle de ses expériences avec un moule:

http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1

Dans le passé ou le présent, la détection des valeurs aberrantes est souvent utilisée pour guider l'innovation en sciences biomédicales. Voir par exemple les articles suivants (avec quelques codes R appropriés):

http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678

Enfin, si vous avez des motifs raisonnables d'exclure certaines données, vous pouvez le faire, de préférence dans une analyse de sensibilité et non dans l'analyse principale. Par exemple, vous pouvez exclure toutes les valeurs qui ne sont pas biologiquement plausibles (telles qu'une température de 48 degrés Celsius chez un patient septique). De même, vous pouvez exclure toutes les première et dernière mesures pour un patient donné, afin de minimiser les artefacts de mouvement. Notez toutefois que si vous effectuez cette opération post-hoc (non basée sur des critères prédéfinis), cela risque de constituer un traitement de données.

Joe_74
la source
5
D'accord, mais je trouve cette réponse assez brève pour la remonter. Peut-être pourriez-vous donner un exemple concret ou montrer pourquoi et comment découvrir de nouvelles choses en se concentrant sur les valeurs aberrantes? Ce n'est peut-être pas si évident à première vue.
Tim
26

Une option consiste à exclure les valeurs aberrantes, mais à mon humble avis, il s’agit là d’une chose que vous ne devriez faire que si vous pouvez expliquer (avec une quasi-certitude) la raison pour laquelle de tels points ne sont pas valables (par exemple, équipement de mesure en panne, méthode de mesure non fiable pour une raison quelconque, ...). Par exemple, dans les mesures dans le domaine fréquentiel, le courant continu est souvent rejeté, car de nombreux termes différents contribuent au sens du courant continu, souvent sans rapport avec le phénomène que vous essayez d'observer.

Le problème avec l'élimination des valeurs aberrantes est que, pour déterminer quels points sont des valeurs aberrantes, vous devez disposer d'un bon modèle de ce qui constitue ou non de "bonnes données". Si vous n'êtes pas sûr du modèle (quels facteurs doivent être inclus, quelle structure a-t-il, quelles sont les hypothèses du bruit, ...), vous ne pouvez pas être sûr de vos valeurs aberrantes. Ces valeurs aberrantes sont peut-être simplement des exemples qui essaient de vous dire que votre modèle est faux. En d'autres termes: supprimer les valeurs éloignées renforcera votre modèle (incorrect!) Au lieu de vous permettre d'obtenir de nouvelles informations!

Une autre option consiste à utiliser des statistiques robustes. Par exemple, la moyenne et l'écart type sont sensibles aux valeurs aberrantes, les autres métriques de "localisation" et de "propagation" sont plus robustes. Par exemple, au lieu de la moyenne, utilisez la médiane. Au lieu de l’écart-type, utilisez une plage inter-quartile. Au lieu d'une régression des moindres carrés standard, vous pouvez utiliser une régression robuste. Toutes ces méthodes robustes atténuent les valeurs aberrantes d'une manière ou d'une autre, mais elles ne suppriment généralement pas les données aberrantes (c'est une bonne chose).

Egon
la source
5
Très bonne réponse. La plupart des gens ne réalisent pas que toutes les techniques ne sont pas adaptées à tous les types de données . L’un des résultats regrettables est de se concentrer sur la moyenne des données stockées avec des données aberrantes. Plus les réponses aux appels de ce type sont nombreuses, mieux c'est pour tout le monde.
rumtscho
16

Je pensais ajouter un récit édifiant sur la suppression des valeurs aberrantes:

Rappelez-vous le problème avec le trou dans la couche d'ozone polaire? Un satellite a été mis en orbite au-dessus du pôle spécialement pour mesurer la concentration en ozone. Pendant quelques années, les données post-traitées du satellite ont indiqué que l'ozone polaire était présente à des niveaux normaux, même si d'autres sources ont clairement montré que l'ozone était absent. Finalement, quelqu'un est retourné vérifier le logiciel satellite. Il est avéré que quelqu'un avait écrit le code pour vérifier si la mesure était brute dans une fourchette attendue du niveau historique typique, et à supposer que toute mesure en dehors de la plage était un instrument « pic » (soit une valeur aberrante), automatique corriger la valeur . Heureusement, ils avaient également enregistré les mesures brutes; en les vérifiant, ils virent que le trou avait toujours été signalé.

PMar
la source
12
Il serait bon d'inclure une référence à l'incident : pourquoi n'ont-ils pas découvert le phénomène plus tôt? Malheureusement, le logiciel d’analyse de données TOMS avait été programmé pour marquer et mettre de côté les points de données très divergents des mesures attendues; les mesures initiales qui auraient dû déclencher des alarmes ont donc été simplement négligées. En bref, l’équipe TOMS n’a pas détecté l’appauvrissement de la couche d’ozone des années auparavant, car il était beaucoup plus grave que prévu par les scientifiques.
Johnny
3
C'est une bonne histoire. et on a beaucoup répété, mais pour moi math.uni-augsburg.de/stochastik/pukelsheim/1990c.pdf l' identifie de manière convaincante comme un mythe basé sur un malentendu. Notez incidemment que comme il existe deux pôles, "la couche d'ozone polaire" doit être réécrite.
Nick Cox
3
Voir aussi le compte faisant autorité Christie. M. 2001. La couche d'ozone - Une perspective de la philosophie des sciences. Cambridge: Cambridge UP
Nick Cox
7

"Valeur aberrante" est un terme pratique pour la collecte de données qui ne correspond pas à ce que vous attendez de votre processus, afin de le supprimer de l'analyse.

Je suggérerais de ne jamais (plus tard mettre en garde) éliminer les valeurs aberrantes. Mon expérience est le contrôle statistique des processus. Je traite donc souvent avec de gros volumes de données chronologiques générées automatiquement, qui sont traitées à l’aide d’un diagramme d’exécution / parcelle déroulante / etc., en fonction des données et de la distribution.

Le problème avec les valeurs aberrantes est qu’elles fourniront toujours des informations sur votre «processus». Souvent, ce que vous pensez en tant que processus unique est en réalité composé de plusieurs processus et il est bien plus complexe que ce que vous lui attribuez.

En utilisant l'exemple de votre question, je suggérerais qu'il pourrait y avoir un certain nombre de «processus». il y aura variation en raison de ...

  • échantillons prélevés par un dispositif de conductance
  • échantillons prélevés entre des dispositifs de conductance
  • quand le sujet a enlevé une sonde
  • quand le sujet a déménagé
  • Différences au sein de la peau d'un sujet sur son corps ou entre différents jours d'échantillonnage (cheveux, humidité, huile, etc.)
  • différences entre les sujets
  • la formation de la personne qui prend les mesures et les variations entre les membres du personnel

Tous ces processus produiront une variation supplémentaire dans les données et déplaceront probablement la moyenne et changeront la forme de la distribution. Vous ne pourrez pas séparer beaucoup de ces processus en processus distincts.

Donc , aller à l'idée de supprimer des points de données comme des « valeurs aberrantes » ... Je ne supprimer des points de données, quand je peux certainement les attribuer à un « processus » particulier que je veux ne pas inclure dans mon analyse. Vous devez ensuite vous assurer que les raisons de la non-inclusion sont consignées dans le cadre de votre analyse, c'est donc évident. Ne présumez pas que l'attribution est un élément clé pour prendre des notes supplémentaires grâce à l'observation lors de la collecte de données.

Je contesterais votre déclaration "parce que la plupart d’entre elles sont de toute façon des erreurs", car elles ne sont pas des erreurs, mais font simplement partie d’un processus différent que vous avez identifié dans vos mesures comme étant différent.

Dans votre exemple, je pense qu'il est raisonnable d'exclure les points de données que vous pouvez attribuer à un processus séparé que vous ne souhaitez pas analyser.

Marcus D
la source
6

Si vous supprimez les valeurs aberrantes, dans la plupart des situations, vous devez indiquer que vous le faites et pourquoi. S'il s'agit d'un article scientifique ou à des fins réglementaires, vos statistiques finales pourraient être actualisées et / ou rejetées.

La meilleure solution consiste à identifier le moment où vous pensez que vous obtenez des données erronées (par exemple, lorsque des personnes tirent des câbles), puis à identifier le moment où les personnes tirent des câbles et à extraire les données pour cette raison. Cela entraînera probablement aussi la suppression de «bons» points de données, mais vous disposez désormais d'une «vraie» raison de baliser et d'actualiser ces points de données à la fin de la collecte plutôt qu'à celle de l'analyse. Tant que vous le faites de manière propre et transparente, il est beaucoup plus probable que cela soit acceptable pour les tiers. Si vous supprimez des points de données liés aux fils tirés et que vous obtenez toujours des valeurs aberrantes, alors la conclusion probable est que les fils tirés ne sont pas le (seul) problème - l'autre problème pourrait être lié à la conception de votre expérience ou à votre théorie.

Une des premières expériences que ma mère a eues en rentrant à l'université pour terminer son baccalauréat en sciences est une expérience qui a donné aux étudiants une théorie «fictive» sur le fonctionnement d'un processus, puis de la conduite d'une expérience. Les étudiants qui ont supprimé ou modifié les «mauvais» points de données résultants ont échoué dans l’affectation. Ceux qui ont correctement déclaré que leurs données étaient en désaccord avec les résultats prédits par la (mauvaise) théorie, ont réussi. Le but de la tâche était d'enseigner aux étudiants à ne pas «réparer» (falsifier) ​​leurs données quand ce n'était pas ce à quoi on s'attendait.

Résumé: si vous générez des données incorrectes, corrigez votre test, pas les données.

darkonc
la source
5

C'est un dilemme moral à coup sûr. D'un côté, pourquoi devriez-vous laisser quelques points de données suspects ruiner l'ajustement de votre modèle à la majeure partie des données? En revanche, la suppression d'observations qui ne correspondent pas au concept de réalité de votre modèle constitue une sorte de censure. Pour @ Egon, ces personnes éloignées pourraient essayer de vous dire quelque chose à propos de cette réalité.

Dans une présentation du statisticien Steve MacEachern, il a défini les valeurs aberrantes comme étant "[non représentatif du phénomène à l'étude.]" Selon ce point de vue, si vous estimez que ces points de données suspects ne sont pas représentatifs du phénomène de conductance de la peau que vous essayez d'étudier , peut-être qu'ils n'appartiennent pas à l'analyse. Ou s’ils sont autorisés à rester, une méthode doit être utilisée pour limiter leur influence. Dans cette même présentation, MacEachern a donné des exemples de méthodes robustes, et je me souviens que, dans ces quelques exemples, les méthodes classiques avec les valeurs aberrantes supprimées étaient toujours en accord avec les analyses robustes avec les valeurs aberrantes toujours incluses. Personnellement, j'ai tendance à travailler avec les techniques classiques avec lesquelles je suis le plus à l'aise et à vivre avec l'incertitude morale de la suppression des valeurs aberrantes.

Ben Ogorek
la source
8
Dans Box, Hunter & Hunter: "Statistics for Experimenters", ils expliquent que, dans l'industrie chimique, les valeurs aberrantes ont souvent conduit à de nouveaux brevets . Voulez-vous jeter votre nouveau brevet?
kjetil b halvorsen
2
Non, je ne veux manquer aucun brevet. Mais je ne veux pas non plus faire tourner douze cycles en essayant de faire en sorte que mon modèle prenne en charge "quelqu'un qui tire sur les fils". Ce n'est presque certainement pas le phénomène à l'étude. J'aime l'idée des valeurs aberrantes comme des opportunités, et une suppression s'impose: au moins le code fournira une documentation de ces suppressions, alors que dans les méthodes robustes, les valeurs aberrantes coexistent en quelque sorte avec les autres points.
Ben Ogorek
2
Vous avez raison de dire que les circonstances spécifiques doivent être prises en compte. Ce qu'il ne faut pas faire, c'est appliquer des "règles" sans contexte pour le rejet des valeurs aberrantes. Il n’existe pas de règles aussi bonnes.
kjetil b halvorsen
1
Mon point préféré concernant le pouvoir du contexte est illustré par la question "Les barres Snickers sont-elles en bonne santé?" Eh bien, si vous êtes perdu dans les bois pendant trois jours et que vous venez d'en trouver quelques-uns sur le sol, il s'avère qu'ils sont plutôt en bonne santé après tout. Je pense que les réponses populaires ici nous disent: "Ne mangez jamais un bar Snickers, à moins d'être absolument sûr de mourir si vous ne le faites pas."
Ben Ogorek
0

Si je réalise un échantillon aléatoire de 100 personnes et que l'une de ces personnes est Bill Gates, à ce que je sache, Bill Gates représente un centième de la population.

Une moyenne réduite me dit que le gain moyen à la loterie est de 0 $.

AdamO
la source
Rien d’anormal, une moyenne ajustée ne convient pas aux distributions asymétriques.
Yves Daoust
-2

Bien entendu, vous devez supprimer les valeurs aberrantes, car, par définition, elles ne suivent pas la distribution à l'étude et constituent un phénomène parasite.

La vraie question est "comment puis-je détecter de manière fiable les valeurs éloignées"!

Yves Daoust
la source
Et si une telle distribution est Cauchy?
AdamO
@AdamO: la vraie question reste, bien sûr.
Yves Daoust
Pourquoi ce vote négatif?
Yves Daoust
3
(-1) parce que je ne pense pas qu'il s'agisse d'une contribution adéquate, éclairée par la théorie, l'exemple ou la pratique. Qu'est-ce qu'un "phénomène parasite" sinon une compréhension poétique des données? En ce qui concerne la pression artérielle, le sodium urinaire et l'imagerie neurologique, je vois au quotidien des «valeurs aberrantes» représentatives de la population considérée. Les supprimer peut être une source importante de biais. Dire qu'il s'agit d'un "phénomène parasite" permet de manière suggestive et trompeuse de mettre en place une pratique statistique risquée.
AdamO
@adam: vous préconisez simplement de conserver les inliers, ce avec quoi je suis entièrement d'accord.
Yves Daoust