J'ai cherché un moyen de supprimer les valeurs aberrantes d'un jeu de données et j'ai trouvé cette question .
Cependant, dans certains commentaires et réponses à cette question, certaines personnes ont indiqué qu’il était de mauvaise pratique de supprimer les données aberrantes des données.
Dans mon jeu de données, j'ai plusieurs valeurs aberrantes qui sont probablement dues à des erreurs de mesure. Même si certains ne le sont pas, je n'ai aucun moyen de vérifier cela au cas par cas, car il y a trop de points de données. Est-il statistiquement valable que de simplement supprimer les valeurs aberrantes? Ou, sinon, quelle pourrait être une autre solution?
Si je laisse simplement ces points là, ils influenceront par exemple la moyenne d'une manière qui ne reflète pas la réalité (car la plupart d'entre elles sont de toute façon des erreurs).
EDIT: Je travaille avec des données de conductance cutanée. La plupart des valeurs extrêmes sont dues à des artefacts tels que ceux qui tirent sur les câbles.
EDIT2: Mon principal intérêt dans l'analyse des données est de déterminer s'il existe une différence entre deux groupes
Réponses:
Je ne recommande pas d'exclure les valeurs aberrantes dans l'analyse principale (à moins que vous ne soyez vraiment positif, ils se trompent). Vous pouvez toutefois le faire dans une analyse de sensibilité et comparer les résultats des deux analyses. En sciences, vous découvrez souvent de nouvelles choses précisément lorsque vous vous concentrez sur de telles valeurs.
Pour aller plus loin, il suffit de penser à la découverte déterminante de la pénicilline par Fleming, basée sur la contamination accidentelle de ses expériences avec un moule:
http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1
Dans le passé ou le présent, la détection des valeurs aberrantes est souvent utilisée pour guider l'innovation en sciences biomédicales. Voir par exemple les articles suivants (avec quelques codes R appropriés):
http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678
Enfin, si vous avez des motifs raisonnables d'exclure certaines données, vous pouvez le faire, de préférence dans une analyse de sensibilité et non dans l'analyse principale. Par exemple, vous pouvez exclure toutes les valeurs qui ne sont pas biologiquement plausibles (telles qu'une température de 48 degrés Celsius chez un patient septique). De même, vous pouvez exclure toutes les première et dernière mesures pour un patient donné, afin de minimiser les artefacts de mouvement. Notez toutefois que si vous effectuez cette opération post-hoc (non basée sur des critères prédéfinis), cela risque de constituer un traitement de données.
la source
Une option consiste à exclure les valeurs aberrantes, mais à mon humble avis, il s’agit là d’une chose que vous ne devriez faire que si vous pouvez expliquer (avec une quasi-certitude) la raison pour laquelle de tels points ne sont pas valables (par exemple, équipement de mesure en panne, méthode de mesure non fiable pour une raison quelconque, ...). Par exemple, dans les mesures dans le domaine fréquentiel, le courant continu est souvent rejeté, car de nombreux termes différents contribuent au sens du courant continu, souvent sans rapport avec le phénomène que vous essayez d'observer.
Le problème avec l'élimination des valeurs aberrantes est que, pour déterminer quels points sont des valeurs aberrantes, vous devez disposer d'un bon modèle de ce qui constitue ou non de "bonnes données". Si vous n'êtes pas sûr du modèle (quels facteurs doivent être inclus, quelle structure a-t-il, quelles sont les hypothèses du bruit, ...), vous ne pouvez pas être sûr de vos valeurs aberrantes. Ces valeurs aberrantes sont peut-être simplement des exemples qui essaient de vous dire que votre modèle est faux. En d'autres termes: supprimer les valeurs éloignées renforcera votre modèle (incorrect!) Au lieu de vous permettre d'obtenir de nouvelles informations!
Une autre option consiste à utiliser des statistiques robustes. Par exemple, la moyenne et l'écart type sont sensibles aux valeurs aberrantes, les autres métriques de "localisation" et de "propagation" sont plus robustes. Par exemple, au lieu de la moyenne, utilisez la médiane. Au lieu de l’écart-type, utilisez une plage inter-quartile. Au lieu d'une régression des moindres carrés standard, vous pouvez utiliser une régression robuste. Toutes ces méthodes robustes atténuent les valeurs aberrantes d'une manière ou d'une autre, mais elles ne suppriment généralement pas les données aberrantes (c'est une bonne chose).
la source
Je pensais ajouter un récit édifiant sur la suppression des valeurs aberrantes:
Rappelez-vous le problème avec le trou dans la couche d'ozone polaire? Un satellite a été mis en orbite au-dessus du pôle spécialement pour mesurer la concentration en ozone. Pendant quelques années, les données post-traitées du satellite ont indiqué que l'ozone polaire était présente à des niveaux normaux, même si d'autres sources ont clairement montré que l'ozone était absent. Finalement, quelqu'un est retourné vérifier le logiciel satellite. Il est avéré que quelqu'un avait écrit le code pour vérifier si la mesure était brute dans une fourchette attendue du niveau historique typique, et à supposer que toute mesure en dehors de la plage était un instrument « pic » (soit une valeur aberrante), automatique corriger la valeur . Heureusement, ils avaient également enregistré les mesures brutes; en les vérifiant, ils virent que le trou avait toujours été signalé.
la source
"Valeur aberrante" est un terme pratique pour la collecte de données qui ne correspond pas à ce que vous attendez de votre processus, afin de le supprimer de l'analyse.
Je suggérerais de ne jamais (plus tard mettre en garde) éliminer les valeurs aberrantes. Mon expérience est le contrôle statistique des processus. Je traite donc souvent avec de gros volumes de données chronologiques générées automatiquement, qui sont traitées à l’aide d’un diagramme d’exécution / parcelle déroulante / etc., en fonction des données et de la distribution.
Le problème avec les valeurs aberrantes est qu’elles fourniront toujours des informations sur votre «processus». Souvent, ce que vous pensez en tant que processus unique est en réalité composé de plusieurs processus et il est bien plus complexe que ce que vous lui attribuez.
En utilisant l'exemple de votre question, je suggérerais qu'il pourrait y avoir un certain nombre de «processus». il y aura variation en raison de ...
Tous ces processus produiront une variation supplémentaire dans les données et déplaceront probablement la moyenne et changeront la forme de la distribution. Vous ne pourrez pas séparer beaucoup de ces processus en processus distincts.
Donc , aller à l'idée de supprimer des points de données comme des « valeurs aberrantes » ... Je ne supprimer des points de données, quand je peux certainement les attribuer à un « processus » particulier que je veux ne pas inclure dans mon analyse. Vous devez ensuite vous assurer que les raisons de la non-inclusion sont consignées dans le cadre de votre analyse, c'est donc évident. Ne présumez pas que l'attribution est un élément clé pour prendre des notes supplémentaires grâce à l'observation lors de la collecte de données.
Je contesterais votre déclaration "parce que la plupart d’entre elles sont de toute façon des erreurs", car elles ne sont pas des erreurs, mais font simplement partie d’un processus différent que vous avez identifié dans vos mesures comme étant différent.
Dans votre exemple, je pense qu'il est raisonnable d'exclure les points de données que vous pouvez attribuer à un processus séparé que vous ne souhaitez pas analyser.
la source
Si vous supprimez les valeurs aberrantes, dans la plupart des situations, vous devez indiquer que vous le faites et pourquoi. S'il s'agit d'un article scientifique ou à des fins réglementaires, vos statistiques finales pourraient être actualisées et / ou rejetées.
La meilleure solution consiste à identifier le moment où vous pensez que vous obtenez des données erronées (par exemple, lorsque des personnes tirent des câbles), puis à identifier le moment où les personnes tirent des câbles et à extraire les données pour cette raison. Cela entraînera probablement aussi la suppression de «bons» points de données, mais vous disposez désormais d'une «vraie» raison de baliser et d'actualiser ces points de données à la fin de la collecte plutôt qu'à celle de l'analyse. Tant que vous le faites de manière propre et transparente, il est beaucoup plus probable que cela soit acceptable pour les tiers. Si vous supprimez des points de données liés aux fils tirés et que vous obtenez toujours des valeurs aberrantes, alors la conclusion probable est que les fils tirés ne sont pas le (seul) problème - l'autre problème pourrait être lié à la conception de votre expérience ou à votre théorie.
Une des premières expériences que ma mère a eues en rentrant à l'université pour terminer son baccalauréat en sciences est une expérience qui a donné aux étudiants une théorie «fictive» sur le fonctionnement d'un processus, puis de la conduite d'une expérience. Les étudiants qui ont supprimé ou modifié les «mauvais» points de données résultants ont échoué dans l’affectation. Ceux qui ont correctement déclaré que leurs données étaient en désaccord avec les résultats prédits par la (mauvaise) théorie, ont réussi. Le but de la tâche était d'enseigner aux étudiants à ne pas «réparer» (falsifier) leurs données quand ce n'était pas ce à quoi on s'attendait.
Résumé: si vous générez des données incorrectes, corrigez votre test, pas les données.
la source
C'est un dilemme moral à coup sûr. D'un côté, pourquoi devriez-vous laisser quelques points de données suspects ruiner l'ajustement de votre modèle à la majeure partie des données? En revanche, la suppression d'observations qui ne correspondent pas au concept de réalité de votre modèle constitue une sorte de censure. Pour @ Egon, ces personnes éloignées pourraient essayer de vous dire quelque chose à propos de cette réalité.
Dans une présentation du statisticien Steve MacEachern, il a défini les valeurs aberrantes comme étant "[non représentatif du phénomène à l'étude.]" Selon ce point de vue, si vous estimez que ces points de données suspects ne sont pas représentatifs du phénomène de conductance de la peau que vous essayez d'étudier , peut-être qu'ils n'appartiennent pas à l'analyse. Ou s’ils sont autorisés à rester, une méthode doit être utilisée pour limiter leur influence. Dans cette même présentation, MacEachern a donné des exemples de méthodes robustes, et je me souviens que, dans ces quelques exemples, les méthodes classiques avec les valeurs aberrantes supprimées étaient toujours en accord avec les analyses robustes avec les valeurs aberrantes toujours incluses. Personnellement, j'ai tendance à travailler avec les techniques classiques avec lesquelles je suis le plus à l'aise et à vivre avec l'incertitude morale de la suppression des valeurs aberrantes.
la source
Si je réalise un échantillon aléatoire de 100 personnes et que l'une de ces personnes est Bill Gates, à ce que je sache, Bill Gates représente un centième de la population.
Une moyenne réduite me dit que le gain moyen à la loterie est de 0 $.
la source
Bien entendu, vous devez supprimer les valeurs aberrantes, car, par définition, elles ne suivent pas la distribution à l'étude et constituent un phénomène parasite.
La vraie question est "comment puis-je détecter de manière fiable les valeurs éloignées"!
la source