Cette question a été posée par mon ami qui n'est pas averti d'Internet. Je n'ai aucun fond de statistiques et j'ai cherché autour d'Internet pour cette question.
La question est: est-il possible de remplacer les valeurs aberrantes par une valeur moyenne? si c'est possible, existe-t-il des références de livres / revues pour sauvegarder cette déclaration?
Réponses:
De toute évidence, c'est possible, mais il n'est pas certain que cela puisse être une bonne idée.
Expliquons plusieurs façons dont il s'agit d'une solution limitée ou déficiente:
En fait, vous dites que la valeur aberrante est totalement indigne de confiance, dans la mesure où votre seule supposition possible est que la valeur devrait être la moyenne. Si c'est ce que vous pensez, il est probablement plus honnête d'omettre simplement l'observation en question, car il est évident que vous ne disposez pas de suffisamment d'informations pour faire une meilleure estimation.
Avec rien d'autre dit, vous avez besoin d'un critère ou de critères pour identifier les valeurs aberrantes en premier lieu (comme l'indique @Frank Harrell). Sinon, il s'agit d'une procédure arbitraire et subjective, même si elle est défendue comme une question de jugement. Avec certains critères, il est possible que la suppression des valeurs aberrantes de cette manière crée encore plus de valeurs aberrantes comme effet secondaire. Un exemple pourrait être que les valeurs aberrantes sont plus que tant d'écarts-types de la moyenne. La suppression d'une valeur aberrante modifie l'écart type et de nouveaux points de données peuvent désormais être qualifiés, etc.
Vraisemblablement, la moyenne ici signifie la moyenne de toutes les autres valeurs, un point explicité par @David Marx. L'idée est ambiguë sans cette stipulation.
L'utilisation de la moyenne peut sembler une procédure sûre ou prudente, mais le changement d'une valeur à la moyenne changera presque toutes les autres statistiques, y compris les mesures de niveau, d'échelle et de forme et les indicateurs de leur incertitude, un point souligné par @whuber.
La moyenne peut même ne pas être une valeur réalisable: des exemples simples sont lorsque les valeurs sont des entiers, mais généralement la moyenne n'est pas un entier.
Même avec l'idée que l'utilisation d'une mesure sommaire est une chose prudente à faire, utiliser la moyenne plutôt que la médiane ou toute autre mesure nécessite une justification.
Chaque fois qu'il existe d'autres variables, la modification de la valeur d'une variable sans référence à d'autres peut rendre un point de données anormal dans d'autres sens.
Que faire des valeurs aberrantes est une question ouverte et très difficile. De façon lâche, différentes solutions et stratégies ont un attrait variable. Voici une liste partielle des possibilités. La commande est arbitraire et ne vise à transmettre aucun ordre en termes d'applicabilité, d'importance ou de tout autre critère. Ces approches ne s'excluent pas non plus.
Une définition (à mon avis bonne) est que "[l] es utliers sont des valeurs d'échantillon qui provoquent la surprise par rapport à la majorité de l'échantillon" (WN Venables et BD Ripley. 2002. Statistiques appliquées modernes avec S. New York: Springer, p.119). Cependant, la surprise est dans l'esprit du spectateur et dépend d'un certain modèle tacite ou explicite des données. Il peut y avoir un autre modèle selon lequel la valeur aberrante n'est pas du tout surprenante, de sorte que les données sont vraiment (disons) lognormales ou gamma plutôt que normales. En bref, préparez-vous à (réexaminer) votre modèle.
Allez au laboratoire ou sur le terrain et refaites la mesure. Souvent, cela n'est pas réalisable, mais cela semble standard dans plusieurs sciences.
Testez si les valeurs aberrantes sont authentiques. La plupart des tests me semblent assez artificiels, mais vous pourriez en trouver un qui, selon vous, correspond à votre situation. La foi irrationnelle qu'un test est approprié est toujours nécessaire pour appliquer un test qui est ensuite présenté comme rationnellement par essence.
Jetez-les comme une question de jugement.
Jetez-les en utilisant une règle plus ou moins automatisée (généralement pas «objective»).
Ignorez-les, partiellement ou complètement. Cela peut être formel (par exemple, rognage) ou simplement une question de les laisser dans le jeu de données, mais de les omettre des analyses car trop chaudes pour être gérées.
Tirez-les en utilisant une sorte d'ajustement, par exemple Winsorizing.
Les minimiser en utilisant une autre méthode d'estimation robuste.
Les minimiser en travaillant sur une échelle transformée.
Les minimiser en utilisant une fonction de lien sans identité.
Accueillez-les en ajustant une distribution appropriée à queue grasse, longue ou lourde, sans ou avec des prédicteurs.
Accueillir en utilisant un indicateur ou une variable fictive comme prédicteur supplémentaire dans un modèle.
Éliminez le problème en utilisant une procédure non paramétrique (par exemple basée sur le classement).
Maîtrisez l'incertitude implicite en utilisant le bootstrap, le jackknifing ou la procédure basée sur la permutation.
Modifier pour remplacer une valeur aberrante par une valeur plus probable, basée sur une logique déterministe. "Une grand-mère de 18 ans est peu probable, mais la personne en question est née en 1932, elle a donc vraisemblablement 81 ans."
Modifiez pour remplacer une valeur aberrante impossible ou invraisemblable en utilisant une méthode d'imputation qui est actuellement acceptable comme une magie pas tout à fait blanche.
Analysez avec et sans, et voyez dans quelle mesure la ou les valeurs aberrantes font une différence, statistiquement, scientifiquement ou pratiquement.
Quelque chose de bayésien. Mon ignorance préalable de tout ce qui interdit de donner des détails.
EDIT Cette deuxième édition bénéficie d'autres réponses et commentaires. J'ai essayé de signaler mes sources d'inspiration.
la source
Il y a plusieurs problèmes impliqués par votre question.
Aucun des 1 à 5 n'a de réponse évidente. Si vous pensez vraiment que ces «valeurs aberrantes» sont erronées et que vous ne voulez pas utiliser une méthode statistique robuste, vous pouvez les faire disparaître et utiliser l'imputation multiple comme une solution possible. Si la variable est une variable dépendante, un choix robuste est la régression ordinale.
la source
La proposition comporte de nombreux défauts. Voici peut-être le plus grand.
Supposons que vous collectez des données et que vous voyez ces valeurs:
Vient ensuite une valeur aberrante:
Vous le remplacez donc par la moyenne:
Le numéro suivant est bon:
Maintenant, la moyenne est de 3. Attendez une minute, la moyenne est maintenant de 3, mais nous avons remplacé 1000 par une moyenne de 2, simplement parce que cela s'est produit comme quatrième valeur. Et si nous changeons l'ordre des échantillons?
Le problème est que la fausse donnée que nous substituons à la place de 1000 dépend des autres données. C'est un problème épistémologique si les échantillons sont censés représenter des mesures indépendantes.
Fondamentalement, rogner les résultats qui ne correspondent pas est une chose (et peut être justifié s'il est fait de manière cohérente selon un algorithme, plutôt que selon les changements d'humeur changeants de l'expérimentateur).
La falsification pure et simple de résultats est répréhensible pour des raisons philosophiques, épistémologiques et éthiques.
Il peut y avoir des circonstances atténuantes, qui ont à voir avec la façon dont les résultats sont utilisés. Comme par exemple, disons que cette substitution des valeurs aberrantes par la moyenne actuelle fait partie d'un algorithme informatique intégré, ce qui lui permet de mettre en œuvre un système de contrôle en boucle fermée. (Il échantillonne certaines sorties du système, puis ajuste les entrées afin d'obtenir le contrôle.) Tout est en temps réel, et donc quelque chose doit être fourni pour une période de temps donnée à la place des données manquantes. Si ce fudging aide à surmonter les pépins et assure un bon fonctionnement, alors tout va bien.
Voici un autre exemple, de la téléphonie numérique: PLC (dissimulation de perte de paquets). La merde se produit et les paquets se perdent, mais la communication est en temps réel. Le PLC synthétise de faux morceaux de voix sur la base d'informations récentes sur la hauteur des paquets correctement reçus. Donc, si un locuteur disait la voyelle "aaa" puis qu'un paquet était perdu, le PLC peut remplir le paquet manquant en extrapolant le "aaa" pour la durée de la trame (disons 5 ou 10 millisecondes ou autre). Le "aaa" est tel qu'il ressemble à la voix du locuteur. Ceci est analogue à l'utilisation d'une "moyenne" pour remplacer les valeurs considérées comme mauvaises. C'est une bonne chose; c'est mieux que le son coupé et coupé, et aide à l'intelligibilité.
Si le truquage des données fait partie d'un programme de mentir aux gens pour couvrir un travail défaillant, c'est autre chose.
Nous ne pouvons donc pas y penser indépendamment de l'application: comment les statistiques sont-elles utilisées? Les substitutions conduiront-elles à des conclusions invalides? Y a-t-il des implications éthiques?
la source
Cet article de Cousineau et Chartier discute du remplacement des valeurs aberrantes par la moyenne
http://www.redalyc.org/pdf/2990/299023509004.pdf
Ils écrivent:
Il existe également un package R "valeurs aberrantes" qui a une fonction pour remplacer les valeurs aberrantes par la moyenne. J'ai également vu un certain nombre de résultats dans ma recherche Google qui impliquent que SPSS a également une telle fonction, mais je ne connais pas ce programme. Peut-être que si vous suivez les discussions, vous pouvez découvrir la base technique de la pratique.
Les références
la source
La principale chose à garder à l'esprit lorsque vous traitez avec des valeurs aberrantes est de savoir si elles fournissent des informations utiles. Si vous vous attendez à ce qu'ils se produisent régulièrement, les supprimer des données garantira que votre modèle ne les prédira jamais. Bien sûr, cela dépend de ce que vous voulez que le modèle fasse, mais il convient de garder à l'esprit que vous ne devez pas nécessairement les laisser tomber. S'ils contiennent des informations importantes, vous voudrez peut-être envisager un modèle qui peut en tenir compte. Un moyen simple de le faire est de prendre des journaux des variables, qui peuvent prendre en compte les relations de loi de puissance. Alternativement, vous pouvez utiliser un modèle qui en tient compte avec une distribution détaillée des erreurs.
Si vous souhaitez les supprimer, les méthodes habituelles sont de les supprimer ou de les winsoriser pour supprimer les valeurs extrêmes. Je n'ai pas de manuel à portée de main mais les liens Wiki là-bas en réfèrent à certains si vous voulez en savoir plus. La plupart des textes sur les statistiques appliquées devraient avoir une section sur les valeurs aberrantes.
la source
Je connais deux approches similaires en matière de statistiques.
Pour des exemples plus détaillés, voir Wikipedia:
https://en.wikipedia.org/wiki/Trimmed_estimator
https://en.wikipedia.org/wiki/Winsorising
Notez que cela fonctionne bien pour certaines statistiques comme lors du calcul de la moyenne. La moyenne ajustée / winsorisée est souvent une meilleure estimation de la moyenne réelle que la moyenne artihmétique. Dans d'autres cas, cela peut ruiner vos statistiques. Par exemple, lors du calcul de la variance, le rognage sous-estimera toujours votre vraie variance. La winsorisation, en supposant qu'en effet certaines des observations extrêmes sont défectueuses, fonctionnera un peu mieux alors (elle sera probablement encore sous-estimée, mais pas autant).
Je ne vois pas comment le remplacement des valeurs extrêmes par la moyenne s'inscrirait ici.
Cependant, une autre pratique est liée: l' imputation de la valeur manquante . En supposant que votre valeur aberrante est des données défectueuses et sans valeur, vous devez donc les supprimer. Lorsque vous effectuez ensuite l'imputation, une valeur de remplacement typique serait la moyenne ou le mode:
https://en.wikipedia.org/wiki/Imputation_%28statistics%29
la source
L'approche traditionnelle pour gérer les valeurs aberrantes consiste simplement à les supprimer de sorte que votre modèle ne soit formé que sur de «bonnes» données.
Gardez à l'esprit que la valeur moyenne est affectée par la présence de ces valeurs aberrantes. Si vous remplacez les valeurs aberrantes par la moyenne calculée après que les valeurs aberrantes ont été supprimées de votre ensemble de données , cela ne fera aucune différence puisque la ligne de régression (de la régression linéaire simple) passera de toute façon par la moyenne de vos données d'entraînement (cela réduira la variance de votre cependant, ce qui est probablement le contraire de ce que vous voulez étant donné que vous savez qu'il y a des valeurs aberrantes).
L'effet que votre approche aura sur le modèle dépend de l'influence (effet de levier) de la valeur aberrante. Je déconseille l'approche que vous proposez au lieu de simplement supprimer complètement le point.
la source
oui, les valeurs aberrantes peuvent être remplacées sous plusieurs formes, par exemple, prenons un ensemble de données de la taille des hauteurs humaines, disons que nous avons des valeurs aberrantes comme 500 cm et 400 cm, nous pouvons simplement remplacer les points de données qui apparaissent dans l'ensemble de données en raison d'une erreur qui s'est produite lors de l'enregistrement des données. les options que vous pouvez essayer sont donc 1. de les remplacer par la couleur médiane de l'ensemble des données (pas la moyenne, car elle est sujette aux valeurs aberrantes). 2. remplacez par le point de données le plus fréquent dans la colonne. 3. Si des valeurs catégorielles, vous pouvez essayer le codage de réponse (dans lequel vous enregistrez la probabilité du mot ou les valeurs se produisant par le nombre total de mots)
la source