Dans un article de blog, Andrew Gelman écrit :
La régression pas à pas est l'une de ces choses, comme la détection des valeurs aberrantes et les graphiques circulaires, qui semblent être populaires parmi les non-statisticiens mais qui sont considérés par les statisticiens comme une plaisanterie.
Je comprends la référence aux graphiques circulaires, mais pourquoi la détection des valeurs aberrantes est-elle considérée par les statisticiens selon Gelman? Est-ce juste que cela pourrait amener les gens à trop tailler leurs données?
Réponses:
Le commentaire de @Jerome Baum est parfait. Pour apporter la citation de Gelman ici:
Pour en ajouter un peu plus, que diriez-vous de définir d'abord la valeur aberrante . Essayez de le faire rigoureusement sans vous référer à quelque chose de visuel comme "on dirait que c'est loin des autres points". C'est en fait assez difficile.
Je dirais qu'une valeur aberrante est un point hautement improbable étant donné un modèle de génération de points. Dans la plupart des situations, les gens n'ont pas réellement de modèle de génération des points, ou s'ils le font, c'est tellement simplifié qu'ils se trompent la plupart du temps. Donc, comme le dit Andrew, les gens feront des choses comme supposer qu'une sorte de processus gaussien génère des points et donc si un point est supérieur à un certain nombre de SD de la moyenne, c'est une valeur aberrante. Mathématiquement pratique, pas tellement fondée sur des principes.
Et nous ne sommes même pas entrés dans ce que les gens font avec les valeurs aberrantes une fois qu'ils sont identifiés. Par exemple, la plupart des gens veulent jeter ces points gênants. Dans de nombreux cas, ce sont les valeurs aberrantes qui mènent à des percées et à des découvertes, pas les non-valeurs aberrantes!
La détection des valeurs aberrantes, comme le pratiquent les non-statisticiens, comporte de nombreuses spécificités, et Andrew n'est pas à l'aise avec cela.
la source
Cela démontre le bras de fer classique entre les deux types d'objectifs pour les analyses statistiques telles que la régression: descriptive vs prédictive. (Pardonnez les généralisations dans mes commentaires ci-dessous.)
Du point de vue du statisticien, la description importe généralement plus que la prédiction. Par conséquent, ils sont intrinsèquement "biaisés" vers l'explication. Pourquoi y a-t-il une valeur aberrante? S'agit-il vraiment d'une erreur dans la saisie des données (zéros supplémentaires à la fin d'une valeur) ou s'agit-il d'un point de données valide qui se trouve être extrême? Ce sont des questions importantes pour un statisticien.
OTOH, les scientifiques des données s'intéressent davantage à la prévision qu'à la description. Leur objectif est de développer un modèle solide qui fait un excellent travail de prédiction d'un résultat futur (par exemple, achat, attrition). S'il y a une valeur extrême dans l'un des domaines, un data scientist plafonnerait volontiers cette valeur (à la valeur du 98e centile, par exemple) si cela contribue à améliorer la précision prédictive du modèle.
Je n'ai pas une inclination générale vers l'une ou l'autre de ces deux approches. Cependant, que les méthodes / approches telles que la régression pas à pas et le traitement des valeurs aberrantes soient "un peu une blague" ou non, cela dépend de quel côté de la clôture vous vous tenez.
la source