Dans Kahneman et Deaton (2010) , les auteurs écrivent ce qui suit:
Cette régression explique 37% de la variance, avec une erreur quadratique moyenne (RMSE) de 0,67852. Pour éliminer les valeurs aberrantes et les rapports de revenus peu plausibles, nous avons supprimé les observations dans lesquelles la valeur absolue de la différence entre le revenu logarithmique et sa prédiction dépassait 2,5 fois le RMSE.
Est-ce une pratique courante? Quelle est l'intuition derrière cela? Il semble quelque peu étrange de définir une valeur aberrante sur la base d'un modèle qui peut ne pas être bien spécifié en premier lieu. La détermination des valeurs aberrantes ne devrait-elle pas être basée sur des fondements théoriques de ce qui constitue une valeur plausible, plutôt que sur la façon dont votre modèle prédit les valeurs réelles?
: Daniel Kahneman, Angus Deaton (2010): Un revenu élevé améliore l'évaluation de la vie mais pas le bien-être émotionnel. Actes de l'Académie nationale des sciences sept. 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107
la source
Réponses:
La raison de la suppression de ces données est indiquée juste dans la citation: à savoir, "éliminer les valeurs aberrantes et les rapports de revenus peu plausibles". Le fait qu'ils se réfèrent à ces deux choses conjointement signifie qu'ils concèdent qu'au moins certaines de leurs valeurs aberrantes ne sont pas des valeurs invraisemblables, et en tout cas, ils ne donnent aucun argument pour expliquer pourquoi les valeurs avec un résidu élevé devraient être considérées comme "invraisemblables" "valeurs de revenu. Ce faisant, ils suppriment efficacement les points de données car les résidus sont plus élevés que ce qui est attendu dans leur modèle de régression. Comme je l'ai indiqué dans une autre réponse ici , cela revient à exiger que la réalité se conforme à vos hypothèses de modèle et à ignorer les parties de la réalité qui ne sont pas conformes à ces hypothèses.
Que ce soit ou non une pratique courante, c'est une terrible pratique. Cela se produit parce que les points de données périphériques sont difficiles à traiter et que l'analyste ne veut pas les modéliser correctement (par exemple, en utilisant un modèle qui permet un kurtosis plus élevé en termes d'erreur), ils suppriment donc simplement les parties de la réalité qui ne le font pas. se conformer à leur capacité à entreprendre une modélisation statistique. Cette pratique est statistiquement indésirable et elle conduit à des déductions qui sous-estiment systématiquement la variance et le kurtosis en termes d'erreur. Les auteurs de cet article rapportent qu'ils ont perdu 3,22% de leurs données en raison de la suppression de ces valeurs aberrantes (p. 16490). Étant donné que la plupart de ces points de données auraient été des revenus très élevés, cela jette un doute substantiel sur leur capacité à tirer des conclusions solides sur l'effet des revenus élevés (ce qui est l'objectif de leur article).
la source