Bootstrapping - dois-je d'abord supprimer les valeurs aberrantes?

Nous avons effectué un test fractionné d'une nouvelle fonctionnalité de produit et voulons mesurer si l'augmentation des revenus est significative. Nos observations ne sont certainement pas distribuées normalement (la plupart de nos utilisateurs ne dépensent pas, et parmi ceux qui le font, ils sont fortement biaisés vers de nombreux petits dépensiers et quelques très gros dépensiers).

Nous avons décidé d'utiliser le bootstrap pour comparer les moyens, pour contourner le problème des données qui ne sont pas normalement distribuées (question secondaire: est-ce une utilisation légitime du bootstrap?)

Ma question est la suivante: ai-je besoin de supprimer les valeurs aberrantes de l'ensemble de données (par exemple, les très gros utilisateurs) avant d'exécuter le bootstrapping, ou cela n'a-t-il pas d'importance?

bootstrap outliers user31228
la source

Bonne question: je peux probablement argumenter en faveur et contre la suppression des valeurs aberrantes. Pourquoi ne pas utiliser des médianes si vous vous inquiétez des valeurs aberrantes et que ce que vous recherchez n'est qu'une "tendance centrale"? Étant donné que les variables liées à l'argent ont souvent une distribution très asymétrique (par exemple, Pareto) qui pourrait ne pas être déraisonnable en premier lieu.

usεr11852 dit Réintégrer Monic

@ user11852 Les médianes vous en disent peu sur la moyenne, ce qui est pertinent pour les revenus. Il serait intéressant de voir votre argument en faveur de la suppression des «valeurs aberrantes», en particulier lorsque ce sont probablement les principaux contributeurs aux recettes totales.

whuber

Malheureusement, la médiane serait toujours nulle, car <10% des utilisateurs dépensent du tout

user31228

@ user11852 Votre argument général selon lequel les valeurs aberrantes sont légitimes est utile. Mais, concernant la possibilité d'amplification, il me semble que le contraire est vrai: le bootstrap n'a de chance de fonctionner que si l'échantillon complet est utilisé. Sinon, il présente un conte de fées, nous disant comment les choses se passeraient si les valeurs aberrantes n'existaient pas - mais évidemment, elles existent. Le plus gros problème est que le bootstrap a peu de justification théorique lorsqu'il est appliqué à de petits échantillons: la théorie est asymptotique .

whuber

C'est une question importante (+1). Pouvez-vous ajouter un petit échantillon de votre jeu de données ou un échantillon simulé qui lui ressemble à la question? Je pense que fournir une illustration sera plus fructueux dans ce cas.

user603

Réponses:

Avant d'aborder ce sujet, il est important de reconnaître que la faute statistique de «supprimer les valeurs aberrantes» a été incorrectement promulguée dans une grande partie de la pédagogie statistique appliquée. Traditionnellement, les valeurs aberrantes sont définies comme des observations à fort effet de levier et à forte influence. On peut et doit identifier de telles observations dans l'analyse des données, mais ces conditions seules ne justifient pas de supprimer ces observations. Une «véritable valeur aberrante» est une observation à fort effet de levier / influence élevée qui n'est pas compatible avec les réplications du plan expérimental. Pour considérer une observation comme telle, il faut une connaissance spécialisée de cette population et de la science derrière le «mécanisme de génération de données». L'aspect le plus important est que vous devriez être en mesure d'identifier les valeurs aberrantes potentielles a priori .

Quant à l'aspect bootstrap des choses, le bootstrap est destiné à simuler des tirages répétés indépendants de la population d'échantillonnage. Si vous prédéfinissez des critères d'exclusion dans votre plan d'analyse, vous devez toujours laisser les valeurs exclues dans la distribution d'échantillonnage bootstrap référent . En effet, vous tiendrez compte de la perte de puissance due à l'application d'exclusions après l'échantillonnage de vos données. Cependant, s'il n'y a pas de critères d'exclusion prédéfinis et que les valeurs aberrantes sont supprimées à l'aide d' un arbitrage post hoc , comme je le fais manifestement contre, la suppression de ces valeurs propagera les mêmes erreurs d'inférence qui sont causées par la suppression des valeurs aberrantes.

Considérons une étude sur la richesse et le bonheur dans un échantillon aléatoire simple non stratifié de 100 personnes. Si nous prenions la déclaration, "1% de la population détient 90% de la richesse mondiale" littéralement, alors nous observerions, en moyenne, une valeur très fortement influente. Supposons en outre qu'au-delà de l'offre d'une qualité de vie de base, il n'y ait pas d'excès de bonheur attribuable à des revenus plus élevés (tendance linéaire non constante). Cet individu a donc également un fort effet de levier.

Le coefficient de régression des moindres carrés correspond aux données non altérées estimant une tendance moyenne de premier ordre de la population dans ces données. Il est fortement atténué par notre 1 individu dans l'échantillon dont le bonheur est compatible avec ces niveaux de revenu proches de la médiane. Si nous supprimons cet individu, la pente de régression des moindres carrés est beaucoup plus grande, mais la variance du régresseur est réduite, donc l'inférence sur l'association est approximativement la même. La difficulté avec cela est que je n'ai pas prédéfini les conditions dans lesquelles les individus seraient exclus. Si un autre chercheur reproduisait ce plan d'étude, il échantillonnerait en moyenne une personne à revenu élevé, modérément heureuse, et obtiendrait des résultats qui ne correspondraient pas à mes résultats «parés».

Si nous étions a priori intéressés par l'association du bonheur à revenu modéré, nous aurions dû préspécifier que, par exemple, «nous comparerions des personnes gagnant moins de 100 000 $ de revenu annuel du ménage». Ainsi, la suppression de la valeur aberrante nous amène à estimer une association que nous ne pouvons pas décrire, donc les valeurs de p n'ont pas de sens.

D'un autre côté, les équipements médicaux mal étalonnés et les mensonges facétieux d'auto-évaluation peuvent être supprimés. Plus les critères d'exclusion peuvent être décrits avec précision avant que l'analyse proprement dite ait lieu, plus les résultats que cette analyse produira seront valides et cohérents.

AdamO
la source

Je ne suis pas sûr de comprendre pourquoi " si vous préspécifiez des critères d'exclusion dans votre plan d'analyse, vous devez toujours laisser des valeurs exclues dans la distribution d'échantillonnage bootstrap référent. " Vous mentionnez que c'est " parce que vous expliquerez la perte de puissance due à appliquer des exclusions après l'échantillonnage de vos données. "Je ne vois pas pourquoi on suppose que l'application de critères d'exclusion après l'échantillonnage entraîne une perte de puissance, ni comment / pourquoi laisser les cas exclus dans l'échantillon de bootstrap" explique "(?) cela, ni plus loin pourquoi c'est quelque chose qui doit clairement être "pris en compte". Peut-être que je suis dense ici.

Jake Westfall

p

$p$

Hmm, ma pensée était que si l'on spécifiait à l'avance les critères d'exclusion - de sorte que nous ne soyons explicitement pas intéressés par certains types de cas, et que les réplications d'études futures utiliseraient probablement ces mêmes critères d'exclusion - alors il serait logique de quitter ces cas de l'échantillon bootstrap, car ils sont un segment de la population sur lequel nous ne voulons pas faire de déductions. Je ne vois pas comment réplications futures pourraient finir par exclure une autre proportion de cas, mais je ne peux pas tout à fait la connexion à ce pourquoi les questions pour les cas explicitement que nous sommes intéressés par ..

Jake Westfall

p

$p$

H_{0}

$\mathcal{H}_0$

Le considérer comme un problème aberrant me semble mal. Si "<10% des utilisateurs dépensent", vous devez modéliser cet aspect. La régression Tobit ou Heckman serait deux possibilités.

JKP
la source

À l'heure actuelle, il s'agit davantage d'un commentaire que d'une réponse. Cela vous dérangerait-il de l'étendre un peu pour le rendre plus répondeur?

gung - Rétablir Monica