Nous avons effectué un test fractionné d'une nouvelle fonctionnalité de produit et voulons mesurer si l'augmentation des revenus est significative. Nos observations ne sont certainement pas distribuées normalement (la plupart de nos utilisateurs ne dépensent pas, et parmi ceux qui le font, ils sont fortement biaisés vers de nombreux petits dépensiers et quelques très gros dépensiers).
Nous avons décidé d'utiliser le bootstrap pour comparer les moyens, pour contourner le problème des données qui ne sont pas normalement distribuées (question secondaire: est-ce une utilisation légitime du bootstrap?)
Ma question est la suivante: ai-je besoin de supprimer les valeurs aberrantes de l'ensemble de données (par exemple, les très gros utilisateurs) avant d'exécuter le bootstrapping, ou cela n'a-t-il pas d'importance?
Réponses:
Avant d'aborder ce sujet, il est important de reconnaître que la faute statistique de «supprimer les valeurs aberrantes» a été incorrectement promulguée dans une grande partie de la pédagogie statistique appliquée. Traditionnellement, les valeurs aberrantes sont définies comme des observations à fort effet de levier et à forte influence. On peut et doit identifier de telles observations dans l'analyse des données, mais ces conditions seules ne justifient pas de supprimer ces observations. Une «véritable valeur aberrante» est une observation à fort effet de levier / influence élevée qui n'est pas compatible avec les réplications du plan expérimental. Pour considérer une observation comme telle, il faut une connaissance spécialisée de cette population et de la science derrière le «mécanisme de génération de données». L'aspect le plus important est que vous devriez être en mesure d'identifier les valeurs aberrantes potentielles a priori .
Quant à l'aspect bootstrap des choses, le bootstrap est destiné à simuler des tirages répétés indépendants de la population d'échantillonnage. Si vous prédéfinissez des critères d'exclusion dans votre plan d'analyse, vous devez toujours laisser les valeurs exclues dans la distribution d'échantillonnage bootstrap référent . En effet, vous tiendrez compte de la perte de puissance due à l'application d'exclusions après l'échantillonnage de vos données. Cependant, s'il n'y a pas de critères d'exclusion prédéfinis et que les valeurs aberrantes sont supprimées à l'aide d' un arbitrage post hoc , comme je le fais manifestement contre, la suppression de ces valeurs propagera les mêmes erreurs d'inférence qui sont causées par la suppression des valeurs aberrantes.
Considérons une étude sur la richesse et le bonheur dans un échantillon aléatoire simple non stratifié de 100 personnes. Si nous prenions la déclaration, "1% de la population détient 90% de la richesse mondiale" littéralement, alors nous observerions, en moyenne, une valeur très fortement influente. Supposons en outre qu'au-delà de l'offre d'une qualité de vie de base, il n'y ait pas d'excès de bonheur attribuable à des revenus plus élevés (tendance linéaire non constante). Cet individu a donc également un fort effet de levier.
Le coefficient de régression des moindres carrés correspond aux données non altérées estimant une tendance moyenne de premier ordre de la population dans ces données. Il est fortement atténué par notre 1 individu dans l'échantillon dont le bonheur est compatible avec ces niveaux de revenu proches de la médiane. Si nous supprimons cet individu, la pente de régression des moindres carrés est beaucoup plus grande, mais la variance du régresseur est réduite, donc l'inférence sur l'association est approximativement la même. La difficulté avec cela est que je n'ai pas prédéfini les conditions dans lesquelles les individus seraient exclus. Si un autre chercheur reproduisait ce plan d'étude, il échantillonnerait en moyenne une personne à revenu élevé, modérément heureuse, et obtiendrait des résultats qui ne correspondraient pas à mes résultats «parés».
Si nous étions a priori intéressés par l'association du bonheur à revenu modéré, nous aurions dû préspécifier que, par exemple, «nous comparerions des personnes gagnant moins de 100 000 $ de revenu annuel du ménage». Ainsi, la suppression de la valeur aberrante nous amène à estimer une association que nous ne pouvons pas décrire, donc les valeurs de p n'ont pas de sens.
D'un autre côté, les équipements médicaux mal étalonnés et les mensonges facétieux d'auto-évaluation peuvent être supprimés. Plus les critères d'exclusion peuvent être décrits avec précision avant que l'analyse proprement dite ait lieu, plus les résultats que cette analyse produira seront valides et cohérents.
la source
Le considérer comme un problème aberrant me semble mal. Si "<10% des utilisateurs dépensent", vous devez modéliser cet aspect. La régression Tobit ou Heckman serait deux possibilités.
la source