J'ai lu sur la distance du cuisinier pour identifier les valeurs aberrantes qui ont une grande influence sur ma régression. Dans l'étude originale de Cook, il dit qu'un taux de coupure de 1 devrait être comparable pour identifier les influenceurs. Cependant, diverses autres études utilisent ou4 comme seuil.
Dans mon étude, aucun de mes résidus n'a un D supérieur à 1. Cependant, si j'utilise comme seuil(4, puis il existe différents points de données qui sont considérés comme des influenceurs. J'ai décidé de tester si la suppression de ces points de données ferait une différence dans ma régression linéaire générale. Tous mes IVs ont conservé leur signification et aucun changement évident n'était apparent.
Dois-je conserver tous mes points de données et utiliser le taux de coupure de 1? Ou les supprimer?
la source
Réponses:
J'irais probablement avec votre modèle d'origine avec votre ensemble de données complet. Je pense généralement que ces choses facilitent les analyses de sensibilité. Autrement dit, ils vous indiquent ce qu'il faut vérifier pour vous assurer que vous n'avez pas un résultat donné uniquement à cause de quelque chose de stupide. Dans votre cas, vous avez des points potentiellement influents, mais si vous réexécutez le modèle sans eux, vous obtenez essentiellement la même réponse (au moins en ce qui concerne les aspects qui vous tiennent probablement à cœur). En d'autres termes, utilisez le seuil que vous aimez - vous ne réinstallez le modèle qu'à titre de vérification, et non pas comme la «vraie» version. Si vous pensez que d'autres personnes seront suffisamment préoccupées par les valeurs aberrantes potentielles, vous pouvez signaler les deux ajustements du modèle. Ce que vous diriez est dans le sens de,
Il est également possible de les supprimer et d'utiliser le deuxième modèle comme résultat principal. Après tout, rester avec l'ensemble de données d'origine équivaut à une hypothèse sur les données qui appartiennent au modèle tout autant que le faire avec le sous-ensemble. Mais les gens sont probablement très sceptiques quant aux résultats que vous avez rapportés, car psychologiquement, il est trop facile pour quelqu'un de se convaincre, sans intention de corruption réelle, de suivre l'ensemble des ajustements post-hoc (tels que la suppression de certaines observations) qui leur donne le résultat qu'ils attendaient le plus. En utilisant toujours l'ensemble de données complet, vous anticipez cette possibilité et assurez les gens (par exemple, les réviseurs) que ce n'est pas ce qui se passe dans votre projet.
Un autre problème ici est que les gens finissent par « courir après la bulle ». Lorsque vous supprimez des valeurs aberrantes potentielles et réexécutez votre modèle, vous vous retrouvez avec des résultats qui montrent de nouvelles observations différentes en tant que valeurs aberrantes potentielles. Combien d'itérations êtes-vous censé passer? La réponse standard à cela est que vous devez conserver votre jeu de données complet d'origine et exécuter une régression robuste à la place. Encore une fois, cela peut être compris comme une analyse de sensibilité.
la source