J'ai un tas (environ 1000) d'estimations et elles sont toutes censées être des estimations de l'élasticité à long terme. Un peu plus de la moitié de ces estimations sont estimées en utilisant la méthode A et le reste en utilisant une méthode B. Quelque part, j'ai lu quelque chose comme "Je pense que la méthode B estime quelque chose de très différent de la méthode A, parce que les estimations sont beaucoup plus élevées (50-60%) ". Ma connaissance des statistiques robustes est presque nulle, donc je n'ai calculé que les moyennes et les médianes des deux échantillons ... et j'ai immédiatement vu la différence. La méthode A est très concentrée, la différence entre la médiane et la moyenne est très faible, mais l'échantillon de la méthode B variait énormément.
J'ai conclu que les valeurs aberrantes et les erreurs de mesure faussent l'échantillon de la méthode B, j'ai donc jeté environ 50 valeurs (environ 15%) qui étaient très incompatibles avec la théorie ... et tout à coup, les moyennes des deux échantillons (y compris leur IC) étaient très similaires . La densité trace également.
(Dans le but d'éliminer les valeurs aberrantes, j'ai regardé la plage de l'échantillon A et supprimé tous les points d'échantillonnage de B qui se situaient en dehors de celui-ci.) J'aimerais que vous me disiez où je pourrais trouver des bases d'une estimation robuste des moyens qui permettez-moi de juger cette situation plus rigoureusement. Et d'avoir quelques références. Je n'ai pas besoin d'une compréhension très approfondie des différentes techniques, mais plutôt de lire une étude complète de la méthodologie d'estimation robuste.
J'ai testé la signification de la différence moyenne après la suppression des valeurs aberrantes et la valeur de p est de 0,0559 (t autour de 1,9), pour les échantillons complets, la stat t était d'environ 4,5. Mais ce n'est pas vraiment le point, les moyens peuvent être un peu différents, mais ils ne devraient pas différer de 50 à 60% comme indiqué ci-dessus. Et je ne pense pas qu'ils le fassent.
la source
Réponses:
Cherchez-vous la théorie ou quelque chose de pratique?
Si vous cherchez des livres, en voici quelques-uns que j'ai trouvé utiles:
FR Hampel, EM Ronchetti, PJRousseeuw, WA Stahel, Robust Statistics: The Approach Based on In fluence Functions , John Wiley & Sons, 1986.
PJ Huber, Statistiques robustes , John Wiley & Sons, 1981.
PJ Rousseeuw, AM Leroy, Robust Regression and Outlier Detection , John Wiley & Sons, 1987.
RG Staudte, SJ Sheather, Robust Estimation and Testing , John Wiley & Sons, 1990.
Si vous recherchez des méthodes pratiques, voici quelques méthodes robustes d'estimation de la moyenne («estimateurs de localisation» est, je suppose, le terme le plus raisonné):
La médiane est simple, bien connue et assez puissante. Il a une excellente robustesse aux valeurs aberrantes. Le "prix" de la robustesse est d'environ 25%.
La moyenne ajustée à 5% est une autre méthode possible. Ici, vous jetez les valeurs 5% les plus élevées et 5% les plus basses, puis prenez la moyenne (moyenne) du résultat. C'est moins robuste pour les valeurs aberrantes: tant que pas plus de 5% de vos points de données sont corrompus, c'est bien, mais si plus de 5% sont corrompus, cela devient soudainement affreux (il ne se dégrade pas gracieusement). Le "prix" de la robustesse est inférieur à la médiane, bien que je ne sache pas exactement de quoi il s'agit.
La moyenne interquartile est un autre estimateur qui est parfois utilisé. Il calcule la moyenne des premier et troisième quartiles et est donc simple à calculer. Il a une très bonne robustesse: il peut tolérer une corruption jusqu'à 25% des points de données. Cependant, le "prix" de la robustesse n'est pas anodin: environ 25%. En conséquence, cela semble inférieur à la médiane.
De nombreuses autres mesures ont été proposées, mais celles ci-dessus semblent raisonnables.
En bref, je suggérerais la médiane ou peut-être l'estimateur de Hodges-Lehmann.
PS Oh, je devrais expliquer ce que je veux dire par le "prix" de la robustesse. Un estimateur robuste est conçu pour fonctionner correctement, même si certains de vos points de données ont été corrompus ou sont autrement aberrants. Mais que faire si vous utilisez un estimateur robuste sur un ensemble de données qui n'a pas de valeurs aberrantes ni de corruption? Idéalement, nous aimerions que l'estimateur robuste soit aussi efficace pour utiliser les données que possible. Ici, nous pouvons mesurer l'efficacité par l'erreur standard (intuitivement, la quantité typique d'erreur dans l'estimation produite par l'estimateur). On sait que si vos observations proviennent d'une distribution gaussienne (iid), et si vous savez que vous n'aurez pas besoin de robustesse, alors la moyenne est optimale: elle a la plus petite erreur d'estimation possible. Le "prix" de la robustesse, ci-dessus, est la mesure dans laquelle l'erreur-type augmente si nous appliquons un estimateur robuste particulier à cette situation. Un prix de robustesse de 25% pour la médiane signifie que la taille de l'erreur d'estimation typique avec la médiane sera environ 25% plus grande que la taille de l'erreur d'estimation typique avec la moyenne. Évidemment, plus le «prix» est bas, mieux c'est.
la source
wilcox.test(..., conf.int=TRUE)
Si vous aimez quelque chose de court et facile à digérer, jetez un œil à l'article suivant de la littérature psychologique:
Erceg-Hurn, DM et Mirosevich, VM (2008). Méthodes statistiques robustes modernes: un moyen facile de maximiser la précision et la puissance de votre recherche. Psychologue américain , 63 (7), 591–601. doi: 10.1037 / 0003-066X.63.7.591
Ils s'appuient principalement sur les livres de Rand R Wilcox (qui ne sont certes pas trop mathématiques):
Wilcox, RR (2001). Principes fondamentaux des méthodes statistiques modernes: amélioration substantielle de la puissance et de la précision. New York; Berlin: Springer.
Wilcox, RR (2003). Appliquer des techniques statistiques contemporaines. Amsterdam; Boston: Academic Press.
Wilcox, RR (2005). Introduction aux tests robustes d'estimation et d'hypothèse. Presse académique.
la source
Un livre qui combine assez bien théorie et pratique est Robust Statistical Methods with R, de Jurečková et Picek. J'aime aussi Robust Statistics , par Maronna et al. Cependant, les deux peuvent avoir plus de mathématiques que vous n'en voudriez. Pour un didacticiel plus appliqué axé sur R, ce pdf BelVenTutorial peut vous aider.
la source