J'emploie l'estimateur habituel de , mais je remarque que mêmepetites valeurs aberrantes « » dans ma distribution empirique,savoirpetits pics loin du centre, affectent énormément. Existe-t-il un estimateur de kurtosis qui est plus robuste?
Il y a plusieurs. Vous trouverez une comparaison exhaustive dans ce lien avec une version non fermée du document (référence appropriée au bas de cette réponse).
Du fait des contraintes du problème, la répartition du plus robuste de ces algorithmes (le L / RMC) est au maximum de 12,5%. Un avantage pour le L / RMC est qu'il est basé sur des quantiles et reste interprétable même lorsque la distribution sous-jacente n'a pas de moments. Un autre avantage est qu'il n'assume pas la symétrie de la distribution de la partie non contaminée des données pour mesurer le poids de la queue: en fait, l'algorithme renvoie deux nombres: le RMC pour le poids de la queue droite et le LMC pour le poids de la queue gauche.
par construction: aucune quantité de contamination ne peut par exemple faire retourner l'algorithme -1!). En pratique, on constate que l'on peut remplacer environ 5% de l'échantillon par des valeurs aberrantes même très pathologiques sans que la plus affectée des estimations (il y en a toujours deux) s'écarte trop de la valeur qu'elle avait sur l'échantillon non contaminé.
Le L / RMC est également largement mis en œuvre. Par exemple, vous pouvez trouver une implémentation R ici . Comme expliqué dans l'article lié ci-dessus, pour calculer le L / RMC, vous devez calculer le MC (l'estimateur implémenté dans le lien) séparément sur la moitié gauche et droite de vos données. Ici, (à gauche) la moitié droite sont les sous-échantillons formés de l'observation (plus petits) plus grands que la médiane de votre échantillon d'origine.