Solution de l'exercice 2.2a.16 de «Statistiques robustes: l'approche basée sur les fonctions d'influence»

9

À la page 180 de Statistiques robustes: l'approche basée sur les fonctions d'influence, on trouve la question suivante:

  • 16: Montrer que pour les estimateurs invariants de localisation toujours . Trouvez la borne supérieure correspondante sur le point de rupture de l'échantillon fini , à la fois dans le cas où est impair ou est pair.ε12εnnn

La deuxième partie (après la période) est en fait triviale (étant donné la première) mais je ne trouve pas de moyen de prouver la première partie (phrase) de la question.

Dans la section du livre relative à cette question, on trouve (p98):

Définition 2: Le point de rupture d'échantillon fini d'un estimateur à l'échantillon est donné par:εnTn(xl,,xn)

εn(Tn;xi,,xn):=1nmax{m:maxi1,,imsupy1,,ym|Tn(z1,,zn)|<}

où l'échantillon (z1,,zn) est obtenu en remplaçant m points de données xi1,,xim par des valeurs arbitraires y1,,ym.

La définition formelle de elle-même s'étend sur presque une page, mais peut être considérée comme Bien qu'elle ne soit pas définie explicitement, une peut deviner que l'emplacement-invariant signifie que doit satisfaire ε

ε=limnεn
Tn
Tn(x1,,xn)=Tn(x1+c,,xn+c), for all cR

Je (essaie de) répondre à la question de whuber dans le commentaire ci-dessous. Le livre définit l'estimateur fait plusieurs pages, à partir de la p82, j'essaie de reproduire les parties principales (je pense qu'il répondra à la question de whuber):Tn

Supposons que nous ayons des observations unidimensionnelles qui sont indépendantes et identiquement distribuées (iid). Les observations appartiennent à un espace échantillon , qui est un sous-ensemble de la ligne réelle (souvent simplement égal à lui-même, donc les observations peuvent prendre n'importe quelle valeur ). Un modèle paramétrique consiste en une famille de distributions de probabilités , sur l'espace échantillon, où le paramètre inconnu appartient à un espace paramétrique(X1,,Xn)HRHRFθθΘ

...

Nous identifions l'échantillon avec sa distribution empirique , en ignorant la séquence des observations (comme cela se fait presque toujours). Formellement, , est donnée par où , est la masse du point 1 dans . En tant qu'estimateurs de , nous considérons les statistiques à valeur réelle . Dans un sens plus large, un estimateur peut être considéré comme une séquence de statistiques , une pour chaque taille d'échantillon possible . Idéalement, les observations sont iid selon un membre du modèle paramétrique (X1,,Xn)GnGn(1/n)i=1nΔxiΔXXθTn=Tn(X1,,Xn)=Tn(Gn){Tn,n1}n{Fθ;θΘ} , mais la classe de toutes les distributions de probabilités possibles sur est beaucoup plus grande.F(H)H

Nous considérons des estimateurs qui sont fonctionnels [c'est-à-dire pour tout et ] ou qui peuvent être remplacés asymptotiquement par des fonctionnels. Cela signifie que nous supposons qu'il existe un fonctionnel [où le domaine de est l'ensemble de toutes les distributions pour laquelle est défini] tel que en probabilité lorsque les observations sont iid selon la vraie distribution dans . On dit queTn(Gn)=T(Gn)nGnT:domain(T)RTF(H)T

Tn(X1,,Xn)nT(G)
Gdomain(T)T(G)est la valeur asymptotique de à .{Tn;n1}G

...

Dans ce chapitre, nous supposons toujours que les fonctionnelles étudiées sont cohérentes avec Fisher (Kallianpur et Rao, 1955): ce qui signifie qu'à le modèle l'estimateur mesure asymptotiquement la bonne quantité. La notion de cohérence de Fisher est plus appropriée et élégante pour les fonctionnelles que la cohérence habituelle ou l'impartialité asymptotique.

T(Fθ)=θ for all θΘ
{Tn;n1}

user603
la source
1
Comment ce livre définit-il exactement «estimateur»? Il me semble que tout estimateur borné doit avoir un point de rupture de , donc il impose sûrement une sorte de restrictions spéciales à ; et il existe toujours des estimateurs invariants de localisation bornés (ils incluront les constantes). Tn1Tn
whuber
1
Merci pour le matériel élargi. Il semble toujours qu'il existe de nombreux contre-exemples. Un estimateur simple est l'estimateur constant pour la famille à un paramètre des distributions normales de variance . Il s'agit d'un estimateur invariant de la variance. Son point de rupture est . Il est cohérent avec Fisher (trivialement), mais j'ai besoin d'interpréter la définition avec soin: " " ne peut pas nécessairement faire référence à tous les paramètres, car alors aucun estimateur invariant de localisation ne pourrait être cohérent! Tn(X1,,Xn)=111θ
whuber
@whuber: Merci, je comprends votre contre-exemple. Je pense que je vais contacter l'auteur et demander plus d'informations ...
user603

Réponses:

4

Les livres de statistiques plus anciens utilisaient «invariant» d'une manière légèrement différente de ce à quoi on pourrait s'attendre; la terminologie ambiguë persiste. Un équivalent plus moderne est «équivariant» (voir les références à la fin de cet article). Dans le contexte actuel, cela signifie

Tn(X1+c,X2+c,,Xn+c)=Tn(X1,X2,,Xn)+c

pour tous les vrais .c

Pour répondre à la question, supposons alors que ait la propriété que pour suffisamment grand , tout réel et tout ,Tnncmεn

|Tn(X+Y)Tn(X)|=o(|c|)

chaque fois que diffère de par au plus en au plus coordonnées.YXcm

(Il s'agit d'une condition plus faible que celle supposée dans la définition de la limite de ventilation. En fait, tout ce que nous devons vraiment supposer est que lorsque est suffisamment grand, l'expression " " est une valeur garantie d'être inférieure à en taille.)no(|c|)|c|/2

La preuve est par contradiction. Supposons, en conséquence, que ce est également équivariant et supposons . Alors pour suffisamment grand , est un entier pour lequel et . Pour tout nombre réel définirTnε>1/2nm(n)=εnm(n)/nε(nm(n))/nεa,b

tn(a,b)=Tn(a,a,,a, b,b,,b)

où il y a et . En changeant ou moins des coordonnées, nous concluons à la foism(n) anm(n) bm(n)

|t(a,b)t(0,b)|=o(|a|)

et

|t(a,b)t(a,0)|=o(|b|).

Pour l'inégalité du triangle affirmec>0

c=|tn(c,c)tn(0,0)||tn(c,c)tn(c,0)|+|tn(c,0)tn(0,0)|=o(c)+o(c)<c/2+c/2=c

L'inégalité stricte sur l'avant-dernière ligne est assurée pour suffisamment grand . La contradiction qu'elle implique, , prouvenc<cε1/2.


Références

EL Lehmann, Théorie de l'estimation ponctuelle . John Wiley 1983.

Dans le texte (chapitre 3, section 1) et une note de bas de page Lehmann écrit

Un estimateur satisfaisant pour tout sera appelé équivariant ...δ(X1+a,,Xn+a)=δ(X1,,Xn)+aa

Certains auteurs appellent ces estimateurs «invariants». Comme cela suggère que l'estimateur reste inchangé sous , il semble préférable de réserver ce terme aux fonctions satisfaisant pour tout .Xi=Xi+au(x+a)=u(x)x,a

whuber
la source
1
oui j'ai contacté hier l'auteur principal du livre avec la même question sur la définition réelle de l'invariance utilisée (j'ai regardé dans l'index et je n'ai pas pu le trouver explicite dans le livre). J'ai voté positivement parce que je pense que votre réponse est la bonne, mais je donnerai à l'auteur quelques jours pour être sûr avant de l'accepter.
user603
1
Je n'ai pas reçu de réponse de l'auteur mais les arguments présentés ci-dessus (dans la réponse et le commentaire) m'ont convaincu que cela devait en effet être la bonne interprétation du problème.
user603