Question
La variance d'une distribution binomiale négative (NB) est toujours supérieure à sa moyenne. Lorsque la moyenne d'un échantillon est supérieure à sa variance, essayer d'ajuster les paramètres d'un NB avec une probabilité maximale ou avec une estimation de moment échouera (il n'y a pas de solution avec des paramètres finis).
Cependant, il est possible qu'un échantillon prélevé dans une distribution NB ait une moyenne supérieure à la variance. Voici un exemple reproductible dans R.
set.seed(167)
x = rnbinom(100, size=3.2, prob=.8);
mean(x) # 0.82
var(x) # 0.8157576
Il existe une probabilité non nulle que le NB produise un échantillon pour lequel les paramètres ne peuvent pas être estimés (par les méthodes du maximum de vraisemblance et du moment).
- Peut-on donner des estimations décentes pour cet échantillon?
- Que dit la théorie de l'estimation lorsque les estimateurs ne sont pas définis pour tous les échantillons?
À propos de la réponse
Les réponses de @MarkRobinson et @Yves m'ont fait réaliser que la paramétrisation est le principal problème. La densité de probabilité du NB est généralement écrite comme
ou comme P(X=k)=Γ(r+k)
Sous la première paramétrisation, l'estimation du maximum de vraisemblance est chaque fois que la variance de l'échantillon est inférieure à la moyenne, donc rien d'utile ne peut être dit à propos de . Sous la seconde, c'est ( ∞ , ˉ x ) , donc on peut donner une estimation raisonnable de m . Enfin, @MarkRobinson montre que nous pouvons résoudre le problème des valeurs infinies en utilisant r au lieu der.
En conclusion, il n'y a rien de fondamentalement mauvais dans ce problème d'estimation, sauf que vous ne pouvez pas toujours donner des interprétations significatives de et p pour chaque échantillon. Pour être juste, les idées sont présentes dans les deux réponses. J'ai choisi celui de @MarkRobinson comme le bon pour les compléments qu'il donne.
Réponses:
Fondamentalement, pour votre échantillon, l'estimation du paramètre de taille se situe à la limite de l'espace des paramètres. On pourrait également envisager une reparamétrisation telle que d = taille / (taille + 1); lorsque taille = 0, d = 0, lorsque la taille tend vers l'infini, d approche 1. Il s'avère que, pour les réglages de paramètres que vous avez donnés, les estimations de taille de l'infini (d proche de 1) se produisent environ 13% du temps pour Estimations de probabilité de profil ajusté (APL) de Cox-Reid, qui sont une alternative aux estimations de MLE pour le Nouveau-Brunswick (exemple illustré ici) . Les estimations du paramètre moyen (ou «prob») semblent correctes (voir la figure, les lignes bleues sont les vraies valeurs, le point rouge est l'estimation de votre graine = 167 échantillons). Plus de détails sur la théorie APL sont ici .
Donc, je dirais à 1: des estimations de paramètres décentes peuvent être obtenues. Taille = infini ou dispersion = 0 est une estimation raisonnable étant donné l'échantillon. Considérons un espace de paramètres différent et les estimations seront finies.
la source
Les propriétés ML sont pour un échantillon de grande taille: dans des conditions de régularité, il est démontré qu'une estimation ML existe, qu'elle est unique et tend vers le vrai paramètre. Pourtant, pour une taille d'échantillon finie donnée, l'estimation ML peut ne pas exister dans le domaine, par exemple parce que le maximum est atteint à la frontière. Il peut également exister dans un domaine plus grand que celui utilisé pour la maximisation.
Pour des raisons d'invariance par re-paramétrage, je pense que des paramètres infinis peuvent avoir un sens dans certains cas.
la source