Considérons échantillons indépendants obtenus à partir d'une variable aléatoire qui est supposée suivre une distribution tronquée (par exemple une distribution normale tronquée ) de valeurs minimales et maximales connues (finies) et mais de paramètres inconnus et . Si suivait une distribution non tronquée, les estimateurs du maximum de vraisemblance et pour et de seraient la moyenne de l'échantillona b μ σ 2 X μ σ 2 μ σ 2 S μ = 1 σ 2=1et la variance de l'échantillon . Cependant, pour une distribution tronquée, la variance d'échantillon ainsi définie est limitée par , ce n'est donc pas toujours un estimateur cohérent: pour , elle ne peut pas converger en probabilité vers lorsque va à l'infini. Il semble donc que et ne soient pas les estimateurs à maximum de vraisemblance de et pour une distribution tronquée. Bien sûr, cela est normal car les et(b-a)2σ2>(b-a)2σ2N μ σ 2μσ2μσ2 les paramètres d'une distribution normale tronquée ne sont pas sa moyenne et sa variance.
Alors, quels sont les estimateurs du maximum de vraisemblance des paramètres et d'une distribution tronquée de valeurs minimales et maximales connues?σ
Réponses:
Considérons toute famille d'échelle d' emplacement déterminée par une distribution "standard" ,F
En supposant que différenciable, nous trouvons facilement que les fichiers PDF sont .1F 1σf((x−μ)/σ)dx
La troncature de ces distributions pour restreindre leur prise en charge entre et , , signifie que les PDF sont remplacés parb a < ba b a<b
(et sont nuls pour toutes les autres valeurs de ) où est le facteur de normalisation nécessaire pour garantir que s'intègre à l'unité. (Notez que est identique à en l'absence de troncature.) La probabilité logarithmique pour les données iid est doncx C(μ,σ,a,b)=F(μ,σ)(b)−F(μ,σ)(a) f(μ,σ;a,b) C 1 xi
Les points critiques (y compris les minima globaux) se trouvent là où soit (un cas spécial que j'ignorerai ici) soit le gradient disparaît. En utilisant des indices pour désigner des dérivées, nous pouvons calculer formellement le gradient et écrire les équations de vraisemblance commeσ=0
Parce et sont fixes, supprimez-les de la notation et écrivez comme et comme . (Sans troncature, les deux fonctions seraient identiques à zéro.) La séparation des termes impliquant les données des autres donnea b nCμ(μ,σ,a,b)/C(μ,σ,a,b) A(μ,σ) nCσ(μ,σ,a,b)/C(μ,σ,a,b) B(μ,σ)
En les comparant à la situation sans troncature, il est évident que
Toutes les statistiques suffisantes pour le problème d'origine sont suffisantes pour le problème tronqué (car les côtés droits n'ont pas changé).
Notre capacité à trouver des solutions de forme fermée repose sur la docilité de et . Si celles-ci n'impliquent pas et de manière simple, nous ne pouvons pas espérer obtenir des solutions de forme fermée en général.A B μ σ
Dans le cas d'une famille normale, est bien sûr donné par le PDF normal cumulatif, qui est une différence de fonctions d'erreur: il n'y a aucune chance qu'une solution de forme fermée puisse être obtenu en général. Cependant, il n'y a que deux statistiques suffisantes (la moyenne et la variance de l'échantillon feront l'affaire) et le CDF est aussi lisse que possible, de sorte que les solutions numériques seront relativement faciles à obtenir.C(μ,σ,a,b)
la source