Estimation des paramètres de la distribution t de Student

23

Quels sont les estimateurs du maximum de vraisemblance pour les paramètres de la distribution t de Student? Existent-ils sous forme fermée? Une recherche rapide sur Google ne m'a donné aucun résultat.

Aujourd'hui, je m'intéresse au cas univarié, mais je devrai probablement étendre le modèle à plusieurs dimensions.

EDIT: Je suis en fait principalement intéressé par les paramètres de localisation et d'échelle. Pour l'instant, je peux supposer que le paramètre des degrés de liberté est fixe, et éventuellement utiliser un schéma numérique pour trouver la valeur optimale plus tard.

Grzenio
la source
À ma connaissance, ils n'existent pas sous forme fermée. Une approche de type montée en gradient peut être nécessaire.
Pat
Bien que la distribution Student t ait un seul paramètre, vous vous référez à "paramètres" au pluriel. Incluez-vous peut-être des paramètres de localisation et / ou d'échelle?
whuber
@whuber, merci pour le commentaire, je suis en effet plus intéressé par les paramètres de localisation et d'échelle que par les degrés de liberté.
Grzenio
Avec données, l'équation de vraisemblance pour le paramètre de localisation est algébriquement équivalente à un polynôme de degré 2 n - 1 . Considérez-vous qu'un zéro d'un tel polynôme soit donné sous "forme fermée"? n2n1
whuber
@whuber, existe-t-il des cas particuliers pour les petits n, par exemple n = 3?
Grzenio

Réponses:

27

La forme fermée n'existe pas pour T, mais une approche très intuitive et stable se fait via l'algorithme EM. Maintenant que l'élève est un mélange d'échelle de normales, vous pouvez écrire votre modèle comme

yi=μ+ei

et w iG a ( νei|σ,wiN(0,σ2wi1). Cela signifie que conditionnellement surwile mle ne sont que la moyenne pondérée et l'écart type. Ceci est l'étape "M"wiGa(ν2,ν2)wi

σ 2=Σiwi(yi - μ )2

μ^=iwiyiiwi
σ^2=iwi(yiμ^)2n

Maintenant, l'étape "E" remplace par son attente compte tenu de toutes les données. Ceci est donné comme:wi

w^je=(ν+1)σ2νσ2+(yje-μ)2

il vous suffit donc d'itérer les deux étapes ci-dessus, en remplaçant le "côté droit" de chaque équation par les estimations des paramètres actuels.

Cela montre très facilement les propriétés de robustesse de la distribution t car les observations avec de grands résidus reçoivent moins de poids dans le calcul pour l'emplacement , et une influence limitée dans le calcul de σ 2 . Par "influence bornée", je veux dire que la contribution à l'estimation pour σ 2 de la ième observation ne peut pas dépasser un seuil donné (c'est ( ν + 1 ) σ 2 o l d dans l'algorithme EM). De plus, ν est un paramètre de «robustesse» en ce que l'augmentation (la diminution) de ν entraînera plus (moins) de poids uniformes et donc plus (moins) de sensibilité aux valeurs aberrantes.μσ2σ2(ν+1)σold2νν

Une chose à noter est que la fonction de vraisemblance logarithmique peut avoir plus d'un point stationnaire, donc l'algorithme EM peut converger vers un mode local au lieu d'un mode global. Les modes locaux sont susceptibles d'être trouvés lorsque le paramètre d'emplacement est démarré trop près d'une valeur aberrante. Donc, commencer par la médiane est un bon moyen d'éviter cela.

probabilitéislogique
la source
1
C'est génial. Cela fait un moment que je joue avec l'idée d'adapter les étudiants à l'utilisation de la SE pour la raison précise que cela ressemble à un mélange de gaussiens. Avez-vous une citation / référence pour les équations de mise à jour que vous donnez? Avoir cela augmenterait encore plus le caractère génial de ce message.
Pat
En fait, je pense que j'en ai trouvé un moi-même, pour un modèle de mélange de t de Student (que je vais donc utiliser pour des trucs): Les mélanges de t-distributions de Student comme cadre robuste pour un enregistrement rigide. Demetrios Gerogiannis, Christophoros Nikou, Aristidis Likas. Image and Vision Computing 27 (2009) 1285-1294.
Pat
Le lien dans ma réponse à cette question a un cadre EM très général pour les charges et charges de fonctions de vraisemblance - quantile, étudiant, logistique, et fait une régression générale. Votre cas spécifique est la «régression» sans covariables - intercepter uniquement - s'intègre donc bien dans ce cadre. De plus, il existe un grand nombre de conditions de pénalité que vous pouvez intégrer dans ce cadre.
probabilislogic
ν
Je pense que cette référence est meilleure que celle de @ Pat. «ML ESTIMATION DE LA DISTRIBUTION À L'AIDE D'EM ET DE SES EXTENSIONS, ECM ET ECME.» Vous devez être très prudent sur la sélection de la valeur du paramètre initial lors de l'exécution de l'algorithme EM en raison du problème local-optimal. En d'autres termes, vous devez savoir quelque chose sur vos données. Habituellement, j'évite d'utiliser la distribution t dans mes recherches.
4

Le document suivant traite exactement du problème que vous avez signalé.

Liu C. et Rubin DB 1995. "Estimation ML de la distribution t en utilisant EM et ses extensions, ECM et ECME." Statistica Sinica 5: 19–39.

Il fournit une estimation générale des paramètres de distribution t multivariée, avec ou sans connaissance du degré de liberté. La procédure peut être trouvée dans la section 4, et elle est très similaire aux probabilités logiques pour 1 dimension.

mitchshih
la source
7
Il semble que le document auquel vous faites référence contienne une réponse utile à la question, mais les réponses sont meilleures lorsqu'elles sont autonomes et ne nécessitent pas de ressources extérieures (ici, par exemple, il est possible que l'OP ou les lecteurs n'aient pas accès à ce document ). Pourriez-vous étoffer un peu votre réponse pour la rendre plus autonome?
Patrick Coulombe
3

Γ(ν+12)νπΓ(ν2)(1+t2ν)ν+12=Γ(ν+12)νπΓ(ν2)exp{[ln(1+t2ν)][ν+12]}
νnnν
Lucozade
la source
1
Même dans le cadre gaussien, la vraisemblance logarithmique est non linéaire dans ses paramètres :-).
whuber
Je m'intéresse en fait aux paramètres de localisation et d'échelle, plus qu'aux degrés de liberté. Veuillez consulter la modification de la question, et désolé de ne pas être précis.
Grzenio
2

J'ai récemment découvert un estimateur de forme fermée pour l'échelle de la distribution t de Student. À ma connaissance, il s'agit d'une nouvelle contribution, mais je serais heureux de recevoir des commentaires suggérant des résultats connexes. L'article décrit la méthode dans le contexte d'une famille de distributions «exponentielles couplées». Le t de Student est appelé gaussien couplé, où le terme de couplage est l'inverse du degré de liberté. La statistique de forme fermée est la moyenne géométrique des échantillons. En supposant une valeur du couplage ou degré de liberté, une estimation de l'échelle est déterminée en multipliant la moyenne géométrique des échantillons par une fonction impliquant le couplage et un nombre harmonique.

https://arxiv.org/abs/1804.03989 Utilisation de la moyenne géométrique comme statistique pour l'échelle des distributions gaussiennes couplées, Kenric P. Nelson, Mark A. Kon, Sabir R. Umarov

Kenric
la source