Considérons une variable aléatoire de Bernoulli avec le paramètre (probabilité de succès). La fonction de vraisemblance et les informations de Fisher (une matrice ) sont:θ 1 × 1
Considérons maintenant une version "sur-paramétrisée" avec deux paramètres: la probabilité de réussite et la probabilité d'échec . (Notez que , et cette contrainte implique que l'un des paramètres est redondant.) Dans ce cas, la fonction de vraisemblance et la matrice d'informations de Fisher (FIM) sont:
Notez que les déterminants de ces deux FIM sont identiques. De plus, cette propriété s'étend au cas plus général des modèles catégoriels (c'est-à-dire plus de deux états). Il semble également s'étendre aux modèles log-linéaires avec divers sous-ensembles de paramètres contraints à zéro; dans ce cas, le paramètre extra "redondant" correspond à la fonction de partition logarithmique, et l'équivalence des deux déterminants FIM peut être montrée sur la base du complément Schur du FIM plus grand. (En fait, pour les modèles log-linéaires, le FIM plus petit n'est que le complément Schur du FIM plus grand.)
Quelqu'un peut-il expliquer si cette propriété s'étend à un plus grand ensemble de modèles paramétriques (par exemple à toutes les familles exponentielles), permettant la possibilité de dériver les déterminants FIM sur la base d'un tel ensemble de paramètres "étendu"? C'est-à-dire que tout modèle statistique donné avec paramètres se trouve sur une variété à dimensions incorporée dans un espace à dimensions. Maintenant, si nous étendons l'ensemble de paramètres pour inclure une dimension de plus (qui est totalement contrainte en fonction des autres) et calculons le FIM en fonction de ces paramètres , obtiendrons-nous toujours le même déterminant que celui basé sur l'original paramètres (indépendants)? Aussi, comment ces deux FIM sont-elles liées?
La raison pour laquelle je pose cette question est que le FIM avec le paramètre supplémentaire semble souvent plus simple. Ma première pensée est que cela ne devrait pas fonctionner en général. Le FIM consiste à calculer des dérivées partielles de la vraisemblance logarithmique de chaque paramètre. Ces dérivées partielles supposent que, tandis que le paramètre en question change, tous les autres paramètres restent constants, ce qui n'est pas vrai une fois que nous impliquons le paramètre supplémentaire (contraint). Dans ce cas, il me semble que les dérivées partielles ne sont plus valables car on ne peut pas supposer que les autres paramètres sont constants; cependant, je n'ai pas encore trouvé de preuve qu'il s'agit en fait d'un problème. (Si les dérivées partielles sont problématiques dans les cas avec des paramètres dépendants, les dérivées totales sont-ellesbesoin à la place? Je n'ai pas encore vu d'exemple de calcul de la FIM avec des dérivées totales, mais c'est peut-être la solution ...)
Le seul exemple que j'ai pu trouver en ligne qui calcule la FIM sur la base d'un ensemble de paramètres "étendu" est le suivant: ces notes contiennent un exemple pour la distribution catégorielle, calculant les dérivées partielles requises comme d'habitude (c'est-à-dire comme si chaque paramètre est indépendant , même si une contrainte est présente parmi les paramètres).
la source
Réponses:
Pour normal , la matrice d'informations est Pour la courbe normaleDonc, votre observation selon laquelle les déterminants sont égaux n'est pas universelle, mais ce n'est pas toute l'histoire.X∼N(μ,σ2)
Généralement, si est la matrice d'information sous la reparamétrisation alors, il n'est pas difficile de voir que la matrice d'information pour les paramètres d'origine est où est le jacobien de la transformation .Ig
Pour l'exemple de Bernoulli et . Ainsi, le jacobien est et donc(θ0,θ1)=(p,1−p) g(p)=(p,1−p) (1,−1)′
Pour un exemple normal courbe,
Je pense que vous pouvez maintenant facilement relier les déterminants.
Suivi après le commentaire
Si je vous ai bien compris, la FIM est valable tant que vous étendez les paramètres de manière significative: la probabilité sous une nouvelle paramétrisation devrait être une densité valide. Par conséquent, j'ai qualifié l'exemple de Bernoulli de regrettable.
Je pense que le lien que vous avez fourni présente un grave défaut dans la dérivation de la FIM pour les variables catégorielles, car nous avons et . L'attente de la Hesse négative donne , mais pas pour la covariance des vecteurs de score. Si vous négligez les contraintes, l'égalité de la matrice d'informations ne tient pas.E(x2i)=θi(1−θi)≠θi E(xixj)=θiθj≠0 diag{1/θi}
la source
Il semble que le résultat soit valable pour un type spécifique de relation entre les paramètres.
Sans prétendre à la généralité complète des résultats ci-dessous, je m'en tiens au cas des «un à deux paramètres». Notons l'équation implicite qui exprime la relation qui doit tenir entre les deux paramètres. Ensuite, le log-vraisemblance "correct étendu", "à deux paramètres" (pas ce que l'OP calcule - nous y arriverons)g(θ0,θ1)=0
En utilisant les indices pour désigner les dérivées par rapport aux paramètres (un dérivé premier indice, deux dérivées deuxième indice), le déterminant de la Hesse de la log-vraisemblance étendue correcte sera
Que fait l'OP à la place?
Il considère que la mauvaise probabilité "ignore" la relation entre les deux paramètres, et sans tenir compte de la contrainte . Il procède ensuite à la différenciation et obtientL∗(θ0,θ1) g(θ0,θ1)
Il est évident que n'est pas en général égal à .(2) (1)
Mais si , alorsg00=g11=g00=0
Donc, si la relation entre le paramètre réel et le paramètre redondant est telle que les deuxièmes dérivées partielles de la fonction implicite qui les relie sont toutes nulles , l'approche qui est fondamentalement erronée finit par être "correcte".
Pour l'affaire Bernoulli, nous avons en effet
ADDENDUMn
Pour répondre à la question @Khashaa et montrer la mécanique ici, nous considérons une vraisemblance spécifiée avec un paramètre redondant, mais également sous une contrainte qui relie le paramètre redondant au vrai. Ce que nous faisons avec les log-vraisemblances, c'est de les maximiser - nous avons donc ici un cas de maximisation contrainte. Supposons un échantillon de taille ,:
Ce problème a un Langrangean (ce que j'ai appelé officieusement "vraisemblance étendue correcte" ci-dessus),
Les conditions de premier ordre pour un maximum sont
pour laquelle on obtient la relation
en utilisant la contrainte sous laquelle ce qui précède est valide, on obtientθ1=1−θ0
comme il se doit.
De plus, la contrainte étant linéaire dans tous les paramètres, ses dérivées secondes seront nulles. Cela se reflète dans le fait que dans les dérivées premières de la lagrangienne, le multiplicateur "reste seul" et il sera éliminé lorsque nous prendrons les dérivées secondes de la lagrangienne. Ce qui à son tour nous conduira à une Hesse dont le déterminant sera égal à la dérivée seconde (unidimensionnelle) de la vraisemblance logarithmique à un paramètre d'origine, après avoir également imposé la contrainte (ce que fait l'OP). Prendre ensuite le négatif de la valeur attendue dans les deux cas, ne change pas cette équivalence mathématique, et on arrive à la relation "Information Fisher unidimensionnelle = déterminant de l'information Fisher bidimensionnelle". Maintenantλ étant donné que la contrainte est linéaire dans tous les paramètres, l'OP obtient le même résultat (au niveau de la dérivée seconde) sans introduire la contrainte avec un multiplicateur dans la fonction à maximiser, car au deuxième niveau dérivé, la présence / l'effet du la contrainte disparaît dans un tel cas.
Tout cela a à voir avec le calcul, pas avec des concepts statistiques.
la source