Fonction de vraisemblance des données tronquées

J'ai un peu de mal à comprendre le concept et la dérivation de la probabilité de données tronquées.

Par exemple, si je veux trouver la fonction de vraisemblance basée sur un échantillon d'une distribution, mais en prenant un échantillon de la distribution, j'observe les valeurs tronquées (où il y a un seuil de , c'est-à-dire tout est enregistré comme ): $M$ $x_{i}>M$ $M$

$x_{1}, x_{2}, M, x_{3}, M, x_{4}, x_{5}, ..., x_{10}$

où le nombre de valeurs est . Ensuite, la probabilité est supposée être donnée par: $M$ $m$

$L(x;\theta) = \prod_{i=1}^{10}f(x_{i};\theta)*[P(X>M)]^{m}$

J'apprécierais beaucoup une explication / preuve de la raison pour laquelle il en est ainsi, surtout pourquoi le deuxième facteur est tel qu'il est. Intuitivement et mathématiquement si possible. Merci d'avance.

dataset likelihood Delvesy
la source

Qu'est-ce que le " " minuscule ?

m

$m$

Alecos Papadopoulos

C'est le nombre d'occurrences de .. c'est-à-dire que j'ai observé points de données, dont ne sont pas tronqués, et d'entre eux le sont (j'observe ces choix, tous avec la valeur )

M

$M$

10 + m

$10 + m$

10

$10$

m

$m$

m

$m$

M

$M$

Delvesy

Comme le souligne @Alecos, vous utilisez idiosyncrasiquement "tronqué". "Censuré" est le terme habituel.

Scortchi - Réintégrer Monica

Quelques autres termes sur lesquels vous voudrez peut-être effectuer une recherche: «effets de plafond / plancher», «régression bêta» et «modèles zéro gonflés».

DWin

Réponses:

Ce que vous décrivez nécessite un traitement spécial, ce n'est pas ce que nous entendons habituellement par "variables aléatoires tronquées" - et ce que nous entendons généralement est que la variable aléatoire ne se situe pas en dehors du support tronqué, ce qui signifie qu'il n'y a pas de concentration de masse de probabilité à le point de troncature. Pour contraster les cas:

A) Signification "habituelle" d'un rv tronqué
Pour toute distribution que nous tronquons son support, nous devons "corriger" sa densité afin qu'elle s'intègre à l'unité lorsqu'elle est intégrée sur le support tronqué. Si la variable est prise en charge dans , , alors (pdf , cdf ) $[a,b]$ $-\infty < a < b < \infty$ $f$ $F$

\int_{a}^{b} f_{X} (x) d x = \int_{a}^{M} f_{X} (x) d x + \int_{M}^{b} f_{X} (x) d x = \int_{a}^{M} f_{X} (x) d x + [1 - F_{X} (M)] = 1

$\int_a^bf_X(x)dx = \int_a^Mf_X(x)dx+\int_M^bf_X(x)dx = \int_a^Mf_X(x)dx + \left[1-F_X(M)\right]=1$

\Rightarrow \int_{a}^{M} f_{X} (x) d x = F_{X} (M)

$\Rightarrow \int_a^Mf_X(x)dx = F_X(M)$

Puisque le LHS est l'intégrale sur le support tronqué, nous voyons que la densité du rv tronqué, appelons-le , doit être $\tilde X$

f_{\tilde{X}} (\tilde{x}) = f_{X} (x ∣ X \leq M) = f_{X} (x) d x \cdot {[F_{X} (M)]}^{- 1}

$f_{\tilde X}(\tilde x) = f_{X}(x\mid X\le M)=f_X(x)dx\cdot \left[F_X(M)\right]^{-1}$ afin que il s'intègre à l'unité sur . Le terme moyen dans l'expression ci-dessus nous fait penser (à juste titre) à cette situation comme une forme de conditionnement - mais pas sur une autre variable aléatoire, mais sur les valeurs possibles que le RV lui-même peut prendre. Ici, une fonction conjointe densité / vraisemblance d'une collection de iid rv tronqués serait fois la densité ci-dessus, comme d'habitude.

[a, M]

$[a, M]$

n

$n$

n

$n$

B) Probabilité de concentration massique
Ici, c'est ce que vous décrivez dans la question, les choses sont différentes. Le point concentre toute la masse de probabilité qui correspond à l'appui de la variable supérieure à . Cela crée un point de discontinuité dans la densité et lui donne deux branches $M$ $M$

\begin{aligned} f_{X^{*}} (x^{*}) & = f_{X} (x^{*}) x^{*} < M \\ f_{X^{*}} (x^{*}) & = P (X^{*} \geq M) x^{*} \geq M \end{aligned}

$\begin{align} f_{X^*}(x^*) &= f_X(x^*) \qquad x^*<M\\ f_{X^*}(x^*) &= P(X^* \ge M) \qquad x^*\ge M\\ \end{align}$

Informellement, le second est "comme un RV discret" où chaque point de la fonction de masse de probabilité représente les probabilités réelles. Supposons maintenant que nous ayons telles variables aléatoires iid, et nous voulons former leur fonction conjointe densité / vraisemblance. Avant de regarder l'échantillon réel, quelle branche choisir? Nous ne pouvons pas prendre cette décision, nous devons donc en quelque sorte inclure les deux. Pour ce faire, nous devons utiliser des fonctions d'indicateur: notons la fonction d'indicateur qui prend la valeur lorsque et sinon. La densité d'un tel VR peut s'écrire $n$ $I\{x^*\ge M\}\equiv I_{\ge M}(x^*)$ $1$ $x^*\ge M$ $0$

f_{X^{*}} (x^{*}) = f_{X} (x^{*}) \cdot [1 - I_{\geq M} (x^{*})] + P (X^{*} \geq M) \cdot I_{\geq M} (x^{*})

$f_{X^*}(x^*) = f_X(x^*)\cdot \left[1-I_{\ge M}(x^*)\right]+P(X^* \ge M)\cdot I_{\ge M}(x^*)$ et donc la fonction de densité conjointe de telles variables iid est

n

$n$

f_{X^{*}} (X^{*} ∣ θ) = \prod_{i = 1}^{n} [f_{X} (x_{i}^{*}) \cdot [1 - I_{\geq M} (x_{i}^{*})] + P (X_{i}^{*} \geq M) \cdot I_{\geq M} (x_{i}^{*})]

$f_{X^*}(\mathbf X^*\mid \theta) = \prod_{i=1}^n\Big[f_X(x^*_i)\cdot \left[1-I_{\ge M}(x^*_i)\right]+P(X^*_i \ge M)\cdot I_{\ge M}(x^*_i)\Big]$

Maintenant, ce qui précède vu comme une fonction de vraisemblance, l'échantillon réel constitué de réalisations de ces variables aléatoires entre en jeu. Et dans cet échantillon, certaines réalisations observées seront inférieures au seuil , certaines égales. Notons le nombre de réalisations dans l'échantillon égal à , et tout le reste, . Il est immédiat que pour les réalisations, la partie correspondante de la densité qui restera vraisemblablement sera la partie , tandis que pour les réalisations, l'autre partie. alors $n$ $M$ $m$ $M$ $v$ $m+v=n$ $m$ $P(X^*_i \ge M)$ $v$

\begin{aligned} L (θ ∣ {x_{i}^{*}; i = 1, . . . n}) & = \prod_{i = 1}^{v} [f_{X} (x_{i}^{*})] \cdot \prod_{j = 1}^{m} [P (X_{j}^{*} \geq M)] \\ = \prod_{i = 1}^{v} [f_{X} (x_{i}^{*})] \cdot [P (X^{*} \geq M)]^{m} \end{aligned}

$\begin{align} L(\theta\mid \{x_i^*;\,i=1,...n\})&= \prod_{i=1}^v\Big[f_X(x^*_i)\Big]\cdot \prod_{j=1}^m\Big[P(X^*_j \ge M)\Big] \\& = \prod_{i=1}^v\Big[f_X(x^*_i)\Big]\cdot \Big[P(X^* \ge M)\Big]^m\\ \end{align}$

Alecos Papadopoulos
la source

Je vous remercie. J'apprécie beaucoup la réponse. Je suppose que mon principal problème est le premier point de la section b) ... c'est-à-dire comment la "deuxième branche" du pdf est définie. C'est un pmf discret et ne définit pas vraiment un pdf à partir de la définition d'un pdf. Cette section pourrait-elle être expliquée plus en détail? Merci beaucoup.

Delvesy

Ces variables aléatoires sont dites de "type mixte", c'est-à-dire qu'elles sont en partie continues et en partie discrètes. Intuitivement, cela a un sens évident, comme le montrent vos questions. Pour un traitement rigoureux, recherchez «variables aléatoires de type mixte» ou «distributions de type mixte». Ne les confondez pas avec des "mélanges".

Alecos Papadopoulos

La théorie de la vraisemblance est un cadre assez général. La plupart des manuels donnent des résultats pour les cas séparés de r.vs continus et pour ceux de r.vs. discrets Cependant, des cas mixtes se produisent dans la pratique, comme c'est le cas ici.

Pour un RV discret , la probabilité d'une observation est définie comme la probabilité d'obtenir la valeur observée , disons . Pour un rv continu, la probabilité est généralement définie comme la densité en , disons . Cependant, dans la pratique, on sait seulement que - en raison d'une précision de mesure limitée, et doit être utilisé comme vraisemblance. En prenant , avec $A$ $a$ $a$ $p_A(a)$ $L$ $x$ $f_X(x)$ $x_{\textrm{L}} < X < x_{\textrm{U}}$ $\Pr\left\{x_{\textrm{L}} < X < x_{\textrm{U}}\right\}$ $x_{\textrm{L}}:= x - \textrm{d}x/2$ $x_{\textrm{U}}:= x + \textrm{d}x/2$ $\mathrm{d}x$ petit, on obtient jusqu'à un multiplicatif qui n'a pas d'importance. La définition habituelle peut donc être considérée comme supposant implicitement une précision infinie sur l'observation. $f_X(x)$ $\mathrm{d}x$

Pour un couple de r.vs et avec un type mixte mixte discret / continu, la probabilité sera la distribution conjointe, qui est généralement exprimée en utilisant des distributions conditionnelles, par exemple Ainsi, pour un intervalle de petite longueur , est fois la densité de conditionnelle à , disons $A$ $X$

L := Pr {A = a, x_{L} < X < x_{U}} = Pr {A = a} \times Pr {x_{L} < X < x_{U} | A = a} .

$L := \textrm{Pr}\left\{ A = a, \, x_{\textrm{L}} < X < x_{\textrm{U}} \right\} = \textrm{Pr}\left\{ A = a \right\} \times \textrm{Pr} \left\{x_{\textrm{L}} < X < x_{\textrm{U}} \, \vert\, A = a\right\}.$

(x_{L}, x_{U})

$(x_{\textrm{L}},\, x_{\textrm{U}})$

d x

$\textrm{d}x$

L

$L$

p_{A} (a)

$p_A(a)$

X

$X$

{A = a}

$\{A=a\}$

f_{X | A} (x | a)

$f_{X \vert A}(x \,\vert \,a)$ . Encore une fois, nous omettons le terme .

d x

$\mathrm{d}x$

Revenons maintenant à votre exemple et considérons une seule observation. Alors est un RV de Bernoulli avec une probabilité de succès . Selon ou non, que ce soit vous observez que ou vous observez les deux et la valeur de . Dans les deux cas, vous utilisez la formule ci-dessus, mais est pris soit comme soit comme un intervalle de petite longueur contenant . En effet, cela donne $A = 1_{\{X > M\}}$ $\Pr\{X > M\}$ $X > M$ $A = 1$ $A = 0$ $x$ $X$ $(x_{\textrm{L}},\, x_{\textrm{U}})$ $(M,\,\infty)$ $\textrm{d}x$ $x$

L = {\begin{cases} Pr {X > M} \times 1 & if X > M i.e. A = 1, \\ Pr {X \leq M} \times f_{X | A} (x | a) d x & if X \leq M i.e. A = 0. \end{cases}

$L = \begin{cases} \textrm{Pr} \left\{X > M \right\} \times 1 & \textrm{if } X > M \textrm{ i.e. } A =1,\\ \textrm{Pr} \left\{X \leq M\right\} \times f_{X \vert A}(x \,\vert \,a)\,\textrm{d}x & \textrm{if } X \leq M \textrm{ i.e. } A = 0. \end{cases}$ Puisque , la vraisemblance est simplement dans le second cas et nous obtenons la vraisemblance revendiquée, jusqu'au terme pour une observation avec une précision infinie. Lorsque des observations indépendantes et sont faites, la vraisemblance est obtenue comme le produit des vraisemblances marginales conduisant à l'expression dans la question.

f_{X | A} (x | 0) = f_{X} (x) / Pr {X \leq M}

$f_{X \vert A}(x \,\vert \,0) = f_X(x) / \textrm{Pr} \left\{ X \leq M \right\}$

f_{X} (x) d x

$f_X(x)\,\textrm{d}x$

d x

$\mathrm{d}x$

A_{i}

$A_i$

X_{i}

$X_i$

Yves
la source