Avantages relatifs de l'imputation multiple et de la maximisation des attentes (EM)

J'ai un problème où

y = a + b

$y = a + b$

J'observe y, mais ni ni . Je veux estimer $a$ $b$

b = f (x) + ϵ

$b = f(x) + \epsilon$

Je peux estimer , en utilisant une sorte de modèle de régression. Cela me donne . Je pourrais alors estimer $a$ $\hat b$

\hat{b} = f (x) + ϵ

$\hat b = f(x) + \epsilon$

Premier problème: un modèle de régression pour prédire pourrait conduire à être négatif, ce qui n'aurait aucun sens. Je ne sais pas comment contourner cela (pas le genre de problème que j'ai souvent traité), mais cela semble être le genre de chose que les autres traitent régulièrement. Une sorte de GLM non gaussien? $a$ $\hat b$

Le principal problème est de savoir comment tenir compte de l'incertitude dans le modèle principal qui provient de l'estimation . J'ai déjà utilisé l'imputation multiple pour les covariables manquantes. Mais c'est un "paramètre latent" manquant. Alternativement, ce sont les données sur les résultats, qui semblent correctes à imputer . Cependant, j'entends souvent parler d'EM utilisé pour les paramètres "latents". Je ne sais pas pourquoi, et je ne sais pas non plus si la ME est meilleure dans ces contextes. L'IM est intuitif à la fois pour comprendre, implémenter et communiquer. EM est intuitif à comprendre, mais semble plus difficile à implémenter (et je ne l'ai pas fait). $\hat b$

L'EM est-il supérieur pour le type de problème que j'ai ci-dessus? Si oui, pourquoi? Deuxièmement, comment peut-on l'implémenter dans R pour un modèle linéaire ou pour un modèle semi-paramétrique (GAM)?

missing-data multiple-imputation expectation-maximization utilisateur_générique
la source

Une idée consiste à utiliser la distribution bêta pour modéliser puis à définir

c = \frac{a}{y}

$c=\frac{a}{y}$

\hat{b} = y (1 - \hat{c})

$\hat{b}=y(1-\hat{c})$

probabilités

Réponses:

L'utilité ou non d'utiliser les GLM dépend de la distribution de . Je serais enclin à utiliser un modèle des moindres carrés non linéaires pour le tout. $y$

Donc, si votre modèle de régression est où sont les prédicteurs et sont les paramètres du modèle de régression pour , et votre modèle pour est mais où est limité à être non négatif, vous pouvez écrire et adapter un modèle comme celui-ci: $a = Z\alpha+\nu$ $Z$ $\alpha$ $a$ $b$ $b = f(x)+\epsilon$ $f(x)$ $f(x) = \exp(\psi(x))$

y = Z α + \exp (ψ (x)) + η

$y = Z\alpha+\exp(\psi(x))+\eta$

où est la somme des deux termes de bruit individuels. (Si vous voulez vraiment que sans aucune erreur, vous devez le faire différemment; ce n'est pas vraiment un problème de statistiques autant qu'un problème d'approximation et vous voudrez probablement regarder les normes de l'infini alors.) $\eta$ $y=a+b$

Si vous mettez par exemple une spline de régression cubique pour ce serait un moyen facile d'obtenir une fonction lisse générale. Ce modèle pourrait être ajusté par des moindres carrés non linéaires. (En effet, certains algorithmes peuvent profiter de la linéarité d' pour simplifier et accélérer le calcul.) $\psi$ $a$

Selon ce que vous supposez à propos de ou , vous pouvez faire d'autres choses à la place. $y$ $f$

Cela ne règle pas encore vraiment le problème d'imputation. Cependant, ce type de cadre de modèle peut être inséré dans quelque chose comme votre suggestion d'utiliser EM.

Glen_b -Reinstate Monica
la source

Merci pour le commentaire. En effet, y = a + b sans erreur (ou plus précisément, l'erreur est ignorable et ignorée). Plus précisément encore, y, a et b ne sont pas tous définis en dessous de zéro. Donc ma régression où je modélise un ne peut pas me donner qui a des éléments inférieurs à zéro. J'ai contourné cela en codant en bas les valeurs ajustées (et en codant en haut pour qu'elles ne conduisent pas b -> <0), mais c'est un hack et il pourrait y avoir des solutions plus élégantes.

\hat{a}

$\hat a$

generic_user

C'est beaucoup d'informations pertinentes qui devraient être précisées dans votre question, je pense.

Glen_b -Reinstate Monica