Modélisation lorsque la variable dépendante a un «seuil»

Toutes mes excuses à l'avance si l'une des terminologies que j'utilise est incorrecte. J'accueillerais toute correction. Si ce que je décris comme une «coupure» porte un nom différent, faites-le moi savoir et je pourrai mettre à jour la question.

La situation qui m'intéresse est la suivante: vous avez des variables indépendantes et une seule variable dépendante . Je vais laisser les choses vagues, mais supposons qu'il serait relativement simple d'obtenir un bon modèle de régression pour ces variables. $\bf{x}$ $y$

Cependant, le modèle que vous souhaitez créer concerne les variables indépendantes $\bf{x}$ et la variable dépendante $w = \min(y,a)$ , où $a$ est une valeur fixe dans la plage de $y$ . De même, les données auxquelles vous avez accès n'incluent pas $y$ , seulement $w$ .

Un exemple (quelque peu irréaliste) serait si vous essayez de modéliser le nombre d'années pendant lesquelles les gens toucheront leur pension. Dans ce cas, $\bf{x}$ pourrait être des informations pertinentes telles que le sexe, le poids, les heures d'exercice par semaine, etc. La variable «sous-jacente» $y$ serait l'espérance de vie. Cependant, la variable à laquelle vous auriez accès et que vous essayez de prédire dans votre modèle serait $w = \min(0, y-r)$ où r est l'âge de la retraite (en supposant, pour des raisons de simplicité, qu'il est fixe).

Existe-t-il une bonne approche pour gérer cela dans la modélisation de régression?

regression modeling survival censoring Ben Aaronson
la source

Je ne suis pas certain, mais cela semble pouvoir être accessible à travers une certaine variation de l'analyse de survie. 1) Cela implique la censure 2) Au moins dans votre exemple, cela implique du temps. Mais il serait censuré à gauche plutôt que censuré à droite (ce qui est plus courant). Si vous êtes d'accord avec moi, vous pouvez ajouter la balise de survie et voir si quelqu'un y saute.

Peter Flom - Réintègre Monica

@Peter Il me semble bien censuré à droite. De quel côté la censure se produit est de peu d'importance, car en annulant la variable dépendante, on bascule entre la censure droite et gauche.

whuber

@whuber je pense que vous avez raison. Mais, comme vous le dites, la censure peut basculer assez facilement.

Peter Flom - Réintègre Monica

L'exemple de la retraite semble nécessiter un modèle de données de comptage (si vous êtes prêt à arrondir à des années entières et tant que tout le monde est mort au moment où vous exécutez l'analyse). L'approche de la variable latente semble étirée avec cela car le temps ne peut pas être négatif.

Dimitriy V. Masterov

Réponses:

Ce type de modèle porte plusieurs noms, selon la discipline et le domaine. Les noms communs sont Variables dépendantes censurées, Variables dépendantes tronquées, Variables dépendantes limitées, Analyse de survie, Tobit et Régression censurée. Je laisse probablement de côté plusieurs autres noms.

La configuration que vous suggérez où est observé est appelée "censure à droite", car les valeurs de trop à droite sur la ligne réelle sont censurées --- et à la place, nous ne voyons que le point de censure, . $\min\{y_i,a\}$ $y_i$ $a$

Une façon de traiter des données comme celle-ci consiste à utiliser des variables latentes (et c'est essentiellement ce que vous proposez). Voici une façon de procéder:

\begin{aligned} y_{i} & = x_{i}^{'} β + ε_{i} \\ w_{i} & = min {y_{i}, a} \\ ε_{i} & \sim N (0, σ^{2}) i i d \end{aligned}

$\begin{align} y_i &= x_i'\beta+\varepsilon_i\\ w_i &= \min\{y_i, a\}\\ \varepsilon_i &\sim N(0,\sigma^2)\; \ {\rm iid} \end{align}$

Ensuite, vous pouvez analyser cela par maximum de vraisemblance. Les observations où la censure se produit contribuent à la fonction de vraisemblance et les observations où la censure ne se produit pas contribuent à la fonction de vraisemblance. Le CDF de la normale standard est et la densité de la normale standard est . Ainsi, la fonction de vraisemblance ressemble à: $P\{y_i>a\}=\Phi(\frac{1}{\sigma}x_i'\beta-a)$ $\frac{1}{\sigma}\phi((y_i-x_i'\beta)/\sigma)$ $\Phi$ $\phi$

\begin{aligned} L (β, σ) & = \prod_{i \in censored} Φ (\frac{1}{σ} x_{i}^{'} β - a) \prod_{i \notin censored} \frac{1}{σ} ϕ ((y_{i} - x_{i}^{'} β) / σ) \end{aligned}

$\begin{align} L(\beta,\sigma) &= \prod_{i\ \in\ \text{censored}} \Phi\left(\frac{1}{\sigma}x_i'\beta-a\right) \prod_{i\ \not\in\ \text{censored}} \frac{1}{\sigma}\phi\big((y_i-x_i'\beta)/\sigma\big) \end{align}$

Vous estimez la et en maximisant cela. Vous obtenez des erreurs standard comme les erreurs standard habituelles de probabilité maximale. $\beta$ $\sigma$

Comme vous pouvez l'imaginer, ce n'est qu'une approche parmi tant d'autres.

Facture
la source

+1 Un exemple fonctionnel de la solution ML apparaît sur stats.stackexchange.com/questions/49443 .

whuber

@whuber C'est une belle exposition.

Bill