Toutes mes excuses à l'avance si l'une des terminologies que j'utilise est incorrecte. J'accueillerais toute correction. Si ce que je décris comme une «coupure» porte un nom différent, faites-le moi savoir et je pourrai mettre à jour la question.
La situation qui m'intéresse est la suivante: vous avez des variables indépendantes et une seule variable dépendante . Je vais laisser les choses vagues, mais supposons qu'il serait relativement simple d'obtenir un bon modèle de régression pour ces variables. y
Cependant, le modèle que vous souhaitez créer concerne les variables indépendantes et la variable dépendante , où est une valeur fixe dans la plage de . De même, les données auxquelles vous avez accès n'incluent pas , seulement .
Un exemple (quelque peu irréaliste) serait si vous essayez de modéliser le nombre d'années pendant lesquelles les gens toucheront leur pension. Dans ce cas, pourrait être des informations pertinentes telles que le sexe, le poids, les heures d'exercice par semaine, etc. La variable «sous-jacente» serait l'espérance de vie. Cependant, la variable à laquelle vous auriez accès et que vous essayez de prédire dans votre modèle serait où r est l'âge de la retraite (en supposant, pour des raisons de simplicité, qu'il est fixe).
Existe-t-il une bonne approche pour gérer cela dans la modélisation de régression?
la source
Réponses:
Ce type de modèle porte plusieurs noms, selon la discipline et le domaine. Les noms communs sont Variables dépendantes censurées, Variables dépendantes tronquées, Variables dépendantes limitées, Analyse de survie, Tobit et Régression censurée. Je laisse probablement de côté plusieurs autres noms.
La configuration que vous suggérez où est observé est appelée "censure à droite", car les valeurs de trop à droite sur la ligne réelle sont censurées --- et à la place, nous ne voyons que le point de censure, .min{yi,a} yi a
Une façon de traiter des données comme celle-ci consiste à utiliser des variables latentes (et c'est essentiellement ce que vous proposez). Voici une façon de procéder:
Ensuite, vous pouvez analyser cela par maximum de vraisemblance. Les observations où la censure se produit contribuent à la fonction de vraisemblance et les observations où la censure ne se produit pas contribuent à la fonction de vraisemblance. Le CDF de la normale standard est et la densité de la normale standard est . Ainsi, la fonction de vraisemblance ressemble à:P{yi>a}=Φ(1σx′iβ−a) 1σϕ((yi−x′iβ)/σ) Φ ϕ
Vous estimez la et en maximisant cela. Vous obtenez des erreurs standard comme les erreurs standard habituelles de probabilité maximale.β σ
Comme vous pouvez l'imaginer, ce n'est qu'une approche parmi tant d'autres.
la source