Intégration de variables explicatives plus détaillées dans le temps

9

J'essaie de comprendre comment je pourrais mieux modéliser une variable où, au fil du temps, j'ai obtenu des prédicteurs de plus en plus détaillés. Par exemple, envisagez de modéliser les taux de recouvrement des prêts en défaut. Supposons que nous ayons un ensemble de données avec 20 ans de données, et au cours des 15 premières de ces années, nous savons seulement si le prêt a été garanti ou non, mais rien sur les caractéristiques de cette garantie. Au cours des cinq dernières années, cependant, nous pouvons diviser la garantie en une série de catégories qui devraient être un bon prédicteur du taux de récupération.

Compte tenu de cette configuration, je souhaite adapter un modèle aux données, déterminer des mesures telles que la signification statistique des prédicteurs, puis prévoir avec le modèle.

Dans quel cadre de données manquantes cela s'inscrit-il? Y a-t-il des considérations particulières liées au fait que les variables explicatives plus détaillées ne deviennent disponibles qu'après un moment donné, au lieu d'être dispersées dans l'échantillon historique?

Abiel
la source

Réponses:

1

D'accord, d'après l'expérience acquise dans l'utilisation des données historiques, un historique plus long peut améliorer l'ajustement de la régression, mais si la prévision est le point de l'exercice, la réponse générale doit être avertie. Dans le cas où les données reflètent des périodes pour lesquelles le «monde» était très différent, la stabilité des corrélations est discutable. Cela se produit surtout en économie où les marchés et les réglementations sont en constante évolution.

Cela vaut également pour le marché immobilier qui, en outre, peut avoir un cycle long. L'invention des titres adossés à des créances hypothécaires, par exemple, a transformé le marché hypothécaire et ouvert les portes de l'initiation des créances hypothécaires, mais aussi, malheureusement, de la spéculation (il y avait en fait toute une classe de prêts sans papiers ou à faible taux appelés prêts liers).

Les méthodes qui testent les changements de régime peuvent être particulièrement utiles pour décider de manière non subjective quand exclure l'histoire.

AJKOER
la source
1

En règle générale, cela peut être considéré comme un problème de valeur de paramètre borné. Si je comprends bien votre question, vous avez un paramètre moins informatif (garantie de qualité inconnue [Cu]) au début de vos données et plus informatif (garantie avec une qualité [Ch], moyenne [Cm] ou [Cl] faible) dans votre données ultérieures.

Si vous pensez que les paramètres non observés du modèle ne changent pas avec le temps, alors la méthode peut être simple où vous supposez que les estimations ponctuelles de chacun sont Cl <Cm <Ch et Cl <= Cu <= Ch. La logique est que Cl est le pire et Ch est le meilleur, donc quand les données sont inconnues, elles doivent être entre ou égales à celles-ci. Si vous êtes disposé à être légèrement restrictif et à supposer que toutes les garanties n'étaient pas de qualité élevée ou faible au cours des 15 premières années, vous pouvez supposer que Cl <Cu <Ch, ce qui le rend beaucoup plus simple à estimer.

Cl=exp(β1)Cm=exp(β1)+exp(β2)Cu=exp(β1)+exp(β3)1+exp(-β4)Ch=exp(β1)+exp(β2)+exp(β3)

Lorsque la fonction logit dans Cu restreint la valeur entre Cl et Ch sans la restreindre par rapport à Cm. (D'autres fonctions délimitant entre 0 et 1 peuvent également être utilisées.)

Une autre différence dans le modèle devrait être que la variance doit être structurée de sorte que la variance résiduelle dépende de la période de temps car les informations à l'intérieur de chaque période sont différentes.

Bill Denney
la source