Dans la construction d'un modèle de crédit, l'inférence de rejet est le processus consistant à inférer les performances des comptes de crédit qui ont été rejetés lors du processus de demande.
Lors de la construction d'un modèle de risque de crédit d'application, nous voulons construire un modèle qui a une applicabilité "à travers la porte ", c'est-à-dire que nous entrons toutes les données d'application dans le modèle de risque de crédit, et le modèle génère une cote de risque ou une probabilité par défaut. Le problème lors de l'utilisation de la régression pour créer un modèle à partir de données antérieures est que nous ne connaissons les performances du compte que pour les applications acceptées antérieures. Cependant, nous ne connaissons pas la performance des rejets, car après application, nous les avons renvoyés par la porte. Cela peut entraîner un biais de sélection dans notre modèle, car si nous n'utilisons que les «acceptations» passées dans notre modèle, le modèle risque de ne pas bien fonctionner sur la population «de passage».
Il existe de nombreuses façons de traiter l'inférence de rejet, toutes controversées. J'en mentionnerai deux simples ici.
- "Définir les rejets passés comme mauvais"
- Partage
«Définir les rejets passés comme étant mauvais» consiste simplement à prendre toutes les données d'application rejetées et au lieu de les supprimer lors de la création du modèle, attribuez-les toutes comme mauvaises. Cette méthode biaise fortement le modèle vers la politique d'acceptation / de rejet passée.
Le "colisage" est un peu plus sophistiqué. Cela consiste en
- Construire le modèle de régression avec le passé "accepte"
- Appliquer le modèle aux rejets passés pour leur attribuer des notes de risque
- En utilisant la probabilité de défaut attendue pour chaque cote de risque, attribuez les demandes rejetées comme bonnes ou mauvaises. Par exemple, si la cote de risque a une probabilité de défaut de 10% et que 100 demandes rejetées entrent dans cette cote de risque, affectez 10 des refus à "mauvais" et 90 des refus à "bon".
- Reconstruisez le modèle de régression en utilisant les applications acceptées et maintenant les performances inférées des applications rejetées
Il existe différentes façons de faire les affectations en bien ou en mal à l'étape 3, et ce processus peut également être appliqué de manière itérative.
Comme indiqué précédemment, l'utilisation de l'inférence de rejet est controversée, et il est difficile de donner une réponse simple sur la façon dont elle peut être utilisée pour augmenter la précision des modèles. J'en citerai simplement quelques autres à ce sujet.
Jonathan Crook et John Banasik, le rejet de l' inférence améliore-t - il vraiment les performances des modèles de notation des applications?
Premièrement, même lorsqu'une très forte proportion de candidats est rejetée, les possibilités d'amélioration sur un modèle paramétré uniquement sur ceux retenus semblent modestes. Lorsque le taux de rejet n'est pas si élevé, cette portée semble en effet très faible.
David Hand, «Direct Inference in Credit Operations», paru dans Handbook of Credit Scoring, 2001
Plusieurs méthodes ont été proposées et sont utilisées et, bien que certaines d'entre elles soient clairement médiocres et ne devraient jamais être recommandées, il n'existe pas de meilleure méthode unique d'application universelle à moins d'obtenir des informations supplémentaires. Autrement dit, la meilleure solution consiste à obtenir plus d'informations (peut-être en accordant des prêts à certains refus potentiels) sur les candidats qui se trouvent dans la région de rejet.
@GabyLP dans les commentaires précédents. D'après mon expérience, vous pouvez diviser ces clients en deux parties et attribuer des pondérations aux deux répartitions en fonction de la probabilité. Par exemple, si un client rejeté a 10% de PD, vous pouvez créer deux clients avec celui-ci. D'abord ayant la variable cible 1 et le poids 0,1 et ensuite ayant la variable cible 0 et le poids 0,9.
L'ensemble de l'échantillon accepté de clients aura un poids == 1.
Bien que cela fonctionne avec la régression logistique, cela ne fonctionne pas avec les modèles arborescents.
la source