J'essaie de trouver la meilleure façon de prédire le montant du paiement pour une agence de recouvrement. La variable dépendante n'est non nulle que lorsqu'un paiement a été effectué. Naturellement, il y a un nombre écrasant de zéros parce que la plupart des gens ne peuvent pas être joints ou ne peuvent pas rembourser la dette.
Il existe également une très forte corrélation négative entre le montant de la dette et la probabilité d'effectuer un paiement. En règle générale, je créerais un modèle logistique pour prédire la probabilité de rémunération / non-rémunération, mais cela a la conséquence malheureuse de trouver les personnes ayant les soldes les plus bas.
Existe-t-il un moyen de combiner un modèle logistique pay / non-pay avec un modèle distinct prédisant le montant du paiement?
la source
Réponses:
L'idée de créer un modèle en deux étapes est la bonne voie à suivre, mais il faut tenir compte de la difficulté particulière de votre configuration, qui est la très forte corrélation négative entre le montant de la dette et la probabilité d'effectuer un paiement.
Le principal problème de la construction d'un modèle en deux étapes ici est que le deuxième modèle (pour la prédiction de la dette), lorsqu'il est construit uniquement sur les "non-zéros", est construit sur un échantillon non aléatoire très probable de la population ( c'est-à-dire l'ensemble des données), mais le modèle combiné doit être appliqué à nouveau sur l' ensemble de la population. Cela signifie que le deuxième modèle devra faire des prédictions pour des parties des données qu'il n'a jamais vues auparavant, ce qui entraînera une perte de précision. C'est ce qu'on appelle un échantillon de biais de sélection (pour un aperçu du point de vue du ML, je recommande A Bayesian Network Framework for Reject Inference par Smith et Elkan).
La KDD-Cup-98 a traité d'un problème similaire où l'on devrait prédire si un donateur pour une organisation d'anciens combattants est susceptible de faire un nouveau don et combien il est susceptible de faire un don. Dans cet ensemble de données, la probabilité de donner à nouveau était également corrélée négativement avec le montant d'argent attendu. Le biais de sélection des échantillons est également apparu.
La solution qui m'a le plus impressionné se trouve dans Apprendre et prendre des décisions lorsque les coûts et les probabilités sont tous deux inconnus par Bianca Zadrozny et Charles Elkan. Ils ont créé une solution sensible aux coûts basée sur la correction de Heckman , qui est à ma connaissance la première approche systématique pour corriger le biais de sélection (échantillon).
la source
C'est une très belle question (+1).
Pourquoi ne pas traiter les 0 comme s'ils étaient des AN?
Vous pouvez ajouter une réponse fictive indiquant si de l'argent a été récupéré ( c'est- à- dire égal à 0 lorsque la valeur est 0 et 1 lorsque la valeur est positive) et ajuster un modèle logistique sur cette réponse binaire avec les mêmes prédicteurs. Vous correspondriez à 2 modèles: la réponse binaire utilisant tous les points de données et la réponse continue utilisant uniquement les points de données non zéroniques (conformément à l'idée de traiter 0 comme NA).
Vous pouvez toujours tester la nullité des paramètres dans chaque modèle et calculer le gain attendu en utilisant les deux ensembles de paramètres.
la source