Meilleure façon de combiner une réponse binaire et continue

10

J'essaie de trouver la meilleure façon de prédire le montant du paiement pour une agence de recouvrement. La variable dépendante n'est non nulle que lorsqu'un paiement a été effectué. Naturellement, il y a un nombre écrasant de zéros parce que la plupart des gens ne peuvent pas être joints ou ne peuvent pas rembourser la dette.

Il existe également une très forte corrélation négative entre le montant de la dette et la probabilité d'effectuer un paiement. En règle générale, je créerais un modèle logistique pour prédire la probabilité de rémunération / non-rémunération, mais cela a la conséquence malheureuse de trouver les personnes ayant les soldes les plus bas.

Existe-t-il un moyen de combiner un modèle logistique pay / non-pay avec un modèle distinct prédisant le montant du paiement?

Zelazny7
la source
5
Il existe une régression log-normale zéro gonflée, qui semble correspondre à vos besoins. Voir cet article
Peter Flom - Réintégrer Monica
@PeterFlom comment pensez-vous que cela se compare à la discussion de gui11aume et steffen sur un modèle en deux étapes et un biais de sélection d'échantillon?
As3adTintin
1
Je pense que les deux peuvent être utiles. Il y a eu une discussion pour comparer les deux, mais j'oublie où je l'ai lu.
Peter Flom - Réintègre Monica
J'ai fini par créer un réseau neuronal avec une activation relu pour la sortie et une perte logarithmique quadratique moyenne
Zelazny7
OK merci. l'activation du réseau neuronal / relu dépasse mes connaissances actuelles, mais je continuerai à les examiner. merci d'avoir posé la question d'origine et pour les commentaires!
As3adTintin

Réponses:

6

L'idée de créer un modèle en deux étapes est la bonne voie à suivre, mais il faut tenir compte de la difficulté particulière de votre configuration, qui est la très forte corrélation négative entre le montant de la dette et la probabilité d'effectuer un paiement.

Le principal problème de la construction d'un modèle en deux étapes ici est que le deuxième modèle (pour la prédiction de la dette), lorsqu'il est construit uniquement sur les "non-zéros", est construit sur un échantillon non aléatoire très probable de la population ( c'est-à-dire l'ensemble des données), mais le modèle combiné doit être appliqué à nouveau sur l' ensemble de la population. Cela signifie que le deuxième modèle devra faire des prédictions pour des parties des données qu'il n'a jamais vues auparavant, ce qui entraînera une perte de précision. C'est ce qu'on appelle un échantillon de biais de sélection (pour un aperçu du point de vue du ML, je recommande A Bayesian Network Framework for Reject Inference par Smith et Elkan).

La KDD-Cup-98 a traité d'un problème similaire où l'on devrait prédire si un donateur pour une organisation d'anciens combattants est susceptible de faire un nouveau don et combien il est susceptible de faire un don. Dans cet ensemble de données, la probabilité de donner à nouveau était également corrélée négativement avec le montant d'argent attendu. Le biais de sélection des échantillons est également apparu.

La solution qui m'a le plus impressionné se trouve dans Apprendre et prendre des décisions lorsque les coûts et les probabilités sont tous deux inconnus par Bianca Zadrozny et Charles Elkan. Ils ont créé une solution sensible aux coûts basée sur la correction de Heckman , qui est à ma connaissance la première approche systématique pour corriger le biais de sélection (échantillon).

steffen
la source
+1 Votre deuxième paragraphe met très bien en évidence quelque chose qui manque dans ma réponse.
gui11aume
Comment cela se compare-t-il avec la suggestion de Peter Flom d'une régression log-normale gonflée zéro?
As3adTintin
3

C'est une très belle question (+1).

Pourquoi ne pas traiter les 0 comme s'ils étaient des AN?

Vous pouvez ajouter une réponse fictive indiquant si de l'argent a été récupéré ( c'est- à- dire égal à 0 lorsque la valeur est 0 et 1 lorsque la valeur est positive) et ajuster un modèle logistique sur cette réponse binaire avec les mêmes prédicteurs. Vous correspondriez à 2 modèles: la réponse binaire utilisant tous les points de données et la réponse continue utilisant uniquement les points de données non zéroniques (conformément à l'idée de traiter 0 comme NA).

Vous pouvez toujours tester la nullité des paramètres dans chaque modèle et calculer le gain attendu en utilisant les deux ensembles de paramètres.

gui11aume
la source
Merci pour la suggestion. Avant ma question, j'avais créé deux variables et ensembles de données dépendants similaires à ce que vous décrivez. Pouvez-vous nous expliquer ce que vous entendez par "toujours la nullité des paramètres"? Merci!
Zelazny7
"Toujours la nullité des paramètres" était une faute de frappe que j'ai corrigée dans le texte. Désolé à ce sujet :-)
gui11aume