Disons que le problème suivant nous est posé:
Prévoyez quels clients sont les plus susceptibles d'arrêter d'acheter dans notre boutique au cours des 3 prochains mois.
Pour chaque client, nous connaissons le mois où l'on a commencé à acheter dans notre boutique et, en outre, nous avons de nombreuses fonctionnalités comportementales dans les agrégats mensuels. Le client «le plus âgé» achète depuis cinquante mois; notons le temps écoulé depuis qu'un client a commencé à acheter par ( ). On peut supposer que le nombre de clients est très important. Si un client cesse d'acheter pendant trois mois, puis revient, il est alors traité comme un nouveau client, de sorte qu'un événement (arrêt d'achat) ne peut se produire qu'une seule fois.t ∈ [ 0 , 50 ]
Deux solutions me viennent à l'esprit:
Régression logistique - Pour chaque client et chaque mois (peut-être à l'exception des 3 derniers mois), nous pouvons dire si un client a cessé d'acheter ou non, afin que nous puissions faire des échantillons roulants avec une observation par client et par mois. Nous pouvons utiliser le nombre de mois depuis le début comme variable catégorielle pour obtenir un équivalent de la fonction de risque de base.
Modèle Cox étendu - Ce problème peut également être modélisé à l'aide du modèle Cox étendu. Il semble que ce problème soit plus adapté à l'analyse de survie.
Question: Quels sont les avantages de l'analyse de survie dans des problèmes similaires? L'analyse de survie a été inventée pour une raison quelconque, il doit donc y avoir un sérieux avantage.
Mes connaissances en analyse de survie ne sont pas très approfondies et je pense que la plupart des avantages potentiels du modèle de Cox peuvent également être obtenus en utilisant la régression logistique.
- L'équivalent du modèle de Cox stratifié peut être obtenu en utilisant une interaction de et de la variable de stratification.
- Le modèle de Cox d'interaction peut être obtenu en plongeant la population en plusieurs sous-populations et en estimant LR pour chaque sous-population.
Le seul avantage que je vois est que le modèle Cox est plus flexible; par exemple, nous pouvons facilement calculer la probabilité qu'un client cesse d'acheter en 6 mois.
coxph
et obtenir des estimations de risques sont raides et nombreuses.L'analyse de survie tient compte du fait que chaque client a son propre temps d'entrée dans l'étude. Le fait que la période de suivi varie selon les clients n'est donc pas un problème.
Remarque : voici un article qui montre que, sous certaines contraintes, le modèle logistique et le modèle de Cox sont liés.
la source
La littérature marketing suggère un Pareto / NBD ici ou similaire. Vous supposez essentiellement que l'achat - pendant qu'il achète - suit une distribution binomiale négative. Mais vous devez modéliser l'heure à laquelle le client s'arrête. C'est l'autre partie.
Pete Fader et Bruce Hardie ont quelques articles à ce sujet, avec Abe.
Il existe plusieurs approches plus simples du Pareto / NBD, même en comptant simplement les différents articles de Fader et Hardie. N'UTILISEZ PAS l'approche la plus simple dans laquelle on suppose que la probabilité d'arrêt est constante à chaque instant - cela signifie que vos clients plus lourds sont plus susceptibles d'abandonner plus tôt. C'est un modèle plus simple à monter, mais faux.
Je n'en ai pas adapté un depuis un moment; désolé d'être un peu non spécifique.
Voici une référence au document Abe, qui refond ce problème sous la forme d'un Bayes hiérarchique. . Si je travaillais à nouveau dans ce domaine, je pense que je testerais cette approche.
la source