Modélisation du taux de désabonnement des clients - Apprentissage automatique par rapport aux modèles de danger / survie

9

Est-il rationnel (théorique, substantiel, statistique) d'opter pour l' apprentissage automatique ou les modèles de risque lors de la modélisation du taux de désabonnement des clients (ou plus généralement, des événements)?

majom
la source
1
Les deux - pourquoi pensez-vous qu'ils sont l'un ou l'autre?
EngrStudent
Voici un exemple d'apprentissage automatique et d'analyse de survie ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=1603631 ne peut être que plus. IIRC il y a eu un travail sur l'analyse de survie basée sur des données de puces à ADN en utilisant des approches de type apprentissage automatique (par exemple régularisation L1).
Dikran Marsupial
Le professeur Tibshirani est un excellent contre-exemple à l'idée "L'apprentissage automatique et les modèles de risque sont disjoints".
Cliff AB
3
Si, par modèle d'apprentissage automatique, vous définissez cela comme une prédiction binaire, je dirais que si vous avez beaucoup de données et une définition très claire, le désabonnement / votre requête est une requête binaire, alors le binaire est le chemin à parcourir. Ce n'est généralement pas le cas, alors vous voulez prédire un danger. Désolé si auto-promotion mais j'ai écrit cette pièce pour répondre à cette question que j'avais il y a un an. Vous pouvez également facilement faire des modèles de hasard un problème d'apprentissage automatique, c'est donc une sorte de fausse dichotomie, comme indiqué.
ragulpr

Réponses:

9

Je pense que votre question pourrait être mieux définie. La première distinction pour les modèles de désabonnement est entre la création

(1) un modèle binaire (ou multi-classes s'il existe plusieurs types de désabonnement) pour estimer la probabilité qu'un client se désabonne dans ou à partir d'un certain point futur (par exemple les 3 prochains mois)

(2) un modèle de type de survie créant une estimation du risque d'attrition à chaque période (disons chaque mois pour l'année suivante)

Lequel des deux est adapté à votre situation dépend de l'utilisation du modèle. Si vous voulez vraiment comprendre le risque d'attrition au fil du temps et peut-être comprendre comment les variables (éventuellement variables dans le temps) interagissent avec le temps, alors un modèle de survie est approprié. Pour de nombreux modèles de clients, je préfère utiliser des modèles d'aléa temporels discrets à cet effet car le temps est souvent discret dans les bases de données et l'estimation du danger est une probabilité de l'événement. La régression de Cox est un autre choix populaire mais le temps est traité comme continu (ou via l'ajustement pour les liens) mais le risque n'est techniquement pas une probabilité.

Pour la plupart des modèles de désabonnement, lorsqu'une entreprise souhaite cibler les x% de clients les plus à risque et que la base de données est notée à chaque lancement d'une campagne de ciblage, l'option binaire (ou multi-classes) est normalement ce qui est nécessaire.

Le deuxième choix consiste à estimer les modèles. Utilisez-vous un modèle statistique traditionnel tel que la régression logistique pour le modèle binaire (multi-classes) ou un algorithme d'apprentissage automatique (par exemple forêt aléatoire). Le choix est basé sur celui qui donne le modèle le plus précis et le niveau d'interprétabilité requis. Pour les modèles à aléas temporels discrets, une régression logistique est généralement utilisée avec des splines pour introduire des effets non linéaires du temps. Cela peut également être fait avec des réseaux de neurones et de nombreux autres types d'algorithmes ML car la configuration est simplement un apprentissage supervisé avec un ensemble de données "personne-période". De plus, la régression cox peut être adaptée aux algorithmes traditionnels comme SAS proc phreg ou R coxph (). L'algorithme d'apprentissage machine GBM adapte également la régression cox avec une fonction de perte sélectionnée. Comme cela a été mentionné,

B_Miner
la source
5
(+1) Bien que je pense que cela dépend de plus de choses que vous n'en mentionnez. La probabilité prédite de désabonnement dans les 3 mois peut être lue sur un modèle de survie, et s'il s'agit d'un bon modèle qui pourrait être une meilleure estimation que celle d'un modèle ajusté au résultat binaire du désabonnement après ou avant 3 mois.
Scortchi - Réintégrer Monica
1
Comment prédire une probabilité de désabonnement dans les trois mois en utilisant une forêt aléatoire, une régression logistique ou un modèle C5.0? Est-ce seulement possible?
Seanosapien
@Seanosapien, vous pouvez prendre votre jeu de données de désabonnement avec des informations sur le moment où chaque utilisateur a effectué un barattage, et pour chaque utilisateur attribuer 1 s'il a effectué un barattage avant 3 mois et 0 s'il n'a pas effectué de baratinage avant 3 mois. Ensuite, vous pouvez ajuster, par exemple, un modèle de régression logistique sur les données binaires et attribuer des probabilités aux nouveaux utilisateurs sur la base du modèle d'ajustement
Kdawg
@Kdawg Merci. J'ai réussi à trouver un moyen de concevoir un ensemble de données à modéliser en gardant à l'esprit.
Seanosapien
-2

Tout d'abord, je voudrais clarifier où exactement vous faites la distinction entre l'apprentissage automatique et les modèles de danger. D'après ma compréhension, la littérature ml fait la distinction entre les modèles paramétriques et non paramétriques (entre autres).

Et deuxièmement, pourquoi avez-vous besoin du modèle? Est-ce pour la recherche scientifique ou autre chose? En tout état de cause, le choix du modèle approprié pour décrire vos données dépend tout d'abord de la raison pour laquelle vous avez besoin du modèle.

Pour votre question: Cela dépend de ce que vous savez sur le processus de génération de données.

Si, par exemple, vous prenez le fameux lancer de pièce ou le dé, vous avez une très bonne idée du processus qui génère le résultat attendu d'une expérience.

Dans ce cas, vous voulez vraiment utiliser une estimation paramétrique (bayésienne ou fréquentiste) car elle vous donnera une très bonne estimation du paramètre inconnu. De plus, ces modèles sont très bien compris, ce qui présente de nombreux avantages.

Si vous ne connaissez pas le processus de génération de données, ou si vous n'en êtes pas sûr, vous n'avez pas vraiment le choix, vous devrez estimer les paramètres qui décrivent les données à partir des données elles-mêmes. Si vous décidez pour une telle approche, vous devez accepter que ces modèles présentent des inconvénients (selon le modèle spécifique, etc.)

D'après ma compréhension, moins vous en savez sur un processus, plus vous aurez besoin d'estimer à partir des données elles-mêmes, qui auront certainement un prix.

Vincent
la source