Prédisez le meilleur moment de l'appel

10

J'ai un ensemble de données comprenant un ensemble de clients dans différentes villes de Californie, l'heure de l'appel pour chaque client et le statut de l'appel (Vrai si le client répond à l'appel et Faux si le client ne répond pas).

Je dois trouver un moment approprié pour appeler de futurs clients de telle sorte que la probabilité de répondre à l'appel soit élevée. Alors, quelle est la meilleure stratégie pour ce problème? Dois-je le considérer comme un problème de classification dont les heures (0,1,2, ... 23) sont les classes? Ou devrais-je le considérer comme une tâche de régression dont le temps est une variable continue? Comment puis-je m'assurer que la probabilité de répondre à l'appel sera élevée?

Toute aide serait appréciée. Ce serait également formidable si vous me référez à des problèmes similaires.

Voici un aperçu des données.

Hamid Mahdavian
la source
Sean Owen, comment s'est passée la tâche? J'essaie maintenant de résoudre un problème similaire et j'aimerais entendre votre expérience - pas beaucoup de ressources sur ce sujet sur le Web. Merci d'avance!
Dominika

Réponses:

5

Vous pouvez réellement rencontrer des problèmes si vous modélisez cela comme un problème de régression sans transformation appropriée. Par exemple, nous savons que la plupart des appels reçoivent probablement une réponse pendant la journée et moins pendant la nuit et tôt le matin. Une régression linéaire aurait des difficultés car la relation est probablement curviligne, pas linéaire. Pour la même raison, traiter cela comme une tâche de classification avec régression logistique serait également problématique.

Comme suggéré par d'autres répondants, reclassifier vos données en périodes de temps vous aidera, et je vous suggère d'essayer d'abord quelque chose comme un arbre de décision ou une forêt aléatoire.

Cela dit, cela pourrait être le cas pour de simples statistiques descriptives. Si vous tracez la proportion des appels répondus par heure de la journée (divisée par ville ou toute autre démographie), y a-t-il un meilleur temps clair ? Si oui, pourquoi compliquer les choses avec un modèle?

HEITZ
la source
1

Vous pouvez essayer ce qui suit:

  1. Divisez la journée en différentes parties - tôt le matin, matin, midi, après-midi, soir, fin de soirée, nuit, etc.
  2. Attribuez des limites de temps à chaque partie de la journée, par exemple midi pourrait être 12 heures-13 heures.
  3. Créez 3 nouvelles étiquettes - "une partie de la journée pour appeler le client", pour chaque cas positif (état de l'appel = vrai) attribuez-lui l'étiquette correspondante (matin / midi / soir). Ces étiquettes seront au format codé à chaud, par exemple prefer_morning = 0/1, prefer_noon, prefer_evening, etc.
  4. Construisez 3 modèles pour prédire si le chef de file préfère le matin / midi / ou le soir pour un appel réussi.

De plus, je recommande d'ajouter des fonctionnalités supplémentaires telles que la profession, le sexe, etc., car les fonctionnalités répertoriées dans le tableau (ville, etc.) sont trop ambiguës et ne donnent pas beaucoup d'informations pour différencier les clients.

MODIFIÉ selon la suggestion dans les commentaires:

Lors de l'utilisation du modèle, chaque prospect serait classé comme prefers_morning = yes / no, prefers_noon = yes / no et prefers_evening = yes / no. En fonction de l'heure de la journée, par exemple le matin, l'agent du centre d'appels (ou le logiciel) peut décrocher et appeler les prospects classés dans l'ensemble de préférences du matin. À midi, le logiciel d'appel reprend la liste des préférences de midi, et ainsi de suite.

Sandeep S. Sandhu
la source
@ sandeep-s-sandhu Il s'agit d'un moyen simple de convertir le problème en un problème de classification de la science des données. Mais il semble que cette approche puisse présenter certains inconvénients: 1. les informations d'étiquette incluent uniquement le cas positif, la perte des informations du cas négatif 2. Un client ne peut avoir qu'une seule des étiquettes. En pratique, un client peut avoir plus d'une étiquette (c'est-à-dire que je préfère que les gens m'appellent tard le soir ou la nuit). Qu'est-ce que tu penses?
nkhuyu
@nkhuyu, 1) l'étiquette comprend également un cas négatif. Je pense que vous avez mal compris la phrase "Créer une nouvelle étiquette -" une partie de la journée pour appeler le client ", pour chaque cas positif (état de l'appel = vrai)". Cette étape vise à créer une étiquette supplémentaire, l'étiquette d'origine indiquant si l'appel a réussi ou non reste telle quelle. 2) Oui, vous avez raison, avez modifié la réponse pour refléter cela.
Sandeep S. Sandhu
@ sandeep-s-sabdhu Merci pour la réponse. Oui, je l'ai mal compris. D'ACCORD. Ensuite, vous aurez deux étiquettes (état de l'appel, votre nouvelle étiquette). Alors, comment pouvez-vous résoudre ce problème? Ce n'est pas un problème de classement régulier.
nkhuyu
@nkhuyu, merci d'avoir noté cela, j'ai maintenant modifié et clarifié cela à l'étape # 4. Chacun des trois modèles fournira un ensemble de prospects qui choisiront l'appel pour cette heure particulière de la journée, le centre d'appels l'utilise pour hiérarchiser leurs appels.
Sandeep S. Sandhu
1
L'étape 1 est suivie de l'étape 3 et je les ai suggérées pour créer des étiquettes appropriées pour la formation. La question principale était - "Je dois trouver un moment approprié pour appeler ...". C'est à l'OP de décider si ceux-ci doivent être matin / midi / soir ou plus granuleux, par exemple à l'heure.
Sandeep S. Sandhu
0

J'utiliserais une régression logistique - vous allez avoir besoin d'échantillons là où ils n'ont pas été récupérés. Ensuite, je traiterais l'heure comme un régresseur fictif saisonnier (23 heures comme variables fictives et je laisserais couler vers l'interception).

Si vous ne le traitez pas comme un régresseur factice saisonnier, vous devrez effectuer une sorte de transformation, car la relation ne sera pas linéaire.

Quelqu'un a précédemment suggéré de remplacer le milieu de l'après-midi, etc. en tant que variable catégorielle. C'est une mauvaise idée car vous avez le détail et vous perdez des détails là-bas. Cela aurait un effet similaire à l'utilisation du binning optimal pour rendre la relation linéaire, mais je ne pense toujours pas que cela fonctionnerait. Essayez les régresseurs factices saisonniers.

Michael Corley MBA LSSBB
la source