J'ai un ensemble de données comprenant un ensemble de clients dans différentes villes de Californie, l'heure de l'appel pour chaque client et le statut de l'appel (Vrai si le client répond à l'appel et Faux si le client ne répond pas).
Je dois trouver un moment approprié pour appeler de futurs clients de telle sorte que la probabilité de répondre à l'appel soit élevée. Alors, quelle est la meilleure stratégie pour ce problème? Dois-je le considérer comme un problème de classification dont les heures (0,1,2, ... 23) sont les classes? Ou devrais-je le considérer comme une tâche de régression dont le temps est une variable continue? Comment puis-je m'assurer que la probabilité de répondre à l'appel sera élevée?
Toute aide serait appréciée. Ce serait également formidable si vous me référez à des problèmes similaires.
Voici un aperçu des données.
la source
Réponses:
Vous pouvez réellement rencontrer des problèmes si vous modélisez cela comme un problème de régression sans transformation appropriée. Par exemple, nous savons que la plupart des appels reçoivent probablement une réponse pendant la journée et moins pendant la nuit et tôt le matin. Une régression linéaire aurait des difficultés car la relation est probablement curviligne, pas linéaire. Pour la même raison, traiter cela comme une tâche de classification avec régression logistique serait également problématique.
Comme suggéré par d'autres répondants, reclassifier vos données en périodes de temps vous aidera, et je vous suggère d'essayer d'abord quelque chose comme un arbre de décision ou une forêt aléatoire.
Cela dit, cela pourrait être le cas pour de simples statistiques descriptives. Si vous tracez la proportion des appels répondus par heure de la journée (divisée par ville ou toute autre démographie), y a-t-il un meilleur temps clair ? Si oui, pourquoi compliquer les choses avec un modèle?
la source
Vous pouvez essayer ce qui suit:
De plus, je recommande d'ajouter des fonctionnalités supplémentaires telles que la profession, le sexe, etc., car les fonctionnalités répertoriées dans le tableau (ville, etc.) sont trop ambiguës et ne donnent pas beaucoup d'informations pour différencier les clients.
MODIFIÉ selon la suggestion dans les commentaires:
Lors de l'utilisation du modèle, chaque prospect serait classé comme prefers_morning = yes / no, prefers_noon = yes / no et prefers_evening = yes / no. En fonction de l'heure de la journée, par exemple le matin, l'agent du centre d'appels (ou le logiciel) peut décrocher et appeler les prospects classés dans l'ensemble de préférences du matin. À midi, le logiciel d'appel reprend la liste des préférences de midi, et ainsi de suite.
la source
J'utiliserais une régression logistique - vous allez avoir besoin d'échantillons là où ils n'ont pas été récupérés. Ensuite, je traiterais l'heure comme un régresseur fictif saisonnier (23 heures comme variables fictives et je laisserais couler vers l'interception).
Si vous ne le traitez pas comme un régresseur factice saisonnier, vous devrez effectuer une sorte de transformation, car la relation ne sera pas linéaire.
Quelqu'un a précédemment suggéré de remplacer le milieu de l'après-midi, etc. en tant que variable catégorielle. C'est une mauvaise idée car vous avez le détail et vous perdez des détails là-bas. Cela aurait un effet similaire à l'utilisation du binning optimal pour rendre la relation linéaire, mais je ne pense toujours pas que cela fonctionnerait. Essayez les régresseurs factices saisonniers.
la source