J'essaie donc de mieux comprendre les graphiques Lift and Gain tels qu'ils s'appliquent à mon modèle de rotation des employés (c'est-à-dire utilisé CHAID dans SPSS Modeler). Pour mes données, cela signifie prévoir le nombre de personnes qui quittent volontairement l'entreprise.
J'ai examiné les références ci-dessous et j'ai les bases concernant l'interprétation: ce qui est tracé sur les axes x et y et la courbe idéale que vous recherchez. J'ai même pratiqué la construction de mes propres graphiques de gains et d'ascenseurs dans Excel.
Mais tous les exemples que j'ai vus jusqu'à présent concernent une campagne de publipostage. Maintenant, je veux savoir ce que cela signifie pour mes données. Cela signifie-t-il simplement, dans le cas du graphique des gains, que si j'échantillonne les 10% supérieurs de mes données, je peux m'attendre à 40% des termes par rapport à l'échantillonnage des 60% supérieurs des 80% de mes données? (veuillez supposer que les valeurs de 40% et 60% sont les valeurs). Si oui, quelle importance devrais-je retirer de cela parce que je ne comprends vraiment pas dans le contexte de mon modèle de chiffre d'affaires?
Références:
ascenseur-mesure-dans-l'exploration de données
qu'est-ce-qu'un-ascenseur-graphique
http://www2.cs.uregina.ca/~dbd/cs831/notes/lift_chart/lift_chart.html
la source
Réponses:
Parfois, cela aide à imaginer l'objectif d'une telle analyse et ce qu'une entreprise peut faire sans. Supposons que l'entreprise à laquelle appartiennent les données de chiffre d'affaires veuille faire quelque chose contre un taux de roulement (éventuellement) élevé. Je peux imaginer deux actions possibles
Alors, pourquoi est-ce important?
Les diagrammes de portance sont principalement importants pour le deuxième cas d'utilisation. Imaginez ce qu'une entreprise peut faire lorsqu'elle a décidé d'investir de l'argent en parlant aux employés 1 à 1 mais qu'elle n'a pas de modèle? La seule option est de parler à tout le monde ou à tout le monde dans un échantillon aléatoire d'une taille fixe. Parler à tout le monde, malgré le gain d'identifier tous les départs potentiels, est beaucoup trop cher. Mais lorsque seul un échantillon aléatoire est sélectionné pour parler, seule une fraction de tous les départs potentiels est identifiée tout en dépensant encore beaucoup d'argent. Dans les deux cas, le rapport coût-par-congé-prévention est assez élevé.
Mais quand un bon modèle existe, l'entreprise peut décider de ne parler qu'à ceux qui ont la plus forte probabilité de partir (ceux qui ont les meilleurs scores selon le modèle), afin que plus de départs potentiels soient identifiés, optimisant ainsi le coût par -leave-prevention .
Jetez un œil aux deux premiers tableaux ici: http://www2.cs.uregina.ca/~dbd/cs831/notes/lift_chart/lift_chart.html . Disons que «clients» = «employés» et «répondants positifs» = «départs potentiels» (voir les données ci-dessous).
Si l'entreprise décide qu'elle ne peut dépenser que suffisamment d'argent pour parler à 10 000 employés, elle identifiera
ce qui signifie
L'axe des X dans les deux cas montre le pourcentage d'employés contactés, dans cet exemple spécifique 10%.
annexe
Données utilisées pour rendre cette question indépendante de la pourriture des liens.
Taux global
Efficacité du modèle lorsque les employés sont contactés par tranches de 10 000
la source