Mesure de levage dans l'exploration de données

36

J'ai cherché de nombreux sites Web pour savoir ce que ferait exactement l'ascenseur? Les résultats que j'ai trouvés concernaient tous son utilisation dans des applications autres que celles-ci.

Je connais la fonction de support et de confiance. D'après Wikipédia, dans l'exploration de données, l'ascenseur est une mesure de la performance d'un modèle en matière de prévision ou de classification de cas, par rapport à un modèle à choix aléatoire. Mais comment? Le support de confiance * est la valeur de l'ascenseur J'ai aussi cherché d'autres formules, mais je ne comprends pas pourquoi les tableaux des ascenseurs sont importants pour l'exactitude des valeurs prédites. Je veux savoir quelle politique et quelle raison se cache derrière l'ascenseur?

Nickool
la source
2
Besoin de contexte ici. En marketing, il s’agirait d’un graphique indiquant l’augmentation en pourcentage des ventes attendue de diverses activités de marketing, mais vous avez probablement un contexte différent à l’esprit.
Zicycliste

Réponses:

59

Je vais donner un exemple de l'utilité de "lever" ...

Imaginez que vous dirigiez une campagne de publipostage où vous envoyez une offre à vos clients dans l’espoir qu’ils répondent. Les données historiques montrent que lorsque vous envoyez votre liste de clients complètement au hasard, environ 8% d’entre eux répondent au mailing (c’est-à-dire qu’ils entrent et achètent avec l’offre). Donc, si vous envoyez 1000 clients, vous pouvez vous attendre à 80 répondeurs.

À présent, vous décidez d’adapter un modèle de régression logistique à vos données d’historique afin de rechercher des modèles permettant de déterminer si un client est susceptible de répondre à un mailing. En utilisant le modèle de régression logistique, chaque client se voit attribuer une probabilité de réponse et vous pouvez évaluer l'exactitude car vous savez s'il a réellement répondu. Une fois que chaque client se voit attribuer sa probabilité, vous le hiérarchisez du client ayant obtenu le score le plus élevé au score. Ensuite, vous pouvez générer des graphiques "lift" comme ceux-ci:

entrez la description de l'image ici

Ignorer le graphique du haut pour le moment. Le graphique du bas indique qu'après avoir trié les clients en fonction de leur probabilité de réponse (de haut en bas), puis les avoir divisés en dix catégories identiques, le taux de réponse dans la catégorie 1 (les 10% de clients les plus importants) est de 29. % vs 8% de clients aléatoires, pour un ascenseur de 29/8 = 3,63. Au moment où nous arrivons à classer les clients dans la 4ème corbeille, nous avons capturé tellement des trois précédents que le taux de réponse est inférieur à celui auquel nous nous attendions en envoyant des personnes au hasard.

Cela montre que si nous utilisons les scores de probabilité sur les clients, nous pouvons obtenir 60% du nombre total de répondants que nous recevrions en envoyant des courriers au hasard en ne postant que les 30% de clients les plus notés. C'est-à-dire qu'en utilisant le modèle, nous pouvons obtenir 60% du bénéfice escompté pour 30% du coût du courrier en ne postant que les 30% de clients les plus performants, et c'est à cela que se réfère réellement l' ascenseur .

Josh Hemann
la source
Belle explication, merci beaucoup. Pourriez-vous me dire dans le tableau de bord pourquoi nous avons besoin d'un échantillon aléatoire? J'ai compris que 8% provient d'un hasard, mais pourquoi est-il nécessaire de tracer au hasard? J'ai vu un autre graphique qui trace la moyenne des valeurs et je ne connais pas la raison de l'existence de la moyenne non plus
Nickool
la chose que j’ai eu, c’est que lift = 3.63 indique que jusqu’à la colonne 4, nous obtenons de meilleurs taux de réponse que 8%, alors vous supposez simplement que la colonne 1 et 29% (30% dans l’estimation) vous avez considéré la colonne 1 alors quel ascenseur a fait avec 3.63?
Nickool
1
Oh mon Dieu! J'ai compris mon erreur, les 30% ne se rapportant pas aux 29% les 30% signifie 3/10 3 premières colonnes de données! Maintenant, j'ai complètement compris: je suis tellement heureuse !!!!! merci>: D <
Nickool
1
@nik: Disons qu'il en coûte 1 dollar en papier et en frais postaux pour envoyer un courrier à chaque client. Naïvement, nous pourrions dépenser 1 = 300 et nous attendons 48 clients. Ensuite, nous estimons le bénéfice probable de chaque client. Nous avons des clients dépenser plus de 300 clients de plus 48 parmi lesquels choisir dépend du profit par client. 1000mailingall1000customersandweexpect8300)thenweexpecttoget601000get80customersvsSpend
Josh Hemann
1
@ user1700890 Le graphique du haut est souvent appelé un graphique de gain cumulatif, alors que le graphique du bas n'est pas identique à un graphique de l'ascenseur cumulatif (où l'ascenseur ne peut jamais être inférieur à 1), mais divise les données en dix groupes distincts.
RobertF
3

Les graphiques de levage représentent le rapport entre la réponse d'un modèle et l'absence de ce modèle. En règle générale, cela est représenté par le pourcentage de cas dans le X et le nombre de fois que la réponse est meilleure dans le Y ax. Par exemple, un modèle avec lift = 2 au point 10% signifie:

  • Sans aucun modèle prenant 10% de la population (sans ordre car aucun modèle), la proportion de y = 1 serait de 10% de la population totale avec y = 1.

  • Avec le modèle, nous obtenons 2 fois cette proportion, c’est-à-dire que nous prévoyons d’atteindre 20% de la population totale avec y = 1.Le libellé du caractère X représente les données ordonnées par la prédiction. Le premier 10% est le top 10% des prévisions

un autre utilisateur
la source
3

L'ascenseur n'est rien d'autre que le rapport entre la confiance et la confiance attendue. Dans le domaine des règles d’association, "Un coefficient de portance supérieur à 1,0 implique que la relation entre l’antécédent et le conséquent est plus importante que ce à quoi on pourrait s’attendre si les deux ensembles étaient indépendants. Plus le ratio de portance est élevé, plus l’association est significative. " Par exemple-

si une base de données de supermarchés a 100 000 transactions au point de vente, dont 2 000 incluent les articles A et B, et 800 d'entre elles incluent le poste C, la règle d'association "Si A et B sont achetés, C est acheté sur le même voyage, "prend en charge 800 transactions (soit 0,8% = 800/100 000) et une confiance de 40% (= 800/2 000). Une façon de penser au support est qu'il est la probabilité qu'une transaction sélectionnée de manière aléatoire dans la base de données contienne tous les éléments de l'antécédent et les conséquences, alors que la confiance est la probabilité conditionnelle qu'une transaction sélectionnée de manière aléatoire inclue tous les éléments de la base de données. conséquent, étant donné que la transaction inclut tous les éléments de l’antécédent.

En utilisant l'exemple ci-dessus, la confiance attendue, dans ce cas, signifie "la confiance, si l'achat de A et B n'augmente pas la probabilité d'acheter C". C'est le nombre de transactions incluant les conséquences divisé par le nombre total de transactions. Supposons que le nombre total de transactions pour C soit 5 000. La confiance attendue est donc de 5 000 / 1,00 000 = 5%. Pour l'exemple du supermarché, Lift = Confiance / Confiance attendue = 40% / 5% = 8. Par conséquent, Lift est une valeur qui nous donne des informations sur l'augmentation de la probabilité de la partie alors (conséquente) étant donnée la partie if (antécédent). voici le lien vers l'article source

Arpit Sisodia
la source
2

L'ascenseur est juste une mesure pour mesurer l'importance de la règle

C'est une mesure pour vérifier si cette règle est dans la liste par hasard ou si nous nous attendons à

Ascenseur = confiance / confiance attendue

Abdul Wahab
la source
0

Supposons que nous prenons l'exemple d'une épicerie qui teste la validité d'une règle d'association qui a un antécédent et une conséquence (par exemple: "Si un client achète du pain, il achètera également du beurre").

Si vous examinez toutes les transactions et en examinez une au hasard, la probabilité que cette transaction contienne la conséquence est "Confiance attendue". Si vous examinez toutes les transactions qui contiennent l'antécédent et sélectionnez une transaction aléatoire, la probabilité que cette transaction contienne la conséquence est "Confiance". "Lift" est essentiellement la différence entre ces deux. Avec l'ascenseur, nous pouvons examiner la relation entre deux éléments qui ont une confiance élevée (si la confiance est basse, l'ascenseur est essentiellement sans importance).

S’ils ont une grande confiance et une faible portance, nous savons toujours que les articles sont fréquemment achetés ensemble mais nous ne savons pas si ce qui s’ensuit est dû à l’antécédent ou s’il s’agit simplement d’une coïncidence (peut-être qu’ils sont achetés ensemble souvent Les deux sont des produits très populaires, mais n’ont aucune relation entre eux).

Toutefois, si la confiance et l'élévation sont élevées, nous pouvons raisonnablement supposer que la conséquence est due à l'antécédent. Plus la portance est élevée, plus la probabilité que la relation entre les deux éléments ne soit qu'une coïncidence est faible. En termes mathématiques:

Ascenseur = confiance / confiance attendue

Dans notre exemple, si la confiance de notre règle était élevée et l’ascenseur faible, cela voudrait dire que beaucoup de clients achèteront du pain et du beurre, mais nous ne savons pas si cela est dû à une relation particulière entre pain et beurre ou si Le pain et le beurre ne sont que des articles prisés individuellement et le fait qu’ils apparaissent souvent ensemble dans des chariots d’épicerie n’est qu’une coïncidence. Si la confiance que nous accordons à notre règle est élevée et que l’ascenseur est élevé, cela indique une corrélation assez forte entre l’antécédent et le conséquent, ce qui signifie que nous pouvons raisonnablement supposer que les clients achètent du beurre en raison du fait qu’ils achètent du pain. Plus l'ascenseur est haut, plus nous pouvons avoir confiance dans cette association.

Andrew
la source