J'ai un ensemble de données. Dites observations et variables:
obs A B C
1 0 0 1
2 0 1 0
3 1 0 1
4 1 1 0
5 1 0 1
6 1 0 0
7 1 1 0
8 0 0 1
9 0 1 1
10 0 1 1
Disons que clients ont acheté ( ) ou non ( ) dans chaque catégorie . Il y en a donc ces clients achètent en moyenne catégorie de produits.1
0
A, B, C
Notez que les clients peuvent acheter plus d'un A, B et C.
Si je ne regarde que ceux qui achètent A
, il y a clients qui ont acheté dans catégories de produits, soit en moyenne.
B
est à nouveau , ou .
C
est
Tous supérieurs à
ce qui semble étrange. Je le comprends, mais je dois expliquer cela au marketing la semaine prochaine et j'ai donc besoin d'aide!
Comment s'appelle cette chose?
Je sais que ce n'est pas le paradoxe de Simpson. Pour moi, cela ressemble en logique au problème de Monty Hall et à la probabilité conditionnelle.
proportion
descriptive-statistics
paradox
James Adams
la source
la source
Réponses:
La moyenne de chaque sous-catégorie peut être supérieure à la moyenne globale si les sous-catégories se chevauchent sur les gros clients.
Exemple simple pour gagner en intuition:
L'ensemble d'individus où est vrai chevauche l'ensemble d'individus où B est vrai. Ce ne sont PAS des ensembles disjoints.A B
Alors tandis que E [ X ∣ A ] = 1,5 et E [ X ∣ B ] = 1,5E[X]≈1.33 E[X∣A]=1.5 E[X∣B]=1.5
La déclaration qui serait vraie est:
Vous ne pouvez pas simplement calculer parce que les ensembles A et B se chevauchent, l'expression compte deux fois la personne qui achète les articles A et B !P(A)E[X∣A]+P(B)E[X∣B] A B A B
Nom pour illusion / paradoxe?
Je dirais que c'est lié au paradoxe de l' illusion majoritaire dans les réseaux sociaux.
Vous pouvez avoir un seul mec qui met en réseau / amis tout le monde. Cette personne peut être un sur un million dans l'ensemble, mais elle sera l'un des amis de chaque personne .k
De même, 1 acheteur sur 3 achète ici les catégories A et B. Mais dans la catégorie A ou B, 1 acheteur sur 2 est le super acheteur.
Cas extrême:
Créons ensembles de tickets de loto. Chaque set S i comprend deux tickets: un ticket perdant i et le ticket gagnant du jackpot.n Si i
Les gains moyens dans chaque ensemble sont alors JSi oùJest le jackpot. La moyenne de chaque catégorie estFAÇONdessus des gains moyens par billet globalJJ2 J .Jn+1
C'est la même dynamique conceptuelle que le cas de vente. Chaque set comprend le ticket jackpot de la même manière que chaque catégorie A, B ou C comprend les gros acheteurs.Si
Mon point de fond serait que l'intuition basée sur des ensembles disjoints , une partition complète de l'espace d'échantillonnage ne se répercute pas sur une série d' ensembles qui se chevauchent . Si vous conditionnez le chevauchement des catégories, chaque catégorie peut être supérieure à la moyenne.
Si vous partitionnez l'espace d'échantillonnage et la condition sur des ensembles disjoints, les catégories doivent être en moyenne à la moyenne globale, mais ce n'est pas vrai pour les ensembles qui se chevauchent.
la source
J'appellerais cela le paradoxe de la taille de la famille ou quelque chose de similaire
Supposons, pour un exemple simple, que tout le monde ait un partenaire et un nombre d'enfants distribués par Poisson avec le paramètre :2
Les vrais chiffres démographiques et d'enquête produisent des chiffres différents mais des schémas similaires
Le paradoxe apparent est que la taille moyenne des groupes de frères et sœurs des individus est supérieure au nombre moyen d'enfants par famille; avec une dynamique de population stable, les gens ont tendance à avoir moins d'enfants en moyenne que leurs parents
L'explication est de savoir si la moyenne est prise en charge par les parents et les familles ou par les frères et sœurs: il existe différentes pondérations appliquées aux familles nombreuses. Dans votre exemple, il existe une différence entre la pondération par les individus ou par les achats; vos moyennes conditionnelles sont poussées vers le haut par le fait que vous conditionnez qu'un achat particulier soit effectué.
la source
Les autres réponses réfléchissent trop à ce qui se passe. Supposons qu'il y ait un produit et deux clients. L'un a acheté le produit (une fois) et l'autre non. Le nombre moyen de produits achetés est de 0,5, mais si vous ne regardez que le client qui a acheté le produit, la moyenne monte à 1.
Cela ne me semble ni paradoxal ni contre-intuitif; conditionner l'achat d'un produit augmentera généralement le nombre moyen de produits achetés.
la source
N'est-ce pas simplement la confusion de la "moyenne des moyennes" (par exemple, précédente question d'échange de pile ) déguisée? Votre tentation semble être que les moyennes des sous-échantillons devraient finir par atteindre la moyenne de la population, mais cela se produira rarement.
Dans la "moyenne des moyennes" classique, quelqu'un trouve la moyenne de N sous-ensembles mutuellement exclusifs, puis est sidéré que ces valeurs ne correspondent pas à la moyenne de la population. La seule façon de calculer cette moyenne est de savoir si vos sous-ensembles non chevauchants ont la même taille. Sinon, vous devez prendre une moyenne pondérée.
Votre problème est rendu plus complexe que cette moyenne traditionnelle de confusion de moyennes en ayant des sous-ensembles qui se chevauchent, mais il me semble que c'est juste cette erreur classique avec une torsion. Avec des sous-ensembles qui se chevauchent, il est encore plus difficile de se retrouver avec des moyennes de sous-échantillons allant de la moyenne à la moyenne de la population.
Dans votre exemple, puisque les utilisateurs qui apparaissent dans plusieurs sous-échantillons (et ont donc acheté beaucoup de choses) augmenteront ces moyennes. Fondamentalement, vous comptez chaque fois que vous dépensez beaucoup, tandis que les personnes économe qui n'achètent qu'un seul article ne sont rencontrées qu'une seule fois, vous êtes donc biaisé vers des valeurs plus élevées. C'est pourquoi vos sous-ensembles particuliers ont des valeurs supérieures à la moyenne, mais je pense que ce n'est encore que le problème de la "moyenne des moyennes".
Vous pouvez également construire toutes sortes d'autres sous-ensembles à partir de vos données où les moyennes de sous-échantillon prennent différentes valeurs. Par exemple, prenons des sous-ensembles quelque peu similaires à vos sous-ensembles. Si vous prenez le sous-ensemble de personnes qui n'ont pas acheté A, vous obtenez 7/5 = 1,4 articles en moyenne. Avec le sous-ensemble qui n'a pas acheté B, vous obtenez également 1,4 articles en moyenne. Ceux qui n'ont pas acheté C ont acheté 1,5 articles en moyenne. Ce sont tous en dessous de la moyenne de population de 1,6 articles / client. Étant donné le bon ensemble de données et la bonne collection de sous-ensembles, vous pourriez vous retrouver avec des sous-ensembles qui se chevauchent et dont les moyennes sont moyennes à la moyenne de la population; cependant, cela serait rare dans des applications normales.
Est-ce juste moi, ou le mot moyenne semble-t-il maintenant bizarre après tant de répétitions ... J'espère que ma réponse a été utile, et désolé si j'ai ruiné le mot moyenne pour vous!
la source
Étant donné que le problème est " je le comprends mais je dois l'expliquer au marketing ", OP semble préoccupé par la façon dont un profane interprétera ces faits - (pas si les faits sont vrais, ou comment les prouver). La question fait référence à 10 catégories de produits (AJ), alors qu'en est-il de cet exemple:
[en réunion avec un groupe de marketing]
OP : Donc, comme vous pouvez le voir ici , les clients qui achètent A, B et C ont tous plus de valeur que la moyenne.
Layman : Attendez?! Comment tout le monde peut-il être supérieur à la moyenne?
OP : Bonne question. Cette diapositive se concentre sur les clients de A, B et C, mais il existe d'autres groupes peu performants non représentés. Par exemple, les clients des catégories D et G valent chacun environ la moitié de la moyenne.
Cela devrait apaiser l'alarme interne de tout le monde sur «tout est au-dessus de la moyenne».
la source
Ignorez les autres réponses ici. Ce n'est pas du tout un paradoxe. La question réelle à portée de main ici que tout le monde semble ignorer que vous confondez qui probabilité que vous cherchez réellement à. Il y a en fait deux moyennes et statistiques complètement différentes en jeu ici qui ont toutes deux leurs propres utilisations et interprétations dans votre exemple proposé (marketing)!
Tout d'abord, il y a le nombre moyen de produits achetés par client. Ainsi, en moyenne, un client achète 1,6 articles. Bien sûr, un client ne peut que 0,6 du produit (en supposant que ce n'est pas quelque chose comme du riz ou du grain auquel une mesure continue lui est associée).
Deuxièmement, il y a le nombre moyen de clients qui achètent un produit particulier. Ça a l'air bizarre non? Donc, en moyenne, un produit a 5.33333333 ... clients l'achetant. C'est différent cependant. Ce que nous décrivons ici n'est pas le nombre de produits achetés (il n'y en a que trois!), Mais plutôt le nombre de personnes qui achètent réellement ledit produit.
Pensez aux deux valeurs de cette façon: que représenteraient ces deux valeurs s'il n'y avait qu'un seul client ou un seul produit? Après tout, la moyenne d'un point de données unique est juste ce point de données donné.
Ou mieux encore, pensez au tableau comme s'il vous donnait les sommes dépensées pour acheter le produit. De toute évidence, le montant moyen dépensé par un client individuel sera bien inférieur au montant d'argent gagné en moyenne par un produit fourni par une grande entreprise (ou même juste une petite entreprise). Je suis sûr que vous pouvez penser à de bonnes façons d'utiliser les deux valeurs lorsque vous discutez du bien-être de l'entreprise.
Lorsque vous allez expliquer cela au personnel marketing, expliquez-le-lui comme je l'ai dit. Ce n'est pas un paradoxe. C'est juste une statistique complètement différente. Le seul problème ici était de remarquer qu'il y avait en fait deux façons différentes de lire le tableau (c'est-à-dire le nombre de personnes achetant par produit par rapport au nombre de produits achetés par personne).
tl; dr la première chose que vous avez décrite est le montant moyen qu'un client individuel est prêt à dépenser pour acheter vos produits. Le second est la demande moyenne d'un produit donné par le public. Je suis sûr que vous pouvez voir maintenant pourquoi les deux ne sont certainement pas la même chose. Les comparer en tant que tels ne vous donnera que des informations sur les ordures.
MODIFIER
Il semblerait que la question porte sur le montant moyen dépensé par les clients qui achètent un produit a, b ou c. Bien. Ce n'est en fait qu'une erreur de calcul. Je n'appellerais pas cela un paradoxe. C'est vraiment juste un flou subtil.
Regardez vos colonnes. Il y a des gens qui sont partagés entre les colonnes. Supposons que vous ayez fait une moyenne pondérée appropriée . Vous ajoutez toujours des personnes deux fois. Cela signifie que la moyenne contiendra des personnes supplémentaires avec une valeur supérieure ou égale à 2. Quelle était votre moyenne? C'était 1,6! En substance, votre moyenne ressemble à ceci:
Ce n'est certainement pas la bonne formule. C'est une moyenne pondérée, mais en supposant une exclusivité mutuelle, c'est ainsi que vous vous ajusteriez pour obtenir une vraie moyenne dans votre situation.
De toute façon, vous obtiendrez une moyenne foirée. Une erreur a été de ne pas tenir compte de la nécessité d'une moyenne pondérée car une catégorie a un «poids» plus élevé en termes de moyenne. C'est comme la densité. Une valeur est plus dense chez les personnes représente. L'autre problème est l'ajout de doublons qui faussera la moyenne. Je n'appelle cependant ni l'un ni l'autre de ces "paradoxes". Une fois que j'ai vu ce que vous faisiez, il m'a semblé évident pourquoi cela ne fonctionnerait pas. La moyenne pondérée est quelque peu explicite pour son besoin et je pense maintenant que vous voyez que vous avez ajouté des valeurs plusieurs fois ... cela ne peut pas fonctionner. Vous avez essentiellement pris la moyenne des carrés de leurs valeurs.
la source