Paradoxe de la valeur moyenne - Comment cela s'appelle-t-il?

22

J'ai un ensemble de données. Dites dix observations et variables:3

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

Disons que clients ont acheté ( ) ou non ( ) dans chaque catégorie . Il y en a donc ces clients achètent en moyenne catégorie de produits.dix10A, B, C16dix1,6

Notez que les clients peuvent acheter plus d'un A, B et C.

Si je ne regarde que ceux qui achètent A, il y a clients qui ont acheté dans catégories de produits, soit en moyenne.591,8

Best à nouveau , ou .9/51,8

Cestdix/6=1.67.

Tous supérieurs à1.6.

ce qui semble étrange. Je le comprends, mais je dois expliquer cela au marketing la semaine prochaine et j'ai donc besoin d'aide!

Comment s'appelle cette chose?

Je sais que ce n'est pas le paradoxe de Simpson. Pour moi, cela ressemble en logique au problème de Monty Hall et à la probabilité conditionnelle.

James Adams
la source
2
Personnellement, je ne sais pas de quoi vous parlez. Pourquoi ne pas créer un tableau de contingence des As, Bs et Cs pour examiner les schémas d'achat croisé?
Mike Hunter
3
Nous avons des rapports qui disent que "les clients qui achètent C valent plus que la moyenne - 1,67 contre 1,6", ce qui est vrai, mais A et B valent également plus que la moyenne. À quoi se posera la question inévitable "Comment tous les clients peuvent-ils valoir plus que la moyenne"?
James Adams
3
Je pense que son casse-tête est qu'il ressemble superficiellement au lac Wobegon où tout le monde est au-dessus de la moyenne: P Soit le nombre de catégories / article qu'un client a acheté. Soit A , B et C des indicateurs d'achat pour les catégories A, B et C respectivement. E [ X A ] = 1,8 , E [ X B ] = 1,8 et E [ X C ] = 1,67 tandis que E [ X ] =XABCE[XUNE]=1,8E[XB]=1,8E[XC]=1,67E[X]=1,6
Matthew Gunn
12
Vous voudrez peut-être penser en termes d' ensembles complémentaires et de diagrammes de Venn. Les ensembles « Les clients qui achètent un » et « Les clients qui ne pas acheter un » ne se chevauchent pas . Mais les ensembles que vous indiquez dans votre question se chevauchent. Vous pouvez calculer la moyenne globale en tant que moyenne (pondérée) de moyennes de sous-ensemble uniquement si les sous-ensembles forment une partition .
GeoMatt22
4
Est-ce vaguement similaire au paradoxe de l' illusion majoritaire ? De la même manière qu'un individu est susceptible d'être connecté à un super-réseau, toute catégorie d'achat est-elle susceptible de contenir un super-acheteur? (J'appelle super quelqu'un réseauteur qui se connecte avec beaucoup de gens et une personne super acheteur qui achète de nombreux articles différents)
Matthew Gunn

Réponses:

28

La moyenne de chaque sous-catégorie peut être supérieure à la moyenne globale si les sous-catégories se chevauchent sur les gros clients.

Exemple simple pour gagner en intuition:

  • Soit un indicateur indiquant si une personne a acheté un article de la catégorie A.UNE
  • Soit un indicateur indiquant si une personne a acheté un article de la catégorie B.B
  • Soit le nombre d'articles achetés.X=UNE+B

PersonABi10ii01iii11

L'ensemble d'individus où est vrai chevauche l'ensemble d'individus où B est vrai. Ce ne sont PAS des ensembles disjoints.AB

Alors tandis que E [ X A ] = 1,5 et E [ X B ] = 1,5E[X]1,33E[XA]=1.5E[XB]=1.5

La déclaration qui serait vraie est:

P(A)E[XA]+P(B)E[XB]P(AB)E[XAB]=E[X]

231.5+231.5132=1.3333

Vous ne pouvez pas simplement calculer parce que les ensembles A et B se chevauchent, l'expression compte deux fois la personne qui achète les articles A et B !P(A)E[XA]+P(B)E[XB]ABAB

Nom pour illusion / paradoxe?

Je dirais que c'est lié au paradoxe de l' illusion majoritaire dans les réseaux sociaux.

Vous pouvez avoir un seul mec qui met en réseau / amis tout le monde. Cette personne peut être un sur un million dans l'ensemble, mais elle sera l'un des amis de chaque personne .k

De même, 1 acheteur sur 3 achète ici les catégories A et B. Mais dans la catégorie A ou B, 1 acheteur sur 2 est le super acheteur.

Cas extrême:

Créons ensembles de tickets de loto. Chaque set S i comprend deux tickets: un ticket perdant i et le ticket gagnant du jackpot.nSii

Les gains moyens dans chaque ensemble sont alors JSiJest le jackpot. La moyenne de chaque catégorie estFAÇONdessus des gains moyens par billet globalJJ2J .Jn+1

C'est la même dynamique conceptuelle que le cas de vente. Chaque set comprend le ticket jackpot de la même manière que chaque catégorie A, B ou C comprend les gros acheteurs.Si

Mon point de fond serait que l'intuition basée sur des ensembles disjoints , une partition complète de l'espace d'échantillonnage ne se répercute pas sur une série d' ensembles qui se chevauchent . Si vous conditionnez le chevauchement des catégories, chaque catégorie peut être supérieure à la moyenne.

Si vous partitionnez l'espace d'échantillonnage et la condition sur des ensembles disjoints, les catégories doivent être en moyenne à la moyenne globale, mais ce n'est pas vrai pour les ensembles qui se chevauchent.

Matthew Gunn
la source
3
Merci! Je pense que le double comptage est la clé pour expliquer. Je ne pense pas que ce soit nécessairement le résultat de quelques valeurs extrêmes. Mon exemple d'ensemble de données ci-dessus est assez banal et l'effet "tous les groupes au-dessus de la moyenne" se produit toujours. Je suppose que cela se produira dans la plupart des cas. Je me demandais simplement si elle avait un nom ou un exemple précédent.
James Adams
Cette explication ne serait pas valable si les données que @JamesAdams analyse sont défectueuses. Je soutiens que c'est le cas. Vous ne pouvez pas avoir un ensemble mutuellement exclusif et complet de catégories A, B et C où les moyennes de groupe sont toutes supérieures à la moyenne des 3 prises ensemble sans qu'il y ait violation d'une hypothèse fondamentale de l'analyse des données. Dans votre cas, il est très probable que le dénominateur de la moyenne globale diffère (par exemple, contient plus de répondants) de ceux utilisés pour l'estimation des moyennes pour A, B et C.
Mike Hunter
2
@DJohnson Bien sûr, vous avez raison si les ensembles A, B et C partitionnent l'espace d'échantillonnage. Ma lecture de la question et des «données» fournies (quelles qu'elles soient) est que A, B et C sont des ensembles qui se chevauchent . Si A, B et C se chevauchent, alors les moyennes de groupe peuvent toutes être supérieures à la moyenne globale (ce qui est le point de ma réponse; les ensembles se chevauchent sur les plus gros clients!). Rien de ce que le PO a dit n'est en soi incohérent. Votre détecteur «nous obtenons des données BS» pourrait être meilleur que le mien, et je suis d'accord qu'il est toujours important de poser des questions critiques sur la validité des données / nombres.
Matthew Gunn
Oui, ce sont des ensembles qui se chevauchent. Mon ensemble de données comprend des millions de clients et 12 catégories. Quand j'ai vu que mes moyennes étaient toutes supérieures à la moyenne globale, j'ai pensé que cela avait l'air étrange mais explicable. J'ai rassemblé l'ensemble d'exemples de 10 obs et 3 catégories pour le voir. Je viens de disperser les 1 et les 0 ici et c'est pareil. Je soupçonne que cela se produit avec la plupart des ensembles de données où ce type de moyenne est calculé. @Djohnson mon exemple ci-dessus que je suis utilise 10 comme dénominateur pour la moyenne globale, 5 pour les As, 5 pour les Bs, 6 pour les Cs. Pouvez-vous me dire ce que je viole dans cet exemple?
James Adams
Que représente «10»? Le filet des répondants dans les 3 catégories? Qu'advient-il des moyennes si vous utilisez le même dénominateur pour tous? Il devrait renvoyer des moyennes qui fluctuent autour de la moyenne.
Mike Hunter
10

J'appellerais cela le paradoxe de la taille de la famille ou quelque chose de similaire

Supposons, pour un exemple simple, que tout le monde ait un partenaire et un nombre d'enfants distribués par Poisson avec le paramètre :2

  • Le nombre moyen d'enfants par personne serait de 2
  • Le nombre moyen d'enfants par personne avec enfants serait de 21e22.313
  • La taille moyenne des groupes de frères et sœurs pour chaque individu (en comptant leurs frères et sœurs et eux-mêmes) serait de 3

Les vrais chiffres démographiques et d'enquête produisent des chiffres différents mais des schémas similaires

Le paradoxe apparent est que la taille moyenne des groupes de frères et sœurs des individus est supérieure au nombre moyen d'enfants par famille; avec une dynamique de population stable, les gens ont tendance à avoir moins d'enfants en moyenne que leurs parents

L'explication est de savoir si la moyenne est prise en charge par les parents et les familles ou par les frères et sœurs: il existe différentes pondérations appliquées aux familles nombreuses. Dans votre exemple, il existe une différence entre la pondération par les individus ou par les achats; vos moyennes conditionnelles sont poussées vers le haut par le fait que vous conditionnez qu'un achat particulier soit effectué.

Henri
la source
8

Les autres réponses réfléchissent trop à ce qui se passe. Supposons qu'il y ait un produit et deux clients. L'un a acheté le produit (une fois) et l'autre non. Le nombre moyen de produits achetés est de 0,5, mais si vous ne regardez que le client qui a acheté le produit, la moyenne monte à 1.

Cela ne me semble ni paradoxal ni contre-intuitif; conditionner l'achat d'un produit augmentera généralement le nombre moyen de produits achetés.

Vadim Ponomarenko
la source
Exactement. En supposant que les achats dans chacune des 3 catégories ne sont pas fortement corrélés, ce que vous faites est de calculer les moyennes après avoir augmenté le taux d'achat à 100% dans l'une des catégories. Il serait probablement plus informatif de comparer, par exemple. le taux d'achat moyen dans les catégories B et C: a) parmi tous les clients (11/20) b) parmi ceux qui ont acheté A (4/10). Cela dépend de ce que vous essayez de montrer / trouver, je suppose.
konrad
2

N'est-ce pas simplement la confusion de la "moyenne des moyennes" (par exemple, précédente question d'échange de pile ) déguisée? Votre tentation semble être que les moyennes des sous-échantillons devraient finir par atteindre la moyenne de la population, mais cela se produira rarement.

Dans la "moyenne des moyennes" classique, quelqu'un trouve la moyenne de N sous-ensembles mutuellement exclusifs, puis est sidéré que ces valeurs ne correspondent pas à la moyenne de la population. La seule façon de calculer cette moyenne est de savoir si vos sous-ensembles non chevauchants ont la même taille. Sinon, vous devez prendre une moyenne pondérée.

Votre problème est rendu plus complexe que cette moyenne traditionnelle de confusion de moyennes en ayant des sous-ensembles qui se chevauchent, mais il me semble que c'est juste cette erreur classique avec une torsion. Avec des sous-ensembles qui se chevauchent, il est encore plus difficile de se retrouver avec des moyennes de sous-échantillons allant de la moyenne à la moyenne de la population.

Dans votre exemple, puisque les utilisateurs qui apparaissent dans plusieurs sous-échantillons (et ont donc acheté beaucoup de choses) augmenteront ces moyennes. Fondamentalement, vous comptez chaque fois que vous dépensez beaucoup, tandis que les personnes économe qui n'achètent qu'un seul article ne sont rencontrées qu'une seule fois, vous êtes donc biaisé vers des valeurs plus élevées. C'est pourquoi vos sous-ensembles particuliers ont des valeurs supérieures à la moyenne, mais je pense que ce n'est encore que le problème de la "moyenne des moyennes".

Vous pouvez également construire toutes sortes d'autres sous-ensembles à partir de vos données où les moyennes de sous-échantillon prennent différentes valeurs. Par exemple, prenons des sous-ensembles quelque peu similaires à vos sous-ensembles. Si vous prenez le sous-ensemble de personnes qui n'ont pas acheté A, vous obtenez 7/5 = 1,4 articles en moyenne. Avec le sous-ensemble qui n'a pas acheté B, vous obtenez également 1,4 articles en moyenne. Ceux qui n'ont pas acheté C ont acheté 1,5 articles en moyenne. Ce sont tous en dessous de la moyenne de population de 1,6 articles / client. Étant donné le bon ensemble de données et la bonne collection de sous-ensembles, vous pourriez vous retrouver avec des sous-ensembles qui se chevauchent et dont les moyennes sont moyennes à la moyenne de la population; cependant, cela serait rare dans des applications normales.

Est-ce juste moi, ou le mot moyenne semble-t-il maintenant bizarre après tant de répétitions ... J'espère que ma réponse a été utile, et désolé si j'ai ruiné le mot moyenne pour vous!

tbell
la source
Merci! Le commentaire sur les partitions de même taille qui ne se chevauchent pas l'a clarifié dans mon esprit. J'espérais quand je présenterais ces chiffres que je pourrais dire quelque chose comme "Toutes les moyennes des catégories sont plus élevées que la moyenne globale, mais c'est le paradoxe de Blahblah". Comme quand vous dites "Paradoxe de Simpson !, Sexisme Ivy League!" puis sortez de la pièce. (Vous le faites tous parfois, n'est-ce pas?) J'adorerais leur dire "C'est parce que ce sont des sous-ensembles qui se chevauchent de différentes tailles" mais ne pense pas que cela va atterrir!
James Adams du
1
Haha, assez bien. Je n'ai pas totalement compris le contexte auparavant - je suis un étudiant diplômé en astrophysique, donc je ne connais pas très bien le contexte. Vous pourriez dire quelque chose de bref, à l'effet de "Toutes les moyennes de sous-ensemble sont plus élevées que la moyenne globale parce qu'elles ont fait que les sous-ensembles nous biaisent vers des valeurs plus grandes." Je ne mentionnerais pas le nom de la moyenne des moyennes car ce n'est pas très bien connu, et votre cas est comme une généralisation. J'essaierais également de trouver un synonyme pour remplacer les catégories de mots - généralement, je vois le mot comme impliquant des sous-ensembles mutuellement exclusifs.
tbell
La satiété sémantique est un phénomène psychologique dans lequel la répétition fait perdre temporairement un sens à un mot ou une phrase à l'auditeur, qui perçoit alors le discours comme des sons répétés sans signification.
Patrick
1

Étant donné que le problème est " je le comprends mais je dois l'expliquer au marketing ", OP semble préoccupé par la façon dont un profane interprétera ces faits - (pas si les faits sont vrais, ou comment les prouver). La question fait référence à 10 catégories de produits (AJ), alors qu'en est-il de cet exemple:

[en réunion avec un groupe de marketing]
OP : Donc, comme vous pouvez le voir ici , les clients qui achètent A, B et C ont tous plus de valeur que la moyenne.
Layman : Attendez?! Comment tout le monde peut-il être supérieur à la moyenne?
OP : Bonne question. Cette diapositive se concentre sur les clients de A, B et C, mais il existe d'autres groupes peu performants non représentés. Par exemple, les clients des catégories D et G valent chacun environ la moitié de la moyenne.

Cela devrait apaiser l'alarme interne de tout le monde sur «tout est au-dessus de la moyenne».

Patrick
la source
Ce n'est pas la façon de répondre à une question.
Michael R. Chernick
On a répondu à sa question, mais personne n'a résolu son problème.
Patrick
Mon commentaire ne concernait que la réponse de Patrick.
Michael R. Chernick
Je ne vois aucune règle contre différents styles de réponse. Le fait de rendre compte (réel ou imaginaire) des discussions et des conversations est une manière séculaire de réfléchir aux problèmes à partir de Socrate (et avant lui pour tout ce que je sais).
Nick Cox
Mais cette explication est factuellement erronée. Même en l'absence de catégories supplémentaires (DJ), l'observation reste vraie: les moyennes des sous-ensembles qui se chevauchent peuvent toutes être supérieures à la moyenne de l'ensemble, même si les sous-ensembles couvrent l'ensemble.
isarandi
0

Ignorez les autres réponses ici. Ce n'est pas du tout un paradoxe. La question réelle à portée de main ici que tout le monde semble ignorer que vous confondez qui probabilité que vous cherchez réellement à. Il y a en fait deux moyennes et statistiques complètement différentes en jeu ici qui ont toutes deux leurs propres utilisations et interprétations dans votre exemple proposé (marketing)!

Tout d'abord, il y a le nombre moyen de produits achetés par client. Ainsi, en moyenne, un client achète 1,6 articles. Bien sûr, un client ne peut que 0,6 du produit (en supposant que ce n'est pas quelque chose comme du riz ou du grain auquel une mesure continue lui est associée).

Deuxièmement, il y a le nombre moyen de clients qui achètent un produit particulier. Ça a l'air bizarre non? Donc, en moyenne, un produit a 5.33333333 ... clients l'achetant. C'est différent cependant. Ce que nous décrivons ici n'est pas le nombre de produits achetés (il n'y en a que trois!), Mais plutôt le nombre de personnes qui achètent réellement ledit produit.

Pensez aux deux valeurs de cette façon: que représenteraient ces deux valeurs s'il n'y avait qu'un seul client ou un seul produit? Après tout, la moyenne d'un point de données unique est juste ce point de données donné.

Ou mieux encore, pensez au tableau comme s'il vous donnait les sommes dépensées pour acheter le produit. De toute évidence, le montant moyen dépensé par un client individuel sera bien inférieur au montant d'argent gagné en moyenne par un produit fourni par une grande entreprise (ou même juste une petite entreprise). Je suis sûr que vous pouvez penser à de bonnes façons d'utiliser les deux valeurs lorsque vous discutez du bien-être de l'entreprise.

Lorsque vous allez expliquer cela au personnel marketing, expliquez-le-lui comme je l'ai dit. Ce n'est pas un paradoxe. C'est juste une statistique complètement différente. Le seul problème ici était de remarquer qu'il y avait en fait deux façons différentes de lire le tableau (c'est-à-dire le nombre de personnes achetant par produit par rapport au nombre de produits achetés par personne).

tl; dr la première chose que vous avez décrite est le montant moyen qu'un client individuel est prêt à dépenser pour acheter vos produits. Le second est la demande moyenne d'un produit donné par le public. Je suis sûr que vous pouvez voir maintenant pourquoi les deux ne sont certainement pas la même chose. Les comparer en tant que tels ne vous donnera que des informations sur les ordures.


MODIFIER

Il semblerait que la question porte sur le montant moyen dépensé par les clients qui achètent un produit a, b ou c. Bien. Ce n'est en fait qu'une erreur de calcul. Je n'appellerais pas cela un paradoxe. C'est vraiment juste un flou subtil.

Regardez vos colonnes. Il y a des gens qui sont partagés entre les colonnes. Supposons que vous ayez fait une moyenne pondérée appropriée . Vous ajoutez toujours des personnes deux fois. Cela signifie que la moyenne contiendra des personnes supplémentaires avec une valeur supérieure ou égale à 2. Quelle était votre moyenne? C'était 1,6! En substance, votre moyenne ressemble à ceci:

i=0nvalueOfPersonivalueOfPersonin

Ce n'est certainement pas la bonne formule. C'est une moyenne pondérée, mais en supposant une exclusivité mutuelle, c'est ainsi que vous vous ajusteriez pour obtenir une vraie moyenne dans votre situation.

i=0nnumberOfPeopleBuyingiaverageSpentByPersonBuyingin

De toute façon, vous obtiendrez une moyenne foirée. Une erreur a été de ne pas tenir compte de la nécessité d'une moyenne pondérée car une catégorie a un «poids» plus élevé en termes de moyenne. C'est comme la densité. Une valeur est plus dense chez les personnes représente. L'autre problème est l'ajout de doublons qui faussera la moyenne. Je n'appelle cependant ni l'un ni l'autre de ces "paradoxes". Une fois que j'ai vu ce que vous faisiez, il m'a semblé évident pourquoi cela ne fonctionnerait pas. La moyenne pondérée est quelque peu explicite pour son besoin et je pense maintenant que vous voyez que vous avez ajouté des valeurs plusieurs fois ... cela ne peut pas fonctionner. Vous avez essentiellement pris la moyenne des carrés de leurs valeurs.

Le grand canard
la source
Je ne pense pas que ce soit le cas. Je ne suis pas intéressé ici par le nombre de personnes qui achètent un produit particulier. Je suis intéressé par le nombre total de produits achetés par un client étant donné qu'il a acheté A.
James Adams
@JamesAdams Très bien. Dans ce cas, la question est encore plus banale. Vous prenez simplement une moyenne d'un sous-ensemble de votre échantillon. En théorie, si vous faisiez de même avec B et C, la moyenne finale ne serait pas la moyenne réelle. Cependant, cela est simplement dû au fait que les échantillons sont inégaux. C'est tout. En fait, je ne vois aucune raison pour laquelle cela serait évident pour une personne. Il existe en fait une solution pour fixer les moyennes afin d'obtenir la bonne moyenne. C'est ce qu'on appelle une moyenne pondérée et, fondamentalement, vous «pondérer» chaque sous-moyenne avec le nombre de personnes dans ce groupe. Ça a du sens?
The Great Duck
@JamesAdams et je sais que cela ne vous intéresse pas. Vous êtes des mathématiques qui, selon vous, forment un paradoxe qui utilise cette moyenne pour essayer de calculer le nombre moyen de produits par personne. C'est pourquoi dans cette réponse, j'insiste sur le fait qu'il existe une deuxième moyenne pour une statistique différente et que votre "erreur" a été d'essayer de la transformer en une moyenne complètement différente.
The Great Duck