Quel test utiliser pour comparer les proportions entre 3 groupes?

8

Nous testons une campagne de marketing par e-mail. Lors de notre test initial, nous avons envoyé deux types d'e-mails différents et un troisième groupe de contrôle n'a pas reçu d'e-mail. Maintenant, nous récupérons les "résultats" en proportion des utilisateurs qui sont revenus sur notre application. Voici les résultats:

Group | received e-mail | returned | %-returned
A | 16,895 | 934 | 5.53%
B | 17,530 | 717 | 4.09%
C | 42408 | 1618 | 3.82%

Il semble que le groupe A puisse être meilleur que B et C, mais quel est le bon test pour le prouver?

thecity2
la source
2
Rappelons que l'écart type de la proportion dans une expérience binomiale impliquant résultats indépendants avec une probabilité de succès est . Le fait de brancher les estimations de donne des erreurs types de %, % et %, respectivement. (Ces valeurs peuvent facilement être estimés juste en regardant les données:. Pas d' ordinateur est nécessaire) Parce que la différence % - % = 1,44 % équivaut presque dix une de ces erreurs - types, le résultat est il est évident que A a un taux de retour supérieur à B ou C et qu'aucun test formel n'est nécessaire.npp(1-p)/np0,180,150,095,53max(4,09,3,82)1,44
whuber
@whuber Juste une question de suivi rapide. Dans ce cas, l'approximation normale peut être faite, mais que faire si les% étaient encore plus petits, disons <1%. Quel test aurait du sens dans ce cas?
thecity2
1
Bonne question. Ce qui importe, ce ne sont pas les pourcentages mais les chiffres réels. Ne vous inquiétez pas jusqu'à ce que ces nombres (ou leurs compléments - les nombres non reçus) soient autour de 30 ou moins (selon la clarté des résultats, parfois même un nombre de 5 peut être correct). Lorsque les pourcentages et les dénombrements sont tous deux faibles, l'approximation de Poisson est excellente et vous devriez envisager une régression logistique, comme le recommande @gung. C'est aussi une bonne approche générale.
whuber

Réponses:

2

Dans un tableau comme celui-ci, vous pouvez partitionner la statistique G produite par un test G, plutôt que de calculer les OR ou en exécutant une régression logistique. Bien que vous deviez décider comment vous allez le partitionner. Ici, la statistique G, qui est similaire à X ^ 2 de Pearson et suit également une distribution X ^ 2, est:

G = 2 * somme (OBS * ln (OBS / EXP)).

Vous calculez d'abord cela pour le tableau global, dans ce cas: G = 76,42, sur 2 df, ce qui est très significatif (p <0,0001). C'est-à-dire que le taux de retour dépend du groupe (A, B ou C).

Ensuite, comme vous avez 2 df, vous pouvez effectuer deux tests G plus petits de 1 df (2x2). Cependant, après avoir effectué le premier, vous devez réduire les lignes des deux niveaux utilisés dans le premier test, puis utiliser ces valeurs pour les comparer au troisième niveau. Ici, disons que vous testez d'abord B contre C.

Obs   Rec    Ret    Total
B   17530    717    18247
C   42408   1618    44026

Exp     Rec    Ret  Total
B   17562.8  684.2  18247
C   42375.2 1650.8  44026

Cela produit un G-stat de 2,29 sur 1 df, ce qui n'est pas significatif (p = 0,1300). Créez ensuite un nouveau tableau en combinant les lignes B et C. Maintenant, testez A contre B + C.

Obs   Rec    Ret    Total
A   16895    934    17829
B+C 59938   2335    62273

Exp     Rec    Ret  Total
A   17101.4  727.6  17829
B+C 59731.6 2541.4  62273

Cela produit un G-stat de 74,13, sur 1 df, ce qui est également très significatif (p <0,0001).

Vous pouvez vérifier votre travail en ajoutant les deux statistiques de test les plus petites, qui doivent être égales à la statistique de test la plus grande. Il fait: 2,29 + 74,13 = 76,42

L'histoire ici est que vos groupes B et C ne sont pas significativement différents, mais ce groupe A a un taux de retour plus élevé que B et C combinés.

J'espère que cela pourra aider!

Vous auriez également pu partitionner la G-stat différemment en comparant d'abord A à B, puis C à A + B, ou en comparant A à C, puis B à A + C. De plus, vous pouvez l'étendre à 4 groupes ou plus, mais après chaque test, vous devez réduire les deux lignes que vous venez de tester, avec un nombre maximal de tests égal au df dans votre table d'origine. Il existe d'autres façons de partitionner avec des tables plus compliquées. Le livre d'Agresti, "Analyse des données catégoriques", devrait contenir les détails. Plus précisément, son chapitre sur l'inférence pour les tableaux de contingence bidirectionnels.

jww
la source
1

Je calculerais simplement les rapports de cotes (ou de risque) entre le groupe A et B, entre B et C et entre A et C et voir s'ils sont statistiquement différents. Je ne vois pas de raison de faire un test de proportions "omnibus" dans ce cas puisque vous n'avez que trois groupes. Trois tests du chi carré pourraient également faire l'affaire.

Comme certains des individus l'ont souligné dans les commentaires ci-dessous, une régression logistique avec des contrastes prévus fonctionnerait bien aussi.

Behacad
la source
3
Il existe un problème potentiel de comparaisons multiples ici. Pourquoi ne pas simplement faire une régression logistique avec 2 codes fictifs pour B & C?
gung - Rétablir Monica
1
Oui, bien sûr, mais le problème des comparaisons multiples est assez minime lorsque vous avez trois comparaisons.
Behacad
@gung fait de bons points. La régression logistique serait l'approche la plus simple - et si l'on faisait une approche de test du chi carré, alors vous commenceriez presque certainement avec un test omnibus (du tableau de contingence du tableau 3x2) avant de faire des comparaisons à deux groupes (bien que cela correspondrait à la signification "globale" du modèle de régression logistique dans ce cas.)
James Stanley
1
En utilisant cette suggestion (et Wikipedia), j'ai trouvé que l'IC à 95% pour les cotes logarithmiques A / B et A / C ne chevauchait pas 0, et que le rapport de cotes logarithmiques pour B / C chevauchait 0. signifie que A est significativement différent de B & C?
thecity2
@ Behacad, vous avez raison: avec seulement 3 comparaisons, les problèmes de comparaisons multiples seraient moins intenses, mais je commencerais quand même avec un modèle LR. Idéalement, cela serait suivi de comparaisons prévues.
gung - Rétablir Monica