J'ai un ensemble de données provenant d'une enquête client, je souhaite déployer un test statistique pour voir s'il existe une différence de signification entre le produit 1 et le produit 2.
Voici un ensemble de données d'avis clients.
Le taux va de très mauvais, mauvais, correct, bon, à très bon.
customer product1 product2
1 very good very bad
2 good bad
3 okay bad
4 very good okay
5 bad very good
6 okay good
7 bad okay
8 very good very bad
9 good good
10 good very good
11 okay okay
12 very good good
13 good good
14 very good okay
15 very good okay
Quelles méthodes dois-je utiliser pour voir s'il y a une différence entre ces deux produits?
Réponses:
Pour le classement par différents juges, on peut utiliser le test de Friedman. http://en.wikipedia.org/wiki/Friedman_test
Vous pouvez convertir les notes de très mauvaises à très bonnes en chiffres de -2, -1, 0, 1 et 2. Ensuite, mettez les données sous forme longue et appliquez friedman.test avec le client comme facteur de blocage:
Le classement de la différence entre 2 produits n'est pas significatif.
Éditer:
Voici la sortie de la régression:
la source
Une possibilité est que vous pouvez utiliser le test de signe.
Cela s'appuie sur les comparaisons au sein des clients pour voir si leur note du produit1 au produit2 a augmenté, diminué ou est restée la même (sous le test du signe binomial, l'hypothèse est que vous n'obtenez que des résultats "en hausse" ou "en baisse", mais il y a plusieurs façons courantes d'aborder les liens intra-paire, comme le
good
vs du client 9good
).Une approche courante consiste à exclure les notes liées comme celles du client 9 (de sorte que la conclusion porte sur la proportion relative des différences de hausse ou de baisse dans la population, en supposant un échantillonnage aléatoire des clients).
Dans ce cas, vous aviez 4 clients qui ont donné des notes plus élevées au deuxième produit, 8 qui ont donné plus bas et trois qui ont donné le même.
Dans ce cas, avec vos données, 4 d'un signe et 8 de l'autre, un test de signe bilatéral ne se rapprocherait pas du rejet à un niveau de signification typique. Voici l'analyse dans R:
La valeur de p est assez élevée.
Maintenant, si vous êtes prêt à attribuer des scores (ou même simplement à classer) aux tailles relatives des changements de notes au sein de chaque paire, c'est-à-dire si le changement "bon" à "mauvais" du client 2 est plus grand, plus petit ou la même chose que "très bien" du client 4 à "d'accord", etc. cela peut facilement être fait en permutant les ensembles de classements ou de scores que vous avez réellement).
Il y a d'autres choix que vous pourriez envisager - mais je ne pense pas que le choix de l'analyse changera le résultat; Je pense qu'ils échoueront tous à des niveaux de signification typiques sur ces données.
la source
very bad
versgood
est complètement identique à un changement debad
versvery good
, vous ne pouvez pas le réclamer après les avoir codés sous forme de nombres ... (ctd)Vous avez des données ordinales dépendantes. Vous devez utiliser le test de rang signé Wilcoxon pour tester la différence significative entre les deux produits chez tous les clients.
Mais étant donné les données ci-dessus, le test de rang signé de Wilcoxon ne donne pas de résultats significatifs.
la source
good
,bad
) ou (very good
,okay
) à un ensemble de rangs signés, car cela rendrait les hypothèses faites en cours de route plus évidentes.Utilisez le test t apparié
Tant que vous avez suffisamment de notes (15 est suffisant, et je serais heureux même avec moins) et certaines variations dans les différences de note, il n'y a aucun problème à utiliser le test t apparié. Ensuite, vous obtenez des estimations très faciles à interpréter - les notes moyennes sur une échelle numérique de 1 à 5 + sa différence (entre les produits).
Code R
C'est très facile à faire dans R:
Vérifions d'abord les notes moyennes:
Et le t- test nous donne:
De fausses données?
Curieusement et de manière inattendue, un test t non apparié donne une valeur p inférieure .
Cela suggère que les données d'exemple sont fausses. Pour les données réelles, on s'attendrait à une corrélation positive (assez élevée) entre les évaluations d'un même client. Ici, la corrélation est négative (mais pas statistiquement significative):
Données manquantes
Lorsque tous les clients n'ont pas évalué les deux produits (c'est-à-dire des données déséquilibrées), une meilleure approche utilise un modèle à effets mixtes:
Convertissons d'abord les données sous forme numérique:
Et convertissez-le en forme «longue»:
Et enfin adapter un modèle à effets mixtes avec le client comme un effet aléatoire:
Sommaire
En résumé, utilisez le test t apparié. Ensuite, vous obtenez des estimations faciles à interpréter (moyennes numériques simples).
Si tous les clients n'ont pas évalué les deux produits, utilisez plutôt un modèle d'effets mixtes. (Cela donnera approximativement les mêmes résultats que le test t apparié lorsqu'ils ont tous évalué les deux produits, vous pouvez donc aussi toujours l'utiliser.)
la source