Différences de groupe sur un article Likert en cinq points

22

Dans le prolongement de cette question : imaginez que vous souhaitez tester les différences de tendance centrale entre deux groupes (par exemple, hommes et femmes) sur un item de Likert en 5 points (par exemple, satisfaction à l'égard de la vie: insatisfait à satisfait). Je pense qu'un test t serait suffisamment précis pour la plupart des objectifs, mais qu'un test bootstrap des différences entre les moyennes de groupe fournirait souvent une estimation plus précise des intervalles de confiance. Quel test statistique utiliseriez-vous?

Jeromy Anglim
la source
2
Une question connexe: les gens utilisent souvent le test non paramétrique de Mann-Whitney pour ce type de données. Puisqu'il n'y a que cinq valeurs possibles, il y aura beaucoup de rangs liés. Le test de Mann-Whitney s'ajuste pour les rangs à égalité, mais cet ajustement fonctionne-t-il quand il y a un grand nombre de liens?
Harvey Motulsky
5
Vous pouvez être intéressé par cet article récent publié dans PARE, Five-Point Likert Items: t test versus Mann-Whitney-Wilcoxon , j.mp/biLWrA .
chl
Je ne sais pas si le test du chi carré est également approprié, il teste s'il y a une dépendance entre les groupes et les éléments (distribution différente entre les groupes).
pe-pe-rry

Réponses:

12

Clason & Dormody a discuté de la question des tests statistiques pour les éléments de Likert ( analyse des données mesurées par des éléments de type Likert individuels ). Je pense qu'un test bootstrapé est ok quand les deux distributions se ressemblent (en forme de cloche et variance égale). Cependant, un test pour les données catégorielles (par exemple, tendance ou test de Fisher, ou régression logistique ordinale) serait également intéressant car il permet de vérifier la distribution des réponses entre les catégories d'articles, voir le livre d'Agresti sur l' analyse des données catégorielles (Chapitre 7 sur les modèles Logit pour réponses multinomiales ).

En dehors de cela, vous pouvez imaginer des situations où le test t ou tout autre test non paramétrique échouerait si la distribution des réponses était fortement déséquilibrée entre les deux groupes. Par exemple, si toutes les personnes du groupe A répondent 1 ou 5 (dans une proportion égale) alors que toutes les personnes du groupe B répondent 3, alors vous vous retrouvez avec une moyenne intra-groupe identique et le test n'a aucun sens, bien que dans ce cas l'hypothèse d'homoscédasticité est largement violée.

chl
la source
L'article de Clason et Dormody semble bon. Vos commentaires sur la distribution des réponses sont intéressants à considérer. Je conviens que les différences de distribution pourraient être intéressantes. Mais si vous vouliez seulement savoir si les moyennes des groupes de population étaient différentes, peu importe quelles répartitions donnaient lieu à une telle égalité.
Jeromy Anglim
Dans ce cas, vous supposez que votre échelle de Likert (en d'autres termes, la différence perçue entre, par exemple, beaucoup satisfait et "juste" satisfait) se comporte idéalement et est perçue comme ayant la même signification dans les deux populations. Ainsi, vous faites implicitement l'hypothèse qu'il s'agit d'une échelle numérique, mais je conviens que cela est souvent considéré comme tel dans la recherche appliquée, surtout si les participants viennent du même pays. Mon but était simplement de mettre l'accent sur la perspective de l'analyse des données catégoriques, comme on le trouve habituellement dans la tradition de l'analyse factorielle, comme dans ma réponse à la question n ° 10.
chl
Je suppose que la moyenne de l'échantillon répondant à un élément de Likert est généralement un résumé significatif de la position du groupe sur la dimension sous-jacente. Il est intéressant de se demander quand la signification d'un élément Likert variera systématiquement d'un groupe à l'autre. Bien sûr, ce problème s'étend au-delà des éléments de Likert, probablement à toute procédure de mesure subjective.
Jeromy Anglim
8

Selon la taille de l'ensemble de données en question, un test de permutation peut être préférable à un bootstrap dans la mesure où il peut être en mesure de fournir un test exact de l'hypothèse (et un IC exact).

russellpierce
la source
4

À mon humble avis, vous ne pouvez pas utiliser un test t pour les échelles Likert. L'échelle de Likert est ordinale et "ne connaît" que les relations de valeurs d'une variable: par exemple, "totalement insatisfait" est pire que "en quelque sorte insatisfait". En revanche, un test t doit calculer des moyennes et plus et a donc besoin de données d'intervalle. Vous pouvez mapper les scores de l'échelle de Likert aux données d'intervalle ("totalement insatisfait" est 1 et ainsi de suite), mais personne ne garantit que "totalement insatisfait" est à la même distance que "en quelque sorte insatisfait" car "en quelque sorte insatisfait" vient de "ni ni". Soit dit en passant: quelle est la différence entre «totalement insatisfait» et «en quelque sorte insatisfait»? Donc, à la fin, vous feriez un test t sur les valeurs codées de vos données ordinales, mais cela n'a tout simplement aucun sens.

xmjx
la source
9
... et pourtant c'est chose courante. Une chose à souligner, et oui, c'est un peu pédant, si vous utilisez un seul élément de type Likert qui n'est pas une échelle de Likert. La différence est significative (bien que le demandeur de la question parle d'un élément de Likert et que l'ordinalité soit un problème). Une échelle de Likert est une conséquence de la somme ou de la moyenne de plusieurs éléments de Likert. Cette approche a été développée spécifiquement pour compenser la mesure dans laquelle les données ordinales étaient réellement ordinales et rendre plus raisonnable d'être traité comme étant sur l'échelle d'intervalle.
russellpierce
3

Si chaque élément du questionnaire est ordinale, et je ne pense pas que ce point puisse être contesté étant donné qu'il n'y a aucun moyen de savoir si la différence quantitative entre "fortement d'accord" et "d'accord" est la même que celle entre " fortement en désaccord "et" en désaccord ", alors pourquoi la somme de toutes ces échelles de niveau ordinales produirait-elle une valeur qui partage les propriétés des données de niveau d'intervalle vrai?

Par exemple, si nous interprétons les résultats d'un inventaire de la dépression, il n'est pas logique (du moins pour moi) de dire qu'une personne avec un score de "20" est deux fois plus déprimée qu'une personne avec un score de " dix". Cela est dû au fait que chaque élément du questionnaire ne mesure pas les différences réelles des niveaux de dépression (en supposant que la dépression est un trouble organique stable, intestinal), mais plutôt l'évaluation subjective de la personne en accord avec une déclaration particulière. Lorsqu'on lui a demandé: «comment déprimé diriez-vous que votre humeur est sur une échelle de 1 à 4, 1 étant très déprimé et 4 pas déprimé du tout», comment puis-je savoir que la cote subjective d'un répondant de 1 est la même que celle d'un autre répondant ? Ou comment savoir si la différence entre 4 et 3 est la même que celle de 3 et 4 en termes de personne ' s niveau actuel de dépression.Si nous ne pouvons rien savoir de cela, cela n'a aucun sens de traiter la somme de tous ces éléments ordinaux comme des données de niveau d'intervalle. Même si les données forment une distribution normale, je ne pense pas qu'il soit approprié de traiter les différences entre les scores comme des données de niveau d'intervalle si elles ont été calculées en additionnant toutes les réponses à un likert-items. Une distribution normale des données signifie simplement que les réponses sont probablement représentatives de la plus grande population; cela n'implique pas que les valeurs obtenues à partir des inventaires partagent des propriétés importantes des données de niveau d'intervalle. Je pense qu'il est approprié de traiter les différences entre les scores comme des données de niveau d'intervalle si elles ont été calculées en additionnant toutes les réponses à un item de likert. Une distribution normale des données signifie simplement que les réponses sont probablement représentatives de la plus grande population; cela n'implique pas que les valeurs obtenues à partir des inventaires partagent des propriétés importantes des données de niveau d'intervalle. Je pense qu'il est approprié de traiter les différences entre les scores comme des données de niveau d'intervalle si elles ont été calculées en additionnant toutes les réponses à un item de likert. Une distribution normale des données signifie simplement que les réponses sont probablement représentatives de la plus grande population; cela n'implique pas que les valeurs obtenues à partir des inventaires partagent des propriétés importantes des données de niveau d'intervalle.

Nous devons être prudents dans les sciences du comportement sur la façon dont nous utilisons les statistiques pour parler des variables latentes que nous étudions, car puisqu'il n'y a pas de moyen direct de mesurer ces constructions hypothétiques, il y a des problèmes importants lorsque nous essayons de les quantifier. aux tests paramétriques. Encore une fois, ce n'est pas parce que nous avons attribué des valeurs à un ensemble de réponses que les différences entre ces valeurs sont significatives.

Justin
la source
1
Si vous êtes heureux de résumer les scores des éléments, vous avez déjà supposé un niveau de mesure plus que strictement ordinal. À strictement parler, les mesures ordinales ne peuvent pas être ajoutées ou moyennées de manière significative (incidemment, Stevens est clair à ce sujet). Une fois que vous avez fait cela, le traitement des scores résultants comme des données de niveau d'intervalle est parfaitement raisonnable.
Gala du
0

Le modèle de rapport de cotes proportionnel est meilleur que le test t pour l'échelle des éléments de Likert.

Wojtek
la source
1
Souhaitez-vous expliquer vos raisons? Je peux voir comment un tel modèle pourrait fournir un modèle plus précis de réponses observées. Cependant, dans les situations de recherche pratique typiques que j'ai vues, les chercheurs souhaitent savoir si les deux groupes diffèrent en termes de moyenne (par exemple, le groupe de formation a-t-il rapporté une performance supérieure au contrôle; la satisfaction des étudiants était-elle plus élevée d'une année à l'autre) ). Le modèle de rapport de cotes proportionnel ne teste pas cette question exactement à ma connaissance.
Jeromy Anglim
0

J'essaierai d'expliquer le modèle de rapport de cotes proportionnel dans ce contexte puisqu'il a été suggéré et indiqué dans au moins 2 réponses à cette question.

Le test de score d'un modèle de cotes proportionnelles est équivalent au test de somme de rang de Wilcoxon.

Plus précisément, la statistique du test de score pour aucun effet d'une covariable dichotomique unique dans un modèle de régression logistique cumulative à cotes proportionnelles (McCullagh 1980) pour le résultat ordinale s'est avérée être égale à la statistique du test de somme de rang de Wilcoxon. (Preuve dans une extension du test de Wilcoxon Rank-Sum pour des données d'enquête d'échantillons complexes .)

Tout comme le test de somme de rang de Wilcoxon, ce test détecte si deux échantillons ont été tirés de distributions différentes, quelles que soient les valeurs attendues.

Ce test n'est pas valide si vous voulez seulement détecter si deux échantillons ont été tirés de distributions avec des valeurs attendues différentes, tout comme le test de somme de rang de Wilcoxon.

Marko Lalović
la source