Dans le prolongement de cette question : imaginez que vous souhaitez tester les différences de tendance centrale entre deux groupes (par exemple, hommes et femmes) sur un item de Likert en 5 points (par exemple, satisfaction à l'égard de la vie: insatisfait à satisfait). Je pense qu'un test t serait suffisamment précis pour la plupart des objectifs, mais qu'un test bootstrap des différences entre les moyennes de groupe fournirait souvent une estimation plus précise des intervalles de confiance. Quel test statistique utiliseriez-vous?
t-test
ordinal-data
likert
scales
Jeromy Anglim
la source
la source
Réponses:
Clason & Dormody a discuté de la question des tests statistiques pour les éléments de Likert ( analyse des données mesurées par des éléments de type Likert individuels ). Je pense qu'un test bootstrapé est ok quand les deux distributions se ressemblent (en forme de cloche et variance égale). Cependant, un test pour les données catégorielles (par exemple, tendance ou test de Fisher, ou régression logistique ordinale) serait également intéressant car il permet de vérifier la distribution des réponses entre les catégories d'articles, voir le livre d'Agresti sur l' analyse des données catégorielles (Chapitre 7 sur les modèles Logit pour réponses multinomiales ).
En dehors de cela, vous pouvez imaginer des situations où le test t ou tout autre test non paramétrique échouerait si la distribution des réponses était fortement déséquilibrée entre les deux groupes. Par exemple, si toutes les personnes du groupe A répondent 1 ou 5 (dans une proportion égale) alors que toutes les personnes du groupe B répondent 3, alors vous vous retrouvez avec une moyenne intra-groupe identique et le test n'a aucun sens, bien que dans ce cas l'hypothèse d'homoscédasticité est largement violée.
la source
Selon la taille de l'ensemble de données en question, un test de permutation peut être préférable à un bootstrap dans la mesure où il peut être en mesure de fournir un test exact de l'hypothèse (et un IC exact).
la source
À mon humble avis, vous ne pouvez pas utiliser un test t pour les échelles Likert. L'échelle de Likert est ordinale et "ne connaît" que les relations de valeurs d'une variable: par exemple, "totalement insatisfait" est pire que "en quelque sorte insatisfait". En revanche, un test t doit calculer des moyennes et plus et a donc besoin de données d'intervalle. Vous pouvez mapper les scores de l'échelle de Likert aux données d'intervalle ("totalement insatisfait" est 1 et ainsi de suite), mais personne ne garantit que "totalement insatisfait" est à la même distance que "en quelque sorte insatisfait" car "en quelque sorte insatisfait" vient de "ni ni". Soit dit en passant: quelle est la différence entre «totalement insatisfait» et «en quelque sorte insatisfait»? Donc, à la fin, vous feriez un test t sur les valeurs codées de vos données ordinales, mais cela n'a tout simplement aucun sens.
la source
Si chaque élément du questionnaire est ordinale, et je ne pense pas que ce point puisse être contesté étant donné qu'il n'y a aucun moyen de savoir si la différence quantitative entre "fortement d'accord" et "d'accord" est la même que celle entre " fortement en désaccord "et" en désaccord ", alors pourquoi la somme de toutes ces échelles de niveau ordinales produirait-elle une valeur qui partage les propriétés des données de niveau d'intervalle vrai?
Par exemple, si nous interprétons les résultats d'un inventaire de la dépression, il n'est pas logique (du moins pour moi) de dire qu'une personne avec un score de "20" est deux fois plus déprimée qu'une personne avec un score de " dix". Cela est dû au fait que chaque élément du questionnaire ne mesure pas les différences réelles des niveaux de dépression (en supposant que la dépression est un trouble organique stable, intestinal), mais plutôt l'évaluation subjective de la personne en accord avec une déclaration particulière. Lorsqu'on lui a demandé: «comment déprimé diriez-vous que votre humeur est sur une échelle de 1 à 4, 1 étant très déprimé et 4 pas déprimé du tout», comment puis-je savoir que la cote subjective d'un répondant de 1 est la même que celle d'un autre répondant ? Ou comment savoir si la différence entre 4 et 3 est la même que celle de 3 et 4 en termes de personne ' s niveau actuel de dépression.Si nous ne pouvons rien savoir de cela, cela n'a aucun sens de traiter la somme de tous ces éléments ordinaux comme des données de niveau d'intervalle. Même si les données forment une distribution normale, je ne pense pas qu'il soit approprié de traiter les différences entre les scores comme des données de niveau d'intervalle si elles ont été calculées en additionnant toutes les réponses à un likert-items. Une distribution normale des données signifie simplement que les réponses sont probablement représentatives de la plus grande population; cela n'implique pas que les valeurs obtenues à partir des inventaires partagent des propriétés importantes des données de niveau d'intervalle. Je pense qu'il est approprié de traiter les différences entre les scores comme des données de niveau d'intervalle si elles ont été calculées en additionnant toutes les réponses à un item de likert. Une distribution normale des données signifie simplement que les réponses sont probablement représentatives de la plus grande population; cela n'implique pas que les valeurs obtenues à partir des inventaires partagent des propriétés importantes des données de niveau d'intervalle. Je pense qu'il est approprié de traiter les différences entre les scores comme des données de niveau d'intervalle si elles ont été calculées en additionnant toutes les réponses à un item de likert. Une distribution normale des données signifie simplement que les réponses sont probablement représentatives de la plus grande population; cela n'implique pas que les valeurs obtenues à partir des inventaires partagent des propriétés importantes des données de niveau d'intervalle.
Nous devons être prudents dans les sciences du comportement sur la façon dont nous utilisons les statistiques pour parler des variables latentes que nous étudions, car puisqu'il n'y a pas de moyen direct de mesurer ces constructions hypothétiques, il y a des problèmes importants lorsque nous essayons de les quantifier. aux tests paramétriques. Encore une fois, ce n'est pas parce que nous avons attribué des valeurs à un ensemble de réponses que les différences entre ces valeurs sont significatives.
la source
Le modèle de rapport de cotes proportionnel est meilleur que le test t pour l'échelle des éléments de Likert.
la source
J'essaierai d'expliquer le modèle de rapport de cotes proportionnel dans ce contexte puisqu'il a été suggéré et indiqué dans au moins 2 réponses à cette question.
Le test de score d'un modèle de cotes proportionnelles est équivalent au test de somme de rang de Wilcoxon.
Plus précisément, la statistique du test de score pour aucun effet d'une covariable dichotomique unique dans un modèle de régression logistique cumulative à cotes proportionnelles (McCullagh 1980) pour le résultat ordinale s'est avérée être égale à la statistique du test de somme de rang de Wilcoxon. (Preuve dans une extension du test de Wilcoxon Rank-Sum pour des données d'enquête d'échantillons complexes .)
Tout comme le test de somme de rang de Wilcoxon, ce test détecte si deux échantillons ont été tirés de distributions différentes, quelles que soient les valeurs attendues.
Ce test n'est pas valide si vous voulez seulement détecter si deux échantillons ont été tirés de distributions avec des valeurs attendues différentes, tout comme le test de somme de rang de Wilcoxon.
la source