Importance statistique des changements dans le temps sur un article de Likert à 5 points

Le contexte:

J'ai deux ensembles de données provenant du même questionnaire sur deux ans. Chaque question est mesurée à l'aide d'une échelle de 5 Likert.

Q1: Schéma de codage

Pour le moment, j'ai codé mes réponses sur un intervalle [0, 1], 0 signifiant "la réponse la plus négative", 1 signifiant "la réponse la plus positive", et les autres réponses espacées également.

Quel est le "meilleur" schéma de codage à utiliser pour l'échelle de Likert?

Je me rends compte que cela pourrait être un peu subjectif.

Q2: Importance sur plusieurs années

Quelle est la meilleure façon de déterminer s'il y a un changement statistiquement significatif au cours des deux années?

Autrement dit, en regardant les résultats de la question 1 pour chaque année, comment puis-je savoir si la différence entre le résultat de 2011 et le résultat de 2010 est statistiquement significative? J'ai un vague souvenir du test t de Student utilisé ici, mais je ne suis pas sûr.

statistical-significance likert Mac
la source

Réponses:

1. Schéma de codage

En termes d'évaluation de la signification statistique à l'aide d'un test t, ce sont les distances relatives entre les points d'échelle qui importent. Ainsi, (0, 0,25, 0,5, 0,75, 1) est équivalent à (1, 2, 3, 4, 5). D'après mon expérience, un schéma de codage à distance égale, comme ceux mentionnés précédemment, est le plus courant et semble raisonnable pour les articles Likert. Si vous explorez une mise à l'échelle optimale, vous pourrez peut-être dériver un autre schéma de codage.

2. Test statistique

La question de savoir comment évaluer les différences de groupe sur un article Likert a déjà été répondue ici .

Le premier problème est de savoir si vous pouvez lier des observations entre les deux points dans le temps. On dirait que vous aviez un échantillon différent. Cela conduit à quelques options:

Test t pour les groupes indépendants : il s'agit d'une option simple; il teste également les différences dans les moyennes des groupes; les puristes soutiendront que la valeur de p peut ne pas être entièrement exacte; cependant, selon vos objectifs, cela peut être suffisant.
Test bootstrap des différences dans les moyennes de groupe : si vous voulez toujours tester les différences entre les moyennes de groupe mais n'êtes pas à l'aise avec la nature discrète de la variable dépendante, vous pouvez utiliser un bootstrap pour générer des intervalles de confiance à partir desquels vous pouvez tirer des inférences sur les changements dans les moyennes de groupe .
Test de Mann-Whitney U (entre autres tests non paramétriques): un tel test ne suppose pas de normalité, mais il teste également une hypothèse différente.

Jeromy Anglim
la source

Donc, en un mot, vous ne voyez rien de mal à ce que j'ai proposé (codage à distance égale, test de signification du test t), à part d'autres options qui peuvent être plus précises?

Mac

@Mac À mon avis, venant plus d'un point de vue appliqué, c'est une approche simple, facile à comprendre, facile à communiquer et généralement raisonnable. Cependant, il est souvent utile d'envisager de mesurer les constructions d'intérêt à l'aide d'échelles plutôt que d'éléments individuels.

Jeromy Anglim

D'accord. Cependant, je crois que pour ce dont j'ai besoin, cela fera l'affaire. Merci beaucoup!

Mac

juste pour noter que le test t peut être assez sensible aux différences de variance, donc ce serait probablement quelque chose à vérifier avant de prendre votre décision finale

richiemorrisroe

@Mac / cc @richiemorrisroe À mon avis, en dehors de l'hypothèse d'homoscédasticité (qui est quelque peu contournée par le test t de Welch), le problème est principalement lié aux distributions de réponses asymétriques (effet de plafond ou de plancher), qui surviennent souvent lors de l'utilisation d'éléments Likert.

chl

Le test de Wilcoxon Ranksum alias Mann-Whitney est la voie à suivre dans le cas de données ordinales. La solution d'amorçage est également élégante bien que ce ne soit pas la voie «classique». La méthode Bootstrapping peut également être utile si vous visez d'autres choses comme l'analyse factorielle. En cas d'analyse de régression, vous pouvez choisir un probit ordonné ou un logit ordonné comme spécification de modèle.

BTW: Si votre échelle a une plage plus large (> 10 valeurs par variable), vous pouvez utiliser les résultats comme une variable métrique, ce qui fait d'un test t un choix sûr. Soyez avisé que c'est un peu sale et peut être considéré comme le travail du diable par certains.

stephan

la source

Pourriez-vous développer comment le bootstrap fournirait une approche plus intéressante pour l'analyse factorielle?

chl

Je serais intéressé à en savoir plus sur les raisons pour lesquelles le test de Mann-Whitney serait préféré à un test t ici.

whuber