Peut-on valablement réduire le nombre d'articles dans une échelle de Likert publiée?

11

[modifications apportées en réponse aux commentaires - merci :-)]

Ah! Plus de modifications! Pardon!

Bonjour-

Je fais une collecte de données assez approximative et prête avec une enquête envoyée au personnel de santé en utilisant une échelle publiée sur le moral et d'autres problèmes de ce type.

La seule chose est que l'échelle est assez longue avec toutes les autres choses dans l'enquête et je voudrais réduire sa taille en coupant chaque sous-échelle en deux et en n'utilisant que la moitié des éléments. Mon intuition est que c'est bien, car les sous-échelles sont intercorrélées, et même si ce n'est pas idéal pour la recherche standard de publication, c'est correct juste pour un peu de recherche de faits intra-organisationnelle.

Je me demandais si quelqu'un avait des réflexions sur la validité de cela, des pièges ou autre chose. Les références sont particulièrement appréciées car mes collègues auront besoin d'être convaincus!

Merci beaucoup, Chris B

modifications-

Oui, c'est une échelle validée avec des propriétés psychométriques connues.

C'est unidimensionnel et il a des sous-échelles, si c'est la bonne façon de le dire.

Je travaillerai au niveau de la sous-échelle et du total, pas au niveau de l'élément.

30 articles, probablement environ 40 à 60 individus.

À votre santé!

Chris Beeley
la source
S'agit-il d'une échelle validée, aux propriétés psychométriques connues?
chl
Salut Chris, vous ne réduisez donc pas le nombre d'articles dans une échelle de likert, mais plutôt en utilisant moins de questions / articles (qui sont mesurés sur une échelle de likert). En général, il semble que cela dépend de vos mesures. Vous pouvez vérifier la corrélation des éléments que vous avez l'intention de supprimer avec ceux que vous conservez. C'est en fait une façon intéressante de mesurer la quantité à retirer - il pourrait être utile de recadrer la question de cette façon (si vous ne le faites pas, je pourrais le faire plus tard). Bonne question :)
Tal Galili
Trois questions supplémentaires: (1) S'agit-il d'une échelle unidimensionnelle ou y a-t-il plusieurs sous-échelles, (2) Quel est le nombre d'individus et le nombre d'articles, et (3) Travaillez-vous au niveau des articles, ou un total ou score moyen?
chl

Réponses:

11

Bien qu'il manque encore certaines informations (nombre d'individus et d'éléments par sous-échelle), voici quelques conseils généraux sur la réduction d'échelle. De plus, comme vous travaillez au niveau du questionnaire, je ne vois pas pourquoi sa longueur est si importante (après tout, vous allez simplement donner des statistiques résumées, comme les scores totaux ou moyens).

Je suppose que (a) vous avez un ensemble de K éléments mesurant une construction liée au moral, (b) votre échelle "unidimensionnelle" est un facteur de second ordre qui pourrait être subdivisé en différentes facettes, (c) vous voudriez réduisez votre échelle à k <K éléments afin de résumer avec suffisamment de précision les scores totaux des sujets tout en préservant la validité du contenu de l'échelle.

A propos de la validité du contenu / construction de cette échelle validée: Le nombre d'articles a certainement été choisi de manière à refléter au mieux la construction d'intérêt. En raccourcissant le questionnaire, vous réduisez en fait la couverture de la construction. Il serait bon de vérifier que la structure factorielle reste la même lorsque l'on considère seulement la moitié des éléments (ce qui pourrait également avoir un impact sur la façon dont vous les sélectionnez, après tout). Cela peut être fait en utilisant les techniques traditionnelles de FA. Vous avez la responsabilité d'interpréter l'échelle dans un esprit similaire à celui des auteurs.

À propos de la fiabilité des scores : Bien qu'il s'agisse d'une mesure dépendante de l'échantillon, la fiabilité des scores diminue lorsque l'on diminue le nombre d'articles (cf. formule de Spearman-Brown ); une autre façon de voir cela est que l'erreur standard de mesure (SEM) augmentera, mais voir un module pédagogique NCME sur l'erreur standard de mesure , par Leo M Harvill. Il va sans dire qu'elle s'applique à chaque indicateur qui dépend du nombre d'éléments (par exemple l'alpha de Cronbach qui peut être utilisé pour estimer une forme de fiabilité, à savoir la cohérence interne). Espérons que cela n'impactera aucune comparaison entre les groupes basée sur les scores bruts.

Donc, mes recommandations (la manière la plus simple) seraient:

  1. Sélectionnez vos articles afin de maximiser la couverture de construction; vérifier la dimensionnalité avec FA et la couverture avec des distributions de réponses univariées;
  2. Comparer les corrélations inter-éléments moyennes à celles rapportées précédemment;
  3. Calculez la cohérence interne pour la pleine échelle et vos composites; vérifier qu'ils sont en accord avec les statistiques publiées sur l'échelle d'origine (pas besoin de tester quoi que ce soit, ce sont des mesures dépendant de l'échantillon);
  4. Tester les corrélations linéaires (ou polychoriques ou de rang) entre les scores originaux et réduits (sous) pour s'assurer qu'ils sont comparables (c.-à-d. Que l'emplacement des individus sur le trait latent ne varie pas dans une large mesure, comme objectivé par les scores bruts );
  5. Si vous avez une variable spécifique à un sujet externe (par exemple, le sexe, l'âge ou mieux une mesure liée au moral), comparez la validité du groupe connu entre les deux formes.

La manière la plus difficile serait de s'appuyer sur la théorie de la réponse aux éléments pour sélectionner les éléments qui contiennent le maximum d'informations sur le trait latent - la réduction de l'échelle est en fait l'une de ses meilleures applications. Les modèles pour les articles polytomiques ont été partiellement décrits dans ce fil, Valider les questionnaires .

Mettre à jour après votre 2e mise à jour

  1. Oubliez tous les modèles IRT pour les articles polytomiques avec si peu de sujets.
  2. L'analyse factorielle souffrira également d'une taille d'échantillon aussi faible; vous obtiendrez des estimations de charges de facteurs peu fiables.
  3. 30 éléments divisés par 2 = 15 éléments (il est facile de se faire une idée de l'augmentation du SEM correspondant pour le score total), mais cela s'aggravera définitivement si vous envisagez des sous-échelles (c'était en fait ma 2e question - Non. par sous-échelle, le cas échéant)
chl
la source
8

Je suppose qu'il n'y a pas de réponse claire "oui / non" à votre question. Si vous supprimez arbitrairement des éléments des sous-échelles pour créer une forme abrégée du questionnaire original, vous perdez la validation psychométrique de la forme longue. Les choses qui peuvent changer sont la structure factorielle du questionnaire, la fiabilité des sous-échelles, les corrélations article-total, etc. (vous remarquerez que je suis habitué à la théorie classique des tests, pas à l'IRT). De plus, vous ne pouvez utiliser aucune standardisation du questionnaire d'origine. C'est pourquoi les formulaires courts de questionnaires établis doivent subir une phase de validation distincte.

Selon vos besoins, tout n'est cependant pas perdu. Il se peut que vous n'ayez pas besoin de normalisation, car vous pouvez uniquement comparer les résultats de votre échantillon sans porter de jugements «absolus» par rapport à une population de référence. À mon humble avis, ce serait un plus si vous aviez la possibilité de valider le formulaire court avec le formulaire original au moins pour un sous-échantillon de votre groupe. Cela peut vous permettre de voir si les résultats sont similaires.

En général cependant, les résultats d'un questionnaire peuvent être étonnamment sensibles à sa composition. Les gens ne remplissent pas robotiquement des questionnaires mais font toutes sortes d'hypothèses tacites et d'inférences cognitives: "de quoi s'agit-il vraiment?", "Que dois-je rapporter ici?", "Que veulent-ils réellement savoir?". Cela peut être fortement influencé par le contexte donné des éléments, cf. Schwarz, N. 1996. Cognition et communication: biais de jugement, méthodes de recherche et logique de la conversation. Mahwah, NJ: Lawrence Erlbaum.

caracal
la source
4

J'ajouterais un point.

Soyez conscient de la distinction entre le groupe (par exemple, la comparaison des moyennes du groupe au fil du temps) et la mesure au niveau individuel (par exemple, la corrélation des scores sur l'échelle avec d'autres échelles au niveau individuel).

La fiabilité s'applique différemment aux deux niveaux. Peut-être que la simplification suivante aide:

  • La fiabilité de la mesure au niveau du groupe est fortement influencée par le nombre de participants que vous avez et le degré de véritable variabilité au niveau du groupe.
  • La fiabilité de la mesure au niveau individuel est fortement influencée par le nombre d'éléments que vous avez et le degré de variation réelle des individus.
Jeromy Anglim
la source