Une sixième option de réponse («Je ne sais pas») a été ajoutée à une échelle de Likert à 5 points. Les données sont-elles perdues?

16

J'ai besoin d'un peu d'aide pour récupérer les données d'un questionnaire.

Un de mes collègues a appliqué un questionnaire, mais par inadvertance, au lieu d'utiliser l'échelle originale de Likert en 5 points (fortement en désaccord à fortement d'accord), il a inséré une 6ème réponse dans l'échelle. Et, pour aggraver la situation, la sixième option de réponse est… «Je ne sais pas».

Le problème est la grande proportion de répondants qui, à un moment ou à un autre, ont choisi «Je ne sais pas». S'ils représentaient un pourcentage raisonnablement faible, je les aurais simplement exclus de la base de données. Cependant, le cœur de la recherche repose sur un modèle conceptuel, et l'exclusion d'un si grand nombre d'enregistrements créerait un problème pour le modèle.

Quelqu'un pourrait-il m'orienter dans la bonne direction ici? Existe-t-il des «bonnes pratiques», ou puis-je faire quelque chose pour utiliser (transformer, convertir, etc.) ces réponses «je ne sais pas»?

De plus, si je manipule les données en question (c'est-à-dire si je convertis les réponses "je ne sais pas", par substitution, imputation, etc.), quel type de "clause de non-responsabilité", "avertissement", annotation, dois-je utiliser?

Je sais que c'est loin, mais j'avoue qu'en plus de récupérer les réponses, je suis également curieux de savoir quelle est la pratique convenue (s'il y en a une), dans ce type de cas.

PS: Je sais que cela semble enfantin, mais non, le «collègue» n'est pas moi :)

rationaliser
la source
22
Imaginez que votre collègue n'ait pas inclus la catégorie Je ne sais pas. Qu'auraient répondu ces personnes? Peut-être qu'ils auraient coché une catégorie au hasard, peut-être qu'ils l'auraient laissée en blanc. Vous savez maintenant que vos variables sont problématiques et prenez une décision éclairée. Vu sous cet angle, le collègue vous a rendu service.
Maarten Buis
Eh bien, pour ce qui est de me gratter la tête, il m'a effectivement rendu service ... Vous avez raison sur le caractère aléatoire des réponses, et cela pourrait être une approche pour l'imputation, cependant, je me demandais s'il y avait une bonne pratiques ou au moins quelques expériences similaires
rationalisez le
4
Je trouve les questionnaires qui n'ont pas une telle option « je ne sais pas » particulièrement frustrants (surtout lorsque vous ne pouvez pas soumettre sans choisir quelque chose). Disons simplement que vous posez une question comme " Les nouvelles fonctionnalités de cette fusée spatiale sont une amélioration ", et ensuite vous êtes obligé d'être neutre au mieux, certaines personnes peuvent alors interpréter ce type d'enquêtes et conclure "Nous avons demandé à 1000 100% des gens, et cela ne me dérangeait pas ... ", alors qu'en pratique, cette fonctionnalité pourrait être une erreur complète pour ceux qui l'utilisent. Dans ces cas, cela ressemble presque à une approbation silencieuse pour quelque chose que je n'ai pas utilisé.
Bruno
3
Pour être plus clair: si le modèle suppose que l'échelle à 5 points peut représenter les opinions des répondants, alors vos données prouvent que le modèle est inadéquat . Si c'était correct, vous auriez un nombre négligeable de "je ne sais pas", car les gens auraient pu répondre 1-5. Donc, ces données "créeraient un problème pour le modèle" comme l'orbite de Mercure crée un problème pour la physique newtonienne. J'aurais pensé que votre seule issue est si le point médian est «ni d'accord ni en désaccord» et vous pouvez faire valoir que «je ne sais pas» est redondant avec la même signification que celle-ci.
Steve Jessop
Salut, @SteveJessop, alors qu'en théorie / en principe, vous avez raison sur le nombre de réponses DK comme étant indicatif d'un problème avec le questionnaire (pas le modèle, attention, le modèle n'est pas CFA pour l'échelle, mais régression pour un tas de variables, y compris l'échelle), il est encore un peu fort de l'appeler inadéquat. Je ferai les analyses d'échelle et verrai, et c'est vrai, le nombre de cisaillement des réponses DK peut s'avérer problématique. Cependant, cela peut aussi signifier que le répondant n'a pas eu envie de répondre (incidemment, la grande majorité des réponses DK proviennent d'un groupe d'étudiants après un examen ...)
rationaliser le

Réponses:

28

Pourquoi essayer de forcer un étalonnage sur quelque chose qui n'est pas vrai? Comme l'a dit Maarten, il ne s'agit pas d'une perte de données mais d'un gain d'informations. Si la pilule magique que vous recherchez existe, cela signifierait qu'il existe certaines hypothèses sur votre population qui sont faites, par exemple, un biais en faveur d'une étiquette particulière même si les utilisateurs disent "je ne sais pas".

Je comprends parfaitement votre frustration, mais la bonne façon d'aborder le problème est de modifier le modèle en fonction de vos besoins en fonction des vraies données existantes, et non l'inverse (modification des données).

Hatim Khouzaimi
la source
Salut, Hatim, je ne pense pas qu'il soit possible de modifier le modèle. L'échelle est ordinale et suppose un choix raisonné et explicite, tandis que la sixième réponse, «je ne sais pas», peut être interprétée de plusieurs façons. Cela peut signifier que «je n'ai jamais rencontré cette situation / je ne me souviens pas», cela peut représenter un choix «intermédiaire» d'une certaine sorte. Une telle interprétation / hypothèse en mon nom serait présomptueuse et non fondée. La réponse de Maarten faisait référence à un "gain" d'informations, ce qui, je suppose, peut être utilisé pour une imputation "aléatoire" spécifique, mais ce n'est pas ce que vous dites - "modifier le modèle".
rationalisez le
suite ... Cependant, bien que j'aie été et suis toujours tenté d'étudier plus avant une telle imputation "aléatoire", le grand volume de réponses "je ne sais pas" me fait craindre que les vraies (authentiques) relations entre variables modifié.
rationaliser le
8
+1. Je sais que c'est inconfortable, mais vous [l'OP] avez le choix entre trouver un autre ensemble de données si vous voulez tester ce modèle ou modifier l'analyse prévue. Vous avez posé la question en espérant des réponses différentes, mais il n'y en a pas, à mon avis, qui soient défendables. Si j'étais un répondant à un tel questionnaire, je me sentirais offensé par la distorsion et le manque de confiance en essayant de traiter mon Ne sait pas comme autre chose. En fait, en tant que consommateur occasionnel de recherche sociale, je suis aussi déconcerté.
Nick Cox
1
Vous avez naturellement raison que cela soit déjà arrivé, et à plusieurs reprises. C'est pourquoi ceux qui ont une certaine expérience de projets qui ont été détournés ou compliqués par des problèmes imprévus peuvent dire, donc, l'analyse sera différente et le document ne sera pas aussi imaginé. Ou même, parfois, les projets ne fonctionnent tout simplement pas, alors voilà. (Si d'une manière ou d'une autre vous êtes sous instruction ou contraint de suivre, c'est particulièrement malheureux, mais cela n'affecte pas mes conseils sur la façon d'y penser.)
Nick Cox
8
@ user2836366 Je ne comprends pas vos affirmations selon lesquelles le modèle ne peut pas être modifié. Certes, «Je ne sais pas» ne fait pas partie de la collection ordinale de réponses, mais c'est tout à fait pertinent; "Je ne sais pas" implique que pour une raison quelconque (y compris savoir réellement savoir), la personne n'a pas choisi l'une des réponses ordinales. Ainsi, une telle modification est que vous pourriez avoir un modèle pour ce processus (choisissez "ne sais pas" vs "a choisi l'une des autres options"), puis le modèle habituel pour les cas de la deuxième catégorie. Ces modèles peuvent être quelque peu similaires aux modèles d'obstacles ou aux modèles à gonflage nul.
Glen_b -Reinstate Monica
10

S'il s'agissait d'un questionnaire standardisé qui a été validé indépendamment, vous ne pouvez pas prétendre que le nouveau questionnaire est équivalent et que les données ne sont plus comparables. Vous pouvez essayer de valider et d'examiner le questionnaire dans des expériences distinctes (très chronophages et d'efforts, surtout si vous voulez également montrer la comparabilité avec l'ancienne version) ou tout simplement accepter que vous avez affaire à une qualité de preuve inférieure (puisque vos données viennent à partir d'un questionnaire non validé).

Lorsque vous utilisez vos données, vous devrez prendre en compte le changement. Face à une question d'attitude, les gens ne vous donnent pas une réponse "objectivement vraie", ils vous donnent la réponse qu'ils pensent être vraie - et cela est certainement influencé à la fois par les options de réponse disponibles (ils "normalisent" leurs réponses à l'échelle) et aux connaissances qu'ils ont sur le sujet (il existe des biais connus qui fonctionnent différemment, parfois dans des directions différentes (!) selon que le participant a peu ou pas de connaissances sur le sujet).

Donc, si nous avons affaire à un quesitonnaire établi, vous avez la bonne option pour une comparaison entre votre version du questionnaire et l'original. Si l'original supposait que les gens savent ce qu'ils sélectionnent, et il s'avère qu'ils ne le savent pas, vous pouvez discuter de la façon dont l'ancien modèle est basé sur de fausses hypothèses et quelles en sont les conséquences. Notez qu'il s'agit d'une découverte "latérale", ce qui constitue une nouvelle question de recherche intéressante, mais vous éloigne de l'original, et montre en effet que répondre à l'original est beaucoup plus difficile que prévu, donc cela multiplie certainement votre travail.

Si vous ne traitez pas avec un questionnaire établi, vous pouvez rouler avec le flux et prétendre que votre questionnaire ad hoc a été planifié de cette façon, et évaluer les résultats en conséquence. Encore une fois, cela pourrait signifier que les résultats que vous espériez ne peuvent pas être obtenus avec cette méthode, mais c'est aussi une chose importante à savoir.

Pour bien comprendre comment le libellé et les options influencent la façon dont les questionnaires sont répondus, je suggère de lire «Psychologie de la réponse à l'enquête» de Tourangeau et al. C'est une excellente lecture pour tous ceux qui créent un questionnaire.

rumtscho
la source
2

Si vous demandez à combien d'enfants le répondant a accouché, les réponses «zéro» et «sans objet» ne signifieraient pas strictement la même chose, car les hommes ne peuvent pas accoucher.

Dans certains contextes, assimiler «Je ne sais pas» à la réponse neutre pourrait également être une erreur conceptuelle.

En fait, vous avez deux questions: un dichotome "Avez-vous une opinion?" et un ordinal "Qu'est-ce que c'est?", tout comme, ci-dessus, vous avez implicitement "Êtes-vous une femme?" au-delà de votre question explicite.

Bien sûr, vous pouvez introduire certaines hypothèses (parfois correctement, parfois juste pour des raisons de commodité, parfois forcément) pour vous permettre une modélisation, mais je ne vois aucune stratégie universellement applicable sans entrer dans le domaine des spécificités de votre phénomène.

Comme dernier point à considérer, il ne serait pas logique d'essayer de déduire à la population masculine quoi que ce soit des réponses sur la fécondité féminine.

Marcelo Ventura
la source
2

Le dilemme de savoir si l'on doit inclure ou non l'option de réponse Ne sait pas dans un questionnaire composé d'échelles de notation de type Likert est éternel. Souvent, lorsque les éléments portent sur l'opinion, le DK est inclus car le fait de ne pas avoir d'opinion est un statut important en soi et l'option en tant que telle est attendue par les répondants. Dans les inventaires de traits personnels où les gens attribuent des qualités à une option DK cible est généralement abandonné parce qu'un répondant devrait normalement être en mesure d'évaluer l'étendue de l'affinité d'une caractéristique (c.-à-d. Que le répondant est toujours considéré comme qualifié); et quand il rencontre parfois des difficultés, il est autorisé (par instruction) à sauter cet élément. Dans les inventaires de traits personnels où les gens décrivent une cible (éléments comportementaux) NSP (ou ne pas ''

@Hatim dans sa réponse, @Maarten et certains autres commentateurs de la question OP ont raisonnablement mis en évidence qu'une grande quantité de réponses NSP observées dans l'étude actuelle indiquent des problèmes (validité du contenu ou valeur faciale) dans les éléments ou que les sujets ne font pas '' t cadrer avec le questionnaire qui leur a été commandé.

Mais vous ne pouvez jamais raconter l'histoire, en fin de compte, l'interprétation de l'obstacle est sur vous (à moins que vous ne l'abordiez dans une enquête distincte). On pourrait prétendre, par exemple, que l'inclusion de l'option DK dans les likerts dans ce questionnaire (disons, c'est un inventaire d'attribution des traits) sert mal, pas bien. Il ne vous a pas donné d'informations (dont disent les commentateurs it proves that the [rating] model is inadequate), mais a plutôt distrait / séduit un répondant. Qu'il ne soit pas fourni, la décision de notation guidée par le schéma implicite des traits cognitifs aurait pu être obtenue; mais voir l'option de refroidissement empêche le schéma et oblige à se retirer à la hâte.

Si vous admettez en outre - sur votre risque, mais pourquoi pas? - qu'un sujet facilement distrait ou paresseux est celui dont le potentiel, la vue retenue est valide mais a tendance à être faiblement différenciée - c'est-à-dire qu'il invoquerait facilement le das Man conventionnel , à la place du schéma personnel Erlebnis - alors vous pouvez provisoirement spéculer que sa réponse manquante se situe autour de la moyenne de l'échantillon ou de la population pour cet élément. Dans l'affirmative, pourquoi ne pas vouloir dire (+ bruit) substitution des réponses manquantes? Vous pouvez également effectuer une imputation EM ou régressive (+ bruit) pour prendre en compte les corrélations.

Pour répéter: la décision d'imputation est possible mais risquée et peu probable, compte tenu de la grande quantité de données manquantes, de restaurer "véritablement" les données absentes. Comme l'a dit @rumtscho, il est certain que le nouveau questionnaire avec DK n'est pas équivalent à celui d'origine sans DK, et les données ne sont plus comparables.

C'étaient des spéculations. Mais tout d'abord, vous devez essayer d'enquêter sur les schémas de disparition observés. Qui sont ces sujets qui ont choisi DK? Se regroupent-ils en sous-types? En quoi diffèrent-ils sur le reste des articles du sous-échantillon "OK"? Certains logiciels ont un package Missing Value Analysis. Ensuite, vous pouvez décider de supprimer les personnes en tout ou en partie, ou de les imputer, ou de les analyser comme un sous-échantillon séparé.

PS Notez également que les répondants sont "stupides". Ils se mélangent souvent avec les notes de l'échelle. Par exemple, si le point DK était placé près d'un pôle de l'échelle, il serait souvent confondu par inattention avec ce pôle. Je ne plaisante pas.

ttnphns
la source
Salut, @ttnphns, Eh bien, votre réponse est trop longue pour la prendre point par point (j'ai déjà commenté les autres réponses sur certains des points que vous avez soulevés ici). Pour être honnête, je devrai le relire plusieurs fois. Cependant, il répond à tout ce que je voulais.
rationaliser le
0

Vous avez maintenant des répondants auto-sélectionnés pour avoir une opinion sur la question. Tout ce que vous concluez concernera uniquement ces personnes. Cela pourrait être OK, car interroger ces «ne sait pas» est par définition moins utile.

Aaron Brick
la source
2
Drôle, mais trop pessimiste. Ces gens ont présenté des arguments sur ce que l'on peut, ne peut pas, devrait, ne doit pas faire, et ce sont les arguments qui doivent être pesés. La même réponse pourrait être donnée sur n'importe quel sujet ici, mais ceux qui ne prennent pas la parole n'ont pas leur mot à dire.
Nick Cox