J'ai besoin d'un peu d'aide pour récupérer les données d'un questionnaire.
Un de mes collègues a appliqué un questionnaire, mais par inadvertance, au lieu d'utiliser l'échelle originale de Likert en 5 points (fortement en désaccord à fortement d'accord), il a inséré une 6ème réponse dans l'échelle. Et, pour aggraver la situation, la sixième option de réponse est… «Je ne sais pas».
Le problème est la grande proportion de répondants qui, à un moment ou à un autre, ont choisi «Je ne sais pas». S'ils représentaient un pourcentage raisonnablement faible, je les aurais simplement exclus de la base de données. Cependant, le cœur de la recherche repose sur un modèle conceptuel, et l'exclusion d'un si grand nombre d'enregistrements créerait un problème pour le modèle.
Quelqu'un pourrait-il m'orienter dans la bonne direction ici? Existe-t-il des «bonnes pratiques», ou puis-je faire quelque chose pour utiliser (transformer, convertir, etc.) ces réponses «je ne sais pas»?
De plus, si je manipule les données en question (c'est-à-dire si je convertis les réponses "je ne sais pas", par substitution, imputation, etc.), quel type de "clause de non-responsabilité", "avertissement", annotation, dois-je utiliser?
Je sais que c'est loin, mais j'avoue qu'en plus de récupérer les réponses, je suis également curieux de savoir quelle est la pratique convenue (s'il y en a une), dans ce type de cas.
PS: Je sais que cela semble enfantin, mais non, le «collègue» n'est pas moi :)
la source
Réponses:
Pourquoi essayer de forcer un étalonnage sur quelque chose qui n'est pas vrai? Comme l'a dit Maarten, il ne s'agit pas d'une perte de données mais d'un gain d'informations. Si la pilule magique que vous recherchez existe, cela signifierait qu'il existe certaines hypothèses sur votre population qui sont faites, par exemple, un biais en faveur d'une étiquette particulière même si les utilisateurs disent "je ne sais pas".
Je comprends parfaitement votre frustration, mais la bonne façon d'aborder le problème est de modifier le modèle en fonction de vos besoins en fonction des vraies données existantes, et non l'inverse (modification des données).
la source
S'il s'agissait d'un questionnaire standardisé qui a été validé indépendamment, vous ne pouvez pas prétendre que le nouveau questionnaire est équivalent et que les données ne sont plus comparables. Vous pouvez essayer de valider et d'examiner le questionnaire dans des expériences distinctes (très chronophages et d'efforts, surtout si vous voulez également montrer la comparabilité avec l'ancienne version) ou tout simplement accepter que vous avez affaire à une qualité de preuve inférieure (puisque vos données viennent à partir d'un questionnaire non validé).
Lorsque vous utilisez vos données, vous devrez prendre en compte le changement. Face à une question d'attitude, les gens ne vous donnent pas une réponse "objectivement vraie", ils vous donnent la réponse qu'ils pensent être vraie - et cela est certainement influencé à la fois par les options de réponse disponibles (ils "normalisent" leurs réponses à l'échelle) et aux connaissances qu'ils ont sur le sujet (il existe des biais connus qui fonctionnent différemment, parfois dans des directions différentes (!) selon que le participant a peu ou pas de connaissances sur le sujet).
Donc, si nous avons affaire à un quesitonnaire établi, vous avez la bonne option pour une comparaison entre votre version du questionnaire et l'original. Si l'original supposait que les gens savent ce qu'ils sélectionnent, et il s'avère qu'ils ne le savent pas, vous pouvez discuter de la façon dont l'ancien modèle est basé sur de fausses hypothèses et quelles en sont les conséquences. Notez qu'il s'agit d'une découverte "latérale", ce qui constitue une nouvelle question de recherche intéressante, mais vous éloigne de l'original, et montre en effet que répondre à l'original est beaucoup plus difficile que prévu, donc cela multiplie certainement votre travail.
Si vous ne traitez pas avec un questionnaire établi, vous pouvez rouler avec le flux et prétendre que votre questionnaire ad hoc a été planifié de cette façon, et évaluer les résultats en conséquence. Encore une fois, cela pourrait signifier que les résultats que vous espériez ne peuvent pas être obtenus avec cette méthode, mais c'est aussi une chose importante à savoir.
Pour bien comprendre comment le libellé et les options influencent la façon dont les questionnaires sont répondus, je suggère de lire «Psychologie de la réponse à l'enquête» de Tourangeau et al. C'est une excellente lecture pour tous ceux qui créent un questionnaire.
la source
Si vous demandez à combien d'enfants le répondant a accouché, les réponses «zéro» et «sans objet» ne signifieraient pas strictement la même chose, car les hommes ne peuvent pas accoucher.
Dans certains contextes, assimiler «Je ne sais pas» à la réponse neutre pourrait également être une erreur conceptuelle.
En fait, vous avez deux questions: un dichotome "Avez-vous une opinion?" et un ordinal "Qu'est-ce que c'est?", tout comme, ci-dessus, vous avez implicitement "Êtes-vous une femme?" au-delà de votre question explicite.
Bien sûr, vous pouvez introduire certaines hypothèses (parfois correctement, parfois juste pour des raisons de commodité, parfois forcément) pour vous permettre une modélisation, mais je ne vois aucune stratégie universellement applicable sans entrer dans le domaine des spécificités de votre phénomène.
Comme dernier point à considérer, il ne serait pas logique d'essayer de déduire à la population masculine quoi que ce soit des réponses sur la fécondité féminine.
la source
Le dilemme de savoir si l'on doit inclure ou non l'option de réponse Ne sait pas dans un questionnaire composé d'échelles de notation de type Likert est éternel. Souvent, lorsque les éléments portent sur l'opinion, le DK est inclus car le fait de ne pas avoir d'opinion est un statut important en soi et l'option en tant que telle est attendue par les répondants. Dans les inventaires de traits personnels où les gens attribuent des qualités à une option DK cible est généralement abandonné parce qu'un répondant devrait normalement être en mesure d'évaluer l'étendue de l'affinité d'une caractéristique (c.-à-d. Que le répondant est toujours considéré comme qualifié); et quand il rencontre parfois des difficultés, il est autorisé (par instruction) à sauter cet élément. Dans les inventaires de traits personnels où les gens décrivent une cible (éléments comportementaux) NSP (ou ne pas ''
@Hatim dans sa réponse, @Maarten et certains autres commentateurs de la question OP ont raisonnablement mis en évidence qu'une grande quantité de réponses NSP observées dans l'étude actuelle indiquent des problèmes (validité du contenu ou valeur faciale) dans les éléments ou que les sujets ne font pas '' t cadrer avec le questionnaire qui leur a été commandé.
Mais vous ne pouvez jamais raconter l'histoire, en fin de compte, l'interprétation de l'obstacle est sur vous (à moins que vous ne l'abordiez dans une enquête distincte). On pourrait prétendre, par exemple, que l'inclusion de l'option DK dans les likerts dans ce questionnaire (disons, c'est un inventaire d'attribution des traits) sert mal, pas bien. Il ne vous a pas donné d'informations (dont disent les commentateurs
it proves that the [rating] model is inadequate
), mais a plutôt distrait / séduit un répondant. Qu'il ne soit pas fourni, la décision de notation guidée par le schéma implicite des traits cognitifs aurait pu être obtenue; mais voir l'option de refroidissement empêche le schéma et oblige à se retirer à la hâte.Si vous admettez en outre - sur votre risque, mais pourquoi pas? - qu'un sujet facilement distrait ou paresseux est celui dont le potentiel, la vue retenue est valide mais a tendance à être faiblement différenciée - c'est-à-dire qu'il invoquerait facilement le das Man conventionnel , à la place du schéma personnel Erlebnis - alors vous pouvez provisoirement spéculer que sa réponse manquante se situe autour de la moyenne de l'échantillon ou de la population pour cet élément. Dans l'affirmative, pourquoi ne pas vouloir dire (+ bruit) substitution des réponses manquantes? Vous pouvez également effectuer une imputation EM ou régressive (+ bruit) pour prendre en compte les corrélations.
Pour répéter: la décision d'imputation est possible mais risquée et peu probable, compte tenu de la grande quantité de données manquantes, de restaurer "véritablement" les données absentes. Comme l'a dit @rumtscho, il est certain que le nouveau questionnaire avec DK n'est pas équivalent à celui d'origine sans DK, et les données ne sont plus comparables.
C'étaient des spéculations. Mais tout d'abord, vous devez essayer d'enquêter sur les schémas de disparition observés. Qui sont ces sujets qui ont choisi DK? Se regroupent-ils en sous-types? En quoi diffèrent-ils sur le reste des articles du sous-échantillon "OK"? Certains logiciels ont un package Missing Value Analysis. Ensuite, vous pouvez décider de supprimer les personnes en tout ou en partie, ou de les imputer, ou de les analyser comme un sous-échantillon séparé.
PS Notez également que les répondants sont "stupides". Ils se mélangent souvent avec les notes de l'échelle. Par exemple, si le point DK était placé près d'un pôle de l'échelle, il serait souvent confondu par inattention avec ce pôle. Je ne plaisante pas.
la source
Vous avez maintenant des répondants auto-sélectionnés pour avoir une opinion sur la question. Tout ce que vous concluez concernera uniquement ces personnes. Cela pourrait être OK, car interroger ces «ne sait pas» est par définition moins utile.
la source