Comment traiter une question d'enquête à réponses multiples?

10

J'ai un ensemble de données demandant aux gens s'ils sont allés à certains endroits (par exemple A, B, C, D), et ils peuvent faire plus d'un choix, puis un échantillon est prélevé de leur nez pour voir s'ils sont infectés par certains maladie.

J'ai besoin de découvrir le risque relatif d'être infecté pour quelqu'un qui va dans un certain endroit, je ne peux que penser à une régression logistique en ce moment, y a-t-il d'autres suggestions?

Merci.

lokheart
la source

Réponses:

2

Vous pouvez toujours utiliser la régression logistique car votre résultat est dichotomique, infecté vs non infecté. Je prendrais simplement une approche de variable fictive et n'utiliserais aucun voyage comme catégorie de référence (c'est-à-dire que pour chacun de vos endroits, vous avez une variable codée 1 s'ils visitent cet endroit et codée 0 si ils ne visitent pas cet endroit). En tant que tel, si vous transformez vos coefficients bêta en cotes (c'est-à-dire en exposant les cotes du journal), l'interprétation de la variable fictive pour l'emplacement A serait le rapport de cotes de l'emplacement A visité par rapport à l'emplacement A non contrôlé en contrôlant les autres endroits visités. Notez également que dans cette approche, la multicolinéarité est une préoccupation (par exemple, si de nombreuses personnes qui se rendent à A se rendent également à B, cela peut biaiser chacun de leurs coefficients).

Andy W
la source
5
Ce modèle suppose que la réponse est une fonction additive du déplacement à chaque endroit, ce qui est hautement improbable. Il peut toujours être fait fonctionner en incluant des termes d'interaction. Un ensemble complet de toutes les interactions possibles pourrait être nécessaire (au-delà des interactions bidirectionnelles). (Ce serait mathématiquement identique à fournir un mannequin séparé pour chaque combinaison possible de destinations.)
whuber
4
Mieux vaut avoir beaucoup de données si vous utilisez toutes les interactions (15 paramètres) plutôt que juste les effets principaux (4 paramètres) ...
Stephan Kolassa
@whuber et @Stephen, Merci pour les réponses, et je suis entièrement d'accord avec chacun de vous. Personnellement, je serais d'accord avec l'approche des variables factices des principaux effets si les réponses multiples n'étaient pas si courantes, ce qui n'est peut-être pas une hypothèse défendable compte tenu des préoccupations des affiches originales. Je proposerais peut-être d'autres conceptions si l'affiche originale était intéressée par le risque de voyager en A vs B (comme un certain type de procédure d'appariement). Et je conviens que le risque additif n'a de sens que si un biais de sélection se produit.
Andy W