Expliquer l'ajustement du modèle, en anglais simple

14

En lisant sur les méthodes et les résultats de l'analyse statistique, notamment en épidémiologie, j'entends très souvent parler d' ajustement ou de contrôle des modèles.

Comment expliqueriez-vous, à un non-statisticien, le but de cela? Comment interprétez-vous vos résultats après avoir contrôlé certaines variables?

Une petite visite guidée dans Stata ou R, ou un pointeur vers une ligne, serait un véritable joyau.

radek
la source

Réponses:

29

Plus simple à expliquer à titre d'exemple:

L'étude Imagine révèle que les personnes qui ont regardé la finale de la Coupe du monde étaient plus susceptibles de souffrir d'une crise cardiaque pendant le match ou dans les 24 heures suivantes que celles qui ne l'ont pas regardée. Le gouvernement devrait-il interdire le football à la télévision? Mais les hommes sont plus susceptibles de regarder le football que les femmes, et les hommes sont également plus susceptibles d'avoir une crise cardiaque que les femmes. Ainsi, l' association entre l'observation du football et les crises cardiaques pourrait s'expliquer par un troisième facteur tel que le sexe qui affecte les deux. (Les sociologues distingueraient ici le sexe , une construction culturelle associée à l'observation du football, et le sexe, une catégorie biologique qui est associée à l'incidence des crises cardiaques, mais les deux sont clairement très fortement corrélées, donc je vais ignorer cette distinction pour des raisons de simplicité.)

Les statisticiens, et en particulier les épidémiologistes, appellent ce troisième facteur un facteur de confusion et le phénomène de confusion . La façon la plus évidente d'éliminer le problème est d'examiner l'association entre l'observation du football et l'incidence des crises cardiaques chez les hommes et les femmes séparément, ou dans le jargon, pour stratifier par sexe. Si nous constatons que l'association (s'il en existe encore une) est similaire chez les deux sexes, nous pouvons alors choisir de combiner les deux estimations de l'association entre les deux sexes. L'estimation résultante de l'association entre l'observation du football et l'incidence des crises cardiaques serait ensuite ajustée ou contrôlée pour le sexe.

Nous souhaiterions probablement également contrôler d'autres facteurs de la même manière. L'âge en est un autre évident (en fait, les épidémiologistes stratifient ou ajustent / contrôlent presque toutes les associations selon l'âge et le sexe). La classe socio-économique en est probablement une autre. D'autres peuvent devenir plus difficiles, par exemple devrions-nous nous adapter à la consommation de bière tout en regardant le match? Peut-être que oui, si nous sommes intéressés par l'effet du stress de regarder le match seul; mais peut-être que non, si nous envisageons d'interdire la diffusion de la Coupe du monde de football et que cela réduirait également la consommation de bière. Que la variable donnée soit un facteur de confusion ou non dépend précisément de la question que nous souhaitons aborder, et cela peut nécessiter une réflexion très approfondie et devenir assez délicat et même controversé.

Il est donc clair que nous pouvons souhaiter ajuster / contrôler plusieurs facteurs, dont certains peuvent être mesurés dans plusieurs catégories (par exemple la classe sociale) tandis que d'autres peuvent être continus (par exemple l'âge). Nous pourrions traiter les continus en nous divisant en groupes (d'âge), les transformant ainsi en catégories catégoriques. Disons que nous avons 2 sexes, 5 groupes sociaux et 7 groupes d'âge. Nous pouvons maintenant examiner l'association entre l'observation du football et l'incidence des crises cardiaques dans 2 × 5 × 7 = 70 strates. Mais si notre étude est assez petite, de sorte que certaines de ces strates contiennent très peu de personnes, nous allons rencontrer des problèmes avec cette approche. Et dans la pratique, nous pouvons souhaiter ajuster une douzaine de variables ou plus. Une méthode alternative d'ajustement / contrôle des variables, particulièrement utile lorsqu'il y en a plusieurs, est fournie par l'analyse de régressionavec plusieurs variables dépendantes, parfois appelées analyse de régression multivariable . (Il existe différents types de modèles de régression selon le type de variable de résultat: régression des moindres carrés, régression logistique, régression des aléas proportionnels (Cox) ...). Dans les études observationnelles, par opposition aux expériences, nous voulons presque toujours nous ajuster à de nombreux facteurs de confusion potentiels.Par conséquent, dans la pratique, l'ajustement / le contrôle des facteurs de confusion se fait souvent par analyse de régression, bien qu'il existe également d'autres alternatives, telles que la standardisation, la pondération, la propension correspondance des scores ...

un arrêt
la source
3
+1 (bien qu'il mérite au moins +3) - très complet et complet. Cela a rendu le problème beaucoup plus clair pour moi. Merci!
radek
"Une autre manière d'ajuster / contrôler les variables qui est particulièrement utile lorsqu'il y en a beaucoup est fournie par l'analyse de régression avec plusieurs variables dépendantes, parfois connue sous le nom d'analyse de régression multivariable." est-ce censé être «indépendant» ou ai-je un malentendu? et est un jargon plus courant pour cela, "régression multiple"? (je sais que c'est discutable)
Richard DiSalvo
10

Onestop l'a expliqué assez bien, je vais juste donner un exemple R simple avec des données composées. Disons que x est le poids et y la taille, et nous voulons savoir s'il y a une différence entre les hommes et les femmes:

set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)

Vous pouvez voir que sans contrôle du poids (en anova (lm1)), il y a très peu de différence entre les sexes, mais lorsque le poids est inclus en tant que covariable (contrôlé en lm2), la différence devient plus apparente.

#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)
Matt Albrecht
la source