Extrait de Modern Epidemiology 3rd Edition par Rothman, Greenland and Lash:
Il existe au moins trois formes de sur-appariement. Le premier fait référence à l'appariement qui nuit à l'efficacité statistique, comme l'appariement cas-témoins sur une variable associée à l'exposition mais pas à la maladie. Le second fait référence à l'appariement qui nuit à la validité, comme l'appariement sur un intermédiaire entre l'exposition et la maladie. Le troisième fait référence à l'appariement qui nuit à la rentabilité.
La réponse d'AndyW concerne la deuxième forme de sur-correspondance. En bref, voici comment ils fonctionnent tous:
1: Pour être un facteur de confusion, l'un des critères est que la covariable soit associée à la fois au résultat et à l'exposition. S'il n'est associé qu'à l'un d'eux, ce n'est pas un facteur de confusion, et tout ce que vous avez réussi à faire est d'élargir votre intervalle de confiance.
Pour explorer davantage ce type de sur-appariement, considérons une étude cas-témoins appariée d'une exposition binaire, avec un contrôle apparié à chaque cas sur un ou plusieurs facteurs de confusion. Chaque strate de l'analyse comprendra un cas et un contrôle, sauf si certaines strates peuvent être combinées. Si le cas et son contrôle apparié sont tous deux exposés ou non exposés, une marge du tableau 2 x 2 sera 0 ... une telle paire de sujets ne fournira aucune information à l'analyse. Si l'on stratifie sur les corrélats d'exposition, on augmentera les chances que de tels tableaux se produisent et ont donc tendance à augmenter les informations perdues dans l'analyse stratifiée.
2: Ceci est partiellement discuté par AndyW. L'appariement sur un facteur intermédiaire biaisera votre estimation, de même que l'appariement sur quelque chose affecté à la fois par l'exposition et le résultat. Il s'agit essentiellement de contrôler un collisionneur, et toute technique qui le fait faussera votre estimation.
Si, toutefois, le facteur d'appariement potentiel est affecté par l'exposition et que le facteur affecte à son tour la maladie (c.-à-d. Est une variable intermédiaire), ou est affecté à la fois par l'exposition et la maladie, alors l'appariement sur le facteur biaisera à la fois l'effet brut et l'effet ajusté estimations. Dans ces situations, l'appariement cas-témoins n'est rien de plus qu'une forme irréparable de biais de sélection.
3: Il s'agit davantage d'un problème de conception d'étude. Une correspondance étendue sur des variables sur lesquelles vous n'avez pas besoin de correspondre pour les raisons 1 et 2 peut vous amener à rejeter les contrôles facilement obtenus (amis, famille, réseau social à proximité, etc.) au profit de contrôles beaucoup plus difficiles à obtenir qui peuvent être appariés sur le ensemble inutile de covariables. Cela coûte de l'argent - de l'argent qui aurait pu être dépensé pour plus de sujets, une meilleure exposition ou une meilleure constatation de la maladie, etc., sans gain appréciable de biais ou de précision, et qui a même menacé les deux.
Même si j'ignorais également la terminologie de «sur-appariement», un exemple de la même idée que j'ai entendue dans le jargon économique et statistique pourrait correspondre à un résultat «intermédiaire». Voir les articles d'Andrew Gelman sur le sujet
Il s'agit du même problème que celui décrit au début de l'article que vous citez ( Marsh et al., 2002 )
Gelman donne un exemple conceptuellement clair dans le post "Faire des fils vous rend-il plus conservateur". En termes simples (sans exemples), c'est juste que vous avez vos directions causales à l'envers.
la source