Quelles sont les meilleures pratiques pour identifier les effets d'interaction?

35

Autre que de tester littéralement chaque combinaison possible de variable (s) dans un modèle ( x1:x2ou x1*x2 ... xn-1 * xn). Comment identifiez-vous si une interaction DEVRAIT ou PEUT exister entre vos variables indépendantes (espérons-le)?

Quelles sont les meilleures pratiques pour tenter d'identifier les interactions? Existe-t-il une technique graphique que vous pouvez ou que vous utilisez?

Brandon Bertelsen
la source
Vous pourriez nous parler un peu de vos données? taille (cf ma réponse) et nature (cf réponse de Gavin)
robin girard
@Robin: Donnez-lui le temps de se lever, Brandon est à Toronto ;-)
Réintégration de Monica - G. Simpson
1
@Robin, je préférerais le garder plus général. Si, dans votre réponse, vous fournissez une méthode nécessitant une hypothèse sur la taille ou la nature des données, veuillez l'indiquer. Le problème que je rencontre concerne plusieurs tâches de modélisation, toutes avec des données différentes. Donc, dans ce cas, je cherche une recommandation générale sur l'identification des effets d'interaction.
Brandon Bertelsen

Réponses:

20

Cox et Wermuth (1996) ou Cox (1984) ont examiné certaines méthodes de détection des interactions. Le problème réside généralement dans le caractère général des termes d'interaction. Fondamentalement, nous (a) ajustons (et testons) tous les termes d'interaction de second ordre, un à la fois, et (b) représentons leurs p-valeurs correspondantes (c'est-à-dire le nombre de termes en fonction de ). L’idée est alors de regarder si un certain nombre de termes d’interaction doivent être conservés: En supposant que tous les termes d’interaction soient nuls, la distribution des valeurs p doit être uniforme (ou de manière équivalente, les points du diagramme de dispersion doivent être grossièrement répartis une ligne passant par l'origine).1p

Maintenant, comme @Gavin l'a dit, adapter de nombreuses (sinon toutes) interactions peut conduire à un surajustement, mais est également inutile dans un certain sens (certains termes d'interaction d'ordre élevé n'ont souvent aucun sens). Cependant, il s’agit d’une interprétation, et non de la détection d’interactions, et Cox a déjà fourni une bonne analyse dans Interprétation de l’interaction: une analyse ( The Annals of Applied Statistics 2007, 1 (2), 371–385) - comprend les références citées ci-dessus. D’autres domaines de recherche dignes d’intérêt sont l’étude des effets épistatiques dans les études génétiques, en particulier des méthodes basées sur des modèles graphiques (par exemple, une méthode efficace pour l'identification d'interacteurs statistiques dans des réseaux d'association de gènes ) constitue un .

Les références

  • Cox, DR et Wermuth, N (1996). Dépendances multivariées: modèles, analyse et interprétation . Chapman et Hall / CRC.
  • Cox, DR (1984). Interaction . Revue internationale de statistique , 52, 1–31.
chl
la source
16

Ma meilleure pratique serait de réfléchir au problème à résoudre avant d’ ajuster le modèle. Qu'est-ce qu'un modèle plausible compte tenu du phénomène que vous étudiez? L’ajustement de toutes les combinaisons possibles de variables et d’interactions sonne comme un dragage de données.

Rétablir Monica - G. Simpson
la source
5
sonne comme une remarque ou est-ce que la réponse est "pense"?
robin girard
2
@Robin - le dernier. Je trouve la modélisation statistique assez difficile (je suis un écologiste avec peu de formation statistique formelle, la plupart de ce que j'ai appris est autodidacte), mais c'est beaucoup plus facile si je pense d'abord au problème, détermine ce qui est plausible, construire ce modèle, faire mes diagnostics de modèle, essayer des interactions lorsque celles-ci ont un sens scientifique.
Réintégrer Monica - G. Simpson
2
@Brandon: S'il manque une interaction, il y aura des régularités dans les résidus conditionnées par les valeurs des covariables. Tracer les résidus par rapport aux covariables peut aider à déterminer où une interaction pourrait être appropriée.
Réintégrer Monica - G. Simpson
2
@Brandon: Il s'agit de diagnostics de modèle standard et de compétences de traçage exploratoire. Je voudrais tracer les résidus par rapport à l’une des covariables que je pense pourrait être candidate à une interaction, conditionnée (à la manière de ggplot2 ou de treillis) sur les valeurs de la covariable que je pense est impliquée dans l’interaction. Coller un loess plus lisse à travers chaque panneau pour voir s'il y a des motifs. Cela dépend du type de variables que vos covariables sont.
Réintégrer Monica - G. Simpson
2
Dragage de données? Si vous torturez les données assez longtemps, il vous avouera ...
Curious
16

L'ajustement d'un modèle arborescent (c.-à-d. En utilisant R) vous aidera à identifier des interactions complexes entre les variables explicatives. Lisez l'exemple à la page 30 ici .

George Dontas
la source
Très simple et très utile. Merci pour la référence au texte de Crawley également!
Brandon Bertelsen
Soyez prudent - vous ne pouvez pas facilement intégrer ce type d'interactions dans un modèle linéaire. Les interactions ne se produisent que dans une branche de l’arbre. Vous avez besoin de beaucoup de données pour utiliser ces types d’outils dans des données réelles.
Réintégrer Monica - G. Simpson
3
Comme @Gavin l'a dit, l'un des pièges potentiels est que les arbres de décision ont besoin d'un échantillon de grande taille et sont assez instables (c'est l'une des raisons pour lesquelles l'ensachage et les forêts aléatoires ont été proposées comme solutions de remplacement viables). Un autre problème est qu’il n’est pas clair si nous recherchons des effets d’interaction de second ordre ou d’ordre supérieur. Dans le premier cas, les CART ne sont pas une solution. Dans tous les cas, je trouverai très douteuse l'interprétation d'une interaction entre 6 variables dans tout type d'étude (observationnelle ou contrôlée).
chl
7

Je commencerai par cette réponse car je suis tout à fait d’accord avec Gavin. Si vous souhaitez adapter tout type de modèle, il doit refléter le phénomène à l’étude. Le problème avec la logique d’identification de tous les effets (et ce à quoi Gavin fait référence quand il parle de dragage de données) est qu’il est possible d’adapter un nombre infini d’interactions, ou de termes quadratiques pour des variables, ou de transformations à vos données, et vous. trouverait inévitablement des effets "significatifs" pour certaines variations de vos données.

Comme l'indique chl, ces effets d'interaction d'ordre supérieur n'ont pas vraiment d'interprétation et même les interactions d'ordre inférieur n'ont pas de sens. Si vous êtes intéressé par le développement d'un modèle causal, vous ne devez inclure que les termes qui, selon vous, pourraient être pertinents pour votre variable dépendante A priori pour l'ajustement de votre modèle.

Si vous pensez qu'ils peuvent augmenter le pouvoir prédictif de votre modèle, vous devez rechercher des ressources sur les techniques de sélection de modèles afin d'éviter toute sur-adaptation de votre modèle.

Andy W
la source
7

Quelle est la taille n? combien d'observations avez-vous? c'est crucial ...

Les indices Sobol vous indiqueront la proportion de variance expliquée par l’interaction si vous avez beaucoup d’observations et quelquesnsinon, vous devrez faire de la modélisation (linéaire pour commencer). Vous avez un bon package R pour cette sensibilité appelée. Quoi qu'il en soit, l'idée est assez souvent celle de décomposer la variance (également appelée ANOVA généralisée).

Si vous voulez savoir si cette proportion de variance est significative, vous devrez faire de la modélisation (en gros, vous devez connaître le nombre de degrés de liberté de votre modèle pour le comparer à la variance).

Vos variables sont-elles discrètes ou continues? borné ou pas vraiment (c'est-à-dire que vous ne connaissez pas le maximum)?

robin girard
la source
merci pour la direction des indices Sobol. Encore une fois, j'aimerais préciser que je cherche une réponse générale plutôt qu'une réponse spécifique ici. Je ne parle pas d'un ensemble de données spécifique mais j'essaie plutôt d'expliquer un problème que j'ai rencontré avec plusieurs ensembles différents.
Brandon Bertelsen