Autre que de tester littéralement chaque combinaison possible de variable (s) dans un modèle ( x1:x2
ou x1*x2 ... xn-1 * xn
). Comment identifiez-vous si une interaction DEVRAIT ou PEUT exister entre vos variables indépendantes (espérons-le)?
Quelles sont les meilleures pratiques pour tenter d'identifier les interactions? Existe-t-il une technique graphique que vous pouvez ou que vous utilisez?
regression
modeling
interaction
Brandon Bertelsen
la source
la source
Réponses:
Cox et Wermuth (1996) ou Cox (1984) ont examiné certaines méthodes de détection des interactions. Le problème réside généralement dans le caractère général des termes d'interaction. Fondamentalement, nous (a) ajustons (et testons) tous les termes d'interaction de second ordre, un à la fois, et (b) représentons leurs p-valeurs correspondantes (c'est-à-dire le nombre de termes en fonction de ). L’idée est alors de regarder si un certain nombre de termes d’interaction doivent être conservés: En supposant que tous les termes d’interaction soient nuls, la distribution des valeurs p doit être uniforme (ou de manière équivalente, les points du diagramme de dispersion doivent être grossièrement répartis une ligne passant par l'origine).1−p
Maintenant, comme @Gavin l'a dit, adapter de nombreuses (sinon toutes) interactions peut conduire à un surajustement, mais est également inutile dans un certain sens (certains termes d'interaction d'ordre élevé n'ont souvent aucun sens). Cependant, il s’agit d’une interprétation, et non de la détection d’interactions, et Cox a déjà fourni une bonne analyse dans Interprétation de l’interaction: une analyse ( The Annals of Applied Statistics 2007, 1 (2), 371–385) - comprend les références citées ci-dessus. D’autres domaines de recherche dignes d’intérêt sont l’étude des effets épistatiques dans les études génétiques, en particulier des méthodes basées sur des modèles graphiques (par exemple, une méthode efficace pour l'identification d'interacteurs statistiques dans des réseaux d'association de gènes ) constitue un .
Les références
la source
Ma meilleure pratique serait de réfléchir au problème à résoudre avant d’ ajuster le modèle. Qu'est-ce qu'un modèle plausible compte tenu du phénomène que vous étudiez? L’ajustement de toutes les combinaisons possibles de variables et d’interactions sonne comme un dragage de données.
la source
L'ajustement d'un modèle arborescent (c.-à-d. En utilisant R) vous aidera à identifier des interactions complexes entre les variables explicatives. Lisez l'exemple à la page 30 ici .
la source
Je commencerai par cette réponse car je suis tout à fait d’accord avec Gavin. Si vous souhaitez adapter tout type de modèle, il doit refléter le phénomène à l’étude. Le problème avec la logique d’identification de tous les effets (et ce à quoi Gavin fait référence quand il parle de dragage de données) est qu’il est possible d’adapter un nombre infini d’interactions, ou de termes quadratiques pour des variables, ou de transformations à vos données, et vous. trouverait inévitablement des effets "significatifs" pour certaines variations de vos données.
Comme l'indique chl, ces effets d'interaction d'ordre supérieur n'ont pas vraiment d'interprétation et même les interactions d'ordre inférieur n'ont pas de sens. Si vous êtes intéressé par le développement d'un modèle causal, vous ne devez inclure que les termes qui, selon vous, pourraient être pertinents pour votre variable dépendante A priori pour l'ajustement de votre modèle.
Si vous pensez qu'ils peuvent augmenter le pouvoir prédictif de votre modèle, vous devez rechercher des ressources sur les techniques de sélection de modèles afin d'éviter toute sur-adaptation de votre modèle.
la source
Quelle est la taillen ? combien d'observations avez-vous? c'est crucial ...
Les indices Sobol vous indiqueront la proportion de variance expliquée par l’interaction si vous avez beaucoup d’observations et quelquesn sinon, vous devrez faire de la modélisation (linéaire pour commencer). Vous avez un bon package R pour cette sensibilité appelée. Quoi qu'il en soit, l'idée est assez souvent celle de décomposer la variance (également appelée ANOVA généralisée).
Si vous voulez savoir si cette proportion de variance est significative, vous devrez faire de la modélisation (en gros, vous devez connaître le nombre de degrés de liberté de votre modèle pour le comparer à la variance).
Vos variables sont-elles discrètes ou continues? borné ou pas vraiment (c'est-à-dire que vous ne connaissez pas le maximum)?
la source