Quand inclure un effet aléatoire dans un modèle

9

Je suis nouveau dans la modélisation mixte et je ne sais pas s'il est approprié d'utiliser un effet aléatoire dans une analyse que je fais. Tout avis sera le bienvenu.

mon étude teste dans quelle mesure un nouvel indice d'abondance de mammifères peut prédire la valeur d'un indice établi mais plus exigeant en main-d'œuvre. J'ai mesuré ces indices dans plusieurs parcelles forestières, avec plusieurs parcelles dans chaque parcelle forestière.

parce que je ne suis pas directement intéressé par l'effet des parcelles forestières, et parce que mes parcelles d'échantillonnage sont imbriquées dans des parcelles forestières, j'ai utilisé des parcelles forestières comme effet aléatoire. Cependant, j'ai quelques questions à ce sujet:

Tout d'abord, je sais que les effets aléatoires vous permettent de généraliser vos résultats à tous les niveaux possibles du facteur aléatoire, pas seulement ceux que vous avez échantillonnés. mais il me semble que pour faire ce genre d'inférence, vos niveaux devraient être échantillonnés au hasard? Mes parcelles de forêt n'ont pas été échantillonnées au hasard, alors puis-je quand même les utiliser comme effet aléatoire?

deuxièmement, j'ai lu que vous pouvez tester s'il est nécessaire d'avoir un effet aléatoire en faisant par exemple un test de rapport de vraisemblance pour comparer les modèles avec et sans l'effet. Je l'ai fait, et cela suggère que le modèle à effet aléatoire n'explique pas les données ainsi qu'un modèle à effets fixes uniquement. mon problème avec cela est que mes parcelles sont toujours imbriquées dans des parcelles forestières, et donc probablement pas indépendantes. Alors, puis-je utiliser cette approche LRT pour justifier l'exclusion de l'effet aléatoire, ou dois-je toujours l'inclure pour tenir compte de l'imbrication? et si je finis par supprimer l'effet aléatoire, existe-t-il un moyen de vérifier que les parcelles dans les parcelles forestières peuvent être considérées comme indépendantes?

Merci de votre aide!

Geai

geai
la source
Je pense que la principale chose conceptuelle avec les effets aléatoires est qu'ils devraient tous être de la même ampleur et être échangeables - c'est ce qui rend possible l'inférence sur les effets aléatoires non échantillonnés. En outre, vous devez être prudent en utilisant des tests LR pour les effets aléatoires car il peut y avoir une incertitude considérable concernant la composante de variance même si l'estimation ML / REML est nulle ou proche de zéro.
probabilités
Un grand merci pour cela, donc y aurait-il un moyen de déterminer s'il est nécessaire de conserver l'effet aléatoire?
jay
D'après ce que je comprends, il est préférable de ne pas faire de comparaisons LR avec des modèles adaptés par REML. Dans lmer de R, par exemple, vous devez définir REML = FALSE lorsque vous faites LRT. (Par défaut, il est VRAI, ce qui est autrement mieux.)
Wayne

Réponses:

6

Si je comprends bien, vous avez un plan d'observation imbriqué simple (parcelles dans les parcelles) et votre intérêt est dans une corrélation / régression entre deux variables continues (les deux indices). La taille de votre échantillon est de m patchs xn plots = N paires d'observations (ou la somme appropriée si elle n'est pas équilibrée). Aucune randomisation appropriée n'a été impliquée, mais peut-être pouvez-vous / devriez-vous considérer que (1) les correctifs ont été "choisis au hasard" parmi tous les correctifs de ce type ou dans une certaine zone, puis (2) les parcelles ont été "aléatoires" sélectionné dans chaque patch.

Si vous ignorez le Patch à facteur aléatoire, vous pouvez être en train de pseudo-répliquer en considérant que vous avez sélectionné au hasard N tracés "librement", sans les contraindre à être (en nombre ou en type) dans ces patchs (précédemment) sélectionnés.

Donc, votre première question: oui, c'est ce que permet un facteur aléatoire. La validité d'une telle inférence dépend de la validité de l'hypothèse selon laquelle la sélection aléatoire est équivalente à la sélection aléatoire de parcelles (par exemple, que vos résultats ne seraient pas différents si un ensemble différent de parcelles forestières était sélectionné). Cela limite également votre espace d'inférence: le type de forêt ou de zone géographique jusqu'à laquelle vos résultats s'étendent dépend de la population maximale (imaginaire) de parcelles d'où votre échantillon est un échantillon "aléatoire" crédible. Peut-être que vos observations sont un échantillon "aléatoire raisonnable" des mammifères des parcelles forestières de votre région, mais ce serait un échantillon étrangement agrégé des mammifères de tout le continent.

Le second: le test dépendra du "degré de pseudo-réplication", ou de la preuve dans votre échantillon que les tracés "appartiennent" aux patchs. Il s'agit de la quantité de variation entre les correctifs et entre les parcelles au sein des correctifs (recherche de corrélation intraclasse). À l'extrême, seule la variation entre les correctifs est présente (les tracés au sein d'un même patch sont tous les mêmes) et vous avez une "pseudo-réplication pure": votre N doit être le nombre de correctifs, et l'échantillonnage d'un ou plusieurs tracés de chacun d'eux ne fournit pas nouvelle information. À l'autre extrême, toute variation se produit entre les parcelles, et il n'y a pas de variation supplémentaire expliquée en sachant à quelle parcelle de forêt appartient chaque parcelle (et alors le modèle sans le facteur aléatoire apparaîtrait plus parcimonieux); vous avez des parcelles "indépendantes". AUCUN des extrêmes n'est très susceptible de se produire ... en particulier pour les variables biologiques observées sur le terrain, ne serait-ce qu'en raison de l'autocorrélation spatiale et de la répartition géographique des mammifères. Personnellement, je préfère de toute façon conserver les facteurs (par exemple, même lorsque les correctifs ne sont pas une source de variation pertinente DANS CET ÉCHANTILLON) pour maintenir l'analogie «expérimentale-observationnelle» expliquée ci-dessus; rappelez-vous: le fait de ne pas avoir de preuves dans votre échantillon pour rejeter l'hypothèse nulle selon laquelle la variation entre les patchs est nulle ne signifie pas que la variation est nulle dans la population. même lorsque les correctifs ne sont pas une source de variation pertinente dans cet échantillon) pour maintenir l'analogie "expérimentale-observationnelle" expliquée ci-dessus; rappelez-vous: le fait de ne pas avoir de preuves dans votre échantillon pour rejeter l'hypothèse nulle selon laquelle la variation entre les patchs est nulle ne signifie pas que la variation est nulle dans la population. même lorsque les correctifs ne sont pas une source de variation pertinente dans cet échantillon) pour maintenir l'analogie "expérimentale-observationnelle" expliquée ci-dessus; rappelez-vous: le fait de ne pas avoir de preuves dans votre échantillon pour rejeter l'hypothèse nulle selon laquelle la variation entre les patchs est nulle ne signifie pas que la variation est nulle dans la population.

FairMiles
la source