Interprétation des résultats de la moyenne du modèle dans R

11

J'essaie de comprendre et de savoir quoi rapporter de mon analyse de certaines données en utilisant la moyenne du modèle dans R.

J'utilise le script suivant pour analyser l'effet de la méthode de mesure sur une variable donnée: Voici l'ensemble de données: https://www.dropbox.com/s/u9un273gzw9o30u/VMT4.csv?dl=0

Modèle à monter:

LM.1 <- gls(VMTf ~ turn+sex+method, na.action="na.fail", method = "ML",VMT4)

drague modèle complet

require(MuMIn)
d=dredge(LM.1)
print(d)
coefficients(d)

Obtenir des informations récapitulatives de tous les modèles pour obtenir des estimations de paramètres

summary(model.avg(d))

Je sais que tous les modèles peuvent être moyennés (moyennage complet du modèle) ou juste un sous-ensemble d'entre eux (moyennage conditionnel). Maintenant, je voudrais savoir: quand est-il préférable d'utiliser la moyenne complète ou conditionnelle pour faire des inférences. Que dois-je signaler de tout cela pour un article scientifique? Que signifie exactement la valeur Z et le p associé pour une situation de moyenne de modèle?

Pour faciliter la visualisation de mes questions. Voici le tableau des résultats,

> summary(model.avg(d))# now, there are effects

Call:
model.avg(object = d)

Component model call: 
gls(model = VMT ~ <8 unique rhs>, data = VMT4, method = ML, na.action = 
 na.fail)

Component models: 
       df  logLik   AICc delta weight
1       4 -247.10 502.52  0.00   0.34
12      5 -246.17 502.83  0.31   0.29
13      5 -246.52 503.52  1.01   0.20
123     6 -245.60 503.88  1.36   0.17
(Null)  2 -258.62 521.33 18.81   0.00
3       3 -258.38 522.95 20.43   0.00
2       3 -258.60 523.39 20.88   0.00
23      4 -258.36 525.05 22.53   0.00

Term codes: 
method    sex   turn 
     1      2      3 

Model-averaged coefficients:  
(full average) 
                       Estimate Std. Error Adjusted SE z value Pr(>|z|)    
(Intercept)            42.63521    0.37170     0.37447 113.856  < 2e-16 ***
methodlight chamber    -1.05276    0.36098     0.36440   2.889  0.00386 ** 
methodthermal gradient -1.80567    0.36103     0.36445   4.955    7e-07 ***
sex2                    0.19023    0.29403     0.29548   0.644  0.51970    
turn                    0.05005    0.10083     0.10141   0.494  0.62165    

(conditional average) 
                       Estimate Std. Error Adjusted SE z value Pr(>|z|)    
(Intercept)             42.6352     0.3717      0.3745 113.856  < 2e-16 ***
methodlight chamber     -1.0528     0.3609      0.3643   2.890  0.00386 ** 
methodthermal gradient  -1.8058     0.3608      0.3642   4.958  7.1e-07 ***
sex2                     0.4144     0.3089      0.3119   1.328  0.18402    
turn                     0.1337     0.1264      0.1276   1.047  0.29492    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Relative variable importance: 
                     method sex  turn
Importance:          1.00   0.46 0.37
N containing models:    4      4    4
Agus Camacho
la source

Réponses:

5

Voir Grueber et al. 2011, "Inférence multimodèle en écologie et évolution: défis et solutions" Biologie évolutive 24: 699-711.

Cela dépend vraiment des objectifs pour savoir si vous souhaitez utiliser des données complètes ou conditionnelles. Dans mon domaine, nous utiliserions des critères tels que AICC pour déterminer les modèles les plus pris en charge, puis les utiliser comme sous-ensemble conditionnel. Ces informations seraient ensuite communiquées. Par exemple, vos quatre premiers modèles sont tous à moins de 2 unités AIC les uns des autres, ils seront donc tous inclus dans votre sous-ensemble. Les autres sont très avancés (AIC plus élevé), donc l'inclusion d'informations provenant d'eux réduirait en fait la qualité de vos estimations bêta.

AUDeer
la source
2
Même dans votre exemple, cependant, certains termes apparaîtront dans peut-être deux des quatre «meilleurs» modèles. Prenez-vous une moyenne de ces deux valeurs de coefficient, ou des deux valeurs et deux valeurs nulles pour les deux modèles où elles n'apparaissent pas?
user2390246
5

Je pense que la prémisse concernant la différence entre ce que sont exactement les moyennes complètes et conditionnelles est fausse. L'un est une moyenne qui comprend des zéros (complet) et l'autre n'inclut pas de zéros (conditionnel). à partir du fichier d'aide de la commande model.avg ():

Remarque

La moyenne du «sous-ensemble» (ou «conditionnelle») ne fait que des moyennes sur les modèles où le paramètre apparaît. Une alternative, la moyenne «complète» suppose qu'une variable est incluse dans chaque modèle, mais dans certains modèles, le coefficient correspondant (et sa variance respective) est fixé à zéro. Contrairement à la «moyenne du sous-ensemble», elle n'a pas tendance à biaiser la valeur loin de zéro. La moyenne «complète» est un type d'estimateur de rétrécissement et pour les variables ayant une faible relation avec la réponse, elles sont plus petites que les estimateurs de «sous-ensemble».

Si vous souhaitez utiliser uniquement un sous-ensemble de modèles (basé sur delta AIC par exemple), utilisez l'argument de sous-ensemble dans model.avg (). Vous obtiendrez toujours des estimations conditionnelles et complètes, tant que certains des modèles inclus manquent certaines variables que d'autres ont.

Joe Sapp
la source
Oui. Je suis d'accord. Telle est la bonne interprétation.
ecologist1234