Importance des coefficients de régression (GAM) lorsque la vraisemblance du modèle n'est pas significativement plus élevée que nulle

10

J'exécute une régression basée sur GAM en utilisant le gamlss du package R et en supposant une distribution bêta gonflée à zéro des données. Je n'ai qu'une seule variable explicative dans mon modèle, il est donc essentiellement: mymodel = gamlss(response ~ input, family=BEZI).

L'algorithme me donne le coefficient pour l'impact de la variable explicative dans la moyenne ( ) et la valeur de p associée pour , quelque chose comme:kμk(input)=0

Mu link function:  logit                                               
Mu Coefficients:                                                      
              Estimate  Std. Error  t value   Pr(>|t|)                  
(Intercept)  -2.58051     0.03766  -68.521  0.000e+00                  
input        -0.09134     0.01683   -5.428  6.118e-08

Comme vous pouvez le voir dans l'exemple ci-dessus, l'hypothèse de est rejetée avec une confiance élevée.k(input)=0

Je lance ensuite le modèle nul: null = gamlss(response ~ 1, family=BEZI)et compare les probabilités à l'aide d'un test de rapport de vraisemblance:

p=1-pchisq(-2*(logLik(null)[1]-logLik(mymodel)[1]), df(mymodel)-df(null)).

Dans un certain nombre de cas, j'obtiens même lorsque les coefficients en entrée sont très significatifs (comme ci-dessus). Je trouve cela assez inhabituel - au moins, cela ne s'est jamais produit dans mon expérience avec la régression linéaire ou logistique (en fait, cela ne s'est jamais produit lorsque j'utilisais le gamma ajusté à zéro avec gamlss).p>0.05

Ma question est: puis-je encore faire confiance à la dépendance entre la réponse et l'entrée lorsque c'est le cas?

a11msp
la source

Réponses:

1

Je ne vois aucune raison immédiate pour laquelle cela devrait être lié au GAM. Le fait est que vous utilisez deux tests pour la même chose. Puisqu'il n'y a pas de certitude absolue dans les statistiques, il est très possible que l'un donne un résultat significatif et l'autre non.

Peut-être que l'un des deux tests est tout simplement plus puissant (mais peut-être alors repose-t-il sur quelques hypothèses supplémentaires), ou peut-être que le seul significatif est votre erreur de type I sur vingt.

Un bon exemple est les tests pour savoir si les échantillons proviennent de la même distribution: vous avez des tests très paramétriques pour cela (le test T est celui qui peut être utilisé pour cela: si les moyennes sont différentes, les distributions devraient l'être également), et aussi non paramétrique les uns: il peut arriver que le paramétrique donne un résultat significatif et le non paramétrique non. Cela peut être dû au fait que les hypothèses du test paramétrique sont fausses, parce que les données sont tout simplement extraordinaires (type I), ou parce que la taille de l'échantillon n'est pas suffisante pour que le test non paramétrique capte la différence, ou, enfin, parce que l' aspect de ce que vous voulez vraiment tester (différentes distributions) qui est vérifié par les différents tests est juste différent (différent signifie <-> chance d'être "supérieur à").

Si un résultat de test montre des résultats significatifs et que l'autre n'est que légèrement non significatif, je ne m'inquiéterais pas trop.

Nick Sabbe
la source