Modèle linéaire général vs modèle linéaire généralisé (avec une fonction de lien d'identité?)

25

Ceci est mon premier message, alors s'il vous plaît, ne vous gênez pas si je ne respecte pas certaines normes! J'ai fait une recherche pour ma question et rien n'est venu.

Ma question concerne principalement les différences pratiques entre la modélisation linéaire générale (GLM) et la modélisation linéaire généralisée (GZLM). Dans mon cas, il s'agirait de quelques variables continues comme covariables et de quelques facteurs dans une ANCOVA, par rapport à GZLM. Je veux examiner les principaux effets de chaque variable, ainsi qu'une interaction à trois voies que je décrirai dans le modèle. Je peux voir cette hypothèse testée dans une ANCOVA, ou en utilisant GZLM. Dans une certaine mesure, je comprends les processus mathématiques et le raisonnement derrière l'exécution d'un modèle linéaire général comme un ANCOVA, et je comprends quelque peu que les GZLM permettent une fonction de lien reliant le modèle linéaire et la variable dépendante (ok, j'ai menti, peut-être que je ne le fais pas vraiment comprendre les mathématiques). Ce que je fais vraiment t comprenez-vous les différences ou les raisons pratiques pour exécuter une analyse et non l'autre lorsque la distribution de probabilité utilisée dans le GZLM est normale (c.-à-d., fonction de lien d'identité?). J'obtiens des résultats très différents lorsque je passe l'un sur l'autre. Puis-je courir non plus? Mes données sont quelque peu anormales, mais fonctionnent dans une certaine mesure à la fois dans l'ANCOVA et le GZLM. Dans les deux cas, mon hypothèse est confirmée, mais dans le GZLM, la valeur p est "meilleure".

Ma pensée était qu'un ANCOVA est un modèle linéaire avec une variable dépendante normalement distribuée utilisant une fonction de lien d'identité, qui est exactement ce que je peux entrer dans un GZLM, mais ceux-ci sont toujours différents.

Veuillez éclairer ces questions pour moi, si vous le pouvez!


Sur la base de la première réponse, j'ai la question supplémentaire:

S'ils sont identiques, à l'exception du test de signification qu'il a utilisé (c.-à-d. Test F contre Wald Chi Square), lequel serait le plus approprié à utiliser? L'ANCOVA est la «méthode de référence», mais je ne sais pas pourquoi le test F serait préférable. Quelqu'un peut-il faire la lumière sur cette question pour moi? Merci!

Behacad
la source
La réponse de @ onestop est bonne; Je l'ai voté il y a longtemps. Pour avoir une idée plus claire de la connexion entre le modèle linéaire général et le modèle linéaire généralisé , cela peut vous aider à lire ma réponse ici: modèles de différence entre logit et probit (bien qu'il ait été écrit dans un contexte différent) . En supposant que vos erreurs sont normalement distribuées, mais la variance d'erreur n'est pas connue a priori, les tests & que le logiciel renverra avec une ANCOVA seront corrects; la valeur de p du test de Wald sera trop faible, sauf si votre N est très grand. tF
gung - Rétablir Monica

Réponses:

23

Un modèle linéaire généralisé spécifiant une fonction de lien d'identité et une distribution familiale normale est exactement équivalent à un modèle linéaire (général). Si vous obtenez des résultats sensiblement différents de chacun, vous faites quelque chose de mal.

Notez que la spécification d'un lien d'identité n'est pas la même chose que la spécification d'une distribution normale. La distribution et la fonction de lien sont deux composants différents du modèle linéaire généralisé, et chacun peut être choisi indépendamment l'un de l'autre (bien que certains liens fonctionnent mieux avec certaines distributions, la plupart des logiciels spécifient donc le choix des liens autorisés pour chaque distribution).

pptFtF les logiciels pour les modèles linéaires généralisés peuvent également les utiliser comme approximations lors de l'ajustement à d'autres familles d'un paramètre d'échelle estimé à partir des données.

un arrêt
la source
Merci pour votre réponse! Je suis heureux d'entendre votre réponse, car c'était mon hypothèse initiale. Un professeur de mon établissement m'a dit le contraire, j'ai donc vraiment dû aller creuser. J'utilise SPSS et je vois maintenant que les estimations des paramètres sont en effet identiques (par exemple, les valeurs B). Je vois maintenant que ce qui m'avait dérouté à l'origine, c'était les différentes valeurs de p. La statistique ANCOVA est basée sur un test F standard, tandis que le GZLM est basé sur le Wald Chi-Square, n'est-ce pas? J'ai lu que le Wald Chi-Square est utilisé lorsque vous utilisez des paramètres de l'échantillon (comme dans le GZLM).
Behacad
Sur la base de cette réponse, j'ai ajouté une question au message d'origine!
Behacad
Ok, j'ai ajouté un para correspondant à ma réponse en réponse.
onestop
5

J'aimerais inclure mon expérience dans cette discussion. J'ai vu qu'un modèle linéaire généralisé (spécifiant une fonction de lien d'identité et une distribution familiale normale) n'est identique à un modèle linéaire général que lorsque vous utilisez l'estimation du maximum de vraisemblance comme méthode de paramètre d'échelle. Sinon, si "valeur fixe = 1" est choisi comme méthode de paramètre d'échelle, vous obtenez des valeurs p très différentes. D'après mon expérience, il faut généralement éviter "valeur fixe = 1". Je suis curieux de savoir si quelqu'un sait quand il convient de choisir une valeur fixe = 1 comme méthode de paramètre d'échelle. Merci d'avance. marque


la source
3
Généralement, on utilise une échelle fixe uniquement avec des modèles comme la régression logistique ou la régression de Poisson, où la réponse est un nombre ou une variable indicateur / fréquence. Dans ce cas, il n'y a pas d'analogue au paramètre d'échelle dans la régression normale.
Hong Ooi