J'écris cette question en référence à un exemple sur p138-142 du document suivant: ftp://ftp.software.ibm.com/software/analytics/spss/documentation/amos/20.0/en/Manuals/IBM_SPSS_Amos_User_Guide.pdf .
Voici des figures illustratives et un tableau:
Je comprends que la variable latente n'a pas de métrique naturelle et que la définition d'un facteur de chargement à 1 est effectuée pour résoudre ce problème. Cependant, il y a un certain nombre de choses que je ne comprends pas (complètement):
Comment la fixation d'une charge factorielle à 1 corrige-t-elle ce problème d'indétermination de l'échelle?
Pourquoi fixer à 1, plutôt qu'à un autre numéro?
Je comprends qu'en fixant l'un des poids de régression des indicateurs de facteur à 1, nous établissons ainsi tous les autres poids de régression pour ce facteur par rapport à lui. Mais que se passe-t-il si nous fixons un facteur de charge particulier à 1, mais il s'avère que les scores plus élevés sur le facteur prédisent des scores plus faibles sur la variable observée en question? Après avoir initialement défini la charge factorielle à 1, pouvons-nous obtenir un poids de régression compréhensible négatif ou un poids de régression standardisé négatif?
Dans ce contexte, j'ai vu des chargements de facteurs appelés à la fois coefficients de régression et covariances. Ces deux définitions sont-elles entièrement correctes?
Pourquoi avons-nous dû fixer spatial-> visperc et verbal-paragrap à la fois à 1? Que se serait-il passé si nous avions simplement fixé l'un de ces chemins à 1?
En regardant le coefficient normalisé, comment se peut-il que le coefficient non normalisé pour wordmean> phrase> paragrap, mais en regardant les coefficients normalisés paragrap> wordmean> phrase. Je pensais qu'en fixant paragrap à 1 au départ, toutes les autres variables chargées sur le facteur étaient rendues relatives au paragrap.
J'ajouterai également une question qui, j'imagine, a une réponse connexe: pourquoi fixer le coefficient de régression pour les termes uniques (par exemple err_v-> visperc) à 1? Que signifierait pour err_v un coefficient de 1 pour prédire visperc?
Je serais très heureux de recevoir des réponses même si elles ne répondent pas à toutes les questions.
la source
Réponses:
Enfin, notez que err_v est analogue au terme d'erreur dans un modèle de régression, par exemple,
la source
Je me méprends peut-être sur l'expression "indétermination de l'échelle", mais je crois qu'elle est fixée à un pour l'identifiabilité. (Autrement dit, le nombre d'inconnues dans ce système d'équations ne doit pas dépasser le nombre d'équations.) Sans définir l'un des liens sur un, il y a trop d'inconnues. Est-ce la même chose que l'indétermination de l'échelle?
Dans la plupart des applications SEM, vous travaillez avec des matrices de covariance, pas avec les données brutes. Il existe un algorithme alternatif qui utilise les données d'origine, appelé PLS (Partial Least Squares), qui pourrait vous éclairer davantage.
la source
Pensez à l'interprétation comme s'il s'agissait d'une simple régression. Le coefficient reflète la différence unitaire dans la variable dépendante associée à une différence de 1 unité dans la variable indépendante. Ainsi, si un changement d'une unité dans l'IV est associé à un changement d'une unité dans le DV, alors les unités sont fonctionnellement équivalentes. Vous avez besoin d'une unité pour la variable latente car vous voulez estimer sa variance, qui n'est pas sans unité. Le problème d'identification est lié, en ce que pour un CFA simple avec 1 variable latente et 3 indicateurs, le modèle n'est identifié que si la contrainte est faite.
Vous pouvez le définir sur n'importe quel nombre, et la nature globale des résultats sera la même (facilement vérifiée en regardant l'ajustement du modèle, qui sera identique). Il est plus facile d'interpréter le modèle si vous le définissez sur 1.
Quelle que soit la façon dont vous corrigez l'un des facteurs de charge, vous pouvez obtenir des éléments chargés positivement et négativement pour la même variable latente. Vous pouvez le tester en multipliant l'un de vos indicateurs par -1 et en estimant à nouveau votre modèle.
Ils sont fonctionnellement la même chose si le coefficient de régression n'est pas ajusté (c'est-à-dire que la variable dépendante n'a qu'une seule flèche pointant vers elle). Si tel est le cas, l'un peut être calculé de l'autre.
Essayez! Chaque variable latente a besoin d'une échelle, pour les raisons déjà évoquées.
C'est un problème d'échelle et c'est exactement la raison de l'utilisation de coefficients standardisés. Je peux rendre n'importe quel coefficient de régression arbitrairement grand en divisant le DV par des nombres de plus en plus grands. Ainsi, un changement d'une unité dans l'IV produira des changements de plus en plus importants dans les unités du DV. En normalisant et en comparant les mêmes pour les mêmes, nous évitons ce problème.
Fixer le chargement du facteur d'erreur à 1 facilite simplement l'interprétation. Il fait que l'équation de régression respective dans le SEM prend la forme familière de Y = BX + e (ou Y = BX + 1 * e).
la source
Stata a une très belle documentation sur SEM ici , consultez la section "Identification 2", elle a des réponses à toutes vos questions.
l'absence d'échelle vient parce que votre variable latente n'est pas observable. vous pouvez trouver des réponses numériques dans l'enquête sur le bonheur, mais le bonheur lui-même n'est pas directement mesuré. vous devez maintenant lier en quelque sorte les réponses telles que 1 à 10 au bonheur. de sorte que vous désignez l'une des questions comme point d'ancrage et définissez son chargement sur 1.
il ne doit pas nécessairement être 1, il peut s'agir de n'importe quelle valeur, mais 1 est pratique.
à la fois spatiales et verbales ne sont pas observables, vous devez donc définir l'échelle pour les deux, vous avez donc des ancres pour chacune.
la source