Comment convertir des coefficients standardisés en coefficients non standardisés?

11

Mon objectif est d'utiliser les coefficients dérivés de recherches antérieures sur le sujet pour prédire les résultats réels compte tenu d'un ensemble de variables indépendantes. Cependant, le document de recherche ne répertorie que les coefficients bêta et la valeur t. Je voudrais savoir s'il est possible de convertir les coefficients standardisés en coefficients non standardisés.

Serait-il utile de convertir mes variables indépendantes non normalisées en variables standardisées pour calculer la valeur prédite? Comment pourrais-je revenir à une valeur prédite non standardisée (si cela est même possible ..)

Exemple de ligne ajoutée à partir du papier:

Nombre de lignes de bus (lignes de bus) | 0,275 (bêta) | 5,70 *** (valeur t)

On me donne également ceci concernant les variables indépendantes:

Nombre de lignes de bus (lignes de bus) | 12,56 (moyenne) | 9,02 (standard) | 1 (min) | 53 (max)


la source
Comment les coefficients ont-ils été standardisés? En général, les ont une unité qui est l'unité de divisée par l'unité de , quelle est leur unité dans le papier? Y XβYX
gui11aume
1
Je ne suis pas sûr de comprendre votre question. Voici un exemple de ligne d'une variable indépendante après analyse de régression de l'article. Caractéristiques de l'offre de transport en commun: nombre de lignes de bus (lignes de bus) | 0,275 (bêta) | 5,70 *** (valeur t)
Le coefficient lui-même n'est pas normalisé comme l'a mentionné gui11aume. Mais la statistique t le coefficient estimé divisé par son écart-type estimé. Étant donné t et les degrés de liberté, vous pouvez calculer la valeur de p et l'écart type estimé car Bêta = valeur t x écart type estimé. Mais je ne sais pas si c'est ce que vous cherchez. L'estimation bêta n'est pas standardisée. La statistique t est la forme normalisée de l'estimation du battement. Vous avez donc déjà le coefficient standardisé.
Michael R. Chernick

Réponses:

14

Il semble que l'article utilise un modèle de régression multiple sous la forme

Y=β0+iβiξi+ε

où les sont des versions standardisées des variables indépendantes; à savoir. ,ξi

ξi=ximisi

avec la moyenne (comme 12,56 dans l'exemple) et l'écart type (comme 9,02 dans l'exemple) des valeurs de la variable ('buslines' dans l'exemple). est l'interception (si présente). Brancher cette expression dans le modèle ajusté , avec ses "bêtas" écrits comme (0,275 dans l'exemple), et faire de l'algèbre donne les estimationss i i th x i β 0 ^ β imisiithxiβ0βi^

Y^=β0^+iβi^ximisi=(β0^(iβimi^si))+i(βi^si)xi.

Cela montre que les coefficients du dans le modèle (en dehors du terme constant) sont obtenus en divisant les bêtas par les écarts-types des variables indépendantes et que l'ordonnée à l'origine est ajustée en soustrayant une combinaison linéaire appropriée des bêtas.xi

Cela vous donne deux façons de prédire une nouvelle valeur à partir d'un vecteur de valeurs indépendantes:(x1,,xp)

  1. En utilisant les moyennes et les écarts types tels que rapportés dans l'article (non recalculés à partir de nouvelles données!), Calculez et branchez-les dans la formule de régression donnée par les bêtas ou, de manière équivalente,s i ( ξ 1 , , ξ p ) = ( ( x 1 - m 1 ) / s 1 , , ( x p - m p ) / s p )misi (ξ1,,ξp)=((x1m1)/s1,,(xpmp)/sp)

  2. Branchez dans la formule algébriquement équivalente dérivée ci-dessus.(x1,,xp)

Si le papier utilise un modèle linéaire généralisé , vous devrez peut-être suivre ce calcul en appliquant la fonction de "lien" inverse à . Par exemple, avec la régression logistique, il serait nécessaire d'appliquer la fonction logistique pour obtenir la probabilité prédite ( est la cote de log prédite). 1/(1+exp( - Y )) YY^1/(1+exp(Y^))Y^

whuber
la source
Parfait, merci! J'ai obtenu de l'aide d'un collègue. Une dernière question cependant: ma nouvelle valeur (Y-hat) est très faible. L'auteur utilise une variable dépendante transformée logarithmiquement dans sa régression. Cela signifie-t-il que je devrais exp (Y-hat) pour étendre jusqu'à l'unité de mesure non transformée.
De plus, il n'y a pas d'ordonnée à l'origine incluse dans le document, et tester la méthode exp (Y-hat) semble indiquer qu'il devrait y avoir une valeur pour l'ordonnée à l'origine qui représente une partie de la variance non expliquée par le modèle, afin pour élever le résultat prévu à un niveau raisonnable.
Ce ne sont donc pas les coefficients qui sont standardisés. Ce sont les variables.
Michael R. Chernick
1
Michael M, oui, est probablement ce que vous voulez et oui, vous devez savoir quelle est l'interception. Vous devrez peut-être le truquer en devinant l'interception et en la modifiant jusqu'à ce que votre modèle apparaisse pour reproduire les graphiques et les tableaux dans le papier de manière suffisamment précise. exp(y^)
whuber
Si vous cherchez à faire ce que le titre demande, regardez ici: www3.nd.edu/~rwilliam/stats1/x92.pdf si le y est également standardisé. Voir aussi stats.stackexchange.com/questions/235057/…
Chris
1

B=p×sysx
  • x est la variable indépendante
  • y est la variable dépendante
  • s est l'écart type
  • p est le coefficient de trajectoire
  • B est le coefficient de régression.
Lance
la source
2
Je ne sais pas ce qu'est un coefficient de chemin. Il semble que B soit peut-être un coefficient de régression qui ne serait pas sans dimension. Ce serait en unités y pour 1 unité x. Cependant p = B sx / sy où sx est l'écart type estimé en x divisé par l'écart type estimé en y et p est sans dimension. Il représente une corrélation estimée entre x et y. Si c'est ce que vous vouliez, veuillez apporter les modifications en modifiant votre message.
Michael R. Chernick