compréhension de la valeur de p dans la régression linéaire multiple

12

Concernant la valeur de p de l'analyse de régression linéaire multiple, l'introduction du site Web de Minitab est présentée ci-dessous.

La valeur de p pour chaque terme teste l'hypothèse nulle selon laquelle le coefficient est égal à zéro (aucun effet). Une valeur de p faible (<0,05) indique que vous pouvez rejeter l'hypothèse nulle. En d'autres termes, un prédicteur qui a une faible valeur p est susceptible d'être un ajout significatif à votre modèle car les changements de la valeur du prédicteur sont liés aux changements de la variable de réponse.

Par exemple, j'ai un modèle résultant comme . et le résultat est illustré ci-dessous. Ensuite, un peut être calculé en utilisant cette équation.y=0.46753X10.2668X2+1.6193X3+4.5424X4+14.48y

            Estimate      SE        tStat       pValue  
               ________    ______    _________    _________

(Intercept)      14.48     5.0127       2.8886    0.0097836
x1             0.46753     1.2824      0.36458      0.71967
x2             -0.2668     3.3352    -0.079995      0.93712
x3              1.6193     9.0581      0.17877      0.86011
x4              4.5424     2.8565       1.5902       0.1292

Sur la base de l'introduction ci-dessus, l'hypothèse nulle est que le coefficient est égal à 0. Ma compréhension est que le coefficient, par exemple le coefficient de , sera défini comme 0 et un autre y sera calculé comme . Ensuite, un test t apparié est effectué pour et , mais la valeur p de ce test t est 6,9e-12, ce qui n'est pas égal à 0,1229 (valeur p du coefficient de .X4y2=0.46753X10.2668X2+1.6193X3+0X4+14.48yy2X4

Quelqu'un peut-il aider à la bonne compréhension? Merci beaucoup!

user2230101
la source
pouvez-vous montrer la sortie de la routine de régression?
Aksakal
Votre description du calcul de la valeur de p n'est pas standard. À votre avis, pourquoi devrait-il être calculé comme vous le décrivez? La valeur de p dans la sortie est calculée à partir de la matrice de paramètres Var-Cov. Si vous souhaitez exécuter le test de restriction, comme Wald, ce n'est pas la façon dont vous décrivez. Vous devriez réestimer le modèle avec 3 variables, obtenir une probabilité de connexion, etc.
Aksakal
1
Selon cette introduction, vous n'avez qu'une seule variable "significative" - ​​l '"interception" -, car seule sa valeur p est petite. Pour aller au-delà de la pratique naïve et trompeuse de la citation, vous devez en savoir plus sur la régression multiple. Pour voir ce qui peut être appris à cet égard, envisagez d' explorer les sujets pertinents sur notre site .
whuber
2
Vérifiez les réponses à ces deux questions: - stats.stackexchange.com/questions/5135/… et - stats.stackexchange.com/questions/126179/… Ils m'ont aidé à comprendre comment les valeurs p sont calculées, j'espère que vous les trouverez utile aussi.
Giacomo

Réponses:

7

Ceci est incorrect pour deux raisons:

  1. Le modèle «sans» X4 n'aura pas nécessairement les mêmes estimations de coefficient pour les autres valeurs. Montez le modèle réduit et voyez par vous-même.

  2. Le test statistique du coefficient ne concerne pas les valeurs "moyennes" de Y obtenues à partir de 2 prédictions. Le prédit aura toujours la même moyenne, donc une valeur de p du test t égale à 0,5. Il en va de même pour les résidus. Votre test t avait la mauvaise valeur selon le point ci-dessus.Y

  3. Le test statistique qui est effectué pour la signification statistique du coefficient est un test t à un échantillon. Cela est déroutant car nous n'avons pas un "échantillon" de coefficients multiples pour X4, mais nous avons une estimation des propriétés de distribution d'un tel échantillon en utilisant le théorème de la limite centrale. L'erreur moyenne et standard décrivent l'emplacement et la forme d'une telle distribution limite. Si vous prenez la colonne "Est" et divisez par "SE" et comparez à une distribution normale standard, cela vous donne les valeurs de p dans la 4ème colonne.

  4. Un quatrième point: une critique de la page d'aide de minitab. Un tel fichier d'aide ne pouvait pas, dans un paragraphe, résumer des années de formation statistique, donc je n'ai pas besoin de me contenter de tout. Mais dire qu'un «prédicteur» est «une contribution importante» est vague et probablement incorrect. La justification du choix des variables à inclure dans un modèle multivarié est subtile et repose sur un raisonnement scientifique et non sur une inférence statistique.

AdamO
la source
0

Votre interprétation initiale des valeurs de p semble correcte, c'est-à-dire que seule l'ordonnée à l'origine a un coefficient significativement différent de 0. Vous remarquerez que l'estimation du coefficient pour x4 est encore assez élevée, mais il y a suffisamment d'erreur pour que ce ne soit pas de manière significative différent de 0.

Votre test t apparié de y1 et y2 suggère que les modèles sont différents les uns des autres. C'est à prévoir, dans un modèle, vous avez inclus un coefficient important mais imprécis qui contribue un peu à votre modèle. Il n'y a aucune raison de penser que la valeur de p de ces modèles différents les uns des autres devrait être la même que la valeur de p du coefficient de x4 étant différente de 0.

Nuclear Wang
la source