Concernant la valeur de p de l'analyse de régression linéaire multiple, l'introduction du site Web de Minitab est présentée ci-dessous.
La valeur de p pour chaque terme teste l'hypothèse nulle selon laquelle le coefficient est égal à zéro (aucun effet). Une valeur de p faible (<0,05) indique que vous pouvez rejeter l'hypothèse nulle. En d'autres termes, un prédicteur qui a une faible valeur p est susceptible d'être un ajout significatif à votre modèle car les changements de la valeur du prédicteur sont liés aux changements de la variable de réponse.
Par exemple, j'ai un modèle résultant comme . et le résultat est illustré ci-dessous. Ensuite, un peut être calculé en utilisant cette équation.
Estimate SE tStat pValue
________ ______ _________ _________
(Intercept) 14.48 5.0127 2.8886 0.0097836
x1 0.46753 1.2824 0.36458 0.71967
x2 -0.2668 3.3352 -0.079995 0.93712
x3 1.6193 9.0581 0.17877 0.86011
x4 4.5424 2.8565 1.5902 0.1292
Sur la base de l'introduction ci-dessus, l'hypothèse nulle est que le coefficient est égal à 0. Ma compréhension est que le coefficient, par exemple le coefficient de , sera défini comme 0 et un autre y sera calculé comme . Ensuite, un test t apparié est effectué pour et , mais la valeur p de ce test t est 6,9e-12, ce qui n'est pas égal à 0,1229 (valeur p du coefficient de .
Quelqu'un peut-il aider à la bonne compréhension? Merci beaucoup!
la source
Réponses:
Ceci est incorrect pour deux raisons:
Le modèle «sans» X4 n'aura pas nécessairement les mêmes estimations de coefficient pour les autres valeurs. Montez le modèle réduit et voyez par vous-même.
Le test statistique du coefficient ne concerne pas les valeurs "moyennes" de Y obtenues à partir de 2 prédictions. Le prédit aura toujours la même moyenne, donc une valeur de p du test t égale à 0,5. Il en va de même pour les résidus. Votre test t avait la mauvaise valeur selon le point ci-dessus.Y
Le test statistique qui est effectué pour la signification statistique du coefficient est un test t à un échantillon. Cela est déroutant car nous n'avons pas un "échantillon" de coefficients multiples pour X4, mais nous avons une estimation des propriétés de distribution d'un tel échantillon en utilisant le théorème de la limite centrale. L'erreur moyenne et standard décrivent l'emplacement et la forme d'une telle distribution limite. Si vous prenez la colonne "Est" et divisez par "SE" et comparez à une distribution normale standard, cela vous donne les valeurs de p dans la 4ème colonne.
Un quatrième point: une critique de la page d'aide de minitab. Un tel fichier d'aide ne pouvait pas, dans un paragraphe, résumer des années de formation statistique, donc je n'ai pas besoin de me contenter de tout. Mais dire qu'un «prédicteur» est «une contribution importante» est vague et probablement incorrect. La justification du choix des variables à inclure dans un modèle multivarié est subtile et repose sur un raisonnement scientifique et non sur une inférence statistique.
la source
Votre interprétation initiale des valeurs de p semble correcte, c'est-à-dire que seule l'ordonnée à l'origine a un coefficient significativement différent de 0. Vous remarquerez que l'estimation du coefficient pour x4 est encore assez élevée, mais il y a suffisamment d'erreur pour que ce ne soit pas de manière significative différent de 0.
Votre test t apparié de y1 et y2 suggère que les modèles sont différents les uns des autres. C'est à prévoir, dans un modèle, vous avez inclus un coefficient important mais imprécis qui contribue un peu à votre modèle. Il n'y a aucune raison de penser que la valeur de p de ces modèles différents les uns des autres devrait être la même que la valeur de p du coefficient de x4 étant différente de 0.
la source