Pourquoi une distribution T est-elle utilisée pour tester l'hypothèse d'un coefficient de régression linéaire?

17

En pratique, l'utilisation d'un test T standard pour vérifier la signification d'un coefficient de régression linéaire est une pratique courante. La mécanique du calcul a du sens pour moi.

Pourquoi la distribution T peut-elle être utilisée pour modéliser la statistique de test standard utilisée dans les tests d'hypothèse de régression linéaire? Statistique de test standard dont je parle ici:

T0=β^β0SE(β^)
Nate Parke
la source
Une réponse complète et complète à cette question sera assez longue, j'en suis sûr. Donc, en attendant que quelqu'un s'attaque à cela, vous pouvez avoir une assez bonne idée de pourquoi c'est le cas en consultant quelques notes que j'ai trouvées en ligne ici: onlinecourses.science.psu.edu/stat501/node/297 . Notez spécifiquement que . t(np)2=F(1,np)
StatsStudent
1
Je n'arrive pas à croire que ce ne soit pas un doublon, et pourtant tous les votes positifs (à la fois sur la question et les réponses) ... Qu'en est- il ? Ou peut-être que ce n'est pas un doublon, ce qui signifie qu'il y a (ou il y avait jusqu'à aujourd'hui) des sujets super-basiques qui n'ont pas été couverts au cours des sept années d'existence de Cross Validated ... Wow ...
Richard Hardy
@RichardHardy Hmm, cela ressemble à un doublon. Bien qu'il soit plus détaillé, la question est précisément: "Comment puis-je prouver que pour , "β^iβ^iβisβ^itnk
Firebug

Réponses:

26

Pour comprendre pourquoi nous utilisons le t-distribution, vous devez savoir quelle est la répartition sous - jacente de β et de la somme des carrés résiduelle ( R S S ) que ces deux ensemble de vente vous donnera la distribution t.β^RSS

La partie plus facile est la distribution de β qui est une distribution normale - voir cette note que β = ( X T X ) - 1 X T Y de sorte qu'il est une fonction linéaire de YY ~ N ( X β , σ 2 I n ) . En conséquence , il est également normalement distribué, β ~ N ( β , σ 2 ( X T X ) -β^β^(XTX)1XTYYYN(Xβ,σ2In)- laissezmoi savoir si vousbesoinaide dériver la distribution de β .β^N(β,σ2(XTX)1)β^

De plus, , où n est le nombre d'observations et p est le nombre de paramètres utilisés dans votre régression. La preuve de cela est un peu plus compliquée, mais aussi simple à dériver (voir la preuve ici Pourquoi RSS est-il distribué chi carré np? ).RSSσ2χnp2np

Jusqu'à ce point , je l' ai considéré comme tout dans la matrice / vecteur notation, mais nous allons utiliser pour la simplicité β i et utiliser sa distribution normale , ce qui nous donnera: β i - β iβ^i

β^iβiσ(XTX)ii1N(0,1)

De plus, à partir de la distribution chi carré de nous avons que: ( n - p ) s 2RSS

(np)s2σ2χnp2

Il s'agissait simplement d'un réarrangement de la première expression chi carré et est indépendant du . De plus, nous définissons s 2 = R S SN(0,1) , qui est un estimateur sans biais pourσ2. Par la définition de la définitiontn-pque la division d'une distribution normale par un chi carré indépendant (sur ses degrés de liberté) vous donne une distribution t (pour la preuve, voir:Une normale divisée par les2=RSSnpσ2tnp vous donne une distribution en t - preuveχ2(s)/s) vous obtenez que:

β^iβis(XTX)ii1tnp

.s(XTX)ii1=SE(β^i)

Faites-moi savoir si cela a du sens.

francium87d
la source
quelle bonne réponse! pourriez - vous s'il vous plaît expliquer pourquoi β i - β i?
β^iβiσ(XTX)ii1N(0,1)
KingDingeling
4

La réponse est en fait très simple: vous utilisez la distribution en T car elle a été conçue spécialement à cet effet.

x1,x2,,xnx¯=i=1nxi/nx¯

σξ=(x¯μ)n/σN(0,1)σσ^σσ^

σ^ββ^σ

Aksakal
la source