Comprendre le test t pour la régression linéaire

17

J'essaie de savoir comment effectuer des tests d'hypothèse sur une régression linéaire (l'hypothèse nulle étant sans corrélation). Chaque guide et page sur le sujet que je rencontre semble utiliser un test t. Mais je ne comprends pas ce que signifie réellement le test t pour la régression linéaire. Un test t, sauf si j'ai une compréhension ou un modèle mental complètement faux, est utilisé pour comparer deux populations. Mais le régresseur et le régresseur ne sont pas des échantillons de populations similaires, et peuvent même ne pas être de la même unité, il n'est donc pas logique de les comparer.

Donc, lorsque vous utilisez un test t sur une régression linéaire, que faisons-nous réellement?

jaymmer - Réintégrer Monica
la source

Réponses:

37

Vous pensez probablement au test deux échantillons t, car c'est souvent le premier endroit où la distribution t apparaît. Mais en réalité tout ce que signifie un test t est que la distribution de référence pour la statistique de test est une distribution t . Si ZN(0,1) et S2χd2 avec Z et S2 indépendants, alors

ZS2/dtd
par définition. J'écris ceci pour souligner que ladistributionest juste un nom qui a été donné à la distribution de ce rapport car il revient beaucoup, et tout ce qui a cette forme aura unttt distribution . Pour le test t à deux échantillons, ce rapport apparaît parce que sous la valeur nulle, la différence de moyenne est un gaussien à moyenne nulle et l'estimation de la variance pour les gaussiens indépendants est un χ2 indépendant (l'indépendance peut être montrée via le théorème de Basu qui utilise le fait que l'estimation de la variance standard dans un échantillon gaussien est accessoire à la moyenne de la population, alors que la moyenne de l'échantillon est complète et suffisante pour cette même quantité).

Avec la régression linéaire, nous obtenons essentiellement la même chose. Sous forme . Soit S 2 j = ( X T X ) - 1 j j et supposons que les prédicteurs X sont non aléatoires. Si nous savions σ 2 que nous aurions β j - 0β^N(β,σ2(XTX)1)Sj2=(XTX)jj1Xσ2 sous le nulH0:βj=0donc nous aurions en fait un test Z. Mais une foisnous estimonsσ2nous nous retrouvons avec unχ2variable aléatoire qui, sous nos hypothèses de normalité, se révèle être indépendante de notre statistique β jet nous obtenons unetdistribution.

β^j0σSjN(0,1)
H0:βj=0σ2χ2β^jt

Voici les détails de cela: supposons . Soit H = X ( X T X ) - 1 X T la matrice chapeau que nous avons e 2 = ( I - H ) y 2 = y T ( I - H ) y . H est idempotent donc nous avons le résultat vraiment sympa yN(Xβ,σ2I)H=X(XTX)1XT

e2=(IH)y2=yT(IH)y.
H avec paramètre de non-centralité δ = β T X T ( I - H ) X β = β T ( X T X - X T X ) β = 0 , donc en fait c'est un χ 2 centralavec n - p
yT(IH)y/σ2χnp2(δ)
δ=βTXT(IH)Xβ=βT(XTXXTX)β=0χ2npdegrés de liberté (c'est un cas particulier du théorème de Cochran ). J'utilise pour dénoter le nombre de colonnes de X , donc si une colonne de X donne l'ordonnée à l'origine, nous aurions alors p - 1 prédicteurs de non-interception. Certains auteurs utilisent p pour être le nombre de prédicteurs non-intercept donc parfois vous pouvez voir quelque chose comme n - p - 1 dans les degrés de liberté là-bas, mais c'est la même chose.pXXp1pnp1

Le résultat de ceci est que , de sorte que σ 2 : = 1E(eTe/σ2)=npfonctionne très bien comme estimateur deσ2.σ^2:=1npeTeσ2

Cela signifie que β j est le rapport d'un gaussien standard à un chi carré divisé par ses degrés de liberté. Pour terminer cela, nous devons faire preuve d'indépendance et nous pouvons utiliser le résultat suivant:

β^jσ^Sj=β^jSjeTe/(np)=β^jσSjeTeσ2(np)

Résultat: pour et les matrices A et B dans R l × k et R m × k respectivement, A Z et B Z sont indépendants si et seulement si A Σ B T = 0 (c'est l'exercice 58 (b) dans le chapitre 1 des statistiques mathématiques de Jun Shao ).ZNk(μ,Σ)ABRl×kRm×kAZBZAΣBT=0

Nous avons β = ( X T X ) - 1 X T y et e = ( I - H ) yy ~ N ( X β , σ 2 I ) . Cela signifie ( X T X ) - 1 X Tσ 2 I ( I - H ) T = σ 2β^=(XTX)1XTye=(IH)yyN(Xβ,σ2I) si la ße, etconséquent la ß e T e.

(XTX)1XTσ2I(IH)T=σ2((XTX)1XT(XTX)1XTX(XTX)1XT)=0
β^eβ^eTe

Le résultat que nous savons maintenant est β j comme onsouhaite (dans toutes les hypothèses cidessus).

β^jσ^Sjtnp

C=(AB)(l+m)×kAB

CZ=(AZBZ)N((AμBμ),CΣCT)
CΣCT=(AB)Σ(ATBT)=(AΣATAΣBTBΣATBΣBT).
CZAΣBT=0AZBZCZ

jld
la source
3
+1 aime toujours lire votre réponse.
Haitao Du
9

@ La réponse de Chaconne est excellente. Mais voici une version non mathématique beaucoup plus courte!

Le but étant de calculer une valeur P, vous devez d'abord définir une hypothèse nulle. Presque toujours, c'est que la pente est en fait horizontale donc la valeur numérique de la pente (beta) est 0.0.

L'ajustement de pente de vos données n'est pas de 0,0. Cet écart est-il dû au hasard ou à l'hypothèse nulle qui est fausse? Vous ne pouvez jamais répondre à cela avec certitude, mais une valeur P est un moyen d'obtenir une réponse en quelque sorte.

Le programme de régression signale une erreur standard de la pente. Calculez le rapport t comme la pente divisée par son erreur standard. En fait, il est (pente moins pente de l'hypothèse nulle) divisé par l'erreur standard, mais la pente de l'hypothèse nulle est presque toujours nulle.

Maintenant, vous avez à ratio. Le nombre de degrés de liberté (df) est égal au nombre de points de données moins le nombre de paramètres ajustés par la régression (deux pour la régression linéaire).

Avec ces valeurs (t et df), vous pouvez déterminer la valeur P avec une calculatrice ou un tableau en ligne.

Il s'agit essentiellement d'un test t à un échantillon, comparant une valeur calculée observée (la pente) à une valeur hypothétique (l'hypothèse nulle).

Harvey Motulsky
la source
4
La vraie question est de savoir pourquoi il s'agit "essentiellement d'un test t à un échantillon", et je ne vois pas comment cela peut devenir clair à partir de votre réponse ...
amibe dit Reinstate Monica