Quand utiliser la distribution de Student ou normale dans la régression linéaire?

10

Je regarde certains problèmes, et dans certains cas, pour tester les coefficients, parfois je vois des gens utiliser la distribution de Student, et parfois je vois une distribution normale. Quelle est la règle?

Leo
la source
3
Ce n'est pas une réponse, mais notez que la distribution s'approche de la distribution normale lorsque le paramètre de degrés de liberté ν augmente. Au-delà de ν 30 , il n'y a pas de différence appréciable, en particulier dans la plupart des cadres de test d'hypothèses. Le comportement limite est "d'en haut" dans le sens où si T t ν et Z N ( 0 , 1 ) , alors | T | est stochastiquement plus grand que | Z | . tνν30TtνZN(0,1)|T||Z|
cardinal

Réponses:

15

La distribution normale est la grande distribution de l'échantillon dans de nombreux problèmes statistiques significatifs qui impliquent une certaine version du théorème central limite: vous avez (approximativement) des informations indépendantes qui sont additionnées pour arriver à la réponse. Si les estimations des paramètres sont asymptotiquement normales, leurs fonctions seront également asymptotiquement normales (dans les cas réguliers).

D'un autre côté, la distribution de Student est dérivée dans des conditions plus restrictives des erreurs de régression normales. Si vous pouvez acheter cette hypothèse, vous pouvez acheter la distribution t utilisée pour tester l'hypothèse en régression linéaire. L'utilisation de cette distribution fournit des intervalles de confiance plus larges que l'utilisation de la distribution normale. La signification substantielle de cela est que dans de petits échantillons, vous devez estimer votre mesure d'incertitude, l'erreur quadratique moyenne de régression ou l'écart-type des résidus, σ . (Dans les grands échantillons, vous avez un peu plus d'informations que si vous le saviez, donc la distribution t dégénère en distribution normale.)ttσt

Il existe des cas de régression linéaire, même avec des échantillons finis, où la distribution de Student ne peut pas être justifiée. Ils sont liés à des violations des conditions de second ordre sur les erreurs de régression; à savoir, qu'ils sont (1) à variance constante et (2) indépendants. Si ces hypothèses sont violées et que vous corrigez vos erreurs standard à l'aide de l' estimateur Eicker / White pour les résidus hétéroscédastiques, mais indépendants; ou estimateur de Newey-West pour les erreurs corrélées en série ou les erreurs standard groupéespour les données corrélées aux clusters, il est impossible de tirer une justification raisonnable de la distribution des étudiants. Cependant, en utilisant une version appropriée de l'argument de la normalité asymptotique (tableaux traingulaires et autres), vous pouvez justifier l'approximation normale (bien que vous devez garder à l'esprit que vos intervalles de confiance seraient très probablement trop étroits).

StasK
la source
1
(+1) J'adore l'implication, dans l'ouverture du troisième paragraphe, que la régression linéaire se fait avec des échantillons infinis (non "finis")!
whuber
@whuber: :) Dans mes livres, si c'est normal, ça doit s'appuyer sur le CLT ou quelque chose d'asymptotique. Sinon, cela a autant de sens que cela .
StasK
6

J'aime la représentation de la distribution de Student comme un mélange d'une distribution normale et d'une distribution gamma:

Stuent(X|μ,σ2,ν)=0Normunel(X|μ,σ2ρ)gunemmune(ρ|ν2,ν2)ρ

Notez que la moyenne de la distribution gamma est et la variance de cette distribution est V [ ρ | ν ] = 2E[ρ|ν]=1 . Nous pouvons donc considérer la distribution t comme généralisant l'hypothèse de variance constante à une hypothèse de variance "similaire". νcontrôle essentiellement la similitude avec laquelle nous autorisons les variances. Vous voyez également cela comme une régression "pondérée au hasard", car nous pouvons utiliser l'intégrale ci-dessus comme une représentation de "variable cachée" comme suit:V[ρ|ν]=2νν

yje=μje+ejeρje

et ρ iejeN(0,σ2)ρjegunemmune(ν2,ν2)gunemmune(ν2,ν2)1νχν2

yje-μjeσ2ρjeσ2ρjeρjeμje=XjeTβρjeρje

β^=(jeρjeXjeXjeT)-1(jeρjeXjeyje)

ρjeρje

Notez qu'il n'y a pas de «règle» pour décider de ces choses, bien que la mienne et d'autres réponses à cette question puissent être utiles pour trouver certains tests que vous pouvez faire le long du chemin de variance finie (l'élève t est une variance infinie pour des degrés de liberté inférieurs ou égaux à deux).

probabilitéislogique
la source
+1: cela semble correct, mais je ne pense pas que vous devriez dire un mélange d'une distribution normale et d'une distribution gamma, mais plutôt une distribution composée normale-gamma-normale et motiver cette construction en disant que la distribution normale-gamma est la conjugué avant la distribution normale (paramétré par moyenne et précision).
Neil G
Ouais, point pris sur le mélange - bien que je ne puisse pas penser à un moyen non maladroit de le corriger en ce moment. Notez que cette forme n'est pas unique aux distributions conjuguées - par exemple, si nous remplaçons le pdf gamma par un pdf exponentiel inversé, nous obtenons la distribution de laplace. Cela conduit à des «écarts les moins absolus» au lieu des moindres carrés comme une forme de robustification de la distribution normale. D'autres distributions conduiraient à d'autres «robustifications» - peut-être pas aussi joliment analytiques que les étudiants.
probabilités
X(U/ν)