Je regarde certains problèmes, et dans certains cas, pour tester les coefficients, parfois je vois des gens utiliser la distribution de Student, et parfois je vois une distribution normale. Quelle est la règle?
10
Je regarde certains problèmes, et dans certains cas, pour tester les coefficients, parfois je vois des gens utiliser la distribution de Student, et parfois je vois une distribution normale. Quelle est la règle?
Réponses:
La distribution normale est la grande distribution de l'échantillon dans de nombreux problèmes statistiques significatifs qui impliquent une certaine version du théorème central limite: vous avez (approximativement) des informations indépendantes qui sont additionnées pour arriver à la réponse. Si les estimations des paramètres sont asymptotiquement normales, leurs fonctions seront également asymptotiquement normales (dans les cas réguliers).
D'un autre côté, la distribution de Student est dérivée dans des conditions plus restrictives des erreurs de régression normales. Si vous pouvez acheter cette hypothèse, vous pouvez acheter la distribution t utilisée pour tester l'hypothèse en régression linéaire. L'utilisation de cette distribution fournit des intervalles de confiance plus larges que l'utilisation de la distribution normale. La signification substantielle de cela est que dans de petits échantillons, vous devez estimer votre mesure d'incertitude, l'erreur quadratique moyenne de régression ou l'écart-type des résidus, σ . (Dans les grands échantillons, vous avez un peu plus d'informations que si vous le saviez, donc la distribution t dégénère en distribution normale.)t t σ t
Il existe des cas de régression linéaire, même avec des échantillons finis, où la distribution de Student ne peut pas être justifiée. Ils sont liés à des violations des conditions de second ordre sur les erreurs de régression; à savoir, qu'ils sont (1) à variance constante et (2) indépendants. Si ces hypothèses sont violées et que vous corrigez vos erreurs standard à l'aide de l' estimateur Eicker / White pour les résidus hétéroscédastiques, mais indépendants; ou estimateur de Newey-West pour les erreurs corrélées en série ou les erreurs standard groupéespour les données corrélées aux clusters, il est impossible de tirer une justification raisonnable de la distribution des étudiants. Cependant, en utilisant une version appropriée de l'argument de la normalité asymptotique (tableaux traingulaires et autres), vous pouvez justifier l'approximation normale (bien que vous devez garder à l'esprit que vos intervalles de confiance seraient très probablement trop étroits).
la source
J'aime la représentation de la distribution de Student comme un mélange d'une distribution normale et d'une distribution gamma:
Notez que la moyenne de la distribution gamma est et la variance de cette distribution est V [ ρ | ν ] = 2E[ ρ | ν] = 1 . Nous pouvons donc considérer la distribution t comme généralisant l'hypothèse de variance constante à une hypothèse de variance "similaire". νcontrôle essentiellement la similitude avec laquelle nous autorisons les variances. Vous voyez également cela comme une régression "pondérée au hasard", car nous pouvons utiliser l'intégrale ci-dessus comme une représentation de "variable cachée" comme suit:V[ ρ | ν] = 2ν ν
Où et ρ ieje∼ N( 0 , σ2) ρje∼ G a m m a ( ν2, ν2) G a m m a ( ν2, ν2) ∼ 1νχ2ν
Notez qu'il n'y a pas de «règle» pour décider de ces choses, bien que la mienne et d'autres réponses à cette question puissent être utiles pour trouver certains tests que vous pouvez faire le long du chemin de variance finie (l'élève t est une variance infinie pour des degrés de liberté inférieurs ou égaux à deux).
la source