Intervalle de confiance pour la différence des moyennes de régression

10

Supposons que j'ai un modèle de régression quadratique avec les erreurs satisfaisant les hypothèses habituelles (indépendantes, normales, indépendantes des valeurs ). Soit les estimations des moindres carrés.

Y=β0+β1X+β2X2+ϵ
ϵXb0,b1,b2

J'ai deux nouvelles valeurs et , et je suis intéressé par un intervalle de confiance pour .Xx1x2v=E(Y|X=x2)E(Y|X=x1)=β1(x2x1)+β2(x22x12)

L'estimation ponctuelle est , et (corrigez-moi si je me trompe) je peux estimer la variance par utilisant les estimations de variance et de covariance des coefficients fournies par le logiciel.v^=b1(x2x1)+b2(x22x12)

s^2=(x2x1)2Var(b1)+(x22x12)2Var(b2)+2(x2x1)(x2x12)Cov(b1,b2)

Je pourrais utiliser une approximation normale et prendre comme intervalle de confiance à 95% pour , ou je pourrais utiliser un intervalle de confiance bootstrap, mais existe-t-il un moyen de déterminer la distribution exacte et l'utiliser?v^±1.96s^v

mark999
la source
2
Comme les erreurs sont supposées normales, les estimations des paramètres - étant des fonctions linéaires des données, d'où les erreurs aussi - doivent elles-mêmes être normales, ce qui implique une distribution normale pour . v^
whuber
Alors, dites-vous que l'intervalle de confiance normal est correct? Si je comprends bien, selon cette logique, nous utiliserions également des intervalles de confiance normaux pour les paramètres. Mais nous utilisons des intervalles basés sur la distribution t.
mark999
La distribution t est utilisée parce que vous estimez la variance d'erreur; si cela était connu, vous auriez une distribution normale comme le dit @whuber.
JMS
Merci pour votre commentaire. Ce que je demande, est-ce que la distribution t peut également être utilisée pour un intervalle de confiance pour v tel que défini dans la question, et si oui, avec combien de degrés de liberté?
mark999
Les variances et covariances dépendent toutes en fin de compte de la variance estimée des résidus. Ainsi, le DF à utiliser est le DF dans cette estimation, égal au nombre de valeurs de données moins le nombre de paramètres (y compris la constante).
whuber

Réponses:

9

Le résultat général que vous recherchez (sous les hypothèses énoncées) ressemble à ceci: Pour la régression linéaire avec variables prédictives (vous en avez deux, et ) et une interception, puis avec observations, la matrice de conception , l' estimateur dimensionnel etpXX2nXn×(p+1)β^p+1aRp+1

aTβ^aTβσ^aT(XTX)1atnp1.

La conséquence est que vous pouvez construire des intervalles de confiance pour n'importe quelle combinaison linéaire du vecteur utilisant la même distribution que vous utilisez pour construire un intervalle de confiance pour l'une des coordonnées.βt

Dans votre cas, et . Le dénominateur dans la formule ci-dessus est la racine carrée de ce que vous calculez comme estimation de l'erreur standard (à condition que ce soit ce que le logiciel calcule ...). Notez que l'estimateur de variance, , est censé être l'estimateur sans biais (habituel), où vous divisez par les degrés de liberté, , et non le nombre d'observations .p=2aT=(0,x2x1,x22x12)σ^2np1n

NRH
la source
1
Merci, c'est exactement le genre de chose que je cherchais. Mais y a-t-il une erreur dans la formule? Les dimensions ne semblent pas correspondre dans . Est-ce que être la matrice ayant dans la première colonne? aT(XTX)1aXn×(p+1)
mark999
@ mark999, oui, a colonnes. J'ai corrigé cela dans la réponse. Merci. Xp+1
NRH