Si je répète chaque observation d'échantillon dans un modèle de régression linéaire et que je réexécute la régression, comment le résultat serait-il affecté?

15

Disons que j'ai N observations, éventuellement plusieurs facteurs et je répète chaque observation deux fois (ou M fois) comment une régression sur ce nouvel ensemble de taille NM se comparerait-elle à une régression sur les observations originales uniquement?

Palace Chan
la source

Réponses:

13

Sur le plan conceptuel, vous n'ajoutez aucune «nouvelle» information, mais vous «connaissez» cette information plus précisément.

Il en résulterait donc les mêmes coefficients de régression, avec des erreurs types plus petites.

Par exemple, dans Stata, la fonction expand x duplique chaque observation x fois.

sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515    .001586    -2.43   0.018    -.0070138   -.0006891
      length |  -.0795935   .0553577    -1.44   0.155    -.1899736    .0307867
       _cons |   47.88487    6.08787     7.87   0.000       35.746    60.02374
------------------------------------------------------------------------------

expand 5

regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515   .0006976    -5.52   0.000    -.0052232   -.0024797
      length |  -.0795935   .0243486    -3.27   0.001    -.1274738   -.0317131
       _cons |   47.88487   2.677698    17.88   0.000     42.61932    53.15043
------------------------------------------------------------------------------

Comme vous pouvez le voir, les coefficients (longueur) anciennement insignifiants deviennent statistiquement significatifs dans le modèle étendu, représentant la précision avec laquelle vous "savez" ce que vous savez.

pmgjones
la source
Oui, les erreurs standard diminuent. Certains recommandent une régression linéaire pondérée pour cela. Y a-t-il une méthode que vous utilisez pour résoudre ce problème?
BBDynSys
3

w=argminw||Xw-y||2
XyMM
Innuo
la source
D'accord, mais je pense que les statistiques et les erreurs standard devraient changer compte tenu du passage de N à NM?
Palace Chan
MN-PNPM