Comment conceptualiser l'erreur dans un modèle de régression?

11

J'assiste à un cours d'analyse de données et certaines de mes idées bien ancrées sont ébranlées. À savoir, l'idée que l'erreur (epsilon), ainsi que toute autre sorte de variance, ne s'applique (donc je pensais) qu'à un groupe (un échantillon ou une population entière). Maintenant, on nous apprend que l'une des hypothèses de régression est que la variance est "la même pour tous les individus". C'est en quelque sorte choquant pour moi. J'ai toujours pensé que c'était la variance de Y entre toutes les valeurs de X qui était supposée constante.

J'ai eu une conversation avec le prof, qui m'a dit que lorsque nous faisons une régression, nous supposons que notre modèle est vrai. Et je pense que c'est la partie délicate. Pour moi, le terme d'erreur (epsilon) signifiait toujours quelque chose comme "tous les éléments que nous ne connaissons pas et qui pourraient affecter notre variable de résultat, plus une erreur de mesure". Dans la façon dont la classe est enseignée, il n'y a rien de tel que «d'autres choses»; notre modèle est supposé être vrai et complet. Cela signifie que toute variation résiduelle doit être considérée comme le produit d'une erreur de mesure (ainsi, la mesure d'un individu 20 fois devrait produire la même variance que la mesure de 20 individus une fois).

Je sens que quelque chose ne va pas quelque part, j'aimerais avoir une opinion d'expert à ce sujet ... Y a-t-il une marge d'interprétation quant au terme d'erreur, conceptuellement parlant?

Dominic Comtois
la source
3
Peut-être qu'il voulait dire que, même si le modèle est vrai, il existe encore des variations aléatoires dans les réponses - ce qui est capturé par la variance d'erreur - cela peut, par exemple, être attribué à un appareil de mesure imparfait. D'autres conceptualisent parfois la variance d'erreur comme étant due à des prédicteurs manquants (pas nécessairement des erreurs sous la forme du modèle), ce qui implique que si tous les prédicteurs possibles étaient mesurés, la variance d'erreur serait de 0. Ce n'est pas incompatible avec le premier - les erreurs dans la mesure peut être considérée comme un "prédicteur manquant".
Macro
Je pense qu'une chose qui est toujours difficile à comprendre au début est que "erreur" pourrait signifier différentes choses dans ce cas. «Erreur» pourrait se référer à la différence entre les valeurs ajustées que nous obtenons de notre modèle et les valeurs observées (l'écart peut être dû à un modèle assez parcimonieux, par exemple). "Erreur" peut également signifier la différence entre les valeurs observées et les valeurs réelles (l'écart peut être dû, par exemple, à l'appareil que vous utilisez pour mesurer les valeurs arrondies à l'entier le plus proche / dixième décimal / etc.). [Le premier type est celui où vous entendez des termes comme "résidus / variance résiduelle".]
@Macro Oui, cela me semble être une façon naturelle de penser l'erreur. J'essaie cependant de comprendre pourquoi le prof a insisté sur une définition plus stricte de celui-ci (en le considérant comme applicable à chaque individu même si nous savons en réalité, ce n'est pas vrai).
Dominic Comtois
@MikeWierzbicki À droite. Et si je comprends bien, tout cela est regroupé du point de vue "strict". Cela signifie que toute la différence entre les valeurs observées et prédites provient d'une erreur de mesure, car notre modèle "doit être vrai".
Dominic Comtois

Réponses:

2

S'il y a des aspects d'individus qui ont un effet sur les valeurs y résultantes, alors soit il y a un moyen d'atteindre ces aspects (auquel cas ils devraient faire partie du prédicteur x), soit il n'y a aucun moyen d'y arriver information.

S'il n'y a aucun moyen d'obtenir ces informations et qu'il n'y a aucun moyen de mesurer à plusieurs reprises les valeurs y pour les individus, alors cela n'a vraiment pas d'importance. Si vous pouvez mesurer y à plusieurs reprises, et si votre ensemble de données contient des mesures répétées pour certaines personnes, alors vous avez un problème potentiel entre vos mains, car la théorie statistique suppose l'indépendance des erreurs de mesure / résidus.

Par exemple, supposons que vous essayez d'adapter un modèle de formulaire

y=β0+β1x ,

et que pour chaque individu,

yind=100+10x+z ,

où z dépend de l'individu et est normalement distribué avec la moyenne 0 et l'écart type 10. Pour chaque mesure répétée d'un individu,

ymeas=100+10x+z+e ,

où est normalement distribué avec la moyenne 0 et l'écart type 0,1. e

Vous pouvez essayer de modéliser cela comme

y=β0+β1x+ϵ ,

où est normalement distribué avec la moyenne 0 et l'écart typeϵ

σ=102+0.12=100.01 .

Tant que vous n'avez qu'une seule mesure pour chaque individu, ce serait bien. Cependant, si vous avez plusieurs mesures pour le même individu, vos résidus ne seront plus indépendants!

Par exemple, si vous avez un individu avec z = 15 (1,5 écart-type, donc pas trop déraisonnable) et cent mesures répétées de cet individu, alors utilisez et (les valeurs exactes!) vous vous retrouveriez avec 100 résidus d'environ +1,5 écart-type, ce qui serait extrêmement improbable. Cela affecterait la statistique . β 1 = 10 χ 2β0=100β1=10χ2

Brian Borchers
la source
J'ai essayé d'éviter d'utiliser le terme effrayant de "modélisation à plusieurs niveaux" dans ma réponse, mais vous devez savoir que dans certains cas, cela permet de faire face à ce genre de situation.
Brian Borchers
1

Je pense que "l'erreur" est mieux décrite comme "la partie des observations qui est imprévisible compte tenu de nos informations actuelles". Essayer de penser en termes de population par rapport à l'échantillon conduit à des problèmes conceptuels (enfin, c'est le cas pour moi de toute façon), tout comme penser les erreurs comme "purement aléatoires" tirées d'une certaine distribution. penser en termes de prédiction et de "prévisibilité" a beaucoup plus de sens pour moi.

Je pense également que le principe d'entropie maximale fournit une façon claire de comprendre pourquoi une distribution normale est utilisée. Car lors de la modélisation, nous attribuons une distribution aux erreurs pour décrire ce qui est connu à leur sujet. Toute distribution conjointe pourrait représenter un état de connaissance concevable. Cependant, si nous spécifions une structure telle que alors la distribution la plus uniforme soumise à cette contrainte est la distribution normale avec une moyenne nulle et une variance constanteE ( 1p(e1,,en)σ2σE(1ni=1nei2)=σ2σ2. Cela montre que "l'indépendance" et la "variance constante" sont en fait plus sûres que de supposer le contraire sous cette contrainte - à savoir que le deuxième moment moyen existe et est fini et nous nous attendons à ce que la taille générale des erreurs soit .σ

Donc, une façon de penser à cela est que nous ne pensons pas nécessairement que nos hypothèses sont "correctes" mais plutôt "sûres" dans le sens où nous n'injectons pas beaucoup d'informations dans le problème (nous imposons une seule contrainte structurelle dans dimensions). nous partons donc d'une zone sûre - et nous pouvons construire à partir d'ici en fonction des informations spécifiques dont nous disposons sur le cas particulier et l'ensemble de données à portée de main.n

probabilitéislogique
la source
Qu'entendez-vous par "uniforme" dans: "alors la distribution la plus uniforme soumise à cette contrainte est la distribution normale avec une moyenne nulle et une variance constante "? σ2
Macro
Je veux dire c'est-à-dire une distribution uniforme. p(e1,,en)1
probabilitéislogic
Et de près, je veux dire que la divergence kl est minimisée
probabilités
Le dilemme n'est pas entre l'échantillon et la population. Il s'agit de penser que l'erreur s'applique aux individus par rapport à l'échantillon / à la population.
Dominic Comtois
1

Je ne suis pas d'accord avec la formulation du professeur à ce sujet. Comme vous le dites, l'idée que la variance est la même pour chaque individu implique que le terme d'erreur ne représente que l'erreur de mesure. Ce n'est généralement pas ainsi que le modèle de régression multiple de base est construit. Comme vous le dites également, la variance est définie pour un groupe (qu'il s'agisse d'un groupe de sujets individuels ou d'un groupe de mesures). Il ne s'applique pas au niveau individuel, sauf si vous avez des mesures répétées.

Un modèle doit être complet dans la mesure où le terme d'erreur ne doit contenir aucune influence de variables corrélées avec des prédicteurs. L'hypothèse est que le terme d'erreur est indépendant des prédicteurs. Si une variable corrélée est omise, vous obtiendrez des coefficients biaisés (c'est ce qu'on appelle le biais variable omis ).

Anne Z.
la source
Je ne comprends pas très bien cette réponse. il semble reconnaître la différence entre l'erreur due au manque d'ajustement et l'erreur aléatoire, mais la dernière question rhétorique semble déroutante. D'un point de vue purement formel, pratiquement toute inférence faite à l'égard d'un modèle de régression repose sur des hypothèses très explicites sur la structure du bruit.
Cardinal
1
Mon point est que dans de nombreux cas, le but de la modélisation de régression est de comprendre ce qui se passe même lorsque nous ne connaissons pas toutes les causes d'un résultat particulier. Mais comme cela ne semble pas clair, je vais supprimer cette question.
Anne Z.
Merci. Le point de votre commentaire est bon. La question précédente que vous avez posée pourrait être interprétée comme remettant en question toute la base sur laquelle repose la théorie de la régression. :)
cardinal
Je suis d'accord avec vous dans votre désaccord (d'où ma question!), Et le biais de variable omis est tout à fait pertinent pour le problème. Merci.
Dominic Comtois