J'assiste à un cours d'analyse de données et certaines de mes idées bien ancrées sont ébranlées. À savoir, l'idée que l'erreur (epsilon), ainsi que toute autre sorte de variance, ne s'applique (donc je pensais) qu'à un groupe (un échantillon ou une population entière). Maintenant, on nous apprend que l'une des hypothèses de régression est que la variance est "la même pour tous les individus". C'est en quelque sorte choquant pour moi. J'ai toujours pensé que c'était la variance de Y entre toutes les valeurs de X qui était supposée constante.
J'ai eu une conversation avec le prof, qui m'a dit que lorsque nous faisons une régression, nous supposons que notre modèle est vrai. Et je pense que c'est la partie délicate. Pour moi, le terme d'erreur (epsilon) signifiait toujours quelque chose comme "tous les éléments que nous ne connaissons pas et qui pourraient affecter notre variable de résultat, plus une erreur de mesure". Dans la façon dont la classe est enseignée, il n'y a rien de tel que «d'autres choses»; notre modèle est supposé être vrai et complet. Cela signifie que toute variation résiduelle doit être considérée comme le produit d'une erreur de mesure (ainsi, la mesure d'un individu 20 fois devrait produire la même variance que la mesure de 20 individus une fois).
Je sens que quelque chose ne va pas quelque part, j'aimerais avoir une opinion d'expert à ce sujet ... Y a-t-il une marge d'interprétation quant au terme d'erreur, conceptuellement parlant?
la source
Réponses:
S'il y a des aspects d'individus qui ont un effet sur les valeurs y résultantes, alors soit il y a un moyen d'atteindre ces aspects (auquel cas ils devraient faire partie du prédicteur x), soit il n'y a aucun moyen d'y arriver information.
S'il n'y a aucun moyen d'obtenir ces informations et qu'il n'y a aucun moyen de mesurer à plusieurs reprises les valeurs y pour les individus, alors cela n'a vraiment pas d'importance. Si vous pouvez mesurer y à plusieurs reprises, et si votre ensemble de données contient des mesures répétées pour certaines personnes, alors vous avez un problème potentiel entre vos mains, car la théorie statistique suppose l'indépendance des erreurs de mesure / résidus.
Par exemple, supposons que vous essayez d'adapter un modèle de formulaire
et que pour chaque individu,
où z dépend de l'individu et est normalement distribué avec la moyenne 0 et l'écart type 10. Pour chaque mesure répétée d'un individu,
où est normalement distribué avec la moyenne 0 et l'écart type 0,1.e
Vous pouvez essayer de modéliser cela comme
où est normalement distribué avec la moyenne 0 et l'écart typeϵ
Tant que vous n'avez qu'une seule mesure pour chaque individu, ce serait bien. Cependant, si vous avez plusieurs mesures pour le même individu, vos résidus ne seront plus indépendants!
Par exemple, si vous avez un individu avec z = 15 (1,5 écart-type, donc pas trop déraisonnable) et cent mesures répétées de cet individu, alors utilisez et (les valeurs exactes!) vous vous retrouveriez avec 100 résidus d'environ +1,5 écart-type, ce qui serait extrêmement improbable. Cela affecterait la statistique . β 1 = 10 χ 2β0= 100 β1= 10 χ2
la source
Je pense que "l'erreur" est mieux décrite comme "la partie des observations qui est imprévisible compte tenu de nos informations actuelles". Essayer de penser en termes de population par rapport à l'échantillon conduit à des problèmes conceptuels (enfin, c'est le cas pour moi de toute façon), tout comme penser les erreurs comme "purement aléatoires" tirées d'une certaine distribution. penser en termes de prédiction et de "prévisibilité" a beaucoup plus de sens pour moi.
Je pense également que le principe d'entropie maximale fournit une façon claire de comprendre pourquoi une distribution normale est utilisée. Car lors de la modélisation, nous attribuons une distribution aux erreurs pour décrire ce qui est connu à leur sujet. Toute distribution conjointe pourrait représenter un état de connaissance concevable. Cependant, si nous spécifions une structure telle que alors la distribution la plus uniforme soumise à cette contrainte est la distribution normale avec une moyenne nulle et une variance constanteE ( 1p ( e1, … , En) σ2σE( 1n∑ni = 1e2je) = σ2 σ2 . Cela montre que "l'indépendance" et la "variance constante" sont en fait plus sûres que de supposer le contraire sous cette contrainte - à savoir que le deuxième moment moyen existe et est fini et nous nous attendons à ce que la taille générale des erreurs soit .σ
Donc, une façon de penser à cela est que nous ne pensons pas nécessairement que nos hypothèses sont "correctes" mais plutôt "sûres" dans le sens où nous n'injectons pas beaucoup d'informations dans le problème (nous imposons une seule contrainte structurelle dans dimensions). nous partons donc d'une zone sûre - et nous pouvons construire à partir d'ici en fonction des informations spécifiques dont nous disposons sur le cas particulier et l'ensemble de données à portée de main.n
la source
Voici un lien très utile pour expliquer une régression linéaire simple: http://www.dangoldstein.com/dsn/archives/2006/03/every_wonder_ho.html peut-être que cela peut aider à saisir le concept "d'erreur".
FD
la source
Je ne suis pas d'accord avec la formulation du professeur à ce sujet. Comme vous le dites, l'idée que la variance est la même pour chaque individu implique que le terme d'erreur ne représente que l'erreur de mesure. Ce n'est généralement pas ainsi que le modèle de régression multiple de base est construit. Comme vous le dites également, la variance est définie pour un groupe (qu'il s'agisse d'un groupe de sujets individuels ou d'un groupe de mesures). Il ne s'applique pas au niveau individuel, sauf si vous avez des mesures répétées.
Un modèle doit être complet dans la mesure où le terme d'erreur ne doit contenir aucune influence de variables corrélées avec des prédicteurs. L'hypothèse est que le terme d'erreur est indépendant des prédicteurs. Si une variable corrélée est omise, vous obtiendrez des coefficients biaisés (c'est ce qu'on appelle le biais variable omis ).
la source