Comprendre les régressions - le rôle du modèle

46

Comment utiliser un modèle de régression si vous ne connaissez pas la fonction pour laquelle vous essayez d'obtenir les paramètres?

J'ai vu une recherche qui disait que les mères qui allaitaient leurs enfants étaient moins susceptibles de souffrir de diabète plus tard dans la vie. La recherche a été réalisée à partir d'une enquête auprès de 1000 mères et de facteurs divers contrôlés. Un modèle log-linéaire a été utilisé.

Cela signifie-t-il qu'ils tiennent compte de tous les facteurs qui déterminent la probabilité de diabète dans une fonction intéressante (probablement exponentielle) qui se traduit parfaitement en un modèle linéaire avec des journaux et que la question de savoir si la femme nourrie au sein se révèle statistiquement significative?

Je suis sûr qu'il me manque quelque chose, mais comment connaissent-ils le modèle?

Jonathan Andrews
la source
Merci beaucoup à tous. Je veux passer un peu de temps à réfléchir à vos réponses et peut-être, si cela ne vous dérange pas que je m’essaye d’écrire cela en mon sens. J'aime cette description du processus qui provient de la série de Taylor. J'ai dû approfondir mes connaissances sur la régression à l'aide de techniques d'économie et de mathématiques pour les économistes, et le lien avec Taylor se remarque par son absence.
Jonathan Andrews
J'ai fusionné vos comptes; mais s'il vous plaît, enregistrez-le ici stats.stackexchange.com/users/login afin de ne pas le perdre à nouveau.

Réponses:

43

Il est utile de voir la régression comme une approximation linéaire de la forme vraie. Supposons que la vraie relation soit

y=f(x1,...,xk)

avec facteurs expliquant le . Alors le premier ordre de Taylor approximation de autour de zéro est:x1,...,xkyf

f(x1,...,xk)=f(0,...,0)+i=1kf(0)xkxk+ε,

où est l'erreur d'approximation. maintenant et et vous avez une régression:α 0 = f ( 0 , . . . , 0 ) α k = f ( 0 )εα0=f(0,...,0)αk=f(0)xk

y=α0+α1x1+...+αkxk+ε

Ainsi, bien que vous ne connaissiez pas la vraie relation, si est petit, vous obtenez une approximation, à partir de laquelle vous pouvez toujours déduire des conclusions utiles.ε

mpiktas
la source
1
Bonjour, très bonne explication mais je ne parviens pas à comprendre la partie "sigma" de l’extension de la série Taylor. Comment réduisez-vous cette équation trouvée ici: mathworld.wolfram.com/TaylorSeries.html sous "Une série de Taylor d'une fonction réelle à deux variables" à la vôtre?
Arun
1
@Arun, prenons dans la formule (32). n=1
Mpiktas
18

L’autre côté de la réponse, complémentaire de la réponse de mpiktas mais qui n’a pas encore été mentionnée, est le suivant:

"Ils ne le font pas, mais dès qu'ils assument une structure de modèle, ils peuvent la comparer aux données".

Les deux choses fondamentales qui pourraient mal se passer sont les suivantes: La forme de la fonction, par exemple, elle n’est même pas linéaire dans les journaux. Vous devez donc commencer par tracer le résidu approprié par rapport aux valeurs attendues. Ou encore le choix de la distribution conditionnelle , par exemple les comptes observés surdispersés par rapport à Poisson. Vous pouvez donc tester une version binomiale négative du même modèle ou voir si des covariables supplémentaires rendent compte de la variation supplémentaire.

Vous voudriez également vérifier les valeurs aberrantes, les observations influentes et une foule d'autres choses. Le chapitre 5 de Cameron et Trivedi, 1998, constitue un endroit raisonnable pour en savoir plus sur la vérification de ce type de problème type.

Si ces diagnostics indiquaient que le modèle ne tenait pas les données, modifiez son aspect et relancez le processus.

conjuguéprior
la source
1
+1 C’est la clé qui empêche tout cela d’être agité à la main: vous ne savez pas, mais vous essayez quelque chose, puis regardez à quel point il correspond et de quelle manière il correspond à vos données.
Wayne
15

Une excellente première question! Je suis d'accord avec la réponse de mpiktas, la réponse courte est "ils ne le font pas, mais ils espèrent avoir une approximation du bon modèle qui donne approximativement la bonne réponse".

Dans le jargon de l'épidémiologie, cette incertitude modèle est l'une des sources de ce que l'on appelle la " confusion résiduelle ". Voir la page de Steve Simon 'Qu'est-ce que la confusion résiduelle?' pour une bonne description courte, ou l'article de Heiko Becher publié en 1992 dans Statistics in Medicine (abonnement requis) pour un traitement plus long et plus mathématique, ou Fewell, l'article plus récent de Davey Smith & Sterne dans l' American Journal of Epidemiology (abonnement requis ).

C’est une des raisons pour lesquelles l’épidémiologie des petits effets est difficile et les résultats souvent controversés - si la taille de l’effet mesurée est petite, il est difficile d’exclure les facteurs de confusion résiduels ou d’autres sources de biais comme explication.

un arrêt
la source
1
Je dirais que les erreurs de spécification du modèle - qui semble être ce dont parle le PO, sont quelque peu distinctes de la confusion résiduelle. La confusion nécessite une covariable. Vous pouvez visser une régression avec juste la mauvaise spécification d'une exposition et des résultats.
Fomite
13

Il y a la célèbre citation "Tous les modèles sont faux, mais certains sont utiles" de George Box . Lorsque nous ajustons des modèles comme celui-ci, nous essayons (ou devrions) de réfléchir au processus de génération de données et au monde réel et physique, aux relations entre la réponse et les covariables. Nous essayons d'exprimer ces relations dans un modèle qui correspond aux données. Ou pour le dire autrement, est compatible avec les données. En tant que tel, un modèle empirique est produit.

Que cela soit utile ou non est déterminé plus tard - donne-t-il de bonnes prévisions fiables, par exemple, pour les femmes qui ne sont pas habituées à s'adapter au modèle? Les coefficients du modèle sont-ils interprétables et d’utilisation scientifique? Les tailles d'effet sont-elles significatives?

Rétablir Monica - G. Simpson
la source
3

Les réponses que vous avez déjà obtenues sont excellentes, mais je vais donner une réponse complémentaire (espérons-le) complémentaire du point de vue d'un épidémiologiste. J'ai vraiment trois idées à ce sujet:

D'abord, ils ne le font pas. Voir aussi: Tous les modèles sont incorrects, certains modèles sont utiles. L’objectif n’est pas de produire un nombre unique et définitif considéré comme la "vérité" d’une fonction sous-jacente. Le but est de produire une estimation de cette fonction, avec une quantification de l'incertitude qui l'entoure, qui constitue une approximation raisonnable et utile de la fonction sous-jacente.

Cela est particulièrement vrai pour les mesures à grand effet. Le message "retirer" d'une étude qui constate un risque relatif de 3,0 n'est pas vraiment différent si la "vraie" relation est de 2,5 ou 3,2. Comme @onestop l'a mentionné, cela devient plus difficile avec de petites estimations de mesures d'effet, car la différence entre 0,9, 1,0 et 1,1 peut être énorme du point de vue de la santé et des politiques.

Deuxièmement, il existe un processus caché dans la plupart des documents d'épidémiologie. C'est le processus de sélection du modèle actuel . Nous avons tendance à signaler le modèle que nous avons utilisé, pas tous les modèles que nous avons considérés (car ce serait fastidieux, sinon rien d'autre). Il existe toute une série d’étapes de construction de modèles, de diagrammes conceptuels, de diagnostics, de statistiques d’ajustement, d’analyses de sensibilité, de jurons contre les ordinateurs et de gribouillis sur des tableaux blancs pour l’analyse de petites études d’observation.

Parce que pendant que vous êtes en faire des suppositions, beaucoup d'entre eux sont aussi des hypothèses que vous pouvez vérifier.

Troisièmement, parfois nous ne le faisons pas. Et puis on va à des conférences et on se dispute à ce sujet;)

Si vous êtes intéressé par les fondements de l'épidémiologie en tant que domaine et par la manière dont nous réalisons nos recherches, le meilleur endroit pour commencer est probablement l'épidémiologie moderne, 3e édition de Rothman, Groenland et Lash. C'est un aperçu technique et très bon de la façon dont la recherche Epi est menée.

Fomite
la source
1
+1, c'est un bon complément à ce qui est ici. Il est agréable de voir qu’une contribution utile peut encore être apportée, même après que tant d’autres bons existent déjà.
gung - Rétablir Monica