La formulation d'un modèle mathématique pour un problème est l'un des aspects les plus subjectifs de la statistique, mais aussi l'un des plus importants. Quelles sont les meilleures références traitant de ce sujet crucial mais souvent négligé? Et quel célèbre statisticien a dit quelque chose dans le sens de: "Que les données guident le modèle?"
À mon avis, les «stratégies de modélisation de la régression» de Frank Harrell sont une bonne référence. En fait, c'est probablement mon livre de statistiques préféré.
Jusqu'à présent, je n'ai étudié que moins de la moitié du livre, mais j'en ai tiré beaucoup de bonnes choses, par exemple, en représentant des prédicteurs sous forme de splines pour éviter de supposer la linéarité, l'imputation multiple pour les données manquantes et la validation du modèle de bootstrap. Peut-être que ma chose préférée à propos du livre est le thème général qu'un objectif important est d'obtenir des résultats qui se reproduiront sur de nouvelles données, pas des résultats qui ne tiennent que sur les données actuelles.
Les avantages supplémentaires sont le package Rms de Frank Harrell qui facilite la plupart des choses décrites dans le livre, et sa volonté de répondre aux questions ici et sur R-help.
(+1) Un bon manuel complémentaire est les modèles de prédiction clinique , par EW Steyerberg (en particulier pour ceux qui s'intéressent aux résultats cliniques).
chl
@chl Merci pour la suggestion. Je n'avais pas entendu parler de ce livre et je serai intéressé de le consulter.
mark999
2
@ user152509 Pour autant que je sache, la distribution d'une copie électronique serait illégale. Si vous ne pouvez pas acheter le livre ou l'obtenir dans une bibliothèque, vous pouvez voir une partie du livre sur Google Books, et il y a des ressources connexes sur la page Web du département de Vanderbilt de biostatistique.
mark999
6
Cette dernière affirmation semble être dans l'esprit de la critique Sims ((1980) Macroeconomics and Reality , Econometrica, janvier, pp. 1-48.) Où il
... préconise l'utilisation des modèles VAR comme méthode sans théorie pour estimer les relations économiques, constituant ainsi une alternative aux "incroyables restrictions d'identification" dans les modèles structurels [de wiki]
Mais probablement S.Johansen (l'un des pionniers de l'analyse de la cointégration) pourrait suivre le même esprit. D'après ce que j'ai appris, la séquence de construction du modèle est comme:
Clarifier l' objectif principal du modèle: prévisions, relations structurelles (simulations), relations causales, facteurs latents, etc.
Le modèle abstrait est le monde réel qui pourrait être «trop réel» pour être complètement couvert dans votre application, mais il donne une impression (ou une compréhension) de ce qui se passe
Le modèle verbal apporte une théorie ou traduit votre compréhension en déclarations et hypothèses à tester, des faits empiriques (parfois appelés stylisés) sont collectés à cette étape
Modèle mathématique seulement maintenant, vous pouvez formuler votre théorie sous la forme d'équations (différence, différentielle), ces modèles doivent souvent être déterministes (bien que l'on puisse fusionner cette étape avec la dernière et considérer des équations différentielles stochastiques par exemple) donc vous avez besoin. ..
Modèle économétrique (statistique) ajoutant des parties stochastiques, la théorie et les méthodes de la statistique appliquée et la théorie des probabilités, micro et macro-économétrie.
La référence à «laisser les données guider le modèle» peut être attribuée à George EP Box et Gwilym M. Jenkins . Dans le chapitre 2 de leur manuel classique, Time Series Analysis: Forecasting and Control (1976), il est dit que:
L'obtention d'estimations d'échantillons de la fonction d'autocorrélation et du spectre sont des approches non structurelles, analogues à la représentation d'une fonction de distribution empirique par un histogramme. Ce sont deux façons de laisser les données des séries stationnaires `` parler d'elles-mêmes '' et de fournir une première étape dans l'analyse des séries chronologiques, tout comme un histogramme peut fournir une première étape dans l'analyse distributionnelle des données, montrant la voie à suivre. un modèle paramétrique sur lequel l'analyse ultérieure sera basée.
Cette procédure de modélisation consistant à laisser les données parler , comme le préconise Box & Jenkins, est évidemment mentionnée dans toute la littérature sur la modélisation ARIMA. Par exemple, dans le contexte de l'identification de modèles ARIMA provisoires, Pankratz (1983) dit:
Notez que nous n'abordons pas les données disponibles avec une idée rigide et préconçue sur le modèle que nous utiliserons. Au lieu de cela, nous laissons les données disponibles `` nous parler '' sous la forme d'une fonction d'autocorrélation estimée et d'une fonction d'autocorrélation partielle.
On peut donc dire que l'idée de «laisser les données guider le modèle» est une caractéristique courante de l'analyse des séries chronologiques.
Des notions similaires se retrouvent cependant dans d'autres (sous) domaines d'études. Par exemple, @Dmitrij Celov a correctement fait référence à l'article révolutionnaire de Christopher Sims, Macroeconomics and Reality (1980), qui était une réaction contre l'utilisation de modèles d'équations simultanées à grande échelle en macroéconomie.
L'approche traditionnelle en macroéconomie était d'utiliser la théorie économique comme guide pour construire des modèles macroéconomiques. Souvent, les modèles étaient constitués de centaines d'équations et des restrictions, telles que la prédétermination des signes de certains coefficients, leur seraient imposées. Sims (1980) a critiqué l'utilisation de ces connaissances a priori pour construire des modèles macroéconomiques:
Le fait que les grands modèles macroéconomiques soient dynamiques est une riche source de restrictions fausses a priori.
Comme déjà mentionné par @Dmitrij Celov, l'approche alternative préconisée par Sims (1980) consistait à spécifier des équations vectorielles autorégressives - qui sont (essentiellement) basées sur les propres valeurs décalées d'une variable et sur les valeurs décalées d'autres variables.
Bien que je sois fan de la notion de `` laisser les données parler d'elles-mêmes '' , je ne suis pas trop sûr que cette méthodologie puisse être pleinement étendue à tous les domaines d'études. Par exemple, envisagez de faire une étude en économie du travail pour essayer d'expliquer la différence entre les taux de salaire des hommes et des femmes dans un pays donné. La sélection de l'ensemble des régresseurs dans un tel modèle sera probablement guidée par la théorie du capital humain . Dans d'autres contextes, l'ensemble des régresseurs peut être sélectionné en fonction de ce qui nous intéresse et de ce que le bon sens nous dit. Verbeek (2008) dit:
Il est de bonne pratique de sélectionner l'ensemble de variables potentiellement pertinentes sur la base d'arguments économiques plutôt que statistiques. Bien qu'il soit parfois suggéré autrement, les arguments statistiques ne sont jamais des arguments de certitude.
Vraiment, je ne peux qu'effleurer la surface ici parce que c'est un sujet tellement vaste, mais la meilleure référence que j'ai rencontrée sur la modélisation est Granger (1991). Si votre parcours n'est pas économique, ne vous laissez pas rebuter par le titre du livre. La plupart des discussions ont lieu dans le contexte de la modélisation de séries économiques, mais je suis sûr que celles d'autres domaines en tireraient beaucoup et trouveraient cela utile.
Le livre contient d'excellentes discussions sur différentes méthodologies de modélisation telles que:
L'approche générale à spécifique (ou méthodologie LSE) préconisée par David Hendry.
L'approche spécifique au général.
La méthodologie d'Edward Leamer (généralement associée aux termes «analyse de sensibilité (ou de limites extrêmes)» et «bayésienne» ).
Par coïncidence, l'approche de Christophers Sims est également couverte.
Il convient de noter que Granger (1991) est en fait une collection d'articles, donc plutôt que d'essayer d'obtenir une copie du livre, vous pouvez bien sûr consulter la table des matières et essayer de trouver les articles par eux-mêmes. (Voir le lien ci-dessous.)
J'espère que cela s'est avéré utile!
Références:
Box, GE et Jenkins, GM (1976). Analyse des séries chronologiques: prévision et contrôle. Série Holden-Day dans l'analyse des séries chronologiques.
Cette dernière affirmation semble être dans l'esprit de la critique Sims ((1980) Macroeconomics and Reality , Econometrica, janvier, pp. 1-48.) Où il
Mais probablement S.Johansen (l'un des pionniers de l'analyse de la cointégration) pourrait suivre le même esprit. D'après ce que j'ai appris, la séquence de construction du modèle est comme:
J'espère que cela vous a été utile.
la source
La référence à «laisser les données guider le modèle» peut être attribuée à George EP Box et Gwilym M. Jenkins . Dans le chapitre 2 de leur manuel classique, Time Series Analysis: Forecasting and Control (1976), il est dit que:
Cette procédure de modélisation consistant à laisser les données parler , comme le préconise Box & Jenkins, est évidemment mentionnée dans toute la littérature sur la modélisation ARIMA. Par exemple, dans le contexte de l'identification de modèles ARIMA provisoires, Pankratz (1983) dit:
On peut donc dire que l'idée de «laisser les données guider le modèle» est une caractéristique courante de l'analyse des séries chronologiques.
Des notions similaires se retrouvent cependant dans d'autres (sous) domaines d'études. Par exemple, @Dmitrij Celov a correctement fait référence à l'article révolutionnaire de Christopher Sims, Macroeconomics and Reality (1980), qui était une réaction contre l'utilisation de modèles d'équations simultanées à grande échelle en macroéconomie.
L'approche traditionnelle en macroéconomie était d'utiliser la théorie économique comme guide pour construire des modèles macroéconomiques. Souvent, les modèles étaient constitués de centaines d'équations et des restrictions, telles que la prédétermination des signes de certains coefficients, leur seraient imposées. Sims (1980) a critiqué l'utilisation de ces connaissances a priori pour construire des modèles macroéconomiques:
Comme déjà mentionné par @Dmitrij Celov, l'approche alternative préconisée par Sims (1980) consistait à spécifier des équations vectorielles autorégressives - qui sont (essentiellement) basées sur les propres valeurs décalées d'une variable et sur les valeurs décalées d'autres variables.
Bien que je sois fan de la notion de `` laisser les données parler d'elles-mêmes '' , je ne suis pas trop sûr que cette méthodologie puisse être pleinement étendue à tous les domaines d'études. Par exemple, envisagez de faire une étude en économie du travail pour essayer d'expliquer la différence entre les taux de salaire des hommes et des femmes dans un pays donné. La sélection de l'ensemble des régresseurs dans un tel modèle sera probablement guidée par la théorie du capital humain . Dans d'autres contextes, l'ensemble des régresseurs peut être sélectionné en fonction de ce qui nous intéresse et de ce que le bon sens nous dit. Verbeek (2008) dit:
Vraiment, je ne peux qu'effleurer la surface ici parce que c'est un sujet tellement vaste, mais la meilleure référence que j'ai rencontrée sur la modélisation est Granger (1991). Si votre parcours n'est pas économique, ne vous laissez pas rebuter par le titre du livre. La plupart des discussions ont lieu dans le contexte de la modélisation de séries économiques, mais je suis sûr que celles d'autres domaines en tireraient beaucoup et trouveraient cela utile.
Le livre contient d'excellentes discussions sur différentes méthodologies de modélisation telles que:
Il convient de noter que Granger (1991) est en fait une collection d'articles, donc plutôt que d'essayer d'obtenir une copie du livre, vous pouvez bien sûr consulter la table des matières et essayer de trouver les articles par eux-mêmes. (Voir le lien ci-dessous.)
J'espère que cela s'est avéré utile!
Références:
la source