Le processus de construction de modèle implique qu'un constructeur de modèle prenne de nombreuses décisions. L'une des décisions consiste à choisir parmi différentes classes de modèles à explorer. Il existe de nombreuses classes de modèles qui pourraient être envisagées; par exemple, les modèles ARIMA, les modèles ARDL, les modèles à source multiple d'erreur d'état-espace, les modèles LSTAR, les modèles Min-Max, pour n'en nommer que quelques-uns. Bien sûr, certaines classes de modèles sont plus larges que d'autres et il n'est pas courant de constater que certaines classes de modèles sont des sous-classes d'autres.
Étant donné la nature de la question, nous pouvons nous concentrer principalement sur seulement deux classes de modèles; modèles linéaires et modèles non linéaires .
Avec l'image ci-dessus à l'esprit, je commencerai à aborder la question des PO: quand il est utile d'adopter un modèle non linéaire et s'il existe un cadre logique pour le faire - d'un point de vue statistique et méthodologique.
La première chose à noter est que les modèles linéaires sont une petite sous-classe de modèles non linéaires. En d'autres termes, les modèles linéaires sont des cas particuliers de modèles non linéaires. Il y a quelques exceptions à cette déclaration, mais, aux fins actuelles, nous ne perdrons pas grand-chose en l'acceptant pour simplifier les choses.
Généralement, un constructeur de modèles sélectionnera une classe de modèles et choisira un modèle dans cette classe particulière en utilisant une méthodologie. Un exemple simple est celui où l'on décide de modéliser une série chronologique en tant que processus ARIMA et qui suit ensuite la méthodologie de Box-Jenkins pour sélectionner un modèle parmi la classe des modèles ARIMA. Travailler de cette façon, avec des méthodologies associées à des familles de modèles, est une question de nécessité pratique.
Une conséquence de la décision de construire un modèle non linéaire est que le problème de sélection du modèle devient beaucoup plus important (plus de modèles doivent être pris en compte et plus de décisions sont prises) par rapport au choix parmi le plus petit ensemble de modèles linéaires, donc il y a un réel question pratique à portée de main. De plus, il se peut qu'il n'y ait même pas de méthodologies complètement développées (connues, acceptées, comprises, faciles à communiquer) à utiliser pour sélectionner parmi certaines familles de modèles non linéaires. De plus, un autre inconvénient de la construction de modèles non linéaires est que les modèles linéaires sont plus faciles à utiliser et que leurs propriétés probabilistes sont mieux connues ( Teräsvirta, Tjøstheim et Granger (2010) ).
Cela dit, le PO demande des motifs statistiques pour guider la décision plutôt que des motifs pratiques ou théoriques, je dois donc continuer.
Avant même d'envisager comment gérer la sélection des modèles non linéaires avec lesquels travailler, il faut d'abord décider s'il faut travailler avec des modèles linéaires ou des modèles non linéaires. Une décision! Comment faire ce choix?
En faisant appel à Granger et Terasvirta (1993) , j'adopte l'argument suivant, qui a deux points principaux en réponse aux deux questions suivantes.
Q: Quand est-il utile de construire un modèle non linéaire? En bref, il peut être utile de construire un modèle non linéaire lorsque la classe de modèles linéaires a déjà été considérée et jugée insuffisante pour caractériser la relation sous inspection. On peut dire que cette procédure de modélisation non linéaire (processus décisionnel) passe du simple au général, en ce sens qu'elle passe du linéaire au non linéaire.
Q: Existe-t-il des bases statistiques pouvant être utilisées pour justifier la construction d'un modèle non linéaire? Si l'on décide de construire un modèle non linéaire basé sur les résultats des tests de linéarité, je dirais que oui, il y en a. Si les tests de linéarité suggèrent qu'il n'y a pas de non-linéarité significative dans la relation, la construction d'un modèle non linéaire ne serait pas recommandée; les tests doivent précéder la décision de construire.
Je développerai ces points par référence directe à Granger et Terasvirta (1993):
Avant de construire un modèle non linéaire, il est conseillé de savoir si un modèle linéaire caractériserait adéquatement les relations [économiques] analysées. Si tel était le cas, il y aurait plus de théorie statistique disponible pour construire un modèle raisonnable que si un modèle non linéaire était approprié. De plus, obtenir des prévisions optimales pour plus d'une période à venir serait beaucoup plus simple si le modèle était linéaire. Il peut arriver, au moins lorsque les séries chronologiques sont courtes, que l'investigateur estime avec succès un modèle non linéaire bien que la véritable relation entre les variables soit linéaire. Le danger de compliquer inutilement la construction du modèle est donc réel, mais peut être atténué par des tests de linéarité.
Dans le livre le plus récent, Teräsvirta, Tjøstheim et Granger (2010), le même type de conseil est donné, que je cite maintenant:
D'un point de vue pratique, il est [donc] utile de tester la linéarité avant de tenter d'estimer le modèle non linéaire plus compliqué. Dans de nombreux cas, les tests sont même nécessaires d'un point de vue statistique. Un certain nombre de modèles non linéaires populaires ne sont pas identifiés sous linéarité. Si le vrai modèle qui a généré les données est linéaire et que le modèle non linéaire s'intéresse à imbriquer ce modèle linéaire, les paramètres du modèle non linéaire ne peuvent pas être estimés de manière cohérente. Ainsi, le test de linéarité doit précéder toute modélisation et estimation non linéaire.
Permettez-moi de terminer avec un exemple.
Dans le contexte de la modélisation des cycles économiques, un exemple pratique d'utilisation de fondements statistiques pour justifier la construction d'un modèle non linéaire peut être le suivant. Étant donné que les modèles linéaires univariés ou vectoriels autorégressifs sont incapables de générer des séries chronologiques cycliques asymétriques, une approche de modélisation non linéaire, qui peut gérer les asymétries dans les données, mérite d'être envisagée. Une version développée de cet exemple sur la réversibilité des données se trouve dans Tong (1993) .
Toutes mes excuses si je me suis trop concentré sur les modèles de séries chronologiques. Je suis sûr, cependant, que certaines des idées sont également applicables dans d'autres contextes.
Le problème principal est de décider pour quels types de problèmes la linéarité doit être attendue, sinon permettre aux relations d'être non linéaires comme le permet la taille de l'échantillon. La plupart des processus en biologie, sciences sociales et autres domaines sont non linéaires. Les seules situations où j'attends des relations linéaires sont:
Je vois rarement une relation partout linéaire dans un grand ensemble de données.
La décision d'inclure les non-linéarités dans les modèles de régression ne vient pas tant d'un principe statistique global mais plutôt de la façon dont le monde fonctionne. Une exception est lorsqu'un cadre statistique sous-optimal a été choisi et que des non-linéarités ou des termes d'interaction doivent être introduits juste pour compenser un mauvais choix du cadre. Des termes d'interaction peuvent parfois être nécessaires pour compenser les effets principaux de la sous-modélisation (par exemple, en supposant la linéarité). D'autres effets principaux peuvent être nécessaires pour compenser la perte d'informations résultant de la sous-modélisation des autres effets principaux.
Les chercheurs agonisent parfois sur l'opportunité d'inclure une certaine variable alors qu'ils sous-adaptent une foule d'autres variables en les forçant à agir de façon linéaire. D'après mon expérience, l'hypothèse de linéarité est l'une des hypothèses les plus violées qui importent fortement.
la source
Ce n'est pas l'approche systématique, mais ce n'est qu'une des choses que je fais toujours.
la source