Je suppose que je suis frustré chaque fois que j'entends quelqu'un dire que la non-normalité des résidus et / ou l'hétéroscédasticité enfreignent les suppositions de la méthode MCO. Pour estimer les paramètres dans un modèle MLS, aucune de ces hypothèses n'est nécessaire selon le théorème de Gauss-Markov. Je vois à quel point cela est important dans les tests d'hypothèses pour le modèle OLS, car, en supposant que cela nous donne des formules soignées pour les tests t, les tests F et des statistiques plus générales de Wald.
Mais il n'est pas trop difficile de faire des tests d'hypothèses sans eux. Si nous abandonnons simplement l'homoskédasticité, nous pouvons calculer facilement des erreurs types robustes et des erreurs types groupées. Si nous abandonnons complètement la normalité, nous pouvons utiliser bootstrapping et, étant donné une autre spécification paramétrique pour les termes d'erreur, le rapport de vraisemblance et les tests du multiplicateur de Lagrange.
C'est dommage que nous l'enseignions de cette façon, car je vois beaucoup de personnes qui luttent avec des hypothèses sur lesquelles elles ne sont pas obligées de se fonder.
Pourquoi mettons-nous autant l'accent sur ces hypothèses lorsque nous sommes en mesure d'appliquer facilement des techniques plus robustes? Est-ce que je manque quelque chose d'important?
la source
Réponses:
En économétrie, nous dirions que la non-normalité viole les conditions du modèle de régression linéaire classique classique, tandis que l'hétéroscédasticité viole à la fois les hypothèses du CNLR et du modèle de régression linéaire classique.
Mais ceux qui disent "... violent l'OLS" sont également justifiés: le nom des moindres carrés ordinaires vient directement de Gauss et fait essentiellement référence à des erreurs normales . En d'autres termes, "MCO" n'est pas un acronyme pour une estimation par les moindres carrés (qui est un principe et une approche beaucoup plus généraux), mais du CNLR.
Ok, c’était l’histoire, la terminologie et la sémantique. Je comprends l'essentiel de la question du PO comme suit: "Pourquoi devrions-nous souligner l'idéal si nous avons trouvé des solutions au cas où il n'est pas présent?" (Parce que les hypothèses de CNLR sont idéales, en ce sens qu'elles fournissent d'excellentes propriétés d' estimation de moindres carrés "disponibles dans le commerce", et sans la nécessité de recourir à des résultats asymptotiques. N'oubliez pas également que la méthode MLS est la plus grande probabilité lorsque les erreurs sont normales. ).
En tant qu’idéal, c’est un bon endroit pour commencer à enseigner . C’est ce que nous faisons toujours dans l’enseignement de tout type de sujet: les situations "simples" sont des situations "idéales", sans les complexités que l’on rencontrera réellement dans la vie réelle et dans la recherche réelle, et pour lesquelles il n’existe pas de solutions définitives .
Et c’est ce que je trouve problématique dans le message du PO: il parle d’erreurs standard robustes et de bootstrap comme s’il s’agissait «d’alternatives supérieures» ou de solutions irréprochables à l’absence desdites hypothèses en discussion pour lesquelles le PO écrit en outre
Pourquoi? Parce qu'il existe des méthodes pour gérer la situation, des méthodes qui ont certes une validité, mais qui sont loin d'être idéales? Le bootstrap et l'hétéroscédasticité - les erreurs types robustes ne sont pas les solutions - si c'était effectivement le cas, ils seraient devenus le paradigme dominant, renvoyant le CLR et le CNLR aux livres d'histoire. Mais ils ne sont pas.
Nous partons donc de l’ensemble des hypothèses qui garantissent les propriétés de l’estimateur que nous avons jugées importantes (il convient de se demander si les propriétés désignées comme souhaitables sont bien celles qui devraient l'être), afin de garder à l'esprit que toute violation de celles-ci a conséquences qui ne peuvent être entièrement compensées par les méthodes que nous avons trouvées afin de remédier à l'absence de ces hypothèses. Scientifiquement parlant, il serait très dangereux de donner le sentiment que "nous pouvons nous frayer un chemin vers la vérité", car, tout simplement, nous ne le pouvons pas.
Elles restent donc des solutions imparfaites à un problème , et non une alternative et / ou une manière définitivement supérieure de faire les choses. Par conséquent, nous devons d’abord enseigner la situation sans problème, puis indiquer les problèmes possibles, puis discuter des solutions possibles. Sinon, nous élèverions ces solutions à un statut qu’ils n’ont pas vraiment.
la source
Si nous avions eu l'occasion dans la classe d'introduire des modèles de régression pour discuter de l'amorçage et des autres techniques que vous avez mentionnées (y compris toutes leurs hypothèses, leurs pièges, etc.), je conviendrais avec vous qu'il n'est pas nécessaire de parler de normalité. hypothèses d'homoscédasticité. Mais en réalité, lorsque la régression est introduite pour la première fois, nous n’avons pas le temps de parler de toutes ces autres choses; nous préférerions donc que les étudiants soient conservateurs et vérifient ce qui n’est peut-être pas nécessaire et consultent un statisticien (ou prenons une autre statistique classe ou 2 ou 3, ...) lorsque les hypothèses ne tiennent pas.
Si vous dites aux élèves que ces hypothèses n’ont pas d’importance sauf quand…, la plupart ne se souviendront que de la partie sans importance et non de l’important quand.
Si nous avons un cas avec des variances inégales, alors oui, nous pouvons toujours ajuster une ligne des moindres carrés, mais est-ce toujours la "meilleure" ligne? ou serait-il préférable de consulter une personne plus expérimentée / formée sur la manière d’adapter les lignes dans ce cas. Même si nous sommes satisfaits de la ligne des moindres carrés, ne devrions-nous pas reconnaître que les prédictions auront des propriétés différentes pour des valeurs différentes du ou des prédicteurs? Donc, vérifier les variances inégales est bon pour les interprétations ultérieures, même si nous n'en avons pas besoin pour les tests / intervalles / etc. que nous utilisons.
la source
1) rarement les gens veulent seulement estimer. Généralement, l'objectif, ou du moins une partie, consiste en une inférence (IC, IP, tests)
2) Des choses comme le théorème de Gauss Markov ne sont pas forcément d'une grande aide - si la distribution est suffisamment éloignée de la normale, un estimateur linéaire n'est pas d'une grande utilité. Obtenir le BLEU est inutile si aucun estimateur linéaire n'est très bon.
3) des choses comme les estimateurs en sandwich impliquent un grand nombre de paramètres implicites. Si vous avez beaucoup de données, cela peut quand même vous convenir, mais souvent, les gens ne le font pas.
4) Les intervalles de prévision reposent sur la forme de la distribution conditionnelle et permettent notamment de bien maîtriser la variance au moment de l'observation - vous ne pouvez pas écarter aussi facilement les détails avec un PI.
5) des choses comme le bootstrap sont souvent utiles pour les très gros échantillons. Ils ont parfois du mal à obtenir de petits échantillons - et même dans des échantillons de taille moyenne, nous constatons souvent que les propriétés de couverture réelles ne ressemblent en rien à celles annoncées.
Ce qui revient à dire: peu de choses sont le genre de panacée que les gens voudraient qu’ils soient. Toutes ces choses ont leur place, et il y a certainement beaucoup de cas où (par exemple) la normalité n'est pas requise, et où l'estimation et l'inférence (tests et IC) peuvent être raisonnablement effectuées sans nécessiter nécessairement la normalité, la variance constante, etc.
Une chose qui semble souvent être oubliée, ce sont les autres hypothèses paramétriques qui pourraient être formulées à la place. Souvent, les gens en savent assez sur une situation pour émettre une hypothèse paramétrique assez décente (par exemple, disons que…: la réponse conditionnelle aura tendance à être correcte, avec un écart relativement proportionnel à la moyenne, ce qui pourrait nous amener à envisager un modèle gamma ou lognormal); souvent, cela peut traiter à la fois l’hétéroscédasticité et la non-normalité en une fois.
La simulation est un outil très utile - elle nous permet d’examiner les propriétés de nos outils dans des situations très semblables à celles dont nos données semblent provenir. Vous pouvez donc les utiliser en sachant bien qu'ils possèdent de bonnes propriétés dans ces cas ( ou, parfois, voir qu'ils ne fonctionnent pas aussi bien que nous pourrions l'espérer).
la source