Cette question semble suffisamment fondamentale pour que je sois convaincue qu'il y ait une réponse ici quelque part, mais je ne l'ai pas trouvée.
Je comprends que si la variable dépendante d'une régression est normalement distribuée, la probabilité maximale et les moindres carrés ordinaires produisent les mêmes estimations de paramètres.
Lorsque la variable dépendante n'est pas normalement distribuée, les estimations des paramètres OLS ne sont plus équivalentes à MLE mais elles sont toujours les meilleures estimations linéaires sans biais (BLUE).
Alors, quelles sont les propriétés du MLE qui le rendent souhaitable au-delà de ce que l'OLS a à offrir (être BLEU)?
En d'autres termes, qu'est-ce que je perds si je ne peux pas dire que mes estimations OLS sont des estimations de probabilité maximale?
Pour motiver un peu cette question: je me demande pourquoi je voudrais choisir un modèle de régression autre que l'OLS en présence d'une variable dépendante clairement non normale.
Réponses:
Lorsque vous vous éloignez suffisamment de la normalité, tous les estimateurs linéaires peuvent être arbitrairement mauvais .
Savoir que vous pouvez tirer le meilleur parti d'un mauvais lot (c'est-à-dire la meilleure estimation linéaire non biaisée) n'est pas une grande consolation.
Si vous pouvez spécifier un modèle de distribution approprié ( ay, il y a le hic ), maximiser la probabilité a à la fois un attrait intuitif direct - en ce qu'il "maximise la chance" de voir l'échantillon que vous avez réellement vu (avec un raffinement approprié de ce que nous par exemple pour le cas continu) et un certain nombre de propriétés très soignées qui sont à la fois théoriquement et pratiquement utiles (par exemple, relation avec la borne inférieure de Cramer-Rao, équivariance en cours de transformation, tests de rapport de rapport de vraisemblance, etc.). Cela motive par exemple M-estimation.
Même lorsque vous ne pouvez pas spécifier un modèle, il est possible de construire un modèle pour lequel ML est robuste à la contamination par des erreurs grossières dans la distribution conditionnelle de la réponse - où il conserve une assez bonne efficacité à la gaussienne mais évite le potentiellement désastreux impact des valeurs aberrantes arbitrairement importantes.
[Ce n'est pas la seule considération avec la régression, car il y a aussi un besoin de robustesse à l'effet des valeurs aberrantes influentes par exemple, mais c'est une bonne première étape]
Pour démontrer le problème, même avec le meilleur estimateur linéaire, considérez cette comparaison des estimateurs de pente pour la régression. Dans ce cas, il y a 100 observations dans chaque échantillon, x est 0/1, la pente vraie est et les erreurs sont Cauchy standard. La simulation prend 1000 ensembles de données simulées et calcule l'estimation des moindres carrés de la pente ("LS") ainsi que quelques estimateurs non linéaires qui pourraient être utilisés dans cette situation (aucun n'est entièrement efficace au Cauchy mais ils sont tous les deux raisonnables ) - l'un est un estimateur L1 de la droite ("L1") et le second calcule une simple estimation L de l'emplacement aux deux valeurs de x et ajuste une droite les joignant ("LE").12
La partie supérieure du diagramme est un diagramme en boîte de ces milliers d'estimations de pente pour chaque simulation. La partie inférieure est le pour cent central (à peu près, il est marqué d'une légère zone orange-gris dans le graphique supérieur) de cette image "gonflée" afin que nous puissions voir plus de détails. Comme nous le voyons, les pentes des moindres carrés vont de -771 à 1224 et les quartiles inférieur et supérieur sont -1,24 et 2,46. L'erreur dans la pente LS était supérieure à 10 plus de 10% du temps. Les deux estimateurs non linéaires font beaucoup mieux - ils fonctionnent de manière assez similaire l'un à l'autre, aucune des 1 000 estimations de pente dans les deux cas ne se trouve à plus de 0,84 de la pente vraie et l'erreur absolue médiane dans la pente est de l'ordre de 0,14 pour chaque (vs 1,86 pour l'estimateur des moindres carrés). La pente LS a un RMSE de 223 et 232 fois celui des estimateurs L1 et LE dans ce cas (que '
Il existe des dizaines d'autres estimateurs raisonnables qui auraient pu être utilisés ici; il s'agissait simplement d'un calcul rapide pour illustrer que même les estimateurs linéaires les meilleurs / les plus efficaces peuvent ne pas être utiles. Un estimateur ML de la pente donnerait de meilleurs résultats (au sens MSE) que les deux estimateurs robustes utilisés ici, mais en pratique, vous voudriez quelque chose avec une certaine robustesse aux points influents.
la source
Dans le cas de données normalement distribuées, OLS converge avec le MLE, une solution qui est BLEUE (en ce point). Une fois hors de la normale, OLS n'est plus BLEU (selon les termes du théorème de Gauss-Markov) - c'est parce que OLS cherche à minimiser le SSR tandis que GMT définit BLUE en termes de SE minimal. Voir plus ici .
D'une manière générale, étant donné qu'il existe un MLE (google pour `` échec MLE '' ou pour les cas où le MLE n'existe pas), il est plus facile de l'ajuster, soit pour minimiser la variance soit pour la rendre non biaisée (et donc comparable à d'autres estimateurs) .
la source