Cela dépendrait de la nature de l'hétéroskédasticité. Si vous vouliez un intervalle de prédiction, vous avez généralement besoin d'une spécification paramétrique comme:
yje∼ N(X′jeβ,σje(Xje,zje) )
ie est normalement distribué avec la moyenne , et l'écart type , où l'écart type est une fonction connue de ou peut-être un autre ensemble de variables , vous pouvez ainsi estimer l'écart type pour chaque observation.
yjeX′jeβσje(Xje,zje)Xjezjejet h
Exemples de fonctions possibles: (Études des bénéfices des entreprises, un exemple tiré de Greene "Econometric Analysis" 7e édition CH 9), où est la observation de la variable dépendante ou, si vous travaillez avec des données de séries chronologiques, GARCH et / ou des spécifications de volatilité stochastique. σ2je(Xje) =σ2Xi , kXi , kjet hkt h
Vous pouvez utiliser les estimations comme erreurs standard pour vos intervalles de prédiction si vous le souhaitez. Je vais renoncer à un traitement formel ici car la prise en compte des erreurs d'estimation dans peut être compliquée mais, avec un échantillon suffisamment grand, ignorer l'erreur d'estimation n'affecte pas l'intervalle de prédiction autant. En bref, il n'est pas nécessaire d'ouvrir ici cette boîte de vers. Pour une explication plus détaillée de tout cela et d'autres exemples, voir le livre de Wooldridge "Introductory Econometrics: A Modern Approach" , Ch 8.σ^je(Xje,zje)σ^je(Xje,zje)
Le problème est que lorsque les gens se réfèrent à une régression hétéroscédastique ou "robuste", ils se réfèrent généralement à la situation dans laquelle la nature précise de l'hétéroscédasticité (la fonction ) n'est pas connue, auquel cas un estimateur blanc ou en deux étapes est utilisé. Ceux-ci offrent des estimations cohérentes pour mais pas pour , et vous n'avez donc aucun moyen naturel d'estimer les intervalles de prédiction. σje(Xje,zje)v a r (β^)σje Je dirais que les intervalles de prédiction ne sont de toute façon pas significatifs dans ce contexte. L'idée derrière ces estimateurs de type sandwich est d'estimer de manière cohérente l'erreur standard des coefficients,β^, sans le fardeau d'offrir des intervalles de prédiction précis pour chaque observation individuelle, rendant ainsi les estimations plus "robustes".
Éditer:
Juste pour être clair, ce qui précède ne considère que la régression des moindres carrés. D'autres formes de régression non paramétrique, telles que la régression quantile, peuvent offrir des moyens d'obtenir un intervalle de prédiction sans spécification paramétrique d'erreur standard résiduelle.
Si la régression de votre réponse sur votre variable explicative est une droite et que votre variance augmente avec la variable explicative, un modèle de régression pondéré est nécessaire avec ou (si votre variance non constante est plus extrême) comme votre poids. Cela pondère votre variance par votre valeur x, de sorte qu'il existe une relation proportionnelle.
Voici le code avec les poids inclus dans le modèle et la prédiction. Notez que vous devez ajouter les poids à la fois à votre jeu de données d'origine et à votre nouveau jeu de données.
Merci à @PopcornKing pour son code original de Calcul des intervalles de prédiction à partir de données hétéroscédastiques .
la source