Différence entre les intervalles de confiance et les intervalles de prédiction

80

Pour un intervalle de prédiction en régression linéaire vous utilisez encore E [ Y | x ] = ^ ß 0 + β 1 x pour générer l'intervalle. Vous l'utilisez également pour générer un intervalle de confiance de E [ Y | x 0 ] . Quelle est la différence entre les deux?E^[Y|x]=β0^+β^1xE[Y|x0]

question
la source
7
ne "générer l'intervalle". E^[Y|x]=β0^+β^1x
Glen_b
Je ne vois aucune raison de la divergence entre les deux méthodes dans aucune des réponses ci-dessus. Les résultats de régression sont généralement estimés sur la base de paramètres de distribution t paramétriques de Student et généralement, la régression, en particulier les modèles mal ajustés aux modèles de régression des données, conduit à des résidus non étudiés, par exemple asymétriques, mais surtout avec des queues épaisses. mesures paramétriques de la dispersion des données supérieures à leurs quantiles mesurés anticipés correspondants. Une règle de base que j'ai trouvée utile: Si je vois des résidus avec des valeurs aberrantes, des queues longues et u
Carl

Réponses:

75

E[yx]yyE[yx]xβ^

E[yx]yy

βE[yx]yE[yx]

Par conséquent, un intervalle de prédiction sera plus large qu'un intervalle de confiance.

Charlie
la source
40

La différence entre un intervalle de prédiction et un intervalle de confiance est l’erreur type.

L'erreur type pour un intervalle de confiance sur la moyenne prend en compte l'incertitude due à l'échantillonnage. La ligne que vous avez calculée à partir de votre échantillon sera différente de la ligne qui aurait été calculée si vous aviez toute la population. L'erreur type prend en compte cette incertitude.

L'erreur type pour un intervalle de prédiction sur une observation individuelle prend en compte l'incertitude due à l'échantillonnage comme ci-dessus, mais prend également en compte la variabilité des individus autour de la moyenne prédite. L'erreur type pour l'intervalle de prédiction sera plus large que pour l'intervalle de confiance et par conséquent, l'intervalle de prédiction sera plus large que l'intervalle de confiance.

Greg Snow
la source
39

J'ai trouvé l'explication suivante utile:

Les intervalles de confiance vous indiquent si vous avez bien déterminé la moyenne. Supposons que les données sont réellement échantillonnées de manière aléatoire à partir d’une distribution gaussienne. Si vous faites cela plusieurs fois et calculez un intervalle de confiance de la moyenne de chaque échantillon, vous vous attendriez à ce qu'environ 95% de ces intervalles incluent la valeur réelle de la moyenne de la population. Le point clé est que l'intervalle de confiance vous informe sur l'emplacement probable du paramètre de population réelle.

Les intervalles de prévision vous indiquent où vous pouvez vous attendre à voir le prochain point de données échantillonné. Supposons que les données sont réellement échantillonnées de manière aléatoire à partir d’une distribution gaussienne. Recueillez un échantillon de données et calculez un intervalle de prédiction. Puis échantillonnez une autre valeur de la population. Si vous faites cela plusieurs fois, vous vous attendez à ce que la prochaine valeur se situe dans cet intervalle de prédiction dans 95% des échantillons. signifier.

Les intervalles de prévision doivent tenir compte à la fois de l'incertitude liée à la connaissance de la valeur de la moyenne de la population et de la dispersion des données. Ainsi, un intervalle de prédiction est toujours plus large qu'un intervalle de confiance.

Source: http://www.graphpad.com/support/faqid/1506/

vonjd
la source
Que diable entend-on par "dispersion des données" ici?
tel
2
@tel: évidemment la variance
vonjd
36

L'une est une prédiction d'une observation future et l'autre est une réponse moyenne prédite. Je donnerai une réponse plus détaillée pour expliquer, espérons-le, la différence et son origine, ainsi que la manière dont cette différence se manifeste à des intervalles plus larges pour la prédiction que pour la confiance.

x0

  1. x0x0

    y=x0Tβ+ϵ
    E(ϵ)=0
    y^=x0Tβ^
    β^ϵ
  2. x0x0

    y^=x0Tβ^
    β^

var(x0Tβ^)=x0T(XTX)1x0σ2

x0Tβ^+ϵϵσ2β^

  1. x0

    y^0±tnp(α/2)σ^x0T(XTX)1x0+1
  2. x0

    y^0±tnp(α/2)σ^x0T(XTX)1x0

tnpα/2npα/2

J'espère que cela explique un peu plus pourquoi l'intervalle de prédiction est toujours plus large et quelle est la différence sous-jacente entre les deux intervalles. Cet exemple a été adapté de Faraway, Linear Models with R, Sec. 4.1.

jpgard
la source
2
Il est agréable de voir un vieux fil considérablement amélioré par une réponse claire et réfléchie. Bienvenue sur notre site!
whuber
Cela ne devrait-il pas être ... x0 + 1 / n +1 (pour l'intervalle de prédiction (1)), et ... x0 + 1 / n (pour l'intervalle de confiance (2) _ www2.stat.duke.edu /~tjl13/s101/slides/unit6lec3H.pdf real-statistics.com/regression/…
user48956
12

Réponse courte:

Un intervalle de prédiction est un intervalle associé à une variable aléatoire à observer (prévision).

Un intervalle de confiance est un intervalle associé à un paramètre et est un concept fréquentiste.

Voir réponse complète ici de Rob Hyndman, le créateur du paquet de prévisions dans R.

pablo_sci
la source
3

Cette réponse s’adresse aux lecteurs qui n’ont pas bien compris les réponses précédentes. Discutons d'un exemple spécifique. Supposons que vous essayez de prédire le poids des personnes à partir de leur taille, de leur sexe (masculin, féminin) et de leur régime alimentaire (standard, faible en glucides, végétarien). Actuellement, il y a plus de 8 milliards de personnes sur la Terre. Bien sûr, vous pouvez trouver plusieurs milliers de personnes ayant la même taille et deux autres paramètres mais un poids différent. Leurs poids diffèrent énormément parce que certains d'entre eux souffrent d'obésité et que d'autres peuvent souffrir de la famine. La plupart de ces personnes seront quelque part au milieu.

Une tâche consiste à prédire le poids moyen de toutes les personnes ayant les mêmes valeurs des trois variables explicatives. Ici, nous utilisons l'intervalle de confiance. Un autre problème est de prévoir le poids d’une personne en particulier. Et nous ne connaissons pas les conditions de vie de cet individu. Ici, l'intervalle de prédiction doit être utilisé. Il est centré sur le même point, mais il doit être beaucoup plus large que l’intervalle de confiance.

Serhii Kushchenko
la source