Intervalles de prédiction et de tolérance

11

J'ai quelques questions sur les intervalles de prédiction et de tolérance.

Convenons d'abord de la définition des intervalles de tolérance: on nous donne un niveau de confiance, disons 90%, le pourcentage de la population à capturer, disons 99%, et une taille d'échantillon, disons 20. La distribution de probabilité est connue, disons normale pour plus de commodité. Maintenant, étant donné les trois nombres ci-dessus (90%, 99% et 20) et le fait que la distribution sous-jacente est normale, nous pouvons calculer le nombre de tolérance . Étant donné un échantillon avec la moyenne et l'écart-type , l'intervalle de tolérance est . Si cet intervalle de tolérance capture 99% de la population, alors l'échantillon est appelé un succèsk(x1,x2,,x20)x¯sx¯±ks(x1,x2,,x20)et l'exigence est que 90% des échantillons soient des succès .

Commentaire: 90% est la probabilité a priori de réussite d'un échantillon. 99% est la probabilité conditionnelle qu'une observation future soit dans l'intervalle de tolérance, étant donné que l'échantillon est un succès.

Mes questions: pouvons-nous voir les intervalles de prédiction comme des intervalles de tolérance? En regardant sur le Web, j'ai obtenu des réponses contradictoires à ce sujet, sans oublier que personne n'a vraiment défini les intervalles de prédiction avec soin. Donc, si vous avez une définition précise de l'intervalle de prédiction (ou une référence), je l'apprécierais.

Ce que j'ai compris, c'est qu'un intervalle de prédiction de 99%, par exemple, ne capture pas 99% de toutes les valeurs futures pour tous les échantillons. Ce serait la même chose qu'un intervalle de tolérance qui capture 99% de la population avec une probabilité de 100%.

Dans les définitions que j'ai trouvées pour un intervalle de prédiction de 90%, 90% est la probabilité a priori étant donné un échantillon, disons (la taille est fixe) et une seule observation future , que sera dans l'intervalle de prédiction. Donc, il semble que l'échantillon et la valeur future soient tous deux donnés en même temps, contrairement à l'intervalle de tolérance, où l'échantillon est donné et avec une certaine probabilité c'est un succès , et à condition que l'échantillon soit un succèsy y(x1,x2,,x20)yy, une valeur future est donnée et avec une certaine probabilité tombe dans l'intervalle de tolérance. Je ne sais pas si la définition ci-dessus de l'intervalle de prédiction est correcte ou non, mais elle semble contre-intuitive (au moins).

De l'aide?

Ioannis Souldatos
la source
4
Des intervalles de tolérance unilatéraux pour un échantillonnage normal pourraient aider à comprendre cette notion. Une limite supérieure de tolérance de n'est rien d'autre qu'une limite supérieure de confiance du quantile de de la distribution supposée du modèle. Par conséquent, dans le cas d'une distribution normale, il s'agit d'une limite de confiance supérieure du paramètre où est de la distribution gaussienne standard. 99 % μ + k σ k = z 99 % 99 %99%99%μ+kσk=z99%99%
Stéphane Laurent
C'est une bonne reformulation, Stéphane, car elle montre immédiatement qu'il existe plusieurs types de limites de tolérance: on peut demander une limite de confiance supérieure sur , pour une limite de confiance inférieure sur , ou pour (disons) une estimation non biaisée de ce paramètre. Tous les trois sont appelés «limites de tolérance» dans la littérature. μ + z 0,99 σμ+z0.99σμ+z0.99σ
whuber
Je pense que vous vouliez plutôt dire une limite de confiance inférieure sur ? μz0.99σ
Stéphane Laurent
2
En fait, non, Stéphane (c'est pourquoi j'ai pris soin de répéter la formule du paramètre). Il existe également trois définitions similaires pour une limite de tolérance inférieure . Par exemple, nous pourrions vouloir sous- estimer le 99e centile supérieur de la population, mais pour contrôler le niveau de sous-estimation, nous insistons sur le fait qu'il y a (disons) 5% de chances que notre sous-estimation soit encore trop élevée. Cela nous permettra de dire des choses comme «Les données montrent, avec une confiance de 95%, que le 99e centile de la population dépasse telle ou telle valeur».
whuber

Réponses:

14

Vos définitions semblent être correctes.

Le livre à consulter sur ces questions est Intervalles statistiques (Gerald Hahn et William Meeker), 1991. Je cite:

Un intervalle de prédiction pour une seule observation future est un intervalle qui, avec un degré de confiance spécifié, contiendra l'observation suivante (ou quelque autre prédéfinie) sélectionnée au hasard dans une population.

[Un] intervalle de tolérance est un intervalle que l'on peut prétendre contenir au moins une proportion spécifiée, p , de la population avec un degré de confiance spécifié, .100(1α)%

Voici les retraitements de la terminologie mathématique standard. Supposons que les données soient considérées comme une réalisation de variables aléatoires indépendantes avec une fonction de distribution cumulative commune . ( apparaît comme un rappel que peut être inconnu mais est supposé se trouver dans un ensemble donné de distributions ). Soit une autre variable aléatoire de même distribution et indépendante des premières variables.X = ( X 1 , , X n ) Fx=(x1,,xn)X=(X1,,Xn) θ F F θ | θ Θ X 0 F θ nFθθFFθ|θΘX0Fθn

  1. Un intervalle de prédiction (pour une seule observation future), donné par les points d'extrémité , a la propriété de définition[l(x),u(x)]

    infθ{Prθ(X0[l(X),u(X)])}=100(1α)%.

    Plus précisément, fait référence à la distribution variable de déterminée par la loi . Notez l'absence de probabilités conditionnelles: il s'agit d'une probabilité conjointe complète. Notons également l'absence de toute référence à une séquence temporelle: on peut très bien observer dans le temps avant les autres valeurs. Ce n'est pas important.Prθn+1(X0,X1,,Xn)FθX0

    Je ne sais pas quel (s) aspect (s) de cela peut être "contre-intuitif". Si nous concevons la sélection d'une procédure statistique comme une activité à poursuivre avant la collecte de données, alors c'est une formulation naturelle et raisonnable d'un processus planifié en deux étapes, car les deux données ( ) et la "valeur future" doit être modélisée comme aléatoire.Xi,i=1,,nX0

  2. Un intervalle de tolérance, donné par les points de terminaison , a la propriété de définition(L(x),U(x)]

    infθ{Prθ(Fθ(U(X))Fθ(L(X))p)}=100(1α)%.

    Notez l'absence de toute référence à : il ne joue aucun rôle.X0

Lorsque est l'ensemble des distributions normales, il existe des intervalles de prédiction de la forme{Fθ}

l(x)=x¯k(α,n)s,u(x)=x¯+k(α,n)s

( est la moyenne de l'échantillon et est l'écart-type de l'échantillon). Les valeurs de la fonction , que Hahn et Meeker tabulent, ne dépendent pas des données . Il existe d'autres procédures d'intervalle de prédiction, même dans le cas normal: ce ne sont pas les seules.x¯skx

De même, il existe des intervalles de tolérance de la forme

L(x)=x¯K(α,n,p)s,U(x)=x¯+K(α,n,p)s.

Il existe d'autres procédures d'intervalle de tolérance : ce ne sont pas les seules.

En notant la similitude entre ces paires de formules, nous pouvons résoudre l'équation

k(α,n)=K(α,n,p).

Cela permet de réinterpréter un intervalle de prédiction en tant qu'intervalle de tolérance (de différentes manières possibles en variant et ) ou de réinterpréter un intervalle de tolérance en tant qu'intervalle de prédiction (seulement maintenant est généralement uniquement déterminé par et ). Cela peut être une des causes de la confusion.αpααp

whuber
la source
2
La confusion entre ces intervalles est réelle. Il y a dix ans, j'ai eu plusieurs conversations difficiles avec un statisticien du gouvernement qui ignorait la différence et (virulemment) ne pouvait pas en reconnaître une. Son rôle de premier plan dans la création d'orientations, l'examen de rapports, le conseil aux assistants sociaux, la distribution de logiciels et même des publications évaluées par des pairs a favorisé la persistance de ces idées fausses. Alors méfiez-vous!
whuber
Très belle réponse, merci. J'ai eu à coeur certains statisticiens disant qu'un intervalle de prédiction est un intervalle de tolérance avec . Y a-t-il un fait réel derrière cette idée? En d'autres termes, est-il vrai que , ou quelque chose comme ça? p=50%k(α,n)=K(α,n,0.5)
Stéphane Laurent
3
Non, ce n'est pas vrai @ Stéphane. Pour voir pourquoi, considérons le cas d' une confiance extrêmement grande et modérée, disons 95%. Avec , l'intervalle de tolérance bilatéral devrait donc être extrêmement proche de quelque 50% moyen de la distribution, donc par définition, il n'y a que 50% de chances que s'y trouve, pas les 95% souhaités. Voilà une énorme différence! Intuitivement, un intervalle de tolérance pour 95% de la population devrait être en quelque sorte proche d'un intervalle de prédiction avec une confiance de 95%, mais ils ne sont toujours pas exactement d'accord. np=50%X0
whuber
Je viens d'y penser et je crois que le fait est le suivant: lorsque est grand. Ceci est facile à voir lorsque est le facteur de tolérance classique donné à l'aide de la distribution t non centrale (le -quantile est le paramètre de non-centralité )k(α,n)K(50%,n,1α)nK50%z1α/n
Stéphane Laurent
@whuber. Merci pour la réponse. Je devrai m'assurer de bien le comprendre, avant de le marquer correctement. Donnez-moi un peu de temps pour le "digérer".
Ioannis Souldatos
1

Si je comprends bien, pour les limites de tolérance normales, la valeur de provient d'un centile t non central. De toute évidence, pour W Huber, certains statisticiens ne connaissent pas l'idée des limites de tolérance par rapport aux limites de prédiction; l'idée de tolérance semble émerger principalement dans la conception technique et la fabrication, par opposition à la biostatistique clinique. Peut-être la raison du manque de familiarité avec les intervalles de tolérance et de la confusion avec les intervalles de prédiction est-elle le contexte dans lequel on reçoit sa formation statistique.K(α,p)

Scott P.
la source