J'ai quelques questions sur les intervalles de prédiction et de tolérance.
Convenons d'abord de la définition des intervalles de tolérance: on nous donne un niveau de confiance, disons 90%, le pourcentage de la population à capturer, disons 99%, et une taille d'échantillon, disons 20. La distribution de probabilité est connue, disons normale pour plus de commodité. Maintenant, étant donné les trois nombres ci-dessus (90%, 99% et 20) et le fait que la distribution sous-jacente est normale, nous pouvons calculer le nombre de tolérance . Étant donné un échantillon avec la moyenne et l'écart-type , l'intervalle de tolérance est . Si cet intervalle de tolérance capture 99% de la population, alors l'échantillon est appelé un succèset l'exigence est que 90% des échantillons soient des succès .
Commentaire: 90% est la probabilité a priori de réussite d'un échantillon. 99% est la probabilité conditionnelle qu'une observation future soit dans l'intervalle de tolérance, étant donné que l'échantillon est un succès.
Mes questions: pouvons-nous voir les intervalles de prédiction comme des intervalles de tolérance? En regardant sur le Web, j'ai obtenu des réponses contradictoires à ce sujet, sans oublier que personne n'a vraiment défini les intervalles de prédiction avec soin. Donc, si vous avez une définition précise de l'intervalle de prédiction (ou une référence), je l'apprécierais.
Ce que j'ai compris, c'est qu'un intervalle de prédiction de 99%, par exemple, ne capture pas 99% de toutes les valeurs futures pour tous les échantillons. Ce serait la même chose qu'un intervalle de tolérance qui capture 99% de la population avec une probabilité de 100%.
Dans les définitions que j'ai trouvées pour un intervalle de prédiction de 90%, 90% est la probabilité a priori étant donné un échantillon, disons (la taille est fixe) et une seule observation future , que sera dans l'intervalle de prédiction. Donc, il semble que l'échantillon et la valeur future soient tous deux donnés en même temps, contrairement à l'intervalle de tolérance, où l'échantillon est donné et avec une certaine probabilité c'est un succès , et à condition que l'échantillon soit un succèsy y, une valeur future est donnée et avec une certaine probabilité tombe dans l'intervalle de tolérance. Je ne sais pas si la définition ci-dessus de l'intervalle de prédiction est correcte ou non, mais elle semble contre-intuitive (au moins).
De l'aide?
la source
Réponses:
Vos définitions semblent être correctes.
Le livre à consulter sur ces questions est Intervalles statistiques (Gerald Hahn et William Meeker), 1991. Je cite:
Voici les retraitements de la terminologie mathématique standard. Supposons que les données soient considérées comme une réalisation de variables aléatoires indépendantes avec une fonction de distribution cumulative commune . ( apparaît comme un rappel que peut être inconnu mais est supposé se trouver dans un ensemble donné de distributions ). Soit une autre variable aléatoire de même distribution et indépendante des premières variables.X = ( X 1 , … , X n ) Fx=(x1,…,xn) X=(X1,…,Xn) θ F F θ | θ ∈ Θ X 0 F θ nFθ θ F Fθ|θ∈Θ X0 Fθ n
Un intervalle de prédiction (pour une seule observation future), donné par les points d'extrémité , a la propriété de définition[l(x),u(x)]
Plus précisément, fait référence à la distribution variable de déterminée par la loi . Notez l'absence de probabilités conditionnelles: il s'agit d'une probabilité conjointe complète. Notons également l'absence de toute référence à une séquence temporelle: on peut très bien observer dans le temps avant les autres valeurs. Ce n'est pas important.Prθ n+1 (X0,X1,…,Xn) Fθ X0
Je ne sais pas quel (s) aspect (s) de cela peut être "contre-intuitif". Si nous concevons la sélection d'une procédure statistique comme une activité à poursuivre avant la collecte de données, alors c'est une formulation naturelle et raisonnable d'un processus planifié en deux étapes, car les deux données ( ) et la "valeur future" doit être modélisée comme aléatoire.Xi,i=1,…,n X0
Un intervalle de tolérance, donné par les points de terminaison , a la propriété de définition(L(x),U(x)]
Notez l'absence de toute référence à : il ne joue aucun rôle.X0
Lorsque est l'ensemble des distributions normales, il existe des intervalles de prédiction de la forme{Fθ}
( est la moyenne de l'échantillon et est l'écart-type de l'échantillon). Les valeurs de la fonction , que Hahn et Meeker tabulent, ne dépendent pas des données . Il existe d'autres procédures d'intervalle de prédiction, même dans le cas normal: ce ne sont pas les seules.x¯ s k x
De même, il existe des intervalles de tolérance de la forme
Il existe d'autres procédures d'intervalle de tolérance : ce ne sont pas les seules.
En notant la similitude entre ces paires de formules, nous pouvons résoudre l'équation
Cela permet de réinterpréter un intervalle de prédiction en tant qu'intervalle de tolérance (de différentes manières possibles en variant et ) ou de réinterpréter un intervalle de tolérance en tant qu'intervalle de prédiction (seulement maintenant est généralement uniquement déterminé par et ). Cela peut être une des causes de la confusion.α′ p α α′ p
la source
Si je comprends bien, pour les limites de tolérance normales, la valeur de provient d'un centile t non central. De toute évidence, pour W Huber, certains statisticiens ne connaissent pas l'idée des limites de tolérance par rapport aux limites de prédiction; l'idée de tolérance semble émerger principalement dans la conception technique et la fabrication, par opposition à la biostatistique clinique. Peut-être la raison du manque de familiarité avec les intervalles de tolérance et de la confusion avec les intervalles de prédiction est-elle le contexte dans lequel on reçoit sa formation statistique.K(α,p)
la source