Convergence de probabilité vs convergence presque sûre

67

Je n'ai jamais vraiment fait la différence entre ces deux mesures de convergence. (Ou, en fait, n'importe lequel des différents types de convergence, mais je les mentionne en particulier en raison des lois faibles et fortes des grands nombres.)

Bien sûr, je peux citer la définition de chacun et donner un exemple où ils diffèrent, mais je ne comprends toujours pas tout à fait.

Quel est un bon moyen de comprendre la différence? Pourquoi la différence est-elle importante? Existe-t-il un exemple particulièrement mémorable où ils diffèrent?

Raegtin
la source
Aussi la réponse à ceci: stats.stackexchange.com/questions/72859/…
kjetil b halvorsen
Double possible de Y a
kjetil b halvorsen

Réponses:

67

De mon point de vue, la différence est importante, mais principalement pour des raisons philosophiques. Supposons que vous ayez un appareil qui s'améliore avec le temps. Ainsi, chaque fois que vous utilisez le périphérique, la probabilité d'échec est moindre qu'avant.

La convergence des probabilités indique que le risque d'échec est nul lorsque le nombre d'usages va à l'infini. Ainsi, après avoir utilisé le périphérique un grand nombre de fois, vous pouvez être très sûr qu'il fonctionne correctement, il peut toujours échouer, c'est tout simplement très improbable.

La convergence est presque sûrement un peu plus forte. Il dit que le nombre total d'échecs est fini . Autrement dit, si vous comptez le nombre d'échecs lorsque le nombre d'utilisations va à l'infini, vous obtiendrez un nombre fini. Les conséquences sont les suivantes: Au fur et à mesure que vous utiliserez l'appareil, vous pourrez, après un nombre d'utilisations limité, épuiser toutes les pannes. A partir de là, l'appareil fonctionnera parfaitement .

Comme le fait remarquer Srikant, vous ne savez pas vraiment quand vous avez épuisé tous les échecs. Ainsi, d'un point de vue purement pratique, il n'y a pas beaucoup de différence entre les deux modes de convergence.

Cependant, personnellement, je suis très heureux que, par exemple, la loi forte des grands nombres existe, par opposition à la loi faible. Parce que maintenant, une expérience scientifique visant à obtenir, par exemple, la vitesse de la lumière est justifiée de prendre des moyennes. Au moins en théorie, après avoir obtenu suffisamment de données, vous pouvez vous approcher de manière arbitraire de la vitesse réelle de la lumière. Il n’y aura pas d’échec (aussi improbable soit-il) dans le processus de calcul de la moyenne.

Permettez-moi de clarifier ce que je veux dire par "échecs (aussi improbables que ce soit) dans le processus de calcul de la moyenne". Choisissez un arbitrairement petit. Vous obtenez estimations de la vitesse de la lumière (ou d'une autre quantité) ayant une valeur "vraie", par exemple . Vous calculez la moyenne Comme nous obtenons plus de données ( augmente), nous pouvons calculer pour chaque . La loi faible dit (sous certaines hypothèses sur le ) que la probabilité comme va àδ>0nX1,X2,,Xnμ

Sn=1nk=1nXk.
nSnn=1,2,Xn
P(|Snμ|>δ)0
n. La loi forte dit que le nombre de fois queest plus grand que est fini (avec une probabilité de 1). En d’autres termes, si nous définissons la fonction d’indicateur qui en renvoie un lorsque et zéro sinon, alors converge. Cela vous donne une confiance considérable dans la valeur de , car elle garantit (c'est-à-dire avec la probabilité 1) l'existence d'un fini tel que pour tout (ie la moyenne n'échoue jamais pour|Snμ|δI(|Snμ|>δ)Σ n = 1 I ( | S n - u | > δ ) S n n 0 | S n - μ | < δ n > n 0 n > n 0|Snμ|>δ
n=1I(|Snμ|>δ)
Snn0|Snμ|<δn>n0n>n0). Notez que la loi faible ne donne pas une telle garantie.
Robby McKilliam
la source
1
Merci, j'aime la convergence du point de vue de la série infinie!
raegtin
1
Je pense que vous vouliez dire comptable et pas nécessairement fini, est-ce que je me trompe? Ou est-ce que je mélange avec des intégrales.
Royi
Pour être plus précis, l'ensemble des événements qui se produisent (ou non) correspond à la mesure de zéro -> probabilité que zéro se produise.
Royi
Je ne suis pas sûr de comprendre l'argument selon lequel vous êtes presque sûr "d'une confiance considérable". Le fait que existe ne vous dit pas si vous l'avez déjà atteint. Fini ne signifie pas nécessairement petit ou pratiquement réalisable. En soi, la loi forte ne semble pas vous dire quand vous avez atteint ou quand vous allez atteindre . n 0n0n0
Joseph Garvin
33

Je sais que cette question a déjà reçu une réponse (et très bien, à mon avis), mais il y avait une question différente ici qui avait un commentaire @NRH qui mentionnait l'explication graphique, et plutôt que de mettre les images ici, il semblerait plus approprié de mets-les ici.

Alors, voici. Ce n'est pas aussi cool qu'un package R. Mais il est autonome et ne nécessite pas d'abonnement à JSTOR.

Dans ce qui suit, nous parlons d’une marche aléatoire simple, avec une probabilité égale, et nous calculons les moyennes courantes, S nXi=±1

Snn=1ni=1nXi,n=1,2,.

Loi forte des grands nombres

Le SLLN (convergence presque sûrement) dit que nous pouvons être sûrs à 100% que cette courbe qui s'étend à droite tombera à terme, à un moment donné, entièrement dans les bandes pour toujours (à droite).

Le code R utilisé pour générer ce graphique est ci-dessous (étiquettes de tracé omises pour des raisons de brièveté).

n <- 1000;  m <- 50; e <- 0.05
s <- cumsum(2*(rbinom(n, size=1, prob=0.5) - 0.5))
plot(s/seq.int(n), type = "l", ylim = c(-0.4, 0.4))
abline(h = c(-e,e), lty = 2)

Loi faible des grands nombres

Le WLLN (convergence des probabilités) indique qu'une grande partie des trajets de l'échantillon se situera dans les bandes du côté droit, au temps (pour ce qui précède, cela ressemble à environ 48 ou 9 sur 50). Nous ne pouvons jamais être sûrs qu'une courbe particulière sera à l'intérieur à tout moment fini, mais regarder la masse de nouilles ci-dessus serait une valeur sûre. Le WLLN indique également que nous pouvons réduire la proportion de nouilles à l'intérieur de 1 à notre convenance en élargissant suffisamment le graphique.n

Le code R du graphique suit (encore une fois, en sautant les étiquettes).

x <- matrix(2*(rbinom(n*m, size=1, prob=0.5) - 0.5), ncol = m)
y <- apply(x, 2, function(z) cumsum(z)/seq_along(z))
matplot(y, type = "l", ylim = c(-0.4,0.4))
abline(h = c(-e,e), lty = 2, lwd = 2)
Communauté
la source
6

Je le comprends comme suit,

Convergence de probabilité

La probabilité que la séquence de variables aléatoires soit égale à la valeur cible décroît de façon asymptotique et approche de 0 mais n'atteint jamais réellement 0.

Convergence presque sûre

La séquence de variables aléatoires correspondra asymptotiquement à la valeur cible, mais vous ne pouvez pas prédire à quel moment cela se produira.

La convergence presque sûre est une condition plus forte du comportement d'une séquence de variables aléatoires car elle indique que "quelque chose va certainement se passer" (nous ne savons tout simplement pas quand). En revanche, la convergence des probabilités indique que "tant que quelque chose est susceptible de se produire", la probabilité que "quelque chose ne se produise pas " décroît de façon asymptotique mais n'atteint jamais 0 (quelque chose qui une séquence de variables aléatoires convergeant vers une valeur particulière).

Le wiki a quelques exemples des deux qui devraient aider à clarifier ce qui précède (voir en particulier l'exemple de l'archer dans le contexte de la convergence dans prob et celui de la charité dans le contexte de la convergence presque sûre).

D'un point de vue pratique, la convergence des probabilités est suffisante car nous ne nous intéressons pas particulièrement aux événements très improbables. Par exemple, la cohérence d'un estimateur est essentiellement une convergence de probabilité. Ainsi, lorsque vous utilisez une estimation cohérente, nous reconnaissons implicitement le fait que, dans les grands échantillons, il existe une très faible probabilité que notre estimation soit loin de la valeur réelle. Nous vivons avec ce «défaut» de convergence des probabilités, car nous savons qu'asymptotiquement, la probabilité que l'estimateur soit éloigné de la vérité est extrêmement faible.

gung - Rétablir Monica
la source
L’éditeur tenté tente de faire apparaître ceci: "La probabilité que la séquence de variables aléatoires ne soit pas égale à la valeur cible ...".
gung - Rétablir Monica
"La probabilité que la séquence de variables aléatoires soit égale à la valeur cible décroît de manière asymptotique et approche de 0 mais n'atteint jamais réellement 0." Cela ne devrait-il pas être MAI jamais atteindre 0?
Robin Jyotish
@gung La probabilité qu'elle soit égale à la valeur cible approche 1 ou la probabilité qu'elle ne corresponde pas à la valeur cible approche 0. La définition actuelle est incorrecte.
Undertherainbow
5

Si vous aimez les explications visuelles, le statisticien américain (cite ci-dessous) a publié un article intéressant intitulé «Teacher's Corner» sur ce sujet. En prime, les auteurs ont inclus un package R pour faciliter l’apprentissage.

@article{lafaye09,
  title={Understanding Convergence Concepts: A Visual-Minded and Graphical Simulation-Based Approach},
  author={Lafaye de Micheaux, P. and Liquet, B.},
  journal={The American Statistician},
  volume={63},
  number={2},
  pages={173--178},
  year={2009},
  publisher={ASA}
}
Kingsford Jones
la source
1

Ce dernier gars l'explique très bien. Si vous prenez une suite de variables aléatoires, Xn = 1 avec une probabilité de 1 / n et zéro sinon. Il est facile de voir, en prenant des limites, que sa probabilité converge vers zéro, mais ne converge presque pas. Comme il l'a dit, la probabilité que nous en ayons un par la suite importe peu. Presque sûrement.

Cela implique-t-il presque nécessairement une convergence des probabilités, mais pas l’inverse?

Tim Brown
la source
5
Bienvenue sur le site, @ Tim-Brown, nous apprécions votre aide pour répondre aux questions ici. Une chose à noter est qu'il est préférable d'identifier d'autres réponses par le nom d'utilisateur du répondeur, "ce dernier gars" ne sera pas très efficace. Par exemple, la liste sera réorganisée au fur et à mesure du vote. Vous voudrez peut-être lire notre FAQ .
gung - Réintégrer Monica
0

Une chose qui m'a aidé à saisir la différence est l'équivalence suivante

P(limn|XnX|=0)=1⇐⇒limn(supm>=n|XmX|>ϵ)=0 ϵ>0

En comparaison, convergence stochastique:

limnP(|XnX|>ϵ)=0 ϵ>0

À mon avis, lorsque l'on compare le côté droit de l'équivlance supérieure à la convergence stochastique, la différence devient plus claire.

Sébastien
la source