De la statistique aléatoire de Wikipédia :
Le hasard global et le hasard local sont différents. La plupart des conceptions philosophiques du caractère aléatoire sont globales, car elles sont basées sur l'idée que "à long terme", une séquence semble vraiment aléatoire, même si certaines sous-séquences ne semblent pas aléatoires. Dans une séquence "véritablement" aléatoire de nombres de longueur suffisante, par exemple, il est probable qu'il y aurait de longues séquences de rien d'autre que des zéros, bien que dans l'ensemble la séquence puisse être aléatoire. Le caractère aléatoire local fait référence à l'idée qu'il peut y avoir des longueurs de séquence minimales dans lesquelles les distributions aléatoires sont approximées.De longues étendues des mêmes chiffres, même ceux générés par des processus "vraiment" aléatoires, diminueraient le "caractère aléatoire local" d'un échantillon (il ne pourrait être localement aléatoire que pour des séquences de 10 000 chiffres; prendre des séquences de moins de 1 000 pourrait ne pas sembler aléatoire du tout, par exemple).
Une séquence présentant un motif ne se révèle donc pas aléatoire statistiquement. Selon les principes de la théorie de Ramsey, des objets suffisamment grands doivent nécessairement contenir une sous-structure donnée ("un désordre complet est impossible").
Je ne comprends pas très bien la signification des deux phrases en gras.
La première phrase signifie-t-elle que quelque chose rend une séquence aléatoire locale à une longueur plus longue, et non aléatoire locale à une longueur plus courte?
Comment fonctionne l'exemple entre parenthèses?
- La deuxième phrase signifie-t-elle qu'une séquence présentant un motif ne peut pas être prouvée comme n'étant pas statistiquement aléatoire? Pourquoi?
Merci
Réponses:
Le concept peut être parfaitement illustré par du code exécutable. Nous commençons (en
R
) en utilisant un bon générateur de nombres pseudo aléatoires pour créer une séquence de 10 000 zéros et uns:Cela passe quelques tests de base de nombres aléatoires. Par exemple, un t-test pour comparer la moyenne à a une p-valeur de 40,09 %, ce qui nous permet d'accepter l'hypothèse selon laquelle les zéros et les uns sont également probables.1 / 2 40,09
De ces nombres, nous procédons à l'extraction d'une sous-séquence de valeurs successives à partir de la 5081e valeur:1000
Si ceux-ci doivent paraître aléatoires, ils doivent également passer les mêmes tests de nombres aléatoires. Par exemple, testons si leur moyenne est 1/2:
La faible valeur de p (moins de 1%) suggère fortement la moyenne est significativement plus grande que . En effet, la somme cumulée de cette sous-séquence a une forte tendance à la hausse:1 / 2
Ce n'est pas un comportement aléatoire!
La comparaison de la séquence originale (tracée comme une somme cumulative) à cette sous-séquence révèle ce qui se passe:
Comme l'ont montré ces analyses simples, aucun test ne peut "prouver" qu'une séquence apparaît aléatoire. Tout ce que nous pouvons faire est de tester si les séquences s'écartent suffisamment des comportements attendus des séquences aléatoires pour prouver qu'elles ne sont pas aléatoires. C'est ainsi que fonctionnent les batteries de tests à nombres aléatoires : elles recherchent des modèles très peu susceptibles de se produire dans des séquences de nombres aléatoires. De temps en temps, ils nous amèneront à conclure qu'une séquence de nombres vraiment aléatoire n'apparaît pas aléatoire: nous la rejetterons et essayerons autre chose.
À long terme, cependant - tout comme nous sommes tous morts - tout générateur de nombres vraiment aléatoires générera toutes les séquences possibles de 1000 chiffres, et il le fera infiniment de fois. Ce qui nous sauve d'un dilemme logique, c'est que nous devrions attendre énormément de temps pour qu'une telle aberration apparente se produise.
la source
Cet extrait utilise les termes «caractère aléatoire local» et «caractère aléatoire global» pour distinguer ce qui peut se produire avec un nombre fini d'échantillons d'une variable aléatoire et la distribution de probabilité ou l'attente d'une variable aléatoire.
Rien de nouveau ici.
Ainsi, je ne brûlerais pas trop de cellules cérébrales en pensant à cet extrait. Ce n'est pas mathématique si précis et est en fait trompeur sur la nature de l'aléatoire.
Modifier en fonction du commentaire: @kjetilbhalvorsen +1 à votre commentaire pour la connaissance historique. Cependant, je pense toujours que la valeur de ces termes est limitée et trompeuse. Les tableaux que vous décrivez semblent donner à penser que de petits échantillons qui ont, par exemple, un échantillon loin de la valeur réelle attendue ou peut-être une longue séquence improbable mais certainement possible de 0 répétés (dans mon exemple de Bernoulli), présentent en quelque sorte moins de hasard (en disant qu'ils ne présentent pas ce faux "hasard local"). Je ne vois rien de plus trompeur pour le statisticien en herbe!
la source
Je pense que les auteurs de l'article de Wikipedia interprètent mal le hasard. Oui, il peut y avoir des étirements qui ne semblent pas être aléatoires, mais si le processus qui a créé la séquence est vraiment aléatoire, il doit en être de même pour la sortie. Si certaines séquences semblent non aléatoires, c'est une perception erronée du lecteur (c'est-à-dire que les humains sont conçus pour trouver des modèles). Notre capacité à voir la Grande Ourse et Orion, etc. dans le ciel nocturne n'est pas une preuve que les motifs des étoiles ne sont pas aléatoires. Je suis d'accord que le hasard semble souvent non aléatoire. Si un processus génère des modèles vraiment non aléatoires pour de courtes séquences, ce n'est pas un processus aléatoire.
Je ne pense pas que le processus change à différentes tailles d'échantillon. Vous augmentez la taille de l'échantillon, vous augmentez la probabilité que nous voyions une séquence aléatoire qui nous semble non aléatoire. S'il y a 10% de chances que nous voyions un modèle dans 20 observations aléatoires, augmenter le nombre total d'observations à 10000 augmenterait la probabilité que nous voyions la non-aléatoire, quelque part.
la source