Nombre aléatoire non répétitif dans numpy

Question 1

Comment puis-je générer des nombres aléatoires non répétitifs dans numpy?

list = np.random.random_integers(20,size=(10))

Question 2

numpy.random.Generator.choiceoffre un replaceargument pour échantillonner sans remplacement:

from numpy.random import default_rng

rng = default_rng()
numbers = rng.choice(20, size=10, replace=False)

Si vous utilisez un NumPy antérieur à la version 1.17, sans l' GeneratorAPI, vous pouvez utiliser à random.sample()partir de la bibliothèque standard:

print(random.sample(range(20), 10))

Vous pouvez également utiliser numpy.random.shuffle()et trancher, mais ce sera moins efficace:

a = numpy.arange(20)
numpy.random.shuffle(a)
print a[:10]

Il y a aussi un replaceargument dans la numpy.random.choicefonction héritée , mais cet argument a été implémenté de manière inefficace puis laissé inefficace en raison des garanties de stabilité du flux de nombres aléatoires, son utilisation n'est donc pas recommandée. (Il fait essentiellement la chose shuffle-and-slice en interne.)

Question 3

Je pense que numpy.random.sampleça ne marche pas bien maintenant. C'est mon chemin:

import numpy as np
np.random.choice(range(20), 10, replace=False)

Question 4

Des années plus tard, il est temps de choisir 40000 sur 10000 ^ 2 (Numpy 1.8.1, imac 2.7 GHz):

import random
import numpy as np

n = 10000
k = 4
np.random.seed( 0 )

%timeit np.random.choice( n**2, k * n, replace=True )  # 536 µs ± 1.58 µs
%timeit np.random.choice( n**2, k * n, replace=False ) # 6.1 s ± 9.91 ms

# https://docs.scipy.org/doc/numpy/reference/random/index.html
randomstate = np.random.default_rng( 0 )
%timeit randomstate.choice( n**2, k * n, replace=False, shuffle=False )  # 766 µs ± 2.18 µs
%timeit randomstate.choice( n**2, k * n, replace=False, shuffle=True )   # 1.05 ms ± 1.41 µs

%timeit random.sample( range( n**2 ), k * n )          # 47.3 ms ± 134 µs

(Pourquoi choisir 40000 sur 10000 ^ 2? Pour générer de grandes matrices scipy.sparse.random - scipy 1.4.1 utilise np.random.choice( replace=False ), slooooow.)

Astuce du chapeau pour les gens numpy.random.

Question 5

Vous pouvez également obtenir cela en triant:

random_numbers = np.random.random([num_samples, max_int])
samples = np.argsort(random_numbers, axis=1)

Question 6

Générez simplement un tableau contenant la plage de nombres requise, puis mélangez-les en échangeant à plusieurs reprises un tableau aléatoire avec le 0e élément du tableau. Cela produit une séquence aléatoire qui ne contient pas de valeurs en double.

Answer 1

88

Comment puis-je générer des nombres aléatoires non répétitifs dans numpy?

list = np.random.random_integers(20,size=(10))

random numpy numbers non-repetitive Académie
la source

Qu'entendez-vous par «non répétitif»? Que la séquence de nombres aléatoires ne se répète jamais? Cela n'est pas possible, car l'état du générateur de nombres aléatoires doit tenir dans la mémoire finie d'un ordinateur. Ou voulez-vous dire qu'aucun nombre unique n'apparaît deux fois?

Sven Marnach

5

Non répétitif signifie que vous avez une liste sans doublons.

Polynomial du

2

Peut-être avez-vous besoin d'une permutation aléatoire? docs.scipy.org/doc/numpy/reference/generated/…

cyborg

Answer 2

Qu'entendez-vous par «non répétitif»? Que la séquence de nombres aléatoires ne se répète jamais? Cela n'est pas possible, car l'état du générateur de nombres aléatoires doit tenir dans la mémoire finie d'un ordinateur. Ou voulez-vous dire qu'aucun nombre unique n'apparaît deux fois?

Sven Marnach

Answer 3

5

Non répétitif signifie que vous avez une liste sans doublons.

Polynomial du

Answer 4

2

Peut-être avez-vous besoin d'une permutation aléatoire? docs.scipy.org/doc/numpy/reference/generated/…

cyborg

Answer 5

106

numpy.random.Generator.choiceoffre un replaceargument pour échantillonner sans remplacement:

from numpy.random import default_rng

rng = default_rng()
numbers = rng.choice(20, size=10, replace=False)

Si vous utilisez un NumPy antérieur à la version 1.17, sans l' GeneratorAPI, vous pouvez utiliser à random.sample()partir de la bibliothèque standard:

print(random.sample(range(20), 10))

Vous pouvez également utiliser numpy.random.shuffle()et trancher, mais ce sera moins efficace:

a = numpy.arange(20)
numpy.random.shuffle(a)
print a[:10]

Il y a aussi un replaceargument dans la numpy.random.choicefonction héritée , mais cet argument a été implémenté de manière inefficace puis laissé inefficace en raison des garanties de stabilité du flux de nombres aléatoires, son utilisation n'est donc pas recommandée. (Il fait essentiellement la chose shuffle-and-slice en interne.)

Sven Marnach
la source

1

print random.sample (range (20), 10) ne fonctionne pas avec python 2.6?!

Academia

Avez-vous import random?

Sven Marnach

Le problème était dû à une mauvaise configuration Pydev. Thks

Academia

1

Et si mon n n'est pas 20, mais comme 1000000, mais que je n'ai besoin que de 10 nombres uniques, y a-t-il une approche plus efficace en mémoire?

mrgloom

2

@mrgloom En Python 3, random.sample(range(n), 10))sera efficace même pour les très gros n, puisqu'un rangeobjet n'est qu'un petit wrapper stockant les valeurs de démarrage, d'arrêt et d'étape, mais ne crée pas la liste complète des entiers. Dans Python 2, vous pouvez remplacer rangepar xrangepour obtenir un comportement similaire.

Sven Marnach

Answer 6

1

print random.sample (range (20), 10) ne fonctionne pas avec python 2.6?!

Academia

Answer 7

Avez-vous import random?

Sven Marnach

Answer 8

Le problème était dû à une mauvaise configuration Pydev. Thks

Academia

Answer 9

1

Et si mon n n'est pas 20, mais comme 1000000, mais que je n'ai besoin que de 10 nombres uniques, y a-t-il une approche plus efficace en mémoire?

mrgloom

Answer 10

2

@mrgloom En Python 3, random.sample(range(n), 10))sera efficace même pour les très gros n, puisqu'un rangeobjet n'est qu'un petit wrapper stockant les valeurs de démarrage, d'arrêt et d'étape, mais ne crée pas la liste complète des entiers. Dans Python 2, vous pouvez remplacer rangepar xrangepour obtenir un comportement similaire.

Sven Marnach

Answer 11

108

Je pense que numpy.random.sampleça ne marche pas bien maintenant. C'est mon chemin:

import numpy as np
np.random.choice(range(20), 10, replace=False)

Strnam
la source

25

Au lieu de range(n)(ou arange(n)) comme premier argument de choice, cela équivaut à simplement passer n, par exemple choice(20, 10, replace=False).

Josh Bode

1

Notez que np.random.choice(a, size, replace=False)c'est très lent pour les gros a- sur ma machine, environ 30 ms pour a = 1M.

Matthew Rahtz

3

Pour éviter les problèmes de temps et de mémoire pour une très grande nutilisation numpy.random.Generator.choice(à partir de numpy v1.17)

benbo

1

Le principal inconvénient que je vois est que np.random.choice n'a pas de paramètre d'axe -> c'est uniquement pour les tableaux 1d.

Moosefeather

Answer 12

25

Au lieu de range(n)(ou arange(n)) comme premier argument de choice, cela équivaut à simplement passer n, par exemple choice(20, 10, replace=False).

Josh Bode

Answer 13

1

Notez que np.random.choice(a, size, replace=False)c'est très lent pour les gros a- sur ma machine, environ 30 ms pour a = 1M.

Matthew Rahtz

Answer 14

3

Pour éviter les problèmes de temps et de mémoire pour une très grande nutilisation numpy.random.Generator.choice(à partir de numpy v1.17)

benbo

Answer 15

1

Le principal inconvénient que je vois est que np.random.choice n'a pas de paramètre d'axe -> c'est uniquement pour les tableaux 1d.

Moosefeather

Answer 16

Des années plus tard, il est temps de choisir 40000 sur 10000 ^ 2 (Numpy 1.8.1, imac 2.7 GHz):

import random
import numpy as np

n = 10000
k = 4
np.random.seed( 0 )

%timeit np.random.choice( n**2, k * n, replace=True )  # 536 µs ± 1.58 µs
%timeit np.random.choice( n**2, k * n, replace=False ) # 6.1 s ± 9.91 ms

# https://docs.scipy.org/doc/numpy/reference/random/index.html
randomstate = np.random.default_rng( 0 )
%timeit randomstate.choice( n**2, k * n, replace=False, shuffle=False )  # 766 µs ± 2.18 µs
%timeit randomstate.choice( n**2, k * n, replace=False, shuffle=True )   # 1.05 ms ± 1.41 µs

%timeit random.sample( range( n**2 ), k * n )          # 47.3 ms ± 134 µs

(Pourquoi choisir 40000 sur 10000 ^ 2? Pour générer de grandes matrices scipy.sparse.random - scipy 1.4.1 utilise np.random.choice( replace=False ), slooooow.)

Astuce du chapeau pour les gens numpy.random.

Answer 17

1

Vous pouvez également obtenir cela en triant:

random_numbers = np.random.random([num_samples, max_int])
samples = np.argsort(random_numbers, axis=1)

Ben
la source

Answer 18

-3

Générez simplement un tableau contenant la plage de nombres requise, puis mélangez-les en échangeant à plusieurs reprises un tableau aléatoire avec le 0e élément du tableau. Cela produit une séquence aléatoire qui ne contient pas de valeurs en double.

Polynôme
la source

2

Une autre propriété de la séquence aléatoire résultante est qu'elle n'est pas particulièrement aléatoire .

Sven Marnach

@SvenMarnach - Dans la plupart des cas, cependant, c'est assez aléatoire. Il pourrait utiliser l'approche double-aléatoire s'il le voulait plus aléatoire.

Polynomial

C'est inutile. L'OP peut utiliser les appels de bibliothèque pour le faire correctement. Ils sont plus faciles à utiliser, s'exécutent plus rapidement et sont plus lisibles qu'une version personnalisée. Je ne peux penser à aucune raison pour laquelle je devrais utiliser un mauvais algorithme ici simplement parce qu'il est probablement "assez aléatoire", lorsque l'utilisation du bon algorithme n'a aucun inconvénient.

Sven Marnach

@SvenMarnach - Très bien. Je ne sais pas stupide, alors je proposais juste une solution potentielle.

Polynomial du

Answer 19

2

Une autre propriété de la séquence aléatoire résultante est qu'elle n'est pas particulièrement aléatoire .

Sven Marnach

Answer 20

@SvenMarnach - Dans la plupart des cas, cependant, c'est assez aléatoire. Il pourrait utiliser l'approche double-aléatoire s'il le voulait plus aléatoire.

Polynomial

Answer 21

C'est inutile. L'OP peut utiliser les appels de bibliothèque pour le faire correctement. Ils sont plus faciles à utiliser, s'exécutent plus rapidement et sont plus lisibles qu'une version personnalisée. Je ne peux penser à aucune raison pour laquelle je devrais utiliser un mauvais algorithme ici simplement parce qu'il est probablement "assez aléatoire", lorsque l'utilisation du bon algorithme n'a aucun inconvénient.

Sven Marnach

Answer 22

@SvenMarnach - Très bien. Je ne sais pas stupide, alors je proposais juste une solution potentielle.

Polynomial du

Nombre aléatoire non répétitif dans numpy

Réponses: