Supposons que vous ayez un sac avec tuiles, chacune avec une lettre dessus. Il y a tuiles avec la lettre 'A', avec 'B', et ainsi de suite, et 'wildcard' tuiles (nous avons ). Supposons que vous disposiez d'un dictionnaire avec un nombre fini de mots.n ∗ n = n A + n B + … + n Z + n ∗
Vous choisissez tuiles du sac sans remplacement.
Comment calculeriez-vous (ou estimeriez-vous) la probabilité que vous puissiez former un mot donné, de longueur (avec 1 < = < ) à partir du dictionnaire étant donné les tuiles sélectionnées?
Pour ceux qui ne connaissent pas Scrabble (TM), le caractère générique peut être utilisé pour correspondre à n'importe quelle lettre. Ainsi, le mot «BOOT» pourrait être «orthographié» avec les tuiles «B», «*», «O», «T». L'ordre dans lequel les lettres sont dessinées n'a pas d'importance.
Suggestion: afin de simplifier la rédaction des réponses, il serait peut-être préférable de simplement répondre à la question: quelle est la probabilité d'avoir le mot `` BOOT '' parmi vos mouvements possibles après avoir tiré 7 lettres d'un nouveau sac.
(l'introduction du problème a été copiée à partir de cette question similaire )
la source
Réponses:
Une formule est demandée. Malheureusement, la situation est si compliquée qu'il semble que toute formule ne soit qu'un moyen détourné d'énumérer toutes les possibilités. Au lieu de cela, cette réponse propose un algorithme qui (a) équivaut à une formule impliquant des sommes de produits de coefficients binomiaux et (b) peut être porté sur de nombreuses plates-formes.
Pour obtenir une telle formule, divisez les possibilités en groupes mutuellement disjoints de deux manières: selon le nombre de lettres absentes du mot sélectionnées dans le rack (que ce soit ) et selon le nombre de caractères génériques (blancs) sélectionnés ( que ce soit w ). Lorsqu'il y a r = 7 tuiles dans le rack, N tuiles disponibles, M tuiles disponibles avec des lettres absentes du mot et W = 2 blancs disponibles, le nombre de choix possibles donné par ( m , w ) estm w r=7 N M W=2 (m,w)
car les choix de lettres non vierges, de blancs et de lettres de mots sont indépendants et conditionnels à(m,w,r).
Cela réduit le problème de trouver le nombre de façons d'épeler un mot lors de la sélection uniquement à partir des tuiles représentant les lettres du mot, étant donné que blancs sont disponibles et que les tuiles r - m - w seront sélectionnées. La situation est désordonnée et aucune formule fermée ne semble disponible. Par exemple, avec w = 0 espaces et m = 3 lettres hors mot sont dessinées, il restera précisément quatre lettres pour épeler "boot" qui ont été tirées des tuiles "b", "o" et "t" . Étant donné qu'il y a 2 "b", 8 "o" et 6w r−m−w w=0 m=3 2 8 6 "t" dans le jeu de tuiles Scrabble, il y a des probabilités positives de dessiner (multisets) "bboo", "bbot", "bbtt", "booo", "boot", "bott", "bttt", "oooo "," ooot "," oott "," ottt "et" tttt ", mais un seul de ces sorts" boot ". Et c'était le cas facile! Par exemple, en supposant que le rack contient cinq tuiles choisies au hasard parmi les tuiles "o", "b" et "t", ainsi que les deux blancs, il existe de nombreuses autres façons d'épeler "boot" - et non de l'épeler. Par exemple, "boot" peut être orthographié à partir de "__boott" et "__bbttt", mais pas de "__ttttt".
Ce comptage - le cœur du problème - peut être géré de manière récursive. Je vais le décrire avec un exemple. Supposons que nous souhaitons compter les façons d'orthographier "boot" avec une tuile vide et quatre autres tuiles de la collection de tuiles "b", "o" et "t" (d'où les deux tuiles restantes montrent des lettres non vides pas en { "b", "o", "t"}). Considérez la première lettre, "b":
Un "b" peut être tracé chemins à partir des deux tuiles "b" disponibles. Cela réduit le problème de compter le nombre de façons d'épeler le suffixe "oot" en utilisant les deux blancs et seulement trois autres tuiles de la collection de tuiles "o" et "t".(21)
Un blanc peut être désigné comme un "b". Cela réduit le problème de compter le nombre de façons d'orthographe "oot" en utilisant le blanc restant et seulement trois autres tuiles de la collection de tuiles "o" et "t".
En général, les étapes (1) et (2) - qui sont disjointes et contribuent donc de manière additive aux calculs de probabilité - peuvent être implémentées en boucle sur le nombre possible de blancs qui pourraient être utilisés pour la première lettre. Le problème réduit est résolu récursivement. Le cas de base se produit quand il reste une lettre, qu'il y a un certain nombre de tuiles avec cette lettre disponible et qu'il peut aussi y avoir des blancs dans le rack. Il suffit de s'assurer que le nombre de blancs dans le rack plus le nombre de tuiles disponibles sera suffisant pour obtenir la quantité souhaitée de cette dernière lettre.
Voici le7
R
code de l'étape récursive.rack
est généralement égal à , est un tableau de décomptes des lettres (comme ), est une structure similaire donnant le nombre de tuiles disponibles avec ces lettres, et est le nombre de blancs supposés se produire dans le rack.word
c(b=1, o=2, t=1)
alphabet
wild
Une interface pour cette fonction spécifie les tuiles Scrabble standard, convertit un mot donné en sa structure de données multiset et effectue la double somme sur et w . Voici où les coefficients binomiaux ( Mm w et ( W(Mm) sont calculés et multipliés.(Ww)
Essayons cette solution et chronométrons au fur et à mesure. Le test suivant utilise les mêmes entrées que celles utilisées dans les simulations de @Rasmus Bååth :
Cette machine signale un temps total écoulé de seconde: relativement rapide. Les resultats?0.05
La probabilité pour « démarrage » de est exactement égale à la valeur 2.381.831 / 333490850 obtenu dans mon autre réponse (qui utilise une méthode similaire , mais des canapés dans un cadre plus puissant nécessitant une plate - forme de calcul algèbre symbolique). Les probabilités pour les quatre mots sont assez proches des simulations de Baath (qui ne pouvait attendre de donner une valeur exacte pour « Zoology » en raison de sa faible probabilité de 11 840 / 16007560800 , qui est inférieur à un sur un million).114327888/16007560800 2381831/333490850 11840/16007560800,
la source
R
mais j'ai quand même réussi à utiliser vos fonctions en moins d'une heure de travail, de sorte que le script prenne des entrées à partir d'un fichier de dictionnaire de 20 000 mots et écrive les résultats dans un fichier .csv. (cela a pris moins de 10 minutes sur un Core i5 de milieu de gamme)Les réponses à la question référencée s'appliquent ici directement: créez un dictionnaire composé uniquement du mot cible (et de ses éventuelles orthographes génériques), calculez les chances qu'un rack aléatoire ne puisse pas former la cible et soustrayez-le de . Ce calcul est rapide.1
Les simulations (illustrées à la fin) prennent en charge les réponses calculées.
Détails
Comme dans la réponse précédente, Mathematica est utilisé pour effectuer les calculs.
Spécifiez le problème: le mot (ou les mots, si vous le souhaitez), les lettres, leur nombre et la taille du rack. Parce que toutes les lettres qui ne sont pas dans le mot agissent de la même manière, cela accélère considérablement le calcul pour les remplacer toutes par un seul symbole représentant "toute lettre qui ne se trouve pas dans le mot".χ
Créez un dictionnaire de ce mot (ou de ces mots) et augmentez-le pour inclure toutes les orthographes génériques possibles.
Calculez les non mots:
(Il y a non-mots dans ce cas.)185
Calculez les chances. Pour l'échantillonnage avec remplacement, substituez simplement le nombre de tuiles aux variables:
Cette valeur est d'environ0.00756036.
Pour l'échantillonnage sans remplacement, utilisez des puissances factorielles plutôt que des puissances:
Cette valeur est d'environ Les calculs ont été pratiquement instantanés.0.00714212.
Résultats de la simulation
Comparez-le à la valeur calculée par rapport à son erreur standard:
L'accord est bon, soutenant fortement le résultat calculé.
Faites la comparaison:
L'accord dans cette simulation était excellent.
la source
Il s'agit donc d'une solution Monte Carlo , c'est-à-dire que nous allons simuler le dessin des carreaux un million de fois, puis nous allons calculer combien de ces dessins simulés nous ont permis de former le mot donné. J'ai écrit la solution en R, mais vous pouvez utiliser n'importe quel autre langage de programmation, par exemple Python ou Ruby.
Je vais d'abord décrire comment simuler un tirage. Définissons d'abord les fréquences des tuiles.
Encodez ensuite le mot comme vecteur de décompte des lettres.
Maintenant, dessinez un échantillon de sept tuiles et encodez-les de la même manière que le mot.
Enfin, calculez les lettres manquantes ...
... et additionnez le nombre de lettres manquantes et soustrayez le nombre de blancs disponibles. Si le résultat est nul ou inférieur, nous avons réussi à épeler le mot.
Dans ce cas particulier, nous ne l'avons pas pensé ... Il nous suffit maintenant de répéter cela plusieurs fois et de calculer le pourcentage de tirages réussis. Tout cela se fait par la fonction R suivante:
Voici
reps
le nombre de tirages simulés. Maintenant, nous pouvons l'essayer sur un certain nombre de mots différents.la source
sample
n'agit pas comme vous semblez l'attendre. Par exemple, qu'advient-il de votre code si le jeu est modifié pour permettre un rack de 28 tuiles? Passezsize=7
àsize=28
pour le savoir.For the word "BOOT" with no wildcards:
la source
Meh.
It's been a while since I looked at how I built my project. And my math may be entirely incorrect below, or correct. I may have it backwards. Honestly, I forget. BUT! Using only binomial combination, without taking into account blank tiles which throws the entire thing out of whack. The simple combination solution without wild.
I asked these questions myself, and built my own scrabble words probability dictionary because of it. You don't need a dictionary of possible words pulled out, only the math behind it and available letters based on letters in tile bag. The array of English rules is below. I spent weeks developing the math just to answer this question for all English words that can be used in a game, including words that can not be used in a game. It may all be incorrect.
The probability of drawing a given word from a bag of letters in Scrabble, requires how many letters are available in the bag, for each letter ( A-Z ) and, whether we're using the wild card as an addition to the math. The blank tiles are included in this math - assuming 100 tiles, 2 of which are blank. Also, how many tiles are available differs based on language of the game, and game rules from around the world. English scrabble differs from Arabic scrabble, obviously. Just alter the available letters, and the math should do the work.
If anyone finds errors, I will be sure to update and resolve them.
Boot: The probability of Boot in a game of scrabble is 0.000386% which is a chance of 67 out of 173,758 hands as shown on the word page for boot.
English Tiles
all is the array of letters in the bag. count is the array of available tiles for that letter, and point is the point value of the letter.
There are 100 tiles in an English scrabble game (i.e., the sum of
$count
). It does not matter how the tiles are pulled, so it's not a permutation.The Math I Used Determine how many letters are in the word and what letters are in the word, how many of those letters are available in the tile bag ( count for each letter, unique and allchars ). Binomial coefficient of each, divided by binomial coefficient of length word.
Determine the binomial combinations available
Foreach letter, what is the binomial coefficient.
There is 1 "B". There are 2 available, a 2% chance of pulling the b.
There is 2 "O". There are 8 available, a 8% chance of pulling the o.
There is 1 "T". There are 6 available, a 6% chance of pulling the t.
BOOT is a 4 letter word, being taken from a 100 tile set with blanks, 98 without.
n = 98. The number of tiles without blank in the English set
la source
R
solution I posted. Try this one-secondR
simulation:let <- c(rep("b", 2), rep("o", 8), rep("t", 6), rep("_", 84)); boot <- function(x) sum(x=="b")>=1 && sum(x=="o")>=2 && sum(x=="t")>=1; mean(replicate(1e5, boot(sample(let, 7))))