Je dois vous assurer que mon sitemap XML a moins de des déchets (liens brisés). La liste d'URL se compte par centaines de milliers, et même s'il était possible de les tester tous 1 par 1, je préfère ne pas, pour de nombreuses raisons:
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
Je pense donc que prendre un sous-ensemble aléatoire serait suffisant, le problème est que je ne connais pas les probabilités.
Existe-t-il une fonction simple que je peux utiliser?
Si cela peut aider, on peut supposer avoir une information a priori sur la probabilité de rupture d'un lien sur plusieurs runs. Supposons qu'entre les exécutions, un lien de soit rompu.
Réponses:
Cela dépend donc de la distribution de votre croyance antérieure sur le taux de casse, mais: environ 3600.
L'idée ici est de modéliser les ruptures de liens comme un essai de Bernoulli, et de modéliser vos croyances sur le taux de ruptures comme la distribution bêta. La distribution bêta est conjuguée à la distribution Bernoulli , et la façon de mettre à jour une distribution bêta lorsque vous exécutez un essai est assez simple:
la source
la source