Supposons que vous vouliez aller pêcher au lac voisin de 8h à 20h. En raison de la surpêche, une loi a été adoptée qui stipule que vous ne pouvez attraper qu'un seul poisson par jour. Lorsque vous attrapez un poisson, vous pouvez choisir de le garder (et donc de rentrer chez lui avec ce poisson), ou de le jeter dans le lac et de continuer à pêcher (mais risquez de vous installer plus tard avec un poisson plus petit, ou pas de poisson du tout). Vous voulez attraper un poisson aussi gros que possible; en particulier, vous souhaitez maximiser la masse attendue de poisson que vous ramenez à la maison.
Formellement, nous pourrions régler ce problème comme suit: les poissons sont capturés à un certain rythme (donc, le temps qu'il faut pour attraper votre prochain poisson suit une distribution exponentielle connue), et la taille des poissons capturés suit une certaine distribution (également connue) . Nous voulons un processus de décision qui, compte tenu de l'heure actuelle et de la taille d'un poisson que vous venez de capturer, décide de garder le poisson ou de le renvoyer.
La question est donc: comment prendre cette décision? Existe-t-il un moyen simple (ou compliqué) de décider quand arrêter de pêcher? Je pense que le problème revient à déterminer, pour un temps donné t, quelle masse de poisson attendue qu'un pêcheur optimal ramènerait à la maison s'il commençait au temps t; le processus de décision optimal garderait un poisson si et seulement si le poisson est plus lourd que cette masse attendue. Mais cela semble en quelque sorte autoréférentiel; nous définissons la stratégie de pêche optimale en termes de pêcheur optimal, et je ne sais pas trop comment procéder.
Réponses:
Soit le taux du processus de Poisson et soit où est la fonction de distribution cumulative de la distribution de la taille du poisson.λ S(x)=1−F(x) F(x)
Soit la fin de la journée et , , la capture attendue dans l'intervalle nous obtenons en utilisant la stratégie optimale. Clairement . De plus, si nous attrapons un poisson de taille au temps nous devons le garder et arrêter de pêcher s'il est plus grand que . C'est donc notre règle de décision. Ainsi, une réalisation du processus et la décision réalisée (point vert) peuvent ressembler à ceci:t=0 g(t) t≤0 (t,0) g(0)=0 x t g(t)
En travaillant en temps continu, en utilisant des idées de programmation dynamique stochastique , le changement de arrière dans le temps est décrit par une simple équation différentielle. Considérons un intervalle de temps infinitésimal . La probabilité que nous capturions un poisson de taille dans cet intervalle de temps est sinon notre capture attendue sera .g(t) (t−dt,t) X>g(t) λdtS(g(t)), g(t)
En utilisant une formule pour la vie résiduelle moyenne , la taille attendue d'un poisson supérieur à commeg(t) E(X|X>g(t))=g(t)+1S(g(t))∫∞g(t)S(x)dx.
Par conséquent, en utilisant la loi de l'espérance totale, la capture attendue dans l'intervalle devient(t−dt,0) g(t−dt)=[λdtS(g(t))][g(t)+1S(g(t))∫∞g(t)S(x)dx]+[1−λdtS(g(t)]g(t).
En réarrangeant, nous trouvons que satisfait Notez comment vers la fin de la journée diminue à un taux égal au produit du taux de Poisson et de la taille moyenne du poisson reflétant que nous à ce point sera préférable de garder tous les poissons que nous pourrions attraper.g(t) dgdt=−λ∫∞g(t)S(x)dx.(1) g(t) λ ∫∞0S(x)dx
Exemple 1 : Supposons que les tailles de poisson telles que . L'équation (1) se simplifie alors en qui est une équation différentielle séparable. En utilisant la condition aux limites ci-dessus, la solution est pour montré dans la figure ci-dessus pour . Le code suivant compare la capture moyenne à l'aide de cette stratégie calculée à partir de simulations avec la moyenne théorique .X∼exp(α) S(x)=e−αx dgdt=−λαe−αg(t) g(t)=1αln(1−λt), t≤0 α=λ=1 g(−12)
Exemple 2: Si une dérivation similaire conduit à comme solution de (1). Notez comment tend vers la taille maximale du poisson comme .X∼U(0,1) g(t)=1−11−λt/2 g(t) t→−∞
la source