Si vous avez été attaqué par une araignée une fois, il est probable que vous ne vous approcherez plus jamais d'une araignée.
Dans un modèle de réseau neuronal, une mauvaise expérience avec une araignée diminuera légèrement la probabilité que vous vous rapprochiez d'une araignée en fonction du taux d'apprentissage.
Ce n'est pas bien. Comment pouvez-vous programmer la peur dans un réseau de neurones, de sorte que vous n'ayez pas besoin de centaines d'exemples de morsure d'une araignée pour ignorer l'araignée. Et aussi, que cela ne fait pas seulement baisser la probabilité que vous choisissiez de vous approcher d'une araignée?
Réponses:
Il existe de nombreuses approches pour cela. Il pourrait être possible de créer un analogue artificiel réaliste de la peur, tel qu'implémenté biologiquement chez les animaux, mais la réponse à la peur d'un animal réel est très importante et ne s'appliquerait pas aux robots IA plus simples disponibles actuellement. Par exemple, un animal qui entre dans un état de peur utilise généralement des hormones pour signaler des changements dans tout son corps, favorisant la dépense en ressources et la prise de risques («combat ou fuite»).
Dans l'apprentissage par renforcement de base, le réseau neuronal n'aurait pas besoin de décider directement d'activer un «mode peur». Au lieu de cela, vous pouvez utiliser une certaine conception de l'agent et de l'algorithme d'apprentissage pour vous aider à tirer des enseignements d'événements rares mais significatifs. Voici quelques idées:
Découvrez la relecture. Vous pouvez déjà le faire dans le scénario Pacman, si vous utilisez DQN ou quelque chose de similaire. Stocker la transition et la récompense de l'état qui a provoqué une grande récompense positive ou négative, et en tirer des enseignements à plusieurs reprises devrait compenser votre préoccupation
Balayage prioritaire. Vous pouvez utiliser des différences plus importantes entre la récompense prévue et la récompense réelle pour biaiser l'échantillonnage de votre mémoire de relecture vers les événements significatifs et ceux qui leur sont étroitement liés.
Planification. Avec un modèle prédictif - peut-être basé sur des transitions échantillonnées (vous pouvez réutiliser la mémoire de relecture d'expérience pour cela), ou peut-être un réseau de prédiction de transition d'état formé - alors vous pouvez envisager plusieurs étapes à venir en simulant. Il existe également une relation étroite entre RL et la planification prospective, ce sont des algorithmes très similaires. La différence est de savoir quels états et actions sont envisagés, et s'ils sont simulés ou expérimentés. L'expérience de la relecture brouille la ligne ici - elle peut être conçue comme un apprentissage de la mémoire ou une amélioration des prévisions pour la planification. La planification aide en optimisant les décisions sans avoir à répéter autant d'expériences - une combinaison de planification et d'apprentissage peut être beaucoup plus puissante que l'une ou l'autre isolément.
Sélection d'actions exploratoires plus intelligente. Epsilon-greedy, où vous effectuez une action gourmande ou une action complètement aléatoire, ignore complètement ce que vous avez peut-être déjà appris sur les actions alternatives et leur mérite relatif. Vous pouvez utiliser quelque chose comme Upper Confidence Bound avec un agent basé sur la valeur.
Dans un monde déterministe, augmentez la taille du lot pour l'apprentissage et la planification, car vous pouvez être sûr que lorsqu'une transition est apprise une fois, vous savez tout à ce sujet.
Vous devrez expérimenter dans chaque environnement. Vous pouvez créer des agents d'apprentissage plus conservateurs sur l'exploration à proximité de zones à faible récompense. Cependant, si l'environnement est tel qu'il est nécessaire de prendre des risques pour obtenir les meilleures récompenses (ce qui est souvent le cas dans les jeux), alors il peut ne pas être optimal en termes de temps d'apprentissage d'avoir un agent "timide". Par exemple, dans votre exemple de Pacman, parfois les fantômes doivent être évités, parfois ils doivent être chassés. Si l'agent a appris une forte aversion au départ, cela pourrait prendre beaucoup de temps pour surmonter cela et apprendre à les chasser après avoir mangé une mise sous tension.
Pour votre exemple de l'araignée, en tant que constructeur de l'expérience, vous savez que la morsure est mauvaise à chaque fois et que l'agent doit l'éviter autant que possible. Pour la plupart des algorithmes RL, il n'y a pas de telles connaissances, sauf acquises par l'expérience. Un modèle mondial MDP n'a pas besoin de correspondre au bon sens, il se peut qu'une morsure d'araignée soit mauvaise (-10 en récompense) 90% du temps et bonne 10% du temps (+1000 en récompense). L'agent ne peut le découvrir qu'en étant mordu plusieurs fois. . . RL ne part généralement d'aucun système pour émettre des hypothèses sur ce genre de chose, et il est impossible de trouver une règle générale sur tous les MDP possibles. Au lieu de cela, pour un système RL de base, vous pouvez envisager de modifier les hyperparamètres ou de vous concentrer sur les événements clés comme suggéré ci-dessus. En dehors d'un système RL de base, il pourrait être utile de reproduire d'autres choses,
la source
Je pense qu'il y a 2 façons d'y arriver: 1) programmer explicitement la peur comme une contrainte ou un paramètre dans une expression logique, ou 2) utiliser un grand ensemble de données d'entraînement pour enseigner la peur.
Pensez à un jeu de base Pacman - si Pacman craint les fantômes ou ne les craint pas est difficile à dire, mais ce sont des fantômes et Pacman les évite donc je pense qu'il est sûr que nous pouvons utiliser cela comme un exemple de base de la "peur". Puisque, dans ce jeu, peur = évitement, vous pouvez logiquement programmer l'évitement pour qu'il soit une sorte de distance. J'ai essayé cela avec l'apprentissage par renforcement Pacman. J'ai essayé de fixer une distance de 5 carrés aux fantômes et chaque fois que Pacman pouvait voir un fantôme à moins de 5 carrés, il se déplaçait dans une direction différente. Ce que j'ai trouvé, c'est que même si Pacman essaiera d'éviter les fantômes, il ne connaît pas la stratégie (ni l'intelligence). Pacman s'éloignerait simplement des fantômes jusqu'à ce qu'il soit enfermé.
Mon point est que vous pouvez programmer votre réseau pour éviter que les araignées ne se mordent, mais sans formation, vous créerez simplement un paramètre de base qui pourrait causer des problèmes s'il y a 100 araignées super agressives qui viennent à vous! La meilleure façon est d'utiliser une logique de base pour éviter les araignées, mais ensuite de former le réseau pour être récompensé, les meilleures araignées sont évitées.
Maintenant, il y a beaucoup de situations de peur, donc cet exemple avec Pacman ne s'appliquerait pas nécessairement à tous ... J'essaie simplement de donner un aperçu de mon expérience avec l'enseignement de la peur avec l'apprentissage par renforcement dans Pacman.
la source
La peur de ce type est une réponse irrationnelle (grande incitation négative en réponse à un petit risque). Pour modéliser la peur, il faudrait modéliser un facteur de "grossièreté" associé, par exemple, aux araignées afin que la réponse normalement non proportionnelle se produise. Le facteur de «grossièreté» pourrait se manifester sous de nombreuses autres formes pour amplifier une réponse à une expérience auparavant désagréable, mais pas particulièrement dangereuse. Une telle peur peut également être inspirée par du ouï-dire (pensez à l'hystérie causée par une histoire sensationnelle). Un NN ne répond normalement que de façon minimale à un risque minimal.
la source
Je suggérerais à l'agent d'évaluer son apprentissage d'un événement donné en fonction de la gravité des conséquences de cet événement. Par exemple. Demandez-lui de développer un modèle de menace comme ceux généralement rédigés dans le domaine de la sécurité de l'information. Un risque élevé mais une faible probabilité est quelque chose qui peut être pris en compte et jugé.
Essayer d'imiter directement la peur humaine serait idiot, vous vous retrouveriez probablement avec des IA qui ont des phobies si vous réussissiez trop bien.
la source