Se menciona el creciente uso de técnicas de aprendizaje por refuerzo para diversas áreas y en particular el uso del Q-Learning debido al interés que genera por una característica intrínseca del mismo que consiste en que en algún momento se convergerá al estado óptimo de aprendizaje.
Sin embargo, como la mayoría de algoritmos, este requiere cierto número de interacciones para lograr llevar a cabo el aprendizaje las cuales sobrepasan el número natural de encuentros dentro de un juego de un ambiente como lo es el de RoboCup. Por ello, en este artículo se propone el uso de una evolución de Q-Learning llamado HAQL (Heuristic Accelerated Q-Learning).
Este algoritmo en principio comparte una cantidad significante de características con el Q-Learning original pero con una mejora al momento de llevar a cabo el aprendizaje ya que este es guiado por una heurística que influye en las decisiones que toma el agente durante el mismo periodo de aprendizaje de modo que se define una política de heurísticas que permite que el aprendizaje se lleve a cabo en un menor tiempo.
Para las pruebas realizadas en un ambiente que incluye a un equipo defendiendo su portería y otro atacándolo en el que se empleo el aprendizaje para la parte defensora, se logra ver que el uso de HAQL permite que los resultados positivos lleguen en una menor cantidad de interacciones que empleando Q-Learning. Sin embargo, mientras se aumenta el número de interacciones, los resultados se vuelven simulares debido a que el aprendizaje en Q-Learning converge.
Celiberto, L., Ribeiro, C., Reali Costa, A. H., & Bianchi, R. (2008). Heuristic Reinforcement Learning applied to RoboCup Simulation Agents. En RoboCup 2007: Robot Soccer World Cup XI (págs. 220-227). Berlin: Springer Berlin / Heidelberg.
No hay comentarios:
Publicar un comentario