Este artículo habla del uso de un tipo de algoritmos de aprendizaje por refuerzo como alternativa a los algoritmos tradicionales para lograr una convergencia rápida en cuanto al aprendizaje. Se emplea un medio complejo que implique de forma tradicional un enorme número de iteraciones en los algoritmos para completar su aprendizaje.
Los algoritmos de lote (batch) a diferencia de los algoritmos tradicionales de aprendizaje por refuerzo, toman en cuenta todo el historial de pasos que se han llevado a cabo para el aprendizaje en lugar de modificar sus valores empleando solo la última iteración.
Para este caso decidieron utilizar RoboCup Keepaway (previamente expuesto por Peter Stone y otros autores previamente) para probar el uso de los algoritmos de lote. Para las pruebas realizadas decidieron utilizar los algoritmos de aprendizaje siguientes: Online Learning (OL), Experience Replay (ER) y Fitted Q-Iteration (FQI) implementados de dos maneras distintas, empleando CMAC tile coding y redes neuronales.
Los resultados obtenidos se basan en las pruebas prácticas del tiempo que logran retener el balón los jugadores respecto al número de iteraciones realizadas. Los autores resaltan que la convergencia de los algoritmos basados en las implementaciones con CMAC solo convergen en situaciones específicas y aunque se pueden obtener buenos resultados con ellos no siempre se puede asegurar dicha convergencia. Por otra parte también se menciona que el paso de aprendizaje para ER por lo que un análisis detallado sobre este es requerido al llevar a cabo la implementación.
Los resultados como eran esperados reflejan que el uso de los algoritmos de lote obtienen mejores resultados en un tiempo corto aunque existe el caso especial del FQI implementado con CMAC jamás obtiene resultados en los que el jugador pueda retener el balón por más de 8 segundos. Por otra parte, se reduce el tiempo considerablemente hasta en 14 veces (aproximadamente).
Kalyanakrishnan, S., & Stone, P. (2007). Batch Reinforcement Learning in a Complex Domain. Proceedings of the 6th international joint conference on Autonomous agents and multiagent systems (págs. 662-669). New York: ACM.
No hay comentarios:
Publicar un comentario