Este artículo habla de los beneficios que implica el uso del aprendizaje por refuerzo en un ambiente como lo es RoboCup debido a la dificultad que implica el considerar una programación de manera estática en la que se le indique al agente que debe realizar según ciertas circunstancias.
Un punto distinto en cuanto a la implementación del aprendizaje por refuerzo es que en este caso no solo se emplea para desarrollar habilidades básicas del jugador sino que la función de recompensa se basa en el bienestar (cumplimiento del objetivo) del grupo siendo así de alguna manera implica la colaboración del equipo.
Se divide el equipo en grupos pequeños en los que se encuentra un jefe y sus subordinados siendo el jefe el que es capaz de aprender las acciones que realiza y cuáles son las mejores opciones y los subordinados se encargan simplemente de apoyar o realizar las acciones de pide el agente jefe. Para el caso planteado en la lectura, el agente jefe es aquel agente que se encuentre con la posesión del balón.
Sin embargo, la recompensa que recibe el agente no la conoce por sí mismo y para conocer si sus acciones se desenlazaron en un beneficio al grupo debe existir comunicación entre sus integrantes para conocer el resultado de sus acciones.
Xian-Yi, C., Xiao-Hua, Y., Ling-Han, P., & De-Shen, X. (2004). Reinforcement learning in simulation RoboCup soccer. Conference on Machine Learning and Cybernetics, 2004. Proceedings of 2004 International (págs. 244 - 248). Shanghai, China: IEEE.
No hay comentarios:
Publicar un comentario