miércoles, 7 de abril de 2010

Scaling Reinforcement Learning toward RoboCup Soccer

Este es un artículo por Peter Stone sobre el rubro de RoboCup en el cual se reduce el enfoque del juego a uno más sencillo. En este caso se emplean dos equipos pero el objetivo del juego no se basa sobre un partido de fútbol real sino en que el equipo que inicia con el balón tratará de retenerlo la mayor cantidad de tiempo posible y el equipo contrario por su parte tratará de robarlo.

El final del juego se declara cuando el balón abandona el espacio indicado (campo de juego) o cuando un jugador del equipo contrario obtiene el balón. Para ambos equipos se emplea un sistema de recompensa de acuerdo al objetivo de cada equipo.

Para el aprendizaje emplearon el algoritmo SARSA (parte de tile coding) en el cual se van ajustando los pesos según las recompensas obtenidas en cada uno de los estados en que se encuentra el sistema de modo que por medio de un número dado de iteraciones cada agente aprende cual es la mejor opción a seguir.

Al final se muestra que existe mejoría respecto a políticas previamente establecidas (estáticas) y como mediante las iteraciones aumentan, disminuye la probabilidad de fallar en el objetivo del equipo.

Stone, P., & Sutton, R. (2001). Scaling Reinforcement Learning toward RoboCup Soccer. The Eighteenth International Conference on Machine Learning (págs. 537-544). Williamstown: ICML.

No hay comentarios:

Publicar un comentario