Tesis MCC Aram: abril 2010

miércoles, 28 de abril de 2010

Beneficios

A pesar de existir trabajos de investigación basados en el aprendizaje por refuerzo y otros en el modelado del oponente, no existe como tal un verdadero aprendizaje de conductas o estrategias de juego que engloben el comportamiento del equipo sino solo una serie de acciones individuales.

En esta propuesta de investigación se consideran los siguientes beneficios:

Desarrollar un mecanismo de extracción de patrones de juego.
Incorporar el manejo de un modelado del oponente como una estrategia global y no acciones individuales de cada agente.
Continuidad a trabajos previos de estudiantes del Instituto Tecnológico y de Estudios Superiores de Monterrey, Campus Estado de México, relacionados al uso del razonamiento basado en casos.
Mejorar el funcionamiento del equipo de simulación en 2D del mismo instituto.

Alcances y limitaciones

Los alcances de este proyecto se centran en la elaboración del mecanismo de extracción de patrones de juego que puedan ser representados en una base de conocimiento y que pueda ser aplicada al entorno de la competencia de simulación de RoboCup 2D.

El alcance de la investigación se encuentra limitado por lo siguiente:

La base de conocimiento se formará a partir de registros de competiciones pasadas dentro del mismo entorno de simulación 2D de RoboCup.
El agente líder o coordinador será determinado por el grado de participación en una jugada dependiendo de la posición del agente respecto al balón.
La selección de las jugadas es inherente al estado actual del entorno y de ambos equipos al momento de ejecución y se clasificarán por eventos o condiciones.
La selección de jugadas se llevará a cabo en base a la percepción actual que tengan los agentes dentro del campo de juego.
Los agentes informarán sobre su posición con respecto a la cancha y de los adversarios adyacentes, esto con el fin de identificar de la base de estrategias la más adecuada de acuerdo a un margen o rango de posiciones.

Objetivos

El objetivo general de la presente investigación es diseñar, implementar y probar un mecanismo de extracción de patrones de juego que puedan ser representados en una base de conocimiento y que pueda ser aplicada a sistemas multiagentes (en el caso de las pruebas al ambiente de RoboCup) al considerar el comportamiento colectivo del equipo rival.

Los objetivos específicos se detallan a continuación:

Investigar y seleccionar el método de aprendizaje por refuerzo por medio del cual se extraerán los patrones de juego y una manera comprensible en que puedan ser representados.
Clasificación de las estrategias y patrones encontrados según su tipo, localización y disponibilidad de los agentes.
Aplicar la metodología de razonamiento basado en casos para la selección de las jugadas.
Comparar el comportamiento de un equipo con la aplicación de las estrategias aprendidas contra uno que no lo utiliza.

Inicio Estado del Arte

Agentes Inteligentes y Sistemas Multiagentes

Agente Inteligente

Se pueden definir a los agentes inteligentes como un sistema computacional que se encuentra en algún ambiente y que es capaz de llevar a cabo acciones autónomas dentro de dicho ambiente con el fin de lograr el objetivo por el que fue diseñado como indica Wooldridge (2002). Aunque como el mismo indica, no existe una definición que abarque todas las características que un agente pueda contener ya que estos pueden diferir en ciertas propiedades dependiendo del problema que atacan y de la implementación específica de su solución.

Los agentes deben cumplir con ciertas características para poder ser catalogados como inteligentes como definieron Wooldridge y Jennings (1995), dichas características son:

Reactividad
Pro actividad
Habilidad social

La reactividad logra que los agentes puedan percibir su ambiente y los cambios del mismo para lograr reaccionar de forma acorde a ello. La pro actividad dentro de este concepto permite que cada agente tome cierta iniciativa para satisfacer su objetivo. Por último la habilidad social se emplea para que cada uno de los agentes pueda interactuar con sus semejantes para llevar a cabo su objetivo en común.

Además cada uno de los agentes debe cumplir con ciertas cualidades que son específicas de esta investigación como lo son la interacción con factores externos, la colaboración, el aprendizaje sobre cada una de las situaciones que se presenten dentro del ambiente y la colaboración con otros agentes reflejadas en estrategias adaptativas.

En el caso particular que se aborda en el cual existen agentes externos los cuales para este caso tienen un fin contrario al de nuestros agentes debemos asegurarnos que nuestros agentes sigan estos protocolos para su colaboración sin embargo habrá que definir una forma de lidiar con los agentes rivales.

Sistema Multiagente

El uso de sistemas multiagentes es un campo relativamente nuevo en cuanto al campo de la computación dado a que sus orígenes datan de la década de los 1990’s cuando se planteaba la posibilidad de resolver alguna situación utilizando pequeños componentes denominados agentes para lograrlo. El interés en desarrollar este tipo de sistemas empezó a crecer de una manera considerable haciendo que hoy en día sea objeto de atención de diversas publicaciones y conferencias.

Los agentes inteligentes son la base del desarrollo de los sistemas multiagentes, debido a que dependen completamente de estos ya que son los encargados de llevar a cabo tareas pequeñas e individualizadas para llegar a un objetivo de mayor complejidad que requiere de su colaboración para ser llevado a cabo con éxito.

Una propiedad fundamental en el desarrollo de los sistemas que incorporan agentes es la interacción de los mismos con el medio en el que se encuentran debido a que se espera que a cada acción realizada dentro del ambiente produzca una reacción en el mismo o una salida del sistema. Los agentes en la mayoría de los casos no tienen una vista global de su ambiente y tampoco ejercen un control total sobre el mismo, debido a esto no se puede asegurar que una acción realizada por un agente de forma idéntica dos veces tenga el mismo resultado o incluso que este sea correcto.

Un aspecto que se debe tomar en cuenta sobre el ambiente radica en que no en todos los casos se mantiene estático, es decir no cambia el estado de los elementos que lo conforman a menos que algún agente haga una acción directa sobre alguno de ellos. Tomando lo anterior a consideración debemos prever que el ambiente puede cambiar el entorno en el que se encuentran los agentes ya sea por la misma interacción de los agentes o por algún otro factor externo.

Retomando el contexto de sistemas multiagentes ahora que han sido definidos los agentes inteligentes que interactúan dentro del mismo, debemos tener otras consideraciones sobre el funcionamiento de este tipo de sistemas.

La principal característica y razón por la cual se optó por crear los sistemas multiagentes es la habilidad que tienen estos para resolver o simular problemas que necesitan de la intervención de distintos elementos con acciones autónomas y que sean capaces de tomar ciertas decisiones que los lleven a colaborar entre sí para llegar a un fin común. Debido a esto las áreas en donde los sistemas multiagentes pueden colaborar a la resolución de problemas es realmente extensa y entre las cuales encontramos ejemplos como lo son teoría de juegos, economía, biología, ambientes de aprendizaje, etc.

Las consideraciones sobre el ambiente en el cual se desenvuelven los agentes don prácticamente las mismas que se han expuesto en puntos anteriores agregando que al ser un ambiente compartido, este puede ser modificado por cualquiera de los agentes envueltos en él. Además en el enfoque dado en este documento se debe tomar en cuenta a los agentes externos y que ellos tienen la misma capacidad de modificar los elementos del ambiente que nuestros propios agentes.

Aunado a las consideraciones sobre el ambiente y mencionado el hecho de cómo pueden influir en el mismo los agentes externos, se debe recalcar otro aspecto el cual es la interacción entre agentes. Dado que se espera un resultado a cada acción llevada a cabo por los agentes, ahora dicho resultado depende de la combinación de acciones de cada uno de los agentes que intervengan. Esto puede alterar los resultados esperados y se debe tener un control o una forma de prever lo que pueda suceder así como posiblemente coordinarlo.

Comportamiento Social

Las acciones realizadas por los diversos agentes deben cumplir con los puntos anteriores y se logra de forma que cada agente tenga una noción sobre qué acciones conllevan el mejor resultado y son premiados con algún sistema de puntuación. Cada acción tiene cierto marcador y de esta forma pueden realizar la más adecuada para el momento en que se encuentran haciendo una evaluación de los pasos que deben seguir y el acumulado de puntos, también conocido como utilidad, que tendrán al finalizar cada posible camino que pueden tomar para llevar a cabo la labor.

Sin embargo la interacción de los agentes y los caminos que pueden tomar pueden interferir con las decisiones tomadas por el resto del conjunto. Esto se puede solucionar de diversas formas que comprenden las estrategias de interacción entre agentes, las cuales deben evaluar cada agente las opciones que tiene a seguir de forma que elija la que le sea más conveniente.

Normalmente en los sistemas multiagentes donde se busca llegar a una meta en común se emplean protocolos que se aseguran de ello y necesitan cumplir ciertos requisitos como lo son:

Se garantiza el éxito del sistema si se asegura que eventualmente los agentes que están involucrados llegan a un acuerdo para realizar el trabajo.
Se asegura que el resultado al que se llegue implique que se utilizaron los agentes de forma que todos lleguen a su máxima utilidad posible.
El protocolo será pareto eficiente si se llega a una situación donde para cualquier agente no puede recibir una utilidad mayor sin disminuir la utilidad de algún otro agente.
El protocolo debe ser individualmente razonable, esto es que siguiendo el protocolo cada agente tenga el conocimiento que siguiendo las reglas definidas en el sistema es la mejor forma de llegar a su utilidad.
El protocolo debe asegurarse que exista estabilidad en el sistema, esto se logra dando incentivos a los agentes para que actúen de una manera que se busca y también se le conoce como el equilibrio de Nash.
El protocolo debe ser simple asegurándose que cada agente al utilizarlo pueda determinar de una forma sencilla que estrategia debe seguir.
Además el protocolo debe cerciorarse que no existe un punto de falla común, por ejemplo que no existe un solo árbitro o coordinador, así asegura esta propiedad también llamada como distribución.

Lo anterior es logrado por un sistema de comunicación que varía en cada implementación de sistemas multiagentes pero el cual tiene el fin de coordinar cada uno de los agentes. Esto resulta muy útil puesto que es lo más cercano que tienen los agentes a una visión global del ambiente con la cual pueden negociar y llevar a cabo la situación que mejor convenga a su desempeño.

Este sistema de comunicación se lleva comúnmente a cabo por el paso de mensajes en los cuales se indican datos relevantes para cada uno de los agentes. La estructura de dichos mensajes depende de cada implementación pero se conocen comúnmente dos representaciones:

Knowledge Query and Manipulation Language (KQML)
Knowledge Interchange Format (KIF)

Mientras que KQML se encuentra enfocado a la comunicación entre agentes como tal asegurándose de proveer una estructura que define destinatario, tipo de mensaje, etc., KIF se asegura de incluir la información sobre el entorno dentro de los mensajes, la parte relevante para la toma de decisiones.

Subsecciones del Estado del Arte

Estado del Arte

Agentes Inteligentes y Sistemas Multiagentes

Agente Inteligente
Sistema Multiagente
Comportamiento Social

Simulación de Futbol Soccer

RoboCup

Estrategias

Estrategia
Representación de Estrategias

Modelado del Oponente

Aprendizaje Automático

Aprendizaje por Refuerzo

Razonamiento Basado en Casos

Selección de Planes

miércoles, 14 de abril de 2010

Antecedentes (Tercera versión)

Los antecedentes directos a esta investigación están situados en los trabajos aplicados al evento RoboCup en el cual se organizan competiciones de partidos de futbol para probar avances en los sistemas multi-agentes. Al ser un evento a nivel mundial y con rondas clasificatorias (como si fuera un verdadero torneo de futbol) se logra poner a prueba cada nueva teoría o implementación que se realiza en las diversas instituciones de educación superior alrededor del mundo.

Independientemente del uso de robots físicos o simulaciones dentro de las pruebas de RoboCup, todas las competencias se encuentran basadas en sistemas multi-agentes donde cada agente representa a un jugador, aunque en este caso las pruebas e investigación se encuentran enfocadas a la competencia de simulación en 2D.

Debido a la complejidad e ineficiencia que implica indicar cada movimiento que los agentes pueden realizar dentro del campo de forma explícita, se emplean, en lo general, métodos de aprendizaje (como el basado en refuerzo) para que los jugadores conforme pase el tiempo de aprendizaje corrijan las acciones que llevan a cabo de forma incorrecta y perfeccionen hasta cierto grado los movimientos que pueden realizar.

Dentro de los avances encontrados, existe el uso del modelado del oponente como forma de evaluación en el modo de competencia de Coach debido a que se basa específicamente en los resultados que arroja dicho modelado. Sin embargo, en el caso particular de la competencia entre dos equipos sin el uso del agente Coach se ha hecho un modelado simplista y genérico en la mayoría de los casos.

El hecho de no lograr crear un modelado del oponente específico para un contrario en el tiempo de juego es debido a la poca interacción que existe dentro de cada partido ya que las interacciones entre ambos equipos son limitadas e insuficientes para lograr crear un modelo realista y confiable de la forma de jugar del rival (Stone, Riley, y Veloso, 2000). Debido a esto el modelado del oponente se ha basado en dos aproximaciones, la primera es contemplar un modelo predefinido de comportamientos individuales posibles de los rivales excluyendo así las estrategias de equipo y por otro lado se crean estrategias que incluyan posiciones posibles de los rivales y se procesan de distintas formas teniendo como ejemplo un CBR (Case Based Reasoning).

En el primer caso, se han logrado avances y algunas pruebas tanto en la competencia de RoboCup como en sistemas similares en entornos multi-agente empleando juegos de información incompleta como escenarios de pruebas (Parker, Nau, Subrahmanian 2006). En dichos escenarios se han probado distintas formas de asumir el comportamiento del rival de forma que siempre se tome en cuenta algún tipo de rival y no quede vació algún caso tomando como peor escenario el uso de un modelo genérico.

Del último caso, se han hecho avances en la definición de las estrategias dentro del equipo de robots cuadrúpedos del ITESM-CEM (Arias 2008) y su implementación dentro del terreno de juego sin lograr llevar a cabo pruebas contra equipos reales. Aunque las jugadas fueron definidas para una competición distinta, las bases de la misma son idénticas al tratarse de un mismo dominio (juego de soccer).

La base de la aplicación de las jugadas contenidas en el CBR en el caso del equipo del ITESM-CEM era conducida por uno de los mismos agentes que dentro del espacio y tiempo de juego es elegido como líder y lleva a cabo el reconocimiento del estado actual del campo y la comparación con los casos registrados en el libro de jugadas con tal de que elija la que se asemeje de forma apegada al estado actual del sistema.

El uso del libro de jugadas no es exclusivo del ITESM-CEM ya que otros equipos lo han llevado a cabo dentro de las competiciones de RoboCup (equipo AT Humboldt) y que han perfeccionado la elección de las jugadas de a cuerdo a cada situación en el campo. Sin embargo, no se especifica la manera de alimentar los casos considerados en el libro de jugadas.

Se puede observar que existen limitantes que conciernen a la misma forma en que se realiza el modelado del rival. Aunque existe y se busca el ideal de crear una representación de cada oponente a un nivel apegado a la realidad, aún no se ha logrado llevar a cabo en periodos cortos de interacción aun con dominios acotados de forma que las acciones conformen un conjunto mínimo y por ende sea de cierta forma sencilla su predicción (Del Giudice y Gmytrasiewicz, 2007).

Al considerar estos factores, se encuentra como deseable un modelo del oponente apegado a situaciones que asemejen con cierta precisión a la realidad del juego actual y que puedan ayudar a que se comprenda no solo las acciones individuales del contrario sino un nivel superior en cuanto a entendimiento siendo en el caso de RoboCup, la estrategia que emplea el equipo. Siendo esta una posible generalización de un conjunto de estrategias con características similares pero que logren englobar algunas de las formas en que se desempeña el equipo de forma que se tenga información sobre la reacción del mismo y deseablemente la manera en que puede ser contrarrestada o respondida.

miércoles, 7 de abril de 2010

Tercera Versión de Hipótesis

Existen modelos del oponente dentro de la competencia de simulación RoboCup 2D que abarcan acciones sencillas e independientes que no conforman una estrategia grupal. Se pretende crear una extracción de patrones de juego que logre englobar las jugadas más comunes en los equipos que existen actualmente y mediante aprendizaje por refuerzo generar una base de conocimiento (libro de jugadas) con las estrategias que se adapten al rival de forma que al momento del juego se puedan reconocer y emplear para mejorar los resultados en la competencia.

Antecedentes (Segunda versión)

Los antecedentes directos a esta investigación están situados en las investigaciones aplicadas al evento RoboCup en el cual se organizan simulaciones de partidos de futbol para probar avances en los sistemas multi-agentes. Al ser un evento a nivel mundial y con rondas clasificatorias (como si fuera un verdadero torneo de futbol) se logra poner a prueba cada nueva teoría o implementación que se realiza en las diversas instituciones de educación superior alrededor del mundo.

Es importante recalcar que lo anterior ha sucedido debido al poco tiempo de interacción existente dentro de cada partido ya que las interacciones entre ambos equipos son limitadas e insuficientes para lograr crear un modelo realista y confiable de la forma de jugar del rival (Stone, Riley, y Veloso, 2000). Debido a esto el modelado del oponente se ha basado en dos aproximaciones, la primera es contemplar un modelo predefinido de comportamientos individuales posibles de los rivales excluyendo así las estrategias de equipo y por otro lado se crean estrategias que incluyan posiciones posibles de los rivales y se procesan de distintas formas teniendo como ejemplo un CBR (Case Based Reasoning).

Overconfidence or Paranoia? Search in Imperfect-Information Games

En esta lectura se expone el uso de un algoritmo de búsqueda en conjuntos de información para juegos de información imperfecta (incompleta) en el que se espera lograr un mejor desempeño comparado al uso de investigaciones anteriores mencionadas dentro del mismo artículo.

Para mostrar el uso del algoritmo plantearon usar el juego de Kriegspiel en el cual, al igual en que la mayoría de juegos, se puede llevar a cabo un modelado del oponente y es un aspecto que toman en cuenta los autores para probar su algoritmo.

Para el modelado del oponente emplearon dos visiones distintas, el uso de una estrategia similar a la de mini-max pero adaptada para juegos de información imperfecta (modelo paranoico) en el cual asumen que el oponente siempre va a elegir la mejor opción y por otro lado emplearon un modelo en que las jugadas se deciden al azar (modelo de exceso de confianza).

Al momento de realizar las pruebas, el modelo de exceso de confianza obtuvo resultados más favorables y posiblemente es debido al mismo entorno del juego en el que ninguno de los dos jugadores conoce realmente los movimientos del contrario por lo que deducir la mejor estrategia del rival no siempre (visto por los resultados, casi nunca) se emplea la jugada determinada como mejor, en cambio al modelarlo como jugadas al azar, si bien es cierto que esto impide realmente deducir una estrategia del rival, se obtiene una mayor probabilidad de alguna manera obtener un resultado más parecido a la realidad.

Parker, A., Nau, D., & Subrahmanian, V. (2006). Overconfidence or Paranoia? Search in Imperfect-Information Games. The Twenty-First National Conference on Artificial Intelligence (págs. 1045-1050). Boston: AAAI.

Safe Strategies for Agent Modelling in Games

Esta lectura trata un problema encontrado al momento de realizar el modelado del oponente y el cual, aun siendo un posible factor crítico en el transcurso de la ejecución del sistema, es de alguna forma obviado por la mayoría de sistemas.

Este problema radica en la imposibilidad de realizar un buen modelado del oponente debido a las características que este posea, pudiendo ser este demasiado complejo para ser modelado, no se tiene suficiente información, el rival está empleando un modelo del oponente que se adapta a los cambios que nuestro mismo agente realiza, entre otras posibles circunstancias.

Teniendo esto a consideración es posible que los agentes tomen decisiones incorrectas o improductivas debido a que están basadas en el conocimiento que tienen sobre el oponente actualmente. En este caso y como es propuesto, se deben emplear una serie de acciones o estrategias seguras que permitan de cierta forma maximizar la recompensa obtenida.

Los autores desarrollaron un algoritmo (basados en el algoritmo No Regrets) que permiten llevar a cabo esta tarea y asegurar que el resultado obtenido cuando no se logró realizar el modelado del oponente de forma correcta sea mejor que cuando se toma en consideración un modelo erróneo.

El algoritmo no solo busca la maximización del resultado propio sino que propicia que la ganancia del rival sea más pequeña. Esto fue probado con la simulación de un torneo de piedra-papel-tijeras (competición RoShamBoo) empleando en todos los casos el algoritmo implementado en cada uno de los equipos.

Los resultados muestran que el desempeño de los agentes que logran hacer un buen modelado del oponente, no son alterados substancialmente y por otra parte los agentes que se benefician de dicho algoritmo son aquellos que habían conseguido originalmente los peores lugares. Sin embargo, se menciona que el algoritmo tiene dificultades al ser empleado en sistemas en los que la recompensa obtenida no es inmediata.

McCracken, P., & Bowling, M. (2004). Safe Strategies for Agent Modelling in Games. AAAI 2004 Fall Symposia. Virginia: AAAI.

Batch Reinforcement Learning in a Complex Domain

Este artículo habla del uso de un tipo de algoritmos de aprendizaje por refuerzo como alternativa a los algoritmos tradicionales para lograr una convergencia rápida en cuanto al aprendizaje. Se emplea un medio complejo que implique de forma tradicional un enorme número de iteraciones en los algoritmos para completar su aprendizaje.

Los algoritmos de lote (batch) a diferencia de los algoritmos tradicionales de aprendizaje por refuerzo, toman en cuenta todo el historial de pasos que se han llevado a cabo para el aprendizaje en lugar de modificar sus valores empleando solo la última iteración.

Para este caso decidieron utilizar RoboCup Keepaway (previamente expuesto por Peter Stone y otros autores previamente) para probar el uso de los algoritmos de lote. Para las pruebas realizadas decidieron utilizar los algoritmos de aprendizaje siguientes: Online Learning (OL), Experience Replay (ER) y Fitted Q-Iteration (FQI) implementados de dos maneras distintas, empleando CMAC tile coding y redes neuronales.

Los resultados obtenidos se basan en las pruebas prácticas del tiempo que logran retener el balón los jugadores respecto al número de iteraciones realizadas. Los autores resaltan que la convergencia de los algoritmos basados en las implementaciones con CMAC solo convergen en situaciones específicas y aunque se pueden obtener buenos resultados con ellos no siempre se puede asegurar dicha convergencia. Por otra parte también se menciona que el paso de aprendizaje para ER por lo que un análisis detallado sobre este es requerido al llevar a cabo la implementación.

Los resultados como eran esperados reflejan que el uso de los algoritmos de lote obtienen mejores resultados en un tiempo corto aunque existe el caso especial del FQI implementado con CMAC jamás obtiene resultados en los que el jugador pueda retener el balón por más de 8 segundos. Por otra parte, se reduce el tiempo considerablemente hasta en 14 veces (aproximadamente).

Kalyanakrishnan, S., & Stone, P. (2007). Batch Reinforcement Learning in a Complex Domain. Proceedings of the 6th international joint conference on Autonomous agents and multiagent systems (págs. 662-669). New York: ACM.

Reinforcement learning in simulation RoboCup soccer

Este artículo habla de los beneficios que implica el uso del aprendizaje por refuerzo en un ambiente como lo es RoboCup debido a la dificultad que implica el considerar una programación de manera estática en la que se le indique al agente que debe realizar según ciertas circunstancias.

Un punto distinto en cuanto a la implementación del aprendizaje por refuerzo es que en este caso no solo se emplea para desarrollar habilidades básicas del jugador sino que la función de recompensa se basa en el bienestar (cumplimiento del objetivo) del grupo siendo así de alguna manera implica la colaboración del equipo.

Se divide el equipo en grupos pequeños en los que se encuentra un jefe y sus subordinados siendo el jefe el que es capaz de aprender las acciones que realiza y cuáles son las mejores opciones y los subordinados se encargan simplemente de apoyar o realizar las acciones de pide el agente jefe. Para el caso planteado en la lectura, el agente jefe es aquel agente que se encuentre con la posesión del balón.

Sin embargo, la recompensa que recibe el agente no la conoce por sí mismo y para conocer si sus acciones se desenlazaron en un beneficio al grupo debe existir comunicación entre sus integrantes para conocer el resultado de sus acciones.

Xian-Yi, C., Xiao-Hua, Y., Ling-Han, P., & De-Shen, X. (2004). Reinforcement learning in simulation RoboCup soccer. Conference on Machine Learning and Cybernetics, 2004. Proceedings of 2004 International (págs. 244 - 248). Shanghai, China: IEEE.

Scaling Reinforcement Learning toward RoboCup Soccer

Este es un artículo por Peter Stone sobre el rubro de RoboCup en el cual se reduce el enfoque del juego a uno más sencillo. En este caso se emplean dos equipos pero el objetivo del juego no se basa sobre un partido de fútbol real sino en que el equipo que inicia con el balón tratará de retenerlo la mayor cantidad de tiempo posible y el equipo contrario por su parte tratará de robarlo.

El final del juego se declara cuando el balón abandona el espacio indicado (campo de juego) o cuando un jugador del equipo contrario obtiene el balón. Para ambos equipos se emplea un sistema de recompensa de acuerdo al objetivo de cada equipo.

Para el aprendizaje emplearon el algoritmo SARSA (parte de tile coding) en el cual se van ajustando los pesos según las recompensas obtenidas en cada uno de los estados en que se encuentra el sistema de modo que por medio de un número dado de iteraciones cada agente aprende cual es la mejor opción a seguir.

Al final se muestra que existe mejoría respecto a políticas previamente establecidas (estáticas) y como mediante las iteraciones aumentan, disminuye la probabilidad de fallar en el objetivo del equipo.

Stone, P., & Sutton, R. (2001). Scaling Reinforcement Learning toward RoboCup Soccer. The Eighteenth International Conference on Machine Learning (págs. 537-544). Williamstown: ICML.