Tesis MCC Aram: febrero 2010

miércoles, 24 de febrero de 2010

Sitio de Peter Stone

Revisando su sitio web encontré que aunque aún se encuentra involucrado en los proyectos relacionados con sistemas multi-agentes y en específico con RoboCup, actualmente ha tomado mucha mayor atención en cuanto a robots físicos y no a la base de simulación aunque sus artículos genéricos sobre SMAs pueden ser útiles.

Helios Team

Encontré el sitio en el que se encuentra el código fuente del equipo, sin embargo el sitio está en japonés y es bastante complicado entender en que parte se encuentra el archivo para descargar y su descripción.

http://sourceforge.jp/projects/rctools/

Robocup 2009 Team Description

Esta es la competición más reciente en cuanto a RoboCup, la mayoría de los equipos son los mismos que en la competición del 2007 y continúan con la investigación llevada a cabo siguiendo su línea en cuanto a los sistemas multi-agentes.

Helios – Con su código abierto al público y teniendo una sólida implementación de un conjunto significante de comportamientos básicos, se menciona su uso como base para diversos equipos dentro de la competición, siendo esta una posibilidad para la implementación del código de los TecRams2D.
AT Humboldt 2009 – Por su parte este equipo sigue empleando decisiones basadas en CBR y sencillamente se mencionan mejoras en cuanto a su sistema.
The DAInamite 2009 – Este equipo menciona la localización de sus jugadores en cuanto a diagramas de Voronoi para descomponer el plano del terreno de juego y posicionar cada línea de jugadores en su punto óptimo.

Robocup 2007 Team Description

En cada año revisado se ve una evolución en cuanto a los temas y problemas que intentan resolver cada uno de los equipos, siendo en los primeros problemas ligados con el uso del servidor, acomodo del equipo y comportamientos individuales y en otros más recientes como este se emplean técnicas involucradas en la inteligencia artificial como lo es el uso de redes neuronales o lógica difusa.

AT Humboldt 2007 – En este año se continuo con el desarrollo del uso de CBR y se mencionan aspectos que son fundamentales para su óptimo uso como es el mecanismo de selección de jugadas y la optimización del conjunto de casos Posicionamiento en cuanto al espacio y eliminación de casos redundantes).
Bahia 2D – Hace uso de lógica difusa para diversos motivos siendo de los más relevantes para los datos relacionados con su posición y poder emplearlos así en su aprendizaje.
Helios 2007 – Este es uno de los equipos más sólidos en la competencia, hacen uso de un posicionamiento en base a triangulación de Delaunay además de tener claramente definidos los comportamientos básicos de los agentes como lo son el correr con el balón, pases, tiros, etc.
OPU Hana 2D – Este equipo sigue mencionando el uso de algoritmos genéticos y aunque no profundiza en los mismos, como en sus descripciones anteriores, es interesante ver que cada uno de los equipos toma cierto rumbo en cuanto sus investigaciones. También se menciona el uso de una red neuronal para mejorar su técnica para llevar el balón.

Robocup 2005 Team Description

En este año se nota que se ha tomado mayor importancia a la coordinación entre agentes llevando a varios equipos a describir la forma en que se comunican entre ellos (empleo de gritos “Shouts” por ejemplo) además del uso de formas de aprendizaje y en su mayor parte siendo este por refuerzo.

TsinghuAeolus2005 – Este equipo hace mención de un modelado del equipo rival llevado a cabo de forma individual, intentando anticipar los movimientos y posiciones de cada jugador contrario pero no entendiendo las estrategias de los rivales. No se menciona si esto se hace en la competencia del “Coach” o si es en la competencia de los simuladores y no es claro debido a que muchos equipos emplean la misma descripción para todas las competencias que han sido incluidos.
Brainstormers 2D – Este equipo hace énfasis en la arquitectura que emplean para el comportamiento de los agentes, siendo esta híbrida ya que aunque se cuenta con una capa reactiva, otra lleva a cabo el aprendizaje del agente para que pueda llevar a cabo decisiones complejas. Este es un punto común en varios de los equipos que emplean una estructura similar para sus arquitecturas.
YowAI2005 – Por su parte, este equipo hace referencia a la importancia de la comunicación dentro del entorno del simulador 2D y explica el uso de su modelo de gritos o “Shouts”. También es importante remarcar que en su trabajo futuro hace mención a un modelado del oponente.

Robocup 2004 Team Description

En este año se muestra como muchos de los equipos han logrado dejar atrás los problemas que consistían a los movimientos individuales de los agentes, y aunque no habían sido perfeccionados (y de hecho, muchas descripciones hablan de forma de mejorarlos y hasta se plantea como trabajo a futuro) se empieza a notar un mayor interés en la toma de decisiones del equipo como tal y no solo de cada agente, esto es, se trata de llevar a cabo un verdadero juego de equipo y no solo once agentes sin algún tipo de coordinación.

AT Humboldt 2004 & AT Humboldt 3D – Este equipo menciona el uso de CBR (Case-Based Reasoning) para la selección de jugadas y aunque de una forma muy rudimentaria y poco eficaz, es algo que decidieron emplear y expandir en próximas competiciones.
Tram Hana – Este equipo decidió utilizar computación evolutiva que le permitiera aprovechar el uso de algoritmos genéticos para llevar a cabo sus estrategias, se denota un mayor conocimiento en cuanto a su antecedente inmediato (Iranians 2003) posiblemente causado por una mayor investigación en cuanto al campo.
UTUtd 2004 – Este equipo por su parte (y en realidad siendo el único que he encontrado que hace uso de esto) adapta el comportamiento guiado por emociones en los agentes y que pueden afectar las decisiones y acciones que llevan a cabo dentro del juego basados en su desempeño individual.

Robocup 2003 Team Description

En general, los equipos en este año se encontraban enfocados a la resolución de los comportamientos individuales de los agentes, partes que tienen que ver mucho más con la forma en que cada agente se posiciona en el entorno y como actúa que en avances en cuanto a coordinación y cooperación así como comportamientos complejos a pesar de que varios equipos mencionan que su participación en esta competición inicia algunos años atrás.

Aún así, dentro de los participantes existieron tres que llamaron mi atención los cuales son:

Arian Robocup 2003 – Debido a que mencionan la posibilidad de introducir alguna forma en la que puedan predecir la forma en que el equipo contrario actuará, la explicación se basa más en lo que quieren lograr que en algo que hayan logrado implementar en el momento.
Brainstormers 2003 - Este equipo emplea una localización dentro del terreno de juego de forma similar a la que empleamos actualmente para las pruebas de los TecRams2D, sin embargo mencionan que debieron de utilizar algoritmos para reducir el ruido captado por los agentes y que es enviado por el servidor.
Iranians 2003 – Mientras que la mayoría de los otros equipos se enfocaban a las acciones básicas de los agentes, este por lo contrario plantea utilizar algoritmos genéticos como base para el desempeño de un nivel de cooperación de los agentes con un nivel con mayor grado de complejidad y ambición para lograr la interacción entre los agentes.

miércoles, 3 de febrero de 2010

Fedora 12

Se optó por cambiar de sistema operativo a uno que se ha encontrado que resulta ser ampliamente soportado por el software de RoboCup y Python Robotics. Sin embargo aun asi se encontrarón problemas debido a que es la última versión del sistema operativo y no todo ha sido actualizado para el mismo por lo que se debieron cambiar algunas partes para que funcionara.

Detalles:

La instalación del cliente de RoboCup se realizó sin problemas excepto al intentar emplear un driver de la tarjeta de video distinto al de default del sistema debido a que deja de reconocer la versión de OpenGL soportada.

Se cambio el repositorio de Python Robotics para que se descargue el software como si fuese la versión 11 del sistema operativo debido a que la versión 12 todavía no se encuentra soportada o al menos en su sitio.

Primera Versión de Hipótesis

Aunque existen modelos que toman decisiones sobre las estrategias colaborativas en los sistemas multi agentes tomando en cuenta su entorno, se pretende crear un sistema que tenga un libro de jugadas (basado en CBR) que tenga ciertas jugadas predefinidas pero que a su vez asocie no solo las estrategias del equipo sino del rival al mismo y pueda de cierta forma predecir su comportamiento tal que el desempeño del equipo mejore y sea capaz de obtener mejores resultados reflejados en los datos del partido.

Intuitive Plan Construction and Adaptive Plan Selection

Hasta este momento y después de haber leído los artículos anteriores incluyendo las secciones de la tesis de Myriam que hablan sobre CBR (Case Based Reasoning) encuentro este artículo como el más apegado a las necesidades de implementación que han ido surgiendo conforme al desarrollo de estos documentos ya que de forma clara explican el método empleado para llevar a cabo algo como lo intentado por Myriam en el ambiente de simulación de RoboCup.

Este documento se enfoca a dos áreas cruciales dentro de las estrategias colaborativas, una es la estructura y definición de planes (estrategias) que se emplearán a lo largo del desarrollo del partido en este caso y la otra es la elección de dicha estrategia que resulta tener la misma importancia que la definición.

De manera muy similar al CBR de Myriam se plantea el uso de una especie de libro de jugadas parecido a lo que los entrenadores emplean en el fútbol humano y en el cual se incluyen diversas jugadas que son descritas por las posiciones de los jugadores y el balón. Este libro de jugadas es definido previo a los partidos para que se cuente con el mismo en el desarrollo del juego.

La definición de las jugadas la realizaron mediante el software de un equipo de RoboCup de robots llamado b-smart en el cual se define la estructura de cada jugada sin necesidad de comandos complejos lo cual muestran que facilitó el desarrollo de su implementación.

Cada jugada fue dividida en pasos que contenían condiciones y acciones que debían cumplir los jugadores para que sean llevadas a cabo, de lo contrario se encontrarían como jugadas no realizables y en la elección de las mismas se descartarían en el momento.

La selección del plan a realizar se debe llevar a cabo en un tiempo razonable (aproximado al tiempo real) por lo que considerar todos los casos definidos en el libro de jugadas es demasiado costoso, por lo tanto decidieron acotar las jugadas que pueden ser elegidas dividiéndolas en dos subconjuntos teniendo así jugadas posiblemente aplicables y con mayor relevancia las jugadas aplicables. Estos subconjuntos son creados en base a la posición del balón y por medio de la realización de un backtracking especial que dicta que jugadas son aplicables y cuáles no.

Al momento de elegir la jugada pueden o no participar expertos en la evaluación de la misma. Ellos determinan la probabilidad de éxito de cada jugada y se arma un árbol de decisión sobre el cual como normalmente se debe comportar se emplean las ramas que tienen una probabilidad más alta de éxito.

Stoye, K., & Elfers, C. (2008). Intuitive Plan Construction and Adaptive Plan Selection. En RoboCup 2007: Robot Soccer World Cup XI (págs. 278-285). Berlin: Springer.

Pareto-Optimal Offensive Player Positioning in Simulated Soccer

Este artículo muestra la forma en que los autores encontraron una forma de colocar a los jugadores ofensivos dentro del simulador de RoboCup basándose en acercamientos previos de otros autores y tomando en cuenta cuestiones importantes como lo es el tiempo que se tiene para llevar a cabo el posicionamiento.

Se definió una fórmula que toma en cuenta los factores principales del entorno, incluyendo agentes propios y rivales, para llevar a cabo un análisis de las posibles posiciones que el jugador puede adoptar y después de asignarle un valor a cada posibilidad se lleva a cabo la decisión sobre cuál es la más factible.

El punto central para lograr el posicionamiento de los jugadores a mi parecer se basa en la capacidad de los mismos de llevar a cabo predicciones sobre el comportamiento de los tres factores determinantes de la situación del entorno, esto es el balón, el resto del equipo y los jugadores foráneos. Los primeros dos factores pueden ser calculados de una forma sencilla pues contienen datos conocidos, sin embargo para el tercer caso se requiere llevar a cabo un análisis de las acciones que ha tomado el equipo contrario con tal de poder llevar a cabo una predicción precisa.

Para lograr llevar a cabo lo anterior se requiere que todo el proceso no dure más de una cantidad dada de tiempo puesto que al sobrepasar dicha cantidad sería inútil el resultado puesto que posiblemente el ambiente haya cambiado o se haya enviado el pase a la zona sin que el jugador se encuentre ahí.

Otra parte medular del sistema es la comunicación que debe existir entre los pasadores y los receptores debido a que de esta forma pueden coordinarse de una manera más precisa sin contar que también se tiene una visión más amplia del entorno que los rodea.

También se menciona que es de suma relevancia no descartar que el rival es capaz de llevar a cabo estas acciones y que podría en cierto momento anticipar las jugadas y movimientos del equipo por lo cual se requeriría una forma de actuar respecto a ello aunque queda fuera del alcance del artículo.

Kyrylov, V., & Razykov, S. (2008). Pareto-Optimal Offensive Player Positioning in Simulated Soccer. En RoboCup 2007: Robot Soccer World Cup XI (págs. 228-237). Berlin: Springer.

Cooperative/Competitive Behavior Acquisition Based on State Value Estimation of Others

Este artículo aunque enfocado a las competencias de RoboCup con robots reales y no simulados provee de elementos que pueden ser útiles en la medida que se vaya realizando la tesis debido a que hace mención sobre elementos interesantes empleados en su sistema de aprendizaje.

Lo más notable y relevante para mi situación encontrado en este artículo es la división de su modelo en varios módulos que permiten llevar un aprendizaje rápido sobre el ambiente y sobre ello decidir las acciones que deben tomar los robots.

Se separa en 3 módulos la arquitectura:

Acción: Es la capa más baja de toda la arquitectura y se encarga de brindar al robot un aprendizaje por refuerzo sobre las acciones individuales que tiene sobre el campo y cómo influyen a su objetivo. Se le otorgan pesos a las acciones y debe elegir la que mejor resultado le otorgue.
Estimación del estado del resto: Se encarga de deducir mediante la vista el grado en el que el resto del equipo está llegando a su objetivo.
Aprendizaje Cooperativo/Competitivo: Obtiene los datos de los módulos anteriores para crear un estado del espacio sobre el cual se trabaja para la planeación de posibles estrategias.

Sin embargo lo más resaltable es la inclusión de una posible predicción o planeación (dependiendo del tipo de aprendizaje) incluidos en el último módulo lo que representa que es posible y factible el crear sistemas de este tipo en entornos multi agentes.

Noma, K., Takahashi, Y., & Asada, M. (2008). Cooperative/Competitive Behavior Acquisition Based on State Value Estimation of Others. Berlin: Springer.