miércoles, 3 de marzo de 2010

Effective Short-Term Opponent Exploitation in Simplified Poker

En esta lectura se aborda el tema parecido al anterior, el modelado del oponente con pocos datos de entrada para realizar el aprendizaje sobre sus estrategias. En este caso se emplea el póquer como base (una versión simplificada en la que solo se usan las figuras de las cartas J, Q y K).

El hecho de emplear una versión simplificada del póquer en el que solo se incluyen las tres figuras de la baraja inglesa y las opciones de apostar (en este caso las apuestas son de 1 ficha o unidad solamente, no se involucran variables para reducir aún más la complejidad del modelado) o pasar (que en ocasiones puede convertirse en retirarse de la mano como opción) se usa para demostrar que a pesar de ser condiciones simples se involucra un proceso complejo al momento de aprender una estrategia sobe el mismo.

El desarrollo del juego se basa en dos partes, una de aprendizaje y exploración y otra de solo exploración empleando las estrategias aprendidas. A pesar de haber empleado algoritmos para aprendizaje, la convergencia del mismo no llegaba sino hasta haber sido jugadas cincuenta manos con el oponente para poder predecir sus acciones.

Hoehn, B., Southey, F., Holte, R., & Bulitko, V. (2005). Effective Short-Term Opponent Exploitation in Simplified Poker. The Twentieth National Conference on Artificial Intelligence. Pittsburgh, Pennsylvania: AAAI.

No hay comentarios:

Publicar un comentario