miércoles, 13 de octubre de 2010

Posibles variables para el aprendizaje supervisado

De los datos obtenidos de los registros de los juegos podemos utilizar las siguientes variables para utilizarlas dentro del aprendizaje supervisado:

  • Posición inicial y final del balón.
  • Posición inicial y final de los jugadores propios/rivales.
  • Cantidad de pases en la jugada.
  • Número de jugadores involucrados en la jugada (jugadores que tuvieron contacto con el balón o que hicieron algún movimiento en la jugada).
  • Duración de la jugada.
  • Número de pases por jugada.
  • Promedio de cercanía a los jugadores rivales respecto al balón.
  • Promedio de distancia recorrida por los jugadores.
Promedio de distancia recorrida por el balón en cada pase.

Random Forests

Las características principales de este tipo de aprendizaje supervisado son:

  • Se ejecutan de manera eficiente en grandes bases de datos.
  • Puede manejar miles de variables sin eliminarlas.
  • Brinda un estimado de cuáles son las variables más importantes en la clasificación.
  • Genera un estimado del error de generalización mientras se construye el bosque.
  • Tiene un método efectivo para estimar datos faltantes y logra mantener una buena precisión aunque falte una cantidad considerable de datos.
  • Tiene métodos para balanceo del error de clases en conjuntos de datos desbalanceados.
  • Los bosques generados pueden ser guardados para uso futuro en otros datos.
  • Se computan prototipos que dan información sobre la relación de las variables y la clasificación.
  • Computa proximidad entre pares de casos que pueden ser usados en clustering, encontrar valores atípicos o para proporcionar vistas de los datos.
  • Se puede extender a datos sin clasificación y a aprendizaje no supervisado.
  • Ofrece un método para la detección de la interacción entre variables.

Gracias al uso de este algoritmo se puede encontrar relaciones posibles entre las variables obtenidas de los logs de los juegos y la relevancia que estas tienen para el desarrollo de las jugadas. Además de que para un posible trabajo a futuro se pueden utilizar los bosques guardados para generar jugadas propias en base a los valores de relevancia de las variables y pasarlas por el mismo clasificador para predecir de cierta forma el posible éxito de la jugada.

Algoritmo de aprendizaje supervisado

Los algoritmos de aprendizaje supervisado son varios y según las pruebas realizadas por Caruana y Niculescu-Mizil (2006) sobre los algoritmos más populares que incluyen SVMs (máquinas de soporte vectorial), redes neuronales, regresión logística, naive bayes, árboles de decisión, etc. Logran concluir a partir de llevar a cabo varias pruebas y con respecto a métricas como lo son precisión, F-Score, ROC Area, punto de equilibrio, error cuadrático y cruce de entropía, el algoritmo que mejor desempeño general obtuvo.

Esta prueba había sido realizada previamente por el Statlog Project a inicios de la década de los 90’s sin embargo desde dicha prueba habían surgido nuevos algoritmos que parecían tener un mejor desempeño. Las pruebas se llevaron a cabo con un conjunto de cinco mil ejemplos y en los casos en los que aplicara, se realizaron pruebas con los algoritmos calibrados y sin calibrar.

Los resultados obtenidos postraron a los Calibrated Boosted Trees seguidos de cerca por los Random Forests. Debido a esta calificación y a las características de los Random Forest he determinado elegirlos como el algoritmo de aprendizaje que utilizaré.

Caruna, R., & Niculescu-Mizil, A. (2006). An empirical comparison of supervised learning algorithms. Proceedings of the 23rd international conference on Machine learning (págs. 161-168). Pittsburgh, Pennsylvania: ACM.

División del terreno de juego

La división del terreno de juego se ha determinado hacer de la siguiente forma a diferencia de la propuesta por el equipo Hanna en 2004 y por Myriam Arias en 2008 con el fin de que el cambio de zonas sea más sensible en las jugadas aunque podría cambiar si las divisiones no son suficientes.