Tesis MCC Aram: Random Forests

Las características principales de este tipo de aprendizaje supervisado son:

Se ejecutan de manera eficiente en grandes bases de datos.
Puede manejar miles de variables sin eliminarlas.
Brinda un estimado de cuáles son las variables más importantes en la clasificación.
Genera un estimado del error de generalización mientras se construye el bosque.
Tiene un método efectivo para estimar datos faltantes y logra mantener una buena precisión aunque falte una cantidad considerable de datos.
Tiene métodos para balanceo del error de clases en conjuntos de datos desbalanceados.
Los bosques generados pueden ser guardados para uso futuro en otros datos.
Se computan prototipos que dan información sobre la relación de las variables y la clasificación.
Computa proximidad entre pares de casos que pueden ser usados en clustering, encontrar valores atípicos o para proporcionar vistas de los datos.
Se puede extender a datos sin clasificación y a aprendizaje no supervisado.
Ofrece un método para la detección de la interacción entre variables.

Gracias al uso de este algoritmo se puede encontrar relaciones posibles entre las variables obtenidas de los logs de los juegos y la relevancia que estas tienen para el desarrollo de las jugadas. Además de que para un posible trabajo a futuro se pueden utilizar los bosques guardados para generar jugadas propias en base a los valores de relevancia de las variables y pasarlas por el mismo clasificador para predecir de cierta forma el posible éxito de la jugada.

Tesis MCC Aram

miércoles, 13 de octubre de 2010

Random Forests

No hay comentarios:

Publicar un comentario