En el aprendizaje por refuerzo se busca que una entidad aprenda cuál es la mejor decisión que puede tomar y llevarla a cabo mediante un sistema de recompensa. Debido a que no se indica inicialmente cuál es la mejor opción que se puede tomar, se deben llevar a cabo varias iteraciones de la tarea sobre la que se basa el aprendizaje para poder generar un conocimiento correcto.
Para el modelado de este tipo de aprendizaje se debe tomar en cuenta los estados y las acciones posibles. En los estados se determinan las posibles situaciones que se pueden presentar en el sistema, mientras que en las acciones se describen los actos que el sistema puede llevar a cabo en cada uno de los estados. El fin de lo anterior es encontrar la mejor acción posible para cada una de los estados del sistema y que este reaccione de la forma más conveniente a lo que se le puede presentar.
Una característica de este estilo de aprendizaje es que se considera al problema completo como dirigido a una meta y que se desenvuelve en un entorno incierto (posiblemente cambiante). Además se le considera como un aprendizaje basado en la interacción. Debido a esto también se le considera como aprendizaje no supervisado ya que es impráctico intentar obtener muestras representativas y útiles de las situaciones que se pueden presentar en los ambientes estudiados por este tipo de aprendizaje.
http://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html
No hay comentarios:
Publicar un comentario