Introducción al aprendizaje por refuerzo¶
Este tipo de aprendizaje podríamos considerarlo una especie de aprendizaje supervisado, en el sentido de que tenemos que decirle lo buena o mala que es la respuesta que da, pero en este caso el sistema se retroalimenta con algún tipo de recompensa. Cuanto mayor sea la recompensa, mejor es el sistema desarrollado.
Se pueden aplicar para aprender a jugar a videojuegos, por ejemplo, adaptando su comportamiento en base a la recompensa obtenida en cada partida que juegan. En aquellas estrategias que otorgan pocos puntos, o que hacen que termine demasiado rápido, la recompensa será nula o muy pobre. Por contra, en aquellas partidas donde se obtengan más puntos o se llegue más lejos en el juego, se tendrá una mayor recompensa.
Existen diferentes estrategias basadas en el aprendizaje por refuerzo, y veremos algunas de ellas en siguientes documentos, como el muestreo de Thompson, el algoritmo de Q-learning o los algoritmos genéticos.