Método en el que un agente aprende mediante prueba y error, recibiendo recompensas y castigos, con el objetivo de maximizar la recompensa total.
Método en el que un agente aprende mediante prueba y error, recibiendo recompensas y castigos, con el objetivo de maximizar la recompensa total.