Pregunta

Tengo una pregunta sobre las funciones de activación apropiadas con entornos que tienen recompensas positivas y negativas.

En el aprendizaje de refuerzo, nuestra producción, creo, debería ser la recompensa esperada por todas las acciones posibles. Dado que algunas opciones tienen una recompensa negativa, queremos un rango de salida que incluya números negativos.

Esto me llevaría a creer que las únicas funciones de activación apropiadas serían lineales o tanh. Sin embargo, veo muchos documentos de RL el uso de Relu.

Entonces dos preguntas:

Si desea tener salidas negativas y positivas, ¿está limitado a solo tanh y lineal?

¿Es una mejor estrategia (si es posible) escalar recompensas para que todos estén en el dominio positivo (es decir, en lugar de [-1,0,1], [0, 1, 2]) para que el modelo aproveche ¿Funciones de activación alternativas?

No hay solución correcta

Licenciado bajo: CC-BY-SA con atribución
scroll top