Domanda

Ho una domanda relativa alle funzioni di attivazione appropriate con ambienti che hanno ricompense sia positive che negative.

Nell'apprendimento del rinforzo, la nostra produzione, credo, dovrebbe essere la ricompensa prevista per tutte le possibili azioni. Poiché alcune opzioni hanno una ricompensa negativa, vorremmo un intervallo di output che includa numeri negativi.

Ciò mi porterebbe a credere che le uniche funzioni di attivazione appropriate sarebbero lineari o tanh. Tuttavia, vedo molti documenti RL l'uso di Relu.

Quindi due domande:

Se vuoi avere output negativi e positivi, sei limitato a TANH e Linear?

È una strategia migliore (se possibile) ridimensionare i premi in modo che siano tutti nel dominio positivo (cioè invece di [-1,0,1], [0, 1, 2]) per far sì che il modello possa sfruttare Funzioni di attivazione alternative?

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top