Neural Network Q Learning for Tic Tac Toe - Come usare la soglia
-
31-10-2019 - |
Domanda
Attualmente sto programmando AQ Learning Neural Network che non funziona. In precedenza ho fatto una domanda sugli input e l'ho risolto. La mia attuale idea sul perché il programma non funziona ha a che fare con il valore di soglia. Questa è una rete neurale - Q Apprendimento della variabile specifica.
Fondamentalmente la baraglia è un valore compreso tra 0 e 1, si crea un numero casuale tra 0 e 1, se questo numero casuale è maggiore della soglia, quindi scegli una scelta completamente casuale, altrimenti la rete neurale sceglie trovando il più grande Q Valore.
La mia domanda è che con questo valore di soglia, attualmente lo sto implementando a partire da quasi 0, quindi aumentando linearmente fino a quando non raggiunge 1 prima che il programma ha raggiunto l'iterazione finale. È corretto?
Il motivo per cui sospetto che ciò non sia corretto è che quando si tracciano un grafico di errore dall'addestramento della rete neurale, il programma non non impara affatto, ma quando la soglia raggiunge quasi 1, inizia a imparare molto velocemente e se si esegue più iterazioni dopo Raggiunge 1, tutti i set di giochi nella memoria del replay diventano lo stesso e l'errore è fondamentalmente 0 dalla loro in onda.
Qualsiasi feedback è molto apprezzato e se questa domanda non è chiara in ogni caso fammelo sapere e cercherò di risolverlo. Grazie a chiunque sia d'aiuto.
Nessuna soluzione corretta