Neural Network Q Learning for Tic Tac Toe - Come usare la soglia

https://datascience.stackexchange.com/questions/26600

31-10-2019
|

Domanda

Attualmente sto programmando AQ Learning Neural Network che non funziona. In precedenza ho fatto una domanda sugli input e l'ho risolto. La mia attuale idea sul perché il programma non funziona ha a che fare con il valore di soglia. Questa è una rete neurale - Q Apprendimento della variabile specifica.

Fondamentalmente la baraglia è un valore compreso tra 0 e 1, si crea un numero casuale tra 0 e 1, se questo numero casuale è maggiore della soglia, quindi scegli una scelta completamente casuale, altrimenti la rete neurale sceglie trovando il più grande Q Valore.

La mia domanda è che con questo valore di soglia, attualmente lo sto implementando a partire da quasi 0, quindi aumentando linearmente fino a quando non raggiunge 1 prima che il programma ha raggiunto l'iterazione finale. È corretto?

Il motivo per cui sospetto che ciò non sia corretto è che quando si tracciano un grafico di errore dall'addestramento della rete neurale, il programma non non impara affatto, ma quando la soglia raggiunge quasi 1, inizia a imparare molto velocemente e se si esegue più iterazioni dopo Raggiunge 1, tutti i set di giochi nella memoria del replay diventano lo stesso e l'errore è fondamentalmente 0 dalla loro in onda.

Qualsiasi feedback è molto apprezzato e se questa domanda non è chiara in ogni caso fammelo sapere e cercherò di risolverlo. Grazie a chiunque sia d'aiuto.

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange