Q Problema di riproduzione dell'esperienza della rete neurale nell'apprendimento

https://datascience.stackexchange.com/questions/27347

31-10-2019
|

Domanda

Attualmente sto cercando di creare una rete neurale per l'apprendimento del tris per introdurmi all'apprendimento per rinforzo, tuttavia non ha funzionato, quindi ho deciso di provare un progetto più semplice che richiede una rete da addestrare contro dati statici piuttosto che un'altra rete neurale.Questo mi ha portato a seguire le linee guida di questo sito Web: http://outlace.com/rlpart3.html

tuttavia, dopo averlo programmato, la versione semplice funziona la metà del tempo, questa è la versione senza esperienza di riproduzione.in alcune esecuzioni del programma il gioco verrà eseguito correttamente, in altre si muoverà semplicemente avanti e indietro durante le esecuzioni di prova.Quando si tenta di implementare il replay dell'esperienza per completare la versione più difficile.il programma si metterà costantemente in un ciclo di avanti e indietro durante i test

ho un limite di 100 batch in cui un batch è ciò su cui viene addestrata la rete neurale.Mi chiedo se questo sia un importo adeguato o se potrebbero esserci problemi comuni con l'implementazione della riproduzione dell'esperienza che potrei aver fatto.

La mia attuale prospettiva su cosa sia l'esperienza di riproduzione:1.Esegui il programma 2.Dopo ogni turno, i dati utilizzati per addestrare la rete, vengono salvati in un lotto 3.quando hai raggiunto un numero x (100) di lotti, scegline uno e allenati su di esso.4.sovrascrivere il batch più vecchio con i nuovi batch in arrivo.

Se qualcuno potesse farmi sapere dove ho sbagliato, o se c'è qualche feedback sulla riproduzione dell'esperienza o sulla qualità della domanda, fatemelo sapere e ve ne sarei molto grato.

MODIFICARE:Un'altra domanda che ho in termini di addestramento di una rete neurale contro una rete neurale è: addestrarla contro una rete completamente separata che si addestra da sola, o addestrarla contro una versione precedente di se stessa.E quando lo addestri contro l'altra rete neurale, abbassi l'epsilon avido per fare in modo che la rete neurale avversaria non utilizzi mosse casuali.

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange