Aggiornamento di Google News Word2Vec Word Incorporaggio?
-
01-11-2019 - |
Domanda
È possibile aggiornare l'incorporamento di Google News Word con un set di dati di testo personalizzato (dati di testo relativi a un determinato dominio)?
Google News Word2vec - Incorporamento delle parole Chiaramente ci aiuta a venire con un solido insieme di vettori di parole, ma purtroppo non può essere utilizzato per la maggior parte del business case. Per esempio:
embeddings.most_similar('python')
[('pythons', 0.6688377857208252),
('Burmese_python', 0.6680365204811096),
('snake', 0.6606293320655823),
('crocodile', 0.6591362953186035),
('boa_constrictor', 0.6443518996238708),
('alligator', 0.6421656608581543),
('reptile', 0.6387744545936584),
('albino_python', 0.6158879995346069),
('croc', 0.6083582639694214),
('lizard', 0.601341724395752)]
Questo output non è chiaramente quello che vogliamo. Potremmo creare un modello Word2Vec personalizzato utilizzando la libreria Gensim per questo business case, ma non sarebbe esaustivo (il vocabolario sarà relativamente inferiore). Qual è la migliore pratica in questi casi? È possibile aggiornare i pesi di un modello di incorporamento di parole pretratti in modo che anche la parola incorporamento apprenda dai dati di testo del dominio?
Nessuna soluzione corretta