Domanda

È possibile aggiornare l'incorporamento di Google News Word con un set di dati di testo personalizzato (dati di testo relativi a un determinato dominio)?

Google News Word2vec - Incorporamento delle parole Chiaramente ci aiuta a venire con un solido insieme di vettori di parole, ma purtroppo non può essere utilizzato per la maggior parte del business case. Per esempio:

embeddings.most_similar('python')

[('pythons', 0.6688377857208252),
 ('Burmese_python', 0.6680365204811096),
 ('snake', 0.6606293320655823),
 ('crocodile', 0.6591362953186035),
 ('boa_constrictor', 0.6443518996238708),
 ('alligator', 0.6421656608581543),
 ('reptile', 0.6387744545936584),
 ('albino_python', 0.6158879995346069),
 ('croc', 0.6083582639694214),
 ('lizard', 0.601341724395752)]

Questo output non è chiaramente quello che vogliamo. Potremmo creare un modello Word2Vec personalizzato utilizzando la libreria Gensim per questo business case, ma non sarebbe esaustivo (il vocabolario sarà relativamente inferiore). Qual è la migliore pratica in questi casi? È possibile aggiornare i pesi di un modello di incorporamento di parole pretratti in modo che anche la parola incorporamento apprenda dai dati di testo del dominio?

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top