Stop-Wort Beseitigung und stemmer in Python
-
28-09-2019 - |
Frage
Ich habe ein etwas großes Dokument und wollen Stop-Wort Beseitigung und ergeben auf die Worte dieses Dokument mit Python zu tun. Hat jemand eine der Regal-Paket für diese wissen? Wenn nicht ein Code, der schnell genug für große Dokumente ist, ist auch willkommen. Dank
Lösung
NLTK unterstützt diese.
Andere Tipps
Wenn Sie aus irgendeinem Grund wollen NLTK nicht verwenden, können Sie PyStemmer versuchen. Für Stoppwörter nur eine Liste herunterladen (google it) und filtern sie aus.
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow