Frage

Ich habe ein etwas großes Dokument und wollen Stop-Wort Beseitigung und ergeben auf die Worte dieses Dokument mit Python zu tun. Hat jemand eine der Regal-Paket für diese wissen? Wenn nicht ein Code, der schnell genug für große Dokumente ist, ist auch willkommen. Dank

War es hilfreich?

Lösung

NLTK unterstützt diese.

Andere Tipps

Wenn Sie aus irgendeinem Grund wollen NLTK nicht verwenden, können Sie PyStemmer versuchen. Für Stoppwörter nur eine Liste herunterladen (google it) und filtern sie aus.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top