Вопрос

У меня есть несколько больший документ и хочу сделать ликвидацию остановки и вытеснить словами этого документа с Python. Кто-нибудь знает пакет полки для них? Если не код, который достаточно быстро для больших документов, также приветствуется. Спасибо

Это было полезно?

Решение

NLTK. Поддерживает это.

Другие советы

Если по какой-то причине вы не хотите использовать NLTK, вы можете попробовать Pystemmer. Для остановки слов просто скачайте список (Google IT) и отфильтруйте их.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top