Устранение остановки и стеммер в Python
-
28-09-2019 - |
Вопрос
У меня есть несколько больший документ и хочу сделать ликвидацию остановки и вытеснить словами этого документа с Python. Кто-нибудь знает пакет полки для них? Если не код, который достаточно быстро для больших документов, также приветствуется. Спасибо
Решение
NLTK. Поддерживает это.
Другие советы
Если по какой-то причине вы не хотите использовать NLTK, вы можете попробовать Pystemmer. Для остановки слов просто скачайте список (Google IT) и отфильтруйте их.
Не связан с StackOverflow