Question

J'ai un document assez grand et que vous voulez faire éliminer stop-mot et découlant sur les mots de ce document avec Python. Est-ce que quelqu'un sait un de l'emballage de conservation pour ces? Dans le cas contraire un code qui est assez rapide pour les documents volumineux est également la bienvenue. Merci

Était-ce utile?

La solution

NLTK supporte.

Autres conseils

Si pour une raison quelconque, vous ne voulez pas utiliser NLTK, vous pouvez essayer PyStemmer. Pour les mots d'arrêt il suffit de télécharger une liste (google) et les filtrer.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top