Javaの何千ものテキストドキュメントをクラスターします

質問

テキストドキュメントをクラスタリングする効率的な方法はありますか？私はK-meanについて考えましたが、それは時間がかかりすぎるようです。誰かが私に効率的な方法を提供できますか？

解決

K-meansが実際に仕事をしていて、単に遅いように見える場合、それをより速くしようとしてみませんか？私が使用する方法はですランダムポース.

通常、基本的なアルゴリズムを変更せずに、コードでは問題があるとは考えていなかったのは、スピードアップの余地がたくさんある場合です。これが例です。

他のヒント

クラスタリングアルゴリズムデータセットに依存しますが、ドキュメントをクラスター化するためにJavaにアルゴリズムを書きたいですか？、使用できますウェカホイールを再発明し、データセットで別のクラスタリングアルゴリズムを試す代わりに。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow