文件分类的决策树

题

嗨，我想知道可以使用决策树进行文档分类，如果是，那么数据表示应该如何？我知道R包的使用派对决策树。

解决方案

一种方法是拥有一个巨大的矩阵，每行都是文档，每列都是一个单词。单元格中的值是该文档中单词显示的次数。

然后，如果您要处理“监督学习”案例，则应该为分类器提供另一列，从那里您可以使用诸如“ rpart”（从rpart软件包）之类的命令来创建分类树。该命令将以与线性模型（LM）相似的方式输入rpart的公式。

如果需要，您也可以尝试将单词首先分组为“单词组”，然后将每一列属于另一组单词，并指示文档中有多少个单词属于该组。为此，我会看看“ TM”包。（如果您最终会做某事，请考虑在这里发布有关它的发布，以便我们可以从中学习）

最好，塔尔

其他提示

本文对不同的文本分类技术及其准确性进行了调查。简而言之，您可以将文本分类为决策树，但是还有其他算法要好得多。

Sebastiani，F。（2002）。自动文本分类中的机器学习。 ACM计算调查，CS.IR/0110053V1。可从： http://arxiv.org/abs/cs.ir/0110053v1.

我怀疑 - 至少按照通常的定义，决策树使用单个标准来指定子分支。在对文档进行分类时，您几乎不能将任何内容都基于单个标准 - 您需要多个标准，即使那样，您也不会得到明确的树木般的决定，但是“这比这比这更接近了另一件事“结果。

许可以下： CC-BY-SA 和归因