嗨,我想知道可以使用决策树进行文档分类,如果是,那么数据表示应该如何?我知道R包的使用 派对 决策树。

有帮助吗?

解决方案

一种方法是拥有一个巨大的矩阵,每行都是文档,每列都是一个单词。单元格中的值是该文档中单词显示的次数。

然后,如果您要处理“监督学习”案例,则应该为分类器提供另一列,从那里您可以使用诸如“ rpart”(从rpart软件包)之类的命令来创建分类树。该命令将以与线性模型(LM)相似的方式输入rpart的公式。

如果需要,您也可以尝试将单词首先分组为“单词组”,然后将每一列属于另一组单词,并指示文档中有多少个单词属于该组。为此,我会看看“ TM”包。 (如果您最终会做某事,请考虑在这里发布有关它的发布,以便我们可以从中学习)

最好,塔尔

其他提示

本文对不同的文本分类技术及其准确性进行了调查。简而言之,您可以将文本分类为决策树,但是还有其他算法要好得多。

Sebastiani,F。(2002)。自动文本分类中的机器学习。 ACM计算调查,CS.IR/0110053V1。可从: http://arxiv.org/abs/cs.ir/0110053v1.

我怀疑 - 至少按照通常的定义,决策树使用单个标准来指定子分支。在对文档进行分类时,您几乎不能将任何内容都基于单个标准 - 您需要多个标准,即使那样,您也不会得到明确的树木般的决定,但是“这比这比这更接近了另一件事“结果。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top