是否有任何可靠/部署的方法,算法或工具来通过解析其网页来标记网站类型。

for ex:论坛,博客,新闻网站,新闻,电子通讯等。

我正在寻找一些可以确定的特征(静态规则)。如果没有,那么我希望机器学习模型可能会有所帮助。

建议/想法?

有帮助吗?

解决方案

如果您从机器学习的角度来处理此操作,那么Naive Bayes分类器的工作/收益比可能是最大的。它的版本用于 分类新闻文章。

您将需要一个页面的集合,每个页面都标记为适当的类别。然后,您从每个页面中提取单词或其他相关元素,并将其用作功能

Dr.Dobbs有一个 文章 实施天真的贝叶斯

其他提示

如果您有兴趣说明幼稚的贝叶斯方法(毕竟还有其他机器学习选项),那么我建议以下文档,该文档遵循此主题在“数据挖掘:实用的机器学习工具和技术”中的覆盖范围,作者:维滕和弗兰克:

http://www.coli.uni-sb.de/~crocker/teaching/connectionist/lecture10_4up.pdf

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top