从网页分类网站类型

https://stackoverflow.com/questions/4649625

09-10-2019
|

题

是否有任何可靠/部署的方法，算法或工具来通过解析其网页来标记网站类型。

for ex：论坛，博客，新闻网站，新闻，电子通讯等。

我正在寻找一些可以确定的特征（静态规则）。如果没有，那么我希望机器学习模型可能会有所帮助。

建议/想法？

解决方案

如果您从机器学习的角度来处理此操作，那么Naive Bayes分类器的工作/收益比可能是最大的。它的版本用于簸分类新闻文章。

您将需要一个页面的集合，每个页面都标记为适当的类别。然后，您从每个页面中提取单词或其他相关元素，并将其用作功能

Dr.Dobbs有一个文章实施天真的贝叶斯

其他提示

如果您有兴趣说明幼稚的贝叶斯方法（毕竟还有其他机器学习选项），那么我建议以下文档，该文档遵循此主题在“数据挖掘：实用的机器学习工具和技术”中的覆盖范围，作者：维滕和弗兰克：

http://www.coli.uni-sb.de/~crocker/teaching/connectionist/lecture10_4up.pdf

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow