-
09-10-2019 - |
题
是否有任何可靠/部署的方法,算法或工具来通过解析其网页来标记网站类型。
for ex:论坛,博客,新闻网站,新闻,电子通讯等。
我正在寻找一些可以确定的特征(静态规则)。如果没有,那么我希望机器学习模型可能会有所帮助。
建议/想法?
其他提示
如果您有兴趣说明幼稚的贝叶斯方法(毕竟还有其他机器学习选项),那么我建议以下文档,该文档遵循此主题在“数据挖掘:实用的机器学习工具和技术”中的覆盖范围,作者:维滕和弗兰克:
http://www.coli.uni-sb.de/~crocker/teaching/connectionist/lecture10_4up.pdf
不隶属于 StackOverflow