监视器的品牌与普通话

题

让我们说你应该监视器的品牌"一个"网上。什么样的算法可用于分页的关于品牌一个网页包含的一个共同的词?

我想也许Bayes可以工作，但是有其它方法可以做到这个吗？

解决方案

如果它不是一个真正独特的字，那么我建议的下一个方法。

让我们想象一下，我们的关键字就是Java。那么至少有2类：关于编程和有关印尼旅游。我们感兴趣的是第一个。

让我们关于Java小文本（或许从书籍或从维基百科）。然后让我们假设一些阈值（例如，0.7）。然后让我们比较我们与不同的页面（最快方式之一文本使用的经典向量空间模型算法，你可以实现它自己或发现它在谷歌执行）。然后比较与您的门槛结果和过滤疲弱的业绩。

关于使用贝叶斯算法：它不坏的办法海事组织。但是你要“教”你的算法非常小心，因为几个错误输入可以破坏整个工作。

让我解释一下。输入您的贝叶斯算法是文字与你的品牌词。输出是概率[0..1]您的文字是对你的品牌而不是别的东西。在实践中，这种算法经常给你0.2和0.8之间的接近0或接近1的结果，它罕见的回报值。这意味着该算法是小的变化和在100个字的文本1或2个字非常敏感会严重影响的结果。

其他提示

您可能想要的品牌之一，其产品，其主管人员或者其挑战者在你的监控关联。

你要找的期限为概念学习或概念提取。这个词的一个的出现在许多网页，但大多数情况下指的概念的一个作为数量。只有很少是指一个品牌的概念。（另一种常用的例子是SUN作为星体对象太阳，或命名太阳公司）。

我知道阿里Rappoport 对这个话题了大量的研究。实际上，这可以归结为类似 mouviciel的回答，但阿里的研究也是你如何能够自动推断你需要什么相关的词去寻找，以便从一个最品牌区分一个-AS-数。

我已经做了近东西看到了维基百科作为一个巨大的本体(其中每一个超级链接是一个之间的关系源节点和端节点)。

编辑：一个非常粗略的算法，用"Java"的例子：

距离你会用是非常主观的，必须调整了有点相匹配需求。你可能会有麻烦的"核心"的每一页也作为分析HTML将是一个重要的痛苦。

我建议，一个非监督办法的问题：

正如你可以看到牌的具体条款，如ipod支持等都是很容易过滤掉。

一旦你提取的这些你可以创建一个谷歌提醒或类似同等的(如谷歌警报是过于简单化)查询喜欢 "SIP"和"一个" 监测新的文章。

当然给这种做法是无人监督它可能不是非常有效的，但应做的工作。

有一个不同的方法可能是看网页起来谷歌目录，其中有“网络组织按主题进行分类。你可能会使用类别信息的每一页确定它是什么。

许可以下： CC-BY-SA 和归因