让我们说你应该监视器的品牌"一个"网上。什么样的算法可用于分页的关于品牌一个网页包含的一个共同的词?

我想也许Bayes可以工作,但是有其它方法可以做到这个吗?

有帮助吗?

解决方案

如果它不是一个真正独特的字,那么我建议的下一个方法。

让我们想象一下,我们的关键字就是Java。那么至少有2类:关于编程和有关印尼旅游。我们感兴趣的是第一个。

让我们关于Java小文本(或许从书籍或从维基百科)。然后让我们假设一些阈值(例如,0.7)。然后让我们比较我们与不同的页面(最快方式之一文本使用的经典向量空间模型算法,你可以实现它自己或发现它在谷歌执行)。然后比较与您的门槛结果和过滤疲弱的业绩。


关于使用贝叶斯算法:它不坏的办法海事组织。但是你要“教”你的算法非常小心,因为几个错误输入可以破坏整个工作。

让我解释一下。输入您的贝叶斯算法是文字与你的品牌词。输出是概率[0..1]您的文字是对你的品牌而不是别的东西。在实践中,这种算法经常给你0.2和0.8之间的接近0或接近1的结果,它罕见的回报值。这意味着该算法是小的变化和在100个字的文本1或2个字非常敏感会严重影响的结果。

其他提示

您可能想要的品牌之一,其产品,其主管人员或者其挑战者在你的监控关联。

你要找的期限为概念学习概念提取。这个词的一个的出现在许多网页,但大多数情况下指的概念的一个作为数量。只有很少是指一个品牌的概念。 (另一种常用的例子是SUN作为星体对象太阳,或命名太阳公司)。

我知道阿里Rappoport 对这个话题了大量的研究。实际上,这可以归结为类似 mouviciel的回答,但阿里的研究也是你如何能够自动推断你需要什么相关的词去寻找,以便从一个最品牌区分一个-AS-数。

我已经做了近东西看到了维基百科作为一个巨大的本体(其中每一个超级链接是一个之间的关系源节点和端节点)。

编辑:一个非常粗略的算法,用"Java"的例子:

  • 查询"Java"维基百科。在 其他人,这应该给你(在 少)的岛屿和编程 语言。
  • 获得出结点的这些基 网页(从基页超链接)。
  • 你现在有小组相关的话。
  • 计算一个"远距离"的每一设置的网页,并找到最小这些距离。

距离你会用是非常主观的,必须调整了有点相匹配需求。你可能会有麻烦的"核心"的每一页也作为分析HTML将是一个重要的痛苦。

我建议,一个非监督办法的问题:

  1. 获得尽可能多的可能的文件,其中描述了"一个"在正确的背景下,并创建一个资料库。

  2. 找到统计上不可能的短语在这一语料对标准英语料库。

这个网站提供了一个很好的例子
http://sip.s-anand.net/?url=http://en.wikipedia.org/wiki/Apple_Inc.

正如你可以看到牌的具体条款,如ipod支持等都是很容易过滤掉。

一旦你提取的这些你可以创建一个谷歌提醒或类似同等的(如谷歌警报是过于简单化)查询喜欢 "SIP"和"一个" 监测新的文章。

当然给这种做法是无人监督它可能不是非常有效的,但应做的工作。

有一个不同的方法可能是看网页起来谷歌目录,其中有“网络组织按主题进行分类。你可能会使用类别信息的每一页确定它是什么。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top