我能想到的方式是:

  1. 测量动作之间的时间。
  2. 比较帖子的内容(如果它们彼此之间太相似),或者更好,或者只有发布的链接。
  3. 检查用户活动的一段时间内的分布(如果用户处于活动状态,例如每小时发布一次,则一周,那么我们在这里有超人或机器人)。
  4. 预期的一些特殊活动:就像在Stackoverflow中一样,我希望用户按他们的用户名链接(顶级中间)查看他们的新答案,评论,问题等。
  5. (由Chakrit添加)帖子中的链接数量。
  6. 不是启发式。使用一些异步JS进行用户登录。 (只是使机器人程序员的生活变得更加艰难)。
  7. (由Alekc添加)不是启发式。用户代理值。
  8. 而且,我怎么会忘记Google的方法(威尔·哈顿(Will Hartung)提到)。使用户能够将某人标记为垃圾邮件,足够的垃圾投票意味着这是垃圾邮件用户。 (计算足够的用户,这是这里的工作)。

还有更多想法吗?

有帮助吗?

解决方案

我可能会过度估计机器人创建者的智能,但是对于任何半体面的机器人创建者来说,第6号完全没有用。使用C#浏览器控件来创建您的机器人几乎使6个无用。从我看到的类型的软件中,这是一种非常普遍的方法。

在用户固定上验证我使用的所有博客垃圾邮件也几乎没有用,这似乎是从机器人看来是有效的Web浏览器。

我曾经得到很多博客垃圾邮件。我实际上每天都会删除数百条评论。我使用了recaptcha,现在我可能每月获得1个。

如果您真的尝试做这样的事情。我会尝试做以下操作:

用户开始,没有发布URL的能力。

在分析了有关线程中其他帖子的X帖子数之后,然后让他们访问发布URL。

用户在网站上的活动,帖子质量以及您认为必要的其他因素将是该用户IP的声誉。

然后,基于IP和其他IP的声誉基于同一子网,您可以根据自己的意愿做出其他决定。

那只是想到的第一件事。希望能帮助到你。

其他提示

  • 帖子中的链接数。

我相信我已经在某个地方读过 Akismet 将链接数量作为其主要启发式方法之一。

我的博客上的大多数垃圾邮件评论中包含10多个链接。

说到哪个...您可能想检查一下 Akismet API 本身..他们非常有效。

搜索邮政正文中的垃圾邮件相关关键字怎么样?

不是启发式方法,而是一种有效的方法:您还可以与发布的统计数据保持最新 Stopforumspam 使用他们的 蜜蜂.

我相信,在页面访问之间的时间很普遍。

我需要在我的个人网站中添加评论部分,并想请人们给我他们的电子邮件地址;我会给他们发送“发布评论”链接。

您可能想检查它们是否来自垃圾邮件黑名单IP地址(请参阅 http://www.spamhaus.org/)

另一个答案 这表明使用Akismet检测垃圾邮件,我完全认可。

但是,他们不是街区唯一的球员。

Typepad antispam 它使用与Akismet相同的启发式方法以及相同的API(只是一个不同的URL和API键,呼叫的结构是相同的)。可以肯定地说,他们几乎采用了与Akismet相同的方法。

您可能还想结帐 项目蜜罐. 。据我所知,它可以根据用户的IP地址进行查找,如果它是已知的恶意IP,它将告诉您(收割机或类似的东西)。

最后,您可以检查 Linksleeve 哪个垃圾邮件与声称是另一种方式的垃圾邮件。基本上,它检查了在评论中链接到的链接,并根据链接的要列出来确定。

不要忘记用户可以单击的“报告垃圾邮件”按钮的“报告垃圾邮件”按钮。如果没有其他的话,这会让您作为管理员有机会更新您的规则基础,以了解可能正在滑过的东西。当然,您也可以立即删除有问题的职位和用户。

我对4°点有疑问,无论如何我还会添加用户代理。伪造很容易,但是根据我的经验,大约90%的机器人使用Perl为UA

我相信有某种网络服务可以获得顶级SEO关键字列表,请检查这些关键字的内容。如果内容是为了富裕的关键字,请怀疑它是垃圾邮件。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top