启发式方法可以发现垃圾邮件发送者/机器人（在论坛，博客等中）

题

我能想到的方式是：

测量动作之间的时间。
比较帖子的内容（如果它们彼此之间太相似），或者更好，或者只有发布的链接。
检查用户活动的一段时间内的分布（如果用户处于活动状态，例如每小时发布一次，则一周，那么我们在这里有超人或机器人）。
预期的一些特殊活动：就像在Stackoverflow中一样，我希望用户按他们的用户名链接（顶级中间）查看他们的新答案，评论，问题等。
（由Chakrit添加）帖子中的链接数量。
不是启发式。使用一些异步JS进行用户登录。（只是使机器人程序员的生活变得更加艰难）。
（由Alekc添加）不是启发式。用户代理值。
而且，我怎么会忘记Google的方法（威尔·哈顿（Will Hartung）提到）。使用户能够将某人标记为垃圾邮件，足够的垃圾投票意味着这是垃圾邮件用户。（计算足够的用户，这是这里的工作）。

还有更多想法吗？

解决方案

我可能会过度估计机器人创建者的智能，但是对于任何半体面的机器人创建者来说，第6号完全没有用。使用C＃浏览器控件来创建您的机器人几乎使6个无用。从我看到的类型的软件中，这是一种非常普遍的方法。

在用户固定上验证我使用的所有博客垃圾邮件也几乎没有用，这似乎是从机器人看来是有效的Web浏览器。

我曾经得到很多博客垃圾邮件。我实际上每天都会删除数百条评论。我使用了recaptcha，现在我可能每月获得1个。

如果您真的尝试做这样的事情。我会尝试做以下操作：

用户开始，没有发布URL的能力。

在分析了有关线程中其他帖子的X帖子数之后，然后让他们访问发布URL。

用户在网站上的活动，帖子质量以及您认为必要的其他因素将是该用户IP的声誉。

然后，基于IP和其他IP的声誉基于同一子网，您可以根据自己的意愿做出其他决定。

那只是想到的第一件事。希望能帮助到你。

其他提示

我相信我已经在某个地方读过 Akismet 将链接数量作为其主要启发式方法之一。

我的博客上的大多数垃圾邮件评论中包含10多个链接。

说到哪个...您可能想检查一下 Akismet API 本身..他们非常有效。

搜索邮政正文中的垃圾邮件相关关键字怎么样？

不是启发式方法，而是一种有效的方法：您还可以与发布的统计数据保持最新 Stopforumspam 使用他们的蜜蜂.

我相信，在页面访问之间的时间很普遍。

我需要在我的个人网站中添加评论部分，并想请人们给我他们的电子邮件地址；我会给他们发送“发布评论”链接。

您可能想检查它们是否来自垃圾邮件黑名单IP地址（请参阅 http://www.spamhaus.org/)

有另一个答案这表明使用Akismet检测垃圾邮件，我完全认可。

但是，他们不是街区唯一的球员。

有 Typepad antispam 它使用与Akismet相同的启发式方法以及相同的API（只是一个不同的URL和API键，呼叫的结构是相同的）。可以肯定地说，他们几乎采用了与Akismet相同的方法。

您可能还想结帐项目蜜罐. 。据我所知，它可以根据用户的IP地址进行查找，如果它是已知的恶意IP，它将告诉您（收割机或类似的东西）。

最后，您可以检查 Linksleeve 哪个垃圾邮件与声称是另一种方式的垃圾邮件。基本上，它检查了在评论中链接到的链接，并根据链接的要列出来确定。

不要忘记用户可以单击的“报告垃圾邮件”按钮的“报告垃圾邮件”按钮。如果没有其他的话，这会让您作为管理员有机会更新您的规则基础，以了解可能正在滑过的东西。当然，您也可以立即删除有问题的职位和用户。

我对4°点有疑问，无论如何我还会添加用户代理。伪造很容易，但是根据我的经验，大约90％的机器人使用Perl为UA

我相信有某种网络服务可以获得顶级SEO关键字列表，请检查这些关键字的内容。如果内容是为了富裕的关键字，请怀疑它是垃圾邮件。

许可以下： CC-BY-SA 和归因