题
我们实现了一个评级系统的网站上,涉及到一个链接到一个脚本而回。然而,与3/5的网站上,绝大多数的收视率非常甚至跨越1-5的收视率我们开始怀疑,搜索引擎爬虫等被打通。用看起来像这样的网址:
http://www.thesite.com/path/to/the/page/rate?uid=abcdefghijk&value=3
当我们开始我们以下内容添加到我们的robots.txt:
User-agent: *
Disallow: /rate
这是不正确或者Googlebot和其他人根本无视我们的robots.txt?
解决方案
您应该使用POST进行这种改变的东西作为搜索引擎通常不提交表单的动作。此外,这将防止从谁提交表决吨递归下载您的网站(例如用wget的)用户。
根据您的网站,处理投票虽然JavaScript或许是一个解决方案了。
关于您的robots.txt:
它是在根路径 - 即 http://www.thesite.com/robots.txt一> - 如果你的等级系统是在/胡说/速率则需要使用Disallow: /blah/rate
代替Disallow: /rate
的
其他提示
看起来不正确我。你只是禁止访问http://www.thesite.com/rate
(以下它和页面IIRC)。再加上一些爬虫无视robots.txt
!
不如让这个等级在响应POST永远只能改变,而不是一个GET。搜索引擎的从不的使用POST。
User-agent: *
Disallow: /path/to/the/page/rate
您必须使用完整路径。
可能要在这里读了一下: http://www.javascriptkit.com/ HOWTO / robots.shtml
不隶属于 StackOverflow