有关我一直在使用Scrapy的网页抓取项目,我已经开始在过去的一个月。

本项目涉及拉低所有网页的完整文档内容在那些从主页到达一个域名。写这篇使用Scrapy是很容易的,但它只是运行速度太慢。在2-3天,我只能拉下100,000页。

我已经意识到我最初的概念,Scrapy并不意味着这种类型的抓取是显露本身。

我已经开始注重我的目光投向了Nutch的和 Methabot 在更好的性能的希望。唯一的数据,我抓取期间需要存储是网页的全部内容,并且优选所有的链接的网页上(但即使可在后处理中进行)。

我正在寻找一个履带式是快速并采用许多并行请求。

有帮助吗?

解决方案

这是我的服务器的故障不会Scrapy。服务器可能没有那么快,只要你想,也可以是它(或网站管理员)检测爬行和极限速度此连接/饼干。 你使用代理?这可能会减慢爬了。 这可能是Scrapy智慧,如果你会爬过于密集,你可能会得到这个服务器上的禁令。对于我的C ++ 手写履带我人为设定每秒极限1个请求。但是,这速度足够1个螺纹(1个REQ * 60秒*60分钟* 24小时的= 86400 REQ /天)。如果你有兴趣你可能写电子邮件给whalebot.helmsman {} AT gmail.com。

其他提示

Scrapy允许您确定的并发请求的数目和在其设置请求之间的延迟

你知道哪里有瓶颈?作为whalebot.helmsman指出,限制可能无法在Scrapy本身,而是在服务器上你们抓取。

您应该通过找出的瓶颈是否为网络或CPU启动。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top