Deploying Spiders

本节介绍了部署Scrapy蜘蛛以使其定期运行时所具有的不同选项. 在(早期)开发阶段,在本地计算机上运行Scrapy蜘蛛非常方便,但是当您需要执行长时间运行的蜘蛛或移动蜘蛛以连续进行生产时,就没有那么多了. 这就是部署Scrapy Spider的解决方案的地方.

部署Scrapy蜘蛛的流行选择是:

Deploying to a Scrapyd Server

Scrapyd是运行Scrapy Spider的开源应用程序. 它提供了带有HTTP API的服务器,该服务器能够运行和监视Scrapy蜘蛛.

要将Spider部署到Scrapyd,可以使用scrapyd-client软件包提供的scrapyd-deploy工具. 请参阅scrapyd-deploy文档以获取更多信息.

Scrapyd由一些Scrapy开发人员维护.

Deploying to Scrapy Cloud

Scrapy CloudScrapy背后的公司Scrapinghub提供的基于的托管服务.

Scrapy Cloud消除了设置和监视服务器的需要,并提供了一个不错的UI来管理蜘蛛和查看已抓取的项目,日志和统计信息.

要将蜘蛛部署到Scrapy Cloud,可以使用shub命令行工具. 请参阅Scrapy Cloud文档以获取更多信息.

Scrapy Cloud与Scrapyd兼容,并且可以根据需要在scrapy.cfg之间进行切换-就像scrapyd-deploy一样,从scrapy.cfg文件中读取scrapyd-deploy .