Scrapy 1.6 documentation

本文档包含您需要了解的有关Scrapy的所有信息.

Getting help

遇到麻烦? 我们想提供帮助!

First steps

Scrapy at a glance
了解什么是Scrapy,以及它如何为您提供帮助.
Installation guide
在计算机上安装Scrapy.
Scrapy Tutorial
编写您的第一个Scrapy项目.
Examples
通过玩预制的Scrapy项目了解更多信息.

Basic concepts

Command line tool
了解用于管理Scrapy项目的命令行工具.
Spiders
编写规则以爬网您的网站.
Selectors
使用XPath从网页提取数据.
Scrapy shell
在交互式环境中测试您的提取代码.
Items
定义要抓取的数据.
Item Loaders
使用提取的数据填充项目.
Item Pipeline
后处理并存储您抓取的数据.
Feed exports
使用不同的格式和存储输出您的抓取数据.
Requests and Responses
了解用于表示HTTP请求和响应的类.
Link Extractors
方便的类来提取要从页面跟随的链接.
Settings
了解如何配置Scrapy并查看所有可用设置 .
Exceptions
查看所有可用的异常及其含义.

Built-in services

Logging
了解如何在Scrapy上使用Python的内置日志记录.
Stats Collection
收集有关您的抓取爬虫的统计信息.
Sending e-mail
发生某些事件时发送电子邮件通知.
Telnet Console
使用内置的Python控制台检查正在运行的搜寻器.
Web Service
使用Web服务监视和控制搜寻器.

Solving specific problems

Frequently Asked Questions
获取最常见问题的答案.
Debugging Spiders
了解如何调试易碎蜘蛛的常见问题.
Spiders Contracts
了解如何使用合同测试蜘蛛.
Common Practices
熟悉一些Scrapy常见做法.
Broad Crawls
Tune Scrapy用于并行爬网许多域.
Using your browser’s Developer Tools for scraping
了解如何使用浏览器的开发人员工具进行抓取.
Debugging memory leaks
了解如何查找并消除搜寻器中的内存泄漏.
Downloading and processing files and images
下载与您抓取的物品关联的文件和/或图像.
Deploying Spiders
部署Scrapy Spider,并在远程服务器上运行它们.
AutoThrottle extension
根据负载动态调整爬网速率.
Benchmarking
检查Scrapy如何在您的硬件上执行.
Jobs: pausing and resuming crawls
了解如何暂停和恢复大型蜘蛛的爬网.

Extending Scrapy

Architecture overview
了解Scrapy架构.
Downloader Middleware
自定义如何请求和下载页面.
Spider Middleware
自定义蜘蛛的输入和输出.
Extensions
使用您的自定义功能扩展Scrapy
Core API
在扩展程序和中间件上使用它来扩展Scrapy功能
Signals
查看所有可用信号以及如何使用它们.
Item Exporters
快速将您抓取的项目导出到文件(XML,CSV等)中.

All the rest

Release notes
查看最近的Scrapy版本中发生了什么变化.
Contributing to Scrapy
了解如何为Scrapy项目做出贡献.
Versioning and API Stability
了解Scrapy版本控制和API稳定性.