Scrapy 0.14 documentation

本文档包含您需要了解的有关Scrapy的所有信息.

Getting help

遇到麻烦? 我们想提供帮助!

First steps

Scrapy at a glance
了解什么是Scrapy,以及它如何为您提供帮助.
Installation guide
在计算机上安装Scrapy.
Scrapy Tutorial
编写您的第一个Scrapy项目.
Examples
通过玩预制的Scrapy项目了解更多信息.

Basic concepts

Command line tool
了解用于管理Scrapy项目的命令行工具.
Items
定义要抓取的数据.
Spiders
编写规则以爬网您的网站.
XPath Selectors
从网页中提取数据.
Scrapy shell
在交互式环境中测试您的提取代码.
Item Loaders
使用提取的数据填充项目.
Item Pipeline
后处理并存储您抓取的数据.
Feed exports
使用不同的格式和存储输出您的抓取数据.
Link Extractors
方便的类来提取要从页面跟随的链接.

Built-in services

Logging
了解Scrapy提供的简单日志记录功能.
Stats Collection
收集有关您的抓取爬虫的统计信息.
Sending e-mail
发生某些事件时发送电子邮件通知.
Telnet Console
使用内置的Python控制台检查正在运行的搜寻器.
Web Service
使用Web服务监视和控制搜寻器.

Solving specific problems

Frequently Asked Questions
获取最常见问题的答案.
Using Firefox for scraping
了解如何使用Firefox和一些有用的附件进行抓取.
Using Firebug for scraping
了解如何使用Firebug高效抓取.
Debugging memory leaks
了解如何查找并消除搜寻器中的内存泄漏.
Downloading Item Images
下载与您抓取的物品关联的静态图像.
Ubuntu packages
在Ubuntu上轻松安装最新的Scrapy软件包
Scrapy Service (scrapyd)
在生产中部署Scrapy项目.
Jobs: pausing and resuming crawls
了解如何暂停和恢复大型蜘蛛的爬网.

Extending Scrapy

Architecture overview
了解Scrapy架构.
Downloader Middleware
自定义如何请求和下载页面.
Spider Middleware
自定义蜘蛛的输入和输出.
Extensions
使用信号和Scrapy API添加任何自定义功能

Reference

Command line tool
了解有关命令行工具的信息,并查看所有可用命令 .
Requests and Responses
了解用于表示HTTP请求和响应的类.
Settings
了解如何配置Scrapy并查看所有可用设置 .
Signals
查看所有可用信号以及如何使用它们.
Exceptions
查看所有可用的异常及其含义.
Item Exporters
快速将您抓取的项目导出到文件(XML,CSV等)中.

All the rest

Contributing to Scrapy
了解如何为Scrapy项目做出贡献.
Versioning and API Stability
了解Scrapy版本控制和API稳定性.
Experimental features
了解前沿功能.