Scrapy 0.9 documentation

本文档包含您需要了解的有关Scrapy的所有信息.

Getting help

遇到麻烦? 我们想提供帮助!

First steps

Scrapy at a glance
了解什么是Scrapy,以及它如何为您提供帮助.
Installation guide
在计算机上安装Scrapy.
Scrapy Tutorial
编写您的第一个Scrapy项目.

Scraping basics

Items
定义要抓取的数据.
Spiders
编写规则以爬网您的网站.
XPath Selectors
从网页中提取数据.
Scrapy shell
在交互式环境中测试您的提取代码.
Item Loaders
使用提取的数据填充项目.
Item Pipeline
后处理并存储您抓取的数据.

Built-in services

Logging
了解Scrapy提供的简单日志记录功能.
Stats Collection
收集有关您的抓取爬虫的统计信息.
Sending e-mail
发生某些事件时发送电子邮件通知.
Telnet Console
使用内置的Python控制台检查正在运行的搜寻器.
Web Service
使用Web服务监视和控制搜寻器.

Solving specific problems

Frequently Asked Questions
获取最常见问题的答案.
Using Firefox for scraping
了解如何使用Firefox和一些有用的附件进行抓取.
Using Firebug for scraping
了解如何使用Firebug高效抓取.
Debugging memory leaks
了解如何查找并消除搜寻器中的内存泄漏.
Downloading Item Images
下载与您抓取的物品关联的静态图像.

Extending Scrapy

Architecture overview
了解Scrapy架构.
Downloader Middleware
自定义如何请求和下载页面.
Spider Middleware
自定义蜘蛛的输入和输出.
Extensions
使用信号和Scrapy API添加任何自定义功能

Reference

scrapy-ctl.py
了解用于控制Scrapy项目的命令.
Requests and Responses
了解用于表示HTTP请求和响应的类.
Settings
了解如何配置Scrapy并查看所有可用设置 .
Signals
查看所有可用信号以及如何使用它们.
Exceptions
查看所有可用的异常及其含义.
Item Exporters
快速将您抓取的项目导出到文件(XML,CSV等)中.

All the rest

Contributing to Scrapy
了解如何为Scrapy项目做出贡献.
Versioning and API Stability
了解Scrapy版本控制和API稳定性.
Experimental features
了解前沿功能.