Scrapy 1.0 documentation¶
本文档包含您需要了解的有关Scrapy的所有信息.
Getting help¶
遇到麻烦? 我们想提供帮助!
- 尝试常见问题解答 -它可以回答一些常见问题.
- 寻找特定信息? 试试索引或模块索引 .
- 在scrapy-users邮件列表的档案中搜索信息,或发布问题 .
- 在#scrapy IRC频道中提问.
- 在我们的问题跟踪器中使用Scrapy报告错误.
First steps¶
- Scrapy at a glance
- 了解什么是Scrapy,以及它如何为您提供帮助.
- Installation guide
- 在计算机上安装Scrapy.
- Scrapy Tutorial
- 编写您的第一个Scrapy项目.
- Examples
- 通过玩预制的Scrapy项目了解更多信息.
Basic concepts¶
- Command line tool
- 了解用于管理Scrapy项目的命令行工具.
- Spiders
- 编写规则以爬网您的网站.
- Selectors
- 使用XPath从网页提取数据.
- Scrapy shell
- 在交互式环境中测试您的提取代码.
- Items
- 定义要抓取的数据.
- Item Loaders
- 使用提取的数据填充项目.
- Item Pipeline
- 后处理并存储您抓取的数据.
- Feed exports
- 使用不同的格式和存储输出您的抓取数据.
- Requests and Responses
- 了解用于表示HTTP请求和响应的类.
- Link Extractors
- 方便的类来提取要从页面跟随的链接.
- Settings
- 了解如何配置Scrapy并查看所有可用设置 .
- Exceptions
- 查看所有可用的异常及其含义.
Built-in services¶
- Logging
- 了解如何在Scrapy上使用Python的内置日志记录.
- Stats Collection
- 收集有关您的抓取爬虫的统计信息.
- Sending e-mail
- 发生某些事件时发送电子邮件通知.
- Telnet Console
- 使用内置的Python控制台检查正在运行的搜寻器.
- Web Service
- 使用Web服务监视和控制搜寻器.
Solving specific problems¶
- Frequently Asked Questions
- 获取最常见问题的答案.
- Debugging Spiders
- 了解如何调试易碎蜘蛛的常见问题.
- Spiders Contracts
- 了解如何使用合同测试蜘蛛.
- Common Practices
- 熟悉一些Scrapy常见做法.
- Broad Crawls
- Tune Scrapy用于并行爬网许多域.
- Using Firefox for scraping
- 了解如何使用Firefox和一些有用的附件进行抓取.
- Using Firebug for scraping
- 了解如何使用Firebug高效抓取.
- Debugging memory leaks
- 了解如何查找并消除搜寻器中的内存泄漏.
- Downloading and processing files and images
- 下载与您抓取的物品关联的文件和/或图像.
- Ubuntu packages
- 在Ubuntu上轻松安装最新的Scrapy软件包
- Deploying Spiders
- 部署Scrapy Spider,并在远程服务器上运行它们.
- AutoThrottle extension
- 根据负载动态调整爬网速率.
- Benchmarking
- 检查Scrapy如何在您的硬件上执行.
- Jobs: pausing and resuming crawls
- 了解如何暂停和恢复大型蜘蛛的爬网.
Extending Scrapy¶
- Architecture overview
- 了解Scrapy架构.
- Downloader Middleware
- 自定义如何请求和下载页面.
- Spider Middleware
- 自定义蜘蛛的输入和输出.
- Extensions
- 使用您的自定义功能扩展Scrapy
- Core API
- 在扩展程序和中间件上使用它来扩展Scrapy功能
- Signals
- 查看所有可用信号以及如何使用它们.
- Item Exporters
- 快速将您抓取的项目导出到文件(XML,CSV等)中.
All the rest¶
- Release notes
- 查看最近的Scrapy版本中发生了什么变化.
- Contributing to Scrapy
- 了解如何为Scrapy项目做出贡献.
- Versioning and API Stability
- 了解Scrapy版本控制和API稳定性.