Scrapy 2.1 documentation

Scrapy是一个快速的高级Web爬网Web爬 框架,用于爬网网站并从其页面提取结构化数据. 它可以用于从数据挖掘到监视和自动化测试的广泛用途.

Getting help

遇到麻烦? 我们想提供帮助!

First steps

Scrapy at a glance

了解什么是Scrapy,以及它如何为您提供帮助.

Installation guide

在计算机上安装Scrapy.

Scrapy Tutorial

编写您的第一个Scrapy项目.

Examples

通过玩预制的Scrapy项目了解更多信息.

Basic concepts

Command line tool

了解用于管理Scrapy项目的命令行工具.

Spiders

编写规则以爬网您的网站.

Selectors

Extract the data from web pages using XPath.

Scrapy shell

在交互式环境中测试您的提取代码.

Items

定义要抓取的数据.

Item Loaders

使用提取的数据填充项目.

Item Pipeline

后处理并存储您抓取的数据.

Feed exports

使用不同的格式和存储输出您的抓取数据.

Requests and Responses

了解用于表示HTTP请求和响应的类.

Link Extractors

方便的类来提取要从页面跟随的链接.

Settings

了解如何配置Scrapy并查看所有可用设置 .

Exceptions

查看所有可用的异常及其含义.

Built-in services

Logging

了解如何在Scrapy上使用Python的内置日志记录.

Stats Collection

收集有关您的抓取爬虫的统计信息.

Sending e-mail

发生某些事件时发送电子邮件通知.

Telnet Console

使用内置的Python控制台检查正在运行的搜寻器.

Web Service

使用Web服务监视和控制搜寻器.

Solving specific problems

Frequently Asked Questions

获取最常见问题的答案.

Debugging Spiders

了解如何调试Scrapy Spider的常见问题.

Spiders Contracts

了解如何使用合同测试蜘蛛.

Common Practices

熟悉一些Scrapy常见做法.

Broad Crawls

Tune Scrapy用于并行爬网许多域.

Using your browser’s Developer Tools for scraping

了解如何使用浏览器的开发人员工具进行抓取.

Selecting dynamically-loaded content

读取动态加载的网页数据.

Debugging memory leaks

了解如何查找并消除搜寻器中的内存泄漏.

Downloading and processing files and images

下载与您抓取的物品关联的文件和/或图像.

Deploying Spiders

部署Scrapy Spider,并在远程服务器上运行它们.

AutoThrottle extension

根据负载动态调整爬网速率.

Benchmarking

检查Scrapy如何在您的硬件上执行.

Jobs: pausing and resuming crawls

了解如何暂停和恢复大型蜘蛛的爬网.

Coroutines

使用协程语法 .

asyncio

使用由asyncioasyncio库.

Extending Scrapy

Architecture overview

了解Scrapy架构.

Downloader Middleware

自定义如何请求和下载页面.

Spider Middleware

自定义蜘蛛的输入和输出.

Extensions

使用您的自定义功能扩展Scrapy

Core API

在扩展程序和中间件上使用它来扩展Scrapy功能

Signals

查看所有可用信号以及如何使用它们.

Item Exporters

快速将您抓取的项目导出到文件(XML,CSV等)中.

All the rest

Release notes

查看最近的Scrapy版本中发生了什么变化.

Contributing to Scrapy

了解如何为Scrapy项目做出贡献.

Versioning and API Stability

了解Scrapy版本控制和API稳定性.