网络爬虫框架Scrapy怎么用

发布时间：2022-02-19 13:47:30 来源：亿速云阅读：147 作者：小新栏目：开发技术

# 网络爬虫框架Scrapy怎么用 ## 目录 1. [Scrapy简介](#1-scrapy简介) 2. [安装与环境配置](#2-安装与环境配置) 3. [Scrapy项目结构解析](#3-scrapy项目结构解析) 4. [创建第一个爬虫](#4-创建第一个爬虫) 5. [数据提取与Item定义](#5-数据提取与item定义) 6. [数据存储与管道](#6-数据存储与管道) 7. [中间件与扩展](#7-中间件与扩展) 8. [分布式爬虫与部署](#8-分布式爬虫与部署) 9. [常见问题与优化](#9-常见问题与优化) --- ## 1. Scrapy简介 Scrapy是一个用Python编写的开源网络爬虫框架，专为高效网页抓取和数据提取设计。其核心优势包括： - **异步处理**：基于Twisted异步网络库，支持高并发 - **模块化设计**：各组件松耦合，易于扩展 - **内置功能**：自动处理Cookies、HTTP头、重试机制等 - **丰富扩展**：支持多种数据格式导出和存储后端 典型应用场景： - 电商价格监控 - 新闻聚合 - 搜索引擎数据收集 - API数据采集 --- ## 2. 安装与环境配置 ### 基础安装 ```bash pip install scrapy

可选依赖

# 支持Excel导出 pip install openpyxl # 支持PDF处理 pip install pdfminer.six

验证安装

scrapy version # 应输出类似：Scrapy 2.11.0

3. Scrapy项目结构解析

通过scrapy startproject projectname创建的项目包含以下核心文件：

myproject/ ├── scrapy.cfg # 部署配置文件 └── myproject/ # 项目主目录 ├── __init__.py ├── items.py # 数据模型定义 ├── middlewares.py # 中间件配置 ├── pipelines.py # 数据处理管道 ├── settings.py # 项目设置 └── spiders/ # 爬虫目录 └── __init__.py

4. 创建第一个爬虫

生成爬虫模板

scrapy genspider example example.com

基础爬虫示例

import scrapy class ExampleSpider(scrapy.Spider): name = "example" allowed_domains = ["example.com"] start_urls = ["https://example.com"] def parse(self, response): # 提取页面标题 title = response.css('title::text').get() yield {'title': title}

运行爬虫

scrapy crawl example -o output.json

5. 数据提取与Item定义

选择器使用

# CSS选择器 response.css('div.product::attr(data-id)').getall() # XPath选择器 response.xpath('//h1[@class="title"]/text()').extract_first()

定义数据模型

# items.py import scrapy class ProductItem(scrapy.Item): name = scrapy.Field() price = scrapy.Field() stock = scrapy.Field()

在爬虫中使用Item

def parse(self, response): item = ProductItem() item['name'] = response.css('h1::text').get() yield item

6. 数据存储与管道

内置存储方式

JSON/JSON Lines
CSV
XML
Pickle

自定义管道示例

# pipelines.py import pymongo class MongoPipeline: def __init__(self, mongo_uri): self.mongo_uri = mongo_uri @classmethod def from_crawler(cls, crawler): return cls(crawler.settings.get('MONGO_URI')) def open_spider(self, spider): self.client = pymongo.MongoClient(self.mongo_uri) self.db = self.client['scrapy_data'] def process_item(self, item, spider): self.db[spider.name].insert_one(dict(item)) return item

启用管道

# settings.py ITEM_PIPELINES = { 'myproject.pipelines.MongoPipeline': 300, } MONGO_URI = 'mongodb://localhost:27017'

7. 中间件与扩展

常用中间件类型

下载中间件：处理请求/响应
爬虫中间件：处理爬虫输入/输出

User-Agent轮换示例

# middlewares.py from fake_useragent import UserAgent class RandomUserAgentMiddleware: def process_request(self, request, spider): request.headers['User-Agent'] = UserAgent().random

中间件配置

# settings.py DOWNLOADER_MIDDLEWARES = { 'myproject.middlewares.RandomUserAgentMiddleware': 400, }

8. 分布式爬虫与部署

使用Scrapy-Redis

pip install scrapy-redis

配置分布式

# settings.py SCHEDULER = "scrapy_redis.scheduler.Scheduler" DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" REDIS_URL = 'redis://localhost:6379'

部署到Scrapyd

安装Scrapyd服务

pip install scrapyd

部署项目

scrapyd-deploy

9. 常见问题与优化

反爬对策

设置下载延迟

DOWNLOAD_DELAY = 2

使用代理中间件
启用自动限速

AUTOTHROTTLE_ENABLED = True

性能优化技巧

关闭不需要的中间件
合理设置CONCURRENT_REQUESTS
使用缓存

HTTPCACHE_ENABLED = True

调试技巧

使用shell交互模式

scrapy shell 'https://example.com'

查看统计信息

spider.crawler.stats.get_stats()

本文介绍了Scrapy的核心用法，实际开发中建议结合官方文档（https://docs.scrapy.org）和具体业务需求进行深入定制。通过合理配置组件和中间件，Scrapy可以应对从简单页面抓取到复杂分布式爬虫的各种场景。 “`

注：本文实际约2800字，完整3800字版本需要扩展以下内容： 1. 每个章节添加更多实际案例 2. 增加性能测试数据对比 3. 添加可视化架构图 4. 补充异常处理细节 5. 增加与其他框架的对比分析

向AI问一下细节