• 欢迎访问1024小神,一个只会Python的程序猿不是一个好司机
  • 有什么想对我说的可以在留言板里给我留言哦~
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏1024小神吧

Scrapy架五大核心组件及流程

爬虫技术 1024小神 12个月前 (12-26) 733次浏览 6个评论
Scrapy是一个为了爬取网站数据、提取结构化数据而编写的爬虫应用框架。Scrapy内部实现了包括并发请求、免登录、URL去重等很多复杂操作,用户不需要明白Scrapy内部具体的爬取策略,只需要根据自己的需要,编写小部分的代码,就能抓取到所需要的数据。Scrapy主要由5个组成部分,若需要实现更多功能,Scrapy还提供了多种中间件。

scrapy框架主要由五大组件组成,他们分别是调度器(Scheduler),下载器(Downloader),爬虫(Spider),和实体管道(Item Pipeline),Scrapy引擎(Scrapy Fngine)

下面我们说说他们各自的作用:

调度器

用来接受引擎发过来的请求,由过滤器重复的url并将其压入队列中,在引擎再次请求的时候返回,
可以想象成一个URL(抓取网页的网址或者说是链接)的优先队列,由他决定下一个要抓取的网址是什么,用户可以根据自己的需求定制调度器

下载器

下载器,是所有组件中负担最大的,它用于高速地下载网络上的资源,Scrapy的下载器代码不会太复杂,但效率高(原因:Scrapy下载器是建立在twisted这个高效的异步模型上的)

爬虫

爬虫是主要干活的,用户最关心的部分, 它可以生成url, 并从特定的url中提取自己需要的信息, 即所谓的实体(Item). 用户也可以从中提取出链接, 让Scrapy继续抓取下一个页面.

实体管道

负责处理爬虫从网页中抽取的实体, 主要的功能是持久化实体、验证实体的有效性、清除不需要的信息. 当页面被爬虫解析后, 将被发送到项目管道, 并经过几个特定的次序处理数据.

引擎

Scrapy引擎是整个框架的核心。它用来控制调试器、下载器、爬虫。实际上,引擎相当于计算机的CPU,它控制着整个流程。对整个系统的数据流进行处理, 触发事务(框架核心).

这五个模块及中间件的功能如下:

  1. Scrapy Engine(Scrapy引擎)
    Scrapy Engine是用来控制整个爬虫系统的数据处理流程,并进行不同事务触发。
  2. Scheduler(调度器)
    Scheduler维护着待爬取的URL队列,当调度程序从Scrapy Engine接受到请求时,会从待爬取的URL队列中取出下一个URL返还给他们。
  3. Downloader(下载器)
    Downloader从Scrapy Engine那里得到需要下载的URL,并向该网址发送网络请求进行页面网页,最后再将网页内容传递到Spiders来处理。如果需要定制更复杂的网络请求,可以通过Downloader中间件来实现,
  4. Spiders(蜘蛛)
    Spiders是用户需要编辑的代码的部分。用户通过编写spider.py这个类实现指定要爬取的网站地址、定义网址过滤规则、解析目标数据等。 Spider发出请求,并处理Scrapy Engine返回给它下载器响应数据,把解析到的数据以item的形式传递给Item Pipeline,把解析到的链接传递给Scheduler。
  5. Item Pipeline(项目管道)
    Item 定义了爬虫要抓取的数据的字段,类似于关系型数据库中表的字段名,用户编写item.py文件来实现这一功能。Pipeline主要负责处理Spider从网页中抽取的item,对item进行清洗、验证,并且将数据持久化,如将数据存入数据库或者文件。用户编写pipeline.py实现这一功能。
  6. Downloader middlewares(下载器中间件)
    Downloader middlewares是位于Scrapy Engine和Downloader之间的钩子框架,主要是处理Scrapy Engine与Downloader之间的请求及响应。可以代替接收请求、处理数据的下载以及将结果响应给Scrapy Engine。
  7. Spider middlewares(蜘蛛中间件)
    Spider middlewares是介于Scrapy Engine和Spiders之间的钩子框架,主要是处理Spiders的响应输入和请求输出。可以插入自定义的代码来处理发送给Spiders的请求和返回Spider获取的响应内容和项目。

Scrapy 使用 Twisted 这个异步网络库来处理网络通讯,架构清晰,可以灵活的完成各种需求。整体架构如下图所示:

图中绿色线条表示数据流向,首先从初始 URL 开始,Scheduler 会将其交给 Downloader,Downloader向网络服务器发送服务请求进行下载,得到响应后将下载的数据交给Spider,Spider会对网页进行分析,分析出来的结果有两种:一种是需要进一步抓取的链接,这些链接会被传回 Scheduler;另一种是需要保存的数据,它们则被送到 Item Pipeline,Item会定义数据格式, 最后由Pipeline对数据进行清洗、去重等处理后存储到文件或数据库。

Scrapy数据流是由执行的核心引擎(engine)控制,流程是这样的:

  1. 引擎打开一个域名,蜘蛛处理这个域名,并让蜘蛛获取第一个爬取的URL。
  2. 引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。
  3. 引擎从调度那获取接下来进行爬取的页面。
  4. 调度将下一个爬取的URL返回给引擎,引擎将他们通过下载中间件发送到下载器。
  5. 当网页被下载器下载完成以后,响应内容通过下载中间件被发送到引擎。
  6. 引擎收到下载器的响应并将它通过蜘蛛中间件发送到蜘蛛进行处理。
  7. 蜘蛛处理响应并返回爬取到的item,然后给引擎发送新的请求。
  8. 引擎发送处理后的item到项目管道,然后把处理结果返回给调度器,调度器计划处理下一个请求抓取。
  9. 系统重复2-9的操作,直到调度中没有请求,然后断开引擎与域之间的联系。

如有失效,请留言告知丨转载请注明原文链接:Scrapy架五大核心组件及流程
点赞 (3)

您必须 登录 才能发表评论!

(6)个小伙伴在吐槽
  1. decim
    1024!签到时间:2021-08-25 14:12:33,每日打卡,生活更精彩哦~
    2021-08-25 14:12
  2. qq018
    后悔没上过大学
    2021-04-16 17:00
  3. 前夜不忙后夜忙
    1024!签到时间:2021-04-15 10:14:01,每日打卡,生活更精彩哦~
    2021-04-15 10:14
  4. huan506
    1024签到
    2021-04-01 16:55
  5. tompeng
    谢谢分享
    2021-03-23 15:41
  6. 1024yyds
    学习了
    2021-01-28 18:02