温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

node crawler添加promise支持的方法

发布时间:2021-02-01 13:57:33 来源:亿速云 阅读:183 作者:小新 栏目:web开发

这篇文章将为大家详细讲解有关node crawler添加promise支持的方法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

背景

最近在组内做一些爬虫相关的工作,本来想自己简单造个轮子的,但是经网友推荐后,采用了node-crawler,用了一段时间过后,确实满足了我的绝大部分需求,但是其 api 却不支持 promise,而且我还需要一些同步爬取、同步处理的能力,如果不用 promise 的话,写法很不优雅,所以我就简单地给其封装了一层 promise api

现状

目前 node-crawler 的使用方式不支持 promise ,这里直接给出 npm 上的使用例子

const Crawler = require("crawler") // 实例化 const c = new Crawler({   // ... 可以传入一些配置   callback : function (error, res, done) {     // 请求回调,实例化的时候传入的 callback 是作为默认 callback 的,后续每次抓取如果没有传入 callback,那么都会调用默认 callback     done();   } }) // 爬取 c.queue([{   uri: 'http://parishackers.org/',   jQuery: false,     // The global callback won't be called   callback: function (error, res, done) {     if(error){       console.log(error);     }else{       console.log('Grabbed', res.body.length, 'bytes');     }     done();   } }])

这样的回调方式对于多爬虫同步爬取很不友好

改造

理想使用方式:

const Crawler = require('crawler') const c = new Crawler({   // 一些默认配置 }) c .queue({   uri: 'xxx' }) .then(res => {   // 抓取成功 }) .catch(err => {   // 抓取失败 })

改造方案:

// utils/crawler.js const Crawler = require('crawler') const defaultOptions = {  jQuery: false,  rateLimit: fetchRateLimit,  retries: 0,  timeout: fetchTimeout, } module.exports = class PromiseifyCrawler extends Crawler {   // namespace 是为了后续抓取结果统一上报时候进行区分   constructor(namespace = 'unknow', options = {}) {    if (typeof namespace === 'object') {     options = namespace     namespace = 'unknow'    }        options = merge({}, defaultOptions, options)    const cb = options.callback    options.callback = (err, res, done) => {     typeof cb === 'function' && cb(err, res, noop)     process.nextTick(done)     // 在这里可以自定义抓取成功还是失败     // 我这里直接设置的是如果 http code 不是 200 就视为错误     // 而且在这里也可以做一些抓取成功失败的统计     if (err || res.statusCode !== 200) {      if (!err) err = new Error(`${res.statusCode}-${res.statusMessage}`)      err.options = res.options      err.options.npolisReject(err)     } else {      res.options.npolisResolve(res)     }    }    options.headers = Object.assign({}, options.headers, {     'X-Requested-With': 'XMLHttpRequest',    })    super(options)   }     queue(options = {}) {    // 每次抓取都是一个新的 promise    return new Promise((resolve, reject) => {     // 然后在 options 里挂载上 resolve 和 reject     // 这样在全局 callback 上就可以用到了     options.npolisResolve = resolve     options.npolisReject = reject     const pr = options.preRequest     options.preRequest = (options, done) => {      typeof pr === 'function' && pr(options, noop)      // 在这里也可以做一些通用的抓取前的处理            done()     }     super.queue(options)    })   }      // direct api 同理  } // 使用 const Crawler = require('./utils/crawler') const crawler = new Crawler('示例爬虫 namespace') crawler .queue({  uri: 'xxx',  preRequest: options => log('开始抓取'), }) .then(res => {  log('爬取成功')  return res }) .catch(err => {  log('爬取失败')  throw err }) promise 化后,多个爬取任务同步爬取写法就友好多了: // 抓取任务1 const fetchTask1 = () => crawler.queue({/* 配置 */}).then(res => handle(res)) // 抓取任务2 const fetchTask2 = () => crawler.queue({/* 配置 */}).then(res => handle(res)) const fetch = () => {   return Promise.all([     fetchTask1(),     fetchTask2(),   ]) } fetch()

这样就完成了对 node-crawler 的 promise 化改造了

关于“node crawler添加promise支持的方法”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI