async.series和async.each未按预期工作

async.series and async.each not working as expected

本文关键字:async 工作 series each      更新时间:2023-09-26

我正试图使用nodeJS构建一个网络抓取器,该抓取器在网站的HTML中搜索图像,缓存图像源URL,然后搜索大小最大的URL。

我遇到的问题是deliverLargestImage()在图像源URL的数组循环通过以获取其文件大小之前被激发。我正在尝试同时使用async.seriesasync.each来正常工作。

如何强制deliverLargestImage()等待getFileSizes()中的async.each完成?

JS

var async, request, cheerio, gm;
async = require('async');
request = require('request');
cheerio = require('cheerio');
gm = require('gm').subClass({ imageMagick: true });
function imageScraper () {
  var imgSources, largestImage;
  imgSources = [];
  largestImage = {
    url: '',
    size: 0
  };
  async.series([
    function getImageUrls (callback) {
      request('http://www.example.com/', function (error, response, html) {
        if (!error && response.statusCode === 200) {
          var $ = cheerio.load(html);
          $('img').each(function (i, elem) {
            if ( $(this).attr('src').indexOf('http://') > -1 ) {
              var src = $(this).attr('src');
              imgSources.push(src);
            }
          });
        }
        callback();
      });
    },
    function getFileSizes (callback) {
      async.each(imgSources, function (img, _callback) {
        gm(img).filesize(function (err, value) {
          checkSize(img, value);
          _callback();
        });
      });
      callback();
    },
    function deliverLargestImage (callback) {
      callback();
      return largestImage;
    }
  ]);
  function checkSize (imgUrl, value) {
    var r, raw;
    if (value !== undefined) {
      r = /'d+/;
      raw = value.match(r)[0];
      if (raw >= largestImage.size) {
        largestImage.url = imgUrl;
        largestImage.size = raw;
      }
    }
  }
}
imageScraper();

尝试将callback()移动到此处:

function getFileSizes (callback) {
  async.each(imgSources, function (img, _callback) {
    gm(img).filesize(function (err, value) {
      checkSize(img, value);
      _callback();
    });
  }, function(err){ callback(err); }); /* <-- put here */
  /* callback(); <-- wrong here */
},

each接受回调作为第三个参数,当每个元素的内部循环完成时执行:

参数

  • arr-要迭代的数组
  • iterator(item, callback)-应用于arr中每个项目的函数。迭代器被传递一个callback(err),一旦它已完成。如果没有发生错误,则callback应在自变量或具有显式null自变量
  • callback(err)-当所有iterator函数时调用的回调已完成,或者发生错误