我如何从一个无限滚动的网站抓取图像,其中api是隐藏的,我无法通过使用Inspect Element获得它->网络

How do i crawl images from a website of infinite scrolling where the api is hidden and i cant get it from by using Inspect Element->Network

本文关键字:Inspect Element gt 网络 api 一个 无限 其中 图像 抓取 滚动      更新时间:2023-09-26

我正试图抓取一个具有无限滚动功能的网页。所以我只能得到图像,直到第一次加载,不能再得到它们。我甚至试图找到从InspectElement->Network加载图像的ajax应用程序调用。但发现它并没有进行任何ajax调用,但图像仍在加载中。

有没有办法隐藏为获取这些图像而发出的获取请求?

您可以使用像PhantomJS这样的无头浏览器,并提取其中的DOM节点。如果需要,您可以使用标准的DOM API,甚至jQuery。

var page = require('webpage').create();
page.open('http://www.sample.com', function() {
  page.includeJs("http://ajax.googleapis.com/ajax/libs/jquery/1.6.1/jquery.min.js", function() {
    page.evaluate(function() {
      console.log($(".yourimgclass"))
    });
    phantom.exit()
  });
});

当然,你可以告诉PhantomJS,向下滚动。