如何刮取相对图像

How to scrape relative images

本文关键字：图像相对何刮取更新时间：2023-09-26

如果我查看亚马逊按钮将项目添加到他们网站上的列表中，你可以在这里看到：

http://www.amazon.co.uk/wishlist/get-button

它是如何工作的？我很确定它会以某种方式刮伤页面，但它似乎能得到每一张图片，无论是flash图片、jpg还是其他什么，即使当有问题的网站使用相对的img src，而不是绝对的完整网站URL

下面的示例页面，显示的所有图像都是jpg，这很酷，但所有img src都是相对的，意味着没有"http://blah.com"在他们面前

http://gadgets.guardianoffers.co.uk/p-788-Casio-Solar-Powered-Edifice-Watch.html

除了解析html源代码之外，还有更好的方法来获取图像吗？

或者，如果他们没有立即命中，他们只是在做一百万个如果？

它看起来像是解析页面的HTML，并查找语义上标识为主图像、名称和价格的内容。例如，如果你看到一个没有任何电子商务产品的页面，例如：http://www.theglobeandmail.com/它将页面h1元素作为产品名称，将主图像（头版故事图像）作为产品图像。

所以他们在幕后做了很多猜测。使用HTML5语义标记，您可以为这类事情建立一个标准，但除非每个人都在使用它，否则您只是在进行有根据的猜测。