如何刮取相对图像

How to scrape relative images

本文关键字:图像 相对 何刮取      更新时间:2023-09-26

如果我查看亚马逊按钮将项目添加到他们网站上的列表中,你可以在这里看到:

http://www.amazon.co.uk/wishlist/get-button

它是如何工作的?我很确定它会以某种方式刮伤页面,但它似乎能得到每一张图片,无论是flash图片、jpg还是其他什么,即使当有问题的网站使用相对的img src,而不是绝对的完整网站URL

下面的示例页面,显示的所有图像都是jpg,这很酷,但所有img src都是相对的,意味着没有"http://blah.com"在他们面前

http://gadgets.guardianoffers.co.uk/p-788-Casio-Solar-Powered-Edifice-Watch.html

除了解析html源代码之外,还有更好的方法来获取图像吗?

或者,如果他们没有立即命中,他们只是在做一百万个如果?

它看起来像是解析页面的HTML,并查找语义上标识为主图像、名称和价格的内容。例如,如果你看到一个没有任何电子商务产品的页面,例如:http://www.theglobeandmail.com/它将页面h1元素作为产品名称,将主图像(头版故事图像)作为产品图像。

所以他们在幕后做了很多猜测。使用HTML5语义标记,您可以为这类事情建立一个标准,但除非每个人都在使用它,否则您只是在进行有根据的猜测。