如何刮取相对图像
How to scrape relative images
如果我查看亚马逊按钮将项目添加到他们网站上的列表中,你可以在这里看到:
http://www.amazon.co.uk/wishlist/get-button
它是如何工作的?我很确定它会以某种方式刮伤页面,但它似乎能得到每一张图片,无论是flash图片、jpg还是其他什么,即使当有问题的网站使用相对的img src,而不是绝对的完整网站URL
下面的示例页面,显示的所有图像都是jpg,这很酷,但所有img src都是相对的,意味着没有"http://blah.com"在他们面前
http://gadgets.guardianoffers.co.uk/p-788-Casio-Solar-Powered-Edifice-Watch.html
除了解析html源代码之外,还有更好的方法来获取图像吗?
或者,如果他们没有立即命中,他们只是在做一百万个如果?
它看起来像是解析页面的HTML,并查找语义上标识为主图像、名称和价格的内容。例如,如果你看到一个没有任何电子商务产品的页面,例如:http://www.theglobeandmail.com/它将页面h1元素作为产品名称,将主图像(头版故事图像)作为产品图像。
所以他们在幕后做了很多猜测。使用HTML5语义标记,您可以为这类事情建立一个标准,但除非每个人都在使用它,否则您只是在进行有根据的猜测。
相关文章:
- 如何刮取相对图像
- 在CSS中重叠相对定位的图像
- 图像(绝对定位)相对定位容器中的水平中心
- MVC5 和 Javascript 相对图像路径混淆
- 以Javascript显示与按钮相对应的图像
- 预加载图像中的相对路径
- jQuery qTip 图像源的相对路径
- 图像中的 wysiHTML5 相对 URL
- 相对图像源路径使用 jQuery 返回 null
- 如何相对于视口调整画布图像
- 如何使滑块的高度与图像相对于窗口宽度的高度相匹配
- 在使用iOS Phonegap包装的jQuery Mobile中找不到具有相对src的图像
- React本地相对图像路径加载
- 外部js脚本中图像的相对路径
- 与图像幻灯片放映相对应的文本颜色变化
- 获取图像相对于父对象的位置,同时考虑垂直偏移
- 相对图像损坏,需要javascript修复
- 如何设置一个相对于自身高度而非宽度的响应比例图像
- 如何旋转图像相对于鼠标的位置
- 定位图像/背景图像相对于鼠标