如何从网站上抓取链接和图片
How do I scrape links and images from a website?
我是javascript的新手,希望我的第一个项目是:
我试图从源代码中获取频道名称和缩略图,使用javascript或php在我的网站上显示所有频道的缩略图。
这是我想捕捉a href="this link"和img src,但来自所有渠道:
<div class="browseThumb">
<a href="/realmanpwns" target="_top"><img src="//thumbnails.vaughnsoft.com/1427753239/fetch/live/realmanpwns.png" class"browseThumb" width="200" height="113" /></a>
<div class="browseTxt" onclick="window.location = '/realmanpwns';">
<a href="/realmanpwns" target="_top" class="browseTxt">realmanpwns</a>
</div>
</div>
任何关于如何开始的指导都将不胜感激。
我在最近的一个项目中使用了scrapy。当时我不懂python,但我已经涉猎了一些其他语言,学习起来并不困难。
他们有大量的资源可以学习。
以下是直接链接:http://scrapy.org
PS。我与他们没有任何关系,只是一个快乐的用户。
相关文章:
- 如何从网站上抓取链接和图片
- 如何获取网站所有页面的链接以进行数据抓取
- 如何使用JS抓取页面以获取内部链接?它也必须递归地完成
- 从ASP网站抓取JavaScript下载链接
- 取消选择或禁用抓取图像和链接
- 如何使用 ajax 一次抓取一页,返回下一页链接并再次访问
- 在图像后添加阅读更多链接,同时使用 jQuery 抓取页面标题 URL
- 跟随页面的每个链接并抓取内容,Scrapy + Selenium
- j查询从链接的“onclick”属性中抓取URL
- 如果我在前端用javascript更改链接URL,可以在谷歌上抓取我的网站
- 在PhantomJS中动态更改链接,然后单击它来抓取页面
- 可以扩展链接预取,以便从远程文件加载文档元素中的 HTML
- 如何用javascript抓取页面中的所有链接
- 从数据库字段中抓取链接,并使用它将我抓取的另一个字段转换为链接
- 限制搜索引擎抓取JS链接
- 从网站上抓取表格,使用javascript:subOpen href链接
- 使用JavaScript抓取链接值并将其附加到图像标记
- 使用javascript(phantomjs)导航/抓取hashbang链接
- 链接预取可用于缓存JSON API响应,以供以后的XHR请求使用
- Googlebot和其他抓取工具正在点击javascript链接