使得网络爬虫想要提取url中的图像
making web crawler want to extract the images in url
我想制作一个网络爬虫,从任何给定的url中提取标题、描述、关键字和图像。。提取后,我想保存在数据库中。。。我的代码不适用于图像。。。如有任何帮助,将不胜感激
var $ = cheerio.load(html);
var title = $('head title').text();
var keywords = $('head meta[name=keywords]').attr('content');
var desc = $('head meta[name=description]').attr('content');
var links = $('a');
var img= $('img').attr('content')
console.log('Crawling "%s" | %s',title,this.url);
async.map(links.map(function(){
var href = $(this).attr('href');
if(href && href != self._url && !(/^#('w)+/.test(href)) && !util.imageRegexp.test(href)){
if(util.isExternal(href)){
return 'INSERT INTO `queue` SET `id` = '''+util.id()+''', `url` = '+self.conn.escape(href)+', `from` = '+self.conn.escape(from);
console.log("self.conn.escape" + self.conn.escape)
}
else {
return 'INSERT INTO `queue` SET `id` = '''+util.id()+''', `url` = '+self.conn.escape(util.resolveRelativeURL(href,self._url))+', `from` = '+self.conn.escape(from);
}
}
return false;
}).filter(function(el){
return !!el;
})
,this.conn.query.bind(this.conn),function(e,result){
if(e){
console.log('Error writing queue.');
console.log(e);
}
});
this.conn.query('INSERT INTO `websites` SET ?',{
id:util.id(),
url:this.url,
from:from,
title:title,
keywords:keywords || '',
img:img || '',
desc:desc || ''
}
如果通过$('img').attr('content')
,您想将图像本身作为文件下载,这将不起作用,因为图像数据本身是HTML的独立资源,HTML只是标识图像的URL。因此,您需要根据图像的src
属性值为其发出HTTPGET请求,并将其保存为文件。Node的核心http客户端库将工作,像request
或superagent
这样的npm模块也将工作。
相关文章:
- 如何使用url加载程序在webpack中导入多个图像
- 使用带括号的图像URL作为jQuery的背景
- Steam Web API:I'我不知道该如何处理这个看起来像哈希的url来生成图像
- 通过传递图像的URL通过javascript读取/处理图像-类似于PHP中的file_get_contents
- 可以't使用PHP使用Froala编辑器上传图像URL
- 在字符串中查找所有图像 src URL 并存储在数组中
- 语义ui表单验证:图像url
- 如何将图像从URL附加到FormData - Javascript
- 如何从 URL 数组向文档添加图像列表
- 将图像下载为数据url时出错
- 使用javascript从HTML网页中提取图像url
- 检测图像URL是否已损坏JQUERY
- 存储和检索图像数据URL
- Javascript,Jquery-添加url图像
- 我无法在我的网站上获取任何图像或显示任何 URL 图像
- 如何检测和转换来自纯文本URL的URL图像和视频
- 在jquery/Javascript中浏览图像时,如何从本地磁盘获取本地url图像路径
- 如何通过返回编码的url图像
- 我如何得到url图像,当我在facebook上张贴我的url
- 检测字符串是否包含url图像