从一系列网页中提取数据最简单的方法是什么?
What´s the easiest to extract data from a series of Webpages?
我的问题是:
我有站点地图。来自电子商务的XLM。它包含其产品的所有URL。从这些URL,我想获得产品的名称(也许它的价格)。我的第一个想法是使用Google App Script:
function test() {
var response = UrlFetchApp.fetch("http://www.leroymerlin.com.br/emenda-rigido-de-pvc-600cm-plasbil_87821293");
Logger.log(response);
var ind;
while( ind = /<img src="([^"]*)/.exec( response.getContentText()) ){
Logger.log(ind[1]);
}
}
UrlFetchApp.fetch()方法根本不可靠。所以我很快意识到这不是我最好的选择。
这是一个非常简单的任务。我不想以任何方式建立一些东西,整个网站。我只想从一组url中提取一些数据。所以我想一定有个简单的解决办法。不幸的是,我发现做一个google搜索要么太复杂(一个遍历整个网站的爬虫),要么不是免费的。
我需要基于javascript的解决方案。如果它是一个基于web的解决方案(我可以在我的浏览器上做的事情),我也会很棒,但如果我必须使用一个程序,它也可以。或者甚至一个解决方案,使这项工作在谷歌应用程序脚本将为我工作。
你可能想尝试一下PhantomJS。它基本上是一个基于webkit的浏览器,没有任何可见窗口。这个API是JS原生的,相当简单。您甚至可以使用CSS选择器来获取页面的特定部分
您可以使用浏览器的DOM解析器和XMLHttpRequest来加载URL并解析它(对每个URL重复):
<script type="text/javascript">
// create your DOM element
var myPage = document.createElement('html');
// now load myPage with the html from url
loadURLHtml("http://myURL");
function loadURLHtml(url)
{
var xmlhttp;
if (window.XMLHttpRequest)
{// code for IE7+, Firefox, Chrome, Opera, Safari
xmlhttp=new XMLHttpRequest();
}
else
{// code for IE6, IE5
xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
}
xmlhttp.onreadystatechange=function()
{
if (xmlhttp.readyState==4 && xmlhttp.status==200)
{
// POPULATE HTML into your DOM
myPage.innerHTML = xmlhttp.responseText;
if (myPage.innerHTML)
{
// get your element of interest from the loaded html in the DOM
myPage.getElementsByTagName('myTag');
}
}
}
xmlhttp.open("GET", url, true);
xmlhttp.send();
}
</script>
相关文章:
- 打破承诺链的好方法是什么
- 在JavaScript中拆分日期字符串的更好方法是什么
- 将jQuery.ech()方法转换为本地JavaScript抽象的最佳方法是什么
- 处理浮点错误的最佳方法是什么
- 基于窗口宽度jquery的函数的替代方法是什么
- knex:根据结果创建数组的合适方法是什么
- 以编程方式填充组合框道场 (1.8) 的最佳方法是什么?
- 使用Modernizr检测移动设备最可靠的方法是什么
- 确定var是否是javascript中的elementFinder对象的方法是什么
- 用javascript修复这个JSON对象字符串最干净的方法是什么
- 让会话值可用于JavaScript的好方法是什么
- 从AngularJs获取谷歌地图对象的正确方法是什么
- 使用ReactJS和Flux架构从服务器获取数据的正确方法是什么
- 列出没有 mysql 的元素的最佳方法是什么
- 克服错误的更优雅的方法是什么:需要对象说明符.当通过JXA通过Messages发送SMS时,参数没有对象说明符
- 使用较少代码隐藏和显示选择菜单内容的更好方法是什么?javascript
- 在 Javascript 中实现解耦代码/回调的正确方法是什么?
- 使用Javascript,获取元素的方法是什么,基于打开和关闭标记之间的文本
- 在d3.json中使用d3.csv组合多个csv文件数据输入的最佳方法是什么
- 直接在DOM事件处理程序中调用作用域函数的最短方法是什么