如何使用jQuery从其他网站抓取内容
How to scrape content from other sites using jQuery?
我正在用PHP做一个NEWS网站项目,为了这个项目,我想使用jQuery/JavaScript从其他NEWS网站获取内容。jQuery中是否有从其他域名中抓取内容的功能?
而且我不想使用巨大的服务器CPU,因为它是一个大学服务器。使用jQuery报废内容会占用巨大的CPU吗?
在Stack Overflow中,我读到了jQuery.get()
函数,可以使用该函数从其他网站抓取内容吗?
使用跨域Ajax JQuery插件,您可以这样做:
$.ajax({
url: 'http://news.bbc.co.uk',
type: 'GET',
success: function(res) {
var headline = $(res.responseText).find('a.tsh').text();
alert(headline);
}
});
他们劫持了ajax方法,使用YQL获取html并将其作为JSON返回,然后将其作为字符串来抓取数据。查看Jquery跨域Ajax指南了解更多信息。
你不能。同源政策防止了这种情况。要做到这一点,您需要在使用XMLHTTP的服务器上完成。
我建议您使用PHP中的curl模块来访问新闻网站的rss提要,以收集您想要嵌入的新闻。
设置一个cron进程,定期将RSS提要下载到本地存储,并将其转换为可用于网站的格式。这将有助于降低服务器上的负载,因为你只收集一次新闻,而不是每次访问页面。
您可以在PHP中使用CURL而不是jquery进行数据抓取。您可以在博客中看到使用CURL进行数据抓取:http://www.codefire.org/blogs/item/data-scraping-using-curl-in-php.html
相关文章:
- 如何从网站上抓取链接和图片
- Html抓取网站加载错误的J汤Java
- 如何获取网站所有页面的链接以进行数据抓取
- 我如何从一个无限滚动的网站抓取图像,其中api是隐藏的,我无法通过使用Inspect Element获得它->网络
- PHP:如何基于Javascript抓取网站内容
- 以类似于谷歌机器人的方式抓取网站html和javascript
- 如何抓取使用直接Web远程处理(DWR)返回操纵页面的Javascript的网站's的HTML
- 用Ruby抓取一个Javascript很重的网站
- 试图在网站上抓取谷歌地图api生成的动态数据,但正常抓取返回空白
- JS滑块网站 - 谷歌抓取
- 如何使用无限滚动抓取网站
- 抓取网站.无法在抓取期间自动执行用户单击
- 抓取网站失败是因为javascript没有启用
- 如何抓取网站内容(*COMPLEX* iframe, javascript提交)
- 使用zombie.js抓取网站的问题
- Python抓取网站得到Apache Tomcat/6.0.36 -错误报告
- 抓取网站's的每一个页面与谷歌应用程序脚本
- 如何使用phantomjs抓取网站
- 抓取网站并将表格插入到我自己的 HTML 文档中
- 如何使用node.js与ASP和AJAX抓取网站