任何好的javascript库都可以允许对网站进行爬网
Any good javascript library to allow crawling of website
我需要一个javascript库来抓取web应用程序。我发现了这个https://github.com/riccardo-forina/status-jquery-crawler但正如作者所说,这还处于发展的早期阶段。在谷歌上搜索了很多之后,我什么都找不到感谢您的任何输入
Javascript有许多实用程序可以使用。
选择工具时最大的问题是,"我的网站是否使用Javascript加载我想要的内容?"。例如,谷歌的搜索页面几乎都包含在他们响应HTTPGET请求发送的HTML中。
其他网站可能会加载最初使用Javascript的HTML中不包含的评论、通知或图片。这意味着,如果你只是说,给我网站A的HTML,你会得到的页面不会错过很多你想要的内容。
静态站点
对于大多数需要HTML的网站,有一些优秀的node.js抓取库可供您使用:
x射线——一个整洁的包裹,将cheerio包裹在一个声明性的scrape对象中。提供一些简单的结构,用于构建健壮的scrape。
cheerio+请求-这是一个流行的组合,使用cheerio解析HTML并请求为您获取它。您会发现许多资源解释了请求网页、提取HTML,甚至在需要时使用这些工具添加身份验证和维护会话的基本知识。
artoo.js-浏览器中的抓取实用程序。对于原型设计和一次性刮擦非常有用。您可以将其添加为小书签,并在浏览器开发人员的控制台中运行。它允许类似jQuery的选择器,并具有以下一些基本逻辑。
动态网站
如果你需要一个类似浏览器的环境来从你的网站获取内容,你会想在node.js中查看无头网页浏览和驱动程序。PhantomJS是最受欢迎的,但还有很多其他的。请注意,要将PhantomJS与其他Javascript库一起使用,您需要找到node.js驱动程序:
Nightmare-一个与PhantomJS对话并简化基本网页工作流程和抓取的节点库。
SpookyJS-CasperJS的节点库,这是一个在PhantomJS之上构建的工具,也是一个单独的包。
PhantomJS节点-最流行的节点PhantomJS驱动程序。
(很抱歉缺少链接-我现在没有足够的信誉发布2个以上)
PhantomJs是一个基于Javascript的无头webkit,因此您可以使用它进行爬网。PhantomJS上出现了一个新的包装程序,名为Nightmare Jshttp://www.nightmarejs.org/.
- 用Javascript更改我网站上的字体大小
- 如何检测负责网站某些部分的JavaScript根文件
- 如何在谷歌网站中使用javascript获取当前页面的网址
- 我想用Javascript网站在开放的Chrome浏览器上执行功能
- 在一个javascript文件中为整个网站创建标签
- 如何在使用Javascript浏览网站时处理原始窗口
- "访问控制允许起源”;通过javascript从http页面调用同一网站的httpsurl时出现问题
- Javascript/jQuery/AAJAX-从网站请求字符串
- Javascript.如何用javascript将信息发送到另一个网站
- Javascript+动态菜单+当前链接样式(CSS)+基于PHP的网站
- 在元素悬停上显示带有javascript的弹出式网站
- Chrome 扩展徽章颜色外部网站 JavaScript 更改
- Android 应用程序和网站 JavaScript
- Firefox Scratchpad 的 JavaScript 代码比标准网站 JavaScript 代码具有更多的权限
- 位置感知和天气网站.Javascript和跨站点XML的问题
- 网站javascript没有在iphone上运行(safari)
- 登录到网站Javascript
- 如果人们想重用输入字段,我需要帮助他们刷新我的网站.||JavaScript
- 检测iPad设备,并可选择查看常规网站JavaScript
- 网站Javascript搜索引擎