正在删除node.js中已验证的网站

Scraping authenticated website in node.js

本文关键字：验证网站 js 删除 node 更新时间：2023-09-26

我想用node.js抓取我的大学网站（moodle），但我还没有找到一个无头浏览器可以做到这一点

from robobrowser import RoboBrowser
url = "https://cas.upc.edu/login?service=https%3A%2F%2Fatenea.upc.edu%2Fmoodle%2Flogin%2Findex.php%3FauthCAS%3DCAS"
browser = RoboBrowser()
browser.open(url)
form = browser.get_form()
form['username'] = 'myUserName'
form['password'] = 'myPassword'
browser.submit_form(form)
browser.open("http://atenea.upc.edu/moodle/")
print browser.parsed

问题是该网站需要身份验证。你能帮我吗？谢谢

PD：我认为这会很有用https://www.npmjs.com/package/form-scraper但我不能让它工作。

假设你想阅读第三方网站，并"抓取"特定的信息片段，你可以使用像cheerio这样的库在Node中实现这一点。

Cheerio是"专门为服务器设计的核心jQuery的精益实现"。这意味着，给定DOM（或其一部分）的String表示，cheerio可以像jQuery一样遍历它。

Max Ogden的一个示例展示了如何使用request模块从远程服务器获取HTML，然后将其传递给cheerio:

var $ = require('cheerio')
var request = require('request')
function gotHTML(err, resp, html) {
  if (err) return console.error(err)
  var parsedHTML = $.load(html)
  // get all img tags and loop over them
  var imageURLs = []
  parsedHTML('a').map(function(i, link) {
    var href = $(link).attr('href')
    if (!href.match('.png')) return
    imageURLs.push(domain + href)
  })
}
var domain = 'http://substack.net/images/'
request(domain, gotHTML)

Selenium支持多种语言、多种平台和多种浏览器。