Jsdom如何从网站抓取信息

Jsdom how to scrape information from website

本文关键字:抓取 信息 网站 Jsdom      更新时间:2023-09-26

我正在尝试从这个站点获取信息并将其添加到 json 中,但我不知道具体如何(我尝试了很多教程,但没有成功)。

我想要的信息是:

名人:---

Aniversário: ---

游击队/UF: ---

电话:---

传真:---

立法者:---

我的代码:

function dataDep(arrayDep) {
var urlFormatted = "http://www.camara.leg.br/internet/deputado/" + arrayDep;
jsdom.env({
     url: urlFormatted,
     scripts: ["http://code.jquery.com/jquery.js"],
     done: function(errors, window) {
        var $s = window.$;
        var depObj = {};
         $s('a').each(function() {
            //console.log(window);
            //console.log($s("title").text());
             //console.log($s(this).attr('a'));

         //});
        // var content = $(".documentFirstHeading");
        // console.log(content);
     }
 });

}

使用 cheerio 和请求模块来加载和解析页面数据Cheerio的工作方式类似于jQuery,但在后端

您可能会遇到一些问题,例如帖子中的页面没有用于识别数据的类或 ID。

但是我发现了一个可能对你有好处的API:http://www2.camara.leg.br/transparencia/dados-abertos/dados-abertos-legislativo