获取更新的HTML源代码

Getting Updated HTML Source

本文关键字:源代码 HTML 更新 获取      更新时间:2023-09-26

我正试图获得一个网站的HTML源代码,该网站没有所有可用的内容。HTML的重新加载是通过JavaScript完成的。当我尝试连接到URL并获得HTML时,它将不包含所有内容。

这是我到目前为止的代码:

import java.io.IOException;
import org.jsoup.Jsoup;
public class AudioLibrary
{
    public static void main(String[] arguments) throws IOException
    {
        String htmlSource = Jsoup
                .connect("https://www.youtube.com/audiolibrary/music").get()
                .html();
        System.out.println(htmlSource);
    }
}

如何确保JavaScript在检索HTML源之前完成其工作?在我的例子中,它显然是从YouTube音频库中免费下载的音乐列表。

JavaScript在浏览器中运行,因此您将得到的是基本页面,可能带有JavaScript代码,但不是由JavaScript创建的最终修改的HTML页面,因为您从未执行过JavaScript。

你正在下载一个文本文件(HTML)。就是这样。如果您是浏览器,您现在将在页面中运行JavaScript,然后修改此HTML。但是由于您不运行JavaScript,因此没有任何修改,您只能使用基本页面。