使用python解析网页上的HTML和脚本

Parsing through the HTML and scripts on a webpage using python?

本文关键字：HTML 脚本网页 python 使用更新时间：2023-09-26

我目前正在使用Beautiful Soup来解析网页的HTML。不过，我也想递归地解析网页上的任何.js文件。我的目标是寻找嵌入网站HTML或javascript中的特定URL。我可以使用基本HTML页面，但进入javascript文件让我很困惑。有什么帮助吗？

按照接受的StackOverflow问题答案中列出的步骤进行操作。然后，您可以使用优秀的请求库来请求资源

import requests
r = requests.get("http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js")

然后，您可以使用regex搜索r.text以查找您要查找的任何链接。

如果你仍然需要解析javascript，那么这个StackOverflow问题的最新答案建议你在拥有javascript后进行slimit。