使用python解析网页上的HTML和脚本

Parsing through the HTML and scripts on a webpage using python?

本文关键字:HTML 脚本 网页 python 使用      更新时间:2023-09-26

我目前正在使用Beautiful Soup来解析网页的HTML。不过,我也想递归地解析网页上的任何.js文件。我的目标是寻找嵌入网站HTML或javascript中的特定URL。我可以使用基本HTML页面,但进入javascript文件让我很困惑。有什么帮助吗?

按照接受的StackOverflow问题答案中列出的步骤进行操作。然后,您可以使用优秀的请求库来请求资源

import requests
r = requests.get("http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js")

然后,您可以使用regex搜索r.text以查找您要查找的任何链接。

如果你仍然需要解析javascript,那么这个StackOverflow问题的最新答案建议你在拥有javascript后进行slimit。