使用python解析网页上的HTML和脚本
Parsing through the HTML and scripts on a webpage using python?
我目前正在使用Beautiful Soup来解析网页的HTML。不过,我也想递归地解析网页上的任何.js文件。我的目标是寻找嵌入网站HTML或javascript中的特定URL。我可以使用基本HTML页面,但进入javascript文件让我很困惑。有什么帮助吗?
按照接受的StackOverflow问题答案中列出的步骤进行操作。然后,您可以使用优秀的请求库来请求资源
import requests
r = requests.get("http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js")
然后,您可以使用regex搜索r.text
以查找您要查找的任何链接。
如果你仍然需要解析javascript,那么这个StackOverflow问题的最新答案建议你在拥有javascript后进行slimit。
相关文章:
- HTML脚本不断运行
- 如何正确使用html脚本模板
- HTML脚本标记是否可以包含在jsFiddle中的Javascript变量中
- 阻止Google Chrome更正格式错误的HTML脚本
- Javascript变量未显示在简单的HTML脚本中
- 有没有一种方法可以在使用html脚本的同时将列表实现为按钮函数
- 如何使用php动态打印html脚本
- 如何在不添加html脚本标记的情况下使用google-maps-api-v3
- 删除HTML脚本标记会对它所包含的JavaScript产生任何影响吗
- 是否可以在 flash 横幅中运行 html<脚本>
- HTML 脚本 src=“” 使用按钮触发重定向
- 使用 HTML 脚本标记在它们具有源代码时进行编码
- 如何检索 BSTR* picBytes 并在任何 HTML 脚本中显示位图图片
- 如何在 HTML 脚本中连接 JS 变量
- 在 WP7 的 Web 浏览器控件中加载 HTML 脚本和视频播放
- 如何在html脚本标记中加载跨域url
- 通过javascript注入HTML脚本
- 如何将内部HTML脚本移动到单独的Javascript
- 无法使用外部javascript更改html脚本src
- 如何将html脚本变量传递给控制器