如何通过python从源页面中提取javascript创建的隐藏标签
How to extract hidden tags created by javascript from source page by python
我有一个最新的页面,里面有一些javascript。点击show details
可以看到它们。
那么,我如何从url源中提取这些数据呢?
使用re
?我尝试的是:
import urllib
import re
gdoc = urllib.urlopen('ThatURL').read()
scriptlis = re.findall('(?si)<script>(.*?)</script>', gdoc)
print scriptlis
但没有回应。。。
使用硒?在这种情况下怎么办?
import lxml
out=lxml.html.tostring(lxml.html.parse('ThatURL'))
.
.
.
?
当页面使用脚本生成内容时,很难抓取。您需要一个能够在文档上执行脚本的完整虚拟环境,而不是简单的html阅读。
对于python,有ghost.py
。它非常灵活,允许您检查完全渲染的网站,以及执行自己的javascript与页面交互。
ghost.py
是phantom.js
(node
库)的python克隆。在我看来,第二个工具是优越的,但它不是为python编写的。
您可以尝试
re.findall('<script.*>.*</script>',url_file)
相关文章:
- 如何使用JavaScript提取此url的一部分
- 使用Node/Javascript提取字符串中的所有占位符
- 无法使用 JavaScript 提取 API 发布数据
- 使用 Javascript 提取复选框的值
- javascript提取句子的各个部分
- 使用 JavaScript 提取 URL 参数
- 使用 JavaScript 提取 IFrame 源代码
- 你知道一个开源的Javascript提取/正则表达式引擎吗?
- 使用 Javascript 提取整个 XML 节点内容
- Javascript - 提取跨度值
- 使用 javascript 提取 json 数组数据
- 使用 javascript 提取并浏览文件夹中.ZIP文件修改时间戳
- 仅使用javascript提取数字
- 使用javascript提取HTML
- 使用Javascript提取字符串中的数字
- 使用Javascript提取外部动态链接
- JavaScript提取并处理数组中的值
- JavaScript:提取电子邮件地址的部分并将其拆分为多个部分
- 使用正则表达式或javascript提取ID的最后一部分
- Javascript提取月份、日期和年份格式