如何通过python从源页面中提取javascript创建的隐藏标签

How to extract hidden tags created by javascript from source page by python

本文关键字:javascript 提取 创建 标签 隐藏 python 何通过      更新时间:2023-09-26

我有一个最新的页面,里面有一些javascript。点击show details可以看到它们。

那么,我如何从url源中提取这些数据呢?

使用re?我尝试的是:

import urllib
import re
gdoc = urllib.urlopen('ThatURL').read()
scriptlis = re.findall('(?si)<script>(.*?)</script>', gdoc)
print scriptlis

但没有回应。。。

使用硒?在这种情况下怎么办?

import lxml
out=lxml.html.tostring(lxml.html.parse('ThatURL'))
.
.
.
?

当页面使用脚本生成内容时,很难抓取。您需要一个能够在文档上执行脚本的完整虚拟环境,而不是简单的html阅读。

对于python,有ghost.py。它非常灵活,允许您检查完全渲染的网站,以及执行自己的javascript与页面交互。

ghost.pyphantom.jsnode库)的python克隆。在我看来,第二个工具是优越的,但它不是为python编写的。

您可以尝试

re.findall('<script.*>.*</script>',url_file)