如何在HTML源代码中提取javascript变量

How to extract javascript variable in HTML source code

本文关键字:提取 javascript 变量 源代码 HTML      更新时间:2023-09-26

我正试图使用python从网页中提取一些javascript。我设法隔离了javascript(其中包含我需要的数据),但我在定位包含我需要信息的js变量时遇到了问题。

javascript的格式如下所示

javascript存储在python中一个名为links 的变量

将script标记中的{}替换为<>

links = {script type="text/javascript"} var ADC = ADC || {}; ADC.model = {};ADC.model.search = {"count": 48, "title": "Commercial Real Estate for Sale", "h1_text": "Commercial Properties for Sale", "asset": [{"pre_auction_enabled": false, "available": true, "registration_url": "http://www.auction.com/registration/event/commercial/B-152/8024124/",....}]}

我缩短了ADC.model.search的内容,但其余数据采用相同的格式。我只需要ADC.model.search变量中包含的信息。

我通过以下操作隔离javascript:

links = source_code.find_all("script", {"type" : "text/javascript"})

其中source_code是我试图抓取的页面的整个源代码

如何提取ADC.model.search的内容?

regex怎么样

链接来自您上面的代码;

import re
pattern='ADC'.model'.search=([^;']]+?)'
match = re.match(pattern, links, re.i)  # 'links' goes from your code abouve 
print match.group(1)