是否有任何方法可以从HTML文档中删除javascript代码?

Is there any method to remove javascript code from an HTML document?

本文关键字:文档 删除 javascript 代码 HTML 任何 方法 是否      更新时间:2023-09-26

我想从HTML文档中删除所有javascript代码,并留下实际的文本。是否有任何正则表达式或python脚本来做到这一点?谢谢。

Using BeautifulSoup:

#!/usr/bin/env python
from BeautifulSoup import BeautifulSoup
with open("with-scripts.html", "r") as f:
    soup = BeautifulSoup(f.read())
for script in soup("script"):
    script.extract()
with open("without-scripts.html", "w") as f:
    f.write(soup.prettify())

你可以写一个正则表达式来查找'<script''script>',并且做得很好。

编辑:正如@cHao指出的那样- Regex在解析HTML时很糟糕。

Regex在完全控制HTML的地方可能仍然有用。

你可以使用这个jQuery代码来删除:

$(javascript).html('')

和Firebug将jQuery代码注入到网页中:

>>> var x = window.open(""); 
Window opened 
>>> x 
Window about:blank 
>>> x.document 
Document about:blank 
>>> x.document.write("$(javascript).html('')"); 
Alert popped up