如何以安全可靠的方式抓取HTML元素的文本
How to grab only the text of HTML elements in a safe and secure way
所以"<h1>Hello World</h1>"
将只返回'Hello World'。
I've try:
$('<div>').html('<h1>Hello World</h1>').text()
这在大多数情况下都很好,但它确实打开了一个xss漏洞,当字符串是这样的:<img src=1 onerror=alert(/XSS/)>
,当我期望它返回一个空字符串
你可以试试这里找到的代码-最快的方法来转义HTML标签作为HTML实体?
function sanitize(str) {
return str.replace(/&/g,'').replace(/</g,'').replace(/>/g,'');
}
在您的示例中,假设有如下html:
<div><img src=1 onerror=alert(/XSS/)></div>
就像这样清理:
var string = $('div').text();
var sanitized = sanitize(string); // "img src=1 onerror=alert(/XSS/);"
相关文章:
- 同源策略目的|用户数据与基本页面数据|客户端页面抓取
- VBA正在抓取不在HTML源文件中的生成内容
- 尝试使用Node.js动态路由从IMDB中抓取电影内容.但是在我的output.json文件中没有定义
- 如何从网站上抓取链接和图片
- 用jquery抓取图像SRC-attr
- Javascript Regex-从价格中抓取分隔符
- 使用网络服务器的IP地址而不是域名对其进行屏幕抓取
- Javascript:如何从URL中抓取片段并将其写入一些PHP
- 使用htmlunit抓取动态网页
- 如何抓取URL的一部分并将其粘贴到页面上的某个位置
- Html抓取网站加载错误的J汤Java
- 如何获取网站所有页面的链接以进行数据抓取
- 如何使用AJAX和JSON从一个页面抓取PHP变量到另一个页面
- 我可以使用RubyonRails抓取URL的源代码吗?还是应该使用PHP
- 我如何从一个无限滚动的网站抓取图像,其中api是隐藏的,我无法通过使用Inspect Element获得它->网络
- 淘汰从选项中抓取类
- 在Python中抓取javascript渲染的文本的最快解决方案
- 以类似于谷歌机器人的方式抓取网站html和javascript
- 如何以编程方式提交填写好的表单并抓取生成的页面
- 如何以安全可靠的方式抓取HTML元素的文本