有没有办法从 PHP 中的字符串中剥离所有 JavaScript
Is there any way of stripping all javascript from a string in PHP?
我有以下php代码:
$mystr = "<script>window.onload = function(){console.log('Hi')}</script>";
$mystr .= "<div onmouseover='alert('Hi')'></div";
我想要的是将所有类型的JavaScript从$mystr中剥离出来。
我正在尝试以下代码,但它保留了 onmouseover 事件。
$mystr = strip_tags($mystr,'<div>');
我也想删除鼠标悬停或任何内联 JavaScript 代码。
我实际上正在尝试在wordpress中实现上述目标。 所以据我所知,WordPress中没有HTML净化器。
这就是
strip_tags的工作方式,例如:
$html = '<foo>hello<bar>world</bar></foo>';
$fixed = strip_tags($html, '<bar>');
echo $fixed;
输出:
hello<bar>world</bar>
它不理解DOM,它不理解javascript。 它本质上是在做:
$fixed = str_replace('<script>', '', $html);
它唯一的"智能"是认识到标签可以具有属性并删除这些属性。
如果要删除标签及其所有内容,则应使用 DOM 解析器,并从树中完全删除不需要的节点(也称为标签)及其子节点。
您需要类似
HTML Purifier的东西,它将允许您指定允许的标签和属性的白名单/黑名单。
我现在从一年开始使用这段代码来清理用户输入,它总是对我有用。
function xss_clean($data)
{
// Fix &entity'n;
$data = str_replace(array('&','<','>'), array('&amp;','&lt;','&gt;'), $data);
$data = preg_replace('/(&#*'w+)['x00-'x20]+;/u', '$1;', $data);
$data = preg_replace('/(&#x*[0-9A-F]+);*/iu', '$1;', $data);
$data = html_entity_decode($data, ENT_COMPAT, 'UTF-8');
// Remove any attribute starting with "on" or xmlns
$data = preg_replace('#(<[^>]+?['x00-'x20"''])(?:on|xmlns)[^>]*+>#iu', '$1>', $data);
// Remove javascript: and vbscript: protocols
$data = preg_replace('#([a-z]*)['x00-'x20]*=['x00-'x20]*([`''"]*)['x00-'x20]*j['x00-'x20]*a['x00-'x20]*v['x00-'x20]*a['x00-'x20]*s['x00-'x20]*c['x00-'x20]*r['x00-'x20]*i['x00-'x20]*p['x00-'x20]*t['x00-'x20]*:#iu', '$1=$2nojavascript...', $data);
$data = preg_replace('#([a-z]*)['x00-'x20]*=([''"]*)['x00-'x20]*v['x00-'x20]*b['x00-'x20]*s['x00-'x20]*c['x00-'x20]*r['x00-'x20]*i['x00-'x20]*p['x00-'x20]*t['x00-'x20]*:#iu', '$1=$2novbscript...', $data);
$data = preg_replace('#([a-z]*)['x00-'x20]*=([''"]*)['x00-'x20]*-moz-binding['x00-'x20]*:#u', '$1=$2nomozbinding...', $data);
// Only works in IE: <span style="width: expression(alert('Ping!'));"></span>
$data = preg_replace('#(<[^>]+?)style['x00-'x20]*=['x00-'x20]*[`''"]*.*?expression['x00-'x20]*'([^>]*+>#i', '$1>', $data);
$data = preg_replace('#(<[^>]+?)style['x00-'x20]*=['x00-'x20]*[`''"]*.*?behaviour['x00-'x20]*'([^>]*+>#i', '$1>', $data);
$data = preg_replace('#(<[^>]+?)style['x00-'x20]*=['x00-'x20]*[`''"]*.*?s['x00-'x20]*c['x00-'x20]*r['x00-'x20]*i['x00-'x20]*p['x00-'x20]*t['x00-'x20]*:*[^>]*+>#iu', '$1>', $data);
// Remove namespaced elements (we do not need them)
$data = preg_replace('#</*'w+:'w[^>]*+>#i', '', $data);
do
{
// Remove really unwanted tags
$old_data = $data;
$data = preg_replace('#</*(?:applet|b(?:ase|gsound|link)|embed|frame(?:set)?|i(?:frame|layer)|l(?:ayer|ink)|meta|object|s(?:cript|tyle)|title|xml)[^>]*+>#i', '', $data);
}
while ($old_data !== $data);
// we are done...
return $data;
}
希望这有帮助。
相关文章:
- 如何在JavaScript中剥离数组元素中的非整数
- Javascript从字符串中剥离所有url参数
- 从javascript对象中剥离方法
- 如何在 javascript 中剥离 ipv6 地址
- 在javascript变量中剥离部分HTML内容
- 如何在javascript数组中剥离字符串的一部分
- document.body.innerHTML 在 IE 中剥离 JavaScript - bug
- 从其他字符串中剥离字符串,如果它以它使用 JavaScript 开头
- 有没有办法从 PHP 中的字符串中剥离所有 JavaScript
- JavaScript:去除元数据中的URL,而不剥离所有字符串中的空格
- 从字符串中剥离 javascript unicode 字符 8206
- 使用 Javascript 从 API 响应中剥离 @
- 使用白名单安全地剥离javascript中的html标签
- 获取dust.js以剥离JavaScript注释
- 有没有一种快速的工具可以在不剥离JavaScript源代码中的注释的情况下执行恒定的替换?
- 当允许自定义页眉和页脚时,我们应该剥离JavaScript吗?
- 如何在构建HTML时剥离JavaScript代码?
- 在django模板中呈现之前剥离javascript代码
- 用JavaScript从HTML DOM树中剥离JavaScript
- 在PHP上剥离javascript的regex