如何删除两个单词之间的字符串

How to remove string between two words

本文关键字:单词 之间 字符串 两个 何删除 删除      更新时间:2024-05-17

我正在使用以下代码行下载网页,

WebRequest request = WebRequest.Create(strURL);
WebResponse response = request.GetResponse();
Stream data = response.GetResponseStream();
string html = String.Empty;
using (StreamReader sr = new StreamReader(data))
{
  html = sr.ReadToEnd();
}

然后从这里我提取身体部位如下:

int nBodyStart = downloadString.IndexOf("<body");
int nBodyEnd = downloadString.LastIndexOf("</body>");
String strBody = downloadString.Substring(nBodyStart, (nBodyEnd - nBodyStart + 7));

现在我想删除任何附加在身体部位的javascript,我该怎么做?

我的目标是获取网页的唯一内容。但由于每个页面可能有不同的方法,所以我试图删除任何js标签,然后使用下面的RegEx删除任何HTML标签

Regex.Replace(strBody, @"<[^>]+>|&nbsp;", "").Trim();

但我不知道如何删除脚本标记之间的js,因为脚本可能是多行或单行的。

提前谢谢。

要匹配脚本标记(包括对的内部),请使用以下命令:

<script[^>]*>(.*?)</script>

要匹配所有HTML标签(但不是对内的),您可以使用:

</?[a-z][a-z0-9]*[^<>]*>


我刚刚意识到你可能也想删除样式标签:

<style[^>]*>(.*?)</style>


此处为完整的正则表达式字符串:

<script[^>]*>(.*?)</script>|<style[^>]*>(.*?)</style>|</?[a-z][a-z0-9]*[^<>]*>|<[^>]+>|&nbsp;

您可以使用HtmlAgilityPack

WebRequest request = WebRequest.Create(strURL);
WebResponse response = request.GetResponse();
Stream data = response.GetResponseStream();
string html = String.Empty;
using (StreamReader sr = new StreamReader(data))
{
  html = sr.ReadToEnd();
}
HtmlAgilityPack.HtmlDocument document = new HtmlAgilityPack.HtmlDocument();
document.LoadHtml(html);
// to remove all tags 
var result = document.DocumentNode.InnerText;
// to remove script tags inside body 
document.DocumentNode.SelectSingleNode("//body").Descendants()
                .Where(n => n.Name == "script")
                .ToList()
                .ForEach(n => n.Remove());