如何从网页中删除所有标签(HTML JS PHP CSS JQUERY)

PHP - how to remove all tags (HTML JS PHP CSS JQUERY) from a web page

本文关键字:JS HTML PHP CSS JQUERY 标签 网页 删除      更新时间:2023-09-26

我想有一个网页的内容。假设我想从这个url的内容为例,但在这个页面上有HTML JS和其他标签,我想把它们全部删除。目前我得到的是这个

$raw_text = file_get_contents( 'http://www.booking.com/reviews/es/hotel/royal.html?aid=304142;sid=56e38d55a38ec2df6fe4622827e89675;dcid=1' );
$rm_html = strip_tags($raw_text);

我如何删除所有类型的标签,只是有当前页面的文本?

最简单的方法是不要自己用php实现一些东西,而是使用一些已经完成的东西,例如lynx文本浏览器:

lynx --dump http://some.example.org/page.html

将页面上找到的所有文本转储到标准输出中,您可以在其中应用进一步的处理过滤器。当然,您也可以使用shell方式将输出管道传输到文件或其他文件中。如果您愿意,也可以在php中调用它,只要安装了实用程序(或类似的工具,如links)。