如何从网页中删除所有标签(HTML JS PHP CSS JQUERY)
PHP - how to remove all tags (HTML JS PHP CSS JQUERY) from a web page
我想有一个网页的内容。假设我想从这个url的内容为例,但在这个页面上有HTML JS和其他标签,我想把它们全部删除。目前我得到的是这个
$raw_text = file_get_contents( 'http://www.booking.com/reviews/es/hotel/royal.html?aid=304142;sid=56e38d55a38ec2df6fe4622827e89675;dcid=1' );
$rm_html = strip_tags($raw_text);
我如何删除所有类型的标签,只是有当前页面的文本?
最简单的方法是不要自己用php实现一些东西,而是使用一些已经完成的东西,例如lynx
文本浏览器:
lynx --dump http://some.example.org/page.html
将页面上找到的所有文本转储到标准输出中,您可以在其中应用进一步的处理过滤器。当然,您也可以使用shell方式将输出管道传输到文件或其他文件中。如果您愿意,也可以在php中调用它,只要安装了实用程序(或类似的工具,如links
)。
相关文章:
- 在向下滚动JS/HTML/CSS wordpress网站时替换徽标图像
- 将Rails后端添加到JS/HTML/CSS应用程序时,正确的文件位置是什么
- 可以't在Angular js/HTML中获取单个记录
- 如何在angular js/HTML中处理数组
- JS HTML CSS Accordion
- 当包含在CSS/JS/HTML中时,我如何得出正确的目录路径
- JS/HTML function
- 如何在JS/HTML中将函数输出发送到表单元格
- 挖空 JS html 绑定返回奇怪的代码而不是 html 字符串
- 下划线.js HTML 元素中的模板
- Knockout.js - “html”绑定中的“值”绑定
- Angular.js & HTML / 如何并排组合 2 个元素
- DevExpress (JS / HTML) 将事件附加到弹出窗口中的元素
- 将数据从 C# 传递到 angular js html
- 我如何在我的 AngularJS 中获取这个 D3.js HTML 元素,以便我可以操作它
- 强制设备方向通过 CSS/JS/HTML 横向
- 动态更新地铁列表在水平滚动时查看 (JS/HTML)
- WinJS UI JS/HTML 控件是否可以在 Metro 之外使用
- 如何使网页一次只能访问一次?(JS+HTML)
- 如何在 JS / HTML 中添加更改图像的文本