如何获得与iso-8859-1编码的页面标题,以便标题将在我的utf-8网站中正确显示
How to get the title of a page encoded with iso-8859-1 so that the title will display correctly in my utf-8 website?
我在寻求帮助,因为我真的花了几个小时(超过5个小时)在网上寻找答案,却找不到合适的解决方案。
我的项目要求我废弃外部网页的标题,但有时这些页面是用iso-8859-1编码的。
由于废弃的标题以utf-8格式显示在我的页面代码中,因此我得到的是"而不是诸如
所以我必须找到一种方法,有时将标题从iso-8859-1转换为utf-8。你能帮我吗?
我用Google Apps脚本编写脚本,例如,我用JavaScript编写代码来增强使用提供的API的Google电子表格。
废弃外部网页,我使用以下代码:
var result = UrlFetchApp.fetch( url );
var wholePage = result.getContentText();
var scrap = wholePage.match( /<title>(.*?)<'/title>/ );
var title = scrap[1];
如果废弃的页面是utf-8编码,但不是这个url(作为一个例子),它可以完美地工作:http://www.lexpress.fr/actualite/medias/cannes-pierre-lescure-et-jerome-clement-pressentis-pour-succeder-a-gilles-jacob_1254608.html
这是我在这个例子中得到的结果:
(是的,我是法国人)。 有人能帮我一下吗?我真的很感激。我试图给出尽可能多的信息,因为许多其他与Stack Overflow上的编码问题相关的问题都被认为错过了真正的上下文。戛纳:Pierre Lescure和J ' me Cl ' ment为Gilles Jacob - L'EXPRESS颁奖
在哪里显示内容更重要。如果要将其写入电子表格,则必须将电子表格的设置更改为正确的语言(法语)。此外,还可以使用高级参数指定原始内容的字符集。例如,
var result = UrlFetchApp.fetch( url , {contentType : 'text/html; charset=utf-8'});
var wholePage = result.getContentText();
var scrap = wholePage.match( /<title>(.*?)<'/title>/ );
var title = scrap[1];
相关文章:
- 无法弄清楚为什么我的标题的其余部分不会显示
- 我的表排序器中的列排序将覆盖表标题中的复选框
- Angular 2-我如何使我的index.html文件的标题和关键字和描述的元标签是动态的
- 产品的显示编号以“;我的购物车;在标题-马根托
- 为什么我的引导工具提示的标题只会随着jQuery中的keydown事件而更改一次
- 单击我的joomla网站上的模块标题以指向一篇文章
- 为什么我的某些链接标题被放置在我的 标签之外
- 在我的网站标题中加载脚本
- 如果我的网站在iframe中,我不希望标题显示在任何页面中
- 我想更改wordpress标题中的脚本链接.它们在哪里定义
- 想要通过GET方法从URL获取值,然后想在我的标题区域的右上角显示这些值
- 如果我滚动并刷新我的网页,我的导航标题会失去其属性.JQuery
- 尝试向我的 jquery 幻灯片添加额外的标题动画
- 有没有办法在页面达到某个 #anchor 点时更改我的<标题>样式
- 当用户离开我的网站时,将标题附加到页面(他们也会这样做)
- 使用 Javascript,如何为我的每个灯箱图库图像制作单独的标题
- 如何使用 i18next 本地化属性(对于 jQuery UI 工具提示,在我的情况下使用标题)
- 角度2.x变化<标题>在头脑中(在我的应用程序之外)
- 我希望所有页面都有相同的固定标题-我可以链接动态HTML或Javascript吗
- 如何设置我的标题的动画,以便在加载时从左水平滑动到页面视图