如何获得与iso-8859-1编码的页面标题,以便标题将在我的utf-8网站中正确显示

How to get the title of a page encoded with iso-8859-1 so that the title will display correctly in my utf-8 website?

本文关键字:标题 我的 utf-8 网站 显示 iso-8859-1 何获得 编码      更新时间:2023-09-26

我在寻求帮助,因为我真的花了几个小时(超过5个小时)在网上寻找答案,却找不到合适的解决方案。

我的项目要求我废弃外部网页的标题,但有时这些页面是用iso-8859-1编码的。

由于废弃的标题以utf-8格式显示在我的页面代码中,因此我得到的是"而不是诸如, ê, ô…

所以我必须找到一种方法,有时将标题从iso-8859-1转换为utf-8。你能帮我吗?

我用Google Apps脚本编写脚本,例如,我用JavaScript编写代码来增强使用提供的API的Google电子表格。

废弃外部网页,我使用以下代码:

var result = UrlFetchApp.fetch( url );
var wholePage = result.getContentText(); 
var scrap = wholePage.match( /<title>(.*?)<'/title>/ ); 
var title = scrap[1];

如果废弃的页面是utf-8编码,但不是这个url(作为一个例子),它可以完美地工作:http://www.lexpress.fr/actualite/medias/cannes-pierre-lescure-et-jerome-clement-pressentis-pour-succeder-a-gilles-jacob_1254608.html

这是我在这个例子中得到的结果:

戛纳:Pierre Lescure和J ' me Cl ' ment为Gilles Jacob - L'EXPRESS颁奖

(是的,我是法国人)。

有人能帮我一下吗?我真的很感激。我试图给出尽可能多的信息,因为许多其他与Stack Overflow上的编码问题相关的问题都被认为错过了真正的上下文。

在哪里显示内容更重要。如果要将其写入电子表格,则必须将电子表格的设置更改为正确的语言(法语)。此外,还可以使用高级参数指定原始内容的字符集。例如,

var result = UrlFetchApp.fetch( url , {contentType : 'text/html; charset=utf-8'});
var wholePage = result.getContentText(); 
var scrap = wholePage.match( /<title>(.*?)<'/title>/ ); 
var title = scrap[1];
相关文章: