如何使用nodejs iconv模块(或其他解决方案)在nodejs javascript中将字符编码从CP932转换为

How to convert character encoding from CP932 to UTF-8 in nodejs javascript, using the nodejs-iconv module (or other solution)

本文关键字:nodejs 字符 编码 CP932 转换 javascript 模块 iconv 何使用 解决方案 其他      更新时间:2023-09-26

我正试图用javascript将一个字符串从CP932(又名Windows-31J)转换为utf8。基本上,我对一个忽略请求标头中的utf-8请求并返回cp932编码文本的网站进行爬网(即使html元标记指示页面为shift_jis)。

无论如何,我将整个页面存储在一个名为"html"的字符串变量中。从那里,我试图使用以下代码将其转换为utf8:

var Iconv = require('iconv').Iconv;
var conv = new Iconv('CP932', 'UTF-8//TRANSLIT//IGNORE');
var myBuffer = new Buffer(html.length * 3);
myBuffer.write(html, 0, 'utf8')
var utf8html = (conv.convert(myBuffer)).toString('utf8');

结果不是预期的结果。例如,字符串:"投稿者さんの 稚内全日空ホテル のクチコミ(感想・情報)"显示为"ソスソスソスeソスメゑソスソスソスソスソス ソスtソスソスソスSソスソスソスソスソスzソスeソスソス ソスフクソス`ソスRソス~(ソスソスソスzソスEソスソスソスソス)"

如果我删除//TRANSLIT//IGNORE(这应该会导致它为丢失的字符返回类似的字符,如果不删除,则会省略不可转码的字符),我会得到以下错误:错误:EILSEQ,非法字符序列。

我对使用任何可以在nodejs中实现的解决方案持开放态度,但我的搜索结果并没有在nodejs-iconv模块之外产生太多选项。

nodejs图标参考:https://github.com/bnoordhuis/node-iconv

谢谢!

编辑:2011年6月24日:我已经着手用Java实现了一个解决方案。然而,如果有人能解决这个问题,我仍然对javascript解决方案感兴趣。

我今天遇到了同样的麻烦:)
这取决于性欲。您需要libiconv-113-ja-1.补丁。
请检查以下内容。

  • http://d.hatena.ne.jp/ushiboy/20110422/1303481470
  • http://code.xenophy.com/?p=1529

或者你可以使用iconvjptry来避免问题

npm安装iconvjp

我遇到了同样的问题,但使用了CP1250。我到处找问题,一切都很好,除了请求电话——我不得不添加encoding: 'binary'

request = require('request')
Iconv  = require('iconv').Iconv
request({uri: url, encoding: 'binary'}, function(err, response, body) {
    body = new Buffer(body, 'binary')
    iconv = new Iconv('CP1250', 'UTF8')
    body = iconv.convert(body).toString()
    // ...
})

https://github.com/bnoordhuis/node-iconv/issues/19

我尝试过/Users/Me/node_modules/iconv/test.jsnodetest.js。它返回错误。

在Mac OS X Lion上,这个问题似乎取决于gcc。