我可以检测文本中的非日文中文字符吗?
Can I detect non-japanese chinese characters in text
我有一些日文文本,但其中混淆了一些非日文的中文字符。我注意到这一点是因为我使用的日文字体不支持它们,浏览器使用不同的字体呈现它们。据我所知,这些字符在日语中并不使用,所以它们是错误地出现在那里的(文本来自OCR)。我用它来查找文本中的汉字,但它似乎可以匹配所有汉字,而不仅仅是汉字。是否有可靠的方法来检测这些非日语字符,比如检查unicode的某些部分?
我能想到的唯一解决方案是制作一个完整的正在使用的汉字列表(或者更像是找到一个),并检查每个汉字是否在列表上,但我怀疑它可能有点慢。尽管如此,如果我找不到更好的方法来实现这一点,我可能会这样解决它。
是否有可靠的方法来检测这些非日语字符,比如检查unicode的某些部分?
。您需要简单地枚举所有日文字符,例如查找您的字体支持的所有字符:查找字体支持的字符
(…)检查每个字符是否在列表中,但我怀疑它可能有点慢。
不要使用列表,使用哈希集。如果你真的想要一个列表,排序并使用二分搜索。那么应该不会太慢了。
相关文章:
- 在JavaScript中输出转义字符
- 不同浏览器中的空白字符正则表达式行为
- Regex匹配除“”之外的所有字符;.js”;
- 拆分文本以每隔n个字符添加一行新行,并注意空格
- 使用RegExp查找url中的字符
- 具有中文字符但输出的JSON.parse数据变为“;未定义”;
- 如何使用JavaScript注入中文字符
- PHP/html:即时搜索功能:无法搜索外语(例如中文)字符
- 如何将中文十六进制字符串解码为中文字符或JavaScript
- 用于验证字母数字字符、所有国际字符(日语、中文、俄语等)的JavaScript正则表达式
- javascript中文/日文字符解码
- 将Uint8Array转换为javascript中的字符串(带中文字符)
- 我可以检测文本中的非日文中文字符吗?
- JavaScript来替换中文字符
- 无法用javascript和json在我的静态网站上显示中文字符
- 如何使用javascript从url中提取中文字符
- javascript检测输入字符是繁体中文还是简体中文
- 将文本区域限制为固定数量的中文字符
- 当我通过location.search搜索中文时,奇怪的字符
- 使用jQuery在请求头中设置中文字符