我可以检测文本中的非日文中文字符吗?

Can I detect non-japanese chinese characters in text

本文关键字:中文 字符 文中文 文本 检测 我可以      更新时间:2023-09-26

我有一些日文文本,但其中混淆了一些非日文的中文字符。我注意到这一点是因为我使用的日文字体不支持它们,浏览器使用不同的字体呈现它们。据我所知,这些字符在日语中并不使用,所以它们是错误地出现在那里的(文本来自OCR)。我用它来查找文本中的汉字,但它似乎可以匹配所有汉字,而不仅仅是汉字。是否有可靠的方法来检测这些非日语字符,比如检查unicode的某些部分?

我能想到的唯一解决方案是制作一个完整的正在使用的汉字列表(或者更像是找到一个),并检查每个汉字是否在列表上,但我怀疑它可能有点慢。尽管如此,如果我找不到更好的方法来实现这一点,我可能会这样解决它。

是否有可靠的方法来检测这些非日语字符,比如检查unicode的某些部分?

。您需要简单地枚举所有日文字符,例如查找您的字体支持的所有字符:查找字体支持的字符

(…)检查每个字符是否在列表中,但我怀疑它可能有点慢。

不要使用列表,使用哈希集。如果你真的想要一个列表,排序并使用二分搜索。那么应该不会太慢了。