用于在Unicode字符串中搜索单词边界的Javascript正则表达式
Javascript regular expression for searching word boundaries in Unicode string
是否有在日语字符串中查找单词边界的解决方案(例如:"私はマーケットに行きました。"(通过JavaScript正则表达式(可以使用"xregexp"JS库(?
例如:
var xr = RegExp("''bst","g");
xr.test("The string") // --> true
对于日语字符串,我需要同样的逻辑。
然而,将日语句子分隔成单词的实际问题比看起来更复杂,因为单词并不像英语中那样分隔成空格。
例如私はマーケットに行きました。("我去了市场"(有以下几个词:
- 私 -watakushi
- は -wa
- マーケット -马克托
- に -ni
- 行きました -木下
- .-(期间(
一个可靠的日语句子解析器必须找到句子中的助词(wa和ni(所在的位置,才能找到剩下的单词。
'b
以及'w
和'W
在JavaScript中不支持Unicode。你必须将你的单词边界定义为一个特定的字符集。如(^|$|['s.,:'u3002]+)
或类似物。
CCD_ 5来自CCD_。它是日语中的标点符号吗?
或者,相反,定义一个Unicode范围的造词字母并否定它:
var boundaries = /(^|$|'s+|[^'u30A0–'u30FA]+)/g;
片假名范围示例取自http://www.unicode.org/charts/PDF/U30A0.pdf.
相关文章:
- jQuery/Javascript:从iframe内部设置iframe的边界
- javascript正则表达式:使用单词边界将变量传递给regexp
- 在Javascript中检查2D数组边界
- Javascript Regex - word 必须与列表中的任何单词匹配,以任何顺序,带有单词边界
- 如何使用 JavaScript 将选择扩展到单词边界,仅一次
- Javascript 正则表达式,当不在引号中时按单词边界拆分字符串
- JavaScript 矩阵边界不正确
- JavaScript reg ex apostrophe 是新的单词边界
- 这个php正则表达式边界集的等效JavaScript正则表达式是什么
- '脉冲'Javascript/JQuery中的一个边界
- Javascript RegExp:单词边界和标点符号
- 有没有一种方法可以使用HTML Canvas和JavaScript从一个点填充到它到达边界
- 使用Javascript设置边界半径(每个角)
- javascript正则表达式模式匹配单词,具有自定义单词边界
- JavaScript中的Regex自定义单词边界
- Javascript单词边界unicode空间问题
- 超出边界时的JavaScript画布剪切形状
- 不区分大小写的javascript替换考虑词边界的regex
- SVG在Javascript中获取文本字符边界
- HTTP请求边界JavaScript