支持多种语言(尽可能多)的Javascript单词标记器库
Javascript word tokenizer library with support for multiple languages (as many as possible)
我正在为node.js寻找一个单词标记器库,它支持尽可能多的语言。我想传递一个字符串,比如:tokenize('Hello, world!', 'en')
,并让它返回['Hello', 'world']
。支持的语言数量比精度更重要。
Natural怎么样?
它相对较新,仍然不稳定,但有许多语言插件
https://github.com/NaturalNode/natural
Wink的标记化器支持两种脚本(拉丁语和德瓦那格里语)及其所有语言。此外,它能够自动检测语言,所以,你可以只写:
var tokenizer = require( 'wink-tokenizer' );
var t = tokenizer();
t.tokenize( 'This sentence is in English' );
t.tokenize( 'Mieux vaut prévenir que guérir:-)' );
t.tokenize( 'द्रविड़ ने टेस्ट में ३६ शतक जमाए, उनमें 21 विदेशी playground पर हैं।' );
您可以在查看文档https://winkjs.org/wink-tokenizer/.
相关文章:
- 如何在Javascript中从字符串中提取某些单词
- 在javascript中查找单词
- JavaScript过期标头可以't设置为12个月
- 如何使用Javascript在给定的句子中找到大写单词并在其前面添加一个字符
- JavaScript Regex 将单词替换为其第一个字母,除非在括号内
- Javascript-从随机的单词数组中创建段落
- 在字符串列表中搜索任何出现的单词,如果单词的第一个字符匹配,则高亮匹配单词.Javascript正则表达式
- Regex或javascript每X个连续单词中有一个单词
- Regex模式,用于检查字符串中每个单词的第一个字母(如果是Javascript中的大写字母)
- 用于计算输入框中的单词的 JavaScript 代码
- 无法弄清楚如何修复单词替换javascript
- 使用字符串中的开始和结束单词以及 javascript 中的子字符串索引查找子字符串
- 每个单词的 Javascript 字符串反向
- 如何生成“"在段落中的某些单词之后.Javascript
- 匹配连字符单词的JavaScript正则表达式
- 前3个单词的Javascript正则表达式
- 用斜杠匹配单词的Javascript正则表达式
- 如何大写输入的每个单词使用javascript
- 用于验证输入中输入的最少单词的JavaScript脚本
- html标签或类的特定单词与Javascript或Jquery