支持多种语言(尽可能多)的Javascript单词标记器库

Javascript word tokenizer library with support for multiple languages (as many as possible)

本文关键字:单词标 Javascript 语言 尽可能 支持      更新时间:2023-09-26

我正在为node.js寻找一个单词标记器库,它支持尽可能多的语言。我想传递一个字符串,比如:tokenize('Hello, world!', 'en'),并让它返回['Hello', 'world']。支持的语言数量比精度更重要。

Natural怎么样?

它相对较新,仍然不稳定,但有许多语言插件

https://github.com/NaturalNode/natural

Wink的标记化器支持两种脚本(拉丁语和德瓦那格里语)及其所有语言。此外,它能够自动检测语言,所以,你可以只写:

var tokenizer = require( 'wink-tokenizer' );
var t = tokenizer();
t.tokenize( 'This sentence is in English' );
t.tokenize( 'Mieux vaut prévenir que guérir:-)' );
t.tokenize( 'द्रविड़ ने टेस्ट में ३६ शतक जमाए, उनमें 21 विदेशी playground पर हैं।' );

您可以在查看文档https://winkjs.org/wink-tokenizer/.