CWSharp 是 .Net 的中文分词组件,支持中英文或者混合词组,提供自定义词典功能,支持Lucene.Net。
特性
支持多种分词器
StandardTokenizer
BigramTokenizer
StopwordTokenizer
可扩展的自定义分词接口
支持自定义词典
支持Lucene.Net分词
MIT授权协议
安装&编译
NuGet
nuget install CWSharp
Package Manager Console
PM> install-package CWSharp
算法
基于正向最大匹配的算法。介绍
词典使用DAWG结构,比传统的前缀树占用更少的内存空间。介绍
TODO
HMM算法,识别未登记词语以及人名、地名识别
支持跨平台Windows、Linux
FAQ
词典 - 如何生成DAWG词典文件,如何添加新的词组到DAWG词典中。
lucene.net插件 - Lucene.Net分词接口